Hey Tech
[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법! 본문
728x90
반응형
오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다.
들어가며...
지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우,
정상적으로 번역이 되지 않는 것을 확인하였습니다.
이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다.
이모티콘 제거 코드
# Remove emoticons
def remove_emoji(inputString):
return inputString.encode('ascii', 'ignore').decode('ascii')
print(remove_emoji('🏡 corpo'))
코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는 코드입니다.
수행 결과
위 그림 1 과 같이, 입력 값에서 이모티콘이 깔끔하게 제거되어 출력되는 것을 확인할 수 있습니다.
마치며...
텍스트 데이터 분석의 핵심은 뭐니뭐니 해도 전처리를 얼마나 잘 수행하느냐라고 생각합니다.
이모티콘 데이터는 사용자(글 작성자)의 의견/생각이 많이 담겨있는 중요한 데이터입니다.
실제로 SNS와 같은 온라인 채널에서는 사용자들이 이모티콘을 활용하여 소통하는 빈도가 매우 높습니다.
이러한 관점에서 분석 목적에 맞추어 이모티콘 데이터를 어떤 식으로 치환/제거할 것인지 심도있는 고민이 필요합니다.
오늘은 파이썬을 기반으로 텍스트 내 이모티콘을 삭제하는 방법에 대해 알아봤습니다.
포스팅 내용에 오류가 있을 경우 아래에 댓글 남겨주시면 감사드리겠습니다.
그럼 오늘도 즐겁고 건강한 하루 보내시길 바랍니다.
고맙습니다 :)
728x90
반응형
'AI & 빅데이터 > 자연어처리(NLP)' 카테고리의 다른 글
[파이썬/NLP] 문자열 치환하기 (찾아바꾸기) (0) | 2021.02.16 |
---|---|
[파이썬/NLP] 이모티콘을 텍스트로, 텍스트를 이모티콘으로 변환하기! (0) | 2021.02.01 |
[NLP] KoNLPy Mecab 고유명사 등록 방법 (1) | 2021.01.24 |
[파이썬/NLP] 빠르게 한국어 형태소 분석하는 방법 (feat. KoNLPy) (0) | 2021.01.18 |
[Python/NLP] KoNLPy 설치하는 방법에 대해 알아보자! (0) | 2021.01.10 |
Comments