Recent Posts
Recent Comments
Archives
반응형
250x250
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Today
Yesterday

Total
04-19 00:38
관리 메뉴

Hey Tech

[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법! 본문

AI & 빅데이터/자연어처리(NLP)

[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법!

Tony Park 2021. 1. 16. 10:03
728x90
반응형

오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다.

들어가며...

지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우,

정상적으로 번역이 되지 않는 것을 확인하였습니다.

이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다.

이모티콘 제거 코드

# Remove emoticons
def remove_emoji(inputString):
    return inputString.encode('ascii', 'ignore').decode('ascii')

print(remove_emoji('🏡 corpo'))

코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는 코드입니다.

수행 결과

그림 1.  이모티콘 제거 결과

그림 1 과 같이, 입력 값에서 이모티콘이 깔끔하게 제거되어 출력되는 것을 확인할 수 있습니다.

마치며...

텍스트 데이터 분석의 핵심은 뭐니뭐니 해도 전처리를 얼마나 잘 수행하느냐라고 생각합니다.

이모티콘 데이터는 사용자(글 작성자)의 의견/생각이 많이 담겨있는 중요한 데이터입니다.

실제로 SNS와 같은 온라인 채널에서는 사용자들이 이모티콘을 활용하여 소통하는 빈도가 매우 높습니다.

이러한 관점에서 분석 목적에 맞추어 이모티콘 데이터를 어떤 식으로 치환/제거할 것인지 심도있는 고민이 필요합니다.


오늘은 파이썬을 기반으로 텍스트 내 이모티콘을 삭제하는 방법에 대해 알아봤습니다.

포스팅 내용에 오류가 있을 경우 아래에 댓글 남겨주시면 감사드리겠습니다.

그럼 오늘도 즐겁고 건강한 하루 보내시길 바랍니다.

고맙습니다 :)

728x90
반응형
Comments