Hey Tech
[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법! 본문
📌 Text 빅데이터분석 플랫폼 베타테스트 참가자 모집 중!(네이버페이 4만 원 전원 지급)
👋 안녕하세요, 코딩이 필요 없는 AI/빅데이터 분석 All in One 플랫폼 <DATA101> 개발팀입니다.
😊 저희 서비스를 사용해 보시고 경험담을 들려주세요 :)
💸 참여해 주신 "모든" 분들께 네이버페이 4만 원 쿠폰을 지급해 드립니다.
👨💻 참여 희망 시 카톡플러스친구 1:1 채팅 or 인스타그램 DM 부탁드립니다 :)
📆 참여기간 : 11/25(월)~11/29(금) 11:00~21:00 중 택1 (1시간 1타임)
👉 참여장소 : 강남역 인근 스터디카페 미팅Room
📍 소요시간 : 총 40분 내외(서비스 체험 및 인터뷰 포함)
✅ 참가조건 : Text 빅데이터 분석 업무 경험자
👉 참가 가능일정 조회하기 : https://url.kr/n8k8gu
- 카톡플친 : http://pf.kakao.com/_SxltHG/chat
- 인스타그램 : https://www.instagram.com/data101.official/
오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다.
지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우,
정상적으로 번역이 되지 않는 것을 확인하였습니다.
이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다.
이모티콘 제거 코드
# Remove emoticons
def remove_emoji(inputString):
return inputString.encode('ascii', 'ignore').decode('ascii')
print(remove_emoji('🏡 corpo'))
코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는 코드입니다.
수행 결과
위 그림 1 과 같이, 입력 값에서 이모티콘이 깔끔하게 제거되어 출력되는 것을 확인할 수 있습니다.
마치며...
텍스트 데이터 분석의 핵심은 뭐니뭐니 해도 전처리를 얼마나 잘 수행하느냐라고 생각합니다.
이모티콘 데이터는 사용자(글 작성자)의 의견/생각이 많이 담겨있는 중요한 데이터입니다.
실제로 SNS와 같은 온라인 채널에서는 사용자들이 이모티콘을 활용하여 소통하는 빈도가 매우 높습니다.
이러한 관점에서 분석 목적에 맞추어 이모티콘 데이터를 어떤 식으로 치환/제거할 것인지 심도있는 고민이 필요합니다.
👨💻 맞춤 서비스
저희 AI/BigData 분석 솔루션 전문 브랜드 <데이터워너원 DATA101>에서는
맞춤형 데이터 수집부터 통계분석, 텍스트마이닝, AI 모델링, 논문작성을 지원해 드립니다 :)
자세한 내용은 아래 링크를 참고해 주세요!
오늘은 파이썬을 기반으로 텍스트 내 이모티콘을 삭제하는 방법에 대해 알아봤습니다.
포스팅 내용에 오류가 있을 경우 아래에 댓글 남겨주시면 감사드리겠습니다.
그럼 오늘도 즐겁고 건강한 하루 보내시길 바랍니다.
고맙습니다 :)
'AI & 빅데이터 > 자연어처리(NLP)' 카테고리의 다른 글
[파이썬/NLP] 문자열 치환하기 (찾아바꾸기) (0) | 2021.02.16 |
---|---|
[파이썬/NLP] 이모티콘을 텍스트로, 텍스트를 이모티콘으로 변환하기! (0) | 2021.02.01 |
[NLP] KoNLPy Mecab 고유명사 등록 방법 (1) | 2021.01.24 |
[파이썬/NLP] 빠르게 한국어 형태소 분석하는 방법 (feat. KoNLPy) (0) | 2021.01.18 |
[Python/NLP] KoNLPy 설치하는 방법에 대해 알아보자! (0) | 2021.01.10 |