Hey Tech

[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법! 본문

AI & 빅데이터/자연어처리(NLP)

[Python/NLP] 텍스트 내 이모티콘/이모지 제거하는 방법!

Tony Park (토니) 2021. 1. 16. 10:03
728x90
반응형

📌 Text 빅데이터분석 플랫폼 베타테스트 참가자 모집 중!(네이버페이 4만 원 전원 지급)

 

👋 안녕하세요, 코딩이 필요 없는 AI/빅데이터 분석 All in One 플랫폼 <DATA101> 개발팀입니다.
😊 저희 서비스를 사용해 보시고 경험담을 들려주세요 :)
💸 참여해 주신 "모든" 분들께 네이버페이 4만 원 쿠폰을 지급해 드립니다.

👨‍💻 참여 희망 시 카톡플러스친구 1:1 채팅 or 인스타그램 DM 부탁드립니다 :)

📆 참여기간 : 11/25(월)~11/29(금) 11:00~21:00 중 택1 (1시간 1타임)
👉 참여장소 : 강남역 인근 스터디카페 미팅Room
📍 소요시간 : 총 40분 내외(서비스 체험 및 인터뷰 포함)
✅ 참가조건 : Text 빅데이터 분석 업무 경험자

👉 참가 가능일정 조회하기 : https://url.kr/n8k8gu
- 카톡플친 : http://pf.kakao.com/_SxltHG/chat
- 인스타그램 : https://www.instagram.com/data101.official/

 


오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다.

지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우,

정상적으로 번역이 되지 않는 것을 확인하였습니다.

이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다.

이모티콘 제거 코드

# Remove emoticons
def remove_emoji(inputString):
    return inputString.encode('ascii', 'ignore').decode('ascii')

print(remove_emoji('🏡 corpo'))

코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는 코드입니다.

수행 결과

그림 1.&nbsp; 이모티콘 제거 결과

그림 1 과 같이, 입력 값에서 이모티콘이 깔끔하게 제거되어 출력되는 것을 확인할 수 있습니다.

마치며...

텍스트 데이터 분석의 핵심은 뭐니뭐니 해도 전처리를 얼마나 잘 수행하느냐라고 생각합니다.

이모티콘 데이터는 사용자(글 작성자)의 의견/생각이 많이 담겨있는 중요한 데이터입니다.

실제로 SNS와 같은 온라인 채널에서는 사용자들이 이모티콘을 활용하여 소통하는 빈도가 매우 높습니다.

이러한 관점에서 분석 목적에 맞추어 이모티콘 데이터를 어떤 식으로 치환/제거할 것인지 심도있는 고민이 필요합니다.

👨‍💻 맞춤 서비스

저희 AI/BigData 분석 솔루션 전문 브랜드 <데이터워너원 DATA101>에서는

맞춤형 데이터 수집부터 통계분석, 텍스트마이닝, AI 모델링, 논문작성을 지원해 드립니다 :)

자세한 내용은 아래 링크를 참고해 주세요!

 

https://kmong.com/gig/601647

 

데이터분석, 통계분석, 논문작성 지원해 드립니다. - 크몽

데이터워너원DATA101 전문가의 IT·프로그래밍 서비스를 만나보세요. <p>Python, SPSS, Tableau를 활용해 <strong>...

kmong.com

https://kmong.com/gig/601992

 

텍스트 데이터 분석/텍스트마이닝NLP 도와드립니다. - 크몽

데이터워너원DATA101 전문가의 IT·프로그래밍 서비스를 만나보세요. <p>대기업 AI/빅데이터 연구원 출신으로 구성된 법인 주식회사 유에프5는 Py...

kmong.com

https://kmong.com/gig/582649

 

유튜브 댓글 원하는 만큼 수집해 드립니다/웹 크롤링 - 크몽

데이터워너원DATA101 전문가의 IT·프로그래밍 서비스를 만나보세요. <p><strong style="font-size: 24px;&q...

kmong.com

https://kmong.com/gig/586088

 

모바일 앱 리뷰 크롤링/구글 플레이 스토어 - 크몽

데이터워너원DATA101 전문가의 IT·프로그래밍 서비스를 만나보세요. <p><strong>구글 플레이 스토어 앱 리뷰 1시간 안에 수집해 ...

kmong.com


오늘은 파이썬을 기반으로 텍스트 내 이모티콘을 삭제하는 방법에 대해 알아봤습니다.

포스팅 내용에 오류가 있을 경우 아래에 댓글 남겨주시면 감사드리겠습니다.

그럼 오늘도 즐겁고 건강한 하루 보내시길 바랍니다.

고맙습니다 :)

728x90
반응형