목록AI & 빅데이터/자연어처리(NLP) (24)
Hey Tech
본 포스팅에서는 카운트 기반의 단어 표현 방법인 Bag of Words(BoW) 개념과 생성 방법을 알아봅니다. 📚 목차 1. BoW 개념 2. BoW 특징 3. BoW 생성 절차 4. BoW 생성 실습 1. BoW 개념 Bag of Words(BoW)는 단어를 수치화하는 방법 중 하나로, 문서 내 단어의 순서와 의미는 고려하지 않고 오직 출현 빈도(frequency)만 고려하여 단어를 표현하는 방법입니다. BoW는 국소 표현방법(Local Representation) 또는 이산 표현방법(Discrete Representation)의 일종으로 카운트 기반의 단어 표현방법(Count-based Word Representation)이라고 부릅니다(그림 1 참고). 2. BoW 특징 BoW는 어떤 단어들이 몇..
오늘은 모바일 뱅킹 App 리뷰 텍스트마이닝 관련 논문을 방법론 위주로 빠르게 리뷰해 보겠습니다. 그럼 바로 시작하죠! 📚 논문 출처 APA Leem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems. 💡 요약 카카오뱅크 앱 리뷰 텍스트마이닝을(키워드 추출, 토픽 모델링, 감정분석) 통해 모바일 뱅킹 앱 서비스 퀄리티 평가한 논문 1. 데이터 수집 및 전처리 1.1. Data collection - 데이터: 카카오 뱅크 고객 리뷰 3,900건 - 수집 출처: 구글 플레이 스토어 - 수집 방법: WebHarvy 웹 크롤링 솔루션 활..
안녕하세요, 오늘은 파이썬을 이용하여 문자열을 치환하는 방법에 대해 공유해 드립니다. 바로 시작하죠! 문자열 치환은 언제 사용할까? 위의 스크린샷처럼 한 번쯤은 한글, 워드, 엑셀 등에서 "찾아 바꾸기" 기능을 사용해 보셨을 것입니다. 문자열 치환은 이처럼 특정 문자를 찾아서 변경하거나 특정 문자를 찾아 삭제할 때 주로 사용합니다. 이 기능은 파이썬의 *정규표현식(regular expression)을 지원하는 re 모듈 내 sub 함수를 통해 이용할 수 있습니다. *정규표현식이란? 정규표현식은 특정 패턴을 갖는 문자열을 '검색', '치환', '제거'하는 기능을 지원하는 기능입니다. re 패키지 import re 먼저, re 패키지를 불러 옵니다. re.sub re 모듈의 sub 함수(substitute)..
오늘은 파이썬을 통해 이모티콘을 텍스트로, 텍스트를 이모티콘으로 변환하는 방법을 공유해 드립니다. 바로 시작하죠! 목차 1. emoji 라이브러리 설치 2. emoji 라이브러리 import 3. emoji-text 변환 3.1. emoji to text 3.2. text to emoji References 1. emoji 라이브러리 설치 pip install emoji 2. emoji 라이브러리 import import emoji 3. emoji-text 변환 3.1. emoji to text print(emoji.demojize('🍎')) print(emoji.demojize('🐶')) print(emoji.demojize('❤️')) emoji 라이브러리 내 demojize 메서드를 이용하여 텍스트..
본 포스팅에서는 KoNLPy 라이브러리 내 Mecab 형태소 분석기의 고유명사 추가 방법을 알아봅니다. 목차 1. Mecab 고유명사 사전 접근 2. 고유명사 사전 등록하기 3. 고유명사 사전 업데이트 4. (Optional) 고유명사 사전 등록여부 확인 1. Mecab 고유명사 사전 접근 Mecab 폴더 접근 cd /Users/[USER_NAME]/mecab-ko-dic-2.1.1-20180720 먼저, 터미널/커맨드라인을 통해 mecab 설치 위치에 접근해 줍니다. mecab 설치 시에 파일 경로를 바꾸시지 않았다면 위와 같이 PC 사용자 ID 폴더에 위치해 있습니다. 저와 mecab 버전이 달라 폴더 이름이 다를 수 있으니 참고만 하시길 바랍니다. 고유명사 사전 접근 cd user-dic vi nn..
📚 목차 1. KoNLPy setup 1.1. KoNLPy 설치 1.2. KoNLPy import 1.3. 형태소 분석기 비교 2. 형태소별 토큰화(tokenization)하기 2.1. 토큰화 without 품사 태깅 2.2. 토큰화 with 품사 태깅 2.3. 명사만 추출하기 1. KoNLPy setup 1.1. KoNLPy 설치 KoNLPy 라이브러리가 설치되어 있지 않는 분들은 아래 링크를 참고하셔서 설치해 주시길 바랍니다. heytech.tistory.com/3 [Python/NLP] MacOS에서 KoNLPy 설치하기 오늘은 한국어 자연어처리(NLP)를 위한 파이썬 라이브러리 KoNLPy를 MacOS에서 설치하는 방법을 공유합니다. 1. 사전 설치항목 1.1. MacOS/Linux 패키지 매니저..
오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다. 들어가며... 지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우, 정상적으로 번역이 되지 않는 것을 확인하였습니다. 이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다. 이모티콘 제거 코드 # Remove emoticons def remove_emoji(inputString): return inputString.encode('ascii', 'ignore').decode('ascii') print(remove_emoji('🏡 corpo')) 코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는..