목록자연어처리 (16)
Hey Tech
📚 목차 1. 희소표현(Sparse Representation) 2. 밀집표현(Dense Representation) 3. 워드임베딩(Word Embedding) 들어가며 워드 임베딩(Word Embedding)은 단어(Word)를 컴퓨터가 이해할 수 있도록 벡터로 표현하는 기법 중 하나인데, 특히 밀집표현(Dense Representation) 방식을 통해 표현하는 기법을 말합니다. 밀집표현과 반대되는 개념이 희소표현(Sparse Representation)입니다. 워드 임베딩을 이해하기에 앞서 희소표현과 밀집표현에 대해 알아봅니다. 1. 희소표현(Sparse Representation) 희소표현은 데이터를 벡터 또는 행렬을 기반으로 수치화하여 표현할 때 극히 일부의 인덱스만 특정 값으로 표현하고, 대..
📚 목차 1. Perplexity 개념 2. Perplexity 값의 의미 3. Perplexity 계산방법 1. Perplexity 개념 1.1. 개요 Perplexity(PPL)는 텍스트 생성(Text Generation) 언어 모델의 성능 평가지표 중 하나입니다. Perplexity는 '펄플렉서티'라고 읽으며, '(무언가를 이해할 수 없어) 당혹스러운 정도' 또는 '헷갈리는 정도'로 이해하시면 됩니다(cf., 네이버 영어사전). 일반적으로 테스트 데이터셋이 충분히 신뢰할 만할 때 Perplexity 값이 낮을수록 언어 모델이 우수하다고 평가합니다. 이에 대한 내용은 이어지는 '2. Perplexity 값의 의미' 섹션에서 더욱 자세히 다룹니다. 1.2. 분기계수 Perplexity는 곧 언어 모델의..
📚 목차 1. N-gram 개념 2. N-gram 등장 배경 3. N-gram 종류 4. N-gram 기반 단어 예측 5. N-gram의 한계점 1. N-gram 개념 언어 모델(Language Model)은 문장 내 앞서 등장한 단어를 기반으로 이어서 등장할 적절한 단어를 예측하는 모델입니다. 언어 모델은 크게 통계학 기반의 언어 모델(Statistical Language Model, SLM)과 인공신경망(Artificial Neural Network, ANN) 기반의 언어 모델이 있습니다. N-gram은 통계학 기반의 언어 모델 중 하나입니다. N-gram 언어 모델은 이처럼 다음 단어를 예측할 때 문장 내 모든 단어를 고려하지 않고 특정 단어의 개수(\(N\))만 고려합니다. 즉, N-gram은 \..
본 포스팅에서는 통계학적 언어 모델의 개념 및 특징에 대해 알아봅니다. 📚 목차 1. 개념 2. 확률적 표현 3. 적용분야 1. 개념 1.1. 개요 언어 모델(Language Model)은 문장이 얼마나 자연스러운지 확률적으로 계산함으로써 문장 내 특정 위치에 출현하기 적합한 단어를 확률적으로 예측하는 모델입니다. 더욱 쉽게 설명하자면, 언어 모델은 문장 내 앞서 등장한 단어를 기반으로 뒤에 어떤 단어가 등장해야 문장이 자연스러운지 판단하는 도구입니다. 언어 모델은 크게 통계학적 언어 모델과 인공신경망 기반의 언어 모델이 있습니다. 최근에는 BERT, GPT-3와 같은 인공신경망 기반의 언어 모델의 성능이 뛰어나 대부분의 자연어처리 문제에서는 인공신경망 기반의 언어 모델을 사용합니다. 본 포스팅에서는 통..
본 포스팅에서는 TF-IDF 개념 및 계산 방법에 대해 알아봅니다. 📚 목차 1. TF-IDF 개념 2. TF-IDF 계산방법 2.1. TF(Term Frequency) 2.2. DF(Document Frequency) 2.3. IDF(Inverse Document Frequency) 1. TF-IDF 개념 TF-IDF(Term Frequency-Inverse Document Frequency)는 Document Term Matrix(DTM) 내 단어마다 중요도를 고려하여 가중치를 주는 통계적인 단어 표현방법입니다. DTM에 대한 자세한 설명은 이곳을 참고해 주세요. TF-IDF는 단어의 중요도를 고려하기 때문에, 일반적으로 단순히 문서 내 단어의 출현빈도만 고려하는 DTM보다 문서에서 유의미한 정보를 ..
본 포스팅에서는 카운트 기반의 단어 표현방법 중 하나인 문서 단어 행렬(DTM)의 개념에 대해 알아봅니다. 📚 목차 1. DTM 개념 2. DTM 예시 3. DTM 한계점 1. DTM 개념 문서 단어 행렬(Document-Term Maxtrix, DTM)은 다수의 문서 데이터(=Corpus)에서 등장한 모든 단어의 출현 빈도수(frequency)를 행렬로 표현한 것입니다. 즉, DTM은 다수의 문서 데이터에 대한 Bag of Words(BoW)를 행렬로 표현한 것입니다. DTM은 국소 표현(Local Representation) 또는 이산 표현(Discrete Representation)의 일종으로 카운트 기반의 단어 표현방법입니다. 2. DTM 예시 DTM 예시를 들어보겠습니다. 아래와 같이 4개의 문..
본 포스팅에서는 카운트 기반의 단어 표현 방법인 Bag of Words(BoW) 개념과 생성 방법을 알아봅니다. 📚 목차 1. BoW 개념 2. BoW 특징 3. BoW 생성 절차 4. BoW 생성 실습 1. BoW 개념 Bag of Words(BoW)는 단어를 수치화하는 방법 중 하나로, 문서 내 단어의 순서와 의미는 고려하지 않고 오직 출현 빈도(frequency)만 고려하여 단어를 표현하는 방법입니다. BoW는 국소 표현방법(Local Representation) 또는 이산 표현방법(Discrete Representation)의 일종으로 카운트 기반의 단어 표현방법(Count-based Word Representation)이라고 부릅니다(그림 1 참고). 2. BoW 특징 BoW는 어떤 단어들이 몇..
📚 목차 1. KoNLPy setup 1.1. KoNLPy 설치 1.2. KoNLPy import 1.3. 형태소 분석기 비교 2. 형태소별 토큰화(tokenization)하기 2.1. 토큰화 without 품사 태깅 2.2. 토큰화 with 품사 태깅 2.3. 명사만 추출하기 1. KoNLPy setup 1.1. KoNLPy 설치 KoNLPy 라이브러리가 설치되어 있지 않는 분들은 아래 링크를 참고하셔서 설치해 주시길 바랍니다. heytech.tistory.com/3 [Python/NLP] MacOS에서 KoNLPy 설치하기 오늘은 한국어 자연어처리(NLP)를 위한 파이썬 라이브러리 KoNLPy를 MacOS에서 설치하는 방법을 공유합니다. 1. 사전 설치항목 1.1. MacOS/Linux 패키지 매니저..