목록2022/03/24 (1)
Hey Tech
[NLP] 문서 단어 행렬(DTM) 개념 이해
본 포스팅에서는 카운트 기반의 단어 표현방법 중 하나인 문서 단어 행렬(DTM)의 개념에 대해 알아봅니다. 📚 목차 1. DTM 개념 2. DTM 예시 3. DTM 한계점 1. DTM 개념 문서 단어 행렬(Document-Term Maxtrix, DTM)은 다수의 문서 데이터(=Corpus)에서 등장한 모든 단어의 출현 빈도수(frequency)를 행렬로 표현한 것입니다. 즉, DTM은 다수의 문서 데이터에 대한 Bag of Words(BoW)를 행렬로 표현한 것입니다. DTM은 국소 표현(Local Representation) 또는 이산 표현(Discrete Representation)의 일종으로 카운트 기반의 단어 표현방법입니다. 2. DTM 예시 DTM 예시를 들어보겠습니다. 아래와 같이 4개의 문..
AI & 빅데이터/자연어처리(NLP)
2022. 3. 24. 08:33