목록2022/04/18 (1)
Hey Tech
[NLP] 문서 유사도 분석: (1) 코사인 유사도(Cosine Similarity)
📚 목차 1. 코사인 유사도 개념 2. 코사인 유사도 실습 1. 코사인 유사도 개념 코사인 유사도(Cosine Similarity)란 두 벡터 사이의 각도를 계산하여 두 벡터가 얼마나 유사한지 측정하는 척도입니다. 즉, DTM, TF-IDF, Word2Vec 등과 같이 단어를 수치화하여 표현할 수 있다면 코사인 유사도를 활용하여 문서 간 유사도를 비교하는 게 가능합니다. 코사인 유사도는 \(1\)에 가까울수록 두 벡터가 유사하다고 해석하며, 문서의 길이가 다른 경우에도 비교적 공정하게 비교할 수 있다는 장점이 있습니다. 아래 그림 1과 같이 두 벡터가 같은 방향을 가리키는, 즉 두 벡터 사이의 각도가 \(0^\circ\)일 때 코사인 유사도가 최댓값인 1을 갖습니다. \(A\), \(B\)라는 두 벡터가..
AI & 빅데이터/자연어처리(NLP)
2022. 4. 18. 10:50