반응형

tfidvectorizer 2

[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

TF-IDF, Term Frequency-Inverse Document Frequency 개념 정리들어가며TF-IDF(Term Frequency- Inverse Document Frequency)는 문서 집합에서 단어의 중요도를 평가하는 데 사용하는 통계적 수치입니다. 예를 들어, TF-IDF를 활용하여 자주 등장하는 일반적인 단어보다는 특정 문서에만 등장하는 '알고리즘', '신경망' 같은 단어를 더 중요한 키워드로 판단할 수 있습니다. 단순히 등장 횟수만으로 중요성을 판단할 경우, 너무 자주 등장하는 단어(the, and, is)가 불필요하게 높게 평가되므로 전체 문서의 희귀성을 함께 고려하여 중요한 단어를 가려냅니다.TF-IDF 수식TF-IDF 예제파이썬을 활용한 TF-IDFTF-IDF 수식 TF |..

이론 2025.05.06

[NLP] 코사인 유사도 Cosine Similarity 개념 정리

코사인 유사도 Cosine Similarity 개념 정리코사인 유사도란?코사인 유사도는 두 문서 벡터의 방향이 얼마나 유사한지를 측정하는 방법입니다. 두 벡터가 이루는 각도가 $ 0^{\circ} $에 가까울수록 유사도가 높고,  $ 90^{\circ} $에 가까울수록 유사도가 낮습니다. 코사인 유사도 수식코사인 유사도 특징파이썬을 활용한 코사인 유사도 계산코사인 유사도 수식두 벡터 A와 B가 있을 대, 코사인 유사도는 다음과 같이 정의됩니다.$$ \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} $$여기서, $ \mathbf{A} \cdot \mathbf{B} $는 두 벡터의 내적, $ \|\mathbf{A}..

이론 2025.03.05
반응형