Processing math: 50%
반응형

tfidvectorizer 2

[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

TF-IDF, Term Frequency-Inverse Document Frequency 개념 정리들어가며TF-IDF(Term Frequency- Inverse Document Frequency)는 문서 집합에서 단어의 중요도를 평가하는 데 사용하는 통계적 수치입니다. 예를 들어, TF-IDF를 활용하여 자주 등장하는 일반적인 단어보다는 특정 문서에만 등장하는 '알고리즘', '신경망' 같은 단어를 더 중요한 키워드로 판단할 수 있습니다. 단순히 등장 횟수만으로 중요성을 판단할 경우, 너무 자주 등장하는 단어(the, and, is)가 불필요하게 높게 평가되므로 전체 문서의 희귀성을 함께 고려하여 중요한 단어를 가려냅니다.TF-IDF 수식TF-IDF 예제파이썬을 활용한 TF-IDFTF-IDF 수식 TF |..

이론 2025.05.06

[NLP] 코사인 유사도 Cosine Similarity 개념 정리

코사인 유사도 Cosine Similarity 개념 정리코사인 유사도란?코사인 유사도는 두 문서 벡터의 방향이 얼마나 유사한지를 측정하는 방법입니다. 두 벡터가 이루는 각도가 0에 가까울수록 유사도가 높고,  90에 가까울수록 유사도가 낮습니다. 코사인 유사도 수식코사인 유사도 특징파이썬을 활용한 코사인 유사도 계산코사인 유사도 수식두 벡터 A와 B가 있을 대, 코사인 유사도는 다음과 같이 정의됩니다.cos(θ)=AB여기서, \mathbf{A} \cdot \mathbf{B} 는 두 벡터의 내적, $ \|\mathbf{A}..

이론 2025.03.05
반응형