[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

이론

[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

weweGH 2025. 5. 6. 09:00

TF-IDF, Term Frequency-Inverse Document Frequency 개념 정리

들어가며

TF-IDF(Term Frequency- Inverse Document Frequency)는 문서 집합에서 단어의 중요도를 평가하는 데 사용하는 통계적 수치입니다. 예를 들어, TF-IDF를 활용하여 자주 등장하는 일반적인 단어보다는 특정 문서에만 등장하는 '알고리즘', '신경망' 같은 단어를 더 중요한 키워드로 판단할 수 있습니다. 단순히 등장 횟수만으로 중요성을 판단할 경우, 너무 자주 등장하는 단어(the, and, is)가 불필요하게 높게 평가되므로 전체 문서의 희귀성을 함께 고려하여 중요한 단어를 가려냅니다.

TF-IDF 수식
TF-IDF 예제
파이썬을 활용한 TF-IDF

TF-IDF 수식

TF | Term Frequency

단어 $t$ 가 문서 $d$ 에서 얼마나 자주 등장하는지를 나타냅니다.

$TF(t, d) = \frac{단어 t가 문서 d에 등장한 횟수}{문서 d의 전체 단어 수}$

IDF | Inverse Document Frequency

단어 $t$ 가 전체 문서 집합에서 얼마나 드문지를 나타냅니다. 여기서, $N$ 은 전체 문서 수, $df(t)$ 는 단어 $t$ 가 등장한 문서의 수입니다. 분모에서 1을 더하는 이유는 분모가 0이 되는 것을 방지하기 위함입니다.

$IDF(t) = log(\frac{N}{1+df(t)})$

TF-IDF

TF-IDF는 TF와 IDF를 곱한 값입니다.

$TF-IDF(t,d) = TF(t,d) \times IDF(t)$

TF-IDF 예제

다음과 같이 3개의 예제 문장을 각각 하나의 문서로 간주하여 TF-IDF를 계산해보겠습니다.

문서 1: 파이썬은 데이터 분석에 자주 사용됩니다.
문서 2: 자바는 안드로이드 앱 개발에 많이 활용됩니다.
문서 3: 파이썬과 자바는 모두 프로그래밍 언어입니다.

3개의 예제 문장을 불용어 제거 없이 띄어쓰기 기준으로 나누면 다음과 같습니다.

위의 문서들 중 문서 2의 '자바는'과 문서 2의 '안드로이드'에 대해 TF-IDF를 비교하겠습니다.

'자바는' 의 TF-IDF

'자바는'이라는 단어는 문서 2의 6개 단어 중 1개이므로 TF는 다음과 같습니다.

$TF(자바는, 문서 2) = \frac{1}{6} ≈ 0.167$

'자바는'이라는 단어는 문서 2와 문서 3에서 총 2번 등장하므로 IDF는 다음과 같습니다.

$IDF(자바는) = \log\left(\frac{3}{1 + 2}\right) = \log(1) = 0$

따라서,

$TF-IDF(자바는, 문서 2) = TF \times IDF = 0.167 \times 0 = 0$

'안드로이드' 의 TF-IDF

'안드로이드'이라는 단어는 문서 2의 6개 단어 중 1개이므로 TF는 다음과 같습니다.

$TF(안드로이드, 문서 2) = \frac{1}{6} ≈ 0.167$

'안드로이드 '이라는 단어는 문서 2에서 1번 등장하므로 IDF는 다음과 같습니다.

$IDF(안드로이드) = \log\left(\frac{3}{1 + 1}\right) ≈ log(1.5) ≈ 0.405$

따라서,

$TF-IDF(안드로이드, 문서 2) = TF \times IDF = 0.167 \times 0.405 = 0.068$

2개의 단어에 대한 TF-IDF 점수를 비교했을 때, '자바는'의 경우 0, '안드로이드'는 0.068입니다. '자바는'과 같은 단어는 여러 문서에 공통으로 등장하여 중요도가 낮게 평가됩니다. 반면, '안드로이드'와 같은 단어는 특정 문서에만 등장하기 때문에 TF-IDF 점수가 높아지고, 해당 문서를 잘 대표하는 핵심 키워드로 판단할 수 있습니다.

파이썬을 활용한 TF-IDF

파이썬을 활용하여 TF-IDF를 계산할 때는 sklearn의 TfidVectorizer를 사용합니다.

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 예제 문서 3개
docs = [
    "파이썬은 데이터 분석에 자주 사용됩니다.",
    "자바는 안드로이드 앱 개발에 많이 활용됩니다.",
    "파이썬과 자바는 모두 프로그래밍 언어입니다."
]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(docs)

# 결과
feature_names = vectorizer.get_feature_names_out()
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names, index=["문서1", "문서2", "문서3"])
print("TF-IDF 벡터화 결과:")
print(tfidf_df)

수기로 계산한 값과 차이가 나는 이유는 IDF 수식의 차이 때문입니다. 하지만, 앞서 살펴본 것처럼 '안드로이드'는 상대적으로 더 높은 TF-IDF 값을 가지는 것을 확인할 수 있습니다.

print('자바는 TF-IDF: ', tfidf_df["자바는"]["문서2"])
print('안드로이드 TF-IDF: ', tfidf_df["안드로이드"]["문서2"])

저작자표시 비영리 변경금지 (새창열림)

'이론' 카테고리의 다른 글

[Algorithm] 선형 회귀분석 - Linear Regression Analysis (8)	2025.04.30
[Algorithm] 회귀 분석 - Regression Analysis (0)	2025.04.19
[NLP] 텍스트 임베딩 Text Embedding 개념 정리 - 응용 분야, 종류 (2)	2025.03.24
[이론] 클러스터링 평가 지표 - ARI, Confusion Matrix (0)	2025.03.12
[NLP] 코사인 유사도 Cosine Similarity 개념 정리 (4)	2025.03.05

현재글[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

안녕하세요 6년차 데이터사이언티스트/데이터분석가 GH입니다. 지금까지 겪었던 시행착오에 관해 기록합니다. 찾아와주셔서 감사합니다. ** 한걸음(명): 쉬지 아니하고 더 나아가 걷는 걸음이나 움직임. e-mail: wewegahyun@gmail.com

160x600

openweather, API, KONLPY, 딥러닝, cx_oracle, pivot_table, Error, numpy, Python, matplotlib, BeautifulSoup, AttributeError, pandas, xlsx, datetime, 파이썬, OS, print, tfidvectorizer, Folium,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 사이언스로 한걸음

[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리