이론

[NLP] 자연어 처리 입문을 위한 개념 정리- NLP, LLM

weweGH 2025. 2. 17. 10:00
반응형

NLP 개념 정리


Natural Language Processing 자연어 처리 입문을 위한 개념 정리


들어가며


NLP 자연어 처리는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술을 의미합니다. 한국어, 영어 등 사람의 언어를 컴퓨터가 분석하고 해석하여 의미를 추출하거나, 새로운 문장을 생성하는 등의 작업을 수행합니다.

이 글에서는 NLP의 활용 분야와 함께 전통적인 NLP, 딥러닝 기반 NLP 그리고 LLM에 대한 전체적인 개요를 설명합니다. 


  • NLP 개요
    • 전통적인 NLP
    • 딥러닝 기반 NLP
    • LLM
  • NLP의 활용 분야

NLP 개요


본격적으로 NLP에 대한 기술을 공부하기 전에 전체적인 그림을 그려보고, NLP 종류에 대한 간략한 소개입니다. NLP 입문자를 위해 기술에 대한 정확한 이해보다는 큰 흐름을 중심으로 정리한 내용입니다. 현재 입문자라면, 이 글에서 등장하는 용어를 완벽히 이해하지 않아도 괜찮습니다. 중요한 것은 어떤 기술들이 있는지 개괄적으로 파악하는 것이므로 편안하게 읽어주세요.

먼저, NLP는 크게 전통적인 NLP, 딥러닝 기반 NLP, 대형 언어 모델(LLM)로 분류할 수 있습니다. 

NLP 개요


전통적인 NLP

머신러닝 이전 또는 머신러닝 기반이지만 비교적 간단한 기법을 사용하는 NLP입니다. 방법론과 해당하는 기술은 다음과 같습니다.

1. 규칙 기반 NLP: 사람이 정의한 언어 규칙과 사전, 정규 표현식 등을 활용하여 자연어를 처리하는 방법

Ex) 정규 표현식: 전화번호/ 이메일 추출과 같이 특정한 패턴을 찾거나 변환하는 데 사용

2. 통계적 NLP: 확률과 통계를 기반으로 텍스트를 분석하는 방법

Ex) TF-IDF: 검색 엔진에서 중요한 단어를 찾을 때 사용하는 것과 같이 단어의 빈도와 중요도를 반영하여 가중치를 부여하는 기법

3. 전통적인 머신러닝 NLP: NLP를 위해 지도학습 및 비지도학습 머신러닝 모델을 활용하는 방법

Ex) BoW: 문서를 단어들의 집합으로 변환하는 기법으로 단어의 빈도를 벡터화

전통적인 NLP


딥러닝 기반 NLP

RNN, CNN, Transformer 등 다양한 신경망 모델을 활용한 자연어 처리 방법으로 인공신경망으로 문장을 이해하고 분석합니다. 2010년대 중반부터 딥러닝이 NLP에 본격적으로 적용되면서 기존 전통적인 NLP와 비교하여 뛰어난 성능을 보여주고 있습니다. 방법론과 해당하는 기술은 다음과 같습니다.

1. 단어 표현 기법: 단어를 벡터 형태로 변환하여 신경망에서 학습 가능하도록 만드는 기법

Ex) Word Embedding: 단어를 고정된 크기의 벡터로 변환하는 방법. "강아지"와 "고양이"는 같은 동물이기 때문에 벡터 값도 서로 가깝지만, "자동차"는 동물과 관련이 없기 때문에 벡터 공간에서 서로 멀리 떨어져 있습니다. 이와 같이 단어의 의미를 숫자로 표현하는 것이 Word Embedding의 핵심입니다.

2. 신경망 모델: NLP 태스크를 해결하기 위해 활용되는 대표적인 신경망 모델

Ex) RNN: 순차적인 데이터 처리를 위해 사용되는 신경망으로 사람이 문장을 읽을 때 앞/뒤 문맥을 기억하는 과정과 비슷합니다. 이전 단어 정보를 기억하면서 다음 단어를 예측하는 구조입니다.

딥러닝 기반 NLP


LLM 대형 언어 모델

Large Language Model은 대규모 데이터로 학습된 초거대 신경망 모델로, 자연어 처리에서 혁신적인 성능을 보여주고 있습니다. 최근에는 GPT-4, LLaMA, Claude 등 다양한 모델이 등장하며 텍스트 생성, 코드 작성, 문서 요약, 대화형 AI 등 여러 응용 분야에서 활용되고 있습니다. 모델 구조에 따라 다음과 같이 분류할 수 있습니다.

1. Decoder-Only 모델: 텍스트를 입력하면, 다음 단어를 예측하는 방식으로 동작합니다.

Ex) GPT-3, GPT-4, LLaMA

2. Encoder-Decoder 모델: 문장의 전체 의미를 인코딩한 후, 새로운 문장을 생성합니다.

Ex) T5, BART

3. Multimodal 모델: 텍스트뿐만 아니라 이미지, 음성, 코드 등을 함께 이해하고 생성합니다.

Ex) GPT-4V, Gemini

LLM

반응형

NLP의 활용 분야


1. 문서 분류 Document Classification

다양한 문서를 자동으로 분류하는 작업으로 주로 사용하는 기술은 TF-IDF, BERT, CNN, RNN, Naive Bayes, SVM, XGBoost 등이 있습니다.

Ex) 이메일 스팸 필터링, 고객 리뷰 긍정/ 부정 분류, 뉴스 기사 분류, 법률 문서, 의료 기록 분류


2. 감성 분석 Sentiment Analysis

텍스트의 감정을 분석하여 긍정, 부정, 중립 등의 태그를 지정하는 작업으로 주로 사용하는 기술은 Word2Vec, FastText, BERT, Transformer, LSTM, GRU 기반 RNN 등이 있습니다.

Ex) 고객 리뷰 분석, SNS 분석, 주식 시장 예측(투자자들의 뉴스/게시글 감정 분석), 영화 및 제품 리뷰 평가


3. 기계 번역 Machine Translation

텍스트의 감정을 분석하여 긍정, 부정, 중립 등의 태그를 지정하는 작업으로 주로 사용하는 기술은 Word2Vec, FastText, BERT, Transformer, LSTM, GRU 기반 RNN 등이 있습니다.

Ex) 고객 리뷰 분석, SNS 분석, 주식 시장 예측(투자자들의 뉴스/게시글 감정 분석), 영화 및 제품 리뷰 평가


4. 음성 인식 Speech Recognition

사람의 음성을 텍스트로 변환하는 기술로 DeepSpeech, Wav2Vec2, Whisper 등을 활용합니다.

Ex) 음성 비서, AI 전화 상담원, 실시간 자막 생성, 음성 입력(자동차 내비게이션, 음성 메모 앱)


5. 챗봇 Chatbot 및 질의응답 시스템

사용자와 대화를 수행하고 질문에 답하는 AI 시스템으로 RNN, LSTM, GPT-3, GPT-4, BERT, T5, RAG 등을 활용합니다.

Ex) AI 고객 상담 챗봇, 의료 상담 챗봇, AI 법률 상담 챗봇, ChatGPT


5. 챗봇 Chatbot 및 질의응답 시스템

사용자와 대화를 수행하고 질문에 답하는 AI 시스템으로 RNN, LSTM, GPT-3, GPT-4, BERT, T5, RAG 등을 활용합니다.

Ex) AI 고객 상담 챗봇, 의료 상담 챗봇, AI 법률 상담 챗봇, ChatGPT


6. 텍스트 생성 Text Generation

주어진 텍스트를 바탕으로 새로운 문장을 자동 생성하는 작업으로 GPT-3, GPT-4, T5 등을 활용합니다.

Ex) 뉴스 자동 생성, 광고 문구 자동 생성, 자동 이메일 및 보고서 생성, 소설/시/가사 생성


7. 정보 검색 Information Retrieval

방대한 데이터 속에서 가장 관련성이 높은 정보를 찾는 기술로 Elasticsearch, BM25, TF-IDF 등을 활용합니다.

Ex) 검색 엔진, 논문 및 법률 문서 검색, 제품 추천 시스템, 기업 내부 문서 검색 시스템


반응형