이론

[Algorithm] 선형 회귀분석 - Linear Regression Analysis

weweGH 2025. 4. 30. 09:00
반응형

선형 회귀분석
선형 회귀분석


선형 회귀분석 - Linear Regression Analysis


들어가며


선형 회귀분석은 머신러닝의 가장 기초가 되는 모델입니다. 선형 회귀분석의 기본 구성은 다음과 같이 종속변수와 독립변수로 이루어집니다.

  • 종속변수 Target:

    연속형 변수. ex) 집 가격, 주식 가격 등

  • 독립변수 Feature:

    종속변수에 영향을 미칠 수 있는 변수. ex) 집의 크기, 위치, 방의 개수 등

종속변수가 연속형 데이터일 때 사용하며, 특정 독립변수가 종속변수에 미치는 영향을 분석하여 연속적인 수치 값을 예측하는 데 적합합니다. 선형 회귀분석은 독립변수의 개수에 따라 단순/다중 선형 회귀분석으로 분류할 수 있습니다. 독립변수가 1개일 때는 단순 선형 회귀분석, 2개 이상일 때는 다중 선형 회귀분석으로 분류합니다.


  • 단순 선형 회귀분석
  • 다중 선형 회귀분석
  • 다항 회귀분석

단순 선형 회귀분석

Simple Linear Regression


단순 선형 회귀분석은 종속변수에 대해 독립변수가 1개일 때 사용하는 방법입니다. 즉, 종속변수도 1개, 독립변수도 1개인 선형 회귀를 단순 선형 회귀라고 합니다. 모델을 수식으로 표현하면 다음과 같습니다.

$$ y = w_{0} + w_{1}x + \epsilon $$

위의 식에서  $w_{0}$는 절편, $w_{1}$는 기울기라고 지칭합니다. 예를 들어, 집의 가격에 대한 모델을 만든다면, 실제 집의 가격은 $w_{0} + w_{1}x$와 오류 값($\epsilon$)을 합한 결과입니다. 여기서 오류 값을 잔차라고 지칭합니다. 최적의 회귀 모델은 전체 데이터의 잔차 합이 최소가 되는 모델을 만든다는 의미입니다. 

잔차 표현 그래프 추가 예정

잔차는 +나 -가 될 수 있기 때문에 일반적으로 제곱 후 더하는 방식을 사용합니다. 이 방식을 Residual Sum of Square 즉, RSS라고 합니다. RSS를 수식으로 표현하면 다음과 같습니다.

$$ RSS(w_{0},w_{1}) = \frac{1}{N}\sum_{i=1}^{N}(y_{i}-(w_{0}+w_{1}*x_{i}))^2 $$

회귀에서 이 RSS를 비용함수 또는 손실함수라고 합니다. 회귀 모델의 최종 목표는 RSS를 최소로 하는 $w{0}$, $w{1}$를 찾는 것입니다.

반응형

다중 선형 회귀분석

Multi Linear Regression


다중 선형 회귀분석은 종속변수에 대해 독립변수가 2개 이상일 때 사용하는 방법입니다. 모델을 수식으로 표현하면 다음과 같습니다.

$$ y = w_{0}+w_{1}x_{1}+w_{2}x_{2}+\cdots+w_{n}x_{n}+\epsilon $$


다항 회귀분석

Polynomial Regression


위의 단순 선형회귀와 다중 선형회귀는 독립변수와 종속변수의 관계가 일차 방정식 형태로 표현된 회귀입니다. 다항 회귀는 단항식이 아닌 2차, 3차 방정식과 같이 다항식으로 표현됩니다. 모델을 수식으로 표현하면 다음과 같습니다. 

$$ y = w_{0}+w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{1}x_{2}+w_{4}x_{1}^2+w_{5}x_{2}^2 $$

주의할 점은 다항 회귀 또한 선형 회귀라는 점입니다. 이는 종속 변수와 독립 변수 간의 비선형적 관계를 설명하지만, 모델 자체는 여전히 선형적이기 때문입니다.


참고 도서: 

파이썬 머신러닝 완벽 가이드 | 위키북스

 

반응형