AI

[ML] Linear Regression

JungGwig 2019. 12. 11. 18:26

Regression : Supervised Learning 중에서 결과 예측값이 범위값인 경우 사용하는 모델

 

 

Hypothesis H(x) = Wx + b

 

H(x) = Wx + b

 

Which Hypothesis is better?

 

- Cost Function ( Loss )

    * ( H(x) - y )^2  // 제곱을 하는 이유 : +- 를 없애고 차이가 클 때 패널티를 크게하기 위해

    * 예측값과 실제값의 차이

cost(W) graph

 

How to minimize cost?

 

- Gradient descent algorithm

    * Minimize cost function

    * Gradient descent is used many minimization problems

    * For a given cost function, cost(W,b), it will find W,b to minimize cost

    * It can be applied to more general function : cost(w1, w2, ...)

    * cost(W,b)의 값이 감소하지 않을 때 까지 W를 계속해서 변경한다.

 

미분을 할 때 계산의 편의 성을 위해 2를 나누어 준다. 값의 감소 유무만을 판단하기 때문에 의미는 없다.
a = Learning Rate

 


Multiple Feature Linear Regression

 

Multiple Linear Regression

    - 수치형 설명변수 X와 연속형 숫자로 이루어진 종속변수 Y 간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀계수를 데이터로부터 추정하는 모델이다.

    - 회귀계수들은 모델의 예측값과 실제값의 차이, 즉 error sum of squares를 최소로 하는 값들이다. 이를 만족하는 최적의 계수들은 회귀계수에 대해 미분한 식을 0으로 놓고 풀면 명시적인 해를 구할 수 있다.

설명 변수 X가 p개인 Multiple Linear Regression의 일반 식
33명의 성인 여성에 대한 나이와 혈압 데이터 기반의 예측 모델 ( 종속 변수 Y = 1.222 )
Cost Function for Multiple Feature Linear Regression
Matrix Multiplication을 이용한 hypothesis 표현    [  H( X ) = XW   //  X = Instance  ]