2014. 6. 16. 00:27

선형회귀분석


X, Y라는 두 변수가 있다
상관 분석을 통해 Y ~ X가 상관관계가 있음을 파악했다
여기서, 더 나아가 Y = aX + b 라는 방정식까지 얻을 수 있다면, 
X라는 변수로 Y를 예측할 수 있게된다
이걸 회귀방정식이라고 한다
이걸 얻어내는 과정은 회귀분석이라고 한다
한 변수 혹은 여러 변수가 다른 변수에 미치는 영향력의 크기를 수학적 관계식으로 추정하고 분석한다.

이런 일차방정식을 구하는 것을 선형회귀분석이라고 한다


회귀분석
특성치의 경향을 파악하는 수단으로, 독립변수와 종속변수의 상관관계 중 가장 단순한 회귀식으로 두 변수 사이의 선형관계를 그래프를 사용하지 않고, 통계확률에서 최소제곱법의 원리를 이용한 회귀분석으로 보다 정확한 출력을 보장한다.


선형회귀분석을 선호하는 이유
  - 단순하고 다루기가 쉽다
  - 모든 함수는 독립변수의 구간이 작을 때에는 직선으로 근사하게 나타낼 수 없다
  - 이론적으로 X와 Y의 결합분포가 이변량정규분포를 따른다면 Y의 조건부 기대치는 E(V|x)는 x의 선형함수 즉, 직선이된다.


단순 선형 회귀 분석 (simple linear regression analysis)
독립변수가 하나인 회귀분석

최소제곱법
오차는 음의값도 갖고있고, 양의값도 갖고있기 때문에 이걸 다 합해버리면 그 값들이 상쇄되어 의미가 없어진다. 그래서 제곱해서 더하게되는데 이걸 최소화하는 방법을 말한다.

최소제곱법에 의한 회귀분석의 개념
x, y가 변수라 할때, 1차 방정식 y = ax + b
(여기서 a, b는 각각 직선 기울기와 y절편)

 

여기서 p는 상관계수로, 직선관계의 신뢰도를 나타내는 지표

p = +- 1 : 완전상관

p = 0 : 완전 무상관

p >= +- : 강한 상관



평가

최소제곱법에 의한 선형회귀분석은 선형관계에 있는 1차원 방정식의 임의 값을 알아내는데 매우 강력하고 효과적인 방법이다. 상관계수 p로 구하므로, 변수 x, y만 알면 되고, a(기울기), b(y절편)를 구하면 된다. 

회귀분석에 의해 계산한 상관계수로 데이터의 질을 판단하고 적용하며, 상당히 신뢰성 있는 방법이다.


'DataMining' 카테고리의 다른 글

K-Nearest Neighbor Classifier  (0) 2014.06.16
RANSAC  (0) 2014.06.16
연관규칙 (Association Rule)  (0) 2014.06.16
평가기법 - 오류율 계산  (0) 2014.06.16
K-Means  (0) 2014.06.16
Posted by 긍정왕오킹