[통계학] 상관계수와 회귀계수의 관계

반응형
    반응형

    상관계수와 회귀계수 관계

    상관관계와 회귀계수의 관계에 대해서 수학적으로 알아볼까 합니다. 막 유용하진 않습니다. 다만, 생각을 다른 방향으로 뻗어나갈때 중간다리 역할을 해줍니다. 모르는 것보다는 나은 것 같습니다.

    관계를 알기에 앞서 노테이션을 정하고 가겠습니다. 그냥 식이 복잡해서 간단하게 하기 위함입니다.
    $$ S_{xx} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)^2} $$
    $$ S_{yy} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\bar y)^2} $$
    $$ S_{xy} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)(y_i-\bar y)} $$
    그냥 분산과 공분산을 다르게 쓴 것뿐입니다.

    이 노테이션을 사용해서 상관계수를 다시 써보면 다음과 같습니다.
    $$ r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} $$

    이제 회귀계수를 가져오면 되는데 이게 바로 나오기 쉽지 않습니다. 일단 회귀함수 y=$\beta_0$+$\beta_1$x 로 생겼는데 회귀함수의 특성상 $\beta_0$ 와 $\beta_1$ 는 x의 평균과 y의 평균, x와y의 공분산, 분산으로 표현할 수 있습니다.

    회귀의 정의대로면 에러가 가장 작은 경우의 직선을 찾아내는 것입니다. 식으로 표현하면 다음과 같습니다.
    $$ min\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2 $$
    시그마식을 $\beta_0$, $\beta_1$의 함수로 본다면
    $$ S(\beta_0,\beta_1) = \sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2 $$

    함수 S 가 작아지려면, 각 변수의 미분값이 0이 되는 변수값을 찾아내면 됩니다. 둘다 0이어야 하므로 식이 두개인 연립방정식이 됩니다.

    $$ \frac{\partial S}{\partial \beta_0} = -2\sum_{i=1}^{n} (y_i-\beta_0-\beta_1x_i)^2=0 $$

    $$ \frac{\partial S}{\partial \beta_1} = -2\sum_{i=1}^{n}x_i(y_i-\beta_0-\beta_1x_i)=0 $$

    즉(편의상 i,n은 빼겠습니다),

    $$ \sum{y_i}-\sum\beta_0-\sum\beta_1x_i = 0 $$
    $$ \sum{x_iy_i}-\sum{x_i\beta_0}-\sum{\beta_1x_i^2} = 0 $$
    이어야 합니다. $\beta_0$,$\beta_1$의 연립방정식이므로 풀어보면 다음과 같이 나옵니다.(풀이과정은 길어서 생략합니다)
    $$ \beta_0 = \frac{\sum{{x_i}^2}\sum{y_i}-\sum{x_i}\sum{x_iy_i}}{n\sum{x_i}^2-(\sum{x_i}^2)} $$
    $$ \beta_1 = \frac{n\sum{x_iy_i}-\sum{y_i}\sum{x_i}}{n\sum{x_i}^2-(\sum{x_i)^2}} $$

    이제 $\beta_1$에 앞에서 미리 써놓 노테이션을 적용하겠습니다. 그전에 먼저 평균을 시그마로 표현하면 다음과 같습니다.
    $$ \bar {x} = \sum {\frac{x_i}{n}} $$
    n은 시그마 안밖으로 자유롭게 갈 수 있으니깐(i가 인덱스이므로) $\beta_1$에 1/n 꼴이 될 수 있도록 합니다.
    $\frac{1}{n^2}$을 위아래에 곱합니다.
    $$ \beta_1 = \frac{1/n\sum{x_i}{y_i}-\sum{\frac{y_i}{n}}\sum{\frac{x_i}{n}}}{1/n\sum{x_i^2}-{(\sum{\frac{x_i}{n}})^2}} $$
    평균의 정의에 의해서 다음과 같이 쓸 수 있습니다.
    $$ \beta_1 = \frac{E(XY)-E(X)E(Y)}{E(X^2)-E(X)^2} $$
    즉, 분모는 $Cov(X,Y)$이고 분자는 $Var(X)$ 입니다.
    따라서, 공분산과 분산의 정의에 의해
    $$ \beta_1 = \frac{Cov(X,Y)}{Var(X)}=\frac{\sum{(x-\bar {x})(y-\bar {y})}}{\sum{(x-\bar x)^2}} = \frac{S_{xy}}{S_{xx}}$$

    이제 다시 돌아가서 상관계수 $r= \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}} }$ 였으니 유리화만 하면 $\beta_1$를 넣을 수 있습니다.
    $$ r = \frac{S_{xy}\sqrt{S_{xx}S_{yy}}}{S_{xx}S_{yy}}=\frac{\beta_1 \sqrt{S_{xx}S_{yy}}}{S_{yy}} = \beta_1 \sqrt{\frac{S_{xx}}{S_{yy}}}$$

    정리하면, r 은 regression의 기울기와 X,Y 각 표준편차만 있으면 구할 수 있습니다. 거꾸로, regression의 기울기는 r과 X,Y 표준편차로 구할 수 있다는 얘기도 됩니다.

    마치며

    상관계수와 회귀계수의 관계를 알아보았는데요. 계산이 복잡했지만 간단한 식으로 표현되서 조건이 맞아떨어지면 유용하게 쓸 수 있을것 같습니다.

    '수학' 카테고리의 다른 글

    [미적분] 삼각함수 공식 총정리  (0) 2023.10.14
    [통계학] 공분산과 상관계수  (0) 2023.10.02
    [통계학] 확률의 종류  (0) 2023.09.04
    구분구적법  (0) 2023.08.07
    [Python] 파이썬 math모듈 필수 수학함수 정리  (0) 2023.07.20

    댓글

    Designed by JB FACTORY

    ....