Processing math: 100%

[통계학] 상관계수와 회귀계수의 관계

반응형
반응형

상관계수와 회귀계수 관계

상관관계와 회귀계수의 관계에 대해서 수학적으로 알아볼까 합니다. 막 유용하진 않습니다. 다만, 생각을 다른 방향으로 뻗어나갈때 중간다리 역할을 해줍니다. 모르는 것보다는 나은 것 같습니다.

관계를 알기에 앞서 노테이션을 정하고 가겠습니다. 그냥 식이 복잡해서 간단하게 하기 위함입니다.
Sxx=1nni=1(xiˉx)2
Syy=1nni=1(yiˉy)2
Sxy=1nni=1(xiˉx)(yiˉy)
그냥 분산과 공분산을 다르게 쓴 것뿐입니다.

이 노테이션을 사용해서 상관계수를 다시 써보면 다음과 같습니다.
r=SxySxxSyy

이제 회귀계수를 가져오면 되는데 이게 바로 나오기 쉽지 않습니다. 일단 회귀함수 y=β0+β1x 로 생겼는데 회귀함수의 특성상 β0β1 는 x의 평균과 y의 평균, x와y의 공분산, 분산으로 표현할 수 있습니다.

회귀의 정의대로면 에러가 가장 작은 경우의 직선을 찾아내는 것입니다. 식으로 표현하면 다음과 같습니다.
minni=1(yiβ0β1xi)2
시그마식을 β0, β1의 함수로 본다면
S(β0,β1)=ni=1(yiβ0β1xi)2

함수 S 가 작아지려면, 각 변수의 미분값이 0이 되는 변수값을 찾아내면 됩니다. 둘다 0이어야 하므로 식이 두개인 연립방정식이 됩니다.

Sβ0=2ni=1(yiβ0β1xi)2=0

Sβ1=2ni=1xi(yiβ0β1xi)=0

즉(편의상 i,n은 빼겠습니다),

yiβ0β1xi=0
xiyixiβ0β1x2i=0
이어야 합니다. β0,β1의 연립방정식이므로 풀어보면 다음과 같이 나옵니다.(풀이과정은 길어서 생략합니다)
β0=xi2yixixiyinxi2(xi2)
β1=nxiyiyixinxi2(xi)2

이제 β1에 앞에서 미리 써놓 노테이션을 적용하겠습니다. 그전에 먼저 평균을 시그마로 표현하면 다음과 같습니다.
ˉx=xin
n은 시그마 안밖으로 자유롭게 갈 수 있으니깐(i가 인덱스이므로) β1에 1/n 꼴이 될 수 있도록 합니다.
1n2을 위아래에 곱합니다.
β1=1/nxiyiyinxin1/nx2i(xin)2
평균의 정의에 의해서 다음과 같이 쓸 수 있습니다.
β1=E(XY)E(X)E(Y)E(X2)E(X)2
즉, 분모는 Cov(X,Y)이고 분자는 Var(X) 입니다.
따라서, 공분산과 분산의 정의에 의해
β1=Cov(X,Y)Var(X)=(xˉx)(yˉy)(xˉx)2=SxySxx

이제 다시 돌아가서 상관계수 r=SxySxxSyy 였으니 유리화만 하면 β1를 넣을 수 있습니다.
r=SxySxxSyySxxSyy=β1SxxSyySyy=β1SxxSyy

정리하면, r 은 regression의 기울기와 X,Y 각 표준편차만 있으면 구할 수 있습니다. 거꾸로, regression의 기울기는 r과 X,Y 표준편차로 구할 수 있다는 얘기도 됩니다.

마치며

상관계수와 회귀계수의 관계를 알아보았는데요. 계산이 복잡했지만 간단한 식으로 표현되서 조건이 맞아떨어지면 유용하게 쓸 수 있을것 같습니다.

'수학' 카테고리의 다른 글

수학 도형 만드는 사이트(feat.알지오매스)  (0) 2024.07.01
[미적분] 삼각함수 공식 총정리  (0) 2023.10.14
[통계학] 공분산과 상관계수  (0) 2023.10.02
[통계학] 확률의 종류  (0) 2023.09.04
구분구적법  (0) 2023.08.07

데이터목장님의
글이 좋았다면 응원을 보내주세요!

Designed by JB FACTORY