[통계학] 상관계수와 회귀계수의 관계
- 수학
- 2023. 10. 12.
상관계수와 회귀계수 관계
상관관계와 회귀계수의 관계에 대해서 수학적으로 알아볼까 합니다. 막 유용하진 않습니다. 다만, 생각을 다른 방향으로 뻗어나갈때 중간다리 역할을 해줍니다. 모르는 것보다는 나은 것 같습니다.
관계를 알기에 앞서 노테이션을 정하고 가겠습니다. 그냥 식이 복잡해서 간단하게 하기 위함입니다.
Sxx=1nn∑i=1(xi−ˉx)2
Syy=1nn∑i=1(yi−ˉy)2
Sxy=1nn∑i=1(xi−ˉx)(yi−ˉy)
그냥 분산과 공분산을 다르게 쓴 것뿐입니다.
이 노테이션을 사용해서 상관계수를 다시 써보면 다음과 같습니다.
r=Sxy√SxxSyy
이제 회귀계수를 가져오면 되는데 이게 바로 나오기 쉽지 않습니다. 일단 회귀함수 y=β0+β1x 로 생겼는데 회귀함수의 특성상 β0 와 β1 는 x의 평균과 y의 평균, x와y의 공분산, 분산으로 표현할 수 있습니다.
회귀의 정의대로면 에러가 가장 작은 경우의 직선을 찾아내는 것입니다. 식으로 표현하면 다음과 같습니다.
minn∑i=1(yi−β0−β1xi)2
시그마식을 β0, β1의 함수로 본다면
S(β0,β1)=n∑i=1(yi−β0−β1xi)2
함수 S 가 작아지려면, 각 변수의 미분값이 0이 되는 변수값을 찾아내면 됩니다. 둘다 0이어야 하므로 식이 두개인 연립방정식이 됩니다.
∂S∂β0=−2n∑i=1(yi−β0−β1xi)2=0
∂S∂β1=−2n∑i=1xi(yi−β0−β1xi)=0
즉(편의상 i,n은 빼겠습니다),
∑yi−∑β0−∑β1xi=0
∑xiyi−∑xiβ0−∑β1x2i=0
이어야 합니다. β0,β1의 연립방정식이므로 풀어보면 다음과 같이 나옵니다.(풀이과정은 길어서 생략합니다)
β0=∑xi2∑yi−∑xi∑xiyin∑xi2−(∑xi2)
β1=n∑xiyi−∑yi∑xin∑xi2−(∑xi)2
이제 β1에 앞에서 미리 써놓 노테이션을 적용하겠습니다. 그전에 먼저 평균을 시그마로 표현하면 다음과 같습니다.
ˉx=∑xin
n은 시그마 안밖으로 자유롭게 갈 수 있으니깐(i가 인덱스이므로) β1에 1/n 꼴이 될 수 있도록 합니다.
1n2을 위아래에 곱합니다.
β1=1/n∑xiyi−∑yin∑xin1/n∑x2i−(∑xin)2
평균의 정의에 의해서 다음과 같이 쓸 수 있습니다.
β1=E(XY)−E(X)E(Y)E(X2)−E(X)2
즉, 분모는 Cov(X,Y)이고 분자는 Var(X) 입니다.
따라서, 공분산과 분산의 정의에 의해
β1=Cov(X,Y)Var(X)=∑(x−ˉx)(y−ˉy)∑(x−ˉx)2=SxySxx
이제 다시 돌아가서 상관계수 r=Sxy√SxxSyy 였으니 유리화만 하면 β1를 넣을 수 있습니다.
r=Sxy√SxxSyySxxSyy=β1√SxxSyySyy=β1√SxxSyy
정리하면, r 은 regression의 기울기와 X,Y 각 표준편차만 있으면 구할 수 있습니다. 거꾸로, regression의 기울기는 r과 X,Y 표준편차로 구할 수 있다는 얘기도 됩니다.
마치며
상관계수와 회귀계수의 관계를 알아보았는데요. 계산이 복잡했지만 간단한 식으로 표현되서 조건이 맞아떨어지면 유용하게 쓸 수 있을것 같습니다.
'수학' 카테고리의 다른 글
수학 도형 만드는 사이트(feat.알지오매스) (0) | 2024.07.01 |
---|---|
[미적분] 삼각함수 공식 총정리 (0) | 2023.10.14 |
[통계학] 공분산과 상관계수 (0) | 2023.10.02 |
[통계학] 확률의 종류 (0) | 2023.09.04 |
구분구적법 (0) | 2023.08.07 |
데이터목장님의
글이 좋았다면 응원을 보내주세요!