상관계수와 회귀계수 관계 상관관계와 회귀계수의 관계에 대해서 수학적으로 알아볼까 합니다. 막 유용하진 않습니다. 다만, 생각을 다른 방향으로 뻗어나갈때 중간다리 역할을 해줍니다. 모르는 것보다는 나은 것 같습니다. 관계를 알기에 앞서 노테이션을 정하고 가겠습니다. 그냥 식이 복잡해서 간단하게 하기 위함입니다. $$ S_{xx} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)^2} $$ $$ S_{yy} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\bar y)^2} $$ $$ S_{xy} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)(y_i-\bar y)} $$ 그냥 분산과 공분산을 다르게 쓴 것뿐입니다. 이 노테이션을 사용해서 상관..
공분산과 상관관계: 데이터 분석의 핵심 개념 데이터 분석 및 통계학 분야에서 중요한 두 가지 개념인 공분산과 상관관계에 대해 알아보겠습니다. 이 개념들은 데이터 간의 관계를 이해하고 해석하는 데 도움을 주는 중요한 역할을 합니다. 1. 공분산 (Covariance) 공분산은 두 변수 간의 관계를 측정하는 지표 중 하나입니다. 두 변수가 어떻게 함께 움직이는지를 보여주는데 사용됩니다. 공분산의 수학적 정의는 다음과 같습니다. $$ Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)] $$ 여기서, X와 Y는 두 변수, Xᵢ와 Yᵢ는 각각의 변수의 개별 데이터 포인트, $μ_X$와 $μ_Y$는 각각의 변수 X와 Y의 평균, n은 데이터 갯수입니다. 정의에서 보듯이 공분산은 X의 편차와 Y의 편차를 곱..