가설검정 전체 플로우가설검정은 어떤 가설이 참인지 거짓인지 판별하는 절차를 얘기합니다. 주어진 데이터를 바탕으로 모집단에 대한 가설을 검증하는 방법입니다.귀무가설, 대립가설 두가지로 나누어 가설설정을 합니다.귀무 가설($H_0$) : 참이라고 가정하는 가설. 차이, 효과가 없다는 주장.대립가설($H_1$) : 귀무가설과 반대되는 주장. 차이,효과가 있다는 주장.가설검정의 과정가설 설정 : 귀무가설과 대립가설을 설정합니다.유의수준($\alpha$ ) 결정 : 가설을 기각할 기준의 유의수준을 설정합니다. 보통 0.05(5%)나 0.01(1%)을 많이 사용합니다.검정 통계량 계산 : 주어진 표본 데이터를 통해 검정 통계량을 계산합니다.p-value 계산 : 검정 통계량을 바탕으로 p-value(유의확률)을 계..
독립표본 t검정독립표본 t검정은 두 개의 독립된 모집단의 평균을 비교할 때 사용하는 검정방법입니다.예를 들어, 성별에 따라 공부 성취도가 다른지를 검정한다고 할 때 서로 독립적인 남,여에 대해서 통계적 검정을 하기 위해 독립표본 t검정을 사용합니다. 이때, '성별'이 독립변수, 종속변수는 '공부 성취도'가 됩니다. 두 가지 교육 방법(A,B)에 대한 학생들의 시험 성적에 미치는 영향을 통계적으로 검정해보는 예제입니다.독립표본 t검정을 수행하려면 등분산검정 시행후 수행하게 됩니다.일반적으로 등분산검정은 F-test를 시행하는데 R에서 F-test 등분산검정 메쏘드는 다음과 같습니다. var.test(x,y,alternative) : 모집단1,모집단2 적용시var.test(formula,data,altern..
R을 이용한 대응표본 t-검정대응표본 t검정은 단일 모집단에서 두 개의 표본집단을 만들었을때, 그 두개에 대한 평균의 차이를 비교합니다.예를 들어 수면약을 만들었을 때 이 수면약이 효과가 있는지 확인하고 싶어 치료전후 결과를 비교합니다. R을 이용해 대응표본 t검정을 실시하려면 t_test() 메쏘드를 사용해야 합니다.여기서 t_test() 메쏘드에 대한 파라미터를 잠깐 살펴보겠습니다. t.test(x,y,alternate=c("two_sided","less","greater"),paired=FALSE,m=0)x : X의 관측값(수치형 벡터)y : Y의 관측값(수치형 벡터)alternative양측검정 : two-sided단측검정 : less($\mu_x \mu_y$ ), $\mu_x$ 는 X의 평균, $..
상관계수와 회귀계수 관계 상관관계와 회귀계수의 관계에 대해서 수학적으로 알아볼까 합니다. 막 유용하진 않습니다. 다만, 생각을 다른 방향으로 뻗어나갈때 중간다리 역할을 해줍니다. 모르는 것보다는 나은 것 같습니다. 관계를 알기에 앞서 노테이션을 정하고 가겠습니다. 그냥 식이 복잡해서 간단하게 하기 위함입니다. $$ S_{xx} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)^2} $$ $$ S_{yy} = \frac{1}{n} \sum_{i=1}^{n}{(y_i-\bar y)^2} $$ $$ S_{xy} = \frac{1}{n} \sum_{i=1}^{n}{(x_i-\bar x)(y_i-\bar y)} $$ 그냥 분산과 공분산을 다르게 쓴 것뿐입니다. 이 노테이션을 사용해서 상관..
공분산과 상관관계: 데이터 분석의 핵심 개념 데이터 분석 및 통계학 분야에서 중요한 두 가지 개념인 공분산과 상관관계에 대해 알아보겠습니다. 이 개념들은 데이터 간의 관계를 이해하고 해석하는 데 도움을 주는 중요한 역할을 합니다. 1. 공분산 (Covariance) 공분산은 두 변수 간의 관계를 측정하는 지표 중 하나입니다. 두 변수가 어떻게 함께 움직이는지를 보여주는데 사용됩니다. 공분산의 수학적 정의는 다음과 같습니다. $$ Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)] $$ 여기서, X와 Y는 두 변수, Xᵢ와 Yᵢ는 각각의 변수의 개별 데이터 포인트, $μ_X$와 $μ_Y$는 각각의 변수 X와 Y의 평균, n은 데이터 갯수입니다. 정의에서 보듯이 공분산은 X의 편차와 Y의 편차를 곱..
확률의 종류 문제를 이해하고 예측하기 위해서는 다양한 확률 모델과 접근 방식이 필요합니다. 세상은 생각보다 복잡하기 때문에 문제를 컨트롤하기 위한 고민이 끊이없이 있어왔습니다. 그러다 보니 확률의 종류도 여러가지 생겨난 것 같습니다. 수학적 확률(The mathematical probability) 중고등학교 때 배우는 우리가 흔히 말하는 확률을 의미합니다. 이론적인 확률로 간단한 확률 문제를 다룹니다. 주사위 던지기나 동전 던지기 같이 명확하게 확률을 알 수 있는 것을 기반으로 하고 있고 그래서 정확하게 계산할 수 있습니다. 어떤 사건 A가 일어날 확률 P(A)를 구한다면 다음과 같이 구할 수 있습니다. $$ P(A) = \frac{n(A)}{n(S)} = \frac{the\ number\ of\ ou..