[통계학] 검정 통계량 종류

반응형
    반응형

    가설검정 전체 플로우

    가설검정은 어떤 가설이 참인지 거짓인지 판별하는 절차를 얘기합니다. 주어진 데이터를 바탕으로 모집단에 대한 가설을 검증하는 방법입니다.

    귀무가설, 대립가설 두가지로 나누어 가설설정을 합니다.

    • 귀무 가설($H_0$) : 참이라고 가정하는 가설. 차이, 효과가 없다는 주장.
    • 대립가설($H_1$) : 귀무가설과 반대되는 주장. 차이,효과가 있다는 주장.

    가설검정의 과정

    1. 가설 설정 : 귀무가설과 대립가설을 설정합니다.
    2. 유의수준($\alpha$ ) 결정 : 가설을 기각할 기준의 유의수준을 설정합니다. 보통 0.05(5%)나 0.01(1%)을 많이 사용합니다.
    3. 검정 통계량 계산 : 주어진 표본 데이터를 통해 검정 통계량을 계산합니다.
    4. p-value 계산 : 검정 통계량을 바탕으로 p-value(유의확률)을 계산합니다. 유의확률은 귀무가설이 참일 때 관찰된 결과가 발생할 확률을 의미합니다.
    5. 결론 도출: p-value 가 유의수준보다 작으면 귀무가설을 기각하고, 크면 귀무가설을 기각하지 않습니다.

    검정 통계량의 종류

    검정통계량을 구하는 방법은 가설의 종류와 데이터 특성에 따라 구하는 방법이 다릅니다.
    크게 Z-검정, t-검정, 카이제곱검정, f-검정, anova으로 나눌 수 있습니다.

    Z-검정(Z-test)

    적용 상황

    • 모집단의 표준편차($\sigma$)를 알고 있을때
    • 표본 크기가 크거나(n>30) 모집단이 정규분포를 따르는 경우

    검정통계량 공식
    $$ Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} $$

    • $\bar{X}$ : 표본 평균
    • $\mu$ : 모집단의 가설 평균
    • $\sigma$ : 모집단의 표준편차
    • n : 표본 크기

    t-검정(t-test)

    적용 상황

    • 모집단의 표준편차($\sigma$)를 모르는 경우
    • 표본 크기가 작고($n \le 30$ ) 모집단이 정규분포를 따를 때

    검정통계량 공식
    $$ t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} $$

    • $\bar{X}$ : 표본 평균
    • $\mu$ : 모집단의 가설 평균
    • s : 표본의 표준편차
    • n : 표본 크기

    카이제곱 검정(Chi-sqaure test)

    적용상황

    • 범주형 데이터의 적합도 검정이나 독립성 검정에 사용

    검정통계량 공식

    적합도 검정
    $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

    • $O_{i}$ : 관측 빈도(observed frequency)
    • $E_{i}$ : 기대 빈도(expected frequency)

    독립성 검정
    $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$

    • $O_{ij}$ : 관측 빈도(observed frequency)
    • $E_{ij}$ : 기대 빈도(expected frequency)

    ANOVA(Analysis of Variance)

    적용 상황

    • 세 개 이상의 그룹 간의 평균 차이를 검정할 때 사용

    검정통계량 공식
    $$ F = \frac{\text{Between-group variability}}{\text{Within-group variability}} $$

    • Between-group variablility : 그룹 간 변동 분산
    • Within-group variability : 그룹 내 변동 분

    F-검정(F-test)

    적용 상황

    • 두 집단의 분산이 동일한지 검정할 때 사용.

    $$ F = \frac{S^2_1}{S^2_2} $$

    • $S^2_1$: 첫 번째 표본의 분산
    • $S^2_2$: 두 번째 표본의 분산

     

    마치며

    종류 분류에 초점을 맞춰서 요약된 결과만 적었습니다. 자세한 내용은 추후 포스팅하겠습니다.

     

    그동안 쓴 빅데이터 분석 파이썬에 대한 글을 모아놨습니다. 참고하시기 바랍니다.

     

     

    빅데이터 분석을 위한 파이썬 총정리

    빅데이터 분석을 위한 파이썬 목차블로그를 대학원 때 코딩이 너무 헷갈려서 지식 저장공간으로 사용하려고 시작했습니다. 글을 정리하다보니 정말 많은 글을 썼다는 걸 새삼 느낍니다. 한때

    seong6496.tistory.com

     

     

    댓글

    Designed by JB FACTORY

    ....