📍 가설과 가설검정

통계적 검정(Statistical Test) 또는 가설검정(Hypothesis Test): 표본 데이터를 기반으로
모집단에 대한 새로운 주장의 옳고 그름을 추론하는 과정.

  • 귀무가설(Null Hypothesis): 모집단에 대한 기존의 주장(아무것도 일어나지 않았음을 가정)
  • 대립가설(Alternative Hypothesis): 모집단에 대한 새로운 주장

✅ 예를 들어 생각해보기

벤처기업을 경영하는 30대 및 40대 경영자의 평균 혈압이 같은 연령대의
일반 사람들과 비교해서 상대적으로 높은지 혹은 낮은지를 알고 싶다.

  • 새로운 주장: 벤처기업 경영자의 혈압은 일반 사람과 다르다. -> 대립가설 -> 알고싶은 것
  • 기존의 주장: 벤처기업 경영자의 혈압은 일반 사람과 차이가 없다. -> 귀무가설

일반적으로 새로운 주장은 분명하게 입증되지 않으면 받아들여지기가 쉽지가 않습니다.
따라서, 대립가설을 새로운 사실로 받아들이기 위해서 기존의 주장이 명백하게 잘못 되었음을 입증!

꿀팁: 필자는 귀무가설을 설정할 때 “차이가 없다(= 같다)”로 설정합니다.

“벤처기업 경영자의 혈압은 일반 사람들과 다르다”라는 새로운 주장(대립가설)을 검정하기 위해서
무작위로 선정한 30명의 경영자의 혈압을 측정해서 평균을 계산합니다.

이렇게 계산된 평균 혈압이 135라고 했을 때, 135라는 혈압을 기존 일반 사람들의 혈압과 비교하고 평가하게 됩니다.
일반 사람들의 혈압 분포에서 굉장히 흔하게 발생한다면

경영자의 135라는 혈압은 일반 사람들의 혈압 분포에도 흔하게 발생하므로
경영자의 혈압과 일반인의 혈압의 다르다”라고 할만한 충분한 증거를 갖고 있지 못하게 됩니다.

📍 검정의 시작

  • 검정통계량: 귀무가설이 참이라는 가정 아래 얻은 통계량
    사용하는 분포에 따라 다름(T분포 -> T통계량, F분포 -> F통계량)

$H_0$은 귀무가설을 나타내고 $H_1$은 대립가설을 나타냅니다.

결국에 $\bar{x}$는 우리가 알 수 있는 객관적인 값(표본에서 얻을 수 있으니까!)이고
$\mu$는 모르는 값이기 때문에 주관적인 값이 됩니다.
결국, 검정통계량 식의 의미는 “표본과 모집단의 차이를 한번 확인해보자”

두 개의 차이가 크다? -> 데이터로 나온 값과 내가 주장하고 있는 값이 다르다.
검정통계량이 크다? -> 귀무가설이 아닐 확률이 높다!
“두 개의 차이가 크다 -> 검정통계량이 크다 -> 귀무가설이 틀릴 확률이 높다”

검정통계량 확인 - P-value

아니 그럼, 검정통계량의 차이가 얼마나 큰 지는 어떻게 알아야 되나요? -> P-value확인하자.

위 사진은 T 분포를 임의로 그린 것입니다. $df$는 자유도를 나타냅니다.

$P-value = P(Y > T)$: 1종 오류를 범할 확률(유의확률, Probability Level, P-value)
만약 T를 10.5라고 가정해봅니다. (통계를 아시는 분들이라면 T=10.5가 굉장히 높은 값임을 아실 겁니다.)
그럼 사진처럼 T보다 클 확률이 얼마나 높은데?를 한번 생각해 볼게요!
일단 T값이 굉장히 크기 때문에 오른쪽 끝에 위치하게 될 거예요. 따라서 T보다 클 확률은 굉장히 작을 것이라고 예상이 됩니다.

검정통계량이 높다는 건 T보다 큰 영역에 속할 확률이 작다는 것이고, P-value가 작다는 것이다.
따라서, 귀무가설이 틀릴 확률이 높다는 얘기가 된다.

정리하자면
“두 개의 차이가 크다 > 검정통계량이 크다 > P-value가 작다 > 귀무가설이 틀릴 확률이 높다”

📍 유의수준과 1종 오류, 2종 오류

우리가 추출한 표본은 모집단의 일부임으로 항상 오류의 가능성을 가지고 있다.

  • 유의수준: 귀무가설 기각 여부를 결정하는 데 사용하는 기준이 되는 확률

1종 오류

귀무가설이 인데 잘못 판단해 기각해버리는 오류
귀무가설이 참이라는 말은 아무일도 일어나지 않았음을 의미한다.

2종 오류

귀무가설이 거짓인데도 기각하지 않아서 생기는 오류
귀무가설이 거짓이라는 말은 어떤 일이 실제로 발생했다는 것을 의미한다.

“탈모약이 아니라 심장병 약이라면?”

1종 오류의 경우 환자에게 잘못 처방할 가능성이 커지며 환자의 피해로 직결되는 문제.
1종 오류가 더 심각하다고 판단하게 된다.

통계적으로도 1종 오류가 더 심각하다고 판단, $\alpha$를 조율해주게 된다.
이러한 $\alpha$를 유의수준이라고 한다.

$p < 0.05$라고 한다면 탈모약의 효과가 없는데 효과가 있다고 실수로 판단한 확률이 5%라는 얘기이고
$p < 0.01$라고 한다면 실수로 판단할 확률이 1%라는 얘기이다.
그럼 여기서 1%가 더 좋지 않냐라고 말할 수 있는데, 향후 포스팅을 통해 증명해보자.

카테고리:

업데이트:

댓글남기기