본문 바로가기
학습노트/아티클,도서

[도서] 수학보다 데이터 문해력

by kime2 2024. 6. 7.

 

정성규 교수님의수학보다 데이터 문해력 발췌

 

통계적 가설검정의 딜레마

 

좋은 가설검정의 방법은 오류 발생률이 낮은 것을 선택하는 것

귀무가설 기각 > 1종오류 : 귀무가설이 사실인데 대립가설을 선택하는 오류

귀무가설 채택 > 2종 오류 : 대립가설이 사실인데 귀무가설을 선택하는 오류

 

두 오류는 하나를 얻으려면 다른 하나를 포기해야 하는 트레이드 오프 관계

1종 오류는 귀무가설이 사실인 차원에서만 존재하고

2종오류는 귀무가설이 거짓인 차원에서만 존재한다

 

그렇다면, 두 오류중 더 문제가 되는 것은?

첫번째 오류가 더 충격이 큼

2종 오류의 경우 원래 잘못 알고 있던(귀무가설)을 계속 믿는 것인데

1종 오류의 경우 원래 알고 있는게 사실인데 잘못된 선택을 하는것 > 더 악화

 

해결책(이라기 보다는 대안)

 

첫번째 오류 발생률을 미리 정하여 이 값을 넘지 않도록 하자!

이때 미리 정한 겂을 유의수준이라고 하자!

예 5%

 

그래서 좋은 가설검정의 방법은 첫번째 오류 발생률이 유의수준을 넘지 않으면서 두번째 오류 발생률도 낮은 방법

그래프 처럼 a가 5%인 지점을 선택하자( 그 지점 이전까지는 귀무가설 채택~~)

위키독스

유의수준

 

귀무가설 : 출생 성비는 1:1이다

대립가설 : 출생 성비는 1:1이 아니다

 

귀무가설을 기준으로 관측한 현상이 얼마나 어려운지 확률로 표현할 수 있을까?

즉, 출생성비가 1:1인게 현실에서 발생할 확율이 얼마이지?

귀무가설 아래에서 현실에서 얼마나 일어나기 어려운지 구하는 확률을 유의확률, P값이라고 하자

> 확률이 너무 낮으면... 귀무가설을 참이라고 할 수 없겠지..

즉, 귀무가설 전제하에 주어진 데이터와 같거나 더 극단적인 사건이 일어날 확률

 

p-value가 0에 가까울수록 귀무가설과 데이터는 양립할 수 없으므로 귀무가설을 기각한다

이때 p-value와 유의수준을 비교하는데

보통 유의수준(1종오류 발생률)은 5%로 한다

 

왜?

20세기 초실험과학자들의 참고서였던 피셔의 '연구자를 위한고학적 방법론'에서 예시가 0.05였기 때문

100년전 5%는 20번중에 1번의 오류로 충분히 감내할 수 있는 수준이었지만

현재 컴퓨터로 실험을 하는 21세기는 2000만건중 100만건의 오류가 발생하는 확률이다