정성규 교수님의수학보다 데이터 문해력 발췌
통계적 가설검정의 딜레마
좋은 가설검정의 방법은 오류 발생률이 낮은 것을 선택하는 것
귀무가설 기각 > 1종오류 : 귀무가설이 사실인데 대립가설을 선택하는 오류
귀무가설 채택 > 2종 오류 : 대립가설이 사실인데 귀무가설을 선택하는 오류
두 오류는 하나를 얻으려면 다른 하나를 포기해야 하는 트레이드 오프 관계
1종 오류는 귀무가설이 사실인 차원에서만 존재하고
2종오류는 귀무가설이 거짓인 차원에서만 존재한다
그렇다면, 두 오류중 더 문제가 되는 것은?
첫번째 오류가 더 충격이 큼
2종 오류의 경우 원래 잘못 알고 있던(귀무가설)을 계속 믿는 것인데
1종 오류의 경우 원래 알고 있는게 사실인데 잘못된 선택을 하는것 > 더 악화
해결책(이라기 보다는 대안)
첫번째 오류 발생률을 미리 정하여 이 값을 넘지 않도록 하자!
이때 미리 정한 겂을 유의수준이라고 하자!
예 5%
그래서 좋은 가설검정의 방법은 첫번째 오류 발생률이 유의수준을 넘지 않으면서 두번째 오류 발생률도 낮은 방법
그래프 처럼 a가 5%인 지점을 선택하자( 그 지점 이전까지는 귀무가설 채택~~)
유의수준
귀무가설 : 출생 성비는 1:1이다
대립가설 : 출생 성비는 1:1이 아니다
귀무가설을 기준으로 관측한 현상이 얼마나 어려운지 확률로 표현할 수 있을까?
즉, 출생성비가 1:1인게 현실에서 발생할 확율이 얼마이지?
귀무가설 아래에서 현실에서 얼마나 일어나기 어려운지 구하는 확률을 유의확률, P값이라고 하자
> 확률이 너무 낮으면... 귀무가설을 참이라고 할 수 없겠지..
즉, 귀무가설 전제하에 주어진 데이터와 같거나 더 극단적인 사건이 일어날 확률
p-value가 0에 가까울수록 귀무가설과 데이터는 양립할 수 없으므로 귀무가설을 기각한다
이때 p-value와 유의수준을 비교하는데
보통 유의수준(1종오류 발생률)은 5%로 한다
왜?
20세기 초실험과학자들의 참고서였던 피셔의 '연구자를 위한고학적 방법론'에서 예시가 0.05였기 때문
100년전 5%는 20번중에 1번의 오류로 충분히 감내할 수 있는 수준이었지만
현재 컴퓨터로 실험을 하는 21세기는 2000만건중 100만건의 오류가 발생하는 확률이다
'학습노트 > 아티클,도서' 카테고리의 다른 글
[도서] 데이터로 전문가처럼 말하기 (0) | 2024.07.11 |
---|---|
[도서] 통계 101 X 데이터 분석 (1) (0) | 2024.06.13 |
[도서] 컨버티드 : 마음을 훔치는 데이터 분석의 기술 (0) | 2024.06.09 |
[자료노트] TOSS INSIGHT (0) | 2024.03.26 |
[강의노트] 데이터 리터러시 (3) | 2024.01.03 |