범위 : 카이제곱검정 ~ 검정력과 표본크기
3.9 카이제곱검정
- 카이제곱검정 : 횟수 관련된 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정
- 카이제곱통계량 : 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r X c분할표를 함께 사용, 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
- 기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도
- (의미 : 귀무가설이 참일때 기대되는 값)
피어슨잔차 | 카이제곱통계량(피어슨잔차의 제곱합) |
< tip 데이터를 통한 카이제곱 검정 수행(교차분석) >
🎈 카이제곱통계량을 활용한 교차분석과 적합도 검정
1. 교차분석 : 범주형 변수가 여러개인 경우 적용
-> 범주형 변수의 범주간차이가 기댓값에서 유의미하게 벗어나는지 확인
2. 적합도 검정 : 독립변수(범주형)가 하나 -> 변수의 관찰값과 기대값 비교
귀무가설 : 요일과 방문고객의 성별은 독립적일 것이다
1. 요일-성별 데이터에 대한 분할표
2. 기대값 분할표(기대값 : 소수 첫째자리 반올림)
Male | Female | total | |
Thur | 30 기대도수 40 |
32 기대도수 22 |
62 |
Fri | 10 > 12 |
9 > 6.8 |
19 |
Sat | 59 > 56 |
28 > 31 |
87 |
Sun | 58 > 49 |
18 > 27 |
76 |
total | 157 | 87 | 244 |
기대값 =해당 행 전체 합 X 해당 열 전체 합 / 데이터 전체 개수
- 목요일 남성의 기대값 = 62*157/224 = 40
- 목요일 여성의 기대값 = 62*87/224 = 22
3. 카이제곱검정수행
* 예상되는 분포에 얼마나 잘 맞는지 검정
- 요일-성별 조합에 대해 실제값과 기대값 사이 차이를 계산
- 구해진 차이를 제곱
- 조합에 대한 기대값으로 나누기
- 검정통계량 = {(관측값 - 기대값)^2 / 기대값}의 합계
- 검정통계량 = (30-40)**2/40 + (32-22)**2/22 + (10-12)**2/12 + (9-6.8)**2/6.8 + (59-56)**2/56 + (28-31)**2/31 + (58-49)**2/49 + (18-27)**2/27 = 13.2
- 카이제곱분포와 비교하기
- 유의수준 = 0.05
- 자유료 = 1*3 = 3
- 유의수준 0.05 하에서 자유도 3에 해당하는 카이제곱값은 7.815
- * 카이제곱분포는 양수인 확률변수에 대한 정의되므로 단측검정이 사용됨
결론 : 검정통계량 13.2 가 카이제곱값 7.815보다 크므로 요일-성별이 서로 독립적이라는 가설을 기각
즉, 요일-성별간에 상관성이 존재한다
from scipy.stats import chi2_contingency
df = pd.DataFrame({'Male':[30,10,59,58],'Female':[32,9,28,18]})
df.index = ['Thur','Fri','Sat','Sun']
chi2, p_val, d_f, expected = chi2_contingency(df)
print( ' '
, '[Chi-square Analysis Result Report]'
, 'Chi-square: {}'.format(round(chi2, 5))
, 'P-value: {}'.format(round(p_val, 5))
, '--------------------------'
, 'Expected Values'
, sep = '\n')
[Chi-square Analysis Result Report]
Chi-square: 13.222 P-value: 0.00418
- 카이제곱통계량 13.22 는 7.815보다 크므로 귀무가설 기각
- p-value 0.00418은 유의수준 0.5보다 작으므로 귀무가설을 기각
> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음
(전체 발생할 확률의 5% 미만)
🎈 정리
1. 수식으로 보는 카이제곱검정
- 차이가 적다(검정통계량이 작다) => 검정통계량 결과 두 변수는 독립적이라는 가설을 채택
https://onnons.tistory.com/138
2. 카이제곱의 단측검정
- 카이제곱분포는 우측으로 갈수록 관측빈도와 기대빈도의 차이가 커지는 것을 의미하므로 우측에 관심
- 카이제곱 검정의 본래 목적은 관측값과 기대값의 차이가 유의미한지 확인하는 것
🎈 주요개념
- 통계학에서 흔히 절차는 관측된 데이터가 독립된 가정(예: 특정 학목을 구매하려는 성향이 성별과 무관함)을 따르는지 검증하는 것
- 카이제곱분포는 카이제곱통계량을 비교할 기준분포이다
3.10 멀티암드 밴딧 알고리즘(multi-armed bandit)
- MAB : 고객이 선택할 수 있는 손잡이가 여러개인 가상의 슬롯머신으로 다중처리 실험에 대한 비유(주로 웹 실험)
- 손잡이(arm) : 실험에서 어떤 하니의 처리(예: 웹 테스트에서 헤드라인 A)
- 상금(win) :슬롯머신으로 딴 상금에 대한 실험적 비유(예: 고객들의 링크 클릭수)
🎈 주요개념
- 전통적 A/B 검정은 임의표본추출 과정을 기본으로 하기 때문에, 수익이 낮은 것을 너무 많이 시돨 수 있다
- 이와 대조젇으로 MAB는 실험 도중에 얻은 정보를 통합하고 수익이 낮은 것의 빈도를 줄이는 쪽으로 표본추출 과정을 변경한다
- 또한 두 가지 이상의 처리를 효과적으로 다룰 수 있다
- 추출 확률은 수익이 낮은 처리에서 수익이 높으리라 추정되는 쪽으로 이동시키기 위한 다양한 알고리즘이 존재한다
3.11 검정력과 표본크기
- 효과크기 : '클릭률의 20% 향상'과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
- 검정력 : 주어진 표본크기로 주어진 효과크기를 알아낼 확률
- 유의수준 : 검증 시 사용할 통계 유의수준
< 야구 타율로 알아보는 검정력 >
25타석에서 0.33 타율 타자와 0.2타자를 구분할 확률은 0.75이다
- 효과크기 : 0.13(두 타자의 타율차이)
- 표본크기n : 25
- 검정력 : 75%
< 검정력을 구하는 과정 >
- 2할 타자를 계산하기 위해 20개의 1과 80개의 0이 들어있는 상자를 가정
- 3할3푼 타자를 계산하기 위해 33개의 1과 67개의 0이 들어있는 상자를 가정
- 각 상자에서 크기 n인 부트스트랩 표본을 추출
- 두 부트스트랩 표본에 대해서 순열 가설검정을 진행(통계적 유의미한 차이가 있는지 확인)
- 3~4단계를 반복후 얼마나 자주 유의미한 차이가 발견되는지 알아본다 -> 이때의 확률이 검정력
(1) 검정력
의미 : 대립가설이 사실일때 이를 사실로 결정할 확률(= 제 2종오류를 범하지 않을 확률)
* 2종오류 : 대립가설이 사실임에도 불구하고 귀무가설을 채택할 확률
- 유의수준이 커질수록(신뢰도가 나빠질수록) 검정력은 좋아진다
- 유의수준이 커지면, 검정에서 귀무가설을 기각하는 기준값(임계값)이 낮아지기 때문
- 대립가설이 참일 때 검정통계량이 임계값을 넘어서 귀무가설을 기각할 가능성이 높아짐
- 표준편차가 커지면 검정력은 나빠진다
- 표준편차가 커지면 데이터의 분포가 넓어짐 > 귀무가설과 대립가설의 분포가 더 많이 겹침 > 두 분포를 비교하는게 어려워짐
- 평균값이 실제 평균값과 크게 다를 가능성이 높아진다는 것을 의미 > 대립가설이 참일 때도 표본 평균이 귀무가설의 범위 내에 있을 확률이 높아짐
- 두 모집단의 차이가 작을수록 검정력은 나빠진다
- 귀무가설과 대립가설의 차이가 미미하기 때문에 두 집단간 차이를 발견하기 어려워짐
- 표본의 크기가 클수록 검정력은 증가한다
- 표본 크기가 커지면 표본 평균의 분산(즉, 표본 평균의 표준오차)이 감소 > 표본 평균이 모집단 평균에 더 가깝게 분포 > 통계 검정에서 더 정밀한 추정 가능
의수준이 커질수록 검정력은 좋아진다 |
두 모집단의 차이가 작을수록 검정력은 나빠진다 | 표본의 크기가 클수록 검정력은 증가한다 |
🎈 주요개념
- 통계 검정을 수행하기 앞서, 어느 정도의 표본크기가 필요한지 미리 생각
- 알아내고자 하는 효과의 최소 크기를 지정
- 효과크기를 알아내기 위해 요구되는 확률(껌정력)지ㅣ정
- 수행할 가설검증에 필요한 유의수준 지정
'학습노트 > 통계' 카테고리의 다른 글
[통계학습] 회귀와 예측(2) (2) | 2024.06.05 |
---|---|
[통계학습] 회귀와 예측(1) (1) | 2024.06.03 |
[통계학습] 통계적실험과 유의검정(2) (0) | 2024.05.27 |
[통계학습] 통계적실험과 유의검정(1) (0) | 2024.05.22 |
[통계학습] 데이터와 표본분포(3) (2) | 2024.05.20 |