본문 바로가기
학습노트/통계

[통계학습] 데이터와 표본분포(3)

by kime2 2024. 5. 29.

범위 : 카이제곱검정 ~ 검정력과 표본크기

 

3.9 카이제곱검정

  • 카이제곱검정 : 횟수 관련된 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정
  • 카이제곱통계량 : 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r X c분할표를 함께 사용, 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
  • 기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도
    • (의미 : 귀무가설이 참일때 기대되는 값)
피어슨잔차 카이제곱통계량(피어슨잔차의 제곱합)

 

< tip 데이터를 통한 카이제곱 검정 수행(교차분석) >

🎈  카이제곱통계량을 활용한 교차분석과 적합도 검정
1. 교차분석 : 범주형 변수가 여러개인 경우 적용
-> 범주형 변수의 범주간차이가 기댓값에서 유의미하게 벗어나는지 확인

2. 적합도 검정 : 독립변수(범주형)가 하나 -> 변수의 관찰값과 기대값 비교

 

귀무가설 : 요일과 방문고객의 성별은 독립적일 것이다

 

1. 요일-성별 데이터에 대한 분할표

 

2. 기대값 분할표(기대값 : 소수 첫째자리 반올림)

  Male Female total
Thur 30
기대도수 40
32
기대도수 22
62
Fri 10
> 12  
9
> 6.8 
19
Sat 59
> 56 
28
> 31
87
Sun 58
> 49
18
> 27
76
total 157 87 244

기대값 =해당 행 전체 합 X 해당 열 전체 합 / 데이터 전체 개수

  • 목요일 남성의 기대값 = 62*157/224 = 40
  • 목요일 여성의 기대값 = 62*87/224 = 22

 

3. 카이제곱검정수행

* 예상되는 분포에 얼마나 잘 맞는지 검정

    1. 요일-성별 조합에 대해 실제값과 기대값 사이 차이를 계산
    2. 구해진 차이를 제곱
    3. 조합에 대한 기대값으로 나누기
    4. 검정통계량 = {(관측값 - 기대값)^2 / 기대값}의 합계
      •  검정통계량 = (30-40)**2/40 + (32-22)**2/22 + (10-12)**2/12 +  (9-6.8)**2/6.8 +  (59-56)**2/56 +  (28-31)**2/31 +  (58-49)**2/49 +  (18-27)**2/27  = 13.2
    5.  카이제곱분포와 비교하기
      • 유의수준 = 0.05
      • 자유료 = 1*3 = 3
      • 유의수준 0.05 하에서 자유도 3에 해당하는 카이제곱값은 7.815
      • * 카이제곱분포는 양수인 확률변수에 대한 정의되므로 단측검정이 사용됨

 

결론 : 검정통계량 13.2 가 카이제곱값  7.815보다 크므로 요일-성별이 서로 독립적이라는 가설을 기각

즉, 요일-성별간에 상관성이 존재한다

 

from  scipy.stats import chi2_contingency

df = pd.DataFrame({'Male':[30,10,59,58],'Female':[32,9,28,18]})
df.index = ['Thur','Fri','Sat','Sun']

chi2, p_val, d_f, expected  = chi2_contingency(df)

print(  '  '
 , '[Chi-square Analysis Result Report]'
 , 'Chi-square: {}'.format(round(chi2, 5))
 , 'P-value: {}'.format(round(p_val, 5))
 , '--------------------------'
 , 'Expected Values'
 , sep = '\n')

 

[Chi-square Analysis Result Report]

Chi-square: 13.222 P-value: 0.00418

 

- 카이제곱통계량 13.22 는 7.815보다 크므로 귀무가설 기각

- p-value 0.00418은 유의수준 0.5보다 작으므로 귀무가설을 기각

> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음
(전체 발생할 확률의 5% 미만)

 

 

 

https://www.jmp.com/ko_kr/statistics-knowledge-portal/chi-square-test/chi-square-test-of-independence.html

 

 

🎈  정리

1. 수식으로 보는 카이제곱검정

  • 차이가 적다(검정통계량이 작다) => 검정통계량 결과 두 변수는 독립적이라는 가설을 채택

https://onnons.tistory.com/138

 

2. 카이제곱의 단측검정

  • 카이제곱분포는 우측으로 갈수록 관측빈도와 기대빈도의 차이가 커지는 것을 의미하므로 우측에 관심
  • 카이제곱 검정의 본래 목적은 관측값과 기대값의 차이가 유의미한지 확인하는 것

 

🎈 주요개념

  • 통계학에서 흔히 절차는 관측된 데이터가 독립된 가정(예: 특정 학목을 구매하려는 성향이 성별과 무관함)을 따르는지 검증하는 것
  • 카이제곱분포는 카이제곱통계량을 비교할 기준분포이다

 

3.10 멀티암드 밴딧 알고리즘(multi-armed bandit)

  • MAB : 고객이 선택할 수 있는 손잡이가 여러개인 가상의 슬롯머신으로 다중처리 실험에 대한 비유(주로 웹 실험)
  • 손잡이(arm) : 실험에서 어떤 하니의 처리(예: 웹 테스트에서 헤드라인 A)
  • 상금(win) :슬롯머신으로 딴 상금에 대한 실험적 비유(예: 고객들의 링크 클릭수)

 

🎈 주요개념

  • 전통적 A/B 검정은 임의표본추출 과정을 기본으로 하기 때문에, 수익이 낮은 것을 너무 많이 시돨 수 있다
  • 이와 대조젇으로 MAB는 실험 도중에 얻은 정보를 통합하고 수익이 낮은 것의 빈도를 줄이는 쪽으로 표본추출 과정을 변경한다
  • 또한 두 가지 이상의 처리를 효과적으로 다룰 수 있다
  •  추출 확률은 수익이 낮은 처리에서 수익이 높으리라 추정되는 쪽으로 이동시키기 위한 다양한 알고리즘이 존재한다

 

3.11 검정력과 표본크기

  • 효과크기 : '클릭률의 20% 향상'과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
  • 검정력 : 주어진 표본크기로 주어진 효과크기를 알아낼 확률
  • 유의수준 : 검증 시 사용할 통계 유의수준

< 야구 타율로 알아보는 검정력 >

25타석에서 0.33 타율 타자와 0.2타자를 구분할 확률은 0.75이다

  • 효과크기 : 0.13(두 타자의 타율차이)
  •  표본크기n : 25
  • 검정력 : 75% 

< 검정력을 구하는 과정 >

  1. 2할 타자를 계산하기 위해 20개의 1과 80개의 0이 들어있는 상자를 가정
  2. 3할3푼 타자를 계산하기 위해 33개의 1과 67개의 0이 들어있는 상자를 가정
  3. 각 상자에서 크기 n인 부트스트랩 표본을 추출
  4. 두 부트스트랩 표본에 대해서 순열 가설검정을 진행(통계적 유의미한 차이가 있는지 확인)
  5. 3~4단계를 반복후 얼마나 자주 유의미한 차이가 발견되는지 알아본다 -> 이때의 확률이 검정력

(1) 검정력

의미 : 대립가설이 사실일때 이를 사실로 결정할 확률(= 제 2종오류를 범하지 않을 확률)

* 2종오류 : 대립가설이 사실임에도 불구하고 귀무가설을 채택할 확률

 

  1. 유의수준이 커질수록(신뢰도가 나빠질수록) 검정력은 좋아진다
    • 유의수준이 커지면, 검정에서 귀무가설을 기각하는 기준값(임계값)이 낮아지기 때문
    • 대립가설이 참일 때 검정통계량이 임계값을 넘어서 귀무가설을 기각할 가능성이 높아짐
  2. 표준편차가 커지면 검정력은 나빠진다
    • 표준편차가 커지면 데이터의 분포가 넓어짐 > 귀무가설과 대립가설의 분포가 더 많이 겹침 >  분포를 비교하는게 어려워짐
    • 평균값이 실제 평균값과 크게 다를 가능성이 높아진다는 것을 의미 > 대립가설이 참일 때도 표본 평균이 귀무가설의 범위 내에 있을 확률이 높아짐
  3. 두 모집단의 차이가 작을수록 검정력은 나빠진다
    • 귀무가설과 대립가설의 차이가 미미하기 때문에 두 집단간 차이를 발견하기 어려워짐
  4. 표본의 크기가 클수록 검정력은 증가한다
    • 표본 크기가 커지면 표본 평균의 분산(즉, 표본 평균의 표준오차)이 감소 > 표본 평균이 모집단 평균에 더 가깝게 분포 > 통계 검정에서 더 정밀한 추정 가능

 

의수준이 커질수록 검정력은 좋아진다
두 모집단의 차이가 작을수록 검정력은 나빠진다 표본의 크기가 클수록 검정력은 증가한다

 

 

🎈 주요개념

  • 통계 검정을 수행하기 앞서, 어느 정도의 표본크기가 필요한지 미리 생각
  • 알아내고자 하는 효과의 최소 크기를 지정
  • 효과크기를 알아내기 위해 요구되는 확률(껌정력)지ㅣ정
  • 수행할 가설검증에 필요한 유의수준 지정