[통계학습] 데이터와 표본분포(3)

범위 : 카이제곱검정 ~ 검정력과 표본크기

3.9 카이제곱검정

카이제곱검정 : 횟수 관련된 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정
카이제곱통계량 : 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r X c분할표를 함께 사용, 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치
기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도
- (의미 : 귀무가설이 참일때 기대되는 값)

피어슨잔차	카이제곱통계량(피어슨잔차의 제곱합)

< tip 데이터를 통한 카이제곱 검정 수행(교차분석) >

🎈 카이제곱통계량을 활용한 교차분석과 적합도 검정
1. 교차분석 : 범주형 변수가 여러개인 경우 적용
-> 범주형 변수의 범주간차이가 기댓값에서 유의미하게 벗어나는지 확인

2. 적합도 검정 : 독립변수(범주형)가 하나 -> 변수의 관찰값과 기대값 비교

귀무가설 : 요일과 방문고객의 성별은 독립적일 것이다

1. 요일-성별 데이터에 대한 분할표

2. 기대값 분할표(기대값 : 소수 첫째자리 반올림)

	Male	Female	total
Thur	30 기대도수 40	32 기대도수 22	62
Fri	10 > 12	9 > 6.8	19
Sat	59 > 56	28 > 31	87
Sun	58 > 49	18 > 27	76
total	157	87	244

기대값 =해당 행 전체 합 X 해당 열 전체 합 / 데이터 전체 개수

목요일 남성의 기대값 = 62*157/224 = 40
목요일 여성의 기대값 = 62*87/224 = 22

3. 카이제곱검정수행

* 예상되는 분포에 얼마나 잘 맞는지 검정

요일-성별 조합에 대해 실제값과 기대값 사이 차이를 계산
구해진 차이를 제곱
조합에 대한 기대값으로 나누기
검정통계량 = {(관측값 - 기대값)^2 / 기대값}의 합계
- 검정통계량 = (30-40)**2/40 + (32-22)**2/22 + (10-12)**2/12 + (9-6.8)**2/6.8 + (59-56)**2/56 + (28-31)**2/31 + (58-49)**2/49 + (18-27)**2/27 = 13.2
카이제곱분포와 비교하기
- 유의수준 = 0.05
- 자유료 = 1*3 = 3
- 유의수준 0.05 하에서 자유도 3에 해당하는 카이제곱값은 7.815
- * 카이제곱분포는 양수인 확률변수에 대한 정의되므로 단측검정이 사용됨

결론 : 검정통계량 13.2 가 카이제곱값 7.815보다 크므로 요일-성별이 서로 독립적이라는 가설을 기각

즉, 요일-성별간에 상관성이 존재한다

from  scipy.stats import chi2_contingency

df = pd.DataFrame({'Male':[30,10,59,58],'Female':[32,9,28,18]})
df.index = ['Thur','Fri','Sat','Sun']

chi2, p_val, d_f, expected  = chi2_contingency(df)

print(  '  '
 , '[Chi-square Analysis Result Report]'
 , 'Chi-square: {}'.format(round(chi2, 5))
 , 'P-value: {}'.format(round(p_val, 5))
 , '--------------------------'
 , 'Expected Values'
 , sep = '\n')

[Chi-square Analysis Result Report]

Chi-square: 13.222 P-value: 0.00418

- 카이제곱통계량 13.22 는 7.815보다 크므로 귀무가설 기각

- p-value 0.00418은 유의수준 0.5보다 작으므로 귀무가설을 기각

> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음
(전체 발생할 확률의 5% 미만)

https://www.jmp.com/ko_kr/statistics-knowledge-portal/chi-square-test/chi-square-test-of-independence.html

🎈 정리

1. 수식으로 보는 카이제곱검정

차이가 적다(검정통계량이 작다) => 검정통계량 결과 두 변수는 독립적이라는 가설을 채택

https://onnons.tistory.com/138

2. 카이제곱의 단측검정

카이제곱분포는 우측으로 갈수록 관측빈도와 기대빈도의 차이가 커지는 것을 의미하므로 우측에 관심
카이제곱 검정의 본래 목적은 관측값과 기대값의 차이가 유의미한지 확인하는 것

🎈 주요개념

통계학에서 흔히 절차는 관측된 데이터가 독립된 가정(예: 특정 학목을 구매하려는 성향이 성별과 무관함)을 따르는지 검증하는 것
카이제곱분포는 카이제곱통계량을 비교할 기준분포이다

3.10 멀티암드 밴딧 알고리즘(multi-armed bandit)

MAB : 고객이 선택할 수 있는 손잡이가 여러개인 가상의 슬롯머신으로 다중처리 실험에 대한 비유(주로 웹 실험)
손잡이(arm) : 실험에서 어떤 하니의 처리(예: 웹 테스트에서 헤드라인 A)
상금(win) :슬롯머신으로 딴 상금에 대한 실험적 비유(예: 고객들의 링크 클릭수)

🎈 주요개념

전통적 A/B 검정은 임의표본추출 과정을 기본으로 하기 때문에, 수익이 낮은 것을 너무 많이 시돨 수 있다
이와 대조젇으로 MAB는 실험 도중에 얻은 정보를 통합하고 수익이 낮은 것의 빈도를 줄이는 쪽으로 표본추출 과정을 변경한다
또한 두 가지 이상의 처리를 효과적으로 다룰 수 있다
추출 확률은 수익이 낮은 처리에서 수익이 높으리라 추정되는 쪽으로 이동시키기 위한 다양한 알고리즘이 존재한다

3.11 검정력과 표본크기

효과크기 : '클릭률의 20% 향상'과 같이 통계 검정을 통해 판단할 수 있는 효과의 최소 크기
검정력 : 주어진 표본크기로 주어진 효과크기를 알아낼 확률
유의수준 : 검증 시 사용할 통계 유의수준

< 야구 타율로 알아보는 검정력 >

25타석에서 0.33 타율 타자와 0.2타자를 구분할 확률은 0.75이다

효과크기 : 0.13(두 타자의 타율차이)
표본크기n : 25
검정력 : 75%

< 검정력을 구하는 과정 >

2할 타자를 계산하기 위해 20개의 1과 80개의 0이 들어있는 상자를 가정
3할3푼 타자를 계산하기 위해 33개의 1과 67개의 0이 들어있는 상자를 가정
각 상자에서 크기 n인 부트스트랩 표본을 추출
두 부트스트랩 표본에 대해서 순열 가설검정을 진행(통계적 유의미한 차이가 있는지 확인)
3~4단계를 반복후 얼마나 자주 유의미한 차이가 발견되는지 알아본다 -> 이때의 확률이 검정력

(1) 검정력

의미 : 대립가설이 사실일때 이를 사실로 결정할 확률(= 제 2종오류를 범하지 않을 확률)

* 2종오류 : 대립가설이 사실임에도 불구하고 귀무가설을 채택할 확률

유의수준이 커질수록(신뢰도가 나빠질수록) 검정력은 좋아진다
- 유의수준이 커지면, 검정에서 귀무가설을 기각하는 기준값(임계값)이 낮아지기 때문
- 대립가설이 참일 때 검정통계량이 임계값을 넘어서 귀무가설을 기각할 가능성이 높아짐
표준편차가 커지면 검정력은 나빠진다
- 표준편차가 커지면 데이터의 분포가 넓어짐 > 귀무가설과 대립가설의 분포가 더 많이 겹침 > 두 분포를 비교하는게 어려워짐
- 평균값이 실제 평균값과 크게 다를 가능성이 높아진다는 것을 의미 > 대립가설이 참일 때도 표본 평균이 귀무가설의 범위 내에 있을 확률이 높아짐
두 모집단의 차이가 작을수록 검정력은 나빠진다
- 귀무가설과 대립가설의 차이가 미미하기 때문에 두 집단간 차이를 발견하기 어려워짐
표본의 크기가 클수록 검정력은 증가한다
- 표본 크기가 커지면 표본 평균의 분산(즉, 표본 평균의 표준오차)이 감소 > 표본 평균이 모집단 평균에 더 가깝게 분포 > 통계 검정에서 더 정밀한 추정 가능

의수준이 커질수록 검정력은 좋아진다

두 모집단의 차이가 작을수록 검정력은 나빠진다	표본의 크기가 클수록 검정력은 증가한다

🎈 주요개념

통계 검정을 수행하기 앞서, 어느 정도의 표본크기가 필요한지 미리 생각
알아내고자 하는 효과의 최소 크기를 지정
효과크기를 알아내기 위해 요구되는 확률(껌정력)지ㅣ정
수행할 가설검증에 필요한 유의수준 지정

'학습노트 > 통계' 카테고리의 다른 글

[통계학습] 회귀와 예측(2) (2)	2024.06.05
[통계학습] 회귀와 예측(1) (1)	2024.06.03
[통계학습] 통계적실험과 유의검정(2) (0)	2024.05.27
[통계학습] 통계적실험과 유의검정(1) (0)	2024.05.22
[통계학습] 데이터와 표본분포(3) (2)	2024.05.20

more and more

[통계학습] 데이터와 표본분포(3)

범위 : 카이제곱검정 ~ 검정력과 표본크기

3.9 카이제곱검정

< tip 데이터를 통한 카이제곱 검정 수행(교차분석) >

귀무가설 : 요일과 방문고객의 성별은 독립적일 것이다

1. 요일-성별 데이터에 대한 분할표

2. 기대값 분할표(기대값 : 소수 첫째자리 반올림)

기대값 =해당 행 전체 합 X 해당 열 전체 합 / 데이터 전체 개수

3. 카이제곱검정수행

* 예상되는 분포에 얼마나 잘 맞는지 검정

결론 : 검정통계량 13.2 가 카이제곱값 7.815보다 크므로 요일-성별이 서로 독립적이라는 가설을 기각

즉, 요일-성별간에 상관성이 존재한다

[Chi-square Analysis Result Report]

Chi-square: 13.222 P-value: 0.00418

- 카이제곱통계량 13.22 는 7.815보다 크므로 귀무가설 기각

- p-value 0.00418은 유의수준 0.5보다 작으므로 귀무가설을 기각

> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음
(전체 발생할 확률의 5% 미만)

🎈 정리

1. 수식으로 보는 카이제곱검정

https://onnons.tistory.com/138

2. 카이제곱의 단측검정

🎈 주요개념

3.10 멀티암드 밴딧 알고리즘(multi-armed bandit)

🎈 주요개념

3.11 검정력과 표본크기

< 야구 타율로 알아보는 검정력 >

25타석에서 0.33 타율 타자와 0.2타자를 구분할 확률은 0.75이다

< 검정력을 구하는 과정 >

(1) 검정력

의미 : 대립가설이 사실일때 이를 사실로 결정할 확률(= 제 2종오류를 범하지 않을 확률)

🎈 주요개념

'학습노트 > 통계' 카테고리의 다른 글

티스토리툴바

[통계학습] 데이터와 표본분포(3)

범위 : 카이제곱검정 ~ 검정력과 표본크기

3.9 카이제곱검정

< tip 데이터를 통한 카이제곱 검정 수행(교차분석) >

귀무가설 : 요일과 방문고객의 성별은 독립적일 것이다

1. 요일-성별 데이터에 대한 분할표

2. 기대값 분할표(기대값 : 소수 첫째자리 반올림)

기대값 =해당 행 전체 합 X 해당 열 전체 합 / 데이터 전체 개수

3. 카이제곱검정수행

* 예상되는 분포에 얼마나 잘 맞는지 검정

결론 : 검정통계량 13.2 가 카이제곱값 7.815보다 크므로 요일-성별이 서로 독립적이라는 가설을 기각

즉, 요일-성별간에 상관성이 존재한다

[Chi-square Analysis Result Report]

Chi-square: 13.222 P-value: 0.00418

- 카이제곱통계량 13.22 는 7.815보다 크므로 귀무가설 기각

- p-value 0.00418은 유의수준 0.5보다 작으므로 귀무가설을 기각

> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음(전체 발생할 확률의 5% 미만)

🎈 정리

1. 수식으로 보는 카이제곱검정

https://onnons.tistory.com/138

2. 카이제곱의 단측검정

🎈 주요개념

3.10 멀티암드 밴딧 알고리즘(multi-armed bandit)

🎈 주요개념

3.11 검정력과 표본크기

< 야구 타율로 알아보는 검정력 >

25타석에서 0.33 타율 타자와 0.2타자를 구분할 확률은 0.75이다

< 검정력을 구하는 과정 >

(1) 검정력

의미 : 대립가설이 사실일때 이를 사실로 결정할 확률(= 제 2종오류를 범하지 않을 확률)

🎈 주요개념

'학습노트 > 통계' 카테고리의 다른 글

관련글

티스토리툴바

> 카이제곱통계량 13.22의 확률 Y는 7.815의 확률보다 낮음
(전체 발생할 확률의 5% 미만)