본문 바로가기
학습노트/통계

[강의노트] 통계 - 검정통계량, ANOVA

by kime2 2024. 1. 22.
스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다

https://angeloyeo.github.io/2020/02/29/ANOVA.html

 

F-value의 의미와 분산분석 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

 

1. ANOVA(anlysis od variance 분산분석)

*검정통계량: 통계적 가설의 진위여부를 검정하기 위해 표본으로 부터 계산하는 통계량(예: t-test,anova..)

  • 의미: 여러 집단의 평균이 다르다고 볼 수 있는지 알아보는 테스트 by 분산이용한 평균 비교
  • -> 각 집단의 평균은 조금씩 다를 수 밖에 없는데, 그 차이가 유의미하게 큰지 확인하기 위해 분산 이용
  • 차이/불확실도(t-test와 의미는 동일)
  • 활용: 비교해야 하는 그룹이 여러개일 때(3개 이상의 집단)
  • 즉, f-value는 여러 표본 집단의 차이에 대한 통계적 지표
  • ANOVA의 가설

 

(분자) 표본 평균간 분산(각 표본평균 간 퍼진 정도)을 이용해 여러 그룹의 차이(변화량)를 표현 

 

➡️집단 사이의 평균이 멀리 떨어질수록, 이 값이 커짐

(분모) 표본 그룹 내의 분산(각 표본 내 퍼진 정도)을 이용해 여러 그룹의 평균적 불확실도 표현

 

➡️집단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설을 기각할 수 있다.

즉, 귀무가설을 기각하기 위해서는 표본평균간 분산 > 표본그룹내 분산

 

분산과 관련된 분포: 카이제곱과 F분포

카이제곱분포: 표준정규분포의 제곱합

공돌이의 수학노트

 

자유도 K : 통계의 최종 계산에서 변동이 자유로운 값의 수 -> 통계량을 계싼할 때마다 하나씩 감소
예를 들어 분산이나 표준편차를 계산할 때는 평균을 구하기 때문에 1개 감소합니다.
https://angeloyeo.github.io/2020/03/23/sample_variance.html

 

 

 

충분히 큰 F값: 최소한 한 그룹이 다른 모집단으로 부터 나옴(으로 생각할 수 있다)

 

  • 1) 각 그룹의 평균들이 멀리 떨어진 경우
  • 2) 각 그룹내 분산이 작은 경우
  • 즉, 충분히 큰 f-value는 f-분포 상에서 결정되고, f-분포의 대력적인 형태는 모집단에서 여러 표본집단을 추출하여 계산하는 과정을 거쳐 확인해 볼 수 있다
  • = 분산분석(ANOVA)은 F value가 유의미하게 큰지 여부를 확인해서 최소한 표본 집단은 다른 모집단에서 나왔는지를 검증
💡t-test의 결과 t-value(값)
💡anova의 결과 f-vlaue(값)

💡anova분석의 과정?
여러 그룹간 평균 비교시 anova 수행 후에 그룹pair별로 t-test수행(사후분석)하는 것이 일반적
anova를 통해 유의미한 그룹이 있는지 확인 한 후에 t-test수행