본문 바로가기
학습노트/통계

[강의노트] 통계 - 검정통계량, t-value

by kime2 2024. 1. 19.
스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다

+ 참고: https://angeloyeo.github.io/2021/01/05/confidence_interval.html

 

신뢰 구간의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

0. 평균

1)  평균을 망치는 요소

(1) 왜도: skewness

  • 특장한 방향으로 데이터가 쏠려있는 것(보통 꼬리를 당긴 것 처럼 생겼다)
  • 보통을 그래프를 통해 보이며, 왜도가 있을 경우 평균이 전체 데이터를 대표하지 못함

스파르타 코딩클럼

(2) 이상치: outlier

  • 다른 관측치와 유의하게 다른 데이터
  • 유의하다는 것의 의미가 다르지만 보통 소수의 데이터가 평균에 크게 영향을 주기 때문에 평균을 구할 때 제거하거나 변환함

스파르타 코딩클럼

2) 평균의 대표종류

산술평균 모든 데이터를 더한 뒤 전체 데이터의 수로 나누어 준것
가장 일반적으로 많이 참조되는 평균
왜도와 이상치에 위약
중앙값 데이터를 정렬하여 가운데 있는 관측치
왜도와 이상치에 강인하여 평균에 대안으로 활용
홀수/짝수에 따라 계산이 다름
최빈값 등장하는 관측치의 값이 다양하지 않을경우 효과적
평균의 의미와 다르기 때문에 제한적 사용

 

1.  중심극한정리 의 정의(CTL)

  • 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워 진다(위키피디아)
  • 무작위로 추출된 표본의 크기가 커질수록 평균표본의 분포는 모집단의 분포모양과 관계없이 정규분포에 가까워진다. 이때 표본 평균의 표준편차는 모집단의 모 표준편차를 표본 크기에 제곱근으로 나눈 것과 같다(나무위키)
  • 모집단의 형태가 어떻든지 간에 상관없이 추출하는 모집단이 서로 독립적이면 표본 평균의 분포는 정규분포를 따른다
  • -> 모집단으로부터 표번평균을 무수히 많이 샘플링하면 표본 평균의 분포는 정규분포와 근사하게 됨
  • https://angeloyeo.github.io/2020/09/15/CLT_meaning.html
  • https://youtu.be/iTNHQXGIEuU
1. 표본평균의 분포는 정규분포에 근사하게 된다
2. 모집단의 모양이 어떻든 관계없다
3. 표본을 추출하는 모집단이 서로 독립적이면 여러 모집단에서 추출하는 표본이더라도 표본평균의 분포는 정규분포에 근사하게 된다
➡️ 원래데이터의 분포가 무엇이든 표본 평균의 분포는 정규분포를 따른다
 

중심극한정리의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

 

2.  분포 distrobution

1) 분포의 종류: 베르누이 분포 (동전 던지기 처럼 두가지만 존재) / 이항분포(동전을 여러개 던지고 앞면이 나온 개수) / 정규분포(종모양의 분포)

2) 정규분포

  • 정규분포의 평균Mean, 분산variace -> 분포의 특징을 결정짓는 모수(parameter)
  • 통계적 추정: 일반적으로 모수는 알고자 하는, 알 수 없기 때문에 통계를 통해 가장 그럴싸한 모수를 찾는다

3.  표본과 표본오차

모집단(최종적으로 알고 싶은 것) 표본집단
1.  모수(파라미터)
-평균: 모평균(뮤)
-분산: 모분산(시그마스퀘어)

"모른다" ->표본집단으로 대체
1. 통계치
-평균: 표분평균(엑스바)
-분산: 표본분산(에스제곱)

"알고있음"
이상적으로 표본의 크기가 커질수록 표본으로 부터 계산하여 추정하는 값은 추정하고자 하는 모수와 같아지길 바람
-> 따라서, 이상적인 추정량은 그 추정량의 기대값이 모수와 같은 것
-> 표본분산은 n대신 (n-1)로 나눈다

1) 모집단과 모수

모집단: 정보를 얻고자 하는 집단의  전체집합

정규분포의 경우 평균값과 표준편차 값을 이용하면 형태를 파악할 수 있다. 즉 전체집단의 모든 데이터를 알지 못해도 모집단의 특성을 통계적으로 확인 가능 -> 이런 특성치를 모수(parameter) : 평균, 분산, 표준편차, 분위수, 모비율

즉, 모집단의 전체 데이터는 알 수 없지만 모수를 파악하여 모집단의 특성을 파악

 

2) 표본집단과 표본통계량

표본: 모집단의 부분집합 -> 추출이유: 모집단 전체를 검사하기 어렵기 때문

표본은 매번 추출할 때마다 값이 달라진다 -> 랜덤하게 봅아야함!

추출된 표본들을 통계적으로 기술하는 통계적 특징 = 표본통계량 : 표본평균, 표본표준편차, 표본비율

표본이 매번 추출할 때마다 값이 변하므로(추정치 이므로) 표본 통계량도 매번 변한다

 

3) 표준오차(SEM) = 표본 평균의 표준편차

표준오차: 표본통계량의 표준편차

표본통계량도 표본추출에 따라 매번 변하기 때문에 표본통계량도 매번 변동한다(오차가 있다)

*표본 통계량은 추정치이므로 추정오차가 발생하는데 이것을 표준오차 라고 함!

- 표준편차는 모집단의 분포가 얼마나 퍼져있는가!
- 표본오차(SEM)은 표본들의 평균의 추정치에 대한 불확실도를 수치화 한것

https://angeloyeo.github.io/2020/02/12/standard_error.html

 

표본과 표준 오차의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io

4. 정규분포의 한계와 t-분포

1) 한계

  • 중심극한정리CTL는 표본 평균의 분포가 정규분포를 따르지만...평균을 알고싶지만 분산도 모름
  • CTL을 만족할 만큼 데이터가 충분하지 않음

2) t-분포(정규분포보더 더 넓은 분포)

  • 정규분포와 닮았다(표본과 관련이 있기 때문)
  • 데이터가 무수히 많다면 t분포는 정규분포에 수렴

 

5. 검정통계량과 t-value

의미: 통계적가설(귀무/대립가설)의 진위 여부를 검정하기 위해 표본으로 부터 계산하는 통계량

즉, 표본통계량을 2차 가공한 것으로 통계적 가설 진위 여부를 검정한다는 것은 검정통계량의 값이 기준을 벗어나는지 확인하여 진위여부를 판단하는 것

1) t-value = t-test를 수행하여 얻은 결과값

의미: 차이/불확실도, 조사 및 연구 진행시 (추정치인)두 표본 집단의 차이를 비교할 필요가 있음

주로 표본 평균의 차이를 비교하고자 검종통계량의 방법으로 t-value를 사용

예) 새로운 약물의 약효

통계적으로 비교할 때에는 두 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값의 오차를 수반한다는 사실!

* 표본통계량의 불확신도에 대한 개념: 표준오차

-> 표준평균 차이의 통계적지표 t = (두 표본 그룹 평균의 차이 -> 표준오차)/(두 그룹 간 평균 차이에 대한 불확실도)

 

2) 충분히 큰 t-value

하나의 모집단에서 두 개의 표본 그룹을 추출해서 t-value를 구하면 많은 경우 0에 가깝게 계산되지만 가끔 하나의 동일한 모집단입에도 t-value가 2,3 등 큰 값을 가지게 됨

두 표본집단이 하나의 모집단에서 나왔다고 가정할 때 이런 큰 t-value가 나왔을 확률은 아주 낮으므로, 이 두 표본집단이 하나의 모집단에서 나왔을 것이라는 가정을 맞출 확률도 낮다

즉, 충분히 큰 t-value는 t-분포상에서 결정되고, t-분포의 대략적인 형태는 두 표본집단을 추출하여 예산하는 과정에서 확인할 수 있다.

 

t-value는 두 표본에 대해서 표본집단 평균간의 차이에서 그 차이에 대한 불확실도를 나눠줌으로써
집단간의 차이와 이 차이가 얼마나 확실한지 설명

한계: t-분포는 표본수(자유도)에 따라 모양이 다르기 때문에 같은 t-value라도 표본수에 따라 표뵨간 차이를 해석하는게 달라진다
💡t-test
두 집단의 평균이 다르다고 볼 수 있는지 알아보는 테스트
*t란 그룹간 평균 차이에 비례하는 변수

💡t-vlaue: 표본편균의 차이/불확실도
특징1: 그룹 간 평균 차가 클 수록 t-value는 크다
특징2:
t-value를 불확실도로 나눈것 이므로, 
           평균차가 클 수록 t값은 커지고 불확실도가 적을 수록 t값은 커진다
특징3: 독립표본t-test(전혀다른 사람들끼리 비교) ,대응표본 t-test(같은 사람들의 A/B테스트)

 

https://angeloyeo.github.io/2020/02/13/Students_t_test.html

 

t-value의 의미와 스튜던트의 T 테스트 - 공돌이의 수학정리노트 (Angelo's Math Notes)

 

angeloyeo.github.io