[강의노트] 통계 - 검정통계량, t-value

스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다

+ 참고: https://angeloyeo.github.io/2021/01/05/confidence_interval.html

신뢰 구간의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

angeloyeo.github.io

0. 평균

1) 평균을 망치는 요소

(1) 왜도: skewness

특장한 방향으로 데이터가 쏠려있는 것(보통 꼬리를 당긴 것 처럼 생겼다)
보통을 그래프를 통해 보이며, 왜도가 있을 경우 평균이 전체 데이터를 대표하지 못함

(2) 이상치: outlier

다른 관측치와 유의하게 다른 데이터
유의하다는 것의 의미가 다르지만 보통 소수의 데이터가 평균에 크게 영향을 주기 때문에 평균을 구할 때 제거하거나 변환함

2) 평균의 대표종류

산술평균	모든 데이터를 더한 뒤 전체 데이터의 수로 나누어 준것 가장 일반적으로 많이 참조되는 평균 왜도와 이상치에 위약
중앙값	데이터를 정렬하여 가운데 있는 관측치 왜도와 이상치에 강인하여 평균에 대안으로 활용 홀수/짝수에 따라 계산이 다름
최빈값	등장하는 관측치의 값이 다양하지 않을경우 효과적 평균의 의미와 다르기 때문에 제한적 사용

1. 중심극한정리 의 정의(CTL)

동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워 진다(위키피디아)
무작위로 추출된 표본의 크기가 커질수록 평균표본의 분포는 모집단의 분포모양과 관계없이 정규분포에 가까워진다. 이때 표본 평균의 표준편차는 모집단의 모 표준편차를 표본 크기에 제곱근으로 나눈 것과 같다(나무위키)
모집단의 형태가 어떻든지 간에 상관없이 추출하는 모집단이 서로 독립적이면 표본 평균의 분포는 정규분포를 따른다
-> 모집단으로부터 표번평균을 무수히 많이 샘플링하면 표본 평균의 분포는 정규분포와 근사하게 됨
https://angeloyeo.github.io/2020/09/15/CLT_meaning.html
https://youtu.be/iTNHQXGIEuU

1. 표본평균의 분포는 정규분포에 근사하게 된다
2. 모집단의 모양이 어떻든 관계없다
3. 표본을 추출하는 모집단이 서로 독립적이면 여러 모집단에서 추출하는 표본이더라도 표본평균의 분포는 정규분포에 근사하게 된다
➡️ 원래데이터의 분포가 무엇이든 표본 평균의 분포는 정규분포를 따른다

중심극한정리의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

angeloyeo.github.io

2. 분포 distrobution

1) 분포의 종류: 베르누이 분포 (동전 던지기 처럼 두가지만 존재) / 이항분포(동전을 여러개 던지고 앞면이 나온 개수) / 정규분포(종모양의 분포)

2) 정규분포

정규분포의 평균Mean, 분산variace -> 분포의 특징을 결정짓는 모수(parameter)
통계적 추정: 일반적으로 모수는 알고자 하는, 알 수 없기 때문에 통계를 통해 가장 그럴싸한 모수를 찾는다

3. 표본과 표본오차

모집단(최종적으로 알고 싶은 것)	표본집단
1. 모수(파라미터) -평균: 모평균(뮤) -분산: 모분산(시그마스퀘어) "모른다" ->표본집단으로 대체	1. 통계치 -평균: 표분평균(엑스바) -분산: 표본분산(에스제곱) "알고있음"
이상적으로 표본의 크기가 커질수록 표본으로 부터 계산하여 추정하는 값은 추정하고자 하는 모수와 같아지길 바람 -> 따라서, 이상적인 추정량은 그 추정량의 기대값이 모수와 같은 것 -> 표본분산은 n대신 (n-1)로 나눈다

1) 모집단과 모수

모집단: 정보를 얻고자 하는 집단의 전체집합

정규분포의 경우 평균값과 표준편차 값을 이용하면 형태를 파악할 수 있다. 즉 전체집단의 모든 데이터를 알지 못해도 모집단의 특성을 통계적으로 확인 가능 -> 이런 특성치를 모수(parameter) : 평균, 분산, 표준편차, 분위수, 모비율

즉, 모집단의 전체 데이터는 알 수 없지만 모수를 파악하여 모집단의 특성을 파악

2) 표본집단과 표본통계량

표본: 모집단의 부분집합 -> 추출이유: 모집단 전체를 검사하기 어렵기 때문

표본은 매번 추출할 때마다 값이 달라진다 -> 랜덤하게 봅아야함!

추출된 표본들을 통계적으로 기술하는 통계적 특징 = 표본통계량 : 표본평균, 표본표준편차, 표본비율

표본이 매번 추출할 때마다 값이 변하므로(추정치 이므로) 표본 통계량도 매번 변한다

3) 표준오차(SEM) = 표본 평균의 표준편차

표준오차: 표본통계량의 표준편차

표본통계량도 표본추출에 따라 매번 변하기 때문에 표본통계량도 매번 변동한다(오차가 있다)

*표본 통계량은 추정치이므로 추정오차가 발생하는데 이것을 표준오차 라고 함!

- 표준편차는 모집단의 분포가 얼마나 퍼져있는가!
- 표본오차(SEM)은 표본들의 평균의 추정치에 대한 불확실도를 수치화 한것

https://angeloyeo.github.io/2020/02/12/standard_error.html

표본과 표준 오차의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes)

angeloyeo.github.io

4. 정규분포의 한계와 t-분포

1) 한계

중심극한정리CTL는 표본 평균의 분포가 정규분포를 따르지만...평균을 알고싶지만 분산도 모름
CTL을 만족할 만큼 데이터가 충분하지 않음

2) t-분포(정규분포보더 더 넓은 분포)

정규분포와 닮았다(표본과 관련이 있기 때문)
데이터가 무수히 많다면 t분포는 정규분포에 수렴

5. 검정통계량과 t-value

의미: 통계적가설(귀무/대립가설)의 진위 여부를 검정하기 위해 표본으로 부터 계산하는 통계량

즉, 표본통계량을 2차 가공한 것으로 통계적 가설 진위 여부를 검정한다는 것은 검정통계량의 값이 기준을 벗어나는지 확인하여 진위여부를 판단하는 것

1) t-value = t-test를 수행하여 얻은 결과값

의미: 차이/불확실도, 조사 및 연구 진행시 (추정치인)두 표본 집단의 차이를 비교할 필요가 있음

주로 표본 평균의 차이를 비교하고자 검종통계량의 방법으로 t-value를 사용

예) 새로운 약물의 약효

통계적으로 비교할 때에는 두 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값의 오차를 수반한다는 사실!

* 표본통계량의 불확신도에 대한 개념: 표준오차

-> 표준평균 차이의 통계적지표 t = (두 표본 그룹 평균의 차이 -> 표준오차)/(두 그룹 간 평균 차이에 대한 불확실도)

2) 충분히 큰 t-value

하나의 모집단에서 두 개의 표본 그룹을 추출해서 t-value를 구하면 많은 경우 0에 가깝게 계산되지만 가끔 하나의 동일한 모집단입에도 t-value가 2,3 등 큰 값을 가지게 됨

두 표본집단이 하나의 모집단에서 나왔다고 가정할 때 이런 큰 t-value가 나왔을 확률은 아주 낮으므로, 이 두 표본집단이 하나의 모집단에서 나왔을 것이라는 가정을 맞출 확률도 낮다

즉, 충분히 큰 t-value는 t-분포상에서 결정되고, t-분포의 대략적인 형태는 두 표본집단을 추출하여 예산하는 과정에서 확인할 수 있다.

t-value는 두 표본에 대해서 표본집단 평균간의 차이에서 그 차이에 대한 불확실도를 나눠줌으로써
집단간의 차이와 이 차이가 얼마나 확실한지 설명

한계: t-분포는 표본수(자유도)에 따라 모양이 다르기 때문에 같은 t-value라도 표본수에 따라 표뵨간 차이를 해석하는게 달라진다

💡t-test
두 집단의 평균이 다르다고 볼 수 있는지 알아보는 테스트
*t란 그룹간 평균 차이에 비례하는 변수

💡t-vlaue: 표본편균의 차이/불확실도
특징1: 그룹 간 평균 차가 클 수록 t-value는 크다
특징2: t-value를 불확실도로 나눈것 이므로,
평균차가 클 수록 t값은 커지고 불확실도가 적을 수록 t값은 커진다
특징3: 독립표본t-test(전혀다른 사람들끼리 비교) ,대응표본 t-test(같은 사람들의 A/B테스트)

https://angeloyeo.github.io/2020/02/13/Students_t_test.html

t-value의 의미와 스튜던트의 T 테스트 - 공돌이의 수학정리노트 (Angelo's Math Notes)

angeloyeo.github.io

'학습노트 > 통계' 카테고리의 다른 글

[통계학습] 데이터와 표본분포(2) (0)	2024.05.14
[학습노트] 통계2. 데이터와 표본분포 (1) (0)	2024.04.01
[학습노트] 통계1. 탐색적 데이터 분석 (0)	2024.04.01
[강의노트] 통계 - 통계적 가설검정, p-value (1)	2024.01.22
[강의노트] 통계 - 검정통계량, ANOVA (1)	2024.01.22

more and more

[강의노트] 통계 - 검정통계량, t-value

0. 평균

1. 중심극한정리 의 정의(CTL)

2. 분포 distrobution

3. 표본과 표본오차

4. 정규분포의 한계와 t-분포

5. 검정통계량과 t-value

'학습노트 > 통계' 카테고리의 다른 글

티스토리툴바

[강의노트] 통계 - 검정통계량, t-value

0. 평균

1. 중심극한정리 의 정의(CTL)

2. 분포 distrobution

3. 표본과 표본오차

4. 정규분포의 한계와 t-분포

5. 검정통계량과 t-value

'학습노트 > 통계' 카테고리의 다른 글

관련글

티스토리툴바