스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다
+ 참고: https://angeloyeo.github.io/2021/01/05/confidence_interval.html
0. 평균
1) 평균을 망치는 요소
(1) 왜도: skewness
- 특장한 방향으로 데이터가 쏠려있는 것(보통 꼬리를 당긴 것 처럼 생겼다)
- 보통을 그래프를 통해 보이며, 왜도가 있을 경우 평균이 전체 데이터를 대표하지 못함
(2) 이상치: outlier
- 다른 관측치와 유의하게 다른 데이터
- 유의하다는 것의 의미가 다르지만 보통 소수의 데이터가 평균에 크게 영향을 주기 때문에 평균을 구할 때 제거하거나 변환함
2) 평균의 대표종류
산술평균 | 모든 데이터를 더한 뒤 전체 데이터의 수로 나누어 준것 가장 일반적으로 많이 참조되는 평균 왜도와 이상치에 위약 |
중앙값 | 데이터를 정렬하여 가운데 있는 관측치 왜도와 이상치에 강인하여 평균에 대안으로 활용 홀수/짝수에 따라 계산이 다름 |
최빈값 | 등장하는 관측치의 값이 다양하지 않을경우 효과적 평균의 의미와 다르기 때문에 제한적 사용 |
1. 중심극한정리 의 정의(CTL)
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워 진다(위키피디아)
- 무작위로 추출된 표본의 크기가 커질수록 평균표본의 분포는 모집단의 분포모양과 관계없이 정규분포에 가까워진다. 이때 표본 평균의 표준편차는 모집단의 모 표준편차를 표본 크기에 제곱근으로 나눈 것과 같다(나무위키)
- 모집단의 형태가 어떻든지 간에 상관없이 추출하는 모집단이 서로 독립적이면 표본 평균의 분포는 정규분포를 따른다
- -> 모집단으로부터 표번평균을 무수히 많이 샘플링하면 표본 평균의 분포는 정규분포와 근사하게 됨
- https://angeloyeo.github.io/2020/09/15/CLT_meaning.html
- https://youtu.be/iTNHQXGIEuU
1. 표본평균의 분포는 정규분포에 근사하게 된다
2. 모집단의 모양이 어떻든 관계없다
3. 표본을 추출하는 모집단이 서로 독립적이면 여러 모집단에서 추출하는 표본이더라도 표본평균의 분포는 정규분포에 근사하게 된다
➡️ 원래데이터의 분포가 무엇이든 표본 평균의 분포는 정규분포를 따른다
2. 분포 distrobution
1) 분포의 종류: 베르누이 분포 (동전 던지기 처럼 두가지만 존재) / 이항분포(동전을 여러개 던지고 앞면이 나온 개수) / 정규분포(종모양의 분포)
2) 정규분포
- 정규분포의 평균Mean, 분산variace -> 분포의 특징을 결정짓는 모수(parameter)
- 통계적 추정: 일반적으로 모수는 알고자 하는, 알 수 없기 때문에 통계를 통해 가장 그럴싸한 모수를 찾는다
3. 표본과 표본오차
모집단(최종적으로 알고 싶은 것) | 표본집단 |
1. 모수(파라미터) -평균: 모평균(뮤) -분산: 모분산(시그마스퀘어) "모른다" ->표본집단으로 대체 |
1. 통계치 -평균: 표분평균(엑스바) -분산: 표본분산(에스제곱) "알고있음" |
이상적으로 표본의 크기가 커질수록 표본으로 부터 계산하여 추정하는 값은 추정하고자 하는 모수와 같아지길 바람 -> 따라서, 이상적인 추정량은 그 추정량의 기대값이 모수와 같은 것 -> 표본분산은 n대신 (n-1)로 나눈다 |
1) 모집단과 모수
모집단: 정보를 얻고자 하는 집단의 전체집합
정규분포의 경우 평균값과 표준편차 값을 이용하면 형태를 파악할 수 있다. 즉 전체집단의 모든 데이터를 알지 못해도 모집단의 특성을 통계적으로 확인 가능 -> 이런 특성치를 모수(parameter) : 평균, 분산, 표준편차, 분위수, 모비율
즉, 모집단의 전체 데이터는 알 수 없지만 모수를 파악하여 모집단의 특성을 파악
2) 표본집단과 표본통계량
표본: 모집단의 부분집합 -> 추출이유: 모집단 전체를 검사하기 어렵기 때문
표본은 매번 추출할 때마다 값이 달라진다 -> 랜덤하게 봅아야함!
추출된 표본들을 통계적으로 기술하는 통계적 특징 = 표본통계량 : 표본평균, 표본표준편차, 표본비율
표본이 매번 추출할 때마다 값이 변하므로(추정치 이므로) 표본 통계량도 매번 변한다
3) 표준오차(SEM) = 표본 평균의 표준편차
표준오차: 표본통계량의 표준편차
표본통계량도 표본추출에 따라 매번 변하기 때문에 표본통계량도 매번 변동한다(오차가 있다)
*표본 통계량은 추정치이므로 추정오차가 발생하는데 이것을 표준오차 라고 함!
- 표준편차는 모집단의 분포가 얼마나 퍼져있는가!
- 표본오차(SEM)은 표본들의 평균의 추정치에 대한 불확실도를 수치화 한것
https://angeloyeo.github.io/2020/02/12/standard_error.html
4. 정규분포의 한계와 t-분포
1) 한계
- 중심극한정리CTL는 표본 평균의 분포가 정규분포를 따르지만...평균을 알고싶지만 분산도 모름
- CTL을 만족할 만큼 데이터가 충분하지 않음
2) t-분포(정규분포보더 더 넓은 분포)
- 정규분포와 닮았다(표본과 관련이 있기 때문)
- 데이터가 무수히 많다면 t분포는 정규분포에 수렴
5. 검정통계량과 t-value
의미: 통계적가설(귀무/대립가설)의 진위 여부를 검정하기 위해 표본으로 부터 계산하는 통계량
즉, 표본통계량을 2차 가공한 것으로 통계적 가설 진위 여부를 검정한다는 것은 검정통계량의 값이 기준을 벗어나는지 확인하여 진위여부를 판단하는 것
1) t-value = t-test를 수행하여 얻은 결과값
의미: 차이/불확실도, 조사 및 연구 진행시 (추정치인)두 표본 집단의 차이를 비교할 필요가 있음
주로 표본 평균의 차이를 비교하고자 검종통계량의 방법으로 t-value를 사용
예) 새로운 약물의 약효
통계적으로 비교할 때에는 두 표본 그룹의 평균값 차이를 계산하면서, 동시에 표본 그룹의 평균값의 오차를 수반한다는 사실!
* 표본통계량의 불확신도에 대한 개념: 표준오차
-> 표준평균 차이의 통계적지표 t = (두 표본 그룹 평균의 차이 -> 표준오차)/(두 그룹 간 평균 차이에 대한 불확실도)
2) 충분히 큰 t-value
하나의 모집단에서 두 개의 표본 그룹을 추출해서 t-value를 구하면 많은 경우 0에 가깝게 계산되지만 가끔 하나의 동일한 모집단입에도 t-value가 2,3 등 큰 값을 가지게 됨
두 표본집단이 하나의 모집단에서 나왔다고 가정할 때 이런 큰 t-value가 나왔을 확률은 아주 낮으므로, 이 두 표본집단이 하나의 모집단에서 나왔을 것이라는 가정을 맞출 확률도 낮다
즉, 충분히 큰 t-value는 t-분포상에서 결정되고, t-분포의 대략적인 형태는 두 표본집단을 추출하여 예산하는 과정에서 확인할 수 있다.
t-value는 두 표본에 대해서 표본집단 평균간의 차이에서 그 차이에 대한 불확실도를 나눠줌으로써
집단간의 차이와 이 차이가 얼마나 확실한지 설명
한계: t-분포는 표본수(자유도)에 따라 모양이 다르기 때문에 같은 t-value라도 표본수에 따라 표뵨간 차이를 해석하는게 달라진다
💡t-test
두 집단의 평균이 다르다고 볼 수 있는지 알아보는 테스트
*t란 그룹간 평균 차이에 비례하는 변수
💡t-vlaue: 표본편균의 차이/불확실도
특징1: 그룹 간 평균 차가 클 수록 t-value는 크다
특징2: t-value를 불확실도로 나눈것 이므로,
평균차가 클 수록 t값은 커지고 불확실도가 적을 수록 t값은 커진다
특징3: 독립표본t-test(전혀다른 사람들끼리 비교) ,대응표본 t-test(같은 사람들의 A/B테스트)
https://angeloyeo.github.io/2020/02/13/Students_t_test.html
'학습노트 > 통계' 카테고리의 다른 글
[통계학습] 데이터와 표본분포(2) (0) | 2024.05.14 |
---|---|
[학습노트] 통계2. 데이터와 표본분포 (1) (0) | 2024.04.01 |
[학습노트] 통계1. 탐색적 데이터 분석 (0) | 2024.04.01 |
[강의노트] 통계 - 통계적 가설검정, p-value (1) | 2024.01.22 |
[강의노트] 통계 - 검정통계량, ANOVA (1) | 2024.01.22 |