본문 바로가기

학습노트/통계28

[통계학습] 데이터와 표본분포(3) 범위 : 카이제곱검정 ~ 검정력과 표본크기 3.9 카이제곱검정카이제곱검정 : 횟수 관련된 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정카이제곱통계량 : 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r X c분할표를 함께 사용, 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도(의미 : 귀무가설이 참일때 기대되는 값)피어슨잔차카이제곱통계량(피어슨잔차의 제곱합) 🎈  카이제곱통계량을 활용한 교차분석과 적합도 검정1. 교차분석 : 범주형 변수가 여러개인 경우 적용-> 범주형 변수의 범주간차이가 기댓값에서 유의미하게 벗어나는지 확인2. 적합도 검정 : 독립변수(범주형)가 하나 -> 변수.. 2024. 5. 29.
[통계학습] 통계적실험과 유의검정(2) 범위: 3.4 통계적 유의성과 p값 ~ 3.8 분산분석 3.4 통계적 유의성 검정  통계적유의성 : 자신의 실험의 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법P-value : 귀무가설을 구체화한 기회모델이 주어졌을때 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률alpha : 실제 결과가 통계적으로 의미있는 것으로 간주되기 위해, 우연에 의한 결과가 능가해야 하는 '비정상적인' 가능성의 임계확률제 1종오류 : 우연에 의한 효과를 실제 효과라고 잘못 결론을 내리는 것제 2종오류 : 실제 효과를 우연에 의한 효과라고 잘못 결론을 내리는 것  결과가격 A가격 B전환 O200182전환 X23,53922,406 결과 : 가격A는 가격 B에 비해 5% 우수한 .. 2024. 5. 27.
[통계학습] 통계적실험과 유의검정(1) 범위: 3.1 A/B 검정 ~ 3.3 재표본추출 3.1 A/B 검정 1) 가설을 세운다2) 실험을 설계한다3) 데이터를 수집한다4) 추론 및 결론을 도출한다 두가지 처리방법, 제품, 절차 중 어느쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험-> 원하는 결과의 방향으로 도출하기 위해 '원인'을 추가하거나-> 결과가 발생했을 때 해당 변화의 '원인'이 예상한 것과 동일한지 판단하기 위해https://www.beusable.net/blog/?p=2854처리: 어떤 대상에 주어지는 특별한 환경이나 조건처리군 : 특정 처리에 노출된 대상들의 집단대조군 : 어떤 처리도 하지 않은 대상들의 집단임의화(랜덤화) : 처리를 적용할 대상을 임의로 결정하는 과정대상(피실험자).. 2024. 5. 22.
[통계학습] 데이터와 표본분포(3) 범위 : 이항분포, 카이제곱분포, F분포, 포아송분포 등  0. 주요개념확률분포 : 어떤 확률변수가 취할 수 있는 모든 가능한 값들에 대응하는 확률이 어떻게 분포되어 있는지를 의미하는 분포로 모집단의 형태를 나타낸다 변수X가 어떤값 x를 가진 활률P(X=x)확률변수의 값확률의 계산이산확률 변수확률질량함수( Probability Mass Function, PMF )정수합을 통한 계산연속확률 변수확률밀도함수( Probability Density Function, PDF)실수적분을 통한 계산  2.9 이항분포(이산확률분포: 변수의 값이 명확하고 수가 한정적)시행 : 독립된 결과를 가져오는 하나의 사건성공 : 시행에 대한 관심의 결과이항식: 두가지 결과를 갖는 식(예/아니오)이항시행: 두 가지 결과를 가져오는 .. 2024. 5. 20.
[통계학습] 데이터와 표본분포(2) 범위 2.4 부트스트랩 ~ 2.8 스튜던트의 T분포2.4 부트스트랩모수의 표본분포를 추정하는 효과적인 방법으로 표본을 복원추출하여 통계량과 모델을 다시 계산하는 것-> 데이터나 표본통계량이 정규분포를 따를필요 없음-> 복원추출 장점: 원소가 뽑힐 확율을 그대로 유지하면서 큰 모집단 형성 가능부트스트랩 표본: 관측데이터 집합으로부터 얻은 복원추출재표본추출(재표집, 리샘플링) : 관측데이터로부터 반복해서 표본을 추출하는 과정(여러표본이 결합되어 비복원추출을 수행할 수 있는 순열과정을 포함)*부트스트랩은 항상 관측된 데이터로부터 복원추출 1) 부트스트랩 알고리즘샘플값을 하나 뽑아서 기록하고 다시 제자리에 놓는다n번 반복재표본추출된 값의 평균을 기록한다1~3간계를 R번 반복한다 *반복이 많을 수록 표준오차나 신.. 2024. 5. 14.
[학습노트] 통계2. 데이터와 표본분포 (1) 표본분포 표본통계량 : 더 큰 모집단에서 추출된 표본데이터들로부터 얻은 측정지표데이터분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포표표본분포 : 어려 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포중심극한정리 : 표본크기가 커질수록 표본평균의 분포가 정규분포를 따르는 경향-> 추론을 위한 표본분포에(신뢰구간이나 가설검정을 계산하는데) t분포같은 정규근사 공식을 사용할 수 있게 함-> 표본평균의 분포표분오차(SE) : 여러 표본들로부터 얻은 표본통계량의 변량(분산, 표본분포의 변동성)-> 표본값들의 표준편차 s를 표본크기n의 제곱근으로 나눈 값-> 공식에 따라서 표분오차를 줄이기 위해선 n,표본의 크기를 키우면 된다-> cf. 표준편차 : 개별 표본들의 분산,  표본조사로 얻은 각 관측값과 표.. 2024. 4. 1.