본문 바로가기

분류 전체보기205

[통계학습] 회귀와 예측(1) 범위 : 4.1 단순선형회귀 ~ 4.4 회귀에서의 요인변수 4.1 단순성형회귀응답변수(반응변수) : 예측하고자 하는 변수(Y, 종속변수)독립변수 : 응답치를 예측하기 위해 사용되는 변수( X, 예측변수,픽처속성)레코드 : 한 특정 경우게 대한 입력과 출력을 답고 있는 벡터( 행)절편 : 회귀직선의 절편, X축이 0일때 Y값 -> 회귀식의 b0회귀계수(regression coefficient) : 회귀직선의 기울기 -> 회귀식의 b1적합값 (fitted value) : 회귀직선으로 부터 얻은 추정치(예측값)잔차(residual) : 관측값과 적합값의 차이 (오차)최소제곱 : 잔차의 제곱합을 최소화하여 회귀를 피팅하는 방법lm (limear model) :선형모델 4.1.1 회귀식단순선형회귀를 통해 X가 얼.. 2024. 6. 3.
[통계학습] 데이터와 표본분포(3) 범위 : 카이제곱검정 ~ 검정력과 표본크기 3.9 카이제곱검정카이제곱검정 : 횟수 관련된 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정카이제곱통계량 : 변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r X c분할표를 함께 사용, 기댓값으로부터 어떤 관찰값까지의 거리를 나타내는 측정치기댓값 : 어떤 가정(보통 귀무가설)으로부터 데이터가 발생할 때, 그에 대해 기대하는 정도(의미 : 귀무가설이 참일때 기대되는 값)피어슨잔차카이제곱통계량(피어슨잔차의 제곱합) 🎈  카이제곱통계량을 활용한 교차분석과 적합도 검정1. 교차분석 : 범주형 변수가 여러개인 경우 적용-> 범주형 변수의 범주간차이가 기댓값에서 유의미하게 벗어나는지 확인2. 적합도 검정 : 독립변수(범주형)가 하나 -> 변수.. 2024. 5. 29.
[통계학습] 통계적실험과 유의검정(2) 범위: 3.4 통계적 유의성과 p값 ~ 3.8 분산분석 3.4 통계적 유의성 검정  통계적유의성 : 자신의 실험의 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법P-value : 귀무가설을 구체화한 기회모델이 주어졌을때 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률alpha : 실제 결과가 통계적으로 의미있는 것으로 간주되기 위해, 우연에 의한 결과가 능가해야 하는 '비정상적인' 가능성의 임계확률제 1종오류 : 우연에 의한 효과를 실제 효과라고 잘못 결론을 내리는 것제 2종오류 : 실제 효과를 우연에 의한 효과라고 잘못 결론을 내리는 것  결과가격 A가격 B전환 O200182전환 X23,53922,406 결과 : 가격A는 가격 B에 비해 5% 우수한 .. 2024. 5. 27.
[통계학습] 통계적실험과 유의검정(1) 범위: 3.1 A/B 검정 ~ 3.3 재표본추출 3.1 A/B 검정 1) 가설을 세운다2) 실험을 설계한다3) 데이터를 수집한다4) 추론 및 결론을 도출한다 두가지 처리방법, 제품, 절차 중 어느쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험-> 원하는 결과의 방향으로 도출하기 위해 '원인'을 추가하거나-> 결과가 발생했을 때 해당 변화의 '원인'이 예상한 것과 동일한지 판단하기 위해https://www.beusable.net/blog/?p=2854처리: 어떤 대상에 주어지는 특별한 환경이나 조건처리군 : 특정 처리에 노출된 대상들의 집단대조군 : 어떤 처리도 하지 않은 대상들의 집단임의화(랜덤화) : 처리를 적용할 대상을 임의로 결정하는 과정대상(피실험자).. 2024. 5. 22.
[통계학습] 데이터와 표본분포(3) 범위 : 이항분포, 카이제곱분포, F분포, 포아송분포 등  0. 주요개념확률분포 : 어떤 확률변수가 취할 수 있는 모든 가능한 값들에 대응하는 확률이 어떻게 분포되어 있는지를 의미하는 분포로 모집단의 형태를 나타낸다 변수X가 어떤값 x를 가진 활률P(X=x)확률변수의 값확률의 계산이산확률 변수확률질량함수( Probability Mass Function, PMF )정수합을 통한 계산연속확률 변수확률밀도함수( Probability Density Function, PDF)실수적분을 통한 계산  2.9 이항분포(이산확률분포: 변수의 값이 명확하고 수가 한정적)시행 : 독립된 결과를 가져오는 하나의 사건성공 : 시행에 대한 관심의 결과이항식: 두가지 결과를 갖는 식(예/아니오)이항시행: 두 가지 결과를 가져오는 .. 2024. 5. 20.
[통계학습] 데이터와 표본분포(2) 범위 2.4 부트스트랩 ~ 2.8 스튜던트의 T분포2.4 부트스트랩모수의 표본분포를 추정하는 효과적인 방법으로 표본을 복원추출하여 통계량과 모델을 다시 계산하는 것-> 데이터나 표본통계량이 정규분포를 따를필요 없음-> 복원추출 장점: 원소가 뽑힐 확율을 그대로 유지하면서 큰 모집단 형성 가능부트스트랩 표본: 관측데이터 집합으로부터 얻은 복원추출재표본추출(재표집, 리샘플링) : 관측데이터로부터 반복해서 표본을 추출하는 과정(여러표본이 결합되어 비복원추출을 수행할 수 있는 순열과정을 포함)*부트스트랩은 항상 관측된 데이터로부터 복원추출 1) 부트스트랩 알고리즘샘플값을 하나 뽑아서 기록하고 다시 제자리에 놓는다n번 반복재표본추출된 값의 평균을 기록한다1~3간계를 R번 반복한다 *반복이 많을 수록 표준오차나 신.. 2024. 5. 14.