범위 : 이항분포, 카이제곱분포, F분포, 포아송분포 등
0. 주요개념
확률분포 : 어떤 확률변수가 취할 수 있는 모든 가능한 값들에 대응하는 확률이 어떻게 분포되어 있는지를 의미하는 분포로 모집단의 형태를 나타낸다
변수X가 어떤값 x를 가진 활률 P(X=x) |
확률변수의 값 | 확률의 계산 | |
이산확률 변수 | 확률질량함수( Probability Mass Function, PMF ) | 정수 | 합을 통한 계산 |
연속확률 변수 | 확률밀도함수( Probability Density Function, PDF) | 실수 | 적분을 통한 계산 |
2.9 이항분포
(이산확률분포: 변수의 값이 명확하고 수가 한정적)
시행 : 독립된 결과를 가져오는 하나의 사건
성공 : 시행에 대한 관심의 결과
이항식: 두가지 결과를 갖는 식(예/아니오)
이항시행: 두 가지 결과를 가져오는 시행
이항분포 : n번 시행에서 성공한 획수에 대한 분포(베르누이 분포)
-> 성공확률(P)이 정해져 있을때, 주어진 시행횟수(n)중에서 성공한 횟수(x)의 도수분포
-> 이항분포의 평균 : n X p
-> 이항분포의 분산 : n X p(1-p) -> p가 충분할 경우(0.5) 정규분포와 구분이 어려움
1) 정의
'성공'에 해당하는 사건이 출현할 확률 p인 베르누이 시행을 독립적으로 반복해서 시행하여 일어난 두 가지 결과에 의해 그 값이 각각 0과 1로 결정되는 확률 분포
확률변수 : X = n회 독립적인 베르누이 시행에 성공의 수
기호 : X ~B(n,p)
기대값(평균) : E(x) = np
분산 : V(X) = npq
*q = 1 - p
2) 예시
사례 : 어떤 우체국에서 수거한 편지통의 20%에는 우편번호가 적혀있지 않는다(성공확률 0.8)
이 우체국에서 수거한 10통의(n회) 편지봉푸 중에서 편지봉투 7통(성공횟수)에 우편번호가 적혀있을 확률
확률변수 X = 10번의 시행에서 성공(7통)의 수
기호 : X ~B(10,0.8)
확률 0.2013
import numpy as np
from scipy import stats
stats.binom.pmf(7,n=10,p=0.8)
🎈 주요개념
- 이항결과는 무엇보다도 중요한 결정 사항들(구매/비구매, 생좀/죽음)을 나타내므로 모델을 만드는데 중요하다
- 이항시행은 두가지 결과 확률P 와 확률(1-P)인 실험을 말한다
- n이 크고 p가 0 또는 1에 너무 가깝지 않을 경우 정뷰분포에 근사한다
2.10 카이제곱 분포(연속확률분포)
(연속확률변수: 변수값을 정확하게 떨어지는 수치로 표현이 어렵고 변수의 개수도 무한대)
검정 결과가 톡립성에 대한 귀무가설의 기댓값에서 벗어난 정도를 측정하는 통계량
-> 관측 데이터가 특정 분포에 적합한 정도를 나타낸다
1) 정의
F분포와 동일하게 데이터가 흩어진 정도, 즉 치우침을 나타내는 분산의 특징을 확률분포로 만든 분포로
한 집단의 표분분산을 추론하는 분포(F분포는 두 집단의 표본분산을 비교하는 분포)
2) 활용
- 범주형 변수인 명목, 서열 자료의 동질성검정, 적합성검정, 독립성검정
- 연관성 검정을 위한 교차분석
- 추론통계에서 신뢰구간 및 가설검정
3) 특징
- 양의 값만 존재 : 분산의 제곱근을 다루기 때문
- 우측 꼬리가 긴 비대칭
- 자유도(v, 표본수-1)가 커질수록 종모양에 가까워지며 v>30일 경우 표준정규분포에 근사한다
🎈 주요개념
- 카이제곱분포는 일반적으로 범주에 속하는 주제 또는 항목의 수와 관련이 있다 -> 자유도
- 카이제곱통계는 귀무모델의 기댓값에서 벗어난 정도를 측정한다
2.11 F분포 (연속확률분포)
분산분석(ANOVA) : 각 그룹내 변동성에 대한 그룹의 평균간 변동성 비율을 비교하는 것
F분포 : 모든 그룹의 평균이 동일한 경우(귀무가설 채택) 무작위 순열 데이터에 의해 생성괴는 모든 값의 빈도 분포
모집단1개 -> 카이제곱분포, 모집단 여러개 -> F분포로 통계량을 산출
F분포 개념도 | F분포 :X의 분산/Y의 분산 |
![]() |
![]() |
1) 특징
- 정규 모집단의 모분산 비( Ratio)에 대한 통계적 추론(신뢰구간과 가설검정)에 활용
- 두 집단의 분산을 나누었을 때 1에 가까울수록 도 집단의 크기는 비슷하고, 1에서 멀수록 크기가 다름
- F통계량은 두 개의 서로 독립된 카이제곱확률변수를 각각의 자유도로 나눈 비율
- 활용 : 두 집단의 분산이 동일한지 알기 위함
🎈 주요개념
- F분포는 측정된 데이터와 관련된 실험 및 선형 모델에 사용된다
- F통계량은 관심요인으로 인해 변동성과 전체 변동성을 비교한다
🎈 관련개념
모집단의 모분산을 추정하기 위한 통계량은 표본분산
*표본분산: 모집단으로부터 무작위로n개의 표본을 추출할때 n개 표본들의 분산
2.12 포아송 분포와 그 외 관련 분포들
람다lambda : 단위 시간이나 단위 면적당 사건이 발생하는 비융
포아송 분포 : 표집된 간위 시간 혹은 공간에서 발생한 사건의 도수분포
지수분포 : 한 사건에서 그 다름사건까지의 시간이나 거리에 대한 도수분포
베이불분포 : 사건 발생률이 시간에 따라 변화흐는 지수 분포의 일반화된 버전
1-1) 포아송분포(이산확률분포)
독립성, 비례성, 비집락성인 3가지 포아송가정을 만족하는 실험에서 1인 단위시간 또는 단위공간내에 평균적으로 발생하는 사건의 수를 람다라고 할 때,
확률변수 X를 단위시간당 발생하는 사건의 수
-> 단위시간이나 단위 공간 내에서 혹은 내가 원하는 구간 동안에 사건이 몇 번 정도 일어나는지 알고 싶은 경우
1-2) 포아송분포 가정
독립성 : 서로 다른 구간에서 발생하는 사건의 수는 독립적이다
비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다
비집락성 : 충분히 짧은 구간에서 2회 이상 사건이 발생할 확률은 거의 없다
1-3) 포아송분포 예시
어느 정공책 5페이지를 검사하였는데, 오타가 총 10개 발견되었다. 이책에서 한 페이지를 검사하였는데 오타가 3개 나올 확률
2) 지수분포(연속확률분포)
어떤 사건이 발생할 때까지 경과시간에 대한 두 사건 사이의 시간(발생전과 발생)에 대한 확률분포
시간이 지날 수록 발생할 확률이 점점 작아지는 경우 사용(연속확률분포 가운데 무기억성을 가지는 유일한 분포)
* 무기억성 : 과거의 사건이 미래 정보와 전혀 연관성을 갖고 있지 않는 특성
예) 분당 편균적으로 0.2회 서비스 문의 전화가 걸려올 경우, 100분동안 서비스 센터 문의 전화
🎈 주요개념
일정비율로 발생하는 사건의 경우, 시간단위또는 공간 단위당 발생하는 사건의 수를 포아송분포로 모델링 할 수 있다
한 사건과 다름 사건간의 시간/거리를 지수분포로 모델링 할 수 있다
시간에 따라 변화하는 사건 발생률(예-고장률)은 베이불 분포로 모델링 할 수 있다
'학습노트 > 통계' 카테고리의 다른 글
[통계학습] 통계적실험과 유의검정(2) (0) | 2024.05.27 |
---|---|
[통계학습] 통계적실험과 유의검정(1) (0) | 2024.05.22 |
[통계학습] 데이터와 표본분포(2) (0) | 2024.05.14 |
[학습노트] 통계2. 데이터와 표본분포 (1) (0) | 2024.04.01 |
[학습노트] 통계1. 탐색적 데이터 분석 (0) | 2024.04.01 |