본문 바로가기
학습노트/통계

[통계학습] 데이터와 표본분포(3)

by kime2 2024. 5. 20.

 

범위 : 이항분포, 카이제곱분포, F분포, 포아송분포 등

 

 0. 주요개념

확률분포 : 어떤 확률변수가 취할 수 있는 모든 가능한 값들에 대응하는 확률이 어떻게 분포되어 있는지를 의미하는 분포로 모집단의 형태를 나타낸다

  변수X가 어떤값 x를 가진 활률
P(X=x)
확률변수의 값 확률의 계산
이산확률 변수 확률질량함수( Probability Mass Function, PMF ) 정수 합을 통한 계산
연속확률 변수 확률밀도함수( Probability Density Function, PDF) 실수 적분을 통한 계산

 

 

2.9 이항분포

(이산확률분포: 변수의 값이 명확하고 수가 한정적)

시행 : 독립된 결과를 가져오는 하나의 사건

성공 : 시행에 대한 관심의 결과

이항식: 두가지 결과를 갖는 식(예/아니오)

이항시행: 두 가지 결과를 가져오는 시행

이항분포 : n번 시행에서 성공한 획수에 대한 분포(베르누이 분포)

-> 성공확률(P)이 정해져 있을때, 주어진 시행횟수(n)중에서 성공한 횟수(x)의 도수분포

-> 이항분포의 평균 : n X p

-> 이항분포의 분산 : n X p(1-p) -> p가 충분할 경우(0.5) 정규분포와 구분이 어려움

 

1) 정의

'성공'에 해당하는 사건이 출현할 확률 p인 베르누이 시행을 독립적으로 반복해서 시행하여 일어난 두 가지 결과에 의해 그 값이 각각 0과 1로 결정되는 확률 분포

확률변수 : X = n회 독립적인 베르누이 시행에 성공의 수

기호 : X ~B(n,p)

기대값(평균) : E(x) = np

분산 : V(X) = npq

*q = 1 - p

 

2) 예시

사례 : 어떤 우체국에서 수거한 편지통의 20%에는 우편번호가 적혀있지 않는다(성공확률 0.8)

이 우체국에서 수거한 10통의(n회) 편지봉푸 중에서 편지봉투 7통(성공횟수)에 우편번호가 적혀있을 확률

확률변수 X = 10번의 시행에서 성공(7통)의 수

기호 : X ~B(10,0.8)

확률 0.2013

import numpy as np
from scipy import stats

stats.binom.pmf(7,n=10,p=0.8)

 

🎈 주요개념

  • 이항결과는 무엇보다도 중요한 결정 사항들(구매/비구매, 생좀/죽음)을 나타내므로 모델을 만드는데 중요하다
  • 이항시행은 두가지 결과 확률P 와 확률(1-P)인 실험을 말한다
  • n이 크고 p가 0 또는 1에 너무 가깝지 않을 경우 정뷰분포에 근사한다

 

2.10 카이제곱 분포(연속확률분포)

(연속확률변수: 변수값을 정확하게 떨어지는 수치로 표현이 어렵고 변수의 개수도 무한대)

검정 결과가 톡립성에 대한 귀무가설의 기댓값에서 벗어난 정도를 측정하는 통계량

-> 관측 데이터가 특정 분포에 적합한 정도를 나타낸다


1) 정의

F분포와 동일하게 데이터가 흩어진 정도, 즉 치우침을 나타내는 분산의 특징을 확률분포로 만든 분포로

한 집단의 표분분산을 추론하는 분포(F분포는 두 집단의 표본분산을 비교하는 분포)

 

2) 활용

  • 범주형 변수인 명목, 서열 자료의 동질성검정, 적합성검정, 독립성검정 
  • 연관성 검정을 위한 교차분석
  • 추론통계에서 신뢰구간 및 가설검정

3) 특징

  • 양의 값만 존재 : 분산의 제곱근을 다루기 때문
  • 우측 꼬리가 긴 비대칭
  • 자유도(v, 표본수-1)가 커질수록 종모양에 가까워지며 v>30일 경우 표준정규분포에 근사한다

🎈 주요개념

  • 카이제곱분포는 일반적으로 범주에 속하는 주제 또는 항목의 수와 관련이 있다 -> 자유도
  • 카이제곱통계는 귀무모델의 기댓값에서 벗어난 정도를 측정한다

2.11 F분포 (연속확률분포)

분산분석(ANOVA) : 각 그룹내 변동성에 대한 그룹의 평균간 변동성 비율을 비교하는 것

F분포 : 모든 그룹의 평균이 동일한 경우(귀무가설 채택) 무작위 순열 데이터에 의해 생성괴는 모든 값의 빈도 분포

모집단1개 -> 카이제곱분포, 모집단 여러개 -> F분포로 통계량을 산출

F분포 개념도 F분포 :X의 분산/Y의 분산

 

1) 특징

  • 정규 모집단의 모분산 비( Ratio)에 대한 통계적 추론(신뢰구간과 가설검정)에 활용
  • 두 집단의 분산을 나누었을 때 1에 가까울수록 도 집단의 크기는 비슷하고, 1에서 멀수록 크기가 다름
  • F통계량은 두 개의 서로 독립된 카이제곱확률변수를 각각의 자유도로 나눈 비율
  • 활용 : 두 집단의 분산이 동일한지 알기 위함

 

🎈 주요개념

  • F분포는 측정된 데이터와 관련된 실험 및 선형 모델에 사용된다
  • F통계량은 관심요인으로 인해 변동성과 전체 변동성을 비교한다

 

 

🎈 관련개념

모집단의 모분산을 추정하기 위한 통계량은 표본분산

*표본분산: 모집단으로부터 무작위로n개의 표본을 추출할때 n개 표본들의 분산

 

 

 

2.12 포아송 분포와 그 외 관련 분포들

람다lambda :  단위 시간이나 단위 면적당 사건이 발생하는 비융

포아송 분포 : 표집된 간위 시간 혹은 공간에서 발생한 사건의 도수분포

지수분포 : 한 사건에서 그 다름사건까지의 시간이나 거리에 대한 도수분포

베이불분포 : 사건 발생률이 시간에 따라 변화흐는 지수 분포의 일반화된 버전

 

1-1) 포아송분포(이산확률분포)

독립성, 비례성, 비집락성인 3가지 포아송가정을 만족하는 실험에서 1인 단위시간 또는 단위공간내에 평균적으로 발생하는 사건의 수를 람다라고 할 때,

확률변수 X를 단위시간당 발생하는 사건의 수

-> 단위시간이나 단위 공간 내에서 혹은 내가 원하는 구간 동안에 사건이 몇 번 정도 일어나는지 알고 싶은 경우

 

1-2) 포아송분포 가정

독립성 : 서로 다른 구간에서 발생하는 사건의 수는 독립적이다

비례성 : 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다

비집락성 : 충분히 짧은 구간에서 2회 이상 사건이 발생할 확률은 거의 없다

 

1-3) 포아송분포 예시

어느 정공책 5페이지를 검사하였는데, 오타가 총 10개 발견되었다. 이책에서 한 페이지를 검사하였는데 오타가 3개 나올 확률

 

2) 지수분포(연속확률분포)

어떤 사건이 발생할 때까지 경과시간에 대한 두 사건 사이의 시간(발생전과 발생)에 대한 확률분포

시간이 지날 수록 발생할 확률이 점점 작아지는 경우 사용(연속확률분포 가운데 무기억성을 가지는 유일한 분포)

* 무기억성 : 과거의 사건이 미래 정보와 전혀 연관성을 갖고 있지 않는 특성

예) 분당 편균적으로 0.2회 서비스 문의 전화가 걸려올 경우, 100분동안 서비스 센터 문의 전화

 

🎈 주요개념

일정비율로 발생하는 사건의 경우, 시간단위또는 공간 단위당 발생하는 사건의 수를 포아송분포로 모델링 할 수 있다

한 사건과 다름 사건간의 시간/거리를 지수분포로 모델링 할 수 있다

시간에 따라 변화하는 사건 발생률(예-고장률)은 베이불 분포로 모델링 할 수 있다