본문 바로가기
학습노트/아티클,도서

[도서] 통계 101 X 데이터 분석 (1)

by kime2 2024. 6. 13.

 

1. 통계학이란

데이터 분석의 목적

데이터를 요약하는 것

대상을 설명하는 것

기술통계 : 수집한 데이터를 정리하고 요약하는 방법

확보한 데이터에만 집중하면서 데이터 자체의 성질을 이해하는 것을 목표로 함

추론통계 : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법

추론통계의 방법 : 통계적추론, 가설검정

 

2. 모집단과 표본

데이터 분석의 첫 단계는 분석 목적을 정하는 것이다

분석의 목적과 알고자 하는 대상에 기초하여 직접 모집단을 설정

모집단 : 통계학에서 알고자 하는 대상 전체

모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고,

미지의 데이터를 예측할 수 있다

 Q. 어떻게 모집단의 성질을 알 수 있을까?

A. 전수조사 but..시간과 비용.. 그렇다면 표본조사

추론통계 : 모집단의 일부를 분석하여 모집단의 전체의 성질을 추정하는 방법

모집단의 일부 = 표본

모집단에서 표본을 뽑는 것 = 표본추출

표본을 이용해 모집단의 성질을 조사하는 것 = 표본조사

표본에 포함된 요소의 개수 = 표본크기 

> 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 떄문에 중요함!

표본의 개수 = 샘플 수

 

3. 통계분석의 기초

1) 데이터 유형

변수 = 공통의 측정방법으로 얻은 같은 성질의 값

예) 데이터에 '키'만 포함되어 있는 경우 1변수 데이터라고 함

데이터에 '키'와 '몸무게'모두  포함되어 있는 경우 2변수 데이터 라고 함

통계학에서는 이러한 변수의 개수를 '차원'이라고도 함!

 

양적변수(수치형) = 숫자로 나타낼 수 있는 변수 

대소관계가 있고, 평균값처럼 계산가능

이산형 = 얻을 수 있는 값이 점에 있는 것

연속형 = 값이 간격없이 이어지는 것

 

질적변수(범주형) = 숫자가 아닌 범주로 나타내는 변수

 

2) 통계량

통계량 : 수집한 데이터로 이런저런 계산을 수행하여 얻은 값

데이터 그 자체의 성질을 기술하고 요약하는 통계량 = 기술통계량

대푯값 : 평균값, 중앙값, 최빈값

의미 : 대략적인 분포 위치, 대표적인 값을 정량화하기 위해 사용하는 통계량

데이터 퍼짐 정도를 나타내는 값 : 분산, 표준편차

데이터의 대푯값만 보면 생략된 데이터들에 해석이 어렵기 떄문에 분포도 함께 봐야 한다

표본분산 : 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가하는 것

 

 

명확한 정의는 없으니

평균값에서 표준편차의 2배 또는 3배 이상 법어난 숫자를 이상값이라고 함

 

3) 확률

확률 =  발생여부가 불확실한 사건의발생

확률분포 = 가로축에 확률변수를 세로축에 그 확률변수의 발생 가능성을 표시한 분포

>그러나 확률 밀도 함수의 세로축은 확률 그 자체의 값이 아닌 상대적인 발새 가능성,

확률밀도함수를 적분하여 x축과 확률밀도함수로 둘러싸인 부분의 넓이를 구해야 함

> 확률변수가 어떤 값에서 어떤 값까지의 범위에 들어갈 확률을 알고 싶다면,

확률밀도 함수를 적분하여 x축과 확률밀도함수로 둘러싸인 부분의 넒이를 구해야 함

 

기댓값 = 변수가 확률적으로 얼마나 발생하기 쉬운가를 평균적인 값으로 나타낸 값

확률변수가 2개인 동시확률분포P(X,Y)

독립변수

X와 Y가 독립적이라는 것은 이는 한쪽이 어떤 값을 취하든지 다른쪽의 발생확률은 변하지 않는 것

P(X,Y) = P(X) * P(Y)

 

조건부확률 P(X|Y)

한쪽 확률변수 Y의 정보가 주어졌을때 , 다른 한쪽 확률변수 X의 확률

 

4) 이론적인 확률분포

파라미터, 모수 = 분포의 형태를 정하는 숫자

> 파리미터를 알면 확률분포의 형태를 알 수 있음

 

정규분포

파라미터 : 평균, 표준편차

평균을 중심으로 한 종모형의 좌우대칭 분포

평균 근처값이 가장 많고 평균에서 멀어질수록 적어진다

 

표준화 = 평균이 0, 표준편차가 1인 정규분포

표준화된 값을 z값이라고 함

평균과의 거리가 표준편차의 몇배인가를 나타내기 때문에 분포안에서 어디 위치하는지 알 수 있음

> 편균과 표준편차에 기준을 두고 데이터를 나열하는 것은,

본래 점수 자체가 아닌 분포 안에서의 위치로 평가할 수 있게 한다

 

 

표본오차의 확률분포를 알면 어느정도 크기의 오차가, 어느정도 확률로 나타나는지 알 수 있음

 

중심극한정리

모집단이 어떤 분포든지 표본의 크기가 커질수록 표본평균의 분포가 정규분포에 가까워진다

정규분포에서는 평균과 표준편차(또는 분산)을 알면 분포 형태와 위치를 알 수 있음

 

추정량 = 모집단의 성질을 추정하는데 사용하는 통계량

표본크기 n을 무한대로 했을때

모집단의 성질과 일치하는 추정량을 일치추정량,

추정량의 평균값이 모집단의 성질과 일치할때는 비편향추정량 > 매번 얻을때마다 확률적으로 다른 값(평균적으로는 비슷하지만)

 

표본오차, 표준편차

 

신뢰구간

 

95%의 신뢰구간

모집단에서 표본을 추출하여 95%의 신뢰구간을 구하는 작업을

100번 반복했을때 평균적으로 그 구간에 모평균이 포함되는 것이 95번 이라는 뜻

 

신뢰구간은 표본에서 구한 모집간의 평균의 추정값을 어느정도 신뢰할 수 있는지를 나타냄

> 신뢰구간이 좁다면 추정값 가까이에 모평균이 있다고 생각할 수 있음

> 신뢰구간이 넓다면 추정값과 모집단 평균 모평균 사이의 오차는 코지는 경향이 있어 신뢰도가 낮아짐

 

중심극한 정리는 표본크기 n이 커질수록 근사적으로 성립하기 때문에

실제 데이터 분석에서 볼 수 있는 작은 표본크기의 경우 표본오차가 정규분포를 따른다고 말할 수 없음

따라서 t분포 필요

t분포의 95%신뢰구간이 더 넓다 > 신뢰도가 정규분포보다 더 낮음

따라서 정밀도(신뢰)를 높이기 위해서는

표준오차 s/√n가 중요

표준오차를 작게 말들기 위해서는 표준편차s를 작게하거나

분모의 표본크기인 n을 크게 할 수 있음

 

t분포 사용시 주의할 점은

표본크기가 작아도 정규분포에서 얻은 데이터라는 가정이 필요하다

 

5장. 가설검정

가설검정은 P값이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다

 

예) 가설: 신약헤 효과가 있다

가설검정에는 신약에 효과가 있음을 확인하기 위해

귀무가설(신약에 효과가 없다)을 세우고

이 귀무가설이 틀렸음을 주장하는 것으로 대립가설을 지지한다 

 

그러나 모집단으로 부터 얻은 a,b의 표본의 평균이 같지 않을 수 있다

 

이는 약에 아무 효과가 없더라도 a,b의 표본의 평균이 가를 수 있으므로

a,b표본 평균의 차이가 귀무가설이 옳을때도 생기는 단순한 데이터 퍼짐인지,

아니면 정말로 약의 효과가 있는건지 구별해야함!!

 

귀무가설이 옳다면?

a,b의 표본의 평균의 차는 0에 가까워야 한다

그러나 이 현실의 값( a,b의 표본의 평균의 차 )은 귀무가설이 옳은 세계에서는 어떤 빈도로 발생할까?

만약 극히 드물게 나타나는 현상이라면

귀무가설이 옳다고 할 수 있을까?

이렇게실체 표본a,b로부터 얻은데이터가 귀무가설이 옳은 세계에서

얼마나 나타나기 쉬운가 또는 어려운가를 평가하는 값이 P-값이다(확룰이므로 0이상 1이하)

 

즉, p값이란

귀무가설이 옳다고 가정했을때 관찰한 값이상으로 극단적인 값이 나올 확률

 

이 값이 작다는 것은

귀무가설이 옳을 경우 현실의 데이터가 잘 나타나지 않는 다는 것

 

현실에서 얻은 평균값의 차이가 10 이고, p =0.01이라면

귀무가설이 옳은 세계에서 평균값의 차이가 10이상 -10이하일 확률은 1%인 것!

 

p값이 0.05이하인 경우 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 생각하고,

귀무가설을 기각하고 대립가설을 선택한다 

= 통계적으로 유의하다

 

p값이 0.05를 상회하는 경우 귀무가설을 기각할 수 없음

= 통계적으로 유의미한 차이는 발견하지 못함

 

귀무가설을 기각할 것인지 채택할 것인지를 판단하는 기준은 유의수준a

 

2) 가설검정 실행

가설검정의 개념은 다양한 검정기법에서 공통이지만 (모든 검정에서 p값을 구함)

P값을 계산하는 방법은 다름

 

유의수준 5% > 양 끝2.5%씩 발생할 것을 고려

실제 값이 이 귀무가설이 옳을 때의 분포 내 어디에 위치하는지 구한 뒤,

그 이상의 극단적인 값이 나올 확률(넒이) = p값

 

양측검정 =  양수, 음수 양쪽을 모두 고려하는 가설검정

단측검정 = 어느 한쪽만 고려해 넒이를 계산하는 방법

 

예) a표본과 b표본의 평균값을 비교하기

두 표본의 평균의 차 = -10.9

이떄의 t = -2.73

두 표본이 동일하다는 가정하에 두 표본의 평균의 차 = -10.9일 활률은 1.8%

> 매우 드문 현상

유의수준 0.05기준하여 두 분표는 통계적으로 유의미한 차이를 보인것으로 해석

 

3) 가설검정 관련 그래프

오차막대의 계산

평균값의 확률을 나타내고 싶다면, 평균값 +-표준오차를 사용한다(표준오차 = s/√n)

신뢰구간을 나타내고 싶다면, 평균값을 중심으로95% 신뢰구간을 그린다

데이터 퍼짐을 나타내고 싶다면 평균값+-표준편차를 사용

유의수준에 따라오차막대가 겹쳐 있다면 통계적으로 유의미한 차이가 없다고 할 수 있다

(기준으로 하는 유의수준에 따라 달라지므로 꼭 명시)

 

4) 제1종오류와 제2종오류

제1종오류 = 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못

> 모집단을 직접 알 수 없기때문에 유의수준을 이용하여 제 1종 오류가 일어날 확률을 통제할 수 있다

따라서 p값과 유의수준을 이용하여 제1종오류가 일어날 확률을 통제 

> p값은 귀무가설이 옳다고 가정했을때 실제로 얻은 데이터 이상으로 극단적인 값이 나타날 확률인데

확보한 데이터가 정말 귀무가설에서 얻은 것이라면p<a의 확률은 a(유의수준)이다

따라서 a를 경계로 귀무가설을 기각하면

귀무가설이 옳은데도 착오로 귀무가설을 기각해 버리는 오류가 확률a만큼 발생한다

> 즉, 유의수준의 값을 미리 정해둠으로써, 제1종 오류가 일아날 확률을 통제할 수 있다는 것~

a=0.05라는 것은 차이가 없다고 주장하는데  20번중 1번은 차이가 발생하는 위험을 수용하겠다는 것

 

제2종오류 = 정말로 차이가 있는데 차이가 있다고 말할 수 없어, 귀무가설을 기각하는 판단을 내려버리는 것

2종 오류가 일어나지 않는 다는다는 것은

정말로 차이가 있을때 차이가 있다고 올바르데 판단할 확률 = 검정력 = 1-b

일반적으로 검정력은 80%정도로 설정하는데

1종오류와 같이 직접 통제할 수 없음

 

1종오류와 2종오류의 상충관계

1종 2종 오류 모두 없게 하고 싶은데 두 관계는 상충관계이다

a=0.05에서 0.01로 변경하면

사실은 차이가 없는데 있다고 말할 오류를 5%에서 1%로 줄일 수 있지만

 

한편으로는 b가 증가하여(차이가 있는데 없다고 잘못말할 오류)는 증가하게 된다

다행이 n이 증가하면 b가 줄어들기 때문에

a를 고정하고 n을 최대한 크게 하여 검정력(정말 차이가 있어서 판단할 확률)을 증가시키는 것이 좋다

 

효과크기 = 일반적으로 얼마나 큰 효과가 있는지를 나타내는 지표

평균값의 차이에 비해 표준편차(원래의 퍼짐 정도)가 클수록 2개 분포의 겹치는 부분이 커지므로

효과크기는 작아지고 평균값의 차이는 검출하기 어려워짐