- 기초통계
- 추론통계
- 기술통계
- 상관분석
- 회귀분석
- 시계열분석
- 다차원척도법
- 주성분분석
기초통계
- 자료의 측정수준
- 자료는 부분자료와 수량자료로 나눌 수 있다
- 측정 = 실험을 하는 과정에서 추출된 원소나 관측자료를 얻는 것, 측정 수준에 따라 통계에 이용해야 하는 통계량과 검정량이 다르다
- 명목척도 = 단순한 번호, 순서에 의미가 없다
- 순서척도 = 순서가 의미
- 구간척도 = 등간척도, 측정대상이 갖고 있는 속성의 양을 측정하는것으로 구간 사이의 간격이 의미가 있다(순서 X) -> 온도
- 비율척도 = 순서와 간격에 의미가 있으며 0이 절대적인 의미 -> 무게, 나이, 시간, 거리
- 자료 종류에 대한 설명
측정 =표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 명목척도 = 측정 대상이 어느 집단에 속하는지 분류할 때 사용(성별, 출생지 등)
- 순서척도 = 측정 대상의 특성이 갖는 서열관계를 관측하는 척도(만족도, 학년, 신용등급)
- 구간척도 = 측정대사이 갖는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격에 의미가 있는 척도(온도, 물가지수, 주가지수)
- -> 측정대상이 갖는 속성의 양을 측정하는 것
- 비율척도 = 간격에 대한 비육이 의미를 가지는 자료로 절대적인 기준이 0이고 사칙연산이 가능하다
- 사분위범위 = 제1사분위수와 제3사분위수 사이의 거리를 전체 데이터 분포에서 중앙 50%의 데이터에 대한 범위
추론통계
-통계량 = 모수를 추정하기 위해 구하는 표본의 값
- 확률 및 확률분포에 대한 설명
확률 = 특정사건이 일어날 가능성의 척도
표본공간 = 통계적 실험을 실시할때 나타낼 수 있는 모든 결과들의 집합
사건 = 표본공간의부분집합
- 모든 사건의 확률값은 0이다
- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합니다
- *배반사건 = 사건 두개가 동시에 일어나지 않음, 두 사건 중 어느 한쪽이 일어날 확률은 두 확률의 합
- 두 사건이 독립이면 조건부확률과 동일하다
- *독립사건 = 두 사건이 서로 영향을 미치지 않고, 한 사건의 발생 여부가 다른 사건에 아무런 정보를 제공하지 않는 것
- 연속형 확률변수는 가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가진다
- 통계적 추론 = 자료의 정보를 이용하여 집단에 관한 추측, 결론을 이끌어 내는 과정
- 추정 = 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단들의 모수들에 대해 추론하는 것
- 점추정 = 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것
- 통계적 추론은 제한된 표본을 바탕으로 모집단에 일어나는 일반적인 결론을 유도하려는 시도로, 불확실성을 수반한다
- 구간추정은 모수의 참값이 포함되어있다고 추정되는 구간을 결정하는 것이지만 실제 모집단의 모수가 신뢰구간에 꼭 포함되는 것은 아님
- 구간추정방법과 신뢰구간
- 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을것이라고 선언
- 신뢰수준이 높아지면 신뢰수준의 길이는 길어진다
- 표본의 수가 많아지만 신뢰구간의 길이는 짧아진다
- 95% 신뢰구간 = 주어진 한개의 신뢰구간에 미지에 모수가 포함될 확률은 95% 다
- 추정과 가설검정
점추정 = 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것, 모수가 특정한 값이라고 추정하는 것
구간추정 = 일정한 크기의 신뢰구간으로 무수가 특정한 구간에 있을것이라고 선언하는것
-> 특정한 구간 = 신뢰구간
- p값 = 귀무가설이 사실일 때 관측된 검정통계량 값보다 더 대립가설을 지지하는 검정통계량
검정력 = 대립가설이 맞을 때 그것을 받아드리는 확률
- 추론과 가설검정
통계적 추론 = 자료의 정보를 이용하여 모집단에 관한 추측이나 결론을 내리는 과정 <- 추정과 가설검정에 의해
- 점추정 = 가장 참값이라고 여겨지는 하나의 모수 값을 택하는 것, 모수가 특정한 값일거라고 추정하는 것
- 구간추정 = 일정한 크기의 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 선언,
- P-vlaue = 귀무가설이 사실인데도 사실이 아니라고 판정할 때 실제확률, 귀무가설이 옳다는 가정하에서 실제 관측된 값보다 대립가설을 지지하는 방향으로 검정통계량이 치우쳐 나타낼 확률(567p)
- 검정력 = 대립가설이 맞을 때 그것을 받아들이는 확률
- P-Value(유의확률) : 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률, 귀무가설을 지지하는 정도
- p-value가 유의수준 보다 작은 경우, 귀무가설이 참이라고 가정했을때, 이러한 결과가 나올 확률이 매우 적다고 할 수 있음
- *유의수준(0.05) = 귀무가것을 기각하게 되는 확률의 크기, 귀무가설이 옳은데도 이를 기각하는 확률, 1종 오류와 2종 오류는 서로 반지례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 1종 오류를 허용할 수 있는 최대확률 유의수준을 설정
- 모분산의 추론
- 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다
- 정규분포로부터 n개를 단순 임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱분포를 따른다
- 모집단이 정규분포를 따르지 않더라도 중심극한정리에 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다
- 이 표본에 의한 분산비 검정은 두 표본이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다
- 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐의 정도에 관심이 있을 때 사용
- 표본조사 = 모집단 내에서 모집단의 특성을 잘 나타낼 수 있는 일부를 추출하여 자료를 수집하고 모집단을 추정
- 표본오차 = 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로 발생하는 오차
- 표본편의 = 모수는 작게 또는 크게 할 때 추정되는 것과 같이 표본추출방법에 기인하는 오차
- 표본편의 = 확률화에 의해 최소화하거나 없앨 수 있다
- *확률화 = 모집단으로부터 편의되지 않는 표본을 추출하는 절차, 확률표본을 추출함
- 비표본오차 = 표본오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등의 오차로 조사대상이 증가하면 비표본오차도 커진다
- 표본조사의 유의점
- 표본편의 = 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될때 생기는 오차
- 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다
- 표본값으로 모집단의 모수를 측정할때 표본오차의 비표본오차가 발생 가능
- 응답유도, 유도질문도 표본조사에서 유의할 점
- 표본조사
표본오차 = 모집단을 대표할 수 있는 표본단위들이 조사대상으로 추출되지 못하는 오차
표본편의 = 모수를 작게 또는 크게 할 때 추정되는 것과 같이 표본추출방법에 기인하는 오차
-> 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다
확률화 = 모집단으로 부터 편의되지 않은 표본을 추출하는 절차, 확률화절차에 의해 추출된 표본을 확률표본이라고 함
비표본오차 = 표본오차를 제외한 모든 오차, 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인등 모든 요차를 의미하며 조사대상이 증가하면 오차가 커진다
- 표본추출
- 표본의 크기를 결정할 떄 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지에 대한 대표성
- 단순랜덤 추출법 = 모집단에서 샘플을 뽑을 때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법
- 층화추출법 = 모집단을 몇개의 집단으로 구분하고 각 집단의 크기와 분산으로 고려하여 각 집단마다 샘플을 추출하는 방법
- 계통추출법 = 번호를 부여한 샘플을 나열하여 K개씩 n개의구간으로 나누고, 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 석택한다. 즉 임의 위치에 매 k번 항목을 추출하는 벙법
- 집락추출법 = 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출방법
- T-분포 = 연속형 확률 변수의 분포 중 정규분포로부터 유도되었으며, 정규분포의 평균을 측정할 때 주로 사용되는 분포로 평균의 차이 검증시 사용되는 분포
- F 분포 = 두 통계량의 평규을 비교하기 위해 분산을 우선 비교하려고 하용하는 분포
- 베르누이 분포 = 이산형 확률 분포 중 하나로 개별 사건이 두 가지 경우만 존재하며, 각 사건이 성공할 확률이 일정하고 전, 후 사건에 독립적인 특수한 상황의 확률분포
- 확률 및 확률분포
- 표본공간 = 어떤 실험이나 시도의 결과로 나올 수 있는 모든 가능한 결과의 집합
- P(A) = A의 수학적/통계적 확률 = (사건 A가 일어날 경우의 수)/(일어날 수 있는 모든 경우의 수)
- A 사건이 일어날 확률P(A)가 n번의 반복시행에서 사건 A가 일어날 횟수를 r이라고 할때 상대도수는 r/n ->n이 커짐에 따라 확률P(A)에 가까워진다
- 두 사건 A,B가 독립일 때 사건 B의 확률과 A가 일어났다는 가정 하에서 발생하는 B의 조건부확률은 동일하다
- 표본공간에서 임의의 사건이 일어날 확률은 0과 1사이에 있다
- 누적분포 함수
a<x<=b 라는 구간사건의 확률을 누적분포함수로 표현하면 p(a,b) = f(b)-F(a)
누적분포함수는 우측연속이다
확률변수 X의 누적분포함수 중 연속형 확률변수는 적분을 통해서 구한다
모든 확률 변수에 대해 누적분포함수는 존재하지만, 확률밀도(질량)함수가 존재하지 않는 확률 변수도 있다
- 확률분포 비교
- 연속형 확률분포: 정규분포, T분포, F분포, 지수분포
- 이산형 확률분포: 이항분포, 기하분포, 초기하 분포, 다항분포
- 확률변수
- 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현
- 이산형 확률변수는 확률변수 공간이 유효하거나 셀 수 있는 경우를 의미하며, 이항분포, 기하분포, 다항분포가 있다
- 이산형 확률분포는 베르누이, 포아송 분포가 있다
- 균일 분포는 확률변수 구간내에서 모든 확률이 동일한 분포
- 모수를 검증하기 위한)비모수적 방법
- 비모수적 검정은 모집단의 분포에 대하 아무런 제약을 가하지 않는다
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용
- 분포의 모수에 대한 가설을 설정하지 않소 분포의 형태에 대해 가설을 설정
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호등을 이용해 검정
모집단 모수에 대한 검정 방법 | 모수적 방법 | 비모수적 방법 |
검정하고자 하는 모집단의 문포에 대한 가정을 하고 그 가정하여검정통계량과 검정통계량의 분를 유도한다 | 자료가 추출된 모집단의 분포에 대한 아무 제약을(가정)을 가하지 않고 검정을 실시 사용: 관측된 자료가 특정 분포를 따르지 않을 때, 관측된 자료의 수가 많지 않거나 서열관계가 있을 경우 |
|
가설 설정 | 가정된 분포의 모수에 대한 가설 설정 | 가정된 분포가 없으므로 가설은 단지 분포의 형태가 동일하다/않다 의 분포의 형태에 대해서만 설정 |
검정 방법 | 관측된 자료를 이용하여 표본평균, 표본분산 등을 이용 -> ne sample t-test,
two sample t-test, paired t-test,one way anova |
관측값의 절대적인 크기에 의존하지 않고 관측값들의 순위나 두 관측값 차이에 대한 부호 -> Wilcoxon , Mann-Whitney, Kruskal Wallis
윌콕슨의 순위합검증 만-위트니의 U검정 스피어만의 순위상관계수 |
- 비모수 방법
- 관측된 자료가 주어진 분포를 따른다는 가정을 받아드릴 수 없을 때 이용
- 자료가 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용/아무런 제약을 하지 않음
- 분포의 모수에 대한 가설을 설정하지 않고 분포의 평태에 대한 가설을 설정
- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우
- 관측값의 절대적인 크기에 의존하지 않고 관측값들의 순위나 두 관측값 차이의 부호등을 이용해 검정한다
- -> 부호검정(sign) = 비모수 측 검정방법 중 하나로 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법
- -> 스피어만 상관계수 = 서열척도인 두 변수들의 상관관계 측정방식으로 순서를 기준으로 상관관계를 측정하는 비모수적 방법(비선형적인 관계도 나타낼 수 있음)
*모수적 방법 = 관측된 자료로 구한 표본평균과 표본분산 등을 이용하 검정을 실시할 경우
- 중심극한 정리
여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한정리를 사용하면 비정규적인 모집단에서도 이와 유사한 절차를 적용할 수 있다
표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 나타낸다
모집단의 분포가 대칭이면 표본의 크기가 작아도되지만, 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야 한다
동일한 확률분포를 가진 독립확률분포는 n이 적당히 크다면 정규분포에 가까워진다
- 공분산
X,Y방향이 선형성이다
cov(X,Y) = E[(X-m)(Y-m)]
X,Y가 독립이면 cov(X,Y)=0이다
-1과 1 보다 큰 값이 나올 수 있다
기술통계
- 산점도
두 변서 사이의 선형관과(직선관계)사 성립하는지 확인
이상값 존재 확인
두 변수 사이의 함수관계(직선/곡선)가 성립하는지 확인
몇개의 집단으로 구분(층별)되는지 확인
- 이(독립) 표본 t 검정
두 그룹의 분산이 같음을 의미하는 등분산성을 만족해야 하므로 이 표본 t검정을 수행하기 전에 등분산 검정(F검정)을 수행해야 한다
두 그룹이 서로 독립되어 있고, 각각의 그룹에서의 관측치들이 서로 영향을 미치지 않을 경우 사용
독립 표본 t 검정이라고 도 함
- 히스토그램
- 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타내며 계급은 보통 변수의 구간으로 서로 겹치지 않는다
- 표본의 크기가 작으면 막대의 높이가 데이터 분포의 형상을 잘 설명하지 않는다
- 그래프의 모양이 치우쳐있거나 봉우리가 여러개 있는 그래프는 비정규 테이터일 수 있다
- 봉우리가 여러개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생
- 모집단의 본포 파악방법
- 히스토그램 = 도수분포표를 이용하여 표본자료의 분포를 나타냄, 수평축위에 계끕구간을 표시하고 그 위로 각 계급의 상대도수에 비례하는 넓이의 직사각형을 그린다
- 줄기잎그림 = 계산량이 많지 않다
- 산점도 = 두 특성의 값이 연속적인 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원 자료에 대하여 좌표평면위에 찍는다
- 파레토그림 = 명목형 자료에서 중요한 소수를 찾는제 유용하다
상관분석
- 상관계수/상관분석
- 상관분석 = 변수들간의 연관성을 파악하기 위해 사용하는 분석기법중 하나로 변수간의 선형관계 정도를 분석,
- *회귀분석 = 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수의 값을 예측하는 모형
- 스피어만 = 순서형 변수에 사용하는 비모수적 방법, 서열척도로 측정된 변수들 간의 상관계수 측도
- 피어슨 = 연속형 변수에 사용하며 정규성을 가정, 두 변수간의 선형관계를 측정, 등간척도 및 비율 적도로 특정된 변수들 간의 상관계수를 측정하는데 사용
- cor(), rcorr() = R 에서 상관계수를 구할 수 있다
- 스피어만 상관계수
- 순서형 변수를 사용하여 비모수적 상관관계를 나타낸다(비선형적인 상관관계를 나타낼 수 있음)
- 서영척도로 측정된 변수간 관계를 측정
- -1 ~ 1 사이의 값
- 0은 상관관계가 없는 것
회귀분석
- 회귀분석
- 독립변수의 수가 맣아지면 모델의 설명력이 증가하지만, 모형이 복잡해지고, 독립변수들 간에 서로 영향을 미치는 다중공선성의 문제가 발생하므로 상대적인 조정이 필요하다
- 회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 세운다
- 잔차의 독립성, 등분산성, 정규성을 만족하는지 확인 해야 함
- 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의하다
* 잔차 = 표본에서 나온 관측값이 회귀선과 비교할 때 나타나는 차이
* 오차 = 모집단에서 실제값이 회귀선과 비교해 볼때 아타나는 차이(정확치와 관측치의 차이)
- 결정계수(R^2)
- 총 제곱의 합 중 설명된 제곱의 합의 비율
- R^2의 값이 클수록 회귀선으로 실제 관찰치를 예측하는데 정확성이 높아진다
- 독립변수와 종속변수 간의 표본 상관계수 r의 제곱값과 같다
- 종속변수에 미치는 영향이 적더라도 독립변수가 추가되면 결정계수는 변한다
- 종속변수를 설명하는 독립변수
표준화 자료로 추정한 계수가 가장 큰 변수
- 다중회귀분석의 변수선택방법(3가지)
- 전진선택법 = 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법
- -> 중요하다고 생각되는 설병변수부터 차례로 선택
- -> 변수가 추가되면 기존 변수들의 중요도에 영향을 받는다
- 단계적 방법 = 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법
- 후진제거법 = 모든 변수가 포함된 모형에서 설명력이 나쁜 변수를 하나씩 제거하는 방법
- 전진선택법과 후진선택법의 결과는 항상 동일한게 아니다
- 모든 가능한 회귀모형은 독립변수들의 조합으로 이루어진 회귀모형중 가장 적합하게 나타나는 모형을 선택하는 것
- 다중회귀분석 평가(모형의 적절함)
F검정 통계량과 유의확률(p-vlaue), t통계량과 유의확률(p-vlaue), R^2(결정계수)
F-vlaue 를 통해 모형이 통계적으로 유의한지 확인한다
t-vlaue, p-vlaue 확인
- lasso 회귀모형식
- lasso 회귀모형식 = 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식
- 자동적으로 변수를 선택하는 효과
- Lambda 값으로 penalty값을 조정
- L1 규제(penalty)라고 함
시계열분석
- 시계열 분석의 정상성 특징
- *시계열 분석 = 시간의 흐름에 따라 관측된 데이터
- *시계열을 구성하는 요인 = 추세(경향)요인, 계쩔요인, 순환요인, 불규칙요인
- 평균이 일정하여 모든 시점에 대한 일정한 평균을 가진다
- 분산도 시점에 의존하지 않는다
- 공분산은 단지 시차에만 의존하고 실제 어느 지점t,s에는 의존하지 않는다
- 시계열 데이터의 분석 절차
시간그래프 그리기 -> 추세와 계절성을 제거하기 -> 잔차를 예측하기 -> 잔차에 대한 모델 적합하기 -> 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기
- 시계열 데이터의 특징
- 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색목적과 예측목적으로 나눌 수 있다
- 짧은 기간 동안의 주기적인 패턴 = 계절변동
- 시계열 분석의 목적 = 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것
- 잡음은 무작위적인 변동으로 원인을 알 수 없다
- 대부분의 시계열은 비정상이다, 비정상 자료를 정상성 조건에 만족시켜 정상 시계열로 만든 후 시계열을 분석한다
- 시계열이 정상인지 비정상인지 판단하기 위해서 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 관찰한다
- 비정상 시계열은 정상시계열로 분석하고자 할때 (분산을)변환과 (평균을)차분을 이용한다
- -> 평균이 일정하지 않는 비정산 시계열은 차분을 통해, 분산이 일정하지 않는 비정상 시계열을 변환을 통해 바꾼다
- 시계열의 요소분해법
- 요소분해법 = 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동분석요소별로 분해햐여 쉽게 분석하기 위한 것
- 추세분석 = 장기적으로 변해가는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타냄
- -> 자료의 형태가 오르거나 내리는 추세를 따르는 경우로 선형적 형태, 지수형태 등
- 계절변동 = 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요소
- 순환변동 = 경제적이나 자연적인 이유 없이 알려지지 않는 주기를 가지고 변화하는 자료
- -> 자연적인 이유가 없이 알려지지 않은 주기
- 불규칙 변동 = 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동
- 분해시계열
- 분해시계열 = 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 벙법
- 분해요소 = 추세요인, 계절요인, 순환요인, 불규칙요인
- - 시계열 분석
- Arma모형은 약한 정상성을 가진 확률적 시계열을 표현하는데 사용
- ar모형은 자기상관함수가 빠르게 감소하고 부분자기함수는 어느 시점에서 절단점을 가진다
- 정상시계열은 어느 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다
- 지수평활법은 일정기간의 평균을 이용하는 이동평균법가 달리 모든 시계열자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 다 많은 가중치를 부여하여 미래를 예측하는 방법
다차원척도법
- 다차원척도법(MDS)
- 다차원척도법 = 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석방법
- 목적 = 데이터속에 잠재한 패턴을 찾기위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현하는 것
- 스트레스 값이 0.05 이하이면 적합정도가 아주 좋은 것으로 반복 분석과정을 중단해도 된다
- 계량적 다원척도법은 비율척도,구간척도의 데이터를 활용
- 비계량적 다원척도법은 순서척도의 데이터를 활용
주성분분석
- 주성분 분석
-회쉬분석에서 다중공산성읨 ㅜㄴ제를 해결하기 위해 활용
주성분 분석에서는 각 주성분이 데이터의 분산을 얼마나 설명하는지에 따라 주성분의 개수를 결정
그래프가 수평을 이루기 전 단계를 주성분의 수로 선택 가능
주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게되는 양이 상대적으로 미미한 지점에서 주성의 개수를 정하는 것
주성분의 분산의 크기를 보여즈는 스크리 그림(scree plot)
*biplot = 관측치들을 첫번째와 두번째 주성분의 좌표에 그린 그림
- 주성분 분석 = p개의 변수들을 중요한m개의 주성분으로 표현하여 전체 변동을 설명하는 방법으로 m개의 주성분은 원래 변수에서 선형결합으로 생성된 변수
- -> 주성분을 구성하는 변수들의 계층구조를 파악하여 적절하게 해석하되 명확한 해석법이 있는 건 아니다
- 전체 변이 공헌도 방법/ percentage of total variance = 전체 변이의 70~90% 정보가 되도록 주성분 수를 결정한다
- 평균 고유값 방법 = 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정한다
- screen graph이용법 = 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 완만해지는 지점에서 1을 뺀 개수를 주성분의 개수로 선택-> 분산 비율과 고유값이 수평을 유지하기 전단계로 주성분을 선택, 총 분산 비율은 주성분 분석결과에서 확인 가능
- 주성분분석 = 차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는 것
다변량 자료를 저차원의 그래프로 표시하여 이상치 탐색에 활용
변수들까지 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위함
회귀분석에서 다중 공산성의 문제 해결
- 주성분 수 결정 방법
전체 변이 공헌도(percentage of total variance)방법은 전체 변이의 70%의 70~90% 정도가 되도록 주성분 수의 개수를 결정한다
scree graph를 이용하는 방법은 고유값의 크기순으로 산점도를 그린 그래프에서 감소하는 추세가 원만한 지점에서 1을 뺀 개수를 주성분의 개수로 선택한다
주성분의 주성분을 구성하는 변수들의 계수구조를 차악하여 적절하게 해석하되, 명확하게 정의된 방법이 있는 것은 아니다
평균 고유값 방법 = 고유값의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분으로 성정하는 것
19. 교차분석-> 모르겠음...
- 교차분석 = 2개 이상의 변수를 결합하여 자료의 빈도를 살펴보는 기법
- 범수의 관찰도수에 비교될 수 있는 기대도수를 계산한다
- 교차분석은 교차표를 작성하여 교차빈도를 집계할 분 아니라 두 변수들 간의 독립성 검정을 할 수 있다
- 기대빈도가 5 미만인 셀의 비율이 20%를 넘으면 카이제곱분포에 근사하지 않으며 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄일 수 있다
'자격증 > ADSP' 카테고리의 다른 글
[ADSP] 오답노트: 3-R의 활용 (0) | 2024.02.21 |
---|---|
[ADSP] 오답노트: 3-5.데이터마이닝 (0) | 2024.02.20 |
[ADSP] 오답노트: 3-1 데이터 분석 개요, 3-2 R프로그래밍 기초 (0) | 2024.02.20 |
[ADSP] 오답노트: 3-3.데이터마트 (0) | 2024.02.19 |
[ADSP]오답노트: 2. 데이터분석기획 (0) | 2024.02.19 |