1. 데이터마트
데이터웨어하우스와 사용자의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서의 중심의 데이터 웨어하우스하고 할 수 있음
데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어 하우스
2. 파생변수 = 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값이 만들어 지는
-> 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다
3. reshape = 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있는 패키지
4. 결측치
- 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다
- 결측치가 있는 경우 다양한 대치방법을 사용하여 완전한 자료로 만든 후 분석을 진핼할 수 있다
- 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석
- 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옳지 않다 -> default값이 기록된 경우라도 그 값의 의리를 가지고 있기 때문에 결측치로 처리하면 큰 오류로 작용할 수 있다
- 관측치가 default값으로 기록되어도 그 값이 실제 dsfault와 동일한 값이 입력되는 등의 경우가 있으므로 해당 값을 임의로 결측치로 변경하거나 하면 안된다
4-1. 결측치 사용 함수
complete.cases() = 레코드에 결측값이 없으면 True 있으면 False로 반환
is.na() = 결측값니 NA인지 여부를 판단하여 반환
knnimputation() = NA 값을 K최근 이웃 분류 알고리즘을 사용하여 대치하는 함수
rfimpute() = 랜섬 퍼레스트 모형의 경우, 결측값이 없으면 에러를 발생하기 떄문에 랜덤 포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수
4-2. 결측값을 분석할 수 있는 통계분석 방법론
- complete Analysis = 불완전 자료를 모두 제외하고 완전한 관측치만으로 자료를 분석하는 방법, 그러나부분적 관측자료를 사용하므로 통계쩍 추론의 타당성 문제가 있다
- 평균대치법 = 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 법
- 단순확률대치법 = 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법
- 다중대치법 = 단순대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만들어 분석하는 방법
- -> 순서 : 대치 -> 분석 -> 결합
5. 이상치 탐지 = 대부분의 객체들과 다른 객체들을 찾는것, 속성값들의 일반적인 값들과 상당히 편차가 큰 값을 가지므로 편차탐지라고도 한다. 반드시 비정상적인 객체를 의미하는 것은 아님
- (의미) IQR = Q3-Q1, Q1- 1.5*IQR < x < Q3- 1.5*IQR을 벗어나는 x값을 의미
- (의미) 3-sigma, ESD, 평균으로부터 3*표준편차를 벗어나는 것들을 의미
- (의미) 군집분석을 이용하여 다른 데이터들과 거리상 멀리 덜어진 데이터를 의미
- (의미) 설명변수의 관측치에 비해 종속변수의 값이 상의한 것을 의미
- (의미) 회귀분석 적합 후 잔차분석을 실시하여 이상치를 판정하는 벙법
- (의미) 통계모형에 기반한 방법으로는 grubb's 등
- 데이터 측정 과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제
- 이상치라고 무조건 제거하는 것은 아니며, 실무자들을 통해 결정
- 변수의 분포에서 벗어나는 값은 상자수염그림을 통해 확인할 수 있다
6. Plyr = R프로그램은 반복문을 다중으로 사용시 많은 시간이 소요되기 때문에 multi-core를 사용하여 반복문을 사용하지 않고도 빠르게 처리할 수 있는 패키지
7. 결측치 처리
평균대치법 = 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법
단순확률대치법 = 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법
다중대치법 = 단순대치법을 한번 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법
-> 추정량의 과소추정이나 계산의 난해성 문제 보완
complete analysis = 불완전자료를 모두 무시하고 완전하게 관측된 자료만 분석 수행하는 방법 -> 삭제하는 거 아냐?
'자격증 > ADSP' 카테고리의 다른 글
[ADSP] 오답노트: 3-R의 활용 (0) | 2024.02.21 |
---|---|
[ADSP] 오답노트: 3-5.데이터마이닝 (0) | 2024.02.20 |
[ADSP] 오답노트: 3-1 데이터 분석 개요, 3-2 R프로그래밍 기초 (0) | 2024.02.20 |
[ADSP]오답노트: 2. 데이터분석기획 (0) | 2024.02.19 |
[ADSP] 오답노트: 3-4.통계분석 (0) | 2024.02.19 |