본문 바로가기
자격증/ADSP

[ADSP] 오답노트: 3-3.데이터마트

by kime2 2024. 2. 19.

1. 데이터마트

데이터웨어하우스와 사용자의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서의 중심의 데이터 웨어하우스하고 할 수 있음

데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어 하우스

 

2. 파생변수 = 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값이 만들어 지는

-> 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다

 

3. reshape = 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있는 패키지

 

4. 결측치

  • 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다
  • 결측치가 있는 경우 다양한 대치방법을 사용하여 완전한 자료로 만든 후 분석을 진핼할 수 있다
  • 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석
  • 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옳지 않다 -> default값이 기록된 경우라도 그 값의 의리를 가지고 있기 때문에 결측치로 처리하면 큰 오류로 작용할 수 있다
  • 관측치가 default값으로 기록되어도 그 값이 실제 dsfault와 동일한 값이 입력되는 등의 경우가 있으므로 해당 값을 임의로 결측치로 변경하거나 하면  안된다

4-1. 결측치 사용 함수

complete.cases() = 레코드에 결측값이 없으면 True 있으면 False로 반환

is.na() = 결측값니 NA인지 여부를 판단하여 반환

knnimputation() = NA 값을 K최근 이웃 분류 알고리즘을 사용하여 대치하는 함수

rfimpute() = 랜섬 퍼레스트 모형의 경우, 결측값이 없으면 에러를 발생하기 떄문에 랜덤 포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수

 

4-2. 결측값을 분석할 수 있는 통계분석 방법론

  • complete Analysis = 불완전 자료를 모두 제외하고 완전한 관측치만으로 자료를 분석하는 방법, 그러나부분적 관측자료를 사용하므로 통계쩍 추론의 타당성 문제가 있다
  • 평균대치법 = 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 법
  • 단순확률대치법 = 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법
  • 다중대치법 = 단순대치법을 한번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만들어 분석하는 방법
  • -> 순서 : 대치 -> 분석 -> 결합

5. 이상치 탐지 = 대부분의 객체들과 다른 객체들을 찾는것, 속성값들의 일반적인 값들과 상당히 편차가 큰 값을 가지므로 편차탐지라고도 한다. 반드시 비정상적인 객체를 의미하는 것은 아님

  • (의미) IQR = Q3-Q1, Q1- 1.5*IQR < x < Q3- 1.5*IQR을 벗어나는 x값을 의미
  • (의미) 3-sigma, ESD, 평균으로부터 3*표준편차를 벗어나는 것들을 의미
  • (의미) 군집분석을 이용하여 다른 데이터들과 거리상 멀리 덜어진 데이터를 의미
  • (의미) 설명변수의 관측치에 비해 종속변수의 값이 상의한 것을 의미
  • (의미) 회귀분석 적합 후 잔차분석을 실시하여 이상치를 판정하는 벙법
  • (의미) 통계모형에 기반한 방법으로는 grubb's 등
  • 데이터 측정 과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제
  • 이상치라고 무조건 제거하는 것은 아니며, 실무자들을 통해 결정
  • 변수의 분포에서 벗어나는 값은 상자수염그림을 통해 확인할 수 있다

6. Plyr = R프로그램은 반복문을 다중으로 사용시 많은 시간이 소요되기 때문에 multi-core를 사용하여 반복문을 사용하지 않고도 빠르게 처리할 수 있는 패키지

 

7. 결측치 처리

평균대치법 = 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법

단순확률대치법 = 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법

다중대치법 = 단순대치법을 한번 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법

-> 추정량의 과소추정이나 계산의 난해성 문제 보완

complete analysis = 불완전자료를 모두 무시하고 완전하게 관측된 자료만 분석 수행하는 방법 -> 삭제하는 거 아냐?