본문 바로가기
자격증/ADSP

[ADSP] 오답노트: 3-1 데이터 분석 개요, 3-2 R프로그래밍 기초

by kime2 2024. 2. 20.

1. 데이터 마이닝 모델링

* 데이터마이닝 = 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석

  • 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다
  • 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정
  • 분석 데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 상황에 알맞게 실시
  • 성능에 직찹하면 분석 모델링의 주목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련, 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단

2. 모델링 성능 평가기준 = 정확도, 정밀도, 리프트, 디테트 레이트

 

3. 데이터 처리 구조

  • 데이터 분석을 활용하기 위해 데이터웨어하우스와 데이터마트에서 테이터를 가져온다
  • ODS, 운영데이터 저장소 = 기존 운영시스템의 데이터가 정데된 데이터이므로 DW, DM과 결합하여 분석에 활용 가능
  • 신규시스템, 스테이지 영역에서 가져온 데이터는 정제되지 않기 때문에 전처리 필요

 

4. 최근의 시각화 기법

텍스트마이닝에서 워드 클라우드를 통한 그래프

SNA(social network analysis)에서 집단의 특성과 관계를 그래프화

polygon, heatmap, mosaic graph 등

 

5. EDA(탐색적 자료 분석) 4가지 주제 = 저항성의 강조, 잔차계싼, 자료변수의 재표현, 그래프를 통한 현시성

 

6. 공분산

두 변수 간의 상관관계를 나타내는 통계적 측도

두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정

*상관계수 =두 변수간의 선형관계를 -1~1로 강도와 방향을 나타내는 통계적 측도

 

7. 척도

구간척도 = 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정 결과가 숫자로 표현되거나 해당 속성이 전혀 없는 상태인 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없음(예: 온도)


 

1. (데이터구조) 벡터

  • 벡터 = 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로 한 벡터의 모든 원소는 같은 자료형(숫자 또는 문자)로 구성된다. 행렬 구조로 나타내지 않는다
  • 숫자형 벡터와 문자영 벡터를 합지면 문자형으로 바뀌며 더이상 연산은 불가능 하다

 

1-2. (데이터구조) 데이터프레임

  • 2차원 목록의 데이터구조이며 각 열이 서로 다른 데이터타입을 가질 수 있는 구조
  • 테이블로 된 리스트

 

1-3.(데이터구조) 리스트

타입이 같지 않는 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조

 

3. 함수 summary

연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범부형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악할 수 있게 한다

 

4. 데이터구조 및 저장형식

as.numeric 함수 = 논리형 벡터를 입력하면 TRUE에 대응하는 원소는 1, False에 대응하는 원소는 0인 숫자형 벡터로 변형된다

as.vector 함수 = 행렬을 입력하면 열(컬럼)방향으로 1열부터 차례로 원소를 나열하는 벡터가 된

숫자형행렬 = 숫자형 행렬에 원소중 하나를 문자형으로 변경하게 되면 해당 행렬의 원소가 모두 문자형이 된다

 

5. 데이터가공,처리 패키지

data.table = 큰 데이터를 탐색, 연산, 병합 하는데 아주 유용하다,

reshape = melt 와 cast함수를 이용하며 데이터를 재구성할 수 있다

sqldf = R에서 표준 SQL명령을 실행하고 결과를 가져올 수 있다

plyr = 데이터의 분리, 결합 등 필수적인 데이터 처리 기능을 제공하며 데이터 프레임 처리함수인 ddply 함수를 제공한다

 

6. 결측값 = na

NAN = not a number

dim = 행렬의 차원

inf = 무한대

 

7. 표준편차 계산 함수

sd, sqrt(var), var()^1/2

 

8. 문자열의 길이 구하는 함수

nchart()

 

9. plyr vozlwlsms apply함수에 기반해 데이터와 출력변수를 동시에 배열로 치환 처리하는 패키지

ldply() = 입력되는 형태가 리스트이고 출력되는 데이터 형태가 데이터프레임일때