1. 데이터 마이닝 모델링
* 데이터마이닝 = 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석
- 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다
- 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정
- 분석 데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 상황에 알맞게 실시
- 성능에 직찹하면 분석 모델링의 주목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련, 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
2. 모델링 성능 평가기준 = 정확도, 정밀도, 리프트, 디테트 레이트
3. 데이터 처리 구조
- 데이터 분석을 활용하기 위해 데이터웨어하우스와 데이터마트에서 테이터를 가져온다
- ODS, 운영데이터 저장소 = 기존 운영시스템의 데이터가 정데된 데이터이므로 DW, DM과 결합하여 분석에 활용 가능
- 신규시스템, 스테이지 영역에서 가져온 데이터는 정제되지 않기 때문에 전처리 필요
4. 최근의 시각화 기법
텍스트마이닝에서 워드 클라우드를 통한 그래프
SNA(social network analysis)에서 집단의 특성과 관계를 그래프화
polygon, heatmap, mosaic graph 등
5. EDA(탐색적 자료 분석) 4가지 주제 = 저항성의 강조, 잔차계싼, 자료변수의 재표현, 그래프를 통한 현시성
6. 공분산
두 변수 간의 상관관계를 나타내는 통계적 측도
두 변수가 함께 어떻게 변하는지, 즉 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정
*상관계수 =두 변수간의 선형관계를 -1~1로 강도와 방향을 나타내는 통계적 측도
7. 척도
구간척도 = 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정 결과가 숫자로 표현되거나 해당 속성이 전혀 없는 상태인 절대적인 영점이 없어 두 관측값 사이의 비율은 의미가 없음(예: 온도)
1. (데이터구조) 벡터
- 벡터 = 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로 한 벡터의 모든 원소는 같은 자료형(숫자 또는 문자)로 구성된다. 행렬 구조로 나타내지 않는다
- 숫자형 벡터와 문자영 벡터를 합지면 문자형으로 바뀌며 더이상 연산은 불가능 하다
1-2. (데이터구조) 데이터프레임
- 2차원 목록의 데이터구조이며 각 열이 서로 다른 데이터타입을 가질 수 있는 구조
- 테이블로 된 리스트
1-3.(데이터구조) 리스트
타입이 같지 않는 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조
3. 함수 summary
연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범부형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악할 수 있게 한다
4. 데이터구조 및 저장형식
as.numeric 함수 = 논리형 벡터를 입력하면 TRUE에 대응하는 원소는 1, False에 대응하는 원소는 0인 숫자형 벡터로 변형된다
as.vector 함수 = 행렬을 입력하면 열(컬럼)방향으로 1열부터 차례로 원소를 나열하는 벡터가 된
숫자형행렬 = 숫자형 행렬에 원소중 하나를 문자형으로 변경하게 되면 해당 행렬의 원소가 모두 문자형이 된다
5. 데이터가공,처리 패키지
data.table = 큰 데이터를 탐색, 연산, 병합 하는데 아주 유용하다,
reshape = melt 와 cast함수를 이용하며 데이터를 재구성할 수 있다
sqldf = R에서 표준 SQL명령을 실행하고 결과를 가져올 수 있다
plyr = 데이터의 분리, 결합 등 필수적인 데이터 처리 기능을 제공하며 데이터 프레임 처리함수인 ddply 함수를 제공한다
6. 결측값 = na
NAN = not a number
dim = 행렬의 차원
inf = 무한대
7. 표준편차 계산 함수
sd, sqrt(var), var()^1/2
8. 문자열의 길이 구하는 함수
nchart()
9. plyr vozlwlsms apply함수에 기반해 데이터와 출력변수를 동시에 배열로 치환 처리하는 패키지
ldply() = 입력되는 형태가 리스트이고 출력되는 데이터 형태가 데이터프레임일때
'자격증 > ADSP' 카테고리의 다른 글
[ADSP] 오답노트: 3-R의 활용 (0) | 2024.02.21 |
---|---|
[ADSP] 오답노트: 3-5.데이터마이닝 (0) | 2024.02.20 |
[ADSP] 오답노트: 3-3.데이터마트 (0) | 2024.02.19 |
[ADSP]오답노트: 2. 데이터분석기획 (0) | 2024.02.19 |
[ADSP] 오답노트: 3-4.통계분석 (0) | 2024.02.19 |