자격증/ADSP7 [ADSP] 오답노트: 3-4.통계분석 1. 모분산 추론 이표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐의 정도에 관심이 있을 때 사용 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다 평균 모집단에서 n개의 단순임의 추출한 표본의 분산은 자유도가 n-1인 카이제곱분포를 따른다 2. 다중회귀분석의 변수선택방법(3가지) 전진선택법 = 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법 단계적 방법 = 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법 후진제거법 = 모든 .. 2024. 2. 22. [ADSP] 오답노트: 3-R의 활용 fit$scores T-검정 두 집단 간 평균의 차이기 유의미 한지 검정 1. 일 표본 t-검정 한 집단의 평균이 어떤 특정한 값과 차이가 있는지 검정 특정 가설을 확인하거나 평균이 기대값과 일치하는지 여부 평가 1) 일표본 단측 t검정 특정 방향으로 차이를 검정하는 통계적 방법 대립가설이 어느 방향으로 특정회어 있을 때 사용 대립가설이 '크다'또는 '작다'와 같이 어떤 특정 방향을 가리킬 때 유용 # 어떤 훈련 프로그램이 평균적으로 시험 성적을 향상시킬 것이라고 가정했을 경우 # 귀무가설 (H0): 훈련 전후의 평균 시험 성적에 유의미한 차이가 없다. # 대립가설 (H1): 훈련 후의 평균 시험 성적이 훈련 전보다 더 높다. # 가상의 데이터 생성 > set.seed(123) > before_train.. 2024. 2. 21. [ADSP] 오답노트: 3-5.데이터마이닝 데이터 마이닝 개요 지도학습 - 분류분석 / 의사결정나무 앙상블기법 모형평가 지도학습 - 분류 -인공신경망 비지도 - 군집분석 비지도 - 연관성분석 데이터 마이닝 개요 - 데이터마이닝 대용량 데이터 속에서 숨겨진 지식 또는 새로운 규칙을 추출해내는 과정 기업이 보유하고 있는 거래데이터, 고객데이터 등과 기타 외부 데이터를 포함하는 모든 데이터를 기반으로 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하고자 하는 작업 데이터를 구축용 50 / (검정용 30)-생략가능 /시험용 20으로 분리 필요에 따라서 구축과 시험을 번갈아 가며 사용하는 교차확인을 통해 모형을 평가하기도 함 - 데이터 마이닝 기능 군집분석 = 각 객체의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고,.. 2024. 2. 20. [ADSP] 오답노트: 3-1 데이터 분석 개요, 3-2 R프로그래밍 기초 1. 데이터 마이닝 모델링 * 데이터마이닝 = 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 분석 데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 상황에 알맞게 실시 성능에 직찹하면 분석 모델링의 주목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련, 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단 2. 모델링 성능 평가기준 = 정확도, 정밀도, 리프트, 디테트 레이트 3. 데이터 처리 구조 데이터 분석을 활용.. 2024. 2. 20. [ADSP] 오답노트: 3-3.데이터마트 1. 데이터마트 데이터웨어하우스와 사용자의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서의 중심의 데이터 웨어하우스하고 할 수 있음 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어 하우스 2. 파생변수 = 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값이 만들어 지는 -> 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다 3. reshape = 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있는 패키지 4. 결측치 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다 결측치가 있는 경우 다양한 대치방법을 사용하여 완전한 자료로 만든 후 분석.. 2024. 2. 19. [ADSP]오답노트: 2. 데이터분석기획 분석기획방향성 분석방법론 분석과제 발굴 분석프로젝트 관리 방안 마스터플랜 수립 분석거버넌스 체계 분석기획방향성 - 성공적인 분석을 위해 고려하는 부분 분석이 기본이 되는 데이터에 대한 고려 -> 관련 데이터 파악 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유스케이스 탐색 -> 비즈니스 케이스 확보 분석을 수행함에 있어 발생하는 장애요소들에 대한 사전계획 -> 이행 저해요소 관리 데이터분석을 내제화하기 위해교육 등 변화관리 방안 고려 - 성공적인 분석을 위한 고려사항 데이터에 대한 고려 활용 가능한 유스케이스 탐색 분석 수행에 있어 발생하는 장애요소에 대한 사전계획 수립 -데이터표준화 = 데이터 표준용어설정, 명명 규칙수립, 메타데이터 구축, 데이터사전구축 등 분석방법론 - 데이터.. 2024. 2. 19. 이전 1 2 다음