본문 바로가기

분류 전체보기206

[ADSP] 오답노트: 3-R의 활용 fit$scores T-검정 두 집단 간 평균의 차이기 유의미 한지 검정 1. 일 표본 t-검정 한 집단의 평균이 어떤 특정한 값과 차이가 있는지 검정 특정 가설을 확인하거나 평균이 기대값과 일치하는지 여부 평가 1) 일표본 단측 t검정 특정 방향으로 차이를 검정하는 통계적 방법 대립가설이 어느 방향으로 특정회어 있을 때 사용 대립가설이 '크다'또는 '작다'와 같이 어떤 특정 방향을 가리킬 때 유용 # 어떤 훈련 프로그램이 평균적으로 시험 성적을 향상시킬 것이라고 가정했을 경우 # 귀무가설 (H0): 훈련 전후의 평균 시험 성적에 유의미한 차이가 없다. # 대립가설 (H1): 훈련 후의 평균 시험 성적이 훈련 전보다 더 높다. # 가상의 데이터 생성 > set.seed(123) > before_train.. 2024. 2. 21.
[ADSP] 오답노트: 3-5.데이터마이닝 데이터 마이닝 개요 지도학습 - 분류분석 / 의사결정나무 앙상블기법 모형평가 지도학습 - 분류 -인공신경망 비지도 - 군집분석 비지도 - 연관성분석 데이터 마이닝 개요 - 데이터마이닝 대용량 데이터 속에서 숨겨진 지식 또는 새로운 규칙을 추출해내는 과정 기업이 보유하고 있는 거래데이터, 고객데이터 등과 기타 외부 데이터를 포함하는 모든 데이터를 기반으로 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하고자 하는 작업 데이터를 구축용 50 / (검정용 30)-생략가능 /시험용 20으로 분리 필요에 따라서 구축과 시험을 번갈아 가며 사용하는 교차확인을 통해 모형을 평가하기도 함 - 데이터 마이닝 기능 군집분석 = 각 객체의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고,.. 2024. 2. 20.
[ADSP] 오답노트: 3-1 데이터 분석 개요, 3-2 R프로그래밍 기초 1. 데이터 마이닝 모델링 * 데이터마이닝 = 대표적인 고급분석으로 데이터에 있는 패턴을 파악해 예측하는 분석 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 분석 데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 상황에 알맞게 실시 성능에 직찹하면 분석 모델링의 주목적인 실무적용에 반하여 시간을 낭비할 수 있으므로 훈련, 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단 2. 모델링 성능 평가기준 = 정확도, 정밀도, 리프트, 디테트 레이트 3. 데이터 처리 구조 데이터 분석을 활용.. 2024. 2. 20.
[ADSP] 오답노트: 3-3.데이터마트 1. 데이터마트 데이터웨어하우스와 사용자의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서의 중심의 데이터 웨어하우스하고 할 수 있음 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어 하우스 2. 파생변수 = 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값이 만들어 지는 -> 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다 3. reshape = 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있는 패키지 4. 결측치 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다 결측치가 있는 경우 다양한 대치방법을 사용하여 완전한 자료로 만든 후 분석.. 2024. 2. 19.
[ADSP]오답노트: 2. 데이터분석기획 분석기획방향성 분석방법론 분석과제 발굴 분석프로젝트 관리 방안 마스터플랜 수립 분석거버넌스 체계 분석기획방향성 - 성공적인 분석을 위해 고려하는 부분 분석이 기본이 되는 데이터에 대한 고려 -> 관련 데이터 파악 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유스케이스 탐색 -> 비즈니스 케이스 확보 분석을 수행함에 있어 발생하는 장애요소들에 대한 사전계획 -> 이행 저해요소 관리 데이터분석을 내제화하기 위해교육 등 변화관리 방안 고려 - 성공적인 분석을 위한 고려사항 데이터에 대한 고려 활용 가능한 유스케이스 탐색 분석 수행에 있어 발생하는 장애요소에 대한 사전계획 수립 -데이터표준화 = 데이터 표준용어설정, 명명 규칙수립, 메타데이터 구축, 데이터사전구축 등 분석방법론 - 데이터.. 2024. 2. 19.
[ADSP]오답노트: 1. 데이터의 이해 - 데이터의 특징 데이터란 용어는 1646년 영국 문헌에 처음 등장 데이터 추론, 예측, 전망, 추정을 위한 근거의 특성을 갖는다 데이터는 정성적/정량적으로 나뉜다 데이터는 객관적 사실이라는 존재적 특성을 갖는다 - 형식지와 암묵지 형식지 = 문서나 매뉴얼처럼 형상화된 지식 암묵지 = 학습과 경험을 통해 개인에게 체화되어있지만 겉으로 드러나지 않는 지식 공통화 -> 표출화 -> 연결화 -> 내면화 표출화 = 형싲지 요소 중 하나로 개인에게 내제된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정 - 로직오류와 프로세스 오류 로직오류 = 부정확한 가정을 하고 테스트를 하지 않는 것 프로세스 오류 = 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것 프로세스 오류 = 결정에서 분석.. 2024. 2. 19.