본문 바로가기
자격증/ADSP

[ADSP]오답노트: 2. 데이터분석기획

by kime2 2024. 2. 19.
  1. 분석기획방향성
  2. 분석방법론
  3. 분석과제 발굴
  4. 분석프로젝트 관리 방안
  5. 마스터플랜 수립
  6. 분석거버넌스 체계 

분석기획방향성

 

- 성공적인 분석을 위해 고려하는 부분

  • 분석이 기본이 되는 데이터에 대한 고려 -> 관련 데이터 파악
  • 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유스케이스 탐색 -> 비즈니스 케이스 확보
  • 분석을 수행함에 있어 발생하는 장애요소들에 대한 사전계획 -> 이행 저해요소 관리
  • 데이터분석을 내제화하기 위해교육 등 변화관리 방안 고려

- 성공적인 분석을 위한 고려사항

  • 데이터에 대한 고려
  • 활용 가능한 유스케이스 탐색
  • 분석 수행에 있어 발생하는 장애요소에 대한 사전계획 수립

 

 

-데이터표준화 = 데이터 표준용어설정, 명명 규칙수립, 메타데이터 구축, 데이터사전구축 등


분석방법론

- 데이터분석 방법론 = 철차, 방법, 도구와 기법, 템플릿, 산출물

 

- 분석기획 단계 = 비즈니스 이해 및 범위설정, 프로젝트 정의 및 계획수립, 프로젝트 위험계획 수립

 

-분석기획 단계시 프로젝트 위험 대응 방안 = 회피, 완화, 수용

 

- 데이터 기반의 의사결정 방애 요인 : 고정관념, 편향된 생각, 프레이밍 효과

 

- KDD분석

데이터변환 = 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 과정

 

- CRISP-DM 

업무이해 = 업무 목적 파악 -> 상활파악 -> 데이터 마이닝 목표 설정 -> 데이터 품질 확인

모델링 단계 = 모델링 기법 -> 모델 테스트 계획 설계 -> 모델 작성 -> 모델 평가

 

- CRISP-DM  > 모델링단계

모델링 기법 설계, 모델 테스트 계획 설계, 모델작성, 모델 평가

 

- CRISP-DM  > 준비단계

데이터셋 선택, 데이터정제, 분석용데이터셋 편성, 데이터통합, 데이터포맷팅

 

- 기존 빅데이터 분석과의 비교

  • 분석대상 데이터를 모든 형태 및 내외부 데이터로 확대
  • 데이터의 생산 시점에서부터 실시간에 가까운 분석이 가능
  • 데이터 마트에 정형 데이터를 적재하고 데이터 분석을 통해 모델 제작

- 시스템 구현

시스템구현단계에서 설계 및 구현, 시스템 테스트 및 운영으로 구성(코딩 X)

시스템 설계서를 바탕으로 BI패키지를 활용하거나 새롭게 프로그래밍 코딩을 통하여 시스템 구축

정보보호 및 시스템 성능은 시스템 구현 단계에 해당하니 않는다

 

 


분석과제 발굴

 

 

-(분석 과제 도출을 위한) 하양식 접근 방식의 타당성 평가

  • 분석과제 발굴 과정 -> 하양식/상향식
  • 데이터존제여부,분석시스템 환경, 분석역량에 대한 검토 필요
  • 도출된 분석 문제에 대한 과제화하기 위해서는 다각적 타당성 검토가 필요
  • 경제적 타당성은 비용대비 효익의 관점에서 평가
  • 기술적 타당성은 적용 가능한 요소기술 확보 방안에 대한 사전적 고려 중요

- 하양식 접근 방법 과정

  • 문제가 정형화되어 있고 문제 해결을 위한 데이터가 완벽하게 조직에 존재하는 경우 효과적(체계적, 단계적)
  • 기업의 내/외부 환경을 포괄하는 비즈니스 모델과 외부사례를 기반으로 문제를 탐색
  • 식별된 비즈니스 문제를 데이터의 문제로 변환
  • 도출된 분석 문제나 가설에 대안을 문제로 변환하여 정의
  • 본직적인 사물을 인식하려는 why관점
  • 하양식 접근법 = 문제탐색(discovery) -> 문제정의(definition) -> 해결방법 탐색(search) -> 타당성 검토(feasibilty study)
  • ->(단)문제정의가 불명확하거나 이전에 접하지 못한 새로운 문제일 경우 적용이 어렵다

- (하양식 접근의 문제탐색) 비즈니스 모델 캔버스의 채널 기능

  • 해당 고객에게 접근하는 유통채널 공급
  • 고객에게 밸류 프로포지션 전달
  • 기업이 제공하는 상품이나 서비스에 대한 고객의 이해 강화

- (비즈니스 캔버스 분석기회 발굴)범위확장 방법

  • 거시적관점의 메가트렌드(STEEP) = 현재의 조직 및 해당 산업에 폭넓게 미치는 사회/경제적 요인을 사회/기술/경제/환경/정치 영역으로 나누어 좀 더 폭넓게 기회를 탐색 수행
  • *STEEP: 사회, 기술, 경제, 환경, 정치
  • -> 정치 : 주요 정책방향, 정세, 지정학적 동향 등 거시적인 흐름을 토대로 분석기회 도출
  • 시장의 니즈 탐색 관점(고객,채널,영향자) = 현재 수행하고 있는 사업에서의 직접 고객 뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석기회를 탐색
  • -> 고객, 채널, 영향자들
  • 역량의 재해석 관점(내부/파트너) = 현재 해당 조직 및 기업이 보유한 역량 뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용가능한 역량을 토대로분석기회를 탐색한다
  • 경쟁자 확대 관점(대체대, 경쟁자, 신규진입자) = 현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품/서비스뿐만 아니라 대체재와 신규진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석기회 발굴의폭을 넓혀 탐색

- 비즈니스 캔버스의 과제 발굴 영역

업무 = 제품 및 서브시를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 도출

제품 = 생산 및 제공하는 제품 및 서비스를 개선하기 위해 관련 주제 도출

고객 = 제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련주제 도출

규제와 감사 = 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출 

지원인프라

 

-  문제탐색 ->비즈니스 모델 캔버스: 업무, 제품, 고객, 지원인프라, 규제와 감사

 

- (분석 과제 도출을 위한) 상향식 접근방법

비지도 학습 방법에 의해 수행

인과관계로부터 상관관계분석으로의 이동이라는 변화를 만듦

사물을 있는 그래도 인식하는 what관점에서 접근

디자인씽킹에서 diverge 과정

인사이트 도출 후 반복적인 시행착오를 통해서 문제 도출

 

- 분석과제 정의서

분석별 필요한 소스데이터, 분석방법, 데이터입수 및 분석 난이도, 분석 수행주기, 분석결과에 대한 검증 오너십, 상세분석과정 등을 정의

분석과제 정의서에서 소스데이터, 데이터입수 및 분석의 난이도, 분석방법에 대한 항목 포함

 


분석프로젝트 관리 방안

 

- 분석과제의 주요 관리 영역

data size: 데이터의 양

data complexity : 데이터 복잡도

speed : 분석의 속도

analytic&complexity : 분석복잡도

accuracy&precision : 정확도(모델과 실제 값 간의 차이가 적은 정도)/정밀도(반복적으로 모델을 사용했을 때 모델값들의 편차)

 

- accuracy&precision

분석의 활용측면에서는 accuracy가 중요하며 안정성 측면에서는 precision이 중요

accuracy는 모델과 실제 값과의 차이를 평가하는 정확도

precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써, 일관적으로 동일한 결과를 제시

두 사이에 trade off의 관계가 있다

 

- 분석 프로젝트 관리

  • 데이터분석 모델의 품질을 평가하기 위해 SPICE를 활용할 수 있다
  • 분석 프로젝트 관리는 KAS ISO를 가이드로 활용한다
  • 분석 프로젝트의 최종 산출물이 보고서인지 시스템인지에 따라 프로젝트 관리에 차이가 있다
  • 분석 범위가 빈번하게 변경되므로 분석 프로젝트 관리에서의 일정계획보다 더 많은 시간이 소요될 수 있기 때문에 Time Boxing 기법과 같은 방법으로 일정관리를 진행하는 것이 필요하다
  • 분석과제중 발생한 시사점과 분석 결과물은 pool로 관리하고 공유된다
  • 과제발굴 단계 = 분석아이디어 발군, 분석과제 후보제안, 분석과제 확정
  • 과제수행 단계 = 팀구성, 분석과제 식별, 분석과제 진행관리, 결과공유 프로세스 

- 분석프로젝트 관리항목(10)

범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자

 

 

14. 분석과제 관리 프로세르

  • 과제발굴단계 = 분석 아이디어발굴, 분석과제 후보제안, 분석과제 확장 프로세스
  • 분석 과제중 발생된 시사점과 결과물이 풀(pool)로 관리 및 공유
  • 과제수행 단계 = 팀구성, 분석과제 실행, 분석과제 진행관리, 결과공유 프로세스

- 분석과제 프로젝트 관리

사전에 위험을 식별하고 대응방안을 수립

적용되는 알고리즘에 따라 범위가 변할 수 있다(범위관리 중요)

다양한 데이터를 확보하는 경우가 있어 데이터조달 중요(조달관리)

시간관리


마스터플랜 수립

- 적용범위 및 방식 고려요소 = 업무내재화 적용수준, 데이터분석 적용수준, 기술 적용 수준

 

- ROI 요소와 분석 우선순위 평가

우선순위 고려요소 = 전략적중요도, 비즈니스 성과, POI, 실행용이성

  • 분석 난이도는 분석 준비도와 성숙도 진단 결과에 따라 해당 기업의 분석 수준을 파악하고 이를 바탕으로 결정
  • 시급성이 높고 난이도가 높은 분석과제는 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정
  • 시급성이 높고 난이도가 늦은 분석과제는 높은 우선순위
  • 시급성은 전략적 중요도/목표가치 평가
  • 난이도는 데이터획득/저장/가공/비용과 분석적용비용/분석수준 평가

-  마스터플랜, 거버넌스 체계 구성요소

process 과제기획/ 운영프로세스

system 시스템

organization 분석기획/관리 및 추진조직

data 데이터 거버넌스

human resouce 분석관력 교육/마인드

 

- 분석 마스터 플랜 수립의 과제 우선순위

  • 데이터 가치-비즈니스 효과
  • 데이터 크기, 다양성, 속도 - 투자비용요소
  • 전략적 중요도, ROI, 실행용이성 = 분석과제 우선순위 결정에 고려할 사항
  • 시급성과 전략적 필요성 = 전략적 중요도의 평가요소
  • 정용기술의 안정성 검증 = 기술 용이성의 평가요소

분석거버넌스 체계 

- 빅데이터 거버넌스

  • ERD는 운영 중인 데이터베이스와 일치하기 위하여 철저한 변경관리가 필요
  • 산업 분야별, 데이터 유형별,정보 거버넌스 요소별 구분
  • 빅데이터분석은 다양한 데이터를 활용하기 위하여 회사 내 모든 데이터를 활용한다
  • 단순히 대용량을 수집, 축적하는 것보다 어떤 모적으로 어떤 데이터를 어떻게 분석에 활용할지 고려
  • 빅데이터 분석에서 품질관리도 중요하지만, 데이터 수명주기 관리방안을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면
  • -> 데이터 거버넌스와의 차이점 = 빅데이터의 효율적인 관리, 다양한 데이터 관리체계, 데이터 최적화, 정보보호, 데이터생명주기, 데이터 카테고리별 관리 책임자 지정 등

- 데이터 거버넌스

전사차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관계를 수립하고 운영을 위한 프레임 워크 및 저장소를 구축하는 것

기업은 데이터 거버넌스 체계를 구축하여 데이터의 가용성, 유용성, 통합성, 보안성, 안전성을 확보

마스터데이터, 메타데이터, 데이터사전은 데이터 거버넌스의 중요관리 대상

데이터 거버넌스는 독자적으로 수행될 수도 있지만, 전사차원의 IT 거버넌스나 EA의 구성요소로써 구축되는 경우도 있다

 

- 분석거버너스 체계 = 과제기획 및 운영 프로세스, 분석기획 및 관리 수행조직, 분석교육/마인드 육성체계, 분석관련 시스템, 데이터

 

- 분석 조직 구조-> 집중구조

전사 분석업무를 별도의 전담 조직에서 담당

전략적 중요도에 따라 분석조직이 우선 순위를 정해서 진행

현업 업무부서의 분석업무와 이중화/이원화 가능성 높음

 

- 분석 조직 구조-> 기능형

별도의 분석조직이 없고 해당 업무부서에서 분석을 수행

 

- 분석 조직 구조-> 분산형

분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행, 분석결과에 따른 신속한 처리가능

 

 

 


2-2) BI이와 비교하여 빅데이터 분석 키워드

  • information
  • ad hoc report
  • alters
  • clean Data

8. 데이터분석을 위한 수준진단의 분석 준비도 데이터 진단항목

  • 분석 업무를 위한 데이터 충실성, 신뢰성, 적시성
  • 기준데이터 관리
  • 비구조적 데이터 관리
  • 외부데이터 활용체계

9. 데이터 분석준비 프레임 워크에서 분석업무 파악영역

발생한 사실 분석업무, 예측분석업무, 시뮬레이션 분석업무, 최적화 분석 업무,분석업무 정기적 개선

 

 

13. 빅데이터 활용기업의 중장기적 대응 방안

  • 분석 조직 및 인력에 대한 교육과 훈련
  • 데이터 기반으 의사결정문화 정착
  • 분석역량강화를 위한 체계적인 계획 및 시행

 

 

16. 빅데이터 분석의 self service analytics

  • self service analytics에 포함되어야 하는 주요 기능은 BI, Ad hoc report, OLAP,visual discovery, marchinelearning emd
  • 성공적인 적용을 위해서는 reference method의 벅성 및 공유, 표준 데이터의 활용, 데이터 거버넌스, 도구사에요에 대한 지속적인 교육이 필요
  • 사용하기 위해서는 R, python 등의 데이터 분석 언어와 많은 통계적 지식이 필요
  • 분산처리는 지원하지 않음

 

 

 

 

 

 

 


전통적 분석 방법론(2)

1. KDD분석 방법론 : knowledge discovery in database

-> 데이터 선택 : 비즈니스 도메인에 대한 이해와 프로젝트 목표, 필요한 데이터 선택

-> 데이터 전처리: 잡음,이상치, 결측치를 의미있는 데이터로 재가공

-> 데이터 변환: 데이터의 차원을 축소

-> 데이터마이닝 

-> 해석과 평가

 

2. CRISP-DM : cross industry standard process for data maining

단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높임 

-> 업무이해 : 업무 목적 파악, 상활파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립

-> 데이터이해 : 업무이해 단계와 반복/초기데이터 수집, 데이터기술 분석, 데이터 탐색, 데이터 품질 확인

-> 데이터준비 : 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터통합, 데이터 포멧팅

-> 모델링 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델작성, 모델 평가

-> 평가 : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

-> 전개 : 완성된 모델을 실 업무에 적전개 계획수립, 모니터링과 유지보수 계획수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

빅데이터 분석 방법론

계층적 프로세스

3계층 : 스텝 > 태스크 > 단계

5단계 : 분석기획 > 데이터준비 > 데이터분석 > 시스템구현 > 평가 및 전개

 

분석과제 발굴

하향식 접근

상향식 접근

분석 프로젝트 관리

분석과제의