본문 바로가기
카테고리 없음

[ADSP]오답노트: 1. 데이터의 이해

by kime2 2024. 2. 19.

- 데이터의 특징

  • 데이터란 용어는 1646년 영국 문헌에 처음 등장
  • 데이터 추론, 예측, 전망, 추정을 위한 근거의 특성을 갖는다
  • 데이터는 정성적/정량적으로 나뉜다
  • 데이터는 객관적 사실이라는 존재적 특성을 갖는다

 

- 형식지와 암묵지

형식지 = 문서나 매뉴얼처럼 형상화된 지식

암묵지 = 학습과 경험을 통해 개인에게 체화되어있지만 겉으로 드러나지 않는 지식

  • 공통화 -> 표출화 -> 연결화 -> 내면화

 

표출화 = 형싲지 요소 중 하나로 개인에게 내제된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정

 

- 로직오류와 프로세스 오류

  • 로직오류 = 부정확한 가정을 하고 테스트를 하지 않는 것
  • 프로세스 오류 = 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
  • 프로세스 오류 = 결정에서 분석과 통찰력을 고려하지 않는 것
  • 프로세스 유류 = 대안을 진지하게 고려하지 않는 것

 

- 데이터베이스의 구성요소

  • 메타데이터 = 데이터에 대한 데이터로 하위레벨의 데이터를 설명/기술하려는 것
  • -> 데이터에 관한 구조화된 데이터로 다른 베이터를 설명해주는 데이터
  • 인덱스 = 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라 레코드 접근과 효율적인 순서매김 동작에 대한 기초를 제공한다
  • -> 데이터베이스 내에 데이터를 신속하게 정렬하고 탐색해주는 구조

-  데이터 베이스의 특징: 통합, 저장, 공용, 운영 -> 검색 X

  • 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성
  • 데이터베이스는 통합된 데이터
  • 데이터 베이스는 변화하는 데이터로 삽입, 삭제, 갱신을 하더라도 항상 현재의 정확한 데이터를 유지해야 함

- 데이터 베이스 설계 절차

요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계

 

- 데이터웨어하우스

*데이터웨어하우스 = 기업 내의 의사결정지원 어플리케이션에 정보기반을 제공하는 하나의 통합된 데이터 저장공간

  • 사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합된 저장공간
  • 데이터웨어하우스는 시계열의 특성으로 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경을 할 수 없다 
  • -> 시간의 흐름에 따라 변화하는 값 저장
  • ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 적재한다
  • 데이터웨어하우스는 재무, 생산, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축된다
  • -> 데이터웨어하우스에서  특정 주제에 따라 데이터들이 분류, 저장, 관리
  • 데이터웨어하우스는 데이터의 주제지향성, 데이터통합, 데이터의 시계열성, 데이터의 비휘발성
  • 데이터웨어하우스에서 데이터들은 전사적 차원에서 일괄된 형식으로 정의

 

- 데이터분석기술

  • OLTP = 데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내주는 형태
  • Business Intelligence = 데이터기반 위사결정을 지원하기 위한 리포트 중심의 도구
  • Business Analytics = 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
  • Datamining = 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술

- 기업내 구축되는 정보시스템

  • ERP(enterprice Resource Planning) = 인사/재무/생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영지원을 하나로 통합 시스템으로 재구축하여 생산성을 극대화하는 경영혁신기법
  • -> 기업 전체를 경영자원의 효과적이용이라는 관점에서 통합적으로 관리하고 영영의 효율화를 기하기 위한 시스템

- 정보시스템 CRM

  • 고객 관련 데이터 베이스를 분석하여 고객 개개인에게 적합한 차별적 제품 및 서비스를 제공함으로써 고객과의 관계를 지속적으로 강화해 나가기 위해 구축하는 정보시스템
  • 고객관계관리
  • 기업이 고객과 관련된 내,외부 자료를 분석 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정

- 빅데이터 출현 배경

  • 고객데이터의 축적, 거대 데이터 활용이 늘어남으로 필요한 기술 아키테처 및 통계도구들의 발전, 모바일 혁신 등
  • 개별 기업의 데이터 축적 및 데이터 활용에 대한 니즈 증가
  • 데이터 저장 기술의 발전과 저장 비용 감소 + 클라우드 컴퓨터(경제성 제공)
  • 인터넷, SNS와 사물네트워크의 확산으로 데이터 생산량 증가
  • 사진, 영상, 음성 등과 같은 비정형 데이터의 등장
  • 하둡 등 분산처리 기술의 발전 +M2M, IOT 통신기술의 발전

- 빅데이터로 인한 변화

  • 사전처리에서 사후처리의 시대 : 가치가 있을 것이라고 예산 되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 많은 데이터를 모으로 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식
  • 대면조사에서 표본조사로의 변화 전수조사 : 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식
  • 데이터의 질보다 양의 중요성 : 데이터 규모가 증가함에 따라 사소한 몇개의 오류 데이터는 분석 결과에 영향을 미치지 않기 때문에 데이터 세트에 포함하여 분석해도 상관이 없는 경우가 많다
  • 인과관계에서 상관관계의 중요성 증가 : 인과관계 규명없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출 할 수 있는 기회가 점차 늘어나고 있음

- 비즈니스 모델에서의 빅데이터 분석 방법

  • 연관규칙 학습 -> 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가
  • 유형분석 -> 온라인 수강생들의 특성에 따라 분류 =사용자가 어떤 특성을 가진 집단에 속하는가
  • 소셜네트워크 분석
  • -> 친분관계가 승진에 어떤 영향을 미치는가
  • -> 사용자간의 사회적 관계를 알고자 할때
  • -> 최근 핀테크기업에서 대출할 때 활용
  • 회귀분석 -> 고객의 만족도가 충성도에 어떤 영향을 미치는 가
  • 유전자분석 -> 최대의 시청률을 얻으려먼 어떤 프로그램을 어떤 시간대에 방송해야 하는가
  • *최적화가 필요한 문제의 해결책
  • 기계학습은 대규모 데이터를 처리 분석할때 상당한 분석 인프라와 많은 시간이 소요

- 감성분석 -> 지도학습

  • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 기술
  • 고객의 주관적 평가를 측정하고자 할 때
  • 특정 주제에 대해 사용자의 긍정 부정 의견을 분석
  • 주로 문장이나 단어가 분석의 대상

- 빅데이터 통제 방안

  • 동의에서 책임으로
  • 결과 기반 책임원칙을 고수
  • 알고리즘 접근 허용

- 빅데이터의 가치산정이 어려운 이유

  • 데이터활용방식 : 재사용, 재조합, 다목적용 개발
  • -> 전기차 배터리 정보를 충전소 최적치 산정과 같은 2차적 목적에 활용
  • -> 구글검색에서 나타나는 것과 같은 데이터의 반복적 재사용
  • 새로운 가치 창출
  • -> 독자의 전자책 독서 순서 정보가 저자의 글끄기 방식에 영향을 주는 현상
  • 분석 기술 발전

- DINW

  • 데이터 : ㄱ마트는 100원에 ㄴ마트는200원에 연필을 판매한다
  • 정보 : ㄱ마트의 연필이 더 싸다 (연관되게)
  • 지식 : 상대적으로 저렴한 ㄱ 마트에서 연필을 사야겠다
  • 지혜 : 다른 상품들도 ㄴ마트보다 쌀것이라고 판단

- 데이터사이언스

  • 소프트역량 = 창의적사고, 커뮤니케이션, 설득력(스토리텔링), 호기심
  • 데이터로 부터 의미있는 정보 추출
  • 정형데이터 뿐만 아니라 다양항 데이터를 대상
  • 기존의 통계학과와 달리 총계적 접근
  • 주로 통찰력있는 분석

 

- 인문학이 중여해 지는 외부 요소

  • 컨버전스에서 디버전스(복잡한 세계화)
  • 생산에서 서비스
  • 생산에서 시장창조

- 빅데이터분석에 경제성을 제공해 준 기술 = 클라우드컴퓨터 -> 빅데이터처리기술의 비용을 감축

 

- 개인정보 비식별화

  • 가명처리 = 개인 식별이 가능한 데이터에 대하여 직접적으로 식별할 수 없는 다른값으로 대체
  • 범주화 = 단일 식별 정보를 해당 그룹의 대표값으로 변환
  • 데이터마스킹 = 식과 같은 속성을 유지한채(데이터의 길이, 유형, 형식 과 같은 속성을 유지하고), 새롭고 읽기 쉬운 데이터를 익명으로 생성
  • 총계처리 = 개별 데이터 값을 총합 또는 평균값으로 대체

 

- 데이터 유형

  • 비정형 데이터 = 페이스북 소셜데이터, 검색어, 음성파일, 이메일 기록
  • 반정형 데이터 = 센서데이터(스키마, 메타데이터)

- 객체지향 DBMS = 사용자 정의 데이터나 멀티 미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있는 관리시스템

*DBMS = 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경 제공 소프트웨어