[ADSP]오답노트: 1. 데이터의 이해

- 데이터의 특징

데이터란 용어는 1646년 영국 문헌에 처음 등장
데이터 추론, 예측, 전망, 추정을 위한 근거의 특성을 갖는다
데이터는 정성적/정량적으로 나뉜다
데이터는 객관적 사실이라는 존재적 특성을 갖는다

- 형식지와 암묵지

형식지 = 문서나 매뉴얼처럼 형상화된 지식

암묵지 = 학습과 경험을 통해 개인에게 체화되어있지만 겉으로 드러나지 않는 지식

공통화 -> 표출화 -> 연결화 -> 내면화

표출화 = 형싲지 요소 중 하나로 개인에게 내제된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정

- 로직오류와 프로세스 오류

로직오류 = 부정확한 가정을 하고 테스트를 하지 않는 것
프로세스 오류 = 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
프로세스 오류 = 결정에서 분석과 통찰력을 고려하지 않는 것
프로세스 유류 = 대안을 진지하게 고려하지 않는 것

- 데이터베이스의 구성요소

메타데이터 = 데이터에 대한 데이터로 하위레벨의 데이터를 설명/기술하려는 것
-> 데이터에 관한 구조화된 데이터로 다른 베이터를 설명해주는 데이터
인덱스 = 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라 레코드 접근과 효율적인 순서매김 동작에 대한 기초를 제공한다
-> 데이터베이스 내에 데이터를 신속하게 정렬하고 탐색해주는 구조

- 데이터 베이스의 특징: 통합, 저장, 공용, 운영 -> 검색 X

데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성
데이터베이스는 통합된 데이터
데이터 베이스는 변화하는 데이터로 삽입, 삭제, 갱신을 하더라도 항상 현재의 정확한 데이터를 유지해야 함

- 데이터 베이스 설계 절차

요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계

- 데이터웨어하우스

*데이터웨어하우스 = 기업 내의 의사결정지원 어플리케이션에 정보기반을 제공하는 하나의 통합된 데이터 저장공간

사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합된 저장공간
데이터웨어하우스는 시계열의 특성으로 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경을 할 수 없다
-> 시간의 흐름에 따라 변화하는 값 저장
ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 적재한다
데이터웨어하우스는 재무, 생산, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축된다
-> 데이터웨어하우스에서 특정 주제에 따라 데이터들이 분류, 저장, 관리
데이터웨어하우스는 데이터의 주제지향성, 데이터통합, 데이터의 시계열성, 데이터의 비휘발성
데이터웨어하우스에서 데이터들은 전사적 차원에서 일괄된 형식으로 정의

- 데이터분석기술

OLTP = 데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내주는 형태
Business Intelligence = 데이터기반 위사결정을 지원하기 위한 리포트 중심의 도구
Business Analytics = 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
Datamining = 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술

- 기업내 구축되는 정보시스템

ERP(enterprice Resource Planning) = 인사/재무/생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영지원을 하나로 통합 시스템으로 재구축하여 생산성을 극대화하는 경영혁신기법
-> 기업 전체를 경영자원의 효과적이용이라는 관점에서 통합적으로 관리하고 영영의 효율화를 기하기 위한 시스템

- 정보시스템 CRM

고객 관련 데이터 베이스를 분석하여 고객 개개인에게 적합한 차별적 제품 및 서비스를 제공함으로써 고객과의 관계를 지속적으로 강화해 나가기 위해 구축하는 정보시스템
고객관계관리
기업이 고객과 관련된 내,외부 자료를 분석 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정

- 빅데이터 출현 배경

고객데이터의 축적, 거대 데이터 활용이 늘어남으로 필요한 기술 아키테처 및 통계도구들의 발전, 모바일 혁신 등
개별 기업의 데이터 축적 및 데이터 활용에 대한 니즈 증가
데이터 저장 기술의 발전과 저장 비용 감소 + 클라우드 컴퓨터(경제성 제공)
인터넷, SNS와 사물네트워크의 확산으로 데이터 생산량 증가
사진, 영상, 음성 등과 같은 비정형 데이터의 등장
하둡 등 분산처리 기술의 발전 +M2M, IOT 통신기술의 발전

- 빅데이터로 인한 변화

사전처리에서 사후처리의 시대 : 가치가 있을 것이라고 예산 되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 많은 데이터를 모으로 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식
대면조사에서 ~~표본조사로의 변화~~ 전수조사 : 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식
데이터의 질보다 양의 중요성 : 데이터 규모가 증가함에 따라 사소한 몇개의 오류 데이터는 분석 결과에 영향을 미치지 않기 때문에 데이터 세트에 포함하여 분석해도 상관이 없는 경우가 많다
인과관계에서 상관관계의 중요성 증가 : 인과관계 규명없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출 할 수 있는 기회가 점차 늘어나고 있음

- 비즈니스 모델에서의 빅데이터 분석 방법

연관규칙 학습 -> 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가
유형분석 -> 온라인 수강생들의 특성에 따라 분류 =사용자가 어떤 특성을 가진 집단에 속하는가
소셜네트워크 분석
-> 친분관계가 승진에 어떤 영향을 미치는가
-> 사용자간의 사회적 관계를 알고자 할때
-> 최근 핀테크기업에서 대출할 때 활용
회귀분석 -> 고객의 만족도가 충성도에 어떤 영향을 미치는 가
유전자분석 -> 최대의 시청률을 얻으려먼 어떤 프로그램을 어떤 시간대에 방송해야 하는가
*최적화가 필요한 문제의 해결책
기계학습은 대규모 데이터를 처리 분석할때 상당한 분석 인프라와 많은 시간이 소요

- 감성분석 -> 지도학습

특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 기술
고객의 주관적 평가를 측정하고자 할 때
특정 주제에 대해 사용자의 긍정 부정 의견을 분석
주로 문장이나 단어가 분석의 대상

- 빅데이터 통제 방안

동의에서 책임으로
결과 기반 책임원칙을 고수
알고리즘 접근 허용

- 빅데이터의 가치산정이 어려운 이유

데이터활용방식 : 재사용, 재조합, 다목적용 개발
-> 전기차 배터리 정보를 충전소 최적치 산정과 같은 2차적 목적에 활용
-> 구글검색에서 나타나는 것과 같은 데이터의 반복적 재사용
새로운 가치 창출
-> 독자의 전자책 독서 순서 정보가 저자의 글끄기 방식에 영향을 주는 현상
분석 기술 발전

- DINW

데이터 : ㄱ마트는 100원에 ㄴ마트는200원에 연필을 판매한다
정보 : ㄱ마트의 연필이 더 싸다 (연관되게)
지식 : 상대적으로 저렴한 ㄱ 마트에서 연필을 사야겠다
지혜 : 다른 상품들도 ㄴ마트보다 쌀것이라고 판단

- 데이터사이언스

소프트역량 = 창의적사고, 커뮤니케이션, 설득력(스토리텔링), 호기심
데이터로 부터 의미있는 정보 추출
정형데이터 뿐만 아니라 다양항 데이터를 대상
기존의 통계학과와 달리 총계적 접근
주로 통찰력있는 분석

- 인문학이 중여해 지는 외부 요소

컨버전스에서 디버전스(복잡한 세계화)
생산에서 서비스
생산에서 시장창조

- 빅데이터분석에 경제성을 제공해 준 기술 = 클라우드컴퓨터 -> 빅데이터처리기술의 비용을 감축

- 개인정보 비식별화

가명처리 = 개인 식별이 가능한 데이터에 대하여 직접적으로 식별할 수 없는 다른값으로 대체
범주화 = 단일 식별 정보를 해당 그룹의 대표값으로 변환
데이터마스킹 = 식과 같은 속성을 유지한채(데이터의 길이, 유형, 형식 과 같은 속성을 유지하고), 새롭고 읽기 쉬운 데이터를 익명으로 생성
총계처리 = 개별 데이터 값을 총합 또는 평균값으로 대체

- 데이터 유형

비정형 데이터 = 페이스북 소셜데이터, 검색어, 음성파일, 이메일 기록
반정형 데이터 = 센서데이터(스키마, 메타데이터)

- 객체지향 DBMS = 사용자 정의 데이터나 멀티 미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있는 관리시스템

*DBMS = 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경 제공 소프트웨어

more and more

[ADSP]오답노트: 1. 데이터의 이해

티스토리툴바