- 데이터의 특징
- 데이터란 용어는 1646년 영국 문헌에 처음 등장
- 데이터 추론, 예측, 전망, 추정을 위한 근거의 특성을 갖는다
- 데이터는 정성적/정량적으로 나뉜다
- 데이터는 객관적 사실이라는 존재적 특성을 갖는다
- 형식지와 암묵지
형식지 = 문서나 매뉴얼처럼 형상화된 지식
암묵지 = 학습과 경험을 통해 개인에게 체화되어있지만 겉으로 드러나지 않는 지식
- 공통화 -> 표출화 -> 연결화 -> 내면화
표출화 = 형싲지 요소 중 하나로 개인에게 내제된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정
- 로직오류와 프로세스 오류
- 로직오류 = 부정확한 가정을 하고 테스트를 하지 않는 것
- 프로세스 오류 = 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
- 프로세스 오류 = 결정에서 분석과 통찰력을 고려하지 않는 것
- 프로세스 유류 = 대안을 진지하게 고려하지 않는 것
- 데이터베이스의 구성요소
- 메타데이터 = 데이터에 대한 데이터로 하위레벨의 데이터를 설명/기술하려는 것
- -> 데이터에 관한 구조화된 데이터로 다른 베이터를 설명해주는 데이터
- 인덱스 = 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라 레코드 접근과 효율적인 순서매김 동작에 대한 기초를 제공한다
- -> 데이터베이스 내에 데이터를 신속하게 정렬하고 탐색해주는 구조
- 데이터 베이스의 특징: 통합, 저장, 공용, 운영 -> 검색 X
- 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성
- 데이터베이스는 통합된 데이터
- 데이터 베이스는 변화하는 데이터로 삽입, 삭제, 갱신을 하더라도 항상 현재의 정확한 데이터를 유지해야 함
- 데이터 베이스 설계 절차
요구사항 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계
- 데이터웨어하우스
*데이터웨어하우스 = 기업 내의 의사결정지원 어플리케이션에 정보기반을 제공하는 하나의 통합된 데이터 저장공간
- 사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합된 저장공간
- 데이터웨어하우스는 시계열의 특성으로 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경을 할 수 없다
- -> 시간의 흐름에 따라 변화하는 값 저장
- ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 적재한다
- 데이터웨어하우스는 재무, 생산, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축된다
- -> 데이터웨어하우스에서 특정 주제에 따라 데이터들이 분류, 저장, 관리
- 데이터웨어하우스는 데이터의 주제지향성, 데이터통합, 데이터의 시계열성, 데이터의 비휘발성
- 데이터웨어하우스에서 데이터들은 전사적 차원에서 일괄된 형식으로 정의
- 데이터분석기술
- OLTP = 데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내주는 형태
- Business Intelligence = 데이터기반 위사결정을 지원하기 위한 리포트 중심의 도구
- Business Analytics = 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
- Datamining = 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술
- 기업내 구축되는 정보시스템
- ERP(enterprice Resource Planning) = 인사/재무/생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영지원을 하나로 통합 시스템으로 재구축하여 생산성을 극대화하는 경영혁신기법
- -> 기업 전체를 경영자원의 효과적이용이라는 관점에서 통합적으로 관리하고 영영의 효율화를 기하기 위한 시스템
- 정보시스템 CRM
- 고객 관련 데이터 베이스를 분석하여 고객 개개인에게 적합한 차별적 제품 및 서비스를 제공함으로써 고객과의 관계를 지속적으로 강화해 나가기 위해 구축하는 정보시스템
- 고객관계관리
- 기업이 고객과 관련된 내,외부 자료를 분석 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정
- 빅데이터 출현 배경
- 고객데이터의 축적, 거대 데이터 활용이 늘어남으로 필요한 기술 아키테처 및 통계도구들의 발전, 모바일 혁신 등
- 개별 기업의 데이터 축적 및 데이터 활용에 대한 니즈 증가
- 데이터 저장 기술의 발전과 저장 비용 감소 + 클라우드 컴퓨터(경제성 제공)
- 인터넷, SNS와 사물네트워크의 확산으로 데이터 생산량 증가
- 사진, 영상, 음성 등과 같은 비정형 데이터의 등장
- 하둡 등 분산처리 기술의 발전 +M2M, IOT 통신기술의 발전
- 빅데이터로 인한 변화
- 사전처리에서 사후처리의 시대 : 가치가 있을 것이라고 예산 되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 많은 데이터를 모으로 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식
- 대면조사에서
표본조사로의 변화전수조사 : 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식 - 데이터의 질보다 양의 중요성 : 데이터 규모가 증가함에 따라 사소한 몇개의 오류 데이터는 분석 결과에 영향을 미치지 않기 때문에 데이터 세트에 포함하여 분석해도 상관이 없는 경우가 많다
- 인과관계에서 상관관계의 중요성 증가 : 인과관계 규명없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출 할 수 있는 기회가 점차 늘어나고 있음
- 비즈니스 모델에서의 빅데이터 분석 방법
- 연관규칙 학습 -> 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가
- 유형분석 -> 온라인 수강생들의 특성에 따라 분류 =사용자가 어떤 특성을 가진 집단에 속하는가
- 소셜네트워크 분석
- -> 친분관계가 승진에 어떤 영향을 미치는가
- -> 사용자간의 사회적 관계를 알고자 할때
- -> 최근 핀테크기업에서 대출할 때 활용
- 회귀분석 -> 고객의 만족도가 충성도에 어떤 영향을 미치는 가
- 유전자분석 -> 최대의 시청률을 얻으려먼 어떤 프로그램을 어떤 시간대에 방송해야 하는가
- *최적화가 필요한 문제의 해결책
- 기계학습은 대규모 데이터를 처리 분석할때 상당한 분석 인프라와 많은 시간이 소요
- 감성분석 -> 지도학습
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 기술
- 고객의 주관적 평가를 측정하고자 할 때
- 특정 주제에 대해 사용자의 긍정 부정 의견을 분석
- 주로 문장이나 단어가 분석의 대상
- 빅데이터 통제 방안
- 동의에서 책임으로
- 결과 기반 책임원칙을 고수
- 알고리즘 접근 허용
- 빅데이터의 가치산정이 어려운 이유
- 데이터활용방식 : 재사용, 재조합, 다목적용 개발
- -> 전기차 배터리 정보를 충전소 최적치 산정과 같은 2차적 목적에 활용
- -> 구글검색에서 나타나는 것과 같은 데이터의 반복적 재사용
- 새로운 가치 창출
- -> 독자의 전자책 독서 순서 정보가 저자의 글끄기 방식에 영향을 주는 현상
- 분석 기술 발전
- DINW
- 데이터 : ㄱ마트는 100원에 ㄴ마트는200원에 연필을 판매한다
- 정보 : ㄱ마트의 연필이 더 싸다 (연관되게)
- 지식 : 상대적으로 저렴한 ㄱ 마트에서 연필을 사야겠다
- 지혜 : 다른 상품들도 ㄴ마트보다 쌀것이라고 판단
- 데이터사이언스
- 소프트역량 = 창의적사고, 커뮤니케이션, 설득력(스토리텔링), 호기심
- 데이터로 부터 의미있는 정보 추출
- 정형데이터 뿐만 아니라 다양항 데이터를 대상
- 기존의 통계학과와 달리 총계적 접근
- 주로 통찰력있는 분석
- 인문학이 중여해 지는 외부 요소
- 컨버전스에서 디버전스(복잡한 세계화)
- 생산에서 서비스
- 생산에서 시장창조
- 빅데이터분석에 경제성을 제공해 준 기술 = 클라우드컴퓨터 -> 빅데이터처리기술의 비용을 감축
- 개인정보 비식별화
- 가명처리 = 개인 식별이 가능한 데이터에 대하여 직접적으로 식별할 수 없는 다른값으로 대체
- 범주화 = 단일 식별 정보를 해당 그룹의 대표값으로 변환
- 데이터마스킹 = 식과 같은 속성을 유지한채(데이터의 길이, 유형, 형식 과 같은 속성을 유지하고), 새롭고 읽기 쉬운 데이터를 익명으로 생성
- 총계처리 = 개별 데이터 값을 총합 또는 평균값으로 대체
- 데이터 유형
- 비정형 데이터 = 페이스북 소셜데이터, 검색어, 음성파일, 이메일 기록
- 반정형 데이터 = 센서데이터(스키마, 메타데이터)
- 객체지향 DBMS = 사용자 정의 데이터나 멀티 미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있는 관리시스템
*DBMS = 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경 제공 소프트웨어