제2장 빅데이터 분석 계획

 

1. 분석 수행 방안 수립

 

데이터 수집부터 폐기단계(6단계)

데이터 수집-> 저장-> 처리-> 분석-> 시각화-> 이용-> 폐기

 

빅데이터 분석 프로세스

문제인식 관련 연구조사 모형화(변수 선정) 자료수집
(변수 측정)
자료분석 분석결과 제시
소셜 미디어의 발전으로 양방향 커뮤니케이션으로 수집된 데이터의 증가, 비정형화된 데이터 수집으로 인한 데이터의 증가, 클라우드 서비스를 이용한 개인 및 조직에서의 데이터 축적, 분석 및 활용에 대한 요구의 증가 각종문헌을 조사하여 문제와 관련되는 내용을 요약, 분류하고 해결하고자 하는 문제를 명확하게 정의 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화 하는 과정

모형화란 문제를 의도적으로 단순화한 변수들 간의 관계

많은 변수들이 포함된 문제로부터 그 특성을 잘 대표하는 결정적인 요소(변수)들을 모형화 단계에서 찾아냄
비즈니스 모델(Business Model) : 기업이 수익을 얻기 위한 일련의 활동, 즉 '수익모델'로 정의 데이터마이닝기법 : 분류(Classification), 예측(Forecasting), 관련성 분석(Association Analysis), 군집분석(Cluster Analysis), 소셜네트워크 분석(Social Network Analysis)


노드(사람 및 객체)와 링크(우정, 조직력, 연대감 등)으로 구성된 네트워크 이론을 기반으로 사람들 사이의 사회적 관계를 분석
변수들 사이의 관련성을 포함한 데이터 분석결과를 명료하게 제시하려면 표, 그림, 차트등을 활용하고 문제의 정의부터 결과까지 스토리 형식으로 이용하는 것이 좋다.

※ 데이터베이스(Database) 4가지 특징(ACID)

 -  원자성(Atomicity), 일관성(Consistency), 고립성(Isolation), 지속성(Durability)

 

 

2. 분석 절차 및 작업 계획 수립

 

빅데이터 분석 절차의 비교

빅데이터 분석 프로세스 NCS 빅데이터 분석 절차 문서화
문제인식
관련 연구조사
도메인 이슈 도출
분석목표 수립
빅데이터 요건 정의서
분석목표정의서
모형화(변수 선정)
자료수집(변수 측정)
자료분석
프로젝트 계획 수립
보유 데이터 자산 확인
WBS(Work Breakdown Structure, 작업분할구조도)
데이터 품질 보고서
분석결과 제시 빅데이터 분석결과 시각화 분석 보고서

NCS빅데이터 분석 절차 5단계

  • 도메인 이슈 도출 : 데이터 분석을 통한 개선사항을 도출하기 위하여 분석하고자 하는 과제 현황을 파악˙분석하고 이를 통한 개선과제를 정의한다. 설문조사 방법을 이용하는 경우 설문 대상자의 사전동의, 비밀보장 및 분석결과의 중립성 유지등을 고려하며, 개념의 타당성(적절한 측정), 내용의 타당성(척도의 일반성 검토)을 검토하고 측정값들 사이의 상관관계를 추정하여 변수들 사이의 관련성을 분석하며, 크론바하 알파(Cronbach Alpha)값을 이용하여 대상자의 설문 문항 답변에 대한 신뢰도를 평가한다. 빅데이터 요건 정의서에는 분석에 대한 기획의도, 빅데이터 분석을 통해 개선되는 부분 등이 반드시 포함되어야 하며, 이후에 요건이 변경되었을 경우에는 기록을 남겨 추적˙관리하는 것이 바람직하다.
  • 분석목표 수립 : 앞에서 정리된 내용을 토대로 개선방향 에 맞는 분석목표정의서를 작성하고 여기에는 분석의 기본정보(분석목적, 우선순위, 접근 방안 등), 성과측정 방법(정성, 정량적 성과측정 기준), 데이터 관련 정보(내부/외부 데이터 정보) 및 분석 타당성에 대한 검토의견(실시간 분석의 가능 여부, 텍스트 데이터 분석 수행 여부 등)이 기본적으로 반영된다.
  • 프로젝트 계획 수립 : 분석기법, 분석 솔루션, 플랫폼(수집 데이터를 분석 · 처리하여 지식 추출), IT 자원, 데이터 준비상황 등을 점검한 후 전문지식을 보유한 분야별 전문가가 포함되어 전체 작업분할구조도(WBS, Work Breakdown Structure)를 설계한다. 이를 위하여 먼저, 프로젝트 계획 수립을 위하여 프로젝트 소요비용(인건비, 하드웨어 및 소프트웨어 비용)을 배분하고, 프로젝트 WBS를 작성한다. 빅데이터 분석 플랫폼은 빅데이터에서 가치를 추출하기 위한 일련의 과정을 지원하기 위한 프로세스를 규격화한 기술 및 서비스를 나타내며 데이터 수집, 저장, 처리, 분석, 시각화 등을 통해 원시 데이터(Raw Data)로부터 Insight 및 가치를 추출하는 역할을 수행한다. 데이터 분석흐름4단계(데이터 분석과제 정의, 데이터 준비 및 탐색, 데이터 분석 모델링 및 검증, 산출물 정리)
  • 보유 데이터 자산 확인 : 데이터 품질을 점검하고 데이터 분량, 데이터 완전성, 일관성, 정확성을 점검하며, 데이터의 수집 경로 및 데이터 유형을 조사한다. 외부 데이터를 수집하는 경우 수집 경로 및 필요한 제약사항을 표기하고 개인정보가 포함되었을 경우 개인정보를 제거하거나 또는 대체하여 수집한 데이터를 조직 내부의 법률부서로부터 확인받은 후 사용하고 점검받는다.
  • 빅데이터 분석결과 시각화 : 예전에는 단순한 수치의 그래프나 데이터 패턴을 파악하는 방법이 주로 사용되었으나, 최근에는 여러 분석 도구를 활용하여 다양한 정보의 전달이나 상황분석을 위한 시각화 메시지 전달이 가능하다.

 

프로젝트 수행 로드맵(WBS)

프로젝트 소요비용 배분 프로젝트 WBS 수립 프로젝트 업무 분장 계획 및 배분
인건비, 하드웨어 구입 및 사용비용, 기타 비용(성과측정비, 추가인건비, 자문료 등)을 고려하여 산정 분석목표정의서, 프로젝트 소요비용 배분 계획을 참고하여 데이터 분석 흐름에 맞게 수립 프로젝트 평가위원회를 구성하고 여기에는 프로젝트 유관부서의 리더들과 프로젝트 참여 인원으로 구성하며, 필요에 따라 외부 자문 인원이 참여하도록 한다. 마지막으로 프로젝트의 최종 완료 및 검수는 평가위원회의 의견을 반영한다.

 

※ Big Data Business Model : 빅데이터를 이용하여 경제적 수익을 창출할 수 있는 모든 사업 형태

※ 성공적인 비즈니스 모델 개발을 위한 고려사항 : 제품과 서비스 유형, 고객의 특성 이해, 거래의 형태(인터넷 등), 고객 서비스 차별화, 정보통신(ICT)기술

※Information(정보) : 개인이나 조직이 의사결정을 할 때 사용할 수 있도록 의미 있고 유용한 형태로 가공, 처리된 데이터 지식으로서 불확실성을 인식하거나 평가하고 이를 줄이기 위해 사용(데이터로부터 파생된 지식, 데이터에 의미를 부여하여 나타낸 것, 의사결정과정에서 사용될 때 그 가치를 가짐)

※ 데이터마이닝(Data Mining) : 수집된 대용량의 데이터로부터 자동 또는 반자동적인 방법으로 의미 있는 규칙, 패턴, 관계를 찾아내며, 많은 데이터베이스로부터 지금까지 잘 알려지지 않은 유용하고 활용 가능한 정보를 추출

 

 

챕터1. 빅데이터 분석과제 정의

 

01. 빅데이터 개요

빅데이터(Big Data) 정의

- 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량(Terabyte)의 정형 또는 심지어 데이터베이터 형태가 아닌 비정형의 데이터(텍스트 등)집합(Set)까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술

 

 

빅데이터의 특징

3V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity)

5V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity), 가치(Value), 정확성(Veracity)

7V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity), 가치(Value), 정확성(Veracity), 유효성(Validity), 휘발성,변동성(Volatility)

 

구분 주요 내용
Volume(규모의 증가)
데이터양의 대용량성 확보
기술적 발전과 IT서비스의 일상화로 디지털 정보량(데이터 집합의 크기)이 증가하면서 기존의 데이터 수집, 관리, 처리 소프트웨어의 수용 한계를 넘어섬
Variety(다양성)
다양한 형태의 적응성 확보
로그, SNS, 위치, 구매, IoT등 다양한 데이터 종류의 증가로 인해 텍스트, 멀티미디어 등의 비정형화된 데이터 유형 증가(정형 데이터와 비정형 데이터의 다양화)
Velocity(처리속도)
빠른 데이터 생성으로 실시간적인 데이터 확보
데이터의 양과 내용이 끊임없이 변화하고 사물(센서, 모니터링 등) 및 스트리밍 정보 등 실시간성 정보가 증가로 대규모 데이터의 빠른 처리 및 분석 속도 요구 
Value(가치) 대용량 데이터 내부에 있는 함축된 가치를 찾는 것이 중요하지만 기존 데이터 분석 시스템으로는 작업이 어려움
Veracity(정확성) 데이터의 정확성, 타당성, 신뢰성(어떤 결정을 내리는 데 타당한 데이터인지 판단하는 속성)
Complexity(복잡성) 데이터 종류 확대(구조화되지 않은 데이터 등)와 외부 데이터 활용으로 데이터의 처리 & 관리가 복잡해지고, 데이터 저장 방식의 차이로 데이터 중복성의 문제가 대두되어 복잡성이 증가

 

빅데이터의 유형

 - 텍스트 위주의 정형화(Structured)된 데이터에서 최근에는 데이터의 성격이 다변화되어 반정형(Semi-structured) 및 비정형 데이터(그림, 동영상, 음성, 로그, 센서데이터 등)들이 대량으로 발생

 - 데이터의 수집부터 저장, 처리 및 관리에 이르기까지 새로운 접근 방법이 요구

데이터 종류 데이터 정의 데이터 종류
정형 데이터(Structured Data) 기반 시스템(ERP 등)관리계, 정보계, 분석계 등 업무 시스템 데이터 재무정보, 재고관리, 급여표, 거래정보, 인사정보, 거래처 정보
반정형 데이터(Semi-structured Data) 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태 Web Log데이터, 보안 및 특정 센서 데이터, 마케팅 정보 외 다양한 장치 데이타
빅데이터(Big Data) 형태나 구조가 정형화되지 않은 데이터(Unstructured Data 비정형 데이터) 문서, 텍스트, 이미지, 동영상, Social Data, 센서데이터, 장치 Log 데이터, 기상 데이터, RFID데이터, SNS데이터 외 다양한 형식의 데이터

 

※ 빅 데이터 분석 시 필요한 인력 - 현업 담당자, Hive 전문가, R 모델러

※ 데이터 분석가의 역량 - 수학적, 전문적 지식, 프로그래밍 역량

※ 빅데이터 분석 수행 시 필요한 태도 - 창의적 & 논리적 사고, 침착함

 

 

데이터 크기 단위

데이터 크기 단위의 순서

 

 

빅데이터 요소 기술

구분 주요 기술
수 집 데이터 원천으로부터 데이터를 검색하여 수동 또는 자동으로 수집
단순 수집이 아닌 검색, 수집, 변환 과정 포함
ETL(Extract / Transform / Load, 데이터 추출, 변환, 적재) 작업 수행, 도메인 검증 기능 수행
크롤링, 로그 수집기, 센싱, Open API 등
저 장 데이터 크기에 상관없이 저렴한 비용으로, 데이터를 빠르고 쉽게 저장
병렬 DBMS, Hadoop, NoSQL 등
공 유 시스템 간의 데이터 공유, Multitenant 데이터 공유, 협업 필터링 등
처 리 대용량 데이터의 저장, 수집, 관리, 유통, 분석 과정 처리
분산병렬, 실시간, 인-메모리(In-Memory, 메인메모리 데이터 저장) 처리 등
분 석 데이터를 효율적이고 정확하게 분석하여 비즈니스 등의 영역에 적용
통계분석, 데이터마이닝, 텍스트마이닝, 최적화 분석 등
시각화 다양한 차트와 관계 등을 시각화하여 데이터 탐색 및 결과해석 등에 활용
정보 시각화 기술, 시각화 도구, 편집 기술
실시간 자료 묘사(시각화) 기술 등

※ 우리나라에서 관리하는 공공 데이터 플랫폼의 도메인 주소 : data.go.kr

 

빅데이터 분석 기획 능력

NCS능력단위 요소(빅데이터 분석 기획)

NCS능력단위 학습 모듈 학습 내용
도메인 이슈 도출하기 분석과제 As/Is 및 개선방향 작성 주어진 업무에 대한 문제점을 정의하고 빅데이터 분석을 통한 개선 방향 도출
분석목표 수립하기 분석목표정의서 확정 빅데이터 분석을 통해 얻고자 하는 목표를 정의한 분석목표 정의서 수립
프로젝트 계획하기 프로젝트 계획 설계 빅데이터 분석을 위한 예산, 소요기간, 현재의 IT 환경 등을 고려하여 WBS(작업분할구조도) 설계
보유데이터 자산 확인하기 내/외부 데이터 활용 수준 분석 및 컴플라이언스 점검 분석목표와 프로젝트 계획에 따른 사전 데이터 점검
데이터 품질, 분량, 수집 경로 및 데이터 유형 점검

 

NCS가 정의한 빅데이터 분석 직무

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

 

데이터 베이스 설명

데이터베이스(Database) : 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합
데이터베이스 관리 시스템(DBMS : Database Management System) : 다수의 컴퓨터 사용자들이 상호관계가 있는 자료들을 하나의 통합된 저장소에 논리적으로 저장, 공유, 관리하는 시스템으로 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어


데이터베이스의 데이터 특성 : 저장(Stored), 통합(Integrated), 공용(shared)
※ 과거에는 데이터 작업을 파일로 관리하는 경우가 많았는데 파일로 관리할 경우 중복 데이터가 많이 발생하여 이런 문제를 해결하기 위해 데이터공유가 가능한 데이터베이스  시스템을 개발되었다.

 

 

 

02. 분석 목적 설정

빅데이터 분석의 목적 - 고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스제공, 운영 효율성, 디지털 마케팅, 리스크 관리 및 운영

 

(최근에는 기업에서 제품 차별화, 원가 절감, 소비자 행동 분석, 고객관계관리, 고객경험의 변화, 내부 프로세스 및 효율성 개선, 신규 가치 창출등의 목적으로 빅데이터 분석의 목적으로 설정하고 있다.

 

빅데이터 분석목표정의서

소스 데이터, 분석방법, 데이터 입수 난이도, 분석 난이도, 분석 수행 주기, 분석결과에 대한 검증이 가능한 성과평가 기준 설계

 

정보의 주요 특징

정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보
적시성 : 필요할 때 이용 가능한 데이터
관련성 : 상황 및 주제와 관련된 데이터
적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨
비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함

※ 지식 : 특정영역에서 경험을 통해 정보를 통합한 형태

 

 

03. 데이터 확보 및 분석 방안 설정

데이터 확보 계획 수립

수립절차 -> 데이터 확보 시 고려사항 -> WBS작성단계(데이터 분석과제 정의, 데이터 준비 및 탐색, 데이터 분석 모델링 및 검증, 산출물 정리)

 

빅데이터 확보 계획 수립 절차

목표정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

데이터 분석 프로젝트 수행 과정

분석과제 정의-> 준비 및 탐색 -> 모델링 및 검증 -> 산출물 정리

 

빅데이터 분석 프로세스(4단계)

요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용

 

데이터 확보 계획 수립 시 데이터 확보 비용, 하드웨어 및 소프트웨어 등 시스템 운영 예산, 외부 컨설팅 비용

 

데이터마이닝 설명

일반적으로 데이터를 기반으로 하여 지식과 패턴을 추출하며, 사용자의 경험이나 편견을 배제한다.
이로써 관련 영역의 전문가가 간과해 버릴 수 있는 새로운 지식이나 패턴을 발견한다.

 

데이터마이닝 기법

군집화 방법을 위하여 사용되는 k-means Clustering(k-평균 군집화)
의사결정 나무(Decision Tree)
대표적인 비구조화 데이터 중 텍스트 데이터를 분석하기 위한 텍스트마이닝(Text Mining)
구분 데이터 분석
분류
(Classification)
일정한 집단에 대한 특정 정의를 통한 분류
군집화
(Clustering)
구체적 특정을 공유하는 군집을 찾음
연관성
(Association)
동시에 발생한 사건들 사이의 관계 정의
연속성
(Sequencing)
특정 기간에 걸쳐 발생하는 관계 규명
예측
(Forecasting)
대용량 데이터 집합 내의 패턴을 기반으로 한 미래 예측

 

+ Recent posts