챕터1. 빅데이터 분석과제 정의

 

01. 빅데이터 개요

빅데이터(Big Data) 정의

- 기존 데이터베이스 관리 도구의 능력을 넘어서는 대량(Terabyte)의 정형 또는 심지어 데이터베이터 형태가 아닌 비정형의 데이터(텍스트 등)집합(Set)까지 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술

 

 

빅데이터의 특징

3V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity)

5V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity), 가치(Value), 정확성(Veracity)

7V - 규모의 증가(Volume), 다양성(Variety), 처리속도(Velocity), 가치(Value), 정확성(Veracity), 유효성(Validity), 휘발성,변동성(Volatility)

 

구분 주요 내용
Volume(규모의 증가)
데이터양의 대용량성 확보
기술적 발전과 IT서비스의 일상화로 디지털 정보량(데이터 집합의 크기)이 증가하면서 기존의 데이터 수집, 관리, 처리 소프트웨어의 수용 한계를 넘어섬
Variety(다양성)
다양한 형태의 적응성 확보
로그, SNS, 위치, 구매, IoT등 다양한 데이터 종류의 증가로 인해 텍스트, 멀티미디어 등의 비정형화된 데이터 유형 증가(정형 데이터와 비정형 데이터의 다양화)
Velocity(처리속도)
빠른 데이터 생성으로 실시간적인 데이터 확보
데이터의 양과 내용이 끊임없이 변화하고 사물(센서, 모니터링 등) 및 스트리밍 정보 등 실시간성 정보가 증가로 대규모 데이터의 빠른 처리 및 분석 속도 요구 
Value(가치) 대용량 데이터 내부에 있는 함축된 가치를 찾는 것이 중요하지만 기존 데이터 분석 시스템으로는 작업이 어려움
Veracity(정확성) 데이터의 정확성, 타당성, 신뢰성(어떤 결정을 내리는 데 타당한 데이터인지 판단하는 속성)
Complexity(복잡성) 데이터 종류 확대(구조화되지 않은 데이터 등)와 외부 데이터 활용으로 데이터의 처리 & 관리가 복잡해지고, 데이터 저장 방식의 차이로 데이터 중복성의 문제가 대두되어 복잡성이 증가

 

빅데이터의 유형

 - 텍스트 위주의 정형화(Structured)된 데이터에서 최근에는 데이터의 성격이 다변화되어 반정형(Semi-structured) 및 비정형 데이터(그림, 동영상, 음성, 로그, 센서데이터 등)들이 대량으로 발생

 - 데이터의 수집부터 저장, 처리 및 관리에 이르기까지 새로운 접근 방법이 요구

데이터 종류 데이터 정의 데이터 종류
정형 데이터(Structured Data) 기반 시스템(ERP 등)관리계, 정보계, 분석계 등 업무 시스템 데이터 재무정보, 재고관리, 급여표, 거래정보, 인사정보, 거래처 정보
반정형 데이터(Semi-structured Data) 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태 Web Log데이터, 보안 및 특정 센서 데이터, 마케팅 정보 외 다양한 장치 데이타
빅데이터(Big Data) 형태나 구조가 정형화되지 않은 데이터(Unstructured Data 비정형 데이터) 문서, 텍스트, 이미지, 동영상, Social Data, 센서데이터, 장치 Log 데이터, 기상 데이터, RFID데이터, SNS데이터 외 다양한 형식의 데이터

 

※ 빅 데이터 분석 시 필요한 인력 - 현업 담당자, Hive 전문가, R 모델러

※ 데이터 분석가의 역량 - 수학적, 전문적 지식, 프로그래밍 역량

※ 빅데이터 분석 수행 시 필요한 태도 - 창의적 & 논리적 사고, 침착함

 

 

데이터 크기 단위

데이터 크기 단위의 순서

 

 

빅데이터 요소 기술

구분 주요 기술
수 집 데이터 원천으로부터 데이터를 검색하여 수동 또는 자동으로 수집
단순 수집이 아닌 검색, 수집, 변환 과정 포함
ETL(Extract / Transform / Load, 데이터 추출, 변환, 적재) 작업 수행, 도메인 검증 기능 수행
크롤링, 로그 수집기, 센싱, Open API 등
저 장 데이터 크기에 상관없이 저렴한 비용으로, 데이터를 빠르고 쉽게 저장
병렬 DBMS, Hadoop, NoSQL 등
공 유 시스템 간의 데이터 공유, Multitenant 데이터 공유, 협업 필터링 등
처 리 대용량 데이터의 저장, 수집, 관리, 유통, 분석 과정 처리
분산병렬, 실시간, 인-메모리(In-Memory, 메인메모리 데이터 저장) 처리 등
분 석 데이터를 효율적이고 정확하게 분석하여 비즈니스 등의 영역에 적용
통계분석, 데이터마이닝, 텍스트마이닝, 최적화 분석 등
시각화 다양한 차트와 관계 등을 시각화하여 데이터 탐색 및 결과해석 등에 활용
정보 시각화 기술, 시각화 도구, 편집 기술
실시간 자료 묘사(시각화) 기술 등

※ 우리나라에서 관리하는 공공 데이터 플랫폼의 도메인 주소 : data.go.kr

 

빅데이터 분석 기획 능력

NCS능력단위 요소(빅데이터 분석 기획)

NCS능력단위 학습 모듈 학습 내용
도메인 이슈 도출하기 분석과제 As/Is 및 개선방향 작성 주어진 업무에 대한 문제점을 정의하고 빅데이터 분석을 통한 개선 방향 도출
분석목표 수립하기 분석목표정의서 확정 빅데이터 분석을 통해 얻고자 하는 목표를 정의한 분석목표 정의서 수립
프로젝트 계획하기 프로젝트 계획 설계 빅데이터 분석을 위한 예산, 소요기간, 현재의 IT 환경 등을 고려하여 WBS(작업분할구조도) 설계
보유데이터 자산 확인하기 내/외부 데이터 활용 수준 분석 및 컴플라이언스 점검 분석목표와 프로젝트 계획에 따른 사전 데이터 점검
데이터 품질, 분량, 수집 경로 및 데이터 유형 점검

 

NCS가 정의한 빅데이터 분석 직무

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무

 

데이터 베이스 설명

데이터베이스(Database) : 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터의 집합
데이터베이스 관리 시스템(DBMS : Database Management System) : 다수의 컴퓨터 사용자들이 상호관계가 있는 자료들을 하나의 통합된 저장소에 논리적으로 저장, 공유, 관리하는 시스템으로 컴퓨터에 수록된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어


데이터베이스의 데이터 특성 : 저장(Stored), 통합(Integrated), 공용(shared)
※ 과거에는 데이터 작업을 파일로 관리하는 경우가 많았는데 파일로 관리할 경우 중복 데이터가 많이 발생하여 이런 문제를 해결하기 위해 데이터공유가 가능한 데이터베이스  시스템을 개발되었다.

 

 

 

02. 분석 목적 설정

빅데이터 분석의 목적 - 고객분석, 제품 및 처리과정의 효율성 제고, 디지털 제품 및 서비스제공, 운영 효율성, 디지털 마케팅, 리스크 관리 및 운영

 

(최근에는 기업에서 제품 차별화, 원가 절감, 소비자 행동 분석, 고객관계관리, 고객경험의 변화, 내부 프로세스 및 효율성 개선, 신규 가치 창출등의 목적으로 빅데이터 분석의 목적으로 설정하고 있다.

 

빅데이터 분석목표정의서

소스 데이터, 분석방법, 데이터 입수 난이도, 분석 난이도, 분석 수행 주기, 분석결과에 대한 검증이 가능한 성과평가 기준 설계

 

정보의 주요 특징

정확성 : 정확한 데이터로부터 정확하게 처리되어 인지된 정보
적시성 : 필요할 때 이용 가능한 데이터
관련성 : 상황 및 주제와 관련된 데이터
적당량 : 의사결정을 위해 필요한 만큼만 있으면 됨
비용가치 : 정보 산출의 가치가 비용을 넘어서지 말아야 함

※ 지식 : 특정영역에서 경험을 통해 정보를 통합한 형태

 

 

03. 데이터 확보 및 분석 방안 설정

데이터 확보 계획 수립

수립절차 -> 데이터 확보 시 고려사항 -> WBS작성단계(데이터 분석과제 정의, 데이터 준비 및 탐색, 데이터 분석 모델링 및 검증, 산출물 정리)

 

빅데이터 확보 계획 수립 절차

목표정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

데이터 분석 프로젝트 수행 과정

분석과제 정의-> 준비 및 탐색 -> 모델링 및 검증 -> 산출물 정리

 

빅데이터 분석 프로세스(4단계)

요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용

 

데이터 확보 계획 수립 시 데이터 확보 비용, 하드웨어 및 소프트웨어 등 시스템 운영 예산, 외부 컨설팅 비용

 

데이터마이닝 설명

일반적으로 데이터를 기반으로 하여 지식과 패턴을 추출하며, 사용자의 경험이나 편견을 배제한다.
이로써 관련 영역의 전문가가 간과해 버릴 수 있는 새로운 지식이나 패턴을 발견한다.

 

데이터마이닝 기법

군집화 방법을 위하여 사용되는 k-means Clustering(k-평균 군집화)
의사결정 나무(Decision Tree)
대표적인 비구조화 데이터 중 텍스트 데이터를 분석하기 위한 텍스트마이닝(Text Mining)
구분 데이터 분석
분류
(Classification)
일정한 집단에 대한 특정 정의를 통한 분류
군집화
(Clustering)
구체적 특정을 공유하는 군집을 찾음
연관성
(Association)
동시에 발생한 사건들 사이의 관계 정의
연속성
(Sequencing)
특정 기간에 걸쳐 발생하는 관계 규명
예측
(Forecasting)
대용량 데이터 집합 내의 패턴을 기반으로 한 미래 예측

 

+ Recent posts