Computer Science/IT

[빅데이터 분석 기사] 1. 빅데이터 분석 기획

728x90
반응형

Chapter 01 빅데이터의 이해

1. 빅데이터 개요 및 활용

1. 빅데이터의 특징

 

2. 빅데이터의 가치

 

3. 데이터 산업의 이해

 

4. 빅데이터 조직 및 인력

 

2. 빅테이터 기술 및 제도

 

1. 빅데이터 플랙폼

 

2. 빅데이터와 인공지능

 

3. 개인정보보호법

 


Chapter 02 데이터 분석 계획

1. 분석 방안 수립

1. 분석 로드맵 설정

 

2. 분석 문제의 정의

 

3. 데이터 분석 방안

2. 분석 작업 계획

1. 데이터 확보 계획

 

2. 분석 절차 및 작업 계획


Chapter 03 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

데이터 처리기술: 데이터 필터링/변환/정제/통합/축소

1. 데이터 수집

데이터 수집 프로세스

수집 데이터 도출 → 목록작성 데이터 소유기관 파악 및 협의 데이터 유형 분류 및 확인

수집 기술 선정 수집 계획서 작성 수집 주기 결정 데이터 수집 실행

 

수집 데이터의 대상

내부데이터

: 서비스(SCM, ERP, CRM), 네트워크(IPS), 마케팅(VOC)

                 내부조직간 협의, 주로 정형데이터, 서비스 수명주기 관리 용이

외부데이터

: 소셜(SNS, 커뮤니티, 게시판), 네트워크(센서데이터), 공공(정부, 의료 등)

                → 특정기관 담당자 협의, Open API, 주로 수집이 어려운 비정형데이터

 

데이터 수집 방식 및 기술

1. 정형 데이터수집

ELT, FTP, API, DBToDB, Psync(Remote Sync), 크쿱(Sqoop)

 

2. 비정형 데이터수집

크롤링, RSS, Open API, 스크래파이(Scrapy), 아파치 카프카(Kafka)

 

3. 반정형 데이터수집 

센싱, 스트리밍, 플럼(Flume), 스크라이브(Scribe), 척와(Chukwa)

 

2. 데이터 유형 및 속성 파악

데이터 유형

구조관점: 정형, 반정형, 비정형

시간관점: 실시간, 비실시간

저장형태: 파일, 데이터베이스, 콘텐츠, 스트림 

 

데이터 속성

정형, 반정형, 비정형

정성적데이터, 정량적데이터

범주형(명목형, 순서형), 수치형(이산형, 연속형)

 

데이터 측정 척도

명목척도

서열척도(순서척도)

등간척도(간격, 거리척도)

비율척도: 균등간격, 절대영점, 키, 나이, 금액, 거리, 부피

 

3. 데이터 변환

 

4. 데이터 비식별화

 

5. 데이터 품질 검증

 

2. 데이터 적재 및 저장

1. 데이터 적재

데이터 적제 소프트웨어 아키텍쳐

하둡

인메머리 데이터베이스

데이터분석 플랫폼

데이터 시각화

 

데이터 적제 도구

플루언티드(Fluentd) : 

플럼(Flume) : 

스크라이브(Scribe) : 

로그스태시(Logstash) :  

 

2. 데이터 저장

빅데이터 저장 기술

분산파일시스템 

구글 파일시스템(GFS) 

하둡 분산파일시스템 

러스터(Lustre)

 

데이터베이스 클러스터

공유/무공유 클러스터

① Oracle RAC

② IBM DB2 ICE

③ SQL Server

④ MySQL

 

NoSQL

① 구글 빅테이블

② HBase

③ 아마존 SimpleDB

④ 마이크로소프트 SSDS

 

병렬 DBMS

① VoltDB

② SAP HANA

 

네트워크 구성 저장 시스템

① SAN

② NAS

 

클라우드 파일 저장 시스템

① Amazon S3

②  OpenStack Swift

 

728x90
반응형