Computer Science/IT

[빅데이터 분석 기사] 2. 빅데이터 탐색

728x90
반응형
Chapter 01 데이터 전처리

1. 데이터 정제

1. 데이터 정제

데이터 정제 절차
데이터 오류 원인분석(결측값, 노이즈, 이상값)>
데이터 정제 대상선정(모든데이터) >
데이터 정제 방법결정(삭제, 대체, 예측값)

데이터 정제 기법
변환, 파싱, 보강

데이터 정제 기술
ETL, 맵리듀스, 스파크/스톰, CEP, 피그, 플럼

데이터 세분화 방법
계층적 방법: 응집분석법, 분할분석법
비계층적 방법: 인공신경망 모델, K평균 군집화

2. 데이터 결측값 처리

결측값 종류
완전 무작위 결측, 무작위 결측, 비 무작위 결측

결측값 처리 절차
결측값 식별 > 결측값 부호화 > 결측값 처리 방법

결측값 처리 방법
1️⃣ 단순 대치법
- 완전 분석법
- 평균 대치법
- 단순확률 대치법(핫덱/콜드덱/혼합)
2️⃣ 다중대치법
대치-> 분석-> 결합

3. 데이터 이상값 처리

이상값 발생 원인
데이터 입력 오류, 측정오류, 실험오류, 고의적 이상값, 표본추출에러

이상값 검출 방법
개별 데이터 관찰, 통곗값, 시각화, 머신러닝, 마할라노빈스 거리, LOF, iForest
- 통계기법 이용: ESD, 기하평균, 사분위수, 표준화(z)점수, 딕슨의 Q검정, 그럽스 T검정, 카이제곱 검정
- 시각화 이용: 확률밀도함수, 히스토그램, 시계열차트
- 머신러닝 이용: 마할라노비스 거리, LOF, iForest

이상값 처리
삭제, 대체, 변환, 박스플롯이용제거, 분류하여 처리

2. 분석 변수 처리

1. 변수 선택

 

2. 차원 축소

 

3. 파생변수 생성

 

4. 변수 변환

 

5. 불균형 데이터 처리

 


Chapter 02 데이터 탐색

1. 데이터 탐색 기초

1. 데이터 탐색 개요

탐색적 데이터 분석(Exploratory Data Analysis; EDA):

①저항성(Resistance) ② 잔차해석(Residual) ③ 자료 재표현(Re-expression) ④ 현시성(Graphic Representation)

 

2. 상관관계 분석

수치적 (등간, 비율) 데이터 상관분석: 피어슨 상관계수

순서적 (순서)         데이터 상관분석: 스피어만 순위상관분석

명목적 (명목)         데이터 상관분석: 카이제곱 검정

3. 기초통계량 추출 및 이해

경향성 통계량:
산포도 통계량:
범위, 분산, 표준편차, 변동계수, 사분위수범위,
데이터분포 통계량:
왜도, 첨도

4. 시각적 데이터 탐색

히스토그램
박스플롯
산점도

2. 고급 데이터 탐색

1. 시공간 데이터 탐색

 

2. 다변량 데이터 탐색

 

3. 비정형 데이터 탐색   

 


Chapter 03 통계기법 이해

1. 기술통계

1. 데이터 요약

기초통계량: 평균, 중위수, 최빈수, 범위, 분산 , 표준편차, 평균의 표준오차, 분포, 

상관분석

회귀분석

분산분석

주성분분석

판별분석

2. 표본추출

표본추출기법: ①단순 무작위 추출, 계통 추출, 층화 추출, 군집 추출

자료측정: 질적척도(명목척도, 순서척도), 양적척도(구(등)간척도, 비율척도)

3. 확률분포

이산확률분포: ①포아송 분포, ②베르누이 분포, ③이항분포

연속확률분포: ①정규분포, ②표준정규분포, ③T-분포, ④카이제곱-분포, ⑤F-분포

4. 표본분표

큰수의법칙, 중심극한정리

 

2. 추론통계

1. 점 추정

 

2. 구간 추정

 

3. 가설검정

①②③④

 

 

728x90
반응형