study note/지능형 정보 기술

[지능형 정보 기술] 빅데이터 / 빅데이터 시각화

yenalee 2024. 2. 6. 09:44

빅데이터의 (Big)꼭 큰 사이즈를 의미하는 것은 아님.

> 스몰 데이터라고 해도 가치를 보여줄 수 있다.

 

- 빅데이터

매우 많은 양의 데이터가 빅데이터의 전제 조건은 아니다.

데이터 양에 관계없이 데이터로부터 정보를 뽑아 내서 활용할 수 있다면 가능

사용 목적에 따라 모든 데이터가 필요하지 않을 때가 많다.

빅데이터, 많은 양의 데이터를 축적하는 것이 핵심인 경우가 많다.

 

- 빅데이터의 정의(개념)

다양한 종류의 데이터에서 가치를 추출하는 일

데이터의 수집, 분석, 가시화를 지원하도록 고안된 기술 및 프로세스.

 

- 빅데이터의 특징 : 3V

Volume : 데이터의 집합의 대규모

Variety : 데이터의 형식(유형)이 다양

Velocity : 데이터 생성, 처리 속도가 빠름

다양한 종류의 데이터 속에서 가치를 추출하는 모든 일을 의미하는 건 아님.

 

- 데이터의 종류

1) 정형 데이터 : 일정한 형태, 쉽게 계산 가능한 데이터

2) 비정형 데이터 : 형태가 없는 텍스트, 이미지, 음성, 비디오 등. 바로 연산, 처리 가능이 불가능

3) 반정형 데이터

 

- 빅데이터 프로세스

1) 목표 설정 : 목표를 정확하게 설정

2) 데이터 수집 : 여러 곳에서 데이터 수집

3) 저장 : 분산 저장 기술을 이용하여 저장

4) 전처리 : 오류 데이터 수정 / 시각화

5) 분석 및 평가 : 데이터 분석 지도학습분석기법, 자율학습분석기법 / 데이터마이닝, 통계분석

6) 도입 : 합리성 판단, 경비나 기간을 결정하여 도입

 

* 데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칠이나 패턴을 찾아내는 것

* 지도 기계 학습 : 분류된 데이터로부터 학습

* 자율 학습 모델 : 데이터에서 자동적으로 특징을 추출하고 패턴을 찾아낸다

 

- 빅데이터 활용분야

공공분야 / 서울시 심야버스 노선 / CCTV와 범죄 / 의료분야 / IBM 왓슨 / 신용평가 분야 / 보험분야

 

- 사물인터넷과 빅데이터

빅데이터 출현배경 : 2020년 디지털 정보량 급격한 증가

교통분야 : ex. 버스에 센서 부착 후 실시간 위치 정보 확인

의료분야 : 심장모니터, 웨어러블 장치의 건강데이터 전송 및 기록

 

- 데이터 수집

목표 설정 우선, 목적에 맞게 데이터가 수집되어야 함

1) 기존 자료 중 목적에 맞게 정리 후 수집

2) 스스로 데이터 생성(DAQ : 센서 이용 데이터 수집)

3) 웹 데이터 수집

4) 데이터 판매 회사 이용, 유로 데이터 구매

5) 공공 데이터 가져오기

 

- 공공 데이터 :

공공기관이 생성하거나 관리하고 있는 자료 또는 정보

다양한 형태의 모든 자료 및 정보가 대상


 

- 빅데이터 전처리 과정 :

목표 설정 데이터 수집 저장 전처리 분석 및 평가 도입

 

- 전처리가 필요한 이유 :

1) 결측치가 있는 상태로 분석 결과값 또는 관계가 왜곡됨

2) 이상 데이터 발생 시 결과값에 영향을 줄 수 있음

3) 불필요한 데이터는 전처리에서 제거해야 함

 

> 빅데이터 자료로 바로 분석 할 수 없음 목적에 맞는 분석을 위한 전처리 과정 필요

 

- 전처리 예 :

1) Neural Network(신경망)에서는 0~1 사이의 값만 사용 가능 정규화 필요

2) 이미지 분석을 위한 pixel → matrix 방식 변경

 

> 데이터 포맷을 변경하기 위해 전처리 필요.

> 전처리 과정은 빅데이터 처리 과정 중 가장 오래 걸리며 중요한 과정임

 

- 빅데이터 시각화 :

특정 기준에 따라 수집한 데이터의 특징이나 분석 결과를 그림이나 그래프 등으로 표현. 데이터 특징과 감춰진 의미를 찾아, 논리적으로 이해하는데 도움.

 

> 현재 상황의 이해, 변화 추이를 예측 / 속성들 간의 상관관계, 통계적인 속성 파악

 

- 데이터 시각화 기능 : 설명 / 탐색 / 표현

1) 설명적 시각화 : 단일 시각적 경험 설명

2) 탐색적 시각화 : 다양한 경험을 탐색하고 표현

3) 표현적 시각화 : 심미적 측면에서 감정적 반응과 데이터에 대한 다양하고도 풍부한 해석 제공

> 빅데이터 분석에서는 표현적 시각화 단계가 가장 중요한 기술 분야로 취급

 

- 데이터 시각화의 목적 :

시각화 결과물을 통한 사용자가 주제에 대해 더 잘 이해하고 느끼게 하는 것

> 정보전달과 설득으로 구분

 

- 빅데이터 시각화 프로세스 :

1) 정보 구조화 : 데이터 수집 및 탐색 / 데이터 분류하기 / 데이터 배열하기 / 데이터 재배열

2) 정보 시각화 : 시간 시각화 / 분포 시각화 / 관계 시각화 / 비교 시각화 / 여러 변수 비교 / 공간 시각화

3) 정보 시각표현 : 그래픽 7요소 / 그래픽 디자인 기본 원리 / 인터렉션 / 시각정보 디자인 7원칙 > 빅데이터 시각화는 전달 및 설득하는 과정 = 의사결정과 분석전략

 

- 정보 구조화 :

데이터 수집 / 분류 / 정보조직화 방법(배열, 관계 맺기)

 

- 정보 시각화 :

1) 시간 시각화(막대, )

2) 분포 시각화(파이, 도우넛, 트리, 연속)

3) 관계 시각화(스캐터, 버블, 히스토그램)

4) 비교 시각화(히트맵, 다차원척도법)

5) 공간 시각화(지도매핑)

 

1) 시간 시각화 :

막대 그래프, 누적 막대그래프, 점그래프, 꺽은선 그래프

 

2) 분포 시각화 :

최대-최소-전체 분포 / 파이차트, 도우넛차트, 트리맵, 누적연속그래프

 

3) 관계 시각화 :

집단간의 유사성과 상관관계 / 스캐터 플롯, 버블차트, 히스토그램

 

4) 비교 시각화 :

히트맵, 체르노프 페이스, 스타차트, 다차원 척도법

 

5) 공간 시각화 :

지도 매핑, 코로플레스


 

- 엑셀 파이쿼리 편집기(전처리 기능)

1) 불필요한 열 삭제 열관리 열 선택

2) 공백 제거 내림버튼 빈 항목 제거

3) 데이터형 변환 변환 데이터형식

4) 값 바꾸기 변환 값바꾸기

5) 정렬 기능 오름차순 정렬 / 내림차순 정렬