빅데이터의 ‘빅(Big)’ 꼭 큰 사이즈를 의미하는 것은 아님.
> 스몰 데이터라고 해도 가치를 보여줄 수 있다.
- 빅데이터
매우 많은 양의 데이터가 빅데이터의 전제 조건은 아니다.
데이터 양에 관계없이 데이터로부터 정보를 뽑아 내서 활용할 수 있다면 가능
사용 목적에 따라 모든 데이터가 필요하지 않을 때가 많다.
빅데이터, 많은 양의 데이터를 축적하는 것이 핵심인 경우가 많다.
- 빅데이터의 정의(개념)
다양한 종류의 데이터에서 가치를 추출하는 일
데이터의 수집, 분석, 가시화를 지원하도록 고안된 기술 및 프로세스.
- 빅데이터의 특징 : 3V
Volume : 데이터의 집합의 대규모
Variety : 데이터의 형식(유형)이 다양
Velocity : 데이터 생성, 처리 속도가 빠름
다양한 종류의 데이터 속에서 가치를 추출하는 모든 일을 의미하는 건 아님.
- 데이터의 종류
1) 정형 데이터 : 일정한 형태, 쉽게 계산 가능한 데이터
2) 비정형 데이터 : 형태가 없는 텍스트, 이미지, 음성, 비디오 등. 바로 연산, 처리 가능이 불가능
3) 반정형 데이터
- 빅데이터 프로세스
1) 목표 설정 : 목표를 정확하게 설정
2) 데이터 수집 : 여러 곳에서 데이터 수집
3) 저장 : 분산 저장 기술을 이용하여 저장
4) 전처리 : 오류 데이터 수정 / 시각화
5) 분석 및 평가 : 데이터 분석 – 지도학습분석기법, 자율학습분석기법 / 데이터마이닝, 통계분석
6) 도입 : 합리성 판단, 경비나 기간을 결정하여 도입
* 데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칠이나 패턴을 찾아내는 것
* 지도 기계 학습 : 분류된 데이터로부터 학습
* 자율 학습 모델 : 데이터에서 자동적으로 특징을 추출하고 패턴을 찾아낸다
- 빅데이터 활용분야
공공분야 / 서울시 심야버스 노선 / CCTV와 범죄 / 의료분야 / IBM 왓슨 / 신용평가 분야 / 보험분야
- 사물인터넷과 빅데이터
빅데이터 출현배경 : 2020년 디지털 정보량 급격한 증가
교통분야 : ex. 버스에 센서 부착 후 실시간 위치 정보 확인
의료분야 : 심장모니터, 웨어러블 장치의 건강데이터 전송 및 기록
- 데이터 수집
목표 설정 우선, 목적에 맞게 데이터가 수집되어야 함
1) 기존 자료 중 목적에 맞게 정리 후 수집
2) 스스로 데이터 생성(DAQ : 센서 이용 데이터 수집)
3) 웹 데이터 수집
4) 데이터 판매 회사 이용, 유로 데이터 구매
5) 공공 데이터 가져오기
- 공공 데이터 :
공공기관이 생성하거나 관리하고 있는 자료 또는 정보
다양한 형태의 모든 자료 및 정보가 대상
- 빅데이터 전처리 과정 :
목표 설정 → 데이터 수집 → 저장 → 전처리 → 분석 및 평가 → 도입
- 전처리가 필요한 이유 :
1) 결측치가 있는 상태로 분석 → 결과값 또는 관계가 왜곡됨
2) 이상 데이터 발생 시 결과값에 영향을 줄 수 있음
3) 불필요한 데이터는 전처리에서 제거해야 함
> 빅데이터 자료로 바로 분석 할 수 없음 → 목적에 맞는 분석을 위한 전처리 과정 필요
- 전처리 예 :
1) Neural Network(신경망)에서는 0~1 사이의 값만 사용 가능 → 정규화 필요
2) 이미지 분석을 위한 pixel → matrix 방식 변경
> 데이터 포맷을 변경하기 위해 전처리 필요.
> 전처리 과정은 빅데이터 처리 과정 중 가장 오래 걸리며 중요한 과정임
- 빅데이터 시각화 :
특정 기준에 따라 수집한 데이터의 특징이나 분석 결과를 그림이나 그래프 등으로 표현. 데이터 특징과 감춰진 의미를 찾아, 논리적으로 이해하는데 도움.
> 현재 상황의 이해, 변화 추이를 예측 / 속성들 간의 상관관계, 통계적인 속성 파악
- 데이터 시각화 기능 : 설명 / 탐색 / 표현
1) 설명적 시각화 : 단일 시각적 경험 설명
2) 탐색적 시각화 : 다양한 경험을 탐색하고 표현
3) 표현적 시각화 : 심미적 측면에서 감정적 반응과 데이터에 대한 다양하고도 풍부한 해석 제공
> 빅데이터 분석에서는 표현적 시각화 단계가 가장 중요한 기술 분야로 취급
- 데이터 시각화의 목적 :
시각화 결과물을 통한 사용자가 주제에 대해 더 잘 이해하고 느끼게 하는 것
> 정보전달과 설득으로 구분
- 빅데이터 시각화 프로세스 :
1) 정보 구조화 : 데이터 수집 및 탐색 / 데이터 분류하기 / 데이터 배열하기 / 데이터 재배열
2) 정보 시각화 : 시간 시각화 / 분포 시각화 / 관계 시각화 / 비교 시각화 / 여러 변수 비교 / 공간 시각화
3) 정보 시각표현 : 그래픽 7요소 / 그래픽 디자인 기본 원리 / 인터렉션 / 시각정보 디자인 7원칙 > 빅데이터 시각화는 전달 및 설득하는 과정 = 의사결정과 분석전략
- 정보 구조화 :
데이터 수집 / 분류 / 정보조직화 방법(배열, 관계 맺기)
- 정보 시각화 :
1) 시간 시각화(막대, 점)
2) 분포 시각화(파이, 도우넛, 트리, 연속)
3) 관계 시각화(스캐터, 버블, 히스토그램)
4) 비교 시각화(히트맵, 다차원척도법)
5) 공간 시각화(지도매핑)
1) 시간 시각화 :
막대 그래프, 누적 막대그래프, 점그래프, 꺽은선 그래프
2) 분포 시각화 :
최대-최소-전체 분포 / 파이차트, 도우넛차트, 트리맵, 누적연속그래프
3) 관계 시각화 :
집단간의 유사성과 상관관계 / 스캐터 플롯, 버블차트, 히스토그램
4) 비교 시각화 :
히트맵, 체르노프 페이스, 스타차트, 다차원 척도법
5) 공간 시각화 :
지도 매핑, 코로플레스
- 엑셀 파이쿼리 편집기(전처리 기능)
1) 불필요한 열 삭제 – 열관리 → 열 선택
2) 공백 제거 – 내림버튼 → 빈 항목 제거
3) 데이터형 변환 – 변환 → 열 → 데이터형식
4) 값 바꾸기 – 변환 → 열 → 값바꾸기
5) 정렬 기능 – 오름차순 정렬 / 내림차순 정렬
'study note > 지능형 정보 기술' 카테고리의 다른 글
[지능형 정보 기술] SQL / DB Browser(SQLite) (1) | 2024.02.06 |
---|---|
[지능형 정보 기술] 머신러닝 / 머신러닝 모델 (0) | 2024.02.06 |