[지능형 정보 기술] 머신러닝 / 머신러닝 모델

- 머신러닝의 학습 방법 :

지도학습 / 비지도학습

음성 및 텍스트 분석(자연어 처리) / 컴퓨터비전(이미지 분석)

- 인공지능과 머신러닝 :

인공지능 → 머신러닝 → 딥러닝 / 회귀분석 / K-Means / K-NN / 의사결정트리

- 머신러닝 :

학습에 의해 자동으로 규칙(특징, 패턴)을 찾아 원하는 결과를 출력(예측 및 분류)하는데 활용할 수 있는 인공지능 알고리즘

대규모 데이터에서, 기계가 자동으로, 중요한 패턴과 규칙을 학습하고(찾아내고), 예측(분류) 등을 수행하는 기술

- 학습 :

많은 데이터로부터 일반적인 규칙을 찾아내는 것, 많은 데이터를 가장 잘 표현할 수 있는 특징을 찾아내는 것.

- 머신러닝 알고리즘 :

1) 지도학습 : 정답을 알려주고 학습(입력-정답 쌍이 필요)

회귀 : 출력이 연속적인 값

분류 : 출력이 이산적인 값(이진 분류, 다중 분류)

2) 비지도학습(자율 학습) : 정답을 알려주지 않고 학습(입력만 필요)

군집화 : 비슷한 것끼리 모임(묶음)

- 지도학습 :

정답(레이블)이 주어진 상태에서 학습하는 알고리즘

- 비지도학습 :

하나하나 정답을 주지 않더라도 데이터의 특성을 파악하여 비슷한 사진끼리 묶어주는 것(군집화)

정답을 알려주지 않고 비슷한 것끼리 묶는 것 > 군집화, 클러스터링

- 학습 단계 :

훈련 데이터를 이용하여 모델을 학습하는 과정

훈련 데이터 → 학습 → 학습된 모델

- 예측 단계 :

학습된 모델을 이용하여 미래의 새로운 테스트 데이터를 예측하는 과정

데이터(입력) → 학습된 모델 → 결과 값 예측(출력)

- 머신러닝의 과정 :

1) 훈련데이터 준비

2) 데이터 학습

3) 학습 모델 만듦

4) 새로운 데이터 대입

5) 자동 분류

- 회귀 모델 :

범위 내에서 자유롭게 수치 형태로 존재하는 연속형 데이터

입력 값과 출력 값 간의 일반적인 관계 특성을 도출하는 회귀 역할

- 분류 모델 :

데이터 값이 서로 완전히 구분되는 범주형 데이터 (Y/N, P/F)

학습 모델은 각각의 값을 구별해내는 분류 역할

이진 분류 / 다중 분류

- 선형 회귀

: 일차함수의 개념인 $y = ax + b$ 직선을 임의로 그려 놓고, 그 직선을 바탕으로 예측하는 것

오차의 합이 최소가 되는 직선을 찾는 것이 목표이다.

지도 학습으로 출력 값이 연속형일 경우에만 적용할 수 있다.

예측 값을 찾는 것으로, 기울기 a와 절편 b를 알아야 결과 값(y)를 예측할 수 있음

- 1차 함수

$y = ax + b$ / $a$ : 기울기, (y값 변화량 / x값 변화량) / $b$ : 절편, $y$축을 지나는 값

$a = \ \frac{N\left(\sum x y\right)- \sum x \sum y}{N\sum x^2-{(\sum x)}^2}$

$ y = \ \overline{y}-a\overline{x}$ / $\overline{x}$ : $x$값의 평균 / $\overline{y}$ : $y$값의 평균

- 의사결정 트리 :

지도학습 중 하나로 분류와 회귀가 모두 가능

나무 구조로 도표화, 분류와 예측을 수행하는 분석 방법

1) 루트 노드 – 가장 위에 있는 노드

2) 리프 노드 – 맨 마지막 노드로 하위 노드를 가지고 있지 않은 노드

> 노드들을 가장 효율적으로 선정하고 배치해야 함

- 지니 불순도 :

의사결정 트리의 분할 기준 지표 중 하나

$ G\left(A\right)=1-\sum p^2$ / $p$ = (특정 데이터 개수 / 총 데이터 개수)

- 최근접 이웃 알고리즘(K-NN) :

지도 학습을 기반으로 하는 머신러닝 알고리즘 중 하나

분류 및 예측에 활용 가능

새로 입력된 데이터로부터 가까운 k개의 데이터를 찾아 k개의 정답 중 가장 많이 분류된 값으로 새로 입력된 데이터를 분류(다수결 원칙)

K는 다수결을 적용해야 하므로 항상 홀수로 선택

- 유클리드 거리 :

2차원 공간에서의 거리 계산법

$d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$

- 이웃 데이터 판단 근거 :

데이터 간의 거리 또는 유사성을 통해 판단하고 있다.

- 비지도 학습 알고리즘(자율학습) :

정답을 알려주지 않고 학습(입력만 필요, 레이블이 없는 데이터 학습)

군집화(클러스터링) : 비슷한 것끼리 모임(묶음)

훈련 데이터(입력 변수 x)에 정답(출력 변수 y)은 없고, 입력 데이터만 있기 때문에 입력에 대한 정답을 찾는 것이 아니라 훈련 데이터의 패턴, 특성 등을 학습을 통해 발견하는 방법

> 출력 변수 y 존재는 없음, 입력 변수 x 간의 관계에 초점

- K-Means 알고리즘 :

가장 가까운 데이터들을 하나의 그룹(클러스터)으로 묶는 알고리즘

K는 데이터 세트에서 찾을 것으로 예상되는 클러스터(그룹) 수를 의미

Means는 각 데이터로부터 그 데이터가 속한 클러스터의 중심까지의 평균 거리를 의미

> 최적의 중심을 구하는 것이 K-Means 알고리즘의 핵심

- K-Means :

$d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$

$c^2 = \ a^2+b^2$ / $c = \ \sqrt{a^2+b^2}$

- 추천 시스템 :

사용자가 좋아하는 항목을 컴퓨터가 알아서 예측한 후 제시하는 시스템

정보 필터링 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보(영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것

과거 데이터로부터의 ‘유사도’ 패턴을 기반으로 미래의 선호 예측

- 유사도 측정 방법

유사도의 값을 0~1 사이의 값이 되게 한다.

1에 가까울수록 유사도가 높다

$S = \ \frac{1}{(1+d)}$ / $d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$

- 자카드 계수 :

두 객체가 유사할수록 1에 가깝고, 공통의 유사성이 없으면 0의 값을 가짐

$JC = \ \frac{\left|A\cap B\right|}{\left|A\cup B\right|}$

저작자표시 비영리 변경금지

'study note > 지능형 정보 기술' 카테고리의 다른 글

[지능형 정보 기술] SQL / DB Browser(SQLite) (1)	2024.02.06
[지능형 정보 기술] 빅데이터 / 빅데이터 시각화 (1)	2024.02.06

'study note > 지능형 정보 기술' 카테고리의 다른 글

티스토리툴바