- 머신러닝의 학습 방법 :
지도학습 / 비지도학습
음성 및 텍스트 분석(자연어 처리) / 컴퓨터비전(이미지 분석)
- 인공지능과 머신러닝 :
인공지능 → 머신러닝 → 딥러닝 / 회귀분석 / K-Means / K-NN / 의사결정트리
- 머신러닝 :
학습에 의해 자동으로 규칙(특징, 패턴)을 찾아 원하는 결과를 출력(예측 및 분류)하는데 활용할 수 있는 인공지능 알고리즘
대규모 데이터에서, 기계가 자동으로, 중요한 패턴과 규칙을 학습하고(찾아내고), 예측(분류) 등을 수행하는 기술
- 학습 :
많은 데이터로부터 일반적인 규칙을 찾아내는 것, 많은 데이터를 가장 잘 표현할 수 있는 특징을 찾아내는 것.
- 머신러닝 알고리즘 :
1) 지도학습 : 정답을 알려주고 학습(입력-정답 쌍이 필요)
회귀 : 출력이 연속적인 값
분류 : 출력이 이산적인 값(이진 분류, 다중 분류)
2) 비지도학습(자율 학습) : 정답을 알려주지 않고 학습(입력만 필요)
군집화 : 비슷한 것끼리 모임(묶음)
- 지도학습 :
정답(레이블)이 주어진 상태에서 학습하는 알고리즘
- 비지도학습 :
하나하나 정답을 주지 않더라도 데이터의 특성을 파악하여 비슷한 사진끼리 묶어주는 것(군집화)
정답을 알려주지 않고 비슷한 것끼리 묶는 것 > 군집화, 클러스터링
- 학습 단계 :
훈련 데이터를 이용하여 모델을 학습하는 과정
훈련 데이터 → 학습 → 학습된 모델
- 예측 단계 :
학습된 모델을 이용하여 미래의 새로운 테스트 데이터를 예측하는 과정
데이터(입력) → 학습된 모델 → 결과 값 예측(출력)
- 머신러닝의 과정 :
1) 훈련데이터 준비
2) 데이터 학습
3) 학습 모델 만듦
4) 새로운 데이터 대입
5) 자동 분류
- 회귀 모델 :
범위 내에서 자유롭게 수치 형태로 존재하는 연속형 데이터
입력 값과 출력 값 간의 일반적인 관계 특성을 도출하는 회귀 역할
- 분류 모델 :
데이터 값이 서로 완전히 구분되는 범주형 데이터 (Y/N, P/F)
학습 모델은 각각의 값을 구별해내는 분류 역할
이진 분류 / 다중 분류
- 선형 회귀
: 일차함수의 개념인 $y = ax + b$ 직선을 임의로 그려 놓고, 그 직선을 바탕으로 예측하는 것
오차의 합이 최소가 되는 직선을 찾는 것이 목표이다.
지도 학습으로 출력 값이 연속형일 경우에만 적용할 수 있다.
예측 값을 찾는 것으로, 기울기 a와 절편 b를 알아야 결과 값(y)를 예측할 수 있음
- 1차 함수
$y = ax + b$ / $a$ : 기울기, (y값 변화량 / x값 변화량) / $b$ : 절편, $y$축을 지나는 값
$a = \ \frac{N\left(\sum x y\right)- \sum x \sum y}{N\sum x^2-{(\sum x)}^2}$
$ y = \ \overline{y}-a\overline{x}$ / $\overline{x}$ : $x$값의 평균 / $\overline{y}$ : $y$값의 평균
- 의사결정 트리 :
지도학습 중 하나로 분류와 회귀가 모두 가능
나무 구조로 도표화, 분류와 예측을 수행하는 분석 방법
1) 루트 노드 – 가장 위에 있는 노드
2) 리프 노드 – 맨 마지막 노드로 하위 노드를 가지고 있지 않은 노드
> 노드들을 가장 효율적으로 선정하고 배치해야 함
- 지니 불순도 :
의사결정 트리의 분할 기준 지표 중 하나
$ G\left(A\right)=1-\sum p^2$ / $p$ = (특정 데이터 개수 / 총 데이터 개수)
- 최근접 이웃 알고리즘(K-NN) :
지도 학습을 기반으로 하는 머신러닝 알고리즘 중 하나
분류 및 예측에 활용 가능
새로 입력된 데이터로부터 가까운 k개의 데이터를 찾아 k개의 정답 중 가장 많이 분류된 값으로 새로 입력된 데이터를 분류(다수결 원칙)
K는 다수결을 적용해야 하므로 항상 홀수로 선택
- 유클리드 거리 :
2차원 공간에서의 거리 계산법
$d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$
- 이웃 데이터 판단 근거 :
데이터 간의 거리 또는 유사성을 통해 판단하고 있다.
- 비지도 학습 알고리즘(자율학습) :
정답을 알려주지 않고 학습(입력만 필요, 레이블이 없는 데이터 학습)
군집화(클러스터링) : 비슷한 것끼리 모임(묶음)
훈련 데이터(입력 변수 x)에 정답(출력 변수 y)은 없고, 입력 데이터만 있기 때문에 입력에 대한 정답을 찾는 것이 아니라 훈련 데이터의 패턴, 특성 등을 학습을 통해 발견하는 방법
> 출력 변수 y 존재는 없음, 입력 변수 x 간의 관계에 초점
- K-Means 알고리즘 :
가장 가까운 데이터들을 하나의 그룹(클러스터)으로 묶는 알고리즘
K는 데이터 세트에서 찾을 것으로 예상되는 클러스터(그룹) 수를 의미
Means는 각 데이터로부터 그 데이터가 속한 클러스터의 중심까지의 평균 거리를 의미
> 최적의 중심을 구하는 것이 K-Means 알고리즘의 핵심
- K-Means :
$d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$
$c^2 = \ a^2+b^2$ / $c = \ \sqrt{a^2+b^2}$
- 추천 시스템 :
사용자가 좋아하는 항목을 컴퓨터가 알아서 예측한 후 제시하는 시스템
정보 필터링 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보(영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것
과거 데이터로부터의 ‘유사도’ 패턴을 기반으로 미래의 선호 예측
- 유사도 측정 방법
유사도의 값을 0~1 사이의 값이 되게 한다.
1에 가까울수록 유사도가 높다
$S = \ \frac{1}{(1+d)}$ / $d = \ \sqrt{\left(x_1-x_2\right)^2+{(y_1-y_2)}^2}$
- 자카드 계수 :
두 객체가 유사할수록 1에 가깝고, 공통의 유사성이 없으면 0의 값을 가짐
$JC = \ \frac{\left|A\cap B\right|}{\left|A\cup B\right|}$
'study note > 지능형 정보 기술' 카테고리의 다른 글
[지능형 정보 기술] SQL / DB Browser(SQLite) (1) | 2024.02.06 |
---|---|
[지능형 정보 기술] 빅데이터 / 빅데이터 시각화 (1) | 2024.02.06 |