글쓰기

스마트인재개발원/파이썬

[21.06.29] 머신러닝 이론

RSpring41 2021. 6. 29. 10:40

▶ AI란 - 기계가 인간처럼 판단하고 행동하도록 인간을 모방하는 기술

 

▶ 머신러닝 - AI를 구현하기 위해 특성(데이터)과 라벨(답)을 각각 입력과 출력으로 주어서 입출력간에 규칙, 수식을 기계가 찾아내게 하는것 - > 수학적 도구(거리단계단, 방정식, 확률, 통계식 등등)

 

특성들     -->     why     -->    라벨

   (x)            (수식, 규칙)          (y) 

 

- 특성 데이터(x) : 입력 데이터

   -> 범주형 데이터 : 크기를 갖지 않는 숫자(기호, 문자)

   -> 수치형 데이터 : 크기를 찾는 숫자

   -> 범주형 데이터의 값이외 종류

 

- 라벨데이터(y) : 출력데이터

 

▶ 딥러닝 - 신경망을 활용, 선형회귀 + 로지스틱회귀

 

- 학습 : 규칙, 수식을 찾는 과정

 

- 모델 : 찾아진 규칙, 수식

 

- 추론 : 모델을 이용해서 새로운 입력에 따른 출력을 계산

 

- 평가 : 모델의  성능을 판단하는것[오차(회귀), 정확도(분류)]

 

 

< 학습 방식 >

- 지도학습 : 특성 데이터와 라벨데이터가 모두 주어진것 -> 분류, 회귀

    -> 단점 : 많은 라벨데이터를 작성해야 하기 때문에 비효율적임

 

- 비지도학습 :  특성데이터만 입력으로 주어지는것 -> 분석(특성) -> 특성추출, 압축, 시각화 - > 군집(클러스터링) -> 라벨데이터를 생성 -> 지도학습에 적용

    -> 종류 : GA시, 오토인코더

 

- 강화학습 : 환경(특성) 데이터(작은 크기) 출력 결과에 따라서 보상과 벌칙을 부여해 가장 많은 점수를 가진 모델을 찾는것

 

< 회귀, 분류 >

 

- 회귀 분석 : 라벨데이터가 수치형인 데이터 분석

    -> 결과 값이 수치이다

    -> 성능평가에 오차를 사용한다.

 

- 분류 분석 : 라벨데이터가 범주형 데이터를 분석하는것

    -> 결과 값이 클래스

    -> 성능평가에 정확도를 사용한다   ----> 단점!!! : (과적합) 소수에 값을 찾지 못한다. 

 

 

 

 

 

거리기반 : 가장 가까이 있는 값을 참고하는 방식

(KNN : 유글리디안 공식)

 

규칙기반 :  수식기반

(Tree)