[21.06.30] 머신러닝 이론2

스마트인재개발원/파이썬

[21.06.30] 머신러닝 이론2

RSpring41 2021. 6. 30. 14:09

▶ 머신러닝 - 기계학습

1. 설명

- 데이터 기반 학습

- 인공지능의 한 분야. 컴퓨터가 학습할 수 있도록 알고리즘, 기술 개발

- 통계, 데이터 마이닝, 컴퓨터 통계

2. 종류

- 지도학습 : 데이터 + 답을 이용해서 규칙을 찾는다

- 비지도학습 : 데이터만 가지고 규칙을 찾는다.

- 강화학습 : 결과에 따라 점수 부여

- 이진 분류, 다중 분류(숫자)

▶ 지도학습

1. 분류 : 미리 정의된 정답 중 예측

-> 입력 ( 속성), 출력 -> 클래스 값

2. 회귀 : 연속적인 숫자 예측

예측값의 작은 차이가 주요하지 않다.

▶ 머신러닝 단계

1. 닭 볶음탕(문제 정의)

2. 데이터 수진(닭 볶음탕)

3. 데이터 전처리 (재료 손질)

4. DEA(탐색전 데이터 분석, 시각화)

5. 모델(알고리즘 `=. 머신) 선택, 하이퍼 파라미터 조정

6. 학습

7. 평가

8. 예측

▶ 전체 데이터를 7 : 3 정도로 나누어 학습데이터, 검증데이터로 분리하여 사용한다

▶ 일반화, 과대적합, 과소적합

일반화(Generalization) : 훈련세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는것.

과대적합(Overfitting) : 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성증저하

과소적합(Underfitting) : 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 서능이 저하

---> 일반화 성능이 최대화 되는 모델을 찾는 것이 목표

해결방법

- 주어진 훈련데이터의 다양성이 보장되어야 한다. 다양한 데이터 포인트를 골고루 나타내야 한다.

- 일반적으로 데이터 양이 많으면 일반화에 도움이 된다.

- 하지만 편중된 데이터를 많이 모으는 것은 도움이 되지 않는다.

- 규제을 통해 모델의 복잡도를 적정선으로 설정한다.

▶ KNN(K-Nearest Neighbors)

< k 최근접 이웃 알고리즘 >

- 새로운 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측

- k값에 따라서 가까운 이웃의 수가 결정

- 분류와 회귀에 모두 사용가능

k값이 작을 수록 모델의 복잡도가 상대적으로 증가(noise값에 민감)

반대로 k값이 커지면 복잡도가 낮아진다.

▶

저작자표시 비영리 변경금지

'스마트인재개발원 > 파이썬' 카테고리의 다른 글

[21.07.05] 딥러닝 이론 (0)	2021.07.06
[21.07.02] 딥러닝 이론 (0)	2021.07.02
[21.06.29] 머신러닝 이론 (0)	2021.06.29
[21.06.28] 딥러닝 이론 (0)	2021.06.28
[21.06.22] Big Data 이론[스마트인재개발원] (0)	2021.06.22

현재글[21.06.30] 머신러닝 이론2

chps에 개인 코딩 공부 블로그입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

BOX