데이터분석-머신러닝-AI/강의 정리

[혼자 공부하는 머신러닝+딥러닝] 4강. 훈련 세트와 테스트 세트로 나누어 사용하기 - 훈련 세트와 테스트 세트 분할하는 방법

bluebamus 2023. 10. 17.

 - 훈련하는 데이터와 테스트를 하는 데이터는 서로 상이한 데이터를 사용해야 하지만, 원하는 결과를 얻을 수 있도록 잘 학습시키기 위해서는 맞는 데이터와 오류 데이터가 적절히 섞여 있어야 한다.

 - 이러한 데이터를 만들기 위해 데이터를 섞는 과정을 할 때 원본 데이터를 다루게 되면 많은 메모리의 사용과 시간이 사용된다 때문에, array의 index를 만들어 사용하면 최적의 결과를 얻을 수 있다.

 

 - 만약, 현재 만들어진 행렬의 길이가 49개라면 index = np.arange(49) 이렇게 하면 0에서 48개까지의 정수가 순서대로 생성되어 numpy 배열로 리턴된다.

 - np.random.shuffle(index)를 사용하여 해당 정수 배열을 랜덤하게 섞는다.

 - 배열 슬라이싱으로 데이터가 있는 배열 안에 특정 배열의 데이터를 슬라이싱 해 넣으면 해당 위치의 데이터들을 추출하여 배열로 재생성해준다
   - 예) [5,6,7,8]의 배열이 있을 때 a[[1,3]]을 실행 시키면, [5,8]이 리턴된다.

   - train_input = input_arr[index[:35]], train_target = target_arr[index[:35]] 와 같이 사용한다.

 

 - [혼자 공부하는 머신러닝+딥러닝] 4강. 훈련 세트와 테스트 세트로 나누어 사용하기

https://www.youtube.com/watch?v=o9kGDpZbmx0&list=PLJN246lAkhQjoU0C4v8FgtbjOIXxSs_4Q&index=4

4강. 훈련 세트와 테스트 세트로 나누어 사용하기.ipynb
0.03MB

 

 - reference : 

https://speedanddirection.tistory.com/71

 

혼자 공부하는 머신러닝+딥러닝(ch.2)

chapte.2 데이터 다루기¶ 02-1 훈련 세트와 테스트 세트¶ - 지도 학습과 비지도 학습¶ 머신러닝 알고리즘은 크게 지도학습과 비지도학습으로 나눌 수 있다. 지도 학습 알고리즘은 훈련하기 위한 데

speedanddirection.tistory.com

https://velog.io/@leeeeeyeon/KNN

 

K-NN training

인공지능응용시스템 과목 실습 Lecture 4 내용 정리

velog.io

 

댓글