[혼자 공부하는 머신러닝+딥러닝] 4강. 훈련 세트와 테스트 세트로 나누어 사용하기 - 훈련 세트와 테스트 세트 분할하는 방법
- 훈련하는 데이터와 테스트를 하는 데이터는 서로 상이한 데이터를 사용해야 하지만, 원하는 결과를 얻을 수 있도록 잘 학습시키기 위해서는 맞는 데이터와 오류 데이터가 적절히 섞여 있어야 한다.
- 이러한 데이터를 만들기 위해 데이터를 섞는 과정을 할 때 원본 데이터를 다루게 되면 많은 메모리의 사용과 시간이 사용된다 때문에, array의 index를 만들어 사용하면 최적의 결과를 얻을 수 있다.
- 만약, 현재 만들어진 행렬의 길이가 49개라면 index = np.arange(49) 이렇게 하면 0에서 48개까지의 정수가 순서대로 생성되어 numpy 배열로 리턴된다.
- np.random.shuffle(index)를 사용하여 해당 정수 배열을 랜덤하게 섞는다.
- 배열 슬라이싱으로 데이터가 있는 배열 안에 특정 배열의 데이터를 슬라이싱 해 넣으면 해당 위치의 데이터들을 추출하여 배열로 재생성해준다
- 예) [5,6,7,8]의 배열이 있을 때 a[[1,3]]을 실행 시키면, [5,8]이 리턴된다.
- train_input = input_arr[index[:35]], train_target = target_arr[index[:35]] 와 같이 사용한다.
- [혼자 공부하는 머신러닝+딥러닝] 4강. 훈련 세트와 테스트 세트로 나누어 사용하기
https://www.youtube.com/watch?v=o9kGDpZbmx0&list=PLJN246lAkhQjoU0C4v8FgtbjOIXxSs_4Q&index=4
- reference :
https://speedanddirection.tistory.com/71
https://velog.io/@leeeeeyeon/KNN
'데이터분석-머신러닝-AI > 강의 정리' 카테고리의 다른 글
[혼자 공부하는 머신러닝+딥러닝] 8강. 특성 공학과 규제 알아보기 - 다중회귀 (1) | 2023.10.25 |
---|---|
[혼자 공부하는 머신러닝+딥러닝] 7강. 사이킷런으로 선형 회귀 모델 만들어 보기 - 선형 회귀, 다항회귀 (0) | 2023.10.24 |
[혼자 공부하는 머신러닝+딥러닝] 6강. 회귀 문제를 이해하고 k-최근접 이웃 알고리즘으로 풀어 보기 - reshape, 과대적합, 과소적합 (1) | 2023.10.24 |
[혼자 공부하는 머신러닝+딥러닝] 5강. 정교한 결과 도출을 위한 데이터 전처리 알아보기 - 표준화 정리 (0) | 2023.10.20 |
[혼자 공부하는 머신러닝+딥러닝] 3강. 마켓과 머신러닝 - KNeighborsClassifier 최근접 이웃 (KNN) 알고리즘 (0) | 2023.10.17 |
댓글