이 게시물에서는 질문하는 사람과 응답하는 사람 모두가 자주 무시하는 주제인 “데이터 세트를 훈련 세트와 테스트 세트로 어떻게 분할합니까?”에 대해 살펴보고 싶습니다.
감독 작업을 수행하기 전에 데이터 세트를 훈련 세트와 테스트 세트 또는 적어도 두 개로 나누는 것이 표준 절차입니다. 테스트 세트는 얻은 지식이 이전 단계에 포함되지 않은 ‘알 수 없는’ 데이터에 적용될 수 있는지 확인하는 데 사용되며, 훈련 세트는 현상을 조사하는 데 활용됩니다.
많은 사람들은 일반적으로 상식과 간단한 방법을 사용하여 이러한 결론에 도달합니다. “사용 가능한 데이터를 무작위로 분할하고 테스트 세트용으로 20~30%를 남겨 둡니다.”는 일반적이고 흥미롭지 않은 응답입니다.
그 이상의 것에는 고정된 비율을 유지하면서 하나 이상의 변수를 사용하여 무작위로 샘플링하는 계층화된 무작위 샘플링이라는 아이디어가 포함됩니다. 사전 확률이 5%인 목표 변수가 있고 이진 분류 환경에서 작업하고 있다고 가정해 보겠습니다. 목표 변수의 사전율에서 5% 비율을 유지하는 훈련 세트와 테스트 세트를 얻는 것을 계층화된 무작위 샘플링이라고 합니다. 극도로 불균형한 환경에서 분류할 때와 같이 이러한 추론이 때때로 필요하지만 실제로는 그다지 흥미롭지 않습니다.