실습 평가 – 머신 스터디의 컷업 방법 살펴보기: 기초를 넘어서

실습 평가 - 머신 스터디의 컷업 방법 살펴보기: 기초를 넘어서

이 게시물에서는 질문하는 사람과 응답하는 사람 모두가 자주 무시하는 주제인 “데이터 세트를 훈련 세트와 테스트 세트로 어떻게 분할합니까?”에 대해 살펴보고 싶습니다.

감독 작업을 수행하기 전에 데이터 세트를 훈련 세트와 테스트 세트 또는 적어도 두 개로 나누는 것이 표준 절차입니다. 테스트 세트는 얻은 지식이 이전 단계에 포함되지 않은 ‘알 수 없는’ 데이터에 적용될 수 있는지 확인하는 데 사용되며, 훈련 세트는 현상을 조사하는 데 활용됩니다.

많은 사람들은 일반적으로 상식과 간단한 방법을 사용하여 이러한 결론에 도달합니다. “사용 가능한 데이터를 무작위로 분할하고 테스트 세트용으로 20~30%를 남겨 둡니다.”는 일반적이고 흥미롭지 않은 응답입니다.

그 이상의 것에는 고정된 비율을 유지하면서 하나 이상의 변수를 사용하여 무작위로 샘플링하는 계층화된 무작위 샘플링이라는 아이디어가 포함됩니다. 사전 확률이 5%인 목표 변수가 있고 이진 분류 환경에서 작업하고 있다고 가정해 보겠습니다. 목표 변수의 사전율에서 5% 비율을 유지하는 훈련 세트와 테스트 세트를 얻는 것을 계층화된 무작위 샘플링이라고 합니다. 극도로 불균형한 환경에서 분류할 때와 같이 이러한 추론이 때때로 필요하지만 실제로는 그다지 흥미롭지 않습니다.

Related Posts

MSM(我的歌唱怪物) – 稀有的火怪物繁殖组合

MSM(我的歌唱怪物) – 稀有的火怪物繁殖组合

家 »» MSM(我的歌唱怪物) – 稀有…

您最大的技术活动的内部指南

您最大的技术活动的内部指南

想象一下,错过了最大的技术革命,只是因为您不知道在哪里…

Dream11默默地启动Cricbuzz11幻想体育应用程序以Cricbuzz名称

Dream11默默地启动Cricbuzz11幻想体育应用程序以Cricbuzz名称

Cricbuzz是最受欢迎的板球得分平台之一,现在正在…

Active Directory监视在保护敏感数据和网络安全性方面的重要性

Active Directory监视在保护敏感数据和网络安全性方面的重要性

敏感信息在当今世界的许多数字平台上存储和共享。网络安全…

如何制定全面的IT安全计划

如何制定全面的IT安全计划

网络威胁继续发展,使企业更容易受到攻击。犯罪分子利用薄…

如何知道是否有人在iMessage上阻止了您

如何知道是否有人在iMessage上阻止了您

通过iMe​​ssage发送消息时,您可能会注意到某人…

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *