|
Post by account_disabled on Feb 12, 2024 4:14:14 GMT -5
分层抽样、时间序列抽样等方式,按照不同比例划分为训练集、验证集和测试集,三者之间不能有交集。 【训练集】:占比约60%~80% 训练集作为模型学习的主要来源,需要占据较大的比例,以确保模型有足够的数据来捕捉到数据中的模式和规律。 【验证集】:占比约10%~20% 一般来说,这个占比规模的验证集已经足够提供模型性能的合理估计,能提供有关模型泛化能力的有用信息就行,不用过多。 而且,如果验证集太大,每次评估的时间成本会显著增加,这会拖慢整个实验的进度。 【测试集】:占比约10%~20% 因为测试集在模型训练完成后只评估一次,所以只要足够用于评估模型最终性能就行。 如果测试集太大,评估过程可能也会消耗大量的计算资源和时间,没有必要。 以上,就是在数据划分上,训练集、测试集、验证集较为常见的划分比例。具体比例取决于实际任务的需求和数据量的大小,不同的机器学习问题可能有不同的数 新加坡电报号码 据划分需求。 例如,对于数据量非常庞大的情况,可能只需要很小的验证集和测试集;而对于数据量本身就很小的情况,可能需要采用交叉验证等方法来充分利用数据。 4. 使用时机不同 训练集、验证集和测试集在模型的整个训练过程中,会在不同阶段发挥作用,所以开发人员使用它们的时机是不同的。 【训练集】:在模型的初始训练阶段使用 模型刚刚搭建起来的时候,就像是个对世界一无所知的新生儿,我们需要耐心地用训练集对它进行大量的训练,就像是给孩子上课,一遍又一遍,直到它掌握了所有的知识为止,这是初始必经过程。 【验证集】:在模型训练过程中定期使用 因为验证集用于监控模型的性能和调整超参数。 所以在模型通过初始阶段的训练后,我们需要在过程中可以监督到模型的学习效果。 于是,在模型的训练过程中,直到结束训练前的这个阶段,我们会用验证集给模型来几场“摸底考试”,若是发现不对的地方,还可以及时调整,以确保模型在训练过程中具备良好的性能。 【测试集】:在模型训练完成后使用 测试集用于最终评估模型性能。所以,在训练集和验证集阶段,我们都不会用到测试集的数据,并且也需要保证测试集的数据是模型之前未见过的数据。 然后,在模型训练完成后,测试集作为最后的“期末大考”,会给模型一次真枪实弹的考验。 对模型学习成果来一次最终的全面检验是测试集存在的价值之一,这也是为什么测试集会被放在模型训练的最后阶段。
|
|