数据集会通过随机抽样

数据集会通过随机抽样 Feb 12, 2024 4:14:14 GMT -5

Quote

Post by account_disabled on Feb 12, 2024 4:14:14 GMT -5

分层抽样、时间序列抽样等方式，按照不同比例划分为训练集、验证集和测试集，三者之间不能有交集。【训练集】：占比约60%～80% 训练集作为模型学习的主要来源，需要占据较大的比例，以确保模型有足够的数据来捕捉到数据中的模式和规律。【验证集】：占比约10%～20% 一般来说，这个占比规模的验证集已经足够提供模型性能的合理估计，能提供有关模型泛化能力的有用信息就行，不用过多。而且，如果验证集太大，每次评估的时间成本会显著增加，这会拖慢整个实验的进度。【测试集】：占比约10%～20% 因为测试集在模型训练完成后只评估一次，所以只要足够用于评估模型最终性能就行。

如果测试集太大，评估过程可能也会消耗大量的计算资源和时间，没有必要。以上，就是在数据划分上，训练集、测试集、验证集较为常见的划分比例。具体比例取决于实际任务的需求和数据量的大小，不同的机器学习问题可能有不同的数新加坡电报号码据划分需求。例如，对于数据量非常庞大的情况，可能只需要很小的验证集和测试集；而对于数据量本身就很小的情况，可能需要采用交叉验证等方法来充分利用数据。 4. 使用时机不同训练集、验证集和测试集在模型的整个训练过程中，会在不同阶段发挥作用，所以开发人员使用它们的时机是不同的。【训练集】：在模型的初始训练阶段使用模型刚刚搭建起来的时候，就像是个对世界一无所知的新生儿，我们需要耐心地用训练集对它进行大量的训练，就像是给孩子上课，一遍又一遍，直到它掌握了所有的知识为止，这是初始必经过程。【验证集】：在模型训练过程中定期使用因为验证集用于监控模型的性能和调整超参数。

所以在模型通过初始阶段的训练后，我们需要在过程中可以监督到模型的学习效果。于是，在模型的训练过程中，直到结束训练前的这个阶段，我们会用验证集给模型来几场“摸底考试”，若是发现不对的地方，还可以及时调整，以确保模型在训练过程中具备良好的性能。【测试集】：在模型训练完成后使用测试集用于最终评估模型性能。所以，在训练集和验证集阶段，我们都不会用到测试集的数据，并且也需要保证测试集的数据是模型之前未见过的数据。然后，在模型训练完成后，测试集作为最后的“期末大考”，会给模型一次真枪实弹的考验。对模型学习成果来一次最终的全面检验是测试集存在的价值之一，这也是为什么测试集会被放在模型训练的最后阶段。

Post by account_disabled on Feb 12, 2024 4:14:14 GMT -5

Quick Reply