freeCodeCamp/guide/chinese/machine-learning/principles/overfitting-has-many-faces/index.md

1.6 KiB
Raw Blame History

title localeTitle
Overfitting Has Many Faces 过度拟合有很多面孔

过度拟合有很多面孔

如果学习算法很好地适合给定的训练集这不仅仅表示一个好的假设。当假设函数JΘ在训练集上具有高方差和低误差而对任何其他数据具有高测试误差时假设函数JΘ非常适合您的训练集时发生过度拟合。

换句话说,如果在用于训练参数的数据集上测量的假设的误差恰好低于任何其他数据集上的误差,则过度拟合。

选择最优多项式

为假设函数选择正确的多项式程度对于避免过度拟合很重要。这可以通过测试每个多项式的程度并观察对数据集的各个部分的误差结果的影响来实现。因此我们可以将我们的数据集分解为3个部分可用于优化假设'theta和多项式度。

数据集的良好分解比率为:

  • 训练集60
  • 交叉验证20
  • 测试集20

因此可以通过以下方法计算三个误差值: 1

  1. 使用每个多项式度数的训练集以优化Θ的参数
  2. 使用交叉验证集查找具有最低错误的多项式度
  3. 使用测试集来估计泛化错误

修复过度拟合的方法

这些是解决过度拟合的一些方法:

  1. 获得更多培训示例
  2. 尝试一组较小的功能
  3. 增加参数λ lambda

更多信息:

Coursera的机器学习课程

来源

  1. 吴,安德鲁。 “机器学习”。 _Coursera_于2018年1月29日访问