当前位置：首页 > news >正文

网站制作窍门百度投稿平台

news 2025/7/6 10:47:22

网站制作窍门,百度投稿平台,网站建设SEO优化哪家好,厦门酒店网站建设文章目录 📚线性回归算法流程📚Bias and variance📚过拟合&欠拟合📚逻辑回归算法流程 📚线性回归算法流程 ybwx 使用loss function L来评估函数的好坏从而我们要选择使L最小的模型参数w,b 使用梯度下降的方法…

文章目录

📚线性回归算法流程
📚Bias and variance
📚过拟合&欠拟合
📚逻辑回归算法流程

📚线性回归算法流程

y=b+w·x
使用loss function L来评估函数的好坏
从而我们要选择使L最小的模型参数w,b

在这里插入图片描述

使用梯度下降的方法
从而求导得：

📚Bias and variance

error原因——bias（模型偏差）和variance（数据方差）:

数学原理：
- 随机变量x的均值为 $\mu$ ，方差为 $\sigma^2$
- 随机采样N个点，其均值不等于 $\mu$ ，但是期望等于 $\mu$ ，是无偏的 ，均值的方差是 $\sigma^2/N$
- N个点的方差记为 $s^2$ ,方差的期望为 $(N-1)/N·\sigma^2$ ，不等于 $\sigma^2$
- 用bias表示整体距离实际值的距离，用variance表示点的分散程度

在这里插入图片描述

每次采样一个训练集，训练一个模型，采样100次

简单模型：模型直接的variance很小，但是bias可能略大

复杂模型：variance很大，但是bias会小

模型会更拟合数据点，各个模型直接的差别很大，所以简单的模型受采样数据的影响更小

模型分析：
- 我们对每个模型f*取均值，看是否接近真实的模型f，如果差得远，则bias大，接近则bias小
- 大bias小variance可能是欠拟合，而小bias大variance可能是过拟合。
- 如果数据无法很好的拟合训练集，则会有大bias，欠拟合；如果可以很好拟合训练集，但是在测试集上表现不好，会有大的variance，过拟合。
解决方法：
- 对于大bias欠拟合来说，可以重新选择模型，增加输入特征，或者是使用更复杂的模型，或者进行交叉验证
- 对于大variance过拟合来说，可以增加数据集的数量，或者是引入正则项
- 在bias和variance之间存在trade-off，可以选择模型使得total-error最小即可。

📚过拟合&欠拟合

欠拟合：
- 定义：模型无法捕捉数据中的规律和复杂性，表现为训练误差和测试误差都较高。
- 原因：模型的复杂度不够，无法很好地拟合数据。
- 解决方法：提高模型复杂度、增加特征数量、增加模型的学习能力等。
过拟合：
- 定义：模型过度拟合了训练数据的噪声和细节，表现为在训练集上表现良好，在测试集上表现较差。
- 原因：模型复杂度过高，导致模型过度适应训练数据的特征和噪声。
- 解决方法：降低模型复杂度、增加数据量、采用正则化方法（如L1、L2正则化）等。
改进方法：
- 交叉验证：通过交叉验证来选择合适的模型复杂度，同时避免过拟合和欠拟合。
- 特征选择：选取对模型预测有用的特征，在避免过多无用特征的情况下，消除噪声的影响。
- 正则化：通过L1或L2正则化，限制模型参数的大小，防止模型过拟合。
- 增加数据量：增加数据量可以帮助模型更好地捕捉数据的规律，减少模型的过拟合情况。
- 集成学习：使用集成学习方法，如bagging、boosting等，可以在一定程度上减小模型的过拟合风险。

关于交叉验证
- 交叉验证是一种评估模型性能和泛化能力的统计学方法。它通过反复地将数据集划分为训练集和验证集，在训练集上训练，在验证集上测试，来评估模型的性能。
- 常见的交叉验证方法包括k折交叉验证、留一交叉验证等。在k折交叉验证中，数据集被随机分成k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性。然后，进行k次模型训练和测试，每次选择一个子集作为验证集，其余的k-1个子集作为训练集，取结果最好的作为最终模型。
- 交叉验证的目的是：
  - 评估模型的性能：通过交叉验证，可以更准确地评估模型的性能，而不会受到单次划分数据带来的偶然性影响。
  - 泛化能力：交叉验证可以更好地评估模型的泛化能力，即模型对未见过的数据的适应能力。
  - 另外，对于数据较少的情况下，交叉验证可以最大限度地利用有限的数据，减小因训练集和测试集的划分不同导致评估性能的差异。在模型选择以及调参时也非常有用，可以帮助选择最优模型并提高模型的性能。