这4位CIO教你把数据轻松变现

发布时间：2021-02-05 12:31:05 所属栏目：动态来源：互联网

导读：4. 交叉验证交叉验证本质上是一种用于评估模型在新的独立数据集上的性能的技术。交叉验证的最简单示例是将数据分为三类：训练数据，验证数据和测试数据，其中使用训练数据构建模型，验证数据调整超参数以及测试数据评估您的最终模型。这引出了下一点-机

4. 交叉验证

交叉验证本质上是一种用于评估模型在新的独立数据集上的性能的技术。

交叉验证的最简单示例是将数据分为三类：训练数据，验证数据和测试数据，其中使用训练数据构建模型，验证数据调整超参数以及测试数据评估您的最终模型。

这引出了下一点-机器学习模型的评估指标。

5. 评估指标

您可以选择多种度量来评估您的机器学习模型，最终选择哪种度量取决于问题的类型和模型的目标。

如果您正在评估回归模型，那么重要的指标包括：

R平方：一种度量，它告诉您因变量的方差比例在多大程度上由自变量的方差解释。用简单的话来说，虽然系数估计趋势，但R平方代表最佳拟合线周围的分散。
调整后的R平方：添加到模型中的每个其他自变量始终会增加R²值-因此，具有多个自变量的模型似乎更适合，即使不是。因此，调整后的R 2补偿了每个附加的自变量，并且仅在每个给定变量使模型的改进超出概率范围时才增加。
平均绝对误差(MAE)：绝对误差是预测值和实际值之间的差。因此，平均绝对误差是绝对误差的平均值。
均方误差(MSE)：均方误差或MSE与MAE相似，不同之处在于，您对预测值和实际值之间的平方差取平均值。

分类模型的指标包括：

真阴性：模型正确预测负面类别的结果。
误报(类型1错误)：模型错误地预测正类的结果。
假阴性(类型2错误)：模型错误地预测阴性类别的结果。
准确性：等于模型正确的预测分数。
回想一下：尝试回答"正确识别了实际阳性的比例是多少?"
精确度：尝试回答"阳性识别的正确比例是多少?"
F1分数：衡量测试准确性的指标，它是准确性和召回率的谐和平均值。它的最高分数为1(完美的准确性和查全率)，最低分数为0。总体而言，它是模型准确性和健壮性的度量。
AUC-ROC曲线是对分类问题的一种性能度量，它告诉我们模型能够区分多个类别。较高的AUC表示模型更准确。

6. 降维

降维是减少数据集中要素数量的过程。这一点很重要，主要是在您要减少模型中的方差(过度拟合)的情况下。

最流行的降维技术之一是主成分分析或PCA。从最简单的意义上讲，PCA涉及将较高维度的数据(例如3个维度)投影到较小的空间(例如2个维度)。这样会导致数据维度较低(2维而不是3维)，同时将所有原始变量保留在模型中。

PCA通常用于压缩目的，以减少所需的内存并加快算法的速度，还用于可视化目的，从而使汇总数据更加容易。

7. 数据准备

数据准备是清除原始数据并将其转换为更可用状态的过程。在采访中，可能会要求您列出整理数据集时要采取的一些步骤。

数据准备中一些最常见的步骤包括：

8. 自举采样

Bootstrap采样方法是一个非常简单的概念，并且是一些更高级的机器学习算法(例如AdaBoost和XGBoost)的构建块。

从技术上讲，自举采样方法是一种重采样方法，它使用随机采样进行替换。

别担心这听起来令人困惑，让我用一个图表来解释一下：

（编辑：济宁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

45颗北斗卫星在轨提供	虚拟数字人丨C3第15期
PPT转Word文档怎么转？	真正免费的pdf转换器选