这4位CIO教你把数据轻松变现
4. 交叉验证 交叉验证本质上是一种用于评估模型在新的独立数据集上的性能的技术。 交叉验证的最简单示例是将数据分为三类:训练数据,验证数据和测试数据,其中使用训练数据构建模型,验证数据调整超参数以及测试数据 评估您的最终模型。 这引出了下一点-机器学习模型的评估指标。 5. 评估指标 您可以选择多种度量来评估您的机器学习模型,最终选择哪种度量取决于问题的类型和模型的目标。 如果您正在评估回归模型,那么重要的指标包括:
分类模型的指标包括:
6. 降维 降维是减少数据集中要素数量的过程。 这一点很重要,主要是在您要减少模型中的方差(过度拟合)的情况下。 最流行的降维技术之一是主成分分析或PCA。 从最简单的意义上讲,PCA涉及将较高维度的数据(例如3个维度)投影到较小的空间(例如2个维度)。 这样会导致数据维度较低(2维而不是3维),同时将所有原始变量保留在模型中。 PCA通常用于压缩目的,以减少所需的内存并加快算法的速度,还用于可视化目的,从而使汇总数据更加容易。 7. 数据准备 数据准备是清除原始数据并将其转换为更可用状态的过程。 在采访中,可能会要求您列出整理数据集时要采取的一些步骤。 数据准备中一些最常见的步骤包括:
8. 自举采样 Bootstrap采样方法是一个非常简单的概念,并且是一些更高级的机器学习算法(例如AdaBoost和XGBoost)的构建块。 从技术上讲,自举采样方法是一种重采样方法,它使用随机采样进行替换。
别担心这听起来令人困惑,让我用一个图表来解释一下: (编辑:济宁站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |