如何用机器学习模型

发布时间：2021-02-23 13:04:29 所属栏目：传媒来源：互联网

导读：基于用户画像进行广告投放，是优化投放效果、实现精准营销的基础;而人口属性中的性别、年龄等标签，又是用户画像中的基础信息。那该如何尽量准确的为数据打上这些标签? 这时候机器学习就派上用场了。本文将以性别标签为例，介绍人口属性标签预测的机器学习模

基于用户画像进行广告投放，是优化投放效果、实现精准营销的基础;而人口属性中的性别、年龄等标签，又是用户画像中的基础信息。那该如何尽量准确的为数据打上这些标签?

这时候机器学习就派上用场了。本文将以性别标签为例，介绍人口属性标签预测的机器学习模型构建与优化。

性别标签预测流程

通常情况下，无监督学习不仅很难学习到有用信息，而且对于学习到的效果较难评估。所以，如果可以，我们会尽可能地把问题转化成有监督学习。

对于性别标签也是如此，我们可以使用可信的性别样本数据，加上从TalkingData收集的原始数据中提取出来的有用信息，将性别标签的生产任务转化成有监督机器学习任务。更具体来说，男/女分别作为1/0标签(Label，也就是常说的Y值，为了方便表达，我们标记男/女分别为1/0标签)，这样性别标签的任务就转化成了二分类任务。

性别标签的生产流程图如下：

基于该数据集进行建模，学习出性别预测模型;
再用该模型对全部样本进行预测，从而得到所有样本的性别打分。至此，模型部分的工作基本完成;
最后一步是确定阈值，输出男/女标签。这里我们不依赖模型确定阈值，而是借助比较可信的第三方工具，保证在期望准确度(precision)下，召回尽可能多的样本。

另外，面对TalkingData十几亿的数据体量，在标签生产的过程中，为了加速运算，除了必须用单机的情况下，我们都会优先采用Spark分布式来加速运算。

特征与模型方法的版本迭代

为了优化模型的效果，我们又对该性别标签预测模型进行了多次迭代。

01性别预测模型V1

模型最初使用的特征包括4个维度：设备应用信息、嵌入SDK的应用包名、嵌入SDK的应用内自定义事件日志以及设备机型信息。

模型采用Xgboost(版本为0.5)，基于每个维度的特征分别训练模型，得到4个子模型。每个子模型会输出基于该特征维度的设备男/女倾向的打分，分值区间从0到1，分值高代表设备为男性倾向，反之则为女性倾向。模型代码示例如下：

（编辑：济宁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!