项目实操

性别预测-机器学习,Hadoop,Hive,MapReduce第一篇

基于手机app用户的性别预测1-项目基本说明

(特此声明,因代码需保密,所以在此仅提供方法做参考,望各位读者见谅)

    1.项目描述:

当前社会,几乎人人都离不开手机。人们每天使用手机进行上网、购物、社交、 办公等等。手机几乎承载了一个人全部的行为和偏好。那么我们对手机设备的用 户画像就变得越来越重要了。性别是人类差异最大的特征之一,又是群体行为、 偏好和需求等方面的基本影响因子之一;性别预测的重要性和价值性不言而喻, 每个用户画像产品的构建,基本都会遇到性别标签的预测需求。

2.项目要求:

结果要求: 项目所生成的结果文件为:第 1 列为 USERID 列表示用户编码。第 2 列为SEX 列表示性别(性别为0,1整数,0 代表女,1 代表男)。

数据说明: 1)训练数据集:20万用户连续一年使用app的数据;数据标签如下:id(用户编号),app(某个用户使用 app的名称),freq(某一用户一年使用某款app的次数,次数越大,代表该用户使用此app越频繁),label (用户性别)。

2)待预测数据集:50万用户连续一年使用app的数据。

至此,大家对性别预测的要求都了解了吧。简单来说就是先给你训练集,训练集里已经告诉你哪个人,它是男是女,用了什么软件。我们需要对此数据进行建模,用构造好的模型去对无标签的用户使用app情况(也就是测试集)进行预测,得出最后的结果。这也是机器学习的一般步骤。

下一篇,我来告诉大家如何对数据进行预处理,一份处理好的数据是机器学习的关键。

发表评论

电子邮件地址不会被公开。 必填项已用*标注