CN111031362B

CN111031362B - 一种声音直播用户的年龄预测方法

Info

Publication number: CN111031362B
Application number: CN201911106871.0A
Authority: CN
Inventors: 廉亚红; 丁宁
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2022-01-25
Anticipated expiration: 2039-11-13
Also published as: CN111031362A

Abstract

本发明公开了一种声音直播用户的年龄预测方法，包括如下步骤：根据已知年龄声音直播用户的信息构建画像***；根据未知年龄声音直播用户的信息构建画像***；根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***，训练用户年龄生成模型，生成未知年龄声音直播用户的年龄。可对未知年龄声音直播用户的年龄进行预测。

Description

一种声音直播用户的年龄预测方法

技术领域

本发明涉及一种声音直播用户的年龄预测方法。

背景技术

想要获取用户的年龄段偏好，首先得有一个年龄预测***予以支持，对每个用户或者主播进行年龄字段的匹配和预测。目前的用户年龄字段，只是按照用户自定义的年龄进行简单的分组，然后遇到缺失值时按照组内平均值来进行填充，很明显，这样的方式由如下缺点：①在进一步用于推荐时，如果依赖于年龄偏好的情况下该偏好没有细分，导致定位用户的年龄偏好是很粗粒度的②由于依赖于用户自己填写的年龄信息，所以数据存在一定的不准确性③对于年龄缺失的数据，只是按照组内的平均值进行填充，不是很好的解决方案。所以，需要一种智能化，细分化的方式，解决用户年龄段分类预测的问题，从而服务于精准个性化推荐。

发明内容

本发明旨在至少在一定程度上解决现有相关技术中存在的问题之一，为此，本发明的目的在于提出一种声音直播用户的年龄预测方法，自动化、智能化，通过模型的方式，自动完成对于用户的年龄段预测。

上述目的是通过如下技术方案来实现的：

一种声音直播用户的年龄预测方法，包括如下步骤：根据已知年龄声音直播用户的信息构建画像***；根据未知年龄声音直播用户的信息构建画像***；根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***，训练用户年龄生成模型，生成未知年龄声音直播用户的年龄。

作为本发明的进一步改进，构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括：通过***信息完成相关信息的自动化收集；通过数据挖掘和数据统计构建补充信息；基于相关信息和补充信息，进行合并与聚类，构建声音直播用户画像***。

作为本发明的进一步改进，所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好。

作为本发明的进一步改进，所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布。

作为本发明的进一步改进，所述相关信息还包括声音直播用户的app安装列表。

作为本发明的进一步改进，对已知年龄声音直播用户获取的相关信息还包括用户年龄。

作为本发明的进一步改进，通过对相关信息和补充信息进行合并和聚类，得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播的app安装列表信息。

作为本发明的进一步改进，按照如下步骤进行训练模型：步骤一：从声音直播app中抽取若干名实名认证的用户作为训练数据；步骤二：根据用户在声音直播中的行为生成用户年龄特征向量；步骤三：模型预测；步骤四：模型优化。

作为本发明的进一步改进，对相关信息和补充信息进行合并和聚类后得出的信息进行处理，得出回归特征，回归特征包括：根据声音直播用户的历史行为信息生成行为特征；根据声音直播用户对主播的偏好信息进行tfidf以及svd降维；根据声音直播用户的活跃度信息生成用户活跃序列数据embedding；根据声音直播用户的app安装列表通过knn补充app的类别信息，进行tfidf以及svd降维。

作为本发明的进一步改进，对回归特征分别使用lightGBM和mlp训练年龄预测模型，然后进行stacking。

与现有技术相比，本发明的至少包括以下有益效果：

1.本发明提出一种声音直播用户的年龄预测方法，自动化、智能化，通过模型的方式，自动完成对于用户的年龄段预测。

2.预测时融合了用户的在声音直播app中的历史行为信息、对主播的偏好信息、活跃度信息及声音直播用户的app安装列表信息等多方面的信息，可以更客观，更多维度的刻画用户的特征。

附图说明

图1是一种声音直播用户的年龄预测方法流程示意图；

图2是一种声音直播用户的年龄预测方法又一流程示意图；

图3是一种声音直播用户的年龄预测方法再一流程示意图。

具体实施方式

以下实施例对本发明进行说明，但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换，而不脱离本发明方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

参见附图1-3示出本发明一种声音直播用户的年龄预测方法，包括如下步骤：根据已知年龄声音直播用户的信息构建画像***S1；根据未知年龄声音直播用户的信息构建画像***S2；根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***，训练用户年龄生成模型，生成未知年龄声音直播用户的年龄S3。

构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括：通过***信息完成相关信息的自动化收集；通过数据挖掘和数据统计构建补充信息；基于相关信息和补充信息，进行合并与聚类，构建声音直播用户画像***。

所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好。还包括***能自动收集到的其他相关信息。

所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布。对补充信息的构建包含但不限于上述提到的信息。

优选的，所述相关信息还包括声音直播用户的app安装列表。对声音直播用户的信息的收集不仅包括在声音直播app中能获取得到的用户的相关信息、及通过数据挖掘和数据统计构建补充信息，还包括声音直播app外的其他信息，通过这些信息可以更客观，更多维度的刻画用户的画像***。

优选的，对已知年龄声音直播用户获取的相关信息还包括用户年龄。获取用户年龄，得到获取的各种信息与用户年龄之间的关系。

通过对相关信息和补充信息进行合并和聚类，得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播的app安装列表信息。对信息进行合并和聚类，对信息进行整理，便于对年龄进行预测。

优选的，将声音直播用户的年龄分为如下几类：用户在0-12岁为分类1；用户在13-20岁为分类2；用户在21-30岁为分类3；用户在31-40岁为分类4；用户在41-50岁为分类5；用户在51-60岁为分类6；用户在61-70岁为分类7；用户在71以上为分类8。预测用户年龄，并根据用户年龄预测用户的偏好从而进行信息推荐，而往往年龄相近的用户偏好或喜好相近，因此可将用户年龄进行分类。对用户的年龄段进行预测，符合实际需要，也减少了***收集信息的压力。

按照如下步骤进行训练模型：步骤一：从声音直播app中抽取若干名实名认证的用户作为训练数据，优选的，每个年龄分类下用户的个数分布趋近于相同，防止不平衡，并在后期不断加入人工标注的数据，以增加数据的可靠度；步骤二：根据用户在声音直播中的行为生成用户年龄特征向量；步骤三：模型预测；步骤四：模型优化。

对相关信息和补充信息进行合并和聚类后得出的信息进行处理，得出回归特征，回归特征包括：根据声音直播用户的历史行为信息生成行为特征；根据声音直播用户对主播的偏好信息进行tfidf以及svd降维；根据声音直播用户的活跃度信息生成用户活跃序列数据embedding；根据声音直播用户的app安装列表通过knn补充app的类别信息，进行tfidf以及svd降维。

其中tfidf是一种用于信息检索与数据挖掘的常用加权技术，TF意思是词频，IDF意思是逆文本频率指数。SVD为奇异值分解。embedding是离散数据连续化方法。Knn为邻近算法。

对回归特征分别使用lightGBM和mlp训练年龄预测模型，然后进行stacking。其中，lightGBM一种基于GBDT的提升方法，GBDT全称梯度下降树，在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一。mlp为多层感知机。Stacking是一种有层次的融合模型。

上述优选实施方式应视为本申请方案实施方式的举例说明，凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等，均应视为本专利的保护范围。

Claims

1.一种声音直播用户的年龄预测方法，其特征在于：包括如下步骤：

根据已知年龄声音直播用户的信息构建画像***；

根据未知年龄声音直播用户的信息构建画像***；

根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***，训练用户年龄生成模型，生成未知年龄声音直播用户的年龄，

其中，构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括：

通过***信息完成相关信息的自动化收集，其中所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好，所述相关信息还包括声音直播用户的app安装列表；

通过数据挖掘和数据统计构建补充信息，其中所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布；

基于相关信息和补充信息，进行合并与聚类，通过对相关信息和补充信息进行合并和聚类，得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播用户各个app分类下的app安装个数，以构建声音直播用户画像***；

对相关信息和补充信息进行合并和聚类后得出的信息进行处理，得出回归特征，回归特征包括：

根据声音直播用户的历史行为信息生成行为特征；

根据声音直播用户对主播的偏好信息进行tfidf以及svd降维；

根据声音直播用户的活跃度信息生成用户活跃序列数据embedding；

根据声音直播用户的app安装列表通过knn补充缺失的app的类别信息，进行tfidf以及svd降维。

2.根据权利要求1所述的一种声音直播用户的年龄预测方法，其特征在于：对已知年龄声音直播用户获取的相关信息还包括用户年龄。

3.根据权利要求1所述的一种声音直播用户的年龄预测方法，其特征在于：按照如下步骤进行训练模型：步骤一：从声音直播app中抽取若干名实名认证的用户作为训练数据；步骤二：根据用户在声音直播中的行为生成用户年龄特征向量；步骤三：模型预测；步骤四：模型优化。

4.根据权利要求1所述的一种声音直播用户的年龄预测方法，其特征在于：对回归特征分别使用lightGBM和mlp训练年龄预测模型，然后进行stacking。