CN111031362B - 一种声音直播用户的年龄预测方法 - Google Patents

一种声音直播用户的年龄预测方法 Download PDF

Info

Publication number
CN111031362B
CN111031362B CN201911106871.0A CN201911106871A CN111031362B CN 111031362 B CN111031362 B CN 111031362B CN 201911106871 A CN201911106871 A CN 201911106871A CN 111031362 B CN111031362 B CN 111031362B
Authority
CN
China
Prior art keywords
user
live broadcast
age
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911106871.0A
Other languages
English (en)
Other versions
CN111031362A (zh
Inventor
廉亚红
丁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lizhi Network Technology Co ltd
Original Assignee
Guangzhou Lizhi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lizhi Network Technology Co ltd filed Critical Guangzhou Lizhi Network Technology Co ltd
Priority to CN201911106871.0A priority Critical patent/CN111031362B/zh
Publication of CN111031362A publication Critical patent/CN111031362A/zh
Application granted granted Critical
Publication of CN111031362B publication Critical patent/CN111031362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种声音直播用户的年龄预测方法,包括如下步骤:根据已知年龄声音直播用户的信息构建画像***;根据未知年龄声音直播用户的信息构建画像***;根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***,训练用户年龄生成模型,生成未知年龄声音直播用户的年龄。可对未知年龄声音直播用户的年龄进行预测。

Description

一种声音直播用户的年龄预测方法
技术领域
本发明涉及一种声音直播用户的年龄预测方法。
背景技术
想要获取用户的年龄段偏好,首先得有一个年龄预测***予以支持,对每个用户或者主播进行年龄字段的匹配和预测。目前的用户年龄字段,只是按照用户自定义的年龄进行简单的分组,然后遇到缺失值时按照组内平均值来进行填充,很明显,这样的方式由如下缺点:①在进一步用于推荐时,如果依赖于年龄偏好的情况下该偏好没有细分,导致定位用户的年龄偏好是很粗粒度的②由于依赖于用户自己填写的年龄信息,所以数据存在一定的不准确性③对于年龄缺失的数据,只是按照组内的平均值进行填充,不是很好的解决方案。所以,需要一种智能化,细分化的方式,解决用户年龄段分类预测的问题,从而服务于精准个性化推荐。
发明内容
本发明旨在至少在一定程度上解决现有相关技术中存在的问题之一,为此,本发明的目的在于提出一种声音直播用户的年龄预测方法,自动化、智能化,通过模型的方式,自动完成对于用户的年龄段预测。
上述目的是通过如下技术方案来实现的:
一种声音直播用户的年龄预测方法,包括如下步骤:根据已知年龄声音直播用户的信息构建画像***;根据未知年龄声音直播用户的信息构建画像***;根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***,训练用户年龄生成模型,生成未知年龄声音直播用户的年龄。
作为本发明的进一步改进,构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括:通过***信息完成相关信息的自动化收集;通过数据挖掘和数据统计构建补充信息;基于相关信息和补充信息,进行合并与聚类,构建声音直播用户画像***。
作为本发明的进一步改进,所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好。
作为本发明的进一步改进,所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布。
作为本发明的进一步改进,所述相关信息还包括声音直播用户的app安装列表。
作为本发明的进一步改进,对已知年龄声音直播用户获取的相关信息还包括用户年龄。
作为本发明的进一步改进,通过对相关信息和补充信息进行合并和聚类,得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播的app安装列表信息。
作为本发明的进一步改进,按照如下步骤进行训练模型:步骤一:从声音直播app中抽取若干名实名认证的用户作为训练数据;步骤二:根据用户在声音直播中的行为生成用户年龄特征向量;步骤三:模型预测;步骤四:模型优化。
作为本发明的进一步改进,对相关信息和补充信息进行合并和聚类后得出的信息进行处理,得出回归特征,回归特征包括:根据声音直播用户的历史行为信息生成行为特征;根据声音直播用户对主播的偏好信息进行tfidf以及svd降维;根据声音直播用户的活跃度信息生成用户活跃序列数据embedding;根据声音直播用户的app安装列表通过knn补充app的类别信息,进行tfidf以及svd降维。
作为本发明的进一步改进,对回归特征分别使用lightGBM和mlp训练年龄预测模型,然后进行stacking。
与现有技术相比,本发明的至少包括以下有益效果:
1.本发明提出一种声音直播用户的年龄预测方法,自动化、智能化,通过模型的方式,自动完成对于用户的年龄段预测。
2.预测时融合了用户的在声音直播app中的历史行为信息、对主播的偏好信息、活跃度信息及声音直播用户的app安装列表信息等多方面的信息,可以更客观,更多维度的刻画用户的特征。
附图说明
图1是一种声音直播用户的年龄预测方法流程示意图;
图2是一种声音直播用户的年龄预测方法又一流程示意图;
图3是一种声音直播用户的年龄预测方法再一流程示意图。
具体实施方式
以下实施例对本发明进行说明,但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本发明方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
参见附图1-3示出本发明一种声音直播用户的年龄预测方法,包括如下步骤:根据已知年龄声音直播用户的信息构建画像***S1;根据未知年龄声音直播用户的信息构建画像***S2;根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***,训练用户年龄生成模型,生成未知年龄声音直播用户的年龄S3。
构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括:通过***信息完成相关信息的自动化收集;通过数据挖掘和数据统计构建补充信息;基于相关信息和补充信息,进行合并与聚类,构建声音直播用户画像***。
所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好。还包括***能自动收集到的其他相关信息。
所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布。对补充信息的构建包含但不限于上述提到的信息。
优选的,所述相关信息还包括声音直播用户的app安装列表。对声音直播用户的信息的收集不仅包括在声音直播app中能获取得到的用户的相关信息、及通过数据挖掘和数据统计构建补充信息,还包括声音直播app外的其他信息,通过这些信息可以更客观,更多维度的刻画用户的画像***。
优选的,对已知年龄声音直播用户获取的相关信息还包括用户年龄。获取用户年龄,得到获取的各种信息与用户年龄之间的关系。
通过对相关信息和补充信息进行合并和聚类,得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播的app安装列表信息。对信息进行合并和聚类,对信息进行整理,便于对年龄进行预测。
优选的,将声音直播用户的年龄分为如下几类:用户在0-12岁为分类1;用户在13-20岁为分类2;用户在21-30岁为分类3;用户在31-40岁为分类4;用户在41-50岁为分类5;用户在51-60岁为分类6;用户在61-70岁为分类7;用户在71以上为分类8。预测用户年龄,并根据用户年龄预测用户的偏好从而进行信息推荐,而往往年龄相近的用户偏好或喜好相近,因此可将用户年龄进行分类。对用户的年龄段进行预测,符合实际需要,也减少了***收集信息的压力。
按照如下步骤进行训练模型:步骤一:从声音直播app中抽取若干名实名认证的用户作为训练数据,优选的,每个年龄分类下用户的个数分布趋近于相同,防止不平衡,并在后期不断加入人工标注的数据,以增加数据的可靠度;步骤二:根据用户在声音直播中的行为生成用户年龄特征向量;步骤三:模型预测;步骤四:模型优化。
对相关信息和补充信息进行合并和聚类后得出的信息进行处理,得出回归特征,回归特征包括:根据声音直播用户的历史行为信息生成行为特征;根据声音直播用户对主播的偏好信息进行tfidf以及svd降维;根据声音直播用户的活跃度信息生成用户活跃序列数据embedding;根据声音直播用户的app安装列表通过knn补充app的类别信息,进行tfidf以及svd降维。
其中tfidf是一种用于信息检索与数据挖掘的常用加权技术,TF意思是词频,IDF意思是逆文本频率指数。SVD为奇异值分解。embedding是离散数据连续化方法。Knn为邻近算法。
对回归特征分别使用lightGBM和mlp训练年龄预测模型,然后进行stacking。其中,lightGBM一种基于GBDT的提升方法,GBDT全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一。mlp为多层感知机。Stacking是一种有层次的融合模型。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。

Claims (4)

1.一种声音直播用户的年龄预测方法,其特征在于:包括如下步骤:
根据已知年龄声音直播用户的信息构建画像***;
根据未知年龄声音直播用户的信息构建画像***;
根据已知年龄声音直播用户的画像***和未知年龄声音直播用户的画像***,训练用户年龄生成模型,生成未知年龄声音直播用户的年龄,
其中,构建已知年龄声音直播用户与未知年龄声音直播用户画像***包括:
通过***信息完成相关信息的自动化收集,其中所述相关信息包括用户波段号、用户id、用户设备id、用户昵称、用户职业、用户常住地、用户最近一次收听直播时间、用户首次收听直播的时间、用户的年龄段偏好,所述相关信息还包括声音直播用户的app安装列表;
通过数据挖掘和数据统计构建补充信息,其中所述用户的补充信息包括用户的有效收听节目率、用户的完播率、用户的付费率、用户的关注主播数、用户的收听声音直播的一级标签偏好、用户的收听声音直播的二级标签偏好、用户的收听声音直播的主播性别偏好、用户打开app的时间分布;
基于相关信息和补充信息,进行合并与聚类,通过对相关信息和补充信息进行合并和聚类,得出声音直播用户的历史行为信息、声音直播用户对主播的偏好信息、声音直播用户的活跃度信息、声音直播用户各个app分类下的app安装个数,以构建声音直播用户画像***;
对相关信息和补充信息进行合并和聚类后得出的信息进行处理,得出回归特征,回归特征包括:
根据声音直播用户的历史行为信息生成行为特征;
根据声音直播用户对主播的偏好信息进行tfidf以及svd降维;
根据声音直播用户的活跃度信息生成用户活跃序列数据embedding;
根据声音直播用户的app安装列表通过knn补充缺失的app的类别信息,进行tfidf以及svd降维。
2.根据权利要求1所述的一种声音直播用户的年龄预测方法,其特征在于:对已知年龄声音直播用户获取的相关信息还包括用户年龄。
3.根据权利要求1所述的一种声音直播用户的年龄预测方法,其特征在于:按照如下步骤进行训练模型:步骤一:从声音直播app中抽取若干名实名认证的用户作为训练数据;步骤二:根据用户在声音直播中的行为生成用户年龄特征向量;步骤三:模型预测;步骤四:模型优化。
4.根据权利要求1所述的一种声音直播用户的年龄预测方法,其特征在于:对回归特征分别使用lightGBM和mlp训练年龄预测模型,然后进行stacking。
CN201911106871.0A 2019-11-13 2019-11-13 一种声音直播用户的年龄预测方法 Active CN111031362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911106871.0A CN111031362B (zh) 2019-11-13 2019-11-13 一种声音直播用户的年龄预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911106871.0A CN111031362B (zh) 2019-11-13 2019-11-13 一种声音直播用户的年龄预测方法

Publications (2)

Publication Number Publication Date
CN111031362A CN111031362A (zh) 2020-04-17
CN111031362B true CN111031362B (zh) 2022-01-25

Family

ID=70205586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911106871.0A Active CN111031362B (zh) 2019-11-13 2019-11-13 一种声音直播用户的年龄预测方法

Country Status (1)

Country Link
CN (1) CN111031362B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN106651057A (zh) * 2017-01-03 2017-05-10 有米科技股份有限公司 一种基于安装包序列表的移动端用户年龄预测方法
CN108335131A (zh) * 2018-01-19 2018-07-27 北京奇艺世纪科技有限公司 一种预估用户年龄段的方法、装置及电子设备
CN109783686A (zh) * 2019-01-21 2019-05-21 广州虎牙信息科技有限公司 行为数据处理方法、装置、终端设备和存储介质
CN110225374A (zh) * 2019-06-13 2019-09-10 北京连屏科技有限公司 交互式网络电视的用户信息采集处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130283162A1 (en) * 2012-04-23 2013-10-24 Sony Mobile Communications Ab System and method for dynamic content modification based on user reactions
US20150100373A1 (en) * 2013-10-09 2015-04-09 Vodafone Ip Licensing Limited Demographics predictions using mobile devices
US9405967B2 (en) * 2014-09-03 2016-08-02 Samet Privacy Llc Image processing apparatus for facial recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN106651057A (zh) * 2017-01-03 2017-05-10 有米科技股份有限公司 一种基于安装包序列表的移动端用户年龄预测方法
CN108335131A (zh) * 2018-01-19 2018-07-27 北京奇艺世纪科技有限公司 一种预估用户年龄段的方法、装置及电子设备
CN109783686A (zh) * 2019-01-21 2019-05-21 广州虎牙信息科技有限公司 行为数据处理方法、装置、终端设备和存储介质
CN110225374A (zh) * 2019-06-13 2019-09-10 北京连屏科技有限公司 交互式网络电视的用户信息采集处理方法

Also Published As

Publication number Publication date
CN111031362A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
US20220328037A1 (en) System and method for neural network orchestration
CN102802114B (zh) 利用语音进行座席筛选的方法及***
CN108305636A (zh) 一种音频文件处理方法及装置
CN102236639B (zh) 更新语言模型的***和方法
CN111210842B (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN112766550A (zh) 基于随机森林的停电敏感用户预测方法、***、存储介质及计算机设备
CN108009303A (zh) 基于语音识别的搜索方法、装置、电子设备和存储介质
US20160308795A1 (en) Method, system and apparatus for configuing a chatbot
CN112053007B (zh) 一种配网故障抢修预测分析***和方法
CN102915493A (zh) 信息处理装置和方法
CN109670020A (zh) 一种语音交互方法、***及装置
CN106503108A (zh) 地理位置检索方法和装置
CN106302987A (zh) 一种音频推荐方法及设备
CN112667909B (zh) 一种智能家居中推荐场景的方法和装置
CN109241332A (zh) 一种通过语音确定语义的方法及***
CN110085217A (zh) 语音导航方法、装置及终端设备
CN110942765B (zh) 一种构建语料库的方法、设备、服务器和存储介质
CN109410934A (zh) 一种基于声纹特征的多人声音分离方法、***及智能终端
CN106708827A (zh) 质检方法及装置
CN111031362B (zh) 一种声音直播用户的年龄预测方法
CN114186022A (zh) 基于语音转录与知识图谱的调度指令质检方法及***
CN110310127A (zh) 录音获取方法、装置、计算机设备及存储介质
CN107506407A (zh) 一种文件分类、调用的方法及装置
CN113837545A (zh) 一种具有实时监控服务质量的电力客服***
CN113420059A (zh) 一种市民热线问题主动治理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant