CN111026906B - 一种用于车载场景下的流式收听音频内容的推荐*** - Google Patents

一种用于车载场景下的流式收听音频内容的推荐*** Download PDF

Info

Publication number
CN111026906B
CN111026906B CN201911235384.4A CN201911235384A CN111026906B CN 111026906 B CN111026906 B CN 111026906B CN 201911235384 A CN201911235384 A CN 201911235384A CN 111026906 B CN111026906 B CN 111026906B
Authority
CN
China
Prior art keywords
user
content
data
subsystem
offline model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911235384.4A
Other languages
English (en)
Other versions
CN111026906A (zh
Inventor
俞清木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd
Original Assignee
Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd filed Critical Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd
Priority to CN201911235384.4A priority Critical patent/CN111026906B/zh
Publication of CN111026906A publication Critical patent/CN111026906A/zh
Application granted granted Critical
Publication of CN111026906B publication Critical patent/CN111026906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/637Administration of user profiles, e.g. generation, initialization, adaptation or distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于车载场景下的流式收听音频内容的推荐***,该***包含实时数据收集子***、离线模型训练子***和在线内容投放子***;实时数据收集子***收集相关信息,录入到存储***,离线模型训练子***根据录入存储***的原始数据,计算离线模型数据,最后由在线内容投放子***根据离线模型数据进行投放。本发明提供的用于车载场景下的流式收听音频内容的推荐***,解决了车载场景下,用户主动行为数据稀疏的问题;采用电台模式,流式收听,减少了对驾驶员的影响;而且融合了汽车信息和场景信息,使得推荐出来的音频内容更符合车载特性。

Description

一种用于车载场景下的流式收听音频内容的推荐***
技术领域
本发明涉及一种在车载场景下针对不同用户提供个性化不间断的音频内容的***,具体地,涉及一种用于车载场景下的流式收听音频内容的推荐***。
背景技术
随着互联网的快速发展,信息过载日益严重,推荐***是解决上述问题的重要手段之一。目前推荐技术基本都是服务于手机和PC这种强交互方式的产品,而车载场景,有其独有的特性,导致现有推荐技术存在很多问题:
1.手机和PC上,用户都是注意力很集中,主动对推荐结果进行显式或者隐式反馈,例如打分、点赞、点击播放等。而在车载场景下,用户注意力在开车,都是伴随式被动收听内容,用户行为数据很稀疏。
2.现有的推荐技术主要服务于点播形式的产品,而车载场景下是需要流式持续收听,减少对驾驶的影响。
3.现有的推荐技术基于用户信息和行为数据。而车载场景下,需要融合汽车信息(例如路况、车速等)和场景信息(上下班、出游、午夜长途等)。
发明内容
本发明的目的是提供一种在车载场景下针对不同用户提供个性化不间断的音频内容的***,能够解决现有问题,利用大数据和专家知识解决了车载场景下,用户主动行为数据稀疏的问题。
为了达到上述目的,本发明提供了一种用于车载场景下的流式收听音频内容的推荐***,配合客户端、服务器、本地文件***以及存储***使用,其中,所述的推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***;所述的实时数据收集子***收集相关信息,录入到存储***,离线模型训练子***根据录入存储***的原始数据,计算离线模型数据,最后由在线内容投放子***根据离线模型数据进行投放;所述的相关信息包含用户行为数据、汽车信息、场景信息。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的离线模型训练子***的运行过程包含候选集生成和候选集排序两个环节,候选集生成分为用户主动行为和离线模型计算,候选集排序是计算用户对候选集喜欢的程度。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的用户主动行为是用户通过相应的产品形式,主动填写喜好的内容标签,包含自定义播单、兴趣选择;自定义播单在产品界面展示,由用户自己定义播单内容,播单内容基于内容分类、内容标签、内容关键词;兴趣选择是由用户在注册激活的界面,选择自己的感兴趣的内容标签。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的离线模型计算是离线模型训练子***通过算法分析数据,从而得出用户会喜欢的内容标签,数据包含用户信息、用户行为、汽车信息和场景信息;离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的追剧是由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析,其过程为:首先按照每个用户唯一标示进行分组,保留连续收听类型节目的收听记录,按照时间倒序,再保留最近三个月的收听过的节目列表,从中查询每一个节目的下一个内容,最终将结果进行储存。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的用户画像是首先获取用户行为数据和音频信息,再由离线模型训练子***将两类数据根据音频唯一标示,进行关联,然后按照每个用户进行分组,计算每个用户的用户画像,通过用户标签权重=行为类型权重*时间衰减*TF-IDF,计算得到每个用户身上的标签权重*行为次数;用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈;音频信息包含时长、所属专辑、专辑的标签、所属分类;用户画像标签权重的公式为:norm(Wbehavior*Ft*C*TF*IDF),其中行为类型权重Wbehavior{订阅:5,播放列表点击:1.4*R,搜索:1.3*R,专辑点播:1.2*R,下一首:1*R,负反馈:0.1},专辑完播率R=∑PlayTimeaudio/∑Durationaudio;时间衰减Ft=max(1,1*e-0.8*max(0,(now-playtime)/(24*3600))),now为当前时间,playtime为行为发生的时间,单位ms;行为次数C,按天计算,是同一种行为类型针对同一个专辑的次数;标签重要性TF计算式的分子表示某标签在用户上出现的次数,分母表示用户标签总数,IDF计算式的幂的分子表示用户总数,分母表示包含某标签的用户数+1。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息,以及运营经验,离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度,通过如下公式进行:即已知用户属性u1,u2,……,un,计算用户喜欢标签l的相对概率;N,n分别为数据总数,标签l被“喜欢”的频数;Ni,ni分别为在属性i下的数据总数,标签l被“喜欢”的频数;类似于tf-idf,第一项为惩罚项,标签热度越高,该值越低(idf)。第二项为条件概率的求和,标签在该属性下发生概率越高,该值越高(tf);(n-α)为惩罚项系数,α默认为1(不惩罚),推荐区间0≤α≤1;β为削弱每个属性内热门标签的权重,默认为1(不削弱),推荐区间1≤β≤2;α值越大,对热度惩罚越小,打分大众化;α值越小,对热度惩罚越大,打分个性化;β值越大,对热度削弱越强,打分个性化;β值越小,对热度削弱越弱,打分大众化。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的热门内容是统计用户专辑点击的行为数据,离线模型训练子***计算得出每个小时、每个内容分类的重要性,通过如下公式进行:TF计算式的分子代表某个内容分类在某个小时出现的次数,分母代表该小时内容分类总数;IDF计算式的幂的分子代表一天总的小时数,为24,分母代表包含该内容分类的小时数+1。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的候选集排序,是通过离线模型训练子***,在用户正向反馈行为较少的初期,利用用户画像,将得出的内容标签权重作为整体排序的依据,后期随着正向反馈数据的增加,可以使用点击率预估模型,自动学习候选集的比例和最终排序。
上述的用于车载场景下的流式收听音频内容的推荐***,其中,所述的在线内容投放子***根据离线模型训练子***的计算结果,进行在线内容投放,其分为召回和排序两个环节;召回是从存储***中,获取离线模型训练子***的离线模型计算出的各种候选集,然后根据所得的离线数据统计来计算各个候选集的占比;排序是获取当前用户相关信息和离线计算的中间数据,提取特征,经过模型计算出用户最有可能喜欢的内容排序,投放最终的结果。
本发明提供的用于车载场景下的流式收听音频内容的推荐***具有以下优点:
1.本***采用流式收听,减少了驾驶员在驾驶过程中,过多的交互操作,更降低了交通事故发生的风险。
2.解决车载场景下流式收听,用户主动行为数据稀疏的问题。产品上,引导用户自定义播单,注册的时候选择喜好的内容标签,再结合订阅、点击行为、搜索、负反馈等等,多维度收集用户行为数据。算法上,通过收集种子用户的用户属性,以及自定义播单,建立模型,计算用户属性和内容标签的喜好程度,实现了用户属性推荐;按照小时维度,计算内容分类的重要性,实现热门推荐。
3.前期正向反馈数据比较稀疏,可以采用用户画像的内容标签权重,作为结果排序的标准。当用户对***推荐出的内容,产生的正向反馈的量级达到一定程序(通常为特征量级的10倍左右),可以采用监督学习模型——点击率预估,来优化推荐结果的排序。
4.在算法建模上,除了用户和内容相关的信息,还融合了汽车和场景信息,使得推荐的内容更加适合车载场景。
附图说明
图1为本发明的用于车载场景下的流式收听音频内容的推荐***的架构示意图。
图2为本发明的用于车载场景下的流式收听音频内容的推荐***的点击率预估排序模型图。
图3为本发明的用于车载场景下的流式收听音频内容的推荐***的召回流程图。
具体实施方式
以下结合附图对本发明的具体实施方式作进一步地说明。
本发明提供了一种用于车载场景下的流式收听音频内容的推荐***,配合客户端、服务器、本地文件***以及存储***使用,该推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***。存储***包含分布式缓存子***,倒排索引子***,关系型数据库子***,分布式文件子***。该推荐***还依赖中间件服务***,中间件服务***包含基于Actor模型的异步通信子***,分布式实时处理子***,分布式计算子***,实时日志收集子***。参见图1所示。
实时数据收集子***通过客户端程序收集相关信息,并把相关信息上报到httpweb服务器,然后由http web服务器记录到本地文件***中,再由实时日志收集子***进行信息补全、拆分、清洗等操作之后,录入到存储***的分布式文件子***,离线模型训练子***根据这些录入存储***的原始数据,计算离线模型数据,最后由在线内容投放子***根据离线模型数据进行投放;相关信息包含用户行为数据、汽车信息、场景信息等。
离线模型训练子***的运行过程包含候选集生成和候选集排序两个重要环节,候选集生成分为用户主动行为和离线模型计算,候选集排序是计算用户对候选集喜欢的程度。
用户主动行为是用户通过相应的产品形式,主动填写喜好的内容标签,包含自定义播单、兴趣选择;自定义播单在产品界面展示,由用户自己定义播单内容,播单内容基于内容分类、内容标签、内容关键词;兴趣选择是由用户在注册激活的界面,选择自己的感兴趣的内容标签。
离线模型计算是离线模型训练子***通过算法分析数据,从而得出用户会喜欢的内容标签,数据包含用户信息、用户行为、汽车信息和场景信息等;离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成。
追剧是利用分布式计算子***,由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析,其过程为:首先按照每个用户唯一标示进行分组,保留连续收听类型节目的收听记录(例如小说),按照时间倒序,再保留最近三个月的收听过的节目列表,从中查询每一个节目的下一个内容,最终将计算出的结果存入倒排索引子***进行储存。
用户画像是首先从分布式文件子***获取用户行为数据,同时从关系型数据库子***获取音频信息,再由离线模型训练子***将两类数据根据音频唯一标示,进行关联,然后按照每个用户进行分组,计算每个用户的用户画像,通过用户标签权重=行为类型权重*时间衰减*TF-IDF,计算得到每个用户身上的标签权重*行为次数;用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈等;音频信息包含时长、所属专辑、专辑的标签、所属分类等;用户画像标签权重的公式为:norm(Wbehavior*Ft*C*TF*IDF),其中行为类型权重Wbehavior{订阅:5,播放列表点击:1.4*R,搜索:1.3*R,专辑点播:1.2*R,下一首:1*R,负反馈:0.1},专辑完播率R=∑PlayTimeaudio/∑Durationaudio时间衰减Ft=max(1,1*e-0.8*max(0,(now-playtime)/(24*3600))),now为当前时间,playtime为行为发生的时间,单位ms;行为次数C,按天计算,是同一种行为类型针对同一个专辑的次数;标签重要性TF计算式的分子表示某标签在用户上出现的次数,分母表示用户标签总数,IDF计算式的幂的分子表示用户总数,分母表示包含某标签的用户数+1。
用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息,例如通过微信小程序收集,以及运营经验,离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度,通过如下公式进行:即已知用户属性u1,u2,……,un,计算用户喜欢标签1的相对概率;过程如下:
独立行假设
P(u1u2…un|l=1)=P(u1|l=1)P(u2|l=1)…P(un|l=1)
贝叶斯公式
得出
设定
P(l=1)=p,P(l=0)=1-p,P(l=1|ui)=qi,P(l=0|ui)=1-qi
最终得出
N,n分别为数据总数,标签1被“喜欢”的频数;Ni,ni分别为在属性i下的数据总数,标签1被“喜欢”的频数;类似于tf-idf,第一项为惩罚项,标签热度越高,该值越低(idf)。第二项为条件概率的求和,标签在该属性下发生概率越高,该值越高(tf);(n-α)为惩罚项系数,α默认为1(不惩罚),推荐区间0≤α≤1;β为削弱每个属性内热门标签的权重,默认为1(不削弱),推荐区间1≤β≤2;α值越大,对热度惩罚越小,打分大众化;α值越小,对热度惩罚越大,打分个性化;β值越大,对热度削弱越强,打分个性化;β值越小,对热度削弱越弱,打分大众化。
热门内容是统计用户专辑点击的行为数据,离线模型训练子***计算得出每个小时、每个内容分类的重要性,通过如下公式进行:
TF计算式的分子代表某个内容分类在某个小时出现的次数,分母代表该小时内容分类总数;IDF计算式的幂的分子代表一天总的小时数,为24,分母代表包含该内容分类的小时数+1。
候选集排序,是通过离线模型训练子***,在用户正向反馈行为较少的初期,可以利用用户画像,将得出的内容标签权重作为整体排序的依据,后期随着正向反馈数据的增加,可以使用点击率预估模型,自动学习候选集的比例和最终排序。点击率预估模型排序的过程包含:搜集用户行为数据和业务内容数据,由离线模型训练子***提取特征,包括场景特征、汽车特征、用户特征、内容特征等,然后将特征进行离散化,再将特征进行热编码,写入存储***,同时使用逻辑回归训练数据,并加入对推荐结果的行为数据,得出模型数据,也写入存储***,然后从存储***读取特征和模型数据,实时计算推荐候选结果的点击率,最后按照点击率排序推荐结果。参见图2所示。
在线内容投放子***基于Actor模型的异步通信子***,构建高性能、高可用的分布式应用。该在线内容投放子***根据离线模型训练子***的计算结果,进行在线内容投放,其整体分为召回和排序两个环节;召回是从存储***的分布式缓存子***、倒排索引子***和关系式数据库子***中,获取离线模型训练子***的离线模型计算出的各种候选集,然后根据所得的离线数据统计来计算各个候选集的占比;具体流程包含:首先由用户访问用户自定义播单,如果有则进入用户追剧,追剧按照时间倒序占比不超过50%,然后将追剧和自定义播单相结合;如果无则转入其它策略,确定自选内容标签、用户追剧、用户画像、用户属性、默认播单等候选集权重,初始化权重设置为自选内容标签4、用户追剧2、用户画像2、用户属性1、默认播单1等,权重表示各个候选集之间的比例关系,默认顺序也是按照自选内容标签、用户追剧、用户画像、用户属性、默认播单等,综合人工设置各个候选集权重,权重更改后即时生效。参见图3所示。排序是从分布式实时处理子***、分布式缓存子***、倒排索引子***和关系式数据库子***中,获取当前用户相关信息和离线计算的中间数据,提取特征,经过模型计算出用户最有可能喜欢的内容排序,投放最终的结果。
下面结合实施例对本发明提供的用于车载场景下的流式收听音频内容的推荐***做更进一步描述。
实施例1
一种用于车载场景下的流式收听音频内容的推荐***,配合客户端、服务器、本地文件***以及存储***使用。该推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***。
1.实时收集子***。客户端收集音频播放行为数据,上报到nginx web服务器上。由日志收集子***flume,收集汇总,进行专辑信息的补充,按照时间存储到分布式存储子***hdfs上。Nginx(engine x)是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的***。Hdfs(Hadoop分布式文件***)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件***(Distributed File System)。
2.离线模型训练子***。
(1)追剧。
编写分布式计算程序MapReduce。任务1的map读取最近三个月的用户收听记录,保留分类为小说的;按照用户唯一标示进行分组,提供给reduce;reduce按照时间对数据进行降序,保留每个专辑最新时间的收听记录。任务2读取任务1的数据,再加上专辑的所有音频信息;map按照专辑唯一标示进行分组,提供给reduce;reduce计算收听历史中音频内容的下一集。任务3map读取任务2的数据,按照用户唯一标示进行分组;reduce把分组后的数据存入倒排索引子***elasticsearch。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。elasticsearch是一个基于Lucene的搜索服务器。
(2)用户画像计算。
首先对原始数据进行清洗:播放结束事件数据与业务库中音频信息通过音频唯一标示进行关联;新数据与历史数据通过用户唯一标示进行合并;合并后的数据按照用户唯一标示和专辑唯一标示,计算每个音频播放时长的衰减权重,并进行累加;最后按照累加的衰减权重降序排列。
计算用户标签:获取标签黑名单、专辑信息(包括内容分类和标签),对专辑标签进行黑名单过滤,剔除包含黑标签的专辑。上一步数据清洗后的数据,根据专辑唯一标示进行关联合并。针对每一个用户下的每一个专辑标签进行衰减权重的累加,然后通过归一化公式,计算最终权重。
(3)热门推荐,即用户属性推荐和热门内容。
收集用户专辑点击的数据,统计每个分类在每个小时的专辑点击数量,除以该小时所有的分类数量,商作为tf。24除以每个分类在出现小时数+1的和,计算以10为底数商的对数,作为idf。tf乘以idf,作为某个分类在某小时的重要性。然后再把各个分类按照娱乐、知识、生活、资讯方式,重新划分,计算每个大类在每个小时的重要性。数据都保存到倒排索引子***elasticsearch中。在线投放子***每个小时推荐的内容,先召回重要性最高的大类,然后按照分类重要性归一化处理,进行配比,提高召回率。
3.在线内容投放子***。用户请求子***服务接口,传入用户唯一标示uid,***根据uid获取自定义播单,追剧,自选内容标签,用户画像,用户属性。如果存在用户自定义播单,通过播单保存的专辑标签,从倒排索引子***Elasticsearch中获取相关专辑,结合追剧构成候选集。如果不包含用户自定义播单,通过用户属性和用户属性推荐模型,得到用户会喜欢的专辑标签,加上自选内容标签、用户画像以及热门标签,从elasticsearch中获取相关专辑,构成候选集。各个候选集按照各自权重进行数量分配。最后按照用户画像的标签权重做排序,推荐出去。
本发明提供的用于车载场景下的流式收听音频内容的推荐***,是在车载场景下针对不同用户提供的个性化不间断的音频内容的***和方法,利用大数据和专家知识解决了车载场景下,用户主动行为数据稀疏的问题。采用电台模式,流式收听,减少了对驾驶员的影响。而且融合了汽车信息和场景信息,使得推荐出来的音频内容更符合车载特性。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (7)

1.一种用于车载场景下的流式收听音频内容的推荐***,配合客户端、服务器、本地文件***以及存储***使用,其特征在于,所述的推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***;所述的实时数据收集子***收集相关信息,录入到存储***,离线模型训练子***根据录入存储***的原始数据,计算离线模型数据,最后由在线内容投放子***根据离线模型数据进行投放;所述的相关信息包含用户行为数据、汽车信息、场景信息;
所述的离线模型训练子***的运行过程包含候选集生成和候选集排序两个环节,候选集生成分为用户主动行为和离线模型计算,候选集排序是计算用户对候选集喜欢的程度;
所述的离线模型计算是离线模型训练子***通过算法分析数据,从而得出用户会喜欢的内容标签,数据包含用户信息、用户行为、汽车信息和场景信息;离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成;
所述的用户画像是首先获取用户行为数据和音频信息,再由离线模型训练子***将两类数据根据音频唯一标示,进行关联,然后按照每个用户进行分组,计算每个用户的用户画像,通过用户标签权重=行为类型权重*时间衰减*TF-IDF,计算得到每个用户身上的标签权重*行为次数;用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈;音频信息包含时长、所属专辑、专辑的标签、所属分类;用户画像标签权重的公式为:norm(Wbehavior*Ft*C*TF*IDF),其中行为类型权重Wbehavior{订阅:5,播放列表点击:1.4*R,搜索:1.3*R,专辑点播:1.2*R,下一首:1*R,负反馈:0.1},专辑完播率R=∑PlayTimeaudio/∑Durationaudio;时间衰减Ft=max(1,1*e-0.8*max(0,(now-playtime)/(24*3600))),now为当前时间,playtime为行为发生的时间,单位ms;行为次数C,按天计算,是同一种行为类型针对同一个专辑的次数;标签重要性 TF计算式的分子表示某标签在用户上出现的次数,分母表示用户标签总数,IDF计算式的幂的分子表示用户总数,分母表示包含某标签的用户数+1。
2.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的用户主动行为是用户通过相应的产品形式,主动填写喜好的内容标签,包含自定义播单、兴趣选择;自定义播单在产品界面展示,由用户自己定义播单内容,播单内容基于内容分类、内容标签、内容关键词;兴趣选择是由用户在注册激活的界面,选择自己的感兴趣的内容标签。
3.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的追剧是由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析,其过程为:首先按照每个用户唯一标示进行分组,保留连续收听类型节目的收听记录,按照时间倒序,再保留最近三个月的收听过的节目列表,从中查询每一个节目的下一个内容,最终将结果进行储存。
4.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息,以及运营经验,离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度,通过如下公式进行: 即已知用户属性u1,u2,…,un,计算用户喜欢标签l的相对概率;N,n分别为数据总数,标签l被“喜欢”的频数;Ni,ni分别为在属性i下的数据总数,标签l被“喜欢”的频数;类似于tf-idf,第一项为惩罚项,标签热度越高,idf值越低;第二项为条件概率的求和,标签在该属性下发生概率越高,tf值越高;(n-α)为惩罚项系数,α默认为1,即不惩罚,推荐区间0≤α≤1;β为削弱每个属性内热门标签的权重,默认为1,即不削弱,推荐区间1≤β≤2;α值越大,对热度惩罚越小,打分大众化;α值越小,对热度惩罚越大,打分个性化;β值越大,对热度削弱越强,打分个性化;β值越小,对热度削弱越弱,打分大众化。
5.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的热门内容是统计用户专辑点击的行为数据,然后离线模型训练子***计算得出每个小时、每个内容分类的重要性,通过如下公式进行:
TF计算式的分子代表某个内容分类在某个小时出现的次数,分母代表该小时内容分类总数;IDF计算式的幂的分子代表一天总的小时数,为24,分母代表包含该内容分类的小时数+1。
6.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的候选集排序,是通过离线模型训练子***,在用户正向反馈行为较少的初期,利用用户画像,将得出的内容标签权重作为整体排序的依据,后期随着正向反馈数据的增加,可以使用点击率预估模型,自动学习候选集的比例和最终排序。
7.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***,其特征在于,所述的在线内容投放子***根据离线模型训练子***的计算结果,进行在线内容投放,其分为召回和排序两个环节;召回是从存储***中,获取离线模型训练子***的离线模型计算出的各种候选集,然后根据所得的离线数据统计来计算各个候选集的占比;排序是获取当前用户相关信息和离线计算的中间数据,提取特征,经过模型计算出用户最有可能喜欢的内容排序,投放最终的结果。
CN201911235384.4A 2019-12-05 2019-12-05 一种用于车载场景下的流式收听音频内容的推荐*** Active CN111026906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235384.4A CN111026906B (zh) 2019-12-05 2019-12-05 一种用于车载场景下的流式收听音频内容的推荐***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235384.4A CN111026906B (zh) 2019-12-05 2019-12-05 一种用于车载场景下的流式收听音频内容的推荐***

Publications (2)

Publication Number Publication Date
CN111026906A CN111026906A (zh) 2020-04-17
CN111026906B true CN111026906B (zh) 2023-12-08

Family

ID=70207681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235384.4A Active CN111026906B (zh) 2019-12-05 2019-12-05 一种用于车载场景下的流式收听音频内容的推荐***

Country Status (1)

Country Link
CN (1) CN111026906B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723234A (zh) * 2020-06-15 2020-09-29 中国第一汽车股份有限公司 一种音频提供方法、装置、设备及存储介质
CN111767430B (zh) * 2020-06-30 2021-05-25 平安国际智慧城市科技股份有限公司 视频资源推送方法、视频资源推送装置及存储介质
CN113535700A (zh) * 2021-07-19 2021-10-22 福建凯米网络科技有限公司 一种数字视听场所用户信息更新方法及计算机可读存储介质
CN113626539A (zh) * 2021-08-13 2021-11-09 深圳墨世科技有限公司 一种用户行为数据统计方法、服务器和客户端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326277A (zh) * 2015-06-30 2017-01-11 上海证大喜马拉雅网络科技有限公司 一种基于用户行为的音频个性化推荐方法和***
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016201631A1 (en) * 2015-06-17 2016-12-22 Yahoo! Inc. Systems and methods for online content recommendation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326277A (zh) * 2015-06-30 2017-01-11 上海证大喜马拉雅网络科技有限公司 一种基于用户行为的音频个性化推荐方法和***
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法

Also Published As

Publication number Publication date
CN111026906A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111026906B (zh) 一种用于车载场景下的流式收听音频内容的推荐***
US20210141837A1 (en) Method and System for Managing Item Distributions
US10579646B2 (en) Systems and methods for classifying electronic documents
US11570512B2 (en) Watch-time clustering for video searches
US7921069B2 (en) Granular data for behavioral targeting using predictive models
US9760907B2 (en) Granular data for behavioral targeting
US20130262966A1 (en) Digital content reordering method and digital content aggregator
US20120158843A1 (en) Techniques for improving relevance of social updates distributed offline
KR20160058896A (ko) 소셜 커뮤니케이션 데이터를 분석하고 송신하는 시스템 및 방법
CN110717093B (zh) 一种基于Spark的电影推荐***及方法
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
US20150142486A1 (en) Systems and methods for cloud-based digital asset management
CN102693252A (zh) 用于高效地向设备用户提供娱乐推荐的***和方法
US11494811B1 (en) Artificial intelligence prediction of high-value social media audience behavior for marketing campaigns
CN103700004A (zh) 一种微博广告服务信息推送方法及装置
CN113852864A (zh) 一种面向iptv终端应用的用户定制化服务推荐方法及***
Chauhan et al. Customer-Aware Recommender System for Push Notifications in an e-commerce Environment
WO2014014473A1 (en) Method and system for predicting association item affinities using second order user item associations
EP3114846B1 (en) Character based media analytics
US11928606B2 (en) Systems and methods for classifying electronic documents
Hu et al. A fast linear computational framework for user action prediction in tencent MyApp
CN117993978A (zh) 一种互联网大数据信息处理***
CN116910378A (zh) 视频推荐***、方法及计算机存储介质
CN114036396A (zh) 内容处理方法、装置、存储介质及电子设备
CN114254202A (zh) 基于大数据的媒体智能推荐***、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210616

Address after: Room 316, building 4, 2 Fuxingmenwai street, Xicheng District, Beijing

Applicant after: CCTV new media culture media (Beijing) Co.,Ltd.

Address before: 100089 0900, 9th floor, No.65, North Fourth Ring Road West, Haidian District, Beijing

Applicant before: Internet (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: Room 168, Floor 1, Building 3, No. 20 Yong'an Road, Shilong Economic Development Zone, Mentougou District, Beijing, 102308

Applicant after: Yangguang Yunting Cultural Media Co.,Ltd.

Address before: Room 316, building 4, 2 Fuxingmenwai street, Xicheng District, Beijing

Applicant before: CCTV new media culture media (Beijing) Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20231008

Address after: 201203, 2nd Floor, Building 13, No. 27 Xinjinqiao Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Zhongguang Intelligent Connected Vehicle Digital Media (Shanghai) Co.,Ltd.

Address before: Room 168, Floor 1, Building 3, No. 20 Yong'an Road, Shilong Economic Development Zone, Mentougou District, Beijing, 102308

Applicant before: Yangguang Yunting Cultural Media Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant