CN111026906B

CN111026906B - 一种用于车载场景下的流式收听音频内容的推荐***

Info

Publication number: CN111026906B
Application number: CN201911235384.4A
Authority: CN
Inventors: 俞清木
Original assignee: Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd
Current assignee: Zhongguang Intelligent Connected Vehicle Digital Media Shanghai Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-12-08
Anticipated expiration: 2039-12-05
Also published as: CN111026906A

Abstract

本发明公开了一种用于车载场景下的流式收听音频内容的推荐***，该***包含实时数据收集子***、离线模型训练子***和在线内容投放子***；实时数据收集子***收集相关信息，录入到存储***，离线模型训练子***根据录入存储***的原始数据，计算离线模型数据，最后由在线内容投放子***根据离线模型数据进行投放。本发明提供的用于车载场景下的流式收听音频内容的推荐***，解决了车载场景下，用户主动行为数据稀疏的问题；采用电台模式，流式收听，减少了对驾驶员的影响；而且融合了汽车信息和场景信息，使得推荐出来的音频内容更符合车载特性。

Description

一种用于车载场景下的流式收听音频内容的推荐***

技术领域

本发明涉及一种在车载场景下针对不同用户提供个性化不间断的音频内容的***，具体地，涉及一种用于车载场景下的流式收听音频内容的推荐***。

背景技术

随着互联网的快速发展，信息过载日益严重，推荐***是解决上述问题的重要手段之一。目前推荐技术基本都是服务于手机和PC这种强交互方式的产品，而车载场景，有其独有的特性，导致现有推荐技术存在很多问题：

1.手机和PC上，用户都是注意力很集中，主动对推荐结果进行显式或者隐式反馈，例如打分、点赞、点击播放等。而在车载场景下，用户注意力在开车，都是伴随式被动收听内容，用户行为数据很稀疏。

2.现有的推荐技术主要服务于点播形式的产品，而车载场景下是需要流式持续收听，减少对驾驶的影响。

3.现有的推荐技术基于用户信息和行为数据。而车载场景下，需要融合汽车信息(例如路况、车速等)和场景信息(上下班、出游、午夜长途等)。

发明内容

本发明的目的是提供一种在车载场景下针对不同用户提供个性化不间断的音频内容的***，能够解决现有问题，利用大数据和专家知识解决了车载场景下，用户主动行为数据稀疏的问题。

为了达到上述目的，本发明提供了一种用于车载场景下的流式收听音频内容的推荐***，配合客户端、服务器、本地文件***以及存储***使用，其中，所述的推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***；所述的实时数据收集子***收集相关信息，录入到存储***，离线模型训练子***根据录入存储***的原始数据，计算离线模型数据，最后由在线内容投放子***根据离线模型数据进行投放；所述的相关信息包含用户行为数据、汽车信息、场景信息。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的离线模型训练子***的运行过程包含候选集生成和候选集排序两个环节，候选集生成分为用户主动行为和离线模型计算，候选集排序是计算用户对候选集喜欢的程度。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的用户主动行为是用户通过相应的产品形式，主动填写喜好的内容标签，包含自定义播单、兴趣选择；自定义播单在产品界面展示，由用户自己定义播单内容，播单内容基于内容分类、内容标签、内容关键词；兴趣选择是由用户在注册激活的界面，选择自己的感兴趣的内容标签。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的离线模型计算是离线模型训练子***通过算法分析数据，从而得出用户会喜欢的内容标签，数据包含用户信息、用户行为、汽车信息和场景信息；离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的追剧是由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析，其过程为：首先按照每个用户唯一标示进行分组，保留连续收听类型节目的收听记录，按照时间倒序，再保留最近三个月的收听过的节目列表，从中查询每一个节目的下一个内容，最终将结果进行储存。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的用户画像是首先获取用户行为数据和音频信息，再由离线模型训练子***将两类数据根据音频唯一标示，进行关联，然后按照每个用户进行分组，计算每个用户的用户画像，通过用户标签权重＝行为类型权重*时间衰减*TF-IDF，计算得到每个用户身上的标签权重*行为次数；用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈；音频信息包含时长、所属专辑、专辑的标签、所属分类；用户画像标签权重的公式为：norm(W_behavior*F_t*C*TF*IDF)，其中行为类型权重W_behavior{订阅：5，播放列表点击：1.4*R，搜索：1.3*R，专辑点播：1.2*R，下一首：1*R，负反馈：0.1}，专辑完播率R＝∑PlayTime_audio/∑Duration_audio；时间衰减F_t＝max(1，1*e^{-0.8*max(0，(now-playtime)/(24*3600))})，now为当前时间，playtime为行为发生的时间，单位ms；行为次数C，按天计算，是同一种行为类型针对同一个专辑的次数；标签重要性TF计算式的分子表示某标签在用户上出现的次数，分母表示用户标签总数，IDF计算式的幂的分子表示用户总数，分母表示包含某标签的用户数+1。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息，以及运营经验，离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度，通过如下公式进行：即已知用户属性u1,u2,……,un，计算用户喜欢标签l的相对概率；N，n分别为数据总数，标签l被“喜欢”的频数；Ni，ni分别为在属性i下的数据总数，标签l被“喜欢”的频数；类似于tf-idf，第一项为惩罚项，标签热度越高，该值越低(idf)。第二项为条件概率的求和，标签在该属性下发生概率越高，该值越高(tf)；(n-α)为惩罚项系数，α默认为1(不惩罚)，推荐区间0≤α≤1；β为削弱每个属性内热门标签的权重，默认为1(不削弱)，推荐区间1≤β≤2；α值越大，对热度惩罚越小，打分大众化；α值越小，对热度惩罚越大，打分个性化；β值越大，对热度削弱越强，打分个性化；β值越小，对热度削弱越弱，打分大众化。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的热门内容是统计用户专辑点击的行为数据，离线模型训练子***计算得出每个小时、每个内容分类的重要性，通过如下公式进行：TF计算式的分子代表某个内容分类在某个小时出现的次数，分母代表该小时内容分类总数；IDF计算式的幂的分子代表一天总的小时数，为24，分母代表包含该内容分类的小时数+1。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的候选集排序，是通过离线模型训练子***，在用户正向反馈行为较少的初期，利用用户画像，将得出的内容标签权重作为整体排序的依据，后期随着正向反馈数据的增加，可以使用点击率预估模型，自动学习候选集的比例和最终排序。

上述的用于车载场景下的流式收听音频内容的推荐***，其中，所述的在线内容投放子***根据离线模型训练子***的计算结果，进行在线内容投放，其分为召回和排序两个环节；召回是从存储***中，获取离线模型训练子***的离线模型计算出的各种候选集，然后根据所得的离线数据统计来计算各个候选集的占比；排序是获取当前用户相关信息和离线计算的中间数据，提取特征，经过模型计算出用户最有可能喜欢的内容排序，投放最终的结果。

本发明提供的用于车载场景下的流式收听音频内容的推荐***具有以下优点：

1.本***采用流式收听，减少了驾驶员在驾驶过程中，过多的交互操作，更降低了交通事故发生的风险。

2.解决车载场景下流式收听，用户主动行为数据稀疏的问题。产品上，引导用户自定义播单，注册的时候选择喜好的内容标签，再结合订阅、点击行为、搜索、负反馈等等，多维度收集用户行为数据。算法上，通过收集种子用户的用户属性，以及自定义播单，建立模型，计算用户属性和内容标签的喜好程度，实现了用户属性推荐；按照小时维度，计算内容分类的重要性，实现热门推荐。

3.前期正向反馈数据比较稀疏，可以采用用户画像的内容标签权重，作为结果排序的标准。当用户对***推荐出的内容，产生的正向反馈的量级达到一定程序(通常为特征量级的10倍左右)，可以采用监督学习模型——点击率预估，来优化推荐结果的排序。

4.在算法建模上，除了用户和内容相关的信息，还融合了汽车和场景信息，使得推荐的内容更加适合车载场景。

附图说明

图1为本发明的用于车载场景下的流式收听音频内容的推荐***的架构示意图。

图2为本发明的用于车载场景下的流式收听音频内容的推荐***的点击率预估排序模型图。

图3为本发明的用于车载场景下的流式收听音频内容的推荐***的召回流程图。

具体实施方式

以下结合附图对本发明的具体实施方式作进一步地说明。

本发明提供了一种用于车载场景下的流式收听音频内容的推荐***，配合客户端、服务器、本地文件***以及存储***使用，该推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***。存储***包含分布式缓存子***，倒排索引子***，关系型数据库子***，分布式文件子***。该推荐***还依赖中间件服务***，中间件服务***包含基于Actor模型的异步通信子***，分布式实时处理子***，分布式计算子***，实时日志收集子***。参见图1所示。

实时数据收集子***通过客户端程序收集相关信息，并把相关信息上报到httpweb服务器，然后由http web服务器记录到本地文件***中，再由实时日志收集子***进行信息补全、拆分、清洗等操作之后，录入到存储***的分布式文件子***，离线模型训练子***根据这些录入存储***的原始数据，计算离线模型数据，最后由在线内容投放子***根据离线模型数据进行投放；相关信息包含用户行为数据、汽车信息、场景信息等。

离线模型训练子***的运行过程包含候选集生成和候选集排序两个重要环节，候选集生成分为用户主动行为和离线模型计算，候选集排序是计算用户对候选集喜欢的程度。

用户主动行为是用户通过相应的产品形式，主动填写喜好的内容标签，包含自定义播单、兴趣选择；自定义播单在产品界面展示，由用户自己定义播单内容，播单内容基于内容分类、内容标签、内容关键词；兴趣选择是由用户在注册激活的界面，选择自己的感兴趣的内容标签。

离线模型计算是离线模型训练子***通过算法分析数据，从而得出用户会喜欢的内容标签，数据包含用户信息、用户行为、汽车信息和场景信息等；离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成。

追剧是利用分布式计算子***，由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析，其过程为：首先按照每个用户唯一标示进行分组，保留连续收听类型节目的收听记录(例如小说)，按照时间倒序，再保留最近三个月的收听过的节目列表，从中查询每一个节目的下一个内容，最终将计算出的结果存入倒排索引子***进行储存。

用户画像是首先从分布式文件子***获取用户行为数据，同时从关系型数据库子***获取音频信息，再由离线模型训练子***将两类数据根据音频唯一标示，进行关联，然后按照每个用户进行分组，计算每个用户的用户画像，通过用户标签权重＝行为类型权重*时间衰减*TF-IDF，计算得到每个用户身上的标签权重*行为次数；用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈等；音频信息包含时长、所属专辑、专辑的标签、所属分类等；用户画像标签权重的公式为：norm(W_behavior*F_t*C*TF*IDF)，其中行为类型权重W_behavior{订阅：5，播放列表点击：1.4*R，搜索：1.3*R，专辑点播：1.2*R，下一首：1*R，负反馈：0.1}，专辑完播率R＝∑PlayTime_audio/∑Duration_audio时间衰减F_t＝max(1，1*e^{-0.8*max(0，(now-playtime)/(24*3600))})，now为当前时间，playtime为行为发生的时间，单位ms；行为次数C，按天计算，是同一种行为类型针对同一个专辑的次数；标签重要性TF计算式的分子表示某标签在用户上出现的次数，分母表示用户标签总数，IDF计算式的幂的分子表示用户总数，分母表示包含某标签的用户数+1。

用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息，例如通过微信小程序收集，以及运营经验，离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度，通过如下公式进行：即已知用户属性u1，u2，……，un，计算用户喜欢标签1的相对概率；过程如下：

独立行假设

P(u₁u₂…u_n|l＝1)＝P(u₁|l＝1)P(u₂|l＝1)…P(u_n|l＝1)

贝叶斯公式

得出

设定

P(l＝1)＝p，P(l＝0)＝1-p，P(l＝1|u_i)＝q_i，P(l＝0|u_i)＝1-q_i

最终得出

N，n分别为数据总数，标签1被“喜欢”的频数；Ni，ni分别为在属性i下的数据总数，标签1被“喜欢”的频数；类似于tf-idf，第一项为惩罚项，标签热度越高，该值越低(idf)。第二项为条件概率的求和，标签在该属性下发生概率越高，该值越高(tf)；(n-α)为惩罚项系数，α默认为1(不惩罚)，推荐区间0≤α≤1；β为削弱每个属性内热门标签的权重，默认为1(不削弱)，推荐区间1≤β≤2；α值越大，对热度惩罚越小，打分大众化；α值越小，对热度惩罚越大，打分个性化；β值越大，对热度削弱越强，打分个性化；β值越小，对热度削弱越弱，打分大众化。

热门内容是统计用户专辑点击的行为数据，离线模型训练子***计算得出每个小时、每个内容分类的重要性，通过如下公式进行：

TF计算式的分子代表某个内容分类在某个小时出现的次数，分母代表该小时内容分类总数；IDF计算式的幂的分子代表一天总的小时数，为24，分母代表包含该内容分类的小时数+1。

候选集排序，是通过离线模型训练子***，在用户正向反馈行为较少的初期，可以利用用户画像，将得出的内容标签权重作为整体排序的依据，后期随着正向反馈数据的增加，可以使用点击率预估模型，自动学习候选集的比例和最终排序。点击率预估模型排序的过程包含：搜集用户行为数据和业务内容数据，由离线模型训练子***提取特征，包括场景特征、汽车特征、用户特征、内容特征等，然后将特征进行离散化，再将特征进行热编码，写入存储***，同时使用逻辑回归训练数据，并加入对推荐结果的行为数据，得出模型数据，也写入存储***，然后从存储***读取特征和模型数据，实时计算推荐候选结果的点击率，最后按照点击率排序推荐结果。参见图2所示。

在线内容投放子***基于Actor模型的异步通信子***，构建高性能、高可用的分布式应用。该在线内容投放子***根据离线模型训练子***的计算结果，进行在线内容投放，其整体分为召回和排序两个环节；召回是从存储***的分布式缓存子***、倒排索引子***和关系式数据库子***中，获取离线模型训练子***的离线模型计算出的各种候选集，然后根据所得的离线数据统计来计算各个候选集的占比；具体流程包含：首先由用户访问用户自定义播单，如果有则进入用户追剧，追剧按照时间倒序占比不超过50％，然后将追剧和自定义播单相结合；如果无则转入其它策略，确定自选内容标签、用户追剧、用户画像、用户属性、默认播单等候选集权重，初始化权重设置为自选内容标签4、用户追剧2、用户画像2、用户属性1、默认播单1等，权重表示各个候选集之间的比例关系，默认顺序也是按照自选内容标签、用户追剧、用户画像、用户属性、默认播单等，综合人工设置各个候选集权重，权重更改后即时生效。参见图3所示。排序是从分布式实时处理子***、分布式缓存子***、倒排索引子***和关系式数据库子***中，获取当前用户相关信息和离线计算的中间数据，提取特征，经过模型计算出用户最有可能喜欢的内容排序，投放最终的结果。

下面结合实施例对本发明提供的用于车载场景下的流式收听音频内容的推荐***做更进一步描述。

实施例1

一种用于车载场景下的流式收听音频内容的推荐***，配合客户端、服务器、本地文件***以及存储***使用。该推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***。

1.实时收集子***。客户端收集音频播放行为数据，上报到nginx web服务器上。由日志收集子***flume，收集汇总，进行专辑信息的补充，按照时间存储到分布式存储子***hdfs上。Nginx(engine x)是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的***。Hdfs(Hadoop分布式文件***)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件***(Distributed File System)。

2.离线模型训练子***。

(1)追剧。

编写分布式计算程序MapReduce。任务1的map读取最近三个月的用户收听记录，保留分类为小说的；按照用户唯一标示进行分组，提供给reduce；reduce按照时间对数据进行降序，保留每个专辑最新时间的收听记录。任务2读取任务1的数据，再加上专辑的所有音频信息；map按照专辑唯一标示进行分组，提供给reduce；reduce计算收听历史中音频内容的下一集。任务3map读取任务2的数据，按照用户唯一标示进行分组；reduce把分组后的数据存入倒排索引子***elasticsearch。MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。elasticsearch是一个基于Lucene的搜索服务器。

(2)用户画像计算。

首先对原始数据进行清洗：播放结束事件数据与业务库中音频信息通过音频唯一标示进行关联；新数据与历史数据通过用户唯一标示进行合并；合并后的数据按照用户唯一标示和专辑唯一标示，计算每个音频播放时长的衰减权重，并进行累加；最后按照累加的衰减权重降序排列。

计算用户标签：获取标签黑名单、专辑信息(包括内容分类和标签)，对专辑标签进行黑名单过滤，剔除包含黑标签的专辑。上一步数据清洗后的数据，根据专辑唯一标示进行关联合并。针对每一个用户下的每一个专辑标签进行衰减权重的累加，然后通过归一化公式，计算最终权重。

(3)热门推荐，即用户属性推荐和热门内容。

收集用户专辑点击的数据，统计每个分类在每个小时的专辑点击数量，除以该小时所有的分类数量，商作为tf。24除以每个分类在出现小时数+1的和，计算以10为底数商的对数，作为idf。tf乘以idf，作为某个分类在某小时的重要性。然后再把各个分类按照娱乐、知识、生活、资讯方式，重新划分，计算每个大类在每个小时的重要性。数据都保存到倒排索引子***elasticsearch中。在线投放子***每个小时推荐的内容，先召回重要性最高的大类，然后按照分类重要性归一化处理，进行配比，提高召回率。

3.在线内容投放子***。用户请求子***服务接口，传入用户唯一标示uid，***根据uid获取自定义播单，追剧，自选内容标签，用户画像，用户属性。如果存在用户自定义播单，通过播单保存的专辑标签，从倒排索引子***Elasticsearch中获取相关专辑，结合追剧构成候选集。如果不包含用户自定义播单，通过用户属性和用户属性推荐模型，得到用户会喜欢的专辑标签，加上自选内容标签、用户画像以及热门标签，从elasticsearch中获取相关专辑，构成候选集。各个候选集按照各自权重进行数量分配。最后按照用户画像的标签权重做排序，推荐出去。

本发明提供的用于车载场景下的流式收听音频内容的推荐***，是在车载场景下针对不同用户提供的个性化不间断的音频内容的***和方法，利用大数据和专家知识解决了车载场景下，用户主动行为数据稀疏的问题。采用电台模式，流式收听，减少了对驾驶员的影响。而且融合了汽车信息和场景信息，使得推荐出来的音频内容更符合车载特性。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种用于车载场景下的流式收听音频内容的推荐***，配合客户端、服务器、本地文件***以及存储***使用，其特征在于，所述的推荐***包含实时数据收集子***、离线模型训练子***和在线内容投放子***；所述的实时数据收集子***收集相关信息，录入到存储***，离线模型训练子***根据录入存储***的原始数据，计算离线模型数据，最后由在线内容投放子***根据离线模型数据进行投放；所述的相关信息包含用户行为数据、汽车信息、场景信息；

所述的离线模型训练子***的运行过程包含候选集生成和候选集排序两个环节，候选集生成分为用户主动行为和离线模型计算，候选集排序是计算用户对候选集喜欢的程度；

所述的离线模型计算是离线模型训练子***通过算法分析数据，从而得出用户会喜欢的内容标签，数据包含用户信息、用户行为、汽车信息和场景信息；离线模型计算由追剧、用户画像、用户属性推荐、热门内容四部分组成；

所述的用户画像是首先获取用户行为数据和音频信息，再由离线模型训练子***将两类数据根据音频唯一标示，进行关联，然后按照每个用户进行分组，计算每个用户的用户画像，通过用户标签权重＝行为类型权重*时间衰减*TF-IDF，计算得到每个用户身上的标签权重*行为次数；用户行为数据包含音频收听时长、订阅、点击播单列表、搜索点击、专辑点播、下一首、负反馈；音频信息包含时长、所属专辑、专辑的标签、所属分类；用户画像标签权重的公式为：norm(W_behavior*Ft*C*TF*IDF)，其中行为类型权重W_behavior{订阅：5，播放列表点击：1.4*R，搜索：1.3*R，专辑点播：1.2*R，下一首：1*R，负反馈：0.1}，专辑完播率R＝∑PlayTime_audio/∑Duration_audio；时间衰减F_t＝max(1，1*e^{-0.8*max(0,(now-playtime)/(24*3600))})，now为当前时间，playtime为行为发生的时间，单位ms；行为次数C，按天计算，是同一种行为类型针对同一个专辑的次数；标签重要性 TF计算式的分子表示某标签在用户上出现的次数，分母表示用户标签总数，IDF计算式的幂的分子表示用户总数，分母表示包含某标签的用户数+1。

2.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的用户主动行为是用户通过相应的产品形式，主动填写喜好的内容标签，包含自定义播单、兴趣选择；自定义播单在产品界面展示，由用户自己定义播单内容，播单内容基于内容分类、内容标签、内容关键词；兴趣选择是由用户在注册激活的界面，选择自己的感兴趣的内容标签。

3.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的追剧是由离线模型训练子***针对存储***内存储的用户收听历史记录进行分析，其过程为：首先按照每个用户唯一标示进行分组，保留连续收听类型节目的收听记录，按照时间倒序，再保留最近三个月的收听过的节目列表，从中查询每一个节目的下一个内容，最终将结果进行储存。

4.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的用户属性推荐是基于所收集的种子用户的属性和自定义播单的信息，以及运营经验，离线模型训练子***计算得出不同属性的用户对播单内容的喜好程度，通过如下公式进行：即已知用户属性u₁,u₂,…,u_n，计算用户喜欢标签l的相对概率；N，n分别为数据总数，标签l被“喜欢”的频数；N_i，n_i分别为在属性i下的数据总数，标签l被“喜欢”的频数；类似于tf-idf，第一项为惩罚项，标签热度越高，idf值越低；第二项为条件概率的求和，标签在该属性下发生概率越高，tf值越高；(n-α)为惩罚项系数，α默认为1，即不惩罚，推荐区间0≤α≤1；β为削弱每个属性内热门标签的权重，默认为1，即不削弱，推荐区间1≤β≤2；α值越大，对热度惩罚越小，打分大众化；α值越小，对热度惩罚越大，打分个性化；β值越大，对热度削弱越强，打分个性化；β值越小，对热度削弱越弱，打分大众化。

5.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的热门内容是统计用户专辑点击的行为数据，然后离线模型训练子***计算得出每个小时、每个内容分类的重要性，通过如下公式进行：

6.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的候选集排序，是通过离线模型训练子***，在用户正向反馈行为较少的初期，利用用户画像，将得出的内容标签权重作为整体排序的依据，后期随着正向反馈数据的增加，可以使用点击率预估模型，自动学习候选集的比例和最终排序。

7.如权利要求1所述的用于车载场景下的流式收听音频内容的推荐***，其特征在于，所述的在线内容投放子***根据离线模型训练子***的计算结果，进行在线内容投放，其分为召回和排序两个环节；召回是从存储***中，获取离线模型训练子***的离线模型计算出的各种候选集，然后根据所得的离线数据统计来计算各个候选集的占比；排序是获取当前用户相关信息和离线计算的中间数据，提取特征，经过模型计算出用户最有可能喜欢的内容排序，投放最终的结果。