CN108810577B

CN108810577B - 一种用户画像的构建方法、装置及电子设备

Info

Publication number: CN108810577B
Application number: CN201810622106.3A
Authority: CN
Inventors: 徐佳宏; 杜志平; 蒋志伟; 任俊松; 成学文; 孙航
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2021-02-09
Anticipated expiration: 2038-06-15
Also published as: CN108810577A

Abstract

本发明提供了一种用户画像的构建方法、装置及电子设备，通过利用随机算法，从全部节目中抽取出预设数量的节目作为待标记节目，并在接收到对待标记节目进行标签标记后所生成的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，进而将标记节目的标签作为对应相似节目名集合中每个相似节目的标签，再基于由进行了标签标记的标记节目和相似节目组成的节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像；可见，基于训练生成的词向量数据，能够将少量标记节目的标签自动扩展为与之相似的每个相似节目的标签，从而实现对大量节目的标签标记，缩减了人工标记的节目数量，进而提高了构建效率。

Description

一种用户画像的构建方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，更具体的说，是涉及一种用户画像的构建方法、装置及电子设备。

背景技术

随着互联网技术的迅猛发展，适用于用户线上活动的各类平台应运而生。平台为了向用户提供精准推荐服务，通常以构建用户画像的方式，来了解用户的行为习惯、消费习惯等信息。其中，用户画像是通过将收集到的用户信息分类并进行标签化，从而抽象得出的用户模型，例如一个用户的用户画像可以包括爱情、喜剧、中国、时尚等标签。

目前，现有的用户画像的构建方法主要是先对平台内可供推荐的全部节目进行人工标记，令每个节目生成各自的节目标签，之后获取用户的历史浏览节目，进而将节目标签和用户的历史浏览节目作为统计数据，通过统计和机器学***台内可供推荐的全部节目进行人工标记，从而增加了构建所需的时间与人力，降低了构建效率。

发明内容

有鉴于此，本发明提供了一种用户画像的构建方法、装置及电子设备，缩减了人工参与环节，进而提高了构建效率。

为实现上述目的，本发明提供如下技术方案：

一种用户画像的构建方法，包括：

获取平台内的全部节目及对应的节目属性；

利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目；

在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，所述标记节目是对所述待标记节目进行标签标记后生成的，所述词向量数据是对获取的平台内的全部所述节目及对应的节目属性进行词向量训练所生成的；

将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记；

将进行了标签标记的所述标记节目和所述相似节目作为节目查找集合中的标准节目，并基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。

优选地，所述词向量数据的训练生成过程包括：

对获取的所述平台内的每个所述节目的节目属性进行分词处理，获得每个所述节目的属性分词，每个所述节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

将获得的每个所述节目的属性分词输入到词向量训练模型库进行训练，生成包括每个所述节目的节目名相似度值集合的所述词向量数据，每个所述节目的节目名相似度值集合包括对应节目的节目名与除所述节目名之外的其他属性分词之间的相似度值。

优选地，所述词向量数据的训练生成过程还包括：

当所述平台的节目数量增加时，获取新增节目及对应的节目属性；

对获取的每个所述新增节目的节目属性进行分词处理，获得每个所述新增节目的属性分词，每个所述新增节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

利用所述词向量训练模型库，将获得的每个所述新增节目的属性分词与所述词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的所述词向量更新数据，所述节目和所述新增节目作为所述更新节目组中的更新节目，每个所述更新节目的节目名相似度值集合包括对应更新节目的节目名与除所述节目名之外的其他属性分词之间的相似度值；

将所述词向量数据更新为所述词向量更新数据。

优选地，所述基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，包括：

针对每个所述标记节目：

从所述词向量数据中匹配出所述标记节目对应的节目名相似度值集合；

对匹配出的所述节目名相似度值集合中的相似度值进行降序排列，并筛选出位于预设排列位置之前的相似度值，作为匹配集合；

从所述匹配集合中确定出对应属性分词为节目名的相似度值，并将确定出的所述相似度值对应的属性分词作为所述标记节目的相似节目名集合中的相似节目。

优选地，所述基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像，包括：

从所述节目查找集合中查找出与所述用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目；

将查找到的所述标准节目的标签设为对应的历史观看节目的标签；

计算每个所述历史观看节目的标签权重；

将所述历史观看节目的标签和标签权重作为所述用户画像。

一种用户画像的构建装置，包括：

第一获取模块，用于获取平台内的全部节目及对应的节目属性；

抽取模块，用于利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目；

确定模块，用于在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，所述标记节目是对所述待标记节目进行标签标记后生成的，所述词向量数据是对获取的平台内的全部所述节目及对应的节目属性进行词向量训练所生成的；

第一标签标记模块，用于将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记；

标签查找模块，用于将进行了标签标记的所述标记节目和所述相似节目作为节目查找集合中的标准节目，并基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。

优选地，所述构建装置还包括：

第一分词处理模块，用于对获取的所述平台内的每个所述节目的节目属性进行分词处理，获得每个所述节目的属性分词，每个所述节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

训练模块，用于将获得的每个所述节目的属性分词输入到词向量训练模型库进行训练，生成包括每个所述节目的节目名相似度值集合的所述词向量数据，每个所述节目的节目名相似度值集合包括对应节目的节目名与除所述节目名之外的其他属性分词之间的相似度值。

优选地，所述构建装置还包括：

第二获取模块，用于当所述平台的节目数量增加时，获取新增节目及对应的节目属性；

第二分词处理模块，用于对获取的每个所述新增节目的节目属性进行分词处理，获得每个所述新增节目的属性分词，每个所述新增节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

数据嵌入模块，用于利用所述词向量训练模型库，将获得的每个所述新增节目的属性分词与所述词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的所述词向量更新数据，所述节目和所述新增节目作为所述更新节目组中的更新节目，每个所述更新节目的节目名相似度值集合包括对应更新节目的节目名与除所述节目名之外的其他属性分词之间的相似度值；

更新模块，用于将所述词向量数据更新为所述词向量更新数据。

优选地，所述确定模块包括：

匹配单元，用于针对每个所述标记节目，从所述词向量数据中匹配出所述标记节目对应的节目名相似度值集合；

筛选单元，用于对匹配出的所述节目名相似度值集合中的相似度值进行降序排列，并筛选出位于预设排列位置之前的相似度值，作为匹配集合；

确定单元，用于从所述匹配集合中确定出对应属性分词为节目名的相似度值，并将确定出的所述相似度值对应的属性分词作为所述标记节目的相似节目名集合中的相似节目。

优选地，所述标签查找模块包括：

查找单元，用于从所述节目查找集合中查找出与所述用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目；

标签设置单元，用于将查找到的所述标准节目的标签设为对应的历史观看节目的标签；

计算单元，用于计算每个所述历史观看节目的标签权重；

选择单元，用于将所述历史观看节目的标签和标签权重作为所述用户画像。

一种电子设备，包括存储器和处理器；

其中，所述存储器，用于存储程序；

所述处理器，用于调用所述程序，并用于：

获取平台内的全部节目及对应的节目属性，利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目，在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，所述标记节目是对所述待标记节目进行标签标记后生成的，所述词向量数据是对获取的平台内的全部所述节目及对应的节目属性进行词向量训练所生成的，将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记，将进行了标签标记的所述标记节目和所述相似节目作为节目查找集合中的标准节目，并基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种用户画像的构建方法、装置及电子设备，通过利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目，并在接收到对待标记节目进行标签标记后所生成的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，进而将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，以实现对全部节目的标签标记，之后，基于由进行了标签标记的标记节目和相似节目组成的节目查找集合，对用户历史观看节目集合进行标签查找，以获得作为用户画像的用户标签；可见，基于训练生成的词向量数据，能够将进行了标签标记的少量标记节目的标签自动扩展为与之相似的每个相似节目的标签，从而实现对大量节目的标签标记，缩减了人工标记的节目数量，进而提高了构建效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种用户画像的构建方法的方法流程图；

图2为本发明实施例提供的一种词向量数据的训练生成方法的方法流程图；

图3为本发明实施例提供的另一种词向量数据的训练生成方法的方法流程图；

图4为本发明实施例提供的一种相似节目名集合的确定方法的方法流程图；

图5为本发明实施例提供的一种用户画像的获取方法的方法流程图；

图6为本发明实施例提供的一种用户画像的构建装置的结构示意图；

图7为本发明实施例提供的另一种用户画像的构建装置的结构示意图；

图8为本发明实施例提供的另一种用户画像的构建装置的结构示意图；

图9为本发明实施例提供的一种确定模块的结构示意图；

图10为本发明实施例提供的一种标签查找模块的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种用户画像的构建方法，请参见附图1，所述方法具体包括以下步骤：

S101：获取平台内的全部节目及对应的节目属性；

具体的，平台可以为提供商品推荐服务的电商平台、提供视频推荐服务的媒资平台、提供广告推荐服务的广告投放平台等。相应的，平台内的节目为平台所能推荐的服务，如平台为“媒资平台”，则平台内的节目为“媒资平台”所能推荐的“视频节目”。

平台内的每个节目均具有用于描述其特征的节目属性；而每个节目的节目属性可以通过具有资质的提供商所提供的相关数据来获取，也可以通过互联网爬取相关数据来获取，还可以通过人工编辑来获取。

S102：利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目；

具体的，随机算法是一种令抽取的物体具备随机性的算法，主要用于抽取预设数量的节目，作为待进行标签标记的待标记节目，从而在简化抽取过程的基础上，确保抽取出的少量节目在全部节目中的分散随机性。

预设数量可以是预先设定的数值，如100个、300个等。

S103：在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，标记节目是对待标记节目进行标签标记后生成的，词向量数据是对获取的平台内的全部节目及对应的节目属性进行词向量训练所生成的；

具体的，标记节目组中的标记节目是对待标记节目进行标签标记后所生成的携带有标签的待标记节目。

待标记节目所携带的标签可以是预先依据业务切分维度、服务层次维度和用户标签维度所设定的。其中，业务切分维度可以包括用户细分，产品优化，渠道扩展，运营提升，诚信服务，风险防范等业务的不同阶段。服务层次维度可以包括基础标签层，推荐服务层，数据运营层等。用户标签维度可以包括用户细化阶段中的用户基本属性信息，比如人工统计数据，地域属性等；产品优化阶段中的用户的社会属性，比如家庭成员，子女年龄，职业属性等；渠道扩展阶段中的用户的消费特征，比如用户偏好的节目类型，购买习惯，用户消费的明显特征等；运营提升阶段中的用户的价值属性，如用户的消费档次，用户反馈的活跃度等；诚信服务阶段中的用户的生命周期，从注册到首次付费情况，不同终端的转移使用，流失评分等；风险防范阶段中的用户的积分是否异常，是否为他人购买较多等。

词向量数据是对获取的平台内的全部节目及对应的节目属性进行词向量训练所生成的，实现了对语义相近的词的聚集。

S104：将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个相似节目进行标签标记；

具体的，对每个相似节目进行标签标记的过程具体为：将每个标记节目的标签自动设为与之对应的相似节目名集合中每个相似节目的标签，从而实现了将少量标签标记过的节目的标签自动扩展为与之相似的每个相似节目的标签，以达到缩减人工标记工作量的目的。

S105：将进行了标签标记的标记节目和相似节目作为节目查找集合中的标准节目，并基于节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像；

具体的，节目查找集合是由已进行了标签标记的全部标记节目和全部相似节目所组成的集合。

本发明实施例所公开的一种用户画像的构建方法，通过利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目，并在接收到对待标记节目进行标签标记后所生成的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，进而将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，以实现对全部节目的标签标记，之后，基于由进行了标签标记的标记节目和相似节目组成的节目查找集合，对用户历史观看节目集合进行标签查找，以获得作为用户画像的用户标签；可见，基于训练生成的词向量数据，能够将进行了标签标记的少量标记节目的标签自动扩展为与之相似的每个相似节目的标签，从而实现对大量节目的标签标记，缩减了人工标记的节目数量，进而提高了构建效率。

针对上述附图1所对应实施例中的词向量数据的训练生成过程，本发明实施例公开了一种词向量数据的训练生成方法，请参见附图2，所述方法具体包括以下步骤：

S201：对获取的平台内的每个节目的节目属性进行分词处理，获得每个节目的属性分词，每个节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

具体的，对每个节目的节目属性进行分词处理的方式可以是：分别针对节目属性中的节目名、主演名称、导演名称、关键字、节目摘要，设定与之对应的最小分词单位，进而按照设定的最小分词单位，分别对节目名、主演名称、导演名称、关键字和节目摘要进行分词处理，以提高分词准确性。其中，分词处理后所获得的两个属性分词之间可以采用特殊符号分隔开，如逗号、空格等。

下面针对按照设定的最小分词单位，分别对节目名、主演名称、导演名称、关键字和节目摘要进行分词处理进行举例说明：针对节目名所设定的最小分词单位为“0”，则直接将节目名作为一个单独的属性分词。

S202：将获得的每个节目的属性分词输入到词向量训练模型库进行训练，生成包括每个节目的节目名相似度值集合的词向量数据，每个节目的节目名相似度值集合包括对应节目的节目名与除节目名之外的其他属性分词之间的相似度值；

具体的，节目的节目名相似度值集合包括该节目的节目名与除该节目名之外的其他全部属性分词之间的相似度值，从而节目名相似度值集合能够基于相似度值的大小，体现出对应节目名与其他属性分词之间的相似程度。如相似度值较大，则该节目名与较大相似度值所对应的属性分词的语义较为相似；相反，若相似度值较小，则该节目名与较小相似度值所对应的属性分词的语义相差较远。

相应的，包括了每个节目的节目名相似度值集合的词向量数据能够基于每个节目的节目名相似度值集合，体现出每个节目的节目名与其他属性分词之间的相似程度。

本发明实施例所涉及的词向量训练模型库可以为word2vec模型库。

本发明实施例中，通过将进行了分词处理后所获得的每个节目的属性分词输入到词向量训练模型库进行训练，可以生成包括每个节目的节目名相似度值集合的词向量数据，提高了词向量数据所体现出的每个节目的节目名与其他属性分词之间相似程度的准确性。

在上述附图2所对应实施例的基础上，本发明实施例公开了另一种词向量数据的训练生成方法，请参见附图3，所述方法具体包括以下步骤：

S301：对获取的平台内的每个节目的节目属性进行分词处理，获得每个节目的属性分词，每个节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要。

S302：将获得的每个节目的属性分词输入到词向量训练模型库进行训练，生成包括每个节目的节目名相似度值集合的词向量数据，每个节目的节目名相似度值集合包括对应节目的节目名与除节目名之外的其他属性分词之间的相似度值。

S303：当平台的节目数量增加时，获取新增节目及对应的节目属性；

具体的，新增节目是指平台在预设时间段内新增加的节目，且每个新增节目均具有用于描述其特征的节目属性。其中，预设时间段可以是预先设定的时间范围，如15天、1个月等。

S304：对获取的每个新增节目的节目属性进行分词处理，获得每个新增节目的属性分词，每个新增节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

需要说明的是，对每个新增节目的节目属性进行分词处理的方式请参见上述附图2所对应实施例中对每个节目的节目属性进行分词处理的方式，在此不再赘述。

S305：利用词向量训练模型库，将获得的每个新增节目的属性分词与词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的词向量更新数据，节目和新增节目作为更新节目组中的更新节目，每个更新节目的节目名相似度值集合包括对应更新节目的节目名与除节目名之外的其他属性分词之间的相似度值；

具体的，数据嵌入主要用于在生成的包括每个节目的节目名相似度值集合的词向量数据的基础上，增加每个节目的节目名与新增节目的每个属性分词之间的相似度值，以及每个新增节目的节目名与除自身外的其他全部属性分词之间的相似度值。也就是说，将S301获得的节目和S303获得的新增节目均作为更新节目组中的更新节目，令生成的词向量更新数据中的每个更新节目的节目名相似度值集合包括对应更新节目的节目名与除该节目名之外的其他属性分词之间的相似度值。

S306：将词向量数据更新为词向量更新数据；

具体的，对词向量数据进行更新，可以确保词向量数据中的节目名数量是随平台当前时刻所具有的总节目数量的增加而变化的，进而提高了词向量数据的数据实时性和准确性。

需要说明的是，本发明实施例中的S303-S306既可以是执行一次后，就退出相关训练进程，从而及时释放所占用的内存；也可以是执行一次后，不退出相关训练进程，以实现24小时不间断进行实时训练。

本发明实施例中，通过当平台的节目数量增加时，对获取的每个新增节目的节目属性进行分词处理，获得每个新增节目的属性分词，再利用词向量训练模型库，将获得的每个新增节目的属性分词与词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的词向量更新数据，并将词向量数据更新为词向量更新数据；可见，将进行了分词处理后所获得的每个新增节目的属性分词与词向量数据进行数据嵌入，可以在词向量数据的基础上，对新增节目进行增量训练，从而缩减了训练时间，同时也确保了词向量数据中的节目名数量实时随平台当前时刻所具有的总节目数量的增加而变化，有效提高了词向量数据的数据实时性和准确性。

在上述附图2所对应实施例的基础上，针对上述附图1所对应实施例中S103：基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，本发明实施例公开了一种相似节目名集合的确定方法，请参见附图4，所述方法具体包括以下步骤：

S401：针对每个标记节目，从词向量数据中匹配出标记节目对应的节目名相似度值集合；

具体的，词向量数据内节目的节目名相似度值集合包括该节目的节目名与除该节目名之外的其他属性分词之间的相似度值，故同一节目的节目名相似度值集合与节目名之间存在对应关系，进而可以利用标记节目的节目名，快速从词向量数据中匹配出与之具有对应关系的节目名相似度值集合。

S402：对匹配出的节目名相似度值集合中的相似度值进行降序排列，并筛选出位于预设排列位置之前的相似度值，作为匹配集合；

具体的，预设排列位置可以是依据平台内节目总数量所预先设定的，如平台内节目总数量为“1000”，则预设排列位置为“第101”；如平台内节目总数量为“5000”，则预设排列位置为“第401”。

S403：从匹配集合中确定出对应属性分词为节目名的相似度值，并将确定出的相似度值对应的属性分词作为标记节目的相似节目名集合中的相似节目；

具体的，从匹配集合中确定出对应属性分词为节目名的相似度值的具体过程为：确定出匹配集合中的每个相似度值所对应的属性分词，并将其与平台内的全部节目名进行一一对比，若一致，则该相似度值对应的属性分词为节目名，此时，将该相似度值对应的属性分词作为标记节目的相似节目名集合中的相似节目。

需要说明的是，当每个标记节目均执行完S401-S403，即可获得全部标记节目的相似节目名集合。

本发明实施例中，针对每个标记节目，通过从词向量数据中匹配出标记节目对应的节目名相似度值集合，并对匹配出的节目名相似度值集合中的相似度值进行降序排列，且将筛选出位于预设排列位置之前的相似度值作为匹配集合，用于确定出对应属性分词为节目名的相似度值，以便将确定出的相似度值对应的属性分词作为标记节目的相似节目名集合中的相似节目；可见，对匹配出的节目名相似度值集合中的相似度值进行降序排列，在确保确定出的作为相似节目的属性分词与标记节目之间的相似程度较高的基础上，缩减了确定相似节目名集合所需的时间，有效提高了相似节目名集合的确定效率。

在上述附图4所对应实施例的基础上，针对上述附图1所对应实施例中S105：基于节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像，本发明实施例公开了一种用户画像的获取方法，请参见附图5，所述方法具体包括以下步骤：

S501：从节目查找集合中查找出与用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目；

具体的，节目查找集合由进行了标签标记的标记节目和相似节目所组成，而一个进行了标签标记的标记节目对应一个进行了标签标记的相似节目名集合，该相似节目名集合中所包括的相似节目个数为零或至少一个。

其次，一个进行了标签标记的相似节目名集合中的相似节目为节目名，故将节目名作为查找依据，从由进行了标签标记的标记节目和相似节目所组成的节目查找集合中快速查找出与历史观看节目具有同一节目名的标准节目。

用户历史观看节目集合中至少包括一个历史观看节目，而历史观看节目是指用户在历史间隔时间段内观看过的节目。其中，历史间隔时间段可以是针对当前时刻，预先设定的已经过去的时间范围，如当前时刻为“2018年4月”，则历史间隔时间段可以为“2018年1月-2018年3月”。

S502：将查找到的标准节目的标签设为对应的历史观看节目的标签；

需要说明的是，标准节目的标签既可以是一个，如“恐怖”；也可以是由多个标签组成的标签集合，如“恐怖、美国、2017”。相应的，与标准节目具有同一节目名的历史观看节目的标签也可以是一个，或是由多个标签组成的标签集合。

S503：计算每个历史观看节目的标签权重；

具体的，历史观看节目的标签权重是指将历史观看节目的标签的出现频次与用户历史观看节目集合所包含的全部标签个数的比值。其中，历史观看节目的标签的出现频次是指该历史观看节目的标签在用户历史观看节目集合所包含的全部标签中出现的次数。

需要说明的是，当历史观看节目的标签是由多个标签组成的标签集合时，分别计算该历史观看节目中每个标签的标签权重。

S504：将历史观看节目的标签和标签权重作为用户画像。

本发明实施例中，通过从由进行了标签标记的标记节目和相似节目所组成的节目查找集合中，查找出与用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目，并将查找到的标准节目的标签设为对应的历史观看节目的标签，再计算每个历史观看节目的标签权重，从而获得由历史观看节目的标签和对应标签权重组成的用户画像；可见，将节目名作为查找依据，确保了历史观看节目与对应标准节目之间的相似程度，进而提高用户画像的构建准确度，同时，将历史观看节目的标签权重体现到用户画像中，能够直接反映出用户对不同节目兴趣度的高低，有利于为用户进行个性化推荐服务。

本发明实施例公开了一种用户画像的构建装置，请参见附图6，包括：

第一获取模块601，用于获取平台内的全部节目及对应的节目属性；

抽取模块602，用于利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目；

确定模块603，用于在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，标记节目是对待标记节目进行标签标记后生成的，词向量数据是对获取的平台内的全部节目及对应的节目属性进行词向量训练所生成的；

第一标签标记模块604，用于将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个相似节目进行标签标记；

标签查找模块605，用于将进行了标签标记的标记节目和相似节目作为节目查找集合中的标准节目，并基于节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。

本发明实施例所公开的一种用户画像的构建装置，通过抽取模块602利用随机算法，从第一获取模块601获取到的全部节目中抽取出预设数量的节目，作为待标记节目，并在接收到对待标记节目进行标签标记后所生成的标记节目组时，由确定模块603基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，进而再由第一标签标记模块604将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，以实现对全部节目的标签标记，之后，标签查找模块605基于由进行了标签标记的标记节目和相似节目组成的节目查找集合，对用户历史观看节目集合进行标签查找，以获得作为用户画像的用户标签；可见，基于训练生成的词向量数据，能够将进行了标签标记的少量标记节目的标签自动扩展为与之相似的每个相似节目的标签，从而实现对大量节目的标签标记，缩减了人工标记的节目数量，进而提高了构建效率。

本发明实施例提供的各个模块的工作过程，请参照附图1所对应的方法流程图，具体工作过程不再赘述。

在上述附图6所对应实施例的基础上，本发明实施例公开了另一种用户画像的构建装置，请参见附图7，包括：

第一获取模块601，抽取模块602，确定模块603，第一标签标记模块604，标签查找模块605，第一分词处理模块606以及训练模块607；

其中，第一分词处理模块606，用于对获取的平台内的每个节目的节目属性进行分词处理，获得每个节目的属性分词，每个节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

训练模块607，用于将获得的每个节目的属性分词输入到词向量训练模型库进行训练，生成包括每个节目的节目名相似度值集合的词向量数据，每个节目的节目名相似度值集合包括对应节目的节目名与除节目名之外的其他属性分词之间的相似度值。

本发明实施例所公开的一种用户画像的构建装置，通过训练模块607将第一分词处理模块606进行了分词处理后所获得的每个节目的属性分词输入到词向量训练模型库进行训练，可以生成包括每个节目的节目名相似度值集合的词向量数据，提高了词向量数据所体现出的每个节目的节目名与其他属性分词之间相似程度的准确性。

本发明实施例提供的各个模块的工作过程，请参照附图2所对应的方法流程图，具体工作过程不再赘述。

在上述附图7所对应实施例的基础上，本发明实施例公开了另一种用户画像的构建装置，请参见附图8，包括：

第一获取模块601，抽取模块602，确定模块603，第一标签标记模块604，标签查找模块605，第一分词处理模块606，训练模块607，第二获取模块608，第二分词处理模块609，数据嵌入模块610以及更新模块611；

其中，第二获取模块608，用于当平台的节目数量增加时，获取新增节目及对应的节目属性；

第二分词处理模块609，用于对获取的每个新增节目的节目属性进行分词处理，获得每个新增节目的属性分词，每个新增节目的节目属性包括节目名、主演名称、导演名称、关键字和节目摘要；

数据嵌入模块610，用于利用词向量训练模型库，将获得的每个新增节目的属性分词与词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的词向量更新数据，节目和新增节目作为更新节目组中的更新节目，每个更新节目的节目名相似度值集合包括对应更新节目的节目名与除节目名之外的其他属性分词之间的相似度值；

更新模块611，用于将词向量数据更新为词向量更新数据。

本发明实施例中，通过第二分词处理模块609在平台的节目数量增加时，对获取的每个新增节目的节目属性进行分词处理，获得每个新增节目的属性分词，再由数据嵌入模块610利用词向量训练模型库，将获得的每个新增节目的属性分词与词向量数据进行数据嵌入，生成包括更新节目组中每个更新节目的节目名相似度值集合的词向量更新数据，以便更新模块611将词向量数据更新为词向量更新数据；可见，将进行了分词处理后所获得的每个新增节目的属性分词与词向量数据进行数据嵌入，可以在词向量数据的基础上，对新增节目进行训练，从而缩减了训练时间，同时也确保了词向量数据中的节目名数量实时随平台当前时刻所具有的总节目数量的增加而变化，有效提高了词向量数据的数据实时性和准确性。

本发明实施例提供的各个模块的工作过程，请参照附图3所对应的方法流程图，具体工作过程不再赘述。

请参见附图9，上述附图7所对应实施例中的确定模块603具体包括：

匹配单元6031，用于针对每个标记节目，从词向量数据中匹配出标记节目对应的节目名相似度值集合；

筛选单元6032，用于对匹配出的节目名相似度值集合中的相似度值进行降序排列，并筛选出位于预设排列位置之前的相似度值，作为匹配集合；

确定单元6033，用于从匹配集合中确定出对应属性分词为节目名的相似度值，并将确定出的相似度值对应的属性分词作为标记节目的相似节目名集合中的相似节目。

本发明实施例中，针对每个标记节目，通过匹配单元6031从词向量数据中匹配出标记节目对应的节目名相似度值集合，并由筛选单元6032对匹配出的节目名相似度值集合中的相似度值进行降序排列，且将筛选出位于预设排列位置之前的相似度值作为匹配集合，用于确定单元6033确定出对应属性分词为节目名的相似度值，以便将确定出的相似度值对应的属性分词作为标记节目的相似节目名集合中的相似节目；可见，对匹配出的节目名相似度值集合中的相似度值进行降序排列，在确保确定出的作为相似节目的属性分词与标记节目之间的相似程度较高的基础上，缩减了确定相似节目名集合所需的时间，有效提高了相似节目名集合的确定效率。

本发明实施例提供的各个模块的工作过程，请参照附图4所对应的方法流程图，具体工作过程不再赘述。

请参见附图10，上述附图7所对应实施例中的标签查找模块605具体包括:

查找单元6051，用于从节目查找集合中查找出与用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目；

标签设置单元6052，用于将查找到的标准节目的标签设为对应的历史观看节目的标签；

计算单元6053，用于计算每个历史观看节目的标签权重；

选择单元6054，用于将历史观看节目的标签和标签权重作为用户画像。

本发明实施例所公开的一种用户画像的构建装置，通过查找单元6051从由进行了标签标记的标记节目和相似节目所组成的节目查找集合中，查找出与用户历史观看节目集合中每个历史观看节目的节目名相同的标准节目，再由标签设置单元6052将查找到的标准节目的标签设为对应的历史观看节目的标签，以便计算单元6053计算每个历史观看节目的标签权重，从而令选择单元6054获得由历史观看节目的标签和对应标签权重组成的用户画像；可见，将节目名作为查找依据，确保了历史观看节目与对应标准节目之间的相似程度，进而提高用户画像的构建准确度，同时，将历史观看节目的标签权重体现到用户画像中，能够直接反映出用户对不同节目兴趣度的高低，有利于为用户进行个性化推荐服务。

本发明实施例提供的各个模块的工作过程，请参照附图5所对应的方法流程图，具体工作过程不再赘述。

本发明实施例公开了一种电子设备，请参见附图7，包括：存储器701和处理器702；

其中，存储器701，用于存储程序；

处理器702，用于调用程序，并用于：

获取平台内的全部节目及对应的节目属性，利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目，在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，标记节目是对待标记节目进行标签标记后生成的，词向量数据是对获取的平台内的全部节目及对应的节目属性进行词向量训练所生成的，将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个相似节目进行标签标记，将进行了标签标记的标记节目和相似节目作为节目查找集合中的标准节目，并基于节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。

本发明实施例所公开的一种电子设备，通过处理器702调用存储器701所存储的程序，从而实现利用随机算法，从获取到的全部节目中抽取出预设数量的节目，作为待标记节目，并在接收到对待标记节目进行标签标记后所生成的标记节目组时，基于词向量数据，确定出标记节目组中每个标记节目的相似节目名集合，进而将每个标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，以实现对全部节目的标签标记，之后，基于由进行了标签标记的标记节目和相似节目组成的节目查找集合，对用户历史观看节目集合进行标签查找，以获得作为用户画像的用户标签；可见，基于训练生成的词向量数据，能够将进行了标签标记的少量标记节目的标签自动扩展为与之相似的每个相似节目的标签，从而实现对大量节目的标签标记，缩减了人工标记的节目数量，进而提高了构建效率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户画像的构建方法，其特征在于，包括：

获取平台内的全部节目及对应的节目属性；

利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目，确保抽取出的少量节目在全部节目中的分散随机性；

将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记，以实现将少量标签标记过的节目的标签自动扩展为与之相似的每个相似节目的标签，达到缩减人工标记工作量的目的；

2.根据权利要求1所述的构建方法，其特征在于，所述词向量数据的训练生成过程包括：

3.根据权利要求2所述的构建方法，其特征在于，所述词向量数据的训练生成过程还包括：

将所述词向量数据更新为所述词向量更新数据。

4.根据权利要求2所述的构建方法，其特征在于，所述基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，包括：

针对每个所述标记节目：

5.根据权利要求4所述的构建方法，其特征在于，所述基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像，包括：

计算每个所述历史观看节目的标签权重；

将所述历史观看节目的标签和标签权重作为所述用户画像。

6.一种用户画像的构建装置，其特征在于，包括：

抽取模块，用于利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目，确保抽取出的少量节目在全部节目中的分散随机性；

第一标签标记模块，用于将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记，以实现将少量标签标记过的节目的标签自动扩展为与之相似的每个相似节目的标签，达到缩减人工标记工作量的目的；

7.根据权利要求6所述的构建装置，其特征在于，还包括：

8.根据权利要求7所述的构建装置，其特征在于，还包括：

9.根据权利要求7所述的构建装置，其特征在于，所述确定模块包括：

10.根据权利要求9所述的构建装置，其特征在于，所述标签查找模块包括：

计算单元，用于计算每个所述历史观看节目的标签权重；

11.一种电子设备，其特征在于，包括存储器和处理器；

其中，所述存储器，用于存储程序；

所述处理器，用于调用所述程序，并用于：

获取平台内的全部节目及对应的节目属性，利用随机算法，从获取到的全部所述节目中抽取出预设数量的节目，作为待标记节目，确保抽取出的少量节目在全部节目中的分散随机性，在接收到已进行标签标记的标记节目组时，基于词向量数据，确定出所述标记节目组中每个标记节目的相似节目名集合，所述标记节目是对所述待标记节目进行标签标记后生成的，所述词向量数据是对获取的平台内的全部所述节目及对应的节目属性进行词向量训练所生成的，将每个所述标记节目的标签作为对应的相似节目名集合中每个相似节目的标签，对每个所述相似节目进行标签标记，以实现将少量标签标记过的节目的标签自动扩展为与之相似的每个相似节目的标签，达到缩减人工标记工作量的目的，将进行了标签标记的所述标记节目和所述相似节目作为节目查找集合中的标准节目，并基于所述节目查找集合，对用户历史观看节目集合进行标签查找，获得用户画像。