CN109815386B

CN109815386B - 一种基于用户画像的构建方法、装置及存储介质

Info

Publication number: CN109815386B
Application number: CN201811577206.5A
Authority: CN
Inventors: 林志扬; 黄南松; 栾江霞; 章正道; 王仁斌; 朱振水; 江明臻
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-04-29
Anticipated expiration: 2038-12-21
Also published as: CN109815386A

Abstract

本发明提供了一种基于用户画像的构建方法、装置及存储介质，该方法包括：登记用户的个人信息数据，记录用户的网页浏览记录和收藏的网页记录，对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签，以所述初始兴趣标签为起点关联用户的网页浏览记录，以生成最终兴趣标签，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签，然后，通过改进PageRank算法生成所有用户的最终兴趣标签，减少用户无意识浏览对用户兴趣标签的影响，减少广告网页对用户最终兴趣标签产生的不利影响，以及对未知兴趣标签属性的挖掘，使用户兴趣标签更加准确，使得构建的用户画像信息更为准确。

Description

一种基于用户画像的构建方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，特别是一种基于用户画像的构建方法、装置及存储介质。

背景技术

个性化推荐***目前很多，个性化推荐的基础是要分析出每个用户的特征，才能对用户的爱好、特点进行建模，基于这个模型为用户推荐新的内容。

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。

现有技术中，用户画像一般用作推荐***的基础性工作。传统的画像引擎***无效化比较严重，实际场景中无意义或者意义很弱的标签属性太多。标签静态化问题，需要大量人工标记来设定已知标签属性，无法根据使用场景来动态挖掘未知属性。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于用户画像的构建方法，该方法包括：

登记步骤，用于登记用户的个人信息数据；

记录步骤，用于记录用户的网页浏览记录和收藏的网页记录；

初始兴趣标签生成步骤，对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签；

最终兴趣标签生成步骤，用于以所述初始兴趣标签为起点关联用户的网页浏览记录，以生成最终兴趣标签；

构建步骤，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。

更进一步地，所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。

更进一步地，所述搜索网页记录和收藏的网页记录包括网址、标题、时间和/或关键词。

更进一步地，所述初始兴趣标签生成步骤包括：

第一分析步骤，获取用户网页浏览记录中的URL，分析URL是否为搜索URL，如果是，通过正则规则抽取出所搜索的关键词；

第二分析步骤，获取用户收藏的网页记录中的URL，使用爬虫获得URL的网页内容，对所述网页内容进行处理得到文本摘要，对摘要内容进行分词，并对分词后的结果进行过滤得到过滤后的关键词；

生成步骤，将所述搜索的关键词和过滤后的关键词设为初始兴趣标签，并为每个关键词设置一个初始权重，初始权重统一设置为1。

更进一步地，所述最终兴趣标签生成步骤包括：

处理步骤，获取当前用户所有浏览的URL，过滤搜索URL，通过爬虫对用户浏览的非搜索页面进行抓取，对抓取的网页内容生成文本摘要，对文本摘要进行分词处理，并过滤后生成一词语集合；

权重设置步骤，以所述词语集合中的每个词语为一个节点，并为每个节点分配相应权重，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数；

窗口设置步骤，用于设置每个网页的文本摘要为一个窗口，每个窗口中任意两个词语节点存在无向无权边，基于所述词语集合构成图；

权重计算步骤，迭代传播各个节点的权重，直至收敛；

获得步骤，计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。

更进一步地，所述节点V_i的权重计算公式如下：

其中V为词语节点，E为边，其中E(V_i)表示与节点V_i连接的所有节点的集合，常数d的值为0.85，S(V_j)为词语V_j的权重，W_ji代表V_i与V_j之间的边的权重，每个文本摘要为一个窗口，窗口中包含k个词语，倘若两个词语都存在，称为共现，将词对间的共现次数作为连接它们的边权重，i，j为序号。

本发明还提出了一种基于用户画像的构建装置，该装置包括：

登记单元，用于登记用户的个人信息数据；

记录单元，用于记录用户的网页浏览记录和收藏的网页记录；

初始兴趣标签生成单元，对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签；

最终兴趣标签生成单元，用于以所述初始兴趣标签为起点关联用户的网页浏览记录，以生成最终兴趣标签；

构建单元，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。

更进一步地，所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。

更进一步地，所述初始兴趣标签生成单元包括：

第一分析单元，获取用户网页浏览记录中的URL，分析URL是否为搜索URL，如果是，通过正则规则抽取出所搜索的关键词；

第二分析单元，获取用户收藏的网页记录中的URL，使用爬虫获得URL的网页内容，对所述网页内容进行处理得到文本摘要，对摘要内容进行分词，并对分词后的结果进行过滤得到过滤后的关键词；

生成单元，将所述搜索的关键词和过滤后的关键词设为初始兴趣标签，并为每个关键词设置一个初始权重，初始权重统一设置为1。

更进一步地，所述最终兴趣标签生成单元包括：

处理单元，获取当前用户所有浏览的URL，过滤搜索URL，通过爬虫对用户浏览的非搜索页面进行抓取，对抓取的网页内容生成文本摘要，对文本摘要进行分词处理，并过滤后生成一词语集合；

权重设置单元，以所述词语集合中的每个词语为一个节点，并为每个节点分配相应权重，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数；

窗口设置单元，用于设置每个网页的文本摘要为一个窗口，每个窗口中任意两个词语节点存在无向无权边，基于所述词语集合构成图；

权重计算单元，迭代传播各个节点的权重，直至收敛；

获得单元，计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。

更进一步地，所述节点V_i的权重计算公式如下：

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果为：本发明从用户在浏览器的使用记录信息生成初始兴趣标签，然后，通过改进PageRank算法生成所有用户的最终兴趣标签，减少用户无意识浏览对用户兴趣标签的影响，减少广告网页对用户最终兴趣标签产生的不利影响，以及对未知兴趣标签属性的挖掘，使用户兴趣标签更加准确，使得构建的用户画像信息更为准确，提高了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于用户画像的构建方法的流程图。

图2是根据本发明的实施例的初始兴趣标签生成步骤的流程图。

图3是根据本发明的实施例的最终兴趣标签生成步骤的流程图。

图4是根据本发明的实施例的一种基于用户画像的构建装置的结构图。

图5是根据本发明的实施例的初始兴趣标签生成单元的结构图。

图6是根据本发明的实施例的最终兴趣标签生成单元的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于用户画像的构建方法，该方法包括：

登记步骤S101，用于登记用户的个人信息数据。在本发明的一个实施例中，所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录等等。

记录步骤S102，用于记录用户的网页浏览记录和收藏的网页记录；在本发明的一个实施例中，所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。

初始兴趣标签生成步骤S103，对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签。

最终兴趣标签生成步骤S104，用于以所述初始兴趣标签为起点关联用户的网页浏览记录，以生成最终兴趣标签。

构建步骤S105，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。

在本发明的方法的实施例中，可以对每个用户构建用户画像，即在用户登录进入***时，获取用户的相关信息及浏览记录、历史收藏记录等等信息。

如图2所示，在本发明的一个实施例中，所述初始兴趣标签生成步骤S103包括：

第一分析步骤S1031，获取用户网页浏览记录中的URL，分析URL是否为搜索URL，如果是，通过正则规则抽取出所搜索的关键词。该步骤中，使用正则规则(也称为正则表达式)从用户的抖索记录中的URL中提取用户的搜索关键词，一般来说，用户的搜索关键词体现了用户的偏好，适于构建用户画像。

第二分析步骤S1032，获取用户收藏的网页记录中的URL，使用爬虫获得URL的网页内容，对所述网页内容进行处理得到文本摘要，对摘要内容进行分词，并对分词后的结果进行过滤得到过滤后的关键词。

生成步骤S1033，将所述搜索的关键词和过滤后的关键词设为初始兴趣标签，并为每个关键词设置一个初始权重，初始权重统一设置为1。

在第二分析步骤S1032中，对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取方法、可读存储介质》中的技术进行生成文本摘要，本发明中所使用的过滤机制如下：过滤不需要的词语包括：停用词，代词、介词、连词、助词、叹词、语气词、标点符号。

如图3所示，在本发明的一个实施例中，所述最终兴趣标签生成步骤S104包括：

处理步骤S1041，获取当前用户所有浏览的URL，过滤搜索URL，通过爬虫对用户浏览的非搜索页面进行抓取，对抓取的网页内容生成文本摘要，对文本摘要进行分词处理，并过滤后生成一词语集合。

在处理步骤S1041中，对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取方法、可读存储介质》中的技术进行生成文本摘要，本发明中所使用的过滤机制如下：过滤不需要的词语包括：停用词，代词、介词、连词、助词、叹词、语气词、标点符号。

权重设置步骤S1042，以所述词语集合中的每个词语为一个节点，并为每个节点分配相应权重，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数。

窗口设置步骤S1043，用于设置每个网页的文本摘要为一个窗口，每个窗口中任意两个词语节点存在无向无权边，基于所述词语集合构成图。

权重计算步骤S1044，迭代传播各个节点的权重，直至收敛。

获得步骤S1045，计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。

本发明中先生成初始兴趣标签，在基于初始兴趣标签及用户的浏览记录生成最终兴趣标签，且在权重计算时，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数，从而减少了用户无意识浏览对用户兴趣标签的影响，减少广告网页对用户最终兴趣标签产生的不利影响，以及对未知兴趣标签属性的挖掘，使用户兴趣标签更加准确，进而使得构建的用户画像信息更为准确，这是本发明的重要发明点之一。

在本发明的一个实施例中，所述节点V_i的权重计算公式如下：

其中V为词语节点，E为边，其中E(V_i)表示与节点V_i连接的所有节点的集合，常数d的值为0.85，S(V_j)为词语V_j的权重，W_ji代表V_i与V_j之间的边的权重，每个文本摘要为一个窗口，窗口中包含k个词语，倘若两个词语都存在，称为共现，将词对间的共现次数作为连接它们的边权重，i，j为序号。该计算方法是本发明提出的改进的PageRank算法，使得改进后的PageRank算法适于计算节点权重的传播，且计算速度快，这是本发明的另一个重要发明点。

进一步参考图4，作为对上述图1所示方法的实现，本申请提供了基于用户画像的构建装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以包含于各种电子设备中。

图4示出了本发明的一种基于用户画像的构建装置，该装置包括：

登记单元401，用于登记用户的个人信息数据。在本发明的一个实施例中，所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录等等。

记录单元402，用于记录用户的网页浏览记录和收藏的网页记录；在本发明的一个实施例中，所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。

初始兴趣标签生成单元403，对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签。

最终兴趣标签生成单元404，用于以所述初始兴趣标签为起点关联用户的网页浏览记录，以生成最终兴趣标签。

构建单元405，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。

在本发明的装置的实施例中，可以对每个用户构建用户画像，即在用户登录进入***时，获取用户的相关信息及浏览记录、历史收藏记录等等信息。

如图5所示，在本发明的一个实施例中，所述初始兴趣标签生成单元403包括：

第一分析单元4031，获取用户网页浏览记录中的URL，分析URL是否为搜索URL，如果是，通过正则规则抽取出所搜索的关键词。该步骤中，使用正则规则(也称为正则表达式)从用户的抖索记录中的URL中提取用户的搜索关键词，一般来说，用户的搜索关键词体现了用户的偏好，适于构建用户画像。

第二分析单元4032，获取用户收藏的网页记录中的URL，使用爬虫获得URL的网页内容，对所述网页内容进行处理得到文本摘要，对摘要内容进行分词，并对分词后的结果进行过滤得到过滤后的关键词。

生成单元4033，将所述搜索的关键词和过滤后的关键词设为初始兴趣标签，并为每个关键词设置一个初始权重，初始权重统一设置为1。

在第二分析单元4032中，对网页内容采用本司申请的申请号为、发明名称为CN201711121022.3《关于特定主题类别的文本摘要提取装置、可读存储介质》中的技术进行生成文本摘要，本发明的过滤机制如下：过滤不需要的词语包括：停用词，代词、介词、连词、助词、叹词、语气词、标点符号。

如图6所示，在本发明的一个实施例中，所述最终兴趣标签生成单元404包括：

处理单元4041，获取当前用户所有浏览的URL，过滤搜索URL，通过爬虫对用户浏览的非搜索页面进行抓取，对抓取的网页内容生成文本摘要，对文本摘要进行分词处理，并过滤后生成一词语集合。

在处理单元4041中，对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取装置、可读存储介质》中的技术进行生成文本摘要，本发明中所使用的过滤机制如下：过滤不需要的词语包括：停用词，代词、介词、连词、助词、叹词、语气词、标点符号。

权重设置单元4042，以所述词语集合中的每个词语为一个节点，并为每个节点分配相应权重，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数。

窗口设置单元4043，用于设置每个网页的文本摘要为一个窗口，每个窗口中任意两个词语节点存在无向无权边，基于所述词语集合构成图。

权重计算单元4044，迭代传播各个节点的权重，直至收敛。

获得单元4045，计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。

其中V为词语节点，E为边，其中E(V_i)表示与节点V_i连接的所有节点的集合，常数d的值为0.85，S(V_j)为词语V_j的权重，W_ji代表V_i与V_j之间的边的权重，每个文本摘要为一个窗口，窗口中包含k个词语，倘若两个词语都存在，称为共现，将词对间的共现次数作为连接它们的边权重，i，j为序号。该计算装置是本发明提出的改进的PageRank算法，使得改进后的PageRank算法适于计算节点权重的传播，且计算速度快，这是本发明的另一个重要发明点。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于用户画像的构建方法，其特征在于，该方法包括：

登记步骤，用于登记用户的个人信息数据；

最终兴趣标签生成步骤，用于以所述初始兴趣标签为起点关联用户的网页浏览记录，生成词语集合，以所述词语集合中的每个词语为一个节点，并为每个节点分配相应权重，如果该词语存在于初始兴趣标签中，其权重为1；如果该词语不存在于初始兴趣标签中，其权重为1/N，N为词语集合中的词语个数；迭代传播各个节点的权重，直至收敛；计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签，以生成最终兴趣标签；

构建步骤，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像；

其中，节点Vi的权重计算公式如下：

2.根据权利要求1所述的方法，其特征在于，所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。

3.根据权利要求1所述的方法，其特征在于，所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。

4.根据权利要求1所述的方法，其特征在于，所述初始兴趣标签生成步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述最终兴趣标签生成步骤包括：

窗口设置步骤，用于设置每个网页的文本摘要为一个窗口，每个窗口中任意两个词语节点存在无向无权边，基于所述词语集合构成图。

6.一种基于用户画像的构建装置，其特征在于，该装置包括：

登记单元，用于登记用户的个人信息数据；

构建单元，基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像；

其中，所述最终兴趣标签生成单元包括：

权重计算单元，迭代传播各个节点的权重，直至收敛；

获得单元，计算权重收敛后得到T个词语，在原始网页内容中进行标记，若形成相邻词组，则组合成多词关键词，返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签；

其中，节点Vi的权重计算公式如下：

7.根据权利要求6所述的装置，其特征在于，所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。

8.根据权利要求7所述的装置，其特征在于，所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。

9.根据权利要求8所述的装置，其特征在于，所述初始兴趣标签生成单元包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。