CN112115233B

CN112115233B - 关系网络生成方法、装置、电子设备及存储介质

Info

Publication number: CN112115233B
Application number: CN202011034030.6A
Authority: CN
Inventors: 戴明洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-03-26
Anticipated expiration: 2040-09-27
Also published as: JP2021166048A; US11449558B2; CN112115233A; JP7212714B2; EP3822822A1; US20210209166A1; KR20210040315A

Abstract

本公开公开了关系网络生成方法、装置、电子设备及存储介质，涉及大数据处理领域。具体实现方案为：获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据；基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，基于所述N个用户分别对应的语义向量生成包含N个用户的语义化关系网络。

Description

关系网络生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域。本公开尤其涉及大数据处理领域。

背景技术

用户的关系理解是刻画用户的重要维度，相关技术中会构建用户的关系网络，在用户的关系网络中，会将用户的文本信息融入到关系网络中的用户的节点作为该节点的属性使用。

但是，在构建用户的关系网络的处理中，若要融入一定时长的用户的文本信息，就需要采用大量用户的历史文本，这样会出现计算成本较高的问题。

发明内容

本公开提供了一种关系网络生成方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种关系网络生成方法，包括：

获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；

对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据；

基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，基于所述N个用户分别对应的语义向量生成包含N个用户的语义化关系网络。

根据本公开的另一方面，提供了一种关系网络生成装置，包括：

获取模块，用于获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；

采样模块，用于对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据；

网络生成模块，用于基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，基于所述N个用户分别对应的语义向量生成包含N个用户的语义化关系网络。

根据本公开的一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法。

根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述方法。

根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的关系网络生成方法流程示意图一；

图2是根据本公开实施例的关系网络示意图；

图3是根据本公开实施例的采样处理流程示意图；

图4是根据本公开实施例的关系网络生成方法流程示意图二；

图5是根据本公开实施例的关系网络生成装置组成结构示意图；

图6是用来实现本公开实施例的关系网络生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的第一实施例提供了一种关系网络生成方法，如图1所示，包括：

S101：获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；

S102：对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据；

S103：基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，基于所述N个用户分别对应的语义向量生成包含N个用户的语义化关系网络。

本实施例中，所述N个用户可以为当前能够获取到的全部用户。

所述至少一个历史文本数据可以为N个用户中每一个用户在一段预设时长内的全部历史文本数据。需要理解的是，不同的用户的历史文本数据的数量可以是不同的。

其中，所述至少一个历史文本数据包括：搜索词信息以及浏览题目信息。每一个历史文本数据可以为搜索词信息或浏览题目信息。

所述搜索词信息(或称为query)可以为用户在搜索引擎中输入的搜索信息，比如，在搜索引擎中输入“XXX电视剧”，那么就可以将该信息作为用户的一条搜索词信息。

浏览题目信息可以是用户打开某一个网页，该网页的主题或题目名称，即为浏览题目(title)信息。

其中，预设时长可以根据实际情况进行设置，比如可以为1年，或者可以为2年，或者可以为其他长度的时长，这里不做穷举。

前述对至少一个历史文本数据进行采样，具体可以为：从所述N个用户中每一个用户的至少一个历史文本数据中进行采样，得到每一个用户的采样后的文本数据。

也就是，一个用户可以有多个历史文本数据，通过前述处理，可以从该用户的预设时长内的历史文本数据中采集部分历史文本数据作为后续处理所需要的采样后的文本数据。比如，某一个用户在1年内的历史文本数据有1000条，通过对该历史文本数据进行采样，可以从中获取100个文本数据作为最终的采样后的文本数据。这里，从历史文本数据中获取多少条采样后的文本数据，可以根据实际需要进行设置，比如，可以设置仅获取10条，或者可以设置获取100条等等，保证每一个用户采样后的文本数据的数量要少于该用户的历史文本数据的数量即可。

基于N个用户中每一个用户对应的采样后的文本数据进行向量化处理，得到每一个采样后的文本数据的句向量；基于所述每一个采样后的文本数据的所述句向量，生成所述每一个用户所对应的语义向量。这里，每一个用户可以对应一个语义向量。

再基于所述N个用户中每一个用户的语义向量生成包含N个用户的语义化关系网络。这里，首先关于用户的关系网络进行说明，具体可以为：将N个用户中每一个用户作为一个节点，将用户之间存在的交互行为作为边形成的一个关系网络。比如参见图2，N等于5，即用户1-用户5分别作为关系网络中的节点，将存在交互行为的用户之间建立相应的边，以图2中的用户1为例，用户1与用户2、用户3以及用户4存在交互行为，则建立用户1分别与用户2、用户3以及用户4的边，其他用户之间的边的建立方式与其类似不再赘述，最终可以得到如图2所示的5个用户的关系网络。需要理解的是，图2仅为一种示例性说明，给出了5个用户的关系网络，实际处理中，N可以为更大的数量，比如可以为1万个用户，或者10万个用户，只是本实施例不对其进行穷举。

本实施例通过以上处理，在每一个用户的表示中增加了语义向量，如此，基于每一个包含语义向量的用户表示建立的关系网络被作为语义化关系网络，即可以在关系网络中表征用户的语义信息。

可见，通过以上处理，可以通过对用户在预设时长内的大量历史文本数据中进行文本数据的采样，从而可以覆盖用户较长的时间范围内的信息，并且，通过对采样后的文本数据生成用户的语义向量；如此，能有效降低文本向量化的计算量，同时可以保留用户长时间的语义信息，并且能够有效体现用户之间的区分度，从而最终建立的语义化关系网络也能够表征用户的语义信息，并且保证在语义化关系网络中体现各个用户的区分度。

本公开的第二实施例中，所述至少一个历史文本数据包括：搜索词信息以及浏览题目信息；

相应的，如图3所示，所述方法还包括：

S21：获取所述N个用户中第i个用户在预设时长内的至少一个搜索词信息以及至少一个浏览题目信息；其中，i为大于等于1且小于等于N的整数；

S22：基于所述第i个用户在预设时长内的至少一个搜索词信息以及至少一个浏览题目信息，生成所述第i个用户对应的搜索词信息集合以及浏览题目集合。

这里，第i个用户为所述N个用户中任意之一，也就是针对全部用户中的任意一个均可以采用上述方案进行处理，本实施例将其称为第i个用户，关于其他用户处理与该第i个用户的处理是相同的，这里不再一一赘述。

其中，每一个所述历史文本数据具体可以为搜索词信息或浏览题目信息。

浏览题目信息可以是用户打开某一个网页，该网页的主题或题目名称，即为浏览题目(title)信息。关于预设时长在前述第一实施例中已经说明，可以为根据实际情况设置的时长，比如可以为1年。

第i个用户在预设时长内的至少一个搜索词信息以及至少一个浏览题目信息即构成该第i个用户在预设时长内的历史文本数据。

进而，基于所述第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息，生成所述第i个用户对应的搜索词信息集合以及浏览题目集合的处理中，还可以包括：

对所述第i个用户在预设时长内的至少一个搜索词信息进行归一化处理，得到归一化处理后的至少一个搜索词信息；以及对所述第i个用户在预设时长内的至少一个浏览题目信息进行归一化处理，得到归一化处理后的至少一个浏览题目信息；

基于归一化处理后的至少一个浏览题目信息生成所述第i个用户的浏览题目集合，以及基于归一化处理后的至少一个搜索词信息，生成所述第i个用户的搜索信息集合。

其中，所述归一化处理具体可以为对搜索词进行空格、标点符号的去除后，将剩余内容相同的搜索词进行合并；在合并的处理中，还可以对搜索词信息的次数进行记录。比如，用户在一次搜索中输入“XXX电视剧”，又一次搜索中输入“XXX电视剧？”，在归一化处理后，得到的是同一条搜索词信息，即“XXX电视剧”，此时可以对该搜索词信息的出现次数进行记录即记为2次。

关于浏览题目信息的归一化处理与上述搜索词信息的归一化处理相类似，不再赘述，同样的针对浏览题目信息也会记录出现次数。

如此，可以针对N个用户中每一个用户进行预设时长内的历史文本数据的统计，以使得最终得到的语义向量的信息含义覆盖较长时间的信息，从而提升用后的语义向量的表示的准确性。

完成上述处理后，对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据。具体的，仍参见图3，可以包括：

S23：对所述N个用户中的所述第i个用户对应的搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，以及对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据；

S24：将所述第i个用户的至少一个搜索词采样数据以及至少一个浏览题目采样数据作为所述第i个用户的采样后的文本数据。

具体来说，可以对第i个用户的搜索词信息集合中的至少一个搜索词信息采用基于频率的采样方式或基于时间的采样方式进行采样；和/或，对第i个用户的浏览题目集合中的至少一个浏览题目信息采用基于频率的采样方式或基于时间的采样方式进行采样。

也就是最终得到的文本数据中，既可以包括搜索词采样数据有可以包含浏览题目采样数据。

其中，搜索词信息集合中可以包括L个搜索词信息，最终得到的搜索词采样数据可以为k个，k小于L。

浏览题目集合中可以包括P个浏览题目信息，最终得的浏览题目采样数据可以为j个，j小于P。

上述L和P不同，或者可以相同；j和k可以相同也可以不同，j和k的取值均可以根据实际情况设置，不进行穷举。

也就是采样后的文本数据的数量是小于历史文本数据的，如此可以不必对全部的历史文本数据进行后续的向量化处理，减少了向量化处理的数据量。

所述对所述N个用户中的所述第i个用户对应的搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，包括：

基于所述N个用户中的所述第i个用户的所述搜索词信息集合中的搜索词信息的出现次数以及随机数进行计算，得到所述搜索词信息所对应的频率采样分值；选取所述频率采样分值最大的前K个的搜索词信息作为至少一个搜索词采样数据；其中，K为大于等于1的整数；

和/或，

获取所述N个用户中的所述第i个用户的所述搜索词信息集合中的搜索词信息的时间戳以及当前时刻的时间差，基于所述时间差以及随机数进行计算，得到搜索词信息所对应的时间采样分值；选取时间采样分值最小的前L个的搜索词信息作为至少一个搜索词采样数据；其中，L为大于等于1的整数。

其中，关于搜索词信息的次数的获取方式在前述实施例已经描述，不再重复说明。

基于频率的采样的设计原理为：用户常搜的搜索词信息(或称为query)，被采样的概率要大，但是不能放弃用户只搜过一两次的搜索词信息；

具体可以采用以下公式：

Score_tf＝random(0,1)*count(query)；

其中，random(0,1)是取0到1中的一个随机数；count()指的是某一个搜索词信息对应的次数；Score_tf表示频率采样分值。

基于以上公式可以计算每一个搜索词信息的频率采样分值；然后选取其中的前K个频率采样分值最高的搜索词信息作为最终采样的至少一个搜索词采样数据。

进一步来说，上述在计算每一个搜索词信息的频率采样分值的处理中，采用了随机数，该随机数中0-1中的任意一个数值，则在计算最终的频率采样分值时，不一定次数多的搜索词信息的频率采样分值会高于次数少的搜索词信息的频率采样分值，从而实现了可以用户常搜的搜索词信息被采样的概率要大，但是仍保留用户只搜过一两次的搜索词信息的效果，以使得最终使用的搜索词采样数据能尽可能的表征用户的语音信息，提升用户与用户之间的区分度。

基于时间的采样的设计原理为：用户最近搜的搜索词信息，被采样的概率要大，但是不能放弃用户过去很久前的搜索词信息；具体可以采用以下公式进行计算：

Score_time＝random(0,1)*(cur_time-query_time)

cur_time是当前时刻，或可以为当前进行采样的时刻对应的时间戳，query_time是搜索词信息的时间戳；Score_time即时间采样分值。

这里需要说明的是，query_time是搜索词信息的时间戳，如果某一个搜索词信息仅出现过一次，则该时间戳为记录该搜索词信息出现的时刻；如果某一个搜索词信息出现过2次或以上，则query_time指的是最近一次记录该搜索词信息的时间对应的时间戳，即最近的时间戳。

基于以上公式可以计算每一个搜索词信息的时间采样分值；然后选取其中最小的前L个频率采样分值的搜索词信息作为最终采样的至少一个搜索词采样数据。

上述K和L可以相同也可以不同，均可以根据实际情况进行设置。比如可以设置K和L均等于第一预设数量。

进一步来说，上述在计算每一个搜索词信息的时间采样分值的处理中，采用了随机数，该随机数中0-1中的任意一个数值，则在计算最终的时间采样分值时，不一定最近出现的搜索词信息的时间采样分值会低于较早出现的搜索词信息的时间采样分值，从而实现了用户最近搜的搜索词信息，被采样的概率要大，但是仍保留用户过去很久前的搜索词信息的效果，以使得最终使用的搜索词采样数据能尽可能的表征用户的语音信息，提升用户与用户之间的区分度。

需要理解的是，最终使用的时候，可以仅采用基于频率的采样的方式或仅采用基于时间的采样方式进行处理，又或者，可以既采用基于频率的采样方式又采用基于时间的采样方式进行处理。

如果既使用基于频率的采样方式又使用基于时间的采样方式进行处理，可以为：采用基于频率的采样方式获取K个搜索词信息，采用时间的采样方式获取L个搜索词信息，然后进行合并最终得到第一预设数量个搜索词采样数据。

所述第一预设数量可以等于K或等于L，或者可以是其他数值，这里不做限定。

进行合并的处理中，可以是将K个搜索词信息与L个搜索词信息进行去重，若有一个搜索词信息出现在上述两个结果中，则删除其中一个保留剩余的一个，只要最终保证第一预设数量个搜索词采样数据中不存在重复的信息即可。

前述为针对搜索词信息集合的处理，接下来针对浏览题目集合的处理中，所述对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据，包括：

基于所述N个用户中的所述第i个用户的所述浏览题目集合中的浏览题目信息的出现次数以及随机数进行计算，得到所述浏览题目信息所对应的频率采样分值；选取所述频率采样分值最大的前H个的浏览题目信息作为至少一个浏览题目采样数据；其中，H为大于等于1的整数；

和/或，

获取所述N个用户中的所述第i个用户的所述浏览题目集合中的浏览题目信息的时间戳以及当前时刻的时间差，基于所述时间差以及随机数进行计算，得到浏览题目信息所对应的时间采样分值；选取时间采样分值最小的前G个的浏览题目信息作为至少一个浏览题目采样数据；其中，G为大于等于1的整数。

其中，关于浏览题目信息的出现次数的获取方式在前述实施例已经描述，不再重复说明。

基于频率的采样的设计原理为：用户常搜的浏览题目(或称为title)，被采样的概率要大，但是不能放弃用户只搜过一两次的浏览题目信息；

具体可以采用以下公式：

Score_tf＝random(0,1)*count(title)；

其中，random(0,1)是取0到1中的一个随机数；count()指的是某一个浏览题目信息的出现次数；Score_tf表示频率采样分值。

基于以上公式可以计算每一个浏览题目信息的频率采样分值；然后选取其中的前H个频率采样分值最高的搜索词信息作为最终浏览题目采样数据。

进一步来说，上述在计算每一个浏览题目信息的频率采样分值的处理中，采用了随机数，该随机数中0-1中的任意一个数值，则在计算最终的频率采样分值时，不一定次数多的浏览题目信息的频率采样分值会高于次数少的浏览题目信息的频率采样分值，从而实现了可以用户常看的浏览题目被采样的概率要大，但是仍保留用户只看过一两次的浏览题目信息的效果，以使得最终使用的浏览题目采样数据能尽可能的表征用户的语音信息，提升用户与用户之间的区分度。

基于时间的采样的设计原理为：用户最近看的网页的浏览题目信息，被采样的概率要大，但是不能放弃用户过去很久前看过的网页的浏览题目信息；具体可以采用以下公式进行计算：

Score_time＝random(0,1)*(cur_time-title_time)

cur_time是当前时刻，或可以为当前进行采样的时刻对应的时间戳，title_time是浏览题目信息的时间戳；Score_time即时间采样分值。

这里需要说明的是，title_time是浏览题目信息的时间戳，如果某一个浏览题目信息仅出现过一次，则该时间戳为记录该浏览题目信息出现的时刻；如果某一个浏览题目信息出现过2次或以上，则title_time指的是最近一次记录该浏览题目信息的时间对应的时间戳，即最近的时间戳。

基于以上公式可以计算每一个浏览题目信息的时间采样分值；然后选取其中最小的前G个时间采样分值的浏览题目信息作为最终采样的浏览题目采样数据。

这里，H和G可以相同也可以不同，比如两者可以相同即均等于第二预设数量。

进一步来说，上述在计算每一个浏览题目信息的时间采样分值的处理中，采用了随机数，该随机数中0-1中的任意一个数值，则在计算最终的时间采样分值时，不一定最近出现的浏览题目信息的时间采样分值会低于较早出现的浏览题目信息的时间采样分值，从而实现了用户最近看的网页的浏览题目信息，被采样的概率要大，但是仍保留用户过去很久前看过的网页的浏览题目信息的效果，以使得最终使用的浏览题目采样数据能尽可能的表征用户的语音信息，提升用户与用户之间的区分度。

需要理解的是，最终使用的时候，可以仅采用基于频率的采样方式或仅采用基于时间的采样方式进行处理，又或者，可以既采用基于频率的采样方式又采用基于时间的采样方式进行处理。

如果既使用基于频率的采样方式又使用基于时间的采样方式进行处理，可以为：采用基于频率的采样方式获取H个浏览题目信息，采用基于时间的采样方式获取G个浏览题目信息，然后进行合并最终得到第二预设数量个浏览题目采样数据。

所述第二预设数量可以等于G或等于H，或者可以是其他数值，这里不做限定。

还需要说明的是，在最终所述第i个用户的采样后的文本数据中可以包括部分浏览题目采样数据以及部分搜索词采样数据，具体每一个部分的数量可以根据实际情况进行设置，比如可以各50％，浏览题目采样数据有50个，搜索词采样数据也是50个；或者，可以是一部分较多，另一部分较少，本实施例不再穷举。

所述基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，包括：

基于所述N个用户中第i个用户的采样后的文本数据生成对应的句向量；

基于所述句向量生成所述第i个用户的语义向量。

也就是针对每一个用户的采样后的文本数据首先生成句向量，生成句向量的方式可以采用Erine(Enhanced Language Representation with Informative Entities，信息实体的增强的语义表示)模型等开源模型。

具体的，将所述第i个用户的采样后的文本数据逐个输入第一模型，得到所述第一模型输出的每一个采样后的文本数据的句向量。

也就是，得到每一个采样后的文本数据的句向量的方式，可以为采用第一模型对每一个采样后的文本数据进行处理，得到每一个采样后的文本数据的句向量。

基于所述每一个采样后的文本数据的所述句向量，生成所述每一个用户所对应的语义向量的方式，可以为：将第i个用户的全部句向量作为句向量集合，再对第i个用户的句向量集合进行sum pooling(总和池化)或mean pooling(平均池化)计算，生成可代表第i个用户的一个语义向量。这里，由于获取的用户的历史文本数据为预设时长内的，因此最终得到的语义向量可以包含用户在预设时长内的语义信息。

将多个句向量进行计算，得到第i个用户的语义向量，通过该语义向量表征第i个用户的语义信息。

最后，基于N个用户中每一个用户的语义向量，生成由N个用户组成的语义化关系网络。

如此通过本实施例提供的方法进行数据采样，能够保证用户的区分度，并且基于采样后的文本数据进行语义向量的生成，由于可以采用较少量的数据进行处理就能够对用户进行表征并且体现区分度，因此可以有效降低文本向量化的计算量。

对本申请提供一种示例性说明，如图4所示，包括：

S31：提取N个用户中每个用户长时间(一年)的历史文本数据，对所述历史文本数据进行归一化处理并记录每一个历史文本数据的时间戳。

其中，历史文本数据包括query(搜索词信息)以及title(浏览题目信息)。

记录时间戳可以为记录每一个历史文本数据的时间戳，需要指出的是，归一化处理之后可能存在部分历史文本数据合并的情况，此时，可以记录最后一个时间戳，或者可以将每一次出现的时间戳均进行记录。

记录每个用户的每个历史文本数据的出现次数；具体可以记录query以及title出现的次数。

S32：生成每个用户的搜索词信息集合以及浏览题目集合。

S33：对所述每个用户的搜索词信息集合以及浏览题目集合分别进行采样，得到所述每个用户的采样数据；其中，采样数据中包括搜索词采样数据以及浏览题目采样数据。

其中，采样方法有两个，可以采用下述两种方式中至少之一：

基于频率的采样：用户常搜的搜索词信息，被采样的概率要大，但是不能放弃用户只搜过一两次的搜索词信息；

Score_tf＝random(0,1)*count(query)

random(0,1)是取0到1中的一个随机数；

按Score_tf排序，取前多个最大频率采样值最大的为搜索词采样数据。

针对浏览题目信息采用一样的处理方式，前述第二实施例中已经说明，这里不再赘述。

基于时间的采样：用户最近搜的搜索词信息，被采样的概率要大，但是不能放弃用户过去很久前的搜索词信息；

Score_time＝random(0,1)*(cur_time-query_time)

cur_time是当前采样的时间戳，query_time是query的时间戳(最近的时间戳)；按Score_time进行排序，取前多个时间采样值最小的为搜索词采样数据。

S34：对每个用户的所述采样数据生成句向量，基于所述每个用户的句向量生成每个用户的语义向量。

其中，句向量的生成方式多样，可采用Erine等开源模型生成。再对每个用户的句向量集进行sum pooling或mean pooling计算，生成可代表用户的一个向量。该向量为用户的语义向量，包含有用户长时期的语义信息；

S35：将该每个用户的语义向量与关系网络融合，产出包含N个用户的语义化关系网络。其中，关系网络在前述第一实施例中已经说明，不再重复，将每个用户的语义向量与关系网络融合，可以是将语义向量作为该关系网络中每个用户对应的节点的特征属性以进行融合，最终得到包含每一个用户的语义向量信息的语义化关系网络。

本公开的第三实施例，提供了一种关系网络生成装置，如图5所示，包括：

获取模块41，用于获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；

采样模块42，用于对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据；

网络生成模块43，用于基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，基于所述N个用户分别对应的语义向量生成包含N个用户的语义化关系网络。

所述历史文本数据包括：搜索词信息以及浏览题目信息；

相应的，所述获取模块41，用于获取所述N个用户中第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息；基于所述第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息，生成所述第i个用户对应的搜索词信息集合以及浏览题目集合。

所述采样模块42，用于对所述N个用户中的所述第i个用户对应的搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，以及对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据；将所述第i个用户的至少一个搜索词采样数据以及至少一个浏览题目采样数据作为所述第i个用户的采样后的文本数据。

所述采样模块42，用于基于所述N个用户中的所述第i个用户的所述搜索词信息集合中的搜索词信息的出现次数以及随机数进行计算，得到所述搜索词信息所对应的频率采样分值；选取所述频率采样分值最大的前K个的搜索词信息作为至少一个搜索词采样数据；其中，K为大于等于1的整数；

和/或，

所述采样模块42，用于基于所述N个用户中的所述第i个用户的所述浏览题目集合中的浏览题目信息的出现次数以及随机数进行计算，得到所述浏览题目信息所对应的频率采样分值；选取所述频率采样分值最大的前H个的浏览题目信息作为至少一个浏览题目采样数据；其中，H为大于等于1的整数；

和/或，

所述网络生成模块43，用于基于所述N个用户中第i个用户的采样后的文本数据生成对应的句向量；基于所述句向量生成所述第i个用户的语义向量。

本申请第三实施例提供的装置，可以实现本申请第一实施例以及第二实施例提供的方法，具备相应的有益效果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图6所示，是根据本公开实施例的关系网络生成方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器801为例。

存储器802即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的关系网络生成方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的关系网络生成方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的关系网络生成方法对应的程序指令/模块(例如，附图5所示的获取模块41、采样模块42、网络生成模块43)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的关系网络生成方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

关系网络生成方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，可以通过对用户在预设时长内的大量历史文本数据中进行文本数据的采样，从而可以覆盖用户较长的时间范围内的信息，并且，通过对采样后的文本数据生成用户的语义向量；如此，能有效降低文本向量化的计算量，同时可以保留用户长时间的语义信息，并且能够有效体现用户之间的区分度，从而最终建立的语义化关系网络也能够表征用户的语义信息，并且保证在语义化关系网络中体现各个用户的区分度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种关系网络生成方法，包括：

获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；所述历史文本数据为：搜索词信息或浏览题目信息；

对所述N个用户分别对应的至少一个历史文本数据采用基于频率的采样方式或基于时间的采样方式进行采样，得到所述N个用户分别对应的采样后的文本数据；所述采样后的文本数据包括：至少一个搜索词采样数据以及至少一个浏览题目采样数据；

其中，所述基于频率的采样方式为：所述历史文本数据出现的次数越多，所述历史文本数据被采样的概率越大；所述基于时间的采样方式为：所述历史文本数据出现的时间越近，所述历史文本数据被采样的概率越大；

2.根据权利要求1所述的方法，其中，所述历史文本数据包括：搜索词信息以及浏览题目信息；

相应的，所述方法还包括：

获取所述N个用户中第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息；其中，i为大于等于1且小于等于N的整数；

基于所述第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息，生成所述第i个用户对应的搜索词信息集合以及浏览题目集合。

3.根据权利要求2所述的方法，其中，所述对所述N个用户分别对应的至少一个历史文本数据进行采样，得到所述N个用户分别对应的采样后的文本数据，包括：

对所述N个用户中的所述第i个用户对应的所述搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，以及对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据；

将所述第i个用户的至少一个搜索词采样数据以及至少一个浏览题目采样数据作为所述第i个用户的采样后的文本数据。

4.根据权利要求3所述的方法，其中，所述对所述N个用户中的所述第i个用户对应的搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，包括：

和/或，

5.根据权利要求3所述的方法，其中，所述对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据，包括：

和/或，

6.根据权利要求1所述的方法，其中，所述基于所述N个用户分别对应的采样后的文本数据确定所述N个用户分别对应的语义向量，包括：

基于所述句向量生成所述第i个用户的语义向量。

7.一种关系网络生成装置，包括：

获取模块，用于获取预设时长内N个用户分别对应的至少一个历史文本数据；其中，N为大于等于1的整数；所述历史文本数据为：搜索词信息或浏览题目信息；

采样模块，用于对所述N个用户分别对应的至少一个历史文本数据采用基于频率的采样方式或基于时间的采样方式进行采样，得到所述N个用户分别对应的采样后的文本数据；所述采样后的文本数据包括：至少一个搜索词采样数据以及至少一个浏览题目采样数据；

8.根据权利要求7所述的装置，其中，所述历史文本数据包括：搜索词信息以及浏览题目信息；

相应的，所述获取模块，用于获取所述N个用户中第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息；基于所述第i个用户在所述预设时长内的至少一个搜索词信息以及至少一个浏览题目信息，生成所述第i个用户对应的搜索词信息集合以及浏览题目集合。

9.根据权利要求8所述的装置，其中，所述采样模块，用于对所述N个用户中的所述第i个用户对应的搜索词信息集合进行采样得到采样后的至少一个搜索词采样数据，以及对所述第i个用户对应的所述浏览题目集合进行采样得到采样后的至少一个浏览题目采样数据；将所述第i个用户的至少一个搜索词采样数据以及至少一个浏览题目采样数据作为所述第i个用户的采样后的文本数据；其中，i为大于等于1且小于等于N的整数。

10.根据权利要求9所述的装置，其中，所述采样模块，用于基于所述N个用户中的所述第i个用户的所述搜索词信息集合中的搜索词信息的出现次数以及随机数进行计算，得到所述搜索词信息所对应的频率采样分值；选取所述频率采样分值最大的前K个的搜索词信息作为至少一个搜索词采样数据；其中，K为大于等于1的整数；

和/或，

11.根据权利要求9所述的装置，其中，所述采样模块，用于基于所述N个用户中的所述第i个用户的所述浏览题目集合中的浏览题目信息的出现次数以及随机数进行计算，得到所述浏览题目信息所对应的频率采样分值；选取所述频率采样分值最大的前H个的浏览题目信息作为至少一个浏览题目采样数据；其中，H为大于等于1的整数；

和/或，

12.根据权利要求7所述的装置，其中，所述网络生成模块，用于基于所述N个用户中第i个用户的采样后的文本数据生成对应的句向量；基于所述句向量生成所述第i个用户的语义向量。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。