CN110781407A

CN110781407A - 用户标签生成方法、装置及计算机可读存储介质

Info

Publication number: CN110781407A
Application number: CN201911000656.2A
Authority: CN
Inventors: 孟辉; 吴睿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-11

Abstract

本申请实施例公开了一种用户标签生成方法、装置及计算机可读存储介质，该方法包括：获取用户的行为文本序列，使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量，其中，所述行为文本序列是按照时间先后顺序生成的用来表征用户行为的文本所组成的序列；获取所述用户的社交网络信息，根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量；获取所述用户的社会统计学信息，根据所述社会统计学信息得到第三特征向量；对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。本申请实施例有利于提高生成用户标签的精度。

Description

用户标签生成方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种用户标签生成方法、装置及计算机可读存储介质。

背景技术

目前，多模态信息融合技术是人工智能领域研究的热点，例如，在用户标签生产过程中，往往需要将不同模态的数据如图像、文本、社交网络、地理位置以及社会统计学信息有机融合在一起，从而多角度、全方位地构造用户行为特征，给出精确的用户标签，进而给出准确的预测值，更好地服务产品运营、个性化推荐以及精准广告投放。

另外，社交网络信息在用户标签中具有举足轻重的作用，特别是对特征稀疏的用户来说尤为重要，例如，若用户的好友多为建筑行业或者用户加入了多个建筑行业讨论组，那么即使该用户的其他信息非常稀疏，我们也有较强的理由相信该用户同属于建筑行业。

目前在对社交网络信息与其他与其他模态的信息进行融合时，可采用线性拼接方法，但是，对于超大规模社交网络场景来说，每个用户的社交关系错综复杂，无法生成每个用户的社交网络向量，另外，由于不同的模态信息对用户所属的用户标签的贡献度不同，而仅进行简单的拼接，生成的用户标签精度低。

发明内容

本申请实施例提供了一种用户标签生成方法、装置及计算机可读存储介质，通过对多模态的数据进行融合，以生成精确的用户标签。

第一方面，本申请实施例提供一种用户标签生成方法，包括：

获取用户的行为文本序列，使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量，其中，所述行为文本序列是按照时间先后顺序生成的用来表征用户行为的文本所组成的序列；

获取所述用户的社交网络信息，根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量；

获取所述用户的社会统计学信息，根据所述社会统计学信息得到第三特征向量；

对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。

第二方面，本申请实施例提供一种用户标签生成装置，所述用户标签生成装置包括处理器、收发器和至少一个电路，所述处理器和所述收发器通过所述至少一个电路连接；

所述收发器，用于获取用户的行为文本序列、社交网络信息以及社会统计学信息，并将所述行为文本序列、所述社交网络信息以及所述社会统计学信息发送给所述处理器，其中，所述行为文本序列是按照时间先后顺序生成的用来表征用户行为的文本所组成的序列；

所述处理器，用于使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量；

所述处理器，还用于根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量；

所述处理器，还用于根据所述社会统计学信息得到第三特征向量；

所述处理器，还用于对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如第一方面所述的方法中的步骤的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，对社交模态下的社交网络信息与其他模态下的数据信息对应的特征向量进行拼接，得到用户拼接，由于用户标签融合了社交模态下的社交网络信息，而社交网络信息包含了丰富的用户特征(例如行业信息)，从而提高了用户标签的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多模态数据融合的示意图；

图2为本申请实施例提供的另一种多模态数据融合的示意图；

图3A为本申请实施例提供的一种用户标签生成的场景示意图；

图3B为本申请实施例提供的一种用户标签生成方法的流程示意图；

图3C为本申请实施例提供的一种基于注意力机制的处理行为序列的示意图；

图3D为本申请实施例提供的一种社交图网络的示意图；

图3E为本申请实施例提供的一种处理社交图网络的示意图；

图4为本申请实施例提供的另一种用户标签生成方法的流程示意图；

图5为本申请实施例提供的一种生成用户标签的模型的示意图；

图6为本申请实施例提供的一种用户标签生成装置的结构示意图；

图7为本申请实施例提供的一种用户标签生成装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在用户标签生成过程中，需要将不同模态的数据(如图像、文本、社交网络信息、地理位置以及社会统计学信息等)进行融合，以便多角度、全方位地构造用户行为特征，进而给出精确的用户标签。

参阅图1，图1提供了一种用于融合用户浏览视频序列、地理位置和用户社会统计学信息的深度神经网络模型(Deep Neural Networks，DNN)，具体来说，将用户的多个浏览向量以及搜索行为序列向量分别加权处理后，生成视频浏览向量Watch Vector和搜索向量Search Vector；然后将Watch Vector、Search Vector与地址位置信息、年龄性别等社会统计学信息进行拼接，得到目标特征向量，将目标特征向量喂入前向神经网络，经过一系列的后续处理(如非线性激活ReLU)，得到该用户的用户标签。

虽然上述DNN网络实现了将文本、图像、地理位置信息等不同模态数据的融合，但还缺乏将用户的社交网络信息进行融合方案；而且，社交网络信息在生成用户标签中具有举足轻重的作用，特别是对于特征稀疏的用户来说尤为重要，为了对社交网络信息进行融合，提出了基于图卷积神经网络的多模态融合方案，具体参见图2，如图2所示，不同节点表示不同的用户，不同用户间以边的方式进行连接来表征每个用户的社交关系，得到社交图网络，其他模态的数据(如行为文本序列及社会统计学信息等)作为节点特征加入到该社交图网络，然后利用该图网络进行训练，当用户包含多个模态数据时，对多个节点特征进行简单的线性拼接。在采用该社交网络图进行训练时，每个节点的邻居节点之间会有信号传递，从而将用户的社交网络信息加入到训练过程，但是由于节点特征的拼接方法简单，对复杂模态数据(例如图像特征)并不友好，降低了多模态数据融合的可扩展性；而且，在进行节点特征的拼接时，未考虑每个模态数据对用户标签的贡献度，从而导致拼接后的节点特征的精度低；另外，当用户的社交网络较复杂时，难以获取其他节点对本节点的信号，无法得到本节点对应的特征向量。

针对上述中多模态数据融合中存在的问题，特提出本申请方案。

参阅图3A，图3A为本申请实施例提供的一种用户标签生成的场景示意图，包括用户终端110和标签生成装置120；

其中，用户通过用户终端110进行网络社交、网上娱乐，等等，从用户终端110可以收集到用户所从属的行业信息(行为文本序列)、用户的社交网络信息、用户的社会统计学信息(如年龄、性别、学历等)，然后，将搜集到的行为文本序列、社交网络信息以及社会统计学信息发送给标签生成装置120，标签生成装置120调用与每个信息匹配的网络模型处理每个信息，得到与行为文本序列对应的第一特征向量，与社交网络信息对应的第二特征向量、与社会统计学信息对应的第三特征向量，最后，对第一特征向量、第二特征向量、第三特征向量进行拼接，得到用户的用户标签，并基于该用户标签对用户进行针对性的推荐。

参阅图3B，图3B为本申请实施例提供的一种用户标签生成方法，该方法包括但不限于以下步骤：

301：获取用户的行为文本序列，使用双向长短期记忆网络随机初始化所述行为文本序列，得到第一特征向量。

其中，该行为文本序列是时间先后顺序生成的用来表征用户行为的文本所组成的序列。

具体来说，该行为文本序列包括N个文本，该N个文本由用于表征用户在N个时刻的行为，其中，每个时刻对应一个文本，即将用于用户在N个不同时刻行为的文本按照时间的先后顺序组合起来，得到该行为文本序列。

然后，使用双向长短期记忆(Bi Long Short-Term Memory，BiLSTM)网络对每个文本进行向量编码，得到每个文本的特征向量，并对每个文本的特征向量进行加权处理，得到该第一特征向量。

302：获取所述用户的社交网络信息，根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量。

其中，社交网络信息包括：行业信息、社交信息、社交对象信息，等等。

其中，该归纳式学习可以为GraphSAGE算法。

可选的，根据社交网络信息建立与该用户的社交图网络，根据GraphSAGE算法对该社交图网络中该用户所在节点进行处理，得到该用户的第二特征向量。

303：获取所述用户的社会统计学信息，根据所述社会统计学信息得到第三特征向量。

可选的，该社会统计学信息包括与该用户的P项信息，该P项信息包括但不限于：年龄、性别、学历、家庭住址、工作地点；对每项信息进行向量编码，得到每项信息对应的子向量，从而得到P个子向量，然后，对P个子向量进行编码，从而得到第三特征向量。

304：对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。

其中，对该第一特征向量、第二特征向量以及第三特征向量进行维度拼接，即横向拼接，得到目标特征向量，将该目标特征向量进行非线性激活，并将非线性激活后的目标特征向量输入到softmax分类器中，输出该用户的用户标签。

其中，横向拼接即将向量进行首尾拼接，举例来说，第一特征向量x＝[a,b,c]，第二特征向量y＝[e,f,g],第三特征向量z＝[h,i,j]，则对第一特征向量x、第二向量y、第三向量z进行横向拼接，得到目标特征向量w＝[a,b,c,e,f,g,h,i,j]。需要说明的是，后续所提到的横向拼接均与此处类似，不再对横向拼接进行详细叙述。

可以看出，在本实施方案中，对每种模态下的数据信息进行单独处理，器中，基于注意力机制处理行为文本，使得到第一特征向量更能反映出用户所属的行业，进而提高用户标签的精度；另外，基于GraphSAGE算法对社交网络信息进行处理，从而在增加新的社交网络信息时，可以直接得到该节点的第二特征向量，无需重新进行模型训练，进而减少计算开销。

在一些可能的实施方式中，使用双向长短期记忆网络随机初始化所述行为文本序列，得到第一特征向量的实现过程可以为：提取N个文本中每个文本的关键词，使用BiLSTM网络随机初始化该N个文本中每个文本的关键词，得到N个特征向量，根据N个特征向量确定每个文本的权重；根据每个文本的权重对N个特征向量进行加权处理，得到第一特征向量。

其中，对关键词进行随机初始化为现有技术，不再叙述。

其中，在使用BiLSTM网络随机初始化该N个文本中每个文本的关键词时，具体为，使用BiLSTM网络的前向LSTM随机初始化每个文本对应的关键词，得到每个文本对应的前向特征向量，并同时使用BiLSTM的后向LSTM随机初始化每个文本对应的关键词，得到每个文本对应的后向特征向量，将N个文本中每个文本对应的前向特征向量和后向特征向量进行横向拼接，得到N个特征向量。

举例来说，如某个文本对应的关键词为“中国”，则使用前向LSTM对关键词“中国”进行随机初始化，得到前向特征向量h1＝[s1,s2,s3]，同步使用后向LSTM对关键词“中国”进行随机初始化，得到后向特征向量h1＝[m1,m2,m3]，然后，对h1以及h2进行横向拼接，得到该关键词的特征向量p＝[s1,s2,s3,m1,m2,m3]，即得到该文本的特征向量。

上述示出了一个文本包括一个关键词的情况，对于文本包括多个关键词的情况，按照上述的随机初始化方式，得到每个关键词对应的特征向量p，然后，将多个关键词对应的多个特征向量进行横向拼接，得到该文本对应的特征向量。

可以看出，在实施方式中，采用BiLSTM网络对行为文本进行初始化，利用文本中正反两个时序方向获取当前状态的过去和将来信息，丰富语义特征，使初始化后得到的特征向量更加符合用户的行为；而且，先得到每个文本的权重，该权重反映了该文本对用户所属行业的贡献度，根据权重进行加权处理，进一步提高第一特征向量来表征用户所属行业的精确度。

可选的，在对N个文本中每个文本进行关键词提取之前，根据预先构造的行业词典对N个文本进行去噪，滤除该N个文本中与行业无关的文本，得到T个文本；使用BiLSTM网络随机初始化T个文本中每个行为文本的关键词，得到T个特征向量；根据该T个特征向量确定每个文本的权重；根据每个文本的权重对该T个特征向量进行加权处理，得到所述第一特征向量。

其中，使用BiLSTM网络随机初始化T个文本中每个行为文本的关键词与上述的随机初始化过程一致，不再叙述，

可以看出，在本实施方式中，先对行为文本序列进行去噪，从而滤除无关的文本，避免处理无效数据，进而提高用户标签的生成效率；而且，得到每个文本的权重，该权重反映了该文本对用户所属行业的贡献度，根据权重进行加权处理，进一步提高第一特征向量的精确度。

下面结合图3C详细说明计算每个文本的权重以及对多个特征向量进行加权的过程，其中，该多个特征向量为去噪后得到T个文本的T个特征向量。

如图3C所示，在得到每个文本的特征向量后，基于注意力机制Attentionmechanism，根据该T个特征向量得到每个文本对应的权重，然后，基于每个文本对应的权重对T个特征向量进行加权处理，得到第一特征向量。

其中，可通过公式(1)得到第一特征向量。

h_t为T个文本中第t个文本的特征向量，W为权值矩阵，即W＝(w₁,w₂,…,w_T)，b_t为该特征向量对应的偏置，α_t为第t个文本对应的权重，C为第一特征向量。

在一些可能的实施方式中，该归纳式学习算法可以为graphsage算法，则根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量的实现过程可以为：根据所述graphsage算法对所述社交网络信息进行处理，得到第二特征向量。即，根据所述社交网络信息生成社交图网络；按照预设的采样占比对目标节点的邻居节点进行采样，得到R个邻居节点，所述目标节点为所述用户在所述社交图网络中所对应的节点，该采样占比为进行采样的邻居节点与所有邻居节点的占比；对所述R个邻居节点的特征向量进行加权处理，得到第四特征向量，该R个邻居节点的特征向量根据与搜索深度对应的邻居节点的特征向量得到；将所述目标节点的特征向量和所述第四特征向进行拼接，得到所述第二特征向量。

其中，对R个邻居节点的特征向量进行加权处理可以通过池化函数对该R个邻居节点进行聚合处理，该池化函数可以包括pooling、mean等。

可以看出，在本实施方式中，使用GraphSAGE算法对每个用户的社交网络信息进行融合，在社交图网络中新增节点时，可直接生成该节点的特征向量，无需重新训练整个模型，降低了融合时的运算开销，提高了融合时的泛化性能。

下面结合图3D和图3E详细说明GraphSAGE算法的处理过程。

参阅图3D，图3D为用户A、用户B、用户C、用户D、用户E和用户F的社交图网络，其中，节点A为目标节点，假设采样占比为1，即所有的邻居节点均参与节点A的特征向量的计算，如图3E所示，对节点B、节点C和节点D的特征向量

和

进行加权，得到第四特征向量

然后，对

以及节点A的特征向量

进行拼接，得到节点A的第二特征向量

其中，

和

可以由与节点B、节点C和节点D的相邻节点的特征向量计算得到。

其中，预设的搜索深度决定与目标节点的相邻深度。例如，当搜索深度为1时，则只需相邻节点的特征向量来计算第二特征向量，当搜索深度为2时，如图3E所示，首先通过邻居节点的邻居节点的特征向量计算每个邻居节点的特征向量，然后，再使用邻居节点的特征向量计算目标节点的特征向量。

在一些可能的实施方式中，在得到用户的用户标签后，所述方法还包括：使用所述用户的用户标签为所述用户进行个性化推荐。

参阅图4，图4为本申请实施例提供的另一种用户标签生成方法，该实施例中与图3B所示的实施例相同的内容，此处不再重复描述，该方法包括但不限于以下步骤：

401：获取用户的行为文本序列，使用双向长短期记忆网络BiLSTM随机初始化对所述行为文本序列进行处理，得到第一特征向量。

402：获取所述用户的社交网络信息，根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量。

403：获取所述用户的社会统计学信息，根据所述社会统计学信息得到第三特征向量。

404：对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。

405：根据所述用户的标签对所述用户进行个性化推荐。

该个性化推荐可以为广告推荐，视频推荐，新闻推荐，音乐推荐，等。

可以看出，在本实施方案中，对每种模态下的数据信息进行单独处理，器中，基于注意力机制处理行为文本，使得到第一特征向量更能反映出用户所属的行业，进而提高用户标签的精度；另外，基于GraphSAGE算法对社交网络信息进行处理，从而在增加新的社交网络信息时，可以直接得到该节点的第二特征向量，无需重新进行模型训练，进而减少计算开销；由于，生成的用户标签比较精确，从而使个性化推荐更加符合用户的实际需求。

需要说明的是，图4所示的方法的各个步骤的具体实现过程可参见上述图3B所述方法的具体实现过程，在此不再叙述。

在一些可能的实施方式中，本申请实施例提供的用户标签生成方法应用于如图5所示的标签生成模型中，该标签生成模型包括第一神经网络、第二神经网络和第三神经网络。

其中，第一神经网络为基于注意力机制的双向BiLSTM网络，其用于处理输入的行为文本序列，得到第一特征向量(weighted text vector)；

其中，第二神经网络为基于GraphSAGE算法训练得到的网络，其用于将输入的社交网络信息进行处理，得到第二特征向量(social network vecto)，具体来说，该网络为采用公式(2)中损失函数进行无监督优化得到的：

J_G(Z_u)为目节点z_u对应的损失，z_v为在指定深内z_u的邻居节点，σ是sigmoid函数，Q为负样本数量，P_n是负样本的分布函数，v_n是满足P_n分布的负样本集合，

为服从P_n分布的所有负样本v_n的期望。

需要说明的是，在对第二神经网络进行训练时，需构建训练数据集(社交图网络)，在构造社交图网络时，一般只需要对目标节点A相邻深度为2跳或者3跳的邻居节点进行采样，以便在不降低算法性能的情况下，尽可能的减少计算开销。

其中，第三神经网络为concat网络，用于将社会统计学维度下的多个子向量进行concat连接，得到第三特征向量(userprofile vector)。

最后，基于上述的标签生成模型对第一特征向量、第二特征向量以及第三特征向量进行维度拼接，得到目标特征向量，进行一系列的非线性激活，将非线性激活后的目标特征向量输入到softmax分类器中，得到该用户的标签label。

图6为本申请实施例提供的一种用户标签生成装置的结构示意图，装置600包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序不同于上述一个或多个应用程序，且上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在一些可能的实施方式中，所述行为文本序列包括N个文本，所述N个文本为用于表征所述用户在N个时刻的行为，所述N为大于1的整数，在所述使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列之前，上述程序还用于执行以下步骤的指令：

根据预先构造的行业词典对所述N个文本进行去噪，得到T个文本，T≤N，所述T为大于等于1的整数；

所述使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量，包括：

使用所述BiLSTM随机初始化所述T个文本中每个文本，得到T个特征向量；

根据所述T个特征向量确定所述T个文本中每个文本的权重；

根据每个文本的权重对所述T个特征向量进行加权处理，得到所述第一特征向量。

在一些可能的实施方式中，在使用所述BiLSTM随机初始化所述T个文本中每个文本，得到T个特征向量方面，上述程序具体用于执行以下步骤的指令：

提取所述T个文本中每个文本对应的关键词；

使用所述BiLSTM的前向LSTM随机初始化每个文本对应的关键词，得到每个文本对应的前向特征向量，并使用所述BiLSTM的后向LSTM随机初始化每个文本对应的关键词，得到每个文本对应的后向特征向量；

将所述T个文本中每个文本对应的前向特征向量和后向特征向量进行横向拼接，得到T个特征向量。

在一些可能的实施方式中，所述归纳式学习算法包括graphsage算法。

在一些可能的实施方式中，在根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量方面，上述程序具体用于执行以下步骤的指令：

根据所述graphsage算法对所述社交网络信息进行处理，得到第二特征向量，具体包括：

根据所述社交网络信息生成社交图网络；

对目标节点的邻居节点进行采样，得到R个邻居节点，所述目标节点为所述用户在所述社交图网络中所对应的节点；

对所述R个邻居节点的特征向量进行加权处理，得到第四特征向量；

将所述目标节点的特征向量和所述第四特征向量进行横向拼接，得到所述第二特征向量。

在一些可能的实施方式中，所述社会统计学信息包括P项信息，在根据所述社会统计学信息得到第三特征向量方面，上述程序具体用于执行以下步骤的指令：

获取所述P项信息中每项信息对应的子向量，得到P个子向量；

对所述P个子向量进行拼接，得到所述第三特征向量。

图7为本申请实施例提供的另一种用户标签生成装置的结构图，装置700包括处理器710、收发器720和至少一个电路730，所述处理器和所述收发器通过所述至少一个电路连接，其中：

收发器710，用于获取用户的行为文本序列、社交网络信息以及社会统计学信息，并将所述行为文本序列、所述社交网络信息以及所述社会统计学信息发送给处理器720，其中，所述行为文本序列是按照时间先后顺序生成的用来表征用户行为的文本所组成的序列；

处理器720，用于使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量；

处理器720，还用于根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量；

处理器720，还用于根据所述社会统计学信息得到第三特征向量；

处理器720，还用于对所述第一特征向量、所述第二特征向量、所述第三特征向量进行横向拼接，得到所述用户的用户标签。

在一些可能的实施方式中，所述行为文本序列包括N个文本，所述N个文本为用于表征所述用户在N个时刻的行为，所述N为大于1的整数，使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列之前，处理器720还用于，根据预先构造的行业词典对所述N个文本进行去噪，得到T个文本，T≤N，所述T为大于等于1的整数；

在使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量方面，处理器720，具体用于：

根据所述T个特征向量确定所述T个文本中每个文本的权重；

在一些可能的实施方式中，在使用所述BiLSTM随机初始化所述T个文本中每个文本，得到T个特征向量方面，处理器720，具体用于：

提取所述T个文本中每个文本对应的关键词；

在一些可能的实施方式中，在根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量方面，处理器720，具体用于：

根据所述graphsage算法对所述社交网络信息进行处理，得到第二特征向量，具体用于：

根据所述社交网络信息生成社交图网络；

在一些可能的实施方式中，所述社会统计学信息包括P项信息，在根据所述社会统计学信息得到第三特征向量方面，处理器720，具体用于：

对所述P个子向量进行拼接，得到所述第三特征向量。

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种用户标签生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种用户标签生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROT，Read-Only TeTory)、随机存取存储器(RAT，RandoT Access TeTory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only TeTory，简称：ROT)、随机存取器(英文：RandoT Access TeTory，简称：RAT)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用户标签生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述行为文本序列包括N个文本，所述N个文本为用于表征所述用户在N个时刻的行为，所述N为大于1的整数，在所述使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列之前，所述方法还包括：

根据所述T个特征向量确定所述T个文本中每个文本的权重；

3.根据权利要求2所述的方法，其特征在于，所述使用所述BiLSTM随机初始化所述T个文本中每个文本，得到T个特征向量，包括：

提取所述T个文本中每个文本对应的关键词；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述归纳式学习算法包括graphsage算法。

5.根据权利要求4所述的方法，其特征在于，所述根据归纳式学习算法对所述社交网络信息进行处理，得到第二特征向量，包括：

根据所述社交网络信息生成社交图网络；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述社会统计学信息包括P项信息，所述根据所述社会统计学信息得到第三特征向量，包括：

对所述P个子向量进行拼接，得到所述第三特征向量。

7.一种用户标签生成装置，其特征在于，所述用户标签生成装置包括处理器、收发器和至少一个电路，所述处理器和所述收发器通过所述至少一个电路连接；

8.根据权利要求7所述的装置，其特征在于，所述行为文本序列包括N个文本，所述N个文本为用于表征所述用户在N个时刻的行为，所述N为大于1的整数，使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列之前，所述处理器还用于，根据预先构造的行业词典对所述N个文本进行去噪，得到T个文本，T≤N，所述T为大于等于1的整数；

在使用双向长短期记忆网络BiLSTM随机初始化所述行为文本序列，得到第一特征向量方面，所述处理器，具体用于：

根据所述T个特征向量确定所述T个文本中每个文本的权重；

9.根据权利要求8所述的装置，其特征在于，在使用所述BiLSTM随机初始化所述T个文本中每个文本，得到T个特征向量方面，所述处理器，具体用于：

提取所述T个文本中每个文本对应的关键词；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。