CN113220999A

CN113220999A - 用户特征的生成方法、装置、电子设备和存储介质

Info

Publication number: CN113220999A
Application number: CN202110529089.0A
Authority: CN
Inventors: 李原; 杨德将
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-06
Anticipated expiration: 2041-05-14
Also published as: CN113220999B

Abstract

本公开提供了用户特征的生成方法、装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及自然语言处理和深度学习等人工智能领域。具体实现方案为：获取目标用户对应的第一历史文本数据；对第一历史文本数据进行解析，以确定目标用户对应的第一分词集；根据第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定第一分词集中包含的每个主题下的分词数量；根据第一分词集中包含的每个主题下的分词数量，确定目标用户对应的用户特征。由此，基于目标用户在每个主题下的分词数量，确定用户特征，提高了得到的用户特征的准确性。

Description

用户特征的生成方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理和深度学习等人工智能领域，具体涉及一种用户特征的生成方法及装置、模型训练方法及装置、电子设备和存储介质。

背景技术

随着互联网技术的不断发展，很多基于互联网的产品、服务等应运而生。为了提高服务质量和用户体验，可对用户进行特征分析，基于用户特征向用户提供个性化、精准的服务。

因此，如何提高得到的用户特征的准确性是亟待解决的问题。

发明内容

本公开提供了一种用户特征的生成方法及装置、模型训练方法及装置、电子设备和存储介质。

根据本公开的一方面，提供了一种用户特征的生成方法，包括：

获取目标用户对应的第一历史文本数据；

对所述第一历史文本数据进行解析，以确定所述目标用户对应的第一分词集；

根据所述第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定所述第一分词集中包含的每个所述主题下的分词数量；

根据所述第一分词集中包含的每个所述主题下的分词数量，确定所述目标用户对应的用户特征。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取训练数据集，其中，所述训练数据集中包括多个用户分别对应的多个历史文本数据；

分别对每个所述用户对应的多个历史文本数据进行解析，以确定每个所述用户对应的分词集；

确定每个所述用户对应的分词集中包含的各个主题下的分词，以及每个所述用户对应的标注风险等级；

将每个所述用户对应的分词集中包含的各个主题下的分词及对应的主题输入至初始神经网络模型，以获取所述初始神经网络模型输出的预测风险等级；

根据所述预测风险等级与所述标注风险等级之间的差异，对所述初始神经网络模型进行修正，以生成风控模型。

根据本公开的另一方面，提供了一种用户特征的生成装置，包括：

第一获取模块，用于获取目标用户对应的第一历史文本数据；

第一解析模块，用于对所述第一历史文本数据进行解析，以确定所述目标用户对应的第一分词集；

第一确定模块，用于根据所述第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定所述第一分词集中包含的每个所述主题下的分词数量；

第二确定模块，用于根据所述第一分词集中包含的每个所述主题下的分词数量，确定所述目标用户对应的用户特征。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第二获取模块，用于获取训练数据集，其中，所述训练数据集中包括多个用户分别对应的多个历史文本数据；

第二解析模块，用于分别对每个所述用户对应的多个历史文本数据进行解析，以确定每个所述用户对应的分词集；

第八确定模块，用于确定每个所述用户对应的分词集中包含的各个主题下的分词，以及每个所述用户对应的标注风险等级；

第二训练模块，用于将每个所述用户对应的分词集中包含的各个主题下的分词及对应的主题输入至初始神经网络模型，以获取所述初始神经网络模型输出的预测风险等级；根据所述预测风险等级与所述标注风险等级之间的差异，对所述初始神经网络模型进行修正，以生成风控模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种用户特征的生成方法的流程示意图；

图2为本公开实施例提供的另一种用户特征的生成方法的流程示意图；

图3为本公开实施例提供的另一种用户特征的生成方法的流程示意图；

图4为本公开实施例提供的另一种用户特征的生成方法的流程示意图；

图5为本公开实施例提供的另一种用户特征的生成方法的流程示意图；

图6为本公开实施例提供的一种模型训练方法的流程示意图；

图7为本公开实施例提供的一种用户特征的生成装置的结构示意图；

图8为本公开实施例提供的一种模型训练装置的结构示意图；

图9是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的用户特征的生成方法、装置、电子设备和存储介质。

人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。

NLP(Natural Language Processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向，NLP研究的内容包括但不限于如下分支领域：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。

深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

图1为本公开实施例提供的一种用户特征的生成方法的流程示意图。

如图1所示，该用户特征的生成方法包括：

步骤101，获取目标用户对应的第一历史文本数据。

本公开中，可获取某一用户在过去预设时长内的历史文本数据，为了便于区分，可将该用户称为目标用户，将获取的历史文本数据称为第一历史文本数据。其中，第一历史文本数据可以是目标用户浏览的网页内容、浏览的视频内容等。

在实际应用中，也可基于目标用户进行某一操作的时间，获取该操作时间之前预设时长内的历史文本数据。比如，用户A于2020年2月20日16点发起信贷请求，那么可获取该时间之前15天内用户A的历史文本数据，比如浏览的网页内容、网上购物的情况、浏览的视频内容等。

需要说明的是，本公开中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

步骤102，对第一历史文本数据进行解析，以确定目标用户对应的第一分词集。

本公开中，可对第一历史文本数据进行解析，比如去除感叹词、助词等，并进行切词处理和去重处理，得到多个分词，这些分词构成了分词集，为了便于区分称为第一分词集。

在实际应用中，可能会获取目标用户的多个历史文本数据，可对每个历史文本数据进行解析，得到每个历史文本数据的分词集。之后，按照历史文本数据的生成时间的先后顺序，将多个分词集合并并进行去重，得到第一分词集。或者，也可将多个历史文本数据按照时间先后顺序排序，整合成一个历史文本数据，即第一历史文本数据可以是多个历史文本数据整合得到的，之后进行解析得到多个分词，这些分词构成第一分词集。

步骤103，根据第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定第一分词集中包含的每个主题下的分词数量。

本公开中，可预先获取多个主题以及每个主题对应的各个分词。这里获取的多个主题以及每个主题对应的各个分词，可以是人工对多个文档中的分词进行分类得到的。

比如，获取两个主题“游戏”和“旅行”，其中，主题“游戏”对应的分词有[王者荣耀打野荣耀辅助上分新英雄],与主题“旅行”对应的分词有[景点天气车票出发地目标地]等。

需要说明的是，上述举例中主题对应的分词仅为示例，不能看作对本公开的限制。

在获取第一分词集后，可将第一分词集中的每个分词分别与每个主题对应的各个分词进行匹配，以根据第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定第一分词集中包含的每个主题下的分词，从而确定第一分词集中包含的每个主题下的分词数量。

在进行匹配时，可计算两个分词分别对应的词向量之间的距离，用距离衡量两个分词的匹配度。其中，距离越小匹配度越高，距离越大匹配度越低。

比如，将第一分词集中的分词p1与主题a中的每个分词进行匹配，若分词p1与主题a中某分词的匹配度大于预设匹配度阈值，可认为第一分词集中包含主题下的该分词。

步骤104，根据第一分词集中包含的每个主题下的分词数量，确定目标用户对应的用户特征。

本公开中，可将第一分词集中包含的每个主题下的分词数量大于预设数量进行比较，将分词数量大于预设数量的主题，作为目标用户对应的用户特征。其中，预设数量可根据实际需要确定。

比如，预设数量为0,共有8个主题，若有5个主题，第一分词集中包含这些主题下的分词，可将这5个主题作为目标用户对应的用户特征。

或者，也可将第一分词集中包含的主题下分词数量最大的一个或多个主题作为目标用户的对应的用户特征。比如，第一分词集中包含的主题a下、主题b下的分词数量最大，那么可将主题a和主题b作为目标用户对应的用户特征。

又或者，也可将第一分词集中包含的每个主题下的分词数量，直接作为目标用户对应的用户特征。

比如，有5主题，第一分词集中包含的每个主题下的分词数量分别为6、5、4、0、0,那么可将5个主题分别对应的分词数量，为目标用户对应的用户特征。

本公开实施例中，通过对目标用户对应的第一历史文本数据进行解析，以确定目标用户对应的第一分词集，将第一分词集中的各个分词分别与各个主题下的各分词进行匹配，以确定第一分词集中包含的每个主题下的分词数量，并根据第一分词集中包含的每个主题下的分词数量，确定目标用户对应的用户特征，从而基于目标用户在每个主题下的分词数量，确定用户特征，提高了得到的用户特征的准确性。

在本公开的一个实施例中，在获取用户特征之后，还可基于用户特征向目标用户推送推广信息，从而可以提高推广信息推送的精准性。下面结合图2进行说明，图2为本公开实施例提供的另一种用户特征的生成方法的流程示意图。

如图2所示，该用户特征的生成方法包括：

步骤201，获取目标用户对应的第一历史文本数据。

步骤202，对第一历史文本数据进行解析，以确定目标用户对应的第一分词集。

步骤203，根据第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定第一分词集中包含的每个主题下的分词数量。

步骤204，根据第一分词集中包含的每个主题下的分词数量，确定目标用户对应的用户特征。

本公开中，步骤201-步骤204与上述步骤101-步骤104类似，故在此不再赘述。

步骤205，确定用户特征分别与各个待推广信息之间的关联度。

本公开中，可计算用户特征分别与每个待推广信息之间的关联度。其中，待推广信息可以是广告、视频、新闻等。

比如，用户特征为游戏和旅行，可计算每个待推广信息与游戏之间的关联度，以及每个待推广信息与旅行之间的关联度。

步骤206，根据各个关联度，确定目标推广信息。

在获取用户特征与每个待推广信息之间的关联度之后，可将关联度大于预设关联度阈值的待推广信息，作为目标推广信息。

可以理解的是，目标推广信息可以是一个，也可以是多个。

步骤207，向目标用户推送目标推广信息。

在获取目标推广信息后，可通过目标用户所用的客户端将目标推广信息推送给目标用户。

比如，目标用户对应的用户特征包括游戏，那么可向用户推荐与游戏相关的新闻、软件等。

本公开实施例中，在确定目标用户对应的用户特征之后，还可确定用户特征分别与各个待推广信息之间的关联度，根据各个关联度，确定目标推广信息，并向目标用户推送目标推广信息。由此，基于用户特征向目标用户推送推广信息，从而可以提高推广信息推送的精准性。

在本公开的一个实施例中，也可在获取第一分词集中包含的每个主题下的分词数量后，向目标用户推送待推广信息。比如，确定第一分词集中包含的主题b下的分词数量最大，可基于主题b确定目标推广信息，并向目标用户推送目标推广信息。

在本公开的一个实施例中，在确定第一分词集中包含的每个主题下的分词数量之后，还可确定目标用户是否为目标风险用户。下面结合图3进行说明，图3为本公开实施例提供的另一种用户特征的生成方法的流程示意图。

如图3所示，该用户特征的生成方法包括：

步骤301，获取目标用户对应的第一历史文本数据。

步骤302，对第一历史文本数据进行解析，以确定目标用户对应的第一分词集。

本公开中，步骤301-步骤302与上述步骤101-步骤102类似，故在此不再赘述。

步骤303，确定第一分词集中包含的指定类型主题下的分词数量，其中，指定类型主题与目标风险相关。

在获取第一分词集中包含的每个主题下的分词数量后，可确定第一分词集中包含的指定类型主题下的分词数量。其中，指定类型主题与目标风险相关。

比如，指定类型主题为分期支付，该主题与超前消费风险相关，可以确定第一分词集中包含的分期付款主题下的分词数量。又如，目标风险也可以为还款逾期风险等。

需要说明的是，本公开对指定类型主题和目标风险不作限定。

步骤304，在第一分词集中包含的指定类型主题下的分词的数量大于预设阈值的情况下，确定目标用户为具有目标风险的用户。

本公开中，若第一分词集中包含的指定类型主题下的分词的数量大于预设阈值，可以确定目标用户为具有目标风险的用户。

比如，第一分词集中包含的分期付款主题下的分词数量为20，大于预设阈值10，可以认为目标用户具有超前消费风险的用户。

又如，以信贷风控场景为例，某用户对应的分词集中包含的信贷主题下的分词数量大于预设阈值，可以认为该用户具有逾期还款风险，那么可拒绝向该用户提供相应服务。

本公开实施例中，在确定第一分词集中包含的每个主题下的分词数量之后，还可确定第一分词集中包含的指定类型主题下的分词数量，其中，指定类型主题与目标风险相关，在第一分词集中包含的指定类型主题下的分词的数量大于预设阈值的情况下，确定目标用户为具有目标风险的用户。由此，可根据第一分词集中包含的指定类型主题下的分词数量，识别用户是否为目标风险用户，可以此确定是否向目标用户提供某些服务。

在本公开的一个实施例中，可通过聚类方式，确定多个主题以及主题对应的各个分词。下面结合图4进行说明，图4为本公开实施例提供的另一种用户特征的生成方法的流程示意图。

如图4所示，该用户特征的生成方法还可包括：

步骤401，获取多个用户分别对应的多个第二历史文本数据。

步骤402，分别对每个用户对应的多个第二历史文本数据进行解析，以确定每个用户对应的第二分词集。

本公开中，获取第二分词集的方式与获取第一分词集的方式类似，故在此不再赘述。

步骤403，对多个用户对应的多个第二分词集中的分词进行聚类，以获取多个主题词库。

本公开中，每个用户对应一个第二分词集，可采用LDA(Latent DirichletAllocation，隐含狄利克雷分配)模型对多个第二分词集进行聚类。在获取多个第二分词集后，可设定聚类得到的主题数量，并将每个用户对应的第二分词集输入至初始LDA模型中，对初始LDA模型进行训练。

在LDA模型收敛时，可获取分词概率分布，其中，分词概率分布中包含每个分词属于每个主题的概率，之后可根据分词概率分布对多个第二分词集中的分词进行聚类，比如，对于每个主题，可将概率大于预设概率的分词作为主题对应的分词，由此可以得到多个主题词库。其中，每个主题词库中包含一个或多个分词。

比如，在训练LDA模型时，设定主题数量为m个，基于模型收敛时的分词概率分布，可确定topic_1、topic_2、……、topic_m-1、topic_m共m个主题词库。

比如，topic_7:[王者荣耀打野荣耀辅助上分新英雄]；topic_10:[信用***申请卡我爱卡额度爱卡分期金融还款]；topic_11:[景点天气火车火车票汽车汽车票飞机飞机票出发地目的地]。

上述举例说明了topic_7、topic_10和topic_11三个主题词库包含的分词，或者也可以认为是topic_7、topic_10和topic_11三个主题分别对应的分词，这些分词是主题词库中的部分分词。

步骤404，根据每个主题词库中的各个分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题。

由于利用上述方式不确定每个主题词库对应的主题，比如，主题词库topic_11为:[景点天气火车火车票汽车汽车票飞机飞机票出发地目的地]，但是不确定topic_11的主题是什么，因此，本公开中，可计算每个主题词库中的各个分词与预设主题之间的匹配度，根据每个主题词库中的分词与预设主题之间的匹配度，确定每个主题词库对应的主题。

本公开中，预设主题为多个，可计算每个主题词库中的每个分词与每个预设主题之间的匹配度，若主题词库中每个分词与某预设主题匹配度均大于预设匹配度阈值，可确定主题词库对应的主题为该预设主题。由此，可以确定每个主题词库对应的主题，从而得到多个主题以及每个主题对应的分词。比如，可以确定上述主题词库topic_11对应的主题为“旅行”。

本公开实施例的用户特征的生成方法，可以广泛用于建模和特征开发相关的项目，比如，基于联合建模项目，可获取多个用户的信贷数据，比如包括用户的借款时间等，可基于借款时间，获取用户在借款时间之前预设时长内相关的历史文本数据，比如，浏览网页内容、视频内容等，基于这些历史文本数据，确定多个主题词库以及每个主题词库对应的主题。

本公开实施例中，还可通过获取多个用户分别对应的多个第二历史文本数据，对多个第二历史文本数据进行解析，以确定多个用户分别对应的第二分词集，并对多个第二分词集中的分词进行聚类，以获取多个主题词库，并根据每个主题词库中的分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题。由此，可通过利用多个用户对应的多个第二历史文本数据，得到多个主题词库以及每个主题词库对应的主题，从而可以利用多个主题和每个主题对应的分词，确定用户特征。

在本公开的一个实施例中，在确定各个主题词库分别对应的主题之后，可基于多个用户对应的多个第二分词集，训练得到风控模型。下面结合图5进行说明，图5为本公开实施例提供的另一种用户特征的生成方法的流程示意图。

如图5所示，上述在确定各个主题词库分别对应的各个主题之后，还包括：

步骤501，根据每个第二分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个第二分词集中包含的每个主题下的分词。

本公开中，确定第二分词集中包含的每个主题下的分词的方法，与上述确定第一分词集中包含的每个主题下的分词的方法类似，故在此不再赘述。

步骤502，基于每个第二分词集中包含的每个主题下的分词数量，确定每个用户对应的标注风险等级。

本公开中，可基于每个第二分词集中包含的每个主题下的分词数量，确定每个第二分词集中包含的与风险相关的主题下的分词数量，以此确定每个用户对应的标注风险等级。

其中，第二分词集中包含的与风险相关的主题下的分词数量越多，标注风险等级越高。

比如，与逾期还款风险相关的主题有信贷、分期支付等，可根据每个用户对应的第二分词集中包含的信贷和分期支付主题下的分词数量，确定每个用户对应的标注风险等级。

步骤503，将每个第二分词集中包含的每个主题下的分词及对应的主题输入至初始神经网络模型，以获取初始神经网络模型输出的预测风险等级。

本公开中，可将第二分词集中包含的每个主题下的分词及对应的主题，输入至初始神经网络模型中，利用初始神经网络模型进行预测，得到用户对应的预测风险等级。

步骤504，根据预测风险等级与标注风险等级之间的差异，对初始神经网络模型进行修正，以生成风控模型。

本公开中，可确定预测风险等级与标注风险等级之间的差异，如果差异大于预设阈值，可对初始神经网络模型进行修正，利用剩余的第二分词集对修正后的模型继续训练，直至模型收敛生成风控模型。

在对风控模型进行训练时，可以通过深度学习的方式进行训练，相比于其他机器学习方法，深度学习在大数据集上的表现更好。

本公开中，风控模型比如可以是信贷风控模型，在确定标注风险等级时，可根据每个用户对应的第二分词集中包含的信贷和分期支付主题下的分词数量，确定每个用户对应的标注风险等级，从而训练得到信贷风控模型。又如，风控模型可以是保险风控模型，在确定标注风险等级时，可根据每个用户对应的第二分词集中包含的与保险相关的主题下的分词数量，以确定每个用户对应的标注风险等级，从而训练得到保险风控模型。

本公开实施例中，在确定各个主题词库分别对应的各个主题之后，还可根据每个第二分词集中的各个分词与各个主题对应的各个分词之间的匹配度，确定每个第二分词集中包含的每个主题下的分词，并基于每个第二分词集中包含的每个主题下的分词数量，确定每个用户对应的标注风险等级，将每个第二分词集中包含的每个主题下的分词及对应的主题输入至初始神经网络模型，以获取初始神经网络模型输出的预测风险等级，并根据预测风险等级与标注风险等级之间的差异，对初始神经网络模型进行修正，以生成风控模型。由此，可利用每个用户对应的第二分词集中包含的每个主题下的分词，训练得到风控模型。

在实际应用中，在确定各个主题词库分别对应的主题之后，也可利用每个用户对应的第二分词集中包含的每个主题下的分词，训练得到推荐模型，以利用推荐模型向目标用户推送推广信息。

在本公开的一个实施例中，还可利用风控模型，确定是否响应目标用户的用户请求。

本公开中，在获取到目标用户发送的用户请求的情况下，可获取目标用户在发起用户请求之前预设时长内的第一历史文本数据，对第一历史文本数据进行解析，确定第一分词集，根据第一分词集中各个分词分别与各个主题下的各个分词之间的匹配度，确定第一分词集中包含的每个主题下的分词，可将目标用户对应的第一分词集中包含的每个主题下的分词及对应的主题，输入至风控模型，风控模型输出目标用户对应的风险等级。若目标用户对应的风险等级小于预设风险等级，说明目标用户逾期还款的风险比较小，可响应目标用户的用户请求。可以理解的是，若目标用户对应的风险等级大于或等于预设风险等级，可拒绝目标用户的用户请求。

或者，也可设定不同的用户请求对应不同的风险等级，若目标用户对应的风险等级小于或等于用户请求对应的风险等级，可响应目标用户的用户请求。

比如，用户请求为信贷请求，在基于信贷风控模型，确定用户对应的风险等级小于预设风险等级的情况下，可以响应用户的信贷请求，从而可以向用户提供相应的服务。

本公开实施例中，在获取到目标用户发送的用户请求的情况下，可将目标用户对应的第一分词集中包含的每个主题下的分词及对应的主题输入至风控模型，以确定目标用户对应的风险等级；在风险等级小于预设风险等级的情况下，响应用户请求。由此，可基于目标用户对应的第一分词集中包含的每个主题下的分词，利用风控模型，确定是否响应目标用户的用户请求，提高了模型对逾期用户的区分效果，可以减少经济损失。

为了实现上述实施例，本公开实施例还提出一种模型训练方法。图6为本公开实施例提供的一种模型训练方法的流程示意图。

如图6所示，该模型训练方法包括：

步骤601，获取训练数据集，其中，训练数据集中包括多个用户分别对应的多个历史文本数据。

本公开中，可获取多个用户分别对应的多个历史文本数据，比如浏览的网页内容、浏览的视频内容等，作为训练数据集。

步骤602，分别对每个用户对应的多个历史文本数据进行解析，以确定每个用户对应的分词集。

本公开中，多个用户中的每个用户对应多个历史文本数据，可对每个历史文本数据进行解析，比如进行切词处理和去重处理，得到每个历史文本数据的分词集，之后按照历史文本数据的生成时间的先后顺序，将多个分词集合并并进行去重，得到用户对应的分词集。

或者，在对每个用户对应的多个历史文本数据进行解析时，可将用户对应的多个历史文本数据按照时间先后顺序排序，整合成一个历史文本数据，即第一历史文本数据可以是多个历史文本数据整合得到的，之后进行解析得到多个分词，这些分词构成分词集。

步骤603，确定每个用户对应的分词集中包含的各个主题下的分词，以及每个用户对应的标注风险等级。

步骤604，将每个用户对应的分词集中包含的各个主题下的分词及对应的主题输入至初始神经网络模型，以获取初始神经网络模型输出的预测风险等级。

步骤605，根据预测风险等级与标注风险等级之间的差异，对初始神经网络模型进行修正，以生成风控模型。

本公开中，步骤603-605与上述步骤502-504类似，故在此不在赘述。

本公开中，风控模型比如可以是信贷风控模型，在确定标注风险等级时，可根据每个用户对应的分词集中包含的信贷和分期支付主题下的分词数量，确定每个用户对应的标注风险等级，从而训练得到信贷风控模型。又如，风控模型可以是保险风控模型，在确定标注风险等级时，可根据每个用户对应的分词集中包含的与保险相关的主题下的分词数量，以确定每个用户对应的标注风险等级，从而训练得到保险风控模型。

本公开实施例中，通过获取训练数据，分别对训练数据集中每个用户对应的多个历史文本数据进行解析，以确定每个用户对应的分词集，并确定每个用户对应的分词集中包含的各个主题下的分词，以及每个用户对应的标注风险等级，将每个用户对应的分词集中包含的各个主题下的分词及对应的主题输入至初始神经网络模型，以获取初始神经网络模型输出的预测风险等级，并根据预测风险等级与标注风险等级之间的差异，对初始神经网络模型进行修正，以生成风控模型。由此，可通过获取每个用户对应的分词集，并确定每个用户对应的分词集中包含的各个主题下的分词，利用每个用户对应的分词集中包含的每个主题下的分词，训练得到风控模型，从而提高了模型的准确性。

在本公开的一个实施例中，上述在确定每个用户对应的分词集中包含的各个主题下的分词时，可采用文档主题生成模型，比如LDA模型，对多个用户对应的多个分词集进行聚类。

在获取多个分词集后，可设定聚类得到的主题数量，并将每个用户对应的分词集中的每个分词输入至初始文档主题生成模型中，对初始文档主题生成模型进行训练。

在文档主题生成模型收敛时，可获取分词概率分布，其中，分词概率分布中包含每个分词属于各个主题的概率，之后可根据分词概率分布对多个分词集中的分词进行聚类，比如，对于每个主题，可将概率大于预设概率的分词，作为主题对应的分词，由此可以得到每个主题对应的各分词，每个主题对应的各个分词构成一个主题词库，即获取多个主题词库。其中，主题词库的数量与主题数量相同，每个主题词库中包含一个或多个分词。

在获取多个主题词库时，通过利用文档主题生成模型获得的分词概率分布，得到多个主题词库，提高了主题词库的准确性。

由于利用文档主题生成模型可以得到多个主题词库，但是不确定每个主题词库对应的具体主题是什么，因此，本公开中，可计算每个主题词库中的各个分词与预设主题之间的匹配度，根据每个主题词库中的各分词与预设主题之间的匹配度，确定每个主题词库对应的主题。

本公开中，确定每个主题词库对应的主题的方式与上述步骤404类似，故在此不再赘述。

在确定每个主题词库对应的主题后，可根据每个用户对应的分词集中包含的各个主题下的分词，与上述确定第一分词集中包含的每个主题下的分词的方法类似，故在此不再赘述。

在每个用户对应的标注风险等级时，可根据每个用户对应的分词集中包含的每个主题下的分词数量，确定每个用户对应的分词集中包含与风险相关的主题下的分词数量，基于每个用户对应的分词集中包含与风险相关的主题下的分词数量，可以确定每个用户对应的标注风险等级。

本公开中，通过基于每个用户对应的分词集中包含的每个主题下的分词数量，确定每个用户对应的标注风险等级，提高了标注的准确性。

为了实现上述实施例，本公开实施例还提出一种用户特征的生成装置。图7为本公开实施例提供的一种用户特征的生成装置的结构示意图。

如图7所示，该用户特征的生成装置700包括：第一获取模块710、第一解析模块720、第一确定模块730和第二确定模块740。

第一获取模块710，用于获取目标用户对应的第一历史文本数据；

第一解析模块720，用于对所述第一历史文本数据进行解析，以确定所述目标用户对应的第一分词集；

第一确定模块730，用于根据所述第一分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定所述第一分词集中包含的每个所述主题下的分词数量；

第二确定模块740，用于根据所述第一分词集中包含的每个所述主题下的分词数量，确定所述目标用户对应的用户特征。

在本公开实施例一种可能的实现方式中，该装置还可包括：

第三确定模块，用于确定所述用户特征分别与各个待推广信息之间的各个关联度；

第四确定模块，用于根据所述各个关联度，确定目标推广信息；

推送模块，用于向所述目标用户推送所述目标推广信息。

在本公开实施例一种可能的实现方式中，第一确定模块730，还用于确定所述第一分词集中包含的指定类型主题下的分词数量，其中，所述指定类型主题与目标风险相关；

第二确定模块740，还用于在所述第一分词集中包含的指定类型主题下的分词的数量大于预设阈值的情况下，确定所述目标用户为具有所述目标风险的用户。

在本公开实施例一种可能的实现方式中，所述第一获取模块710，还用于获取多个用户分别对应的多个第二历史文本数据；

所述第一解析模块720，还用于对每个所述用户对应的多个第二历史文本数据进行解析，以确定每个所述用户对应的第二分词集；

该装置还可包括：

聚类模块，用于对所述多个用户对应的多个第二分词集中的分词进行聚类，以获取多个主题词库；

第五确定模块，用于根据每个所述主题词库中的各个分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题。

在本公开实施例一种可能的实现方式中，所述第一确定模块730，还用于根据每个所述第二分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个所述第二分词集中包含的每个所述主题下的分词；

该装置还可包括：

第六确定模块，用于基于每个所述第二分词集中包含的每个所述主题下的分词数量，确定每个所述用户对应的标注风险等级；

第一训练模块，用于将每个所述第二分词集中包含的每个所述主题下的分词及对应的主题输入至初始神经网络模型，以获取所述初始神经网络模型输出的预测风险等级；根据所述预测风险等级与所述标注风险等级之间的差异，对所述初始神经网络模型进行修正，以生成风控模型。

在本公开实施例一种可能的实现方式中，该装置还可包括：

第七确定模块，用于在获取到所述目标用户发送的用户请求的情况下，将所述目标用户对应的第一分词集中包含的每个所述主题下的分词及对应的主题，输入至所述风控模型，以确定所述目标用户对应的风险等级；

响应模块，用于在所述风险等级小于预设风险等级的情况下，响应所述用户请求。

需要说明的是，前述用户特征的生成方法实施例的解释说明，也适用于该实施例的用户特征的生成装置，故在此不再赘述。

为了实现上述实施例，本公开还提出了一种模型训练装置。图8为本公开实施例提供的一种模型训练装置的结构示意图。

如图8所示，该模型训练装置包括：第二获取模块810、第二解析模块820、第八确定模块830和第二训练模块840。

第二获取模块810，用于获取训练数据集，其中，所述训练数据集中包括多个用户分别对应的多个历史文本数据；

第二解析模块820，用于分别对每个所述用户对应的多个历史文本数据进行解析，以确定每个所述用户对应的分词集；

第八确定模块830，用于确定每个所述用户对应的分词集中包含的各个主题下的分词，以及每个所述用户对应的标注风险等级；

第二训练模块840，用于将每个所述用户对应的分词集中包含的各个主题下的分词及对应的主题输入至初始神经网络模型，以获取所述初始神经网络模型输出的预测风险等级；根据所述预测风险等级与所述标注风险等级之间的差异，对所述初始神经网络模型进行修正，以生成风控模型。

在本公开实施例一种可能的实现方式中，所述第八确定模块830，包括：

聚类单元，用于对所述多个用户对应的多个分词集中的分词进行聚类，以获取多个主题词库；

第一确定单元，用于根据每个所述主题词库中的各个分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题；

第二确定单元，用于根据每个所述分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个所述分词集中包含的每个所述主题下的分词；

第三确定单元，用于基于每个所述用户对应的分词集中包含的每个所述主题下的分词数量，确定每个所述用户对应的标注风险等级。

在本公开实施例一种可能的实现方式中，所述聚类单元，用于：

将所述多个分词集中的每个分词输入至文档主题生成模型，以获取分词概率分布，其中，所述分词概率分布包括每个分词属于各个主题的概率；

根据所述分词概率分布对所述多个分词集中的分词进行聚类，获取多个主题词库。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)902中的计算机程序或者从存储单元908加载到RAM(Random AccessMemory，随机访问/存取存储器)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。I/O(Input/Output，输入/输出)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如用户特征的生成方法。例如，在一些实施例中，用户特征的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的用户特征的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用户特征的生成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上***的***)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

需要说明的是，上述电子设备也可以执行本公开中的模型训练方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行本公开上述实施例提出的用户特征的生成方法，或模型训练方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用户特征的生成方法，包括：

获取目标用户对应的第一历史文本数据；

2.如权利要求1所述的方法，其中，在所述确定所述目标用户对应的用户特征之后，还包括：

确定所述用户特征分别与各个待推广信息之间的关联度；

根据各个关联度，确定目标推广信息；

向所述目标用户推送所述目标推广信息。

3.如权利要求1所述的方法，其中，所述确定所述第一分词集中包含的每个所述主题下的分词数量，包括：

确定所述第一分词集中包含的指定类型主题下的分词数量，其中，所述指定类型主题与目标风险相关；

所述根据所述第一分词集中包含的每个所述主题下的分词数量，确定所述目标用户对应的用户特征，包括：

在所述第一分词集中包含的指定类型主题下的分词的数量大于预设阈值的情况下，确定所述目标用户为具有所述目标风险的用户。

4.如权利要求1所述的方法，其中，还包括：

获取多个用户分别对应的多个第二历史文本数据；

分别对每个所述用户对应的多个第二历史文本数据进行解析，以确定每个所述用户对应的第二分词集；

对所述多个用户对应的多个第二分词集中的分词进行聚类，以获取多个主题词库；

根据每个所述主题词库中的各个分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题。

5.如权利要求4所述的方法，其中，在所述确定各个主题词库分别对应的主题之后，还包括：

根据每个所述第二分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个所述第二分词集中包含的每个所述主题下的分词；

基于每个所述第二分词集中包含的每个所述主题下的分词数量，确定每个所述用户对应的标注风险等级；

将每个所述第二分词集中包含的每个所述主题下的分词及对应的主题输入至初始神经网络模型，以获取所述初始神经网络模型输出的预测风险等级；

6.如权利要求5所述的方法，其中，所述方法还包括：

在获取到所述目标用户发送的用户请求的情况下，将所述目标用户对应的第一分词集中包含的每个所述主题下的分词及对应的主题，输入至所述风控模型，以确定所述目标用户对应的风险等级；

在所述风险等级小于预设风险等级的情况下，响应所述用户请求。

7.一种模型训练方法，包括：

8.如权利要求7所述的方法，其中，所述确定每个所述用户对应的分词集中包含的各个主题下的分词，以及每个所述用户对应的标注风险等级，包括：

对所述多个用户对应的多个分词集中的分词进行聚类，以获取多个主题词库；

根据每个所述主题词库中的各个分词与预设主题之间的匹配度，确定各个主题词库分别对应的主题；

根据每个所述分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个所述分词集中包含的每个所述主题下的分词；

基于每个所述用户对应的分词集中包含的每个所述主题下的分词数量，确定每个所述用户对应的标注风险等级。

9.如权利要求8所述的方法，其中，所述对所述多个用户对应的多个分词集中的分词进行聚类，以获取多个主题词库，包括：

10.一种用户特征的生成装置，包括：

11.如权利要求10所述的装置，其中，所述装置还包括：

第三确定模块，用于确定所述用户特征分别与各个待推广信息之间的关联度；

第四确定模块，用于根据各个关联度，确定目标推广信息；

推送模块，用于向所述目标用户推送所述目标推广信息。

12.如权利要求10所述的装置，其中，所述第一确定模块，还用于确定所述第一分词集中包含的指定类型主题下的分词数量，其中，所述指定类型主题与目标风险相关；

所述第二确定模块，还用于在所述第一分词集中包含的指定类型主题下的分词的数量大于预设阈值的情况下，确定所述目标用户为具有所述目标风险的用户。

13.如权利要求10所述的装置，其中，所述第一获取模块，还用于获取多个用户分别对应的多个第二历史文本数据；

所述第一解析模块，还用于分别对每个所述用户对应的多个第二历史文本数据进行解析，以确定每个所述用户对应的第二分词集；

所述装置还包括：

14.如权利要求13所述的装置，其中，所述第一确定模块，还用于根据每个所述第二分词集中的各个分词分别与各个主题对应的各个分词之间的匹配度，确定每个所述第二分词集中包含的每个所述主题下的分词；

所述装置还包括：

15.如权利要求14所述的装置，其中，所述装置还包括：

16.一种模型训练装置，包括：

17.如权利要求16所述的装置，其中，所述第八确定模块，包括：

18.如权利要求17所述的装置，其中，所述聚类单元，用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。