CN114444499A

CN114444499A - 文章画像提取方法、装置、电子设备及存储介质

Info

Publication number: CN114444499A
Application number: CN202111574833.5A
Authority: CN
Inventors: 刘轶功
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-06

Abstract

本发明实施例提供一种文章画像提取方法、装置、电子设备及存储介质，方法包括：基于语料库对应的词频矩阵对语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；基于语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；针对每个文章，基于文章的主题关键词集合及文章所属簇的簇关键词集合，确定文章的文章关键词；基于文章的文章关键词及文章所属簇的簇中心文章标题，确定文章的文章画像，提升主题关键词提取的准确性，增强了召回文章的泛化性，提升推荐***的召回质量。

Description

文章画像提取方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文章画像提取方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，越来越多的用户通过网络获取自己感兴趣的内容，而推荐***根据用户的历史记录或者用户的兴趣爱好，产生用户感兴趣的推荐列表推荐给用户。

相关技术中，将隐含狄利克雷分布(Latent Dirichlet Allocation，LDA)模型应用于推荐***中提取文章画像，通过LDA模型提取文章的主题和主题关键词。具体地，语料库中的文章经过LDA模型，得到语料库中的所有文章对应的多个主题和每个文章的主题概率分布，每个主题包括多个主题关键词；然而，每个文章的多个主题中的多个主题关键词存在相互“重叠”，或者包含一些噪声词语，导致主题关键词提取不准确，影响推荐***的召回质量。

发明内容

针对相关技术中的问题，本发明实施例提供一种文章画像提取方法、装置、电子设备及存储介质，用于解决主题关键词提取不准确的问题。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种文章画像提取方法，所述方法包括：

基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；

基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；

针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；

基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

进一步地，所述基于每个文章的主题概率分布确定每个文章的主题关键词集合，包括：

基于每个文章的主题概率分布，选取每个文章的主题概率分布中N个最大主题概率；N为整数；

基于所选取的N个最大主题概率分别对应的主题关键词，确定每个文章的主题关键词集合。

进一步地，所述对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，包括：

基于所述多个簇，统计各个簇中各个文章的关键词在所述文章中出现的次数；将各个文章中出现次数最大的关键词进行组合，得到各个簇的簇关键词集合。

进一步地，所述确定各个簇的簇中心文章标题，包括：

基于所述多个簇，分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，确定各个簇的簇中心向量；

基于所述簇中心向量，确定各个簇的簇中心文章标题。

进一步地，所述基于所述簇中心向量，确定各个簇的簇中心文章标题，包括：

基于所述簇中心向量，确定各个簇中与所述簇中心向量的距离最近的向量对应的文章为簇中心文章；

基于所述簇中心文章的标题，确定各个簇的簇中心文章标题。

进一步地，所述针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词，包括：

基于所述文章的主题关键词集合和所述文章所属簇的簇关键词集合，确定所述文章的主题关键词集合和所述文章所属簇的簇关键词集合的交集；

基于所述文章的主题关键词集合和所述文章所属簇的簇关键词集合的交集、以及所述簇关键词集合中除所述交集之外的预设数目的簇关键词，确定所述文章的文章关键词。

第二方面，本发明实施例还提供了一种文章画像提取装置，所述装置包括：

提取模块，用于基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；

聚类模块，用于基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；

第一确定模块，用于针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；

第二确定模块，用于基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述文章画像提取方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述文章画像提取方法的步骤。

第五方面，本发明实施例还提供了一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面所述文章画像提取方法的步骤。

本发明提供的文章画像提取方法，通过语料库对应的词频矩阵，提取语料库中每个文章的主题概率分布，基于每个文章的主题概率分布，确定每个文章的主题关键词集合；以及通过语料库对应的文本向量矩阵对语料库中所有文章进行聚类，得到多个簇，再对多个簇中各个簇提取各个簇的簇关键词集合及确定各个簇的簇中心文章标题；针对每个文章，根据每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合，确定该文章的文章关键词；基于该文章的文章关键词及该文章所属簇的簇中心文章标题，确定该文章的文章画像，实现了文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，以及簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文章画像提取方法的流程示意图之一；

图2为本发明提供的文章画像提取方法的流程示意图之二；

图3为本发明提供的文章画像提取方法的流程示意图之三；

图4为本发明提供的文章画像提取方法的流程示意图之四；

图5为本发明提供的文章画像提取方法的流程示意图之五；

图6为本发明提供的文章画像提取方法的流程示意图之六；

图7为本发明提供的文章画像提取装置的结构示意图；

图8为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，通过一些实施例及应用场景对本发明提供的文章画像提取方法进行详细说明。

本发明提供一种文章画像提取方法，该文章画像提取方法可适用于推荐***的应用场景中，基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像，实现文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，以及簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

图1为本发明提供的文章画像提取方法的流程示意图之一，如图1所示，该方法包括步骤110-步骤140，其中：

步骤110，基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合。

需要说明的是，本发明提供的文章画像提取方法可适用于推荐***的应用场景中。该方法的执行主体可以为文章画像提取装置，例如，电子设备、或者该文章画像提取装置中的用于执行文章画像提取方法的控制模块。

可选地，语料库包括多个文章，每个文章使用文章标识表示，其中，文章标识可以是数字，也可以是其他标识。

可选地，词频矩阵指对语料库中多个文章进行预处理和向量化，得到的向量矩阵。

具体地，对语料库中的多个文章使用自然语言处理的相关方法进行预处理，得到多个文章对应的分词和分句；例如，自然语言处理的相关方法可以是结巴分词(jieba)方法，也可以是其他方法；再根据多个文章对应的分词和分句使用统计词典，使得分词和分句转化为稀疏向量，再根据稀疏向量得到词频矩阵。

实际中，预处理包括剔除语料库中无标题、无内容和乱码等文章，以及剔除内容重复、数据缺失的文章；例如，没有具体发布时间、没有发布源等文章；或者对没有具体发布时间的文章填补发布时间。

可选地，将词频矩阵输入至LDA模型中，得到LDA模型输出的多个主题，以及多个主题在每个文章中的主题概率分布；其中，多个主题中的每个主题包括至少一个主题关键词，每个主题中的主题关键词可能存在重叠的主题关键词，也可能不存在重叠的主题关键词。

可选地，主题关键词集合指每个文章的多个主题包括的主题关键词的集合。

步骤120，基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题。

可选地，文本向量矩阵指将语料库中每个文章对应的向量进行堆叠，得到的向量矩阵。

具体地，将语料库中多个文章的标题和内容输入至基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers，Bert)模型中，得到Bert模型输出的文本向量矩阵，并保存文本向量矩阵；其中，Bert模型是基于样本文章进行训练之后得到的。

需要说明的是，根据Bert模型得到的文本向量矩阵，需要使用相关降低维度的方法进行处理；其中，降低维度的方法可以是主成分分析(Principal Component Analysis，PCA)方法，也可以是其他方法；PCA方法是一种常见的数据分析方式，常用于高维数据的降维，可以用于提取数据的主要特征分量。例如，语料库中的多个文章对应的文本向量矩阵的维度为100*100，使用PCA方法使得文本向量矩阵的维度由100*100降为10*10。

可选地，将文本向量矩阵经过PCA方法处理之后得到的特征向量矩阵，输入至基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)模型中，得到DBSCAN模型输出的多个簇；其中，每个簇包括至少一个文章，而且每个簇中的文章主题和语义相近。

可选地，簇关键词集合用于表示各个簇中各个文章对应的向量与该簇中所有文章对应的向量距离最近的文章的关键词集合；簇中心文章标题用于表示各个簇中与簇中心向量距离最近的文章的标题。

步骤130，针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词。

可选地，文章关键词为语料库中每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合进行加权合并之后得到的。

具体地，针对语料库中的每个文章，对每个文章的主题关键词集合设定一个目标权重，例如，该目标权重为a；对每个文章所属簇的簇关键词集合设定一个目标权重，例如，该目标权重为b；再给每个文章的主题关键词集合与该文章所属簇的簇关键词集合的交集部分的关键词设定一个目标权重，例如，该交集部分的关键词的目标权重为c；将每个文章所属簇的簇关键词集合中除该文章的主题关键词集合与该文章所属簇的簇关键词集合的交集部分的关键词之外的簇关键词集合，随机加入至该文章的主题关键词集合与文章所属簇的簇关键词集合的交集部分的关键词之中，得到文章关键词。

步骤140，基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

可选地，对簇中心文章标题使用一位有效编码(One-Hot)进行编码，得到连续化簇中心文章标题。

可选地，将文章的文章关键词及文章所属簇的连续化簇中心文章标题更新至文章画像中，从而确定文章的文章画像。

本发明提供的文章画像提取方法，通过语料库对应的词频矩阵，提取语料库中每个文章的主题概率分布，基于每个文章的主题概率分布，确定每个文章的主题关键词集合；以及通过语料库对应的文本向量矩阵对语料库中所有文章进行聚类，得到多个簇，再对多个簇中的各个簇提取各个簇的簇关键词集合及确定各个簇的簇中心文章标题；针对每个文章，根据每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合，确定该文章的文章关键词；基于该文章的文章关键词及该文章所属簇的簇中心文章标题，确定该文章的文章画像，实现了文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，以及簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

图2为本发明提供的文章画像提取方法的流程示意图之二，如图2所示，该方法包括步骤210-步骤260，其中：

步骤210，基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取。

可选地，关于步骤210的说明和解释，可以参照上述步骤110中对该部分的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤220，基于每个文章的主题概率分布，选取每个文章的主题概率分布中N个最大主题概率；N为整数。

可选地，根据每个文章的主题概率分布中每个主题对应的概率，选取N个最大主题概率；其中，N的取值可以根据实际情况进行选取；例如，当N为3时，意味着选取每个文章对应的主题概率分布中主题概率最大的前3个主题概率。

步骤230，基于所选取的N个最大主题概率分别对应的主题关键词，确定每个文章的主题关键词集合。

可选地，根据所选取的N个最大主题概率中每个主题对应的主题关键词，在每个文章中查找N个最大主题概率中每个主题对应的主题关键词在该文章中是否存在，将在该文章中存在的主题关键词进行组合，得到该文章的主题关键词集合，从而确定每个文章的主题关键词集合。

步骤240，基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题。

步骤250，针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词。

步骤260，基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

可选地，关于步骤240-260的说明和解释，可以参照上述步骤120-140中对该部分的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明提供的文章画像提取方法，根据每个文章的主题概率分布，选取每个文章的主题概率分布中N个最大主题概率，根据N个最大主题概率分别对应的主题关键词，确定每个文章的主题关键词集合，提升了主题关键词提取的准确性，而且保留了次要主题关键词，增强了召回文章的主题的泛化性，同时，提升了推荐推荐***的召回质量。

可选地，上述步骤240中对多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合的实现方式可以包括以下步骤：

步骤1，基于多个簇，统计各个簇中各个文章的关键词在文章中出现的次数。

步骤2，将各个文章中出现次数最大的关键词进行组合，得到各个簇的簇关键词集合。

具体地，根据语料库对应的文本向量矩阵对语料库中所有文章进行聚类得到的多个簇，使用关键词提取方法统计各个簇中的各个文章的关键词在该文章中出现的次数；其中，关键词提取方法可以是词频-拟文本频率指数(Term Frequency-Inverse DocumentFrequency，TFIDF)方法，对各个簇中的各个文章的关键词进行统计，也可以是其他关键词提取方法。再将各个簇中各个文章中出现次数最大的关键词分别进行组合，得到各个簇的簇关键词集合。

图3为本发明提供的文章画像提取方法的流程示意图之三，如图3所示，该方法包括步骤310-步骤360，其中：

步骤310，基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合。

步骤320，基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合。

可选地，关于步骤310-320的说明和解释，可以参照步骤110-120中对该部分的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤330，基于所述多个簇，分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，确定各个簇的簇中心向量。

可选地，使用计算余弦距离的方法，分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，距离最小的向量为该簇的簇中心向量；其中，各个簇中所有文章对应的向量是通过各个簇中各个文章分别对应的向量进行堆叠之后得到的。

步骤340，基于所述簇中心向量，确定各个簇的簇中心文章标题。

可选地，根据簇中心向量对应的文章的标题，作为该簇的簇中心文章标题，从而确定各个簇的簇中心文章标题。

步骤350，针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词。

步骤360，基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

可选地，关于步骤350-360的说明和解释，可以参照步骤130-140中对该部分的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明提供的文章画像提取方法，根据多个簇分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，距离最小的向量为簇中心向量，再根据各个簇的簇中心向量对应的文章的标题，确定各个簇的簇中心文章标题，根据簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

可选地，上述步骤340中的具体实现方式可以包括以下步骤：

步骤3，基于簇中心向量，确定各个簇中与簇中心向量的距离最近的向量对应的文章为簇中心文章。

步骤4，基于簇中心文章的标题，确定各个簇的簇中心文章标题。

具体地，根据各个簇的簇中心向量，以各个簇中与该簇的簇中心向量的距离最近的文章作为该簇的簇中心文章；再根据各个簇的簇中心文章的文章标题，作为各个簇的簇中心文章标题。

图4为本发明提供的文章画像提取方法的流程示意图之四，如图4所示，该方法包括步骤410-步骤450，其中：

步骤410，基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合。

步骤420，基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题。

可选地，关于步骤410-420的说明和解释，可以参照步骤110-120中对该部分的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤430，基于所述文章的主题关键词集合和所述文章所属簇的簇关键词集合，确定所述文章的主题关键词集合和所述文章所属簇的簇关键词集合的交集。

可选地，针对每个文章，根据每个文章的主题关键词集合和该文章所属簇的簇关键词集合，确定每个文章的主题关键词集合和该文章所属簇的簇关键词集合之间相同的关键词，即确定每个文章的主题关键词集合和该文章所属簇的簇关键词集合的交集。

步骤440，基于所述文章的主题关键词集合和所述文章所属簇的簇关键词集合的交集、以及所述簇关键词集合中除所述交集之外的预设数目的簇关键词，确定所述文章的文章关键词。

可选地，预设数目指对簇关键词集合中除交集之外的簇关键词集合设定随机加入交集中的簇关键词的数量；其中，预设数目可以是任意数量的关键词，例如，预设数目可以是除交集之外的簇关键词集合中的3个簇关键词，根据实际情况进行设定。

步骤450，基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

本发明提供的文章画像提取方法，根据每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合，确定该文章对应的主题关键词集合及该文章所属簇的簇关键词集合文章关键词的交集；选取簇关键词集合中除交集之外的预设数目的簇关键词，并将其与交集部分的关键词进行合并，确定文章的文章关键词，实现了文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，簇关键词集合的提取也增强了召回文章的泛化性，同时，提升了推荐***的召回质量。

图5为本发明提供的文章画像提取方法的流程示意图之五，如图5所示，该方法包括步骤501-步骤512，其中：

步骤501，数据预处理。使用人工清洗数据的方式，剔除语料库中的无标题、无内容和乱码等文章，以及剔除内容重复的文章，同时，填补缺失相关数据的文章，例如，填补没有发布时间、没有发布源的文章；对语料库中所有文章使用自然语言处理的相关方法进行数据预处理；例如，使用jieba方法将语料库中的所有文章进行分词和分句，得到语料库中的文章对应的词语和句子。

步骤502，数据向量化。将语料库中经过预处理之后的所有文章输入至Bert模型，得到Bert模型输出语料库中所有文章对应的文本向量矩阵；其中，Bert模型是基于待训练的样本文章进行训练之后得到的；例如，语料库中存在100个文章，设置Bert模型输出1*100的向量，则将语料库中的100个文章依次输入至Bert模型，得到Bert模型依次输出100个1*100的向量，将该100个1*100的向量进行堆叠，得到100*100的文本向量矩阵。

可选地，将语料库中所有文章经过预处理之后得到的分词和分句，使用统计词典将分词和分句转化为稀疏向量，再根据稀疏向量得到词频矩阵。

步骤503，LDA模型主题分析。将词频矩阵输入至LDA模型，得到LDA模型输出的所有文章对应的多个主题及每个文章的主题概率分布。

具体地，将语料库对应的词频矩阵输入至LDA模型，得到LDA模型输出多个主题及多个主题在每个文章中的主题概率分布；例如，LDA模型输出5个主题，每个主题对应有多个主题关键词；其中，主题1：[培训，机构，上课，课程]；主题2：[婚庆，婚礼，摄影师，下岗]；主题3：[第三产业，亿元，一季度，增速]；主题4：[世界卫生组织，公共，后果]；主题5：[草莓，卫生，农民，大棚，果农，成熟]；以及每个主题对应每个文章的主题概率分布，其中，主题1至主题5分别在文章1中的概率、主题1至主题5分别在文章2中的概率、主题1至主题5分别在文章3中的概率等。

步骤504，提取文章的主题分布。根据每个文章的主题概率分布，选取每个文章的主题概率分布中概率最大的N个主题概率，例如，选取每个文章的主题概率分布中前3个最大主题概率，根据文章1中各主题的概率分布，确定主题1、主题2和主题3对应的主题概率最大，从而确定文章1的主题分布为主题1、主题2和主题3；根据文章2中各主题的概率分布，确定主题1、主题3和主题4对应的主题概率最大，从而确定文章2的主题分布为主题1、主题3和主题4；以此类推，确定每个文章的主题分布。

步骤505，确定每个文章的主题关键词集合。根据每个文章的主题概率分布，确定每个文章的主题关键词集合；例如，根据文章1中各主题的概率分布，确定主题1、主题2和主题3对应的主题概率最大，则根据主题1、主题2和主题3对应的主题关键词，分别将主题1、主题2和主题3对应的主题关键词与文章1中的关键词进行匹配，根据主题1、主题2和主题3分别对应的主题关键词与文章1中的关键词中相同的主题关键词，确定文章1的主题关键词集合；依次类推，确定每个文章的主题关键词集合。

步骤506，对语料库中的所有文章进行聚类，得到多个簇。首先，对文本向量矩阵使用PCA方法，降低维度，例如，文本向量矩阵的维度为100*100，使用PCA方法降低维度，得到维度为10*10的特征向量矩阵；将特征向量矩阵输入至DBSCAN模型中，得到DBSCAN模型输出的多个文章簇；其中，每个簇中包括至少一个文章，而且每个簇中的文章主题和语义相近。

步骤507，获取各个文章的关键词在该文章中出现的次数。使用TFIDF关键词提取方法，统计各个簇中各个文章的关键词在该文章中出现的次数。

步骤508，提取各个簇的簇关键词集合。根据各个簇中各个文章的关键词在该文章中出现次数，匹配得到各个文章中出现次数最大的关键词，将其进行组合，得到各个簇的簇关键词集合。

步骤509，确定簇中心文章标题。根据DBSCAN模型输出的多个文章簇，分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，距离最近的向量为各个簇的簇中心向量；再根据簇中心向量，确定各个簇中与簇中心向量的距离最近的向量对应的文章为簇中心文章；以各个簇的簇中心文章的标题，作为各个簇的簇中心文章标题。

步骤510，连续化簇中心文章标题。根据各个簇的簇中心文章标题，使用One-Hot编码方法对各个簇的簇中心文章标题进行编码，得到连续化簇中心文章标题。

步骤511，确定文章关键词。将每个文章的主题关键词集合和各个簇的簇关键词集合分别设置目标权重，例如，设置主题关键词集合的目标权重为a，簇关键词集合的目标权重为b；根据每个文章的主题关键词集合和各个簇的簇关键词集合，确定每个文章的主题关键词集合和各个簇的簇关键词集合的交集，并设置交集部分的关键词的目标权重为c。将各个簇的簇关键词集合中除每个文章的主题关键词集合和各个簇的簇关键词集合的交集之外的预设数目的簇关键词随机加入至每个文章的主题关键词集合和各个簇的簇关键词集合的交集中，从而确定每个文章的文章关键词。

步骤512，确定文章画像。将文章关键词和连续化簇中心文章标题，更新至文章画像，即根据文章关键词和连续化簇中心文章标题，确定文章的文章画像。

本发明提供的文章画像提取方法，通过对语料库中的所有文章进行预处理和向量化，得到语料库中所有文章对应的词频矩阵和文本向量矩阵；根据词频矩阵，提取语料库中每个文章的主题概率分布，基于每个文章的主题概率分布，从而确定每个文章的主题关键词集合；以及根据文本向量矩阵对语料库中所有文章进行聚类，得到多个簇，再对多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；根据每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合，确定文章的文章关键词；根据文章的文章关键词及文章所属簇的簇中心文章标题，确定文章的文章画像，实现了文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，以及簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

图6为本发明提供的文章画像提取方法的流程示意图之六，如图6所示，本实施例以一个体育文章为例，对本发明提供的文章画像提取方法进行详细描述，其中：

步骤1，使用人工清洗数据的方式，剔除语料库中的无标题、无内容和乱码等文章，以及剔除内容重复的文章，同时，填补缺失相关数据的文章，例如，填补没有发布时间、没有发布源的文章；对语料库中的所有文章使用自然语言处理的相关方法进行数据预处理；例如，使用jieba方法将语料库中的所有文章进行分词和分句，得到语料库中的文章对应的词语和句子。

步骤2，将语料库中经过预处理之后的所有文章输入至Bert模型，得到Bert模型输出的语料库中所有文章对应的文本向量矩阵；其中，Bert模型是基于待训练的样本文章进行训练后得到的；例如，语料库中存在100个文章，设置Bert模型输出1*100的向量，则将语料库中的100个文章依次输入至Bert模型，得到Bert模型依次输出100个1*100的向量，将该100个1*100的向量进行堆叠，得到维度为100*100的文本向量矩阵。将语料库中所有文章经过预处理之后得到的分词和分句，使用统计词典将分词和分句转化为稀疏向量，再根据稀疏向量得到词频矩阵。

步骤3，将词频矩阵输入至LDA模型，得到LDA模型输出的所有文章对应的多个主题及每个文章的主题概率分布；其中，对LDA模型设定生成主题的目标数量，例如，设定LDA模型生成100个主题，则LDA模型输出100个主题，以及每个文章的主题概率分布；其中，每个主题包括多个主题关键词。

步骤4，根据每个文章的主题概率分布，选取每个文章的主题概率分布中概率最大的N个主题概率，例如，选取每个文章的主题概率分布中前3个最大主题概率，根据文章1中各主题的概率分布，确定主题1、主题2和主题3对应的主题概率最大，从而确定文章1的主题分布为主题1、主题2和主题3；根据文章2中各主题的概率分布，确定主题1、主题3和主题4对应的主题概率最大，从而确定文章2的主题分布为主题1、主题3和主题4；以此类推，确定每个文章的主题分布。

步骤5，根据每个文章的主题概率分布中前3个最大主题概率分别对应的主题的主题关键词，匹配每个文章的关键词，确定每个文章的主题关键词集合；需要说明的是，每个文章的主题关键词集合中各个主题的主题关键词可能存在重叠；例如，根据体育文章的标识获得该体育文章的主题关键词集合，该文章的主题关键词集合为[[足球，欧冠，任意球，球队]，[球队，联赛]，[意大利]]，其中关键词“球队”存在于两个主题中。

步骤6，对语料库中的所有文章进行聚类，得到多个簇。使用Bert模型得到的文本向量矩阵，利用PCA方法降低维度至100维度；再将100维度的文本向量矩阵输入至DBSCAN模型中进行聚类，得到DBSCAN模型输出的多个簇。

步骤7，使用TFIDF关键词提取方法，统计各个簇中各个文章的关键词在该文章中出现的次数，匹配得到各个文章中出现次数最大的关键词，将其进行组合得到各个簇的簇关键词集合。例如，根据体育文章的标识获得该体育文章所属簇的簇关键词集合，该簇关键词集合为[足球，欧冠，任意球，国家队，替补，东奥，总教练，运动员，金牌]。

步骤8，根据DBSCAN模型输出的多个文章簇，分别计算各个簇中各个文章对应的向量与各个簇中所有文章对应的向量的距离，距离最近的向量为各个簇的簇中心向量；再根据簇中心向量，确定各个簇中与簇中心向量的距离最近的向量对应的文章为簇中心文章；以各个簇的簇中心文章的标题，作为各个簇的簇中心文章标题。

步骤9，根据各个簇的簇中心文章标题，使用One-Hot编码方法对各个簇的簇中心文章标题进行编码，得到连续化簇中心文章标题。

步骤10，将每个文章的主题关键词集合和各个簇的簇关键词集合分别设置目标权重，例如，设置主题关键词集合的目标权重为1，簇关键词集合的目标权重为2；根据每个文章的主题关键词集合和各个簇的簇关键词集合，确定每个文章的主题关键词集合和各个簇的簇关键词集合的交集，并设置交集部分的关键词的目标权重为3。将各个簇的簇关键词集合中除每个文章的主题关键词集合和各个簇的簇关键词集合的交集之外的簇关键词随机选取3个加入至每个文章的主题关键词集合和各个簇的簇关键词集合的交集中，从而确定每个文章的文章关键词。

步骤11，将文章关键词和连续化簇中心文章标题，更新至该体育文章的文章画像。

需要说明的是，如果用户点击了该体育文章，则推荐***将会把该体育文章的文章画像更新至用户画像中，在推荐***给用户推荐文章时，就会根据文章关键词和簇中心文章标题的编码召回语料库中的相关文章，将得到的待推荐文章列表推荐给用户。

下面对本发明提供的文章画像提取装置进行描述，下文描述的文章画像提取装置与上文描述的文章画像提取方法可相互对应参照。

图7为本发明提供的文章画像提取装置的结构示意图，如图7所示，该文章画像提取装置700，包括：提取模块701、聚类模块702、第一确定模块703、第二确定模块704；其中，

提取模块701，用于基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；

聚类模块702，用于基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；

第一确定模块703，用于针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；

第二确定模块704，用于基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

本发明提供的文章画像提取装置，通过语料库对应的词频矩阵，提取语料库中每个文章的主题概率分布，基于每个文章的主题概率分布，确定每个文章的主题关键词集合；以及通过语料库对应的文本向量矩阵对语料库中所有文章进行聚类，得到多个簇，再对多个簇中的各个簇提取各个簇的簇关键词集合及确定各个簇的簇中心文章标题；针对每个文章，根据每个文章对应的主题关键词集合及该文章所属簇的簇关键词集合，确定该文章的文章关键词；基于该文章的文章关键词及该文章所属簇的簇中心文章标题，确定该文章的文章画像，实现了文章关键词与簇关键词集合的集中性，提升了主题关键词提取的准确性，确保召回文章的主题一致性，以及簇中心文章标题的簇内召回，增强了召回文章的泛化性，同时，也提升了推荐***的召回质量。

可选地，提取模块701，具体用于：

可选地，聚类模块702，具体用于：

基于所述簇中心向量，确定各个簇的簇中心文章标题。

可选地，聚类模块702，具体用于：

可选地，第一确定模块703，具体用于：

图8为本发明提供的电子设备的实体结构示意图，如图8所示，该电子设备800可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下文章画像提取方法：基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如下文章画像提取方法：基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，实现如下文章画像提取方法：基于语料库对应的词频矩阵对所述语料库中的每个文章的主题概率分布进行提取，基于每个文章的主题概率分布确定每个文章的主题关键词集合；基于所述语料库对应的文本向量矩阵对所述语料库中所有文章进行聚类，得到多个簇；对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，及确定各个簇的簇中心文章标题；针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词；基于所述文章的文章关键词及所述文章所属簇的簇中心文章标题，确定所述文章的文章画像。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文章画像提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文章画像提取方法，其特征在于，所述基于每个文章的主题概率分布确定每个文章的主题关键词集合，包括：

3.根据权利要求1所述的文章画像提取方法，其特征在于，所述对所述多个簇中各个簇分别进行关键词提取得到各个簇的簇关键词集合，包括：

4.根据权利要求1所述的文章画像提取方法，其特征在于，所述确定各个簇的簇中心文章标题，包括：

基于所述簇中心向量，确定各个簇的簇中心文章标题。

5.根据权利要求4所述的文章画像提取方法，其特征在于，所述基于所述簇中心向量，确定各个簇的簇中心文章标题，包括：

6.根据权利要求1所述的文章画像提取方法，其特征在于，所述针对每个文章，基于所述文章的主题关键词集合及所述文章所属簇的簇关键词集合，确定所述文章的文章关键词，包括：

7.一种文章画像提取装置，其特征在于，所述装置包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述文章画像提取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述文章画像提取方法的步骤。

10.一种计算机程序产品，其上存储有可执行指令，其特征在于，该指令被处理器执行时使处理器实现如权利要求1至6中任一项所述文章画像提取方法的步骤。