WO2022095374A1

WO2022095374A1 - 关键词抽取方法、装置、终端设备及存储介质

Info

Publication number: WO2022095374A1
Application number: PCT/CN2021/091083
Authority: WO
Inventors: 饶刚
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-11-06
Filing date: 2021-04-29
Publication date: 2022-05-12
Also published as: CN112347778B; CN112347778A

Abstract

一种关键词抽取方法、装置、终端设备及存储介质，其中，方法包括：获取目标文章中的多个分词；根据预设的关键词库，从所述多个分词中确定多个候选关键词；根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。采用上述方法从目标文章中提取目标关键词，可以保证提取的目标关键词均属于与目标文章关联度高的高质量词汇。

Description

关键词抽取方法、装置、终端设备及存储介质

本申请要求于2020年11月06日在中国专利局提交的、申请号为202011229490.4、发明名称为“关键词抽取方法、装置、终端设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能技术领域，尤其涉及一种关键词抽取方法、装置、终端设备及存储介质。

背景技术

现有技术中，关键词抽取在文本处理的许多领域中均应用广泛，例如，文本聚类领域、文本摘要领域和信息检索领域。在当下大数据时代，关键词抽取基本上是通过提取文本中的每个词的单一信息进行判断。目前，流行的有采用基于图的排序算法TextRank算法或主题模型(latent dirichlet allocation，LDA)得到文本的关键词。然而，发明人意识到，有些特殊词汇，如人名、地名等信息，常常会被忽略，而该信息可能为文本中的重要信息。因此，目前抽取文本关键词的方法难以准确提取出与文本相关的高质量的关键词。

技术问题

本申请实施例的目的之一在于：提供一种关键词抽取方法、装置、终端设备及存储介质，旨在解决目前抽取文本关键词的方法难以准确提取出与文本相关的高质量关键词的技术问题。

技术解决方案

为解决上述技术问题，本申请实施例采用的技术方案是：

第一方面，本申请实施例提供了一种关键词抽取方法，包括：

获取目标文章中的多个分词；

根据预设的关键词库，从所述多个分词中确定多个候选关键词；

根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。

第二方面，本申请实施例提供了一种关键词抽取装置，包括：

第一获取模块，用于获取目标文章中的多个分词；

第一确定模块，用于根据预设的关键词库，从所述多个分词中确定多个候选关键词；

第一计算模块，用于根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

第二确定模块，用于将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。

本申请实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取目标文章中的多个分词；

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取目标文章中的多个分词；

本申请实施例的第五方面还提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时实现：

获取目标文章中的多个分词；

有益效果

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，通过对目标文章进行分词处理得到多个分词，并与预设的关键词库进行比较，从多个分词中确定候选关键词，并分别计算每个候选关键词的多个得分值，根据多个得分值从多个候选关键词中进一步的确定目标关键词，使得在维护一高质量的关键词库作为输出目标文章中候选关键词的基础上，可同时根据监督模型进一步的计算每个候选关键词的词概率，根据词概率从多个候选关键词中确定目标关键词，以保证提取的目标关键词均属于与目标文本关联度高的高质量词汇。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或示范性技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例提供的一种关键词抽取方法的实现流程图；

图2是本申请另一实施例提供的一种关键词抽取方法的实现流程图；

图3是本申请一实施例提供的一种关键词抽取方法的应用场景示意图；

图4是本申请又一实施例提供的一种关键词抽取方法的实现流程图；

图5是本申请一实施例提供的一种关键词抽取方法的S102的实现方式示意图；

图6是本申请一实施例提供的一种关键词抽取方法中监督模型训练步骤的实现流程图；

图7是本申请一实施例提供的一种关键词抽取方法中样本关键词的特征提取的示意图；

图8是本申请一实施例提供的一种关键词抽取方法的S103的实现方式示意图；

图9是本申请再一实施例提供的一种关键词抽取方法的实现流程图；

图10是本申请实施例提供的关键词抽取装置的结构示意图；

图11是本申请实施例提供的终端设备的结构示意图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的关键词抽取方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种关键词抽取方法的实现流程图，该方法包括如下步骤：

S101、获取目标文章中的多个分词。

在应用中，上述目标文章可以为微博文章、新闻文章等，对此不作限定。上述获取目标文章的方式可以为终端设备通过网络爬取目标文章，也可以为终端设备从指定的存储路径下获取已有的目标文章。其中，目标文章的文本语言可以为中文、英文或其他文本语言，对此不作限定。为了能更好的对关键词抽取方法进行解释说明，本实施例以中文形式的文本语言作为示例进行说明。

在应用中，上述多个分词可通过对目标文章进行分词处理得到。例如，对于新闻类的目标文章，目标文章往往包含新闻的来源、可转载等文字，然而，这些文字均为无关信息，将会干扰从目标文章中抽取关键词的准确率。因此，可预先对上述目标文章进行数据清洗清除上述文字。其中，对目标文章进行分词可以为预先建立分词库，且分词库中包含了一种语言(示例为中文)所能使用的所有词语。对于目标文章，可先按照正向最大匹配算法或者是逆向最大匹配算法，取出目标文章中的一句或一段字符串，与分词库中的词语进行比较。如果一致，则该段字符串可为代表一种含义的词语，即为一个分词。如果分词库中没有与之相匹配的词语，则可减少字符串长度(例如，排除字符串中的末尾字符)，再次与分词库中的词语进行匹配，直到所有的字符串匹配完成，即得到多个分词。

S102、根据预设的关键词库，从所述多个分词中确定多个候选关键词。

在应用中，上述预设的关键词库可以为用户预先设置多个兴趣词汇，并将多个兴趣词汇作为关键词库中的关键词，存储在终端设备指定的存储路径下。示例性的，用户在阅读其余文章内容时，对该文章内容感兴趣，若想经常阅读与该文章内容领域相关的文章，则可从文章内容中挑选词汇作为兴趣词汇，存储至关键词库中。或者，终端设备根据用户的确定指令，确定用户对该文章内容感兴趣后，终端设备可根据当前阅读的文章内容确定文章的所属领域，并从网络上爬取该领域下的多篇文章的多个关键词作为兴趣词汇，存储至关键词库中。上述预设的关键词库中可以包含特定的人名、地名、时间等词汇，因这些词汇在使用目前流行的关键词抽取算法中，常常会被忽略。因此，单独设置特定词汇，可保证从多个分词中确定候选关键词的质量。

其中，从多个分词中确定多个候选关键词可以为，若关键词库中存在与分词相同的词语，则该分词可确定为候选关键词，由此可得到多个候选关键词。可以理解的是，若关键词库中包含的关键词与分词为近义词，也可将该分词作为候选关键词，对此不作限定。

S103、根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值。

在应用中，上述多个得分值包括但不限于候选关键词处于目标文章中文章位置的位置得分值、在目标文章中出现的频率得分值。示例性的，基于不同候选关键词在目标文章所出现的不同位置，赋予不同的得分值。例如，对于候选关键词出现在标题处，可认为新闻类的目标文章的标题通常被作为文章的核心，其包含目标文章的主要内容。因此，可设置出现在目标文章中标题的候选关键词的位置得分值，比出现在正文的位置得分值更高。需要说明的是，若同一个候选关键词即出现在标题，又出现在正文，则可选取分数值最高的数值，作为候选关键词的位置得分值(即标题的位置得分值)。其中，候选关键词的频率得分值可以为根据目标文章中多个分词的总数量，以及每个候选关键词在目标文章中出现的数量进行比值计算得到。

S104、将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。

在应用中，上述候选关键词具有多个，每个候选关键词均具有多个得分值，然而，目标关键词可以为多个候选关键词中的部分词语。例如，可以统计每个候选关键词的多个得分值之和，或者计算每个候选关键词的多个得分值的平均值，作为衡量每个候选关键词分别与第一文本的关联程度(词概率)。进而，可从多个候选关键词中确定目标关键词。示例性的，可以将得分值(词概率)最高的预设个数的候选关键词确定为目标关键词。

在应用中，上述监督模型可以为根据已有的文章内容和对应的关键词进行模型训练得到的监督模型。其中，监督学习的目标是学习一个函数(模型)，在已知该函数的样本数据(已有的文章内容)和输出值(关键词)的情况下，最大可能的拟合输入和输出之间的关系。即可实现通过得分值和监督模型，得到每个候选关键词属于目标文章中目标关键词的词概率。进而，可在通过预设的关键词库确定多个候选关键词的基础上，进一步的通过监督模型从多个候选关键词中确定目标关键词，保证提取的关键词均属于高质量词汇。

在本实施例中，通过对目标文章进行分词处理得到多个分词，并与预设的关键词库进行比较，从多个分词中确定候选关键词，并分别计算每个候选关键词的多个得分值，根据多个得分值从多个候选关键词中进一步的确定目标关键词。使得在维护一高质量的关键词库作为输出目标文章中候选关键词的基础上，可同时根据监督模型进一步的计算每个候选关键词的词概率，根据词概率从多个候选关键词中确定目标关键词，以保证提取的目标关键词均属于与目标文本关联度高的高质量词汇。

请参照图2，在一具体实施例中，在S102根据预设的关键词库，从所述多个分词中确定多个候选关键词之前，还包括如下步骤S102A-S102D，详述如下：

S102A、确定所述目标文章的文章领域，获取属于所述文章领域的领域文本。

在应用中，目标文章可以由终端设备在网络上进行爬取得到，可以理解的是，对于用户在使用终端设备浏览目标文章时，目标文章通常在发布时已经预先具有领域标签(文章领域)。因此，可认为终端设备在获取到目标文章时，可同时确定目标文章的文章领域。示例性的，对于终端设备为智能手机，使用浏览器浏览目标文章时，该目标文章已经具有确切的文章领域。具体可参考图3中的相关频道，相关频道下的各个词汇即可认为是目标文章的文章领域，在该文章领域下的多个文本均可认为是领域文本。

S102B、根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度。

在应用中，上述领域分词也可通过上述S101中的方法得到，具体可参照上述S101中的解释内容，对此不再进行详细说明。其中，上述计算每个领域分词之间领域关联度可以为计算每个领域分词之间的互信息。具体的，可参照如下公式：

其中，p(x，y)为领域分词x和领域分词y在多个领域文本中同时出现的概率，p(x)为领域分词x在多个领域文本中单独出现的概率，p(y)为领域分词y在多个领域文本中单独出现的概率，PMI(x，y)为领域分词x与领域分词y的互信息。可统计获取到的多个领域文本的文本数量，并在多个领域文本中，计算每个领域文本同时出现领域分词x和领域分词y的领域文本数量，以及计算单独出现领域分词x的领域文本数量和单独出现领域分词y的领域文本数量。进而，可根据上述公式计算每个领域分词之间的互信息。

在其他应用中，还可在计算互信息之后，根据互信息计算每个领域关键词的左右信息，得到左右互信息，并将左右互信息作为上述领域关联度。示例性的，对于领域文本中出现的“平”、“安”、“符”三个分词。可通过上述互信息计算公式，分别计算出“平”和“安”的互信息(领域关联度)、“平”和“符”的互信息，以及“安”和“符”的互信息。之后，根据互信息大小，可确定“平”和“安”组成的“平安”领域分词之间的领域关联度更高。之后，可将“平安”作为一个领域分词，计算与“符”之间的左右互信息。若计算出组成“符平安”的右互信息数值很低，则确定此“符平安”不能组成领域分词。然而，若计算出组成“平安符”的左互信息数值高，则确定此“平安符”可组成新的领域分词。最后可得到“平”、“安”、“符”三个领域分词之间的多个领域关联度(左右互信息)。可以理解的是，在计算“平”和“安”之间的互信息时，也需要计算其组成“平安”和“安平”之间的左右互信息，并根据左右互信息，确定“平安”可作为领域分词，而“安平”不可作为领域分词。

S102C、从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词。

S102D、将所述目标领域分词存储至所述关键词库中。

在应用中，上述预设关联度可以为用户根据实际情况进行设定的数值，也可以为终端设备预先设定固定数值，对此不作限定。其中，在获取到每个领域分词之间的领域关联度后，可根据领域关联度的大小，从多个领域关联度中确定目标领域关联度，以及确定目标领域关联度对应的目标领域分词。例如，在领域关联度大于预设关联度时，确定该领域关联度为目标关联度，并确定目标关联度对应的领域分词为目标领域分词。上述S102中已说明预设的关键词库可以为用户预先设置多个兴趣词汇，并将多个兴趣词汇作为关键词库中的关键词，存储在终端设备指定的存储路径下。因此，对于目标领域分词，终端设备可将目标领域分词也存储至关键词库中。例如，可将上述“平安”以及“平安符”作为目标领域分词，并存储在关键词库中。

请参照图4，在一具体实施例中，在S102根据预设的关键词库，从所述多个分词中确定多个候选关键词之前，还包括如下步骤S102E-S102F，详述如下：

S102E、确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词。

S102F、将所述多个领域关键词存储至所述关键词库中。

在应用中，上述已说明如何确定目标文章的文章领域，并已说明可在确定文章领域后，从网络上爬取多个领域文本。基于此，终端设备还可直接获取每个领域文本已经标记的词汇作为领域关键词，生成关键词库。示例性的，可参照图3，图3中与“相关频道”处于同一列的多个词汇(“5G频道”、“互联网”)均可认为是文章领域。另外，从图3中可看出，在用户选中终端设备中“互联网”的文章领域时，终端设备则可根据该文章领域从网络上获取对应的领域文本，同时获取每篇领域文本在发布时已经具有领域关键词(附图中对于第一篇文章箭头所指词汇)。而上述领域关键词均可认为是发布机构对每篇领域文本定义的高频词汇或者核心词汇。因此，可将文章领域下每篇领域文本的多个领域关键词存储至关键词库中。

请参照图5，在一具体实施例中，S102根据预设的关键词库，从所述多个分词中确定多个候选关键词，还包括如下子步骤S1021-S1023，详述如下：

S1021、确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个。

S1022、若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词。

在应用中，因关键词库内存储的分词，均为该文本领域下的高质量词汇。因此，在得到上述多个分词后，可将多个分词分别与关键词库中的分词进行比较。若分词与关键词库中已存储的分词一致，则可初步将该分词的作为候选关键词。其中，在多个分词中，与关键词库中的分词进行比较的分词即可认为是目标分词。

S1023、若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。

在应用中，上述实体词为能够描述独立存在的事物的词汇。在判定分词未存储在关键词库后，可判断未存储在关键词库内的分词是否属于实体词。若不属于实体词，则可认为该分词不具有意义，因此，可删除该分词。其中，可通过命名实体识别(Named Entity Recognition，NER)技术判断上述分词是否属于实体词。具体的，命名实体识别又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

在应用中，在确定未存储在关键词库内的分词属于实体词时，可将该分词输入至监督模型中，得到分词的关键词概率。其中，监督模型为预先训练好的分类模型，用于再次判断分词属于候选关键词的关键词概率。具体可参照上述S104中关于监督模型的描述，对此不再进行详细说明。

在应用中，上述监督模型可提取每个分词在目标文章中的词特征，而后根据词特征输出属于目标文章的关键词概率。其中，分词的词特征可以为监督模型根据分词在目标文章中的出现位置、分词在目标文章的出现数量、分词的词长度等信息，综合提取该分词的词特征，并根据该词特征进行分类，输出分词属于目标文章的关键词概率。上述概率阈值可为用户预先设定的数值，也可以为监督模型根据已有的大数据进行训练分析后设定的概率阈值，对此不作限定。可认为在关键词概率大于概率阈值时，将关键词概率对应的分词作为候选关键词。

请参照图6，在一具体实施例中，上述监督模型可通过如下步骤S201-S206训练得到，详述如下：

S201、获取训练样本，并从所述训练样本中获取已标注的训练关键词。

在应用中，上述训练样本可以认为是上述已说明的领域文本，而对应训练关键词可以认为是领域文本对应的目标领域分词。其中，获取训练样本的方式可以为从网络上爬取同一文章领域下的多个领域文本。基于上述S101说明的分词方法，可对训练样本进行分词得到多个样本分词，对此不再详细说明。

S202、对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值。

S203、根据多个样本得分值，从所述多个样本分词中确定样本关键词。

在应用中，上述样本得分值可以为根据样本分词分别位于训练样本中的文章位置，确定的样本得分值，或者为，计算样本分词在训练样本中的词跨度作为得分值，对此不作限定。其中，基于样本得分值的大小，可设定样本分值阈值。在样本得分值大于样本分值阈值时，将样本得分值对应的样本分词作为样本关键词，或者，对多个样本得分值进行排序，将处于前列的预设个数的样本得分值对应的样本分词，作为样本关键词，对此不作限定。

S204、基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别。

在应用中，上述标记类别可用于在计算模型的训练损失值时，赋予样本关键词用于计算的具体数值。具体的，若样本关键词与任一训练关键词一致，则可将样本关键词的标记类别定位1，否则，将样本关键词的标记类别定位0。

S205、提取所述样本关键词的关键词特征。

S206、基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。

在应用中，上述提取样本关键词的关键词特征，可认为是对上述样本关键词进行特征工程处理，即提取样本关键词的多个方面的词特征。具体的对样本关键词进行特征工程处理，可参照图7所示，图7示出了应提取训练样本中样本关键词的各个关键词特征。

在应用中，在得到上述样本关键词的多个关键词特征后，可通过初始监督模型中的神经网络模型结构，对关键词特征进行特征融合，得到融合特征，使融合特征可以综合表示样本关键词的多个特征信息。之后，模型可根据融合特征输出样本关键词属于关键词的概率，并结合样本关键词的标记类别，计算训练损失。最后，根据训练损失迭代更新模型中的模型参数，并在训练损失收敛时，将当前模型作为已训练的监督模型。进而，提高监督模型确定目标文章中目标关键词的准确度。

请参照图8，在一具体实施例中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；S103根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值，还包括如下子步骤S1031-S1034，详述如下：

S1031、统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值。

在应用中，上述多个分词的数量即为目标文章中包含的分词总数量，上述候选关键词的词频可以为根据目标文章中的分词总数量，与每个候选关键词分别在目标文章中出现的次数进行比值计算得到。其中，上述第一得分值可以为每个目标文章中的词频，也可以为通过词频进行计算得到的词频逆文件频率。具体的，上述逆文件频率可以为终端设备统计多个领域文本的第一数量，并统计多个领域文本中，包含该候选关键词的领域文本的第二数量。而后，计算第一数量与第二数量的比值结果，再将比值结果取以10为底的对数，得到的数值即为该候选关键词的逆文件频率。以此，可得到每个候选关键词的词频逆文件频率，进而，可将词频与逆文件频率进行乘积即可得到第一得分值。需要说明的是，词频逆文件频率对应的数值可能为0到无穷大之间的任一数值，为了方便后续计算，可对每个词频逆文件频率均进行归一化处理，使其处于0到1的数值区间。

S1032、确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值。

在应用中，上述S103中已说明候选关键词出现在目标文章中的标题或正文，可体现出其在目标文章中的重要程度。具体的，可以将在标题中出现的候选关键词的第二得分值设为0.6，将在正文出现的候选关键词的第二得分值设为0.4，具体可根据实际情况进行设定。可以理解的是，若同一个候选关键词在目标文章出现多次，且同时出现在标题和正文等多处位置，则可将多处位置中，同一候选关键词对应的分值之和作为一个第二得分值。或者，将同一个候选关键词的平均值作为第二得分值，对此不作限定。需要说明的是，为了区分目标文章中的标题和正文，可在标题与正文之间添加空格或特殊符号进行区分。

S1033、分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值。

在应用中，上述第三得分值可以认为是每个候选关键词在目标文章中的词跨度。具体的，候选关键词是从目标文章中的多个分词中确定的，因此，可根据目标文章的文本内容，对目标文章中的每个分词分别进行排序，进而可确定相应候选关键词在目标文章中对应的序列号，即可确定每个候选关键词分别在目标文章中的位置。在候选关键词多次出现在目标文章时(即一个候选关键词有多个序列号)，可将该候选关键词的最小序列号作为在目标文章中的初始位置)，以及将该候选关键词的最大序列号作为目标文章中的结束位置。之后将两个序列号进行相减，得到的差值即为第三得分值。另外，为了方便后续计算，还可将差值除以多个分词的总数量，以便对差值进行归一化处理，将归一化后的数值作为第三得分值，对此不作限定。

S1034、根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。

在应用中，上述文本排序算法可以为基于图的排序算法(textrank)模型，其可通过将目标文章分割成若干组成单元(分词)并建立图模型，利用投票机制对目标文章中的若干分词的重要成分进行分值排序，即对目标文章中的多个分词进行分值排序。之后，可根据每个分词的分值，从多个分词中确定候选关键词对应的分值，作为第四得分值。

可以理解的是，目标文章中的目标关键词一般经常出现在标题中，且目标关键词在目标文章中出现的次数也相对较多。因此，上述设定的计算每个候选关键词的四个得分值，可以成为一种评判关键词在目标文章中关键程度的良好度量。使终端设备可基于多个得分值综合评判每个该候选关键词在目标文章中的关键程度，提高从候选关键词中确定高质量的目标关键词的准确度。

请参照图9，在一具体实施例中，所述目标关键词包括多个；在S104将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词之后，还包括如下步骤 S104A-S104B，详述如下：

S104A、统计每个目标关键词在多篇目标文章中的总数量，计算所述每个目标关键词的总数量之间的比值。

在应用中，上述多篇目标文章可以理解为用户在预设时间段内点击的文章。上述每个目标关键词可以理解为用户在点击一篇目标文章时，终端设备便可使用上述方法从该目标文章中抽取一个或多个目标关键词。以此，终端设备可获取该预设时间段内每篇目标文章中的一个或多个目标关键词。示例性的，用户点击一篇目标文章，且终端设备记录该目标文章的多个目标关键词时，如用户点击一篇目标文章，该目标文章对应的目标关键词为：母婴、家有萌娃、营养发育。若用户在预设时间段内还点击了其余多篇目标文章，且从多篇目标文章记录的目标关键词中，“母婴”、“家有萌娃”、“营养发育”出现多次，则终端设备可分别累加上述目标关键词的出现次数，即统计每个目标关键词在多篇目标文章中的总数量。进而，可根据每个目标关键词的总数量计算比值。

可以理解的是，并不是每篇目标文章均会出现上述目标关键词，上述目标关键词仅为其中的一种示例。另外，多篇目标文章中存在目标关键词只出现一次的情况，也应进行记录并参与比值计算。

S104B、根据所述比值和所述每个目标关键词进行文章召回，得到文章集，所述文章集中分别包含每个目标关键词的文章数量之比与所述比值相等。

在应用中，上述文章集用于存储终端设备根据目标关键词进行召回的文章。其中，在确定每个目标关键词以及之间的比值后，可根据比值对文章的数量进行召回。具体的，可预先设定终端设备应召回文章的总数量，根据总数量和比值计算应召回的包含目标关键词的文章数量。例如，对于上述“母婴”、“家有萌娃”、“营养发育”的比值为5：2：3，且终端设备应召回文章的总数量为10。基于此，为使得文章集中包含的每个目标关键词的文章数量之比与比值相等，可知终端设备应召回5篇包含目标关键词“母婴”的目标文章，召回3篇包含目标关键词“家有萌娃”的目标文章，以及召回2篇包含目标关键词“营养发育”的目标文章。以此可使得终端设备能够根据目标关键词自动从网络上召回用户感兴趣的文章，提升终端设备的召回效果。

请参阅图10，图10是本申请实施例提供的一种关键词抽取装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1、图2、图4至图6、图8和图9对应的实施例中的各步骤。具体请参阅图1、图2、图4至图6、图8和图9以及图1、图2、图4至图6、图8和图9所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图10，关键词抽取装置1000包括：第一获取模块1010、第一确定模块1020、第一计算模块1030和第二确定模块1040，其中：

第一获取模块1010，用于获取目标文章中的多个分词。

第一确定模块1020，用于根据预设的关键词库，从所述多个分词中确定多个候选关键词。

第一计算模块1030，用于根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值。

第二确定模块1040，用于将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。

在一实施例中，关键词抽取装置1000还包括：

第三确定模块，用于确定所述目标文章的文章领域，获取属于所述文章领域的领域文本。

第二计算模块，用于根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度。

第四确定模块，用于从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词。

第一生成模块，用于将所述目标领域分词存储至所述关键词库中。

在一实施例中，关键词抽取装置1000还包括：

第五确定模块，用于确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词。

第二生成模块，用于将所述多个领域关键词存储至所述关键词库中。

在一实施例中，第一确定模块1020还用于：

确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个；若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词；若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。

在一实施例中，关键词抽取装置1000还包括如下模块进行监督模型训练：

第二获取模块，用于获取训练样本，并从所述训练样本中获取已标注的训练关键词。

分词模块，用于对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值。

第六确定模块，用于根据多个样本得分值，从所述多个样本分词中确定样本关键词。

第七确定模块，用于基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别。

提取模块，用于提取所述样本关键词的关键词特征。

训练模块，用于基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。

在一实施例中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；第一计算模块1030还用于：

统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值；确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值；分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值；根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。

在一实施例中，所述目标关键词包括多个；关键词抽取装置1000还包括：

统计模块，用于统计每个目标关键词在多篇目标文章中的总数量，计算所述每个目标关键词的总数量之间的比值。

召回模块，用于根据所述比值和所述每个目标关键词进行文章召回，得到文章集，所述文章集中分别包含每个目标关键词的文章数量之比与所述比值相等。

应当理解的是，图10示出的关键词抽取装置的结构框图中，各单元/模块用于执行图1、图2、图4至图6、图8和图9对应的实施例中的各步骤，而对于图1、图2、图4至图6、图8和图9对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1、图2、图4至图6、图8和图9以及图1、图2、图4至图6、图8和图9所对应的实施例中的相关描述，此处不再赘述。

图11是本申请另一实施例提供的一种终端设备的结构框图。如图11所示，该实施例的终端设备1100包括：处理器1110、存储器1120以及存储在存储器1120中并可在处理器1110运行的计算机程序1130，例如关键词抽取方法的程序。处理器1110执行计算机程序1130时实现上述各个关键词抽取方法各实施例中的步骤，例如图1所示的S101至S104。或者，处理器1110执行计算机程序1130时实现上述图10对应的实施例中各模块的功能，例如，图10所示的模块1010至1040的功能。具体如下所述：

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取目标文章中的多个分词；

在一个实施例中，所述处理器执行所述计算机程序时还实现：

确定所述目标文章的文章领域，获取属于所述文章领域的领域文本；

根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度；

从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词；

将所述目标领域分词存储至所述关键词库中。

确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词；

将所述多个领域关键词存储至所述关键词库中。

确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个；

若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词；

若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。

在一个实施例中，所述处理器执行所述计算机程序时还通过以下步骤实现监督模型的训练，具体的：

获取训练样本，并从所述训练样本中获取已标注的训练关键词；

对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值；

根据多个样本得分值，从所述多个样本分词中确定样本关键词；

基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别；

提取所述样本关键词的关键词特征；

基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。

在一个实施例中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；所述处理器执行所述计算机程序时还实现：

统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值；

确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值；

分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值；

根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。

在一个实施例中，所述目标关键词包括多个；所述处理器执行所述计算机程序时还实现：

统计每个目标关键词在多篇目标文章中的总数量，计算所述每个目标关键词的总数量之间的比值；

根据所述比值和所述每个目标关键词进行文章召回，得到文章集，所述文章集中分别包含每个目标关键词的文章数量之比与所述比值相等。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取目标文章中的多个分词；

在一个实施例中，所述计算机程序被处理器执行时还实现：

将所述目标领域分词存储至所述关键词库中。

在一个实施例中，所述计算机程序被处理器执行时还实现：

将所述多个领域关键词存储至所述关键词库中。

在一个实施例中，所述计算机程序被处理器执行时还实现：

在一个实施例中，所述计算机程序被处理器执行时还通过以下步骤实现监督模型的训练，具体的：

提取所述样本关键词的关键词特征；

在一个实施例中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；所述计算机程序被处理器执行时还实现：

在一个实施例中，所述目标关键词包括多个；所述计算机程序被处理器执行时还实现：

示例性的，计算机程序1130可以被分割成一个或多个模块，一个或者多个模块被存储在存储器1120中，并由处理器1110执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序1130在终端设备1100中的执行过程。例如，计算机程序1130可以被分割成第一获取模块、第一确定模块、第一计算模块和第二确定模块，各模块具体功能如上。

终端设备可包括，但不仅限于，处理器1110、存储器1120。本领域技术人员可以理解，图10仅仅是终端设备1100的示例，并不构成对终端设备1100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器1110可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器1120可以是终端设备1100的内部存储单元，例如终端设备1100的硬盘或内存。存储器1120也可以是终端设备1100的外部存储设备，例如终端设备1100上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器1120还可以既包括终端设备1100的内部存储单元也包括外部存储设备。

所述计算机可读存储介质可以是前述实施例所述的终端设备的内部存储单元，例如所述终端设备的硬盘或内存。所述计算机可读存储介质可以是非易失性，也可以是易失性。所述计算机可读存储介质也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡安全数字卡，闪存卡等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种关键词抽取方法，其中，包括：

获取目标文章中的多个分词；

根据预设的关键词库，从所述多个分词中确定多个候选关键词；

根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。
如权利要求1所述的关键词抽取方法，其中，在所述根据预设的关键词库，从所述多个分词中确定多个候选关键词之前，还包括：

确定所述目标文章的文章领域，获取属于所述文章领域的领域文本；

根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度；

从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词；

将所述目标领域分词存储至所述关键词库中。
如权利要求1所述的关键词抽取方法，其中，在所述根据预设的关键词库，从所述多个分词中确定多个候选关键词之前，还包括：

确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词；

将所述多个领域关键词存储至所述关键词库中。
如权利要求1-3任一项所述的关键词抽取方法，其中，所述根据预设的关键词库，从所述多个分词中确定多个候选关键词，包括：

确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个；

若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词；

若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。
如权利要求4所述的关键词抽取方法，其中，所述监督模型通过如下步骤训练得到：

获取训练样本，并从所述训练样本中获取已标注的训练关键词；

对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值；

根据多个样本得分值，从所述多个样本分词中确定样本关键词；

基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别；

提取所述样本关键词的关键词特征；

基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。
如权利要求1所述的关键词抽取方法，其中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；

所述根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值，包括：

统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值；

确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值；

分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值；

根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。
如权利要求1所述的关键词抽取方法，其中，所述目标关键词包括多个；

在所述将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词之后，还包括：

统计每个目标关键词在多篇目标文章中的总数量，计算所述每个目标关键词的总数量之间的比值；

根据所述比值和所述每个目标关键词进行文章召回，得到文章集，所述文章集中分别包含每个目标关键词的文章数量之比与所述比值相等。
一种关键词抽取装置，其中，所述装置包括：

第一获取模块，用于获取目标文章中的多个分词；

第一确定模块，用于根据预设的关键词库，从所述多个分词中确定多个候选关键词；

第一计算模块，用于根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

第二确定模块，用于将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现：

获取目标文章中的多个分词；

根据预设的关键词库，从所述多个分词中确定多个候选关键词；

根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。
根据权利要求9所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

确定所述目标文章的文章领域，获取属于所述文章领域的领域文本；

根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度；

从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词；

将所述目标领域分词存储至所述关键词库中。
根据权利要求9所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词；

将所述多个领域关键词存储至所述关键词库中。
根据权利要求9-11任一所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个；

若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词；

若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。
根据权利要求12所述的终端设备，其中，所述处理器执行所述计算机程序时还通过以下步骤实现所述监督模型的训练：

获取训练样本，并从所述训练样本中获取已标注的训练关键词；

对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值；

根据多个样本得分值，从所述多个样本分词中确定样本关键词；

基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别；

提取所述样本关键词的关键词特征；

基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。
根据权利要求9所述的终端设备，其中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；所述处理器执行所述计算机程序时还通过以下步骤实现所述监督模型的训练：

统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值；

确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值；

分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值；

根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现：

获取目标文章中的多个分词；

根据预设的关键词库，从所述多个分词中确定多个候选关键词；

根据所述多个候选关键词和所述目标文章，分别计算所述多个候选关键词中每个候选关键词对应的多个得分值；

将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中，分别得到所述每个候选关键词的词概率，并根据所述词概率从所述多个候选关键词中确定目标关键词。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

确定所述目标文章的文章领域，获取属于所述文章领域的领域文本；

根据所述领域文本中的多个领域分词，计算每个领域分词之间的领域关联度；

从多个领域关联度中确定大于预设关联度的目标关联度，以及确定所述目标关联度对应的目标领域分词；

将所述目标领域分词存储至所述关键词库中。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

确定所述目标文章的文章领域，并获取属于所述文章领域下的多个领域关键词；

将所述多个领域关键词存储至所述关键词库中。
根据权利要求15-17任一所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

确定所述关键词库中是否包含目标分词，所述目标分词为所述多个分词中的任意一个；

若所述关键词库中包含所述目标分词，则将所述目标分词作为候选关键词；

若所述关键词库中未包含所述目标分词，则判断所述目标分词是否属于实体词；若所述目标分词属于实体词，则将属于所述实体词的目标分词输入至所述监督模型中，得到属于所述实体词的目标分词的关键词概率；若所述关键词概率大于概率阈值，则将所述关键词概率对应的所述目标分词作为候选关键词。
根据权利要求18所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还通过以下步骤实现所述监督模型的训练：

获取训练样本，并从所述训练样本中获取已标注的训练关键词；

对所述训练样本中的文本内容进行分词得到多个样本分词，并分别计算每个样本分词对应的样本得分值；

根据多个样本得分值，从所述多个样本分词中确定样本关键词；

基于所述样本关键词与所述训练关键词，确定所述样本关键词的标记类别；

提取所述样本关键词的关键词特征；

基于所述样本关键词的关键词特征与标记类别进行模型训练，得到所述监督模型。
根据权利要求15所述的计算机可读存储介质，其中，所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值；所述计算机程序被处理器执行时还实现：

统计所述多个分词的数量，并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频，通过所述词频对应计算所述每个候选关键词的第一得分值；

确定所述多个候选关键词在所述目标文章中的位置，基于所述多个候选关键词在所述目标文章中的位置，计算所述每个候选关键词的第二得分值；

分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置，根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值；

根据预设的文本排序算法，计算所述每个候选关键词对应的第四得分值。