CN112926310A

CN112926310A - 一种关键词提取方法及装置

Info

Publication number: CN112926310A
Application number: CN201911244974.3A
Authority: CN
Inventors: 明亮
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2021-06-08
Anticipated expiration: 2039-12-06
Also published as: CN112926310B

Abstract

本申请实施例公开了一种关键词提取方法及装置，该方法包括：首先，对待处理文本进行分词，得到分词集合，并基于该分词集合以及分词在待处理文本中预设长度的窗口内存在的共现关系建立分词词图；其次，计算分词词图中节点之间的边两端对应的分词的相似度，作为边的权重值；然后，将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，并将特征值满足第一预设条件的分词确定为候选关键词；最后，计算每个候选关键词与待处理文本的相关度，并将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。如此能够有效地利用待处理文本内部词语间的结构关系以及语义信息进行关键词提取，从而能够有效地提高关键词的提取准确性。

Description

一种关键词提取方法及装置

技术领域

本申请涉及互联网技术领域，具体涉及一种关键词提取方法及装置。

背景技术

随着互联网的高速发展，文本数据的数据量在急速增长，此时，为了能够更好地从这些大量的文本数据中获取到有用信息(例如，从某购物网站商品标题中获取到用户需求)，可以先从文本数据中进行关键词提取，再基于这些提取的关键词来对这些文本数据进行有用信息的提取。然而，如何准确提取文本中的关键词仍是一个亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种关键词提取方法及装置，能够有效地提高关键词的提取准确性。

为解决上述问题，本申请实施例提供的技术方案如下：

一种关键词提取方法，所述方法包括：

对待处理文本进行分词，得到分词集合；

建立分词词图，所述分词词图中的节点为所述分词集合中的分词，所述分词词图中节点之间的边表征：在该边两端对应的分词满足在所述待处理文本中预设长度的窗口内存在共现关系；

计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值；

将所述边的权重值作为TextRank算法中的点间权重，计算得到的所述分词的特征值，将所述特征值满足第一预设条件的分词确定为候选关键词；

计算每个所述候选关键词与所述待处理文本的相关度；

将与所述待处理文本的相关度最大的候选关键词确定为所述待处理文本的关键词。

在一种可能的实现方式中，所述方法还包括：

利用Word2vec模型计算所述分词集合中分词的词向量。

在一种可能的实现方式中，所述计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值，包括：

计算所述分词词图中节点之间的边两端对应的分词的词向量之间的第一余弦相似度，将所述第一余弦相似度确定为边的权重值。

计算所述分词词图中节点之间的边两端对应的分词的点间互信息，将所述点间互信息确定为边的权重值。

在一种可能的实现方式中，所述计算每个所述候选关键词与所述待处理文本的相关度，包括：

计算目标候选关键词的词向量与目标范围内的各个分词的词向量之间的第二余弦相似度，所述目标范围为在所述待处理文本中与所述目标候选关键词相邻的预设分词数量范围；

对所述第二余弦相似度进行求和，得到所述目标候选关键词与所述待处理文本的相关度，所述目标候选关键词分别取每一所述候选关键词。

计算目标候选关键词的词向量与所述待处理文本中除所述目标候选关键词之外的各个分词的词向量之间的第三余弦相似度；

对所述第三余弦相似度进行求和得到所述目标候选关键词与所述待处理文本的相关度，所述目标候选关键词分别取每一所述候选关键词。

在一种可能的实现方式中，所述方法还包括：

判断所述待处理文本的关键词是否属于不需要提取目标对象属性的关键词；

如果否，在所述待处理文本中与目标对象属性关键词进行匹配，提取所述待处理文本中包括的目标对象属性关键词。

一种关键词提取装置，所述装置包括：

分词单元，用于对待处理文本进行分词，得到分词集合；

建图单元，用于建立分词词图，所述分词词图中的节点为所述分词集合中的分词，所述分词词图中节点之间的边表征：在该边两端对应的分词满足在所述待处理文本中预设长度的窗口内存在共现关系；

赋值单元，用于计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值；

筛选单元，用于将所述边的权重值作为TextRank算法中的点间权重，计算得到的所述分词的特征值，将所述特征值满足第一预设条件的分词确定为候选关键词；

计算单元，用于计算每个所述候选关键词与所述待处理文本的相关度；

确定单元，用于将与所述待处理文本的相关度最大的候选关键词确定为所述待处理文本的关键词。

在一种可能的实现方式中，所述装置还包括：

转换单元，用于利用Word2vec模型计算所述分词集合中分词的词向量。

在一种可能的实现方式中，所述赋值单元，用于：

在一种可能的实现方式中，所述计算单元，包括：

第一计算子单元，用于计算目标候选关键词的词向量与目标范围内的各个分词的词向量之间的第二余弦相似度，所述目标范围为在所述待处理文本中与所述目标候选关键词相邻的预设分词数量范围；

第一求和子单元，用于对所述第二余弦相似度进行求和，得到所述目标候选关键词与所述待处理文本的相关度，所述目标候选关键词分别取每一所述候选关键词。

在一种可能的实现方式中，所述计算单元，包括：

第二计算子单元，用于计算目标候选关键词的词向量与所述待处理文本中除所述目标候选关键词之外的各个分词的词向量之间的第三余弦相似度；

第二求和子单元，用于对所述第三余弦相似度进行求和得到所述目标候选关键词与所述待处理文本的相关度，所述目标候选关键词分别取每一所述候选关键词。

在一种可能的实现方式中，所述装置还包括：

判断子单元，用于判断所述待处理文本的关键词是否属于不需要提取目标对象属性的关键词；

第一提取子单元，用于在确定所述待处理文本的关键词不属于不需要提取目标对象属性的关键词时，在所述待处理文本中与目标对象属性关键词进行匹配，提取所述待处理文本中包括的目标对象属性关键词。

一种用于关键词提取的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对待处理文本进行分词，得到分词集合；

计算每个所述候选关键词与所述待处理文本的相关度；

一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行所述的关键词提取方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供的关键词提取方法中，首先，对待处理文本进行分词，得到分词集合，并基于该分词集合以及分词在待处理文本中预设长度的窗口内存在的共现关系建立分词词图；其次，计算分词词图中节点之间的边两端对应的分词的相似度，作为边的权重值；然后，将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，并将特征值满足第一预设条件的分词确定为候选关键词；最后，计算每个候选关键词与待处理文本的相关度，并将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。

其中，因边的权重值是基于不同分词之间的相似度确定的，使得边的权重能够有效地表征不同分词之间的语义相似度，从而使得在基于边的权重和TextRank算法筛选关键词时，能够有效地利用待处理文本内部词语间的结构关系以及语义信息进行关键词提取，如此能够有效地提高关键词的提取准确性。另外，还因候选关键词与待处理文本的相关度能够准确地表征在待处理文本中该候选关键词与上下文之间的语义相似度，使得基于与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词，可以最大程度地表征出待处理文本的语义信息，使得提取出的关键词更准确，如此也能够有效地提高关键词的提取准确性。

附图说明

图1为本申请实施例提供的关键词提取方法的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种关键词提取方法的流程图；

图3为本申请实施例提供的共现关系示意图；

图4为本申请实施例提供的分词词图的构建过程的流程图；

图5为本申请实施例提供的分词词图的构建过程的示意图；

图6为本申请实施例提供的另一种关键词提取方法的流程图；

图7为本申请实施例提供的目标范围的示意图；

图8为本申请实施例提供的又一种关键词提取方法的流程图；

图9为本申请实施例提供的再一种关键词提取方法的流程图；

图10为本申请实施例提供的提取出的关键词示意图；

图11为本申请实施例提供的一种关键词提取装置的结构示意图；

图12为本申请实施例提供的一种输入装置的结构示意图；

图13为本申请实施例提供的一种服务器设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请的背景技术进行说明。

发明人对传统关键词提取方法研究中发现以下内容：

(1)有监督的关键词提取方法需要利用训练好的分类模型提取关键词，而且，该分类模型需要预先基于训练文本数据及其对应的关键词标注训练得到的。其中，因训练文本数据对应的关键词标注需要由人工标注，使得训练文本数据对应的关键词标注的获取成本较高，从而使得利用有监督的关键词提取方法进行关键词提取的成本较高。

(2)词频-逆文本频率指数(Term Frequency–Inverse Document Frequency，TF-IDF)算法需要利用待处理文本中词的统计信息(例如，词频和逆向文件频率)提取关键词。其中，因待处理文本中词的统计信息只能表征词语在待处理文本中的出现频率，使得在利用TF-IDF算法提取关键词时只利用了词语在待处理文本中的出现频率，没有考虑待处理文本中词语的出现位置信息以及词语间的语义相似性，导致TF-IDF算法对关键词的提取准确性的降低。

(3)TopicModel算法需要利用训练好的主题预测模型提取关键词。其中，因在利用TopicModel算法提取大量文本数据中的关键词时需要消耗较大的计算资源，增加了处理器的运算压力，使得TopicModel算法只适用于小数据量的文本关键词提取，但不适用于大数据量的文本关键词提取。

(4)传统TextRank算法需要利用构建好的词图模型提取关键词。其中，因词图模型是基于待处理文本的内部词语结构关系构建的，使得在利用传统TextRank算法提取关键词时只利用了待处理文本的内部词语结构关系，没有考虑待处理文本中词语间的语义相似性，导致TF-IDF算法对关键词的提取准确性的降低。

基于此，本申请实施例提供了一种关键词提取方法，该方法包括：对待处理文本进行分词，得到分词集合；建立分词词图；计算该分词词图中节点之间的边两端对应的分词的相似度，将该相似度确定为边的权重值；将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，将该特征值满足第一预设条件的分词确定为候选关键词；计算每个候选关键词与待处理文本的相关度；将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。

其中，因边的权重值是基于不同分词之间的相似度确定的，使得边的权重能够有效地表征不同分词之间的语义相似度，从而使得在基于边的权重和TextRank算法筛选关键词时，能够有效地利用待处理文本内部词语间的结构关系以及语义信息进行关键词提取，如此能够有效地提高关键词的提取准确性。另外，还因候选关键词与待处理文本的相关度能够准确地表征在待处理文本中该候选关键词与上下文之间的语义相似度，使得基于与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词，可以最大程度地表征出待处理文本的语义信息，使得提取出的关键词更准确，如此也能够有效地提高关键词的提取准确性。而且，因本申请实施例提供的关键词提取方法运算量小，适用于大数据量的文本关键词提取。此外，因本申请实施例提供的关键词提取方法无需预先训练，从而无需预先由人工标注训练文本数据对应的关键词，减少了关键词提取成本。

为了便于理解本申请实施例提供的关键词提取方法，下面先结合图1对本申请实施例提供的应用场景进行说明。其中，图1为本申请实施例提供的关键词提取方法的示例性应用场景的框架示意图。其中，本申请实施例提供的关键词提取方法可以应用于服务器101。

实际应用中，当终端102获取到待处理文本之后，终端102可以将待处理文本发送给服务器101，以便服务器101可以从待处理文本中提取关键词，而且服务器101提取关键词的过程具体可以为：对待处理文本进行分词，得到分词集合；建立分词词图；计算该分词词图中节点之间的边两端对应的分词的相似度，将该相似度确定为边的权重值；将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，将该特征值满足第一预设条件的分词确定为候选关键词；计算每个候选关键词与待处理文本的相关度；将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。此时，当服务器101从待处理文本中提取到关键词之后，服务器101可以自身利用该关键词进行其他分析处理(例如，信息搜索等)，也可以有服务器101将该关键词发送至终端102，使得终端102能够利用该关键词进行处理(例如，显示或分析处理)。

需要说明的是，本申请实施例提供的关键词提取方法可以由服务器101根据服务器101自身存储的待处理文本、终端102发送的待处理文本或其它设备发送的待处理文本执行，也可以由终端102根据终端102自身存储或采集的待处理文本、服务器101发送的待处理文本、或其它设备发送的待处理文本执行。其中，其它设备可以为不同于服务器101和终端102的独立存在的设备，可以为现有、正在研发的或将来研发的、能够向服务器101或终端102发送待处理文本的设备。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

需要注意的是，终端102可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是，本申请实施例中服务器101可以是现有的、正在研发的或将来研发的、能够执行上述操作的设备的一个示例。本申请的实施方式在此方面不受任何限制。

为便于理解本申请实施例提供的技术方案，下面将结合附图对本申请实施例提供的关键词提取方法进行说明。

参见图2，该图为本申请实施例提供的一种关键词提取方法的流程图，如图2所示，该方法可以包括S201-S206：

S201：对待处理文本进行分词，得到分词集合。

本申请实施例中，在获取到待处理文本之后，可以对待处理文本进行分词处理，得到包括待处理文本中的各个分词的分词集合，以便后续能够基于该分词集合中的各个分词进行关键词提取。

另外，待处理文本中通常会包括一些没有分析价值的词语(例如，“的”、“啊”等词)，此时，为了提高关键词的提取效率，可以在分词之后将这些没有分析价值的词语直接删除。

基于此，本申请实施例还提供了S201的一种实施方式，在该实施方式中，S201具体可以为：先对待处理文本进行分词得到初始分词集合，并标注初始分词集合中各个分词的词性；再根据初始分词集合中各个分词的词性，从初始分词集合中删除具有预设词性的分词，并将删除后的初始分词集合作为最终的分词集合。其中，预设词性是指无分析价值的词语对应的词性，而且预设词性可以预先设定，尤其可以根据应用场景设定。

在该实施方式中，因最终获得的分词集合中不包括待处理文本中那些无分析价值的词语，减少了分词集合中的分词数量，从而减少了关键词提取的后续过程中需要分析处理的分词数量，从而有效地提高了关键词的提取效率。

需要说明的是，本申请实施例不限定文本分词算法，也不限定词性标注方法。

S202：建立分词词图。

分词词图用于表征待处理文本内部词语结构关系；而且，分词词图中包括多个节点，而且不同节点之间可以被有向边连接。其中，分词词图中的节点为分词集合中的分词，而且分词词图中节点之间的边表征：在该边两端对应的分词满足在待处理文本中预设长度的窗口内存在共现关系。

需要说明的是，共现关系是指在待处理文本中预设长度的窗口内同时出现的分词。例如，如图3所示，因分词“厂家”和分词“户外”同时出现在窗口内，使得分词“厂家”和分词“户外”之间存在共现关系。另外，预设长度是预先设定的，尤其可以根据应用场景设定。

另外，本申请实施例还提供了一种分词词图的构建过程，如图4所示，该构建过程具体可以包括S401-S402：

S401：根据分词集合，生成分词词图的各个节点。

本申请实施例中，在获取到分词集合之后，可以将分词集合中的各个分词作为分词词图的各个节点，以便后续能够基于待处理文本中存在的共现关系生成分词词图中不同分词之间的连接关系。

S402：利用预设长度的窗口在待处理文本中以预设步长进行滑动得到各个窗口位置，并将每个窗口位置下的窗口内同时出现的不同分词对应的节点之间进行有向连接，得到分词词图中不同节点之间的有向边。

其中，预设步长可以预先设定，尤其可以根据应用场景设定。例如，预设步长为一个分词。

有向连接是指节点间的连接是有向性的；而且，本申请实施例不限定节点间方向的设定，例如，可以将由位置靠前分词对应的节点到位置靠后分词对应的节点的方向作为正方向(例如，由“厂家”对应的节点到“直销”对应的节点的方向作为正方向)，也可以将由位置靠后分词对应的节点到位置靠前分词对应的节点的方向作为正方向(例如，由“直销”对应的节点到“厂家”对应的节点的方向作为正方向)。

本申请实施例中，在获取到分词词图的各个节点之后，可以利用预设长度的窗口在待处理文本中以预设步长进行滑动得到各个窗口位置，并将每个窗口位置下的窗口内同时出现的不同分词对应的节点之间进行有向连接，得到分词词图中不同节点之间的有向边。例如，如图5所示，当待处理文本是图3所示的待处理文本，且预设步长为一个分词时，S402具体可以为：利用预设长度的窗口在待处理文本中以一个分词的步长进行滑动得到第一个窗口位置、第二个窗口位置、……，并将第一个窗口位置下的窗口内同时出现的不同分词(例如，厂家和直销)对应的节点之间进行有向连接，将第二个窗口位置下的窗口内同时出现的不同分词对应的节点之间进行有向连接，……。

需要说明的是，本申请实施例不限定确定各个窗口位置与获取各个窗口位置下的窗口内不同分词对应的有向边之间的执行顺序。例如，可以每确定一个窗口位置就获取该窗口位置下的的窗口内不同分词对应的有向边(如图5所示)，也可以在获取到所有窗口位置之后，再获取各个窗口位置下的窗口内不同分词对应的有向边。

S203：计算分词词图中节点之间的边两端对应的分词的相似度，将相似度确定为边的权重值。

本申请实施例中，在构建好分词词图之后，可以计算分词词图中节点之间的边两端对应的分词的相似度，将相似度确定为边的权重值。例如，假设分词词图中存在第一节点和第二节点，且第一节点与第二节点被第一边连接。基于该假设，S203具体可以为：计算第一节点对应的分词与第二节点对应的分词之间的相似度，并将该相似度作为第一边的权重值。

另外，本申请实施例还提供了获取边的权重值的具体实施方式，技术详情请参见下文。

S204：将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，将特征值满足第一预设条件的分词确定为候选关键词。

TextRank算法对应的有向有权图可以是分词词图，使得TextRank算法对应的有向有权图中节点间的权重就是分词词图中的对应节点间边的权重。另外，TextRank算法对应的有向有权图中节点权重的计算公式如公式(1)所示。

式中，WS(v_i)表示第i个节点的节点权重；v_i表示第i个节点；d表示阻尼系数；In(v_i)表示指向第i个节点的节点集合；v_j表示第j个节点，且v_j与v_i之间的点间权重的方向为从v_j指向v_i；w_ji表示v_j与v_i之间的点间权重；Out(v_j)表示第j个节点指向的节点集合；v_k表示第k个节点，且v_j与v_k之间的点间权重的方向为从v_j指向v_k；w_jk表示v_j与v_k之间的点间权重；WS(v_j)表示第j个节点的节点权重。

基于上述内容可知，本申请实施例中，在构建好分词词图以及获取到分词词图中边的权重之后，可以先将分词词图作为TextRank算法对应的有向有权图，并将分词词图中边的权重作为TextRank算法中的点间权重；再利用公式(1)迭代计算TextRank算法对应的有向有权图中各个节点的节点权重，直至收敛，并将最终确定的各个节点的节点权重作为相应节点对应的分词的特征值(例如，将第一节点的节点权重值作为第一节点对应的分词的特征值)，以便可以将特征值满足第一预设条件的分词确定为候选关键词。

需要说明的是，第一预设条件是预先设定的，尤其可以根据应用场景设定。例如，第一预设条件可以是在将各个分词的特征值按照从大到小排序时的排序靠前的N个分词，其中N可以预先设定，尤其可以根据应用场景设定。

S205：计算每个候选关键词与待处理文本的相关度。

本申请实施例中，在获取各个候选关键词之后，可以计算每个候选关键词与待处理文本的相关度，以便后续可以将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。

另外，本申请实施例还提供了一种获取每个候选关键词与待处理文本的相关度的具体实施方式，技术详情请参见下文。

S206：将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。

以上为本申请实施例提供的关键词提取方法的具体实施方式，在该实施方式中，首先，对待处理文本进行分词，得到分词集合，并基于该分词集合以及分词在待处理文本中预设长度的窗口内存在的共现关系建立分词词图；其次，计算分词词图中节点之间的边两端对应的分词的相似度，作为边的权重值；然后，将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，并将特征值满足第一预设条件的分词确定为候选关键词；最后，计算每个候选关键词与待处理文本的相关度，并将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。

在本申请实施例一种可能的实现方式中，如图6所示，关键词提取方法除了包括上述步骤以外，还可以包括：

S207：利用Word2vec模型计算分词集合中分词的词向量。

Word2vec模型用于生成词语的词向量，使得生成的词向量能够准确地表征该词语的语义信息。

在本申请实施例中，在获取到分词集合之后，可以利用Word2vec模型计算分词集合中分词的词向量，以便后续能够基于各个分词的词向量来计算不同分词之间的相似度和/或计算分词与待处理文本的相似度。

需要说明的是，本申请实施例不限定S207的执行时间，而且S207只需在生成分词集合之后且使用分词的词向量之前执行即可。例如，若利用分词的词向量执行S203时，则S207可以在S202之后且S203之前执行；若利用分词的词向量执行S205时，则S207可以在S202之后且S205之前执行。

在本申请实施例一种可能的实现方式中，为了提高关键词的提取准确性，可以基于分词的词向量与余弦相似度计算公式来计算不同分词之间的相似度。基于此，本申请实施例还提供了一种获取边的权重值(也就是S203)的具体实施方式，在该实施方式中，S203具体可以为：计算分词词图中节点之间的边两端对应的分词的词向量之间的第一余弦相似度，将第一余弦相似度确定为边的权重值。

在该实施方式中，在获取到各个分词的词向量之后，可以计算分词词图中节点之间的边两端对应的分词的词向量之间的余弦相似度，作为第一余弦相似度，并将该第一余弦相似度确定为边的权重值。例如，假设分词词图中存在第一节点和第二节点，第一节点与第二节点被第一边连接，第一节点对应的分词的词向量为第一词向量，且第二节点对应的分词的词向量为第二词向量。基于该假设，S203具体可以为：计算第一词向量和第二词向量之间的余弦相似度，作为第一余弦相似度，并将该第一余弦相似度确定为第一边的权重值。

以上为本申请实施例提供的S203的一种实施方式，在该实施方式中，可以基于分词的词向量以及余弦相似度计算公式来计算两个分词间的相似度，以便将该两个分词间的相似度作为该两个分词对应节点间边的权重值。其中，因两个分词间的余弦相似度能够准确地衡量这两个分词之间的语义相似程度，使得基于分词间的余弦相似度确定的边的权重值能够有效地表征边两端对应的分词之间的语义相似程度，从而能够提高关键词的提取准确性。

在本申请实施例一种可能的实现方式中，为了提高关键词的提取准确性，本申请实施例除了可以采用余弦相似度来计算分词间相似度以外，还可以利用点间互信息(Pointwise Mutual Information，PMI)来计算分词间相似度。基于此，本申请实施例还提供了一种获取边的权重值(也就是S203)的具体实施方式，在该实施方式中，S203具体可以为：计算分词词图中节点之间的边两端对应的分词的点间互信息，将点间互信息确定为边的权重值。

在该实施方式中，在构建好分词词图之后，可以计算分词词图中节点之间的边两端对应的分词的点间互信息，将点间互信息确定为边的权重值。例如，假设分词词图中存在第一节点和第二节点，且第一节点与第二节点被第一边连接。基于该假设，S203具体可以为：计算第一节点对应的分词与第二节点对应的分词之间的点间互信息，并将该点间互信息作为第一边的权重值。

以上为本申请实施例提供的S203的另一种实施方式，在该实施方式中，可以利用两个分词间的点间互信息作为该两个分词对应节点间边的权重值。其中，因点间互信息可以直接利用文本信息进行计算，无需将分词转化为词向量，简化了边的权重值的获取过程，从而提高了关键词的提取效率。

在本申请实施例一种可能的实现方式中，为了提高关键词的提取准确性，可以基于分词的词向量与余弦相似度计算公式来计算分词与待处理文本之间的相似度。基于此，本申请实施例还提供了一种计算候选关键词与待处理文本的相关度(也就是S205)的一种实施方式，在该实施方式中，S205具体可以包括以下两步：

第一步：计算目标候选关键词的词向量与目标范围内的各个分词的词向量之间的第二余弦相似度。

其中，目标候选关键词可以分别取每一候选关键词，也就是，目标候选关键词可以为任一候选关键词。

另外，目标范围为在待处理文本中与目标候选关键词相邻的预设分词数量范围(如图7所示)。其中，预设分词数量可以预先设定，尤其可以根据应用场景设定，例如，预设分词数量可以为5个分词。

本申请实施例中，在获取到各个分词的词向量之后，可以计算目标候选关键词的词向量与目标范围内的各个分词的词向量之间的余弦相似度，均作为第二余弦相似度。例如，假设目标候选关键词为第一分词，且目标范围内包括第二分词和第三分词。基于该假设，则第一步具体可以为：计算第一分词的词向量与第二分词的词向量之间的余弦相似度，作为第二余弦相似度；并计算第一分词的词向量与第二分词的词向量之间的余弦相似度，也作为第二余弦相似度，以便后续能够基于这两个第二余弦相似度来确定第一分词与待处理文本之间的相似度。

第二步：对第二余弦相似度进行求和，得到目标候选关键词与待处理文本的相关度。

本申请实施例中，在获取到目标候选关键词对应的第二余弦相似度之后，可以将目标候选关键词对应的第二余弦相似度进行求和，得到目标候选关键词与待处理文本的相关度。例如，当目标候选关键词为第一分词时，则第二步具体可以为：将第一分词对应的第二余弦相似度进行求和，得到第一分词与待处理文本的相关度。

需要说明的是，在本申请实施例中，可以将每个候选词均作为目标候选关键词，以便利用上述两步来获取每个候选关键词与待处理文本的相关度。

以上为本申请实施例提供的S205的一种实施方式，在该实施方式中，可以基于每个候选关键词的词向量与待处理文本中目标范围内的各个分词的词向量之间的第二余弦相似度和来确定每个候选关键词与待处理文本的相关度。其中，因目标范围内的各个分词能够有效地表征目标候选关键词的上下文语义信息，使得基于第二余弦相似度和确定的目标候选关键词与待处理文本的相关度能够准确地表征目标候选关键词与待处理文本的语义相关性，如此能够有效地提高关键词的提取准确性。

在本申请实施例一种可能的实现方式中，为了提高关键词的提取准确性，可以直接根据各个候选关键词与待处理文本中其他分词之间的相似度来确定各个候选关键词与待处理文本的相关度。基于此，本申请实施例还提供了计算候选关键词与待处理文本的相关度(也就是S205)的另一种实施方式，在该实施方式中，S205具体可以包括以下两步：

第一步：计算目标候选关键词的词向量与待处理文本中除目标候选关键词之外的各个分词的词向量之间的第三余弦相似度。

其中，目标候选关键词可以分别取每一所述候选关键词，也就是，目标候选关键词可以为任一候选关键词。

本申请实施例中，在获取到各个分词的词向量之后，可以计算目标候选关键词的词向量与待处理文本中除目标候选关键词之外的各个分词的词向量之间的余弦相似度，均作为第三余弦相似度。例如，假设目标候选关键词为第一分词，且待处理文本中包括第一分词、第二分词、第三分词和第四分词。基于该假设，则第一步具体可以为：分别计算第一分词的词向量与第二分词的词向量之间的余弦相似度、第一分词的词向量与第三分词的词向量之间的余弦相似度、以及第一分词的词向量与第四分词的词向量之间的余弦相似度，均作为第一分词对应的第三余弦相似度，以便后续能够基于这三个第三余弦相似度来确定第一分词与待处理文本的相关度。

第二步：对第三余弦相似度进行求和得到目标候选关键词与待处理文本的相关度。

本申请实施例中，在获取到目标候选关键词对应的第三余弦相似度之后，可以将目标候选关键词对应的第三余弦相似度进行求和，得到目标候选关键词与待处理文本的相关度。例如，当目标候选关键词为第一分词时，则第二步具体可以为：将第一分词对应的第三余弦相似度进行求和，得到第一分词与待处理文本的相关度。

以上为本申请实施例提供的S205的另一种实施方式，在该实施方式中，可以基于目标候选关键词的词向量与待处理文本中除目标候选关键词之外的各个分词的词向量之间的第三余弦相似度和来确定每个候选关键词与待处理文本的相关度。其中，因目标范围内的各个分词能够有效地表征目标候选关键词的上下文语义信息，使得基于第三余弦相似度和确定的目标候选关键词与待处理文本的相关度能够准确地表征目标候选关键词与待处理文本的语义相关性，如此能够有效地提高关键词的提取准确性。

另外，为了提高关键词的提取准确性，可以在获取到待处理文本的关键词之后提取包括目标对象属性(例如，性别信息、年龄信息等)的关键词，使得最终确定的待处理文本的关键词更准确。但是，在一些情况下，一些关键词可能隐含(或明含)目标对象属性(例如，关键词“裙子”隐含目标对象的性别属性为女)，此时，可以不再提取待处理文本中包括的目标对象属性关键词，以便提高关键词的提取效率。

基于此，在本申请实施例一种可能的实现方式中，如图8所示，关键词提取方法除了包括上述步骤以外，还可以包括S208-S210：

S208：判断待处理文本的关键词是否属于不需要提取目标对象属性的关键词；若是，则执行S209；若否，则执行S210。

其中，目标对象属性用于描述目标对象的自身信息；而且，本申请实施例不限定目标对象属性，例如，目标对象属性可以包括性别属性(男或女)、年龄属性(儿童、青少年、中年或老人等)、身份属性(男朋友、女朋友、闺蜜、父亲、母亲、女儿、儿子、姐姐或弟弟等)等中的至少一种。

不需要提取目标对象属性的关键词是指隐含(或明含)目标对象属性的关键词。例如，因关键词“裙子”隐含目标对象的性别属性为女，使得关键词“裙子”属于不需要提取目标对象属性的关键词。

需要说明的是，不需要提取目标对象属性的关键词可以预先设定，尤其可以根据应用场景设定；另外，不需要提取目标对象属性的关键词还可以利用贝叶斯统计得到。

S209：结束关键词的提取过程。

S210：在待处理文本中与目标对象属性关键词进行匹配，提取待处理文本中包括的目标对象属性关键词。

其中，目标对象属性关键词可以预先设定，尤其可以根据应用场景设定。

本申请实施例中，在确定关键词中未携带目标对象属性之后，可以将待处理文本中与目标对象属性关键词进行匹配，以便提取待处理文本中包括的目标对象属性关键词。

以上为本申请实施例提供的关键词提取方法的另一种实施方式，在该实施方式中，在基于分词与待处理文本的相似度筛选出关键词之后，可以先判断该筛选出的关键词是否携带有目标对象属性，以便在确定该筛选出的关键词未携带有目标对象属性时，可以在待处理文本中与目标对象属性关键词进行匹配，提取待处理文本中包括的目标对象属性关键词，以便将筛选出的关键词和包括的目标对象属性关键词均作为待处理文本的最终关键词。

其中，因筛选出的关键词和包括的目标对象属性关键词分别能够表征待处理文本不同方面的语义信息，使得筛选出的关键词和包括的目标对象属性关键词能够更准确地表征待处理文本，如此能够有效地提高关键字的提取准确性。另外，因一些筛选出的关键词携带有目标对象属性，使得该筛选出的关键词能够表征待处理文本不同方面的语义信息，此时无需再提取包括的目标对象属性关键词，如此能够在提高关键词提取准确性的前提下简化关键词的提取过程，提高了关键词的提取效率。

此外，在一些情况下，品牌关键词(例如，小米)与型号关键词(例如，5S)总是同时出现的(例如，小米5S)，此时，为了提高关键词的提取准确性，可以通过匹配来提取出包括品牌关键词对应的型号关键词。

基于此，在本申请实施例一种可能的实现方式中，如图9所示，关键词提取方法除了包括上述步骤以外，还可以包括S211-S212：

S211：利用贝叶斯统计提取品牌关键词对应的型号关键词。

S212：在待处理文本中与型号关键词进行匹配，提取待处理文本中包括的型号关键词。

在该实施方式中，可以先利用贝叶斯统计提取品牌关键词对应的型号关键词，再在待处理文本中与型号关键词进行匹配，提取待处理文本中包括的型号关键词，以便能够根据该包括的型号关键词以及基于分词与待处理文本的相似度筛选出关键词，得到待处理文本的关键词。例如，当品牌关键词为“小米”时，则可以先利用贝叶斯统计提取“小米”对应的型号关键词(例如，1S、2S、……)，再在待处理文本中与型号关键词进行匹配，提取待处理文本中包括的型号关键词。

需要说明的是，本申请实施例提供的S211-S212可以与上述提供的关键词提取方法的任一实施方式进行结合实施，而且，本申请实施例不限定步骤S211-S212的执行时间，可以在关键词提取过程中的任一时间执行。

以上为本申请实施例提供的关键词提取方法的一种实施方式，在该实施方式中，可以先利用贝叶斯统计提取品牌关键词对应的型号关键词，再在待处理文本中与型号关键词进行匹配，提取待处理文本中包括的型号关键词，以便能够根据该包括的型号关键词以及基于分词与待处理文本的相似度筛选出关键词，得到待处理文本的关键词。如此能够有效地提高了关键词的提取准确性。

需要说明的是，图8中的虚线框的步骤可以执行，也可以不执行。另外，可以利用本申请实施例提供的关键词提取方法对图10所示的待处理文本进行批量处理，得到每个文本对应的关键词。

基于上述方法实施例提供的关键词提取方法，本申请实施例还提供了一种关键词提取装置，下面结合附图进行解释和说明。

装置实施例

参见图11，该图为本申请实施例提供的一种关键词提取装置的结构示意图。

本申请实施例提供的关键词提取装置，包括：

分词单元1101，用于对待处理文本进行分词，得到分词集合；

建图单元1102，用于建立分词词图，所述分词词图中的节点为所述分词集合中的分词，所述分词词图中节点之间的边表征：在该边两端对应的分词满足在所述待处理文本中预设长度的窗口内存在共现关系；

赋值单元1103，用于计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值；

筛选单元1104，用于将所述边的权重值作为TextRank算法中的点间权重，计算得到的所述分词的特征值，将所述特征值满足第一预设条件的分词确定为候选关键词；

计算单元1105，用于计算每个所述候选关键词与所述待处理文本的相关度；

确定单元1106，用于将与所述待处理文本的相关度最大的候选关键词确定为所述待处理文本的关键词。

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述赋值单元1104，用于：

在一种可能的实现方式中，所述计算单元1105，包括：

在一种可能的实现方式中，所述装置还包括：

第二提取子单元，用于利用贝叶斯统计提取品牌关键词对应的型号关键词；

第三提取子单元，用于在所述待处理文本中与所述型号关键词进行匹配，提取所述待处理文本中包括的型号关键词。

图12示出了一种输入装置1200的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理部件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理***，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口为处理组件1202和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

对待处理文本进行分词，得到分词集合；

计算每个所述候选关键词与所述待处理文本的相关度；

可选的，所述方法还包括：

利用Word2vec模型计算所述分词集合中分词的词向量。

可选的，所述计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值，包括：

可选的，所述计算每个所述候选关键词与所述待处理文本的相关度，包括：

可选的，所述方法还包括：

利用贝叶斯统计提取品牌关键词对应的型号关键词；

在所述待处理文本中与所述型号关键词进行匹配，提取所述待处理文本中包括的型号关键词。

图13是本发明实施例中服务器的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

终端1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1356，一个或一个以上键盘1356，和/或，一个或一个以上操作***1341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种关键词提取方法，其特征在于，所述方法包括：

对待处理文本进行分词，得到分词集合；

计算每个所述候选关键词与所述待处理文本的相关度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用Word2vec模型计算所述分词集合中分词的词向量。

3.根据权利要求2所述的方法，其特征在于，所述计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值，包括：

4.根据权利要求1所述的方法，其特征在于，所述计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值，包括：

5.根据权利要求2所述的方法，其特征在于，所述计算每个所述候选关键词与所述待处理文本的相关度，包括：

6.根据权利要求2所述的方法，其特征在于，所述计算每个所述候选关键词与所述待处理文本的相关度，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种关键词提取装置，其特征在于，所述装置包括：

分词单元，用于对待处理文本进行分词，得到分词集合；

9.一种用于关键词提取的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对待处理文本进行分词，得到分词集合；

计算每个所述候选关键词与所述待处理文本的相关度；

10.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行权利要求1至7中一个或多个所述的关键词提取方法。