CN110263345A

CN110263345A - 关键词提取方法、装置及存储介质

Info

Publication number: CN110263345A
Application number: CN201910560184.XA
Authority: CN
Inventors: 何伯磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-20
Anticipated expiration: 2039-06-26
Also published as: CN110263345B

Abstract

本发明提出一种关键词提取方法、装置及存储介质，该方法包括确定目标文档的标题中的焦点词；对目标文档进行划分，得到多条语句；根据焦点词，从各语句中确定候选关键词；根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型。通过本发明能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

Description

关键词提取方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种关键词提取方法、装置及存储介质。

背景技术

人工智能的数据处理技术领域中，关键词提取是重要的应用方向，关键词提取一般是指从一些文档或者网页中提取出需要的关键词的过程，通常应用在智能数据采集与标注算法中。

相关技术中，在进行文档关键词提取时，一般采用通用的计算逻辑(例如，对文档进行预处理分词，而后，候选召回，以及排序验证等计算逻辑)提取关键词。

这种方式下，在对文档进行关键词提取时不会考虑文档的结构类型，可能会导致提取的关键词不够全面完整，提取效果不佳。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种关键词提取方法、装置及存储介质，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

为达到上述目的，本发明第一方面实施例提出的关键词提取方法，用于从目标文档中提取关键词，所述目标文档的结构类型为枚举类型，包括：确定所述目标文档的标题中的焦点词；对所述目标文档进行划分，得到多条语句；根据所述焦点词，从各所述语句中确定候选关键词；根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

本发明第一方面实施例提出的关键词提取方法，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

为达到上述目的，本发明第二方面实施例提出的关键词提取装置，用于从目标文档中提取关键词，所述目标文档的结构类型为枚举类型，包括：第一确定模块，用于确定所述目标文档的标题中的焦点词；划分模块，用于对所述目标文档进行划分，得到多条语句；第二确定模块，用于根据所述焦点词，从各所述语句中确定候选关键词；形成模块，用于根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

本发明第二方面实施例提出的关键词提取装置，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

为达到上述目的，本发明第三方面实施例提出的非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，执行一种关键词提取方法，所述方法包括：确定所述目标文档的标题中的焦点词；对所述目标文档进行划分，得到多条语句；根据所述焦点词，从各所述语句中确定候选关键词；根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

本发明第三方面实施例提出的非临时性计算机可读存储介质，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

为达到上述目的，本发明第四方面实施例提出的计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种关键词提取方法，所述方法包括：确定所述目标文档的标题中的焦点词；对所述目标文档进行划分，得到多条语句；根据所述焦点词，从各所述语句中确定候选关键词；根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

本发明第四方面实施例提出的计算机程序产品，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的关键词提取方法的流程示意图；

图2为本发明实施例中目标文档示意图；

图3是本发明一实施例提出的关键词提取方法的流程示意图；

图4为本发明实施例中viterbi模型示意图；

图5是本发明一实施例提出的关键词提取装置的结构示意图；

图6是本发明另一实施例提出的关键词提取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

本发明实施例正是为了解决相关技术中在对文档进行关键词提取时不会考虑文档的结构类型，可能会导致提取的关键词不够全面完整，提取效果不佳的技术问题，提供一种关键词提取方法，用于从目标文档中提取关键词，目标文档的结构类型为枚举类型，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

本发明的关键词提取方法可以具体应用于离线场景，即在终端本地应用。当然，可以理解的是，本发明的关键词提取方法也可以应用在服务端，以实现在线的关键词提取，对此不作限制。

本发明中涉及的终端可以是移动终端、车载终端、机载终端、桌面电脑等各种能够应用关键词提取方法的终端。

图1是本发明一实施例提出的关键词提取方法的流程示意图。

参见图1，该方法包括：

S101：确定目标文档的标题中的焦点词。

其中，当前需要对其进行关键词提取的文档，可以被称为目标文档。

本发明实施例中，针对结构类型为枚举类型的目标文档进行关键词提取，其中，枚举类型的目标文档，即该目标文档中呈现实体的形式为枚举形式，参见图2，图2为本发明实施例中目标文档示意图，包括目标文档21和文档中所呈现的实体22，实体22可以例如标题221、语句222、段落223等，该目标文档以枚举形式呈现上述的实体22。

其中，标题中的焦点词，用于指示文档中的关键词的类型，该类型的关键词，即为当前需要进行提取的关键词。

在具体执行的过程中，可以从目标文档中提取出标题，而后对标题的内容进行预处理，预处理的过程例如为对内容进行语法分析以及词性标注，以确定标题中的焦点词。

参见上述图2，图2中的标题内容为“盘点娱乐圈里省钱省到家的十大明星”，对“盘点娱乐圈里省钱省到家的十大明星”进行语法分析以及词性标注，以确定标题中的焦点词“明星”。

S102：对目标文档进行划分，得到多条语句。

在具体执行的过程中，可以对目标文档中除标题以外的内容，采用分段、分句、语法分析以及词性标注等方法，对目标文档进行划分，得到多条语句，该语句具体为一条完整的语句，即在一条语句的句末存在有一个句号。

或者，也可以将目标文档输入预先学习的划分模型，经由该划分模型，对目标文档进行划分，得到多条语句，其中划分模型可以预先学习由多个样本文档(该样本文档的结构类型为枚举类型)，与对应的语句之间的对应关系，对此不作限制。

S103：根据焦点词，从各语句中确定候选关键词。

其中，目标文档中与焦点词所指示关键词的类型最为匹配的分词，可以被称为候选关键词，候选关键词可以为焦点词的上位词，或者，也可以为焦点词的下位词。

假设焦点词为“明星”，则可以在初始阶段确定所需要提取的关键词为人名，而后，从目标文档中选取出全部的人名类的实体，作为候选关键词，以及从多个候选关键词中确定出目标关键词“古天乐”“王力宏”等，其中，目标关键词为匹配焦点词的候选关键词。

S104：根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型。

在具体执行的过程中，可以从上述的多个候选关键词中确定出匹配的目标关键词，而后，以枚举形式提取出各目标关键词以形成目标关键词组，具体实施过程可以参见下述实施例。

本实施例中，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

图3是本发明一实施例提出的关键词提取方法的流程示意图。

参见图3，该方法包括：

S301：确定目标文档的标题中的焦点词。

S302：对目标文档进行划分，得到多条语句。

S303：对第一语句进行分词，得到与第一语句对应的多个分词，第一语句为多条语句中的任一条语句。

其中，第一语句为多条语句中的任一条语句。

在具体执行的过程中，可以对划分得到的多条语句中的每一条语句，均进行分词处理，由此，得到与每一条语句对应的多个分词。

本发明实施例中，为了提升后续确定候选关键词的效率，还可以仅仅将每一条语句的多个分词中，与焦点词类型匹配的分词，作为后续所采用的分词。

例如，若确定焦点词“明星”的类型为人名，则可以将多个分词中人名类型的分词，作为后续所采用的分词。

S304：分别确定各分词与焦点词的目标概率。

可选地，分别确定各分词与焦点词的上位概率和/或下位概率并作为目标概率；和/或，结合预设实体共现统计词表，分别确定各分词与焦点词的共现概率并作为目标概率。

假设焦点词为“明星”，则“古天乐”“王力宏”等为“明星”的下位词，若分词为焦点词的上位词，则可以确定分词与焦点词之间的上位概率，而若分词为焦点词的下位词，则可以确定分词与焦点词之间的下位概率，对此不作限制。

在分别确定各分词与焦点词的上位概率和/或下位概率并作为目标概率，可以采用神经网络模型，确定分词与焦点词的上位概率和/或下位概率，该神经网络模型可以预先训练样本分词与样本焦点词之间的上位概率和/或下位概率。

当然，神经网络模型仅仅是实现确定上位概率和/或下位概率的一种可能的实现方式，在实际执行过程中，可以通过其他任意可能的方式来实现确定上位概率和/或下位概率，比如，还可以采用传统的编程技术(比如模拟法和工程学方法)实现，又比如，还可以遗传学算法和人工神经网络的方法来实现。

在另一个实施例中，还可以结合预设实体共现统计词表，分别确定各分词与焦点词的共现概率并作为目标概率，其中预设实体共现统计词表可以是预先基于海量文档、新闻、网页中的内容所确定的，该预设实体共现统计词表预先标注了各分词，与对应的焦点词之间的共现概率，对此不作限制。

通过分别确定各分词与焦点词的上位概率和/或下位概率并作为目标概率；和/或，结合预设实体共现统计词表，分别确定各分词与焦点词的共现概率并作为目标概率，综合统计分析了多种角度的概率，实现结合多角度的概率确定出候选关键词，使得确定出的候选关键词更为匹配。

S305：将目标概率满足预设条件的分词，作为第一语句对应的候选关键词。

在上述确定出各分词与焦点词的目标概率之后，可以将目标概率满足预设条件的分词，作为第一语句对应的候选关键词。

其中，预设条件可以为设定一个阈值，在目标概率大于或者等于该阈值时，确定目标概率满足预设条件，对此不作限制。

该阈值可以是预先标定的，可以由用于提取关键词的设备的出厂程序预先设定，或者，也可以由用户根据提取需求进行设定，对此不作限制。

经由上述方法，确定出每条语句对应的候选关键词，该候选关键词为上述分词中的部分分词，且，该候选分词与焦点词之间的目标概率满足预设条件，实现基于目标文档中的每条语句均确定对应的候选关键词，保障关键词提取的完整性和全面性。

S306：根据各候选关键词，结合候选关键词对应的目标概率，确定多个目标关键词，根据多个目标关键词形成目标关键词组。

可选地，将各候选关键词和对应的目标概率输入动态规划模型中，得到动态规划模型的输出结果，输出结果中包括：目标关键词路径；根据目标关键词路径，确定多个目标关键词。

在具体执行的过程中，在确定每条语句对应的候选关键词后，可以将各候选关键词和对应的目标概率输入动态规划模型中，以确定目标关键词。

其中，动态规划模型例如为，viterbi模型，参见图4，图4为本发明实施例中viterbi模型示意图，包括多个语句41，多个节点42，其中各节点42用于描述对应候选关键词的目标概率，经由该viterbi模型输出目标关键词路径，该目标关键词路径例如为图4中虚线所示，根据动态规划模型的工作原理，目标关键词路径上的候选关键词的匹配程度最高。

因此，本发明实施例中，将目标关键词路径上所覆盖的候选关键词，作为目标关键词，以此实现精准地匹配，在保障提取全面性的同时，提升提取的精准度和提取效率，满足***的运行需求，方法较为简捷，具有较好的适用性。

本实施例中，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。综合统计分析了多种角度的概率，实现结合多角度的概率确定出候选关键词，使得确定出的候选关键词更为匹配。实现精准地匹配，在保障提取全面性的同时，提升提取的精准度和提取效率，满足***的运行需求，方法较为简捷，具有较好的适用性。

图5是本发明一实施例提出的关键词提取装置的结构示意图。

参见图5，该装置500，包括：

第一确定模块501，用于确定目标文档的标题中的焦点词；

划分模块502，用于对目标文档进行划分，得到多条语句；

第二确定模块503，用于根据焦点词，从各语句中确定候选关键词；

形成模块504，用于根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型。

可选地，一些实施例中，参见图6，第二确定模块503，包括：

分词子模块5031，用于对第一语句进行分词，得到与第一语句对应的多个分词，第一语句为多条语句中的任一条语句；

确定子模块5032，用于分别确定各分词与焦点词的目标概率，将目标概率满足预设条件的分词，作为第一语句对应的候选关键词。

可选地，一些实施例中，形成模块504，具体用于：

根据各候选关键词，结合候选关键词对应的目标概率，确定多个目标关键词，根据多个目标关键词形成目标关键词组。

可选地，一些实施例中，形成模块504，具体用于：

将各候选关键词和对应的目标概率输入动态规划模型中，得到动态规划模型的输出结果，输出结果中包括：目标关键词路径；

根据目标关键词路径，确定多个目标关键词。

可选地，一些实施例中，确定子模块5032，具体用于：

分别确定各分词与焦点词的上位概率和/或下位概率并作为目标概率；和/或，结合预设实体共现统计词表，分别确定各分词与焦点词的共现概率并作为目标概率。

需要说明的是，前述图1、图3实施例中对关键词提取方法实施例的解释说明也适用于该实施例的关键词提取装置500，其实现原理类似，此处不再赘述。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当存储介质中的指令由处理器执行时，执行一种关键词提取方法，方法包括：

确定目标文档的标题中的焦点词；

对目标文档进行划分，得到多条语句；

根据焦点词，从各语句中确定候选关键词；

根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型。

本实施例中的非临时性计算机可读存储介质，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时，执行一种关键词提取方法，方法包括：

确定目标文档的标题中的焦点词；

对目标文档进行划分，得到多条语句；

根据焦点词，从各语句中确定候选关键词；

本实施例中的计算机程序产品，通过确定目标文档的标题中的焦点词，对目标文档进行划分，得到多条语句，并根据焦点词，从各语句中确定候选关键词，以及根据各候选关键词，形成目标关键词组，目标关键词组中包括多个目标关键词，目标关键词组的结构为枚举类型，能够实现全面完整地从枚举类型的文档中提取出关键词，提升枚举类型文档的关键词提取效果。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种关键词提取方法，用于从目标文档中提取关键词，其特征在于，所述目标文档的结构类型为枚举类型，所述方法包括：

确定所述目标文档的标题中的焦点词；

对所述目标文档进行划分，得到多条语句；

根据所述焦点词，从各所述语句中确定候选关键词；

根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

2.如权利要求1所述的关键词提取方法，其特征在于，所述根据所述焦点词，从各所述语句中确定候选关键词，包括：

对所述第一语句进行分词，得到与所述第一语句对应的多个分词，所述第一语句为所述多条语句中的任一条语句；

分别确定各所述分词与所述焦点词的目标概率；

将所述目标概率满足预设条件的分词，作为所述第一语句对应的候选关键词。

3.如权利要求2所述的关键词提取方法，其特征在于，所述根据各所述候选关键词，形成目标关键词组，包括：

根据各所述候选关键词，结合所述候选关键词对应的目标概率，确定多个目标关键词，根据所述多个目标关键词形成所述目标关键词组。

4.如权利要求3所述的关键词提取方法，其特征在于，所述根据各所述候选关键词，结合所述候选关键词对应的目标概率，确定多个目标关键词，包括：

将各所述候选关键词和所述对应的目标概率输入动态规划模型中，得到所述动态规划模型的输出结果，所述输出结果中包括：目标关键词路径；

根据所述目标关键词路径，确定所述多个目标关键词。

5.如权利要求2所述的关键词提取方法，其特征在于，所述分别确定各所述分词与所述焦点词的目标概率，包括：

分别确定各所述分词与所述焦点词的上位概率和/或下位概率并作为所述目标概率；和/或，

结合预设实体共现统计词表，分别确定各所述分词与所述焦点词的共现概率并作为所述目标概率。

6.一种关键词提取装置，用于从目标文档中提取关键词，其特征在于，所述目标文档的结构类型为枚举类型，所述装置包括：

第一确定模块，用于确定所述目标文档的标题中的焦点词；

划分模块，用于对所述目标文档进行划分，得到多条语句；

第二确定模块，用于根据所述焦点词，从各所述语句中确定候选关键词；

形成模块，用于根据各所述候选关键词，形成目标关键词组，所述目标关键词组中包括多个目标关键词，所述目标关键词组的结构为枚举类型。

7.如权利要求6所述的关键词提取装置，其特征在于，所述第二确定模块，包括：

分词子模块，用于对所述第一语句进行分词，得到与所述第一语句对应的多个分词，所述第一语句为所述多条语句中的任一条语句；

确定子模块，用于分别确定各所述分词与所述焦点词的目标概率，将所述目标概率满足预设条件的分词，作为所述第一语句对应的候选关键词。

8.如权利要求7所述的关键词提取装置，其特征在于，所述形成模块，具体用于：

9.如权利要求8所述的关键词提取装置，其特征在于，所述形成模块，具体用于：

根据所述目标关键词路径，确定所述多个目标关键词。

10.如权利要求7所述的关键词提取装置，其特征在于，所述确定子模块，具体用于：

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的关键词提取方法。

12.一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种关键词提取方法，用于从目标文档中提取关键词，所述目标文档的结构类型为枚举类型，所述方法包括：

确定所述目标文档的标题中的焦点词；

对所述目标文档进行划分，得到多条语句；

根据所述焦点词，从各所述语句中确定候选关键词；