CN112527977B

CN112527977B - 概念抽取方法、装置、电子设备及存储介质

Info

Publication number: CN112527977B
Application number: CN202011241251.0A
Authority: CN
Inventors: 李涓子; 王禹权; 于济凡; 陈凯源; 孙凯; 侯磊; 张鹏; 唐杰; 许斌; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2024-06-25
Anticipated expiration: 2040-11-09
Also published as: CN112527977A

Abstract

本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质，其中，该方法包括：根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表；对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果；其中，待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质，通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序，根据重排序的结果获取概念抽取结果，能在标注数据较少甚至没有标注数据的情况下，从非结构化文本中更高效、准确等抽取出概念。

Description

概念抽取方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种概念抽取方法、装置、电子设备及存储介质。

背景技术

概念，又称科学概念，是一种科学语料中用于表征具体技术、重要知识点的术语短语，如“二叉树”就是计算机领域的一个重要的概念。

传统的概念抽取方法主要包括三大类：关键短语与术语抽取、实体链接和概念/集合扩展。关键短语与术语抽取，一般通过分词等方法得到候选短语，然后对候选短语进行置信度排序，选取分数较高的候选短语作为抽取结果。实体链接是从文本中找出其背景知识库中存在的实体的不同提及方式。概念扩展类任务是通过对语料、外部知识库等大规模资源进行分析，找出与给定的少量种子概念属于同一集合的概念。

但上述三类方法依赖专家标注实现，在有较多标注数据的前提下，可以获得比较准确的概念抽取结果。但在标注数据较少甚至没有标注数据(例如非结构化文本)的情况下，上述三类方法的概念抽取结果的准确率较低。

发明内容

本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质，用以解决现有技术中在标注数据较少的情况下概念抽取结果的准确率较低的缺陷，实现在标注数据较少甚至没有标注数据的情况下，更准确的概念抽取。

本发明实施例提供一种概念抽取方法，包括：

根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对所述待提取文本进行实体链接，获取第二候选概念列表；

对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取所述待提取文本的概念抽取结果；

其中，所述待提取文本为非结构化文本。

根据本发明一个实施例的概念抽取方法，所述根据重排序的结果获取所述待提取文本的概念抽取结果的具体步骤包括：

根据重排序的结果和预设的评分阈值，或者根据重排序的结果和预设数量，选择多个所述候选概念，作为所述待提取文本的概念抽取结果。

根据本发明一个实施例的概念抽取方法，所述根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表的具体步骤包括：

根据所述预设的词表对所述待提取文本进行过滤，获取所述预设的词表与所述待提取文本的交集；

对所述交集进行分词和词性标注，获取所述交集中的名词作为候选概念，组成所述第一候选概念列表。

根据本发明一个实施例的概念抽取方法，所述对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序的具体步骤包括：

根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序；

和/或，根据所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序。

根据本发明一个实施例的概念抽取方法，所述根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序的具体步骤包括：

根据TF-IDF方法，获取所述第一候选概念列表中各候选概念的置信度；

根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，以及所述第二候选概念列表，获取重排序的结果。

根据本发明一个实施例的概念抽取方法，所述根据所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序的具体步骤包括：

获取所述对所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量，根据所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量进行聚类；

根据聚类获得的每一类簇中心与预设的每一种子概念类簇中心之间的相似度，对各所述类簇中心所属的类簇进行排序；

对于每一所述类簇，根据与所述类簇中心之间的相似度最大的种子概念类簇中心，与属于所述类簇的每一候选概念的词向量之间的相似度，对属于所述类簇的各候选概念进行排序。

根据本发明一个实施例的概念抽取方法，所述根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，以及所述第二候选概念列表，获取重排序的结果的具体步骤包括：

对于所述第一候选概念列表和所述第二候选概念列表的交集中的各候选概念，根据所述交集中的每一候选概念在的置信度和在所述待提取文本中的出现频率，获取所述交集中的每一候选概念的评分，并将不属于所述交集的各候选概念的评分确定为零；

根据所述第一候选概念列表和所述第二候选概念列表中各候选概念的评分，获取所述重排序的结果。

本发明实施例还提供一种概念抽取装置，包括：

提取模块，用于根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对所述待提取文本进行实体链接，获取第二候选概念列表；

筛选模块，用于对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取所述待提取文本的概念抽取结果；

其中，所述待提取文本为非结构化文本。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述概念抽取方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述概念抽取方法的步骤。

本发明实施例提供的概念抽取方法、装置、电子设备及存储介质，根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果，能在标注数据较少甚至没有标注数据的情况下，从非结构化文本中更高效、准确等抽取出概念，能减少人工、提高自动化程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种概念抽取方法的流程示意图；

图2是本发明实施例提供的一种概念抽取装置的结构示意图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

为了克服现有技术的上述问题，本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质，其发明构思是，通过不同的方法从非结构化文本中提取候选概念，对提取出的各候选概念根据其是概念的可能性大小进行排序，根据排序筛选出概念抽取结果，从而筛选出最贴合技术领域的概念。

图1是本发明实施例提供的一种概念抽取方法的流程示意图。下面结合图1描述本发明实施例的概念抽取方法。如图1所示，该方法包括：步骤S101、根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表。

其中，待提取文本为非结构化文本。

具体地，待提取文本可以为网页解析结果或教学视频中的字幕等非结构化文本。本发明实施例提供的概念抽取方法，尤其适用于针对某一技术领域的课程进行该课程的概念抽取。

可以分别通过术语抽取的方法和实体链接的方法，对待提取文本进行初步的概念抽取，获得多个候选概念。

通过术语抽取的方法对待提取文本进行初步的概念抽取可以包括：

根据预设的词表，获取待提取文本中的名词，作为各候选概念。

预设的词表，可以是大词表，包括待提取文本所使用的语言中使用的大量词汇。

通过术语抽取的方法获得的各候选概念，组成第一候选概念列表。

通过实体链接的方法对待提取文本进行初步的概念抽取可以包括：

使用链接语言对待提取文本进行实体链接，根据链接结果从预设的知识图谱中获取各候选概念。

预设的知识图谱，是包括该待提取文本所属的技术领域的知识的知识图谱。

例如，可以使用Xlink对无结构文本链接，从XLore中得到各候选概念。

XLink是基于跨语言知识库XLORE的实体链接***。XLink能够识别出用户输入的文本文档(如新闻、博客等)中的实体，并链接到XLORE相对应的实体(概念、实例)上。XLink可以将文本信息和知识图谱桥接起来，为文本理解提供了外部知识。并且，XLink可以帮助读者理解有歧义的、生僻的实体，提高文本理解能力。

XLore是第一个大规模的中英文知识平衡的知识图谱。XLORE是从异构的跨语言在线百科中抽取结构化信息，融合中英文维基、法语维基和百度百科，对百科知识进行结构化和跨语言链接构建的多语言知识图谱，是中英文知识规模较平衡的大规模多语言知识图谱。

通过实体链接的方法获得的各候选概念，组成第二候选概念列表。

步骤S102、对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果。

具体地，第一候选概念列表和第二候选概念列表中的各候选概念，指第一候选概念列表和第二候选概念列表的并集中的各候选概念。

对于第一候选概念列表和第二候选概念列表的并集中的各候选概念，通过比较各候选概念是概念的评分，并根据比较结果进行排序，获取重排序的结果。

该评分，可以反映候选概念是概念的概率。评分越高，说明候选概念是概念的概率越大；评分越低，说明候选概念是概念的概率越小。

可以获取第一候选概念列表和第二候选概念列表的并集中的各候选概念是概念的评分，并根据上述并集中的各候选概念是概念的概率的大小进行排序。

还可以并不直接获取第一候选概念列表和第二候选概念列表的并集中的各候选概念是概念的概率，而是间接比较上述并集中的各候选概念是概念的概率的大小，根据比较结果进行排序。

根据重排序的结果，可以从第一候选概念列表和第二候选概念列表的并集中，筛选出一定数量的候选概念作为概念抽取结果。

需要说明的是，传统的关键短语与术语抽取方法，是从文本中抽取关键的短语，一般通过分词等方法得到候选短语，然后对它们进行置信度排序，选取分数较高的部分作为抽取结果。一般分为有监督方法和无监督方法：有监督方法通过训练分类模型来判断一个词是否是一个目标短语(即概念)，而无监督方法，如TextRank等则通过上下文共现等方法构建语义图，然后进行置信度传播从而得到结果。但对于大部分实际的概念获取场景来，由于标注数据都是十分匮乏，因此有监督的方法往往难以施行，抽取的准确率极低；对于无监督的方法来说，一旦文本长度过短(如一些网页解析结果、教学中的课程字幕等)，传统基于上下文的方法就难以进行建图，因而难以得出可信的置信度结果，抽取的准确率较低。并且，由于大量的概念实际是在文本中低频出现的，这也使得仅使用诸如TF-IDF等指标的统计方法难以达到很好的效果。

相比传统的关键短语与术语抽取方法，本发明实施例通过大词表对待提取文本进行术语抽取，从非结构化文本中提取出名词短语作为候选概念，获取第一候选概念列表，并结合根据预设的知识图谱进行实体链接获取的第二候选概念列表进行重排序，可以在一定程度上克服传统的关键短语与术语抽取方法存在的不足，可以在标注数据较少甚至没有标注数据的情况下，获得准确率更高的概念抽取结果。

传统的实体链接方法，是从文本中找出其背景知识库中存在的实体的不同提及方式。其实现需要已知一个大规模的实体清单，然后对目标文本进行匹配和筛选，从而得到链接结果。通过实体链接方法进行概念抽取的缺陷主要在于难以评估获取结果对文本的相关性和重要性：对于实体链接类的方法，它们主要的目标在于将文本中存在的实体与已有知识库进行匹配，然而实际场景中，并非所有文本中出现的实体都应该被认为是概念，这就使得仅使用实体链接的方法非常容易对概念获取引入噪声，导致抽取的准确率较低。

相比传统的实体链接方法，本发明实施例一方面是基于知识图谱进行实体链接，相比传统的基于实体清单进行实体链接的方法，可以在一定程度上提高抽取的准确率；另一方面，将实体链接获取的第二候选概念列表，与通过大词表对待提取文本进行术语抽取获取的第一候选概念列表相结合，进行重排序，可以进一步克服传统的实体链接方法存在的不足，可以在标注数据较少甚至没有标注数据的情况下，获得准确率更高的概念抽取结果。

传统的概念扩展/集合扩展方法，是通过对语料、外部知识库等大规模资源进行分析，找出与给定的少量种子概念属于同一集合的概念。该方法关注于获取结果的数量及准确性，是一种在少标注资源设定下进行概念获取的方法，一般通过分析语义模板，以及集成学习的方法完成目标。概念扩展/集合扩展方法比较符合实际应用的情况：有少量的高质量标注结果，从大规模语料中找出符合条件的概念。然而，由于监督信号的缺失，概念在多轮扩展的过程中很难进行控制，从而导致严重的语义漂移问题(随着集合的扩大，它的含义逐渐与开始时的含义偏离)。并且，由于概念扩展任务依赖于语义模板的评价、新词的发现等流程，它的表现往往掣肘于预先进行的候选概念的分词、排序等结果，这使得实际应用时，扩展得到的结果往往需要耗费大量资源进行评价和标注。

相比传统的概念扩展/集合扩展方法，本发明实施例通过结合根据大词表对待提取文本进行术语抽取获取的第一候选概念列表和根据预设的知识图谱进行实体链接获取的第二候选概念列表，进行重排序，可以在标注数据较少甚至没有标注数据的情况下，获得准确率更高的概念抽取结果，而不需要耗费大量资源进行评价和标注。

本发明实施例根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果，能在标注数据较少甚至没有标注数据的情况下，从非结构化文本中更高效、准确等抽取出概念，能减少人工、提高自动化程度。

基于上述各实施例的内容，根据重排序的结果获取待提取文本的概念抽取结果的具体步骤包括：根据重排序的结果和预设的评分阈值，或者根据重排序的结果和预设数量，选择多个候选概念，作为待提取文本的概念抽取结果。

具体地，可以根据重排序的结果，选择符合预设条件的候选概念，作为待提取文本的概念抽取结果。

如果重排序的结果是根据第一候选概念列表和第二候选概念列表的并集中的各候选概念是概念的评分的大小进行排序获得的，符合预设条件可以是概念的评分大于预设的评分阈值。

如果重排序的结果是间接比较第一候选概念列表和第二候选概念列表的并集中的各候选概念是概念的概率的大小获得的，符合预设条件可以是重排序的结果(降序排列)中的前N个。其中，N为正整数，表示预设数量。

通过预设条件，可以从候选概念中筛选出更贴合技术领域的概念。

本发明实施例根据重排序的结果和预设条件对候选概念进行筛选，获取待提取文本的概念抽取结果，能提高概念抽取的准确率。

基于上述各实施例的内容，根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表的具体步骤包括：根据预设的词表对待提取文本进行过滤，获取预设的词表与待提取文本的交集。

具体地，首先对待提取文本进行词表过滤，使用预设的词表对待提取文本进行过滤，获取预设的词表与待提取文本的交集，即获取待提取文本中的在该词表中的各词语，组成该交集。

对交集进行分词和词性标注，获取交集中的名词作为候选概念，组成第一候选概念列表。

具体地，进行词表过滤之后，可以进行词性过滤。

可以通过自然语言处理(Natural Language Processing，NLP)的方法，对该交集进行分词和词性标注。

例如，可以通过结巴(Jieba)、Ansj或盘古分词等开源实现的分词工具，对该交集进行分词和词性标注。

该交集进行分词和词性标注之后，可以根据标注的词性对该交集进行筛选，获取该交集中的名词(含词组)，作为候选概念，组成第一候选概念列表。

本发明实施例通过预设的词表对待提取文本进行词表过滤，对词表过滤的结果进行词性过滤，筛选出待提取文本中的名词作为候选概念，能提高概念抽取的准确率。

基于上述各实施例的内容，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序的具体步骤包括：根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序；和/或，根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序。

具体地，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，可以单独采用公式重排序或词向量聚类重排序，还可以结合公式重排序和词向量聚类重排序。

公式重排序，指根据预设的公式，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序。

预设的公式，用于根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，对候选概念进行评分。该评分，用于描述候选概念是概念的概率。

词向量聚类重排序，指根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序。

种子概念，指预先确定的待提取文本所属技术领域中的概念。

预设的种子概念的数量为多个。优选地，预设的种子概念的数量可以小于20个。

结合公式重排序和词向量聚类重排序，是指在分别进行公式重排序和词向量聚类重排序之后，将公式重排序获得的排序结果和词向量聚类重排序获得的排序结果进行融合，综合两种排序结果，获取最终的重排序的结果。

将公式重排序获得的排序结果和词向量聚类重排序获得的排序结果进行融合，可以采用选择其中更准确的一种排序结果，作为最终的重排序的结果，也可以通过对两种结果进行加权求和等方法，获取最终的重排序的结果。

本发明实施例通过对第一候选概念列表和第二候选概念列表中的各候选概念进行公式重排序和/或词向量聚类重排序，能根据重排序的结果获得更准确的概念抽取结果。

基于上述各实施例的内容，根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序的具体步骤包括：根据TF-IDF方法，获取第一候选概念列表中各候选概念的置信度。

具体地，对于第一候选概念列表中的每一候选概念，可以通过TF-IDF方法，获取该候选概念的置信度。

TF-IDF(Term Frequency Inverse Document Frequency，词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，以及第二候选概念列表，获取重排序的结果。

具体地，通常越重要或越基础的概念，在待提取文本中的出现频率更高，因此，重排序并非简单地根据置信度进行排序，还考虑了在待提取文本中的出现频率，将候选概念的置信度与在待提取文本中的出现频率进行结合，获取第一候选概念列表和第二候选概念列表的并集中的每一候选概念是概念的评分。

可以根据该并集中的每一候选概念是概念的评分，将该并集中的各候选概念按照该评分从大到小的顺序进行排序，获取重排序的结果。

本发明实施例根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，以及第二候选概念列表，获取重排序的结果，能更准确地反映各候选概念是概念的概率，从而能根据重排序的结果获得更准确的概念抽取结果。

基于上述各实施例的内容，根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序的具体步骤包括：获取对第一候选概念列表和第二候选概念列表中的各候选概念的词向量，根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类。

具体地，可以采用Word2vec模型获取第一候选概念列表和第二候选概念列表的并集中的每一候选概念的词向量。

获取该并集中的每一候选概念的词向量之后，可以采用预设的聚类方法进行聚类，得到多个类簇。

例如，可以采用K均值聚类算法(K-means clustering algorithm)，根据该并集中的各候选概念的词向量，对该并集中的各候选概念进行聚类。

对于每一类簇，可以获取属于该类簇的各候选概念的词向量的平均向量，作为该类簇中心。该类簇中心，也是一个词向量。

根据聚类获得的每一类簇中心与预设的每一种子概念类簇中心之间的相似度，对各类簇中心所属的类簇进行排序。

具体地，对于任一类簇中心和任一种子概念类簇中心，可以获取该类簇中心与该种子概念的词向量之间的相似度。

相似度，可以为余弦相似度、欧氏距离或马氏距离等。

可以理解的是，可以预先根据预设的各种子概念的词向量进行聚类，获取多个种子概念类簇。种子概念类簇的数量，可以与各候选概念的类簇的数量相同或不同。种子概念的词向量，也是通过Word2vec模型获取的。种子概念类簇中心，可以是属于该种子概念类簇的各种子概念的词向量的平均向量。

可以按照类簇中心与各种子概念类簇中心之间的相似度的最大值从大到小的顺序，对各类簇中心所属的类簇进行排序。

对于每一类簇，根据与类簇中心之间的相似度最大的种子概念类簇中心，与属于类簇的每一候选概念的词向量之间的距离，对属于类簇的各候选概念进行排序。

具体地，对于聚类获得的每一类簇，可以获取与该类簇中心之间的相似度最大的种子概念类簇中心，与属于该类簇的每一候选概念的词向量之间的距离。

距离，可以为余弦距离、欧氏距离或马氏距离等。

可以按照与该类簇中心之间的相似度最大的种子概念类簇中心，与属于该类簇的每一候选概念的词向量之间的距离从小到大的顺序，对属于该类簇的各候选概念进行排序，从而获取重排序的结果。

可以理解的是，对于属于该类簇的候选概念，与该类簇中心之间的相似度最大的种子概念类簇中心与该候选概念的词向量之间的距离越小，表示该候选概念是概念的概率越大；与该类簇中心之间的相似度最大的种子概念类簇中心与该候选概念的词向量之间的距离越大，表示该候选概念是概念的概率越小。

对于任意两个类簇中在类簇内的排序相同的候选概念，属于排序在前的类簇的候选概念是概念的可能性，高于属于排序在后的类簇的候选概念是概念的可能性。

本发明实施例通过对第一候选概念列表和第二候选概念列表中的各候选概念进行词向量聚类重排序，获取重排序的结果，能更准确地反映各候选概念是概念的概率的相对大小，从而能根据重排序的结果获得更准确的概念抽取结果。

基于上述各实施例的内容，根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，以及第二候选概念列表，获取重排序的结果的具体步骤包括：对于第一候选概念列表和第二候选概念列表的交集中的各候选概念，根据交集中的每一候选概念在的置信度和在待提取文本中的出现频率，获取交集中的每一候选概念的评分，并将不属于交集的各候选概念的评分确定为零。

具体地，可以将候选概念的置信度与在待提取文本中的出现频率进行结合，获取第一候选概念列表和第二候选概念列表的并集中的每一候选概念的评分。

首先，获取第一候选概念列表和第二候选概念列表的交集。

对于任一候选概念，如果该候选概念属于该交集，则该候选概念是概念的概率，高于不属于该交集的候选概念是概念的概率，可以将不属于该交集的各候选概念的评分确定为零。

对于属于该交集的每一候选概念，可以根据如下公式获取该候选概念的评分：

R＝ln(freq)*max(conf-c,0)

其中，R表示候选概念的评分；freq表示候选概念在待提取文本中的出现频率(即出现次数)；conf表示候选概念的置信度；c表示置信度阈值。

根据第一候选概念列表和第二候选概念列表中各候选概念的评分，获取重排序的结果。

具体地，可以根据第一候选概念列表和第二候选概念列表的并集中的每一候选概念是概念的评分，将该并集中的各候选概念按照该评分从大到小的顺序进行排序，获取重排序的结果。

通过人工选择18个预设的种子概念，将MOOCCube中《数据结构》课程的字幕作为待提取文本，使用本发明上述各实施例提供的方法进行概念抽取，可以从前200个候选概念中得到138个概念；进一步地，将上述138个概念与上述18个概念合起来作为种子概念，将《数据结构》相关百科作为待提取文本，使用本发明上述各实施例提供的方法进行概念抽取，可以从前200个候选概念中得到174个概念。

可见，发明上述各实施例提供的方法，可以在标注数据较少甚至没有标注数据的情况下，从非结构化文本中更高效、准确等抽取出概念。

下面对本发明实施例提供的概念抽取装置进行描述，下文描述的概念抽取装置与上文描述的概念抽取方法可相互对应参照。

图2是根据本发明实施例提供的概念抽取装置的结构示意图。基于上述各实施例的内容，如图2所示，该装置包括提取模块201和筛选模块202，其中：

提取模块201，用于根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表；

筛选模块202，用于对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果；

其中，待提取文本为非结构化文本。

具体地，提取模块201和筛选模块202电连接。

提取模块201可以包括第一提取子模块和第二提取子模块。

第一提取子模块，用于根据预设的词表对待提取文本进行术语抽取，获取多个候选概念，组成第一候选概念列表。

第二提取子模块，用于根据预设的知识图谱对待提取文本进行实体链接，获取多个候选概念，组成第二候选概念列表。

筛选模块202对于第一候选概念列表和第二候选概念列表的并集中的各候选概念，通过比较各候选概念是概念的评分，并根据比较结果进行排序，获取重排序的结果。

筛选模块202可以包括重排序子模块和筛选子模块。

筛选子模块，用于根据重排序的结果，选择符合预设条件的候选概念，作为待提取文本的概念抽取结果。

第一提取子模块可以包括：词表过滤单元和词性过滤单元。

词表过滤单元，用于根据预设的词表对待提取文本进行过滤，获取预设的词表与待提取文本的交集；

词性过滤单元，用于对交集进行分词和词性标注，获取交集中的名词作为候选概念，组成第一候选概念列表。

重排序子模块，可以包括公式重排序单元和/或词向量聚类重排序单元。

公式重排序单元，用于根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序；

词向量聚类重排序单元，用于根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序。

公式重排序单元可以包括置信度获取子单元和评分子单元。

置信度获取子单元，用于根据TF-IDF方法，获取第一候选概念列表中各候选概念的置信度。

评分子单元，用于根据第一候选概念列表中各候选概念的置信度和在待提取文本中的出现频率，以及第二候选概念列表，获取重排序的结果。

词向量聚类重排序单元可以包括聚类子单元、类间排序子单元和类内排序子单元。

聚类子单元，用于获取对第一候选概念列表和第二候选概念列表中的各候选概念的词向量，根据第一候选概念列表和第二候选概念列表中的各候选概念的词向量进行聚类。

类间排序子单元，用于根据聚类获得的每一类簇中心与预设的每一种子概念类簇中心之间的相似度，对各类簇中心所属的类簇进行排序。

类内排序子单元，用于对于每一类簇，根据与类簇中心之间的相似度最大的种子概念类簇中心，与属于类簇的每一候选概念的词向量之间的相似度，对属于类簇的各候选概念进行排序。

评分子单元具体用于对于第一候选概念列表和第二候选概念列表的交集中的各候选概念，根据交集中的每一候选概念在的置信度和在待提取文本中的出现频率，获取交集中的每一候选概念的评分，并将不属于交集的各候选概念的评分确定为零；根据第一候选概念列表和第二候选概念列表中各候选概念的评分，获取重排序的结果。

本发明实施例提供的概念抽取装置，用于执行本发明上述各实施例提供的概念抽取方法，该概念抽取装置包括的各模块实现相应功能的具体方法和流程详见上述概念抽取方法的实施例，此处不再赘述。

该概念抽取装置用于前述各实施例的概念抽取方法。因此，在前述各实施例中的概念抽取方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303；其中，处理器301和存储器302通过总线303完成相互间的通信；处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令，以执行上述各方法实施例提供的概念抽取方法，该方法包括：根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表；对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果；其中，待提取文本为非结构化文本。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的概念抽取方法，该方法包括：根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表；对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果；其中，待提取文本为非结构化文本。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的概念抽取方法，该方法包括：根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表，并根据预设的知识图谱对待提取文本进行实体链接，获取第二候选概念列表；对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序，根据重排序的结果获取待提取文本的概念抽取结果；其中，待提取文本为非结构化文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种概念抽取方法，其特征在于，包括：

其中，所述待提取文本为非结构化文本；

其中，对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序的具体步骤包括：

和/或，根据所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序；

其中，所述根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，对所述第一候选概念列表和所述第二候选概念列表中的各候选概念进行重排序的具体步骤包括：

根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，以及所述第二候选概念列表，获取重排序的结果；

其中，所述根据所述第一候选概念列表和所述第二候选概念列表中的各候选概念的词向量进行聚类，根据聚类的结果和预设的种子概念的词向量进行重排序的具体步骤包括：

2.根据权利要求1所述的概念抽取方法，其特征在于，所述根据重排序的结果获取所述待提取文本的概念抽取结果的具体步骤包括：

3.根据权利要求1所述的概念抽取方法，其特征在于，所述根据预设的词表对待提取文本进行术语抽取，获取第一候选概念列表的具体步骤包括：

4.根据权利要求1所述的概念抽取方法，其特征在于，所述根据所述第一候选概念列表中各候选概念的置信度和在所述待提取文本中的出现频率，以及所述第二候选概念列表，获取重排序的结果的具体步骤包括：

5.一种概念抽取装置，其特征在于，包括：

其中，所述待提取文本为非结构化文本；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的概念抽取方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述的概念抽取方法的步骤。