CN110175334B

CN110175334B - 基于自定义的知识槽结构的文本知识抽取***和方法

Info

Publication number: CN110175334B
Application number: CN201910487585.7A
Authority: CN
Inventors: 张坤; 于阳阳; 管慧娟; 孔令军; 李华康
Original assignee: Suzhou Paiweisi Information Technology Co ltd
Current assignee: Suzhou Paiweisi Information Technology Co ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-06-27
Anticipated expiration: 2039-06-05
Also published as: CN110175334A

Abstract

本发明公开了一种基于自定义的知识槽结构的文本知识抽取***和方法。本发明一种基于自定义的知识槽结构的文本知识抽取方法，包括：步骤100：用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取；步骤200：用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树。本发明的有益效果：利用通过一个前端页面提供业务人员设定某个知识的基础结构，得到其需要抽取的非结构化文本内容，文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割。

Description

基于自定义的知识槽结构的文本知识抽取***和方法

技术领域

本发明涉及文本知识抽取***领域，具体涉及一种基于自定义的知识槽结构的文本知识抽取***和方法。

背景技术

随着大数据的时代的快速发展，人工智能技术的提高，基础数据样本对数据分析越来越重要，但是普通的知识获取基本上是基于结构化数据或者是人工操作。

文本知识抽取中常见的是结构化抽取，以及实体抽取。

一种是用搜索个体所组成的群体优势动态地搜索，并采用一种有效的正区比较进行特征组合得到多知识的方法，包括以下步骤：计算约简初值；启用双矩编码策略；搜索初始化；计算结束判据；计算搜索个体的适应值；最优保存；状态转移联合操作。本发明采用双矩编码策略，搜索个***置编码成0、1字符串，维度与条件属性个数相同。当维度规模超过23时，完成约简所消耗的时间并不呈指数显著增长，节约了空间维度和时间。本发明采用粗糙集正区判别POS'E＝U′pos适应值为对应条件属性个数，如果POS'E≠U′pos适应值惩罚为条件属性总数，这一策略简单合理地保证了知识抽取效果。

一种是针对表格数据，进行提取，包括：获取表格数据的语义相似度，根据所述语义相似度确定表格结构；根据所述表格结构确定表头属性名称；抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。

一种基于规则与深度学习的知识抽取方法，包括以下步骤：一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本，利用深度学习方法进行训练；从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并将该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四，直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题，也能够得到未知的概念和概念间的关系，能够提高知识抽取的召回率。

发明内容

本发明要解决的技术问题是提供一种基于自定义的知识槽结构的文本知识抽取***和方法，该方法利用通过一个前端页面提供业务人员设定某个知识的基础结构，得到其需要抽取的非结构化文本内容，文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割，实体识别算法根据最好的分割文本进行关键字匹配以及命名实体识别，实体关系抽取算法根据文本提取的实体进行文本词性分析以及语义角色标注，知识结构评价算法根据实体以及实体之间的关系进行相似匹配以及关系的准确性进行评价。

为了解决上述技术问题，本发明提供了一种基于自定义的知识槽结构的文本知识抽取方法，包括：

步骤100：用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取；

步骤200：用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树；

步骤300：按照知识树的分支进行文本的区域划分，并且把其分支的子树的节点作为该子树的根节点，以此类推，直到该分支全部是叶子节点的时候停止，这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确，如果在分支中找不到文本区域就以其父区域作为该文本区域，并且需要把父区域的关键字做完为其需要抽取的关键字；

步骤400：将已分割之后的文本进行文本知识抽取，可以分为文本分句处理，文本的词性标注与文本的命名实体识别，关键字提取，word2vec等操作；

步骤500：将单一抽取的文本进行简单的评测，如果评测结果太小就重新抽取该知识；

步骤600：把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作，并且保存到图数据库中。

在其中一个实施例中，步骤200具体包括：

步骤210：用户在页面上上传文件；

步骤220：用户在页面上选择知识树样本；

步骤230：判断上传文件是否是压缩包，如果是压缩包则进入步骤240，否则进入步骤250；

步骤240：将压缩包文件进行解压操作，并且得到压缩包里面的全部文件，对全部文件进行数组化；

步骤250：对单个文件进行后缀名判断，如果其是图片文件或者PDF文件，进入步骤260，如果不是就进入步骤270；

步骤260：针对PDF文件，先对其进行简单的读取操作，如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作；如果不是图片就进行文本读取，按照位置信息合并文本文档；针对图片文件，对图片使用文字位置感知模型，找出其有文字区域的位置信息，然后按照位置进行区域合并，确保其文字信息不会出现乱行出错，对已找到的文字区域进行二值化处理，使用文字识别模型对已处理的图片进行文字识别，得到其识别结果。

步骤270：读取不同格式的文件，并且对不同格式的文件进行不同的操作。

在其中一个实施例中，步骤400具体包括：

步骤410：使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配，最大双向匹配，ngram，HMM进行中文分词；

步骤420：使用word2vec对需要处理的知识样本树进行向量化，以及已分词的短语向量化；

步骤430：使用BiLstm-Crf进行模型训练，找出其实体以及各个短语的词性(对未提供知识样本树的的文件进行实体抽取，并且将部分实体保存成知识样本树)；

步骤440：利用文本向量化之后的向量，对知识样本树中的关键字跟文本进行相似度匹配，利用余弦定理；

步骤450：利用知识样本树中的关键字对短语进行匹配，并且将已匹配的短语进行其属性进行提取。

在其中一个实施例中，步骤440具体包括：

步骤441：根据已分割的子文本进行知识实体树的子树的关键字的提取；

步骤442：对已分词的文本将其跟关键字相似度最高的短语进行匹配，；

步骤443：对操作的文件进行判断，判断其是否属于Excel表格，如果是进行步骤444，否则进行步骤445；

步骤444：Excel表格中存在其上下关系，左右关系，对其处理可能存在子树有多个属性；对其处理需要进行单独的处理；

步骤445：文本基本上只能提取其二个实体之间的关系，基于语法树进行文本知识提取。

在其中一个实施例中，步骤500具体包括：

步骤510：知识提取步骤得到样本知识树中的关键字的键值对；

步骤520：对其键值对进行属性值的判断，如果合格进入步骤530，否则进入步骤540；

步骤530：将键值对中的值保存，并且跟知识树子树节点一一对应；

步骤540：重新操作文本文档，对该关键字进行提取，如果判断出错，就把该关键字的值设置为空；并且进入步骤530。

在其中一个实施例中，步骤600具体包括：

步骤610：根据操作500得到的完整的键值对，以及用户选择的样本知识树进行实体图的创建；

步骤620：根据实体槽模型，以及EVA模型对树的节点进行添枝，并且按照样本知识树进行子树的叶子节点的属性的添加；

步骤630：按照图谱展示的结果，对已完成的实体树进行图谱的节点的创建，以及

步骤640：按照图谱展示的结果对已完成的实体树进行图谱的节点与节点之间关系的创建；

步骤650：把已创建好的节点以及节点跟节点之间的关系进行处理，确保其数据能够***图数据库中。

一种基于自定义的知识槽结构的文本知识抽取***，包括：

知识槽设定模块，通过一个可视化页面提供业务人员设定某个知识的基础结构，并上传所需要抽取的非结构化文本内容；

文本语义切割模块，按照业务人员提供的需要抽取的设定模板，对知识槽模型进行分割，并且针对设定好的文本进行分割；

实体识别模块，对已分割的文本使用文本匹配的方法进行知识槽的关键字进行文本匹配，并且找出其关键字的属性并且还需要对已切割好的文本进行文本向量化、分词、命名实体识别，抽取其人物、企事业单位、地址、时间等实体信息；

实体关系抽取模块，利用词性分析、依存句法分析、语义角色标注等方法对实体之间的关系进行抽取；以及

知识结构评价模块，根据业务人员提供的知识槽设定模型对已抽取出来的实体以及实体之间的关系进行评价，并且对实体之间的关系进行修改以及删除关系；根据业务人员需要的知识槽模型对已提取的实体以及关系进行页面展示的预处理并且将实体以及关系根据图数据库的格式进行数据库的***操作；在页面展示的时候，业务人员可以针对已提取出来的知识槽模型进行简单的业务判断。

在其中一个实施例中，

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

利用通过一个前端页面提供业务人员设定某个知识的基础结构，得到其需要抽取的非结构化文本内容，文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割，实体识别算法根据最好的分割文本进行关键字匹配以及命名实体识别，实体关系抽取算法根据文本提取的实体进行文本词性分析以及语义角色标注，知识结构评价算法根据实体以及实体之间的关系进行相似匹配以及关系的准确性进行评价。

附图说明

图1为本申请基于自定义的知识槽结构的文本知识抽取方法的文本知识抽取流程图。

图2为本申请基于自定义的知识槽结构的文本知识抽取方法的用户上传文件以及选择知识树样本的操作流程图。

图3为本申请基于自定义的知识槽结构的文本知识抽取方法的知识抽取的操作流程图。

图4为本申请基于自定义的知识槽结构的文本知识抽取方法的关键字抽取的流程图。

图5为本申请基于自定义的知识槽结构的文本知识抽取方法的文本知识评测的流程图。

图6为本申请基于自定义的知识槽结构的文本知识抽取方法的合并出实体图的流程图。

图7为本申请基于自定义的知识槽结构的文本知识抽取方法的前端页面操作的流程图。

图8为本申请基于自定义的知识槽结构的文本知识抽取***的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明的文本知识抽取一般包括知识样本树的建立，用户上传文件以及选择知识树样本，文本区域的分割，文本知识的提取，文本知识抽取的评测，合并出实体图等过程，其中文本知识的提取又可以细分为文本分句处理，word2vec，文本的词性标注与文本的命名实体识别，关键字提取，相似度匹配等操作。如图1所示的是文本知识抽取流程图。知识样本树的建立是根据用户在统一格式中的文本在需要提取的知识关键字的创建以便于后面的文本知识提取；用户上传文件以及选择知识树样本是用户上传文件并且选择这个文件是基于那个知识样本树的；文本区域的分割是按照知识树的分支进行文本的区域划分，这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确率；文本知识的提取是将已分割之后的文本进行文本知识抽取；文本分句处理是将原始文本进行简单的文本操作格式化为同一格式，以便于后续的处理；文本的词性标注与文本的命名实体识别主要将文档分解为基本处理单元，同时降低后续处理的开销；word2vec的主要操作是对知识样本树的关键字以及分类好的文本进行向量化；相似度匹配按照余弦定理或者欧氏距离对不同关键字但意思相同的关键字进行匹配。关键字提取的主要工作是根据知识样本的关键字进行文本的提取，并且按照其格式进行多信息的匹配；在完成文本知识提取之后，需要对文本知识提取的结果进行分析，进一步优化word2vec，文本的词性分析与文本的命名实体识别等；文本知识抽取的评测是将单一抽取的文本进行简单的评测，如果评测结果太小就去掉这个抽取结果。合并出实体图是把已经抽取出来的数据按照前端图谱需要展示的进行一系列的操作。

本发明是基于用户提供样本，针对属于不同的文档进行处理，这样能够提高整个的准确率，并且使用各个用户提供的样本，使用机器学习以及深度学习进行融合以及优化，可以创建一个万能样本，在用户不提供样本的情况下，可以进行文本知识提取。

在本发明中，主要是知识样本树的创建、文本的读取、文本区域分割、文本知识提取的操作。知识样本树的创建是整个文本知识提取的关键，虽然我们提供了部分不同知识样本树。但是针对不同的情况，一个没有误差的知识样本树，会大大的提高文本区域分割以及文本知识提取的准确率。其中文本的读取涉及到上传文件的类型，针对不同类型进行不同的处理，对Excel表格，word文档，TXT则直接读取，对PDF以及图片文件就需要进行文本识别处理，这个是文本识别处理过程，涉及到图像处理以及神经网络模型。文本区域分割是针对有提供知识样本树，在本发明中，默认用户有提供知识样本树，对子树进行文本区域的分割，并且把该子树当初一个完整的知识树，一直递归下来真的该子树的节点都是叶子节点的情况下。这边操作是能够对文本中的数据提取不会因为其他子树的关键字相似造成的子树文本提取的误差。文本知识提取在该发明中重中之重的步骤，涉及到了文本分词，文本向量化，命名实体识别，词性标注，相似度匹配操作。其中文本分词使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配，最大双向匹配，ngram，HMM技术，能够对文本进行很好的分词。命名实体识别，词性标注都是使用BiLstm-Crf进行模型训练，找出其实体以及各个短语的词性，并且对各个短语的实体类别进行处理，合并部分可以合并的实体，例如[{'end':0,'entity':'南','type':'Location','start':0},{'end':7,'entity':'京金陵科技学院','type':'Organization','start':1}]实体检测，可以合并成“南京金陵科技学院”，因为在Organization实体前面有Location，他们是一个实体的概率是很大的，所以能够合并。

本发明所要解决的技术问题是提供一种能够面向业务员操作的非结构化的文本知识抽取方法，该方法利用通过一个前端页面提供业务人员设定某个知识的基础结构，得到其需要抽取的非结构化文本内容，文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割，实体识别算法根据最好的分割文本进行关键字匹配以及命名实体识别，实体关系抽取算法根据文本提取的实体进行文本词性分析以及语义角色标注，知识结构评价算法根据实体以及实体之间的关系进行相似匹配以及关系的准确性进行评价。具体实现步骤如下：

S101：所需要抽取的非结构化文本内容提供，业务人员设定某个知识的基础结构得到其知识槽设定模板；

S102：知识槽设定模板以及需要抽取的文件确认，***前端收到确认信息并发送给文本语义分割算法；

S103：文本语义切割，按照业务人员提供的需要抽取的设定模板，对知识槽模型进行分割，并且针对设定好的文本进行分割；

S104：切割文本的保存以及知识槽模板的切割，一一的对应其所在区域；

S105：实体识别，对已分割的文本使用文本匹配的方法进行知识槽的关键字进行文本匹配，并且找出其关键字的属性并且还需要对已切割好的文本进行文本向量化、分词、命名实体识别，抽取其人物、企事业单位、地址、时间等实体信息；

S106：提取的实体的确认，进行简单的判断是否是实体；

S107：实体关系抽取模块，***根据将已提取的实体以及分割的文本并发送给实体关系抽取算法；

S108：实体关系以及实体的确认，根据得到的关系与实体进行一一比对，判断关系是否匹配该实体；

S109：知识结构评价模块，***根据将已提取的实体以及关系发送给知识结构评价算法，并且根据业务人员需要的知识槽模型对已提取的实体以及关系进行页面展示的预处理并且将实体以及关系根据图数据库的格式进行数据库的***操作；

S110：前端页面知识，在页面展示的时候，业务人员可以针对已提取出来的知识槽模型进行简单的业务判断(这一步是针对知识槽模型还不是很完善的情况下，需要业务人员进行帮助，因为我们需要对文本语义切割需要业务人员提供比较好的模板以及数据)。

图1为本申请具体实施方式的文本知识抽取流程图。如图1所示的基于样本模板的文本知识抽取的方法，可以包括：

图2为本申请具体实施方式的用户上传文件以及选择知识树样本的操作流程图。步骤200如图3所示，包括：

步骤210：用户在页面上上传文件；

步骤220：用户在页面上选择知识树样本；

图3为本申请具体实施方式的知识抽取的操作流程图。步骤400如图4所示，操作步骤包括：

步骤430：使用BiLstm-Crf进行模型训练，找出其实体以及各个短语的词性(对未提供知识样本树的的文件进行实体抽取，并且将部分实体保存成知识样本树)

图4为本申请具体实施方式的关键字抽取的流程图。

图5为本申请具体实施方式的文本知识评测的流程图。

图6为本申请具体实施方式的合并出实体图的流程图。

参阅图8，提供一种能够面向业务员操作的非结构化的文本知识抽取***，该***包括知识槽设定模块，文本语义切割模块，子实体识别模块，实体关系抽取模块，知识结构评价模块。其中：

知识槽设定模块，通过一个可视化页面提供业务人员设定某个知识的基础结构，并上传所需要抽取的非结构化文本内容。

文本语义切割模块，按照业务人员提供的需要抽取的设定模板，对知识槽模型进行分割，并且针对设定好的文本进行分割。

实体识别模块，对已分割的文本使用文本匹配的方法进行知识槽的关键字进行文本匹配，并且找出其关键字的属性并且还需要对已切割好的文本进行文本向量化、分词、命名实体识别，抽取其人物、企事业单位、地址、时间等实体信息。

实体关系抽取模块，利用词性分析、依存句法分析、语义角色标注等方法对实体之间的关系进行抽取。

知识结构评价模块，根据业务人员提供的知识槽设定模型对已抽取出来的实体以及实体之间的关系进行评价，并且对实体之间的关系进行修改以及删除关系。根据业务人员需要的知识槽模型对已提取的实体以及关系进行页面展示的预处理并且将实体以及关系根据图数据库的格式进行数据库的***操作；在页面展示的时候，业务人员可以针对已提取出来的知识槽模型进行简单的业务判断(这一步是针对知识槽模型还不是很完善的情况下，需要业务人员进行帮助，因为我们需要对文本语义切割需要业务人员提供比较好的模板以及数据)。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于自定义的知识槽结构的文本知识抽取方法，其特征在于，包括：

其中：步骤400具体包括：

步骤430：使用BiLstm-Crf进行模型训练，找出其实体以及各个短语的词性，即对未提供知识样本树的文件进行实体抽取，并且将部分实体保存成知识样本树；

步骤450：利用知识样本树中的关键字对短语进行匹配，并且将已匹配的短语进行其属性进行提取；

2.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法，其特征在于，步骤200具体包括：

步骤210：用户在页面上上传文件；

步骤220：用户在页面上选择知识树样本；

步骤260：针对PDF文件，先对其进行简单的读取操作，如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作；如果不是图片就进行文本读取，按照位置信息合并文本文档；针对图片文件，对图片使用文字位置感知模型，找出其有文字区域的位置信息，然后按照位置进行区域合并，确保其文字信息不会出现乱行出错，对已找到的文字区域进行二值化处理，使用文字识别模型对已处理的图片进行文字识别，得到其识别结果；

3.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法，其特征在于，步骤440具体包括：

步骤442：对已分词的文本将其跟关键字相似度最高的短语进行匹配；

4.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法，其特征在于，步骤500具体包括：

5.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法，其特征在于，步骤600具体包括：

6.一种基于自定义的知识槽结构的文本知识抽取***，其特征在于，包括：

其中，具体包括：

使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配，最大双向匹配，ngram，HMM进行中文分词；

使用word2vec对需要处理的知识样本树进行向量化，以及已分词的短语向量化；

使用BiLstm-Crf进行模型训练，找出其实体以及各个短语的词性，即对未提供知识样本树的文件进行实体抽取，并且将部分实体保存成知识样本树；

利用文本向量化之后的向量，对知识样本树中的关键字跟文本进行相似度匹配，利用余弦定理；

利用知识样本树中的关键字对短语进行匹配，并且将已匹配的短语进行其属性进行提取；

实体关系抽取模块，利用词性分析、依存句法分析、语义角色标注等方法对实体之间的关系进行抽取；

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，

所述程序运行时执行权利要求1到5任一项所述的方法。