CN114663872A

CN114663872A - 一种信息抽取***、信息抽取方法

Info

Publication number: CN114663872A
Application number: CN202210313525.5A
Authority: CN
Inventors: 曾祥云; 朱姬渊
Original assignee: Shanghai Yikangyuan Medical Health Technology Co ltd
Current assignee: Guangzhou Tianchen Health Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-24

Abstract

本发明公开一种信息抽取***、信息抽取方法，其***包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元，其中OCR识别单元用以读取图片，提取图片中的文本信息；预处理单元用以对文本信息进行格式化处理，获得包含标签的输入格式的文本信息；特征抽取单元用以对输入格式的文本信息进行特征抽取，获得文字信息；特征分析单元用以对文字信息进一步分析，获得综合特征F；损失计算单元用以对综合特征F的损失进行计算。本发明能够从图片中提取到准确的文字信息，还能抽取到各种语义关系，进而基于本申请的创新技术，大大提高了语义分析的准确率，从而提高了其应用的准确性，如检索、预测、推荐等需求场景。

Description

一种信息抽取***、信息抽取方法

技术领域

本发明涉及信息检索技术领域，尤其涉及一种信息抽取***、信息抽取方法。

背景技术

现有的OCR技术用来识别图片，大大提高了通过图片获得文字信息的处理效率，而且最新技术的OCR引擎有的还内置有纠错功能，一般是将文本中每个字都纠一遍，通常基于通用的词库来进行纠错，但在特殊领域例如医药领域，例如药品的名称往往是一些特殊的名词，在通用词库中很多没有进行统计，如果采用现有的OCR引擎默认的纠错技术，会将正确的药品名称判断为错误的名称，从而错误地将这些词进行纠错，反而产生错误的结果。

此外，类似像医生开具的处方这类场景里，不仅仅包含特殊的药名名称，还具有、患者的信息以及疾病的信息等，不仅特殊，而且语义信息非常复杂。

因此，为了进一步提高自动化的信息处理水平，处方通过OCR***把图片转化为文字后，不仅需要正确提取信息，还需要进一步挖掘文本的相关信息，因此需要对文本进行抽取，如抽取文本中患者姓名，性别，科室，疾病，症状等多个字段。

现有技术主要是基于正则表达式来抽取，但正则表达式的准确率不高，因为正则表达式无法获取文字块的位置信息，文本的语义信息，文字块之间的相对信息，以及OCR识别***不可能完全正确，大部分情况存在错字，漏字的情况，导致正则表达式抽取的信息准确率不高。

发明内容

本发明为解决现有技术中存在的技术问题，提供一种信息抽取***，包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元，其中：

OCR识别单元用以读取图片，提取图片中的文本信息；

预处理单元用以对文本信息进行格式化处理，获得包含标签的输入格式的文本信息；

特征抽取单元用以对输入格式的文本信息进行特征抽取，获得文字信息；

特征分析单元用以对文字信息进一步分析，获得综合特征F；

损失计算单元用以对综合特征F的损失进行计算。

进一步地，所述特征抽取单元抽取获得的文字信息包括每个字的特征，文字块和文字块的上下左右位置邻接信息A，并取首字特征作为整个句子的特征H。

进一步地，特征抽取单元为依次串联的多对transformer组构成，其中，每对transformer组由二层transformer构成，每组的transformer参数完全共享。

进一步地，所述特征分析单元为二层的图卷积神经网络构成。

进一步地，图卷积神经网的图卷积公式为：

其中，l为层数，H为句子特征，A为邻接信息的矩阵，W为图卷积参数(随机初始化的)，

为对邻接矩阵进行归一化，σ为激活函数。

进一步地，所激活函数为relu激活函数。

进一步地，所述输入格式的文本信息为：文本块坐标，OCR文字，标签，id。

本发明还提供一种信息抽取方法，包括步骤：

OCR识别单元读取图片，提取图片中的文本信息；

预处理单元对文本信息进行格式化处理，获得包含标签的输入格式的文本信息；

特征抽取单元对输入格式的文本信息进行特征抽取，获得文字信息：文字特征，文字块和文字块的上下左右位置邻接信息；

特征分析单元对文字信息进一步分析，获得综合特征F；

损失计算单元对综合特征F的损失进行计算。

进一步地，损失计算单元对综合特征的损失进行计算分为：

当用作训练阶段，其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算损失；

当用作预测使用时，其损失计算为对综合特征F求softmax。

本发明还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行所述的信息抽取方法。

本发明公开的方法和***中所述模块，在实际应用中，即可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。

由此可见，本发明采取的技术方案使用的信息抽取***能够从图片中提取到准确的文字信息，还能抽取到各种语义关系，进而基于本申请的创新技术，大大提高了语义分析的准确率，从而提高了其应用的准确性，如检索、预测、推荐等需求场景。

为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的信息抽取***结构示意图。

具体实施方式

请参阅图1，本申请针对现有技术的技术缺陷，提出一种信息抽取***，包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元，其中：

OCR识别单元用以读取图片，提取图片中的文本信息；

特征分析单元用以对文字信息进一步分析，获得综合特征F；

损失计算单元用以对综合特征F的损失进行计算。

下面结合各种优选的实施方式进一步说明本申请的技术方案。

OCR识别单元通过读取图片，对图片进行提取文字，获得图片中的文本信息，通常对于一般纯文本的图片，OCR可以直接提取准确的文本信息，但对于如医院处方类的图片，由于这类图片通常包括患者姓名，性别，科室，疾病，症状等多个字段，而且这些字段通常也各种形式的表格化分布在表格的不同位置，此外，这些文字之间的语义关系和特征，单独的OCR并不能得到。

因此，本申请针对这类特定领域的图片信息的挖掘，提出了新的技术方案，首先对OCR识别单元提取到的文本信息，转化成统一的数据格式，继而可以基于这些统一的数据格式信息进行多维度的特征提取，再进行分析，从而得到这类图片中的综合特征F，即各种文字之间的语义关系，从而可以基于这些综合特征F用来进行预测，包括可以预测属于什么类型的疾病、推荐使用什么药方等等。

作为一种优选的实施方式，本申请的预处理单元对文本信息进行格式化处理，获得包含标签的输入格式的文本信息，其数据输入格式如下：

文本块坐标，OCR文字，标签，id

以下以一个图片经过OCR提取之后得到的信息，再经过上述数据格式进行转化之后得到的文本信息：

[([[180,65],[409,65],[409,165],[180,165]],'张三',姓名,1)，

([[86,90],[131,90],[131,118],[86,118]],'风湿性关节炎',疾病,2),

([[501,86],[555,86],[555,120],[501,120]],'双氯灭痛片',药品,3)]

上述得到的，除了提取得到的文字信息外，还包含有三个标签，姓名、疾病、药品，这些标签对应所指向其实体名词，从而可以用来为后续的语义分析做好准备。

本实施例中，所述特征抽取单元抽取获得的文字信息包括每个字的特征，文字块和文字块的上下左右位置邻接信息A，基于上述的输入格式，设计好合适的特征抽取器，即可抽取得到上述每个字的特征，文字块和文字块的上下左右位置邻接信息。

本申请对文本块坐标进行处理，获得文字块的上下左右位置邻接信息A，即得到每个文本块的上下左右ID，如：{“1”:[2,3,6,9]},表示文本块ID为1的上下左右的文本块ID分别为2,3,6,9，从而可以得到文字的邻接信息A。

本实施例中，特征抽取单元将抽取到的特征，将首字特征作为整个句子的特征H。

作为一种优选的实施方式，本申请的特征抽取器即特征抽取单元，其结构为特征抽取单元为依次串联的多对transformer组构成，其中，每对transformer组由二层transformer构成，每组的transformer参数完全共享。

在获得了邻接信息A以及特征H之后，特征分析单元用以对文字信息进一步分析，获得综合特征F；本申请实施例的特征分析单元结构为二层的图卷积神经网络构成。其图卷积神经网的图卷积公式为：

为对邻接矩阵进行归一化，σ为激活函数。

作为一种优选的实施例，本申请实施例的σ激活函数,为relu激活函数,当然作为变化的实施方式，也可以使用其他的激活函数来替代。

最后，通过特征分析单元出来之后得到的综合特征F，再接入损失计算单元对综合特征F的损失进行计算。本申请还提出了一种优选的实施方式，即将上述的信息抽取***分别在测试和预测阶段使用的时候，损失值的计算进行改变：

当信息抽取***在训练阶段时候，对综合特征F的损失进行计算，其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算损失；

当用作预测使用时，其损失计算为对综合特征F求softmax。

使用上述的划分，在训练阶段提高训练效率和准确率，在使用阶段即预测阶段，可以直接使用softmax进行分类，计算出概率最大的类别。

基于上述的信息抽取***，本申请还提出一种信息抽取方法，包括步骤：

OCR识别单元读取图片，提取图片中的文本信息；

特征分析单元对文字信息进一步分析，获得综合特征F；

损失计算单元对综合特征F的损失进行计算。

具体的实施细节和优选方案，参阅上述实施例。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中存储有指令或者程序，所述指令或者程序由处理器加载并执行如上述任一所述的信息抽取方法。

本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任一所述的信息抽取方法。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信息抽取***，其特征是，包括OCR识别单元、预处理单元、特征抽取单元、特征分析单元以及损失计算单元，其中：

OCR识别单元用以读取图片，提取图片中的文本信息；

特征分析单元用以对文字信息进一步分析，获得综合特征F；

损失计算单元用以对综合特征F的损失进行计算。

2.如权利要求1所述的信息抽取***，其特征是，所述特征抽取单元抽取获得的文字信息包括每个字的特征，文字块和文字块的上下左右位置邻接信息A，并取首字特征作为整个句子的特征H。

3.如权利要求1或2所述的信息抽取***，其特征是，特征抽取单元为依次串联的多对transformer组构成，其中，每对transformer组由二层transformer构成，每组的transformer参数完全共享。

4.如权利要求1所述的信息抽取***，其特征是，所述特征分析单元为二层的图卷积神经网络构成。

5.如权利要求4所述的信息抽取***，其特征是，图卷积神经网的图卷积公式为：

为对邻接矩阵进行归一化，σ为激活函数。

6.如权利要求5所述的信息抽取***，其特征是，所激活函数为relu激活函数。

7.如权利要求1所述的信息抽取***，其特征是，所述输入格式的文本信息为：文本块坐标，OCR文字，标签，id。

8.一种信息抽取方法，其特征是，包括步骤：

OCR识别单元读取图片，提取图片中的文本信息；

特征分析单元对文字信息进一步分析，获得综合特征F；

损失计算单元对综合特征F的损失进行计算。

9.如权利要求8所述的信息抽取方法，其特征是，损失计算单元对综合特征的损失进行计算分为：

当用作训练阶段，其损失计算为将综合特征F和标签放入交叉熵损失函数进行计算；

当用作预测使用时，其损失计算为对综合特征F求softmax。

10.一种电子设备，其特征是，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求8或9所述的信息抽取方法。