CN112949477A - 基于图卷积神经网络的信息识别方法、装置及存储介质 - Google Patents
基于图卷积神经网络的信息识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112949477A CN112949477A CN202110224516.4A CN202110224516A CN112949477A CN 112949477 A CN112949477 A CN 112949477A CN 202110224516 A CN202110224516 A CN 202110224516A CN 112949477 A CN112949477 A CN 112949477A
- Authority
- CN
- China
- Prior art keywords
- character
- information
- text
- text block
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 68
- 230000000007 visual effect Effects 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims description 6
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 239000011800 void material Substances 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 239000007787 solid Substances 0.000 abstract 1
- 230000002093 peripheral effect Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于图卷积神经网络的信息识别方法、装置及存储介质,属于计算机技术领域,该方法包括:获取目标图像中文本块的语义特征、以及不同文本块之间的视觉特征;将每个文本块的特征信息输入第一图卷积神经网络,得到文本块类型和隐向量;特征信息包括文本块的语义特征、关联文本块的语义特征、以及文本块与关联文本块之间的视觉特征;将文本块的隐向量、文本块类型和字符的字符特征信息输入预设的字符模型,得到字符的字符类型;将每个字符的字符信息输入第二图卷积神经网络,得到边属性;基于边属性识别出实体块;可以解决使用语义特征进行信息识别的准确性不高的问题;可以结合语义和空间特征进行类型推理,提高信息识别的准确性。
Description
技术领域
本申请涉及一种基于图卷积神经网络的信息识别方法、装置及存储介质,属于计算机技术领域。
背景技术
信息识别(或称命名实体识别)是自然语言处理领域中的一个基本问题。简单来说,命名实体识别是将一段文本序列中包含的感兴趣的实体识别出来并加以归类,例如:从票据、物流单等文件中提取关键信息。
目前,信息识别的方式包括:基于线性链的语言模型(如:双向迁移的编码器(Bidirectional Encoder Representations from Transformers,BERT))进行命名实体识别。
但是,由于待识别文本可能存在语义的特殊性、不规则的排版布局、不规则的分词粒度等原因,因此,可能导致信息识别的准确性不高的问题。
发明内容
本申请提供了一种基于图卷积神经网络的信息识别方法、装置及存储介质,可以解决仅以使用语义特征进行信息识别时,识别准确性不高的问题。本申请提供如下技术方案:
第一方面,提供一种基于图卷积神经网络的信息识别方法,所述方法包括:
获取具有文本信息的目标图像;
将所述文本信息划分为多个文本块,每个文本块包括至少一个字符;
获取所述多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征;
将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到所述文本块的文本块类型和隐向量;所述特征信息包括所述文本块的语义特征、与所述文本块相关联的关联文本块的语义特征、以及所述文本块与所述关联文本块之间的视觉特征;
对于每个文本块中的每个字符,将所述文本块的隐向量、文本块类型和所述字符的字符特征信息输入预设的字符模型,得到所述字符的字符类型;所述字符特征信息用于指示所述字符的位置;
将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到所述字符与关联字符之间的边属性;所述字符信息包括所述字符的字符类型的类型嵌入编码和所述字符与关联字符之间的视觉特征;
将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块。
可选地,所述获取所述多个文本块中每个文本块的语义特征,包括:
对于每个文本块,将所述文本块中的字符串输入预先训练的第一循环神经网络RNN,得到每个字符串的特征向量;
基于每个字符串的特征向量确定所述文本块对应的语义特征。
可选地,所述基于每个字符串的特征向量确定所述文本块对应的语义特征,包括:
对每个字符串的特征向量进行拼接,得到所述语义特征;
或者,
对每个字符串的特征向量进行拼接,得到拼接特征;基于残差网络ResNet和空洞空间卷积池化ASPP获取所述目标图像的网格特征;将所述拼接特征和所述网格特征进行混合,得到所述语义特征。
可选地,获取不同文本块之间的视觉特征,包括:
对所述文本块和所述关联文本块之间的相对位置,按照方向和距离进行离散化,得到方向编码和距离编码;
将所述方向编码和所述距离编码输入第一嵌入模型,得到方向嵌入编码、水平距离嵌入编码和垂直距离嵌入编码;
将所述方向嵌入编码、所述水平距离嵌入编码和所述垂直距离嵌入编码拼接后,投影到固定长度的向量,得到所述视觉特征。
可选地,所述将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到所述文本块的文本块类型和隐向量,包括:
通过所述第一图卷积神经网络对所述特征信息进行投影变换,得到每种特征信息的权重和更新信息,所述隐向量包括所述更新信息;
根据每种特征信息对应的更新信息和权重进行叠加,得到所述文本块类型。
可选地,所述字符特征信息为字符位置的归一化特征;所述对于每个文本块中的每个字符,将所述文本块的隐向量、文本块类型和所述字符的字符特征信息输入预设的字符模型,得到所述字符的字符类型,包括:
通过所述字符模型将所述隐向量和文本块类型的类型嵌入编码拼接,得到状态信息;
将所述字符和所述归一化特征拼接,并将拼接后的特征输入第二RNN网络,得到的字符隐向量;
将所述状态信息和所述字符隐向量拼接,并输入第三RNN网络,得到所述字符的字符类型。
可选地,所述类型嵌入编码是将所述字符类型输入第二嵌入模型得到的;所述将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到所述字符与关联字符之间的边属性,包括:
通过所述第二卷积网络对所述类型嵌入编码和所述视觉特征进行投影变换,得到更新信息和权重;
将所述权重乘以所述更新信息,得到加权后的更新信息;
基于所述加权后的更新信息确定所述边属性。
可选地,所述将所述文本信息划分为多个文本块,包括:
按照所述文本信息中各个字符的字符间距对所述文本信息进行划分,得到所述多个文本块。
第二方面,提供一种基于图卷积神经网络的信息识别装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的基于图卷积神经网络的信息识别方法。
第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的基于图卷积神经网络的信息识别方法。
本申请的有益效果在于:通过将目标图像中的文本信息划分为多个文本块;获取多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征;将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到文本块的文本块类型和隐向量;特征信息包括文本块的语义特征、与文本块相关联的关联文本块的语义特征、以及文本块与关联文本块之间的视觉特征;对于每个文本块中的每个字符,将文本块的隐向量、文本块类型和字符的字符特征信息输入预设的字符模型,得到字符的字符类型;字符特征信息用于指示字符的位置;将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到字符与关联字符之间的边属性;字符信息包括字符的字符类型的类型嵌入编码和字符与关联字符之间的视觉特征;将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块;可以解决仅以使用语义特征进行信息识别时,识别准确性不高的问题;由于文本块级别的类型推理和字符级别类型推理均使用图卷积神经网络图卷积神经网络,因此,可以结合语义和空间特征进行类型推理,可以提高信息识别的准确性。可选地,还可以结合语义、图像和空间三种特征进行类型推理,以进一步提高信息识别的准确性。
另外,使用图卷积神经网络进行类型推理,可以缩短原本需要多个流程才能完成的类型推理,仅经过两个阶段即可实现文本信息至实体信息的识别,提高信息识别的效率。
另外,对于以字符为节点,以固定距离为邻域建立有向图,基于该有向图使用图卷积神经网络识别字符对应的实体的方式,需要建立的图节点数和边数都很多,图卷积神经网络较难训练,且内存占用过大。基于此,本申请将类型推理分为两个阶段,第二阶段中,由于边的预测逻辑和特征信息相较于前述方式简单,因此,可以降低图卷积神经网络的计算量。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的基于图卷积神经网络的信息识别方法的流程图;
图2是本申请一个实施例提供的基于图卷积神经网络的信息识别装置的框图;
图3是本申请一个实施例提供的基于图卷积神经网络的信息识别装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍。
文本块节点:以一定阈值切分的文本块,包含文本内容、文本位置及相关图片背景。
字符节点:以字符为单位切分文本块,包含字符、字符位置。
类型推理:预测每个字符的实体类型。
关系推理:判断两个字符节点是否属于同一实体的关系,以实现对同一实体所有字符的拼接。
图卷积神经网络(Graph Convolutional Network,GCN):是指神经网络在图上应用的一种采用图卷积的神经网络,可以应用于图嵌入(Graph Embedding/NetworkEmbedding,GE)。
图G=(V,E),V为节点的集合,E为边的集合,对于每个节点i,均有其特征xi,可以用矩阵XN*D表示。其中,N表示节点数,D表示每个节点的特征数,或者说是特征向量的维度。
图卷积是指通过当前节点的周围节点确定当前节点的特征表示的过程。其中,周围节点可以为当前节点的邻居节点,即与当前节点具有关联关系的节点(或称节点),或者为当前节点的邻居节点的邻居节点等,本申请不对周围节点的类型作限定。
图卷积可以通过下述非线性函数表示:
Hl+1=f(Hl,A)
其中,H0=X为第一层的输入,X∈RN*D,N为图的节点个数,D为每个节点特征向量的维度,A为邻接矩阵,不同图卷积神经网络的函数f相同或不同。
空洞空间卷积池化(atrous spatial pyramid pooling,ASPP),用于捕获比常规卷积神经网络(Convolutional Neural Networks,CNN)更大的视野范围。空洞卷积可以在语义分割任务中,对图片提取的特征具有较大的感受野,且不会让特征图的分辨率下降太多。
可选地,本申请以各个实施例的执行主体为具有计算能力的电子设备为例进行说明,该电子设备可以为终端或服务器,该终端可以为计算机、笔记本电脑、平板电脑等,本实施例不对终端的类型和电子设备的类型作限定。
本实施例提供的信息识别方法适用于对具有文本信息的目标图像中感兴趣的信息(或称命名实体)进行识别。其中,目标图像除了包括文本信息外,还可以包括图片、表格、背景等多种格式属性的内容。在实际应用中,该目标图像可以是增值税***、保单等各种单据的图像,当然,也可以为其它类型的目标图像,如证件图像等,本实施例不对目标图像的类型作限定。
下面以两个举例来示意性说明本申请提供的信息识别的实际需求。比如:信息识别的目标是:识别***的开票日期。由于***中可能出现开票日期、账单发生日期等各种日期,仅从日期格式上往往无法判断哪个是开票日期。
再比如:信息识别的目标是:识别增值税***中的免税金额。由于增值税***中有很多金额,比如单项商品金额、免税金额、总金额等,格式均为数字,仅从数据格式上往往无法判断哪个是免税金额。
基于此,如果目标图像中包含多种与所要识别的信息格式相同的内容时,如何准确识别出感兴趣的命名实体,成为亟待解决的问题。基于此,本申请提供的信息识别方案包括两个阶段:第一阶段用于对目标图像中的文本信息进行文本块级别的类型推理和字符级别类型推理;第二阶段用于基于第一阶段的结果计算字符之间的边属性。
由于文本块级别的类型推理和字符级别类型推理均使用图卷积神经网络图卷积神经网络,因此,可以结合语义和空间特征进行类型推理,可以提高信息识别的准确性。可选地,还可以结合语义、图像和空间三种特征进行类型推理,以进一步提高信息识别的准确性。
另外,使用图卷积神经网络进行类型推理,可以缩短原本需要多个流程才能完成的类型推理,仅经过两个阶段即可实现文本信息至实体信息的识别,提高信息识别的效率。
另外,对于以字符为节点,以固定距离为邻域建立有向图,基于该有向图使用图卷积神经网络识别字符对应的实体的方式,需要建立的图节点数和边数都很多,图卷积神经网络较难训练,且内存占用过大。基于此,本申请将类型推理分为两个阶段,第二阶段中,由于边的预测逻辑和特征信息相较于前述方式简单,因此,可以降低图卷积神经网络的计算量。
下面对本申请提供的基于图卷积神经网络的信息识别方法进行详细介绍。
图1是本申请一个实施例提供的基于图卷积神经网络的信息识别方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取具有文本信息的目标图像。
文本信息中具有待识别的实体信息,目标图像可以为***的图像、证件图像、车票图像等,本实施例不对目标图像的类型作限定。
可选地,目标图像可以是电子设备采集到的,或者是其它设备发送的;目标图像可以是视频流中的一帧图像,或者是一张单独的图像,本实施例不对目标图像的来源作限定。
可选地,目标图像的数量可以为一张或多张,本实施例中,对于每张目标图像依次执行步骤101-107。
步骤102,将文本信息划分为多个文本块,每个文本块包括至少一个字符。
电子设备使用字符识别程序识别得到文本信息;之后,按照文本信息中各个字符的字符间距对文本信息进行划分,得到多个文本块。
字符识别程序用于获取目标图像中的字符,比如:使用光学字符识别(OpticalCharacter Recognition,OCR)获取目标图像中的多个文本信息。又比如:针对PDF格式的目标图像,通过过Apache pdfbox插件等工具未获取目标图像中的文本信息。
按照文本信息中各个字符的字符间距对文本信息进行划分,得到多个文本块,包括:对于每个字符,确定该字符在水平方向的第一距离内是否存在其它字符;若存在,则确定该其它字符与该字符属于同一文本块;和/或,对于每个字符,确定该字符在垂直方向的第二距离内是否存在其它字符;若存在,则确定该其它字符与该字符属于同一文本块。
第一距离和第二距离可以按照识别需求自适应确定,本实施例不对第一距离和第二距离的取值作限定。
可选地,每个文本块包括至少一个字符串。
步骤103,获取多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征。
在一个示例中,获取多个文本块中每个文本块的语义特征,包括:对于每个文本块,将文本块中的字符串输入预先训练的第一RNN,得到每个字符串的特征向量;基于每个字符串的特征向量确定文本块对应的语义特征。
本实施例中,以通过RNN网络识别字符串的特征向量为例进行说明,在实际实现时,电子设备也可以通过线性回归模型计算得到字符串的特征向量、或者使用word2vector计算特征向量,本实施例不对字符串的特征向量的获取方式作限定。
可选地,基于每个字符串的特征向量确定文本块对应的语义特征,包括:对每个字符串的特征向量进行拼接,得到语义特征;或者,对每个字符串的特征向量进行拼接,得到拼接特征;基于残差网络ResNet和空洞空间卷积池化ASPP获取目标图像的网格特征;将拼接特征和网格特征进行混合,得到语义特征。
在进行特征向量拼接时,可以使用Summary模型进行加权叠加,得到固定向量(即拼接特征)。
可选地,电子设备中配置有图像特征是否启用的控制控件,在控制控件控制启用图像特征时,电子设备执行基于残差网络ResNet和空洞空间卷积池化ASPP获取目标图像的网格特征;将拼接特征和网格特征进行混合,得到语义特征的步骤;在控制组件控制禁用图像特征时,电子设备执行对每个字符串的特征向量进行拼接,得到语义特征的步骤。
其中,控制控件的控制状态可以通过用户控制,或者可以通过其它设备控制,本实施例不对控制控件的控制方式作限定。
在一个示例中,获取不同文本块之间的视觉特征,包括:对文本块和关联文本块之间的相对位置,按照方向和距离进行离散化,得到方向编码和距离编码;将方向编码和距离编码输入第一嵌入模型,得到方向嵌入编码、水平距离嵌入编码和垂直距离嵌入编码;将方向嵌入编码、水平距离嵌入编码和垂直距离嵌入编码拼接后,投影到固定长度的向量,得到视觉特征。
视觉特征用于指示两个相关联的文本块之间的位置关系。本实施例中,以文本块作为有向图的节点,具有关联关系的两个文本块之间的中心连线作为有向图的边,构建有向图。比如:以相关联的两个节点的相对位置(中心连线矢量),按方向和距离进行离散化,离散化指的是:方向上按角度分为多个方向(如360个方向,相邻两个方向相差1°),距离上以目标图像的长宽除垂直和水平距离,得到归一化的垂直距离和水平距离,再乘以1000并取整。这样,就得到方向的整数编码和距离的整数编码。将方向、水平、垂直的整数编码通过第一嵌入模型计算对应的嵌入编码,得到方向、水平、垂直三种嵌入编码。将嵌入编码拼接并投影到固定长度的向量,作为有向图的边特征。
其中,第一嵌入模型可以为预先训练的embedding层。
本实施例中,文本块之间的关联关系可以根据相关性确定。
步骤104,将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到文本块的文本块类型和隐向量;该特征信息包括文本块的语义特征、与文本块相关联的关联文本块的语义特征、以及文本块与关联文本块之间的视觉特征。
将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到文本块的文本块类型和隐向量,包括:通过第一图卷积神经网络对特征信息进行投影变换,得到每种特征信息的权重和更新信息,该隐向量包括更新信息;根据每种特征信息对应的更新信息和权重进行叠加,得到文本块类型。
特征信息的权重可以通过在图卷积神经网络中添加注意力机制来确定,各种特征信息的权重之和为1。
步骤105,对于每个文本块中的每个字符,将文本块的隐向量、文本块类型和字符的字符特征信息输入预设的字符模型,得到字符的字符类型;该字符特征信息用于指示字符的位置。
在一个示例中,字符特征信息为字符位置的归一化特征。对于每个文本块中的每个字符,将文本块的隐向量、文本块类型和字符的字符特征信息输入预设的字符模型,得到字符的字符类型,包括:通过字符模型将隐向量和文本块类型的类型嵌入编码拼接,得到状态信息;将字符和归一化特征拼接,并将拼接后的特征输入第二RNN网络,得到的字符隐向量;将状态信息和字符隐向量拼接,并输入第三RNN网络,得到字符的字符类型。
比如:字符模型执行如下操作:将节点隐向量、类型嵌入编码拼接成状态信息;将字符串和位置归一化特征拼接,经过RNN网络计算字符隐向量。将状态信息扩展,与字符隐向量拼接,进行第二次RNN计算,获得字符级别类型概率向量。
步骤106,将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到字符与关联字符之间的边属性;该字符信息包括字符的字符类型的类型嵌入编码和字符与关联字符之间的视觉特征。
在一个示例中,类型嵌入编码是将字符类型输入第二嵌入模型得到的。第二嵌入模型也可以为预先训练的embedding层。电子设备通过第二卷积网络对字符信息进行投影变换,得到更新信息和权重;将权重乘以更新信息,得到加权后的更新信息;基于加权后的更新信息确定边属性。
比如:对于每个字符节点,通过第二图卷积神经网络将边所关联的节点信息拼接,经过多层前向网络计算边的属性。
本实施例中,以字符类型、输入的字符位置建立有向图,基于该有向图计算边的布尔属性,若边的布尔属性为True,则与该边连接的字符节点属于同一实体块,以属性为True的边形成等价关系的最小闭包(即若a->b,b->c,则a->c,c->a,c->b,b->a也成立,即使在实际计算时a->c或b->a可能预测为False)。
步骤107,将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块。
综上所述,本实施例提供的基于图卷积神经网络的信息识别方法,通过将目标图像中的文本信息划分为多个文本块;获取多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征;将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到文本块的文本块类型和隐向量;特征信息包括文本块的语义特征、与文本块相关联的关联文本块的语义特征、以及文本块与关联文本块之间的视觉特征;对于每个文本块中的每个字符,将文本块的隐向量、文本块类型和字符的字符特征信息输入预设的字符模型,得到字符的字符类型;字符特征信息用于指示字符的位置;将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到字符与关联字符之间的边属性;字符信息包括字符的字符类型的类型嵌入编码和字符与关联字符之间的视觉特征;将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块;可以解决仅以使用语义特征进行信息识别时,识别准确性不高的问题;由于文本块级别的类型推理和字符级别类型推理均使用图卷积神经网络图卷积神经网络,因此,可以结合语义和空间特征进行类型推理,可以提高信息识别的准确性。可选地,还可以结合语义、图像和空间三种特征进行类型推理,以进一步提高信息识别的准确性。
另外,使用图卷积神经网络进行类型推理,可以缩短原本需要多个流程才能完成的类型推理,仅经过两个阶段即可实现文本信息至实体信息的识别,提高信息识别的效率。
另外,对于以字符为节点,以固定距离为邻域建立有向图,基于该有向图使用图卷积神经网络识别字符对应的实体的方式,需要建立的图节点数和边数都很多,图卷积神经网络较难训练,且内存占用过大。基于此,本申请将类型推理分为两个阶段,第二阶段中,由于边的预测逻辑和特征信息相较于前述方式简单,因此,可以降低图卷积神经网络的计算量。
图2是本申请一个实施例提供的基于图卷积神经网络的信息识别装置的框图。该装置至少包括以下几个模块:图像获取模块210、文本划分模块220、特征获取模块230、第一分类模块240、第二分类模块250、属性计算模块260和实体识别模块270。
图像获取模块210,用于获取具有文本信息的目标图像;
文本划分模块220,用于将所述文本信息划分为多个文本块,每个文本块包括至少一个字符;
特征获取模块230,用于获取所述多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征;
第一分类模块240,用于将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到所述文本块的文本块类型和隐向量;所述特征信息包括所述文本块的语义特征、与所述文本块相关联的关联文本块的语义特征、以及所述文本块与所述关联文本块之间的视觉特征;
第二分类模块250,用于对于每个文本块中的每个字符,将所述文本块的隐向量、文本块类型和所述字符的字符特征信息输入预设的字符模型,得到所述字符的字符类型;所述字符特征信息用于指示所述字符的位置;
属性计算模块260,用于将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到所述字符与关联字符之间的边属性;所述字符信息包括所述字符的字符类型的类型嵌入编码和所述字符与关联字符之间的视觉特征;
实体识别模块270,用于将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的基于图卷积神经网络的信息识别装置在进行基于图卷积神经网络的信息识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将基于图卷积神经网络的信息识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于图卷积神经网络的信息识别装置与基于图卷积神经网络的信息识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是本申请一个实施例提供的基于图卷积神经网络的信息识别装置的框图。该装置至少包括处理器301和存储器302。
处理器301可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的基于图卷积神经网络的信息识别方法。
在一些实施例中,基于图卷积神经网络的信息识别装置还可选包括有:***设备接口和至少一个***设备。处理器301、存储器302和***设备接口之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口相连。示意性地,***设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,基于图卷积神经网络的信息识别装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于图卷积神经网络的信息识别方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的基于图卷积神经网络的信息识别方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
上述仅为本申请的一个具体实施方式,其它基于本申请构思的前提下做出的任何改进都视为本申请的保护范围。
Claims (10)
1.一种基于图卷积神经网络的信息识别方法,其特征在于,所述方法包括:
获取具有文本信息的目标图像;
将所述文本信息划分为多个文本块,每个文本块包括至少一个字符;
获取所述多个文本块中每个文本块的语义特征、以及不同文本块之间的视觉特征;
将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到所述文本块的文本块类型和隐向量;所述特征信息包括所述文本块的语义特征、与所述文本块相关联的关联文本块的语义特征、以及所述文本块与所述关联文本块之间的视觉特征;
对于每个文本块中的每个字符,将所述文本块的隐向量、文本块类型和所述字符的字符特征信息输入预设的字符模型,得到所述字符的字符类型;所述字符特征信息用于指示所述字符的位置;
将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到所述字符与关联字符之间的边属性;所述字符信息包括所述字符的字符类型的类型嵌入编码和所述字符与关联字符之间的视觉特征;
将边属性相同的字符按照关联关系进行拼接,得到识别出的实体块。
2.根据权利要求1所述的方法,其特征在于,所述获取所述多个文本块中每个文本块的语义特征,包括:
对于每个文本块,将所述文本块中的字符串输入预先训练的第一循环神经网络RNN,得到每个字符串的特征向量;
基于每个字符串的特征向量确定所述文本块对应的语义特征。
3.根据权利要求2所述的方法,其特征在于,所述基于每个字符串的特征向量确定所述文本块对应的语义特征,包括:
对每个字符串的特征向量进行拼接,得到所述语义特征;
或者,
对每个字符串的特征向量进行拼接,得到拼接特征;基于残差网络ResNet和空洞空间卷积池化ASPP获取所述目标图像的网格特征;将所述拼接特征和所述网格特征进行混合,得到所述语义特征。
4.根据权利要求1所述的方法,其特征在于,获取不同文本块之间的视觉特征,包括:
对所述文本块和所述关联文本块之间的相对位置,按照方向和距离进行离散化,得到方向编码和距离编码;
将所述方向编码和所述距离编码输入第一嵌入模型,得到方向嵌入编码、水平距离嵌入编码和垂直距离嵌入编码;
将所述方向嵌入编码、所述水平距离嵌入编码和所述垂直距离嵌入编码拼接后,投影到固定长度的向量,得到所述视觉特征。
5.根据权利要求1所述的方法,其特征在于,所述将每个文本块的特征信息输入预先训练的第一图卷积神经网络,得到所述文本块的文本块类型和隐向量,包括:
通过所述第一图卷积神经网络对所述特征信息进行投影变换,得到每种特征信息的权重和更新信息,所述隐向量包括所述更新信息;
根据每种特征信息对应的更新信息和权重进行叠加,得到所述文本块类型。
6.根据权利要求1所述的方法,其特征在于,所述字符特征信息为字符位置的归一化特征;所述对于每个文本块中的每个字符,将所述文本块的隐向量、文本块类型和所述字符的字符特征信息输入预设的字符模型,得到所述字符的字符类型,包括:
通过所述字符模型将所述隐向量和文本块类型的类型嵌入编码拼接,得到状态信息;
将所述字符和所述归一化特征拼接,并将拼接后的特征输入第二RNN网络,得到的字符隐向量;
将所述状态信息和所述字符隐向量拼接,并输入第三RNN网络,得到所述字符的字符类型。
7.根据权利要求1所述的方法,其特征在于,所述类型嵌入编码是将所述字符类型输入第二嵌入模型得到的;所述将每个字符的字符信息输入预先训练的第二图卷积神经网络,得到所述字符与关联字符之间的边属性,包括:
通过所述第二卷积网络对所述类型嵌入编码和所述视觉特征进行投影变换,得到更新信息和权重;
将所述权重乘以所述更新信息,得到加权后的更新信息;
基于所述加权后的更新信息确定所述边属性。
8.根据权利要求1所述的方法,其特征在于,所述将所述文本信息划分为多个文本块,包括:
按照所述文本信息中各个字符的字符间距对所述文本信息进行划分,得到所述多个文本块。
9.一种基于图卷积神经网络的信息识别装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的基于图卷积神经网络的信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至8任一项所述的基于图卷积神经网络的信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224516.4A CN112949477B (zh) | 2021-03-01 | 2021-03-01 | 基于图卷积神经网络的信息识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224516.4A CN112949477B (zh) | 2021-03-01 | 2021-03-01 | 基于图卷积神经网络的信息识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949477A true CN112949477A (zh) | 2021-06-11 |
CN112949477B CN112949477B (zh) | 2024-03-15 |
Family
ID=76246866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224516.4A Active CN112949477B (zh) | 2021-03-01 | 2021-03-01 | 基于图卷积神经网络的信息识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949477B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建***及方法 |
CN114283403A (zh) * | 2021-12-24 | 2022-04-05 | 北京有竹居网络技术有限公司 | 一种图像检测方法、装置、存储介质及设备 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236135A1 (en) * | 2018-01-30 | 2019-08-01 | Accenture Global Solutions Limited | Cross-lingual text classification |
CN110222330A (zh) * | 2019-04-26 | 2019-09-10 | 平安科技(深圳)有限公司 | 语义识别方法及装置、存储介质、计算机设备 |
CN110569500A (zh) * | 2019-07-23 | 2019-12-13 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
CN110598206A (zh) * | 2019-08-13 | 2019-12-20 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
CN110765872A (zh) * | 2019-09-19 | 2020-02-07 | 中山大学 | 一种基于视觉特征的在线数学教育资源分类方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111753822A (zh) * | 2019-03-29 | 2020-10-09 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN111967387A (zh) * | 2020-08-17 | 2020-11-20 | 北京市商汤科技开发有限公司 | 表单识别方法、装置、设备及计算机可读存储介质 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及*** |
-
2021
- 2021-03-01 CN CN202110224516.4A patent/CN112949477B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236135A1 (en) * | 2018-01-30 | 2019-08-01 | Accenture Global Solutions Limited | Cross-lingual text classification |
CN111753822A (zh) * | 2019-03-29 | 2020-10-09 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN110222330A (zh) * | 2019-04-26 | 2019-09-10 | 平安科技(深圳)有限公司 | 语义识别方法及装置、存储介质、计算机设备 |
CN110569500A (zh) * | 2019-07-23 | 2019-12-13 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
CN110598206A (zh) * | 2019-08-13 | 2019-12-20 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
CN110765872A (zh) * | 2019-09-19 | 2020-02-07 | 中山大学 | 一种基于视觉特征的在线数学教育资源分类方法 |
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN111967387A (zh) * | 2020-08-17 | 2020-11-20 | 北京市商汤科技开发有限公司 | 表单识别方法、装置、设备及计算机可读存储介质 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及*** |
Non-Patent Citations (1)
Title |
---|
DIFEI GAO.ETC: ""Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text"", 《CVF》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN114005123A (zh) * | 2021-10-11 | 2022-02-01 | 北京大学 | 一种印刷体文本版面数字化重建***及方法 |
CN114005123B (zh) * | 2021-10-11 | 2024-05-24 | 北京大学 | 一种印刷体文本版面数字化重建***及方法 |
CN114283403A (zh) * | 2021-12-24 | 2022-04-05 | 北京有竹居网络技术有限公司 | 一种图像检测方法、装置、存储介质及设备 |
CN114283403B (zh) * | 2021-12-24 | 2024-01-16 | 北京有竹居网络技术有限公司 | 一种图像检测方法、装置、存储介质及设备 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112949477B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112949477B (zh) | 基于图卷积神经网络的信息识别方法、装置及存储介质 | |
WO2021093435A1 (zh) | 语义分割网络结构的生成方法、装置、设备及存储介质 | |
US10997464B2 (en) | Digital image layout training using wireframe rendering within a generative adversarial network (GAN) system | |
CN111709339A (zh) | 一种票据图像识别方法、装置、设备及存储介质 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
US8381094B1 (en) | Incremental visual comparison of web browser screens | |
CN109564575A (zh) | 使用机器学习模型来对图像进行分类 | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN112949476A (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
US20220392242A1 (en) | Method for training text positioning model and method for text positioning | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
US20230351558A1 (en) | Generating an inpainted image from a masked image using a patch-based encoder | |
CN114241524A (zh) | 人体姿态估计方法、装置、电子设备及可读存储介质 | |
CN116843901A (zh) | 医学图像分割模型训练方法和医学图像分割方法 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN116630712A (zh) | 基于模态组合的信息分类方法、装置、电子设备及介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
US11972625B2 (en) | Character-based representation learning for table data extraction using artificial intelligence techniques | |
CN114091451A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
EP3959652B1 (en) | Object discovery in images through categorizing object parts | |
CN113283241B (zh) | 文本识别方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |