CN109522553B - 命名实体的识别方法及装置 - Google Patents

命名实体的识别方法及装置 Download PDF

Info

Publication number
CN109522553B
CN109522553B CN201811332914.2A CN201811332914A CN109522553B CN 109522553 B CN109522553 B CN 109522553B CN 201811332914 A CN201811332914 A CN 201811332914A CN 109522553 B CN109522553 B CN 109522553B
Authority
CN
China
Prior art keywords
text
vector
named entity
character
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811332914.2A
Other languages
English (en)
Other versions
CN109522553A (zh
Inventor
聂镭
徐泓洋
郑权
张峰
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201811332914.2A priority Critical patent/CN109522553B/zh
Publication of CN109522553A publication Critical patent/CN109522553A/zh
Application granted granted Critical
Publication of CN109522553B publication Critical patent/CN109522553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种命名实体的识别方法及装置。其中,该方法包括:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。本发明解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。

Description

命名实体的识别方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种命名实体的识别方法及装置。
背景技术
传统的国家认证的证书,包括CET-4、CET-6、毕业证书,学位证书等都有着固定的模式,固定的位置,特定的内容。所以在证书识别中,只需要提取出相关位置上的文字就可以直接匹配上对应的信息,也就是识别即获取。
随着国家对证书形式和内容的放开,高校和科研机构纷纷开始自主设计具有各自特色的证书,特别是毕业证和学位证。不同的学校有不同的形式和内容,甚至一个学校不同届的证书内容和形式也不相同。这就为传统的证书识别带来了难题:即使是提取到了证书中的文字,但是仍然无法匹配信息,也就是只识别但为不可用的信息。
针对上述相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种命名实体的识别方法及装置,以至少解决相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。
根据本发明实施例的一个方面,提供了一种命名实体的识别方法,包括:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集。
可选地,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。
可选地,将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;获取所述双向长短时记忆网络模型Bi-LSTM的输出;根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。
可选地,根据所述特征向量得到命名实体集包括:将所述特征向量作为条件随机场模型CRF的输入;获取所述条件随机场模型CRF的输出;根据所述条件随机场模型CRF的输出得到所述命名实体集。
可选地,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目。
可选地,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体。
可选地,在基于所述设问题目定位得到需要获取的命名实体之前,该命名实体的识别方法还包括:对所述文字图像对应的文本进行识别,得到多个文字片段;基于预定规则为所述多个文字片段添加标识符;其中,对所述文字图像对应的文本进行识别,得到多个文字片段包括:识别所述文本中的预定标点符号;根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。
根据本发明实施例的另外一个方面,还提供了一种命名实体的识别装置,包括:抽取单元,用于利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;第一获取单元,用于将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;第二获取单元,用于根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;第三获取单元,用于构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集。
可选地,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。
可选地,所述第一获取单元包括:拼接模块,用于将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;第一确定模块,用于将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;第一获取模块,用于获取所述双向长短时记忆网络模型Bi-LSTM的输出;第二获取模块,用于根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。
可选地,所述第二获取单元包括:第二确定模块,用于将所述特征向量作为条件随机场模型CRF的输入;第三获取模块,用于获取所述条件随机场模型CRF的输出;第四获取模块,用于根据所述条件随机场模型CRF的输出得到所述命名实体集。
可选地,所述第三获取单元包括:抽取模块,用于抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;第三确定模块,用于将所述关键信息作为所述设问题目。
可选地,所述第三获取单元包括:第四确定模块,用于通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;提取模块,用于根据所述文本片段的标识符提取得到所述需要获取的命名实体。
可选地,该命名实体的识别装置还包括:第四获取单元,用于在基于所述设问题目定位得到需要获取的命名实体之前,对所述文字图像对应的文本进行识别,得到多个文字片段;添加单元,用于基于预定规则为所述多个文字片段添加标识符;其中,所述第四获取单元包括:识别模块,用于识别所述文本中的预定标点符号;第五获取模块,用于根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的命名实体的识别方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的命名实体的识别方法。
在本发明实施例中,采用利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集的方式进行命名实体识别,通过本发明实施例提供的命名实体的识别方法可以实现将提取的字体信息的字体向量和文字信息对应的文字信息进行拼接得到拼接后的拼接向量,并根据拼接向量得到命名实体集的目的,从而不仅考虑到了文字的空间信息,也考虑到了文本的上下文信息,提高了有效信息的识别效率,进而解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的命名实体的识别方法的流程图;
图2是根据本发明实施例的命名实体的识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种命名实体的识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的命名实体的识别方法的流程图,如图1所示,该命名实体的识别方法包括如下步骤:
步骤S102,利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量。
其中,卷积神经网络(convolutional neural network,简称CNN)是一种深度前馈人工神经网络,人工神经元可以响应周围单元,进行大型图像处理。包括卷积层、池化层,激活层以及dropout层等。包括:一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。其中,一维卷积神经网络常用于序列类的数据处理;二维卷积神经网络常应用于图像类文本识别;三维卷积神经网络主要应用于医学图像以及视频类数据识别。
在本发明实施中,可以利用卷积神经网络模型CNN抽取文字图像中的字体信息,并输出图像文字中每个文字对应的字体向量。例如,CET-4、CET-6、毕业证书,学位证书等,由于证书内容种类不同,证书中文字也会有不同的字体,比如,姓名、时间、单位等信息与一般文本的字体类型、字号大小、字体粗细等都有着区别。这些文字通常也是证书中关键信息的一部分,甚至是全部,因此,首先,需要提取文字的字体信息。而卷积神经网络模型CNN作为一种卷积神经网络模型,常用来抽取图像的空间信息,实际应用中,此处可按应用的场景和需求使用不同复杂程度的卷积神经网络模型CNN。
步骤S104,将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量。
在步骤S104中,可以将步骤S102中提取的字体信息作为文字向量的一部分输入到Bi-LSTM+CRF模型中,进行命名实体识别。
这里的Bi-LSTM即双向LSTM模型,是循环神经网络(RNN)的一种变体,其中,LSTM在基础RNN模型的基础上修改记忆单元,设立输入门、遗忘门和输出门,从而实现更有效的时序信息学习。Bi-LSTM则是在原本的正向(相对于反向来说)LSTM基础上增加了一个反向序列学习,在输出环节通常将正向与反向的向量进行拼接,得到一个最终的输出向量。
Bi-LSTM的输入是每个词或者文字的向量,可以是one-hot的简单形式,也可以是pre_train的词向量(Word2vec,Glove),在本发明实施例中要加入每个文字的字体信息,所以使用pre_train的M*1维的字/词向量,将字文/词向量与字体信息向量进行拼接得到(N+M)*1维的输入向量。经过Bi-LSTM后得到输出向量维度为2(N+M)*1,即拼接得到的特征向量。
优选的,字体向量为N*1维的向量,文字向量为M*1维的向量,其中,N表示字体向量对应的文字的字体属性的数量,M表示文字向量中文字的文字属性的数量。其中,这里的字体属性可以为文字的字体类型、字体大小等用于表示字体的特点的属性。文字属性则是用来表示文字是动词、名词、谓语、主语、人名、地名等的属性。
作为一种可选的实施例,将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:将维度为N*1的字体向量与维度为M*1的文字向量进行拼接,得到(N+M)*1维的拼接向量;将(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;获取双向长短时记忆网络模型Bi-LSTM的输出;根据输出得到特征向量,其中,特征向量为2(N+M)*1维的向量。
步骤S106,根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体。
其中,这里的条件随机场(Conditional Random Field,简称CRF),是一种概率无向图模型。条件随机场是给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,特点是假设输出随机变量构成马尔科夫随机场。它与HMM相反,是一种由观测序列预测隐含变量的判别模型,常用于句法分析、命名实体识别、词性标注等场景。在这里,我们将CRF作为Bi-LSTM的下一层,输入为Bi-LSTM每一层的2(N+M)*1维的特征向量,输出为对应的标签序列,即各种命名实体。
在步骤S108中,根据特征向量得到命名实体集可以包括:将特征向量作为条件随机场模型CRF的输入;获取条件随机场模型CRF的输出;根据条件随机场模型CRF的输出得到命名实体集。
步骤S108,构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。
在该实施例中,可以通过利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;然后将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;再根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;并构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。相对于相关技术中由于证书的种类繁多,不同的单位发放的证书有不同的形式和内容,甚至同一个单位不同时间不同部门发放的证书的内容和形式也是不太相同的。这就为传统的证书识别带来难题,即使提取到了证书的文字,但是仍然无法匹配信息的弊端,通过本发明实施例提供的命名实体的识别方法可以实现将提取的字体信息的字体向量和文字信息对应的文字信息进行拼接得到拼接后的拼接向量,并根据拼接向量得到命名实体集的目的,从而不仅考虑到了文字的空间信息,也考虑到了文本的上下文信息,提高了有效信息的识别效率,进而解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。
在步骤S108中,构建与文字图像对应的设问题目可以包括:抽取文字图像对应的文本的关键信息,其中,关键信息是和命名实体具有关联关系的特征词;将关键信息作为设问题目。即,针对关键信息进行设问,这一步的目的是为了将提取信息类比于阅读理解问题,通过设问的问题,从原文中去寻找与问题相关的文字部分,以定位答案的位置。
这里以毕业证书为例,提取毕业证书的关键信息应包括:姓名,毕业时间,毕业单位,毕业学历,出生日期,学制等。那么可以相应的设问:
A:学生的姓名是什么?
B:学生的毕业单位是什么?
……
另外,在步骤S108中,基于设问题目定位得到需要获取的命名实体可以包括:通过匹配神经网络模型,确定与设问题目对应的文本片段的标识符,其中,匹配神经网络模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据文本片段的标识符提取得到需要获取的命名实体。
例如,可以采用类似于Match-LSTM的模型去理解文本,定位与问题相关的片段。证书内容的特点是文字极为简练,一个内容一个片段,用逗号隔开,针对这种情况,按照文本的顺序将文字片段编号,最终输出与问题相关的片段的编号就可以。
匹配神经网络模型的训练过程与Match-LSTM相似,也分四步。首先对问题和原文做Embedding,生成词向量;然后使用双向的LSTM对问题和原文文本进行Encode;第三,计算原文每个词关于问题的注意力分布,并使用该注意力分布汇总问题表示,将原文该词表示和对应问题表示输入另一个LSTM层做Encode得到该词的query-aware表示;第四,再加一层Attention层,得到文本的向量表示;最后用Softmax层去求每个词的概率Pi,优化目标为目标片段的词的概率连乘值最大,即,
Figure BDA0001860484340000081
其中,l表示损失函数,k表示文本片段的编号,i表示片段中第i个词。这里的损失函数主要是用于对匹配神经网络模型中的网络层中的函数的参数进行优化。需要说明的是,由于证书的文本相对较短,命名实体比较明显,所以不需要定位起始位置。即,上述匹配神经网络模型的训练过程与Match-LSTM是相似的,但是在最后的结果输出时是存在区别的,只需要找到相应位置就可以直接找到目标,不需要定位起始位置。
其中,Embedding为网络结构中的嵌入层主要是将正整数转换为具有固定大小的向量。使用嵌入层的原因:1.使用one-hot方法编码的向量会很高维也很稀疏。假设我们在做自然语言处理中遇到一个包含2000个词的字典,当使用one-hot编码时,每一个词会一个包含2000个整数的向量来表示,其中1999个数字为0;2.将训练神经网络的过程中,每个嵌入的向量都会得到更新。
Softmax函数,又称归一化指数函数,在数学,尤其是概率论和相关领域中,实际上是有限项离散概率分布的梯度对数归一化。它能将一个含任意实数的K维向量Z“压缩”到另外一个K维实向量中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1.
作为一种可选的实施例,在基于设问题目定位得到需要获取的命名实体之前,该命名实体的识别方法还可以包括:对文字图像对应的文本进行识别,得到多个文字片段;基于预定规则为多个文字片段添加标识符;其中,对文字图像对应的文本进行识别,得到多个文字片段包括:识别文本中的预定标点符号;根据预定标识符号对文字图像对应的文本进行识别,得到多个文字片段。
另外,由于证书文本比较简练的特点,提取的命名实体即为目标内容,通过上述基于设问题目在文本内容中定位文字片段,就可以把对应问题的核心答案找到。即先定位设问题目的答案所在位置,再提取该位置的命名实体。
通过本发明实施例提供的命名实体的识别方法可以提取文字图像的字体信息,并结合字体信息,采用Bi-LSTM+CRF模型进行命名实体识别,提取文本中的时间、人名、机构名称、地名等命名实体;设立以关键信息为答案的“问题”;再采用Bi-LSTM+Attention模型理解文本,预测与问题相关的语句;并匹配相关语句中的命名实体,即为答案。针对当前内容多变的证书识别后文字信息提取的问题,提出结合文字的字体信息和当下热门的深度学习的方法去实现命名实体识别,这样既考虑到文字的空间信息,也考虑文本的上下文信息。然后将文本提取转化为简单的阅读理解中回答“是什么”的问题,提出一种类似于Match-LSTM的模型构建方法,不再去预测答案的起始点或者答案词,而是去定位根据标点符号分段后的答案片段的位置。结合文本位置和命名实体识别去提取信息。
实施例2
根据本发明实施例还提供了一种命名实体的识别装置,需要说明的是,本发明实施例的命名实体的识别装置可以用于执行本发明实施例所提供的命名实体的识别方法。以下对本发明实施例提供的命名实体的识别装置进行介绍。
图2是根据本发明实施例的命名实体的识别装置的示意图,如图2所示,该命名实体的识别装置可以包括:抽取单元21,第一获取单元23,第二获取单元25,第三获取单元27。下面对该命名实体的识别装置进行详细说明。
抽取单元21,用于利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量。
第一获取单元23,与上述抽取单元21连接,用于将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量。
第二获取单元25,与上述第一获取单元23连接,用于根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体。
第三获取单元27,与上述第二获取单元25连接,用于构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。
需要说明的是,该实施例中的抽取单元21可以用于执行本发明实施例中的步骤S102,该实施例中的第一获取单元23可以用于执行本发明实施例中的步骤S104,该实施例中的第二获取单元25可以用于执行本发明实施例中的步骤S106,该实施例中的第三获取单元27可以用于执行本发明实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
在该实施例中,可以利用抽取单元21利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;然后利用第一获取单元23将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;再利用第二获取单元25根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;并利用第三获取单元构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。相对于相关技术中由于证书的种类繁多,不同的单位发放的证书有不同的形式和内容,甚至同一个单位不同时间不同部门发放的证书的内容和形式也是不太相同的。这就为传统的证书识别带来难题,即使提取到了证书的文字,但是仍然无法匹配信息的弊端,通过本发明实施例提供的命名实体的识别装置可以实现将提取的字体信息的字体向量和文字信息对应的文字信息进行拼接得到拼接后的拼接向量,并根据拼接向量得到命名实体集的目的,从而不仅考虑到了文字的空间信息,也考虑到了文本的上下文信息,提高了有效信息的识别效率,进而解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。
作为一种可选的实施例,字体向量为N*1维的向量,文字向量为M*1维的向量,其中,N表示字体向量对应的文字的字体属性的数量,M表示文字向量中文字的文字属性的数量。
作为一种可选的实施例,第一获取单元包括:拼接模块,用于将维度为N*1的字体向量与维度为M*1的文字向量进行拼接,得到(N+M)*1维的拼接向量;第一确定模块,用于将(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;第一获取模块,用于获取双向长短时记忆网络模型Bi-LSTM的输出;第二获取模块,用于根据输出得到特征向量,其中,特征向量为2(N+M)*1维的向量。
作为一种可选的实施例,第二获取单元包括:第二确定模块,用于将特征向量作为条件随机场模型CRF的输入;第三获取模块,用于获取条件随机场模型CRF的输出;第四获取模块,用于根据条件随机场模型CRF的输出得到命名实体集。
作为一种可选的实施例,第三获取单元包括:抽取模块,用于抽取文字图像对应的文本的关键信息,其中,关键信息是和命名实体具有关联关系的特征词;第三确定模块,用于将关键信息作为设问题目。
作为一种可选的实施例,第三获取单元包括:第四确定模块,用于通过匹配神经网络模型,确定与设问题目对应的文本片段的标识符,其中,匹配神经网络模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;提取模块,用于根据文本片段的标识符提取得到需要获取的命名实体。
作为一种可选的实施例,该命名实体的识别装置还包括:第四获取单元,用于在基于设问题目定位得到需要获取的命名实体之前,对文字图像对应的文本进行识别,得到多个文字片段;添加单元,用于基于预定规则为多个文字片段添加标识符;其中,第四获取单元包括:识别模块,用于识别文本中的预定标点符号;第五获取模块,用于根据预定标识符号对文字图像对应的文本进行识别,得到多个文字片段。
上述命名实体的识别装置包括处理器和存储器,上述抽取单元21,第一获取单元23,第二获取单元25,第三获取单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述中任意一项的命名实体的识别方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的命名实体的识别方法。
在本发明实施例中还提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。
在本发明实施例中还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种命名实体的识别方法,其特征在于,包括:
利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;
将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;
根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;
构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集;
其中,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目;
其中,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体;
其中,在基于所述设问题目定位得到需要获取的命名实体之前,还包括:
对所述文字图像对应的文本进行识别,得到多个文字片段;
基于预定规则为所述多个文字片段添加标识符;
其中,对所述文字图像对应的文本进行识别,得到多个文字片段包括:
识别所述文本中的预定标识符号;
根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。
2.根据权利要求1所述的方法,其特征在于,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。
3.根据权利要求2所述的方法,其特征在于,将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:
将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;
将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;
获取所述双向长短时记忆网络模型Bi-LSTM的输出;
根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。
4.根据权利要求1所述的方法,其特征在于,根据所述特征向量得到命名实体集包括:
将所述特征向量作为条件随机场模型CRF的输入;
获取所述条件随机场模型CRF的输出;
根据所述条件随机场模型CRF的输出得到所述命名实体集。
5.一种命名实体的识别装置,其特征在于,包括:
抽取单元,用于利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;
第一获取单元,用于将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;
第二获取单元,用于根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;
第三获取单元,用于构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集;
其中,所述第三获取单元,还用于抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目;通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体;
其中,所述命名实体的识别装置还包括:第四获取单元,用于在基于所述设问题目定位得到需要获取的命名实体之前,对所述文字图像对应的文本进行识别,得到多个文字片段;添加单元,用于基于预定规则为所述多个文字片段添加标识符;其中,所述第四获取单元包括:识别模块,用于识别所述文本中的预定标识符号;第五获取模块,用于根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4中任意一项所述的命名实体的识别方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的命名实体的识别方法。
CN201811332914.2A 2018-11-09 2018-11-09 命名实体的识别方法及装置 Active CN109522553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811332914.2A CN109522553B (zh) 2018-11-09 2018-11-09 命名实体的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811332914.2A CN109522553B (zh) 2018-11-09 2018-11-09 命名实体的识别方法及装置

Publications (2)

Publication Number Publication Date
CN109522553A CN109522553A (zh) 2019-03-26
CN109522553B true CN109522553B (zh) 2020-02-11

Family

ID=65776277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811332914.2A Active CN109522553B (zh) 2018-11-09 2018-11-09 命名实体的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109522553B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119694B (zh) * 2019-04-24 2021-03-12 北京百炼智能科技有限公司 一种图片处理方法、装置及计算机可读存储介质
CN110222168B (zh) * 2019-05-20 2023-08-18 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN110209721A (zh) * 2019-06-04 2019-09-06 南方科技大学 判决文书调取方法、装置、服务器及存储介质
CN110348022A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种相似度分析的方法、装置、存储介质及电子设备
CN110348023A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种中文文本分词的方法、装置、存储介质及电子设备
CN110348025A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种基于字形的翻译方法、装置、存储介质及电子设备
CN110334357A (zh) * 2019-07-18 2019-10-15 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备
CN110705272A (zh) * 2019-08-28 2020-01-17 昆明理工大学 一种面向汽车发动机故障诊断的命名实体识别方法
CN110569846A (zh) 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110619124B (zh) * 2019-09-19 2023-06-16 成都数之联科技股份有限公司 一种结合注意力机制与双向lstm的命名实体识别方法及***
CN110781646B (zh) * 2019-10-15 2023-08-22 泰康保险集团股份有限公司 名称标准化方法、装置、介质及电子设备
CN111126069B (zh) * 2019-12-30 2022-03-29 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN111241839B (zh) * 2020-01-16 2022-04-05 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读存储介质和计算机设备
CN113283241B (zh) * 2020-02-20 2022-04-29 阿里巴巴集团控股有限公司 文本识别方法、装置、电子设备及计算机可读存储介质
CN111488739B (zh) * 2020-03-17 2023-07-18 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111767732B (zh) * 2020-06-09 2024-01-26 上海交通大学 基于图注意力模型的文档内容理解方法及***
CN114021572B (zh) * 2022-01-05 2022-03-22 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN117252202B (zh) * 2023-11-20 2024-03-19 江西风向标智能科技有限公司 高中数学题目中命名实体的构建方法、识别方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信***集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信***集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法

Also Published As

Publication number Publication date
CN109522553A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522553B (zh) 命名实体的识别方法及装置
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
Tahsin Mayeesha et al. Deep learning based question answering system in Bengali
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN110347802B (zh) 一种文本分析方法及装置
CN108763535A (zh) 信息获取方法及装置
CN112559749B (zh) 在线教育师生智能匹配方法、装置及存储介质
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN114528418B (zh) 一种文本处理方法、***和存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN114281931A (zh) 文本匹配方法、装置、设备、介质及计算机程序产品
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN112052680B (zh) 问题生成方法、装置、设备及存储介质
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备
CN114297353A (zh) 数据处理方法、装置、存储介质及设备
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: 519000 room 417, building 20, creative Valley, Hengqin new area, Xiangzhou, Zhuhai, Guangdong

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.