CN110489727A - 人名识别方法及相关装置 - Google Patents
人名识别方法及相关装置 Download PDFInfo
- Publication number
- CN110489727A CN110489727A CN201910627361.1A CN201910627361A CN110489727A CN 110489727 A CN110489727 A CN 110489727A CN 201910627361 A CN201910627361 A CN 201910627361A CN 110489727 A CN110489727 A CN 110489727A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- name
- word
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 91
- 230000011218 segmentation Effects 0.000 claims description 51
- 238000002372 labelling Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种人名识别方法及相关装置,其中,所述方法包括:获取输入文本的分词文本和分字文本;获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名,因此,能够提升人名识别时的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种人名识别方法及相关装置。
背景技术
中国人名(以下简称“人名”)常作为命名实体的一种来识别,常用的方法有:基于规则的方法:分析文本的时候,遇到明显的姓氏用字的时候,获取该姓氏用字的上下文,通过对姓名前后的上下文设置一系列规则进行姓名识别,规则设置耗费大量的时间、人力以及财力,而且遇到有名无姓的人名时,无法触发规则识别;基于统计的方法:使用姓名语料库来训练计算出每个字作为姓名的一部分的概率,进而获取到候选人名文本为人名的概率,当概率满足一定条件时识别为人名,对语料的依赖比较大,未出现在语料中的人名往往效果比较差,而且基于统计的方法往往为了利用词语的信息,基于文本分词的结果进行概率学习,但这样会引入文本分词的错误;统计与规则相结合的方法:通过统计的方法进行概率计算,然后用规则来约束统计识别结果,需要构造人工特征,人工特征的好坏直接影响***的效果,因此现有方案中,在进行人名识别时的准确性较低。
发明内容
本申请实施例提供一种人名识别方法及相关装置,能够提升人名识别时的准确性。
本申请实施例的第一方面提供了一种人名识别方法,所述方法包括:
获取输入文本的分词文本和分字文本;
获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;
根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名。
可选的,所述预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,所述根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名,包括:
根据每个词组的词向量和所述每个字的字向量,采用所述N个标注模型对所述输入文本进行标注,得到与所述N个标注模型中的每个标注模型相对应的目标人名标注结果,所述目标人名标注结果为所述分字文本中的每个字的人名标注结果;
将所述输入文本按照所述目标人名标注结果进行PER替换,确定出与所述N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
采用所述评分网络,确定出所述N个参考文本中的每个参考文本的参考评分值;
获取目标文本,所述目标文本为所述N个参考文本中参考评分值最高的文本;
将所述目标文本中的人名确定为所述第一目标人名。
可选的,所述评分网络包括M个子评分模型和全连接层,M为正整数,所述采用所述评分模型,确定出所述N个参考文本中的每个参考文本的参考评分值,包括:
根据所述M个子评分模型,确定出与目标参考文本相对应的M个参考结果,所述目标参考文本为所述N个参考文本中的任一个;
将所述M个参考结果进行拼接,得到目标结果;
根据所述全连接层,确定出所述目标结果对应的评分值;
根据所述参考文本对应的概率值和所述目标结果对应的评分值,确定出所述目标参考文本的参考评分值;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出所述N个参考文本中每个参考文本的参考评分值。
可选的,所述方法还包括:
通过目标函数训练得到所述评分网络;其中,所述目标函数为:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
可选的,所述方法还包括:
通过校正字典获取所述输入文本的第二目标人名;
根据所述第一目标人名和所述第二目标人名,确定出所述输入文本中的人名。
本申请实施例的第二方面提供了一种人名识别装置,所述装置包括第一获取单元、第二获取单元和确定单元,其中,
所述第一获取单元,用于获取输入文本的分词文本和分字文本;
所述第二获取单元,用于获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;
所述确定单元,用于根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名。
可选的,所述预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,在所述根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名方面,所述确定单元用于:
根据每个词组的词向量和所述每个字的字向量,采用所述N个标注模型对所述输入文本进行标注,得到与所述N个标注模型中的每个标注模型相对应的目标人名标注结果,所述目标人名标注结果为所述分字文本中的每个字的人名标注结果;
将所述输入文本按照所述目标人名标注结果进行PER替换,确定出与所述N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
采用所述评分网络,确定出所述N个参考文本中的每个参考文本的参考评分值;
获取目标文本,所述目标文本为所述N个参考文本中参考评分值最高的文本;
将所述目标文本中的人名确定为所述第一目标人名。
可选的,所述评分网络包括M个子评分模型和全连接层,M为正整数,在所述采用所述评分模型,确定出所述N个参考文本中的每个参考文本的参考评分值方面,所述确定单元用于:
根据所述M个子评分模型,确定出与目标参考文本相对应的M个参考结果,所述目标参考文本为所述N个参考文本中的任一个;
将所述M个参考结果进行拼接,得到目标结果;
根据所述全连接层,确定出所述目标结果对应的评分值;
根据所述参考文本对应的概率值和所述目标结果对应的评分值,确定出所述目标参考文本的参考评分值;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出所述N个参考文本中每个参考文本的参考评分值。
可选的,所述装置还用于:
通过目标函数训练得到所述评分网络;其中,所述目标函数为:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
可选的,所述方法还包括:
通过校正字典获取所述输入文本的第二目标人名;
根据所述第一目标人名和所述第二目标人名,确定出所述输入文本中的人名。
本申请实施例的第三方面提供一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,至少具有如下有益效果:
本示例中,通过获取输入文本的分词文本和分字文本,获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量,根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名,因此相对于现有方案中,采用规则或统计学方法进行人名识别的方式,能够一定程度上提升人名识别时的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供了一种预设的人名确定模型的架构示意图;
图2A为本申请实施例提供了一种人名识别方法的流程示意图;
图2B为本申请实施例提供了一种BLSTM+CRF模型的结构示意图;
图3为本申请实施例提供了另一种人名识别方法的流程示意图;
图4为本申请实施例提供了另一种人名识别方法的流程示意图;
图5为本申请实施例提供的一种终端的结构示意图;
图6为本申请实施例提供了一种人名识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子装置可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子装置。
本申请实施例中会使用到如下缩略语:CNN、CRF、BLSTM,其中,CNN(ConvolutionalNeural Networks)为卷积神经网络模型;BLSTM(Bi-directional Long Short TermMemory Network)为双向长短时记忆神经网络模型;CRF(conditional random field)为条件随机场模型。
为了更好的理解本申请实施例提供的一种人名识别方法,下面首先对应用人名能识别方法的人名确定模型进行简要介绍。请参阅图1,图1为本申请实施例提供了一种预设的人名确定模型的架构示意图。如图1所示,人名识别模型包括标注网络和评分网络,评分模型也可以称为重排序网络模型,标注网络包括:CRF模型、CNN+CRF模型、BLSTM+CRF模型、基于注意力机制的BLSTM模型,其中,首先对获取输入文本的分词文本和分字文本,然后获取分词文本中每个分词的词向量,以及获取分字文本中每个字的字向量,然后将词向量和字向量输入到CRF模型、CNN+CRF模型、BLSTM+CRF模型、基于注意力机制的BLSTM模型中,对每个模型的输出结果进行处理,最后输入到重排序网络模型中,从排序网络模型输出第一目标人名,因此,因此相对于现有方案中,采用规则或统计学方法进行人名识别的方式,能够一定程度上提升人名识别时的准确性。
请参阅图2A,图2A为本申请实施例提供了一种人名识别方法的流程示意图。如图2A所示,人名识别方法包括步骤201-203,具体如下:
201、获取输入文本的分词文本和分字文本。
其中,获取输入文本的分词文本和分字文本的方法可以为:采用结巴分词的方法获取到分词文本和分字文本,当然,也可以通过标注法和规则结合的方式获取到分词文本和分字文本,此处仅为举例说明,不作具体限定。
202、获取分词文本中每个词组的词向量,以及获取分字文本中的每个字的字向量。
其中,获取分词文本中的词向量和分字文本中的字向量的方法可以为:先根据分词结果使用预设工具进行词向量和字向量进行生成,从而得到词向量和字向量,预设工具可以为word2vec等。
203、根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名。
其中,预设的人名确定模型可以包括N个标注模型和评分网络,标注模型例如可以包括:CRF模型、CNN+CRF模型、BLSTM+CRF模型、基于注意力机制的BLSTM模型等,上述模型为人名识别时所使用的网络模型,为通过样本数据训练得到的模型,样本数据可以为人工标注样本等。评分网络可以包括M个子评分模型和全连接层,全连接层与M个子评分模型全连接,子评分模型例如可以包括:CNN模型、BLSTM模型和基于注意力机制的BLSTM模型等,上述每个子评分模型均包括一个隐藏层,其隐藏层的输出数据作为全连接层的输入数据。
可选的,将每个词的词向量和每个字的字向量,输入到预设的人名确定模型中,根据该预设的人名确定模型进行计算,最终得到输入文本中的第一目标人名。该第一目标人名可能是该输入文本中存在的人名,也可以是误识别的人名,因此还可以对其进行校正,校正方法可以为通过校正字典对人名校正,从而得到该输入文本中的人名。
在一个可能的实施例中,一种可能的根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名的方法包括步骤A1-A5,具体如下:
A1、根据每个词组的词向量和每个字的字向量,采用N个标注模型对输入文本进行标注,得到与N个标注模型中的每个标注模型相对应的目标人名标注结果,目标人名标注结果为分字文本中的每个字的人名标注结果;
A2、将输入文本按照目标人名标注结果进行PER替换,确定出与N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
A3、采用评分网络,确定出N个参考文本中的每个参考文本的参考评分值;
A4、获取目标文本,目标文本为N个参考文本中参考评分值最高的文本;
A5、将目标文本中的人名确定为第一目标人名。
其中,本申请实施例中的N个标注模型例如可以是:CRF模型、CNN+CRF模型、BLSTM+CRF模型和基于注意力机制的BLSTM模型。对输入文本进行标注的标注方法可以为:将人名的第一个字标注为B、最后一个字为E、中间的字为I、其他字为O。
可选的,采用CRF模型进行标注时,具体可以为:使用多种人工设置的特征进行识别,包括unigram、bigram、trigram、词性特征、偏旁特征、词频特征等,获取到每个字的B/I/O/E标注结果。CNN+CRF模型进行标注时,具体可以为:模型是将每个字的识别结果看做一个分类问题,将每个字的字向量和包括这个字的词的向量进行拼接作为网络的输入,通过卷积层和池化层获取每个字在整个句子的局部信息特征,然后通过CRF进行序列标注得到每个字的标注结果。其中,字向量与词向量进行拼接时,可以采用顺序拼接的方式进行结合,后续的拼接或结合方式均为顺序拼接的方式。
可选的,BLSTM+CRF模型进行标注时,具体可以为:是基于字向量与词向量相结合作为输入,然后通过BLSTM+CRF的方法得到每个字的标注结果。请参阅图2B,图2B为本申请实施例提供了一种BLSTM+CRF模型的结构示意图。如图2B所示,CRF层中的O、B、E分别表示其它字、人名的第一个字、人名中间的字,c1、c2、c3分别为参考文本,r1、r2、r3分别为后向LSTM的处理元,l1、l2、l3分别为前向LSTM的处理元,将BLSTM的输出结果输入到CRF模型,从而得到标注结果。
可选的,基于注意力机制的BLSTM模型进行标注时,具体可以为:基于注意力机制的BLSTM模型将字向量作为输入到BLSTM层,将前向LSTM和后向LSTM的输出作为attention层的输入,即通过注意力机制调控由前向LSTM和后向LSTM学习到的字符序列信息间的整合。然后通过CRF模型获得到每个字的标注结果。
可选的,对输入文本按照目标人名标注结果进行PER替换的方法可以为:将输入文本中标注为人名的子替换为PER,当然也可以替换为其它词或字,此处仅为举例说明,不作具体限定。
可选的,采用评分网络,确定出N个参考文本中每个参考文本的参考评分值时,主要通过评分模型和全连接层进行评分计算,最后得到参考评分值。
本示例中,通过根据词向量和字向量对输入文本进行标注,得到每个标注模型对应的标注结果,根据标注结果对输入文本进行PER替换,得到参考文本,采用评分网络从参考文本中确定出目标文本,将目标文本中的人名确定为第一目标人名,因此,能够通过标注和评分模型结合的方式,确定出第一目标人名,从而能够一定程度上提升目标第一目标人名获取时的准确性。
在一个可能的实施例中,一种可能的采用评分模型,确定出N个参考文本中的每个参考文本的参考评分值的方法包括步骤B1-B5,具体如下:
B1、根据M个子评分模型,确定出与目标参考文本相对应的M个参考结果,目标参考文本为N个参考文本中的任一个;
B2、将M个参考结果进行拼接,得到目标结果;
B3、根据全连接层,确定出目标结果对应的评分值;
B4、根据参考文本对应的概率值和目标结果对应的评分值,确定出目标参考文本的参考评分值;
B5、重复执行上述确定目标参考文本的参考评分值的方法,直至确定出N个参考文本中每个参考文本的参考评分值。
其中,本实施例中以如下子评分模型为例进行说明:CNN模型、BLSTM模型和基于注意力机制的BLSTM模型。可以将N个参考文本设置标识,标识可以为c1,c2,…,cN,共N个。
可选的,根据M个子评分模型,确定出与目标参考文本相对应的M个参考结果可以理解为,通过上述三个字评分模型,分别对目标参考文本进行计算,得到对应模型的参考结果,该参考结果为上述三个模型的隐藏层的输出结果。
可选的,对M个参考结果进行拼接的方法可以采用顺序拼接的方法进行拼接,得到目标结果。
可选的,根据全连接层进行计算,得到的输出结果即为目标结果对应的评分值。其中,全连接层可以的运算逻辑可以为:通过如下公式进行运算,得到评分值:
s(ci)=σ(Wh(ci)+b),
其中,s(ci)为目标结果对应的评分值,σ激活函数,W为神经网络的权值,b为偏移量,h(ci)目标结果,ci为目标参考文本的标识,i为1至N之间的任意整数。
可选的,目标参考文本对应的概率值可以理解为:该参考文本在N个参考文本中出现的概率值。一种可能的根据参考文本对应的概率值和目标结果对应的评分值,确定出目标参考文本的参考评分值的方法为:
通过如下公式确定出参考评分值:
其中,为参考评分值,s(ci)为目标结果对应的评分值,α为调节因子,p(ci)目标参考文本对应的概率值。α可以通过经验值或历史数据设定。
本示例中,通过M个子评分模型对目标参考文本进行计算得到参考结果,将参考价结果进行拼接后输入到全连接层,全连接层确定出目标结果对应的评分值,最后根据该评分值和目标参考文本的概率值确定出参考评分值,从而通过对评分值进行修正,能够一定程度上提升参考评分值获取时的准确性。
在一个可能的实施例中,本申请实施例中还可以训练评分网络,对评分网络进行训练时,可以采用如下目标函数进行训练得到:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
在一个可能的实施例中,本申请实施例还可以对第一目标人名进行校正,一种可能的校正方法包括步骤C1-C2,具体如下:
C1、通过校正字典获取输入文本的第二目标人名;
C2、根据第一目标人名和第二目标人名,确定出输入文本中的人名。
其中,校正字典为通过经验值或历史数据设置的人名字典。通过校正字典获取输入文本的第二目标人名的方法可以为:将校正字典中的人名与输入文本进行匹配,得到将输入文本中与校正字典中相同的人名作为第二目标人名。
可选的,校正字典可以有多个校正字典,不同的校正字典的优先级不同,例如,校正字典的优先级高于预设人名确认模型的优先级时,则将第二目标人名作为输入文本中的人名,校正字典的优先级低于预设的人名确认模型的优先级时,将第一目标人名作为输入文本中的人名。
本示例中,通过校正字典获取的第二目标人名对第一目标人名进行干预,从而可以一定程度上提升输入文本中的人名确定时的准确性。
请参阅图3,图3为本申请实施例提供了另一种人名识别方法的流程示意图。如图3所示,人名识别方法包括步骤301-307,具体如下:
301、获取输入文本的分词文本和分字文本;
302、获取分词文本中每个词组的词向量,以及获取分字文本中的每个字的字向量;
可选的,预设的人名确定模型包括至N个标注模型和评分网络,N为正整数。
303、根据每个词组的词向量和每个字的字向量,采用N个标注模型对输入文本进行标注,得到与N个标注模型中的每个标注模型相对应的目标人名标注结果,目标人名标注结果为分字文本中的每个字的人名标注结果;
304、将输入文本按照目标人名标注结果进行PER替换,确定出与N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
305、采用评分网络,确定出N个参考文本中的每个参考文本的参考评分值;
306、获取目标文本,目标文本为N个参考文本中参考评分值最高的文本;
307、将目标文本中的人名确定为第一目标人名。
本示例中,通过根据词向量和字向量对输入文本进行标注,得到每个标注模型对应的标注结果,根据标注结果对输入文本进行PER替换,得到参考文本,采用评分网络从参考文本中确定出目标文本,将目标文本中的人名确定为第一目标人名,因此,能够通过标注和评分模型结合的方式,确定出第一目标人名,从而能够一定程度上提升目标第一目标人名获取时的准确性。
请参阅图4,图4为本申请实施例提供了另一种人名识别方法的流程示意图。如图4所示,人名识别方法包括步骤401-405,具体如下:
401、获取输入文本的分词文本和分字文本;
402、获取分词文本中每个词组的词向量,以及获取分字文本中的每个字的字向量;
403、根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名;
404、通过校正字典获取输入文本的第二目标人名;
405、根据第一目标人名和第二目标人名,确定出输入文本中的人名。
本示例中,通过校正字典获取的第二目标人名对第一目标人名进行干预,从而可以一定程度上提升输入文本中的人名确定时的准确性。
与上述实施例一致的,请参阅图5,图5为本申请实施例提供的一种终端的结构示意图,如图所示,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,上述程序包括用于执行以下步骤的指令;
获取输入文本的分词文本和分字文本;
获取分词文本中每个词组的词向量,以及获取分字文本中的每个字的字向量;
根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,终端为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图6,图6为本申请实施例提供了一种人名识别装置的结构示意图。如图6所示,装置包括第一获取单元601、第二获取单元602和确定单元603,其中,
第一获取单元601,用于获取输入文本的分词文本和分字文本;
第二获取单元602,用于获取分词文本中每个词组的词向量,以及获取分字文本中的每个字的字向量;
确定单元603,用于根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名。
可选的,预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,在根据每个词组的词向量和每个字的字向量,采用预设的人名确定模型,确定出输入文本中的第一目标人名方面,确定单元603用于:
根据每个词组的词向量和每个字的字向量,采用N个标注模型对输入文本进行标注,得到与N个标注模型中的每个标注模型相对应的目标人名标注结果,目标人名标注结果为分字文本中的每个字的人名标注结果;
将输入文本按照目标人名标注结果进行PER替换,确定出与N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
采用评分网络,确定出N个参考文本中的每个参考文本的参考评分值;
获取目标文本,目标文本为N个参考文本中参考评分值最高的文本;
将目标文本中的人名确定为第一目标人名。
可选的,评分网络包括M个子评分模型和全连接层,M为正整数,在采用评分模型,确定出N个参考文本中的每个参考文本的参考评分值方面,确定单元603用于:
根据M个子评分模型,确定出与目标参考文本相对应的M个参考结果,目标参考文本为N个参考文本中的任一个;
将M个参考结果进行拼接,得到目标结果;
根据全连接层,确定出目标结果对应的评分值;
根据参考文本对应的概率值和目标结果对应的评分值,确定出目标参考文本的参考评分值;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出N个参考文本中每个参考文本的参考评分值。
可选的,装置还用于:
通过目标函数训练得到评分网络;其中,目标函数为:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
可选的,方法还包括:
通过校正字典获取输入文本的第二目标人名;
根据第一目标人名和第二目标人名,确定出输入文本中的人名。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种人名识别方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种人名识别方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种人名识别方法,其特征在于,所述方法包括:
获取输入文本的分词文本和分字文本;
获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;
根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名。
2.根据权利要求1所述的方法,其特征在于,所述预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,所述根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名,包括:
根据每个词组的词向量和所述每个字的字向量,采用所述N个标注模型对所述输入文本进行标注,得到与所述N个标注模型中的每个标注模型相对应的目标人名标注结果,所述目标人名标注结果为所述分字文本中的每个字的人名标注结果;
将所述输入文本按照所述目标人名标注结果进行PER替换,确定出与所述N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
采用所述评分网络,确定出所述N个参考文本中的每个参考文本的参考评分值;
获取目标文本,所述目标文本为所述N个参考文本中参考评分值最高的文本;
将所述目标文本中的人名确定为所述第一目标人名。
3.根据权利要求2所述的方法,其特征在于,所述评分网络包括M个子评分模型和全连接层,M为正整数,所述采用所述评分模型,确定出所述N个参考文本中的每个参考文本的参考评分值,包括:
根据所述M个子评分模型,确定出与目标参考文本相对应的M个参考结果,所述目标参考文本为所述N个参考文本中的任一个;
将所述M个参考结果进行拼接,得到目标结果;
根据所述全连接层,确定出所述目标结果对应的评分值;
根据所述参考文本对应的概率值和所述目标结果对应的评分值,确定出所述目标参考文本的参考评分值;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出所述N个参考文本中每个参考文本的参考评分值。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
通过目标函数训练得到所述评分网络;其中,所述目标函数为:
其中,θ为神经网络的参数集合,D为训练集,γ为正则化因子,yi、ci为训练集中的元素,s(ci)为参考评分值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
通过校正字典获取所述输入文本的第二目标人名;
根据所述第一目标人名和所述第二目标人名,确定出所述输入文本中的人名。
6.一种人名识别装置,其特征在于,所述装置包括第一获取单元、第二获取单元和确定单元,其中,
所述第一获取单元,用于获取输入文本的分词文本和分字文本;
所述第二获取单元,用于获取所述分词文本中每个词组的词向量,以及获取所述分字文本中的每个字的字向量;
所述确定单元,用于根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名。
7.根据权利要求6所述的装置,其特征在于,所述预设的人名确定模型包括至N个标注模型和评分网络,N为正整数,在所述根据所述每个词组的词向量和所述每个字的字向量,采用预设的人名确定模型,确定出所述输入文本中的第一目标人名方面,所述确定单元用于:
根据每个词组的词向量和所述每个字的字向量,采用所述N个标注模型对所述输入文本进行标注,得到与所述N个标注模型中的每个标注模型相对应的目标人名标注结果,所述目标人名标注结果为所述分字文本中的每个字的人名标注结果;
将所述输入文本按照所述目标人名标注结果进行PER替换,确定出与所述N个标注模型中的每个标注模型相对应的文本,得到N个参考文本;
采用所述评分网络,确定出所述N个参考文本中的每个参考文本的参考评分值;
获取目标文本,所述目标文本为所述N个参考文本中参考评分值最高的文本;
将所述目标文本中的人名确定为所述第一目标人名。
8.根据权利要求7所述的装置,其特征在于,所述评分网络包括M个子评分模型和全连接层,M为正整数,在所述采用所述评分模型,确定出所述N个参考文本中的每个参考文本的参考评分值方面,所述确定单元用于:
根据所述M个子评分模型,确定出与目标参考文本相对应的M个参考结果,所述目标参考文本为所述N个参考文本中的任一个;
将所述M个参考结果进行拼接,得到目标结果;
根据所述全连接层,确定出所述目标结果对应的评分值;
根据所述参考文本对应的概率值和所述目标结果对应的评分值,确定出所述目标参考文本的参考评分值;
重复执行上述确定目标参考文本的参考评分值的方法,直至确定出所述N个参考文本中每个参考文本的参考评分值。
9.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627361.1A CN110489727B (zh) | 2019-07-12 | 2019-07-12 | 人名识别方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627361.1A CN110489727B (zh) | 2019-07-12 | 2019-07-12 | 人名识别方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489727A true CN110489727A (zh) | 2019-11-22 |
CN110489727B CN110489727B (zh) | 2023-07-07 |
Family
ID=68546026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627361.1A Active CN110489727B (zh) | 2019-07-12 | 2019-07-12 | 人名识别方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489727B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475619A (zh) * | 2020-03-31 | 2020-07-31 | 北京三快在线科技有限公司 | 文本信息修正方法、装置、电子设备及存储介质 |
CN111711618A (zh) * | 2020-06-02 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 一种风险地址识别方法、装置、设备和存储介质 |
CN112380855A (zh) * | 2020-11-20 | 2021-02-19 | 北京百度网讯科技有限公司 | 确定语句通顺度的方法、确定概率预测模型的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030216913A1 (en) * | 2002-05-14 | 2003-11-20 | Microsoft Corporation | Natural input recognition tool |
CN103020185A (zh) * | 2012-11-30 | 2013-04-03 | 哈尔滨工业大学深圳研究生院 | 一种多序列标注问题的联合识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
-
2019
- 2019-07-12 CN CN201910627361.1A patent/CN110489727B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030216913A1 (en) * | 2002-05-14 | 2003-11-20 | Microsoft Corporation | Natural input recognition tool |
CN103020185A (zh) * | 2012-11-30 | 2013-04-03 | 哈尔滨工业大学深圳研究生院 | 一种多序列标注问题的联合识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475619A (zh) * | 2020-03-31 | 2020-07-31 | 北京三快在线科技有限公司 | 文本信息修正方法、装置、电子设备及存储介质 |
CN111711618A (zh) * | 2020-06-02 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 一种风险地址识别方法、装置、设备和存储介质 |
CN112380855A (zh) * | 2020-11-20 | 2021-02-19 | 北京百度网讯科技有限公司 | 确定语句通顺度的方法、确定概率预测模型的方法和装置 |
CN112380855B (zh) * | 2020-11-20 | 2024-03-08 | 北京百度网讯科技有限公司 | 确定语句通顺度的方法、确定概率预测模型的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110489727B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110674629B (zh) | 标点符号标注模型及其训练方法、设备、存储介质 | |
CN107797985B (zh) | 建立同义鉴别模型以及鉴别同义文本的方法、装置 | |
CN111310440B (zh) | 文本的纠错方法、装置和*** | |
CN111309915A (zh) | 联合学习的自然语言训练方法、***、设备及存储介质 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN107980130A (zh) | 自动回答方法、装置、存储介质及电子设备 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN112329476B (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN104933158B (zh) | 数学问题求解模型的训练方法和装置、推理方法和装置 | |
CN110765785A (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN110705264B (zh) | 标点符号的校正方法及设备、介质 | |
CN110489727A (zh) | 人名识别方法及相关装置 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN110795938A (zh) | 文本序列分词方法、装置及存储介质 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111160026A (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN114281996A (zh) | 长文本分类方法、装置、设备及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |