CN105095322A - 人名单元词典扩充方法、人名语言识别方法和装置 - Google Patents

人名单元词典扩充方法、人名语言识别方法和装置 Download PDF

Info

Publication number
CN105095322A
CN105095322A CN201410221701.8A CN201410221701A CN105095322A CN 105095322 A CN105095322 A CN 105095322A CN 201410221701 A CN201410221701 A CN 201410221701A CN 105095322 A CN105095322 A CN 105095322A
Authority
CN
China
Prior art keywords
name
unit
weight
dictionary
component dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410221701.8A
Other languages
English (en)
Inventor
杨铭
张姝
孟遥
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410221701.8A priority Critical patent/CN105095322A/zh
Priority to JP2015102946A priority patent/JP2015225662A/ja
Publication of CN105095322A publication Critical patent/CN105095322A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

公开了人名单元词典扩充方法、人名语言识别方法和装置,该人名单元词典扩充方法包括:计算各个词项在预定多个语言的人名单元词典中的初始权重;将人名划分为人名单元,将划分的人名单元与各个词典中的词项进行匹配以确定匹配人名单元和未匹配人名单元;根据匹配人名单元在各个词典中的权重来确定包含匹配人名单元的人名在各个词典中的权重;根据包含未匹配人名单元的所有人名在各个词典中的权重计算未匹配人名单元在各个词典中的权重,并将未匹配人名单元添加到词典中;根据包含匹配人名单元的所有人名在各个词典中的权重更新匹配人名单元在各个词典中的权重;重复上述处理直至满足预定条件,从而得到带权重标注的人名单元词典。

Description

人名单元词典扩充方法、人名语言识别方法和装置
技术领域
本公开涉及信息处理技术领域,更具体地,涉及一种人名单元词典扩充方法、人名语言识别方法和装置。
背景技术
人名语言识别已被广泛应用于文本处理、机器翻译等自然语言处理领域,其能够有效地提高处理性能。一般地,人名语言识别可以认为是分类问题,而分类性能受到训练预料和特征选择的影响。因此,对于人名这样的短文本如何获得大量覆盖率高的训练语料以及实现有效的特征提取是本领域的研究重点。
具体来说,带有人名国别标注的人名训练语料需要投入大量的资源,并且使得这样的训练语料覆盖各个语言的所有可能也是困难的。因此,如何解决在没有足够训练语料的情况下进行人名语言识别对本领域技术人员来说是一项挑战。另一方面,由于人名是短文本,因此与普通文本相比,人名可供使用的特征较少,使得人名的语言识别与普通文本的语言识别相比来说难度更大。因此,如何构建分类器训练特征也是一大难题。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上情形,本公开的目的是提供一种能够在保证性能的前提下减少对训练语料的要求的人名单元词典扩充方法、人名语言识别方法和人名语言识别装置。
根据本公开的一方面,提供了一种人名单元词典扩充方法,其可包括:词项初始权重计算步骤,基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重;人名单元匹配步骤,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元;人名权重计算步骤,根据匹配人名单元在预定多个语言的人名单元词典中的权重来确定包含匹配人名单元的人名在各个人名单元词典中的权重;未匹配人名单元处理步骤,根据包含未匹配人名单元的所有人名在各个人名单元词典中的权重,计算未匹配人名单元在各个人名单元词典中的权重,并将未匹配人名单元作为词项添加到包含未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中;匹配人名单元权重更新步骤,根据包含匹配人名单元的所有人名在各个人名单元词典中的权重,更新匹配人名单元在各个人名单元词典中的权重;以及重复人名单元匹配步骤、人名权重计算步骤、未匹配人名单元处理步骤和匹配人名单元权重更新步骤中的处理,直至预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值为止,从而得到所有词项均具有权重标注的人名单元词典。
根据本公开的另一方面,还提供了一种人名语言识别方法,其可包括:人名划分步骤,将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数;n元子字符串权重计算步骤,根据包含各个n元子字符串的所有词项在根据本公开的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及识别步骤,根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别人名所属的语言。
根据本公开的另一方面,还提供了一种人名语言识别装置,其可包括:人名划分单元,被配置成将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数;n元子字符串权重计算单元,被配置成根据包含各个n元子字符串的所有词项在根据本公开的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及识别单元,被配置成根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别人名所属的语言。
根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:词项初始权重计算步骤,基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重;人名单元匹配步骤,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元;人名权重计算步骤,根据匹配人名单元在预定多个语言的人名单元词典中的权重来确定包含匹配人名单元的人名在各个人名单元词典中的权重;未匹配人名单元处理步骤,根据包含未匹配人名单元的所有人名在各个人名单元词典中的权重,计算未匹配人名单元在各个人名单元词典中的权重,并将未匹配人名单元作为词项添加到包含未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中;匹配人名单元权重更新步骤,根据包含匹配人名单元的所有人名在各个人名单元词典中的权重,更新匹配人名单元在各个人名单元词典中的权重;以及重复人名单元匹配步骤、人名权重计算步骤、未匹配人名单元处理步骤和匹配人名单元权重更新步骤中的处理,直至预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值为止,从而得到所有词项均具有权重标注的人名单元词典。
根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:词项初始权重计算步骤,基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重;人名单元匹配步骤,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元;人名权重计算步骤,根据匹配人名单元在预定多个语言的人名单元词典中的权重来确定包含匹配人名单元的人名在各个人名单元词典中的权重;未匹配人名单元处理步骤,根据包含未匹配人名单元的所有人名在各个人名单元词典中的权重,计算未匹配人名单元在各个人名单元词典中的权重,并将未匹配人名单元作为词项添加到包含未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中;匹配人名单元权重更新步骤,根据包含匹配人名单元的所有人名在各个人名单元词典中的权重,更新匹配人名单元在各个人名单元词典中的权重;以及重复人名单元匹配步骤、人名权重计算步骤、未匹配人名单元处理步骤和匹配人名单元权重更新步骤中的处理,直至预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值为止,从而得到所有词项均具有权重标注的人名单元词典。
根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:人名划分步骤,将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数;n元子字符串权重计算步骤,根据包含各个n元子字符串的所有词项在根据本公开的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及识别步骤,根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别人名所属的语言。
根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:人名划分步骤,将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数;n元子字符串权重计算步骤,根据包含各个n元子字符串的所有词项在根据本公开的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及识别步骤,根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别人名所属的语言。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的人名单元词典扩充方法的过程示例的流程图;
图2是示出根据本公开的实施例的人名单元词典扩充装置的功能配置示例的框图;
图3是示出根据本公开的实施例的人名语言识别方法的过程示例的流程图;
图4是示出根据本公开的实施例的人名语言识别装置的功能配置示例的框图;以及
图5是作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与***及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
接下来,将参照图1至图5描述本公开的实施例。
首先,将参照图1来描述根据本公开的实施例的人名单元词典扩充方法的过程示例。图1是示出根据本公开的实施例的人名单元词典扩充方法的过程示例的流程图。
如图1所示,根据本公开的实施例的人名单元词典扩充方法包括词项初始权重计算步骤S102、人名单元匹配步骤S104、人名权重计算步骤S106、未匹配人名单元处理步骤S108和匹配人名单元权重更新步骤S110。
首先,在词项初始权重计算步骤S102中,基于每个词项所出现的人名单元词典的数量来计算各个词项在预定多个语言的人名单元词典中的初始权重。
应理解,多个语言的人名单元词典中的词项是人名单元(即,人名的分量,如姓、名等)。执行词项初始权重计算步骤是为了消除歧义性。这是由于一个词项可能同时出现在多个人名单元词典中,并且由于一个人名通常包括多个人名单元,而这些人名单元也可能存在于不同的人名单元词典中,因此这对于人名语言识别产生了歧义性。
具体地,作为示例,在词项初始权重计算步骤S102中,假设一个词项同时存在于三个人名单元词典中,则该词项在这三个人名单元词典中的初始权重分别为1/3。
接下来,在人名单元匹配步骤S104中,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元。应指出,人名单元的划分方法为本领域公知的技术,在此不再赘述。
然后,在人名权重计算步骤S106中,根据匹配人名单元在预定多个语言的人名单元词典中的权重来确定包含匹配人名单元的人名在各个人名单元词典中的权重。
具体地,假设预定多个语言的人名单元词典为集合Dk={dk 1,dk 2,dk 3,dk j,...,dk n},其中,dk i表示第i个人名单元词典,k表示第k次迭代,并且n表示人名单元词典的数量。此外,假设每个人名单元词典被定义为其中,Wi,j表示第i个人名单元词典中的第j个词项,k表示第k次迭代,并且LEN(di)表示词典di的长度(即,所包含的词项的数量)。假设作为训练样本的人名为pm={N1,...,Nt},其中,pm表示训练样本中的第m个人名,并且Nt表示人名pm中的第t个人名单元。
这里,作为示例,将人名pm在所有人名单元词典中的权重分布定义为矢量 vector k ( p m ) = < v k d 1 , v k d 2 , v k d 3 , . . . , v k d j , . . . , v k d n > , 该矢量的每个分量即为人名pm在每个人名单元词典中的权重,并且人名pm在第k次迭代时在词典dj中的权重被定义为其中,LEN(pm)表示人名pm的长度(即,所包含的人名单元的数量),这里的人名单元N为与词典dj中的词项匹配的人名单元(即,),并且在初次迭代时,weight(N)即为在词项初始权重计算步骤S102中算出的与人名单元N匹配的词项的初始权重。
接下来,在未匹配人名单元处理步骤S108中,根据包含未匹配人名单元的所有人名在各个人名单元词典中的权重,计算未匹配人名单元在各个人名单元词典中的权重,并将未匹配人名单元作为词项添加到包含未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中。
具体地,作为示例,假设未匹配人名单元为“kuai”,其包含在两个人名p12和p43中,则 vector k + 1 ( kuai &prime; &prime; &prime; &prime; ) = vector k ( p 12 ) + vector k ( p 43 ) len ( { p 12 , p 43 } ) ,其中,vectork+1(″kuai″)表示由未匹配人名单元“kuai”在各个人名单元词典中的权重构成的矢量,其可由包含未匹配人名单元“kuai”的人名p12和p43在所有人名单元词典中的权重分布vectork(p12)和vectork(p43)来确定。在算出了未匹配人名单元“kuai”的权重之后,将其作为词项添加到人名p12和p43中包含的匹配人名单元所在的人名单元词典中。例如,假设人名p12包含匹配人名单元“li”,并且人名p43包含匹配人名单元“song”,则将未匹配人名单元“kuai”添加到“li”和“song”所在的人名单元词典中。
可以看出,通过将同时出现在一个人名中的人名单元都添加到同一人名单元词典中,能够在后续进行人名识别时更准确地识别该人名所属的语言。
接下来,在匹配人名单元权重更新步骤S110中,根据包含匹配人名单元的所有人名在各个人名单元词典中的权重,更新匹配人名单元在各个人名单元词典中的权重。
具体地,假设匹配人名单元为“lin”,其分别包含在三个人名p1234、p43567和p89352中,则人名单元“lin”的更新后的权重为 vector k + 1 ( lin &prime; &prime; &prime; &prime; ) = vector k ( p 1234 ) + vector k ( p 43567 ) + vector k ( p 89352 ) len ( { p 1234 , p 43567 , p 89352 } ) + vector k ( lin &prime; &prime; &prime; &prime; ) 2 . 例如,假设vectork+1(″lin″)=<0.344,0.112,0.092,...>,则将“lin”在词典1中的权重更新为0.344,在词典2中的权重更新为0.112,并且在词典3中的权重更新为0.092。
应理解,尽管以上给出了关于权重计算的具体示例公式,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对上述公式进行改变,并且这些变型应认为落入本公开的范围内。
接下来,重复执行上述人名单元匹配步骤、人名权重计算步骤、未匹配人名单元处理步骤和匹配人名单元权重更新步骤中的处理,直至预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值或者重复了预定次数为止,从而得到其中的所有词项均具有权重标注的人名单元词典。
可以看出,根据本公开的实施例的人名单元词典扩充方法,可以在有限的训练语料的情况下来构建其中的各个词项均具有权重标注的人名单元词典,以用于更准确地识别人名所属的语言。
此外,优选地,根据本公开的实施例的人名单元词典扩充方法还可包括归一化步骤(如虚线框所示),在归一化步骤中,可以对在人名权重步骤中算出的人名在各个人名单元词典中的权重进行归一化。作为示例,可以如下进行归一化: norm ( vector k ( p m ) ) = < norm ( v k d 1 ) , norm ( v k d 2 ) , . . . , norm ( v k d n ) > , 其中,应理解,这种归一化算法仅为示例而非限制,并且可以采用其它算法对人名的权重进行归一化。此外,还应理解,该归一化步骤是可选的。
优选地,在未匹配人名单元处理步骤和匹配人名单元权重更新步骤中,可利用归一化之后的人名的权重进行相应计算。
应理解,以上参照图1描述的根据本公开的实施例的人名单元词典扩充方法的处理过程仅为示例而非限制,并且本领域技术人员可以根据本公开的原理对上述处理过程进行修改、组合等。
接下来,将参照图2描述根据本公开的实施例的人名单元词典扩充装置的功能配置示例。图2是示出根据本公开的实施例的人名单元词典扩充装置的功能配置示例的框图。
如图2所示,根据本公开的实施例的人名单元词典扩充装置200可包括词项初始权重计算单元202、人名单元匹配单元204、人名权重计算单元206、未匹配人名单元处理单元208、匹配人名单元权重更新步骤210和控制单元212。
词项初始权重计算单元202可被配置成基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重。
人名单元匹配单元204可被配置成将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元。
人名权重计算单元206可被配置成根据匹配人名单元在预定多个语言的人名单元词典中的权重来确定包含匹配人名单元的人名在各个人名单元词典中的权重。
未匹配人名单元处理单元208可被配置成根据包含未匹配人名单元的所有人名在各个人名单元词典中的权重,计算未匹配人名单元在各个人名单元词典中的权重,并将未匹配人名单元作为词项添加到包含未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中。
匹配人名单元权重更新单元210可被配置成根据包含匹配人名单元的所有人名在各个人名单元词典中的权重,更新匹配人名单元在各个人名单元词典中的权重。
控制单元212可被配置成控制人名单元匹配单元204、人名权重计算单元206、未匹配人名单元处理单元208和匹配人名单元权重更新单元210重复执行各自的处理,直至预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值或者重复了预定次数为止,从而得到所有词项均具有权重标注的人名单元词典。
此外,优选地,该人名单元词典扩充装置200还可包括归一化单元(如虚线框所示),该归一化单元可被配置成对人名权重计算单元算出的人名在各个人名单元词典中的权重进行归一化,并且未匹配人名单元处理单元和匹配人名单元权重更新单元可利用归一化后的人名的权重进行相应计算。
应理解,参照图2描述的人名单元词典扩充装置是与上述人名单元词典扩充方法对应的装置实施例,因此对于在装置实施例中未详细描述的内容,可参见以上方法实施例的相应位置的描述,在此不再赘述。
此外,应指出,尽管以上参照图2描述了根据本公开的实施例的人名单元词典扩充装置的功能配置的示例,但是这仅是示例而非限制,并且本领域技术人员可以想到根据实际需要而对以上实施例中描述的功能模块进行组合和/或省略和/或添加一个或多个功能模块,这样的变型示例应认为落入本公开的范围内。
接下来,将参照图3描述根据本公开的实施例的人名语言识别方法的过程示例。具体地,将描述如何利用如上所述构建的其中的词项带权重标注的人名单元词典来执行人名语言识别处理。
图3是示出根据本公开的实施例的人名语言识别方法的过程示例的流程图。
如图3所示,根据本公开的实施例的人名语言识别方法包括人名划分步骤S302、n元子字符串权重计算步骤S304以及识别步骤S306。
首先,在人名划分步骤S302中,将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数。
具体地,在人名划分步骤S302中,构建英文人名所有可能出现的n元子字符串(从空格和26个英文字母中进行组合)。此外,优选地,对于人名的开始和结束处的字符,可分别在其前方和后方添加特殊字符(例如,“_”)来进行划分。这里,以三元子字符串(即,n=3)为例,假设对于人名“linshuhao”,所划分的三元子字符串包括“_li”、“lin”、......、“ao_”。
接下来,在n元子字符串权重计算步骤S304中,根据包含各个n元子字符串的所有词项在如上所述的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重。
具体地,例如,假设在词典dj中,带权重标准的人名单元如下:li:0.8;lian:0.9;liang:1.0。因此,对于三元子字符串“_li”,其在词典dj中的权重可以被计算为0.8+0.9+1.0=2.7。类似地,可以计算该人名包括的所有n元子字符串在各个人名单元词典中的权重。应理解,该权重计算方法仅为示例而非限制,并且本领域技术人员可以根据需要而采用其它方式来确定n元子字符串的权重。
然后,在识别步骤S306中,根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别人名所属的语言。具体地,作为示例,如果该人名所包含的所有n元子字符串在词典dj中的权重之和最大,则可认为该人名属于词典dj所代表的语言。
此外,优选地,根据本公开的实施例的人名语言识别方法300还可包括排序步骤S308。
在排序步骤S308中,根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,并且在识别步骤S306中可根据人名中的所有n元子字符串在各个人名单元词典中的排序来识别该人名所属的语言。
优选地,在排序步骤S308中,可根据n元子字符串在各个人名单元词典中的权重的降序来确定n元子字符串在各个人名单元词典中的排序。具体地,以下表1给出了根据权重的降序来确定排序的示例。
表1
排序 词典D1 词典D2 词典D3 词典D4
1 _li:9.3 in_:10.2 om_:9.9 mi_:3.4
2 lin:4.5 _li:7.2 imi:0.4 in_:2.2
3 in_:2.1 lin:3.5 lin:0.2 lin:1.0
优选地,在识别步骤S306中,计算人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为人名所属的语言。
具体地,仍以人名“linshuhao”为例,对于词典D1至D4,该人名在各个词典中的排序之和如下:
Distance(D1,“linshuhao”)=Order_D1(_li)+Order_D1(lin)+...Order_D1(ao_)
Distance(D2,“linshuhao”)=Order_D2(_li)+Order_D2(lin)+...Order_D2(ao_)
Distance(D3,“linshuhao”)=Order_D3(_li)+Order_D3(lin)+...Order_D3(ao_)
Distance(D4,“linshuhao”)=Order_D4(_li)+Order_D4(lin)+...Order_D4(ao_)
在该示例中,由于按照权重的降序进行排序,因此,人名“linshuhao”所属的语言应该为其中的排序之和最小的词典所表示的语言。即,Language=DxifDistance(Dx,″linshuhao″)=Min(Distance(D1,"linshuhao″),Distance(D2,″linshuhao″),Distance(D3,″linshuhao″),Distance(D4,″linshuhao"))。
替选地,Distance的求法可改为求在各个词典中人名“linshuhao”中包括的所有子字符串的排序的均值,并且将均值最小的词典表示的语言作为人名语言识别结果。或者,可计算在各个词典中人名中的所有子字符串的归一化权重值的乘积,并且将乘积值最大的词典表示的语言作为人名语言识别结果。
可以看出,如果仅直接根据原始权重来进行人名语言识别,可能会由于各个词典中的权重未根据统一标准进行归一化而导致识别存在误差。因此,根据上述排序步骤中的处理,可以提高识别的准确度。
然而,应理解,上述排序算法仅是示例而非限制,并且本领域技术人员可以根据本公开的原理而想到其它算法进行排序。例如,也可按照权重的升序来排序,在该情况下,则人名可被确定为其中的排序之和最大的词典所表示的语言。
此外,还应理解,该排序步骤是可选的,例如,也可不进行排序而是对所有人名单元词典中的权重进行归一化,从而根据该归一化后的权重来进行人名语言识别。
应指出,尽管以上参照图3描述了根据本公开的实施例的人名语言识别方法,但是本领域技术人员完全可以根据本公开的原理而对上述处理过程进行修改、组合等。
接下来,将参照图4描述根据本公开的实施例的人名语言识别装置的功能配置示例。图4是示出根据本公开的实施例的人名语言识别装置的功能配置示例的框图。
如图4所示,根据本公开的实施例的人名语言识别装置400可包括人名划分单元402、n元子字符串权重计算单元404和识别单元406。
人名划分单元402可被配置成将输入的人名划分为n元子字符串,其中,n元子字符串表示包括人名中的连续n个字符的单元,n是大于或等于2的整数。
n元子字符串权重计算步骤404可被配置成根据包含各个n元子字符串的所有词项在上述带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重。
识别单元406可被配置成根据人名中的所有n元子字符串在各个人名单元词典中的权重,识别该人名所属的语言。
优选地,该人名语言识别装置400还可包括排序单元408。
排序单元408可被配置成根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,并且识别单元406可进一步根据人名中的所有n元子字符串在各个人名单元词典中的排序来识别该人名所属的语言。
优选地,排序单元408可进一步根据n元子字符串在各个人名单元词典中的权重的降序来确定n元子字符串在各个人名单元词典中的排序,并且识别单元可进一步计算人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为该人名所属的语言。
应理解,参照图4描述的人名语言识别装置是与上述人名语言识别方法对应的装置实施例,因此对于在装置实施例中未详细描述的内容,可参见以上方法实施例的相应位置的描述,在此不再赘述。
此外,应指出,尽管以上参照图4描述了根据本公开的实施例的人名语言识别装置的功能配置的示例,但是这仅是示例而非限制,并且本领域技术人员可以想到根据实际需要而对以上实施例中描述的功能模块进行组合和/或省略和/或添加一个或多个功能模块,这样的变型示例应认为落入本公开的范围内。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以执行上述人名单元词典扩充方法和人名语言识别方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述存储有机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用个人计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中,也根据需要存储当CPU501执行各种处理等等时所需的数据。
CPU501、ROM502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506,包括键盘、鼠标等等;输出部分507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分508,包括硬盘等等;和通信部分509,包括网络接口卡比如LAN卡、调制解调器等等。通信部分509经由网络比如因特网执行通信处理。
根据需要,驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地根据说明的顺序按时间顺序执行,但是并不需要一定根据时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本公开及其优点,但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本公开的实施例,还公开了以下附记:
1.一种人名单元词典扩充方法,包括:
词项初始权重计算步骤,基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重;
人名单元匹配步骤,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与所述预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元;
人名权重计算步骤,根据所述匹配人名单元在所述预定多个语言的人名单元词典中的权重来确定包含所述匹配人名单元的人名在各个人名单元词典中的权重;
未匹配人名单元处理步骤,根据包含所述未匹配人名单元的所有人名在各个人名单元词典中的权重,计算所述未匹配人名单元在各个人名单元词典中的权重,并将所述未匹配人名单元作为词项添加到包含所述未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中;
匹配人名单元权重更新步骤,根据包含所述匹配人名单元的所有人名在各个人名单元词典中的权重,更新所述匹配人名单元在所述各个人名单元词典中的权重;以及
重复执行所述人名单元匹配步骤、所述人名权重计算步骤、所述未匹配人名单元处理步骤和所述匹配人名单元权重更新步骤中的处理,直至所述预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值为止,从而得到所有词项均具有权重标注的人名单元词典。
2.根据附记1所述的方法,还包括:
归一化步骤,对在所述人名权重计算步骤中算出的人名在各个人名单元词典中的权重进行归一化,
其中,在所述未匹配人名单元处理步骤和所述匹配人名单元权重更新步骤中,利用归一化后的人名的权重进行相应计算。
3.一种人名语言识别方法,包括:
人名划分步骤,将输入的人名划分为n元子字符串,其中,所述n元子字符串表示包括所述人名中的连续n个字符的单元,n是大于或等于2的整数;
n元子字符串权重计算步骤,根据包含各个n元子字符串的所有词项在根据附记1或2所述的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及
识别步骤,根据所述人名中的所有n元子字符串在各个人名单元词典中的权重,识别所述人名所属的语言。
4.根据附记3所述的方法,还包括:
排序步骤,根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,
其中,在所述识别步骤中,根据所述人名中的所有n元子字符串在各个人名单元词典中的排序来识别所述人名所属的语言。
5.根据附记4所述的方法,其中,在所述排序步骤中,根据所述n元子字符串在各个人名单元词典中的权重的降序来确定所述n元子字符串在各个人名单元词典中的排序,
并且其中,在所述识别步骤中,计算所述人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为所述人名所属的语言。
6.一种人名语言识别装置,包括:
人名划分单元,被配置成将输入的人名划分为n元子字符串,其中,所述n元子字符串表示包括所述人名中的连续n个字符的单元,n是大于或等于2的整数;
n元子字符串权重计算单元,被配置成根据包含各个n元子字符串的所有词项在根据附记1或2所述的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及
识别单元,被配置成根据所述人名中的所有n元子字符串在各个人名单元词典中的权重,识别所述人名所属的语言。
7.根据附记6所述的装置,还包括:
排序单元,被配置成根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,
其中,所述识别单元进一步根据所述人名中的所有n元子字符串在各个人名单元词典中的排序来识别所述人名所属的语言。
8.根据附记7所述的装置,其中,所述排序单元进一步根据所述n元子字符串在各个人名单元词典中的权重的降序来确定所述n元子字符串在各个人名单元词典中的排序,
并且其中,所述识别单元进一步计算所述人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为所述人名所属的语言。

Claims (8)

1.一种人名单元词典扩充方法,包括:
词项初始权重计算步骤,基于每个词项所出现的人名单元词典的数量,计算各个词项在预定多个语言的人名单元词典中的初始权重;
人名单元匹配步骤,将作为训练样本的多个人名中的每个人名划分为人名单元,将所划分的人名单元与所述预定多个语言的人名单元词典中的词项进行匹配,并将匹配的人名单元确定为匹配人名单元,将未匹配的人名单元确定为未匹配人名单元;
人名权重计算步骤,根据所述匹配人名单元在所述预定多个语言的人名单元词典中的权重来确定包含所述匹配人名单元的人名在各个人名单元词典中的权重;
未匹配人名单元处理步骤,根据包含所述未匹配人名单元的所有人名在各个人名单元词典中的权重,计算所述未匹配人名单元在各个人名单元词典中的权重,并将所述未匹配人名单元作为词项添加到包含所述未匹配人名单元的所有人名中的匹配人名单元所在的人名单元词典中;
匹配人名单元权重更新步骤,根据包含所述匹配人名单元的所有人名在各个人名单元词典中的权重,更新所述匹配人名单元在所述各个人名单元词典中的权重;以及
重复执行所述人名单元匹配步骤、所述人名权重计算步骤、所述未匹配人名单元处理步骤和所述匹配人名单元权重更新步骤中的处理,直至所述预定多个语言的人名单元词典中的所有词项的权重变化小于预定阈值为止,从而得到所有词项均具有权重标注的人名单元词典。
2.根据权利要求1所述的方法,还包括:
归一化步骤,对在所述人名权重计算步骤中算出的人名在各个人名单元词典中的权重进行归一化,
其中,在所述未匹配人名单元处理步骤和所述匹配人名单元权重更新步骤中,利用归一化后的人名的权重进行相应计算。
3.一种人名语言识别方法,包括:
人名划分步骤,将输入的人名划分为n元子字符串,其中,所述n元子字符串表示包括所述人名中的连续n个字符的单元,n是大于或等于2的整数;
n元子字符串权重计算步骤,根据包含各个n元子字符串的所有词项在根据权利要求1或2所述的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及
识别步骤,根据所述人名中的所有n元子字符串在各个人名单元词典中的权重,识别所述人名所属的语言。
4.根据权利要求3所述的方法,还包括:
排序步骤,根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,
其中,在所述识别步骤中,根据所述人名中的所有n元子字符串在各个人名单元词典中的排序来识别所述人名所属的语言。
5.根据权利要求4所述的方法,其中,在所述排序步骤中,根据所述n元子字符串在各个人名单元词典中的权重的降序来确定所述n元子字符串在各个人名单元词典中的排序,
并且其中,在所述识别步骤中,计算所述人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为所述人名所属的语言。
6.一种人名语言识别装置,包括:
人名划分单元,被配置成将输入的人名划分为n元子字符串,其中,所述n元子字符串表示包括所述人名中的连续n个字符的单元,n是大于或等于2的整数;
n元子字符串权重计算单元,被配置成根据包含各个n元子字符串的所有词项在根据权利要求1或2所述的带权重标注的人名单元词典中的权重来计算各个n元子字符串在各个人名单元词典中的权重;以及
识别单元,被配置成根据所述人名中的所有n元子字符串在各个人名单元词典中的权重,识别所述人名所属的语言。
7.根据权利要求6所述的装置,还包括:
排序单元,被配置成根据各个n元子字符串在各个人名单元词典中的权重,确定各个n元子字符串在各个人名单元词典中的排序,
其中,所述识别单元进一步根据所述人名中的所有n元子字符串在各个人名单元词典中的排序来识别所述人名所属的语言。
8.根据权利要求7所述的装置,其中,所述排序单元进一步根据所述n元子字符串在各个人名单元词典中的权重的降序来确定所述n元子字符串在各个人名单元词典中的排序,
并且其中,所述识别单元进一步计算所述人名中的所有n元子字符串在各个人名单元词典中的排序的和,并将与最小的和对应的人名单元词典表示的语言确定为所述人名所属的语言。
CN201410221701.8A 2014-05-23 2014-05-23 人名单元词典扩充方法、人名语言识别方法和装置 Pending CN105095322A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410221701.8A CN105095322A (zh) 2014-05-23 2014-05-23 人名单元词典扩充方法、人名语言识别方法和装置
JP2015102946A JP2015225662A (ja) 2014-05-23 2015-05-20 人名ユニット辞書の拡張方法、人名言語の認識方法及び人名言語の認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410221701.8A CN105095322A (zh) 2014-05-23 2014-05-23 人名单元词典扩充方法、人名语言识别方法和装置

Publications (1)

Publication Number Publication Date
CN105095322A true CN105095322A (zh) 2015-11-25

Family

ID=54575767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410221701.8A Pending CN105095322A (zh) 2014-05-23 2014-05-23 人名单元词典扩充方法、人名语言识别方法和装置

Country Status (2)

Country Link
JP (1) JP2015225662A (zh)
CN (1) CN105095322A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227364A (zh) * 2016-07-28 2016-12-14 百度在线网络技术(北京)有限公司 用于确定人名结果的展现顺序的方法和装置
CN108830380A (zh) * 2018-04-11 2018-11-16 开放智能机器(上海)有限公司 一种基于云服务的训练模型生成方法及***
CN110178139A (zh) * 2016-11-14 2019-08-27 柯达阿拉里斯股份有限公司 使用具有注意力机制的全卷积神经网络的字符识别的***和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
JP2009295052A (ja) * 2008-06-06 2009-12-17 Yahoo Japan Corp 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
CN102033879A (zh) * 2009-09-27 2011-04-27 腾讯科技(深圳)有限公司 一种中文人名识别的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162118A1 (en) * 2006-12-15 2008-07-03 International Business Machines Corporation Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing
JP2009295052A (ja) * 2008-06-06 2009-12-17 Yahoo Japan Corp 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
CN102033879A (zh) * 2009-09-27 2011-04-27 腾讯科技(深圳)有限公司 一种中文人名识别的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BRUNO POULIQUEN等: "Multilingual person name recognition and transliteration", 《COMPUTER SCIENCE》 *
张仰森 等: "基于姓氏驱动的中国姓名自动识别方法", 《计算机工程与应用》 *
童毅见: "基于平行语料库的英语人名译名识别", 《大学英语》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227364A (zh) * 2016-07-28 2016-12-14 百度在线网络技术(北京)有限公司 用于确定人名结果的展现顺序的方法和装置
CN110178139A (zh) * 2016-11-14 2019-08-27 柯达阿拉里斯股份有限公司 使用具有注意力机制的全卷积神经网络的字符识别的***和方法
CN108830380A (zh) * 2018-04-11 2018-11-16 开放智能机器(上海)有限公司 一种基于云服务的训练模型生成方法及***

Also Published As

Publication number Publication date
JP2015225662A (ja) 2015-12-14

Similar Documents

Publication Publication Date Title
Ding et al. On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing
Lahitani et al. Cosine similarity to determine similarity measure: Study case in online essay assessment
US6882747B2 (en) Text mining method and apparatus for extracting features of documents
US20170147688A1 (en) Automatically mining patterns for rule based data standardization systems
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN105955948A (zh) 一种基于单词语义相似度的短文本主题建模方法
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
CN102298588A (zh) 从非结构化文档中抽取对象的方法和装置
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN113515629A (zh) 一种文档分类方法、装置、计算机设备及存储介质
CN103020167B (zh) 一种计算机中文文本分类方法
CN108021551B (zh) 一种语料扩展方法及装置
CN104881397A (zh) 缩写词扩展方法和装置
CN102629272A (zh) 一种基于聚类的考试***试题库优化方法
CN110222192A (zh) 语料库建立方法及装置
CN113987174A (zh) 分类标签的核心语句提取方法、***、设备及存储介质
CN104572634A (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN111221954A (zh) 一种构建家电维修问答库的方法、装置、存储介质及终端
CN111666379B (zh) 一种事件元素提取方法和装置
CN105095322A (zh) 人名单元词典扩充方法、人名语言识别方法和装置
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
CN110717333B (zh) 文章摘要自动生成方法、装置及计算机可读存储介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125