CN1755669A - 人名输入处理方法及*** - Google Patents

人名输入处理方法及*** Download PDF

Info

Publication number
CN1755669A
CN1755669A CN 200410083187 CN200410083187A CN1755669A CN 1755669 A CN1755669 A CN 1755669A CN 200410083187 CN200410083187 CN 200410083187 CN 200410083187 A CN200410083187 A CN 200410083187A CN 1755669 A CN1755669 A CN 1755669A
Authority
CN
China
Prior art keywords
character
name
input
surname
given name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410083187
Other languages
English (en)
Inventor
夏海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to CN 200410083187 priority Critical patent/CN1755669A/zh
Publication of CN1755669A publication Critical patent/CN1755669A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明揭示了一种能够识别输入人名的输入方法和装置。所述方法包括步骤:检测输入编码序列中的姓氏输入编码;从姓氏列表中检索与输入的姓氏输入编码对应的姓氏的候选用字;从输入编码序列中获得名字的字数;当判断名字的字数是单名时,则计算作为目标的单名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字;和当判断名字的字数是双名时,则计算作为目标的双名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字。

Description

人名输入处理方法及***
技术领域
本发明涉及一种输入汉字人名的方法及***,特别是一种能够快速输入汉语人名,减少选字并实现连续输入的方法和***。
背景技术
与印欧语系的字母文字不同,东方语系常常具有一个非常大的字符集,例如中文、日文和韩文。GB2312中的汉字达到6763个,而GBK中的汉字超过20,000个,因此汉字的输入始终被认为汉语信息化的第一难题。在日语和韩语输入中也存在着同样的问题。为解决汉字输入问题,在过去二十多年中,诞生了众多的输入法,包括著名的五笔字型和智能ABC等等。紫光拼音输入法和微软拼音输入法还通过语言统计模型,一定程度上解决了减少选字和连续输入的问题。
普通输入法通过词表来进行从拼音到汉字的转换,然而人名区别于固定词条,具有动态组合的特性,因而无法预先收录一个足够大的人名表,这也就使得用户输入姓名时常常需要经过繁杂的多次选字。
发明内容
本发明的目的是提供一种能够高效输入人名的方法,该方法可以嵌入到现有的输入法中,也可以设计成一种独立的输入法。作为一个软件***,可用于任何一种需要进行人名输入的诸如台式计算机、个人数字助理以及移动电话之类的信息设备。
根据本发明的一个方面,提供一种能够识别输入人名的输入方法,包括步骤:检测输入编码序列中的姓氏输入编码;从姓氏列表中检索与输入的姓氏输入编码对应的姓氏的候选用字;从输入编码序列中获得名字的字数;当判断名字的字数是单名时,则计算作为目标的单名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字;和当判断名字的字数是双名时,则计算作为目标的双名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字。
根据本发明的另一个方面,提供一种能够识别输入人名的输入方法,包括步骤:检测输入编码序列中的姓氏输入编码;从姓氏列表中检索与输入的姓氏输入编码对应的汉字姓氏的候选用字;输入单名音节并查找存储的单名索引表;和利用表达式S(w)=0.5*(f(w,G0|p)+f(w,G2|p))获得该拼音对应的所有名字用候选字。
根据本发明的另一个方面,提供一种能够识别输入人名的输入方法,包括步骤:检测输入编码序列中的姓氏输入编码;从姓氏列表中检索与输入的姓氏输入编码对应的汉字姓氏的候选用字;输入双名音节并查找存储的双名索引表;生成与输入的输入编码对应的双名候选组合,并利用表达式 S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 2 | s 1 ) ) 评价生成的每个双名侯选组合;和输出具有最高得分的双名候选组合作为双名候选用字。
根据本发明的另一个方面,提供一种能够识别输入人名的输入方法,包括步骤:从当前输入的音节序列中获得当前的音节;查询姓氏列表,判断姓氏列表是否为空;如果姓氏列表为空,则结束姓名输入判断,并返回空结果,如果姓氏候选列表不为空,则以姓氏列表中的第一个候选作为输出姓氏,并列出姓氏候选用字;如果判断输出的姓氏不正确,则选择一个姓氏候选用字;如果输出结果是需要的姓氏,则从输入的音节序列中计算单名候选用字或候选双名用字。
根据本发明的另一个方面,提供一种能够识别输入人名的输入装置,包括:输入编码装置,用于将汉字转换成可接受的输入编码序列;姓氏处理装置,用于检测和判断用户输入的输入编码中的姓氏;名字处理装置,用于在姓氏处理单元检测到输入编码中的姓氏后,识别后续拼音序列中的名字;和人名输出装置,用于输出与输入编码对应的名字候选汉字。
根据本发明的方法,能够高效地输入汉字人名,对该方法稍作语种相关的修改也适用于输入日文和韩文。
附图说明
通过下面结合附图对本发明的优选实施例进行详细描述,将使本发明的上述及其它目的、特征和优点更加清楚。应该指出,下面给出的说明仅是为了更好地理解本发明而提供的实施例,而不是对本发明的限制。其中:
图1是表示根据本发明实施例的人名输入***的示意方框图;
图2是表示汉语姓氏反向索引表;
图3是表示根据本发明实施例人名输入***在独立输入模式下的单名识别和输入;
图4是表示根据本发明实施例人名输入***在独立输入模式下的双名识别和输入;和
图5是表示根据本发明实施例具有人名输入功能的输入界面。
具体实施方式
下面参照附图对本发明的实施例进行详细的说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
下面描述根据本发明的输入法的基本原理。应该指出,虽然本发明实施例中描述的汉字人名输入,但本发明的构思和原理可以应用到其它领域的汉字输入方法。另外,通过进行与语种相关的修改,本发明也可应用于日文和韩文输入。
下面以中文为例描述本发明。如果不考虑少数民族的姓名特例,中文中的姓名通常只具有四种有限的组合形式,即,单姓单名、单姓双名、复姓单名以及复姓双名。
由于姓、名用字的组合可能性非常之大,普通输入法无法提供一个覆盖全部的姓名词表。但是,中国人的姓名用字及其组合是存在一定含义,而不是无规律任意组合的。另外,中国人的姓氏用字是有限的。因此,存在着概率意义下的分布特征。本发明就是利用该特征,通过一个人名识别算法来帮助用户在从编码到汉字的转换过程中减少选字的次数,从而做到高效地输入人名。
为清楚说明问题,本实施例以拼音输入为例说明本发明的人名输入法。应该指出,虽然本实施例中以拼音输入为例,但本发明并不局限于此,本发明中提出的方法同样适用于其他类型的输入法,例如基于笔画的输入法等。
本发明的人名输入方法包括两种应用模式,即在已知当前输入内容为人名的独立模式,和连续输入汉字时的连续模式。在独立模式下,输入法被设定为只用来输入汉语人名,此后输入的字串将被认为是一个姓名,一种人名识别算法将被用来评估和选择输入拼音产生的候选汉字,使得用户可以通过较少的选字完成输入任务。独立模式适用于需要同时出现大量人名的场合,例如,输入工资表,人员名单等。在连续模式下,人名识别算法动态地检测用户输入的拼音串中可能存在的人名,并辅助用户的选字,从而提高输入的效率。连续模式适用于在一般的文章输入等场合输入人名的情况。独立模式可以由用户主动将输入法程序设定为姓名输入模式或者切换到姓名输入法,也可以由操作***、网页浏览器等环境自动激活姓名输入法,例如填写网页表格中的姓名项。连续输入模式则用于大段文本输入中提高姓名输入的效率。在两种模式下,本发明都通过一个人名识别算法来达到高效输入人名的目的。人名识别算法利用设定的识别方式和数学模型,对输入的拼音编码产生的候选字进行排序,最后产生最大概率意义下的汉字组合,从而降低了用户输入名字时选字的次数,达到高效输入的目的。两种模式下的算法运行方式有所差别,将在下文中分别对此进行描述。
下面根据本发明的原理说明根据本发明的人名识别模型及其建立。人名识别模型及其建立
人名识别模型是一个数学模型,该模型从一个预先建立的姓名数据库中统计必要的数学参数,用来在输入阶段评价一个汉字(组合)作为汉语姓名侯选汉字的可能性。
姓名数据库中罗列了一系列真实人名,例如:“陈赓,张治中,冯玉祥,戴安澜”等等。针对中文姓名的四种有限组合形式,对单名和双名分别进行处理。这是由于从数学统计角度来说,单名和双名拥有的信息量不同。
对于单名,假设我们考察一个汉字w作为姓名中的单名用字G0的情况。为了不失其一般性,可以以“赓”字为例。当用户输入拼音“geng”时,在人名库中,与发“geng”音的名字用字包括“赓、庚、耕、恒、耿、亘”等。对这些同音字作为名字用字进行计数统计,并且按其在名中出现频度的降序排列,以此预测单名用字。总的来说,为了预测单名用字,需要建立一个从拼音编码到同音候选单名用字的索引,且所有的单名用字按一个特定频次进行降序排列,构成一个单名索引表。如下面的表1所示:
Figure A20041008318700101
表中的数字表示该字在名字中出现的频次。该索引表可以存储在诸如计算机之类的信息处理设备的存储装置中,即作为预测单名用字的识别模型。对该索引表的数学描述为:拼音编码为p的所有汉字,作为单名用字的频次,即如下面的表达式(1)表示。
          f(w,G0|p)=单名用字w的使用次数            …(1)
同样,对于双名,可以假设汉字w1和w2分别作为双名的第一字G1和第二字G2。为了不失一般性,以双名名字“治中”为例。当用户输入拼音“zhizhong”时,如同单名用字,人名库中分别具有zhi和zhong在双名中作为第一字和第二字出现的同名字表。对名字“治中”的出现频次进行计数并建立如同单名用字索引表。其数学描述分别为:
f(w,G1|p)=编码为p的双名用字w作为双名第一字的使用次数
f(w,G2|p)=编码为p的双名用字w作为双名第二字的使用次数
                                                     …(2)
此外,双名的两个单字之间的连接频度是一个度量两个独立汉字构成双名的可能性的有效方法。其原理是二元连接参数对出现过的姓名具有将强的记忆作用。故引入单字连接频度f(w2|w1):
Figure A20041008318700102
上式表示单字连接频度等于汉字w1和w2作为双名的次数除以以汉字w1作为双名中的第一字的次数。其中汉字w1和w2作为双名的次数包括汉字w1和w2分别在双名中出现,以及一起出现的次数。
另外,作为替换,采用双名的两个单字的带调音节的连接频度也是一种较好的度量方法。其原理是汉语姓名重视朗读的顺畅性。因此引入了带调音节连接频度f(s2|s1)函数:
Figure A20041008318700111
其中s表示输入字的音节。
如上面的表达式(1)-(4)所示,表达式(1)统计作为目标的单名用字频率,用来描述单名用字的使用频率。这个数值可以作为单名用字排序的依据。表达式(2)统计目标为双名用字的汉字在不同位置的频率。表达式(3)和(4)统计目标用于评价两个姓名用字及其发音的组合能力。
对于单名,考虑到单名用字也常常作为双名用字的第二字,故设定其使用分值为:
      E1:S(w)=0.5*(f(w,G0|p)+f(w,G2|p))            (5)
(请详细说明表达式(5)的含义)
对于双名,假设两个拼音产生的一个汉字候选组合为w1w2,其使用分值被设定为:
E2: S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 2 | s 1 ) ) - - - ( 6 )
(请详细说明上式的含义)
人名输入***
下面参考附图说明本发明的人名输入***。
具有根据本发明所描述的能够高效输入人名功能的输入法可以作为现有输入法的补充部分,或者作为独立软件用于任何需要输入人名的设备中。图1是根据本发明一个实施例的人名输入***的结构方框图。
根据本发明的人名输入***包括编码输入装置1,姓氏处理单元2,名字处理单元3,人名输出装置4,姓氏列表存储单元5,识别规则存储单元6,和识别模型存储单元7。
输入编码装置1接受用户输入的字符编码序列,并将该输入字符序列提供给姓氏处理单元2。姓氏处理单元2利用姓氏列表存储单元5和识别规则存储单元6进行姓氏检测,并将检测到的姓氏提供给名字处理单元3。名字处理单元3利用识别模型7进行名字检测,将检测的结果输出到人名输出装置4,并由人名输出装置4显示与输入的字符编码序列对应的人名。下面说明图1中的各个部分的操作。
编码输入
为输入汉字,用户需要以某种编码方法来把汉字转换成计算机可接受的编码串。对于基于汉语拼音的输入法,其编码串就是汉字的拼音串。考虑最具一般性的全拼输入,以输入姓名“夏海荣”为例,用户将可能输入“xia hai rong”。该拼音串输入到***中后,被解析成“xia”、“hai”和“rong”三个独立音节。
姓氏处理
汉语具有相当稳定的姓氏,通过建立一张姓氏列表(见表一),可以用来检测和判断用户输入的拼音中的姓氏。姓氏列表中所包括的姓氏可以通过编码进行检索,例如对于上例中的姓氏“夏”可以通过输入的“xia”进行检索。再例如,姓氏“欧阳”可以通过输入的“ou yang”进行检索。姓氏列表可以存储在姓氏列表存储单元5中。
    表一:汉语姓氏列表(部分)
  姓氏   拼音编码   姓氏   拼音编码
  赵   zhao   钱   Qian
  张   zhang   章   Zhang
  夏侯   xia hou   夏   Xia
  欧阳   ou yang   欧   Ou
  …   …   …   …
在该表在使用时,常常需要建立一个从编码到姓氏的反向索引,其结构图2所示。通过这个反向索引表,可以判断一个输入的音节,是否可能构成一个人名中的姓氏,以及有多少同音的姓氏。例如,当输入拼音“ai”时,姓氏处理单元2可以到姓氏列表存储单元5中查找拼音编码“ai”所对应的汉字姓氏。通常,拼音编码“ai”所对应的汉字姓氏只有“艾”,因此,检测出的姓氏既为“艾”。
汉语姓氏中存在着少量的复姓,例如“夏侯、欧阳、尉迟、诸葛”等,其第一字本身也可作为单姓。在此情况下,作为例子,***可以将其默认为构成一个复姓,但允许用户去进行修改。即当用户输入拼音“ouyang…”时,姓氏处理单元2可以认为该人名的姓氏为“欧阳”而不是“欧”。而当输入拼音“ou”时,姓氏处理单元2可以检出单姓用字“欧”和“区”,并且作为一种设置,可以检出复姓“欧阳”。
另外,汉语姓氏中还包括部分同音字,如图2中列出的“张”和“章”。没有显著有效的方法可以解决该问题,用户可以通过选字过程进行确定。
对于用户的输入,如果***不能找出一个合适的姓氏,则中止人名输入过程,切换到输入法的正常选字过程来进行选字输入。
上述识别规则可以存储在识别规则存储单元6中。
名字处理
与姓氏相比,名字用字比姓氏用字要广泛的多,因此此处涉及上面描述的主要算法过程。其过程因***处于独立模式还是连续模式而稍有差别。对于确定了的输入法程序,可以在信息处理设备上设定一个特殊的按键组合或者如按钮、菜单项等其他控制方式,来切换姓名输入的模式。
1.独立模式
在独立模式下,用户的目的就是输入人名,所以认为其输入的码串总是有效的姓名编码。在用户输入结束后,***就可以直接获知姓名的总字数,通过姓氏处理单元2的处理后,名字处理单元3就可以获知名字的字数,即,是单名还是双名。因此,名字处理单元3可以针对单名和双名独立分别处理。
图3示出了本发明的***处理单名用字的操作流程。首先,在步骤301输入单名音节s。此后,在步骤S302,名字处理单元3查找单名索引表了。接下来,在步骤S303利用表达式(5)获得该拼音对应的所有名字用候选字,并在步骤S304挑选具有最高频次的单名候选字作为输出用字。作为例子,单名索引表可以存储在识别模型单元7中,也可以单独设置存储单元,用于存储名字用字索引表。例如,将其分为单名索引表,和双名索引表。
下面以用户输入姓名“chen geng”为例来详细说明,姓氏处理单元首先判断“chen”为单姓“陈”,然后根据索引表找出“geng”按频次排序的候选字“赓、耕、亘…”,以第一个候选字“赓”作为选择输出,并保留该列表供用户选择。
图4示出了本发明的***处理双名用字的操作流程。首先,在步骤401输入双名音节s1,s2。此后,在步骤S402,名字处理单元4查找存储的双名索引表。接下来,在步骤S403生成与输入的拼音对应的双名候选组合,并在步骤S404利用表达式(6)评价在步骤S403中生成的每个双名侯选组合。在步骤S405输出具有最高得分的双名候选作为输出用字。输出顺序可以按双名组合出现的频次排列。
下面以用户输入“xia hai rong”为例来详细说明在独立模式下,人名输入***识别双名的过程。***首先判断“xia”为单姓“夏”,然后根据双名索引表找出“hai”和“rong”的按频次排序的候选字,“海、亥、还”和“容、荣、蓉、融、溶、熔”。组合并利用表达式(6)进行打分后,按得分排序双名候选字如下:海荣、海蓉、海融、海熔,用户可选择***给出的侯选字。最后,***将以“海荣”作为识别输出。
2.连续模式
下面说明根据本发明在连续模式下处理人名输入的情况。在连续模式下,用户连续地输入汉字编码字串,没有明显的标志来标明人名的起始和结束,因此***需要动态地检测出用户输入汉字编码串中存在的人名。其基本算法如下:
首先,可以设置当前音节变量s,和s的候选字w。从当前输入的音节序列中获得当前的音节s。此后,查询姓氏列表,获得姓氏候选列表1。判断姓氏列表是否为空。如果姓氏列表为空,则结束连续模式下的姓名输入判断,并返回空结果。如果姓氏候选列表不为空,则以姓氏列表中的第一个候选作为输出姓氏。此后,用户可以判断输出的姓氏是否正确,如果输入不正确,即输出的姓氏不是用户需要的姓氏,用户可以选择一个候选字。如果输出的是非姓氏用字,则结束姓氏识别过程,返回空结果,继续汉字输入。如果输出的结果是用户需要的姓氏,则分别假设用户输入的是单名和双名。此后,按照上述表达式(5)和(6)分别对输入的编码拼音进行评分计算,并将具有最高得分的单名和双名用字显示给用户。
此后,用户判断选出的人名是否正确。如果正确,则结束本次人名输入识别。如果用户判断选出的人名不正确,则根据给出的候选字选择名字的第一个字。如果用户确定人名输入结束,则结束本次人名输入识别。如果用户确定人名输入没有结束,本发明的***则按照表达式(6)进行评分计算,并选择具有最高得分的双名显示给用户。用户可以判断选择的人名的第二个字是否正确。如果正确,则结束本次人名输入。如果不正确,则选择名字的第二个字,结束本次人名输入识别。
为了清楚起见,上述过程可用下表表示:
  算法:连续模式下人名的检测变量:当前音节s,s的候选字w
  1.从输入音节序列中获得当前音节s2.查询姓氏列表,获得一个姓氏候选列表l3.如果姓氏候选列表l为空3.1  结束,返回空结果4.否则4.1  以列表中第一个候选为输出姓氏4.2  用户判断姓氏是否正确,如果不正确,则4.2.1    用户选择一个候选字,如果是非姓氏用字,则4.2.1.1    结束,返回空结果4.2.2    否则4.2.2.1    分别假设单名和双名4.2.2.2    按公式E1、E2分别进行打分4.2.2.3    将具有最高得分的单名和双名显示给用户5.用户判断选出的人名是否正确,如果正确5.1    结束本次人名识别输入6.否则6.1    用户选择名字的第一个字6.2    如果用户确定人名结束,则6.2.1  结束本次人名识别输入6.3    否则
  6.3.1    按照E2进行打分,选择具有最高得分的双名并显示给用户6.4  用户判断选出的人名第二字是否正确,如果正确6.4.1    结束本次人名识别输入6.5  否则6.5.1    用户选择名字的第二个字,结束本次人名识别输入
下面举例什么根据本发明的任命输入法,在连续模式下的识别过程。例如,假设用户输入拼音串“wo he li bao ying lao shi you guo yi mianzhi yuan”,目标字串是“我和李宝英老师有过一面之缘”。对每个音节查找其对应的姓氏,列表如下:
  姓氏音节   姓氏候选   单名假设   双名假设
  wo   沃   he   he li
  he   和、何、赫、贺、阖   li   li bao
  li   李、黎、厉、栗   bao   bao ying
  bao   包、鲍   ying   ying lao
  ying   英、应、赢   lao   lao shi
  lao   劳,醪   shi   shi you
  shi   石、师、施、史、时   you   you guo
  you   尤   guo   guo yi
  guo   郭、果、国   yi   yi mian
  yi   易、亦、伊   mian   mian zhi
  mian
  zhi
  yuan   原、元、袁
按照本发明的识别过程,***首先将“wo”转换成假设姓氏“沃”后,用户在4.2.1选择“我”非姓氏用字,返回空,本次人名识别输入结束。依次执行至“li”,用户在4.2.1选择“李”,其后***分别假设单名和双名,并通过计算向用户推荐一个候选人名“李宝英”,用户在第6.1步判断***推荐人名错误,故由用户在6.1选择“保”,随后***再输出人名“李保英”,正确结束。***按照算法,依次处理每个音节,直至音节串结束。
作为替换,可以在用户每次输入姓氏和人名后对用户的输入的人名进行记录和统计。如果与以前输入的姓氏或人名相同,则利用上面的表达式(1)-(6)更新相应人名的输入频次。由此可以根据人名的使用频率,针对用户输入的拼音编码实时地改变候选排序,以便更高效地进行人名输入。
运行于PC平台上的输入法通常可以具有一个输入区和一个信息区,用户在输入区中输入拼音等编码,而信息区中显示编码对应的汉字候选。如果本发明工作在独立模式或者作为一个独立的输入法,则输入区和信息区均可直接利用,使用过程类似于普通的输入法。如果工作在连续模式,为了不影响输入法正常的输入和选字过程,可以在其输入区附近,例如,正常输入法的下面增加一个用于显示人名检测结果的第二信息区,如图6所示。
在正常输入汉字的过程中,用户通过第一输入区输入汉字编码,而从第一信息区中进行选字以更正输入区中的错误汉字。本发明在检测到可能的姓名时,就在屏幕上绘出第二信息区,用户可以通过输入法未定义的按键,例如方向键或者Tab键等,或者使用鼠标,切换到第二信息区,然后从第二信息区中选择本发明提供的候选人名用字。
本发明的人名输入法可以应用需要输入汉字的设备上,例如,个人计算机(PC),便携式计算机,移动电话,PDA(个人数字助理)等设备上。
根据本发明的人名输入***可以通过硬件实现。也可以利用软件或硬件和软件的结合来实现。所述程序可记录在诸如软盘,硬盘,闪盘,CD-ROM,DVD-ROM之类的机器可读的记录介质上。
虽然参考优选实施例对本发明进行了描述,本发明并不局限于此,而仅由所附权利要求限定,本领域技术人员在不脱离本发明精神的情况下可对本发明的实施例进行各种改变和改进。

Claims (25)

1.一种能够识别输入人名的输入方法,包括步骤:
检测输入编码序列中的姓氏输入编码;
从姓氏列表中检索与输入的姓氏输入编码对应的姓氏的候选用字;
从输入编码序列中获得名字的字数;
当判断名字的字数是单名时,则计算作为目标的单名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字;和
当判断名字的字数是双名时,则计算作为目标的双名候选用字的使用概率,并根据候选用字的使用概率,按降序排列候选用字。
2.根据权利要求1所述的方法,其中计算单名候选用字的使用概率的步骤利用下面的表达式(1)计算单名候选用字的使用概率,
      f(w,G0|p)=单名用字w的使用次数    ...(1)
其中w表示汉字,G0表示汉字在名中的位置,p表示拼音编码为p的所有汉字,作为单名用字的频次。
3.根据权利要求1所述的方法,其中计算作为目标的双名候选用字的使用概率的步骤利用下面的表达式(2)计算双名候选用字的使用概率,
f(w,G1|p)=编码为p的双名用字w作为双名第一字的使用次数
f(w,G2|p)=编码为p的双名用字w作为双名第二字的使用次数
                                                          ……(2)
其中w1和w2表示汉字,G1表示双名第一字,G2表示双名第二字,p表示拼音编码为p的双名汉字的使用次数。
4.根据权利要求3所述的方法,其中计算作为目标的双名候选用字的使用概率的步骤还包括利用下面的表达式(3)计算双名候选用字的连接频度的步骤,
Figure A2004100831870002C1
其中f(w2|w1)表示单字连接频度。
5.根据权利要求3所述的方法,其中计算作为目标的双名候选用字的使用概率的步骤还包括利用下面的表达式(4)计算双名候选用字的连接频度的步骤,
Figure A2004100831870003C1
其中f(s2|s1)表示带调音节连接频度。
6.根据权利要求2所述的方法,其中计算单名候选用字的使用概率的步骤利用下面的表达式(5)计算单名候选用字的使用概率的得分,
      S(w)=0.5*(f(w,G0|p)+f(w,G2|p))……(5)
所述记分考虑了单名用字也常常作为双名用字的第二字。
7.根据权利要求3所述的方法,其中计算作为目标的双名候选用字的使用概率的步骤还包括利用下面的表达式(4)计算双名候选用字的组合的得分,
S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 1 | s 2 ) ) . . . . . . ( 6 )
所述记分考虑了两个输入编码产生的一个汉字候选组合w1w2
8.根据权利要求1至7所述的方法,其中所述输入编码是汉字拼音编码。
9.一种能够识别输入人名的输入方法,包括步骤:
检测输入编码序列中的姓氏输入编码;
从姓氏列表中检索与输入的姓氏输入编码对应的汉字姓氏的候选用字;
输入单名音节并查找存储的单名索引表;和
利用表达式S(w)=0.5*(f(w,G0|p)+f(w,G2|p))获得该拼音对应的所有名字用候选字。
10.根据权利要求9所述的方法,其中所述输入编码是汉字拼音编码。
11.一种能够识别输入人名的输入方法,包括步骤:
检测输入编码序列中的姓氏输入编码;
从姓氏列表中检索与输入的姓氏输入编码对应的汉字姓氏的候选用字;
输入双名音节并查找存储的双名索引表;
生成与输入的输入编码对应的双名候选组合,并利用表达式 S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 1 | s 2 ) ) 评价生成的每个双名侯选组合;和
输出具有最高得分的双名候选组合作为双名候选用字。
12.根据权利要求11所述的方法,其中所述输入编码是汉字拼音编码。
13.一种能够识别输入人名的输入方法,包括步骤:
从当前输入的音节序列中获得当前的音节;
查询姓氏列表,判断姓氏列表是否为空;
如果姓氏列表为空,则结束姓名输入判断,并返回空结果,如果姓氏候选列表不为空,则以姓氏列表中的第一个候选作为输出姓氏,并列出姓氏候选用字;
如果判断输出的姓氏不正确,则选择一个姓氏候选用字;
如果输出结果是需要的姓氏,则从输入的音节序列中计算单名候选用字或候选双名用字。
14.根据权利要求13所述的方法,其中进一步包括按照表达式S(w)=0.5*(f(w,G0|p)+f(w,G2|p))计算单名候选用字的得分,并显示具有最高得分的单名候选用字的步骤。
15.根据权利要求13所述的方法,其中进一步包括按照表达式 S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 2 | s 1 ) ) 计算双名候选用字的得分,并显示具有最高得分的单名候选用字的步骤。
16.根据权利要求13所述的方法,其中进一步包括当判断选出的人名不正确时,则根据给出的候选字选择名字的第一个字的步骤。
17.根据权利要求16所述的方法,其中进一步包括在人名输入没有结束的情况下,按照表达式 S ( w 1 w 2 ) = f ( w 1 , G 1 | p ) × f ( w 2 , G 2 | p ) × ( 1 + f ( w 2 | w 1 ) + f ( s 2 | s 1 ) ) 进行评分计算,并选择具有最高得分的双名显示给用户的步骤。
18.根据权利要求17所述的方法,其中进一步包括判断选择的人名的第二个字是否正确,如果不正确,则选择名字的第二个字,结束人名输入识别的步骤。
19.根据权利要求13所述的方法,其中进一步包括如果输出的是非姓氏用字,则结束姓氏识别过程,继续汉字输入。
20.根据权利要求13-19所述的方法,其中所述输入的音节的汉字拼音。
21.一种能够识别输入人名的输入装置,包括:
输入编码装置,用于将汉字转换成可接受的输入编码序列;
姓氏处理装置,用于检测和判断用户输入的输入编码中的姓氏;
名字处理装置,用于在姓氏处理单元检测到输入编码中的姓氏后,识别后续拼音序列中的名字;和
人名输出装置,用于输出与输入编码对应的名字候选汉字。
22.根据权利要求21所述的装置,其中进一步包括姓氏列表存储装置,用于存储汉字姓氏列表,所述姓氏可以通过编码进行检索。
23.根据权利要求21所述的装置,其中进一步包括识别规则存储单元用于存储根据输入的输入编码判断所输入的拼音对应单姓还是复姓姓氏。
24.根据权利要求21所述的装置,其中进一步包括识别模型存储装置,用于存储进行名字识别的数学模型,所述数学模型从预先建立的姓名数据库中统计必要的数学参数,用来在输入阶段评价一个汉字或汉字的组合作为汉语姓名侯选汉字的概率。
25.根据权利要求21至24所述的装置,其中所述输入编码是汉字拼音编码。
CN 200410083187 2004-09-29 2004-09-29 人名输入处理方法及*** Pending CN1755669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410083187 CN1755669A (zh) 2004-09-29 2004-09-29 人名输入处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410083187 CN1755669A (zh) 2004-09-29 2004-09-29 人名输入处理方法及***

Publications (1)

Publication Number Publication Date
CN1755669A true CN1755669A (zh) 2006-04-05

Family

ID=36688908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410083187 Pending CN1755669A (zh) 2004-09-29 2004-09-29 人名输入处理方法及***

Country Status (1)

Country Link
CN (1) CN1755669A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193709A (zh) * 2010-03-01 2011-09-21 腾讯科技(深圳)有限公司 一种字符输入方法及装置
CN101267635B (zh) * 2008-04-25 2011-11-23 中兴通讯股份有限公司 用于手机通信录的汉字输入装置
CN101634928B (zh) * 2008-12-04 2012-01-25 北京搜狗科技发展有限公司 一种展现人名候选项的方法及装置
CN102647503A (zh) * 2011-02-18 2012-08-22 中兴通讯股份有限公司 一种联系人信息处理方法及移动终端
CN104008093A (zh) * 2013-02-26 2014-08-27 国际商业机器公司 用于中文姓名音译的方法和***
CN107784027A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 一种裁判文书检索关键词的提示方法及装置
CN108090033A (zh) * 2017-12-27 2018-05-29 北京天融信网络安全技术有限公司 人名检测方法、装置、计算机可读介质及设备
US10083172B2 (en) 2013-02-26 2018-09-25 International Business Machines Corporation Native-script and cross-script chinese name matching
CN112783333A (zh) * 2019-11-06 2021-05-11 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267635B (zh) * 2008-04-25 2011-11-23 中兴通讯股份有限公司 用于手机通信录的汉字输入装置
CN101634928B (zh) * 2008-12-04 2012-01-25 北京搜狗科技发展有限公司 一种展现人名候选项的方法及装置
CN102193709B (zh) * 2010-03-01 2015-05-13 深圳市世纪光速信息技术有限公司 一种字符输入方法及装置
CN102193709A (zh) * 2010-03-01 2011-09-21 腾讯科技(深圳)有限公司 一种字符输入方法及装置
CN102647503A (zh) * 2011-02-18 2012-08-22 中兴通讯股份有限公司 一种联系人信息处理方法及移动终端
US9858269B2 (en) 2013-02-26 2018-01-02 International Business Machines Corporation Chinese name transliteration
CN104008093A (zh) * 2013-02-26 2014-08-27 国际商业机器公司 用于中文姓名音译的方法和***
US9858268B2 (en) 2013-02-26 2018-01-02 International Business Machines Corporation Chinese name transliteration
US10083172B2 (en) 2013-02-26 2018-09-25 International Business Machines Corporation Native-script and cross-script chinese name matching
US10089302B2 (en) 2013-02-26 2018-10-02 International Business Machines Corporation Native-script and cross-script chinese name matching
CN107784027A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 一种裁判文书检索关键词的提示方法及装置
CN108090033A (zh) * 2017-12-27 2018-05-29 北京天融信网络安全技术有限公司 人名检测方法、装置、计算机可读介质及设备
CN112783333A (zh) * 2019-11-06 2021-05-11 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置

Similar Documents

Publication Publication Date Title
CN1133918C (zh) 符号输入
US7395203B2 (en) System and method for disambiguating phonetic input
EP2339576B1 (en) Multi-modal input on an electronic device
US7979425B2 (en) Server-side match
CN1918578B (zh) 具有自动校正的手写及语音输入
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
CN1282072A (zh) 对语音识别结果中的错误进行校正的方法和语音识别***
JPH11328312A (ja) 手書き漢字認識方法および装置
WO2017005207A1 (zh) 一种输入方法、输入装置、服务器和输入***
US20200293276A1 (en) Multi-modal input on an electronic device
CN102272827A (zh) 利用语音输入解决模糊的手工输入文本输入的方法和装置
CN112667775A (zh) 基于关键词提示的检索方法、装置、电子设备及存储介质
CN1755669A (zh) 人名输入处理方法及***
CN1928860A (zh) 用于校正按键错误的方法、搜索引擎和搜索***
CN1704879A (zh) 用于输入中文汉字短语的方法和设备
CN1991743A (zh) 一种语音输入法方法及其装置
CN100501656C (zh) 一种音形结合的向电子设备中手写汉字的输入法
CN102346558A (zh) 笔画结构输入方法和***
JP2011210149A (ja) 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和***
CN113722447B (zh) 一种基于多策略匹配的语音搜索方法
CN1043490C (zh) 叠词变换方法和汉字变换装置
CN1031228C (zh) 场景交际专用袖珍计算器
CN117917621A (zh) 汉字输入方法和***以及键盘
CN1581031A (zh) 用于输入中文汉字短语的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication