CN101661463A - 文字输入过程中的自动校对方法 - Google Patents

文字输入过程中的自动校对方法 Download PDF

Info

Publication number
CN101661463A
CN101661463A CN200910190470A CN200910190470A CN101661463A CN 101661463 A CN101661463 A CN 101661463A CN 200910190470 A CN200910190470 A CN 200910190470A CN 200910190470 A CN200910190470 A CN 200910190470A CN 101661463 A CN101661463 A CN 101661463A
Authority
CN
China
Prior art keywords
word
context
content
coding
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910190470A
Other languages
English (en)
Other versions
CN101661463B (zh
Inventor
杨盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2009101904708A priority Critical patent/CN101661463B/zh
Publication of CN101661463A publication Critical patent/CN101661463A/zh
Application granted granted Critical
Publication of CN101661463B publication Critical patent/CN101661463B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及文字输入过程中的自动校对方法,包括:为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;将所述语境词作为所述预设编码的首选候选词;接收用户输入的编码,检索与所述编码对应的候选词;判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。所述语境参数还可以包括:表示所述语境词的有效期间的作用周期;表示需要校对的已上屏的字数的校对信息。所述自动校对方法还包括删除超过有效期间的语境词、根据校对信息修正已上屏的字。实施本发明,能够提高首选词的准确度,实现文字上屏前校对与上屏后自动校对。

Description

文字输入过程中的自动校对方法
【技术领域】
本发明涉及文字输入,尤其涉及在计算机、手机等电子产品的文字输入过程中的自动校对方法。在本说明书和权利要求书中,如果没有特别的说明,术语“文字”可以是汉字、字符、符号及其组合,而术语“字”指单个汉字或者单个字符,而“词”和“候选词”可以是单个或者多个汉字、字符。
【背景技术】
文字输入是计算机、手机、PDA(个人数字助理)等电子产品中不可或缺的功能。绝大多数文字输入法都存在重码的问题。所谓重码,是指有两个或者两个以上的候选字词对应于相同的编码。例如,使用拼音输入法时对应于编码“zhidao”的候选词就有“知道”、“直到”、“指导”等。出现重码会降低文字输入的速度与准确度,如果误选了不想要的候选词,还会增加后期的校对工作量。
针对重码问题,现有的一种处理方法是应用调频技术。调频的原理是根据用户的输入内容动态地调整各个编码的候选词顺序。常用的一种调频技术是智能调频,其原理是根据语料库中收集的语料,当用户输入的字词符合这些语料时,将用户接下来可能需要的重码候选词自动提前调整至第1位作为首选候选词,智能调频命中率比一般的自动调频有所提高。但是,自动调频之后,输入法程序无法区分哪个候选词调过,哪个候选词没有调过,所以***无法及时恢复原来的字词顺序,导致候选词的顺序在不停地变化,用户需要一直依赖候选词列表进行输入,降低了文字输入效率。
此外,目前的输入法无法自动对已经上屏的词进行修正,从而增加了文字输入后的校对工作量。因此,亟需一种自动校对方法,该方法最好能够在文字上屏之前进行自动校对以提高首选候选词的准确度,并能够在文字上屏后自动修正误输入的词。
【发明内容】
本发明提供一种文字输入过程中的自动校对方法,包括以下步骤:
为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;
将所述语境词作为所述预设编码的首选候选词;
接收用户输入的编码,检索与所述编码对应的候选词;
判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。
本发明的进一步改进是:
语境词的语境参数还包括作用周期,用于表示所述语境词的有效期间;
所述将语境词作为首选候选词的步骤包括:将所述语境词添加到所述预设编码的原有的候选词列表;
所述自动校对方法还包括:删除超出有效期间的语境词,并恢复与该语境词对应的预设编码的原有的候选词列表。
本发明的进一步改进是:
语境词的语境参数还包括校对信息,所述校对信息表示需要校对的字数;
所述输出语境词的文字内容的步骤还包括:根据所述语境词的校对信息,修正已上屏的字。
本发明的进一步改进是:
构造语境校对数据库,所述语境校对数据库包括语境关联词、预设编码以及对应的语境词;
缓存最近一次输出的内容,判断所缓存的内容是否与所述语境关联词完全匹配,如果完全匹配,就为对应的预设编码产生语境词。
本发明的进一步改进是:如果没有候选词与用户输入的编码对应,就将所述用户输入的所述编码作为所述最近一次输出的内容并进行缓存。
本发明的进一步改进是:累计连续输出的内容,判断所累计的内容是否与所述语境关联词完全匹配,如果完全匹配,就为所述对应的编码产生语境词。
本发明的实施例具有以下有益效果:本发明通过检索语境关联词给预设的编码产生语境词,该语境词包含语境参数从而区别于输入法自带的候选词,该语境词作为对应编码的首选候选词,从而提高了首选候选词的准确度,实现文字上屏前自动校对;本发明还包括删除超过有效期间的语境词,以恢复对应编码原有的候选词列表;此外,语境参数中还包括校对信息,可根据该校对信息自动地对已经上屏的文字进行修正。
【附图说明】
图1是本发明一个实施例的自动校对方法的流程图;
图2是本发明另一个实施例的自动校对方法的流程图。
【具体实施方式】
为了便于理解本发明,下面先阐述本发明涉及的术语与实现原理。
1、词、候选词
为了便于描述,在本发明中,如果没有特别的说明,“词”包括字、词语、词组、短语。相应地,输入法的“候选词”可以是字、词语、词组、短语等。
2、上屏,是指文字已经输出到光标当前所在的输入窗口或者某个程序中,例如Windows***的记事本程序、Microsoft公司的word程序、IE网页浏览器、QQ文本输入框等。
3、重码、重码错误
重码,是指对于相同的编码有两个或者两个以上的候选词。例如,拼音输入法中编码“xiangtong”的候选词就有“相同”、“相通”、“想通”等。
重码错误,是指出现重码时,上屏的词不是用户想要的词。例如,用户想要的词未在第一位,***自动选择了用户不想要的词上屏或用户选择了用户不想要的词上屏。例如,五笔输入法编码“ftjg”的候选词有“都是”、“教师”、“老师”、“考量”等,当用户需要“老师”这个词,用五笔在盲打时,有时会忘记选择,会导致处在首选候选词“都是”自动上屏——这里的“都是”就是“重码错误”;或者用户记不清想要的候选词在第几位,按错键,导致其他的候选词上屏,从而造成重码错误。
4、语境、语境关联词
语境,也就是语言环境;语境关联词,是指表示具体语境的词。本发明中,根据具体的应用情况,可以作为语境的内容包括:即时输出的词或字符、用户累计输出的词、用户输入的编码、用户选择的主题语境等。语境可用来判断用户想输入的词是什么,从而提高首选候选词的准确度。例如,五笔输入法中,编码“dglg”对应着“礓”、“古国”、“三国”这三个候选词。如果用户最近输入的词是“文明”,那么,在“文明”作为语境关联词的基础上,可以判断出用户想输入的是“古国”而不是“三国”或者“礓”。
5、累计
累计,也可称为累加,相当于字符或者字符串的连接,在本发明中主要用于统计用户连续输入的内容。例如,用户连续输入“文”和“明”时,累计结果是“文明”;用户连续输入“内蒙古”和“自治区”时,累计结果是“内蒙古自治区”。
6、匹配、完全匹配
“匹配”在本发明中的含义当A、B两个字符串自左至右进行依次比较时,若B字符串是A字符串的前缀就称为匹配,或者称为B与A匹配。“完全匹配”也称为精确匹配,是“匹配”的一种特例,当B字符串与A字符串内容完全相同时,就称为完全匹配。在一些计算机编程语言中,匹配比较运算符用“=”表示,完全匹配比较运算符用“==”表示。
本发明中,匹配和完全匹配主要用于判断用户输入的内容是否属于语境关联词。
例如,如果语境关联词是“文明”,那么,用户输入的“文”、“文明”都和语境关联词“文明”匹配,用户输入的“文明”与语境关联词“文明”属于完全匹配。
再例如,如果语境关联词是“内蒙古自治区”,那么,“内”、“内蒙”、“内蒙古”、“内蒙古自”、“内蒙古自治”、“内蒙古自治区”与该语境关联词匹配,并且,“内蒙古自治区”与该语境关联词属于完全匹配。相反,“内蒙古的”与“内蒙古自治区”就不是匹配了,“蒙古”与“内蒙古自治区”也不属于匹配。
7、语境词
语境词包含文字内容部分和对应的语境参数部分,文字是语境词对应的文字内容,如用户选择的候选词是语境词时,输出上屏的内容就是该语境词的文字内容。因此,语境词不同于输入法自带的词,语境词与输入法自带的词是有区别的。例如,如果“^”是语境参数,那么,“^古国”或者“古国^”是语境词,而“古国”是输入法自带的词。应当意识到,语境参数可以是可视化的(用户能看到),也可以是不可视的(用户看不到)。语境参数可以包含多种信息,并且可以采用多种形式,例如,可以在输入法自带的词的基础上附加上特定的属性从而产生对应的语境词。
提取语境词文字内容的方法可以是:通过截取字符串的方法获取语境词的文字内容;或者,直接删除语境词语境参数,获得语境词的文字内容。
8、语境参数
语境参数除了用来判断某个词是语境词还是输入法自带的词之外,还可以附带其它的信息,例如作用周期和附加校对信息。例如,语境参数可以是“^Tn”,其中,“^”是语境标记,说明该词是语境词;“T”表示该语境词的作用周期,即,该语境词只在该作用周期内有效;“n”表示校对信息,表示需要修正的文字数量,例如,n可以表示向左自动删除的次数,用于清除已经上屏的若干个字。应当意识到,语境参数可以有其它的形式,语境标记也不限于符号的形式。例如,可以采用赋予特定属性的方式来标记语境词。
9、语境校对数据库
语境校对数据库用来存放语境关联词、语境词的编码(也称为预设编码)、语境词等内容。例如,五笔输入法中,语境校对数据库的部分条目如下:
文明dglg=^M0古国;
文化khyo=^M0遗迹;
局面flyy=^M2书面协议;
局面gaaa=^M2书面形式;
局面rbtf=^M2书面报告;
其中,“文明”是语境关联词,“^M0古国”是语境词,而“gdlg”是“^M0古国”的编码。
应当意识到,语境校对数据库还可以是其它形式,例如:
……
文明dglg=^M0古国
文化khyo=^M0遗迹
局面flyy=^M2书面协议;gaaa=^M2书面形式;rbtf=^M2书面报告
……
10、主题语境数据库
主题语境数据库中收集了与特定主题关联密切的语境词,这些语境词的文字内容可以是输入法没有的词,也可以是输入法自带的词但这些词由于重码使用频率低而没有排在第1位。例如,可以把“病毒病”、“黄叶病”、“花叶病”、“结瓜”、“失收”等词设为语境词并归类到“西瓜”这个主题语境中。
本发明的文字输入方法的主要过程是:根据当前即时语境检索语境校对数据库中的语境关联词,为预设编码产生对应的语境词;或者,根据用户选择的主题语境,依据主题语境库收集的内容,为预设编码自动生成相应的语境词。将所产生的语境词添加到其预设编码原有的候选词列表中,并将对应的语境词作为第一个候选词,即首选候选词。如果该预设编码本身没有对应的候选词,那么,该语境词就是该预设编码的唯一的候选词。然后,接收用户输入的编码,检索与该编码对应的候选词。***对用户选择的候选词(包括首选候选词和非首选候选词)进行分析判断,如用户选择的候选词含有语境标记即语境词,提取出该候选词的文字内容,并输出该文字内容。随后,根据具体的语境参数,清除上述产生的语境词,使输入法恢复原来的候选词顺序。这样处理后:既能够提高首选候选词的准确度,实现文字上屏前自动校对,又不影响原来“第1位字词”的使用。下面结合具体的实施例进行详细的说明。
实施例一
本实施例采用的输入法是86版的五笔输入法。首先,建立语境校对数据库。该语境校对数据库的部分条目如下表所示:
 ……
 强身wvws=^健体
 思想uttf=^道德
 文明dglg=^古国
 文化khyo=^遗迹
 ……
表1:语境校对数据库
如上所述,语境校对数据库的条目包括语境关联词、语境词的编码以及语境词。
参考图1,步骤S101中,文字输入***缓存用户最近输入的词。例如,如果用户一次性输入“思想”或者连续输入“思”和“想”,那么,“思想”就是用户最近输入的词。
接着,步骤S103中,文字输入***将“思想”与语境校对数据库中的语境关联词进行匹配。对照上表1,用户最近输入的“思想”与语境关联词“思想”完全匹配,因此,为对应的编码uttf产生语境词“^道德”,并将语境词“^道德”添加到编码uttf的候选词列表中作为uttf编码的第一个候选词。例如,86版五笔输入法自带的词库中,uttf编码原来的候选词列表是:
Figure G2009101904708D00081
Figure G2009101904708D00082
那么,添加了语境词“^道德”之后,其候选词列表将是:
Figure G2009101904708D00083
Figure G2009101904708D00084
然后,流程进入步骤S107。
在上述步骤S103中,如果未完全匹配,则流程进入步骤S107。在步骤S107中,文字输入***接收用户输入的编码,然后检索码表库,并显示候选词列表供用户选择,然后在步骤S109中输出用户选择的候选词。替换地,如果只有一个候选词与该编码对应,也可以不显示候选词列表,而是默认为用户选择输出该候选词。本领域的技术人员应当意识到,对于大部分输入法,用户可以通过数字键来选择候选词;如果用户未进行具体的选择,继续输入或者按下空格键就视为选择了首选候选词。在输出用户选择的候选词之前,判断用户所选择的候选词是否包含有语境参数,如果有,就删除语境参数并输出剩下的文字内容。如果用户所选择的候选词未包含语境参数,就直接输出候选词。如图1所示,步骤S109中输出的内容,将成为步骤S101中的累计内容,从而开始新的循环。
接着,步骤S111中,文字输入***清除步骤S105中产生的语境词。清除语境词之后,该语境词将不会出现在对应编码的候选词列表中。例如,编码uttf的候选词列表将恢复为原来的顺序:
Figure G2009101904708D00085
在整个过程中,***原来重码词的顺序始终保持相对不变。
如上所述,实施本发明,能够根据语境提高首选候选词的准确度,实现文字上屏前的自动校对,降低文字输入过程中的选词工作量和文字输入后的校对工作量。此外,文字输入***能够恢复原有的候选词列表,不影响原来处在第1位词的使用。
实施例二
本实施例采用的输入法同样是86版的五笔输入法。首先,建立语境校对数据库。该语境校对数据库的部分条目如下表所示:
  ……
  租wtfm=^M0赁
  况uqd=^M1兑奖
  竞uqd=^M1兑奖
  主任atjg=^M0医师
  局面flyy=^M2书面协议
  局面gaaa=^M2书面形式
  局面rbtf=^M2书面报告
  局面swsj=^M2书面检查
  局面swyf=^M2书面检讨
  局面wgmg=^M2书面合同
  声音rkwt=^M2违章操作
  受到gotg=^B0严惩
  djvb gibc=^M0非她不娶
  放下屠刀ufdw=^J0立地成佛
  一清二白,tftd=^M5王婆卖瓜,自卖自夸
  踏破铁鞋无觅处tgwf=^J0得来全不费工夫
  ……
表2:语境校对数据库
与实施例一相比,本实施例的语境词的语境参数还包括了语境词的作用周期以及校对信息。语境词的作用周期,也就是语境词的有效期间或者生存周期。在本实施例中,语境词的作用周期分为即时(用M表示)、半句(用B示)、句子(用J表示)、段落(用D表示)、全局(用Q表示)、我的字词(用W表示)、Z语境(用Z表示)、永久语境(用Y表示)等。应当意识到,语境词的作用周期还可以有其它的分类,或者使用其它方法来表示。
校对信息主要用来把已经上屏的重码错误词自动改为正确的词。例如,语境词“^M0赁”的校对信息是0,表示不需进行校对。而语境词“^M1兑奖”的校对信息是1,表示需要校对一个重码错误词,即向左退格一次删除“况”,然后输出该语境词的文字内容“兑奖”。换言之,该语境词的文字内容“兑奖”的“兑”用于替换已上屏的重码错误字“况”。(举例中关联词或所列举编码请参看“表2:语境校对数据库”)
语境词“^M0赁”的作用周期是即时的,本发明将作用周期为即时的语境词简称为即时语境词。文字输入***产生并输出即时语境词(参考图1的所示的步骤S109)之后,就清除所有的即时语境词(参考图1所示的步骤S111),以恢复原来的候选词顺序。例如,用户输入“租”之后,文字输入***将“租”与检索语境校对数据库内的语境关联词进行完全匹配判断,若为完全匹配就为编码wtfm产生语境词“^M0赁”并将“^M0赁”作为编码wtfm的首选候选词。随后,如果用户输入了wtfm,***显示的候选词列表将变成:
如果用户选择了首选候选词^M0赁,那么,文字输入***在去除了对应的语境参数之后输出“赁”,并清除即时语境词,也就是清除所有的“^M”开头的语境词。此时,wtfm的候选词列表将变成:
Figure G2009101904708D00102
再例如,在用户一次性输入“局面”或者连续累计输入“局”和“面”之后,文字输入***将给编码flyy产生即时语境词“^M2书面协议”,给编码gaaa产生即时语境词“^M2书面形式”,给编码rbtf产生即时语境词“^M2书面报告”,给编码swsj产生即时语境词“^M2书面检查”,给编码swyf产生即时语境词“^M2书面检讨”等等。如果接下来用户输入的编码是flyy,则flyy的首选候选词是“^M2书面协议”。如果用户选择了“^M2书面协议”,那么,文字输入***将执行校对信息——修正已经上屏的两个字。一种修正方式是自动向左退格两次删除掉已经上屏的重码错误“局面”,然后去掉语境信息后输出“书面协议”。相当于该首选候选词的文字内容中的“书面”替换了已上屏的重码错误词“局面”,从而实现了自动校对已上屏的词。
然后,文字输入***清除所有即时语境词——^M开头的语境词,以恢复各个编码原有的候选词顺序。可见,实施本发明,不仅能提高首选候选词的准确度,还能够对已经上屏/输出的重码错误词进行校对/改正。本领域技术人员应当意识到,向左自动退格只是修正重码错误词的一种方法,本发明不局限于使用退格来删除重码错误词,例如,修正重码错误词的的方法还可以是自动向左扩展,也就是相当于组合键【shift】+【←】;或者在“改写”的编辑状态之下,光标自动左移之后,输出首选候选词的文字内容,以覆盖掉原来上屏的内容,从而实现替换已上屏的重码错误词之目的。
再例如,用户一次性输入“受到”或者连续累计输入“受”和“到”之后,文字输入***将给编码gotg产生作用周期为半句的语境词“^B0严惩”。随后,在用户输入标点符号之前,如果用户输入了编码gotg,对应的候选词列表将是:
Figure G2009101904708D00111
也就是说,在用户没有做出特别选择的情况下,应用本发明的文字输入***将输出“严惩”,而不是原来的首选候选词“严重”,从而提高了首选候选词的准确度,降低了文字输入的错误率,减少后期的校对工作量。另外,当用户输入了“,;。!:?”等表示间隔的标点符号时,文字输入***将清除所有的半句语境词——也就是“^B”开头的语境词,以恢复原有的候选词顺序。也就是说,实施本发明并不会扰乱原有的候选词顺序。
再例如,用户输入了“放下屠刀”之后,文字输入***将给编码ufwd产生语境词“^J0立地成佛”。接下来,如果用户输入了ufwd,对应的候选词列表将是:
Figure G2009101904708D00112
当用户输入了“。!?”等表示句子中断或结束的标点符号时,文字输入***将清除所有的句子语境词——也就是“^J”开头的语境词,以恢复原有的候选词顺序。
再例如,用户输入编码djvb(“非她”的五笔编码)时,因为五笔码表数据库中没有对应的词(默认的五笔码表没有把“非她”作为一个词组),因此,djvb的输出为空(这种情况也叫“打空”)。如果用户接着输入编码gibc,那么,首选的候选词将是“^M0非她不娶”,而不是“不娶”或者“不取”。也就是说,编码例如djvb也可以作为语境内容进行检索。实施本发明,能够自动补充因为打空而忽略掉的词。
此外,实施本发明,用户还可以添加、修改、删除自己的语境词。例如,用户可以通过造词的方式,添加全局语境字词“^Q0***”,用户输入其编码“rvat”后生成语境词;又如添加全局语境字词“^Q0梅德韦杰夫”,用户输入其编码“stff”后生成语境词。生成所述语境词之后,用户输入编码“rvat”时***将输出“***”,用户输入编码“stff”时***将输出“梅德韦杰夫”。不需要这些词时,可通过删除词组的方法一个一个删除;也可以通过功能模块,分别删除不同周期的语境词;还可以在输入法“初始化”时自动清除不需要的不同作用周期的语境字词。也就是说,原五笔输入法在输入临时出现的人名、地名以及任何字符组合时,只能按单字输入,效率低并容易出现错误。实施本专利后,可以把它们变成语境词(又或可称为临时词),快速输入,提高了效率和准确率,并且不会产生冗余的词汇。
进一步地,用户还可以对全局语境词进行归类。例如,如用户输入一篇关于河南信阳地区小麦的报道。其中涉及信阳地区的几个县的名称:息县、淮滨县、淮滨、潢川县、潢川、光山县、光山、固始县、商城县、罗山县、罗山、新县……。这些县的名称在一般的文章用到的可能性比较小,因此,有的不属于输入法自带的词组(会导致打空),有的属于输入法自带的词组但不是首选候选词。因此,文字输入的速度、准确度受到了很大的影响。然而,这些词对信阳地区来说却是常用词,经常会用到,这些县名都与“信阳”有密切联系,所以可以将它们收集在以“信阳”为主题的主题语境数据库中。当用户选择“信阳”作为主题语境时,文字输入法***将把“信阳”主题语境库中收集的条目生成相应的语境词——给预设编码生成相对应的语境词内容,并作为预设编码的首选候选词。使这些词能够批量、提前实现上屏前校对。例如,“信阳”主题语境数据库的部分条目可以是:
theg=^Q0息县
iieg=^Q0淮滨县
iwip=^Q0淮滨
……
作为一个替换方案,主题语境数据库的内容条目可以是仅仅包括语境词的文字内容,相关的编码由当前输入法自动生成——根据当前输入法的编码规则(例如拼音编码规则或者五笔编码规则),产生这些词的编码,并对这些词添加全局语境参数(^Q0)形成语境词,并将所产生的语境词作为对应编码的首选候选词,以提高文字输入的速度和准确度。这种替换方案下,主题语境数据库的部分条目可以是:
息县
淮滨县
淮滨
……
当用户不再使用“信阳”主题语境时,例如从“信阳”主题语境切换到其它语境时,或者不使用任何主题语境时,用户可以及时清除***中所有全局语境词——当然,包括与“信阳”有关的语境词也被同时清除,从而自动恢复***原有候选词顺序。
类似地,可以创建“小麦”语境,并将这些词语收集到以“小麦”为主题的主题语境数据库中:麦蚜、回交、白火麦、关东、开裂、发硬、筋力、糯性、农科所、谷物、糯小麦、现场会、不抗、川系、越夏、条锈病、浇水、水带、返青水、测墒、受旱、受旱区、旱区、万亩、玉米。通常,这种主题语境中的语境词的作用范围是当前文档即全局Q,无须校对任何词,所以其校对信息是0,它们语境参数为“^Q0”,采用语境参数“^Q0”。
进一步地,用户在进行文字输入时,可以选用一个或者多个主题语境。例如,在输入一篇关于河南信阳地区小麦的报道时,可以同时选用“信阳”和“小麦”两个主题语境。
综上所述,语境校对数据库可以包括若干语境词,这些语境词的语境关联词可以是一个汉字、一个词组、编码、短语等,而这些语境词的作用周期可以是即时、半句、句子、全局等。此外,还可以构造多种主题语境数据库,用户在进行文字输入时可以选用一个或者多个主题语境。
下面结合图2对文字输入过程进行详细的阐述。
参考图2,步骤S201中,文字输入***进行初始化。初始化的内容可以是以下一项或多项:清除之前使用的语境词;根据用户选择的主题语境批量产生新的全局语境词等。
接着,步骤S202中,文字输入***接收用户的键盘信息。
接着,步骤S203,如果用户输入的是编码,流程进入步骤S204,否则进入步骤S400。
步骤S204中,根据用户输入的编码检索码表数据库,所述码表数据库既包括输入法自带的词组,也包括语境词。如果检索到与编码对应的词,流程进入步骤S205;否则,流程进入步骤S301。
步骤S205中,对即将输出的内容进行检测,判断其中是否包含有语境信息,如果包含了语境参数,则说明该候选词是语境词,那么,流程进入步骤S206。
步骤S206中,分离语境参数以及该语境词所包含的文字内容,从语境参数信息中获取校对信息,并在后续步骤S207中执行该校对信息,例如执行一定次数的退格处理。然后,在步骤S208中输出所分离出的“文字内容”本身并缓存所输出的内容,接着进入步骤S209。
在上述步骤S205中,如果即将输出的内容不存在语境参数,则流程从步骤S205转到步骤S208,输出对应的词并缓存,接着进入步骤S209。
步骤S209中,文字输入***清除即时语境词,即,清除“^M”开头的语境词。
接着,步骤S210中,用所缓存的即时输出的词检索语境校对数据库,如果完全匹配,就给相关的编码生成语境词。例如,如果步骤S208中输出的是“况”,而“况”刚好与语境校对数据中的语境关联词完全匹配,于是,就给编码uqd产生语境词“^M1兑奖”;如果步骤S208中输出的是“屠刀”,而“屠刀”未能与语境校对数据中的语境关联词完全匹配,就不需要产生新的语境词。
步骤S211中,文字输入***还对即时输出的词进行累计,并在步骤S212中根据累计内容对语境校对数据库进行匹配检索,如果匹配就进入步骤S213,否则就进入步骤S302。例如,如果用户上一次输入的是“放下”,“放下”与语境关联词“放下屠刀”匹配但不是完全匹配,就继续累计。接着,如果用户又输入了“屠刀”,那么,步骤S211中累计后的结果就是“放下屠刀”。在步骤S212中,如果累计结果“放下屠刀”与语境关联词“放下屠刀”匹配,流程就进入步骤S213;否则,流程就进入步骤S302清除累计的内容“放下屠刀”,将“屠刀”作为最新的累计结果。再例如,如果用户上一次输入的是“放下”,接着又输入了“重担”,因为累计之后的“放下重担”与语境关联词不匹配,因此,就清除该累计内容,将最新输入的内容“重担”作为最新的累计结果。
步骤S213中,判断累计的内容是否与即时输出的内容是否完全相同,如不相同,就判断累计内容是否与语境关联词完全匹配,如完全匹配,为预设编码产生相应语境词。例,累计的内容“放下屠刀”与即时输出的内容“屠刀”不相同,接着判断累计内容“放下屠刀”与语境关联词是否完全匹配。如果完全匹配,所以就给对应的编码ufdw产生语境词“^J0立地成佛”。另一方面,如果累计的内容与即时输出的内容相同,就说明已经在步骤S210中产生过语境词,所以不需要再重新产生该语境词了,以避免重复产生相同的语境词。
随后,流程可以返回步骤S202,继续接收用户输入的键盘信息。
在上述步骤S204中,如果匹配失败,就说明用户输入的编码没有对应的词。这时候,流程进入步骤S301,将该编码视为输出内容,并进入步骤S210中缓存该编码。例如,用户输入编码djvb时,文字输入***将该编码视为输出内容并缓存,然后在步骤S210中与语境校对数据库进行匹配判断,如果是完全匹配就给编码gibc产生语境词“^M0非她不娶”。换言之,实施本发明,打空的编码也可以作为语境关联内容,用于进行校对操作。
在上述步骤S212中,如果语境校对数据库中没有与目前的累计内容匹配的语境关联词,流程进入步骤S302,清空累计内容,并将步骤S210中缓存的内容作为新的累计内容,然后,流程返回步骤S202。例如,用户首次输入“得”,接着输入“关”,那么,累计内容是“得关”,因为步骤S212中匹配失败,所以在步骤S302中清空该累计内容,并将最近输出的内容“关”作为最新累计的内容。
在上述步骤S203中,如果用户输入的键盘信息不是编码信息,则流程进入步骤S400,输出键盘信息代表的内容,例如标点符号或者其它符号。并且,如果输出的是标点符号,就在步骤S401中清除对应的语境词,例如作用周期为半句或者句子的语境词。然后。流程进入步骤S210。
如上所述,实施本发明能提高首选候选词的准确度,实现文字上屏前自动校对;可以根据语境参数,自动清除已上屏重码错误词,实现文字上屏后自动校对;可以根据语境参数自动清除不同作用周期的语境词,使输入法恢复原来的候选词顺序,不影响原来重码时处在“第1位字词”的使用。且实施本发明,能够自动补充因为打空而忽略掉的词,减少输入后校对工作量。
实施例三
本发明也可以应用到拼音输入法中。在实施时,首先构造语境校对数据库,类似地,该语境校对数据库包括语境关联词、预设编码、与预设编码对应的语境词。语境词包括语境标记、作用周期、校对信息、对应的文字信息等。
  ……
  一身panjue=^M2一审判决
  一身panjueshu=^M2一审判决书
  技术qi=^M2计数器
  事实li=^M2实施例
  ……
表3:语境校对数据库
本实施例的实施方法、步骤与实施例二类似,不再赘述。
实施例四
本发明还可以应用到其它输入法中。其实施方法、步骤与实施例二类似。
以上结合优选实施例对本发明的进行了描述,但是并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。例如,语境词的语境参数可以是其他形式,语境词在候选窗的外观上可以与其他候选词看起来相同,而实质上不同(因为该语境词包含了语境参数)。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1、一种文字输入过程中的自动校对方法,其特征在于,包括以下步骤:
为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;
将所述语境词作为所述预设编码的首选候选词;
接收用户输入的编码,检索与所述编码对应的候选词;
判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。
2、如权利要求1所述的自动校对方法,其特征在于:
语境词的语境参数还包括作用周期,用于表示所述语境词的有效期间;
所述将语境词作为首选候选词的步骤包括:将所述语境词添加到所述预设编码的原有的候选词列表;
所述自动校对方法还包括:删除超出有效期间的语境词,并恢复与该语境词对应的预设编码的原有的候选词列表。
3、如权利要求2所述的自动校对方法,其特征在于,语境词的作用周期包括即时周期,作用周期为即时周期的语境词称为即时语境词;
所述自动校对方法包括:在输出即时语境词的文字内容之后,删除所有的即时语境词。
4、如权利要求2所述的自动校对方法,其特征在于,语境词的作用周期包括句子周期,作用周期为句子周期的语境词称为句子语境词;
所述自动校对方法包括:在用户输入预设的标点符号之后,删除所有的句子语境词。
5、如权利要求1至4中任意一项所述的自动校对方法,其特征在于:
语境词的语境参数还包括校对信息,所述校对信息表示需要校对的字数;
所述输出语境词的文字内容的步骤还包括:根据所述语境词的校对信息,修正已上屏的字。
6、如权利要求5所述的自动校对方法,其特征在于,所述修正已上屏的字的步骤包括:
根据语境词的校对信息自动向左删除一定数量的字;
输出所述语境词的文字内容,所述文字内容的一部分字用于替换所述被删除的一定数量的字。
7、如权利要求5所述的自动校对方法,其特征在于,所述自动校对方法还包括:
构造语境校对数据库,所述语境校对数据库包括语境关联词、预设编码以及对应的语境词;
缓存最近一次输出的内容,判断所缓存的内容是否与所述语境关联词完全匹配,如果完全匹配,就为对应的预设编码产生语境词。
8、如权利要求7所述的自动校对方法,其特征在于,所述自动校对方法还包括:
如果没有候选词与用户输入的编码对应,就将所述用户输入的所述编码作为所述最近一次输出的内容。
9、如权利要求7或8所述的自动校对方法,其特征在于,所述自动校对方法还包括:
累计连续输出的内容,判断所累计的内容是否与所述语境关联词完全匹配,如果完全匹配,就为所述对应的编码产生语境词。
10、如权利要求9所述的自动校对方法,其特征在于,如果所累计的内容与所述语境关联词匹配但不是完全匹配,就继续对输出内容进行累计;如果所累计的内容与所述语境关联词不匹配,就清除该累计的内容,重新累计。
CN2009101904708A 2009-09-18 2009-09-18 文字输入过程中的自动校对方法 Expired - Fee Related CN101661463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101904708A CN101661463B (zh) 2009-09-18 2009-09-18 文字输入过程中的自动校对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101904708A CN101661463B (zh) 2009-09-18 2009-09-18 文字输入过程中的自动校对方法

Publications (2)

Publication Number Publication Date
CN101661463A true CN101661463A (zh) 2010-03-03
CN101661463B CN101661463B (zh) 2011-04-06

Family

ID=41789497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101904708A Expired - Fee Related CN101661463B (zh) 2009-09-18 2009-09-18 文字输入过程中的自动校对方法

Country Status (1)

Country Link
CN (1) CN101661463B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346559A (zh) * 2010-07-30 2012-02-08 腾讯科技(深圳)有限公司 一种输入法中词条的删除方法、装置及文字输入工具
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106951104A (zh) * 2017-02-13 2017-07-14 北京奇虎科技有限公司 一种基于词库的词条处理方法和装置
CN109062903A (zh) * 2018-08-22 2018-12-21 北京百度网讯科技有限公司 用于校正错别字的方法和装置
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149806B (zh) * 2006-09-19 2012-09-05 北京三星通信技术研究有限公司 利用上下文信息进行手写字符识别后处理的方法和装置
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
CN101515205B (zh) * 2008-02-18 2011-07-06 普天信息技术研究院有限公司 中文动态联想输入方法
CN101290632B (zh) * 2008-05-30 2011-09-14 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346559A (zh) * 2010-07-30 2012-02-08 腾讯科技(深圳)有限公司 一种输入法中词条的删除方法、装置及文字输入工具
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN102609410B (zh) * 2012-04-12 2014-12-17 传神联合(北京)信息技术有限公司 规范文档辅助写作***及规范文档生成方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106951104A (zh) * 2017-02-13 2017-07-14 北京奇虎科技有限公司 一种基于词库的词条处理方法和装置
CN109062903A (zh) * 2018-08-22 2018-12-21 北京百度网讯科技有限公司 用于校正错别字的方法和装置
CN113688628A (zh) * 2021-07-28 2021-11-23 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质
CN113688628B (zh) * 2021-07-28 2023-09-22 上海携宁计算机科技股份有限公司 文本识别方法、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN101661463B (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
CN101661463B (zh) 文字输入过程中的自动校对方法
CN102439542B (zh) 电子设备的文本输入***及文本输入方法
CN103076892B (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
CN103440312B (zh) 一种通信地址查询邮政编码的***及终端
CN104102720B (zh) 高效输入的预测方法和装置
CN105094368B (zh) 一种对输入法候选项进行调频排序的控制方法及控制装置
CN108829658A (zh) 新词发现的方法及装置
CN101950309A (zh) 一种面向学科领域的新专业词汇识别方法
CN102135814A (zh) 一种字词输入方法及***
CN107220343A (zh) 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
CN102955833A (zh) 一种通讯地址识别、标准化的方法
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN102866782A (zh) 一种提高整句生成效率的输入法和输入法***
CN102591472A (zh) 一种汉字输入方法和装置
CN104050255B (zh) 基于联合图模型的纠错方法及***
CN103473289A (zh) 一种通信地址补全的装置及方法
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
CN103049458A (zh) 一种修正用户词库的方法和***
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN102955832A (zh) 一种通讯地址识别、标准化的***
CN104102658A (zh) 文本内容挖掘方法及装置
CN103927330A (zh) 一种在搜索引擎中确定形近字的方法和装置
CN102915122A (zh) 基于语言模型的智能移动平台拼音输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110406

Termination date: 20210918

CF01 Termination of patent right due to non-payment of annual fee