CN104915264A - 一种输入纠错方法和装置 - Google Patents

一种输入纠错方法和装置 Download PDF

Info

Publication number
CN104915264A
CN104915264A CN201510290822.2A CN201510290822A CN104915264A CN 104915264 A CN104915264 A CN 104915264A CN 201510290822 A CN201510290822 A CN 201510290822A CN 104915264 A CN104915264 A CN 104915264A
Authority
CN
China
Prior art keywords
content
error correction
correction candidate
mistake
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510290822.2A
Other languages
English (en)
Inventor
马尔胡甫
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201510290822.2A priority Critical patent/CN104915264A/zh
Publication of CN104915264A publication Critical patent/CN104915264A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种输入纠错方法和装置,其中的方法具体包括:获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选;展示提示信息;其中,所述提示信息与所述误上屏内容和/或所述目标纠错候选相应。本发明实施例能够提高该误上屏内容的纠正效率,从而能够提高输入效率和用户体验。

Description

一种输入纠错方法和装置
技术领域
本发明涉及计算机信息输入技术领域,特别是涉及一种输入纠错方法和一种输入纠错装置。
背景技术
对于中文、日文、韩文等用户而言,一般都需要通过输入法***与计算机进行交互。例如,用户可以通过键盘输入编码字符串,然后由输入法***依据其预置的标准映射规则将该编码字符串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
然而,在实际应用中,用户很有可能因为按错键(PC上)或者点错屏幕位置(移动设备上)等原因而导致错误的候选项上屏。例如,用户A在移动设备上与用户B聊天的过程中,假设用户A欲使用九宫格键盘输入“送你的结婚礼物收到了吗”,但是,其在从9键串“543486”对应候选项(如“结婚”、“结果”、“烈火”、“猎国”等)选择上屏内容时,误将候选项“结果”上屏,从而将编辑框中“送你的结果礼物收到了吗”发送给了用户B。
目前,在发现上述将错误的候选项上屏后,用户A往往需要花费移动光标位置、删除误上屏内容、重新输入正确上屏内容等一系列的修正操作,这些修正操作不仅繁琐而且容易引起更多的编辑错误,因此严重影响了用户的输入效率。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种输入纠错方法和一种输入纠错装置。
为了解决上述问题,本发明实施例公开了一种输入纠错方法,包括:
获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;
识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选;
展示提示信息;其中,所述提示信息与所述误上屏内容和/或所述目标纠错候选相应。
优选的,所述识别所述文本内容中的误上屏内容的步骤,包括:
依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中记录有编码串与纠错候选的映射关系;
确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;
在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
优选的,所述纠错候选列表中编码串与纠错候选的映射关系包括:
所述纠错候选的编码串与所述纠错候选列表中编码串重码;和/或
所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;和/或
所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
优选的,所述确定所述误上屏内容对应的目标纠错候选的步骤,包括:
针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;
依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
优选的,所述识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选的步骤,包括:
向服务器发送查询请求;其中,所述查询请求中携带有所述文本内容;
接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
优选的,所述识别所述文本内容中的误上屏内容的步骤,包括:
依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;
依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
优选的,在所述识别所述文本内容中的误上屏内容的步骤之前,所述方法还包括:
依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中记录有符合预置高频条件的语句;
在所述语句白名单中查找命中时,结束处理流程;
则所述识别所述文本内容中的误上屏内容的步骤具体为,在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容。
优选的,所述方法还包括:在接收到用户针对所述提示信息的触发操作后,依据所述目标纠错候选对所述文本内容中的误上屏内容进行替换。
优选的,所述上屏内容包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。
优选的,所述方法还包括:
在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,
向通信对端用户发送替换后的已发送内容的全部内容;或者
向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。
另一方面,本发明实施例还公开了一种输入纠错装置,包括:
获取模块,用于获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;
识别模块,用于识别所述文本内容中的误上屏内容;
确定模块,用于确定所述误上屏内容对应的目标纠错候选;及
展示模块,用于展示提示信息;其中,所述提示信息与所述误上屏内容和/或所述目标纠错候选相应。
优选的,所述识别模块,包括:
第一查找子模块,用于依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中记录有编码串与纠错候选的映射关系;
第一确定子模块,用于确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;及
第二确定子模块,用于在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
优选的,所述纠错候选列表中编码串与纠错候选的映射关系包括:
所述纠错候选的编码串与所述纠错候选列表中编码串重码;和/或
所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;和/或
所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
优选的,所述确定模块,包括:
排序子模块,用于针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;及
选择子模块,用于依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
优选的,所述识别模块,包括:
发送子模块,用于向服务器发送查询请求;其中,所述查询请求中携带有所述文本内容;
接收子模块,用于接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
优选的,所述识别模块,包括:
第二查找子模块,用于依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;及
第三确定子模块,用于依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
优选的,所述装置还包括:
白名单查找模块,用于在所述识别模块识别所述文本内容中的误上屏内容之前,依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中记录有符合预置高频条件的语句;
结束模块,用于在所述语句白名单中查找命中时,结束处理流程;
则所述识别模块,具体用于在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容。
优选的,所述装置还包括:
第一替换模块,用于在接收到用户针对所述提示信息的触发操作后,依据所述目标纠错候选对所述文本内容中的误上屏内容进行替换。
优选的,所述上屏内容包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。
优选的,所述装置还包括:
第一发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送替换后的已发送内容的全部内容;或者
第二发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。
本发明实施例包括以下优点:
本发明实施例自动识别文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选,进而展示该误上屏内容和该目标纠错候选对应的提示信息;上述提示信息能够帮助用户发现对应的误上屏内容,并向用户提供该误上屏内容对应的目标纠错候选,进而可以帮助用户快速修正该误上屏内容;例如,在用户认可上述提示信息(在接收到用户针对所述提示信息的触发操作)时,可以依据对应目标纠错候选对该误上屏内容进行替换,这相对于现有方案中用户需要花费修正操作来纠正该误上屏内容,本发明实施例能够提高该误上屏内容的纠正效率,从而能够提高输入效率和用户体验。
附图说明
图1是本发明的一种输入纠错方法实施例一的步骤流程图;
参照图2A、图2B和图2C,分别示出了本发明的一种输入纠错示例1的界面示意图;
参照图3A和图3B,分别示出了本发明的一种输入纠错示例2的界面示意图;
参照图4A和图4B,分别示出了本发明的一种输入纠错示例3的界面示意图;
参照图5A和图5B,分别示出了本发明的一种输入纠错示例4的界面示意图;
图6是本发明的一种输入纠错方法实施例二的步骤流程图;
图7是本发明的一种输入纠错方法实施例三的步骤流程图;及
图8是本发明的一种输入纠错装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
方法实施例一
参照图1,示出了本发明的一种输入纠错方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101、获取文本内容;其中,所述文本内容具体可以包括:用户输入的上屏内容和/或接收的信息文本内容;
本发明实施例可以应用于各种输入方式的输入法***,这些输入方式具体可以包括键盘符号、手写信息、语音信息的方式等等,也即,用户可以通过编码字符串、手写输入信息、语音输入信息等方式输入上述上屏内容。下面具体以编码字符串的输入方式为例进行说明,其它输入方式相互参照即可。
在输入法领域,无论是中文、日文、韩文还是其它语言的输入法,都是将用户输入的编码字符串转换成相应语言的候选项,然后由用户来选择输出至应用程序的内容,这里输出至应用程序的内容也即上述上屏内容。
在用户的连续输入过程中,一旦通过上屏动作输出上屏内容,这些上屏内容都可被输入法***或者对应应用程序获取到。例如:送你的|结果|礼物|收到了吗(“|”表示用户的上屏动作),四次上屏内容都可以会被依次被获取到。本发明实施例对用户输入的上屏内容的具体获取方式不加以限制。
需要说明的是,上述应用程序可以为各种需要文字输入的应用程序,如浏览器程序、游戏程序、通信程序、OFFICE程序等等。在本发明的一种优选实施例中,假设上述应用程序为通信程序,则所述文本内容具体可以包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。也即,本发明实施例的上屏内容既可以包括尚在编辑中的未发送内容,也可以包括编辑完成的已发送内容。本发明实施例对需要处理的具体上屏内容不加以限制。
在本发明的另一种优选实施例中,假设上述应用程序为通信程序,则接收的信息文本内容可以为通信对端用户发送的信息文本内容,例如,通信对端用户通过即时通信程序、短消息程序、电子邮件程序等通信程序发送的信息文本内容等等。也即,本发明实施例也可以对通信对端用户发送的信息文本内容进行纠正,以提高用户的使用体验。本发明实施例对接收的信息文本内容的具体获取方式不加以限制。
步骤102、识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选;
在文字输入过程中,用户可能因为按错键或者点错屏幕位置等原因而导致错误的候选项上屏。本发明实施例中,误上屏内容可用于表示不符合用户意图的上屏内容,也即,本发明实施例可以识别不符合用户意图的误上屏内容,而对造成该误上屏内容的原因不加以限制。
本发明实施例可以提供如下识别所述文本内容中的误上屏内容的技术方案:
识别方案一
识别方案一可以通过纠错候选列表识别所述文本内容中的误上屏内容,其具体可以包括如下子步骤:
子步骤S11、依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中可以记录有编码串与纠错候选的映射关系;
在具体实现中,上述纠错候选列表中编码串与纠错候选的映射关系具体可以包括如下映射关系中的至少一种:
映射关系一、所述纠错候选的编码串与所述纠错候选列表中编码串重码;
上述映射关系一可以适用于纠错候选的编码串与所述纠错候选列表中编码串重码的情形,这里的重码具体可以包括:拼音串的重码和字形串的重码等等;
其中,适用于全键盘(如26键)上的重码情形,纠错候选的编码串可以与所述纠错候选列表中编码串同音,例如,与所述纠错候选列表中编码串“dujia”同音的编码串对应纠错候选具体可以包括:“度假”、“独家”、“杜家”等等;
适用于非全键盘(如9键)上的重码情形,纠错候选的编码串还可以为与所述纠错候选列表中编码串在非全键盘上重码的编码串,例如,在九宫格键盘上,与所述纠错候选列表中编码串“jiehun”重码的编码串具体可以包括:“jieguo”、“liehuo”、“lieguo”、“jieguo”、“jiehuo”等等;这些与“jiehun”重码的编码串对应纠错候选均可以在本发明实施例的应用范围内容;
字形串可以适用于形码、五笔等输入法***,例如,编码串“aw”对应的纠错候选具体可以包括:“茶”和“荼”等等;
在建立上述映射关系一的过程中,可以收集常用或者易错的编码串,并依据词频等因素从与该编码串重码的编码串对应候选中选择对应的纠错候选,本发明实施例对建立上述映射关系一的具体方式不加以限制。
映射关系二、所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;
上述预置配对关系可以为用户习惯输错的易错词与正确词之间的映射关系,如“账户”—“帐户”,“甘败下风”—“甘拜下风”等等;还可以为方言与普通话之间的映射关系,如“前个”—“前天”,“制达”—“这里”等等。
在具体实现中,可以采用人工、自动等方式收集具有上述预置配对关系的词条,并建立上述映射关系二,本发明实施例对具体的预置配对关系及建立上述映射关系二的具体方式不加以限制。
映射关系三、所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
本发明实施例中,编辑距离可用于表示两个编码串之间,由一个转成另一个所需的最少编辑操作次数。上述编辑操作具体可以包括将一个字符替换成另一个字符、***一个字符、及删除一个字符的操作等等。
在本发明的一种应用示例1中,“xingfu”和“xinfu”的编辑距离为1,则可以互为纠错候选,也即,可以将“xingfu”对应候选作为“xinfu”的纠错候选,以解决用户在漏输情形下的纠错问题;或者,还可以将“xinfu”对应候选作为“xingfu”的纠错候选,以解决在多输情形下的纠错问题。
在本发明的另一种应用示例2中,“yingxiong”和“yingxiang”的编辑距离为2,则可以互为纠错候选,以解决在错输情形下的纠错问题。
可以理解,本领域技术人员可以根据实际需要确定上述距离阈值,如,其可以为1、2等数值,本发明实施例对具体的距离阈值不加以限制。另外,本发明实施例还可以利用上述编辑距离解决在其它情形下的纠错问题,如相邻两个字符位置颠倒情形下的纠错问题等等。
上面对所述纠错候选列表中编码串与纠错候选的映射关系进行了详细介绍,可以理解,本领域技术人员可以根据实际需要采用上述映射关系中的一种或者组合,或者,还可以采用其它映射关系,本发明的映射关系可以覆盖导致误上屏内容的所有原因,本发明实施例对具体的映射关系不加以限制。
在具体实现中,可以按照顺序扫描上述文本内容对应句子中的词条,并依据各词条对应编码串在上述纠错候选列表中进行查找,以得到与各词条对应编码串匹配的纠错候选。在本发明的一种应用示例3中,假设用户在九宫格键盘上输入的上屏内容对应句子为“送你的结果礼物收到了吗”中的词条分别为“送”、“你的”、“结果”、“收到”、“了吗”,以“结果”为例,其对应拼音编码串为“jieguo”,则可以利用上述映射关系一查找得到“jieguo”匹配的纠错候选:“结婚”、“烈火”、“猎国”等。
需要说明的是,可以根据上述上屏内容中的标点符号确定对应句子。或者,考虑到用户输入长句后停顿的输入习惯、或者用户输入和发送信息后需要等待通信对端用户的回复再继续输入的特性,还可以根据用户上屏操作的时间间隔确定对应句子,例如,用户通过当前次上屏操作将“送你的结果礼物收到了吗”上屏,该次上屏操作距离上次上屏操作及下次上屏操作的时间间隔均大于对应的时间阈值,则可以判断当前次上屏操作对应上屏内容为一个句子,本发明实施例对具体的时间阈值不加以限制。并且,可以对上述句子进行分词以得到相应的词条,本发明实施例对上述上屏内容中句子及上述句子中词条的具体确定方法不加以限制。
子步骤S12、确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;
在具体实现中,可以从预置的语料库中,获取至少两个词汇之间的组合信息,所述组合信息具体可以包括所述至少两个词汇之间的搭配关系和连接参数。
在本发明的一种优选实施例中,可以采用二元和二元以上的关系数据存储上述至少两个词汇之间的组合信息,并利用二元和二元以上的关系数据,分析得到查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;
二元关系,又称2-gram,可用于表示两个元素相继出现的概率,在输入法领域,这里的元素可以是音素、音节、笔画字符串、字母或单词等。本发明实施例中,所述二元具体可以包括词汇的二元关系、音节的二元关系、音素和字母的二元关系。二元以上的关系则可用于表示两个以上元素相继出现的概率,例如,可用三元关系表示词汇“送你的”、“结婚”和“礼物”相继出现的概率。以下主要以二元关系为例进行说明,二元以上的关系请参照即可。
为保证二元关系数据的准确性、代表性,在本发明的一种优选实施例中,可以采用同一语料库对中/英词汇和/或英/英词汇和/或中/中词汇的二元关系数据进行统计,得到二元库。其中,所述语料库可以为基于网络爬虫技术获取的互联网语料库,也可以为云计算输入法积累的语料库;另外,所述互联网可以为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库等等,本发明实施例对具体的语料库不加以限制。
为反映两个词汇邻接使用的概率,在具体实现中,可以采用所述二元库存储两个词汇之间的搭配关系和连接参数;其中,所述两个词汇可以包括中文词汇和中文词汇,中文词汇和英文词汇,英文词汇和中文词汇,以及,英文词汇和英文词汇,等等。
表1
搭配关系 连接参数
按住-shift 0.8732
shift-键 0.9578
案-住 0.0023
结果礼物 0.0018
结婚礼物 0.8769
I-see 0.9854
参照表1,示出了本发明一种二元库的片段示例,这里,第一列表示两个词汇之间的搭配关系,第二列表示所述搭配关系的连接参数;进一步,所述连接参数可以包括:相邻同现概率、同现频率或连接强度值等,其中,所述相邻同现概率可依据所述语料库统计获得,所述同现概率可依据两个词汇的相邻同现概率以及所述两个词汇的词频计算获得,所述连接强度值可依据两个词汇的相邻同现概率和同现概率计算获得。可以理解,所述连接参数可以是任一种表明词汇搭配关系强度的数值,本发明实施例对此不加以限制。另外,所述二元库的形式可以根据需要任意设置,本发明实施例对此不作限定。
对于上述应用示例3,匹配成功的编码串为“jiehun”,则可以通过查询表1,确定“jiehun”对应的纠错候选“结婚”与所述词条“结果”的下文“礼物”之间具有搭配关系,且对应的连接参数为0.8769。
在本发明的一种应用示例4中,假设用户在全键盘上输入的上屏内容对应句子为“一直案主Shift键直到开机结束”中的词条分别为“一直”、“案主”、“Shift”、“键”、“直到”、“开机”、“结束”,并且,假设在纠错候选列表中查找得到与“案主”对应编码串“anzhu”匹配的编码串“anzhu”,编码串“anzhu”对应的纠错候选具体可以包括:“按住”、“暗柱”、“庵主”等,则可以通过查询表1,确定“按住”与“案主”的下文“shift”具有搭配关系,且对应的连接参数为0.8732,而“暗柱”、“庵主”均与“shift”不具有搭配关系。
需要说明的是,上述主要以查找得到的纠错候选与所述词条的下文之间的组合信息为例进行了说明,可以理解,上述组合信息还可以包括:查找得到的纠错候选与所述词条的上文之间的组合信息。
子步骤S13、在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
本领域技术人员可以根据实际需要采用任意的预置组合条件,如一种预置组合条件的示例可以为:查找得到的纠错候选与所述词条的上文和/或下文之间具有搭配关系,且对应的连接参数大于参数阈值,这里的参数阈值可由本领域技术人员依据实际情况确定,如其为0.8等等。
可以理解,在上述组合信息不符合预置组合条件时,可以认为所述词条不是所述文本内容中的误上屏内容,进一步,在所述文本内容中的所有词条均不是所述文本内容中的误上屏内容时,可以认为所述文本内容中不存在误上屏内容。
与上述识别方案一相对应,在所述误上屏内容对应的目标纠错候选的数目大于一个时,所述确定所述误上屏内容对应的目标纠错候选的步骤,具体可以包括:
子步骤S21、针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;
在具体实现中,可以收集所有客户端的用户数据,并对所收集的用户数据进行统计,得到一个词条为另一词条的目标内容(纠错后内容)的概率。例如,在本发明的一种应用示例中,可以采用模式识别等统计方法对上述用户数据进行统计,得到相应的纠错模型,这样,在向该纠错模型中输入误上屏内容A和纠错候选B时,该纠错模型可以输出该误上屏内容A被用户删除后重新输入该纠错候选B的概率,也即,该纠错候选B为该误上屏内容A的纠错后内容的概率。需要说明的是,该纠错模型只是作为统计一个词条为另一词条的目标内容的概率的示例,实际上,本领域技术人员采用任意统计方法统计一个词条为另一词条的目标内容的概率,本发明实施例对具体的统计方法不加以限制。
在本发明的一种应用示例中,假设该纠错候选B与该误上屏内容A的上文和/或下文之间的组合信息为score1,该纠错候选B为该误上屏内容A的目标内容的概率为score2,则可以对score1和score2进行加权平均,并依据对应的加权平均结果对所述查找得到的纠错候选进行排序。
子步骤S22、依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
在实际应用中,可以根据实际需要,选择一个或多个目标纠错候选,本发明实施例对目标纠错候选的具体数目不加以限制。假设上述排序结果涉及上述加权平均结果从大到小的顺序,则可以选择排在前面的一个或多个目标纠错候选。其中,在目标纠错候选为多个时,可以采用下拉菜单形式或者并列形式对该多个目标纠错候选进行展示,以供用户选择。
识别方案二
识别方案二可以通过纠错用户词库识别所述文本内容中的误上屏内容,其具体可以包括如下子步骤:
子步骤S31、依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条具体可以包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条具体可以包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;
子步骤S32、依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
在具体实现中,可以依据用户的历史纠错行为在上述纠错用户词库中建立源词条和目标词条的映射关系对应的数据记录,例如,用户的某次历史纠错行为将“结果”纠正为“结婚”,则本发明实施例可以将“结果”及对应的文和/或下文词条作为源词条(如“结果礼物”),以及将“结婚”及对应的文和/或下文词条作为目标词条(如“结婚礼物”);从而,在该用户的后续输入过程中,可以利用上述纠错用户词库识别所述文本内容中的误上屏内容。
例如,对于上述应用示例3对应上屏内容对应句子“送你的结果礼物收到了吗”,可以将其中的词条与上述纠错用户词库中源词条进行匹配,其中,“结果礼物”与上述纠错用户词库中源词条匹配成功,因此,可以确定“结果”为误上屏内容,以及,确定目标词条为该误上屏内容对应的目标纠错候选。
以上对识别所述文本内容中的误上屏内容的识别方案进行了详细介绍,可以理解,本领域技术人员可以根据实际需要采用上述识别方案中的任一或者组合,例如,可以首先执行上述识别方案二,在查找命中时可以结束识别流程,而在查找未命中时可以执行上述识别方案一。可以理解,还可以采用其它识别方案,本发明实施例对具体的识别方案不加以限制。
需要说明的是,本领域技术人员可以根据实际需要,设置上述识别方案的执行时机,例如,可以将获取的文本内容放至缓存,并监测缓存中内容,当缓存中内容包含完整的句子时,即可执行上述识别方案,可以理解,本发明实施例对上述识别方案的执行时机不加以限制。
另外,需要说明的是,上述识别方案可由客户端来执行,也可由服务器来执行,其中,通过服务器执行上述识别方案,可发挥服务器计算资源丰富的优势,尤其地,在上述服务器为云服务器时,可以发挥云服务器计算资源丰富、分布式计算的优势,提高识别的速度和准确度。
在本发明的一种实施例中,在服务器执行上述识别方案时,所述识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选的步骤,具体可以包括:
子步骤S41、向服务器发送查询请求;其中,所述查询请求中可以携带有所述文本内容;
子步骤S42、接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
步骤103、展示提示信息;其中,上述提示信息可以与所述误上屏内容和/或所述目标纠错候选相应。
上述提示信息既可用于提示上述文本内容中存在误上屏内容,可选地,上述提示信息还可用于提示该误上屏内容对应的目标纠错候选。
在具体实现中,上述提示信息的展示方式具体可以包括:视觉展示方式和听觉展示方式等等,其中,上述视觉展示方式具体可以包括如下展示方式中的至少一种:弹泡展示、在输入法联想候选项中显示、对该误上屏内容进行标记显示等方式。例如,可以对该误上屏内容染红或者显示红色的波浪线以高亮显示,并在弹出的提示泡中提供相应的目标纠错候选等,本发明实施例对上述提示信息的具体展示方式不加以限制。
综上,本发明实施例自动识别文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选,进而展示该误上屏内容和该目标纠错候选对应的提示信息;上述提示信息能够帮助用户发现对应的误上屏内容,并向用户提供该误上屏内容对应的目标纠错候选,进而可以帮助用户快速修正该误上屏内容;例如,在用户认可上述提示信息(在接收到用户针对所述提示信息的触发操作)时,可以依据对应目标纠错候选对该误上屏内容进行替换,这相对于现有方案中用户需要花费修正操作来纠正该误上屏内容,本发明实施例能够提高该误上屏内容的纠正效率,从而能够提高输入效率和用户体验。
在本发明的一种实施例中,可以首先展示所述误上屏内容对应的第一提示信息,并在接收到用户对于该第一提示信息的触发操作后,展示所述目标纠错候选对应的第二提示信息。参照图2A、图2B和图2C,分别示出了本发明的一种输入纠错示例1的界面示意图,该输入纠错示例1涉及采用九宫格键盘在应用程序的编辑框中进行文字输入的场景,在检测到该编辑框中上屏内容“送你的结果礼物收到了吗”存在误上屏内容“结果”时,图2A可以对该误上屏内容“结果”进行标记显示;在接收到用户对于标记显示的该误上屏内容“结果”的触发操作时,可以对该误上屏内容“结果”展示对应的下划线,并在其上方区域弹泡展示相应的目标纠错候选“结婚”;在接收到用户对于该弹泡的触发操作时,图2C可以将误上屏内容“结果”替换为弹泡对应的目标纠错候选“结婚”。
在本发明的另一种实施例中,可以同时展示所述误上屏内容对应的第一提示信息、以及所述误上屏内容和所述目标纠错候选对应的第二提示信息。参照图3A和图3B,分别示出了本发明的一种输入纠错示例2的界面示意图,该输入纠错示例2涉及采用九宫格键盘在应用程序的编辑框中进行文字输入的场景,在检测到该编辑框中上屏内容“送你的结果礼物收到了吗”存在误上屏内容“结果”时,图3A可以对该误上屏内容“结果”进行标记显示,并对该误上屏内容“结果”的上方区域弹泡展示其及对应目标纠错候选“结果->结婚”;在接收到用户对于该弹泡的触发操作时,图3B可以将误上屏内容“结果”替换为弹泡对应的目标纠错候选“结婚”。
需要说明的是,当上述上屏内容为通信程序中内容时,所述方法还可以包括:在接收到用户针对所述提示信息的触发操作后、且在所述文本内容已被通信程序发送时,向通信对端用户发送替换后的已发送内容的全部内容;或者向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。其中,所述位置信息可以为该误上屏内容在上述已发送内容中的如行数、在该行中的字数等信息。
参照图4A和图4B,分别示出了本发明的一种输入纠错示例3的界面示意图,该输入纠错示例3涉及采用九宫格键盘在应用程序中进行文字输入的场景,在检测到该应用程序的聊天框中上屏内容“送你的结果礼物收到了吗”存在误上屏内容“结果”时,该上屏内容已被发送给对方用户,则图4A可以对聊天框中的该误上屏内容“结果”进行标记显示,并在该误上屏内容的下方区域弹泡展示相应的内容“搜狗提示:点此替换“结果”为“结婚””;在接收到用户对于该弹泡的触发操作时,图4B可以将误上屏内容“结果”替换为弹泡对应的目标纠错候选“结婚”,并对替换后的整条已发送内容、或者目标纠错候选和对应的误上屏内容的位置信息(如正数第4个汉字开始的结果一词有误,目标纠错候选为结婚)进行重新发送。
参照图5A和图5B,分别示出了本发明的一种输入纠错示例4的界面示意图,该输入纠错示例4涉及对通信对端用户发送的信息文本内容进行识别和纠正的场景,其中,在检测到该应用程序的聊天框中对方用户发送的内容“送你的结果礼物收到了吗”存在误上屏内容“结果”时,则图5A可以对聊天框中的该误上屏内容“结果”进行标记显示,并在该误上屏内容的下方区域弹泡展示相应的内容“搜狗提示:点此替换“结果”为“结婚””;在接收到用户对于该弹泡的触发操作时,图5B可以将误上屏内容“结果”替换为弹泡对应的目标纠错候选“结婚”。也即,本示例中,不仅可以在本地产生的上屏内容进行识别和纠正,还可以对接收到的、通信对端用户产生的上屏内容进行识别和纠正。
方法实施例二
参照图6,示出了本发明的一种输入纠错方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤601、获取文本内容;其中,所述文本内容具体可以包括:用户输入的上屏内容和/或接收的信息文本内容;
步骤602、依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中可以记录有符合预置高频条件的语句;
步骤603、在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容,并确定所述误上屏内容对应的目标纠错候选;
步骤604、展示提示信息;其中,所述提示信息可以与所述误上屏内容和/或所述目标纠错候选相应;
步骤605、在所述语句白名单中查找命中时,结束处理流程。
相对于实施例一,本实施例还可以在识别所述文本内容中的误上屏内容之前,依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述词条匹配的目标语句;其中,所述语句白名单中可以记录有符合预置高频条件的语句,由于符合预置高频条件的口语短句或者口语短语通常不存在错误,这样,在查找得到与当前句子匹配的目标语句时,可以判定当前句子不存在错误,因此可以结束对应的处理流程;而在未查找到与当前句子匹配的目标语句(也即所述语句白名单中查找未命中)时,无法判定当前句子不存在错误,因此还需要通过步骤603识别该当前句子的误上屏内容。
在具体实现中,可以根据实际需要确定上述预置高频条件,例如,上述预置高频条件可以为:口语短句的输入频率大于第一阈值,或者,口语短句的输入用户数大于第二阈值等等,本发明实施例对具体的预置高频条件不加以限制。
综上,本实施例在识别所述文本内容中的误上屏内容之前,依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述词条匹配的目标语句;由于在查找得到与当前句子匹配的目标语句时,可以判定当前句子不存在错误,进而可以结束对应的处理流程,因此,本实施例提供了一种高效、可信的判定句子无误的方案,从而能够提高文本内容的处理效率。
方法实施例三
参照图7,示出了本发明的一种输入纠错方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤701、客户端获取文本内容;其中,所述文本内容具体可以包括:用户输入的上屏内容和/或接收的信息文本内容;
步骤702、客户端向云服务器发送查询请求;其中,所述查询请求中可以携带有上述文本内容;
步骤703、云服务器识别所述查询请求所携带文本内容中的误上屏内容;
步骤704、云服务器判断是否识别得到误上屏内容,若是,则执行步骤705,否则执行步骤707;
步骤705、云服务器确定所述误上屏内容对应的目标纠错候选;
步骤706、云服务器向客户端返回查询结果;其中,所述查询结果具体可以包括:误上屏内容和对应的目标纠错候选;
步骤707、云服务器向客户端返回查询结果;其中,所述查询结果具体可以包括:无错误内容对应的标识信息;
步骤708、客户端接收所述云服务器针对所述查询请求返回的查询结果;
步骤709、客户端判断上述查询结果中是否存在误上屏内容,若是,则执行步骤710,否则,返回执行所述步骤701;
步骤710、客户端展示提示信息;其中,所述提示信息可以与所述误上屏内容和/或所述目标纠错候选相应;
步骤711、监测用户对于上述提示信息的触发操作,若监测到,则执行步骤712,否则,返回执行所述步骤701;
步骤712、依据对应目标纠错候选对该误上屏内容进行替换。
相对于实施例一,本实施例中由云服务器执行识别上屏内容中的误上屏内容和确定所述误上屏内容对应的目标纠错候选的操作,因此,能够发挥云服务器计算资源丰富、分布式计算的优势,提高识别的速度和准确度。
在实际应用中,可以将获取的文本内容放至缓存,并监测缓存中内容,当缓存中内容包含完整的句子时,即可通过步骤702将上述完整的句子携带在上述查询请求中并发送给云服务器。当然,本发明实施例对向服务器发送查询请求的时机及上述查询请求中携带的具体文本内容不加以限制。
需要说明的是,当上述上屏内容为通信程序中内容时,在上述步骤712之前,所述方法还可以包括:判断上述提示信息对应的上屏内容是否已被发送,若是,则向通信对端用户发送替换后的已发送内容的全部内容;或者向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息;否则,可以执行步骤712。
为使本领域技术人员更好地理解本发明实施例,在此提供本发明实施例的应用场景;
应用场景1
应用场景1涉及短消息编辑框中上屏内容的处理,其对应的处理流程具体可以包括:
S51、获取用户在短消息编辑框中输入的上屏内容:“送你的结果礼物收到了吗”;
S52、向云服务器发送查询请求;其中,所述查询请求中可以携带有上述上屏内容;
S53、接收云服务器返回的查询结果:“内容中,正数第4个汉字开始的结果一词有误,目标纠错候选为结婚”;
S54、将短消息编辑框中的“结果”标红,并弹泡提示相应的目标纠错候选“结婚”;
S55:在接收到用户对于提示泡的点击操作后,用“结婚”替换短消息编辑框中标红的“结果”,此时短消息编辑框中的内容变为“送你的结婚礼物收到了吗”。
应用场景1可以帮助用户及早发现误上屏内容,并提示用户进行修改;并且,当用户认可该提示(点击提示泡)时,可以进一步帮助用户快速地对该误上屏内容进行修正,从而能够节省用户的手动编辑代价,提高该误上屏内容的修正效率和用户的文字输入效率。
应用场景2
应用场景1涉及即时通信编辑框中上屏内容的处理,其对应的处理流程具体可以包括:
S61、获取用户在即时通信编辑框中输入的上屏内容:“如火如茶是什么意思啊?”;
S62、向云服务器发送查询请求;其中,所述查询请求中可以携带有上述上屏内容;
S63、接收云服务器返回的查询结果:“内容中,正数第1个字开始的如火如茶一词有误,目标纠错候选为如火如荼”;
S64、在用户已将上述上屏内容发送给对方时,将即时通信聊天框内已发送内容中的“如火如茶”标红,并弹泡提示相应的目标纠错候选为“如火如荼”;
S65、在接收到用户对于提示泡的点击操作后,复制上述已发送内容,用“如火如荼”替换被标红的“如火如茶”,并将替换后的已发送内容发送给对方。
传统方案中,若在发送给对方之前未能发现误上屏错误,则用户不得不重新输入刚刚发送的内容再发送给对方(或者手动复制粘贴刚刚发送的内容并修改其中的错误,再发送给对方),这样,严重影响了即时通信的效率;
而应用场景2可以在上述情形下帮助用户快速地完成误上屏内容的修正,并重新发送修正后的内容,因此能够降低复杂的修改操作代价。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图8,示出了本发明的一种输入纠错装置实施例的结构框图,具体可以包括如下模块:
获取模块801,用于获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;
识别模块802,用于识别所述文本内容中的误上屏内容;
确定模块803,用于确定所述误上屏内容对应的目标纠错候选;及
展示模块804,用于展示提示信息;其中,所述提示信息可以与所述误上屏内容和/或所述目标纠错候选相应。
在本发明的一种优选实施例中,所述识别模块802,包括:
第一查找子模块,用于依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中记录有编码串与纠错候选的映射关系;
第一确定子模块,用于确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;及
第二确定子模块,用于在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
在本发明的另一种优选实施例中,所述纠错候选列表中编码串与纠错候选的映射关系具体可以包括:
所述纠错候选的编码串与所述纠错候选列表中编码串重码;和/或
所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;和/或
所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
在本发明的再一种优选实施例中,所述确定模块803,具体可以包括:
排序子模块,用于针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;及
选择子模块,用于依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
在本发明的又一种优选实施例中,所述识别模块802,具体可以包括:
发送子模块,用于向服务器发送查询请求;其中,所述查询请求中携带有所述文本内容;
接收子模块,用于接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
在本发明的一种优选实施例中,所述识别模块802,具体可以包括:
第二查找子模块,用于依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条具体可以包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条具体可以包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;及
第三确定子模块,用于依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
在本发明的又一种优选实施例中,所述装置还可以包括:
白名单查找模块,用于在所述识别模块识别所述文本内容中的误上屏内容之前,依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中记录有符合预置高频条件的语句;
结束模块,用于在所述语句白名单中查找命中时,结束处理流程;
则所述识别模块,具体用于在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容。
在本发明的再一种优选实施例中,所述装置还可以包括:
第一替换模块,用于在接收到用户针对所述提示信息的触发操作后,依据所述目标纠错候选对所述文本内容中的误上屏内容进行替换。
在本发明实施例中,优选的是,所述上屏内容具体可以包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。
在本发明的又一种优选实施例中,所述装置还可以包括:
第一发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送替换后的已发送内容的全部内容;或者
第二发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种输入纠错方法和一种输入纠错装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种输入纠错方法,其特征在于,包括:
获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;
识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选;
展示提示信息;其中,所述提示信息与所述误上屏内容和/或所述目标纠错候选相应。
2.根据权利要求1所述的方法,其特征在于,所述识别所述文本内容中的误上屏内容的步骤,包括:
依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中记录有编码串与纠错候选的映射关系;
确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;
在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
3.根据权利要求2所述的方法,其特征在于,所述纠错候选列表中编码串与纠错候选的映射关系包括:
所述纠错候选的编码串与所述纠错候选列表中编码串重码;和/或
所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;和/或
所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
4.根据权利要求2所述的方法,其特征在于,所述确定所述误上屏内容对应的目标纠错候选的步骤,包括:
针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;
依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
5.根据权利要求1所述的方法,其特征在于,所述识别所述文本内容中的误上屏内容,并确定所述误上屏内容对应的目标纠错候选的步骤,包括:
向服务器发送查询请求;其中,所述查询请求中携带有所述文本内容;
接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
6.根据权利要求1所述的方法,其特征在于,所述识别所述文本内容中的误上屏内容的步骤,包括:
依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;
依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
7.根据权利要求1所述的方法,其特征在于,在所述识别所述文本内容中的误上屏内容的步骤之前,所述方法还包括:
依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中记录有符合预置高频条件的语句;
在所述语句白名单中查找命中时,结束处理流程;
则所述识别所述文本内容中的误上屏内容的步骤具体为,在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:在接收到用户针对所述提示信息的触发操作后,依据所述目标纠错候选对所述文本内容中的误上屏内容进行替换。
9.根据权利要求1至8中任一所述的方法,其特征在于,所述上屏内容包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,
向通信对端用户发送替换后的已发送内容的全部内容;或者
向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。
11.一种输入纠错装置,其特征在于,包括:
获取模块,用于获取文本内容;其中,所述文本内容包括:用户输入的上屏内容和/或接收的信息文本内容;
识别模块,用于识别所述文本内容中的误上屏内容;
确定模块,用于确定所述误上屏内容对应的目标纠错候选;及
展示模块,用于展示提示信息;其中,所述提示信息与所述误上屏内容和/或所述目标纠错候选相应。
12.根据权利要求11所述的装置,其特征在于,所述识别模块,包括:
第一查找子模块,用于依据所述文本内容中词条对应的编码串,在纠错候选列表中进行查找,以得到与所述编码串匹配的纠错候选;其中,所述纠错候选列表中记录有编码串与纠错候选的映射关系;
第一确定子模块,用于确定查找得到的纠错候选与所述词条的上文和/或下文之间的组合信息;及
第二确定子模块,用于在所述组合信息符合预置组合条件时,将所述词条确定为所述文本内容中的误上屏内容。
13.根据权利要求12所述的装置,其特征在于,所述纠错候选列表中编码串与纠错候选的映射关系包括:
所述纠错候选的编码串与所述纠错候选列表中编码串重码;和/或
所述纠错候选与所述纠错候选列表中编码串对应的词条具有预置配对关系;和/或
所述纠错候选的编码串与所述纠错候选列表中编码串之间的编辑距离小于距离阈值。
14.根据权利要求12所述的装置,其特征在于,所述确定模块,包括:
排序子模块,用于针对查找得到的纠错候选,依据其与所述误上屏内容的上文和/或下文之间的组合信息和/或其为所述误上屏内容对应目标内容的概率,对所述查找得到的纠错候选进行排序;及
选择子模块,用于依据排序结果,从所述查找得到的纠错候选中选择一个或多个对应的目标纠错候选。
15.根据权利要求11所述的装置,其特征在于,所述识别模块,包括:
发送子模块,用于向服务器发送查询请求;其中,所述查询请求中携带有所述文本内容;
接收子模块,用于接收所述服务器针对所述查询请求返回的误上屏内容和对应的目标纠错候选。
16.根据权利要求11所述的装置,其特征在于,所述识别模块,包括:
第二查找子模块,用于依据所述文本内容中词条,在纠错用户词库中进行查找,以得到与所述词条匹配的目标词条;其中,所述纠错用户词库中记录有源词条和目标词条的映射关系,所述源词条包括:历史纠错行为对应的纠错前词条及对应的上文和/或下文词条;所述目标词条包括:所述历史纠错行为对应的纠错后词条及对应的上文和/或下文词条;及
第三确定子模块,用于依据所述词条和其匹配的目标词条中的上文和/或下文词条,得到对应的误上屏内容。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括:
白名单查找模块,用于在所述识别模块识别所述文本内容中的误上屏内容之前,依据所述文本内容中句子,在语句白名单中进行查找,以得到与所述句子匹配的目标语句;其中,所述语句白名单中记录有符合预置高频条件的语句;
结束模块,用于在所述语句白名单中查找命中时,结束处理流程;
则所述识别模块,具体用于在所述语句白名单中查找未命中时,识别所述文本内容中句子的误上屏内容。
18.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第一替换模块,用于在接收到用户针对所述提示信息的触发操作后,依据所述目标纠错候选对所述文本内容中的误上屏内容进行替换。
19.根据权利要求11至18中任一所述的装置,其特征在于,所述上屏内容包括:通信程序的编辑框中的内容,和/或,通信程序的已发送内容。
20.根据权利要求19所述的装置,其特征在于,所述装置还包括:
第一发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送替换后的已发送内容的全部内容;或者
第二发送模块,用于在接收到用户针对所述提示信息的触发操作后、且在所述上屏内容已被通信程序发送时,向通信对端用户发送目标纠错候选和对应的误上屏内容的位置信息。
CN201510290822.2A 2015-05-29 2015-05-29 一种输入纠错方法和装置 Pending CN104915264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510290822.2A CN104915264A (zh) 2015-05-29 2015-05-29 一种输入纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510290822.2A CN104915264A (zh) 2015-05-29 2015-05-29 一种输入纠错方法和装置

Publications (1)

Publication Number Publication Date
CN104915264A true CN104915264A (zh) 2015-09-16

Family

ID=54084345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510290822.2A Pending CN104915264A (zh) 2015-05-29 2015-05-29 一种输入纠错方法和装置

Country Status (1)

Country Link
CN (1) CN104915264A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN106201554A (zh) * 2016-07-25 2016-12-07 珠海市魅族科技有限公司 一种文本字段修正方法及装置
CN106325596A (zh) * 2016-08-17 2017-01-11 广州视睿电子科技有限公司 一种书写笔迹自动纠错方法及***
WO2017054150A1 (en) * 2015-09-30 2017-04-06 Emc Corporation Method and system for ideogram character analysis
CN107622053A (zh) * 2017-09-26 2018-01-23 上海展扬通信技术有限公司 一种基于智能终端的文本纠错方法及文本纠错***
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN107870677A (zh) * 2016-09-23 2018-04-03 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108664201A (zh) * 2017-03-29 2018-10-16 北京搜狗科技发展有限公司 一种文本编辑方法、装置及电子设备
CN108803890A (zh) * 2017-04-28 2018-11-13 北京搜狗科技发展有限公司 一种输入方法、输入装置和用于输入的装置
CN109085932A (zh) * 2018-08-17 2018-12-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及***
CN109271094A (zh) * 2017-07-18 2019-01-25 北京搜狗科技发展有限公司 一种文本编辑的方法、装置及设备
CN109284228A (zh) * 2018-09-25 2019-01-29 北京金山安全软件有限公司 输入法评测方法、装置、电子设备及存储介质
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN109388252A (zh) * 2017-08-14 2019-02-26 北京搜狗科技发展有限公司 一种输入方法及装置
CN109426354A (zh) * 2017-08-25 2019-03-05 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN109688042A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种消息处理方法及装置
CN109829039A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 智能聊天方法、装置、计算机设备及存储介质
CN109992120A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110069143A (zh) * 2018-01-22 2019-07-30 北京搜狗科技发展有限公司 一种信息防误纠方法、装置和电子设备
CN110244861A (zh) * 2018-03-09 2019-09-17 北京搜狗科技发展有限公司 数据处理方法和装置
CN110389666A (zh) * 2018-04-16 2019-10-29 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110413445A (zh) * 2018-04-28 2019-11-05 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN110765764A (zh) * 2019-10-23 2020-02-07 上海连尚网络科技有限公司 文本纠错方法、电子设备和计算机可读介质
CN110780749A (zh) * 2018-07-11 2020-02-11 北京搜狗科技发展有限公司 一种字符串纠错方法和装置
CN111061383A (zh) * 2019-12-06 2020-04-24 维沃移动通信有限公司 文字检测方法及电子设备
CN111782127A (zh) * 2020-07-02 2020-10-16 Oppo广东移动通信有限公司 显示方法、装置、电子设备及存储介质
CN113420547A (zh) * 2021-08-25 2021-09-21 深圳市豪华科技有限公司 即时通信软件的错别字纠错方法及相关设备
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、***、存储介质及设备
WO2023045868A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种文本纠错方法及其相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助
CN103488488A (zh) * 2013-09-26 2014-01-01 贝壳网际(北京)安全技术有限公司 文本输入检查方法、装置及移动终端
CN103729345A (zh) * 2014-01-13 2014-04-16 三星电子(中国)研发中心 一种纠正已发通信文本中错误内容的方法和装置
WO2014062453A1 (en) * 2012-10-16 2014-04-24 Google Inc. Feature-based autocorrection
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助
WO2014062453A1 (en) * 2012-10-16 2014-04-24 Google Inc. Feature-based autocorrection
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN103488488A (zh) * 2013-09-26 2014-01-01 贝壳网际(北京)安全技术有限公司 文本输入检查方法、装置及移动终端
CN103729345A (zh) * 2014-01-13 2014-04-16 三星电子(中国)研发中心 一种纠正已发通信文本中错误内容的方法和装置

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074355A (zh) * 2015-09-30 2018-12-21 开文公司 用于表意字符分析的方法和***
US11321384B2 (en) 2015-09-30 2022-05-03 Open Text Corporation Method and system for ideogram character analysis
CN109074355B (zh) * 2015-09-30 2023-03-07 开文公司 用于表意字符分析的方法和介质
WO2017054150A1 (en) * 2015-09-30 2017-04-06 Emc Corporation Method and system for ideogram character analysis
CN105512110A (zh) * 2015-12-15 2016-04-20 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN105512110B (zh) * 2015-12-15 2018-04-06 江苏科技大学 一种基于模糊匹配与统计的错字词知识库构建方法
CN106201554A (zh) * 2016-07-25 2016-12-07 珠海市魅族科技有限公司 一种文本字段修正方法及装置
CN106325596B (zh) * 2016-08-17 2019-04-30 广州视睿电子科技有限公司 一种书写笔迹自动纠错方法及***
CN106325596A (zh) * 2016-08-17 2017-01-11 广州视睿电子科技有限公司 一种书写笔迹自动纠错方法及***
CN107870677B (zh) * 2016-09-23 2022-02-25 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN107870677A (zh) * 2016-09-23 2018-04-03 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN108628819B (zh) * 2017-03-16 2022-09-20 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
KR20190125376A (ko) * 2017-03-29 2019-11-06 베이징 써우거우 테크놀로지 디벨로프먼트 씨오.,엘티디. 텍스트 편집 방법, 장치 및 전자 기기
CN108664201B (zh) * 2017-03-29 2021-12-28 北京搜狗科技发展有限公司 一种文本编辑方法、装置及电子设备
CN108664201A (zh) * 2017-03-29 2018-10-16 北京搜狗科技发展有限公司 一种文本编辑方法、装置及电子设备
KR102281224B1 (ko) * 2017-03-29 2021-07-22 베이징 써우거우 테크놀로지 디벨로프먼트 씨오.,엘티디. 텍스트 편집 방법, 장치 및 전자 기기
CN108803890A (zh) * 2017-04-28 2018-11-13 北京搜狗科技发展有限公司 一种输入方法、输入装置和用于输入的装置
CN108803890B (zh) * 2017-04-28 2024-02-06 北京搜狗科技发展有限公司 一种输入方法、输入装置和用于输入的装置
CN109271094A (zh) * 2017-07-18 2019-01-25 北京搜狗科技发展有限公司 一种文本编辑的方法、装置及设备
CN109271094B (zh) * 2017-07-18 2022-02-22 北京搜狗科技发展有限公司 一种文本编辑的方法、装置及设备
CN109388252A (zh) * 2017-08-14 2019-02-26 北京搜狗科技发展有限公司 一种输入方法及装置
CN109426354A (zh) * 2017-08-25 2019-03-05 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN107622053A (zh) * 2017-09-26 2018-01-23 上海展扬通信技术有限公司 一种基于智能终端的文本纠错方法及文本纠错***
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
US10839794B2 (en) 2017-09-29 2020-11-17 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for correcting input speech based on artificial intelligence, and storage medium
CN109688042A (zh) * 2017-10-18 2019-04-26 阿里巴巴集团控股有限公司 一种消息处理方法及装置
CN109688042B (zh) * 2017-10-18 2021-12-31 阿里巴巴集团控股有限公司 一种消息处理方法及装置
CN108052499B (zh) * 2017-11-20 2021-06-11 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN107832447A (zh) * 2017-11-22 2018-03-23 北京百度网讯科技有限公司 用于移动终端的用户反馈纠错方法、装置及其设备
CN109992120B (zh) * 2017-12-29 2022-10-04 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN109992120A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110069143B (zh) * 2018-01-22 2024-06-07 北京搜狗科技发展有限公司 一种信息防误纠方法、装置和电子设备
CN110069143A (zh) * 2018-01-22 2019-07-30 北京搜狗科技发展有限公司 一种信息防误纠方法、装置和电子设备
CN110244861B (zh) * 2018-03-09 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置
CN110244861A (zh) * 2018-03-09 2019-09-17 北京搜狗科技发展有限公司 数据处理方法和装置
CN110389666A (zh) * 2018-04-16 2019-10-29 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110413445A (zh) * 2018-04-28 2019-11-05 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN110413445B (zh) * 2018-04-28 2024-02-02 北京搜狗科技发展有限公司 输入处理方法、装置、电子设备和存储介质
CN110780749B (zh) * 2018-07-11 2024-03-08 北京搜狗科技发展有限公司 一种字符串纠错方法和装置
CN110780749A (zh) * 2018-07-11 2020-02-11 北京搜狗科技发展有限公司 一种字符串纠错方法和装置
CN109213998B (zh) * 2018-08-17 2023-06-23 上海蜜度信息技术有限公司 中文错字检测方法及***
CN109085932A (zh) * 2018-08-17 2018-12-25 科大讯飞股份有限公司 一种候选词条调整方法、装置、设备及可读存储介质
CN109213998A (zh) * 2018-08-17 2019-01-15 汇智容大(北京)信息技术有限公司 中文错字检测方法及***
CN109284228A (zh) * 2018-09-25 2019-01-29 北京金山安全软件有限公司 输入法评测方法、装置、电子设备及存储介质
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN109829039A (zh) * 2018-12-13 2019-05-31 平安科技(深圳)有限公司 智能聊天方法、装置、计算机设备及存储介质
CN109829039B (zh) * 2018-12-13 2023-06-09 平安科技(深圳)有限公司 智能聊天方法、装置、计算机设备及存储介质
CN110765764A (zh) * 2019-10-23 2020-02-07 上海连尚网络科技有限公司 文本纠错方法、电子设备和计算机可读介质
CN110765764B (zh) * 2019-10-23 2024-02-09 上海连尚网络科技有限公司 文本纠错方法、电子设备和计算机可读介质
CN111061383B (zh) * 2019-12-06 2023-12-05 维沃移动通信有限公司 文字检测方法及电子设备
CN111061383A (zh) * 2019-12-06 2020-04-24 维沃移动通信有限公司 文字检测方法及电子设备
CN111782127A (zh) * 2020-07-02 2020-10-16 Oppo广东移动通信有限公司 显示方法、装置、电子设备及存储介质
CN113420547A (zh) * 2021-08-25 2021-09-21 深圳市豪华科技有限公司 即时通信软件的错别字纠错方法及相关设备
WO2023045868A1 (zh) * 2021-09-24 2023-03-30 北京字跳网络技术有限公司 一种文本纠错方法及其相关设备
CN115188013A (zh) * 2022-09-14 2022-10-14 泰豪信息技术有限公司 一种判决书的风险防控方法、***、存储介质及设备

Similar Documents

Publication Publication Date Title
CN104915264A (zh) 一种输入纠错方法和装置
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
US9524291B2 (en) Visual display of semantic information
CN111625635A (zh) 问答处理、语言模型的训练方法、装置、设备及存储介质
US20200301919A1 (en) Method and system of mining information, electronic device and readable storable medium
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN111160013B (zh) 文本纠错方法及装置
JP2021131528A (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
US10303704B2 (en) Processing a data set that is not organized according to a schema being used for organizing data
CN112560452B (zh) 一种自动生成纠错语料的方法和***
CN111708800A (zh) 查询方法、装置及电子设备
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111737966B (zh) 文档重复度检测方法、装置、设备和可读存储介质
JP2021082306A (ja) 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
US11468346B2 (en) Identifying sequence headings in a document
CN112052390B (zh) 一种资源筛选方法、装置、电子设备及存储介质
CN116152831A (zh) 用于表意字符分析的方法和***
CN105373236A (zh) 一种学词方法和装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
CN105868322A (zh) 一种输入方法及终端
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150916