CN110069143A - 一种信息防误纠方法、装置和电子设备 - Google Patents

一种信息防误纠方法、装置和电子设备 Download PDF

Info

Publication number
CN110069143A
CN110069143A CN201810059547.7A CN201810059547A CN110069143A CN 110069143 A CN110069143 A CN 110069143A CN 201810059547 A CN201810059547 A CN 201810059547A CN 110069143 A CN110069143 A CN 110069143A
Authority
CN
China
Prior art keywords
error correction
sentence
information
input information
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810059547.7A
Other languages
English (en)
Other versions
CN110069143B (zh
Inventor
陈小帅
臧娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201810059547.7A priority Critical patent/CN110069143B/zh
Publication of CN110069143A publication Critical patent/CN110069143A/zh
Application granted granted Critical
Publication of CN110069143B publication Critical patent/CN110069143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种信息防误纠方法、装置和电子设备,其中,所述方法包括:识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;确定所述输入信息对应语句的完整概率;依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;在所述修正分值满足预设条件后,展示所述纠错候选项;从而有效避免无效纠错,提高了纠错准确率。

Description

一种信息防误纠方法、装置和电子设备
技术领域
本发明涉及输入法技术领域,特别是涉及一种信息防误纠方法,一种信息防误纠装置和一种电子设备。
背景技术
随着计算机技术的发展,诸如手机、平板电脑等电子设备越来越普及,给人们的生活、学习、工作带来了极大的便利。这些电子设备通常安装有输入法应用程序(简称输入法),使得用户可使用该输入法进行信息输入。
在用户使用该输入法输入信息的过程中,为了保证用户输入信息的准确性和便利性,输入法提供了很多功能,例如纠错功能,即当检测到输入的字词存在错误时,显示用于纠错的候选项。但当用户未完整输入一句话时,由于信息不足容易导致出现误纠。如图1所示,用户输入“你登我”后,会被误纠正为“你等我”,因为在当前输入状态下,后者的语言模型远远要优于前者,但用户并未输入完毕,用户可能期望继续输入“qq号”等,此时展现无效纠错是没有意义的,也会对用户的输入造成困扰。
发明内容
本发明实施例提供一种信息防误纠方法,以提高纠错准确率。
相应的,本发明实施例还提供了一种信息防误纠装置和电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种信息防误纠方法,具体包括:识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;确定所述输入信息对应语句的完整概率;依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;在所述修正分值满足预设条件后,展示所述纠错候选项。
可选地,所述识别输入信息需要纠错,包括:将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
可选地,所述确定输入信息对应语句的完整概率,包括:依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:获取所述输入信息末尾的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
可选地,所述依据所述比值和最大联想概率,确定所述完整概率,包括:确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:确定上屏所述输入信息和下次输入操作的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
可选地,依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值,包括:依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
可选地,所述纠错分值是将纠错候选项输入至语言模型中确定的,在所述展示纠错候选项之前,还包括:判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件。
可选地,在确定所述输入信息对应语句的完整概率之后,还包括:判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
本发明实施例还公开了一种信息防误纠装置,具体包括:信息确定模块,用于识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;概率确定模块,用于确定所述输入信息对应语句的完整概率;分值确定模块,用于依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;展示模块,用于在所述修正分值满足预设条件后,展示所述纠错候选项。
可选地,所述信息确定模块,具体用于将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
可选地,所述概率确定模块,具体用于依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
可选地,所述概率确定模块包括:第一确定子模块,用于获取所述输入信息之后的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
可选地,所述概率确定模块包括:第二确定子模块,用于从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
可选地,所述概率确定模块包括:第三确定子模块,用于依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
可选地,所述第三确定子模块,用于确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
可选地,所述概率确定模块包括:第四确定子模块,用于确定所述输入信息和后续输入信息的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
可选地,所述分值确定模块,用于依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
可选地,所述纠错分值是将纠错候选项输入至语言模型中确定的,还包括:分值判断模块,用于判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件。
可选地,还包括:阈值判断模块,用于判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
本发明实施例还提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例所述的信息防误纠方法。
本发明实施例还提供了一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;确定所述输入信息对应语句的完整概率;依据所述完整概率对所述纠错候选项的纠错分值进行调整,确定所述纠错候选项的修正分值;在所述修正分值满足预设条件后,展示所述纠错候选项。
可选地,所述识别输入信息需要纠错,包括:将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
可选地,所述确定输入信息对应语句的完整概率,包括:依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:获取所述输入信息末尾的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
可选地,所述依据所述比值和最大联想概率,确定所述完整概率,包括:确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:确定上屏所述输入信息和下次输入操作的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
可选地,依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值,包括:依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
可选地,所述纠错分值是将纠错候选项输入至语言模型中确定的,在所述展示纠错候选项之前,还包含用于进行以下操作的指令:判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件。
可选地,在确定所述输入信息对应语句的完整概率之后,还包含用于进行以下操作的指令:判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
本发明实施例包括以下优点:
本发明实施例在识别输入信息需要纠错后,确定所述输入信息对应的纠错候选项和所述纠错候选项的纠错分值;由于在输入信息对应语句不完整时,确定所述输入信息需要纠错的误判率较高,因此可确定所述输入信息对应语句的完整概率,再依据所述完整概率和纠错分值,确定纠错候选项的修正分值,然后再依据纠错分值确定是否展示纠错候选项;进而能够降低误纠概率。若所述修正分值满足预设条件,则展示所述纠错候选项,若确定所述修正分值不满足预设条件,则不展示所述纠错候选项,从而有效避免无效纠错,提高了纠错准确率。
附图说明
图1是现有技术的一种输入界面示意图;
图2是本发明的一种信息防误纠方法实施例的步骤流程图;
图3是本发明的一种信息防误纠方法可选实施例的步骤流程图;
图4是本发明的一种输入界面示意图;
图5是本发明的一种信息防误纠装置实施例的结构框图;
图6是本发明的一种信息防误纠装置可选实施例的结构框图;
图7是根据一示例性实施例示出的一种用于信息防误纠的电子设备的结构框图;
图8是本发明根据另一示例性实施例示出的一种用于信息防误纠的电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心构思之一是,由于在输入信息对应语句不完整时,确定所述输入信息需要纠错的误判率较高,因此在确定纠错候选项和对应纠错分值后,依据输入信息对应语句的完整概率和纠错候选项的纠错分值,确定纠错候选项的修正分值,进而依据修正分值确定是否展示所述纠错候选项;从而能够防止误纠,提高纠错准确率。
参照图2,示出了本发明的一种信息防误纠方法实施例的步骤流程图,具体可以包括如下步骤:
步骤202、识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息。
本发明实施例中,所述输入信息可以是已上屏的信息,当然也可以是待上屏区域的候选项,具体可依据需求设置;其中,所述输入信息可包括至少一个字词,所述字词不限于语言例如可以是中文、英文、韩文和日文等等,所述字词可包括单字和词汇,例如以中文为例,如“我”为单字,“等待”为词汇。在确定输入信息后,可对所述输入信息进行分析,识别所述输入信息是否存在错误,若确定所述输入信息存在错误,即确定所述输入信息需要纠错,则可为所述输入信息匹配对应的纠错候选信息;若确定所述输入信息不存在错误,即确定所述输入信息无需纠错,则可在确定后续输入的信息后,对更新的输入信息进行纠错识别。本发明实施例中,所述纠错候选信息可包括:纠错候选项和所述纠错候选项的纠错分值,其中,所述纠错候选项是指在输入法的纠错区域中显示的字词,如图1中“等”,所述输入法的纠错区域可悬浮在当前界面上,如悬浮在当前应用程序的工具栏上;所述纠错分值是依据语言模型对所述纠错候选项进行打分确定的。
步骤204、确定所述输入信息对应语句的完整概率。
步骤206、依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值。
用户在输入一个语句的前几个字词时,可能输入的字词是正确的,但输入法可能会判定用户输入的字词是错误的,并显示纠错候选项;例如图1中,用户想输入“我登你的QQ”这句话,在只输入“我登你”后,由于“我等你”比“我登你”更符合自然语言规律,因此输入法会展示纠错候选项“等”;但此时用户是不需要对输入的字词进行纠错的,因此这种纠错是没有意义的,还会给用户造成困扰。待用户输入完整的语句“我登你的QQ”后,则输入法不会进行纠错;可见语句完整度相对较低时,输入法识别出语句出错的正确概率很可能会比较低,语句完整度相对较高时,输入法识别出语句出错的正确率可能会比较高;因此本发明实施例在确定所述输入信息需要纠错后,确定输入信息需要纠错的准确率可能不高,为了避免显示无效的纠错候选项,可判断所述输入信息对应语句是否是完整的,即确定输入信息对应语句的完整程度,以依据所述输入信息对应语句的完整程度,确定是否展示纠错候选项。
本发明实施例可采用所述完整概率表征语句的完整程度,因此可对所述输入信息进行分析,如分析所述输入信息末尾的字词等,确定所述输入信息对应语句的完整概率;进而依据所述完整概率和纠错分值,确定所述纠错候选项的纠错分值,如采用完整概率对纠错候选项的纠错分值进行调整,将调整后的纠错分值确定为所述纠错候选项的修正分值,然后再依据所述修正分值,判断是否展示所述纠错候选项。
步骤208、在所述修正分值满足预设条件后,展示所述纠错候选项。
本发明实施例中,可预先设置预设条件,所述预设条件用于判断是否展示纠错候选项,进而在确定所述纠错候选项的修正分值后,可判断所述修正分值是否满足预设条件,若确定所述修正分值满足预设条件,则可在输入法的纠错区域展示所述纠错候选项。
可选地,若确定所述修正分值不满足预设条件,则无需在纠错区域展示所述纠错候选项,进而减少了对无效纠错候选项的展示,提高用户体验。
本发明实施例在识别输入信息需要纠错后,确定所述输入信息对应的纠错候选项和所述纠错候选项的纠错分值;由于在输入信息对应语句不完整时,确定所述输入信息需要纠错的误判率较高,因此可确定所述输入信息对应语句的完整概率,再依据所述完整概率和纠错分值,确定纠错候选项的修正分值,然后再依据纠错分值确定是否展示纠错候选项;若所述修正分值满足预设条件,则展示所述纠错候选项,若确定所述修正分值不满足预设条件,则不展示所述纠错候选项,从而有效避免展示无效纠错,提高了纠错准确率。
本发明的另一个实施例中,可依据所述输入信息对应的语句标识信息,确定所述输入信息对应语句的完整概率,其中,所述语句标识信息例如标点符号、句尾字词等等;以下对确定输入信息对应的语句的完整概率的方法进行详细的说明。
参照图3,示出了本发明的一种信息防误纠方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤302、将所述输入信息输入至语言模型中,确定所述输入信息的参考分值。
应用编辑框中的信息可能包括多个字词,如“今天天气很好,我们去”,输入法可将应用编辑框中所有的字词作为输入信息如“今天天气很好,我们去”,也可将部分字词作为输入信息如“我们去”,然后识别输入信息是否存在错误。在识别输入信息是否存在错误时,可将所述输入信息输入至语言模型中,采用所述语言模型对所述输入信息进行打分,进而确定所述输入信息的参考分值;其中,所述语言模型是基于自然语言建立的,可采用语言模型对输入信息进行打分,以确定输入信息对应语句的流畅程度,语言模型可包括多个种类,例如:可以是NGram语言模型,也可以是神经网络语言模型等等。具体的,可对所述输入信息进行分词处理,将所述输入信息拆分为词片段,然后采用语言模型对输入信息对应词片段序列进行打分,进而计算得到所述输入信息的参考分值。
本发明实施例可预先设置纠错阈值,以通过将所述输入信息的参考分值与所述纠错阈值进行比对,确定所述输入信息是否存在错误,其中,所述纠错阈值可按照需求设置。
步骤304、判断所述参考分值是否小于纠错阈值。
本发明实施例中,可比对所述输入信息的参考分值与所述纠错阈值的大小,以确定所述输入信息是否存在错误;具体可判断所述参考分值是否小于纠错阈值,若所述参考分值小于纠错阈值,则确定所述输入信息存在错误,即所述输入信息需要纠错,可执行步骤306;若所述参考分值大于纠错阈值,则确定所述输入信息不存在错误,即所述输入信息无需纠错,则执行步骤322。
步骤306、确定所述输入信息对应的纠错候选信息。
本发明实施例在确定所述输入信息需要纠错后,可从词库中匹配与所述输入信息对应的纠错候选项,然后从匹配的纠错候选项中筛选出一个或多个纠错候选项,并依据筛选出的纠错候选项确定纠错候选信息;其中,在匹配与所述输入信息对应的纠错候选项时,还分别对各纠错候选项进行打分,确定各纠错候选项的纠错分值,以依据纠错分值进行筛选。本发明实施例一种可选的筛选方式是,依据各纠错候选项的纠错分值,查找纠错分值最高的纠错候选项,再判断最高的纠错分值是否大于参考分值;若所述最高的纠错分值大于参考分值,则确定存在用于纠错的纠错候选项,可采用所述纠错分值最高的纠错候选项,生成所述输入信息对应的纠错候选信息;若所述最高的纠错分值小于参考分值,则确定不存在用于纠错的纠错候选项,则可执行步骤322。
本发明实施例为防止误纠,可采用所述输入信息对应语句的完整概率,对所述纠错候选项的纠错分值进行调整,得到修正分值;进而依据所述修正分值,判断是否展示所述纠错候选项,具体如下:
步骤308、依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率。
本发明实施例可依据所述输入信息得到对应的语句标识信息,即对所述输入信息进行分析,确定所述输入信息对应的语句标识信息,所述语句标识信息可以是用于确定输入信息完整程度的信息;其中,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔;当然所述语句标识信息还可以包括其他的信息,在此不一一举例说明。
本发明实施例在确定语句标识信息后,可依据至少一种语句标识信息,确定所述输入信息对应语句的完整概率;以下对依据不同的语句标识信息确定所述输入信息对应语句的完整概率的方法进行详细说明,具体如下:
1、依据标点符号确定所述输入信息对应语句的完整概率,具体可包括如下子步骤:
子步骤S11、获取所述输入信息末尾的标点符号。
子步骤S12、将所述标点符号与设定标点符号进行匹配。
子步骤S13、将第一数值确定为所述完整概率。
子步骤S14、将第二数值确定为所述完整概率。
标点符号是辅助文字记录语言的符号,用来表示停顿、语气以及词语的性质和作用;因此可根据语句末尾的标点符号,确定该语句是否完整,本发明实施例中,可预先按照标点符号的特性,确定设定标点符号,例如将具有断句作用的标点符号确定为设定标点符号,如“,”、“。”、“!”、“?”等等。因此在依据标点符号确定完整概率时,可获取所述输入信息末尾的标点符号,然后将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则确定所述输入信息对应语句的完整程度较高,即执行子步骤S13;若所述标点符号与设定标点符号不匹配,则确定所述输入信息对应语句的完整程度较低,即执行子步骤S14。
本发明实施例中,若确定所述标点符号与设定标点符号匹配,则可将第一数值确定为所述完整概率,若确定所述标点符号与设定标点符号不匹配,则可将第二数值确定为所述完整概率;其中,所述第一数值和第二数值均按照需求设置。例如,若所述输入信息末尾的标点符号为“。”,则可确定完整概率为1,所述输入信息末尾的标点符号为“~”则可确定完整概率为0.4。
2、依据句尾字词确定所述输入信息对应语句的完整概率,具体可包括如下子步骤:
子步骤S21、从所述输入信息中识别句尾字词。
子步骤S22、将所述句尾字词与设定标识字词进行匹配。
子步骤S23、依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率。
子步骤S24、将第三数值确定为所述完整概率。
某些字词经常会出现在语句的末尾,如“吗”、“嘛”、“啊”、“了”等等,当语句末尾的字词为这些字词时,可认为该语句很可能是完整的;因此本发明实施例可根据输入信息对应句尾字词,确定输入信息是否完整。可预先从大规模训练语料中,统计出每个词作为语句句尾的概率即句尾概率;然后可将句尾概率大于设定阈值的字词确定为设定标识字词,所述设定阈值可按照需求设置;例如,设定阈值为0.7,“了”的句尾概率为0.99,“啊”的句尾概率为0.8,“的”的句尾概率为0.3,则可将“了”和“啊”确定为设定标识字词。本发明实施例在确定完整概率时,可对所述输入信息进行识别,从所述输入信息中识别句尾字词;然后将所述句尾字词与所述设定标识字词进行匹配,若所述句尾字词与设定标识字词匹配,则确定所述句尾字词是经常出现在语句末尾的字词,可确定所述输入信息对应语句的完整程度较高,可执行子步骤S23;若所述句尾字词与设定标识字词不匹配,则确定所述句尾字词是经常出现在语句末尾的字词,可确定所述输入信息对应语句的完整程度较低,可执行子步骤S24。
本发明实施例中,若所述句尾字词与设定标识字词匹配,则可依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率。具体的,若所述完整概率与语句的完整程度成正比,即可将与所述句尾字词匹配的设定标识字词的句尾概率,确定为所述完整概率,例如,“了”作为句尾的概率为0.87,完整概率可为0.87。若所述完整概率与语句的完整程度成反比,即可将与所述句尾字词匹配的设定标识字词的句尾概率与1的差值,确定为所述完整概率;例如,“了”作为句尾的概率为0.87,完整概率可为0.13。若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率,其中,所述第三数据按照需求设置。
3、依据输入信息对应的联想信息确定所述输入信息对应语句的完整概率,具体包括如下子步骤:
子步骤31、依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率。
子步骤32、确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值。
子步骤33、依据所述比值和最大联想概率,确定所述完整概率。
本发明实施例中,输入法还包括联想功能,即基于用户已输入的信息,对用户即将输入的信息进行预测,确定对应的联想字词;如果基于用户的输入信息,确定较多联想字词,可认为此时用户很可能会继续输入,即输入信息对应的语句很可能是不完整的;如果基于用户的输入信息,确定的联想字词比较少,可认为用户很可能不会再继续输入了,即输入信息对应的语句很可能是完整的;因此可依据所述输入信息对应联想字词确定所述完整概率。
具体可确定所述输入信息进行分词处理得到各词片段,然后可依据所有的词片段进行联想,确定对应的联想信息;当然也可以依据所述输入信息末尾的词片段进行联想,确定对应的联想信息;其中,所述联想信息包括联想字词和所述联想字词的联想概率。然后依据所述联想信息确定联想字词的总数量和最大联想概率,并计算所述总数量和设定值的比值,再依据所述比值和最大联想概率确定所述完整概率;其中,所述设定数值可按照需求设置如200。
本发明的另一个实施例中,可将所述比值和最大联想概率进行比对,确定所述比值和最大联想概率中的最大值,然后将所述最大值确定所述完整概率;其中,依据联想信息确定的完整概率与语句完整程度成反比,即完整概率越大,语句的完整程度越低。例如:若所述完整概率越高表明语句越不完整,输入信息“明天”有180个联想字词,最大联想概率为0.13,当设定数值为200时,完整概率=max(180/200,0.13)=0.9。
4、依据所述输入信息对应输入间隔的确定对应语句的完整概率,具体可包括以下子步骤:
子步骤41、确定上屏所述输入信息和下次输入操作的输入间隔。
子步骤42、判断所述输入间隔是否大于平均输入间隔。
子步骤43、将第四数值确定为所述完整概率。
子步骤44、将第五数值确定为所述完整概率。
用户在输入一个语句中两个相邻的字词的输入间隔,会比在输入两个相邻语句的输入间隔相对较小;例如,用户先输入的输入信息为“我登你”,后续输入“QQ”的间隔,比后续输入“,你慢慢来”的间隔小;因此可确定上屏所述输入信息和下次输入操作的输入间隔,其中,所述下次输入操作是指上屏操作后第一次在输入法键盘的输入操作,如:用户上屏“我登你”后,在输入键盘中键入“Q”的操作,如上屏“我登你”的时间为12:20:33,键入“Q”的时间为12:20:34,则输入间隔为1秒;然后依据所述输入间隔确定所述输入信息是否完整。本发明实施例中,可预先根据历史记录确定用户的平均输入间隔,然后再确定上屏所述输入信息和下次输入操作的输入间隔,进而依据所述输入信息对应的输入间隔和平均输入间隔确定所述完整概率。
判断所述输入间隔是否大于平均输入间隔,若所述输入间距大于平均输入间隔,则确定所述输入信息对应语句的完整程度较高,可执行子步骤43;若所述输入间距小于平均输入间隔,用户很可能会继续输入,则确定所述输入信息对应语句的完整程度较低,即执行子步骤44。本发明实施例中,若所述输入间隔大于平均输入间隔,则可将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则可将第五数值确定为所述完整概率。其中,所述第四数值和第五数值均按照需求设置。
本发明的另一实施例中,还可采用上述任意多种方法确定所述完整概率,采用每种方法确定对应的完整概率后,可对多个完整概率进行加权计算,得到所述输入信息对应语句最终的完整概率,其中各种方法对应的完整概率的权重可按照需求设置,进而提高完整概率的准确性,以减少误纠概率。
步骤310、判断所述完整概率是否大于完整阈值。
若完整概率与语句的完整程度成反比,则判断所述完整概率是否大于完整阈值,若所述完整概率大于完整阈值,确定所述输入信息对应语句是不完整的,则执行步骤312;若所述完整概率小于完整阈值,确定所述输入信息对应语句是完整的,则执行步骤318。
若完整概率与语句的完整程度成正比,则判断所述完整概率是否大于完整阈值,若所述完整概率大于完整阈值,确定所述输入信息对应语句是完整的,则执行步骤318;若所述完整概率小于完整阈值,确定所述输入信息对应语句是不完整的,则执行步骤312。
在确定所述输入信息对应语句不完整后,可依据所述完整概率对所述纠错候选项的纠错分值进行调整,确定所述纠错候选项的修正分值,具体如下:
步骤312、依据所述完整概率和惩罚权重,确定惩罚分值。
步骤314、采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
本发明实施例中,由于输入信息对应语句可能是不完整的,因此确定所述输入信息需要纠错的正确率可能比较低,因此采用所述输入信息对应语句的完整概率对纠错分值进行调整;具体的,可预先确定完整概率对应的惩罚权重,以依据惩罚权重确定完整概率对应的分值即惩罚分值,进而依据惩罚分值对纠错候选项的纠错分值进行惩罚,再依据惩罚后的纠错分值确定是否展示纠错候选项,以提高纠错的准确率;其中,所述惩罚权重可按照需求设置。本发明实施例中,一种确定惩罚分值的可选方式是,若完整概率与语句的完整程度成反比,则可计算所述完整概率和惩罚权重的乘积;另一种确定惩罚分值可选的方式是,若完整概率与语句的完整程度成正比,可先计算所述完整概率与1的差值,再计算所述差值和惩罚权重的乘积;然后将两者的积确定为惩罚分值。再采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值;可选地,可计算所述惩罚分值和纠错分值的差值,将两者的差值确定为所述纠错候选项的修正分值。
步骤316、判断所述修正分值是否大于所述输入信息的参考分值。
本发明实施例在确定所述纠错候选项的纠错分值后,可将纠错候选项的修正分值,与输入信息对应的参考分值进行比对,判断所述修正分值是否大于所述输入信息的参考分值,若修正分值大于参考分值,确定所述修正分值满足预设条件,即确定输入信息需要采用纠错候选项进行纠错,可执行步骤318;若修正分值小于参考分值,确定所述修正分值不满足预设条件,即确定输入信息无需采用纠错候选项进行纠错,则可执行步骤320。
步骤318、展示所述纠错候选项。
若所述修正分值满足预设条件,或,确定所述输入信息对应语句是完整的,则展示所述纠错候选项。
步骤320、不展示所述纠错候选项。
若所述修正分值不满足预设条件,则不对所述纠错候选项进行展示。
步骤322、识别更新后的输入信息是否需要纠错。
若确定输入信息无需纠错,或,确定输入信息不存在纠错候选项,则确定用户后续输入信息,对更新后的输入信息进行识别,判断更新后的输入信息是否需要纠错。
本发明的一个示例中,若用户在输入界面输入如图1所示的输入信息“我登你”,对应的参考分值为240,低于纠错阈值400,则识别出该输入信息需要纠错。然后确定出纠错候选项为“等”,对应纠错分值为500,确定“我登你”的完整概率为0.88,且惩罚权重为300,可计算出惩罚分值为264以及后计算惩罚分值与纠错分值的差为236,即修正分值为236。修正分值小于参考分值,则不展示纠错候选项“等”,如图4所示。
综上,本发明实施例采用所述输入信息对应语句的完整概率,对所述纠错候选项的纠错分值进行调整,确定对应的修正分值;进而依据所述修正分值确定是否对输入信息进行纠错;由于在输入信息对应语句不完整时,确定所述输入信息需要纠错的误判率较高,因此依据修正分值确定是否展示纠错候选项,能够降低误纠概率;若所述修正分值满足预设条件,则展示所述纠错候选项,若确定所述修正分值不满足预设条件,则不展示所述纠错候选项,从而有效避免展示无效纠错,提高了纠错的正确率,还能够提高用户体验。
进一步,本发明实施例还可以依据所述输入信息对应的语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔;若同时采用多种方法确定完整概率,则可提高确定完整概率的准确性,进而更加有效的避免展示无效纠错,进一步提高纠错的正确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种信息防误纠装置实施例的结构框图,具体可以包括如下模块:信息确定模块51、概率确定模块52、分值确定模块53和展示模块54,其中,
信息确定模块51,用于识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;
概率确定模块52,用于确定所述输入信息对应语句的完整概率;
分值确定模块53,用于依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;
展示模块54,用于在所述修正分值满足预设条件后,展示所述纠错候选项。
参照图6,示出了本发明的一种信息防误纠装置可选实施例的结构框图,所述装置还包括:分值判断模块55和阈值判断模块56,其中,
分值判断模块55,用于判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件;其中,所述纠错分值是将纠错候选项输入至语言模型中确定的。
阈值判断模块56,用于判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
本发明的另一个实施例中,所述信息确定模块51,具体用于将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
本发明的另一个实施例中,所述概率确定模块52,具体用于依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
本发明的另一个实施例中,所述概率确定模块52包括:第一确定子模块521、第二确定子模块522、第三确定子模块523和第四确定子模块524,其中,
第一确定子模块521,用于获取所述输入信息末尾的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
第二确定子模块522,用于从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
第三确定子模块523,用于依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
所述第三确定子模块523,用于确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
第四确定子模块524,用于确定上屏所述输入信息与下次输入操作的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
本发明的另一个实施例中,所述分值确定模块53,用于依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
本发明实施例在识别输入信息需要纠错后,确定所述输入信息对应的纠错候选项和所述纠错候选项的纠错分值;由于在输入信息对应语句不完整时,确定所述输入信息需要纠错的误判率较高,因此可确定所述输入信息对应语句的完整概率,再依据所述完整概率对所述纠错分值进行调整,确定纠错候选项的修正分值,然后再依据纠错分值确定是否展示纠错候选项;进而能够降低误纠概率。若所述修正分值满足预设条件,则展示所述纠错候选项,若确定所述修正分值不满足预设条件,则不展示所述纠错候选项,从而有效避免展示无效纠错,提高了纠错准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图7根据一示例性实施例示出的一种用于信息防误纠的电子设备700的结构框图。例如,电子设备700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电力组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制电子设备700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理部件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件706为电子设备700的各种组件提供电力。电力组件704可以包括电源管理***,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态,组件的相对定位,例如所述组件为电子设备700的显示器和小键盘,传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变,用户与电子设备700接触的存在或不存在,电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件714经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件714还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种信息防误纠方法,所述方法包括:识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;确定所述输入信息对应语句的完整概率;依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;在所述修正分值满足预设条件后,展示所述纠错候选项。
可选地,所述识别输入信息需要纠错,包括:将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
可选地,所述确定输入信息对应语句的完整概率,包括:依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:获取所述输入信息末尾的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
可选地,所述依据所述比值和最大联想概率,确定所述完整概率,包括:确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述非完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:确定上屏所述输入信息和下次输入操作的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
可选地,依据所述完整概率对所述纠错候选项的纠错分值进行调整,确定所述纠错候选项的修正分值,包括:依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
可选地,所述纠错分值是将纠错候选项输入至语言模型中确定的,在所述展示纠错候选项之前,所述方法还包括:判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件。
可选地,在确定所述输入信息对应语句的完整概率之后,所述方法还包括:判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
图8是本发明根据另一示例性实施例示出的一种用于导航的电子设备800的结构示意图。该电子设备800可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器上执行存储介质830中的一系列指令操作。
服务器还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或,一个或一个以上操作***841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;确定所述输入信息对应语句的完整概率;依据所述完整概率对所述纠错候选项的纠错分值进行调整,确定所述纠错候选项的修正分值;在所述修正分值满足预设条件后,展示所述纠错候选项。
可选地,所述识别输入信息需要纠错,包括:将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
可选地,所述确定输入信息对应语句的完整概率,包括:依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:获取所述输入信息末尾的标点符号;将所述标点符号与设定标点符号进行匹配;若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:从所述输入信息中识别句尾字词;将所述句尾字词与设定标识字词进行匹配;若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;依据所述比值和最大联想概率,确定所述完整概率。
可选地,所述依据所述比值和最大联想概率,确定所述完整概率,包括:确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
可选地,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:确定上屏所述输入信息和下次输入操作的输入间隔;判断所述输入间隔是否大于平均输入间隔;若所述输入间隔大于平均输入间隔,则将第四数值确定为所述完整概率;若所述输入间隔小于平均输入间隔,则将第五数值确定为所述完整概率。
可选地,依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值,包括:依据所述完整概率和惩罚权重,确定惩罚分值;采用所述惩罚分值对所述纠错候选项的纠错分值进行调整,确定所述修正分值。
可选地,所述纠错分值是将纠错候选项输入至语言模型中确定的,在所述展示纠错候选项之前,还包含用于进行以下操作的指令:判断所述修正分值是否大于所述输入信息的参考分值,所述参考分值是用于判断所述输入信息是否存在错误的;若所述修正分值大于所述参考分值,则确定所述修正分值满足预设条件。
可选地,在确定所述输入信息对应语句的完整概率之后,还包含用于进行以下操作的指令:判断所述完整概率是否大于完整阈值;若所述完整概率大于完整阈值,则执行依据所述完整概率对所述纠错候选项的纠错分值进行调整的步骤;若所述完整概率小于完整阈值,则展示所述纠错候选信息中的纠错候选项。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种信息防误纠方法、一种信息防误纠装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种信息防误纠方法,其特征在于,包括:
识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;
确定所述输入信息对应语句的完整概率;
依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;
在所述修正分值满足预设条件后,展示所述纠错候选项。
2.根据权利要求1所述的方法,其特征在于,所述识别输入信息需要纠错,包括:
将所述输入信息输入至语言模型中,确定所述输入信息的参考分值;
若所述参考分值小于纠错阈值,则确定所述输入信息需要纠错。
3.根据权利要求1所述的方法,其特征在于,所述确定输入信息对应语句的完整概率,包括:
依据所述输入信息得到语句标识信息,依据所述语句标识信息确定对应语句的完整概率,所述语句标识信息包括以下至少一种:标点符号、句尾字词、输入信息对应的联想信息、输入信息对应的输入间隔。
4.根据权利要求3所述的方法,其特征在于,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:
获取所述输入信息末尾的标点符号;
将所述标点符号与设定标点符号进行匹配;
若所述标点符号与设定标点符号匹配,则将第一数值确定为所述完整概率;
若所述标点符号与设定标点符号不匹配,则将第二数值确定为所述完整概率。
5.根据权利要求3所述的方法,其特征在于,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:
从所述输入信息中识别句尾字词;
将所述句尾字词与设定标识字词进行匹配;
若所述句尾字词与设定标识字词匹配,则依据与所述句尾字词匹配的设定标识字词的句尾概率确定所述完整概率,其中,所述句尾概率是设定标识字词作为语句句尾的概率;
若所述句尾字词与设定标识字词不匹配,则将第三数值确定为所述完整概率。
6.根据权利要求3所述的方法,其特征在于,所述依据输入信息分析语句标识信息,依据所述语句标识信息确定对应语句的完整概率,包括:
依据所述输入信息确定对应的联想信息,所述联想信息包括联想字词和所述联想字词的联想概率;
确定所述联想字词的总数量和最大联想概率,并计算所述总数量和设定数值的比值;
依据所述比值和最大联想概率,确定所述完整概率。
7.根据权利要求6所述的方法,其特征在于,所述依据所述比值和最大联想概率,确定所述完整概率,包括:
确定所述比值和最大联想概率中的最大值,将所述最大值确定为所述完整概率。
8.一种信息防误纠装置,其特征在于,包括:
信息确定模块,用于识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;
概率确定模块,用于确定所述输入信息对应语句的完整概率;
分值确定模块,用于依据所述完整概率和纠错分值,确定所述纠错候选项的修正分值;
展示模块,用于在所述修正分值满足预设条件后,展示所述纠错候选项。
9.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的信息防误纠方法。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别输入信息需要纠错后,确定所述输入信息对应的纠错候选信息,所述纠错候选信息包括:纠错候选项和所述纠错候选项的纠错分值;
确定所述输入信息对应语句的完整概率;
依据所述完整概率对所述纠错候选项的纠错分值进行调整,确定所述纠错候选项的修正分值;
在所述修正分值满足预设条件后,展示所述纠错候选项。
CN201810059547.7A 2018-01-22 2018-01-22 一种信息防误纠方法、装置和电子设备 Active CN110069143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810059547.7A CN110069143B (zh) 2018-01-22 2018-01-22 一种信息防误纠方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810059547.7A CN110069143B (zh) 2018-01-22 2018-01-22 一种信息防误纠方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110069143A true CN110069143A (zh) 2019-07-30
CN110069143B CN110069143B (zh) 2024-06-07

Family

ID=67364671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810059547.7A Active CN110069143B (zh) 2018-01-22 2018-01-22 一种信息防误纠方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110069143B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416141A (zh) * 2020-10-19 2021-02-26 上海臣星软件技术有限公司 针对输入字符串的处理方法、装置、设备和介质
CN112732520A (zh) * 2020-12-30 2021-04-30 中国人民解放军32181部队 一种装备运行监控软件的故障处理方法及***
CN113012701A (zh) * 2021-03-16 2021-06-22 联想(北京)有限公司 一种识别方法、装置、电子设备及存储介质
CN117807990A (zh) * 2023-12-27 2024-04-02 北京海泰方圆科技股份有限公司 一种文本处理方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163422A (ja) * 1998-11-30 2000-06-16 Brother Ind Ltd 翻訳装置及び翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及***
CN101493727A (zh) * 2008-01-22 2009-07-29 刘啸旻 语句输入法的自然分词和混合输入
CN101853126A (zh) * 2010-05-12 2010-10-06 中国科学院自动化研究所 一种联机手写句子实时识别方法
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助
CN102243561A (zh) * 2010-05-10 2011-11-16 腾讯科技(深圳)有限公司 输入信息的修正方法和装置
US20130061087A1 (en) * 2011-09-01 2013-03-07 Infinidat Ltd System and method for uncovering data errors
CN103380439A (zh) * 2011-03-10 2013-10-30 富士通株式会社 农作业辅助方法以及农作业辅助装置
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105302336A (zh) * 2015-10-30 2016-02-03 北京搜狗科技发展有限公司 一种输入纠错方法和装置
WO2016107344A1 (zh) * 2014-12-30 2016-07-07 北京奇虎科技有限公司 对输入法的上屏候选项进行筛选的方法和装置
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN106484131A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163422A (ja) * 1998-11-30 2000-06-16 Brother Ind Ltd 翻訳装置及び翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及***
CN101493727A (zh) * 2008-01-22 2009-07-29 刘啸旻 语句输入法的自然分词和混合输入
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助
CN102243561A (zh) * 2010-05-10 2011-11-16 腾讯科技(深圳)有限公司 输入信息的修正方法和装置
CN101853126A (zh) * 2010-05-12 2010-10-06 中国科学院自动化研究所 一种联机手写句子实时识别方法
CN103380439A (zh) * 2011-03-10 2013-10-30 富士通株式会社 农作业辅助方法以及农作业辅助装置
US20130061087A1 (en) * 2011-09-01 2013-03-07 Infinidat Ltd System and method for uncovering data errors
WO2016107344A1 (zh) * 2014-12-30 2016-07-07 北京奇虎科技有限公司 对输入法的上屏候选项进行筛选的方法和装置
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106484131A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN105302336A (zh) * 2015-10-30 2016-02-03 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106372107A (zh) * 2016-08-19 2017-02-01 中兴通讯股份有限公司 自然语言文句库的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIQUAN QIU等: "An open source testing tool for evaluating handwriting input methods", 2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), pages 136 - 140 *
徐军: "文件修正***的设计与实现", 计算机工程与设计, vol. 24, no. 06, pages 32 - 35 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416141A (zh) * 2020-10-19 2021-02-26 上海臣星软件技术有限公司 针对输入字符串的处理方法、装置、设备和介质
CN112732520A (zh) * 2020-12-30 2021-04-30 中国人民解放军32181部队 一种装备运行监控软件的故障处理方法及***
CN112732520B (zh) * 2020-12-30 2024-04-12 中国人民解放军32181部队 一种装备运行监控软件的故障处理方法及***
CN113012701A (zh) * 2021-03-16 2021-06-22 联想(北京)有限公司 一种识别方法、装置、电子设备及存储介质
CN113012701B (zh) * 2021-03-16 2024-03-22 联想(北京)有限公司 一种识别方法、装置、电子设备及存储介质
CN117807990A (zh) * 2023-12-27 2024-04-02 北京海泰方圆科技股份有限公司 一种文本处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110069143B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN110069143A (zh) 一种信息防误纠方法、装置和电子设备
CN106774970A (zh) 对输入法的候选项进行排序的方法和装置
US20210248363A1 (en) Posture detection method, apparatus and device, and storage medium
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN109002184A (zh) 一种输入法候选词的联想方法和装置
CN108509412A (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
CN106202150A (zh) 信息显示方法及装置
CN104216973B (zh) 一种数据搜索的方法及装置
CN108399914A (zh) 一种语音识别的方法和装置
CN108665889A (zh) 语音信号端点检测方法、装置、设备及存储介质
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN107037965A (zh) 一种基于输入的信息展示方法、装置和移动终端
CN109961791A (zh) 一种语音信息处理方法、装置及电子设备
CN109558599A (zh) 一种转换方法、装置和电子设备
KR20210032875A (ko) 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체
CN111144101A (zh) 错别字处理方法和装置
CN110110207A (zh) 一种信息推荐方法、装置及电子设备
CN110244860A (zh) 一种输入方法、装置和电子设备
CN108509406A (zh) 一种语料抽取方法、装置和电子设备
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN108182002A (zh) 输入键的布局方法、装置、设备和存储介质
CN112331194B (zh) 一种输入方法、装置和电子设备
CN110096165A (zh) 一种联想方法、装置和电子设备
CN110858099B (zh) 候选词生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant