CN109992120A - 一种输入纠错方法和装置 - Google Patents

一种输入纠错方法和装置 Download PDF

Info

Publication number
CN109992120A
CN109992120A CN201711484183.9A CN201711484183A CN109992120A CN 109992120 A CN109992120 A CN 109992120A CN 201711484183 A CN201711484183 A CN 201711484183A CN 109992120 A CN109992120 A CN 109992120A
Authority
CN
China
Prior art keywords
character string
input
character
string
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711484183.9A
Other languages
English (en)
Other versions
CN109992120B (zh
Inventor
陈小帅
臧娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711484183.9A priority Critical patent/CN109992120B/zh
Publication of CN109992120A publication Critical patent/CN109992120A/zh
Application granted granted Critical
Publication of CN109992120B publication Critical patent/CN109992120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种输入纠错方法和装置,该方法包括:获取用户输入的、尚未提交到交互会话中的输入字符串;从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;根据所述目标字符串确定所述输入字符串中是否具有错误字符串;若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。这种根据交互上文确定交互下文中输入错误的方式,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。

Description

一种输入纠错方法和装置
技术领域
本申请涉及输入法领域,特别是涉及一种输入纠错方法和装置。
背景技术
在通过输入法输入字符时,输入法可以针对用户输入字符进行纠错,在纠错时,可以根据输入内容的语句中字符间的语义关系、关联程度等判断是否有输错的字符,从而可以针对有可能输出的字符提供纠错候选项以帮助用户纠错。
这种传统的纠错方式虽然可以使得输入语句变得通顺,但是,并不适用于所有输入场景。一种常见的输入场景是交互类型的输入场景,例如在线聊天、论坛跟帖、留言等。这种交互类型的输入场景中用户会与其他用户进行交流、讨论、问答等,也就是说,用户输入的内容可能与所在输入场景中已经出现的内容相关。
在这类输入场景中,虽然有可能用户输入的内容在语义上没有问题,但是依然属于输入错误,例如图1所示的社交软件聊天界面中,用户a和用户b在进行交互,用户a发送的信息为“你想我了吗?”,用户b的输入内容是“我不像你”,若采用上述传统纠错方式,用户b所输入的内容并无问题,是不会向用户b提示纠错候选项的,但是若结合已输入上文,即用户a发送的“你想我了吗?”,显然用户b作为交互性的回复,实际应该输入“我不想你”,而不是输入与上文毫无关系的“我不像你”,可见,用户b在输入时,将“想”错输入为“像”,但是通过前述传统纠错方式并不能发现这一输错行为。
发明内容
为了解决上述技术问题,本申请提供了一种输入纠错方法和装置,能够在输入字符串整体语义通顺的情况下,依然可以找出与交互上文无关的输入错误并提供纠错候选项,从而提高输入纠错的适用范围和用户的输入体验。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种输入纠错方法,所述方法包括:
获取用户输入的、尚未提交到交互会话中的输入字符串;
从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
可选的,所述目标字符串为以下任意一种或多种的组合:
所述交互会话中上屏时间距所述输入字符串的输入时间较近的已上屏的字符串中的一个;
所述交互会话中尚未被回复的已上屏的字符串;
所述交互会话中语义通顺的已上屏的字符串。
可选的,所述根据所述目标字符串确定所述输入字符串中是否具有错误字符串,包括:
判断所述输入字符串与所述目标字符串间的语义相关性;
若所述语义相关性低于预设条件,确定所述输入字符串中具有错误字符串。
可选的,在所述确定所述输入字符串中具有错误字符串之后,所述方法还包括:
若得到所述输入字符串所输入编码中的子输入编码与所述目标字符串对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
若所述输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述根据所述目标字符串确定出针对所述错误字符串的纠错候选项,包括:
根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
根据所述子字符确定出所述错误字符串对应的纠错候选项。
可选的,所述根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项,包括:
确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子编码对应的字符;
确定所述待定字符与所述目标字符串的相关概率;
若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项;
或者,所述根据所述子字符确定出所述错误字符串对应的纠错候选项,包括:
确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子字符;
确定所述待定字符与所述目标字符串的相关概率;
若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
可选的,所述根据所述目标字符串确定所述输入字符串中是否具有错误字符串,包括
确定所述目标字符串对应的智能回复内容;
若所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串。
可选的,在所述确定所述输入字符串中具有错误字符串之后,所述方法还包括:
若得到所述输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
若所述输入字符串的子输入字符与所述智能回复内容的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述根据所述目标字符串确定出针对所述错误字符串的纠错候选项,包括:
根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
根据所述子字符确定出所述错误字符串对应的纠错候选项。
第二方面,本申请实施例提供了一种输入纠错装置,所述方法包括:
输入字符串获取单元,用于获取用户输入的、尚未提交到交互会话中的输入字符串;
目标字符串确定单元,用于从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
错误字符串确定单元,用于根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
纠错候选项确定单元,用于当所述输入字符串中具有错误字符串时,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。可选的,所述目标字符串为以下任意一种或多种的组合:
所述交互会话中上屏时间距所述输入字符串的输入时间较近的已上屏的字符串中的一个;
所述交互会话中尚未被回复的已上屏的字符串;
所述交互会话中语义通顺的已上屏的字符串。
可选的,所述错误字符串确定单元,包括:
语义相关性判断子单元,用于判断所述输入字符串与所述目标字符串间的语义相关性;
第一错误字符串确定子单元,用于若所述语义相关性低于预设条件,确定所述输入字符串中具有错误字符串。
可选的,所述装置还包括:
第一错误字符串确定单元,用于若得到所述输入字符串所输入编码中的子输入编码与所述目标字符串对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
第二错误字符串确定单元,用于若所述输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述纠错候选项确定单元,包括:
第一纠错候选项确定子单元,用于根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
第二纠错候选项确定子单元,用于根据所述子字符确定出所述错误字符串对应的纠错候选项。
可选的,所述第一纠错候选项确定子单元,包括:
第一语言模型得分确定子模块,用于确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子编码对应的字符;
第一相关概率确定子模块,用于确定所述待定字符与所述目标字符串的相关概率;
第一纠错候选项确定子模块,用于若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项;
或者,所述第二纠错候选项确定子单元,包括:
第二语言模型得分确定子模块,用于确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子字符;
第二相关概率确定子模块,用于确定所述待定字符与所述目标字符串的相关概率;
第二纠错候选项确定子模块,用于若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
可选的,所述错误字符串确定单元,包括:
智能回复确定子单元,用于确定所述目标字符串对应的智能回复内容;
第二错误字符串确定子单元,用于若所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串。
可选的,所述装置还包括:
第三错误字符串确定单元,用于若得到所述输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
第四错误字符串确定单元,用于若所述输入字符串的子输入字符与所述智能回复内容的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述纠错候选项确定单元,包括:
第三纠错候选项确定子单元,用于根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
第四纠错候选项确定子单元,用于根据所述子字符确定出所述错误字符串对应的纠错候选项。
第三方面,本申请实施例提供了一种输入纠错的设备,该设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户输入的、尚未提交到交互会话中的输入字符串;
从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
第四方面,本申请实施例提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一个或多个所述输入纠错的方法。
由上述技术方案可以看出,在交互会话中,针对用户输入的、且尚未提交到交互会话中的输入字符串,可以从交互会话中已经上屏的字符串中确定出可能与该输入字符串相关的目标字符串,由于目标字符串在交互过程中是输入字符串的交互上文,输入字符串可以是目标字符串的交互下文,故输入字符串所表达的内容可能应与该目标字符串中所表达的内容相关,根据该目标字符串能够确定该输入字符串中是否具有错误字符串,若具有,还可以根据目标字符串确定出针对错误字符串的纠错候选项。这种根据交互上文确定交互下文中输入错误的方式,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一个示例性场景应用示意图;
图2a为本申请实施例提供的另一个示例性场景应用示意图;
图2b为本申请实施例提供的又一个示例性场景应用示意图;
图3为本申请实施例提供的输入纠错方法的流程图;
图4为本申请实施例提供的纠错候选项所处的位置的示意图;
图5为本申请实施例提供的根据子编码对应的字符确定出错误字符串对应的纠错候选项的方法流程图;
图6为本申请实施例提供的根据子字符确定出错误字符串对应的纠错候选项的方法流程图;
图7为本申请实施例提供的又一个输入纠错方法的流程图;
图8为本申请实施例提供的一种输入纠错装置的结构框图;
图9为本申请实施例提供的一种输入纠错装置的框图;
图10为本申请实施例提供的一种用于输入纠错的服务器的框图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
发明人在研究中发现,传统的纠错方式虽然可以使得输入语句变得通顺,但是,并不适用于所有输入场景。一种常见的输入场景是交互类型的输入场景,例如在线聊天、论坛跟帖、留言等。这种交互类型的输入场景中用户会与其他用户进行交流、讨论、问答等,也就是说,用户输入的内容可能与所在输入场景中已经出现的内容相关。
在这类输入场景中,虽然有可能用户输入的内容在语义上没有问题,但是依然属于输入错误,但是通过前述传统纠错方式并不能发现这一输错行为。也就是说,传统的纠错方式的纠错范围仅限于输入字符串的语义,其不能根据交互上文进行纠错,从而使得传统的纠错方式的使用范围有限,在一些场景下,不能带来较高的用户体验。
为此,本申请实施例提出了一种针对上述问题的解决方法,能够在输入字符串整体语义通顺的情况下,依然可以找出可能与交互上文无关的输入错误并提供纠错候选项,从而提高输入纠错的适用范围和用户的输入体验。
本实施例提供的输入纠错方法,在交互会话中,针对获取的用户输入的且尚未提交到交互会话中的输入字符串,可以从交互会话中已经上屏的字符串中确定出可能与该输入字符串相关的目标字符串,根据该目标字符串能够确定该输入字符串中是否具有错误字符串,若具有,还可以根据目标字符串确定出针对错误字符串的纠错候选项。这种根据交互上文确定交互下文中输入错误的方式,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。
以前述图1所示的交互会话为例,本申请实施例首先获取用户输入的、尚未提交到交互会话中的输入字符串“我不像你”;然后,从交互会话中已上屏的字符串“你想我了吗”中,确定对应输入字符串“我不像你”的目标字符串“你想我了吗”,根据目标字符串“你想我了吗”确定输入字符串“我不像你”是否具有错误字符串;由于输入字符串作为对目标字符串的交互性回复,输入字符串实际应该输入“我不想你”,而不是输入与上文毫无关系的“我不像你”,因此,可以确定输入字符串中具有错误字符串,并且可以根据目标字符串“你想我了吗”确定针对输入字符串的纠错候选项,即为输入字符串中的“像”提供纠错候选项“想”。从而在输入字符串整体语义通顺的情况下,依然可以找出可能与交互上文无关的输入错误并提供纠错候选项,从而提高输入纠错的适用范围和用户的输入体验。
本实施例中提及的交互会话可以是在线聊天、论坛跟帖、留言等用户会与其他用户进行交流、讨论、问答等场景中的交互会话。本实施例中提及的交互上文是交互会话中已经存在的交互内容。需要说明的是,交互上文不仅包括当前交互会话中显示的交互内容,也包括当前交互会话中并未显示的交互双方的历史交互内容。例如,用户a和用户b利用即时通信工具进行聊天,聊天过程中,用户a清空了其与用户b的聊天记录,当前用户a与用户b的聊天界面中保留的交互记录如图2a所示,则本实施例中提及的交互上文不仅包括201区域中的字符串“你在干什么?”、“没干什么”和“你想我了吗”,还包括用户a和用户b的历史交互内容,即用户a清空的那一部分的交互内容。
本实施例中的已上屏字符串是指交互双方已经提交到交互会话中的字符串。其中,将字符串提交到交互会话中是指,用户对输入法上屏区的字符串触发了提交操作,以使得该字符串在交互会话中显示。本实施例中的已上屏字符串可以是交互会话中任一用户已经提交到交互会话中的字符串。例如可参见图2a,该图中201区域中的字符串“你在干什么?”、“没干什么”和“你想我了吗”均为本实施例中提及的已上屏的字符串。
本实施例中提及的输入字符串,是指当前用户正在编辑、已上屏到输入法的上屏区,但并未提交到交互会话中的字符串。例如可参见图2a,该图中202区域为输入法的上屏区,202区域的字符串“我不像你”为本实施例中提及的输入字符串,由于输入字符串并未被提交到交互会话中,因此,输入该输入字符串的用户可对该字符串进行修改、删除等编辑操作。
需要说明的是,虽然图2a所示的输入字符串为中文汉字,但是,图2a只是示例性的说明。本实施例中提及的输入字符串,可以是用户利用各种输入法输入的字符。当输入法为中文输入法时,输入字符串为中文汉字,当输入法为韩语输入法时,输入字符串为韩语文字,当输入法为日文输入法时,输入字符串为日文文字。
本实施例中提及的目标字符串包含在已上屏到交互会话中的字符串中。目标字符串可以是已上屏到交互会话中的所有的字符串,也可以是已上屏到交互会话中的部分字符串。需要说明的是,已上屏到交互会话中的字符串的数量可能比较多,本实施例中的目标字符串是指多个已上屏到交互会话中的字符串中,可能与输入字符串具有语义联系的字符串。例如可参见图2a,图2a所示的交互会话中,目标字符串可以是已上屏到交互会话中的字符串“你在干什么”、“没干什么”和“你想我了吗”中的一个或多个字符串,而该多个已上屏到交互会话中的字符串中,字符串“你想我了吗”与输入字符串“我不像你”可能具有语义联系,因此,已上屏到交互会话中的字符串“你想我了吗”为本实施例中提及的目标字符串。又如可参见图2b,图2b所示的交互会话中,目标字符串可以是已上屏到交互会话中的字符串“你想我了吗”、“你为什么没想我”中的一个或多个字符串,而该多个已上屏到交互会话中的字符串中,字符串“你想我了吗”和“你为什么没想我”均与输入字符串“我不像你”可能具有语义联系,因此,已上屏到交互会话中的字符串“你想我了吗”和“你为什么没想我”为本实施例中提及的目标字符串。
本实施例中的错误字符串是指输入字符串中的全部或部分字符串,并且,该错误字符串中包含与交互上文无关的错误字符。当输入字符串是英文单词时,所述错误字符串可以是一个或多个英文单词,可以是一个或多个英文词语;当输入字符串是中文汉字时,所述错误字符串可以包括一个或多个字符,例如可以是一个或多个中文汉字、也可以是一个或多个中文词语;当输入字符串是韩语文字时,所述错误字符串可以是一个或多个韩语文字,也可以是一个或多个韩语词语;当输入字符串是日文文字时,所述错误字符串可以是一个或多个日文文字,也可以是一个或多个日文词语。以图2a所示的交互会话为例,错误字符串可以为输入字符串“我不像你”中与交互上文无关的字符“像”,错误字符串也可以为输入字符串“我不像你”中与交互上文无关的字符“不像”,错误字符串还可以为输入字符串“我不像你”中与交互上文无关的字符“像你”。
本实施例中提及的纠错候选项是指,与输入字符串中的错误字符串对应的正确输入字符。一般来讲,纠错候选项所包括的字符的个数与输入字符串中的错误字符串的个数相同。以图2a所示的交互会话为例,纠错候选项为输入字符串“我不像告诉你”中的错误字符串“像”对应的正确输入字符“想”。
为了便于描述,在之后的实施例中,将主要以输入字符串和交互上文均为中文汉字为例进行说明。
参见图3,图3为本实施例提供的输入纠错方法的流程图。
本实施例提供的输入纠错方法,包括如下步骤:
S301:获取用户输入的、尚未提交到所述交互会话中的输入字符串。
需要说明的是,本实施例提供的方法是针对交互会话的输入纠错方法。因此,在对交互会话中的输入字符串进行纠错之前,首先需要获取交互会话中的输入字符串,从而进一步判断该输入字符串是否需要纠错。
本实施例不具体限定获取所述输入字符串的实现方式,作为一种示例,可以通过输入法***来获取用户在交互会话中输入的输入字符串。
S302:从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串。
需要说明的是,由于在交互会话中用户会与其他用户进行交流、讨论、问答等,也就是说,用户输入的输入字符串的内容可能与交互会话中已上屏的字符串的内容相关。
因此,可以从交互会话中已上屏的字符串中确定对应输入字符串的目标字符串。在本实施例中,可以通过输入法***来获取用户在交互会话中已上屏的字符串。
需要说明的是,一方面,在实际应用中,交互会话中的交互内容具有时效性。即对于交互会话中众多已上屏的字符串而言,已上屏的字符串的上屏时间不同,该已上屏的字符串与输入字符串的内容相关性也不同。一般而言,已上屏的字符串的上屏时间与输入字符串的输入时间之间的时间间隔越长,已上屏的字符串与输入字符串的内容相关性越低;已上屏的字符串的上屏时间与输入字符串的输入时间之间的时间间隔越短,已上屏的字符串与输入字符串的内容相关性越高。例如,交互会话中两天之前的已上屏的字符串的内容可能与输入字符串的内容之间毫无联系;而用户当前输入的输入字符串的内容可能是对交互会话中两分钟以内的已上屏的字符串的内容的针对性回复,故而,交互会话中两分钟以内的已上屏的字符串的内容与用户输入的输入字符串的内容的相关性比较高。
另一方面,由于交互类型的输入场景中,用户可能会与其他用户进行交流、讨论、问答等。因此,对于用户当前输入的输入字符串,可能是对交互会话中的已上屏的字符串中具有提问含义的内容的针对性回复,尤其是对于那些尚未被回复的已上屏的字符串的针对性回复。故而,用户当前输入的输入字符串可能与交互会话中尚未被回复的已上屏字符串的相关性比较高。例如,在某一论坛的评论区,有一个用户提出了一个问题,但是没有其他用户对该问题进行答复,虽然该问题的提问时间距离当前时间的间隔比较远,但是,当前用户浏览该论坛评论区时,对该问题进行答复的可能性比较大,即用户当前输入的输入字符串的内容,可能是对交互会话中该尚未被回复的已上屏字符串的针对性回复,故而,用户当前输入的字符串可能与该尚未被回复的已上屏字符串的相关性比较高。
又一方面,考虑到实际应用中,交互会话中的已上屏的字符串中,可能存在一些语义不通顺的字符串,该语义不通顺的字符串中很有可能存在错误字符。若以该语义不通顺的字符串作为目标字符串,则有可能在输入字符串输入正确的情况下,提供了错误的纠错候选项。例如,交互会话中包括已上屏的字符串“天气预报说宁天天气还不错”,用户当前输入的输入字符串为“那明天可以去踏青”,其中,已上屏的字符串语义不通顺,其包含错误字符串“宁天”,而输入字符串输入正确,则不应该使用该语义不通顺的已上屏的字符串作为目标字符串。因此,为了提高输入纠错的准确度,在本实施例中,所述目标字符串可以为所述交互会话中上屏时间距所述输入字符串的输入时间较近的上屏字符串中的一个;所述目标字符串也可以为所述交互会话中尚未被回复的已上屏的字符串;所述目标字符串还可以为所述交互会话中语义通顺的已上屏的字符串;所述目标字符串也可以为上述三种情况中的任意一种或多种的组合。
本实施例中提及的已上屏的字符串的上屏时间是指,该已上屏的字符串的用户将该已上屏的字符串提交到交互会话中的时间,以图2a所示的交互会话为例,用户c于11:31将已上屏的字符串“你在干什么”提交到该交互会话中,则已上屏的字符串“你在干什么”的上屏时间为11:31。
本实施例中的输入字符串的输入时间是指,用户将当前输入的字符串上屏到输入法的上屏区的时间,以图2a所示的交互会话为例,用户d于11:35将当前输入的字符串“我不像你”上屏到输入法的上屏区202,即输入字符串“我不像你”的输入时间为11:35。
在本实施例中,输入法***在获取已上屏的字符串时,可以同时获取该已上屏的字符串的上屏时间,输入法***也可以获取输入字符串的输入时间,通过比较输入字符串的输入时间和各已上屏的字符串的上屏时间,选择出距离所述输入字符串较近的时间,并将与该较近的时间对应的已上屏的字符串作为目标字符串。以图2a所示的交互会话为例,图2a所示的交互会话中,已上屏的字符串“你在干什么”的上屏时间为11:31,已上屏的字符串“没干什么”的上屏时间为11:32,已上屏的字符串“你想我了吗”的上屏时间为11:33,输入字符串“我不像你”的输入时间为11:35,则将距离输入字符串的输入时间11:35较近的时间11:33对应的已上屏的字符串“你想我了吗”作为目标字符串。
本实施例不具体限定所述目标字符串的上屏时间与所述输入字符串的输入时间之间的时间间隔,该时间间隔可以根据交互会话的应用场景具体设置。例如,当应用场景为在线聊天时,该时间间隔可以设置的较短,例如为30分钟,当已上屏的字符串的上屏时间与输入字符串的输入时间之间的时间间隔在30分钟以内时,可以认为该已上屏的字符串为与输入字符串的输入时间较近的已上屏的字符串;当应用场景为论坛跟帖和留言时,该时间间隔可以设置的较长,例如为2天,当已上屏的字符串的上屏时间与输入字符串的输入时间之间的时间间隔在2天以内时,可以认为该已上屏的字符串为与输入字符串的输入时间较近的已上屏的字符串。
S303:根据所述目标字符串确定所述输入字符串中是否具有错误字符串。
由于在交互会话中用户会与其他用户进行交流、讨论、问答等,也就是说,用户输入的输入字符串的内容可能与交互会话中已上屏的字符串的内容相关。因此,判断该输入字符串是否需要纠错时,首先可以根据目标字符串确定输入字符串中是否具有错误字符串。
S304:若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
在本实施例中,确定所述输入字符串中具有错误字符串之后,可以根据目标字符串为所述输入字符串中的错误字符串提供对应的纠错候选项。以便用户利用该纠错候选项替换所述输入字符串中的错误字符串。例如,在确定输入字符串“我不像你”具有输入字符之后,可以根据目标字符串“你想我了吗”,为其中的错误字符串“像”提供对应的纠错候选项“想”。
在本实施例中,可以在输入法界面的任何位置显示所述纠错候选项,本实施例不具体限定该纠错候选项的显示位置,作为一种示例,纠错候选项的显示位置可以是如图4所示的位置,即在错误字符串的上方显示该错误字符串的纠错候选项,用户可通过点击该纠错候选项来替换所述输入字符串中的错误字符串。
本实施例提供的输入纠错方法,可以根据交互上文确定交互下文中输入错误,因此,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。
在一个实例中,在具体实现S303时,可以判断所述输入字符串与所述目标字符串之间的语义相关性,若所述语义相关性低于预设条件,确定所述输入字符串中具有错误字符串。
本实施例中提及的输入字符串与目标字符串之间的语义相关性,是指,输入字符串与目标字符串在语义上的关联程度。当所述语义相关性比较高时,可以认为所述输入字符串与目标字符串之间的关联程度比较高,则输入字符串的内容可能是对目标字符串的内容的针对性应答;当所述语义相关性比较低时,可以认为所述输入字符串与目标字符串之间的关联程度比较低,则输入字符串中很有可能具有输出错误字符。
本实施例提及的预设条件,可以作为判断所述输入字符串与所述目标字符串之间的语义相关性高低的界限,当所述输入字符串与所述目标字符串之间的语义相关性不低于预设条件时,可以认为所述输入字符串与所述目标字符串之间的关联程度比较高;当所述输入字符串与所述目标字符串之间的语义相关性低于预设条件时,可以认为所述输入字符串与所述目标字符串之间的语义相关性比较低。
本实施例不具体限定所述预设条件,该预设条件可以根据所述交互会话的具体场景设置。
本实施例不具体限定获得所述输入字符串与所述目标字符串之间的语义相关性的具体实现方式。作为一种示例,可以通过机器学习模型或者深度学习模型计算所述输入字符串与所述目标字符串之间的相关概率,利用所述相关概率表征所述输入字符串与所述目标字符串之间的语义相关性。其中,所述机器学习模型和所述深度学习模型可以基于大量的历史输入字符串和历史目标字符串训练获得。
在本实施例中,通过判断所述输入字符串与所述目标字符串间的语义相关性确定所述输入字符串中具有错误字符串之后,还可以通过以下两种方式确定所述输入字符串中的错误字符串。
第一种方式:若得到输入字符串中所输入编码中的子输入编码与所述目标字符串对应的编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串。
可以理解的是,用户在利用输入法***输入字符串时,需要通过输入法***提供的输入工具输入与输入字符串对应的拼音字母。通过该与输入字符串对应的拼音字母在输入法***提供的候选词中选择用户希望上屏的字符串作为输入字符串。上述与输入字符串对应的拼音字母即为本实施例中提及的输入编码。其中,所述输入编码可以是与所述输入字符串对应的完整拼音字母,也可以是与所述输入字符串的不完整的拼音字母。例如,输入字符串为“我不像你”,则所述输入编码可以为“wobuxiangni”,也可以为“wobuxiangn”,还可以为“wbxn”。
子输入编码是所述输入字符串中字符对应的拼音字母,子输入编码是输入编码的子集。
在本实施例的一种实现方式中,输入字符串中所输入编码中的子输入编码与目标字符串对应的编码中的子编码符合编码相似条件,可以是所述子输入编码与所述子编码的全拼或简拼相同。例如,子输入编码的全拼为“baoyou”,子编码的全拼也为“baoyou”,则可以认为该子输入编码和该子编码符合编码相似条件。又如,子输入编码的简拼为“by”,子编码的简拼也为“by”,则可以认为该子输入编码和该子编码符合编码相似条件。
在本实施例的另一种实现方式中,输入字符串中所输入编码中的子输入编码与目标字符串对应的编码中的子编码符合编码相似条件,可以是所述子输入编码与所述子编码的全拼或简拼相似。例如,子输入编码的全拼为“ningtian”,子编码的全拼为“ningtian”,即子输入编码和子编码的全拼除了第一个字母不同之外,其他的字母均相同,则可以认为该子输入编码和该子编码符合编码相似条件。又如,子输入编码的简拼为“ningt”,子编码的简拼为“mingt”,即子输入编码和子编码的简拼除了第一个字母不同之外,其他的字母均相同,则可以认为该子输入编码和该子编码符合编码相似条件。在本实施例中,在具体实现判断所述子输入编码与目标字符串对应的编码中的子编码是否符合编码相似条件时,可以根据目标字符串获得所述目标字符串对应的编码,对该目标字符串对应的编码按照一定规则分成多个子编码,将输入编码按照一定规则分成多个子输入编码,然后将多个目标字符串对应的编码中的子编码与所述多个子输入编码进行逐一比对,从而获得与目标字符串对应的编码中的子编码符合编码相似条件的子输入编码。例如,对于目标字符串“你想我吗”,首先获得该目标字符串对应的编码“nixiangwoma”,然后将所述目标字符串中的编码分成“ni”、“xiang”、“wo”、“ma”四个子编码,将输入字符串“我不像你”的输入编码“wobuxiangni”分成“wo”、“bu”、“xiang”、“ni”四个子输入编码,将所述子编码“ni”分别与子输入编码“wo”、“bu”、“xiang”、“ni”进行比对,将所述子编码“xiang”分别与子输入编码“wo”、“bu”、“xiang”、“ni”进行比对,将所述子编码“wo”分别与子输入编码“wo”、“bu”、“xiang”、“ni”进行比对,将所述子编码“ma”分别与子输入编码“wo”、“bu”、“xiang”、“ni”进行比对,获得与目标字符串对应的编码中的子编码符合编码相似条件的子输入编码为“ni”、“wo”和“xiang”。
当所述子输入编码与目标字符串对应的编码中的子编码的符合编码相似条件时,在根据语义相关性判断确定所述输入字符串中存在错误字符串的情况下,所述子输入编码对应的字符很有可能是用户在输入法提供的候选词中选择了错误的候选词而导致输入错误的字符,也可能是用户在输入子输入编码时输入了错误的编码,从而导致输入了错误字符串。因此,在本实施例中,将所述子输入编码对应的字符确定为所述错误字符串。例如,输入字符串“我不像你”的编码中包含子输入编码“xiang”,目标字符串“你想我吗”对应的编码中包含子编码为“xiang”,而用户输入的字符串与目标字符串的语义相关性比较低,则,用户很有可能在选择子输入编码“xiang”的候选词时,选择了错误的候选词,因此,可以确定子输入编码“xiang”对应的字符“像”为错误字符串。又如,输入字符串“明天出去玩怎么样”的编码中包含子输入编码“mingtian”,目标字符串“宁天不行”对应的编码中包含子编码为“ningtian”,而用户输入的字符串与目标字符串的语义相关性比较低,则,用户很有可能在输入子编码是输入了错误的子编码,因此,可以确定子输入编码“ningtian”对应的字符“宁天”为错误字符串,也可以确定子输入编码“ning”对应的字符“宁”为错误字符串。
在本实施例中,利用上述第一种方式确定所述输入字符串中的错误字符串之后,相应的,根据目标字符串确定出针对所述错误字符串的纠错候选项在具体实现时,可以根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项。
可以理解的是,当子输入编码与目标字符串对应的编码中的子编码的符合编码相似条件时,由于所述子输入编码对应的字符很有可能是用户在输入法提供的候选词中选择了错误的候选词而导致输入错误的字符,因此,用户实际想要输入的字符是与该子输入编码符合编码相似条件的子编码对应的字符,因此,可以根据与该子输入编码符合编码相似条件的子编码对应的字符确定出所述错误字符串对应的纠错候选项。例如,目标字符串中的字符“想”对应的子输入编码与输入字符串中的字符“像”对应的子输入编码满足编码相似条件,因此,可以根据所述子编码对应的字符“想”确定出错误字符串“像”对应的纠错候选项。
在本实施例中,根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项在具体实现时,可以通过S501至S503来实现。
S501:确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符串为所述子编码对应的字符。
如上文所述,由于所述子输入编码对应的字符很有可能是用户在输入法提供的候选词中选择了错误的候选词而导致输入错误的字符,也可能是用户在输入子输入编码时输入了错误的编码,从而导致输入了错误字符串。因此,用户实际想要输入的字符是与该子输入编码符合编码相似条件的子编码对应的字符,因此,可以将与该子输入编码符合编码相似条件的子编码对应的字符作为所述错误字符串对应的纠错候选项,并将所述错误字符串替换为与该子输入编码符合编码相似条件的子编码对应的字符。例如,目标字符串中的字符“想”对应的子输入编码与输入字符串中的字符“像”对应的子输入编码满足编码相似条件,因此,可以将所述子编码对应的字符“想”作为错误字符串“像”对应的纠错候选项,并将错误字符串“像”替换为“想”。又如,目标字符串中的字符“明天”对应的子输入编码与输入字符串中的字符“宁天”对应的子输入编码满足编码相似条件,因此,可以将所述子编码对应的字符“明天”作为错误字符串“宁天”对应的纠错候选项,并将错误字符串“宁天”替换为“明天”。
需要说明的是,考虑到实际应用中,某一错误字符串可能与对应多个待定字符,例如,错误字符串“像”与两个待定字符“想”和“相”对应。为了保证所能提供的纠错候选项的准确性,即保证将错误字符串替换为待定字符之后,获得的输入字符串语义通顺,本实施例还可以进一步通过语言模型得分判断将错误字符串替换为待定字符之后,获得的输入字符串的语义。
S502:确定所述待定字符与所述目标字符串的相关概率。
S503:若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
关于S502和S503,需要说明的是,由于本实施例提供的纠错方法是基于上文的纠错方法,因此,不仅要判断将错误字符串替换为待定字符之后,获得的输入字符串自身的语义,还要判断所述待定字符串与所述目标字符串的关联程度。在本实施例中,可以通过相关概率来确定待定字符与所述目标字符串的关联程度。
在确定所述语言模型得分和所述待定字符与所述目标字符串的相关概率之后,可以根据所述语言模型得分和所述相关概率判断所述待定字符是否满足纠错条件。具体地,在本实施例中,可以所述根据语言模型得分和所述相关概率计算所述待定字符的得分,当所述待定字符得分大于预设阈值时,可以认为该待定字符满足纠错条件。
其中,待定字符得分=x1*log(LM)+x2*log(P)。
其中,x1和x2为系数,LM表示还将将所述错误字符串替换为待定字符的输入字符串的语言模型得分,P表示所述待定字符与所述目标字符串的相关概率。
当所述待定字符满足纠错条件时,说明将错误字符串替换为该待定字符之后,获得的输入字符串不仅在语义上通顺,而且与上文的关联程度也比较高,因此,可以将该待定字符作为错误字符串的纠错候选项,进一步向用户提示该纠错候选项。这样一来,可以提高该纠错候选项被用户接受的可能性,也能进一步提高用户体验。
当所述待定字符不满足纠错条件时,说明该待定字符可能并不是用户想要输入的字符,则不向用户提示该纠错候选项,也能避免向用户提供纠错性能不好的纠错候选项,影响用户体验。
第二种方式:若所述输入字符串的子输入字符与所述目标字符串的子输入字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
本实施例中的组成相似条件是指,两个字符的字形不同,但是很相似。例如,对于字符“账”和“帐”,只是部首不一样,可以认为这两个字符在字形上很相似。
本实施例中,在具体实现判断所述输入字符串的子输入字符与所述目标字符串的子输入字符是否符合组成相似条件时,可以按照一定规则将目标字符串分成多个子字符,按照一定规则将输入字符串分成多个子输入字符,将多个子字符分别与多个子输入字符进行字形比较,从而确定与子字符符合组成相似条件的子输入字符。例如,对于目标字符串“你的账号是多少”,对该目标字符串进行分词,获得7个子字符:“你”、“的”、“账”、“号”、“是”、“多”、“少”;对于输入字符串“我的帐号是123”,对该输入字符串进行分词,获得6个子输入字符:“我”、“的”、“帐”、“号”、“是”、“123”。将子字符“你”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“的”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“账”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“号”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“是”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“多”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,将子字符“少”逐一与子输入字符“我”、“的”、“帐”、“号”、“是”、“123”进行字形比较,获得与子字符“帐”符合组成相似条件的子输入字符“账”。
可以理解的是,当输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件时,在根据语义相关性判断确定所述输入字符串中存在错误字符串的情况下,所述子输入字符很有可能是用户输入的错误字符,因此,在本实施例中,可以将所述子输入字符确定为所述错误字符串。例如,目标字符串为“你的账号是多少”,输入字符串为“我的帐号是123”,由于输入字符串中的子输入字符“帐”与目标字符串的子字符“账”符合组成相似条件,则确定所述子输入字符“帐”为错误字符串。
在本实施例中,利用上述第二种方式确定所述输入字符串中的错误字符串之后,相应的,根据目标字符串确定出针对所述错误字符串的纠错候选项在具体实现时,可以根据所述子字符确定出所述错误字符串对应的纠错候选项。
可以理解的是,当输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件时,在根据语义相关性判断确定所述输入字符串中存在错误字符串的情况下,所述子输入字符很有可能是用户输入的错误字符,因此,用户实际想要输入的字符是与该子输入字符符合组成相似条件的子字符,因此,可以根据与该子输入字符符合组成相似条件的子字符确定所述错误字符串对应的纠错候选项。例如,目标字符串中的子字符“账”与输入字符串中的子输入字符“帐”符合组成相似条件,因此,可以根据所述目标字符串中的子字符“账”确定错误字符串“帐”对应的纠错候选项。
根据所述子字符确定出所述错误字符串对应的纠错候选项在具体实现时,可以通过S601至S603来实现。
S601:确定将所述错误字符串替换为待定输入字符的输入字符串语言模型得分,所述待定字符串为所述子字符。
如上文所述,由于用户实际想要输入的字符是与该子输入字符符合组成相似条件的子字符,因此,可以将与该子输入字符符合组成相似条件的子字符作为所述错误字符串对应的纠错候选项。例如,目标字符串中的子字符“账”与输入字符串中的子输入字符“帐”符合组成相似条件,因此,可以将所述目标字符串中的子字符“账”作为错误字符串“帐”对应的纠错候选项。
需要说明的是,考虑到实际应用中,某一错误字符串可能对应对个待定字符,例如,错误字符串“帐”与两个待定字符“账”和“张”对应。为了保证所能提供的纠错候选项的准确性,即保证将错误字符串替换为待定字符之后,获得的输入字符串语义通顺,因此,本实施例还可以进一步通过语言模型得分判断将错误字符串替换为待定字符之后,获得的输入字符串的语义。
S602:确定所述待定字符与所述目标字符串的相关概率。
S603:若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
S602和S603分别与S502和S503类似,只是S502和S503中所述的待定字符为所述子编码对应的字符,而602和S603中所述的待定字符为所述子字符。关于S602和S603的具体实现可以参考S502和S503部分的描述,在此不再赘述。
在另一个实例中,在具体实现S303时,可以确定所述目标字符串对应的智能回复内容,若所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串。
需要说明的是,目前输入法***提供了智能回复功能,即对于交互会话中的已上屏字符串,输入法***为该已上屏的字符串提供可能的回复内容。考虑到实际应用中,用户可能不会选择智能回复中的回复选项,而是选择自己输入字符串。因此,在本实施例中,可以将用户输入的输入字符串与智能回复的内容进行比较,当用户输入的输入字符串的内容与智能回复的内容比较相似,但不完全相同时,则可以确定用户输入的输入字符串中可能存在错误字符串。
上文提及的当用户输入的输入字符串的内容与智能回复的内容比较相似,但不完全相同时,可以认为所述输入字符串与所述智能回复内容的相似度符合回复相似条件。
在本实施例中,通过判断所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串之后,还可以通过以下两种方式确定所述输入字符串中的错误字符串。
方式1:若得到所述输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串。
相应的,根据目标字符串确定出针对所述错误字符串的纠错候选项在具体实现时,可以根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项。
需要说明的是,方式1与上述“通过判断所述输入字符串与所述目标字符串之间的语义相关性,确定所述输入字符串中具有错误字符串”的实例中,利用第一种方式确定所述输入字符串中的错误字符串的具体实现方式类似。只是,上述第一种方式中,是通过判断输入字符串所输入编码中的子编码与所述目标字符串对应编码中的子编码是否符合编码相似条件,从而将与目标字符串的子编码符合编码相似条件的子输入编码对应的字符确定为所述错误字符串;而方式1是通过判断输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码是否符合编码相似条件,从而将与智能回复内容的子编码满足编码相似条件的子输入编码对应的字符确定为所述错误字符串。
方式1的具体实现方式可以参见上述第一种实现方式的描述部分,在此不再赘述。
方式2:若所述输入字符串的子输入字符与所述智能回复内容的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
相应的,根据目标字符串确定出针对所述错误字符串的纠错候选项在具体实现时,可以根据所述子字符确定出所述错误字符串对应的纠错候选项。
需要说明的是,方式2与上述“通过判断所述输入字符串与所述目标字符串之间的语义相关性,确定所述输入字符串中具有错误字符串”的实例中,利用第二种方式确定所述输入字符串中的错误字符串的具体实现方式类似。只是,上述第二种方式中,是通过判断输入字符串的子输入字符与所述目标字符串的子字符是否符合组成相似条件,从而将与目标字符串的子字符符合组成相似条件的子输入字符对应的字符确定为所述错误字符串;而方式2是通过判断输入字符串的子输入字符与所述智能回复内容的子字符是否符合组成相似条件,从而将与智能回复内容的子字符满足组成相似条件的子输入字符确定为所述错误字符串。
方式2的具体实现方式可以参见上述第二种实现方式的描述部分,在此不再赘述。
基于以上实施例提供的输入纠错方法,以下将结合具体场景对该方法进行介绍。
在该场景中,用户a正在利用即时通信软件和用户b进行聊天,用户a输入的内容为“这款包邮吗”,用户b通过拼音输入法输入了字母“baoyou”并选择了输入法提供的候选词“保佑”。
参见图7,该图为本实施例提供的一种输入纠错方法的流程图,本实施例提供的方法,包括如下步骤:
S701:获取用户输入的、尚未提交到所述交互会话中的输入字符串“保佑”。
S702:从所述交互会话中已上屏的字符串中确定出对应输入字符串“保佑”的目标字符串“这款包邮吗”。
S703:根据“这款包邮吗”和“保佑”的语义相关性判断输入字符“保佑”中具有错误字符串。
S704:判断输入字符串所输入的编码“baoyou”的子输入编码“bao”和“you”,是否与目标字符串对应编码“zhekuanbaoyouma”的子编码“zhe”、“kuan”、“bao”、“you”、“ma”符合相似编码条件。
S705:确定子输入编码“bao”与子编码符合相似编码条件,子输入编码“you”与子编码“you”符合相似编码条件。
S706:确定所述子输入编码“bao”和子输入编码“you”对应的字符“保”和“佑”为错误字符串。
S707:将输入字符串中的“保佑”替换为待定字符“包邮”,并根据替换后的输入字符串“包邮”的语言模型得分和待定字符“包邮”与目标字符串“这款包邮吗”的相关概率确定待定字符“包邮”满足纠错条件。
S708:将“包邮”作为纠错候选项,并向用户b显示。
本实施例提供的输入纠错方法,可以根据交互上文确定交互下文中输入错误,因此,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。
基于前述实施例提供的一种输入纠错方法,本实施例提供了一种输入纠错装置,图8示出了一种输入纠错装置的结构框图,所述装置包括输入字符串获取单元801、目标字符串确定单元802、错误字符串确定单元803和纠错候选项确定单元804。
输入字符串获取单元801,用于获取用户输入的、尚未提交到交互会话中的输入字符串;
目标字符串确定单元802,用于从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
错误字符串确定单元803,用于根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
纠错候选项确定单元804,用于当所述输入字符串中具有错误字符串时,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
可选的,所述目标字符串为以下任意一种或多种的组合:
所述交互会话中上屏时间距所述输入字符串的输入时间较近的已上屏的字符串中的一个;
所述交互会话中尚未被回复的已上屏的字符串;
所述交互会话中语义通顺的已上屏的字符串。
可选的,所述错误字符串确定单元803,包括:
语义相关性判断子单元,用于判断所述输入字符串与所述目标字符串间的语义相关性;
第一错误字符串确定子单元,用于若所述语义相关性低于预设条件,确定所述输入字符串中具有错误字符串。
可选的,所述装置还包括:
第一错误字符串确定单元,用于若得到所述输入字符串所输入编码中的子输入编码与所述目标字符串对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
第二错误字符串确定单元,用于若所述输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述纠错候选项确定单元804,包括:
第一纠错候选项确定子单元,用于根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
第二纠错候选项确定子单元,用于根据所述子字符确定出所述错误字符串对应的纠错候选项。
可选的,所述第一纠错候选项确定子单元,包括:
第一语言模型得分确定子模块,用于确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子编码对应的字符;
第一相关概率确定子模块,用于确定所述待定字符与所述目标字符串的相关概率;
第一纠错候选项确定子模块,用于若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项;
或者,所述第二纠错候选项确定子单元,包括:
第二语言模型得分确定子模块,用于确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子字符;
第二相关概率确定子模块,用于确定所述待定字符与所述目标字符串的相关概率;
第二纠错候选项确定子模块,用于若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
可选的,所述错误字符串确定单元803,包括:
智能回复确定子单元,用于确定所述目标字符串对应的智能回复内容;
第二错误字符串确定子单元,用于若所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串。
可选的,所述装置还包括:
第三错误字符串确定单元,用于若得到所述输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
第四错误字符串确定单元,用于若所述输入字符串的子输入字符与所述智能回复内容的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
可选的,所述纠错候选项确定单元804,包括:
第三纠错候选项确定子单元,用于根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
第四纠错候选项确定子单元,用于根据所述子字符确定出所述错误字符串对应的纠错候选项。
本实施例提供的输入纠错装置,可以根据交互上文确定交互下文中输入错误,因此,可以在输入字符串整体语义通顺的情况下,依然能够找出可能与交互上文无关的输入错误并提供纠错候选项,不仅提高了输入纠错的适用范围,还提高了用户的输入体验。
图9是根据一示例性实施例示出的一种输入纠错装置900的框图。例如,装置900可以是机器人,移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或8G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种输入纠错方法,所述方法包括:
获取用户输入的、尚未提交到交互会话中的输入字符串;
从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
图10是本发明实施例中服务器的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1024,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,一个或一个以上键盘1054,和/或,一个或一个以上操作***1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种输入纠错方法,其特征在于,所述方法包括:
获取用户输入的、尚未提交到交互会话中的输入字符串;
从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
2.根据权利要求1所述的方法,其特征在于,所述目标字符串为以下任意一种或多种的组合:
所述交互会话中上屏时间距所述输入字符串的输入时间较近的已上屏的字符串中的一个;
所述交互会话中尚未被回复的已上屏的字符串;
所述交互会话中语义通顺的已上屏的字符串。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标字符串确定所述输入字符串中是否具有错误字符串,包括:
判断所述输入字符串与所述目标字符串间的语义相关性;
若所述语义相关性低于预设条件,确定所述输入字符串中具有错误字符串。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述输入字符串中具有错误字符串之后,所述方法还包括:
若得到所述输入字符串所输入编码中的子输入编码与所述目标字符串对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
若所述输入字符串的子输入字符与所述目标字符串的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标字符串确定出针对所述错误字符串的纠错候选项,包括:
根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
根据所述子字符确定出所述错误字符串对应的纠错候选项。
6.根据权利要求5所述的方法,其特征在于,所述根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项,包括:
确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子编码对应的字符;
确定所述待定字符与所述目标字符串的相关概率;
若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项;
或者,所述根据所述子字符确定出所述错误字符串对应的纠错候选项,包括:
确定将所述错误字符串替换为待定字符的输入字符串的语言模型得分,所述待定字符为所述子字符;
确定所述待定字符与所述目标字符串的相关概率;
若所述语言模型得分和所述相关概率确定所述待定字符满足纠错条件,将所述待定字符确定为所述纠错候选项。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标字符串确定所述输入字符串中是否具有错误字符串,包括
确定所述目标字符串对应的智能回复内容;
若所述输入字符串与所述智能回复内容的相似度符合回复相似条件,确定所述输入字符串中具有错误字符串。
8.根据权利要求7所述的方法,其特征在于,在所述确定所述输入字符串中具有错误字符串之后,所述方法还包括:
若得到所述输入字符串所输入编码中的子输入编码与所述智能回复内容对应编码中的子编码符合编码相似条件,将所述子输入编码对应的字符确定为所述错误字符串;或者,
若所述输入字符串的子输入字符与所述智能回复内容的子字符符合组成相似条件,将所述子输入字符确定为所述错误字符串。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标字符串确定出针对所述错误字符串的纠错候选项,包括:
根据所述子编码对应的字符确定出所述错误字符串对应的纠错候选项;或者,
根据所述子字符确定出所述错误字符串对应的纠错候选项。
10.一种输入纠错装置,其特征在于,所述装置包括:
输入字符串获取单元,用于获取用户输入的、尚未提交到交互会话中的输入字符串;
目标字符串确定单元,用于从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
错误字符串确定单元,用于根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
纠错候选项确定单元,用于当所述输入字符串中具有错误字符串时,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
11.一种输入纠错的设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户输入的、尚未提交到交互会话中的输入字符串;
从所述交互会话中已上屏的字符串中确定出对应所述输入字符串的目标字符串;
根据所述目标字符串确定所述输入字符串中是否具有错误字符串;
若具有,根据所述目标字符串确定出针对所述错误字符串的纠错候选项。
12.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-9中一个或多个输入纠错的方法。
CN201711484183.9A 2017-12-29 2017-12-29 一种输入纠错方法和装置 Active CN109992120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711484183.9A CN109992120B (zh) 2017-12-29 2017-12-29 一种输入纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711484183.9A CN109992120B (zh) 2017-12-29 2017-12-29 一种输入纠错方法和装置

Publications (2)

Publication Number Publication Date
CN109992120A true CN109992120A (zh) 2019-07-09
CN109992120B CN109992120B (zh) 2022-10-04

Family

ID=67110300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711484183.9A Active CN109992120B (zh) 2017-12-29 2017-12-29 一种输入纠错方法和装置

Country Status (1)

Country Link
CN (1) CN109992120B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889267A (zh) * 2019-11-29 2020-03-17 北京金山安全软件有限公司 一种图片中的字符编辑方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106325537A (zh) * 2015-06-23 2017-01-11 腾讯科技(深圳)有限公司 信息输入方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
US20140104175A1 (en) * 2012-10-16 2014-04-17 Google Inc. Feature-based autocorrection
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106325537A (zh) * 2015-06-23 2017-01-11 腾讯科技(深圳)有限公司 信息输入方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889267A (zh) * 2019-11-29 2020-03-17 北京金山安全软件有限公司 一种图片中的字符编辑方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109992120B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN105426152B (zh) 弹幕的显示方法和装置
WO2016165557A1 (zh) 验证码的实现方法及装置
CN107436691A (zh) 一种输入法进行纠错的方法、客户端、服务器及装置
US20180181855A1 (en) Systems and methods for a mathematical chat bot
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN108958503A (zh) 输入方法和装置
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN108803890A (zh) 一种输入方法、输入装置和用于输入的装置
EP3734472A1 (en) Method and device for text processing
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN109002183A (zh) 一种信息输入的方法及装置
CN106886294B (zh) 一种输入法纠错方法和装置
CN109814730A (zh) 输入方法和装置、用于输入的装置
CN108345625A (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107688397B (zh) 一种输入方法、***和用于输入的装置
CN110389666B (zh) 一种输入纠错方法和装置
CN112559673A (zh) 语言处理模型的训练方法及装置、电子设备及存储介质
CN109992120A (zh) 一种输入纠错方法和装置
CN109977424A (zh) 一种机器翻译模型的训练方法及装置
CN104090915B (zh) 用户数据更新方法及装置
CN112988956B (zh) 自动生成对话的方法及装置、信息推荐效果检测方法及装置
CN108073291B (zh) 一种输入方法和装置、一种用于输入的装置
CN110858099B (zh) 候选词生成方法及装置
CN111611369A (zh) 基于人工智能的交互方法和相关装置
CN110780749B (zh) 一种字符串纠错方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant