CN106601254A - 信息输入方法和装置及计算设备 - Google Patents

信息输入方法和装置及计算设备 Download PDF

Info

Publication number
CN106601254A
CN106601254A CN201611122247.6A CN201611122247A CN106601254A CN 106601254 A CN106601254 A CN 106601254A CN 201611122247 A CN201611122247 A CN 201611122247A CN 106601254 A CN106601254 A CN 106601254A
Authority
CN
China
Prior art keywords
recognition result
text
user
phonetic entry
edit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611122247.6A
Other languages
English (en)
Other versions
CN106601254B (zh
Inventor
于志超
郑志辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201611122247.6A priority Critical patent/CN106601254B/zh
Publication of CN106601254A publication Critical patent/CN106601254A/zh
Priority to US15/835,248 priority patent/US10796699B2/en
Application granted granted Critical
Publication of CN106601254B publication Critical patent/CN106601254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种信息输入方法和装置及计算设备。所述信息输入方法,包括以下步骤:接收用户的语音输入;获取对所接收的语音输入的识别结果;以及使得能够以文本形式编辑所获取的识别结果。利用本发明的信息输入机制,尤其是在语音识别内容出现少量错误的情况下,用户能够选择以文本编辑的形式来修改自动语音识别结果,由此避免了需要重新语音输入全部内容的麻烦,提高了语音识别效率,提升了用户体验。

Description

信息输入方法和装置及计算设备
技术领域
本发明总体上涉及语音输入识别技术领域,特别是涉及一种允许手动修改语音识别结果的信息输入方法和装置以及计算设备。
背景技术
语音识别是现在客户端普遍采用的应用技术,例如广泛应用于智能语音搜索领域以及各种社交通信应用中。
例如,用户在客户端语音输入搜索内容,客户端将接收到的语音输入发送到通常是远端的服务器,服务器在对语音输入进行识别后向客户端返回语音识别结果以及相应的搜索结果。再例如,用户在使用允许语音输入的社交通信软件时,为了便于用户以更方便的方式输入信息,可以选择将语音对话转换成文本显示。
然而,在语音识别多句话结果出现单个文字或词汇识别错误时,在现有技术中,普遍采用要求用户重新语音输入全部内容。这使得语音输入的效率很低,用户体验较差,尤其是在只有少数文字或词汇有误的情况下。而且,在语音识别技术没有明显改善的前提下,很可能出现用户多次语音重新输入都无法获得期望的识别结果。
因此,需要一种能够解决上述问题,由此提高语音识别效率、改善用户体验的信息输入机制。
发明内容
本发明的一个目的在于,在语音识别出现错误的情况下,以简单方便的方式修改识别错误。
为了实现上述目的,本发明提供了一种允许手动修改语音识别错误的信息输入机制,使得用户能够在发现自动语音识别出现错误的情况下,可以选择以文本编辑的形式修改识别结果,由此提高语音识别效率,改善用户体验。
根据本发明的一个方面,提供了一种信息输入方法,尤其是一种用于语音检索的信息输入方法,包括以下步骤:接收用户的语音输入;获取对所接收的语音输入的识别结果;以及使得能够以文本形式编辑所获取的识别结果。
利用本方法,用户能够选择以文本编辑的形式来修改自动语音识别结果,由此避免了需要重新语音输入全部内容的麻烦,提高了语音识别效率,提升了用户体验。本发明尤其适用于语音识别内容出现少量错误的情况。
在本发明的一个实施例中,所述获取对所接收的语音输入的识别结果的步骤包括:将所接收的语音输入发送到服务器端;和接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。
在本发明的一个实施例中,所述信息输入方法还包括:将以文本形式编辑后的识别结果反馈给服务器端,用以训练所述语音识别模型。利用本实施例,服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。
在本发明的一个实施例中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对所述识别结果进行修改。
在本发明的一个实施例中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:与所述识别结果相关联地呈现编辑模式标识;和响应于用户对所述编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。
在本发明的一个实施例中,所述触发包括以下中的任一个或多个的组合:针对所述编辑模式标识的单击、双击以及悬停。
在本发明的一个实施例中,所述获取对所接收的语音输入的识别结果的步骤包括:获得针对所述语音输入的识别结果列表,所述识别结果列表包括多个识别结果;和将用户从所述识别结果列表中选定的识别结果,确定为所获取的识别结果,并且其中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:在用户没有选择所述识别结果列表中的任一个识别结果的情况下,使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。
根据本发明的另一方面,提供了一种信息输入装置,包括:语音输入接收单元,配置为接收用户的语音输入;识别结果获取单元,配置为获取对所接收的语音输入的识别结果;以及文本编辑单元,配置为使得能够以文本形式编辑所获取的识别结果。
在本发明的一个实施例中,所述识别结果获取单元包括:输入发送模块,配置为将所接收的语音输入发送到服务器端;和输入返回模块,配置为接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。
在本发明的一个实施例中,所述信息输入装置还包括:修改反馈单元,配置为将以文本形式编辑后的识别结果反馈给服务器端,用以训练所述语音识别模型。
在本发明的一个实施例中,所述文本编辑单元包括:文本修改模块,配置为响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对所述识别结果进行修改。
在本发明的一个实施例中,所述文本修改模块包括:标识呈现子模块,配置为与所述识别结果相关联地呈现编辑模式标识;和标识触发子模块,配置为响应于用户对所述编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。
在本发明的一个实施例中,所述触发包括以下中的任一个或多个的组合:针对所述编辑模式标识的单击、双击以及悬停。
在本发明的一个实施例中,所述识别结果获取单元包括:列表获得模块,配置为获得针对所述语音输入的识别结果列表,所述识别结果列表包括多个识别结果;和识别结果确定模块,配置为将用户从所述识别结果列表中选定的识别结果,确定为所获取的识别结果,并且其中,所述文本编辑单元进一步被配置为:在用户没有选择所述识别结果列表中的任一个识别结果的情况下,使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。
根据本发明的又一个方面,提供了一种计算设备,包括:网络接口,所述网络接口使得所述计算设备能够经由一个或多个网络与服务器端进行数据通信;存储器,通过所述网络接口通信的数据存储在所述存储器中;以及一个或多个处理器,与所述网络接口和所述存储器相连接,所述一个或多个处理器配置为执行以下操作:接收用户的语音输入;获取对所接收的语音输入的识别结果;以及使得能够以文本形式编辑所获取的识别结果。
利用本发明的信息输入机制,尤其是在语音识别内容出现少量错误的情况下,用户能够选择以文本编辑的形式来修改自动语音识别结果,由此避免了需要重新语音输入全部内容的麻烦,提高了语音识别效率,提升了用户体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是示出了根据本发明一实施例的计算设备的结构框图。
图2是示出了根据本发明一实施例的信息输入方法的总流程图。
图3是示出了根据本发明一实施例的信息输入装置的功能框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
如前所述,为了在语音识别出现错误的情况下以简单方便的方式修改识别错误,本发明的信息输入机制,使得用户能够在发现自动语音识别出现错误的情况下,可以选择以文本编辑的形式手动修改识别结果,而无需重新输入大段语音。
下面将参照图1至图3来具体地描述本发明的实施例。图1是示出了根据本发明一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于网络接口110、存储器120以及一个或多个处理器130。处理器130与网络接口110和存储器120相连接。在本发明的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本发明范围的限制。本领域技术人员可以根据需要,增添或替换其他部件,例如音频输入设备(如,麦克风)。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。
网络接口110使得计算设备100能够经由一个或多个网络与服务器端进行数据通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口110可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE 802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
通过网络接口110通信的数据,例如在本发明中通过网络接口110从服务器端接收到的识别结果,或者文本形式编辑后的语音输入识别结果,存储在存储器120中的指定位置。存储器120可包括存储文件形式或其他形式的内容的任何类型的存储设备中的一个或多个,包括磁硬盘驱动器、固态硬驱、半导体存储设备、闪存,或者能够存储程序指令或数字信息的任何其他计算机可读可写存储介质。
处理器130使能本发明的信息输入机制的处理可以参见图2。图2示出了根据本发明一实施例的信息输入方法200的总体流程图。需要说明的是,在本发明中,所谓信息输入尤指消息输入,例如在线搜索检索项、社交网络对话,等等。当然,上述说明并非是对本发明的限制,本发明的信息输入机制可以用于任何适于语音输入的信息类型。
方法200开始于步骤S210,如图2所示,处理器130例如通过计算设备100的诸如麦克风的音频输入设备(未示出)来接收用户的语音输入。
接下来,在步骤S230,处理器130获取对所接收的语音输入的识别结果。具体地,在本发明的一个实施例中,处理器130将所接收的语音输入经由网络接口110发送到服务器端。服务器端例如根据语音识别模型对语音输入进行识别,然后将识别结果返回到计算设备100。
处理器130通过计算设备100的显示设备(例如,显示屏、触摸显示屏,等等,图中未示出)将接收的识别结果显示给用户,例如利用Android***下的函数TextView以文本形式显示识别结果。
在进一步的实施例中,在计算设备100等待服务器端返回识别结果时,可以在显示设备上显示表示正在识别语音的动画(例如,位于屏幕特定位置的麦克风标识),此动画可以采用自绘制View,通过一个定时器每隔T1时间不断地刷新View来绘制三条直线而实现。在语音识别结束后,服务器端返回了识别结果的情况下,调用函数TextView文本显示最终的识别结果,并隐藏表示正在识别语音的动画。
在用户发现显示的识别结果有错误的情况下,在步骤S250中,使得用户能够以文本形式编辑所获取的识别结果。
在本发明的一个实施例中,从服务器端返回的识别结果可以为多个,即,处理器130可以获得一个识别结果列表。用户能够从识别结果列表中选择一个识别结果,作为最终正确的识别结果。
在用户判定识别结果列表中的所有识别结果都不正确的情况下,处理器130进入步骤S250,使得用户能够以文本形式编辑识别结果列表中的任一识别结果。
在本发明的一个实施例中,响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对该识别结果进行修改。例如,在显示设备上与识别结果相关联地(例如,在识别结果的文本显示内容旁边或邻近的位置处)呈现编辑模式标识。在一个示例中,可以调用ImageView函数来实现编辑模式标识的动画。
接着,响应于用户对上述编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。在本发明的一个实施例中,所谓触发包括以下中的任一个或多个的组合:针对编辑模式标识的单击、双击以及悬停。需要指出的是,以上给出的触发示例并非旨在限制本发明的范围,本发明中可以应用于任何能够使得用户激活编辑模式标识以修改语音识别结果的任何姿势或与显示设备的交互动作。
在一个具体实现中,用户点击ImageView函数的编辑模式识别动画之后,触发创建EditView,从而进入文本编辑模式。该EditView例如可以采用一个Translation动画从显示设备屏幕底部滑出,动画执行时间为T2,插值器采用先加速后减速。而且,调起***输入法,用户可以修改或者重新输入想要搜索的内容。
在语音搜索的应用场景下,利用用户文本修改后的结果发起新的搜索。这里,可以调用已有方法发起搜索,并创建新的WebView窗口展现服务器端返回的新搜索结果。
利用本方法,用户能够选择以文本编辑的形式来修改自动语音识别结果,由此避免了需要重新语音输入全部内容的麻烦,提高了语音识别效率,提升了用户体验。本发明尤其适用于语音识别内容出现少量错误的情况。
在本发明的一个实施例中,图2给出的信息输入方法200还包括步骤S270,其中将以文本形式编辑后的识别结果反馈给服务器端,用以训练语音识别模型。利用本实施例,服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。
图3出了根据本发明一实施例的信息输入装置300的功能框图。信息输入装置300的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现,例如通过图1所示的计算设备100中的一个或多个处理器130来实现。本领域技术人员可以理解的是,图3中所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
参照图3,为了提高语音识别效率,本发明的信息输入装置300包括语音输入接收单元310、识别结果获取单元330和文本编辑单元350。
语音输入接收单元310配置为接收用户的语音输入。
识别结果获取单元330配置为获取对语音输入接收单元310所接收的语音输入的识别结果。
在本发明的一个实施例中,识别结果获取单元330包括:输入发送模块332,配置为将所接收的语音输入发送到服务器端;和输入返回模块334,配置为接收从服务器端返回的根据语音识别模型对语音输入的识别结果。
在本发明的一个实施例中,识别结果获取单元330可以包括:列表获得模块335,配置为获得针对语音输入的识别结果列表,识别结果列表包括多个识别结果;和识别结果确定模块337,配置为将用户从识别结果列表中选定的识别结果,确定为所获取的识别结果。
文本编辑单元350配置为使得能够以文本形式编辑所获取的识别结果。在识别结果获取单元330获取的是识别结果列表的情形下,文本编辑单元350进一步被配置为:在用户没有选择识别结果列表中的任一个识别结果的情况下,使得用户能够以文本形式编辑识别结果列表中的任一识别结果。
在本发明的一个实施例中,文本编辑单元350包括文本修改模块352,配置为响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对识别结果进行修改。在本发明进一步的实施例中,文本修改模块352包括:标识呈现子模块3522,配置为与识别结果相关联地(例如,在识别结果的文本显示内容旁边或邻近的位置处)呈现编辑模式标识;和标识触发子模块3524,配置为响应于用户对编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。
在本发明的一个实施例中,所谓触发包括以下中的任一个或多个的组合:针对编辑模式标识的单击、双击以及悬停。需要指出的是,以上给出的触发示例并非旨在限制本发明的范围,本发明中可以应用于任何能够使得用户激活编辑模式标识以修改语音识别结果的任何姿势或与显示设备的交互动作。
在本发明的一个实施例中,信息输入装置300还可以包括修改反馈单元370,配置为将以文本形式编辑后的识别结果反馈给服务器端,用以训练所述语音识别模型。利用本实施例,服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。
综上所述,利用本发明的信息输入方法和装置及计算设备,尤其是在语音识别内容出现少量错误的情况下,用户能够选择以文本编辑的形式来修改自动语音识别结果,由此避免了需要重新语音输入全部内容的麻烦,提高了语音识别效率,提升了用户体验。
此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (15)

1.一种信息输入方法,包括以下步骤:
接收用户的语音输入;
获取对所接收的语音输入的识别结果;以及
使得能够以文本形式编辑所获取的识别结果。
2.根据权利要求1所述的信息输入方法,其中,所述获取对所接收的语音输入的识别结果的步骤包括:
将所接收的语音输入发送到服务器端;和
接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。
3.根据权利要求2所述的信息输入方法,还包括:
将以文本形式编辑后的识别结果反馈给服务器端,用以训练所述语音识别模型。
4.根据权利要求1至3中任一项所述的信息输入方法,其中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:
响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对所述识别结果进行修改。
5.根据权利要求4所述的信息输入方法,其中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:
与所述识别结果相关联地呈现编辑模式标识;和
响应于用户对所述编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。
6.根据权利要求5所述的信息输入方法,其中,所述触发包括以下中的任一个或多个的组合:
针对所述编辑模式标识的单击、双击以及悬停。
7.根据权利要求1至3中任一项所述的信息输入方法,其中,所述获取对所接收的语音输入的识别结果的步骤包括:
获得针对所述语音输入的识别结果列表,所述识别结果列表包括多个识别结果;和
将用户从所述识别结果列表中选定的识别结果,确定为所获取的识别结果,
并且其中,所述使得能够以文本形式编辑所获取的识别结果的步骤包括:
在用户没有选择所述识别结果列表中的任一个识别结果的情况下,使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。
8.一种信息输入装置,包括:
语音输入接收单元,配置为接收用户的语音输入;
识别结果获取单元,配置为获取对所接收的语音输入的识别结果;以及
文本编辑单元,配置为使得能够以文本形式编辑所获取的识别结果。
9.根据权利要求8所述的信息输入装置,其中,所述识别结果获取单元包括:
输入发送模块,配置为将所接收的语音输入发送到服务器端;和
输入返回模块,配置为接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。
10.根据权利要求9所述的信息输入装置,还包括:
修改反馈单元,配置为将以文本形式编辑后的识别结果反馈给服务器端,用以训练所述语音识别模型。
11.根据权利要求8至10中任一项所述的信息输入装置,其中,所述文本编辑单元包括:
文本修改模块,配置为响应于用户针对所获取的识别结果的特定操作,进入文本编辑模式以对所述识别结果进行修改。
12.根据权利要求11所述的信息输入装置,其中,所述文本修改模块包括:
标识呈现子模块,配置为与所述识别结果相关联地呈现编辑模式标识;和
标识触发子模块,配置为响应于用户对所述编辑模式标识的触发,进入文本编辑模式,对所述识别结果进行修改。
13.根据权利要求12所述的信息输入装置,其中,所述触发包括以下中的任一个或多个的组合:
针对所述编辑模式标识的单击、双击以及悬停。
14.根据权利要求8至10中任一项所述的信息输入装置,其中,所述识别结果获取单元包括:
列表获得模块,配置为获得针对所述语音输入的识别结果列表,所述识别结果列表包括多个识别结果;和
识别结果确定模块,配置为将用户从所述识别结果列表中选定的识别结果,确定为所获取的识别结果,
并且其中,所述文本编辑单元进一步被配置为:在用户没有选择所述识别结果列表中的任一个识别结果的情况下,使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。
15.一种计算设备,包括:
网络接口,所述网络接口使得所述计算设备能够经由一个或多个网络与服务器端进行数据通信;
存储器,通过所述网络接口通信的数据存储在所述存储器中;以及
一个或多个处理器,与所述网络接口和所述存储器相连接,所述一个或多个处理器配置为执行以下操作:
接收用户的语音输入;
获取对所接收的语音输入的识别结果;以及
使得能够以文本形式编辑所获取的识别结果。
CN201611122247.6A 2016-12-08 2016-12-08 信息输入方法和装置及计算设备 Active CN106601254B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611122247.6A CN106601254B (zh) 2016-12-08 2016-12-08 信息输入方法和装置及计算设备
US15/835,248 US10796699B2 (en) 2016-12-08 2017-12-07 Method, apparatus, and computing device for revision of speech recognition results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611122247.6A CN106601254B (zh) 2016-12-08 2016-12-08 信息输入方法和装置及计算设备

Publications (2)

Publication Number Publication Date
CN106601254A true CN106601254A (zh) 2017-04-26
CN106601254B CN106601254B (zh) 2020-11-06

Family

ID=58597505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611122247.6A Active CN106601254B (zh) 2016-12-08 2016-12-08 信息输入方法和装置及计算设备

Country Status (2)

Country Link
US (1) US10796699B2 (zh)
CN (1) CN106601254B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN110289001A (zh) * 2019-06-21 2019-09-27 绿漫科技有限公司 一种基于多媒体语音图像识别的物业报事***
CN111326137A (zh) * 2018-12-13 2020-06-23 允匠智能科技(上海)有限公司 一种基于办公智能化的语音机器人交互***

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726197B2 (en) * 2015-03-26 2020-07-28 Lenovo (Singapore) Pte. Ltd. Text correction using a second input
CN111767736A (zh) * 2019-03-27 2020-10-13 阿里巴巴集团控股有限公司 事件处理与数据处理方法、设备、***及存储介质
CN111009247B (zh) * 2019-12-24 2023-11-14 深圳Tcl数字技术有限公司 语音识别修正方法、装置和存储介质
TWI771720B (zh) * 2020-07-24 2022-07-21 華碩電腦股份有限公司 具有多型態輸入之辨識方法及使用其之電子裝置
CN112637407A (zh) * 2020-12-22 2021-04-09 维沃移动通信有限公司 语音输入方法、装置及电子设备
US12001655B2 (en) * 2022-05-11 2024-06-04 Supercell Oy Synchronizing user actions to account for data delay

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387639A (zh) * 1999-11-05 2002-12-25 微软公司 语言输入用户界面
CN101068271A (zh) * 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成***、通信终端、媒体服务器及方法
CN103106061A (zh) * 2013-03-05 2013-05-15 北京车音网科技有限公司 语音输入方法和装置
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理***及方法
CN106537492A (zh) * 2014-11-24 2017-03-22 奥迪股份公司 具有用于语音识别的校正策略的机动车操作装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463696A (en) 1992-05-27 1995-10-31 Apple Computer, Inc. Recognition system and method for user inputs to a computer system
US6353809B2 (en) 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
WO1999000790A1 (en) 1997-06-27 1999-01-07 M.H. Segan Limited Partnership Speech recognition computer input and device
US7362331B2 (en) * 2000-01-05 2008-04-22 Apple Inc. Time-based, non-constant translation of user interface objects between states
JP3444486B2 (ja) 2000-01-26 2003-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識手段を使用する自動音声応答システムおよび方法
US7577569B2 (en) 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
US7137076B2 (en) 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US7873523B2 (en) 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
CA2648617C (en) 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8407052B2 (en) * 2006-04-17 2013-03-26 Vovision, Llc Methods and systems for correcting transcribed audio files
US8286071B1 (en) * 2006-06-29 2012-10-09 Escription, Inc. Insertion of standard text in transcriptions
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8904306B1 (en) * 2008-06-12 2014-12-02 Sprint Communications Company L.P. Variable speed scrolling
KR100998566B1 (ko) 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치
US20100153112A1 (en) 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
US8543652B2 (en) * 2010-07-22 2013-09-24 At&T Intellectual Property I, L.P. System and method for efficient unified messaging system support for speech-to-text service
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
EP2555536A1 (en) 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR102022318B1 (ko) 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9065593B2 (en) * 2012-11-16 2015-06-23 Nuance Communications, Inc. Securing speech recognition data
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9645651B2 (en) * 2013-09-24 2017-05-09 Microsoft Technology Licensing, Llc Presentation of a control interface on a touch-enabled device based on a motion or absence thereof
CN104462262B (zh) 2014-11-21 2017-10-31 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387639A (zh) * 1999-11-05 2002-12-25 微软公司 语言输入用户界面
CN101068271A (zh) * 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成***、通信终端、媒体服务器及方法
CN103106061A (zh) * 2013-03-05 2013-05-15 北京车音网科技有限公司 语音输入方法和装置
CN106537492A (zh) * 2014-11-24 2017-03-22 奥迪股份公司 具有用于语音识别的校正策略的机动车操作装置
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理***及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN111326137A (zh) * 2018-12-13 2020-06-23 允匠智能科技(上海)有限公司 一种基于办公智能化的语音机器人交互***
CN110289001A (zh) * 2019-06-21 2019-09-27 绿漫科技有限公司 一种基于多媒体语音图像识别的物业报事***

Also Published As

Publication number Publication date
US10796699B2 (en) 2020-10-06
CN106601254B (zh) 2020-11-06
US20180166080A1 (en) 2018-06-14

Similar Documents

Publication Publication Date Title
CN106601254A (zh) 信息输入方法和装置及计算设备
JP6718828B2 (ja) 情報入力方法および装置
CN107464554B (zh) 语音合成模型生成方法和装置
US20200234478A1 (en) Method and Apparatus for Processing Information
US9892414B1 (en) Method, medium, and system for responding to customer requests with state tracking
US20190124020A1 (en) Chatbot Skills Systems And Methods
US9818409B2 (en) Context-dependent modeling of phonemes
JP2019102063A (ja) ページ制御方法および装置
CN103558964B (zh) 电子设备中的多层次话音反馈
US8972265B1 (en) Multiple voices in audio content
US10956480B2 (en) System and method for generating dialogue graphs
US20190005013A1 (en) Conversation system-building method and apparatus based on artificial intelligence, device and computer-readable storage medium
US10678406B1 (en) Conversational user interface design
CN108877782A (zh) 语音识别方法和装置
CN105929980B (zh) 用于信息输入的方法和装置
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN104735468A (zh) 一种基于语义分析将图像合成新视频的方法及***
US10649618B2 (en) System and method for creating visual representation of data based on generated glyphs
CN113408208B (zh) 模型训练方法、信息提取方法、相关装置及存储介质
JP7240505B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN106896937A (zh) 用于输入信息的方法和装置
CN110473537A (zh) 语音技能的控制方法、装置、设备及存储介质
CN111742311A (zh) 智能助理方法
WO2024099171A1 (zh) 视频生成方法和装置
CN110442803A (zh) 由计算设备执行的数据处理方法、装置、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200810

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant