WO2017114020A1

WO2017114020A1 - 语音输入方法和终端设备

Info

Publication number: WO2017114020A1
Application number: PCT/CN2016/106261
Authority: WO
Inventors: 李利平; 王苏杭; 严从现; 杨磊; 刘敏; 赵虹; 姚佳
Original assignee: 北京搜狗科技发展有限公司
Priority date: 2015-12-31
Filing date: 2016-11-17
Publication date: 2017-07-06
Also published as: US10923118B2; TWI720062B; US20180366119A1; CN106933561A; TW201725580A

Abstract

一种语音输入方法和终端设备，其中，该方法包括：在语音输入模式下，接收用户输入的第一语音并对其进行识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容（S11）；在编辑模式下，接收用户输入的第二语音并对其进行识别生成第二识别结果（S12）；将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作；所述语音输入模式和编辑模式相互之间可切换（S13）。通过将语音输入划分为语音输入模式和编辑模式，并通过语音输入模式和编辑模式相互之间的切换，在实现文字内容的语音输入的同时，还能够根据用户的语音输入实现相应的编辑操作，进而提高语音输入的效率和趣味性，提升了用户体验。

Description

语音输入方法和终端设备

本申请要求在2015年12月31日提交中国专利局、申请号为201511032340.3、发明名称为“语音输入方法和终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人机交互技术领域，特别涉及一种语音输入方法和终端设备。

背景技术

语音识别技术是一种通过机器正确识别人类的语音，并将人类语音中的词汇内容转换为相应的计算机可读可输入的文本或命令的高科技技术。随着科技的不断进步，语音识别技术涉及领域也越来越广泛。

随着语音输入等方式日益得到普遍应用，当前逐步出现了可通过语音识别技术将用户输入的语音信息转换为对应的文字信息来进行呈现的方式，然而，该种输出形式较为单一，缺乏趣味性，并且由于语音识别的模型并不完善，识别的结果可能会产生错误，进而导致语音识别率比较低，用户体验差。

发明内容

本申请实施例所要解决的技术问题是提供一种语音输入方法和终端设备，用以提高语音输入的准确性、语音输入内容的丰富性以及语音处理的速度。

为了解决上述问题，本申请公开了一种语音输入方法，包括：

在语音输入模式下，接收用户输入的第一语音并识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容；

在编辑模式下，接收用户输入的第二语音并识别生成第二识别结果；将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作；

所述语音输入模式和编辑模式相互之间能相互切换。

另一方面，本申请还公开一种终端设备，包括：

语音输入模块，配置为在语音输入模式下，接收用户输入的第一语音，在编辑模式下接收用户输入的第二语音；

语音识别模块，配置为分别对所述第一语音、第二语音进行识别，分别生成第一识别结果、第二识别结果；

显示模块，配置为根据第一识别结果向用户展现相应的文字内容；

编辑操作处理模块，配置为在编辑模式下将所述第二识别结果转换为编辑指令，并根据所述编辑指令执行相应操作；所述语音输入模式和编辑模式之间能相互切换。

再一方面，本申请还公开一种用于语音输入的装置，包括：

存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述语音输入模式和编辑模式之间能相互切换。

与背景技术相比，本申请实施例包括以下优点：

本申请提供的语音输入方法和终端设备，在语音输入过程中，具有语音输入模式和编辑模式两种不同的模式，两种模式之间可进行切换，在这两种不同的模式下进行不同的数据处理过程，能够分别进行原始输入和原始输入基础上的进一步的处理(包括操作动作、纠错、添加内容元素等等)，从而提高了语音输入的准确性以及语音输入内容的丰富性，而且提高了语音处理的速度，在很大程度上提升了用户体验。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1为本申请一种实施方式的语音输入方法的流程图；

图2为本申请一种实施方式的语音输入模式示意图；

图3为本申请另一种实施方式的语音输入方法的流程图；

图4为本申请一实施例的终端设备的结构示意图；

图5为本申请另一实施例的终端设备的结构示意图；

图6是根据一示例性实施例示出的一种用于语音输入的装置800的框图；

图7是本申请实施例中服务器的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

以下将结合附图对本申请实施例的语音输入方法和终端设备进行详细说明。

为了实现语音的输入准确性以及内容丰富性，本申请提出一种语音输入方法，如图1所示，包括：S11.在语音输入模式下，接收用户输入的第一语音并对其进行识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容；S12.在编辑模式下，接收用户输入的第二语音并对其进行识别生成第二识别结果；S13.将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作；所述语音输入模式和编辑模式相互之间可切换。

本实施方式的方法的执行主体为终端设备，所述终端设备可以是手机、平板电脑、掌上电脑PDA或笔记本等设备，当然，也可为其他任何需要进行输入的电子设备，本申请对此不加以限制。本申请通过区分在语音输入模式和编辑模式两种模式不同的数据处理过程，实现了原始输入和原始输入基础上进一步操作处理。一方面，可以省略用户手动选择需要编辑的内容步骤，实现完全编辑操作，另一方面，可以提高语音输入在编辑操作上的便捷性、准确性和输入内容的丰富性等。

在所述步骤S11.中，在语音输入模式下，可通过麦克风或其他语音采集器件接收用户输入的第一语音，并对第一语音进行识别以生成第一识别结果，然后将识别结果以文字的方式展示给用户。具体来说，语音识别是一个模型匹配的过程，在这个过程中，首先根据人的语音特点建立语音模型，通过对输入的语音信号的分析，抽取所需的特征，来建立语音识别所需的模板；对第一语音进行识别的过程即是将输入的第一语音信号的特征与所述模板比较的过程，最后确定与所述第一语音匹配的最佳模板，从而获得语音识别的结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型识别和训练算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本申请在此不做任何限定。

在步骤S11.，通过对用户输入的第一语音进行识别，生成并展现对应的文字内容。

在展现所述文字内容后，如果用户需要进行删除、换行、回车、清空、发送、撤销等等此类的命令操作或者需要对所述展现的文字内容进行纠错、或者需要在文字内容中添加其他的内容元素(包括图片、图像、视频、音频、动画等等)或者对所述文字内容添加文件(包括各种格式的文件，也可将所述文件视为内容元素)等等，所述图片可以包括静止图片。

本申请实施例所述方法可通过用户手动操作的方式由所述语音输入模式切换至编辑模式或者由所述编辑模式切换至所述语音输入模式。

在步骤S12.中，在编辑模式下，接收用户输入的第二语音并对其进行识别生成第二识别结果。在具体实施方式中，当用户切换到编辑模式后，可通过麦克风或其他语音采集器件接收用户输入的第二语音，然后对第二语音进行识别以生成第二识别结果，具体的语音识别手段可以与步骤S11.相同，在此不再赘述。语音输入模式和编辑模式两种模式最大的不同是：在语音输入模式下，直接根据第一识别结果进行相应文字内容的显示，而在编辑模式下，通过步骤S13.，将所述第二识别结果转换为编辑指令，并根据所述编辑指令执行相应操作。将所述第二识别结果转换为编辑指令，具体可包括：对所述第二识别结果进行语义分析，将所述语义分析结果与预先存储的操作信息模型进行匹配，根据所述匹配结果确定编辑指令的类型。

在一种具体实施方式中，操作信息模型可分为三种：命令型操作信息模型、纠错类操作信息模型以及添加内容元素类操作信息模型，每种操作信息模型包括至少一个操作信息模型。

举例来说，命令型操作信息模型可包括：删除操作信息模型(适用于删除光标前后一个文字、符号、字母、内容元素等，比如所展示的文字内容“我们要去上学去”，光标显示在“学去”后，用户想删除“去”字，便可以输入语音“删除前一个文字”，将所述识别结果“删除前一个文字”与删除操作信息模型进行匹配，匹配成功便执行删除操作)、换行操作信息模型、回车操作信息模型、清空操作信息模型、发送操作信息模型、撤销操作信息模型等。

纠错类操作信息模型包括：替换字词的替换操作信息模型、增加字词的补入操作信息模型、将字词移动位置的移位操作信息模型、删除字词的字词去除操作信息模型(适用于去除所展示的文字内容中的部分字词，比如所展示的文字内容为“今天我们去烧烤？”，用户想去除“今天”，便可输入语音“删除今天”，将语音识别结果“删除今天”与去除操作信息模型进行匹配，匹配成功后，确定操作为“去除”，还要确定去除的内容为“今天”，最后，执行去除“今天”的操作。所述去除操作信息模型与删除操作信息模型最大的区别在于，去除操作信息模型需要考虑内容匹配因素，即要判断出需要删除那部分内容。)等。

添加内容元素类操作模型可包括：添加终端设备或服务器侧内容等情形，具体可以添加文本、应用、颜文字、图片、动画、视频、音频等文件中的至少一项内容。

添加内容元素类操作模型具体可包括：添加当前页面文件(包括网页、应用程序、文本、颜文字、图片、动画、视频、音频等文件中的至少一项内容)的第一添加元素操作信息模型(可利用进程数据获取内容元素或当前页面文件截图)、添加一定存储位置的文件(包括文本、应用、颜文字、图片、动画、视频、音频等文件中的至少一项内容)的第二添加元素操作信息模型、添加一定时间拍摄或获取的文本、应用、颜文字、图片、动画、视频、音频等文件中的至少一项内容的第三添加元素操作信息模型、添加应用程序的元素库(也称媒体库)中的图片、颜文字、文本、动画、音频、视频中的至少一项内容等的第四添加元素操作信息模型。值得说明的是，上述例举的具体的操作信息模型和操作信息模型种类只是为了说明操作信息模型的含义，操作信息模型并不局限于上述列举的情况。

上述内容了提到了利用应用进程、存储位置、拍摄时间、元素属性等信息来获取内容元素，本申请并不局限于上述方式，采用任何方式获取的内容元素均可被添加到输入框中，可以直接向用户展现，或直接发送给对侧用户。所述内容元素包括文本、应用、颜文字、图片、动画、视频、音频等文件中的至少一项内容。

在进行第二识别结果与操作信息模型的匹配后，得到匹配结果，如果根据所述匹配结果确定编辑指令的类型为命令，则直接执行所述命令；如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作；如果根据所述匹配结果确定编辑指令的类型为添加内容元素，则根据所述第二识别结果推送相应的内容元素。本申请通过提出针对不同的编辑指令类型进行不同的操作提高了语音输入所涵盖的范围，即不仅通过语音输入上屏文字内容，还可通过语音输入命令性操作指令、纠错指令以及丰富的内容元素添加指令。本申请通过将命令型编辑指令、纠错类编辑指令、添加内容元素类编辑指令的语音识别结果分别匹配不同的操作信息模型，提高了语音输入在纠错上的准确性，可以不需要用户选择待纠错的内容，只要由语音输入模式切换至编辑模式，便可根据输入的第二语音直接对所述展现的文字内容进行纠错；而且开创性的提出了语音输入可用于输入命令、添加内容元素，极大地丰富了语音输入的内容，改变了目前通过语音输入只获得上屏文字内容的局限性，总之，在很大程度上提升了用户使用体验。

本申请也不局限于利用操作信息模型来确定执行何种命令性操作、如何纠错以及添加什么内容元素，只要是能够对语音识别结果进行数据处理、分析、判断并能确定执行对应的何种操作均属于本申请的思想范围内。

在语音输入模式和编辑模式之间进行切换的手段可为触发显示界面中的按钮，包括点击按钮以及长按按钮。作为一种实施方式，如图2所示，在语音输入模式下，显示界面的下方显示“按住编辑”按钮，在用户想要切入到编辑模式时，按住所述按钮，即可进行第二语音输入。在用户松开所述按钮时，自动由所述编辑模式切回语音输入模式。当然按钮的标识并不局限于“按住编辑”，也可包括图形元素，其它文字元素或者图形元素与文字元素的组合。作为另一种实施方式，也可采用点击按钮的方式进行两种模式的切换，比如在语音输入模式下，显示界面下方显示“切换至编辑模式”按钮，在编辑模式下，显示界面下方显示“切换至语音输入模式”。在语音输入模式和编辑模式之间进行切换的手段还可是手势触发等其他触发手段，对于两种模式之间的切换手段，研发人员可根据实际应用进行灵活设计，本申请实施例不作具体限定。

作为一种优选的实施方式的语音输入方法，参照图3，包括以下步骤：

S21.在语音输入模式下，接收用户输入的第一语音并对其进行识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容。

S22.在编辑模式下，接收用户输入的第二语音并对其进行识别生成第二识别结果。

S23.将所述第二识别结果与预先存储的操作信息模型进行匹配，根据所述匹配结果确定编辑指令的类型；

S24.编辑指令的类型为命令，则直接执行所述命令；

S25.编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作。

S26.编辑指令的类型为添加内容元素，则根据所述第二识别结果推送相应的内容元素。

所述步骤S23.中，将所述第二识别结果与前面所例举的操作信息模型(不局限于上述例举的操作信息模型)进行匹配，根据匹配到的操作信息模型便可确定对应的操作编辑指令的类型，具体到步骤S24.，每个操作信息模型与一条命令具有映射关系，在第二识别结果匹配到操作信息模型后，便可根据所述每个操作信息模型与命令之间的映射关系，确定对应的命令，并直接执行，所述命令包括删除、换行、回车、清空、发送、撤销中的至少一个。所述删除具体为删除当前光标的前一个字符或者其他内容元素，所述换行具体为在当前光标处换到下一行，所述回车具体为确定上屏内容，所述清空具体为清空当前上屏的文字内容和其他内容元素，发送具体为将上屏的内容发送出去，所述撤销具体为撤销之前的一个操作。由语音输入模式切换至编辑模式后，提供编辑指令和/或输入内容提示信息，具体可如图2所示，提示用户在编辑模式时，可以语音输入哪些指令或输入内容等。

在步骤S25.中，如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作。由于纠错牵涉到具体的待纠正内容和纠正后内容，优选的实施方式是对所述第二识别结果进行语义分析，根据语义分析结果确定对应的纠错操作类型以及待纠正内容或纠正后内容。

作为一种具体应用场景，用户在语音输入模式下输入语音“li xiang”，第一识别结果为“理想”，但用户其实想要输出的是“李响”。用户触发如图2中所示的切换按钮，由语音输入模式切换至编辑模式，在编辑模式下，用户说出“木子李的李，响声的响”，终端设备对识别结果“木子李的李，响声的响”进行语义分析，分析结果“木子李的李”为“李”字的结构信息，“响声的响”为“响”字的语义信息，从而确定“李”、“响”两字为纠正后的字，再根据音相同或者相似的预存语音模型确定待纠正的相应文字为“理”、“想”，从而确定纠错操作类型为“替换”，利用“李”、“响”替换“理”、“想”，完成纠错过程。对于具体内容，结构信息和语义信息是主要的表达方式，在该场景，用户输入的就是有关纠正后内容的结构信息和语义信息的语音。针对与所述语音对应的第二识别结果进行语义分析，能够先确定纠正后的内容，之后根据所述纠正后的内容对所述展现的文本内容进行纠错。由于语音输入的基础是语音识别，因此纠正前的内容和纠正后的内容最主要的关系就是音相同或者相近。在替换这种纠错操作类型中，经常利用音相同或者相近由纠正前的内容匹配到纠正后的内容，或者由纠正后的内容匹配到纠正前的内容。

作为另一种具体场景，用户输入第一语音，展现的文字内容为“天凉了，晚上睡觉冷，想买杯子，需要保暖”，实际上用户想要的是“天凉了，晚上睡觉冷，想买被子，需要保暖”。用户触发编辑模式，输入第二语音“被子”，终端设备将该第二语音识别为“杯子”，并与所述展现的文字内容进行语音匹配，确定待纠正的内容为“杯子”，便对所述展现的文字进行上下文分析，终端设备根据“晚上睡觉”和“保暖”认为“杯子”应该是“被子”，便确定操作类型为替换，将“杯子”替换为“被子”。在该种场景中，根据用户输入的第二语音，能够确定出待纠错的部分，根据待纠错部分的上下文确定纠错后的内容，对待纠错的部分进行替换。本场景下的实施方式所提出的语音输入方法，通过对用户的第二识别结果进行匹配，确定展现的文字内容中待纠错的部分，并对确定的待纠错的部分进行自动纠错，能够快速的对语音输入错误进行查找和更正，从而快速完成纠错过程，进一步提高了语音输入的准确性，提升用户体验。

作为第三种具体场景，用户还可输入第二语音“删除某某内容”，“某某内容多余”，终端设备根据对应所述第二语音的识别结果确定纠错操作类型为删除，根据“某某内容”确定待纠错的内容，对其执行删除操作；作为第四种具体场景，用户输入第二语音“在某个字词前面或者后面增加某某内容”，根据位置信息“在某个字词前面或者后面”“增加”确定纠错操作类型为“增加内容”，根据“某某内容”确定需要增加的内容，即纠错后的内容，然后执行纠错操作。通过上述例举的两种场景可以看出，根据第二识别结果还可直接确定纠错操作类型以及纠错前或后的内容，然后进行准确的纠错。

通过上述具体的几种场景说明，不难发现，本申请通过挖掘纠错的类型(包括预先建立纠错操作信息模型)以及语义分析结果，能够对进行所述展示的文字内容或者其他内容元素进行准确的纠错。

在纠错过程中，在确定纠正后的内容时，很有可能会有几种候选项，在这种情况下，可将这几种候选项均显示给用户，用户可输入有关候选项位置信息的第三语音，比如“第一项”、“第二项”，也可通过点击的方式选择其中一个候选，能够保证纠错的准确性和快捷性。

在步骤S13.将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作中，具体还可包括将所述第二识别结果与添加内容元素类操作模型进行匹配，从而确定操作类型是否为添加内容元素。

可依据多种信息添加内容元素，比如依据进程数据添加当前窗口的文件或者页面(包括网页文件)，依据存储位置信息添加预定存储位置的文件、依据时间信息添加一定时间拍摄或获取的照片、视频和录制的音频、依据属性信息或者标识信息添加应用软件的媒体库中的图形、图片、动画等，对应于不同的信息，可利用不同的信息识别和匹配方式，前面提到的操作信息模型是一种方式。当然不仅仅限于利用匹配操作信息模型的技术手段，只要是根据识别结果确定相对应的操作的方式均包含本申请在所要保护的范围内。

作为一种具体实施方式，将应用软件的媒体库中的图片添加在语音输入框中。作为第五种应用场景，用户A和用户B在聊天，用户A在编辑模式下输入语音“汪仔”，终端设备则将对应语音“汪仔”的第二识别结果与媒体库中的颜文字、应用、图片、文本、动画、音频和/或视频的标识信息(或者说属性信息)进行匹配，将匹配成功的标识信息(或者属性信息)对应的颜文字、应用、图片、文本、动画、音频、视频中的至少一项内容信息，例如识别出汪仔的动画或者图片等显示在用户的输入框中或者直接发送该信息。本申请实施方式通过将语音识别结果与媒体库中的内容元素的标识信息(或者属性信息)进行匹配来获取内容元素，为用户提供了非常便捷的获取媒体库中的颜文字、图片、文本、动画、音频、视频中的至少一项内容信息等内容元素的方式，而且大大丰富了语音输入内容。所述颜文字为由文字、数字和/或符号组成的图形，所述颜文字包括表情符号。所述音频包括表情声音、录音、音乐中的至少一个。

在很多情况下，匹配成功的内容元素不止一个，在此，本申请提出一种根据用户的历史信息进行内容元素的推送的实施方式。举例来说，用户A与用户B在通过即时聊天应用程序聊天，用户A语音输入“哈哈”，与该“哈哈”相匹配的内容元素可能是多个笑脸表情图片、小丸子等多个大笑的表情动画等多种内容元素，匹配到这些内容元素后，终端设备可以随机推送某个内容元素，也可以推送本地用户例如用户A习惯使用的内容元素，例如小丸子的大笑图片或者大笑的动画等，当然也可以推送对侧用户例如用户B习惯使用的内容元素，例如蜡笔小新的大笑图片或者大笑的动画等。

在所述编辑模式下，基于用户习惯或对侧用户习惯向用户推荐颜文字、图片、文本、动画、应用、音频、视频中的至少一项。

基于用户习惯的推荐，本地终端可调出本地用户例如用户A使用内容元素的历史信息或喜好等，根据历史信息确定所述匹配的内容元素在历史上的使用频次，选择历史上使用频次排序靠前(例如最高或最低)的所述匹配的内容元素推送给用户或者提示给用户。

基于对侧用户习惯的推荐，本地终端可向服务器申请对侧用户例如用户B使用内容元素的历史信息或喜好等，根据历史信息确定所述匹配的内容元素在历史上的使用频次，选择历史上使用频次排序靠前(例如最高或最低)的所述匹配的内容元素推送给用户或者提示给用户。

在所述编辑模式下，基于用户习惯或对侧用户习惯的推荐，还可以推荐当前的热度较高的颜文字、图片、文本、动画、应用、音频、视频中的至少一项。关于热度的判断可以考虑用户或者对侧用户的相似用户喜爱度、关注度等，或者网络绝大部分用户的喜爱度、关注等因素确定。

作为另一种具体实施方式，将预定存储位置的文件添加在语音输入框或者发送列表中。作为第六种应用场景，用户C和用户D在聊天，用户C希望将已经存储的文件发送给对方，那么只需要输入第二语音“添加D盘上ljl文件夹中的文件名称包含“语音输入”的文件”，终端设备将对应所述第二语音的第二识别结果与第二添加元素操作信息模型“添加”、“D盘”、“文件夹”、“文件名称”进行匹配，确定编辑指令为添加已经存储的文件，再从所述第二识别结果提取具体地址信息和/或文件名称，获取到所述要添加的文件，将所述要添加的文件以“D:\My Documents\ljl\语音输入方法\FileRecv”的形式显示在语音输入框中，或者在输入框外、人机交互界面的预定位置显示。在具体实施时，也可直接说出文件名称、文件名称的关键词、文件名称+大致的存储位置或者文件名称关键词+大致的存储位置等能获取到文件的信息，终端设备根据识别结果在确定编辑指令为添加已经存储的文件时，会自动根据所述识别结果查询所述文件并推送给用户。

作为该种编辑指令类型的第三具体实施方式，用户可添加一定时间拍摄或获取的照片、视频和录制的音频至用户输入框中或者发送列表中。作为第七种应用场景，用户在编辑模式下输入第二语音“添加今天拍摄的照片”、“添加刚刚拍摄的视频”，终端设备则会将对应该第二语音的第二识别结果与第三添加元素操作信息模型“今天”、“刚刚”、“拍摄”、“视频”、“照片”进行匹配，确定为添加元素类型编辑指令，然后根据所述第二识别结果获取所述照片或者视频，将获取到的照片或者视频的缩略图显示在输入框中，或者将对应的文件地址信息显示在发送列表中。

作为该种编辑指令类型的第四种具体实施方式，用户可添加当前活动的网页或者应用程序界面至用户输入框中或者发送列表中。作为第八种应用场景，用户修改一份word文档，在修改文档的过程中，需要与对方沟通修改的细节，一利用本申请提出的语音输入方法的即时通讯应用窗口浮在word应用窗口上面，在需要将具体的word的当前页面内容发送给对方时，用户只需激活所述即时通讯应用窗口并进入编辑模式，语音输入“当前页面”，便可将word的当前页面添加至输入框中(可直接显示图片)，如果用户需要将当前word文件发送给对方，用户只需激活所述即时通讯应用窗口并进入编辑模式，语音输入“当前文件”，便可将word文件添加到输入框中(可显示链接地址，也可添加至发送列表中)。通过上述提出的实施方式，极大地方便了用户在语音输入过程中灵活地根据进程数据添加页面内容或者文件内容，相对于现有技术中利用复杂的截屏操作、甚至从根目录开始浏览文件以查找目标文件的方式便捷性大大提高。

作为第九种应用场景，用户在浏览淘宝网页，发现一款非常好的商品想推荐给朋友，或者一系列需要推荐的页面内容想推荐给朋友，那么用户可对当前页面进行截屏操作，然后在编辑模式下，输入第二语音“发送截屏”，便可将最近一次截屏的内容添加到输入框中或者用户界面一侧的发送列表中，或者输入发送三张截屏，便可将最近三次截屏的内容添加到输入框中或者用户界面一侧的发送列表中。当然，也可以直接发送当前网页的链接给对方用户。该种方式非常方便于用户将当前窗口页面发送给用户，提高了沟通的畅通性。

通过上述四种具体实施方式，本申请采用添加内容元素的技术手段，通过输入简单的语音即可达到发送文件或者页面图像的目的。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

本申请还提供一种终端设备，如图4所示，所述终端设备的结构包括：语音输入模块101、语音识别模块102、显示模块103以及编辑操作处理模块104，其中：

所述语音输入模块101，配置为在语音输入模式下，接收用户输入的第一语音，在编辑模式下接收用户输入的第二语音；所述语音识别模块102，配置为分别对所述第一语音、第二语音进行识别，分别生成第一识别结果、第二识别结果；

所述显示模块103，配置为根据第一识别结果向用户展现相应的文字内容；

所述编辑操作处理模块104，配置为在编辑模式下将所述第二识别结果转换为编辑指令，并根据所述编辑指令执行相应操作；所述语音输入模式和编辑模式相互之间可切换。

本申请实施例提供的终端设备，所述语音输入模块101、语音识别模块102在语音输入模式和编辑模式两种模式下采集语音、识别语音，所述显示模块103直接根据在语音输入模式生成的第一识别结果展示相应文字内容，而所述编辑操作处理模块104根据在编辑模式下输入的第二语音，进行对所述文字内容的纠错、命令式操作或者添加文字外其他内容元素。该终端设备将输入的语音区分为两种模式，使得第二识别结果在转换为编辑指令时，需要的处理资源少，而且第二识别结果与编辑指令的匹配准确性高；在用户体验上，一方面，省略用户选择要编辑的内容部分，实现了完全的语音输入，另一方面，提高了语音输入在编辑上的便捷性和准确性。

进一步地，如图5所示，所述编辑操作处理模块104具体包括匹配模块1041、确定模块1042以及执行模块1043，其中：

所述匹配模块1041，配置为将所述第二识别结果与预先存储的操作信息模型进行匹配；

所述确定模块1042，配置为根据所述匹配结果确定编辑指令的类型；

所述执行模块1043，配置为根据所述编辑指令的类型执行相应操作。

根据本申请的优选实施例，所述确定模块1042确定编辑指令的类型为命令时，所述执行模块直接执行所述命令；所述确定模块确定编辑指令的类型为纠错时，所述执行模块根据所述第二识别结果，对展现的文字内容进行纠错操作；所述确定模块确定编辑指令的类型为添加内容元素时，所述执行模块根据所述第二识别结果推送相应的内容元素。

本申请通过提出针对不同的编辑指令类型进行不同的操作提高了语音输入所涵盖的范围，即不仅通过语音输入上屏的文字内容，还可通过语音输入命令性操作指令、纠错指令以及丰富的内容元素添加指令。本申请通过将命令性操作指令和用于纠错、添加其他内容元素的语音识别结果分别匹配不同的操作信息模型，提高了语音输入在纠错上的准确性，从而不需要用户选择待纠错的内容，只要由语音输入模式切换至编辑模式，便可根据输入的第二语音直接对所述展现的文字内容进行纠错；而且开创性的提出了语音输入可用于输入命令、其他内容元素，极大地丰富了语音输入的内容，改变了目前通过语音输入只获得上屏文字内容的局限性，总之，在很大程度上提升了用户使用体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于语音输入的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O，Input/Output)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)，可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)，可编程只读存储器(PROM，Programmable Read-Only Memory)，只读存储器(ROM，Read-Only Memory)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD，Liquid Crystal Display)和触摸面板(TP，Touch Panel)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC，Microphone)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)或CCD(Charged Coupled Device，电荷耦合器件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi(WIreless FIdelity，无线保真)，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC，Near Field Communication)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID，Radio Frequency Identification)技术，红外数据协会(IrDA，Infrared Data Association)技术，超宽带(UWB，Ultra Wide Band)技术，蓝牙(BT，Bluetooth)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processing)、数字信号处理设备(DSPD，Digital Signal Processing Device)、可编程逻辑器件(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM，Random Access Memory)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音输入方法，所述方法包括：在语音输入模式下，接收用户输入的第一语音并识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容；

所述语音输入模式和编辑模式之间能相互切换。

可选地，所述步骤：将所述第二识别结果转换为编辑指令，具体包括：将所述第二识别结果与预先存储的操作信息模型进行匹配，根据所述匹配结果确定编辑指令的类型。

可选地，所述步骤：根据所述编辑指令执行相应操作，至少包括以下一个步骤：

如果根据所述匹配结果确定编辑指令的类型为命令，则直接执行所述命令；

如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作；

如果根据所述匹配结果确定编辑指令的类型为添加内容元素，则根据所述第二识别结果推送相应的内容元素。

可选地，所述命令包括删除、换行、回车、清空、发送、撤销中的至少一个。

可选地，所述步骤：如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作，具体包括：

对所述第二识别结果进行语义分析，根据语义分析结果确定对应的纠错操作类型以及待纠错部分；

对所述待纠错的部分按照所述纠错操作类型进行纠错。

可选地，所述步骤：对所述待纠错的部分按照所述纠错操作类型进行纠错，具体包括：根据待纠错部分的上下文确定纠错后的内容，对待纠错的部分进行更正。

可选地，所述步骤：根据所述第二识别结果，对所述展现的文字内容进行纠错操作，具体包括：

对所述第二识别结果进行语义分析，根据语义分析结果确定对应的纠错操作类型以及纠错后的内容；

按照所述纠错操作类型、纠错后的内容对所述展现的文字内容进行纠错。

可选地，所述纠错操作类型为替换；所述步骤：按照所述纠错操作类型、纠错后的内容对所述展现的文字内容进行纠错，具体为：对音相同或相近的文字进行替换。

可选地，所述第二语音包括替换字词的结构信息或者语义信息。

可选地，所述步骤：如果根据所述匹配结果确定编辑指令的类型为添加内容元素，根据所述第二识别结果推送相应的内容元素，具体包括：

将所述第二识别结果与预存的颜文字、图片、文本、动画、应用、音频、视频中的至少一项的标识信息和/或属性信息进行匹配；

向用户展现相匹配的颜文字、图片、文本、动画、应用、音频、视频中的至少一项。

可选地，在所述编辑模式下，基于用户习惯或对侧用户习惯向用户推荐颜文字、图片、文本、动画、应用、音频、视频中的至少一项。

可选地，所述图片包括静态图片。

可选地，该方法还包括：由语音输入模式切换至编辑模式后，提供编辑指令和/或输入内容提示信息。

图7是本申请实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

对于终端设备、装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种语音输入方法，其特征在于，该方法包括：

在语音输入模式下，接收用户输入的第一语音并识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容；

在编辑模式下，接收用户输入的第二语音并识别生成第二识别结果；将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作；

所述语音输入模式和编辑模式之间能相互切换。
根据权利要求1所述的方法，其特征在于，所述步骤：将所述第二识别结果转换为编辑指令，具体包括：将所述第二识别结果与预先存储的操作信息模型进行匹配，根据所述匹配结果确定编辑指令的类型。
根据权利要求2所述的方法，其特征在于，所述步骤：根据所述编辑指令执行相应操作，至少包括以下一个步骤：

如果根据所述匹配结果确定编辑指令的类型为命令，则直接执行所述命令；

如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作；

如果根据所述匹配结果确定编辑指令的类型为添加内容元素，则根据所述第二识别结果推送相应的内容元素。
根据权利要求4所述的方法，其特征在于，所述命令包括删除、换行、回车、清空、发送、撤销中的至少一个。
根据权利要求3或4所述的方法，其特征还在于，所述步骤：如果根据所述匹配结果确定编辑指令的类型为纠错，则根据所述第二识别结果，对展现的文字内容进行纠错操作，具体包括：

对所述第二识别结果进行语义分析，根据语义分析结果确定对应的纠错操作类型以及待纠错部分；

对所述待纠错的部分按照所述纠错操作类型进行纠错。
根据权利要求5所述的方法，其特征还在于，所述步骤：对所述待纠错的部分按照所述纠错操作类型进行纠错，具体包括：根据待纠错部分的上下文确定纠错后的内容，对待纠错的部分进行更正。
根据权利要求3或4所述的方法，其特征还在于，所述步骤：根据所述第二识别结果，对所述展现的文字内容进行纠错操作，具体包括：

对所述第二识别结果进行语义分析，根据语义分析结果确定对应的纠错操作类型以及纠错后的内容；

按照所述纠错操作类型、纠错后的内容对所述展现的文字内容进行纠错。
根据权利要求7的方法，其特征还在于，所述纠错操作类型为替换；所述步骤：按照所述纠错操作类型、纠错后的内容对所述展现的文字内容进行纠错，具体为：对音相同或相近的文字进行替换。
根据权利要求8所述的方法，其特征还在于，所述第二语音包括替换字词的结构信息或者语义信息。
根据权利要求1-9任一项所述的方法，其特征还在于，所述步骤：如果根据所述匹配结果确定编辑指令的类型为添加内容元素，根据所述第二识别结果推送相应的内容元素，具体包括：

将所述第二识别结果与预存的颜文字、图片、文本、动画、应用、音频、视频中的至少一项的标识信息和/或属性信息进行匹配；

向用户展现相匹配的颜文字、图片、文本、动画、应用、音频、视频中的至少一项。
根据权利要求1-10任一项所述的方法，其特征在于，在所述编辑模式下，基于用户习惯或对侧用户习惯向用户推荐颜文字、图片、文本、动画、应用、音频、视频中的至少一项。
根据权利要求10或11所述的方法，其特征在于，所述图片包括静态图片。
根据权利要求1-12任一项所述的方法，其特征还在于，该方法还包括：由语音输入模式切换至编辑模式后，提供编辑指令和/或输入内容提示信息。
一种终端设备，其特征在于，该设备包括：

语音输入模块，配置为在语音输入模式下，接收用户输入的第一语音，在编辑模式下接收用户输入的第二语音；

语音识别模块，配置为分别对所述第一语音、第二语音进行识别，分别生成第一识别结果、第二识别结果；

显示模块，配置为根据第一识别结果向用户展现相应的文字内容；

编辑操作处理模块，配置为在编辑模式下将所述第二识别结果转换为编辑指令，并根据所述编辑指令执行相应操作；所述语音输入模式和编辑模式之间能相互切换。
一种用于语音输入的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

在语音输入模式下，接收用户输入的第一语音并识别生成第一识别结果，根据所述第一识别结果向用户展现相应的文字内容；

在编辑模式下，接收用户输入的第二语音并识别生成第二识别结果；将所述第二识别结果转换为编辑指令，根据所述编辑指令执行相应操作；

所述语音输入模式和编辑模式之间能相互切换。