CN103369122A

CN103369122A - 语音输入方法及***

Info

Publication number: CN103369122A
Application number: CN201210101597XA
Authority: CN
Inventors: 李曜
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shanghai Guoke Electronic Co., Ltd.
Priority date: 2012-03-31
Filing date: 2012-03-31
Publication date: 2013-10-23

Abstract

本发明涉及一种语音输入方法及***，所述方法包括：根据获取的语音生成文字信息和所述文字信息的分词单元；根据用户选择的文字信息的内容定位到待修改的分词单元；以及根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元。本发明能够利用分词单元将识别出的文字信息结构化，方便用户地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，快速修正语音转写结果。

Description

语音输入方法及***

技术领域

本发明属于语音识别领域，特别涉及一种语音输入方法及***。

背景技术

随着移动互联网时代的到来，以智能手机为代表的各种移动终端越来越多地占据人们的生活，触摸屏逐渐成为智能手机的主流屏幕配置，但是，由于智能手机的尺寸的限制，无论是智能手机的物理键盘还是触摸屏上的虚拟键盘，在智能手机之类的移动终端上进行文本输入总是不如PC键盘输入那样快捷方便，因此，无需通过键盘输入的语音输入法、语音发短信、语音搜索之类的应用越来越多地出现在智能手机中，通过语音识别的功能在智能手机上进行文本输入已成为一个大趋势。

虽然利用语音进行文本输入的方法是可行的，但是由于用户在语音输入经常会有含混不清的情况，所以语音识别的准确率永远不可能达到100％，尤其是在噪音环境下，识别出的文字信息结果中必然可能存在各种错误，这种情况下用户不得不再次调出键盘进行手动修改，这样会大大降低了语音输入的便捷性，因此，在语音转文字的准确率不可能达到100％的前提下，如何对识别结果进行快速修改成为一个关键问题。

发明内容

本发明的目的在于提供一种语音输入方法及***，能够利用分词单元将识别出的文字信息结构化，方便用户地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，快速修正语音转写结果。

为解决上述问题，本发明提供一种语音输入方法，包括：

根据获取的语音生成文字信息和所述文字信息的分词单元；

根据用户选择的文字信息的内容定位到待修改的分词单元；以及

根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元。

进一步的，在上述方法中，通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数。

进一步的，在上述方法中，所述分词单元是包含所述用户选择的文字信息的内容的最短词。

进一步的，在上述方法中，所述重录所述待修改的分词单元的语音并生成新的分词单元的步骤中，根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。

进一步的，在上述方法中，所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元。

进一步的，在上述方法中，所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前，包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。

根据本发明的另一面，提供一种语音输入***，包括：

文字信息单元，用于根据获取的语音生成文字信息和所述文字信息的分词单元；

修改定位单元，用于根据用户选择的文字信息的内容定位到待修改的分词单元；以及

修改单元，用于根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元。

进一步的，在上述***中，所述文字信息单元通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数。

进一步的，在上述***中，所述修改单元根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。

进一步的，在上述***中，还包括菜单单元，用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。

与现有技术相比，本发明通过根据获取的语音生成文字信息和所述文字信息的分词单元，然后根据用户选择的文字信息的内容定位到待修改的分词单元，以及根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元，利用分词单元将识别出的文字信息结构化，可以方便地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，有效减少说话人发音不清楚和突发的环境噪音对识别结果带来的影响，快速修正语音转写结果。

附图说明

图1是本发明实施例的语音输入方法的流程图；

图2是本发明实施例的文字信息显示界面示意图；

图3是对应于图2的操作命令菜单弹出界面示意图；

图4是本发明实施例的语音输入***的功能模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1～图3所示，本发明提供一种语音输入方法，包括：

步骤S1，根据获取的语音生成文字信息和所述文字信息的分词单元，具体的，本步骤中可通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数，N越大表示语言模型越复杂，目前常用的是三元或四元文法语言模型，假设用户想在移动终端上输入如下文字：

“下面进行一个测试，测试一下语音输入法的准确性如何。”

当用户通过语音识别的方法进行文本输入时，由于用户自身可能存在的口齿不清晰的问题，以及在连续语音中存在的吞音、连读等现象，很可能出现识别错误，另外，在录音时用户身旁若有其他人在说话或者发出响声，则与这些噪声重叠的语音也很难识别准确，在这些情况下，就可能在移动终端的屏幕界面显示如图2所示的纯文本识别结果：

“下面请写一个测试，这是下雨输入法的程序如何。”

可以看到，识别结果中存在着多处错误，现有技术中用户可以移动光标到识别错误的文字附近，再手动删除错误文字并通过键盘输入正确文字，从而完成整个文本编辑过程，在这个修改过程中，如果采用现有技术，用户不可避免地需要在移动设备的虚拟键盘或物理键盘上进行操作，使语音输入不能完全替代键盘操作，无法改善人机交互的体验，而本发明采用多遍语音识别的方法就能够有效减少或甚至避免用户在移动设备上键盘操作的次数，根据语音识别的原理可知，在语音识别的过程中，除了得到识别文字信息之外，还包括文字信息的分词单元，图2的识别结果21中，隐含在文字信息背后的分词单元如下：

“下面|请|写|一个|测试|这是|下雨|输入法|的|程序|如何。”

步骤S2，根据用户选择的文字信息的内容定位到待修改的分词单元，具体的，所述分词单元是包含所述用户选择的文字信息的内容的最短词，用户如果想修改本实施例中识别错误的文字信息中的部分内容，可以先选择需要文字信息中的部分内容，如通过触摸屏直接点击某个字，接下来则可根据用户选择的文字信息的内容自动定位到待修改的分词单元，即自动选中包含所述部分内容的最短词组合(分词单元)，例如，点击图2中的“雨”字，则自动选中“下雨”这个词(分词单元)，如果想选中多个错误的文字信息中的部分内容，则可以通过滑动选择的方法，划过这些文字，则自动选中包含所有被划过文字的最小词组合，例如，不管划过的是图2中的“这是下”、“是下”、“是下雨”或者“这是下雨”，都会选中“这是下雨”这两个词(分词单元)，如图3所示，定位到待修改的分词单元时可通过高亮显示提示用户哪些分词单元31已被选中；

步骤S3，在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单，具体的，如图3所示，在定位到待修改的分词单元后，可弹出针对这些文字信息的删除和重录的操作命令菜单32，便于用户快速地进行操作；

步骤S4，根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元，具体的，本步骤中利用分词单元将识别出的文字信息结构化，可以方便地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，本实例中如果用户点击菜单中的“删除”命令，那么高亮显示的所有分词单元将被全部删除，“删除”命令的弹出可以让用户通过点击“删除”达到点击键盘的del键的效果，这样设置的优点是其一，命令菜单就在被删除文字的附近，减少用户手指移动的距离，其二，当删除多个文字时，可以将多次点击del键的操作简化为一次点击“删除”的操作，另外，如果用户点击菜单中的“重录”命令，那么将直接启动新的语音识别服务，用户可以重新录入清晰准确的语音，识别结果将直接替换掉高亮显示的分词单元，“重录”命令的目的是为了让用户选择两遍或多遍语音输入的方式进行对识别结果的快速修正，可以减少说话人连续发音时部分词语发音不清楚的影响、减少周围环境中突发噪音对识别准确率的影响；

可选的，步骤S4中，可根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元，由于第二遍语音输入的内容是之前被识别错误的那部分，为了保证语言模型仍然有效，则在二遍识别的过程中，要利用到第一遍识别结果的上下文信息，这是保证第二遍语音输入能够比第一遍语音输入的准确性更高的关键，所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元，具体的，在连续语音的识别过程中，语言模型对于识别准确率有很大的帮助，通常语言模型的复杂度越高，对准确率的提高越多，计算量也相应增加，目前最常使用的是三元或四元的语言模型，采用两遍或多遍语音输入的方式对识别结果进行修正时，由于再次输入的不是整句语音，而是识别错误的一两个词，此时，按照常规的识别过程，三元或四元的语言模型无法充分发挥作用，因此，二次输入的语音识别准确率会受到影响，假设首次输入的语音是“我被上海交大电子工程系录取了”，而由于噪音或发音不清的影响，其中“电子”被识别错误，如果二次语音输入时只输入“电子”这个词，由于缺乏上下文信息，语言模型会退化为一元文法模型，则“电子”这个词很有可能被识别为“垫子”“点子”等这些常见词，基于上述原因，在采用两遍或多遍语音输入的方式对识别结果进行修正时，本发明利用首次语音识别的文本信息和分词单元，当用户选中识别错误的文字信息中的一部分内容时，意味着在这部分错误文本的前后的若干分词单元在较大概率上是正确的，否则用户会将前后的若干分词单元一起选中进行修改，所以，在二次识别过程中，本发明根据首次识别得到的上下文信息，补偿相应的语言模型信息，例如当再次输入“电子”的语音时，识别时使用的不是P(电子)，而是P(电子|上文＝“上海交大”，下文＝“工程系”)，其中，P(X)表示出现X的概率，P(X|Y)表示在满足Y条件下出现X的概率，这种处理方式相当于仍然保留了原有的N元文法语言模型的信息，而并不退化为一元语言模型，甚至可以利用首次识别并没有用到的后续文字的信息，因此，在采用两遍或多遍语音输入的方式对识别结果进行修正时，首次识别结果中的语言模型信息可以被重复利用，识别准确率不会因为语言模型的原因而受到影响，甚至会因为更准确的上下文信息而进一步提升识别准确率。

本发明的整个语音输入过程完全可由录音和简单的触摸屏操作组成，避免了对键盘的操作，大大提高移动设备上的输入体验，而且，在针对错误文字的再次输入过程中，用户会有意识地降低语速，清晰发音，这样会效改善语音识别的结果，另外，如果在第一遍语音输入时受到一些突发噪声干扰，再次输入时，突发噪声已经消失，则识别准确率也会有所提高。

如图4所示，本发明还提供另一种语音输入***，包括文字信息单元41、修改定位单元42、修改单元43以及菜单单元44。

文字信息单元41用于根据获取的语音生成文字信息和所述文字信息的分词单元，具体的，所述文字信息单元41通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数，N越大表示语言模型越复杂，目前常用的是三元或四元文法语言模型，所述分词单元是包含所述用户选择的文字信息的内容的最短词。

修改定位单元42用于根据用户选择的文字信息的内容定位到待修改的分词单元，具体的，所述修改单元42根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元，所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元，这样在采用两遍或多遍语音输入的方式对识别结果进行修正时，首次识别结果中的语言模型信息可以被重复利用，识别准确率不会因为语言模型的原因而受到影响，甚至会因为更准确的上下文信息而进一步提升识别准确率。

修改单元43用于根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元，本步骤中利用分词单元将识别出的文字信息结构化，可以方便地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，“删除”操作可以让用户通过点击“删除”达到点击键盘的del键的效果，这样设置的优点是其一，命令菜单就在被删除文字的附近，减少用户手指移动的距离，其二，当删除多个文字时，可以将多次点击del键的操作简化为一次点击“删除”的操作，另外，“重录”操作可以减少说话人连续发音时部分词语发音不清楚的影响、减少周围环境中突发噪音对识别准确率的影响。

菜单单元44用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单，具体的，在定位到待修改的分词单元后，可弹出针对这些文字信息的删除和重录的操作命令菜单，便于用户快速地进行操作。

综上所述，本发明通过根据获取的语音生成文字信息和所述文字信息的分词单元，然后根据用户选择的文字信息的内容定位到待修改的分词单元，以及根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元，利用分词单元将识别出的文字信息结构化，可以方便地以所述分词单元为单位对需要修改或出现识别错误的分词单元进行选取、重录和删除，有效减少说话人发音不清楚和突发的环境噪音对识别结果带来的影响，快速修正语音转写结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种语音输入方法，其特征在于，包括：

根据获取的语音生成文字信息和所述文字信息的分词单元；

2.如权利要求1所述的语音输入方法，其特征在于，通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数。

3.如权利要求1所述的语音输入方法，其特征在于，所述分词单元是包含所述用户选择的文字信息的内容的最短词。

4.如权利要求1所述的语音输入方法，其特征在于，所述重录所述待修改的分词单元的语音并生成新的分词单元的步骤中，根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。

5.如权利要求4所述的语音输入方法，其特征在于，所述上下文信息包括所述文字信息中所述待修改的分词单元的前一个或多个分词单元和所述文字信息中所述待修改的分词单元的后一个或多个分词单元。

6.如权利要求1所述的语音输入方法，其特征在于，所述根据用户的选择删除所述待修改的分词单元或重录所述待修改的分词单元的语音并生成新的分词单元的步骤之前，包括在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。

7.一种语音输入***，其特征在于，包括：

8.如权利要求7所述的语音输入***，其特征在于，所述文字信息单元通过声学模型和N元文法语言模型生成所述文字信息，其中N为自然数。

9.如权利要求7所述的语音输入***，其特征在于，所述修改单元根据所述待修改的分词单元在所述文字信息中的上下文信息生成新的分词单元。

10.如权利要求7所述的语音输入***，其特征在于，还包括菜单单元，用于在所述待修改的分词单元的显示区域附近弹出删除和重录的操作命令菜单。