CN107093423A

CN107093423A - 一种语音输入修正方法、装置及计算机可读存储介质

Info

Publication number: CN107093423A
Application number: CN201710396636.6A
Authority: CN
Inventors: 郭锐
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-08-25

Abstract

本发明公开了一种语音输入修正的方法、装置及计算机可读存储介质，旨在解决现有语音输入法出现识别错误时快速修正的技术问题。该方法包括：获取用户通过语音输入的语音信息；识别所述语音信息，并显示识别得到的第一语音识别内容；获取用户输入的语音标识语句；响应所述语音标识语句以对所述语音信息进行重新识别，并显示重新识别得到的第二语音识别内容。通过在语音输入应用程序中设定语音标识语句，作为修正功能的启动条件，可以设置多种修正功能，当语音输入应用程序识别的语音识别内容有错误时，用户只要说出语音标识语句，语音输入应用程序将进入到修正模式，根据语音标识语句关联的修正功能，对语音识别内容进行快速地编辑修正并重新识别。

Description

一种语音输入修正方法、装置及计算机可读存储介质

技术领域

本发明涉及语音输入技术领域，尤其涉及一种语音输入修正方法、装置及计算机可读存储介质。

背景技术

语音输入法，顾名思义，是将声音通过话筒转换成文字的一种输入方法。现有的很多终端设备均集成设置了语音识别模块，语音识别模块用于实现语音输入法，语音识别是终端通过识别和理解过程把语音信号转变为相应的文本文件或命令。如苹果公司的Siri是在其产品iPhone4S，iPad 3及以上版本终端产品上应用的一项语音控制功能。Siri支持世界上主要自然语言输入，并且可以调用***自带的天气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。使用者可以通过声控、文字输入的方式，来搜寻餐厅、电影院等生活信息，同时也可以直接收看各项相关评论，甚至是直接订位、订票；另外其适地性(location based)服务的能力也相当强悍，能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

对于汉语语音识别，由于汉语中存在大量的同音字，而且汉语的语言习惯中不同的语气、音调往往构成不同的含义，这给语音识别技术带来了巨大的难度，很多终端产品虽然集成了语音识别模块，但是，难以得到实际运用，另外，同一汉语，存在着众多的方言，几乎每一个地区的方言都构成较大的差异，也影响了汉语语音识别的实用性。目前，比较好的汉字语音输入应用程序当推IBM语音输入法，但错字率特别是一些未经训练的专业名词以及生僻字的错字率比较高。IBM语音输入法的硬件要求是你的电脑必须配备能进行正常录音的声卡。该应用程序安装完毕后，只要调试好了麦克风，你就可以用对著麦克风用普通话语音进行文字录入。如果你的普通话口音不标准，那也没关系，你只要用它提供的语音训练程序，进行一段时间的训练，让它熟悉你的口音，也同样可以通过讲话来实现文字输入。

但是，目前汉语识别结果最好的是清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别***，其识别精度达到94.8％(不定长数字串)和96.8％(定长数字串)。在有5％的拒识率情况下，***识别率可以达到96.9％(不定长数字串)和98.7％(定长数字串)，这是目前国际最好的汉语识别结果之一，其性能已经接近实用水平。

为了提升汉语语音识别的技术水平，除了提升汉语识别算法，提高汉语识别的准确率，从而使得汉语语音识别具有实用性；另外，现有的语音输入法一般是通过设置修正功能，可以让用户在使用语音输入时，进行手动选择更正识别错误的词组，如现有的siri语音输入的时候，是通过划关键字进行语音修正的，当存在同音词或者歧义时，可以设置选择列表来实现语音识别的修正，需要用户手动选择，用户体验不高。

发明内容

本发明的主要目的在于提出一种语音输入修正方法、装置及计算机可读存储介质，旨在解决现有语音输入法出现识别错误时无法快速修正的技术问题。

为实现上述目的，本发明提供的一种语音输入修正方法，该方法包括以下步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

响应所述语音标识语句以对所述语音信息进行重新识别，并显示重新识别得到的第二语音识别内容。

进一步的，在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能。

进一步的，所述修正功能包括删除所述第一语音识别内容、替换所述第一语音识别内容中的特定词组、删除所述第一语音识别内容中的特定词组。

进一步的，所述修正功能是删除所述第一语音识别内容时，获取到与删除所述第一语音识别内容对应的所述语音标识语句，响应所述语音标识语句并删除所述第一语音识别内容。

进一步的，所述修正功能是替换所述第一语音识别内容中的特定词组时，获取所述特定词组对应的替换词组语句或者与所述替换词组关联的解释语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

进一步的，所述修正功能是删除所述第一语音识别内容中的特定词组时，响应所述语音标识语句，获取所述特定词组的语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

进一步的，当未能识别所述语音信息时，提示用户重新表达并输入所述语音信息。

本发明的另一方面，还提供了一种语音输入修正装置，该装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输入修正程序，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

进一步的，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能；

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户输入的语音标识语句；

响应所述语音标识语句并根据对应的所述修正功能对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

响应所述语音标识语句以对所述语音信息进行重新识别，并显示重新识别得到的第二语音识别内容；

当未能识别所述语音信息时，提示用户重新表达并输入所述语音信息。

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取到与删除所述第一语音识别内容对应的所述语音标识语句，响应所述语音标识语句并删除所述第一语音识别内容。

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取到与替换所述第一语音识别内容中的特定词组对应的所述语音标识语句；

响应所述语音标识语句，获取所述特定词组对应的替换词组语句或者与所述替换词组关联的解释语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取到与删除所述第一语音识别内容中的特定词组对应的所述语音标识语句；

响应所述语音标识语句，获取所述特定词组的语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

本发明的另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有语音输入修正程序，所述语音输入修正程序被处理器执行时实现如下的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户输入的语音标识语句；

本发明提供的语音输入修正方法、装置及计算机可读存储介质，通过在语音输入应用程序中设定语音标识语句，作为修正功能的启动条件，可以设置多种修正功能，当语音输入应用程序识别的语音识别内容有错误时，用户只要说出语音标识语句，语音输入应用程序将进入到修正模式，并根据语音标识语句关联的修正功能，对语音信息进行快速地编辑修正并重新识别。不需要通过对语音识别内容进行关键词划分，生成修正网格，然后与预存的词语库进行关联，这样***复杂，而且修正过程复杂，从语音输入的实践来看，不需要进行过于复杂的词组修正，汉语可以对于同一词语进行多角度的表达以及关联解释，因此，只要能够简单地替换、删除就能够满足语音识别内容修正的需求，从而显著地提升了用户体验。

附图说明

图1为本发明各个实施例的一种移动终端的硬件结构示意图；

图2为本发明实施例提供的一种通信网络***架构图；

图3为本发明实施例提供的第一种语音输入修正方法；

图4为本发明实施例提供的第二种语音输入修正方法；

图5为本发明实施例提供的第三种语音输入修正方法；

图6为本发明实施例提供的第四种语音输入修正方法；

图7为本发明实施例提供的第五种语音输入修正方法；

图8为本发明实施例提供的第六种语音输入修正方法；

图9为现有移动终端语音输入应用程序操作效果示意图；

图10为本发明实施例的移动终端语音输入应用程序替换修正示意图；

图11为本发明实施例的移动终端语音输入应用程序替换修正效果示意图；

图12为本发明实施例的移动终端语音输入应用程序删除修正效果示意图；

图13为本发明实施例的移动终端语音输入应用程序特定删除修正效果示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access，宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

例如，其他输入设备1072为语音输入功能模块时，语音输入功能模块包括前端部分和后端部分。

在前端部分，即面向用户，和用户交互(User Interface，UI)的技术，主要是语音识别以及语音合成技术。语音识别技术是把用户的口语转化成文字，其中需要强大的语音知识库，因此需要用到“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出，这个技术理论上本地就能完成，当然，在云端完成也并无不可，当前的无线宽带环境能够满足这一数据需求。

在后端部分，这些技术的目的就是处理用户的请求，并返回最匹配的结果，这些请求类型很多，千奇百怪，要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化)，根据输入类型，分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括，①以Google为代表的网页搜索技术；②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术)；③以Wikipedia为代表的知识库(和Wolfram Alpha不同的是，这些知识来自人类的手工编辑)技术(包括其他百科，如电影百科等)；④以Yelp为代表的问答以及推荐技术。

其中，知识计算(搜索)技术(Computational Knowledge)的代表是Wolfram|Alpha。不同于搜索互联网信息，Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中，发掘、建立起一个异常庞大的经过组织的数据库，再利用高级的自然语言算法进行处理，最终构造出一个类似于谷歌搜索的工具。

和网页搜索技术不同的是，在这个***中，得到的答案结构化程度很高，比如搜索China，能得到和中国相关的各种参数以及资料，并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言，比如输出How old are you，其会回答Wolfram|Alpha的年龄。想测试这项技术的请移步Wolfram|Alpha。

其中，知识库技术，相比于网页搜索技术，基本以一个词条或者主题为单位，因此得到的数据价值高，知识量大，并且结构化程度好。相比于知识计算技术，这些技术需要人的参与，这有利也有弊，利就是，毕竟暂时人比机器聪明，编辑出来的知识更丰富，准确；弊就是，人力有限，即使像***那样的数据库，发动社区的力量，也不能产生足够的知识，而知识计算，理论上，只需要算法完善，是可以产生“无限”的知识的。

其中，问答推荐技术，其实这不能称为一个技术，应该属于知识库的技术。不同的是，这个技术针对的是一些生活信息，这些信息的地域化程度很高，典型代表为Yelp。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络***进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络***架构图，该通信网络***为通用移动通信技术的LTE***，该LTE***包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子***)或其它IP业务等。

虽然上述以LTE***为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE***，也可以适用于其他无线通信***，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络***等，此处不做限定。

针对上述技术问题，基于上述移动终端硬件结构、通信网络***，以及语音输入应用程序在移动终端100的实现语音输入，提出本发明方法各个实施例。

实施例1

为实现上述目的，如图3所示，本发明提供的一种语音输入修正方法，该方法包括以下步骤：

S101、获取用户通过语音输入的语音信息；

S102、识别所述语音信息，并显示识别得到的第一语音识别内容；

S103、获取用户输入的语音标识语句；

S104、响应所述语音标识语句以对所述语音信息进行重新识别，并显示重新识别得到的第二语音识别内容。

其中，所述修正功能包括删除所述第一语音识别内容、替换所述第一语音识别内容中的特定词组、删除所述第一语音识别内容中的特定词组。

由于汉语存在大量的同音字、同音词组，以及由于识别算法的误差，语音识别内容难免会出现误差，虽然通过训练学习算法，这些误差会得到不断地修正。现有的语音输入法修正方式一般是需要定位错误词组，主要通过置信测度方法衡量输入语音和识别结果之间的可信程度，找到置信度较低的词组作为可能识别错误的词组。在修正错误词组时向用户提供用多模态方式进行重新输入的修正模式，例如从本地通信记录中选择正确词组、或者从基于模糊音提供的候选词中重新选择正确词组，或者通过重发音来重新输入语音、或通过手写体识别录入正确词组、或通过直接键盘录入正确词组等，使用用户重新输入的词组进行修正。至少需要执行如下步骤：

A、识别语音输入信号，得到包括命名实体词汇标注信息的识别结果；

B、根据所述命名实体词汇标注信息，确定所述识别结果中识别错误的命名实体词汇，突出显示所述识别错误的命名实体词汇；

C、使用从预设的本地命名实体库和/或网络资源中选择的词汇、或用户重新输入的词汇，修正所述识别错误的命名实体词汇。

这些现有的语音输入修正方法过程复杂，本技术方案的语音输入修正时，通过设定的语音标识语句作为修正功能的启动条件，在一条语音有歧义未被识别时，只需要在接着的语音输入时说出这个设定的语音标识语句，移动终端就可以知道现在进入了语音输入修正的模式，这样，用户就可以重复未识别的语音识别内容，然后在语音说出与语音信息中的可能有歧义的词语或词组的关联的解释语句，可以完成正确的语音信息的修正并重新识别获得正确的第二语音识别内容。

如图9所示，现有的语音输入应用程序一般是获得语音识别内容后，在输入框内显示，通过重点词组的划分如词组1、词组2、词组3、词组4，然后通过置信测度方法衡量输入语音和识别结果之间的可信程度，找到置信度较低的词组作为可能识别错误的词组，通过手动操作来修正错误词组。

例如，他好像你；，“好像”这一词组容易引起歧义，在修正的时候，说完语音标识语句(如替换)以及“他好像你”之后，对“好像”再进行重新表述或者关联解释，这样便于识别“好像”这个词组的含义，避免移动终端识别为“好想”，或者识别不出的情况产生。

如图4所示，本发明提供的第二种语音输入修正方法，该方法包括以下步骤：

S201、在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能；

S202、获取用户通过语音输入的语音信息；

S203、识别所述语音信息，并显示识别到的第一语音识别内容；

S204、获取用户输入的语音标识语句；

S205、响应所述语音标识语句并根据对应的所述修正功能对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

语音标识语句，可以是易于识别的数字，如1、2、3、4。。。也可以是易于识别的词组，如删除、替换、是、不是等等，这些常用的命令语句。

在语音输入应用程序上设置相应地关联模块，使得语音标识语句与语音识别内容的修正操作进行关联，如删除、替换等，从而在识别到相应地语音标识语句时，能够快速进入相应地修正模式。

如图5所示，本发明提供的第三种语音输入修正方法，该方法包括以下步骤：

S301、获取用户通过语音输入的语音信息；

S302、识别所述语音信息，并显示识别得到的第一语音识别内容；

S303、获取用户输入的语音标识语句；

S304、响应所述语音标识语句以对所述语音信息进行重新识别，并显示重新识别得到的第二语音识别内容；

S305、当未能识别所述语音信息时，提示用户重新表达并输入所述语音信息。

前述，我们知道即使是识别率最高的现有汉语语音识别算法也存在5％的拒识率，特别是由于汉语的一些方言，个人发音偏差，因此，在语音输入应用程序无法识别用户的语音信息时，提示用户重新表达或者建议用户采用其他表述方式，从而避免语音输入应用程序识别的语音识别内容严重偏差。例如，很多地方的方言中“吃”总是表达为“食”，从而使得具有“吃”含义的词组与普通话习惯严重偏离。如“吃饭”与“食饭”等等。

如图6所示，本发明提供的第四种语音输入修正方法，该方法包括以下步骤：

S401、在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能；

S402、获取用户通过语音输入的语音信息；

S403、识别所述语音信息，并显示识别到的第一语音识别内容；

S404、获取到与删除所述第一语音识别内容对应的所述语音标识语句，响应所述语音标识语句并删除所述第一语音识别内容。

例如，如图12所示，当语音输入应用程序识别的语音识别内容，与用户所要表达的意思存在重大偏差时，这时，修正语音识别内容过于麻烦，用户可以通过语音标识，如“删除”，将这一语音识别内容快速删除，然后重新进行语音输入。

如图7所示，本发明提供的第五种语音输入修正方法，该方法包括以下步骤：

S501、在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能；

S502、获取用户通过语音输入的语音信息；

S503、识别所述语音信息，并显示识别到的第一语音识别内容；

S504、获取到与替换所述第一语音识别内容中的特定词组对应的所述语音标识语句；

S505、响应所述语音标识语句，获取所述特定词组对应的替换词组语句或者与所述替换词组关联的解释语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

例如，如图10所示，语音输入应用程序识别用户的第一语音识别内容，用户发现其中的词组10存在识别错误，那么，用户可以通过说出与替换功能对应的语音标识语句，如替换等等，从而使得语音输入应用程序进入到替换修正功能模式，然后，重复识别所述第一语音识别内容以及所述词组10对应的替换词组或者与所述替换词组关联的解释；如图11所示，所述语音输入应用程序执行替换所述第一语音识别内容中的词组10并显示第二语音识别内容。

如图8所示，本发明提供的第六种语音输入修正方法，该方法包括以下步骤：

S601、在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能；

S602、获取用户通过语音输入的语音信息；

S603、识别所述语音信息，并显示识别到的第一语音识别内容；

S604、获取到与删除所述第一语音识别内容中的特定词组对应的所述语音标识语句；

S605、响应所述语音标识语句，获取所述特定词组的语句对所述语音信息进行重新识别，并显示重新识别到的第二语音识别内容。

例如，如图13所示，语音输入应用程序识别用户的第一语音识别内容，用户发现其中的词组20存在识别错误，并且认为词组20可以通过删除来修正语音识别内容，那么，用户可以通过说出与删除特定词组功能对应的语音标识语句，如特定删除等等，从而使得语音输入应用程序进入到特定删除修正功能模式，然后，重复识别所述第一语音识别内容以及词组20，所述语音输入应用程序执行删除所述第一语音识别内容中的词组20并显示第二语音识别内容。

实施例2

本发明的另一方面，为实现上述目的，本发明还提供了一种语音输入修正装置，该装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输入修正程序，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

其中，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户输入的语音标识语句；

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

当未能识别所述语音信息时，提示用户重新表达并输入所述语音信息。其中，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

实施例3

此外，为实现上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有语音输入修正程序，所述语音输入修正程序被处理器执行时实现如下的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户输入的语音标识语句；

本发明提供的语音输入修正方法、装置及计算机可读存储介质，通过在语言输入应用程序中设定语音标识语句，作为修正功能的启动条件，可以设置多种修正功能，当语音输入应用程序识别的语音信息内容有错误时，用户只要说出语音标识语句，语音输入应用程序将进入到修正模式，并根据语音标识语句关联的修正功能，对语言信息进行快速地编辑修正并重新识别。不需要通过对语音识别内容进行关键词划分，生成修正网格，然后与预存的词语库进行关联，这样***复杂，而且修正过程复杂，从语音输入的实践来看，不需要进行过于复杂的词组修正，汉语可以对于同一词语进行多角度的表达以及关联解释，因此，只要能够简单地替换、删除就能够满足语音识别内容修正的需求，从而显著地提升了用户体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音输入修正方法，其特征在于，所述方法包括以下步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

2.根据权利要求1所述的一种语音输入修正方法，其特征在于，在语音输入之前，预设所述语音标识语句，并且使得每一所述语音标识语句关联对应一修正功能。

3.根据权利要求1所述的一种语音输入修正方法，其特征在于，所述修正功能包括删除所述第一语音识别内容、替换所述第一语音识别内容中的特定词组、删除所述第一语音识别内容中的特定词组。

4.根据权利要求1所述的一种语音输入修正方法，其特征在于，当未能识别所述语音信息时，提示用户重新表达并输入所述语音信息。

5.一种语音输入修正装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输入修正程序，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别得到的第一语音识别内容；

获取用户输入的语音标识语句；

6.根据权利要求5所述的一种语音输入修正装置，其特征在于，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

获取用户输入的语音标识语句；

7.根据权利要求6所述的一种语音输入修正装置，其特征在于，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法的步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

8.根据权利要求6所述的一种语音输入修正装置，其特征在于，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

9.根据权利要求6所述的一种语音输入修正装置，其特征在于，所述语音输入修正程序被所述处理器执行时实现如下所述的语音输入修正方法步骤：

获取用户通过语音输入的语音信息；

识别所述语音信息，并显示识别到的第一语音识别内容；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音输入修正程序，所述语音输入修正程序被处理器执行时实现如权利要求1-4任一项所述的语音输入修正方法的步骤。