CN103021412B - 语音识别方法和*** - Google Patents

语音识别方法和*** Download PDF

Info

Publication number
CN103021412B
CN103021412B CN201210584746.2A CN201210584746A CN103021412B CN 103021412 B CN103021412 B CN 103021412B CN 201210584746 A CN201210584746 A CN 201210584746A CN 103021412 B CN103021412 B CN 103021412B
Authority
CN
China
Prior art keywords
character string
error
voice
error correction
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210584746.2A
Other languages
English (en)
Other versions
CN103021412A (zh
Inventor
何婷婷
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210584746.2A priority Critical patent/CN103021412B/zh
Publication of CN103021412A publication Critical patent/CN103021412A/zh
Application granted granted Critical
Publication of CN103021412B publication Critical patent/CN103021412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了语音识别方法和***。方法包括:对用户输入的语音信号进行语音识别,获得语音识别结果以及语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成纠错字符串;根据纠错字符串确定用户输入的语音信号中产生识别错误的语音段;根据语音识别结果中各字符对应的语音片段,确定产生识别错误的语音段在语音识别结果中所对应的字符串,作为错误字符串;利用纠错字符串替换错误字符串。在本发明实施例中,根据用户单独输入的纠错信息而生成的纠错字符串确定产生识别错误的语音段,再通过该语音段找到其在语音识别结果中所对应的错误字符串,实现了对语音识别结果中错误字符串的自动定位,解决了人工定位不便的问题。

Description

语音识别方法和***
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及语音识别方法和***。
背景技术
语音识别技术是一种对用户录入的语音信号进行识别,最终转化为文本/字符串(也即识别结果为文本)的技术,其为自然人性的人机交互提供了便利。以采用语音识别技术的移动设备为例,在语音识别技术的支持下,用户只要对着移动设备说话,经过语音识别***识别后就会自动形成文字,大大提高了用户的输入效率。
但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别***)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则首先需要在语音识别结果中定位需要修正(也可称为待修改)的字符。
而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,
用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间***编辑光标时,存在定位不便的问题。
发明内容
有鉴于此,本发明实施例目的在于提供语音识别方法和***,以解决上述用户人工进行定位存在的定位不便的问题。
为实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的一个方面,提供一种语音识别方法,包括:
对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段;
根据所述语音识别结果中各字符对应的语音片段,确定所述产生识别错误的语音段在所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;
利用所述纠错字符串替换所述产生识别错误的错误字符串。
根据本发明实施例的另一个方面,提供一种语音识别***,包括:
语音识别单元,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
纠错字串输入单元,用于接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
自动纠错单元,用于根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段;根据所述语音识别结果中各字符对应的语音片段,确定所述产生识别错误的语音段在所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;利用所述纠错字符串替换所述产生识别错误的错误字符串。
从上述的技术方案可以看出,本发明实施例所公开的技术方案根据用户单独输入的纠错信息而生成的纠错字符串确定产生识别错误的语音段,再通过该语音段找到其在语音识别结果中所对应的产生识别错误的错误字符串,实现了用户所输入的纠错信息而生成的纠错字符串与错误字符串的对应,进而实现了对语音识别结果中错误字符串的自动定位,解决了用户人工进行定位存在的定位不便的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别方法流程图;
图2为本发明实施例提供的手写输入识别流程图;
图3为本发明实施例提供字符覆盖的最小区域示意图;
图4为本发明实施例提供的自动纠错过程流程图;
图5为本发明实施例提供的纠错字符串检索网络结构示意图;
图6为本发明实施例提供的语音识别***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为一种简单方便而又高效的输入方式,语音识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。特别是近年来随着科技的发展和无线通讯网络的创新普及,各种在线语音识别应用,如发微博,写短信,网络即时通讯等受到了越来越多的关注。在语音识别技术的支持下,用户只要对着移动设备说话,经过***识别后就会自动形成文字,大大提高了用户的输入效率。
但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别***)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则需要在识别结果中定位需要修正(也可称为待修改)的字符。
而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间***编辑光标时,存在定位不准的问题。
为便于理解,现对语音识别介绍如下:
如果将待识别的一段语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Oi,…,OT},其中Oi是第i个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的任务就是根据已知的语音特征序列O,求出最可能的词串W’。
在语音识别的具体过程中,一般首先提取语音信号对应的语音特征参数,随后在由预置的声学模型和语言模型构成的网络搜索空间中,根据预设的搜索算法(比如Viterbi算法),搜索相对于所提取得语音特征参数的最优路径(也即最优解码路径)。
在了解了语音识别的一些概念后,现对本发明实施例的技术方案介绍如下。
为解决上述定位不便的问题,本发明实施例所提供的语音识别方法至少包括如下步骤:
语音识别过程:对用户输入的语音信号进行语音识别,获得最优解码路径,其中,最优解码路径包括语音识别结果以及语音识别结果中各字符对应的语音片段;
纠错字符串生成过程:接收用户单独输入的纠错信息并生成相应的纠错字符串,上述纠错信息允许通过非语音方式或语音方式输入;
自动纠错过程:根据纠错字符串确定用户输入的语音信号中产生识别错误的语音段;根据语音识别结果中各字符对应的语音片段,确定产生识别错误的语音段在所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;并利用纠错字符串替换所述产生识别错误的错误字符串。为称呼方便,本文后续一些记载使用错误字符串作为“产生识别错误的错误字符串”的简称。
下面对各个过程进行一一介绍。
一,语音识别过程
为了最大可能的满足用户日常交互需求,本发明实施例采用大词汇量连续语音识别技术,以实现对任意说语音的文本转换。
其中,参见图1,上述语音识别过程具体包括:
S11、跟踪采集用户输入的语音信号(也即上述待识别的一段语音信号);
在本发明其他实施例中,可将上述语音信号存入数据缓存区;
S12、对上述语音信号进行预处理,以得到经过预处理后的语音数据;
上述预处理可包括语音信号采样、反混叠带通滤波、分帧处理、去除个体发音差异和设备、环境引起的噪声影响,端点检测。为了提高语音识别***的鲁棒性上述预处理具体还可包括前端降噪处理,以为后续语音处理提供较为纯净的语音。
S13、对上述经过预处理的语音数据中每帧语音数据分别进行特征提取,以获取特征矢量序列。
在步骤S13中,对每帧语音数据进行特征提取后可提取出有效语音特征(或者特征矢量)。这样,经特征提取后,每一帧语音数据形成一个特征矢量,相应的,上述语音数据即可用一特征矢量序列表示;
本领域技术人员可以理解的是,如果对经过预处理后的语音数据包括30帧语音数据的话,那么这30帧语音数据就可提取出30个特征矢量,而这30个特征矢量按照时间先后顺序即可组成上述特征矢量序列。
在本发明其他实施例中,上述有效语音特征可为线性预测倒谱或MFCC(Mel倒谱)特征。具体的,以MFCC特征为例,可对窗长25ms帧移10ms的每帧语音数据通过短时分析得到MFCC参数和/或MFCC参数的一阶/二阶差分,共计39维。这样,每帧语音数据经过特征提取可得到一个39维的特征矢量。
在本发明其他实施例中,可将上述语音特征/语音特征矢量序列存入特征缓存区内。
S14、在预先构建的检索网络中对上述特征矢量序列进行最优路径搜索(上述检索网络主要由***预设的声学模型,词典,语言模型等构成),以获取与上述特征矢量序列具有最大模型似然概率的模型串作为语音识别结果输出(显出)。
在具体实施时,可采用业内主流的基于动态规划思想的Viterbi搜索算法,对每一特征矢量遍历检索网络中满足预设条件的活跃节点计算累计历史路径概率并保留满足预设条件的历史路径作为后续搜索网络的活跃节点,最后通过对具有最大历史路径概率的路径(也即上述第一最优解码路径)回溯实现对输入语音的识别解码。在解码中第一最优解码路径对每帧语音数据均保留其所对应的识别单元模型,进而对语音识别结果中的每一字符都可获取其所对应的语音片段,当然,也可获取每一字符所对应语音片段的起始位置信息和结束位置信息。
需要说明的是,上述提及的语音片段既可为用户输入的语音信号中的语音片段,也可为经过预处理后的语音数据中的至少一帧语音数据,还可为特征矢量序列中的特征矢量子序列。为称呼方便,本文后续将用户输入的语音信号、经过预处理后的语音数据以及特征矢量序列统称为待识别语音信号。
也即,本文下述提及的待识别语音信号具体可为用户输入的语音信号、经过预处理后的语音数据或特征矢量序列。而本文下述提及的语音片段具体可为用户输入的语音信号中的语音片段、至少一帧语音数据或特征矢量子序列。
也就是说,我们可将步骤S11中的语音信号或者步骤S12中经过预处理后的语音数据或者步骤S13中的特征矢量序列划分成与语音识别结果中的字符相对应的语音片段,从而令语音识别结果中的每个字符对应一个确切的语音片段。
举例来讲,如果语音识别结果为“我们去爬山”这一字符串,该字符串对应的解码路径信息可保存为:(0000000 2200000),(2200000 3600000),(36000004300000),(4300000 5000000),(5000000 7400000)。
上述(0000000 2200000)指示了“我”这个字符所对应的语音片断的起始位置信息和结束位置信息。其中,0000000是“我”所对应的语音片断在待识别语音信号中的起始位置(时刻),而2200000是“我”所对应的语音片断在待识别语音信号中的结束位置(时刻)。
二、纠错字符串生成过程
本发明实施例支持用户以非语音方式或语音方式输入纠错信息并生成纠错字符串。
在采用语音方式输入纠错信息时,所输入的纠错信息具体为语音信号,由于与语音识别过程一样是以语音方式输入,则***可能无法确定当前的语音输入是为了继续新文本的语音输入,还是为了对原始文本进行语音纠错输入。因此,可以设置单独的纠错信息输入控制按键,控制从新文本的语音输入切换至对原始文本的语音纠错输入。在以语音方式输入纠错信息的模式下,由于纠错信息为语音信号,在将其转化成纠错字符串时的处理过程同上述语音识别过程相同,在此不作赘述,并且,还可提供多个识别候选字符串供用户选择以提高生成纠错字符串的准确率。
此外,本发明实施例还支持用户以按键输入(比如拼音输入、笔划输入、区位码输入等等)、手写输入等非语音方式输入纠错信息,此时,如以按键输入,所输入的纠错信息具体为按键序列,如以手写输入,所输入的纠错信息具体为书写笔迹。
现以拼音输入和手写输入为例,对非语音方式输入过程进行介绍。
其具体流程仍请参见图1:
S21、判断用户的输入方式,如是拼音按键输入转入步骤S22,如果是手写输入转入步骤S23。
S22、将用户输入的按键序列转换成侯选纠错字符串。
其中,步骤S22具体可包括:
S221,跟踪采集用户的按键序列,将其对应成字母串序列;
S222,将采集到的字母串序列和预置的拼音辞典匹配以找到侯选纠错字符串,并显示。
比如用户在输入qinghua后,***可能显示清华、青花、亲华等多个侯选纠错字符串供用户选择。
S23、识别用户输入的书写笔迹,将用户输入的书写笔迹转化为至少一个侯选纠错字符串;
其中,参见图2,步骤S23可具体包括:
S231,跟踪用户输入的书写笔迹,并将采集到的书写笔迹保存在笔迹数据缓存区内;
在联机手写识别***中,用户的书写笔迹通常用一序列的二维(位置坐标)或三维点(位置坐标和抬笔/落笔状态)坐标表示,用以描述字符书写的空间和时间信息。
S232,对上述书写笔迹进行预处理。
由于采集设备或用户在书写时抖动等原因,原始采集到的书写笔迹中可能存在各种噪音干扰。为了提高***的鲁棒性,可对采集到的笔迹进行预处理。具体的,可通过字符大小归一化、野点去除、平滑,重采样等处理方式加以组合,以尽可能减少噪音干扰带来的识别率下降的问题。
S233,对经过预处理的书写笔迹进行笔迹特征提取。
和语音识别相类似,在手写识别中,也需要从原始的笔迹轨迹上提取反映字符特点的字符特征。
具体的,本实施例提取手写识别领域常用的八方向特征,并通过LDA等技术提高笔迹特征的区分性。
S234,将提取的字符特征与预置模型进行匹配,计算相似度。
S235、选取与上述字符特征具有最高相似度的至少一个预置模型作为侯选纠错字符串,并显示。
考虑到拼音输入以及手写识别技术的准确率往往很好,因而通常上述侯选纠错字符串的个数可以选择3到5。
当然,本领域技术人员可以理解的是,当用户的非语音输入足够长时,也可能只有一个侯选纠错字符串。
S25、从侯选纠错字符串中确定纠错字符串。
步骤S25可具体包括:
接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
S25可以单独列出,作为对纠错字符串的进一步确认,以兼容语音输入和非语音输入方式。
三,自动纠错过程
考虑到纠错字符串和语音识别结果中产生识别错误的错误字符串所对应的语音段往往具有一致性,本发明实施例自动纠错的核心思想是:将纠错字符串映射到语音段上,再通过该语音段找到其在语音识别结果中所对应的字词(也即产生识别错误的错误字符串),从而实现了纠错字符串与错误字符串的对应。这样,就实现了对语音识别结果中错误字符串的自动定位,解决了用户人工进行定位存在的定位不便的问题。
具体来说,首先在待识别语音信号中找到对应于上述纠错字符串的语音段。随后在语音识别结果中定位与该语音段相对应的字符串作为“产生识别错误的错误字符串”。上述“产生识别错误的错误字符串”是在步骤S14中得到的模型串中的子串,该子串在待识别语音信号中所对应的语音段的起始时刻和结束时刻,与上述纠错字符串在待识别语音信号中所对应的语音段的起始时刻和结束时刻具有一致性。
自动纠错过程的流程请仍参见图1,包括:
S31、根据纠错字符串确定待识别语音信号中产生识别错误的语音段;
S32、根据语音识别结果中各字符对应的语音片段,确定上述产生识别错误的语音段在第一最优解码路径的语音识别结果中所对应的字符串,将其作为“产生识别错误的错误字符串”;
S33、利用纠错字符串替换上述产生识别错误的错误字符串。
在本发明其他实施例,步骤S33可包括如下步骤:
在产生识别错误的错误字符串的数目等于1时,直接利用用户输入的纠错信息而生成的纠错字符串替换该产生识别错误的错误字符串;
在产生识别错误的错误字符串的数目大于1时,利用纠错字符串替换用户指定的产生识别错误的错误字符串。
本发明一些实施例可接受用户主动参与选择,因此,上述“利用纠错字符串替换用户指定的产生识别错误的错误字符串”的具体流程可包括:
A,在语音识别结果中突出显示所有产生识别错误的错误字符串。
在本发明其他实施例中,除突出显示所有产生识别错误的错误字符串外,还可以设置除错误字符串外的其它识别结果为非活跃状态,以提高定位精确度;
B,接受用户的选择指定,利用上述纠错字符串更新用户所选定的错误字符串。
此外,在本发明其他实施例中,还可支持用户的模糊选择指定——即并不要求用户精准定位错误字符串,而是通过近邻方式进行定位:当手写笔的落笔点落入错误字符串近邻区域时,自动将其定位到对应的错误字符串上。
具体来说,计算落笔点距每个错误字符串所覆盖的最小区域的最短距离,选择具有最小“最短距离”的错误字符串作为用户选定的错误字符串。例如,参见图3,可设定一个字符(我)所覆盖的最小区域的高度H为该字符字高h的A倍,而一个字符所覆盖的最小区域的宽度W为该字符字宽w的B倍,A和B可为大于等于1的任意正数。那么,错误字符串所覆盖的最小区域则为组成该错误字符串中所有字符所覆盖的最小区域的总和。
参见图4,在本发明其他实施例中,上述步骤S31可具体包括如下步骤:
S311,根据上述纠错字符串生成纠错字符串检索网络。
请参见图5,上述纠错字符串检索网络包括纠错字符串模型以及预置的吸收模型。
其中,纠错字符串模型由纠错字符串生成:通过预置的词典将纠错字符串扩展为相应的模型序列得到对应的纠错字符串模型。由于用户每次输入的纠错信息而生成的纠错字符串都不尽相同,因此,纠错字符串网络中的纠错字符串模型需要实时更新。
因此,上述步骤S31又可具体包括:
获取纠错字符串对应的纠错字符串模型;
获取预置的吸收模型;
根据获取的纠错字符串模型以及吸收模型生成纠错字符串检索网络。
需要说明的是,如果语音识别结果中存在不相邻且不相干的多处识别错误,比如语音识别结果中存在“清华”和“西站”两处识别错误,则需要多次通过语音或非语音方式输入纠错信息生成纠错字符串。而对每次输入的纠错信息而生成的纠错字符串,不管其包含多少字词,都将其看作一个独立的纠错字符串。比如,用户在某次输入纠错字符串时,共输入了3个汉字,则纠错字符串包括3个汉字,随后通过字典将包括该3个汉字的纠错字符串扩展成对应的纠错字符串模型。
在将纠错字符串扩展成纠错字符串模型时,根据预置的声学模型的不同可采用不同的扩展方式。比如,可基于音节模型单元的声学模型(如基于音节模型单元的声学模型,单个汉字由1个音节构成),也可基于音素模型单元的声学模型(如基于音素模型单元的声学模型,单个汉字由2个音素构成),具体由在进行语音识别时所采用的模型单元所决定。因此,如对上述包括3个汉字的纠错字符串进行扩展,可扩展得到由3个音节模型单元相串联的纠错字符串模型或者由6个音素模型单元相串联的纠错字符串模型。
至于吸收模型则是由***预先在海量语音数据训练得到的背景模型,也可采用多个吸收模型以提高复杂语音匹配的准确性。需要注意的是,多个单独吸收模型是并联的。
S312,在纠错字符串检索网络中对待识别语音信号重新解码获取第二最优解码路径。
其中,第二最优解码路径包括纠错字符串模型对应的语音段作为产生识别错误的语音段。
具体的,上述纠错字符串模型所对应的语音段可为用户输入的语音信号中的语音段,也可为经过预处理后的语音数据中的至少一帧语音数据,还可为特征矢量序列中的特征矢量子序列。为简单化起见,可选用纠错字符串模型所对应的特征矢量子序列作为产生识别错误的语音段。则步骤S312可具体包括:
在纠错字符串检索网络中搜索相应于特征矢量序列的最优路径(即第二最优路径),得到上述纠错字符串模型所对应的特征矢量子序列在整个特征矢量序列中的起始位置和结束位置。
步骤S312中的解码,与上述步骤S14相类似,二者的不同在于,步骤S312所利用的网络是根据纠错字符串生成的纠错字符串检索网络,而步骤S14所利用的检索网络的范围要大于上述纠错字符串检索网络。因此,步骤S312的解码,仍可采用业内主流的基于动态规划思想的Viterbi搜索算法,对每帧特征矢量遍历纠错字符串检索网络中满足预设条件的活跃节点并保留满足预设条件的历史路径作为后续搜索网络的活跃节点,最后通过对具有最大历史路径概率的路径(即第二最优解码路径)获得纠错字符串模型对应的语音段,从而确定了产生识别错误的语音段。
由于在步骤S312中,已经获取了纠错字符串模型对应的语音段的起始位置(时刻)和结束位置(时刻),因此,在后续的步骤S32中,可根据语音识别结果中各字符对应的语音片段,确定产生识别错误的语音段的起始位置在语音识别结果中所对应的起始字符。同时,可确定产生识别错误的语音段的结束位置在语音识别结果中所对应的结束字符,在确定了起始字符和结束字符后,就可确定出产生识别错误的错误字符串。
更具体的,可通过如下方式来确定起始字符:
将起始位置对应的字符作为第一字符,并将该第一字符所对应的语音片断作为第一语音片断;
若上述起始位置位于第一语音片断的前部,则将该第一字符作为起始字符,否则选择语音识别结果中的下一字符作为起始字符。
而在确定结束字符时,可通过如下方式:
将结束位置对应的字符作为第二字符,将第二字符所对应的语音片断作为第二语音片断;
若结束位置位于第二语音片断的前部时,选择语音识别结果中的上一字符作为结束字符,否则,将第二字符作为结束字符。
仍以前述的“我们去爬山”这一语音识别结果为例,前已述及,该语音识别结果中各个字符所对应的语音片段的起始位置和结束位置分别为:(00000002200000),(2200000 3600000),(3600000 4300000),(4300000 5000000),(5000000 7400000)。
举例来讲,假设,在步骤S312中,产生识别错误的语音段的起始位置和结束位置为(0000050 3600000),由于起始位置0000050在(0000000 2200000)的前部,可确定“我”作为起始字符,而结束位置3600000在(2200000 3600000)的后部,可确定“们”为结束字符。则可知,“我们”即为上述产生识别错误的语音段在语音识别结果中所对应的错误字符串。
与上述方法相对应,本发明实施例还提供语音识别***。图6示出了上述***的一种结构,包括:
语音识别单元1,用于对用户输入的语音信号进行语音识别,获得最优解码路径,其中,最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
更具体的,语音识别单元可包括处理器,由处理器对用户输入的语音信号进行语音识别。
纠错字符串生成单元2,用于接收用户单独输入的纠错信息并生成相应的纠错字符串;
更具体的,如以语音方式输入纠错信息,则纠错字符串生成单元仍可包括上述处理器,由处理器对纠错信息进行语音识别生成纠错字符串;
如以按键输入方式输入纠错信息,则纠错字符串生成单元至少可包括键盘和处理器,由处理器对将用户输入的按键序列转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。当然也可由另一独立的芯片或处理器来将用户输入的按键序列转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
如以手写输入方式输入纠错信息,则纠错字符串生成单元至少可包括手写笔、触摸屏和处理器,由处理器对将用户输入的书写笔迹转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。当然也可由另一独立的芯片或处理器来将用户输入的书写笔迹转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
当然,为了保证用户可采用多种方式输入纠错信息,纠错字符串生成单元也可同时包括上述多种器件。
自动纠错单元3,用于根据纠错字符串确述用户输入的语音信号中产生识别错误的语音段,根据语音识别结果中各字符对应的语音片段,确定产生识别错误的语音段在语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;并利用纠错字符串替换产生识别错误的错误字符串。
更具体的,自动纠错单元3的功能也可通过上述处理器或其他独立的芯片或处理器实现。
上述各单元的更详尽的功能可参见前述方法记载,在此不作赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种语音识别方法,其特征在于,包括:
对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段;
根据所述语音识别结果中各字符对应的语音片段,确定所述产生识别错误的语音段在所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;
利用所述纠错字符串替换所述产生识别错误的错误字符串。
2.如权利要求1所述的方法,其特征在于,所述根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段,包括:
根据所述纠错字符串生成纠错字符串检索网络,包括:获取所述纠错字符串对应的纠错字符串模型,获取预置的吸收模型,根据获取的纠错字符串模型以及吸收模型生成所述纠错字符串检索网络;所述纠错字符串检索网络包括所述纠错字符串对应的纠错字符串模型以及预置的吸收模型,所述纠错字符串模型由纠错字符串生成:通过预置的词典将纠错字符串扩展为相应的模型序列得到对应的纠错字符串模型,所述吸收模型是由***预先在海量语音数据训练得到的背景模型;
在所述纠错字符串检索网络内搜索相应于所述用户输入的语音信号的第二最优解码路径,所述第二最优解码路径是指具有最大历史路径概率的路径,所述第二最优解码路径包括所述纠错字符串模型对应的语音段作为所述产生识别错误的语音段;
确定所述产生识别错误的语音段在所述用户输入的语音信号中对应的起始位置和结束位置。
3.如权利要求1所述的方法,其特征在于,根据所述语音识别结果中各字符对应的语音片段,确定所述产生识别错误的语音段在所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串,包括:
确定所述产生识别错误的语音段的起始位置在所述语音识别结果中所对应的起始字符;
确定所述产生识别错误的语音段的结束位置在所述语音识别结果中所对应的结束字符;
根据所述起始字符和结束字符,确定出在所述语音识别结果中的字符串,作为产生识别错误的错误字符串。
4.如权利要求3所述的方法,确定所述产生识别错误的语音段的起始位置在所述语音识别结果中所对应的起始字符,包括:
将所述产生识别错误的语音段的起始位置对应的字符作为第一字符,并将所述第一字符所对应的语音片断作为第一语音片断;
当所述产生识别错误的语音段的起始位置位于所述第一语音片断的前部时,将所述第一字符作为起始字符;
当所述产生识别错误的语音段的起始位置位于所述第一语音片断的后部时,选择所述语音识别结果中的下一字符作为起始字符。
5.如权利要求3所述的方法,确定所述产生识别错误的语音段的结束位置在所述语音识别结果中所对应的结束字符,包括:
将所述产生识别错误的语音段的结束位置对应的字符作为第二字符,并将所述第二字符所对应的语音片断作为第二语音片断;
当所述产生识别错误的语音段的结束位置位于所述第二语音片断的前部时,选择所述语音识别结果中的上一字符作为结束字符;
当所述产生识别错误的语音段的结束位置位于所述第二语音片断的后部时,将所述第二字符作为结束字符。
6.如权利要求1至5任一项所述的方法,其特征在于,所述利用所述纠错字符串替换所述产生识别错误的错误字符串具体包括:
在所述产生识别错误的错误字符串的数目等于1时,直接利用所述纠错字符串替换所述产生识别错误的错误字符串;
在所述产生识别错误的错误字符串的数目大于1时,利用所述纠错字符串替换用户指定的产生识别错误的错误字符串。
7.如权利要求6所述的方法,其特征在于,所述利用所述纠错字符串替换用户指定的产生识别错误的错误字符串具体包括:
在所述语音识别结果中突出显示所有产生识别错误的错误字符串;
接受用户选择,利用所述纠错字符串更新用户选定的产生识别错误的错误字符串。
8.一种语音识别***,其特征在于,包括:
语音识别单元,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
纠错字符串生成单元,用于接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
自动纠错单元,用于根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段;在根据所述语音识别结果中各字符对应的语音片段,确定所述产生识别错误的语音段所述语音识别结果中所对应的字符串,作为产生识别错误的错误字符串;利用所述纠错字符串替换所述产生识别错误的错误字符串。
9.如权利要求8所述的***,其特征在于:
所述根据所述纠错字符串确定所述用户输入的语音信号中产生识别错误的语音段,包括:
根据所述纠错字符串生成纠错字符串检索网络,包括:获取所述纠错字符串对应的纠错字符串模型,获取预置的吸收模型,根据获取的纠错字符串模型以及吸收模型生成所述纠错字符串检索网络;所述纠错字符串检索网络包括所述纠错字符串对应的纠错字符串模型以及预置的吸收模型,所述纠错字符串模型由纠错字符串生成:通过预置的词典将纠错字符串扩展为相应的模型序列得到对应的纠错字符串模型,所述吸收模型是由***预先在海量语音数据训练得到的背景模型;
在所述纠错字符串检索网络内搜索相应于所述用户输入的语音信号的第二最优解码路径,所述第二最优解码路径是指具有最大历史路径概率的路径,所述第二最优解码路径包括所述纠错字符串模型对应的语音段作为所述产生识别错误的语音段;
确定所述产生识别错误的语音段在所述用户输入的语音信号中对应的起始位置和结束位置。
CN201210584746.2A 2012-12-28 2012-12-28 语音识别方法和*** Active CN103021412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210584746.2A CN103021412B (zh) 2012-12-28 2012-12-28 语音识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210584746.2A CN103021412B (zh) 2012-12-28 2012-12-28 语音识别方法和***

Publications (2)

Publication Number Publication Date
CN103021412A CN103021412A (zh) 2013-04-03
CN103021412B true CN103021412B (zh) 2014-12-10

Family

ID=47969943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210584746.2A Active CN103021412B (zh) 2012-12-28 2012-12-28 语音识别方法和***

Country Status (1)

Country Link
CN (1) CN103021412B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别***及语音评分***
CN105469801B (zh) * 2014-09-11 2019-07-12 阿里巴巴集团控股有限公司 一种修复输入语音的方法及其装置
CN105786438A (zh) * 2014-12-25 2016-07-20 联想(北京)有限公司 一种电子***
CN105786204A (zh) * 2014-12-26 2016-07-20 联想(北京)有限公司 信息处理方法和电子设备
JP6128146B2 (ja) * 2015-02-24 2017-05-17 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN105182763A (zh) * 2015-08-11 2015-12-23 中山大学 一种基于语音识别的智能遥控器及实现方法
CN105206260B (zh) * 2015-08-31 2016-09-28 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN105679319B (zh) * 2015-12-29 2019-09-03 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN106328145B (zh) * 2016-08-19 2019-10-11 北京云知声信息技术有限公司 语音修正方法及装置
CN107220235B (zh) * 2017-05-23 2021-01-22 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN108182001B (zh) * 2017-12-28 2021-06-08 科大讯飞股份有限公司 输入纠错方法及装置、存储介质、电子设备
CN110647785B (zh) * 2018-06-27 2022-09-23 珠海金山办公软件有限公司 一种输入文本的准确性的识别方法、装置及电子设备
JP6718182B1 (ja) * 2019-05-08 2020-07-08 株式会社インタラクティブソリューションズ 誤変換辞書作成システム
CN110764647B (zh) * 2019-10-21 2023-10-31 科大讯飞股份有限公司 输入纠错方法、装置、电子设备和存储介质
CN112820276B (zh) * 2020-12-21 2023-05-16 北京捷通华声科技股份有限公司 语音的处理方法、装置、计算机可读存储介质与处理器
CN112669825A (zh) * 2020-12-24 2021-04-16 杭州中科先进技术研究院有限公司 一种通过语音合成方法自动训练的语音识别***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法

Also Published As

Publication number Publication date
CN103021412A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103021412B (zh) 语音识别方法和***
CN103000176B (zh) 语音识别方法和***
CN109313896B (zh) 可扩展的动态类语言建模方法、用于生成话语转录的***、计算机可读介质
TWI266280B (en) Multimodal disambiguation of speech recognition
US10134388B1 (en) Word generation for speech recognition
CN102682763B (zh) 修正语音输入文本中命名实体词汇的方法、装置及终端
US6415258B1 (en) Background audio recovery system
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
WO2020001458A1 (zh) 语音识别方法、装置及***
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
US20100281435A1 (en) System and method for multimodal interaction using robust gesture processing
KR20170063037A (ko) 음성 인식 장치 및 방법
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
KR20170106951A (ko) 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索***及方法
CN101847405A (zh) 语音识别装置和方法、语言模型产生装置和方法及程序
CN104157285A (zh) 语音识别方法、装置及电子设备
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
Vertanen et al. Parakeet: A continuous speech recognition system for mobile touch-screen devices
JP2021529337A (ja) 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN110287364B (zh) 语音搜索方法、***、设备及计算机可读存储介质
CN111462748A (zh) 语音识别处理方法、装置、电子设备及存储介质
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
CN103903618A (zh) 一种语音输入方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.