CN1773606A - 一种基于混淆网络的语音解码方法 - Google Patents

一种基于混淆网络的语音解码方法 Download PDF

Info

Publication number
CN1773606A
CN1773606A CNA2004100908018A CN200410090801A CN1773606A CN 1773606 A CN1773606 A CN 1773606A CN A2004100908018 A CNA2004100908018 A CN A2004100908018A CN 200410090801 A CN200410090801 A CN 200410090801A CN 1773606 A CN1773606 A CN 1773606A
Authority
CN
China
Prior art keywords
class
speech
confusion network
obscuring
decoding method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100908018A
Other languages
English (en)
Other versions
CN100431003C (zh
Inventor
吕萍
颜永红
潘接林
韩疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CNB2004100908018A priority Critical patent/CN100431003C/zh
Publication of CN1773606A publication Critical patent/CN1773606A/zh
Application granted granted Critical
Publication of CN100431003C publication Critical patent/CN100431003C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码***中解码失误无法修复的缺点。

Description

一种基于混淆网络的语音解码方法
技术领域
本发明属于语音识别领域,具体的说,涉及到一种基于混淆网络的语音解码方法。
背景技术
解码过程,也就是通常所说的识别过程,是语音识别***的重要组成部分。它的功能是:在给定声学模型和语言模型的条件下,对于输入的声学特征矢量序列,从一定的搜索空间中自动搜寻出最优的匹配词串,最终将语音信号转换成了文字信息。
图1是一种公知的语音识别***结构图。如图所示,特征提取模块对输入语音信号进行分帧处理,通常帧长为20ms,帧移为10ms;常用的特征有MFCC特征、LPC特征和PLP特征。经特征提取后,语音信号转换成了特征矢量序列。利用声学模型和语言模型,解码模块对特征矢量序列构成的搜索空间进行匹配搜索,得到识别结果。常用的搜索算法有:深度优先的帧同步Viterbi-Beam搜索算法和宽度优先的A*搜索算法。解码模块所用的声学模型是对发音单元建模后统计得到的,它描述了发音的物理特性。三音子模型是目前常用的声学模型。音素是发音的基本构成单元。而三音子(TRIPHONE)是一种上下文相关的音素。与单个音素(单音子)相比,它可以描述上下文不同时音素的发音变异情况。语言模型是从含有大量文本的语料库中统计得到的,体现了语言的统计特性。N元文法模型(N=2或3)是目前最常用的语言模型。
在图1所示的识别***中,采用的是一遍解码(One-Pass)。为了进一步提高语音识别***的识别性能,一些***采用多遍解码(Multi-Pass)的识别策略。公知的语音识别多遍解码***结构图如图2所示,它的基本思想是:首先用较简单的信息排除最不可能的情况,缩小搜索空间;然后逐步利用复杂的信息进行精确搜索。后一遍解码在前一遍解码后的搜索空间上,利用更多的信息源(例如更精细的声学模型和语言模型)和更精密的搜索策略,得到更优的识别结果。如果在一遍解码***中,将所有信息源都加入到解码过程中,那么巨大的搜索空间和计算量将使得计算机无法承受该搜索任务。多遍解码策略即充分利用了多种信息源,又使得实际操作可行。
所谓多遍解码的中间结果,指的是前一遍解码的输出,同时它也是后一遍解码的输入。该中间结果构成了后一遍解码的搜索空间。中间结果按类型一般可分为:1)前N个概率得分最高的句子(N-Best lists);2)词格(Word Lattice)。词格是一种有向图,也称为词图。词格中的节点为可能的词,词间的连接关系构成节点间的连线。实际上,N-Best句子本身也是从词格中产生的。相对N-Best句子而言,词格对于信息的组织更为有效,由词格生成的搜索空间大,包含的潜在句子数目更多。
另外一种类似多遍解码的方法为ROVER。该方法综合多个识别***的识别结果,以一种投票表决的方式,从中挑选出最终的结果。ROVER方法虽然不需要严格意义上的多遍解码过程,但是建立多个识别***也不是一件简单容易的事情。
目前已有的多遍解码语音识别***,因为在搜索过程中采用了更加复杂和精细的声学模型和语言模型,所以提高了识别性能。但另一方面,获得复杂精细的模型本身并不是一件容易的事情。除此之外,目前已有的多遍解码***采用的是级联结构,这使得前一遍解码中出现的错误在以后的解码中永远得不到修正。每一遍解码后,都确定了词与词之间的连接关系。因为后面的解码是在前一遍解码生成的搜索空间上进行的,所以相互无连接的词永远也不可能再形成连接关系。然而某些词间的无连接状况,可能是由于Viterbi搜索中由于Beam宽度大小,或声学模型和语言模型的描述不够准确造成的。同时,由于Viterbi-Beam搜索自身的特点,其中间结果中包含了一些的仅仅是起止时间点稍有不同而内容完全相同的词。而语音识别***所关心的只是识别出的文本信息,时间信息并不在考虑之中。这样的词的存在,并没有为后面的处理增加信息量,却将搜索空间加大了,即在某种程度上增加了搜索负担。
发明内容
本发明的目的是:克服现有技术的不足,在多遍解码的后期,在不利用更多信息的情况下(即不利用更精细复杂的声学模型和语言模型),通过混淆网络聚类技术降低解码错误率,提高解码速率,从而提供一种基于混淆网络的语音解码方法。
为了实现上述目的,本发明提供了一种基于混淆网络的解码方法,包括步骤:
1)对输入语音信号提取特征,得到特征矢量序列,利用声学模型以及语言模型,对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;
其特征在于,还包括如下步骤:
2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;
3)在该混淆网络上以后验概率最大为准则匹配搜索出最优结果。
所述步骤2)中生成混淆网络的过程,包括如下子步骤:
21)根据起止时间信息建立初始的混淆类,其中每一混淆类对应的词不仅词号相同而且起止时间也相同;
22)记录各初始混淆类间的连接关系;
23)对没有连接关系且词号相同的类进行时间相似度聚类;
24)对没有连接关系且时间段上有重叠的类进行音素相似度聚类;
25)遍历所有的混淆类,计算每一个词的后验概率,得到最终的混淆网络。
所述步骤23)中进行时间相似度聚类的原则是:遍历所有的混淆类,找出与当前类时间相似度最大的那个混淆类,并与当前类合并为一个新的混淆类。
所述步骤24)中进行音素相似度聚类的原则是:遍历所有的混淆类,找出与当前类音素相似度最大的那个混淆类,并与当前类合并为一个新的混淆类。
所述步骤25)中后验概率的计算采用前向后向算法。
所述步骤25)中,对于本类中所有词的后验概率之和小于1的混淆类,为其增加一个“省略词”,使得每个类中所有词的后验概率之和为1。
所述步骤2)中,首先将步骤1)中的N-Best句子通过合并算法压缩成有向网络结构,然后再根据得到的有向网络生成混淆网络。
与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,节约了运算时间和内存空间的耗用。同时也减轻了模型训练的任务量。本发明中依据时间相似度和音素相似度,从第一遍解码的中间结果中生成了混淆网络。对于那些由于第一遍解码不够准确而导致的没有连接关系的词,有可能在混淆网络中恢复其连接关系。这就克服了已有多遍解码***中解码失误无法修复的缺点。本发明在生成混淆网络的过程中,对满足时间相似度条件的词进行了聚类。由于Viterbi-Beam搜索固有的特性,第一遍搜索后产生的中间结果中存在很多起止时间稍有区别而内容相同的词。进行了时间相似度聚类后,这些词便都合成一类了。这样就有效的缩减了网络,提高了解码速率。
附图说明
图1为公知的语音识别***结构图;
图2为公知的语音识别多遍解码***结构图;
图3为本发明提供的基于混淆网络的语音解码方法流程图;
图4为本发明中NBest句子压缩成网络结构的流程图;
图5为一般网络示意图;
图6为本发明中初始的混淆类示意图;
图7为本发明中时间相似度聚类后的混淆网络示意图;
图8为本发明中音素相似度聚类后的混淆网络示意图;
图9为本发明中最终的混淆网络示意图。
具体实施方式
下面结合附图与优选实施例对本发明做进一步的描述。
如图3所示,本发明提供的基于混淆网络的语音解码方法包括如下步骤:
步骤101:从输入语音信号中提取特征矢量序列。
步骤102:用Viterbi-Beam搜索算法对语音特征进行第一次解码,输出N-Best句子或词格,同时得出N-Best句子或词格中每个词的声学层概率得分和语言层概率得分。
步骤103:如果步骤102中输出的中间结果为NBest句子,则用合并算法将其压缩成有向网络结构,该合并算法的流程如图4所示,它是一种现有技术,因此这里不再详述。如果步骤102中输出的中间结果为词格,由于词格本身也可看成是一种网络,因此直接进入步骤104。
步骤104:将前面有向网络结构用特定的数据结构表示。即:每一个词存成一个Node节点,该节点包含的信息有:本节点序号,本节点对应的词在词典中的词号,本节点对应的词的起止时间,与该节点相邻的所有后续节点的节点序号。
相邻节点间的连接关系存成一个Link弧,该弧包含的信息有:本弧的序号,本弧对应的起止Node节点序号,本弧对应的词在词典中的词号(与本弧终止节点对应的词号相同),本弧对应的词的声学层概率得分和语言层概率得分。
用上述的Node节点和Link弧就可以表示出整个有向网络。
步骤105:利用Link弧上词的声学层概率得分和语言层概率得分,在步骤104中形成的网络上,用前向后向算法计算每条弧上的词的后验概率,将计算结果储存在相应的弧上。每条弧上的词的后验概率是通过该弧的所有路径的概率之和比上该网络中所有路径概率之和。公式如下:
P ( w : t ∈ [ t s , t e ] | X ) = Σ W s Σ W e P ( X | W S , w , W e ) P ( W s , w , W e ) P ( X )
= Σ W s Σ W e P ( X | W s , w , W e ) P ( W s , w , W e ) Σ W P ( X | W ) P ( W ) - - - ( 1 )
= Σ W s Σ W e P ( X | W s , w , W e ) P ( W s , w , W e ) Σ w Σ W s Σ W e P ( X | W s , w , W e ) P ( W s , w , W e )
其中:X代表语音特征序列:w为起止时间为ts、te的词;WswWe组成网络中一条完整的路径W;Ws为w所有可能的前续词串,而We为w所有可能的后续词串。上式的物理含义为:已知特征序列X的前提下,在[ts,te]时间段产生词w的概率。
前向后向算法为本领域技术人员公知的标准算法,因此本文中不再详述。
步骤106:遍历所有的Link弧,根据起止时间信息建立初始的混淆类(ConfusionCluster)。所谓混淆类就是由解码过程中不容易区分的词组成的类。混淆类中的词称为混淆词。混淆词相互间的鉴别性较差,在解码过程中互为干扰。由这样的混淆类组成的网络便是混淆网络。混淆类为Link弧的一个集合。它所包含的信息有:所含弧的序号,所含词的词号(只记录唯一的词号),最大最小起止时间。初始混淆类由这样一些弧组成:它们对应的词不仅词号相同而且起止时间也相同。在初始的混淆类中,每个类只含有一个词号。
按照起止时间顺序,将所有的初始混淆类进行排序。记录各初始混淆类间的连接关系,保存到二维数组order中。即:若混淆类Ci(即第i个混淆类)的某个Link弧的终止Node节点为混淆类Cj中某个Link弧的起始Node节点,则Ci与Cj是相连的order[i][j]=1。若Ci与Cj间有连接关系,且Cj与Ck相连,则认为Ci与Ck也是相连的,只不过它们不是直接相连。
不存在连接关系的初始混淆类是潜在的可以聚类的对象。
步骤107:进行第一级聚类,即对词号相同的类进行时间相似度聚类。
对于每一个混淆类,找出与之没有连接关系且对应的词号相同的所有混淆类。计算这些混淆类与本混淆类间的时间相似度,将相似度最大的那个混淆类与本混淆类合并为一个新的混淆类,并记录新混淆类与其他混淆类间的连接关系。遍历所有的混淆类,完成上面的过程。此时每个混淆类仍然只包含一个词号。
其中时间相似度计算公式为: SIM ( C i , C j ) = max l 1 ∈ C i l 2 ∈ C j overlap ( l 1 , l 2 )
l1,l2分别是混淆类Ci,Cj中的弧,overlap(l1,l2)是弧l1与l2对应的词的起止时间的重叠程度。
步骤108:进行第二级聚类,即音素相似度聚类。
遍历所有的混淆类,对于每一个混淆类,找出与之没有连接关系且时间段上有重叠的所有混淆类。计算该混淆类与所找到的混淆类间的词对应的音素相似度,将该混淆类与相似度最大的混淆类进行合并,生成一个新的混淆类,并记录新混淆类与其他所有混淆类间的连接关系。重复上面的过程,直至没有可以合并的混淆类为止。此时混淆类所包含的词号可能不止一个。
其中两个词间的音素相似度为: SIM ( C i , C j ) = max W 1 ∈ C i W 2 ∈ C j sim ( W 1 , W 2 )
W1、W2分别为混淆类Ci,Cj中包含的词,通过词号在词典中查找得到。sim(W1,W2)为词W1与W2对应的音素串中相同音素的数目。
步骤109:遍历所有的混淆类,计算每一个词的后验概率。词的后验概率为所有包含该词号的弧的后验概率之和。如果某个混淆类中所有词的后验概率之和小于1,为了保持概率上的统一性完整性,为其增加一个“省略词”(ellipsis),以使得每个类中所有词的后验概率之和为1。“省略词”意味着该混淆类有可能被略过。此时的网络便是最终的混淆网络。
在最终的混淆网络上,进行最大后验概率搜索。即:遍历所有的混淆类,选择其中后验概率最大的那些词组成输出的识别结果,如图9所示。如果挑选出的词为“省略词”,则表明该混淆类中的其它有意义的词没有足够的竞争力,不会出现在识别结果中。
以上是本发明提供的基于混淆网络的语音解码方法的详细步骤。
本发明首先利用三音子声学模型以及三元语言模型,对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格。与常用的多遍解码方法不同的是,本方法不是在上次解码得到的搜索空间上,用更精细复杂的声学模型和语言模型进行再次解码。本方法并不需要更多的模型,而是重新规划由上次解码结果形成的搜索空间,利用时间相似度算法和音素相似度算法进行聚类,生成混淆网络。最后在混淆网络上用最大后验概率搜索出识别结果。本发明充分利用了前次解码结果中的信息,有效的提高了***性能。同时,本发明减轻了模型训练的任务量。所谓训练就是用统计的方法得到模型参数的过程。要训练更精细的模型,就需要更多的训练数据和更复杂的训练手段。本发明中依据时间相似度和音素相似度,从第一遍解码的中间结果中生成了混淆网络。对于那些由于第一遍解码不够准确而导致的没有连接关系的词,有可能在混淆网络中恢复其连接关系。这就克服了已有多遍解码***中解码失误无法修复的缺点。本发明在生成混淆网络的过程中,对满足时间相似度条件的词进行了聚类。由于Viterbi-Beam搜索固有的特性,第一遍搜索后产生的中间结果中存在很多起止时间稍有区别而内容相同的词。进行了时间相似度聚类后,这些词便都合成一类了。这样就有效的缩减了网络,提高了解码速率。
由于不需要更多的精密信息(或模型),本发明能够实时地完成第二遍搜索过程。实验中,通过混淆网络最大后验搜索后,***的识别错误率可以从19.8%下降到18.6%,错误率绝对下降了1.2%,相对下降了6.0%。

Claims (7)

1、一种基于混淆网络的语音解码方法,包括步骤:
1)对输入语音信号提取特征,得到特征矢量序列,利用声学模型以及语言模型,对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;
其特征在于,还包括如下步骤:
2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;
3)在该混淆网络上以后验概率最大为准则匹配搜索出最优结果。
2、按权利要求1所述的基于混淆网络的语音解码方法,其特征在于,所述步骤2)中生成混淆网络的过程,包括如下子步骤:
21)根据起止时间信息建立初始的混淆类,其中每一混淆类对应的词不仅词号相同而且起止时间也相同;
22)记录各初始混淆类间的连接关系;
23)对没有连接关系且词号相同的类进行时间相似度聚类;
24)对没有连接关系且时间段上有重叠的类进行音素相似度聚类;
25)遍历所有的混淆类,计算每一个词的后验概率,得到最终的混淆网络。
3、按权利要求2所述的基于混淆网络的语音解码方法,其特征在于,所述步骤23)中进行时间相似度聚类的原则是:遍历所有的混淆类,找出与当前类时间相似度最大的那个混淆类,并与当前类合并为一个新的混淆类。
4、按权利要求2所述的基于混淆网络的语音解码方法,其特征在于,所述步骤24)中进行音素相似度聚类的原则是:遍历所有的混淆类,找出与当前类音素相似度最大的那个混淆类,并与当前类合并为一个新的混淆类。
5、按权利要求2所述的基于混淆网络的语音解码方法,其特征在于,所述步骤25)中后验概率的计算采用前向后向算法。
6、按权利要求2所述的基于混淆网络的语音解码方法,其特征在于,所述步骤25)中,对于本类中所有词的后验概率之和小于1的混淆类,为其增加一个“省略词”,使得每个类中所有词的后验概率之和为1。
7、按权利要求1所述的基于混淆网络的语音解码方法,其特征在于,所述步骤2)中,首先将步骤1)中的N-Best句子通过合并算法压缩成有向网络结构,然后再根据得到的有向网络生成混淆网络。
CNB2004100908018A 2004-11-12 2004-11-12 一种基于混淆网络的语音解码方法 Expired - Fee Related CN100431003C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100908018A CN100431003C (zh) 2004-11-12 2004-11-12 一种基于混淆网络的语音解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100908018A CN100431003C (zh) 2004-11-12 2004-11-12 一种基于混淆网络的语音解码方法

Publications (2)

Publication Number Publication Date
CN1773606A true CN1773606A (zh) 2006-05-17
CN100431003C CN100431003C (zh) 2008-11-05

Family

ID=36760518

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100908018A Expired - Fee Related CN100431003C (zh) 2004-11-12 2004-11-12 一种基于混淆网络的语音解码方法

Country Status (1)

Country Link
CN (1) CN100431003C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及***
CN102376305A (zh) * 2011-11-29 2012-03-14 安徽科大讯飞信息科技股份有限公司 语音识别方法及***
CN102411931A (zh) * 2010-09-15 2012-04-11 微软公司 用于大词汇量连续语音识别的深度信任网络
CN101276585B (zh) * 2007-03-28 2013-01-02 纽昂斯通讯公司 多语言非母语语音识别
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN110197657A (zh) * 2019-05-22 2019-09-03 大连海事大学 一种基于余弦相似度的动态音声特征提取方法
CN110992943A (zh) * 2019-12-23 2020-04-10 苏州思必驰信息科技有限公司 基于词混淆网络的语义理解方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276585B (zh) * 2007-03-28 2013-01-02 纽昂斯通讯公司 多语言非母语语音识别
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
US8527272B2 (en) 2009-08-28 2013-09-03 International Business Machines Corporation Method and apparatus for aligning texts
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
CN102411931A (zh) * 2010-09-15 2012-04-11 微软公司 用于大词汇量连续语音识别的深度信任网络
CN102411931B (zh) * 2010-09-15 2014-01-29 微软公司 用于大词汇量连续语音识别的深度信任网络
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及***
CN102376305A (zh) * 2011-11-29 2012-03-14 安徽科大讯飞信息科技股份有限公司 语音识别方法及***
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN103730115B (zh) * 2013-12-27 2016-09-07 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN110197657A (zh) * 2019-05-22 2019-09-03 大连海事大学 一种基于余弦相似度的动态音声特征提取方法
CN110197657B (zh) * 2019-05-22 2022-03-11 大连海事大学 一种基于余弦相似度的动态音声特征提取方法
CN110992943A (zh) * 2019-12-23 2020-04-10 苏州思必驰信息科技有限公司 基于词混淆网络的语义理解方法及***
CN110992943B (zh) * 2019-12-23 2022-05-24 思必驰科技股份有限公司 基于词混淆网络的语义理解方法及***

Also Published As

Publication number Publication date
CN100431003C (zh) 2008-11-05

Similar Documents

Publication Publication Date Title
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN108305634B (zh) 解码方法、解码器及存储介质
CN110473531B (zh) 语音识别方法、装置、电子设备、***及存储介质
CN111931736B (zh) 利用非自回归模型与整合放电技术的唇语识别方法、***
CN103198149B (zh) 一种查询纠错方法和***
CN108389575B (zh) 音频数据识别方法及***
CN111062376A (zh) 基于光学字符识别与纠错紧耦合处理的文本识别方法
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN1741132A (zh) 口头发音检索所用的基于格点搜索的***和方法
CN101548285A (zh) 自动语音识别方法和设备
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及***
CN111816169B (zh) 中英语种混杂语音识别模型训练方法和装置
CN109243460A (zh) 一种自动生成基于地方方言的讯或询问笔录的方法
CN110751234B (zh) Ocr识别纠错方法、装置及设备
CN1613107A (zh) 基于hmm的文字-音素分析器及其训练方法
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN112989806A (zh) 一种智能化文本纠错模型训练方法
CN103871404A (zh) 一种语言模型的训练方法、查询方法和对应装置
CN1773606A (zh) 一种基于混淆网络的语音解码方法
Tran et al. Joint modeling of text and acoustic-prosodic cues for neural parsing
CN111951778B (zh) 一种低资源下利用迁移学习进行情感语音合成的方法
CN112967720A (zh) 少量重口音数据下的端到端语音转文本模型优化方法
US6760702B2 (en) Method for generating candidate word strings in speech recognition
US9697830B2 (en) Method and system for order-free spoken term detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081105