CN101727901B - 嵌入式***的汉英双语语音识别方法 - Google Patents

嵌入式***的汉英双语语音识别方法 Download PDF

Info

Publication number
CN101727901B
CN101727901B CN200910242406XA CN200910242406A CN101727901B CN 101727901 B CN101727901 B CN 101727901B CN 200910242406X A CN200910242406X A CN 200910242406XA CN 200910242406 A CN200910242406 A CN 200910242406A CN 101727901 B CN101727901 B CN 101727901B
Authority
CN
China
Prior art keywords
model
chinese
english
voice
english bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910242406XA
Other languages
English (en)
Other versions
CN101727901A (zh
Inventor
刘加
钱彦旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN200910242406XA priority Critical patent/CN101727901B/zh
Publication of CN101727901A publication Critical patent/CN101727901A/zh
Application granted granted Critical
Publication of CN101727901B publication Critical patent/CN101727901B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于语音识别技术领域,尤其涉及一种嵌入式***的汉英双语语音识别方法。包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别;其中声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;语音命令的匹配识别具体是汉英双语语音命令的识别。本发明克服了现有语音识别***只能识别单语言的缺陷。

Description

嵌入式***的汉英双语语音识别方法
技术领域
本发明属于语音识别技术领域,尤其涉及一种嵌入式***的汉英双语语音识别方法。
背景技术
近年来,国外语音识别专用芯片发展很快。国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片,并对自己国家语言的语音识别算法进行专利保护。这些专用(***)芯片的语音识别性能也各不相同。通常的语音识别的过程如图1所示,输入的语音信号首先经过A/D进行采样,频谱整形加窗预加重处理,提高高频成分,进行实时特征参数提取,提取的参数为Mel频标倒谱系数(MFCC),同时进行语音识别模板训练和语音识别模板匹配,为了提高噪声环境下的芯片识别性能鲁棒性,还会进行语音增强的处理。专用芯片一般包括8位或16位MCU控制器或16位DSP微处理器及与其相连的自动增益控制(AGC)、音频前置放大器、低通滤波器、数/模(A/D)转换器、模/数(D/A)转换器、音频功率放大器、只读存储器(ROM)。这些语音识别专用(***)芯片已经开始被应用于在智能语音玩具、移动通信终端上。
但是现有的中等词表的高性能语音识别专用芯片只能识别单语种语言,也就是说识别任务只能由汉语或者英语或者日语等单一语种的语言命令构成,并不支持两种语言(比如汉英双语混合)命令的识别。
然而,随着国际化趋势的不断深入,无论是经济、政治,还是文化、学术,人们在日常生活中所出现的双语现象已经越来越普遍,比如中英双名等。因而,仅仅构建基于中文或者英文等单语言的语音识别***越来越不能顺应时代发展的要求。特别是作为世界上使用人数最多以及使用最广泛的中文和英文,构建一个能够进行中英文混合识别的***,并将他在专用芯片***等便携设备上实现,显得非常重要。
发明内容
本发明的目的是,为克服已有芯片***只能识别单语言的不足,提出一种嵌入式***的汉英双语语音识别方法。该方法是基于音素融合建模的汉英双语嵌入式语音识别、嵌入式语音增强方法。
技术方案是,一种嵌入式***的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;
其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;
所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;
所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。
所述方法还包括语音增强步骤。
所述合并修订后的汉语语音识别模型和英语语音识别模型具体是,采用基于状态时间对准的模型距离计算方法,计算汉语和英语两两音素之间的距离,然后将距离最小的一对音素进行合并。
所述训练合并后的汉语语音和英语语音识别模型,采用最大似然估计准则和期望最大化的估值迭代算法,得到汉英双语语音识别初始模型。
所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。
所述采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:
(11)通过纯母语的数据库训练得到一个母语模型M1;
(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;
(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;模型插值公式如下:
p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)
其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子。
所述融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练包括:使用语音识别器来得到训练语音的词格信息;通过语音训练库的原始词级标注信息来训练得到汉语和英语的语言模型;在得到的词格信息上做前后项算法来更新模型参数。
所述语音增强步骤采用改进的维纳滤波算法,包括下列步骤:
(21)使用一段典型的背景噪声作为噪声估计的初始值;
(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测,对于不同输入信噪比的含噪语音信号,将滤波器的输出与预先设定的阈值进行比较,根据判定条件决定当前帧信号是否处于背景噪声;如果是,则执行步骤(23);
(23)采用Decision-Directed算法进行当前帧先验信噪比的估计,并利用历史帧信息进行噪声信号的更新;
(24)采用两级帧间平滑处理,提高增强语音信号频谱的连续性,减小语音信号的失真。
所述当前帧先验信噪比的估计,由前一帧先验信噪比与当前帧后验信噪比的估计γk(n)加权得到,计算公式为:
Figure G200910242406XD00042
其中,
Figure G200910242406XD00043
为当前帧先验信噪比的估计;p为反馈因子,用于控制上一帧与当前帧对当前帧先验信噪比估计的贡献;a为控制收敛因子。
本发明提供的方法克服了已有芯片***只能识别单语言的不足,具有算法复杂度低,识别精度高和噪声环境下识别稳健性能好的特点。
附图说明
图1是目前常用的语音识别示意图;
图2是本发明提供的汉英双语语音识别方法过程示意图;
图3是中国人说英语时的混淆音素变化表;
图4是基于状态时间对准的音素合并方法得到的时间分段信息示意图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图2是本发明提供的汉英双语语音识别方法过程示意图。图2中,本发明提供的嵌入式***的汉英双语语音识别方法,包括如下步骤:A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,确立汉英双语语音识别初始模型,汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别。其中,A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取是已有的技术,确立汉英双语语音识别初始模型,汉英双语语音识别初始模型的非母语模型融合调整和汉英双语语音命令的识别是本发明提出的新技术。
确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型。
修订汉语语音识别模型和英语语音识别模型,首先根据中国人说英文或者外国人说中文所产生的发音差异修整发音字典(即汉语和英语语音识别模型)。主要有基于专家知识和基于数据驱动两种方法。在本发明中,同时结合两种策略,这样既能在专家知识指导下得到通用性强,依赖非母语语音数据量小的发音变化规律,又能兼有数据驱动。从而实现与实际数据匹配性好,人工干预少,可推广的优点。在使用数据驱动的方法时,将结合训练数据的原始音素标注和识别器的识别标注得到易混淆的音素矩阵,然后结合专家知识的指导确定最终的发音变化规律。以中国人说英文为例,图3是中国人说英语时的混淆音素变化表,图3中,根据这个最后确定的音素变化规律,来重新修订英文的发音字典。
在修订汉语语音识别模型和英语语音识别模型后,将修订的两个模型进行合并,得到统一并且规模较小的模型集。要得到一个规模较小的识别模型就必需要进行中英文识别模型的合并,同时为了保证较高的识别率,在合并时将一些在声学模型空间上距离足够近的模型进行合并。本发明采用基于状态时间对准的方法模型距离计算方法来衡量两个模型间的距离。以两个音素模型中文音素λi和英文音素γj为例说明两个模型间的距离计算方法,先从人工标注的语音中为两个音素准备若干段语音,然后将λi各段语音分别用本音素λi和对方音素γj进行viterbi(维特比)状态时间对准,得到如图4所示的分段信息。其中λi和γj分别表示未合并前的两个模型。从图中可知,可以得到5段分割信息,然后根据对应的时间段,计算各段上两个模型的Bhattacharyya距离,记为Dmn,最后用时间段的长度作为权重进行加权得到一个距离为:
D ( λ i , γ j ) = Σ q = 1 5 Δt q D mn .
反过来,将γj各段语音分别用本音素γj和对方音素λi进行viterbi(维特比)状态时间对准,同样的方法得到D(γj,λi),最终模型λi和γj之间的距离为
D = 1 2 ( D ( λ i , γ j ) + D ( γ j , λ i ) ) .
按照以上的计算方法,得到中英文两两音素之间的距离,然后将距离最小的一对音素进行合并。按照此过程进行音素合并的循环,直到音素个数降到需要的数量为止。按照上面介绍的基于状态时间对准的距离计算方法,将中文音素和英文音素合并了一共15对,大幅度的减小了音素集的规模,适合嵌入式***的资源要求。
接下来通过大量的汉语以及英语语音数据库,对合并后的汉语语音和英语语音识别模型进行训练,这里采用MLE(Maximum likelylood estimation,最大似然估计)准则和EM(Expectation Maximum,期望最大化)的估值迭代算法进行,得到汉英双语语音识别初始模型。整个训练过程在PC上完成。
汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语识别初始模型进行最小音子错误区分性训练,得到汉英双语语音识别模型。
非母语说话人往往带有母语口音或者发音不规范,从而识别***会造成误判,必须采用模型融合技术来对识别的初始模型进行调整。本发明采用可选择的模型归并方法对母语模型和非母语模型进行融合,修正识别模板的参数,其过程是:
(11)通过纯母语的数据库训练得到一个母语模型M1;
(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;
(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf。模型插值公式如下所示:
p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)
其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子。
为了得到更加精细的模型,特别是进一步提高非母语汉英双语的识别率,本发明首次将区分性训练技术应用到双语的环境下。根据MPE(MinimumPhone Error,最小音素错误)准则,对已经得到的汉英双语识别模型进行MPE区分性训练:首先使用语音识别器来得到训练语音的词格信息,同时通过语音训练库的原始词级标注信息,训练得到中英文的语言模型;最后通过在得到的词格信息上做Forward-Backward前后项算法来更新模型参数。在经过多次参数迭代估值后,模型参数得到了进一步的调整,模型之间保持更大的鉴别性和区分性;根据非母语调整后的汉英双语识别模型,既能保证语音是母语时的双语识别率不降低,同时大幅度地提高了非母语双语的识别率。最终对母语以及非母语中英文的识别率都达到了98%以上。
汉英双语语音命令的识别,是通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,并根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。提取输入的语音信号的识别特征,可以采用常用的语音特征参数的提取方法。根据特征计算汉英双语模型的高斯分数,根据汉英双语词条进行模板匹配,找出匹配分数最大的为识别结果。为提高识别速度和识别精度,识别判决过程还分为粗略识别和精细识别两个过程。粗略识别的模型参数较少,模型参数不到200个,粗略识别速度快。对一些发音不标准或者易混的语音再进行精细识别,精细识别模型的参数较多,大概在1000个左右。但由于经过粗略识别以后得到的候选已经很少,尽管精细识别模型数较多,但是识别速度同样很快。两级识别不仅提高识别的平均速度,而且提高了识别精度。
为了提高噪声环境下语音识别的性能,本发明还可以包括语音增强步骤。语音增强步骤具体是:
(21)使用一段典型的背景噪声作为噪声估计的初始值。
(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测,对于不同输入信噪比的含噪语音信号,将滤波器的输出与预先设定的阈值进行比较,根据判定条件决定当前帧信号是否处于背景噪声;如果是,则执行步骤(23);否则,结束。
(23)采用Decision-Directed算法进行当前帧先验信噪比的估计,并利用历史帧信息进行噪声信号的更新。当前帧先验信噪比的估计,由前一帧先验信噪比
Figure G200910242406XD00091
与当前帧后验信噪比的估计γk(n)加权得到,计算公式为:
Figure G200910242406XD00092
其中,
Figure G200910242406XD00093
为当前帧先验信噪比的估计,p  a。
(24)同时采用两级帧间平滑处理,提高了增强语音信号频谱的连续性,减小语音信号的失真。
本发明提供的汉英双语语音识别方法,实现了汉英双语的识别功能,***的模型规模相比单语言的识别***并没有扩大,所占存储资源较小;同时在兼顾非母语的条件下,保证母语高识别率的同时,得到了非母语识别的高性能,此外还采用语音增强技术提高了噪声环境下的识别精度,适用于汉英双语识别的嵌入式实现。
本发明以一个实际的便携式移动电话中英文双语人名拨号***为平台为例进行实验。其中识别任务是中包括500个英文人名和500个中文人名。实验表明,在存储量方面,本发明的双语识别方法需要的存储量资源与单语言的识别体系相近。能够同时处理中英文人名的识别,同时在兼顾非母语的条件下,保证母语高识别率的同时,得到了非母语识别的高性能,最终***汉英双语的母语与非母语识别率都到达了98%以上。此外还采用语音增强技术提高了噪声环境下的识别精度,适用于汉英双语识别的嵌入式实现。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种嵌入式***的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;
其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;
所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;
其中,采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:
(11)通过纯母语的数据库训练得到一个母语模型M1;
(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;
(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;插值公式如下:
p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)
其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子;
所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。
2.根据权利要求1所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述嵌入式***的汉英双语语音识别方法还包括语音增强步骤。
3.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述合并修订后的汉语语音识别模型和英语语音识别模型具体是,采用基于状态时间对准的模型距离计算方法,计算汉语和英语两两音素之间的距离,然后将距离最小的一对音素进行合并。
4.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述训练合并后的汉语语音和英语语音识别模型,采用最大似然估计准则和期望最大化的估值迭代算法,得到汉英双语语音识别初始模型。
5.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。
6.根据权利要求1或2所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练包括:使用语音识别器来得到训练语音的词格信息;通过语音训练库的原始词级标注信息来训练得到汉语和英语的语言模型;在得到的词格信息上做前后项算法来更新模型参数。
7.根据权利要求2所述的一种嵌入式***的汉英双语语音识别方法,其特征是所述语音增强步骤采用改进的维纳滤波算法,包括下列步骤:
(21)使用一段典型的背景噪声作为噪声估计的初始值;
(22)利用滑动滤波器和三态状态机进行鲁棒的噪声检测,对于不同输入信噪比的含噪语音信号,将滤波器的输出与预先设定的阈值进行比较,根据判定条件决定当前帧信号是否处于背景噪声;如果是,则执行步骤(23);否则,结束;
(23)采用Decision-Directed算法进行当前帧先验信噪比的估计,并利用历史帧信息进行噪声信号的更新;
(24)采用两级帧间平滑处理,提高增强语音信号频谱的连续性,减小语音信号的失真。
CN200910242406XA 2009-12-10 2009-12-10 嵌入式***的汉英双语语音识别方法 Expired - Fee Related CN101727901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910242406XA CN101727901B (zh) 2009-12-10 2009-12-10 嵌入式***的汉英双语语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910242406XA CN101727901B (zh) 2009-12-10 2009-12-10 嵌入式***的汉英双语语音识别方法

Publications (2)

Publication Number Publication Date
CN101727901A CN101727901A (zh) 2010-06-09
CN101727901B true CN101727901B (zh) 2011-11-09

Family

ID=42448692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910242406XA Expired - Fee Related CN101727901B (zh) 2009-12-10 2009-12-10 嵌入式***的汉英双语语音识别方法

Country Status (1)

Country Link
CN (1) CN101727901B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412856A (zh) * 2013-01-14 2013-11-27 刘恒 便携式中外语音互译机
CN104167206B (zh) * 2013-05-17 2017-05-31 佳能株式会社 声学模型合并方法和设备以及语音识别方法和***
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN106448655A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 语音识别方法
CN106878805A (zh) * 2017-02-06 2017-06-20 广东小天才科技有限公司 一种混合语种字幕文件生成方法及装置
CN108630192B (zh) * 2017-03-16 2020-06-26 清华大学 一种非汉语语音识别方法、***及其构造方法
CN107564527A (zh) * 2017-09-01 2018-01-09 平顶山学院 嵌入式***的汉英双语语音识别方法
CN108510978B (zh) * 2018-04-18 2020-08-21 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及***
WO2020226948A1 (en) * 2019-05-03 2020-11-12 Google Llc Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
CN110634487B (zh) * 2019-10-24 2022-05-17 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质
CN111816169B (zh) * 2020-07-23 2022-05-13 思必驰科技股份有限公司 中英语种混杂语音识别模型训练方法和装置
CN112071307A (zh) * 2020-09-15 2020-12-11 江苏慧明智能科技有限公司 高龄老人不完整语音智能识别方法
CN112489626B (zh) * 2020-11-18 2024-01-16 华为技术有限公司 一种信息识别方法、装置及存储介质
CN112652311B (zh) 2020-12-01 2021-09-03 北京百度网讯科技有限公司 中英文混合语音识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN101727901A (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
CN101727901B (zh) 嵌入式***的汉英双语语音识别方法
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN103971685B (zh) 语音命令识别方法和***
EP3132442B1 (en) Keyword model generation for detecting a user-defined keyword
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
CN101118745B (zh) 语音识别***中的置信度快速求取方法
CN101246685B (zh) 计算机辅助语言学习***中的发音质量评价方法
CN101645271B (zh) 发音质量评估***中的置信度快速求取方法
CN103077708B (zh) 一种语音识别***中拒识能力提升方法
WO2008024148A1 (en) Incrementally regulated discriminative margins in mce training for speech recognition
CN107093422B (zh) 一种语音识别方法和语音识别***
CN104036774A (zh) 藏语方言识别方法及***
CN102122506A (zh) 一种语音识别的方法
CN104157285A (zh) 语音识别方法、装置及电子设备
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN112233651B (zh) 方言类型的确定方法、装置、设备及存储介质
US11705116B2 (en) Language and grammar model adaptation using model weight data
CN102982799A (zh) 一种融合引导概率的语音识别优化解码方法
CN102693723A (zh) 一种基于子空间的非特定人孤立词识别方法及装置
Adell et al. Comparative study of automatic phone segmentation methods for TTS
CN103474062A (zh) 一种语音识别方法
CN106887226A (zh) 一种基于人工智能识别的语音识别算法
CN111933121B (zh) 一种声学模型训练方法及装置
CN112863486B (zh) 一种基于音素的口语评测方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181121

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Patentee after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 mailbox 100084-82, Beijing City

Patentee before: Tsinghua University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111109

Termination date: 20201210

CF01 Termination of patent right due to non-payment of annual fee