CN1300049A - 汉语普通话话音识别的方法和设备 - Google Patents

汉语普通话话音识别的方法和设备 Download PDF

Info

Publication number
CN1300049A
CN1300049A CN00134525A CN00134525A CN1300049A CN 1300049 A CN1300049 A CN 1300049A CN 00134525 A CN00134525 A CN 00134525A CN 00134525 A CN00134525 A CN 00134525A CN 1300049 A CN1300049 A CN 1300049A
Authority
CN
China
Prior art keywords
syllable
chinese
speech
model
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00134525A
Other languages
English (en)
Inventor
杨中和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1300049A publication Critical patent/CN1300049A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种采用声母/韵母音素相似性向量对汉语普通话话音识别的设备,该设备可提高汉语话音识别准确度并降低所需的存储的规模。一种汉语普通话识别设备包括一话音信号滤波器、一模/数转换器、一计算机、一音调鉴频器、一话音信号预处理器和一训练部分。

Description

汉语普通话话音识别的方法和设备
本发明涉及一种应用声母和韵母的相似性向量进行汉语普通话话音识别的方法和设备。本发明的目的在于改善识别准确度和降低所需的建立在用于汉语普通话话音识别***的单数字信号处理(DSP)芯片上的存储规模。本发明更为具体的目的在于提出不仅旨在根据汉语声母和韵母音素相似性提高汉语普通话话音识别率,而且还旨在降低所需的存储规模的方法。
二十多年以来,对普通话话音识别技术的研究和开发已经成了不仅在学术领域中,而且在面向商业的私营公司中的热门话题。显然,人类的话音是根据声道的形状及其瞬时的变化产生的,取决于发音器官的形状或大小的声道形状必然是因人而异的。另一方面,也取决于发出的字的声道的时间顺序模式也有很小的具体差别。因此,可以将发音的特征分成两个要素:即声道的形状和瞬时模式。前者因说话者的不同差别很大,而后者差别是比较小的。所以如果对取决于声道形状的区别以某种方式进行标准化,则仅利用少量说话者的发音即可对具体人的话音实现识别。声道形状的不同将导致不同的频谱。一种用于对说话者的频谱区别进行标准化的方法是通过采用将话音输入与为非特定说话者建立的音素样板比较的方法对话音输入进行分类。该运算实现了并不特别取决于说话者区别的相似性。同时声道的瞬时模式被认为只有很小的差别。
话音是人类最基本的通信手段,此点是促使了解话音生成机理的动因。诸如声音的重叠振荡的非线性、声道发音器的动态、语言规律的知识和声门源与声道耦合声学效应等领域都是不断进行研究的领域。通过对基本话音分析的不间断的研究实现了话音合成、编码和识别等新颖的和更实用的手段。在历史发展的进程中J.Q.斯图尔德(1922)研制出第一个用于对话音模化的全电子网络。由老式的话音处理***到最新的进展,我们了解了就声道发音器的位置和移动、其时间波形特性的变化和诸如格式位置和带宽等频域特性等方面的话音声学。由于需要发音器进行有限的移动,以便产生每个声音,所以话音发生***是不能进行即刻变化的。与听觉***不同,所述听觉***仅用于听的目的,而用于生成话音的器官还承担其它的诸如呼吸、吃东西和发出气味等功能。就人际的话音通信的目的而言,考虑的仅是由说话者产生的声音信号。事实上,还存在许多与之并列的人与电子之间的通信。受人的生成话音的器官和听觉***的限制,典型的人类话音通信被限定在7-8kHz带宽上。
旨在进行测定的对声道的研究和理解自然话音信号与生理机理,即生成话音的人体声道机理和听取话音的人体听觉***间的关系科学,被称作“声学”。最新的方案对人类的说和听的人体***进行评价并且通过数字化将这些人类的通信信号变成参数,例如声学特征抽取。人类的声音特征因人而异,即每个人都具有其独自的声音特征。
通常用于不受说话者区别影响的话音识别的标准模式是通过对说话者的话音数据进行统计处理实现的。其中有几种比较方法,例如一种应用统计距离量度的方法和一种应用神经网络模型的方法,例如台湾专利303452;和隐式马尔可夫模型(HMM),例如台湾专利283774和269036。尤其是报导了许多采用连续混合高斯密度模型成功的实现的隐式马尔可夫模型(HMM)。采用这些方法时,应用作为特征参数的频谱参数进行话音识别并且通常需要大量的说话者,以进行训练。为实现高的识别率还要付出巨大的存储代价。如果由少量的说话者可以实现用于不受说话者区别影响的话音识别的标准模式,则测定的规模将可大大小于通常的方式。因而可以节省人力和测定并且话音识别方法则易于用于各种应用。为实现上述目的,我们提出应用作为特征参数的相似性向量的话音识别设备的发明。根据此方法,由少量的说话者训练出的字样板在对不受说话者区别影响的识别时可实现高的识别率。为了在实际应用时实现话音识别技术,话音识别设备必须耐躁声环境并且针对的是来自背景躁声的字,而不是针对发音。另外,话音识别设备必须作为便携式设备必须保持高的质量性能。出于此考虑,本发明集中在用于便携式设备的汉语话音识别***内的小规模的编程编码,但高准确度的识别率。
有许多用于英语话音识别的算法和方法,然而汉语就其话语表达而言具有一些完全不同于西方语言的主要的特性。例如公知的区别是每个汉字的声调信息和单音节声音模式。就汉语话语的字而言,汉语口语是双音节的语言,其中一个字由在最后的元音前面的辅音或鼻音构成。在前面的辅音被称作“声母”。声母的发音时间很短并通过韵母起作用,而韵母在前面具有一个过渡部分。例如汉字“关”《メㄢ(g+uan l)或“心”T一ㄣ(s+ing l)等。韵母的中间部分是固定不变的并且对韵母组的整个集是相同的。每个韵母的结束部分的特征是有一个发音的或不发音的结束辅音。普通话共有21个声母和一个轻声母和36个韵母,所述韵母包括组成整个韵母的中间过渡和轻韵母。如果不考虑四声,则共有409个普通话音节集。如果将声调与音素组合在一起,则共有1345个不同的普通话音节。汉语口语的另外一个特征是发音特性的同音异意性,其中具有相同音素的不同的声调表示不同的汉字。
为实现汉语口语的准确的识别率,以有效的、关键性的和健全的方式由汉语话音信号提取相关信息的处理过程是重要的技术。有许多用于汉语话音识别的方法,其中包括有用于对话音信号的时间变化特性进行特征化的频谱分析以及使话音信号耐各种记录环境的信号预处理和后处理。这些方法通常与数字信号处理(DSP)技术和许多数学模型和公式相关联,例如DFT(离散型傅立叶变换)(或FFT(快速傅立叶变换))、有限脉冲响应(FIR)、Z变换、线性预测编码(LPC)、神经网络和隐式马尔可夫模型(HMM)。尽管提出了许多用于汉语话音识别的数学模型,但这些方法用少量的训练说话者数据库仍不能提高识别准确度。
在以基本的传统的声母-韵母结构为基础的用于汉语话音识别的方案中,应用的是汉语声母-韵母特性。该传统的方案采用此方法用于将作为声母和韵母链接的输入音节模化。但对该方案的应用并不意味着将输入的音节明显地分为两部分。采用这种声母-韵母结构的模化,必须通过对声母和韵母的鉴别实现对音节集的识别。在应用声母-韵母特征的***中,对声母和韵母的识别是必不可少的部分。在最初阶段,几名发明人,例如在台湾专利273615、278174(美国专利US5704004)和219993提出的用于分别识别声母和韵母的方法。美国专利US5704004是台湾专利278174的同族专利。音节首先被分成两部分并且对其进行分别识别。即声母首先由音节分出并根据诸如零交叉率、平均能量和音节时间等提取的特征被分类成发音的和不发音的部分。接着,采用这些特征向量建立特征编码簿。应用有限状态向量量化可以实现识别。在这些传统的***中,首先了解韵母。所以可以在被识别的韵母组中进行辅音分类。根据实验结果,该传统的方案的识别准确度只能达到93%(台湾专利273615)。同时,这些方案为进行处理必须建立无数的说话者的大型的话音大全。
故提出本发明,不仅旨在改善识别准确度,而且也旨在实现一种可降低编程编码规模的汉语话音识别***的设备。本发明旨在提出一种采用作为特征参数的相似性向量的高准确度的不受说话者区别影响的汉语话音识别***。在躁声环境条件下包括台湾的106个城市名称的字识别率的实验结果达97.3%。本发明的汉语话音的识别率大大高于传统的方法(例如台湾专利273615、278174)。其准确度高于其它传统的方法4.5%。
本发明的目的在于提出采用声母/韵母相似性向量的用于汉语普通话话音识别的设备,以便提高汉语话音识别准确度并降低所需的存储规模。
本发明的目的还在于提出采用声母/韵母相似性向量的汉语普通话话音识别的方法。
一种汉语普通话识别的方法包括如下步骤:
根据声母部分训练音素相似性向量(PSV)模型,以便建立一具有训练出的声母部分模型参数的声母部分模型;
根据韵母部分训练音素相似性向量(PSV),以便建立一具有训练出的韵母部分模型参数的模型;
训练话音音节的音素相似性向量,以便采用作为音节模型的启始参数的训练出的声母部分参数值和训练出的韵母部分参数值建立音节模型;
采用音节模型对目标话音取样进行操作;
根据目标话音取样与音节模型的符合度对作为目标话音音节的目标话音取样进行识别,和
对作为与目标话音音节相符的汉字的目标话音取样加以表示。
一种汉语普通话识别方法另外还包括如下步骤:
根据通用的上下文关系的汉字顺序训练动态时间Warp编译器,以便建立汉语模型;
采用汉语模型对目标音节取样中的目标话音音节顺序进行操作;
对作为与汉语模型相符的目标话音音节一致的汉字的目标话音取样加以表示;和
对作为与目标话音音节相符的顺序一致的汉字顺序的目标话音取样加以表示。
一种汉语普通话话音识别设备,包括:
一个话音信号滤波器,用于接收话音信号和产生经滤波的模拟信号;
一个模/数(A/D)转换器,用于将话音信号转换成数字话音信号;
一个计算机,该计算机与A/D转换器连接,用于接收和处理数字信号;
一个音调鉴频器,该鉴频器与计算机连接,用于对话音信号的音调频率特征进行检测,从而实现对话音信号中的声音进行识别;
一个话音信号预处理器,该处理器与计算机连接,用于对话音信号的音节的结束点进行检测,从而实现对音节的开始和结束的确定;和
一个训练部分,该部分与计算机连接,用于对声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型进行训练并用于根据声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型的训练出的参数对音节模型进行训练。
下面将结合优选实施例并对照附图对本发明的这些和其它目的和特征加以详细的说明,其中对相同的部分采用相同的附图标记加以标示。图中示出:
图1为本发明的优选实施例的***框图;
图2为本发明输入部分的处理过程的框图;
图3为本发明的音频分析部分的处理过程的框图;
图4为本发明的相似性计算部分的处理过程的框图;
图5为本发明的滤波和模/数信号转换的详细的处理框图;
图6为本发明的模/数转换的电路图;
图7为本发明的带通滤波器的详细的处理框图;
图8为本发明的线性预测编码(LPC)分析功能块的详细的处理框图;
图9示出本发明的相似性计算和相似性参数生成的处理过程和及其算法;
图10示出本发明的识别部分的处理过程;
图11为用于本发明的音素模型化的汉语基本音节和声调信息表;
图12、13和14为本发明的用于音素模型化的汉语详细的音素信息表;
图15为本发明的动态编程表;和
图16示出用于实验性的字样板的106个城市名称。
本发明采用用少量的训练说话者用于汉语普通话话音识别的***和方法克服了现有技术的缺陷和制约。在本发明的话音识别***中共有五个部分,即输入部分20、音频分析部分30、相似性计算部分40、识别部分50和输出部分60。本发明宜在一规模-集成的器件中实现对音节的声母和韵母的判定,以便实现对汉字的发音信息的鉴别。图1示出本发明的用于汉语话音识别的结构。在本发明的设备中,输入部分20用于对人的话音信号输入进行处理。图2为输入部分20的基本方框图。由于人的话音是一种模拟信号,故必须将来自受话器输入端的信号转换成数字信号,以便用计算机(S205和S210)进行进一步的测定。通常,人的话音频率在125Hz至3.5KHz的范围内,因而必须在模/数转换器的前面建立一个低通滤波器,以便获得真实的人的话音信号并将来自实际环境的多余的躁声信号滤除(S215)。
图3为音频分析部分30的基本框图。在该音频分析部分30中有三个专用的处理方框(S305、S310和S315),包括带通滤波器、特征参数的提取和线性预测编码(LPC)分析模型。
在音频分析部分30后面进行计算,图4为相似性计算部分40的框图。
本发明以用户产生一个话音信号开始,实施一给定的任务。第二步,首先对话音输出进行识别,其中话音信号根据音素样板被译码成有意义的音素系列。音频分析部分30对话音输入和提取的线性预测编码(LPC)对数倒频谱系数和能量的增量进行分析。提取的参数与多种音素样板进行比较,并且在相似性计算部分40中对静态音素相似性和音素的一次回归系数进行计算。此后,这些音素样板的时间顺序用于确定空间相似系数向量并求出回归系数向量。假定所有的音素的协方差矩阵都是相同的,在相似性测量部分40应用马哈朗诺比斯距离算法进行距离测量。由后处理器求出被识别的字的意义,后处理器应用动态编程,将输入的字与实际的字和预先通过音素相似性计算被识别的字进行比较。因此,后处理可根据预先的音素结果作出判定,此点将降低所有识别模式的复杂性。最后,识别***以话音输出方式或类似的以提出实施的旨在促使用户进一步输入的动作要求对用户作出响应。
下面不仅对每个过程,而且还对算法进行说明,以便对本发明设备的详细的处理过程加以阐述。图5示出模/数信号转换的处理过程。绝大部分信号就其本质而言是模拟形式的,因而需要进行模/数转换处理,该转换处理包括如下步骤:1)模拟输入信号,该信号的时间和振幅是连续的。2)取样信号,该信号的振幅是连续的,但仅在离散的时间点上被定义。3)数字信号,x(n)(n=0,1,…)。该信号仅在离散的时间点上存在并且在每个时间点上只能有2B个数值中的一个。图6为A/D转换器的电路图。
图7示出音频分析部分的带通滤波器的详细的处理步骤。取样的话音信号,s(n),通过Q个带通滤波器,输出信号: S i ( n ) = s ( n ) * h i ( n ) , 1 ≤ i ≤ Q = Σ m = 0 M l - 1 h i ( m ) s ( n - m ) 其中设定第i个带通滤波器的脉冲响应是持续时间为Mi取样的hi(m)。同时设定第i个带通滤波器的输出是频率为wi的纯正弦波,即Si=aisin(win)。如果采用作为非线性的全波检波器,即f(Si(n))=Si(n)当Si(n)≥0时
=-Si(n)当Si(n)<时则可以用Vi(n)=f(Si(n))=Si(n)·W(n)表示非线性输出,其中W(n)=+1当  Si(n)≥0时
=-1当  Si(n)<0时在非线性处理后,低通滤波器起着将高频部分滤除的作用。尽管低通信号的频谱不是一个纯直流的脉冲,但代之的是在直流附近的低频段内含有的信号信息。因此末级的低通滤波器的重要作用在于去掉不需要的频率峰值。在降低取样速率的步骤中,对低通滤出的信号,ti(n)以40-60Hz的速率重新取样,并且采用振幅压缩方案对信号的动态范围进行压缩。在分析器的输出端上,当采用的取样速率为50Hz并且应用一7比特对数振幅压缩器时,则得到的信息速率为16路×50(取样/秒/路)×7(比特/取样),或5600(比特/秒)。因此,就此取样举例而言,可将比特率减少到1/40。
图8中示出音频分析部分的LPC分析模型。LPC方法曾长期用于大量的识别器。尤其是隐含在LPC模型后面的基本构思在于,在时间n,S(in)时的特定的话音取样可以近似等于在后的p个话音取样的线性结合,即
S’(n)≈a1S(n-1)+a2S(n-2)+…+apS(n-P),其中系数a1,a2……,ap设定为话音分析帧的常数。在本发明的设备中,确定数值a1,a2,……,ap为0.95。在帧分组步骤中,对预加重的话音信号进行预处理,S’(n),被组成N个取样的帧,所述帧与相邻的帧间隔M个帧。设定,用x1(n)表示话音的第1个帧,并且在整个话音信号中有L个帧,则
xi(n)=S’(Ml+n),n=0,1,……N-1,l=0,1,……,L-1。在本发明的设备中,N和M的值分别为300和100,所述值与8kHz的话音取样速率相符。此后,处理中的下一步骤是对每个帧开窗口,以便最大限度地减少在每个帧开始和结束处的信号不连续性。在本发明的***中,将窗口定义为w(n),0≤n≤N-1,并且开窗口的结果是信号
x1’=x1(n)w(n),0≤n≤N-1。本发明的设备用于LPC自动修正方法的窗口是汉明窗口,其式为
w(n)=0.54-0.46cos(2πn/N-1),0≤n≤N-1。
据此,进行自动修正分析。接着对每个开窗口的信号的帧进行自动修正,得出 r i ( m ) = Σ n = 0 N - 1 - m x i ′ ( n ) x i ′ ( n + m ) , - - - - m = 0,1 , . . . . . , p 其中,最大的自动修正值,p,是LPC分析的阶。下一个处理级是LPC分析,该分析将每个p+1自动修正的帧转换成“LPC参数集”,其中集可以是LPC系数、反射系数、记录区域比系数和对数倒频谱系数。在本发明的***中,应用了杜宾(Durbin)方法并给出下述算法的式子:E(0)=r(0)
Figure 0013452500122
ai (i)=ki α j ( i ) = α j ( i - 1 ) - k i α i - j i - 1 E ( i ) = ( 1 - k i 2 ) E ( i - 1 ) 可以在i=1,2,……,p的情况下,递归地对上述等式组进行计算,并且最后的解为
am=LPC系数=am (p),l≤m≤p。
在求出LPC分析系数后,将LPC参数转换成对数倒频谱系数,对该系数的处理在下面还将述及。可以直接由LPC系数集推导出的该非常重要的LPC参数集,该参数集是LPC对数倒频谱系数,c(m)。应用的递归是:
C0=lnδ2 C m = α m Σ k = 1 m - 1 ( k m ) C k α m - k , - - - - - 1 ≤ m ≤ p C m = Σ k = 1 m - 1 ( k / m ) C k α m - k , - - - - m > p 其中δ2是LPC模型的增益相。至今我们已得到了输入向量C,该向量由许多帧中的LPC对数倒频谱系数和能量增量构成。
图9示出本发明的设备相似性计算部分的详细的处理步骤及其算法。在该相似性计算部分中采用了马哈朗诺比斯距离作为距离量度,其中设定所有音素的协方差矩阵是相同的。输入向量c由十个帧中的LPC对数倒频谱系数和能量增量构成。如在图9中的第一个方框所示,输入向量c的表示式如下:
c=(v1,c1 c,c1 1,…v10,…,c10 13)t,其中ck 1表示第k个帧的第i个LPC对数倒频谱系数并且vk表示第k个帧的能量增量。
对输入向量c和音素样板(音素p)之间的音素相似性的计算如下:Lp=ap·c-bp
ap=2∑-1·μp
bpp.∑-1·μp,其中μp是音素p的平均向量,并且∑表示协方差矩阵。
在获得静态音素相似性之后,应用50毫秒以上的静态协方差矩阵计算出音素相似性的回归系数。作为由少许说话者的话音获得的作为辅音和元音的分-字单元的链接产生字样板。具体地说,在相似性计算部分中,包括有音素样板,该音素样板由汉语的声母部分和韵母部分构成。汉语的音节具有声母和韵母,声母部分存储有声母的正文表示并且韵母部分存储有韵母的正文表示。共有409种分-字单元。在图11、12、13和14中示出基本汉语语音音标。据此,通过对s(i,j)的计算获得相似性参数,s(i,j)是计算局部相似性(s515)的打分函数, s ( i , j ) = w d i · e j | d i | · | e j | + ( 1 - w ) Δ d i · Δ e j | Δ d i | · | Δ e j |
其中di表示输入的第i个帧中的相似性向量,ei表示基准的第j个帧的相似性向量,并且△di和△ei分别是回归系数向量,并且’w’是根据相似性向量和根据其回归系数向量打分的混合比。相似性的轨道是回归系数,所述回归系数系对每个分-字单元的平均数并存储在分-字词典中。本设备的主要发明点是,当话音模式输入到受话器中时,计算出作为特征参数的相似性向量的时间顺序和每个帧的回归系数向量。
图10示出识别部分。利用动态编程(DP)匹配对输入话音的特征参数的时间顺序与词典中的基准进行比较并且选出最相似的字作为识别结果。在该部分中,应用了最广泛采用的被称作动态时间Warp编译(DTW)用于本发明的字样板识别处理。DTW基本上是特征-匹配方案,该方案通过DP过程可固有地实现基准集与试验特征的“时间对齐”。时间对齐系指试验的话音的时间区与基准话音的相应的区的匹配的过程。不仅因为通常相同字的不同的发音由不同的时间构成,而且由于字内的音素由跨接在发音上的不同的时间构成,所以需要此时间对齐。在图10的第三个框内(S615)示出用字样板算法进行字匹配的如下的动态编程: D = Σ k = 1 K d N ( i k , j k ) ,
t(ik)与r(jk)匹配,
其中k=1,2,……,K
通路为(ik,jk),其中k=1,2……,K
累积的距离例如为g(i,j) g ( i , j ) = max [ g ( i - 1 , j - 1 ) + s ( i , j ) g ( i - 1 , j - 2 ) + s ( i , j - 1 ) + s ( i , j ) g ( i - 2 , j - 1 ) + s ( i , j ) ]
图15分别示出与i和j搜索网格的坐标相关的试验和基准特征向量。
通过用由10位男性和10位女性,共20个人说的212个字集对本发明的用于汉语话音识别的设备的汉语音素样板进行训练。所述样板的训练是在作为时元的有特色的帧上根据时间-谱模式进行的。例如元音的时元在时间的中间并且不发音的辅音的时元在时间的结束处。
在根据图16中的包括台湾的106个城市名称的实验结果中,下表示出传统的LPC的对数倒频谱系数的识别率的准确度。
特征参数的差异 32位 8位 6位 4位
LPC对数倒频谱系数识别率(%) 84.3  74.1  65.0  64.9
另一方面,根据图16的相同的实验数据,本发明的实验结果表明,采用本发明的算法可以大大提高设备的准确度。
特征参数的差异 32位 8位 6位 4位
LPC对数倒频谱系数识别率(%) 97.5  97.5  97.5  97.3
很明显,根据上述两个表格,本发明的识别率大大高于传统设备的识别率。另外,甚至在采用4比特取样获得提取参数时,本发明的设备也能实现较高的准确度。在差不多所有传统的手段中,都用32比特进行参数提取(4字节)进行特征表示。但在本发明的设备中仅用4比特即可提取参数,而且准确度很高。
尽管在上面结合本发明的优选实施例并对照附图对本发明作了说明,但要指出的是,任何变化和变动对本领域的专业人员都是显而易见的。这类变化和变动应被视为在本发明的范围内。

Claims (3)

1.一种汉语普通话话音识别方法,包括如下步骤:
根据声母部分训练音素相似性向量(PSV)模型,建立一具有训练出的声母部分模型参数的声母部分模型;
根据韵母部分训练音素相似性向量,建立一具有训练出的韵母部分模型参数的韵母部分模型;
训练话音音节音素相似性向量,采用作为音节模型的启始参数的训练出的声母部分参数值和训练出的韵母部分参数值建立音节模型;
采用音节模型对目标话音取样进行操作;
根据目标话音取样与音节模型的符合度对作为目标话音音节的目标话音取样进行识别;和
对作为与目标话音音节一致的汉字的目标话音取样加以表示。
2.按照权利要求1所述的汉语普通话话音识别方法,另外还包括如下步骤:
根据通用的上下文关系的汉字顺序训练动态时间Warp编译器,建立汉语模型;
采用汉语模型对目标音节取样中的目标话音音节顺序进行操作;
对作为与汉语模型相符的目标话音音节顺序一致的汉字顺序的目标话音取样进行表示;和
对作为与目标话音音节相符的顺序一致的汉字顺序的目标话音取样进行表示。
3.一种汉语普通话话音识别设备,包括:
一个话音信号滤波器,用于接收话音信号和产生经滤波的模拟信号;
一个模/数(A/D)转换器,用于将话音信号转换成数字话音信号;
一个计算机,该计算机与A/D转换器连接,用于接收和处理数字信号;
一个音调鉴频器,该鉴频器与计算机连接,用于对话音信号的音调频率特征进行检测,从而实现对话音信号的声音进行识别;
一个话音信号预处理器,该处理器与计算机连接,用于对话音信号的音节的结束点进行检测,从而实现对音节的开始和结束的确定;和
一个训练部分,该部分与计算机连接,用于对声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型进行训练并用于根据声母部分音素相似性向量(PSV)模型和韵母部分音素相似性向量(PSV)模型的训练出的参数对音节模型进行训练。
CN00134525A 1999-12-10 2000-12-11 汉语普通话话音识别的方法和设备 Pending CN1300049A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP35145299A JP2001166789A (ja) 1999-12-10 1999-12-10 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JP351452/1999 1999-12-10

Publications (1)

Publication Number Publication Date
CN1300049A true CN1300049A (zh) 2001-06-20

Family

ID=18417388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00134525A Pending CN1300049A (zh) 1999-12-10 2000-12-11 汉语普通话话音识别的方法和设备

Country Status (5)

Country Link
US (1) US20010010039A1 (zh)
JP (1) JP2001166789A (zh)
CN (1) CN1300049A (zh)
SG (1) SG97998A1 (zh)
TW (1) TW487902B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN102163428A (zh) * 2011-01-19 2011-08-24 无敌科技(西安)有限公司 汉语发音判断方法
CN101702314B (zh) * 2009-10-13 2011-11-09 清华大学 基于语种对的鉴别式语种识别模型建立方法
CN1645478B (zh) * 2004-01-21 2012-03-21 微软公司 用于音调语言的分段音调建模
CN105609105A (zh) * 2014-11-13 2016-05-25 现代自动车株式会社 语音识别***和语音识别方法
CN109754784A (zh) * 2017-11-02 2019-05-14 华为技术有限公司 训练滤波模型的方法和语音识别的方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474253B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US20080120108A1 (en) * 2006-11-16 2008-05-22 Frank Kao-Ping Soong Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
JP4962962B2 (ja) * 2007-09-11 2012-06-27 独立行政法人情報通信研究機構 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
ES2540995T3 (es) * 2010-08-24 2015-07-15 Veovox Sa Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别***
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
EP2884434A1 (en) * 2013-12-10 2015-06-17 Televic Education NV Method and device for automatic feedback generation
US20150179169A1 (en) * 2013-12-19 2015-06-25 Vijay George John Speech Recognition By Post Processing Using Phonetic and Semantic Information
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
CN109887494B (zh) * 2017-12-01 2022-08-16 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
CN108182937B (zh) * 2018-01-17 2021-04-13 出门问问创新科技有限公司 关键词识别方法、装置、设备及存储介质
CN112883443B (zh) * 2021-01-12 2022-10-14 南京维拓科技股份有限公司 一种基于几何的零部件模型相似度的判断方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JP2834260B2 (ja) * 1990-03-07 1998-12-09 三菱電機株式会社 音声のスペクトル包絡パラメータ符号化装置
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
GB2308002B (en) * 1994-09-29 1998-08-19 Apple Computer A system and method for determining the tone of a syllable of mandarin chinese speech
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5764851A (en) * 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN1645478B (zh) * 2004-01-21 2012-03-21 微软公司 用于音调语言的分段音调建模
CN101702314B (zh) * 2009-10-13 2011-11-09 清华大学 基于语种对的鉴别式语种识别模型建立方法
CN102163428A (zh) * 2011-01-19 2011-08-24 无敌科技(西安)有限公司 汉语发音判断方法
CN105609105A (zh) * 2014-11-13 2016-05-25 现代自动车株式会社 语音识别***和语音识别方法
CN109754784A (zh) * 2017-11-02 2019-05-14 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
US11211052B2 (en) 2017-11-02 2021-12-28 Huawei Technologies Co., Ltd. Filtering model training method and speech recognition method

Also Published As

Publication number Publication date
JP2001166789A (ja) 2001-06-22
US20010010039A1 (en) 2001-07-26
TW487902B (en) 2002-05-21
SG97998A1 (en) 2003-08-20

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
Tiwari MFCC and its applications in speaker recognition
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及***
CN101136199B (zh) 语音数据处理方法和设备
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN1167045C (zh) 语音识别的方法和装置
NZ331431A (en) Speech processing via voice recognition
CN1991976A (zh) 基于音素的语音识别方法与***
JPH09500223A (ja) 多言語音声認識システム
CN112397054B (zh) 一种电力调度语音识别方法
JPH07110695A (ja) 音声符号化装置および方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译***及其语言识别方法
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Dave et al. Speech recognition: A review
Grewal et al. Isolated word recognition system for English language
CN1588535A (zh) 嵌入式语音识别***的自动语音识别处理方法
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Tian et al. Nonspeech segment rejection based on prosodic information for robust speech recognition
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Sailaja et al. Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm
Bora et al. Speaker identification for biometric access control using hybrid features

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication