CN1336634A - 根据基音信息识别声调语言的方法与设备 - Google Patents

根据基音信息识别声调语言的方法与设备 Download PDF

Info

Publication number
CN1336634A
CN1336634A CN01124658A CN01124658A CN1336634A CN 1336634 A CN1336634 A CN 1336634A CN 01124658 A CN01124658 A CN 01124658A CN 01124658 A CN01124658 A CN 01124658A CN 1336634 A CN1336634 A CN 1336634A
Authority
CN
China
Prior art keywords
vowel
tone
tonal
phoneme
prototype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01124658A
Other languages
English (en)
Other versions
CN1183510C (zh
Inventor
J·C·陈
傅国康
李海萍
沈丽琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1336634A publication Critical patent/CN1336634A/zh
Application granted granted Critical
Publication of CN1183510C publication Critical patent/CN1183510C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

一种用于声调语言自动识别的方法和设备,采用下列步骤:将语句字词转换成一个电信号,从电信号生成谱特征,从电信号中提取出基音频率,将所述谱特征和基音频率结合成声学特征向量,将所述声学特征向量与一个包括带声调元音的原型在内的声学原型数据库中的音素原型相比较以产生标签,以及用包括音素词汇表和语言模型数据库的解码器将标签匹配到文本。

Description

根据基音信息识别声调语言的方法与设备
            技术领域
本发明涉及语音识别,尤其涉及自动识别带有至少一个含有声调內容(tonal content)的音节的语句字词的方法和设备。
            相关技术描述
语音识别是一种将声学语音信号(人声)转换为文本的技术。应用这项技术的设备,通常是一个安装了语音识别软件的计算机***,被称为自动听写机。这项技术已经在像语音听写,声音激活信息***以及语音命令与控制***中发现了广阔的应用。语音识别技术的早期成功应用涉及英语、德语、西班牙语等欧洲语言。对于这些语言,基音轮廓(pitch contour)是非音素的,也就是说不同的基音轮廓不会导致不同的词意。
另一类语言是声调语言,在这种语言中每一个音节有一个与之相联系的声调(基音轮廓)。从定义上说,声调是音节的一个属性。对于这样的语言,基音轮廓是音素的。这意味着有相同的辅音和元音序列但基音轮廓不同的音节代表着不同的词素并且有着完全不同的含意。声调语言的例子包括多种汉语(像普通话,广东话,台湾或者闽南语),东南亚语言(像泰国语,越南语),日语,瑞典语和挪威语。在所有语言中汉语有着最多的使用者,而其中普通话是主要的方言。第二大方言是广东话,在香港,广东省以及海外的中国人说它。
因为有些声调语言有太多的字符,尤其是中文,使得用键盘往计算机中输入文本非常困难。因此声调语言的语音识别是一个尤其重要的替代手段,如果能实现合适的精确度,速度和价格,它将成为一个为那些说声调语言的人带来计算机使用革命的无价的工具。
声调语言自动语音识别的传统方法通常包括两步。第一步,那些辅音和元音被识别出来并根据这些辅音和元音构造出音节;这样就识别出无声调的音节。第二步,检查每一个音节的基音轮廓以确认每一个音节的声调。然而,这种两步过程经常出错,另外它与欧洲语言的语音识别***并不兼容;这样它的应用是有局限的。
在美国专利5,751,905号,题名为“使用一个带声调的音素***进行语音识别的统计声学处理方法和设备”的专利中介绍了一个识别声调语言尤其是普通话的方法。特别地,它揭示了一个方法,这种方法中一个音节被分成大致相等的两部分,或者说是半音节,第一个半音节的基音信息,包括初始的辅音和可能的一个滑音(半元音),被假定为可以任意使用的,第二个半音节中的基音信息,包括主元音和尾音,被假定为足以确定整个未分音节的声调。在标准普通话中,一共有20个不同的第二半音节和5个不同的声调:高(阴平),升(阳平),低(上),降(去)和无声调即中性声调(轻声)。
通过将这些声调分配给每个第二半音节,一共114种带声调的音素(调素)可以被定义下来。在训练过程中,每一种调素即不同声调的音素都被当做一个独立的音素来训练,并且在识别过程中,这些调素被识别成独立的音素。音节的声调被定义为第二个半音节的声调,即音节中调素的声调。这种方法导致产生了一个高精确度的普通话语音识别***。使用美国专利5,751,905中的方法的设备,“ViaVoice中文版”是开发出的第一个连续普通话听写产品,自1997年面世以来一直是市场上最成功的普通话听写产品。
美国专利5,751,905中的方法在广东话的自动识别上并不像它在普通话中表现的那么高效。广东话有远远超过普通话的第二半音节数目,并且有9个声调(而普通话是5个)。其他声调语言,像泰国语和越南语,也有着远远超过普通话的第二半音节数目。这样,用上述方法就必须定义一共大约300个音素。这么多的音素使得训练和识别都非常困难。另外,因为儿化音(一个音节的结尾被加了一个“r”)的缘故,北京话中带声调的第二半音节的数目也接近了300个。因此,非常需要用于识别声调语言尤其是有众多尾音和声调的语言的高效、精确的自动语音识别技术。
                 发明概述
本发明提供一种声调语言的高效自动识别的方法和设备。本发明先进之处是大大减少了必须定义的音素总数,由此简化训练过程并实现更快的解码,同时保持或者在特定情况下提高识别语音的精确度。
依照本发明的一个方面,提供一种声调语言识别的设备,包括将带声调(toned)元音定义成不同音素的装置,该装置包括一个含有带声调元音的音素原型的数据库,一个用于生成包括基音频率(pitchvalue)的向量的信号处理单元;还包括通过将所述包含带声调元音的音素原型与所述向量相比较而识别带声调元音的装置。
依照本发明的另一个方面,提供了一种定义语音词语中带声调元音的方法,包括的步骤是,根据所述语句字词生成一个训练文本,将所述的训练文本转换成包括带声调元音的音素序列,将所述的训练文本转换成电信号,从所述电信号中生成谱特征,从所述电信号中提取出基音频率,将所述谱特征和基音频率结合成声学特征向量,以及对所述声学特征向量和包括带声调元音的音素序列进行比较从而为每个音素产生声音原型。
在本发明的另外一个方面中,提供一种识别语音词语中的带声调元音的方法,包括的步骤是,将语音词语转换成电信号,从所述电信号生成谱特征,从所述电信号中提出基音频率,将所述谱特征和基音频率结合成声学特征向量,将所述声学特征向量与包括带声调元音的原型的声学原型数据库中的音素原型相比较以生成标签,和用包括音素化词汇表和语言模型数据库的解码器将所述标签同文本匹配起来。
本发明的这些和其他方面,特征和优势将在接下来的优选实施方案中被详细描述或者变得更明了,阅读它时应该联系附图。
               附图简述
图1是按照本发明的实施方案为声调语言的语音识别(机器听写)设置的设备的示例图;
图2是依照本发明实施方案的声调语言语音识别方法的一套图表;
图3是普通话声调模式的示例图;
图4描述了关于由有相同的辅音和元音序列但基音轮廓不同的一组字的一个例子;
图5广东话声调模式的示例图;
图6是一个依照本发明实施方案的训练过程的流程图;
图7是依照本发明实施方案的一个基音提取过程的示例图。
                 优选实施方案详述
应该理解在这里描述的典型***模型和方法步骤可以被实现成不同形式的硬件、软件、固件、专用处理器或者其中一些的综合。更可取的是,将本发明以软件的形式实现成应用程序,切实地实施在一个或多个程序存储设备上。这个应用程序可以在任一台包括合适架构的机器,设备或者平台上执行。应该更深入理解的是,因为一些附图中所描述的组成***模型和方法步骤最好是以软件形式实现的,***组件(或处理步骤)之间的实际联系可能会因本发明被编程的方式而有所不同。通过这里给出的教导,相关技术中的熟练人员将可以想出或实现本发明的这些或相近的实现和配置。
在图1中描述了一个适合实践本发明的***。这个***包括一台计算机101,它通过将声音信号映射到文本来执行语音识别功能。这台计算机被连接到一台显示器102,一只鼠标103和一个键盘104。一只麦克风105也被连接到这台计算机,用来将声音转换为电信号,后者随即被提供给计算机中的声卡。
图2描述了依照本发明一个实施方案的对声调语言进行语音识别的主要部件。这些组件可以被实现为一个存储在计算机101中的软件。通过图1中所示***的操作,声音信号201通过麦克风202被转换为电信号。一个模/数转换器203将从麦克风传过来的模拟信号转换成数字信号。包括一个谱特征提取单元204和一个基音提取模块205的信号处理单元,为语音识别提取压缩信息。
谱特征提取单元204产生谱特征向量,例如,唛耳频率导谱系数(MFCC mel frequency Cepstral coefficients)。谱特征向量代表了在一个频率范围上的能量分配。典型情况下,一套12个导谱系数被产生出来。(见例子,Steven David和Paul Mermelstein,的“用于连续语句中单音节词识别的参数化表示的比较”,语音学,语句和处理IEEE学报,Vol.ASSP-28,No.4,1980年8月,357-366页。)
在语音技术中,基音对再生悦耳的语音来说是一个核心元素。基音被定义为在任意时刻声带的共振频率。尤其对声调语言来说基音对精确的语音识别是必需的。基音提取模块205对每帧,例如每10毫秒,产生一个基音频率。提取出的基音频率被表示为其与说话者平均基音的比值的对数;这被称为对数相对基音。举例来说,典型情况下女性演讲者比男性有更高的平均基音。如一帧的基音高于平均基音,则相对基音的对数是正的。如果一帧的基音比平均基音低,则相对基音的对数是负的。
然后将基音频率与MFCC综合以形成完全声学特征向量206,例如在本例中它是一个每帧(10毫秒)13维的向量。
以基音作为它的一个分量的声学特征向量206,这时被提供给一个贴标签机207。贴标签机通过对传入语音的每一帧(例如包括一个13维的声音特征向量)和声学原型数据库208中所有音素的声学原型进行比较为每一帧找到最接近匹配的音素来自动给帧贴上标签。声学原型数据库208包括一套存储在数据库中的不同音素的原型。这些原型是对应每个个体音素的模板,被用作与传来语音的帧进行比较以分配标签的点。这些原型包括有声调值的元音,例如一个有不同的声调A1,A2,A3的元音“A”被描述在208中。在声学原型数据库中,每一个音素被分成前,中,后三段。每一段被看作一个次音子(feneme)。例如,元音“A”的升音A2有三个次音子,A2-1,A2-2和A2-3,对A2-1来说对数相对基音频率通常是正的,而对A2-2则接近于0,对A2-3则一般是负的。
通过贴标签过程,一个最可能的标签序列209按照每个传来的声学特征向量帧的顺序被生成了。这些标签随即被送到一个包括一个音素词汇表211和一个语言模型数据库212的解码器210以为传来的声音信号找到最接近的文本213。音素词汇表211包括一个带声调信息的字词数据库并且被用来确定与标签序列匹配的字词。举例来说,语言模型数据库可以通过检查第三个字词前面的两个字词来确定第三个字词的概率。通过语言模型数据库确定的字词的概率然后被与那些标签和音素词汇表综合起来以预知最可能的文本213。
既然基音是声学特征向量的一个分量,对那些有同样的谱特征但是基音不同的帧来说,标签207指向着不同的调素,也就是说,指向有着不同的声调的同样的元音(A1,A2,A3等等)。
现在来看图7,流程图描述了一个依照于本发明的实施方案被基音提取单元205执行的实现基音提取过程的典型算法的细节。(参见受让人相同的美国专利号5,751,905,这里引用作参考)。数字化的语音信号(由数/模转换器203产生)在模块702被输入。在模块704,确定当前帧的能量是否大于一个阈值,模块706。如果信号能量低于阈值,则表示基音的缺失,需要用外推法求基音。如果能量大于阈值则基音提取进行。基音提取是通过确定帧的瞬间频率来执行的。如果基音频率在一个合理的范围內,例如在50Hz和500Hz之间(人声的频率范围,包括男性和女性)模块708,数字化的语音信号就通过一个低通滤波器,模块710,以消去信号噪音,然后基音频率被输出,模块712。
图7的算法的第二个输入是一个初始平均基音频率P0,模块714。然后在模块716计算出一个连续基音平均值,如下所示:
P0=P0(1-y)+Pny,
0<y<<1。
这里左端的P0是连续基音平均值,右端的P0是初始基音平均值,y是一个很小的数值,用以确定获得平均值的时间段。特别地,它是那个时间段帧的数量的倒数。连续平均值随后被用于外推基音信号。
如果数字化语音信号的能量小于阈值,模块704,或者是数字化语音信号的基音频率不在一个合适的范围內,模块708,那么将在模块718用外推法求基音。在任一种情况下,外推基音频率都将如下所示进行计算:
Pn=(Pn-1-P0)(1-x)+噪音,
0<x<<1。
这里Pn是外推基音信号在时间n的瞬时值,Pn-1是前一个相邻时间段上的基音,x是确定外推时间刻度的另一个小数。具体来说,它是那个指数外推时间段中帧的数量的倒数。噪音成分产生自一个噪音发生器720。
在外推信号被计算出之后,外推信号和初始数字化信号被加起来后通过一个低通滤波器710。
根据现有技术的(像在美国专利5,751,905中所揭示的)语音识别方法所要求音素数目与本发明所描述的算法要求的音素数目相比较的不同,可以看出本发明的优点。
1.普通话的情况
普通话有五个声调:阴平(高),阳平(升),上声(低),去声(降)和轻声(中性)。连续语音中这些声调的典型基音轮廓的例子被显示在图3中。基音表301描述了用来表示不同基音的符号。例字305给出的英文描述306表示一个具有不同基音轮廓的由一个音节构成的字,各基音轮廓像在基音表301中指出的那样。汉字307给出对应于不同英文描述的汉字。
在像普通话这样的声调语言中,有相同辅音和元音序列的音节,根据音节的基音轮廓或者声调,可能有不同的意义。图4给出一个由有相同辅音和元音序列的多个音节组成但根据每个个别音节的声调有不同意义的字词的例子。第一列(400)描述对应于第二列(402)中的字词“YiJi”的不同意义的不同汉字。虽然字词“YiJi”中的辅音和元音顺序保持不变,但每个音节(明确地说是“Yi”和“Ji”)有不同的声调。相同的字词中的这些不同的声调导致该字词具有差异很大的意义。例如,在406中,第一个音节有一个高音的元音“i”。第二个音节“ji”有一个升音的元音“i”。这两个有不同声调的特定音节组合成意思是“一级”的词组。
然而,在408的例子中,组成字词“YiJi”的两个音节,第一个音节“Yi”有一个升音的元音而第二个有一个降音的元音。这种组合导致这个字词意味着“疑忌”。
依照本发明的一个方面的语音识别算法初始时将语音的字词转换成电信号。信号处理单元根据这些电信号产生帧序列,每一帧包括例如10毫秒。每一帧有一个特征向量,这个特征向量例如包括12个导谱系数和一个基音对数相对值。声学特征向量流被输入进贴标签机。在本发明的一个方面中每一个传来的声学特征向量被通过与声学原型数据库中的原型进行比较找到最接近的匹配音素而自动贴上标签。贴标签过程同时确定1)帧是元音还是辅音2)如果帧是元音,它是哪个元音3)元音属于哪个声调。
这里,我们描述依照本发明的一个方面,如何在贴标签步骤(207)通过参考声学原型数据库(208)识别出传入语音(201)中元音的声调。首先,基音是每个声学特征向量(206)中代表传入语音的一个帧的一个分量。对于属于有不同的声调的相同元音的帧,每一帧的基音频率(205)是不同的。在声学数据库(208)中,有不同声调的同一元音的原型被当作不同的原型,属于不同的音素。这样的差别是在训练过程建立的,像下面的图6所描述的那样,训练过程定义有不同声调的元音为不同的音素。在训练过程中,属于同一元音但有不同声调的声学特征向量被分开收集,形成不同带声调元音或不同调素的声学原型。调素被定义为声调语言中有特定声调的音素。
在依照本发明一个方面的语音识别过程中,将每个传入的声学特征向量206(表示一个帧),与声学数据库208中的所有声学原型进行比较,以找出最接近匹配的原型,从而找到它所代表的最接近的音素。因为不同声调的元音被归类为不同的音素,这种匹配过程的结果是与每一个声音特征向量最接近匹配的带声调元音,或者最接近匹配的调素。
元音的声调值被用来确定音节的声调值。这个方法基本上只利用音节中元音的基音信息来预测音节的声调。这个方法很大程度上减少了音素(它被用来识别整个声调语言)的总数量,这样就大大简化了训练过程并使得解码过程加快。另外,这种简化的方法在识别普通话的精确度上也可以与现有技术中复杂得多的半音节方法相媲美,并且在特定情况下还要强于它。而且,本发明的方法也与欧洲语言的语音识别相兼容。
举例说明,在美国专利5,751,905中所描述的方法和音素***一共为普通话产生了165个音素(114个调素和51个声母(premes))(见美国专利5,751,905的表1)。
然而,用本发明的这种方法,识别普通话所需要的音素数目被减少到只有72个(44个调素,21个辅音,3个半元音和4个尾声),像表1中所描述的那样。显然,虽然在实现本发明的方法时,音素数目被减少了二分之一还要多,但解码精确度几乎没有变化。
表1  普通话音素
调素:
A1    A2    A3    A4    A5
E1    E2    E3    E4    E5
EH1   EH2   EH3   EH4   EH5
      ER2   ER3   ER4   ER5
I1    I2    I3    I4    I5
IH1   IH2   IH3   IH4   IH5
O1    O2    O3    O4    O5
U1    U2    U3    U4    U5
YU1   YU2   YU3   YU4   YU5
辅音:
B P M F D T N L Z C S ZH CH SH R J Q X G K H
半元音:
W Y V
元音:
w y n ng
与美国专利表1中所示的114个调素相比,上面的表1中的调素仅包括带声调內容的元音。普通话中的元音有9个(A,E,EH,ER,I,IH,O,U,YU),声调有5个。这样,依照本发明给每个元音单独分配声调內容只导致产生了44个调素。再加上21个辅音,3个半元音和4个尾音一共只产生了依照本发明识别普通话所需要的72个音素。
下面的表2是对美国专利5,751,905中普通话的音节分解方案和使用本发明的方法的一个普通话音节分解方案进行比较的一个描述。
             表2:  普通话音节分解
A)音节   B)美国专利5,751,905    C)本发明
Chai1    CH AI1                  CH A1 y
Chai2    CH AI2                  CH A2 y
Chai3    CH AI3                  CH A3 y
Chai4    CH AI4                  CH A4 y
Chai     CH AI5                  CH A5 y
Chao1    CH AO1                  CH A1 w
Chao2    CH AO2                  CH A2 w
Chao3    CH AO3                  CH A3 w
Chao4    CH AO4                  CH A4 w
Chao     CH AO5                  CH A5 w
Chan1    CH AN1                  CH A1 n
Chan2    CH AN2                  CH A2 n
Chan3    CH AN3                  CH A3 n
Chan4    CH AN4                  CH A4 n
Chan     CH AN5                  CH A5 n
Chang1   CH ANG1                 CH A1 ng
Chang2   CH ANG2                 CH A2 ng
Chang3   CH ANG3                 CH A3 ng
Chang4   CH ANG4                 CH A4 ng
Chang    CH ANG5                 CH A5 ng
Chuai1   CHU AI1                 CH W A1 y
Chuai2   CHU AI2                 CH W A2 y
Chuai3   CHU AI3                 CH W A3 y
Chuai4   CHU AI4                 CH W A4 y
Chuai    CHU AI5                 CH W A5 y
Chuan1   CHU AN1                 CH W A1 n
Chuan2   CHU AN2                 CH W A2 n
Chuan3   CHU AN3                 CH W A3 n
Chuan4   CHU AN4                 CH W A4 n
Chuan    CHU AN5                 CH W A5 n
Chuang1  CHU ANG1                CH W A1 ng
Chuang2  CHU ANG2                CH W A2 ng
Chuang3  CHU ANG3                CH W A3 ng
Chuang4  CHU ANG4                CH W A4 ng
Chuang   CHU ANG5                CH W A5 ng
表2的A列给出了普通话中不同音节的例子。每个音节有5个声调中的一个;这里,没有编号的音节代表有中性声调的音节。B列给出了美国专利5,751,905对照于A列中给出的音节的半音节方法的一个例子。例如,第一个音节“Chai”被分成两个半音节,“Ch”和“ai”,声调由整个第二个半音节来确定,它包括一个主元音和一个尾音。第一个半音节的声调被忽略。
表2的C列给了依照本发明实施方案的方法的一个典型应用。例如,对于音节“Chai”,识别元音“a”并且确定它的声调。这里声调以编码1-5来表示,5标明中立声调。辅音“Ch”和尾音“i”的声调不考虑。
2.广东话的情况
对广东话来说,要将音节分成半音节的方法(像在美国专利5,751,905中所提出的那样)应用于广东话,必须定义大量的音素。原因应归于在普通话中只有四个尾声(对所有音节的两个辅音尾声“n”和“ng”,加上半元音“y”和“w”作为尾声),而在广东话中有8个可能的尾声(“p”,“t”,“k”,“n”,“ng”,“m”,“y”和“w”)。另外,即使包括中性声调,在普通话中可能的声调也只有5个。在广东话中共有9个声调。这样,用所述半音节方法,必须定义大约300个音素才能识别广东话。
与此相反,使用依照本发明的方法,只要定义88个音素就足够成功地识别广东话,它加速了对语音识别来说必要的训练和解码过程。另外,这个简化方法的精确度甚至比更复杂的半音节方法还要好。
广东话中9个声调的基音轮廓在图5中显示。用依照本发明的方法的思想,通过合并三个短声调(入声,声调标号为7,8,9)和其他相近的声调,声调数目被减少了。在这个例子中三个入声音节的基音频率与标号为1,3,6的声调的基音频率非常接近。通过分离声调标号为1,3,6的音节的尾声,声调7,8,9中仅元音的声调模式就几乎与声调1,3,6中的声调模式相同。这样,单单每个元音就有6个与之相联系的声调,而不是9个。也就是说,声调7,8,9的元音可以用声调1,3,6中的元音来标识。
使用本发明的这种改良的方法,最后得到的88个音素包括下列:
60个广东话调素(带声调的主要元音)是:
A1    A2    A3    A4    A5    A6
AA1   AA2   AA3   AA4   AA5   AA6
E1    E1    E3    E4    E5    E6
I1    I2    I3    I4    I5    I6
O1    O2    O3    O4    O5    O6
EU1   EU2   EU3   EU4   EU5   EU6
U1    U2    U3    U4    U5    U6
V1    V2    V3    V4    V5    V6
M1    M2    M3    M4    M5    M6
NG1   NG2   NG3   NG4   NG5   NG6
广东话初始辅音是:
GS    B    CH    D    F    G    GW    H    J    K
KW    L    M     N    NG   P    S     T    W    Y
广东话尾音是:
p    t    k    n    ng    m    y    w
3.除了元音上的基音信息以外加入其它信息来确定一个音节的声调
虽然一个音节的元音自身的基音信息可以提供关于该音节声调的基本信息,音节的其他部分也包含声调信息。例如,尾声的基音信息也可以用于对音节的声调做出更准确的预测。就普通话来说,尾声的基音频率要么是高(对阴平和阳平),要么是低(对上声和去声)。表4描述了一个普通话的典型音节分解表,其中尾声音素“y”和“n”都被分成了两类,“1”代表高基音,“2”代表低基音。    表4:普通话音节分解,包括尾声中的基音信息音节    旧         新Chai    CH AI1    CH A1 y1Chai    CH AI2    CH A2 y1Chai    CH AI3    CH A3 y2Chai    CH AI4    CH A4 y2Chan    CH AN1    CH A1 n1Chan    CH AN2    CH A2 n1Chan    CH AN3    CH A3 n2Chan    CH AN4    CH A4 n2Chuai   CHU AI1   CH W A1 y1Chuai   CHU AI2   CH W A2 y1Chuai   CHU AI3   CH W A3 y2Chuai   CHU AI4   CH W A4 y2Chuan   CHU AN1   CH W A1 n1Chuan   CHU AN2   CH W A2 n1Chuan   CHU AN3   CH W A3 n2Chuan   CHU AN4   CH W A4 n2
因为普通话中只有四种不同的尾声,通过根据基音将所有尾声分成两个不同的集合,使用本发明的方法只需要四个额外的音素,仍然使得普通话音素的数目远少于使用现有技术的半音节方法所要求的音素的总数目。
图6画出了一个流程表,描述了依照本发明的一个方面生成声音原型数据库208的一个典型训练过程。开始,一大套训练文本被准备好(601步)。文本再被转换成音素序列,包括带声调的元音(602步)。在603步中,说话者被要求读这段文本以产生声音记录(训练语音)。然后逐帧地计算出语音的声学特征向量(604步)。这些声音特征向量包含基音作为分量。
然后将声学特征向量的帧序列与文本的音素进行比较以将每一帧和与它相对应的音素分在一组(605步)。然后计算出每一个音素(包括带声调的元音)的特征向量的每一个分量的均值和方差(607步)(举例来说,一个包括12个导谱系数和一个基音频率的13维的特征向量共有13个分量)。这样,每个音素—包括那些带声调的元音--的声学原型就被产生了(608步)。这些声学原型被存储到声学原型数据库208中。
不同声调的相同元音的音素可能有相同的谱特征但不同的基音频率。有不同声调的同一元音的特征向量被分开收集以形成不同带声调元音或者说不同调素的声学原型。
虽然本发明的说明性的实施方案至此已经通过对附图的引用被进行了描述,可以理解的是本发明并不受限于这些明确的实施方案,本领域的熟练人员在不偏离本发明的范围或精神的前提下可以做出不同的其他变化和修改。所有这些变化和修改被规定为包含在附录的权利要求所定义的发明范围內。

Claims (16)

1.一种用于确定语句的字词中带声调元音的***,包括:
定义带声调元音为不同音素的装置,包含:
数据库,它包含应一个包括带声调元音的原型在內的音素的原型;
用于生成向量的信号处理单元;
通过匹配所述向量与所述包括带声调元音的原型在內的原型以识别出带声调元音的装置。
2.权利要求1的***,其中所述向量包括一个12个导谱系数的集合和一个基音频率。
3.一种用于定义语句字词中带声调元音的方法,包括:
从所述语句字词准备一个训练文本;
将所述训练文本转换成包括带声调元音的音素的序列;
将所述训练文本转换成电信号;
从所述电信号中生成谱特征;
从所述谱特征中提取基音频率;
将所述谱特征和基音频率结合成声学特征向量;
对比所述声学特征向量和所述包括带声调元音在內的音素的序列从而为每一个音素产生一个声学原型。
4.权利要求3的方法,其中所述的声学原型存储到一个数据库中。
5.一种用于识别语句字词中带声调元音的方法,包括:
将语句字词转换成电信号;
从所述电信号中生成特征谱;
从所述电信号中提出基音频率;
将所述谱特征和基音频率结合成声学特征向量;
将所述声学特征向量和所述包括带声调元音的原型的声音原型数据库中音素的原型进行对比以产生标签;和
用一个包括一个音素词汇表和一个语言模型的数据库的解码器将所述标签匹配到文本。
6.权利要求5的方法,其中所述的音素词汇表包括一个带声调信息的语句字词的数据库。
7.权利要求5的方法,其中所述的语言模型数据库确定一个字词的概率。
8.权利要求5的方法,其中所述的语句字词至少包括一个有声调內容的音节。
9.权利要求8的方法,其中所述带声调元音确定所述音节的基音。
10.一种可以被机器读取的程序存储设备,用于实现机器可执行的指令程序,用以执行定义语句字词的方法,该方法包括:
从所述语句字词准备一个训练文本;
将所述训练文本转换成包括带声调元音的音素的序列;
将所述训练文本转换成电信号;
从所述电信号生成谱特征;
从所述电信号中提取出基音频率;
将所述谱特征和基音频率结合成声学特征向量;
对比所述声学特征向量和所述包括带声调元音的音素的序列从而为每一个音素产生一个声学原型。
11.权利要求10的程序存储设备,其中所述的声学原型存储在一个数据库中。
12.一种机器可读的程序存储设备,用于实现机器可执行的指令程序,识别语句字词中带声调元音的方法,该方法包括:
将语句字词转换成电信号;
从所述电信号生成谱特征;
从所述电信号提取出基音频率;
将所述基音频率和所述谱特征结合成声学特征向量;
对比所述声学特征向量和一个包括带声调元音原型的声学原型数据库中的音素原型以产生标签;和
用包括音素词汇表和语言模型数据库的解码器将所述标签匹配到文本。
13.权利要求12的程序存储设备,其中所述的音素词汇表包括一个包含声调信息的语句字词数据库。
14.权利要求12的程序存储设备,其中所述的语言模型数据库确定一个字词的概率。
15.权利要求12的程序存储设备,其中所述的语句字词至少包括一个有声调內容的音节。
16.权利要求12的程序存储设备,其中所述的带声调元音确定所述音节的声调。
CNB011246588A 2000-07-28 2001-07-27 根据基音信息识别声调语言的方法与设备 Expired - Fee Related CN1183510C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/627,595 US6510410B1 (en) 2000-07-28 2000-07-28 Method and apparatus for recognizing tone languages using pitch information
US09/627595 2000-07-28
US09/627,595 2000-07-28

Publications (2)

Publication Number Publication Date
CN1336634A true CN1336634A (zh) 2002-02-20
CN1183510C CN1183510C (zh) 2005-01-05

Family

ID=24515293

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011246588A Expired - Fee Related CN1183510C (zh) 2000-07-28 2001-07-27 根据基音信息识别声调语言的方法与设备

Country Status (4)

Country Link
US (1) US6510410B1 (zh)
CN (1) CN1183510C (zh)
HK (1) HK1042579B (zh)
TW (1) TW512309B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN1879147B (zh) * 2003-12-16 2010-05-26 洛昆多股份公司 文本到语音转换方法和***
CN1532806B (zh) * 2003-03-24 2010-11-03 索尼电子有限公司 使用优化的音素集进行广东话语音识别的***和方法
CN1538384B (zh) * 2003-03-31 2010-11-24 索尼电子有限公司 有效地实施普通话汉语语音识别字典的***和方法
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别***
CN102237088A (zh) * 2011-06-17 2011-11-09 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法
CN103366736A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音声调的识别方法和装置
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN107093422A (zh) * 2017-01-10 2017-08-25 上海优同科技有限公司 一种语音识别方法和语音识别***
CN107112008A (zh) * 2014-11-13 2017-08-29 微软技术许可有限责任公司 基于预测的序列识别
CN107274889A (zh) * 2017-06-19 2017-10-20 北京紫博光彦信息技术有限公司 一种根据语音生成业务单据的方法及装置
CN109935226A (zh) * 2017-12-15 2019-06-25 上海擎语信息科技有限公司 一种基于深度神经网络的远场语音识别增强***及方法
CN111128130A (zh) * 2019-12-31 2020-05-08 秒针信息技术有限公司 语音数据处理方法和装置及电子装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895557B1 (en) * 1999-07-21 2005-05-17 Ipix Corporation Web-based media submission tool
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
US20020133332A1 (en) * 2000-07-13 2002-09-19 Linkai Bu Phonetic feature based speech recognition apparatus and method
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别***中的方法和***
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
US7181396B2 (en) * 2003-03-24 2007-02-20 Sony Corporation System and method for speech recognition utilizing a merged dictionary
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
US20070276668A1 (en) * 2006-05-23 2007-11-29 Creative Technology Ltd Method and apparatus for accessing an audio file from a collection of audio files using tonal matching
US20080120108A1 (en) * 2006-11-16 2008-05-22 Frank Kao-Ping Soong Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
CN101785051B (zh) * 2007-08-22 2012-09-05 日本电气株式会社 语音识别装置和语音识别方法
JP5088050B2 (ja) * 2007-08-29 2012-12-05 ヤマハ株式会社 音声処理装置およびプログラム
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
CN104811777A (zh) * 2014-01-23 2015-07-29 阿里巴巴集团控股有限公司 智能电视的语音处理方法、处理***及智能电视
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
CN111696530B (zh) * 2020-04-30 2023-04-18 北京捷通华声科技股份有限公司 一种目标声学模型获取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
CN1532806B (zh) * 2003-03-24 2010-11-03 索尼电子有限公司 使用优化的音素集进行广东话语音识别的***和方法
CN1538384B (zh) * 2003-03-31 2010-11-24 索尼电子有限公司 有效地实施普通话汉语语音识别字典的***和方法
CN1879147B (zh) * 2003-12-16 2010-05-26 洛昆多股份公司 文本到语音转换方法和***
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别***
CN102237088A (zh) * 2011-06-17 2011-11-09 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法
CN102237088B (zh) * 2011-06-17 2013-10-23 盛乐信息技术(上海)有限公司 语音识别多信息文本获取装置及方法
CN103366736A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音声调的识别方法和装置
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN104575519B (zh) * 2013-10-17 2018-12-25 清华大学 特征提取方法、装置及重音检测的方法、装置
CN107112008A (zh) * 2014-11-13 2017-08-29 微软技术许可有限责任公司 基于预测的序列识别
CN107112008B (zh) * 2014-11-13 2020-10-13 微软技术许可有限责任公司 基于预测的序列识别
CN107093422A (zh) * 2017-01-10 2017-08-25 上海优同科技有限公司 一种语音识别方法和语音识别***
CN107274889A (zh) * 2017-06-19 2017-10-20 北京紫博光彦信息技术有限公司 一种根据语音生成业务单据的方法及装置
CN109935226A (zh) * 2017-12-15 2019-06-25 上海擎语信息科技有限公司 一种基于深度神经网络的远场语音识别增强***及方法
CN111128130A (zh) * 2019-12-31 2020-05-08 秒针信息技术有限公司 语音数据处理方法和装置及电子装置

Also Published As

Publication number Publication date
US6510410B1 (en) 2003-01-21
HK1042579B (zh) 2005-07-15
TW512309B (en) 2002-12-01
HK1042579A1 (en) 2002-08-16
CN1183510C (zh) 2005-01-05

Similar Documents

Publication Publication Date Title
CN1183510C (zh) 根据基音信息识别声调语言的方法与设备
US20200226327A1 (en) System and method for direct speech translation system
CN112435650B (zh) 一种多说话人、多语言的语音合成方法及***
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
JP2009048003A (ja) 音声翻訳装置及び方法
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
Mu et al. Review of end-to-end speech synthesis technology based on deep learning
Sakti et al. Development of Indonesian large vocabulary continuous speech recognition system within A-STAR project
CN1731510A (zh) 混合语言文语转换
Li et al. Analysis and modeling of F0 contours for Cantonese text-to-speech
CN106653002A (zh) 一种文字直播方法及平台
CN108109610B (zh) 一种模拟发声方法及模拟发声***
CN115101046A (zh) 一种特定说话人语音合成方法和装置
JPH10504404A (ja) 音声認識のための方法および装置
Wells et al. Cross-lingual transfer of phonological features for low-resource speech synthesis
CN114255738A (zh) 语音合成方法、装置、介质及电子设备
Li et al. Acoustical F0 analysis of continuous Cantonese speech
Nose et al. HMM-based voice conversion using quantized F0 context
US20230148275A1 (en) Speech synthesis device and speech synthesis method
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
US20070055524A1 (en) Speech dialog method and device
Hanifa et al. Malay speech recognition for different ethnic speakers: an exploratory study
Venkatagiri Speech recognition technology applications in communication disorders
JP4779365B2 (ja) 発音矯正支援装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WEICHA COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090731

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050105

Termination date: 20160727