CN1604077B - 对发音波形语料库的改进方法 - Google Patents

对发音波形语料库的改进方法 Download PDF

Info

Publication number
CN1604077B
CN1604077B CN031347959A CN03134795A CN1604077B CN 1604077 B CN1604077 B CN 1604077B CN 031347959 A CN031347959 A CN 031347959A CN 03134795 A CN03134795 A CN 03134795A CN 1604077 B CN1604077 B CN 1604077B
Authority
CN
China
Prior art keywords
waveform
record
pronunciation
same words
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN031347959A
Other languages
English (en)
Other versions
CN1604077A (zh
Inventor
祖漪清
黄建成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Priority to CN031347959A priority Critical patent/CN1604077B/zh
Priority to PCT/US2004/030569 priority patent/WO2005034084A1/en
Priority to KR1020067006142A priority patent/KR100759729B1/ko
Priority to EP04784432.9A priority patent/EP1668630B1/en
Publication of CN1604077A publication Critical patent/CN1604077A/zh
Application granted granted Critical
Publication of CN1604077B publication Critical patent/CN1604077B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明描述了一种用于提供词的波形表示的方法(200)。该方法(200)包括提供(220)代表短语的记录和与这些记录(300)相应的采样的和数字化的发音波形,这些记录(300)具有标记的自然短语边界(310)。方法(200)还对相应于记录中的相同词的波形部分进行分组(230),以便为具有相似韵律特征的相同词提供波形群,当确定了相同词相对于自然短语边界(310)的位置时,便进行分组。然后处理步骤(240)对相同词的每组波形进行处理,以便为其提供代表性的发音波形。

Description

对发音波形语料库的改进方法
发明领域
本发明一般涉及文本-语音(TTS)的合成。本发明特别适用于,但并限于,应用一个改进的发音波形语料库来确定一个文本段的适当的合成发音。 
背景技术
文本-语音(TTS)转换,经常称为连接的文本-语音合成,允许电子设备接收一个输入文本串并提供一个合成语音形式的该串的转换的表达形式。然而,可能被要求合成来自非确定数量的已接收文本串的语音的设备很难提供高质量逼真的合成语言。这是因为,要合成的每个词或者音节(对于汉字或者类似的字符来说)的发音是依赖于上下文和位置的。例如,一个词在句(输入的文本串)尾的发音可能被拉长或者延长。如果同一个词出现在需要强调的句子中间,它的发音甚至会变得更长。 
在大多数语言中,一个词的发音依赖于包括音程(音调)、音量(能量或者振幅)和持续时间的声音韵律参数。一个词的韵律参数值依赖于在短语中的词位置。一种用于识别的TTS方法用语料库中充分长的发音来进行字符串匹配。然而,这种方法的计算量非常大,它需要大多数应用程序无法接受的大语料库,并且不能保证在语料库中找到一个合适的匹配发音。 
另一种方法采用一个相对较小的语料库和类似韵律参数的声音单元(音素)表示的分组。这种方法在计算上效率较高,但是并不适用于处理由于短语中词位置的变化而引起的韵律变化。 
在本说明书包括权利要求中,术语“包括”、“包括”或类似术语都是指非排他性的包括,这样,包括一些元件的一种方法或者设备并不只包 括那些已列出的元件,还可以包括其他没有列出的元件。 
发明概述 
根据本发明的一个方面,提供了一种用于提供词的波形表示的方法,该方法包括: 
提供多个表示短语的记录和这些记录的相应采样的和数字化的发音波形,这些记录具有标记的自然短语边界; 
对相应于文本串中相同词的波形部分进行分组,以便为具有类似韵律特征的相同词提供波形群,当确定了相同词在记录中相对于自然短语边界的位置,就会执行分组;以及 
对于相同词,处理每个波形群,以便能够提供其代表性的发音波形。 
相对于自然短语边界的位置,最好被归类于至少五种位置之一,这样相同词便有了有五种潜在分组。 
第一个位置位于记录的开始。 
第二个位置最好位于记录的结尾。 
第三个位置可以位于记录的开始和结尾之间的标记自然短语边界的紧前面并与其临近。 
第四个位置可以位于记录的开始和结尾之间的标记自然短语边界的最前端并与其临近。 
第五个位置可以是在记录中除了第一、第二、第三或者第四个位置之外的任意位置。 
处理的进一步特征最好还在于确定相同词的波形的平均值,以便为其提供一个有代表性的发音波形。 
一种用于文本-语音(TTS)合成的电子设备包括: 
一个处理器; 
一个与处理器相连的合成器; 
一个与处理器相连的存储器模块,用于提供文本串;以及 
一个与处理器相连的波形发音语料库;该语料库包括相同词的分组的 代表性发音波形,这些相同词是位于文本串中相对于自然短语边界的位置。 
附图说明
为了更好的理解本发明并且将其付诸实践,下面参照附图对优选非限制性实施例进行说明,其中: 
图1是与本发明一同使用的电子设备的示意性框图; 
图2是方法200,用于为一个将要存储在图1中的发音语料库中的词提供一个波形的语音;以及 
图3A至3C示意性的给出了识别自然短语边界的文本串和标记。 
优选实施例详细说明 
参见图1,图中以无线电话的形式示意性的给出了一种电子设备100,该设备包括一个通过总线103与用户接口104相连的设备处理器102,用户接口通常是一个触摸屏或者可以是一个显示屏和小键盘。电子设备100还具有一个发音语料库106、一个语音合成器110、非易失性存储器120、只读存储器118和射频通信模块116,它们都通过总线103与处理器102相连。语音合成器110具有一个输出,连接到并驱动扬声器112。语料库106包括词或者音素的表示和相关的采样、数字化和处理过的发音波形PUW。换句话说,正如下面所描述的,非易失性存储器120(存储器模块)提供用于文本-语音(TTS)合成(该文本可以通过模块116接收或者用其他的方式得到)的文本串。波形发音语料库还包括位于记录中的多组相同词的代表性发音波形,这些发音波形代表短语和相应的采样的和数字的化发音波形,并确定下面描述的相对于自然短语边界的位置。 
本领域技术人员显然明白,射频通信单元116通常是一个具有共用天线的组合接收器和发送器。射频通信单元116具有一个通过射频放大器与天线连接的发送接收器。发送接收器还与一个连接通信单元116和处理器102的组合调制/解调器相连。在本实施例中,非易失性存储器120(存储器模块)还存储了一个用户可编程电话簿数据库Db,只读存储器118存储 设备处理器102的操作码(OC)。 
参见图2和图3A至3C,图中示意性的给出了一种用于为一个词提供一个波形表示的方法,在开始步骤210之后,方法200包括一个步骤220,提供多个代表短语的文本串和与这些文本串相应的采样的和数字化的发音波形,这些文本串具有标记的自然短语边界310。这些自然短语边界是手工***语音波形的记录当中去的,这些记录是短语或者句子。对于本领域技术人员来说,显然,这些采样的和数字化的发音波形通常是以特征向量的形式出现的。 
方法200然后执行步骤230,对相应于记录中的相同词的波形部分进行分组,以为具有相似韵律特征的相同词提供群波形,当相同词在记录中被定位于相对于自然短语边界310的位置LS(?)时,便进行分组。例如,图3A中的记录300“The cat sat on the mat”中有三个用标记“”表示的自然短语边界310;图3B中的记录300“The cat sat on the matin the house”中有四个自然短语边界,图3C中的记录300“The dogsat on the mat next to the cat”中也有四个自然短语边界。在分组步骤230期间,词在记录中相对于自然语音边界310的位置LS被归类于五种位置中的一种,这样就有五种相同词的潜在的分组。第一个(1st)位置位于文本串的开始。这样,在图3A至3C中的三个记录例子中,有一个位于第一个(1st)位置的相同词“The”。在其他的记录可以找到其它相同的词,并且在分组步骤230期间,词“the”位于第一个(1st)位置所有的情况词被归类到一起。 
第二个(2nd)位置位于记录的结尾。在图3A至3C中的三个记录例子中没有相同词(mat、house、cat),因此,这些词在分组步骤230期间并不被归类。然而,可能在其他的记录中找到位于第二位(2nd)的相同词。 
第三个(3rd)位置在记录的开始和结尾之间,位于标记自然短语边界310的紧前面并与其临近。在图3A至3C中的三个记录例子中有两个位于第三(3rd)位置的相同词“cat”和“mat”。在其他的记录可以找到其它相同的词,并且在分组步骤230期间,词“cat”位于第三个(3rd)位置的 所有的情况词被归类到一起。这些同样也适用于词“mat”(或者dog)。 
第四个(4th)位置是位于记录的开始和结尾之间的标记自然短语边界310的最前端并与其临近。在图3A至3C中的三个记录例子中有一个位于第四(4th)位置的相同词“sat”。在其他的记录中可以找到其它相同的词,在分组步骤230期间,词“sat”位于第四个(4th)位置的所有情况被归类到一起。这些同样也适用于词“in”和“near”。 
第五个位置可以是在记录中除了第一、第二、第三或者第四个位置之外的任意位置。在图3A至3C中的三个记录例子中有位于第五(5th)位置的相同词“on”、“the”。在其他的记录中可以找到其它相同的词,在分组步骤230期间,词“on”位于第五个(5th)位置的所有情况被归类到一起,正如对相同词“the”所举例的那样。这些同样也适用于词“to”。 
在步骤230之后,处理步骤240对相同词的每组波形进行处理,以为其提供代表性的发音波形。特别是,处理步骤240最好确定相应于相同词的波形的平均值,以便为其提供一个代表性的发音波形。将每个分组中的特征向量的每个元素相加,然后除以特征向量的数量,即可以计算出平均值。例如,如果有100例识别出的“the”位于文本串的第一个(1st)位置,那么这100个中的每一个例子中的特征向量的每个相应的元素都要相加,然后将结果除以100,以便得到每个特征向量元素的平均值。于是,在处理采样的数字化波形SDW之后,在存储步骤250,位于发音的第一(1st)位的词“the”的分组的表示被存储在发音语料库106中。该方法在完成每个词所有的分组之后结束。 
本发明允许存储代表一个相关词的分组的平均采样的数字化波形SDW。平均采样的数字化波形SDW本质上模仿词的声学韵律特征,其中包括音程(音调)、音量(能量或者振幅)和持续时间的声学韵律特征参数依赖于他们在句子或者短语中相对于自然短语边界的位置。 
本详细说明只提供了一个优选范例实施例,但并不打算限制本发明的范围、应用、或者配置。相反,该优选范例实施例的详细说明给本领域技术人员提供了可以用于实现本发明优选范例实施例的描述。应该明白,在 不背离所附权利要求中列出的本发明的精神和范围的前提下,可以对本发明中要素的功能和配置进行不同的修改。 

Claims (8)

1.一种使用电子设备提供词的波形表示的方法,该电子设备包括:
处理器(102);
存储器(120);
发音语料库(106);
所述方法包括:
由所述存储器(120)提供多个表示短语的记录,并由所述发音语料库(106)提供这些记录的相应采样的和数字化的发音波形,这些记录具有标记的自然短语边界;
将与记录中相同词对应的波形部分进行分组,以便为具有类似韵律特征的相同词提供波形群,当确定了相同词在记录中相对于自然短语边界的位置时,执行分组;
用所述处理器对相同词处理每个波形群,以便能够提供一个关于它的代表性的发音波形;以及
将所述代表性发音波形存储在所述电子设备的存储器中。
2.根据权利要求1的方法,其中相对于自然短语边界的位置被归类于至少五种位置之一,这样相同词便有五种潜在分组。
3.根据权利要求2的方法,其中第一个位置位于记录的开始。
4.根据权利要求2的方法,其中第二个位置位于记录的结尾。
5.根据权利要求2的方法,其中第三个位置位于记录的开始和结尾之间的标记的自然短语边界的紧前面并与其临近。
6.根据权利要求2的方法,其中第四个位置位于记录的开始和结尾之间的标记的自然短语边界的最前端并与其临近。
7.根据权利要求2的方法,其中第五个位置在记录中除了第一、第二、第三或第四个位置之外的任意位置。
8.根据权利要求1的方法,其中处理的特征还在于确定相同词的波形的平均值,以便为其提供一个有代表性的发音波形。
CN031347959A 2003-09-29 2003-09-29 对发音波形语料库的改进方法 Expired - Fee Related CN1604077B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN031347959A CN1604077B (zh) 2003-09-29 2003-09-29 对发音波形语料库的改进方法
PCT/US2004/030569 WO2005034084A1 (en) 2003-09-29 2004-09-17 Improvements to an utterance waveform corpus
KR1020067006142A KR100759729B1 (ko) 2003-09-29 2004-09-17 발화 파형 코퍼스에 대한 개선들
EP04784432.9A EP1668630B1 (en) 2003-09-29 2004-09-17 Improvements to an utterance waveform corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN031347959A CN1604077B (zh) 2003-09-29 2003-09-29 对发音波形语料库的改进方法

Publications (2)

Publication Number Publication Date
CN1604077A CN1604077A (zh) 2005-04-06
CN1604077B true CN1604077B (zh) 2012-08-08

Family

ID=34398363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN031347959A Expired - Fee Related CN1604077B (zh) 2003-09-29 2003-09-29 对发音波形语料库的改进方法

Country Status (4)

Country Link
EP (1) EP1668630B1 (zh)
KR (1) KR100759729B1 (zh)
CN (1) CN1604077B (zh)
WO (1) WO2005034084A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020166748A1 (ko) * 2019-02-15 2020-08-20 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US11393447B2 (en) * 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
KR102281504B1 (ko) * 2019-09-16 2021-07-26 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
CN111833842B (zh) * 2020-06-30 2023-11-03 讯飞智元信息科技有限公司 合成音模板发现方法、装置以及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
KR100259777B1 (ko) * 1997-10-24 2000-06-15 정선종 텍스트/음성변환기에서의최적합성단위열선정방법
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6144939A (en) 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
WO2000055842A2 (en) * 1999-03-15 2000-09-21 British Telecommunications Public Limited Company Speech synthesis
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
KR20010035173A (ko) * 2001-01-10 2001-05-07 백종관 음성 합성 훈련 툴킷을 이용한 개인용 음성 합성기 및 그방법
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成***及方法

Also Published As

Publication number Publication date
WO2005034084A1 (en) 2005-04-14
KR100759729B1 (ko) 2007-09-20
EP1668630A4 (en) 2008-04-23
KR20060056406A (ko) 2006-05-24
CN1604077A (zh) 2005-04-06
EP1668630B1 (en) 2013-10-23
EP1668630A1 (en) 2006-06-14

Similar Documents

Publication Publication Date Title
RU2319221C1 (ru) Идентификация естественных речевых пауз в текстовой строке
CN101490740B (zh) 声音合成装置
Riley A statistical model for generating pronunciation networks
EP0689194A1 (en) Method of and apparatus for signal recognition that compensates for mismatching
Lee et al. Golden Mandarin (II)-an intelligent Mandarin dictation machine for Chinese character input with adaptation/learning functions
SG128406A1 (en) Character recognizing and translating system and voice recognizing and translating system
EP1071074A3 (en) Speech synthesis employing prosody templates
CN110265028B (zh) 语音合成语料库的构建方法、装置及设备
CN106057192A (zh) 一种实时语音转换方法和装置
CN109102796A (zh) 一种语音合成方法及装置
CN1924994B (zh) 一种嵌入式语音合成方法及***
CN110459202A (zh) 一种韵律标注方法、装置、设备、介质
CN108628859A (zh) 一种实时语音翻译***
CN105654955A (zh) 语音识别方法及装置
CN1604077B (zh) 对发音波形语料库的改进方法
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
EP1668629B1 (en) Letter-to-sound conversion for synthesized pronunciation of a text segment
CN113450760A (zh) 一种文本转语音的方法、装置及电子设备
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
CN113160804B (zh) 混合语音的识别方法及装置、存储介质、电子装置
CN111489742A (zh) 声学模型训练方法、语音识别方法、装置及电子设备
CN201323053Y (zh) 自动分割单字语音信号的装置
Suontausta et al. Low memory decision tree method for text-to-phoneme mapping
CN1779779B (zh) 提供语音语料库的方法及其相关设备
CN106531152A (zh) 一种基于htk的连续语音识别***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20100908

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS, UNITED STATES TO: MASSACHUSETTS, UNITED STATES

TA01 Transfer of patent application right

Effective date of registration: 20100908

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: Illinois Instrunment

Applicant before: Motorola Inc.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120808

Termination date: 20200929