CN1308908C - 用于文字到语音合成的方法 - Google Patents

用于文字到语音合成的方法 Download PDF

Info

Publication number
CN1308908C
CN1308908C CNB031327095A CN03132709A CN1308908C CN 1308908 C CN1308908 C CN 1308908C CN B031327095 A CNB031327095 A CN B031327095A CN 03132709 A CN03132709 A CN 03132709A CN 1308908 C CN1308908 C CN 1308908C
Authority
CN
China
Prior art keywords
word
sub
phoneme
literal
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031327095A
Other languages
English (en)
Other versions
CN1604184A (zh
Inventor
陈桂林
黄建成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNB031327095A priority Critical patent/CN1308908C/zh
Priority to KR1020067006095A priority patent/KR100769032B1/ko
Priority to DE602004019949T priority patent/DE602004019949D1/de
Priority to PCT/US2004/030468 priority patent/WO2005034083A1/en
Priority to RU2006114705/09A priority patent/RU2320026C2/ru
Priority to EP04784356A priority patent/EP1668629B1/en
Publication of CN1604184A publication Critical patent/CN1604184A/zh
Application granted granted Critical
Publication of CN1308908C publication Critical patent/CN1308908C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于文字到语音合成的方法(200),该方法(200)包括接收(220)文本字符串,并从中选择至少一个单词。然后执行的步骤为将单词分解(240)为子单词,子单词形成子单词序列,至少一个子单词包含至少两个文字。然后执行的识别步骤(250),作用是为子单词识别音素,步骤(260)将音素连贯起来形成音素序列。然后对音素序列执行语音合成(280)。

Description

用于文字到语音合成的方法
技术领域
本发明通常涉及到文本到语音(TTS)的合成。对于用于合成字段的发音的文字到声音的转换,本发明尤为有用。
背景技术
通常,文本到语音(TTS)的转换是指连贯的文本到语音的合成,它使电子装置能够接收输入的文本字符串,并将字符串变换,表示为合成语音的形式。然而,需要该装置能够对接收到的数目不确定的文本字符串进行语音合成,这将带来一个难题,即提供可理解的高质量合成语音。在从文字到声音的变换中存在的一个难题是,根据其它相邻的文字及文字在需要合成的字段中位置,相同的文字或文字组合可能具有不同的声音和不同的重音/强调音。
在本说明书(包括权利要求)中,用术语“包含”、“包括”或类似的术语表示非排他性的结论,因此,包含一系列单元的方法或装置中并不仅仅包括那些单元,还可能包括其它为列出的单元。
发明内容
根据本发明的一个方面,提供了一种用于文字到语音合成的方法,该方法包括:
接收文本字符串,并从中选择至少一个单词;
将单词分解为子单词,子单词形成子单词序列,子单词中有至少一个子单词包括至少两个文字(1etter);
识别子单词的音素;
将音素连贯起来形成音素序列;和
对音素序列执行语音合成,
其中,通过对可能包括所述单词的子单词进行分析,确定子单词序列。
每一个可能的子单词最好带有关联的预定权重。
适当地,选择能够形成选定单词的具有最大合成权重的子单词,以产生子单词序列。根据对直接非循环图(Direct Acyclic Graph)的分析结果,确定适宜的子单词序列。
适当地,使用音素标识符表识别音素,音素标识符表中包含对应于至少一个上述子单词的音素。
标识符表中最好还包括位置相关指示器,用来表示单词中子单词的位置相关性。
音素权重还可能与相应的位置相关指示器关联。
附图说明
为了使本发明更容易理解并付诸于实际,将用根据附图示意的优选实施例进行参考,其中:
图1为根据本发明的电子装置的示意框图;
图2为表示用于文本到语音合成的方法的流程图;
图3示意了直接非循环图(DAG);
图4为映射表的一部分,映射表将符号映射至语音;
图5为音素标识符表的一部分;和
图6为元音对表的一部分。
具体实施方式
参见图1,示意了以无线电话的形式存在的电子装置100,其包括装置处理器102,其可操作地通过总线103耦合至用户界面104,典型的用户界面104为触摸屏或者是显示屏及小键盘。电子装置100中还有语言语料库106、语音合成器110、非易失存储器120、只读存储器118及无线通信模块116,它们都可操作地通过总线103与处理器102耦合。语音合成器110上带有输出端,被耦合以驱动扬声器112。语言语料库116中包括表示单词或音素的信息,还包括有关的经采样、数字化并处理后的通话波形PUW。换句话说,如下所述,使用非易失存储器120(存储器模块)进行文本到语音(TTS)的合成(文本由模块116或其它装置接收)。波形语言语料库中还包括经采样及数字化的通话波形,其形式为音素及韵律特征的加重/加强。
正如本领域内的技术人员将明了的,典型地,射频通信单元116为带有公共天线的组合接收机与发射机。射频通信单元116中带有通过射频放大器耦合至天线的收发器。收发器还与组合的调制器/解调器耦合,组合调制器/解调器将通信单元116耦合至处理器102。在本实施例中,非易失存储器112(存储器模块)还存储用户可编程的电话本数据库Db,只读存储器118中还为装置处理器102存储操作代码(OC)。
参见图2,示意了用于文本到语音合成的方法200。在初始步骤210后,执行从存储器120接收文本字符串TS的步骤220。文本字符串TS是由模块116或其它方式接收到的文本消息。步骤230的作用是从文本字符串TS中选择至少一个单词,分解步骤240的作用是将单词分解为子单词,子单词形成子单词序列,所述子单词中至少一个包括至少两个文字。识别步骤250的作用是为子单词识别音素。连贯步骤260的作用是将音素连贯起来形成音素序列。通过对可能构成单词的子单词进行分析,确定相应的子单词序列。例如,暂时参见图3中的直接非循环图(DAG),如果选定的单词为“mention”,则用能够构成选定单词“mention”的全部可能的子单词形成了直接非循环图DAG。为每个子字单词给出预定义的权重,例如,所示的子单词“ment”、“men”及“tion”分别具有权重88、86和204。因此,连贯步骤260贯穿了DAG,并选择形成所选定单词的、具有最大合成(加和)权重的子单词。在单词为“mention”的情况下,将选择子单词“men”及“tion”。
在识别音素的步骤250中用到存储于存储器120中的两个表,其中如图4所示的一个表为映射表MT,将符号映射为音素。如图所示,音素ae用符号@标志,而音素th用符号D标志。另外一个表是音素标识符表PIT,图5示意了它的一部分。音素标识符表PIT中包含子单词域;音素权重域;位置相关域(一个或多个)或指示器;音素标识符域(一个或多个)。例如,在图5中,第一行为aa 120 A_C,其中aa为子单词;120为音素权重,字母A为位置相关,C为对应与子单词aa的音素指示器。位置相关被标记为:A表示全部位置的相关;I表示子单词在单词前端的相关;M表示子单词在单词中间的相关;F表示子单词在单词末端的相关。因此,使用音素标识符表PIT并根据子单词在单同中的位置,识别音素的步骤250产生作用。
音素权重及预定的DAC权重WT是从图5中获取的相同权重。确定这些权重后,如果选择发生次数作为权重,则一个子字符串将具有比字符串自身更大的权重。因此,如果选择产生的最大权重形成字段,则通常具有短词素特征的字符串是更可取的。例如,单词seeing将被分解为s|ee|in|g而不是s|ee|ing。但是总体而言,长字符串及音素序列之间的关系更可信。为了确保具有长词素特征的字符串具有更高的优先级,考虑下面的方面:
-词缀(affix)如果一个短字符串为长字符串的前缀或后缀,将它的发生次数(occuring time)加在长字符串上;但是不考虑其它子字符串。
-多义(ambiguity)在某些情况下,一个具有词素特征的字符串可以对应多个音素字符串;例如,en的发音可以是ehn及axn。为了降低不确定性,使用字符串位置,例如字头、字中及字尾。即使在这种情况下,一个具有词素特征的字符串可以对应多于一个音素字符串。为了解决这个问题,选择具有最大发生次数的音素字符串,并用下述公式计算比率r:
r = max { N uk } Σ N uk
其中
u为字符串索引,而k为位置索引。如果r<a(a为阈值,a=0.7),则排除这个具有词素特征的字符串。例如,字尾的en的发音可以是ehn及axn,如果总次数(total time)为1000,如果与axn对应的次数为800(当然,这是最大次数),r=0.8。因此,可以将字尾en加到列表中。
-最小发生次数。还可以将最小发生次数min(min=9)设置为阈值。将发生次数少于这个阈值的字符串丢弃。
在这些约束下,可以以下面的方式为分配每个字符串权重Ws,Ws=101nNs,Ns为可调节的发生次数。
此后,方法200执行步骤265,作用是在音素上分配表示元音的重音或强调音。这个步骤265从先前的步骤250识别出的相应的识别音素中识别出元音。实际上,这个步骤265在存储于存储器120中的元音对表中搜索相对加强/减弱的音。图6中示意了这个元音对表的一部分。例如,考虑单词中能够被识别为音素的3个元音,这些元音被识别为符号(从映射表MT中获取)’ax;aa及ae。然后分析元音对表,当’ax发生在aa之前时,则指示a的重音权重为368,当aa发生在’ax之前时,则重音权重为354。因此,通过为’ax;aa及ae分析元音对表,可以得到如下分析结果:符号ae指示的元音具有第一位(最大)的重音;符号’ax指示的元音具有第二位的重音;符号aa指示的元音不具有重音。实际上,通过使用训练词典来确定重音权重。这个词典的每个输入部具有单词的格式,以及它所对应的发音,包括重音、音节分界以及字母到语音的分配。根据这个词典,可以通过统计分析确定重音。在这点上,重音反映了元音之间的强/弱关系。为了产生需要的数据,需要提前对词典的全部输入进行统计分析。特别地,在单词的范围内,如果元音vi为加重,vj未加重,则为对(vi,vj)分配一点,为对(vj,vi)分配一点零点。如果两个都未加重,则点都是零。
然后执行测试步骤270,判断在文本字符串TS中是否还有其它多个单同需要处理。如果是,则方法跳回至步骤230,否则执行步骤280,对语音序列执行语音识别。由合成器110执行的语音识别对每个单词的语音序列产生作用。然后,方法200终止于终止步骤290。
在执行语音合成步骤280的过程中,还用适当的重音加强使用元音的重音(适当的第一、第二或无重音),从而得到改善的合成语音质量。
本发明的优点是,根据其它相邻字符及在合成字段中的位置,改善或至少减轻了声音及元音的加重/加强。
详细说明中仅提供了优选实施例,但并不因此限制本发明的范围、应用场合或结构。而且,优选实施例的详细说明为本领域内的技术人员提供了可能实现本发明优选实施例的说明。需要理解的是,在不背离本发明及附加的权利要求的情况下,可以对其功能及元件的排列进行不同的修改。

Claims (4)

1.一种用于文字到语音合成的方法,方法包括:
接收文本字符串,并从中选择至少一个单词;
将所述单词分解为子单词,所述子单词形成子单词序列,所述子单词中至少有一个包含至少两个文字;
为所述子单词识别音素;
将所述音素连贯起来形成音素序列;和
对所述音素序列执行语音合成,
其中,根据对直接非循环图的分析结果,选择能够形成所述选定单词的、具有最大合成权重的子单词来产生子单词序列,其中每一个可能的子单词带有关联的预定权重,并且通过对可能构成所述单词的子单词进行分析,以确定所述的子单词序列。
2.根据权利要求1所述的用于文字到语音合成的方法,其中,所述识别音素的步骤使用一音素标识符表,所述音素标识符表中包含对应于至少一个上述子单词的音素。
3.根据权利要求2所述的用于文字到语音合成的方法,其中,所述标识符表中还包括位置相关指示器,用来指示所述单词中子单词的位置相关性。
4.根据权利要求3所述的用于文字到语音合成的方法,其中,所述标识符表还包含与位置相关指示器关联的音素权重。
CNB031327095A 2003-09-29 2003-09-29 用于文字到语音合成的方法 Expired - Fee Related CN1308908C (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CNB031327095A CN1308908C (zh) 2003-09-29 2003-09-29 用于文字到语音合成的方法
KR1020067006095A KR100769032B1 (ko) 2003-09-29 2004-09-17 텍스트 세그먼트의 합성된 발음을 위한 문자 대 사운드변환
DE602004019949T DE602004019949D1 (de) 2003-09-29 2004-09-17 Umsetzung von buchstaben in klang für die synthetisierte aussprache eines textsegments
PCT/US2004/030468 WO2005034083A1 (en) 2003-09-29 2004-09-17 Letter to sound conversion for synthesized pronounciation of a text segment
RU2006114705/09A RU2320026C2 (ru) 2003-09-29 2004-09-17 Преобразование буквы в звук для синтезированного произношения сегмента текста
EP04784356A EP1668629B1 (en) 2003-09-29 2004-09-17 Letter-to-sound conversion for synthesized pronunciation of a text segment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031327095A CN1308908C (zh) 2003-09-29 2003-09-29 用于文字到语音合成的方法

Publications (2)

Publication Number Publication Date
CN1604184A CN1604184A (zh) 2005-04-06
CN1308908C true CN1308908C (zh) 2007-04-04

Family

ID=34398362

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031327095A Expired - Fee Related CN1308908C (zh) 2003-09-29 2003-09-29 用于文字到语音合成的方法

Country Status (6)

Country Link
EP (1) EP1668629B1 (zh)
KR (1) KR100769032B1 (zh)
CN (1) CN1308908C (zh)
DE (1) DE602004019949D1 (zh)
RU (1) RU2320026C2 (zh)
WO (1) WO2005034083A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234116B2 (en) 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
KR100935014B1 (ko) * 2008-01-29 2010-01-06 고려대학교 산학협력단 미술치료의 문양 색칠 분석에 따른 증상 예측 방법 및 이를수행하는 프로그램이 기록된 기록매체
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
RU2606312C2 (ru) * 2014-11-27 2017-01-10 Роман Валерьевич Мещеряков Устройство синтеза речи
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及***
CN105895075B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 提高合成语音韵律自然度的方法及***
RU2692051C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для синтеза речи из текста
CN109002454B (zh) * 2018-04-28 2022-05-27 陈逸天 一种确定目标单词的拼读分区的方法和电子设备
CN109376358B (zh) * 2018-10-25 2021-07-16 陈逸天 一种借用历史拼读经验的单词学习方法、装置和电子设备
US20220020355A1 (en) * 2018-12-13 2022-01-20 Microsoft Technology Licensing, Llc Neural text-to-speech synthesis with multi-level text information
CN112786002B (zh) * 2020-12-28 2022-12-06 科大讯飞股份有限公司 一种语音合成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5682501A (en) * 1994-06-22 1997-10-28 International Business Machines Corporation Speech synthesis system
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6347295B1 (en) * 1998-10-26 2002-02-12 Compaq Computer Corporation Computer method and apparatus for grapheme-to-phoneme rule-set-generation
US20020184030A1 (en) * 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
KR100236961B1 (ko) * 1997-07-23 2000-01-15 정선종 단어의 음소 구조에 따른 단어 그룹 형성 방법
JP2002535728A (ja) * 1999-01-05 2002-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ サブワードメモリを含む音声認識装置
KR100373329B1 (ko) * 1999-08-17 2003-02-25 한국전자통신연구원 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
US6634300B2 (en) * 2000-05-20 2003-10-21 Baker Hughes, Incorporated Shaped charges having enhanced tungsten liners
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7143353B2 (en) * 2001-03-30 2006-11-28 Koninklijke Philips Electronics, N.V. Streaming video bookmarks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5682501A (en) * 1994-06-22 1997-10-28 International Business Machines Corporation Speech synthesis system
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6347295B1 (en) * 1998-10-26 2002-02-12 Compaq Computer Corporation Computer method and apparatus for grapheme-to-phoneme rule-set-generation
US20020184030A1 (en) * 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method

Also Published As

Publication number Publication date
RU2006114705A (ru) 2007-11-10
KR20060056404A (ko) 2006-05-24
WO2005034083A1 (en) 2005-04-14
CN1604184A (zh) 2005-04-06
EP1668629A4 (en) 2007-01-10
DE602004019949D1 (de) 2009-04-23
EP1668629B1 (en) 2009-03-11
RU2320026C2 (ru) 2008-03-20
KR100769032B1 (ko) 2007-10-22
EP1668629A1 (en) 2006-06-14

Similar Documents

Publication Publication Date Title
RU2319221C1 (ru) Идентификация естественных речевых пауз в текстовой строке
US6490563B2 (en) Proofreading with text to speech feedback
US8126714B2 (en) Voice search device
US20080103774A1 (en) Heuristic for Voice Result Determination
CN1308908C (zh) 用于文字到语音合成的方法
CN111145724B (zh) 一种多音字标注方法、装置以及计算机可读存储介质
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和***
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
CN1359514A (zh) 多模式数据输入设备
US7428491B2 (en) Method and system for obtaining personal aliases through voice recognition
KR20050032759A (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
Soky et al. Building wfst based grapheme to phoneme conversion for khmer
US8438005B1 (en) Generating modified phonetic representations of indic words
CN114708848A (zh) 音视频文件大小的获取方法和装置
US20050203742A1 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
CN1357821A (zh) 拼音语音输入的方法
CN114420086B (zh) 语音合成方法和装置
CN114327090A (zh) 日文输入方法以及相关装置、设备
CN111105780B (zh) 一种韵律纠正方法、装置以及计算机可读存储介质
CN1979636A (zh) 一种音标到语音的转换方法
Zahra et al. Building a pronunciation dictionary for Indonesian speech recognition system
KR20010085219A (ko) 서브단어 메모리를 포함하는 음성인식 장치
Bharthi et al. Unit selection based speech synthesis for converting short text message into voice message in mobile phones
CN118038848A (zh) 多音英文单词的发音转换方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NIUANSI COMMUNICATION CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20101008

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS STATE, USA TO: DELAWARE STATE, USA

TR01 Transfer of patent right

Effective date of registration: 20101008

Address after: Delaware

Patentee after: NUANCE COMMUNICATIONS, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070404