CN1220173C - 基频特性曲线产生方法 - Google Patents

基频特性曲线产生方法 Download PDF

Info

Publication number
CN1220173C
CN1220173C CNB981269877A CN98126987A CN1220173C CN 1220173 C CN1220173 C CN 1220173C CN B981269877 A CNB981269877 A CN B981269877A CN 98126987 A CN98126987 A CN 98126987A CN 1220173 C CN1220173 C CN 1220173C
Authority
CN
China
Prior art keywords
fundamental frequency
stress
characteristic curve
harmonious sounds
frequency characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB981269877A
Other languages
English (en)
Other versions
CN1229194A (zh
Inventor
加藤弓子
松井谦二
釜井孝浩
原纪代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1229194A publication Critical patent/CN1229194A/zh
Application granted granted Critical
Publication of CN1220173C publication Critical patent/CN1220173C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)

Abstract

根据该基频特性曲线产生方法,从用音素时间长度或元音和元音对应部分的时间长度标准化的每个重音短语的基频特性曲线的数据库来设定基频特性曲线,当该对应基频特性曲线未存储在该数据库中时,通过内插作为基频特性曲线基准的点之间的间隔产生基频特性曲线。通过该方法,可产生具有比常规方法更高自然性的基频特性曲线。

Description

基频特性曲线产生方法
本发明涉及一种用于语音合成的基频特性曲线产生方法。
常规基频特性曲线产生方法是这样的,即注意重音类型,象日本特开专利申请平5-173590一样,在具有作为参照的短音节的开始点或元音开始点的对数频率轴上通过临界阻尼二次线性***确定基频特性曲线。另一种常规方法是象日本特开专利申请平5-88690一样通过注意重音类型,音韵段的种类和单字或短语的短音节的位置来确定每一个短音节的基频特性曲线。
然而,根据这些方法不能精确地确定一个短音节的基频中的变化,或由于短音节中的时间长度的不同在实时轴上产生失真,因此以重音为特征的音调变得不自然。
本发明致力于解决常规话音基频特性曲线产生方法中的上述问题。
本发明提供了一种用于产生一个重音短语的基频的基频特性曲线产生方法,
其中一个基频数据库涉及到存储(1)通过用音韵段的时间长度标准化至少下列音韵段之一的基频特性曲线获得的基频特性曲线,这些音韵段包括:重音短语的第一音韵段;基频取最大值的音韵段;重音核心的音韵段和紧接该重音核心的音韵段,以及在结尾的一个音韵段,或(2)通过用音素的时间长度标准化至少所述音韵段之一中包括的音素的基频特性曲线获得的一个基频特性曲线,
其中设定(3)下列音韵段:将为其产生基频的重音短语的第一音韵段;基频取重音短语中最大值的音韵段;重音核心的音韵段和紧接重音短语中重音核心的音韵段,以及重音短语结尾的音韵段中的全部或部分的基频特性曲线,或(4)所述音韵段中包括的每个音素的基频特性曲线,和
其中用实时轴上的函数内插音韵段之间或在基频特性曲线设定阶段中仍未设定基频特性曲线的音素之间的基频特性曲线。
本发明提供了一种用于产生一个重音短语的基频的基频特性曲线产生方法,方法,
其中在用每个音韵段中包括的一个音素的时间长度标准化的时间轴上设定将为其产生基频的重音短语的上升参考点,产生一个重音的下降参考点,决定在重音短语结尾包括任何一个音韵段的多个音韵段的基频特性曲线的重音短语结束参考点,和产生一个字结束的基频特性曲线的字结束参考点,
其中一个基频数据库涉及到存储从通过用音素的时间长度标准化音韵段中包括的音素的基频特性曲线获得的基频特性曲线提取的基频,至少重音短语的上升参考点,下降参考点,重音短语结束参考点和字结束参考点之一的基频,
其中参考基频数据库设定在设定参考点的基频,和
其中用实时轴上的函数或实时轴上绘制的基频特性曲线内插在基频设定阶段中仍未设定基频的参考点之间的基频。
本发明提供了一种用于产生一个重音短语的基频的基频特性曲线产生方法,
其中一个基频数据库涉及到存储通过用音韵段中包括的元音的时间长度标准化与至少下列音韵段之一中包括的元音部分对应的基频特性曲线获得的基频特性曲线,这些音韵段包括:重音短语的第一音韵段;基频取最大值的音韵段;重音核心的音韵段和紧接该重音核心的音韵段,以及在一个结尾的一个音韵段或从结尾起的四个或更少音韵段的多个音韵段,
其中在下列音韵段:将为其产生基频的重音短语的第一音韵段;基频取重音短语中最大值的音韵段;重音核心的音韵段和紧接重音短语中重音核心的音韵段,以及重音短语结尾的音韵段中的全部或一部分中,设定音韵段中包括的每个元音的基频特性曲线,和
其中用实时轴上的函数内插不进行基频特性曲线设定的音韵段之间的基频。
本发明提供了一种用于产生一个重音短语的基频的基频特性曲线产生方法,
其中在用每个音韵段中包括的一个音素的时间长度标准化的时间轴上设定将为其产生基频的重音短语的上升参考点,产生一个重音的下降参考点,决定重音短语结尾的基频特性曲线的重音短语结束参考点,和产生一个字结束的基频特性曲线的字结束参考点的部分或全部,
其中一个基频数据库涉及到存储从通过用元音的时间长度标准化音韵段中包括的元音的基频特性曲线获得的基频特性曲线提取的基频,至少重音短语的上升参考点,下降参考点,重音短语结束参考点和字结束参考点之一的基频,
其中参考基频数据库设定在设定参考点的基频,和
其中用实时轴上的函数或实时轴上绘制的基频特性曲线内插未进行基频设定的参考点的之间的基频。
本发明提供了一种用于产生一个重音短语的基频的基频特性曲线产生方法,
其中参考基频数据库设定每个重音短语的基频特性曲线,该基频数据库存储用根据音韵段的数量和重音位置中的一个或二者分类的音韵段中包括的每个音素的时间长度标准化的基频特性曲线,和
其中从一个微韵律数据库获得与将要为其产生基频的音素或音韵段串对应的值,微韵律数据库存储用音素的时间长度标准化的每个音韵段或每个音素串的基频与所述基频特性曲线之间的差值,根据一个音韵段或一个音素串对该差值分类,并将对应值加到设定的基频,或从设定的基频减去该对应值,从而产生重音短语的基频。
本发明提供了一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频的重音短语的重音位置与紧接包括基频数据库中存储的基频的峰值的音韵段位置的音韵段位置相同或在其之前时,
(1)使用基频数据库中存储的基频特性曲线,该基频特性曲线具有与将为其产生基频特性曲线的重音短语的重音位置相同的重音位置,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频特性曲线的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到紧接重音核心的音韵段应用基频来产生从第一音韵段到紧接重音核心的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)从重音核心起的第二音韵段和重音短语结尾的基频,或(b)紧接重音核心的音韵段和重音短语结尾的基频,或(c)从重音核心起的第二音韵段和刚好在重音短语结尾前的音韵段的基频,或(d)紧接重音核心的音韵段和刚好在重音短语结尾前的音韵段的基频进行内插,产生从重音核心起第二音韵段到刚好在包括预定的四个或更少数量的音韵段的重音短语结尾前的音韵段的基频,和
(4)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的基频产生将为其产生基频特性曲线的重音短语结尾的基频。
本发明提供了一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频特性曲线的重音短语的重音位置在紧接包括基频数据库中存储的基频峰值的音韵段位置之后和在预定重音短语结尾之前时,
(1)使用基频数据库中存储的基频特性曲线,该基频特性曲线在从基频数据库中存储的基频峰值起的第二音韵段,或在其后的音韵段和重音短语结束前具有重音核心,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从将为其产生基频的重音短语的第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和包括重音核心的音韵段的基频,或(b)包括基频峰值的音韵段的基频和刚好在包括重音核心的音韵段之前的基频,或(c)紧接包括基频的峰值的音韵段的音韵段和包括重音核心的音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到刚好在重音核心之前的音韵段的基频,
(4)通过应用基频数据库中存储的基频特性曲线的包括重音核心的音韵段和紧接其后的音韵段的基频,产生包括将为其产生基频的重音短语的重音核心的音韵段和紧接其后的音韵段的基频,
(5)通过用基频数据库中存储的基频特性曲线的(a)从重音核心起的第二音韵段和重音短语结尾的基频,或(b)紧接重音核心的音韵段和重音短语结尾的基频,或(c)从重音核心起的第二音韵段和刚好在重音短语结尾前的音韵段的基频,或(d)紧接重音核心的音韵段和刚好在重音短语结尾前的音韵段的基频进行内插,产生从重音核心起的第二音韵段到刚好在包括预定四个或更少数量音韵段的重音短语结尾前的音韵段的基频,和
(6)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的音韵段的基频产生将为其产生基频的重音短语结尾的基频特性曲线。
本发明提供了一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频的重音短语的重音位置包括在重音短语结尾的音韵段中时,
(1)使用基频数据库中存储的基频特性曲线,其中将为其产生基频的重音短语的重音短语结尾中重音的位置和该重音短语结尾中重音的位置相同,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从将为其产生基频的重音短语的第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和包括重音核心的音韵段的基频,或(b)包括基频峰值的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频,或(c)紧接包括基频峰值的音韵段的音韵段和包括重音核心的音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到刚好在重音核心之前的音韵段的基频,和
(4)通过从包括基频数据库中存储的基频特性曲线的重音核心的音韵段到重音短语的最后音韵段应用基频,产生从包括将为其产生基频的重音短语的重音核心的音韵段到该重音短语的最后音韵段的基频。
本发明提供了一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频的重音短语的重音类型为降音型时,
(1)使用基频数据库中存储的基频特性曲线,基频数据库中存储的基频特性曲线对应于与将为其产生基频的降音型重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和重音短语结尾或最后音韵段的基频,或(b)包括基频峰值的音韵段和该重音短语结尾或刚好在最后音韵段之前的音韵段的基频,或(c)紧接包括基频峰值的音韵段的音韵段和重音短语结尾或最后音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和重音短语结尾或刚好在最后音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到重音短语结尾或刚好在最后音韵段之前的音韵段的基频,
(4)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的音韵段或最后音韵段的基频,产生将为其产生基频的重音短语的重音短语结尾或最后音韵段的基频特性曲线。
本发明提供了一种基频特性曲线产生方法,使用存储重音短语基频特性曲线的基频数据库,根据重音短语在句子短语中的位置和重音短语是否位于句子结尾来对所述基频特性曲线分类。
本发明提供了一种基频特性曲线产生方法,使用存储重音短语的基频特性曲线的基频数据库,并使用存储用于改变下列一个或多个特征的基频特性曲线变化量的变化数据库,这些特征包括:根据将为其产生基频的重音短语在句子短语中的位置在基频数据库中存储的基频特性曲线的起始点;峰值;最小值;重音核心;重音下降;重音结尾;结束点;和动态范围。
本发明提供了一种基频特性曲线产生方法,其中当产生通过连接多个重音短语形成的一个句子短语的基频特性曲线时,根据重音短语在该句子短语中的位置利用预定规则改变下列一个或多个特征:
存储重音短语的基频特性曲线的基频数据库中存储的和从该基频数据库获得的基频特性曲线的起始点;峰值;重音核心;重音下降;重音短语结束;和结束点。
本发明提供了一种基频特性曲线产生方法,其中当产生通过连接多个重音短语形成的一个句子短语的基频特性曲线时,根据从该句子短语的预定位置到刚好在包括将为其产生基频的特征的音韵段之前的音韵段的音韵段数量利用预定规则改变下列一个或多个特征:
从存储重音短语的基频特性曲线的基频数据库获得的基频特性曲线的起始点;峰值;重音核心;重音下降;重音短语结束;和结束点。
本发明提供了一种用于为每个重音短语产生一个基频特性曲线的基频特性曲线产生方法,
其中通过改变将为其产生基频特性曲线的重音短语的下列一个或多个特征:重音下降;重音短语结尾;和重音短语的结束点,使重音短语结尾和重音短语结束点的基频与紧接该重音短语的重音短语起始点的基频之间的差值不大于一个预定阈值。
本发明提供了一种用于产生重音短语基频的基频特性曲线发生器,包括:
一个基频数据库,用于存储(1)通过用音韵段的时间长度标准化至少下列音韵段:重音短语的第一音韵段;基频取最大值的音韵段;重音核心的音韵段和紧接该重音核心的音韵段,以及在结尾的一个音韵段之一的基频特性曲线获得的基频特性曲线,或(2)用音素的时间长度标准化至少所述音韵段之一中包括的音素的基频特性曲线获得的基频特性曲线;和
一个基频特性曲线产生部分,用于(3)设定下列音韵段:将为其产生基频的重音短语的第一音韵段;基频取重音短语中最大值的音韵段;该重音核心的音韵段和紧接重音短语中该重音核心的音韵段;和重音短语结尾的音韵段的全部或部分的基频特性曲线,或(4)参考基频数据库设定所述音韵段中包括的每个音素的基频特性曲线,所述基频特性曲线产生部分用实时轴上的函数内插音韵段之间或在基频特性曲线设定阶段中仍未设定基频特性曲线的音素之间的基频特性曲线。
本发明提供了一种用于产生重音短语基频的基频特性曲线发生器,包括:
一个基频数据库,用于存储用根据音韵段的数量和重音位置中的一个或二者分类的一个音韵段中包括的每个音素的时间长度标准化的基频特性曲线;
一个微韵律数据库,用于存储用音素的时间长度标准化的每个音韵段或每个音素串的基频与频率特性曲线之间的差值,所述差值按音韵段或音素串分类;和
一个基频特性曲线产生部分,用于通过参考基频数据库设定每个重音短语的基频特性曲线来产生该重音短语的基频,获得与将为其产生基频的音素或音韵段串对应的值,把该对应值加到设定的基频,或从设定的基频减去该对应值。
本发明提供了一种基频特性曲线发生器,包括:
一个重音短语位置基频数据库,用于存储一个重音短语的基频特性曲线,根据该重音短语在通过连接多个重音短语形成的句子短语中的位置,和该重音短语是否位于一个句子的结尾来对所述基频特性曲线分类;和
一个基频特性曲线产生部分,用于参考重音短语位置基频数据库设定构成该句子短语的重音短语的基频特性曲线。
图1是根据本发明的基频产生器的功能方框图;
图2是由本发明第一实施例产生的一个基频特性曲线例子的示意图;
图3是由本发明第二实施例产生的一个基频特性曲线例子示意图;
图4是本发明的一个实施例的装置的功能方框图;
图5是根据本发明的一个基频特性曲线例子的示意图;
图6是根据本发明的一个基频特性曲线例子的示意图;
图7是本发明一个实施例的装置的功能方框图;
图8是存储在微韵律数据库250中的微韵律成分的示意图;
图9是根据本发明的一个基频特性曲线例子的示意图;
图10是本发明的一个实施例的装置的功能方框图;
图11(A)和11(B)是根据本发明的一个基频特性曲线例子的示意图;
图12(A)和12(B)是根据本发明的一个基频特性曲线例子的示意图;
图13(A)和13(B)是根据本发明的一个基频特性曲线例子的示意图;
图14(A)和14(B)是根据本发明的一个基频特性曲线例子的示意图;
图15是根据本发明的基频特性曲线示意图;
图16是本发明一个实施例的装置的功能方框图;
图17(A)和17(B)是根据本发明的基频特性曲线示意图;
图18是根据本发明的基频特性曲线示意图;和
图19是本发明的基频特性曲线的重音短语连接部分的示意图。
[参考标号说明]
10字符串输入部分
20字符串分析部分
30音韵段时间长度数据库
40时间长度设定部分
50短音节尖长度标准化基频数据库
60基频特性曲线产生部分
70声带振动产生部分
150元音时间长度标准化基频数据库
250微韵律数据库
350基频特性曲线变化数据库
450重音短语位置基频数据库
下面,将参照图1到19描述本发明的实施例。
(第一实施例)
图1是本发明一个实施例的装置的功能方框图。在图1中,参考标号10代表一个用于输入进行语音合成的字符串的字符串输入部分。参考标号20代表一个字符串分析部分,它用来分析从字符串输入部分10输入的字符串并输出诸如将要合成的语音的重音和停顿等音韵段信息和韵律信息。参考标号30代表音韵段时间长度数据库,它存储每一个例如发声速度和发声过程中的音韵段位置的情况的每一个音韵段的时间长度。参考标号40代表一个时间长度设定部分,根据从字符串分析部分20输出的音韵段信息和韵律信息参考音韵段时间长度数据库30设定每一个音韵段的时间长度。参考标号50代表短音节时间长度标准化基频数据库,它存储由短音节的时间长度标准化的每一个短音节的基频特性曲线,标准化参照确定例如短音节数量、重音类型和重音短语的音韵段串等韵律的因素情况进行。参考标号60代表基频特性曲线产生部分,根据从字符分析部分20输出的韵律信息和时间长度设定部分40设定的音韵段时间长度参考短音节时间长度标准化基频数据库50来产生基频特性曲线。参考标号70代表声带振动产生部分,根据从基频特性曲线产生部分输出的基频特性曲线来产生声带振动。声带振动产生部分70产生合成语音的声源振动。图2所示为本发明的基频特性曲线的例子。
下面将描述如上所述的基频特性曲线产生器的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串(图2中,字符串“オンセ?ウ椿ウ?北硎居镆艉铣桑;W址鞨.治霾糠20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60基于韵律信息和从字符串分析部分20输入的音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
首先,如图2中(a)所示,从短音节时间长度标准化基频数据库50得到重音短语的第一短音节的基频特性曲线。然后,基于短音节数和重音短语的重音类型识别基频取最大值的短音节,并且如图2的(b)所示,从短音节时间长度标准化基频数据库50得到所识别的短音节的基频特性曲线。如图2中(c)和(d)所示,从短音节时间长度标准化基频数据库50得到重音核心的短音节以及紧跟重音核心的短音节的基频特性曲线,并得到重音短语最后短音节的基频特性曲线。利用在实时轴上对作为如图2中(b)和(c)以及(c)和(d)之间的间隔进行线性内插,来确定图2中(e),(f)和(g)的基频特性曲线。声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过应用涉及重音短语的上升和其定时和角度极大影响语言自然度的重音核心处的下降时间和角度标准化得到的基频特性曲线,详细地再现短音节基频的变化并实现很高的自然性。至于对收听影响不大的部分,通过在实时轴上进行内插,去掉了对每一个短音节进行控制中的间断感觉并且减小了基频特性曲线数据库的规模。
第二实施例
图4是本发明一个实施例装置的功能方框图。图4与图1基本相同,只是由元音时间长度标准化基频数据库150a代替短音节时间长度标准化基频数据库50。对应于确定例如短音节数、重音短语的重音类型和韵律段串等韵律的因素,每一个短音节的元音部分的时间长度被分为四个相等的部分,并且每一部分的基频特性曲线的典型值被作为该部分中点的数值存储在元音时间长度标准化基频数据库150a中。
图3给出了根据本发明的基频特性曲线的例子。下面将描述它的操作。首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数和每一个重音短语的重音类型的韵律信息以及代表音素串的音韵段信息输出到基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
首先,基于短音节数、重音短语的重音类型和音韵段串,从元音长度标准化基频数据库150a得到下面这些参考点:a)上升参考点,它在与基频取最大值的短音节部分对应的四等分元音部分中第三部分的中点;b)下降参考点,它与对应于重音核心的短音节部分对应的四等分元音部分中的第三部分的中点;c)下降参考点,它在与紧跟重音核心的短音节部分对应的四等分元音中的第三部分的中点;d)重音短语结束参考点,它在与重音短语的最后短音节部分对应四等分元音中的第二部分的中点;和e)字词结束参考点,它在与最后短音节部分对应四等分元音中的第三部分的中点。
然后,将每一个参考点设置在与相应短音节的元音时间长度有关的位置。为使a)上升参考点取最大值,利用对数频率轴上的临界阻尼二次线性***在实时轴上内插重音短语的开头到a)上升参考点之间的间隔。对每一部分,利用对数频率轴上的临界阻尼二次线性***在实时轴上内插a)到d)的参考点每两个点之间的间隔。当重音短语的结束是发声的结束时,由作为实时轴上函数的字词结束函数内插d)重音短语结束参考点和e)字词结束参考点之间的间隔。声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在用短音节的元音长度标准化的时间轴上设置重音短语的上升定时和其定时极大影响语言自然性的重音核心的下降定时,详细地再现短音节中基频变化的时间。对于上升和下降角度,通过使用实时轴上的函数,可以得到光滑的基频特性曲线,其中上升和下降是稳定的,不受由于音韵段造成的时间长度的差异的影响,因此实现很高的自然性。至于对收听影响不大的部分,通过在实时轴上进行内插,去掉了对每一个短音节进行控制的间断感觉并且减小了基频特性曲线数据库的规模。
第三实施例
没有给出本发明的实施例的装置的功能模块图,因为它与图4基本相同,只是上述第二实施例中的数据库150a被元音时间长度标准化基频数据库150b所代换,它存储每一个短音节的元音部分的基频特性曲线,短音节由每一个短音节的元音部分时间长度和重音短语的开头基频相对应的确定例如元音数、重音短语的重音类型和音韵段串等韵律的因素的情况的进行标准化。
图5所示为根据本发明的基频特性曲线的例子。
下面将描述结构如上所述的基频特性曲线产生器的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串(图5中,字符串“oNse-go-se-”表示语音合成)。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个短音节的时间长度或在单元音音节、音节鼻音或长元音的相应部分的元音的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
首先,如图5中A所示,从元音时间长度标准化基频数据库150b得到重音短语开头的基频。然后,如图5中a)所示,从元音时间长度标准化基频数据库150b得到重音短语的第一短音节的元音部分的基频。在本实施例中,由于第一短音节是一个单元音音节,如图5中a)所示,从元音时间长度标准化基频数据库150b得到的基频特性曲线被提供给相关短音节的时间长度的后半段。对b),c),d),e),f),g)和h),同样通过元音时间长度标准化基频数据库150b得到相应短音节的元音部分的基频特性曲线。对音节鼻音b)和长元音d),f)和h),从元音时间长度标准化基频数据库150b得到的基频特性曲线同样提供给相关短音节的时间长度的后半段。然后,通过在基于前后基频的实时轴上使用线性内插,产生浊辅音的单元音音节、音节鼻音和长元音的前半段的基频或a’),b’),d’),e’),f’),和h’)的基频。声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生语音合成的声带振动。
通过应用用相关短音节的元音时间长度,重音短语的定时和上升角度及定时和角度极大影响语言自然度的重音核心处的下降标准化得到的基频特性曲线,详细地再现短音节基频的变化并实现很高的自然性。至于对收听影响不大的部分,通过在实时轴上进行内插,去掉了对每一个短音节进行控制中的间断感觉并且减小了基频特性曲线数据库的规模。
第四实施例
在第四实施例中,元音时间长度标准化基频数据库150a是一个元音时间长度标准化基频数据库,其中对于确定例如短音节数、重音短语的重音类型和音韵段等韵律的因素情况,将A)第一基频,B)上升参考点,C)下降参考点(重音核心),D)下降参考点(紧跟重音核心),E)重音短语结束参考点,和F)字词结束参考点存储在相对于包括参考点的短音节的元音时间长度的位置上。该装置的其它部分的结构与图4相同。图6给出了根据本发明的基频特性曲线的例子。下面将描述它的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。首先,根据短音节数、重音短语的重音类型和音韵段,从元音时间长度标准化基频数据库150a得到参考点A)到F)。然后,每一个参考点被设置到与短音节的元音长度相关的位置。通过使用实轴上的函数产生A)第一基频到B)上升参考点之间的间隔。进一步,通过在实时轴上按直线进行内插产生参考点B)到F)的每两点之间的基频特性曲线。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在由相关短音节的元音长度标准化的时间轴上设置重音短语的上升定时和定时极大影响语音自然度的重音核心的下降定时,详细地再现短音节中基频变化的时间。对于上升和下降角度,通过使用实时轴上的函数,可以得到光滑的基频特性曲线,其中上升和下降是稳定的,不受由于音韵段造成的时间长度的差异的影响,因此实现很高的自然性。至于对收听影响不大的部分,通过在实时轴上进行内插,去掉了对每一个短音节进行控制中的间断感觉并且减小了基频特性曲线数据库的规模。
第五实施例
图7是给出本发明一个实施例的装置的功能方框图。图7与图4基本相同,只是在元音时间长度标准化基频数据库150a中,相对于短音节数和重音短语的重音类型的情况,将a)上升参考点,b)下降参考点(重音核心),c)下降参考点(紧跟重音核心),d)重音短语结束参考点,和e)字词结束参考点存储在与元音时间长度有关的位置上或包括参考点的短音节的元音的相应部分上,并且增加一个微韵律数据库250,它存储通过由由音素的时间长度标准化的音韵段或音素串造成的基频的微小变化,存储在元音时间长度标准化基频数据库150a中的参考点和通过在参考点之间的间隔内插得到的数值之间的差值。
图8是存储在微韵律数据库250中的微韵律成分的示意图。图9给出了一个根据本发明的基频特性曲线的例子。
下面将描述结构如上所述的基频特性曲线产生器的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。首先,根据短音节数和重音短语的重音类型,从元音时间长度标准化基频数据库得到下面这些参考点:a)上升参考点,它在与基频取最大值的短音节部分对应的四等分元音部分中的第三部分的中点;b)下降参考点,它在对应于重音核心的短音节部分对应的四等分元音部分中的第三部分的中点;c)下降参考点,它在与重音核心相邻的短音节部分对应的四等分元音部分中的第三部分的中点;d)重音短语结束参考点,它在与重音短语的最后短音节部分对应的四等分元音中的第二部分的中点;和e)字词结束参考点,它在与最后短音节部分对应的四等分元音中的第三部分的中点。
然后将每一个参考点设置在与相应短音节的元音时间长度有关的位置上。为使a)上升参考点取最大值,利用对数频率轴上的临界阻尼二次线性***在实时轴上内插重音短语的开头到a)上升参考点之间的间隔。对于每一部分,利用对数频率轴上的临界阻尼二次线性***在实时轴上内插a)到e)的参考点中每两个点之间的间隔来产生一个如图9中(A)的基频特性曲线。然后,从微韵律数据库250得到对应于每一个音素的基频中的微小变化,并且根据每一个音素的时间长度扩展或压缩得到的变化并且如图9中(B)所示提供该变化。微小变化(B)被加到基频(A)上,从而产生一个如图(C)所示的基频特性曲线。声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在由相关短音节的音素时间长度标准化的数轴上设置重音短语的上升定时和的重音核心的下降定时,详细地再现出短音节中的基频的时间变化,并且通过加上对语音的自然性和清晰度影响很大的基频中的微小变化,实现较高的自然性和清晰度。
第六实施例
图10是给出本发明一个实施例的装置的功能方框图。图10与图1基本相同,只是短音节时间长度标准化基频数据库50被音素时间长度标准化基频数据库351所代替,它对于短音节数和重音短语的重音类型的情况,将a)第i个短音节的上升参考点即基频特性曲线的顶点,b)下降参考点(重音核心),c)下降参考点(紧跟重音核心),和d)在重音短语结尾的k短音节的重音短语结束参考点存储在与包括参考点的短音节的音素的时间长度的相应位置上,并且增加一个基频特性曲线变化数据库350,它存储将为其产生基频的重音短语的每一个位置在语句短语中的重音短语的峰值和结尾的基频变化量。
图11,12,13和14是当对应于为其产生基频特性曲线的短音节数和重音短语的重音类型的基频特性曲线数据没有存储在音素长度标准化基频特性曲线数据库351时产生的基频特性曲线的示意图。图15是通过连接多个重音短语的基频特性曲线构成的语句基频特性曲线的示意图。下面将描述它的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
首先,根据短音节数,重音短语的重音类型和音韵段串,从音素时间长度标准化基频数据库351中得到下面这些参考点:a)上升参考点,b)下降参考点,c)下降参考点,和d)重音短语结束参考点或d’)最后短音节。
在对应于为其产生基频特性曲线的短音节数和重音短语的重音类型的基频特性曲线数据没有存储在音素长度标准化基频特性曲线数据库351中的情况下,设为其产生基频特性曲线的重音短语的短音节数为n并且它的重音类型为m类,当m不大于i+1时,如图11(A)所示,从音素长度标准化基频特性曲线数据库351中得到重音类型为m类并且短音节数最接近n的1-短音节m类基频特性曲线a)到d),并如图11(B)所示,从音素长度标准化基频特性曲线数据库351中得到的d)被设置为用于产生基频的第n-k+1短音节到第n短音节的参考点。
当m超过i+1并且不大于n-k时,如图12(A)所示,从音素长度标准化基频特性曲线数据库351中得到重音核心的短音节位置j超过i+1并且不大于1-k并且短音节数最接近n的1-短音节j类基频特性曲线a)到d),并且如图12(B)所示,从音素长度标准化基频特性曲线数据库351中得到的b)和c)被设置为为其产生基频的重音短语的第m短音节和第m+1短音节的参考点并且从音素长度标准化基频特性曲线数据库351中得到的d)被设置为将为其产生基频的重音短语的第n-k+1短音节到第n短音节的参考点。
当m超过n-k时,如图13(A)所示,从音素长度标准化基频特性曲线数据库351中得到重音核心的短音节位置j超过1-k并且短音节数最接近n的1-短音节j类基频特性曲线的a)到d’),并且如图13(B)所示,从音素长度标准化基频特性曲线数据库351中得到的d’)包括b)和c)被设置为将为其产生基频的重音短语的第n-k+1短音节到第n短音节的参考点。当为其产生基频的重音短语具有n-短音节降音类型时,如图14(A)所示,从音素长度标准化基频特性曲线数据库351中得到重音类型是降音类型并且短音节数最接近n的1-短音节降音类型基频特性曲线的a)和d),并且如图13(B)所示,从音素长度标准化基频特性曲线数据库351中得到的d)被设置为将为其产生基频的重音短语的第n-k+1短音节到第n短音节的参考点。
然后,根据变化量改变每一个重音短语的基频最大值和具有参考点a)到d)或d’)的基频,其中为语句短语中的每一个重音短语的位置存储从音素长度标准化基频特性曲线数据库351中得到的重音短语基频特性曲线或由音素长度标准化基频特性曲线数据库351中得到的参考点产生的重音短语基频特性曲线。
首先,根据存储在基频变化数据库350中的第一重音短语变化量,如图15(A)所示,改变基频b),c)和d)以使a)和d)之间的基频差是从音素长度标准化基频特性曲线数据库351中得到的基频差的90%。对于第二重音短语,如图15(B)所示,基频a)的值改变为从音素长度标准化基频特性曲线数据库351中得到的基频的75%,并且改变基频b),c)和d)以使a)和d)之间的基频差是从音素长度标准化基频特性曲线数据库351中得到的基频差的70%。同样地,对于第三重音短语,如图15(C)所示,基频a)的值改变为从音素长度标准化基频特性曲线数据库351中得到的基频的70%,并且改变基频b),c)和d)以使a)和d)之间的基频差是从音素长度标准化基频特性曲线数据库351中得到的基频差的68%。
当对应于第n重音短语的变化量没有存储在基频变化数据库350中时,则将应用对应于其值小于n并最接近n的重音位置。在该实施例中,给出了第四重音短语的变化量没有存储在基频变化数据库350中的情况。
应用其重音位置值小于4并最接近4的第三重音短语的变化量,进行如图15(D)中所示的类似于在第三重音短语中的改变。对于作为短语结尾的最后重音短语,从基频变化数据库350得到对应于最后重音短语的变化量,并且如图15(E)所示,基频a)的值改变为从音素长度标准化基频特性曲线数据库351中得到的基频的48%并且改变基频b),c)和d)以使a)和d)之间的基频差是从音素长度标准化基频特性曲线数据库351中得到的基频差的60%。
然后,对于每一个重音短语,象在第二或第四实施例中一样通过使用实时轴上的函数产生从重音短语开头到a)的基频,并且在实时轴上对每两个参考点之间的间隔进行内插来产生直到重音短语结尾的基频特性曲线。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在由短音节的元音长度标准化的时间轴上设置重音短语的上升定时和定时极大影响语音的自然度的重音核心的下降定时,可以得到不受由于音韵段的时间长度的差别影响的上升和下降是稳定的光滑的基频特性曲线,从而实现很高的自然性。进一步,通过扩展基频特性曲线,可以减小数据库的规模。此外,通过改变基于语句短语中重音短语位置的基频特性曲线,形成一个整体短语,因此能够实现自然的语句语音。
第七实施例
图17(A)是通过连接多个重音短语的基频特性曲线构成的语句基频特性曲线的示意图。该装置结构与图1相同。下面将描述它的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
如图17(A)所示,首先,从短音节时间长度标准化基频数据库50中得到对应于第一重音短语1701的短音节数和重音类型的基频特性曲线1711,并且应用得到的基频特性曲线1711。
为其基频通过第一重音短语1701的基频最大值a的第n重音短语得到一个表达式1,它表示重音短语的基频的最大值,并使代表第n重音短语位置的i值每增加一次该最大值减小10%。
(-0.1i+1)a  …表达式1
这里,a是第一重音短语1701的基频最大值。重音短语数i等于n-1,i值代表第n重音短语来自于第一重音短语。
进一步,为其频率通过第一重音短语1701的重音短语结束频率b的第n重音短语得到一个表达式2,它表示重音短语结束的频率,并使代表第n重音短语位置的i值每增加一次该频率b减小5%。
(-0.05i+1)b  …表达式2
这里,b是第一重音短语1701的重音短语结束频率。
然后,从短音节时间长度标准化基频数据库50得到对应于第二重音短语1702的短音节数和重音类型的基频特性曲线1712(图中以虚线代表)。由于第二重音短语的重音短语数i的值是1,将1代入表达式1来得到基频特性曲线1712的已变化最大值a2。同样地,由表达式2得到基频特性曲线1712的重音短语结束的变化后频率b2。
为了与如此得到的已改变最大值a2和重音短语结束的已改变频率b2相一致,在改变从短音节时间长度标准化基频数据库50得到的基频特性曲线1712后,将已改变基频特性曲线1713作为第二重音短语1702的基频特性曲线。
对于第n重音短语,当相关的重音短语不是最后的重音短语(语句结尾),则从短音节时间长度标准化基频数据库50得到对应于第n重音短语的短音节数和重音类型的基频特性曲线。然后,改变从短音节时间长度标准化基频数据库50得到的基频特性曲线从而使得到的基频特性曲线的最大值与从表达式1得到的值相一致,并且使得到的基频特性曲线的重音短语结束频率与从表达式2得到的值相一致,并将改变的基频特性曲线作为第n重音短语的基频特性曲线。
进一步,当将为其产生基频的重音短语是语句结尾时,从短音节时间长度标准化基频数据库50得到对应于短音节数和重音类型的基频特性曲线。然后,改变从数据库50得到的基频特性曲线,从而使它的最大值与相应的重音短语前面的一个重音短语的最大值低15%的值相一致,并且使重音短语频率与相应的重音短语前面的一个重音短语的结束频率低10%的值相一致,并提供已改变的基频特性曲线。如果相应基频特性曲线的数据没有存储在短音节时间长度标准化基频数据库50中,象在第六实施例中一样产生重音短语的基频特性曲线并改变产生的基频特性曲线。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在由相关短音节的时间长度标准化的时间轴上的设定,能够得到光滑基频特性曲线,其中上升和下降是稳定的,不受由于音韵段的时间长度的不同的影响,因此实现很高的自然性。进一步,通过改变基于语句短语中重音短语位置的基频特性曲线,形成一个整体短语,因此能够实现自然的语句语音。
在上述实施例中,只有当为其产生基频特性曲线的重音短语在语句的结尾时,才使用紧邻的重音短语的预先确定的位置作为参考,通过预先确定的比例减小频率并使用减小的频率。作为对上述实施例的改进,对于在一个不是语句结尾的位置上的重音短语,可以使用同上述实施例一样的规则压缩它的频率。即,在该修改中,例如,如图17(B)所示,对除了语句结尾的重音短语外的第二重音短语到第n重音短语,从它们每一个得到下面这些值:一个小于前面一个重音短语的最大值10%的值(例如,图中的a2);和一个小于前面一个重音短语的重音短语结束频率5%的值(例如,图中的b2)。
然后,例如,对第二重音短语,当改变从短音节时间长度标准化基频数据库50得到的基频特性曲线1712从而使它与如此得到的改变的最大值a2和重音短语结尾的改变的频率b2相一致,改变的基频特性曲线1713作为第二重音短语1702的基频特性曲线。将其应用于第n重音短语。当为其产生基频的重音短语是语句的结尾时,使用与图17(A)类似的方法。
第八实施例
图18是通过连接多个重音短语的基频特性曲线构成的语句基频特性曲线的示意图。该装置结构与图1相同。下面将描述它的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
如图18所示,首先,从短音节时间长度标准化基频数据库50中得到对应于第一重音短语1801的短音节数和重音类型的基频特性曲线1811,并且应用得到的基频特性曲线1811。
为其基频通过第一重音短语1801的基频最大值a的累积短音节数j得到一个表达式3,它表示重音短语的基频的最大值,并使来自包括第一重音短语基频的最大值a的短音节位置的短音节数每增加一次,该重音短语1801的最大值a减小2%。
(-0.2i+1)a  …表达式3
这里,a是第一重音短语1801的基频最大值,并且累积短音节数j是计数短音节的数目,它包括第一重音短语的基频的最大值a,并用作短音节位置的参考(图中水平轴的原点)。
为其基频通过第一重音短语1801的基频最大值a的累积短音节数j得到一个表达式4,它表示重音短语结尾的频率,并使来自包括第一重音短语基频的重音短语结束频率b的短音节位置的短音节数每增加一次,该重音短语1801的重音短语结束频率b减小1%。
(-0.01i+1)b  …表达式4
这里,b是第一重音短语1801的重音短语结束频率。
然后,从短音节时间长度标准化基频数据库50得到对应于第二重音短语1802的短音节数和重音类型的基频特性曲线1812(图中以虚线代表)。这时,得到取最大值1812a的短音节是距起点短音节的第j2a短音节,并将它代入表达式3作为累积短音节数来得到基频特性曲线1812的改变的最大值a2。进一步,得到第二重音短语1802重音短语结束1812b是距起点短音节的第j2b短音节,并将它代入表达式4来得到基频特性曲线1812的改变的重音短语结束频率b2。
为了与如此得到的已改变最大值a2和重音短语结束的已改变频率b2相一致,在改变从短音节时间长度标准化基频数据库50得到的基频特性曲线1812后,将已改变基频特性曲线作为第二重音短语1802的基频特性曲线。
对于第n重音短语,当相关的重音短语不是最后的重音短语(语句结尾)时,则从短音节时间长度标准化基频数据库50得到对应于第n重音短语的短音节数和重音类型的基频特性曲线。然后,得到从原点短音节起取最大值的短音节,并代入表达式3作为累计短音节数,它用来得到基频特性曲线改变的最大值。进一步,得到从原点短音节起的重音短语结尾,并代入表达式4作为累计短音节数,它用来得到基频特性曲线的重音短语结尾的改变的频率。
改变从短音节时间长度标准化基频数据库50得到的基频特性曲线从而使得到的改变的最大值与改变的重音短语结尾频率值相一致,并将改变的基频特性曲线作为第n重音短语的基频特性曲线。当将为其产生基频的重音短语在语句结尾时,则从短音节时间长度标准化基频数据库50得到相应短音节数和重音类型的基频特性曲线。然后,改变得到的基频特性曲线,从而使它的最大值与相应的重音短语前面的一个重音短语的最大值低15%的值相一致,并且使重音短语结束频率与相应的重音短语前面的一个重音短语的结束频率低10%的值相一致,并提供已改变的基频特性曲线。如果相应基频特性曲线的数据没有存储在短音节时间长度标准化基频数据库50中,象在第六实施例中一样产生重音短语的基频特性曲线并改变产生的基频特性曲线。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过在由相关短音节的时间长度标准化的时间轴上的设定,能够得到光滑基频特性曲线,其中上升和下降是稳定的,不受由于音韵段造成的时间长度差异的影响,因此实现很高的自然性。进一步,通过改变基于语句短语中重音短语位置的基频特性曲线,形成一个整体短语,因此能够实现自然的语句语音。
第九实施例
图16是给出本发明的一个实施例的装置的示意图。图16与图1基本相同,只是短音节时间长度标准化基频数据库50被重音短语位置基频数据库450所代换,它存储由每一个短音节的元音部分的时间长度标准化的每一个短音节的元音部分的基频特性曲线,该基频特性曲线根据重音短语是否在语句结尾以及根据确定韵律的因素来分类,这些韵律是例如关于第一到第三重音短语的重音短语的短音节数、重音类型和音韵段串等。
下面将描述结构如上所述的基频特性曲线产生器的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。
时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个短音节的时间长度或在单元音音节、音节鼻音或长元音的相应部分的元音的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。在该实施例中,将描述包括五个重音短语的语句的基频特性曲线的产生。
首先,对于第一重音短语,从重音短语位置基频数据库450中得到对应于为其产生基频特性曲线的重音短语的短音节数和重音类型的基频特性曲线,该重音短语是第一重音短语并且不在语句的结尾。同样,对于每一个第二重音短语和第三重音短语,从重音短语位置基频数据库450得到基频特性曲线。
对于第四重音短语,因为对应于第四重音短语的基频特性曲线没有存储在重音短语位置基频数据库450中,所以从其位置最靠近基频特性曲线不对应语句结尾的第四重音短语的第三重音短语的基频特性曲线得到对应于短音节数和重音类型的基频特性曲线。
对于作为最后重音短语的第五重音短语,因为对应于第四重音短语的基频特性曲线没有存储在重音短语位置基频数据库450中,所以从位置最靠近语句结尾的基频特性曲线的第三重音短语的基频特性曲线得到对应于短音节数和重音类型的基频特性曲线。象第三或第四实施例中一样,在实时轴上对没有基频特性曲线的部分进行内插来产生基频特性曲线。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过使用被相关短音节的元音长度标准化的基频特性曲线,详细再现短音节中的基频变化,并且根据重音短语的位置和重音短语是否位于语句的结尾的情况,可以精确地为每一个语句短语再现基频特性曲线的变化,所以能够组成完整的短语。结果,能够实现自然的语句语音。
第十实施例
图19是当连接多个重音短语的基频特性曲线以产生语句时基频特性曲线连接部分的示意图。该装置结构与图1相同。下面将描述它的操作。
首先,从字符串输入部分10输入将被转换为语音的字符串。字符串分析部分20分析输入的字符串,将表示音素串的音韵段信息输出给时间长度设置部分40,将字符串分为重音短语,并将代表短音节数量和每一个重音短语的重音类型的韵律信息和代表音素串的音韵段信息输出给基频特性曲线产生部分60。时间长度设置部分40根据从字符串分析部分20输入的音韵段信息参考音韵段时间长度数据库30设置每一个音素的时间长度,并将时间长度信息输出到基频特性曲线产生部分60。该基频特性曲线产生部分60根据从字符串分析部分20输入的韵律信息和音韵段信息以及从时间长度设置部分40输入的时间长度信息为每一个重音短语产生基频特性曲线。
首先,从短音节时间长度标准化基频数据库50中得到对应于为其产生基频特性曲线的每一个重音短语的短音节数和重音类型的基频特性曲线并应用得到的基频特性曲线。通过第六、第七或第八实施例的方法,为每一个重音短语改变从短音节时间长度标准化基频数据库50中得到的基频特性曲线。
对于重音短语的改变的基频特性曲线,对于不在语句结尾的第n重音短语,得到图19中e)所示的相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别。
当第n重音短语和第n+1重音短语之间没有停顿时,e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于40Hz。当第n重音短语的重音核心没有包括在重音短语的最后三个短音节中时,在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语结尾参考点的第一短音节或者是重音短语结尾参考点之前的短音节以及超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去40得到的数值的短音节,从而如图19的e)所示光滑地连接第n重音短语和第n+1重音短语。当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于40Hz并且第n重音短语的重音核心包括在重音短语的最后三个短音节中时,在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语核心或者是超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去40得到的数值的短音节,从而光滑地连接第n重音短语和第n+1重音短语。
在第n重音短语和第n+1重音短语之间有一个小于50毫秒的停顿的情况下,当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于50Hz并且第n重音短语的重音核心没有包括在重音短语的最后三个短音节中时,则在频率轴的方向上压缩从一个短音节,该短音节是重音短语结尾参考点的第一短音节或者是重音短语结尾参考点之前的短音节以及超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去50得到的数值的短音节,到第n重音短语的最后短音节的基频特性曲线。当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于50Hz并且第n重音短语的重音核心包括在重音短语的最后三个短音节中时,在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语核心或者是超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去50得到的数值的短音节。
在第n重音短语和第n+1重音短语之间有一个不小于50毫秒并且小于100毫秒的停顿的情况下,当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于70Hz并且第n重音短语的重音核心没有包括在重音短语的最后三个短音节中时,则在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语结尾参考点的第一短音节或者是重音短语结尾参考点之前的短音节以及超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去70得到的数值的短音节。当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于70Hz并且第n重音短语的重音核心包括在重音短语的最后三个短音节中时,在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语核心或者是超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去70得到的数值的短音节。
在第n重音短语和第n+1重音短语之间有一个不小于100毫秒并且小于150毫秒的停顿的情况下,当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于80Hz并且第n重音短语的重音核心没有包括在重音短语的最后三个短音节中时,则在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语结尾参考点的第一短音节或者是重音短语结尾参考点之前的短音节以及超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去80得到的数值的短音节。当e)中所示相关重音短语的最后短音节的元音部分的基频与第n+1重音短语的第一短音节的元音部分的基频之间的差别不小于80Hz并且第n重音短语的重音核心包括在重音短语的最后三个短音节中时,在频率轴的方向上压缩从一个短音节到第n重音短语的最后短音节的基频特性曲线,该短音节是重音短语核心或者是超过通过从第n+1重音短语的第一短音节的元音部分的基频特性曲线中减去70得到的数值的短音节。
声带振动产生部分70根据从基频特性曲线产生部分60输出的基频特性曲线产生合成语音的声带振动。
通过改变为每一个重音短语产生的基频特性曲线的结尾,根据重音短语和其后的重音短语之间的停顿长度,光滑地连接重音短语,以便实现自然的语句语音。
在上面的描述中,在第一实施例,第三实施例和第四实施例中,使用直线作为内插函数,而在第二实施例中,使用对数频率轴上的临界阻尼二次线性***作为内插函数。然而,临界阻尼二次线性***也可以用于第一,第三和第四实施例中,而直线也可以用在第二实施例中。可以类似地使用实时轴上的其它函数。
在第二实施例中,通过使用对数频率轴上的临界阻尼二次线性***对从重音短语的开始到上升参考点的基频特性曲线进行内插,而在第四实施例中,通过应用绘制在实时轴上的基频特性曲线对基频特性曲线进行内插。然而,绘制在实时轴上的基频特性曲线也可以用于第二实施例,而对数频率轴上的临界阻尼二次线性***也可以用于第四实施例。
在第二实施例中,每一个短音节的元音部分的时间长度被分为四个相等的部分并且每一个部分的基频特性曲线的标准值被存储在元音时间长度标准化基频数据库150a。然而,可以存储任何被每一个音素的时间长度标准化的基频特性曲线数据。
在第二和第五实施例中,有关短音节的元音长度的四个相等部分中的第三部分的中点被设置为重音上升参考点。然而,任何对应于元音后半部分的相关位置值也可以设置为参考点。
在第五实施例中,每一个短音节的元音部分的时间长度被分为四个相等的部分并且每一个部分的基频特性曲线的标准值被存储在元音时间长度标准化基频数据库150a。然而,可以存储任何被每一个音素的时间长度标准化的基频特性曲线数据。
在第二和第五实施例中,有关短音节的元音长度的四个相等部分中的第三部分的中点被设置为重音上升参考点。然而,任何对应于元音后半部分的相关位置值也可以设置为参考点。
在第二和第五实施例中,下面两个点被设置为下降参考点:对应于重音核心的短音节的元音部分的四个相等部分中的第三部分的中点;和紧邻重音核心的短音节的元音部分的四个相等部分中的第三部分的中点。然而,任何对应于元音后半部分的相关位置值也可以设置为参考点。
在第二和第五实施例中,重音短语的最后短音节的元音长度的四个相等部分中的第二部分的中点被设置为重音短语结束参考点。然而,任何对应于元音前半部分的相关位置值也可以设置为参考点。
在第二和第五实施例中,发声的最后短音节的元音长度的四个相等部分中的第三部分的中点被设置为字词结束参考点。然而,任何对应于元音后半部分的相关位置值也可以设置为参考点。
在第五实施例中,用与第二实施例类似的方式产生加上微韵律的基频特性曲线。然而,也可以用与第一,第三或第四实施例类似的方式产生它。
在第六实施例中,用与第二实施例类似的方式产生重音短语的基频特性曲线。然而,也可以用与第一,第三或第四实施例类似的方式产生它。
在第六实施例中,依照从数据库得到的变化量改变基频特性曲线的参考点后进行内插。然而,也可以在进行内插后改变基频特性曲线。
在第六实施例中,作为基频特性曲线变化量,为第一重音短语将最大值和重音短语结尾的差别压缩到90%。然而,压缩率可以是70%到100%范围内的任意值。
在第六实施例中,作为基频特性曲线变化量,为第二重音短语将最大值压缩到70%,并且为第三和第n重音短语将最大值压缩到70%。然而,压缩率可以是50%到90%范围内的任意值。
在第六实施例中,作为基频特性曲线变化量,为第二重音短语将最大值和重音短语结尾的差别压缩到70%并且为第三和第n重音短语将最大值和重音短语结尾的差别压缩到68%。然而,压缩率可以是50%到90%范围内的任意值。
在第六实施例中,作为基频特性曲线变化量,为最后重音短语将最大值压缩到48%。然而,压缩率可以是30%到70%范围内的任意值。
在第六实施例中,作为基频特性曲线变化量,为最后重音短语将最大值和重音短语结尾的差别压缩到60%。然而,压缩率可以是40%到80%范围内的任意值。
在第七实施例中,表达式1的系数i是-0.1。然而,它可以是-0.05到-0.4范围内的任意值。
在第七实施例中,表达式2的系数j是-0.05。然而,它可以是-0.2到0范围内的任意值。
在第七和第八实施例中,对于最后的重音短语,基频的最大值是比最后的重音短语的前一个重音短语的最大值小15%的数值。然而,基频的最大值可以是比最后的重音短语的前一个重音短语的最大值小10%到40%的任意数值。
重音短语结尾是比它前一个重音短语的重音短语结尾小10%的数值。然而,它可以是比它前一个重音短语的重音短语结尾小5%到40%的任意数值。
在第八实施例中,表达式3的系数i是-0.02。然而,它可以是-0.01到-0.2范围内的任意值。
在第八实施例中,表达式4的系数j是-0.01。然而,它可以是-0.01到-0.1范围内的任意值。
在第十实施例中,改变从短音节数据长度标准化基频数据库50中得到的基频特性曲线的方法与第六,第七或第八实施例中的方法类似。然而,象在第九实施例中一样,可以根据从重音短语位置基频数据库450中得到的位置得到基频特性曲线。
在第十实施例中,如果第n重音短语与第n+1重音短语之间没有停顿,则改变基频特性曲线以便使第n重音短语的最后短音节的元音部分中心的基频与第n+1重音短语的第一短音节的元音部分中心的基频之间的差别不大于40Hz。然而,可以改变基频特性曲线以使频率差是20Hz到60Hz范围内的任意值。
在第十实施例中,作为用于重音短语下降,重音短语结尾和语句结尾的基频改变的参考,第n重音短语与第n+1重音短语之间的停顿的持续时间被分类为以下四步:小于50秒;不小于50毫秒并且小于100毫秒;不小于100毫秒并且小于150毫秒;和不小于150毫秒。然而,它可以分类为一到八步骤范围内的任何数量的步骤。
在第十实施例中,如果第n重音短语与第n+1重音短语之间的停顿不小于150毫秒,则不改变重音短语下降,重音短语结尾和语句结尾的基频改变。然而,所要改变的停顿持续时间的上限可以是120毫秒到200毫秒范围内的任意值。
在第十实施例中,作为用于重音短语下降,重音短语结尾和语句结尾的基频改变的参考,第n重音短语与第n+1重音短语之间的停顿的持续时间被分类为四步,并且为停顿持续时间的每一步设置第n重音短语最后短音节的元音部分中心与第n+1重音短语的第一短音节的元音部分中心的基频差的上限。然而可以通过下面的一次表达式为停顿持续时间t设置上限:
at+b(Hz)…表达式5
这里,0<a<0.4并且20<b<60。
通过以程序方式实现本发明,在诸如软盘、光盘、IC卡或ROM盒式存储器之类能够记录程序的记录介质中存储该程序并运送存储该程序的记录介质,很容易通过另一个独立的计算机***实现本发明。
在上述实施例中,本发明的音韵段主要对应一个短音节。然而,本发明不限于此;例如,可以是一个音节。就是说,本发明不限于存储如上所述的每个短音节或每个音素数据的基频数据库,而是可以使用存储每个音节或一个音节中包括的每个音素数据的基频数据库。这种情况下,产生与上述相同的效果。就是说,即使在上述所有实施例中用″音节″代替″短音节″也产生与上述相同的效果。
在上述实施例中,基频数据库存储来自结尾的三个短音节的基频特性曲线。然而,通过存储来自结尾的多达四个短音节的基频特性曲线产生明显效果。
如上所述,根据本发明,应用通过用有关短音节的元音长度来标准化重音短语的上升以及在重音核心下降的定时和角度获得的基频特性曲线,实现了在细节上和高度自然地再现短音节中的基频变化,并通过在未对其应用数据库中的特性曲线的实时轴上进行内插,消除了对每个短音节进行控制中的间断感觉,并可减小基频特性曲线数据库的规模。作为替换,通过在用有关短音节的元音长度标准化的时间轴上设定重音短语的上升和在重音核心下降的定时,详细再现短音节中基频中变化的定时,对于上升和下降角度,通过在实时轴上使用该函数,可获得平滑的基频特性曲线,其中上升和下降稳定,不受音韵段造成的时间长度差的影响,以便消除对每个短音节进行控制中的间断感觉并实现高度的自然性。另外,通过使用内插,可减小基频特性曲线数据库的规模。因此,本发明的效果在实用中非常显著。
如上所述,第一种方法是一种基频特性曲线产生方法,其中为产生一个基频特性曲线,使用一个音素时间长度标准化的基频数据库,该数据库针对每个短音节在重音短语中的位置存储用有关短音节的音素时间长度标准化的基频特性曲线;参考包括重音短语基频的最大值,重音核心的短音节和紧接该重音核心的短音节,以及在重音短语结尾的一个或多个短音节中的每个短音节的数据库设定每个短音节中的基频特性曲线;对其基频不是从数据库设定的部分,用实时轴上的函数内插从数据库设定的基频之间的间隔。
第二种方法是一种基频特性曲线生成方法,其中为产生一个基频特性曲线,使用一个音素时间长度标准化的基频数据库,该数据库针对每个短音节在重音短语中的位置存储用有关短音节的音素时间长度标准化的基频特性曲线;在与有关短音节的元音长度成固定比率的时刻设定提供重音短语基频最大值的上升参考点,提供重音下降的下降参考点,提供在重音短语结尾的基频的重音短语结尾参考点和提供发音结尾的基频的字结尾参考点;参考该数据库为每个参考点设定基频;对每两个参考点之间的基频执行由实时轴上的函数的内插。
第三种方法是一种基频特性曲线生成方法,其中为产生一个基频特性曲线,使用一个音素时间长度标准化的基频数据库,该数据库存储用元音或有关短音节的元音对应部分的时间长度标准化的基频特性曲线;参考包括重音短语基频最大值,重音核心的短音节和紧接该重音核心的短音节,以及重音短语结尾的一个或多个短音节中的每个短音节的数据库设定每个短音节中的基频特性曲线;对其基频不是从该数据库设定的部分,用实时轴上的函数内插从数据库设定的基频之间的间隔。
第四种方法是一种基频特性曲线生成方法,其中为产生一个基频特性曲线,使用一个音素时间长度标准化的基频数据库,该数据库存储由元音的时间长度或有关短音节的元音对应部分标准化的基频特性曲线;在与有关短音节的元音长度成固定比率的时刻设定提供重音短语基频最大值的上升参考点,提供重音下降的下降参考点,提供重音短语结尾的基频的重音短语结尾参考点和提供发音结尾的基频的字结尾参考点;参考数据库为每个参考点设定基频;对每两个参考点之间的基频执行由实时轴上的函数的内插。
第五种方法是一种基频特性曲线生成方法,其中为产生一个基频特性曲线,使用下列数据库:针对每个短音节在重音短语中的位置存储用有关短音节的音素时间长度标准化的基频特性曲线的音素时间长度标准化基频数据库;存储通过用音素时间长度标准化每个音素或每个音韵段串的基频获得的一个值与基频特性曲线之间的差异的微韵律数据库,并将微韵律数据加到从音素时间长度标准化的基频数据库获得的基频特性曲线,或从获得的基频特性曲线减去微韵律数据。
第六种方法是一种基频特性曲线生成方法,用于利用音素时间长度标准化的基频数据库产生每个重音短语的基频特性曲线,基频数据库针对每个短音节在重音短语中的位置存储用有关短音节的音素时间长度标准化的基频特性曲线。在该方法中,当与短音节的数量和将为其产生基频的重音短语的重音类型对应的基频特性曲线未存储在音素时间长度标准化的基频数据库中时,使用该数据库中的基频特性曲线,将为其产生基频的重音短语为n短音节m型,从数据库获得的基频特性曲线为1短音节j型,包括获得的基频特性曲线最大值的短音节的位置是i,并且在获得的基频特性曲线的重音短语结尾的短音节的数量为k,当m≤i+1时,对第一至第m+1个短音节应用从数据库获得的第一至第j+1个短音节的基频特性曲线,对第n-k+1至第n个短音节应用从数据库获得的第l-k+1个至第1个短音节的基频特性曲线,并对其之间的短音节进行实时轴上的内插,从而产生一个基频特性曲线。当i+1<m≤n-k+1时,对第一至第i个短音节应用从数据库获得的第一至第i个短音节的基频特性曲线,对第m和第m+1个数据库应用从数据库获得的第j至第j+1个短音节的基频特性曲线,对第n-k+1至第n个短音节应用从数据库获得的第l-K+1至第1个短音节的基频特性曲线,并对其之间的短音节进行实时轴上的内插,从而产生一个基频特性曲线。当m>n-k+1时,对第一至第i个短音节应用从数据库获得的第一至第i个短音节的基频特性曲线,对第m至第n个短音节应用从数据库获得的第j至第1个短音节的基频特性曲线,并对其之间的短音节进行实时轴上的内插,从而产生一个基频特性曲线。
第七种方法是一种基频特性曲线生成方法,利用基频数据库产生基频特性曲线,在该数据库中根据重音短语在句子短语中的位置以及重音短语是否位于句子结尾来对重音短语的基频特性曲线分类。
第八种方法是一种基频特性曲线生成方法,其中使用下列数据库:存储重音短语基频的基频数据库;和根据重音短语在句子短语中的位置以及重音短语是否位于句子结尾来存储基频特性曲线的变化量的变化数据库,并且根据从变化数据库获得的变化量改变从基频数据库获得的基频特性曲线,从而产生一个基频特性曲线。
第九种方法是一种基频特性曲线生成方法,其中使用存储重音短语的基频特性曲线的基频数据库,并由重音短语在句子短语中的位置i的函数改变从基频数据库获得的基频特性曲线。
第十种方法是一种基频特性曲线生成方法,其中使用存储重音短语的基频特性曲线的基频数据库,对于作为用于决定基频特性曲线的参考作用的短音节,用参考短音节在句子短语中的位置j的函数改变从基频数据库获得的基频特性曲线。
第十一种方法是一种基频特性曲线生成方法,其中为每个重音短语产生基频特性曲线,改变有关重音短语的特征,即其重音下降,重音结尾和结束点,以使有关重音短语的重音结尾和结束点的频率与下一个重音短语起始点之间的差值不大于预定值。

Claims (8)

1.一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频的重音短语的重音位置与紧接包括基频数据库中存储的基频的峰值的音韵段位置的音韵段位置相同或在其之前时,
(1)使用基频数据库中存储的基频特性曲线,该基频特性曲线具有与将为其产生基频特性曲线的重音短语的重音位置相同的重音位置,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频特性曲线的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到紧接重音核心的音韵段应用基频来产生从第一音韵段到紧接重音核心的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)从重音核心起的第二音韵段和重音短语结尾的基频,或(b)紧接重音核心的音韵段和重音短语结尾的基频,或(c)从重音核心起的第二音韵段和刚好在重音短语结尾前的音韵段的基频,或(d)紧接重音核心的音韵段和刚好在重音短语结尾前的音韵段的基频进行内插,产生从重音核心起第二音韵段到刚好在包括预定的四个或更少数量的音韵段的重音短语结尾前的音韵段的基频,和
(4)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的基频产生将为其产生基频特性曲线的重音短语结尾的基频。
2.一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频特性曲线的重音短语的重音位置在紧接包括基频数据库中存储的基频峰值的音韵段位置之后和在包括预定四个或更少数目音韵段的重音短语结尾之前时,
(1)使用基频数据库中存储的基频特性曲线,该基频特性曲线在从基频数据库中存储的基频峰值起的第二音韵段,或在其后的音韵段和重音短语结束前具有重音核心,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从将为其产生基频特性曲线的重音短语的第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和包括重音核心的音韵段的基频,或(b)包括基频峰值的音韵段的基频和刚好在包括重音核心的音韵段之前的基频,或(c)紧接包括基频的峰值的音韵段的音韵段和包括重音核心的音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到刚好在重音核心之前的音韵段的基频,
(4)通过应用基频数据库中存储的基频特性曲线的包括重音核心的音韵段和紧接其后的音韵段的基频,产生包括将为其产生基频特性曲线的重音短语的重音核心的音韵段和紧接其后的音韵段的基频,
(5)通过用基频数据库中存储的基频特性曲线的(a)从重音核心起的第二音韵段和重音短语结尾的基频,或(b)紧接重音核心的音韵段和重音短语结尾的基频,或(c)从重音核心起的第二音韵段和刚好在重音短语结尾前的音韵段的基频,或(d)紧接重音核心的音韵段和刚好在重音短语结尾前的音韵段的基频进行内插,产生从重音核心起的第二音韵段到刚好在包括预定四个或更少数量音韵段的重音短语结尾前的音韵段的基频,和
(6)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的音韵段的基频产生将为其产生基频特性曲线的重音短语结尾的基频特性曲线。
3.一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频的重音短语的重音位置包括在包含预定四个或者更少数目音韵段的重音短语结尾的音韵段中时,
(1)使用基频数据库中存储的基频特性曲线,其中将为其产生基频的重音短语的重音短语结尾中重音的位置和该重音短语结尾中重音的位置相同,基频数据库中存储的所述基频特性曲线对应于与将为其产生基频的重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从将为其产生基频特性曲线的重音短语的第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和包括重音核心的音韵段的基频,或(b)包括基频峰值的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频,或(c)紧接包括基频峰值的音韵段的音韵段和包括重音核心的音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和刚好在包括重音核心的音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到刚好在重音核心之前的音韵段的基频,和
(4)通过从包括基频数据库中存储的基频特性曲线的重音核心的音韵段到重音短语的最后音韵段应用基频,产生从包括将为其产生基频特性曲线的重音短语的重音核心的音韵段到该重音短语的最后音韵段的基频。
4.一种利用存储根据音韵段数量和重音位置分类的基频特性曲线的基频数据库产生重音短语的基频特性曲线的基频特性曲线产生方法,
其中当与音韵段的数量和将为其产生基频特性曲线的重音短语的重音特性曲线对应的基频特性曲线未存储在基频数据库中,并且将为其产生基频特性曲线的重音短语的重音类型为降音型时,
(1)使用基频数据库中存储的基频特性曲线,基频数据库中存储的基频特性曲线对应于与将为其产生基频特性曲线的降音型重音短语的音韵段数量最接近的音韵段数量,
(2)通过从基频数据库中存储的基频特性曲线的第一音韵段到包括基频峰值的音韵段应用基频,产生从第一音韵段到包括基频峰值的音韵段的基频特性曲线,
(3)通过用基频数据库中存储的基频特性曲线的(a)包括基频峰值的音韵段和重音短语结尾或最后音韵段的基频,或(b)包括基频峰值的音韵段和该重音短语结尾或刚好在最后音韵段之前的音韵段的基频,或(c)紧接包括基频峰值的音韵段的音韵段和重音短语结尾或最后音韵段的基频,或(d)紧接包括基频峰值的音韵段的音韵段和重音短语结尾或刚好在最后音韵段之前的音韵段的基频进行内插,产生从紧接包括基频峰值的音韵段的音韵段到重音短语结尾或刚好在最后音韵段之前的音韵段的基频,
(4)通过应用基频数据库中存储的基频特性曲线的重音短语结尾的音韵段或最后音韵段的基频,产生将为其产生基频特性曲线的重音短语的重音短语结尾或最后音韵段的基频特性曲线。
5.根据权利要求1至4中任何一项所述的基频特性曲线产生方法,
其中从自然发声的语言提取所述基频特性曲线。
6.根据权利要求1至4中任何一种项述的基频特性曲线产生方法,
其中所述内插是线性内插。
7.根据权利要求1至4中任何一项所述的基频特性曲线产生方法,
其中用实时轴上绘制的基频特性曲线内插从重音短语开头到基频峰值的基频。
8.根据权利要求1至4之一所述的基频特性曲线产生方法,
其中所述音韵段是一个短音节或一个音节。
CNB981269877A 1997-11-28 1998-11-30 基频特性曲线产生方法 Expired - Fee Related CN1220173C (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP32777797 1997-11-28
JP327,777/1997 1997-11-28
JP327,777/97 1997-11-28
JP16962498 1998-06-17
JP169,624/1998 1998-06-17
JP169,624/98 1998-06-17
JP333,212/1998 1998-11-24
JP33321298A JP3576840B2 (ja) 1997-11-28 1998-11-24 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP333,212/98 1998-11-24

Publications (2)

Publication Number Publication Date
CN1229194A CN1229194A (zh) 1999-09-22
CN1220173C true CN1220173C (zh) 2005-09-21

Family

ID=27323205

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB981269877A Expired - Fee Related CN1220173C (zh) 1997-11-28 1998-11-30 基频特性曲线产生方法

Country Status (3)

Country Link
US (1) US6424937B1 (zh)
JP (1) JP3576840B2 (zh)
CN (1) CN1220173C (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
WO2004027753A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. Method of synthesis for a steady sound signal
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
WO2005119650A1 (ja) 2004-06-04 2005-12-15 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US8725518B2 (en) * 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
CN101000766B (zh) * 2007-01-09 2011-02-02 黑龙江大学 基于语调模型的汉语语调基频轮廓生成方法
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
KR101246287B1 (ko) * 2011-03-28 2013-03-21 (주)클루소프트 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN106373580B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的合成歌声的方法和装置
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
CN112037816B (zh) * 2020-05-06 2023-11-28 珠海市杰理科技股份有限公司 语音信号频域频率的校正、啸叫检测、抑制方法及装置
CN113851114B (zh) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 语音信号的基频确定方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
JP3344487B2 (ja) 1991-09-30 2002-11-11 日本電信電話株式会社 音声基本周波数パターン生成装置
JP3078073B2 (ja) 1991-12-26 2000-08-21 沖電気工業株式会社 基本周波数パタン生成方法
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
JP3403838B2 (ja) * 1994-10-28 2003-05-06 三菱電機株式会社 句境界確率計算装置および句境界確率利用連続音声認識装置

Also Published As

Publication number Publication date
CN1229194A (zh) 1999-09-22
US6424937B1 (en) 2002-07-23
JP2000075883A (ja) 2000-03-14
JP3576840B2 (ja) 2004-10-13

Similar Documents

Publication Publication Date Title
CN1220173C (zh) 基频特性曲线产生方法
CN1324558C (zh) 编码设备,解码设备以及音频数据分配***
CN1879147A (zh) 文本到语音转换方法和***、及其计算机程序产品
CN1192358C (zh) 声音信号加工方法和声音信号加工装置
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1244902C (zh) 语音识别装置和语音识别方法
CN1223983C (zh) 乐音语音再现装置及其控制方法、及服务器装置
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1143263C (zh) 识别有调语言的***和方法
CN1842702A (zh) 声音合成装置和声音合成方法
CN1906660A (zh) 语音合成装置
CN1492394A (zh) 语音识别装置以及语音识别方法
CN1474379A (zh) 语音识别/响应***、语音/识别响应程序及其记录介质
CN1185625C (zh) 语音编码方法及语音编码装置
CN1171396C (zh) 语音声音通信***
CN1813285A (zh) 语音合成设备、语音合成方法和程序
CN1473322A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CN101069213A (zh) 场景修饰表现生成装置以及场景修饰表现生成方法
CN1898723A (zh) 信号解码装置以及信号解码方法
CN1122256C (zh) 用前向和反向线性预测编码分析编码音频信号的方法和装置
CN1222926C (zh) 语音编码方法及其装置
CN1119760C (zh) 自然语言处理装置及方法
CN1471078A (zh) 字识别设备、字识别方法和字识别程序
CN1755663A (zh) 信息处理设备、信息处理方法和程序
CN1647069A (zh) 对话控制***和对话控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee