CN105609097A - 语音合成装置及其控制方法 - Google Patents

语音合成装置及其控制方法 Download PDF

Info

Publication number
CN105609097A
CN105609097A CN201510791532.6A CN201510791532A CN105609097A CN 105609097 A CN105609097 A CN 105609097A CN 201510791532 A CN201510791532 A CN 201510791532A CN 105609097 A CN105609097 A CN 105609097A
Authority
CN
China
Prior art keywords
parameter
unit
text
speech
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510791532.6A
Other languages
English (en)
Inventor
权哉成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN105609097A publication Critical patent/CN105609097A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供了语音合成装置和方法。所述语音合成装置包括:语音参数数据库,被配置为存储与构成语音文件的语音合成单元分别对应的多个参数;输入单元,被配置为接收包括多个语音合成单元在内的文本;以及处理器,被配置为从语音参数数据库中选择多个候选单元参数,所述多个候选单元参数与构成输入文本的多个语音合成单元分别对应;根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列;以及使用所述参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作,以生成与所述文本相对应的声学信号。

Description

语音合成装置及其控制方法
相关申请的交叉引用
本申请要求于2014年11月17日提交的韩国专利申请No.10-2014-0159995的优先权,该公开内容以全文引用的方式并入本文中。
技术领域
根据本公开的各种实施例的装置和方法涉及语音合成装置及其控制方法,更具体地,涉及用于将输入文本转换成语音的语音合成装置及其控制方法。
背景技术
近来,随着语音合成技术的发展,在各种语音引导领域、教育领域等中,语音合成技术得到了广泛的使用。语音合成是用于产生与人类讲话的声音类似的声音的技术,并且还常被称为文本到语音(TTS)***。语音合成技术向用户发送作为语音信号的信息,而不是文本或图片,因此当用户不能看见操作机器的屏幕时(如用户正在驾驶或用户是盲人的情况),这将非常有用。近来,智能家庭中的家用智能设备(比如智能电视(TV)或智能冰箱)或个人便携设备(比如智能电话、电子书阅读器或车辆导航设备)都非常活跃地发展并且已经变得广泛流行。从而,对语音合成技术和语音输出装置的需求激增。
在这点上,需要一种用于加强合成语音的声音质量的方法,具体地,需要一种用于生成具有极佳逼真度的合成语音的方法。
发明内容
本公开的示例实施例克服上述缺点和上面未描述的其它缺点。此外,不要求本公开的实施例克服上述缺点,且本公开的示例实施例可以不克服上述任何问题。
本公开的各种实施例提供了语音合成装置及其控制方法,用于补偿使用基于隐马尔科夫模型(HMM)语音合成方案所生成的语音中的各种韵律修改,以生成逼真的合成语音。
根据本公开的各实施例的一个方案,一种用于将输入文本转换成语音的语音合成装置包括:语音参数数据库,被配置为存储与构成语音文件的语音合成单元分别对应的多个参数;输入单元,被配置为接收包括多个语音合成单元在内的文本;以及处理器,被配置为从语音参数数据库中选择与构成所述输入文本的多个语音合成单元分别对应的多个候选单元参数,以根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列,以及使用参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作,以生成与所述文本相对应的声学信号。
所述处理器可以顺序组合候选单元参数,根据候选单元参数之间的级联概率来搜索候选单元参数的级联路径,以及组合与所述级联路径相对应的候选单元参数,以生成部分或全部所述文本的参数单元序列。
语音合成装置还可包括存储装置,所述存储装置被配置为存储激励信号模型,其中,所述处理器可以将所述激励信号模型应用到所述文本,以生成与所述文本相对应的HMM语音参数,以及将所述参数单元序列应用到所生成的HMM语音参数,以生成声学信号。
所述存储装置还可存储为了执行合成操作所需要的频谱模型,以及所述处理器可将所述激励信号模型和所述频谱模型应用到所述文本,以生成与所述文本相对应的HMM语音参数。
根据本公开的各实施例的另一方面,一种用于将输入文本转换为语音的语音合成装置的控制方法包括:接收包括多个语音合成单元在内的文本;从用于存储与构成语音文件的语音合成单元相对应的多个参数的语音参数数据库中选择多个候选单元参数,所述多个候选单元参数与构成所述输入文本的多个语音合成单元分别对应;根据连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列;以及使用所述参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作,以生成与所述文本相对应的声学信号。
生成参数单元序列可包括:顺序组合与所述多个语音合成单元分别对应的多个候选单元参数并根据候选单元参数之间的级联概率来搜索候选单元参数的级联路径,以及组合与所述级联路径相对应的候选单元参数,以生成部分或全部所述文本的参数单元序列。
生成声学信号可包括:将激励信号模型应用到所述文本,以生成与所述文本相对应的HMM语音参数,以及将所述参数单元序列应用到所生成的HMM语音参数,以生成声学信号。
搜索候选单元参数的级联路径可使用借助viterbi算法的搜索方法。
生成HMM语音参数还可包括:将为了执行合成操作所需要的频谱模型应用到所述文本,以生成与所述文本相对应的HMM语音参数。
根据本公开的前述各实施例,可生成与经由传统HMM语音合成方法合成的语音相比具有增强逼真度的合成语音,从而增强用户便利性。
本公开的各实施例的附加和/或其它方案和优点将部分在以下具体实施方式中进行阐述,且部分通过该具体实施方式将是明确的,或者可以通过实践本发明而习知。
附图说明
通过参考附图来描述本公开的某些示例实施例,本公开的各实施例的上述和/或其它方案将变得更为明确。
图1是用于解释体现了语音合成装置并将其用作智能电话的示例的图;
图2是示出了根据本公开的示例实施例的语音合成装置的配置的示意框图;
图3是详细示出了根据本公开的另一示例实施例的语音合成装置的配置的框图;
图4是用于解释根据本公开的示例实施例的语音合成装置的配置的图;
图5是用于解释根据本公开的另一示例实施例的语音合成装置的配置的图;
图6和7是用于解释根据本公开的示例实施例的用于生成参数单元序列的方法的图;
图8是用于解释根据本公开的示例实施例的语音合成方法的流程图。
具体实施方式
现在将参照附图来更详细地描述本公开的某些示例实施例。
本公开的示例实施例可以各种方式修改。相应地,在附图中示出了并在具体实施方式中详细描述了具体示例实施例。然而,将理解的是:本公开不限于具体示例实施例,而是在不脱离本公开的范围和精神的情况下包括所有修改、等价物和替换。同样,没有对熟知的功能或构造进行详细描述,这是因为它们可能会用不必要的细节而使本公开不够突出。
图1是用于解释体现语音合成装置并将其用作智能电话100的示例的图。
如图1所示,响应于向智能电话100输入文本1“你好”,智能电话100可通过机器将文本1转换为语音2并通过智能电话100的扬声器来输出语音2。将要转换为语音的文本可由用户通过智能电话直接输入,或可通过将诸如电子书之类的内容下载到智能电话上来输入。智能电话可自动地将输入文本转换成语音并输出语音,或可通过用户按压语音转换按钮来输出语音。为此,需要在智能电话等中使用嵌入式语音合成设备。
关于嵌入式***,基于隐马尔科夫模型(HMM)的语音合成方案已经被用作针对语音合成的方案。基于HMM的语音合成方案是基于参数的语音合成方案,并且该方案被提出以生成具有各种属性的合成语音。
在使用语音编码中使用的理论的基于HMM的语音合成方案中,可使用HMM来提取和训练与语音的频谱、音调(pitch)和持续时间相对应的参数。在合成操作中,可使用根据训练结果估计出的参数和语音编码的音码器(vocoder)方案来生成合成语音。由于基于HMM的语音合成方案只需要从语音数据库中提取的参数,所以基于HMM的语音合成方案需要低容量,并从而在嵌入式***环境(比如移动***或CE设备)中是有用的,但也存在缺点:所合成的语音的逼真度下降。从而,本公开的各实施例用来克服基于HMM的语音合成方案中的这一缺点。
图2是示出了根据本公开的示例实施例的语音合成装置100的配置的示意框图。
参见图2,根据本公开的示例实施例的语音合成装置100可包括语音参数数据库110、处理器120和输入单元130。
语音参数数据库110可以是用于存储关于各语音合成单元和合成单元的各韵律修改的参数的组件。可通过各韵律修改的参数来最小化韵律调整,以生成逼真的合成语音。
这里,语音合成单元可以是语音合成的基本单元,并且指代音位(phoneme)、半音节(semisyllable)、音节(syllable)、双音(di-phone)、三音(tri-phone)等,并且如果可能的话,从存储器角度看来在效率上可以将它们用很小的量来体现。一般地,可以使用半音节、双音、三音等作为合成单元,它们能够在最小化语音之间的级联期间的频谱失真并具有适当数量的数据项的同时维持相邻语音之间的过渡。双音指的是通过切除音位的中间部分而获得的音位之间的用于级联的单元,并且由于双音包括音位过渡部分,所以可以容易地获得清晰度。三音指的是指示音位与音位的左和右环境的单元,并且应用衔接(articulation)现象以容易地处理级联部分。下文中,为了便于描述,尽管描述了将语音合成单元体现为双音的情况,但是本公开的实施例不限于此。此外,下文中,为了便于描述,尽管描述了体现朝鲜语语音合成装置的情况,但是本公开的实施例不限于此,并且无需多言的是,还可以体现用于合成其它国家语言(比如英语)的语音的语音合成装置。在该情况中,语音参数数据库110可建立各个国家语言的各种语音合成单元的集合以及合成单元的各种韵律修改的参数。
各种韵律修改的参数可以是对应于构成实际语音文件的语音合成单元的参数,并可包括标签信息、韵律信息等。标签信息指的是通过记录开始和结束点(即,构成语音文件中的语音的每个音位的边界)所获得的信息。例如,当对“father”进行发音时,标签信息是用于确定语音信号中的每个音位“f”、“a”、“t”、“h”、“e”或“r”的开始和结束点的参数。语音标签结果是用于根据音位串对给定语音进行细分的过程,并且经过细分的语音段被用作语音合成的联接的基本单元,从而在很大程度上影响合成语音的声音质量。
韵律信息可包括韵律边界力度(strength)信息,并且长度、强度、和音调信息是韵律的三要素。韵律边界力度信息是关于重音期(accentualphase,AP)的边界两边的音位的信息。音调信息可以指代声调(intonation)的信息,其音调随时间改变,并且音调变化一般可被称为声调。声调可被定义为通常所知的由语音的音调形成的语音旋律。长度信息可以指代关于音位的持续时间的信息,并且可使用音位标签信息获得。强度信息可以指代通过记录音位边界内的音位的代表强度信息所获得的信息。
用于选择各语句的过程可优选地针对要存储的实际语音记录来执行,并且所选语句需要包括所有合成单元(双音)并且需要包括各韵律修改。由于要用来建立语音参数数据库的记录语句的数量减少,所以在容量方面效率更高。为此,可针对文本语料库(textcorpus)检验唯一双音及其重复率,并且可使用重复率文件来选择语句。
语音参数数据库110存储的多个参数可以是从基于隐马尔科夫模型(HMM)的语音合成单元的语音数据库中提取的。
处理器120控制语音合成装置100的整体操作。
具体地,处理器120可以从语音参数数据库110中选择与构成输入文本的多个语音合成单元分别对应的多个候选单元参数,可以根据连续级联候选单元参数之间的级联概率来生成部分或全部文本的参数单元序列,并且可以使用参数单元序列来执行基于隐马尔科夫模型(HMM)的合成操作,以生成与文本相对应的声学信号。
当输入文本是“this”时,可以双音单元为单位将“this”表示为“(##+t)-(h+i)-(i+s)-(s+##)”。也就是说,词语“this”可通过级联4个双音来生成。这里,构成输入文本的多个语音合成单元可指代每个双音。
在这种情况中,处理器120可从语音参数数据库110选择与构成文本输入的语音合成单元分别对应的多个候选单元参数。语音参数数据库110可建立各个国家语言的候选单元参数的集合。候选单元参数可指代关于包括每个对应双音在内的音位的韵律信息。例如,包括作为输入文本的一个单元的(s+t)在内的参数可以是例如“street”、“star”、“test”等,并且关于(s+t)的韵律信息可以根据每个相应参数而改变。从而,处理器120可搜索各个双音的各种参数,即多个候选单元参数,并且可以检索最优候选单元参数。该过程一般可通过计算目标成本和级联成本来执行。目标成本可指代特征向量(比如候选参数和将要在语音参数数据库110中检索的语音合成单元的音调、能量、强度和频谱)之间的距离的值,并且可用来估计构成文本的语音合成单元与候选单元参数的相似度。由于目标成本变为最低,所以合成语音的准确度可增强。级联成本可指当两个候选单元参数附接时生成的韵律差别,并可用来估计连续级联的候选单元参数之间的级联合适度。级联成本可使用前述特征向量之间的距离来计算。由于候选单元参数之间的韵律差别减小,所以可增强合成语音的声音质量。
当针对各个双音确定了候选单元参数时,需要检索最优级联路径,并且可通过计算候选单元参数之间的级联概率和检索具有最高级联概率的候选单元参数来形成最优级联路径。这与用于检索具有最低累积成本(目标成本和级联成本之和)的候选单元参数的过程相同。作为检索方法,可使用viterbi搜索。
处理器120可组合与各最优级联路径相对应的候选单元参数,以生成与部分或全部文本相对应的参数单元序列。也就是说,处理器120可使用参数单元序列来执行基于隐马尔科夫模型的合成操作,以生成与文本相对应的声学信号。也就是说,该过程将参数单元序列应用于由通过HMM训练的模型生成的HMM语音参数,以生成具有补偿韵律信息的逼真语音信号。这里,通过HMM训练的模型可仅包括激励信号模型,并且还可包括频谱模型。在该情况中,处理器120可将通过HMM训练的模型应用到文本,以生成与文本相对应的HMM语音参数。
输入单元130是用于接收要被转换成语音的文本的组件。要被转换成语音的文本可由用户通过语音合成装置直接输入,或可通过由智能电话下载诸如电子书之类的内容来输入。从而,输入单元130可包括用于从用户直接接收文本的按钮、触摸板、触摸屏等。此外,输入单元130可包括用于下载诸如电子书之类的内容的通信单元。通信单元可包括各种通信芯片,比如WiFi芯片、蓝牙芯片、NFC芯片和无线通信芯片,以使用各种类型的通信方法与外部设备或外部服务器进行通信。
根据本公开的实施例的语音合成装置100在嵌入式***(比如便携终端设备,如智能电话)中是有用的,但并不限于此,并且无需多言的是,语音合成装置100可体现为各种电子装置,比如电视(TV)、计算机、膝上型PC、台式PC和平板PC。
图3是详细示出了根据本公开的另一示例实施例的语音合成装置100的配置的框图。
参见图3,根据本公开的另一示例实施例的语音合成装置100可包括语音参数数据库110、处理器120、输入单元130和存储装置140。下文中,将略去与图2的详细描述重复的描述。
存储装置140可包括分析模块141、候选选择模块142、成本计算模块143、viterbi搜索模块144和参数单元序列生成模块145。
分析模块141是用于分析输入文本的模块。除了一般字母外,输入语句可包含首字母缩写、简写、数量、时间、特殊字母等,并且输入语句在合成为语音前被转换成一般文本语句。这被称为文本规范化。然后,分析模块141按照规范表音法(normalorthography)中听起来的方式来写入字母,以生成逼真合成语音。然后,分析模块141可经由句法解析器来分析文本语句的语法,以在词语的词类之间进行区分并根据疑问句、陈述句等来分析用于韵律控制的信息。经过分析的信息可用来确定候选单元参数。
候选选择模块142可以是用于选择与构成文本的语音合成单元分别对应的多个候选单元参数的模块。候选选择模块142可基于语音参数数据库110来搜索与输入文本的各个语音合成单元相对应的各修改(即多个候选单元参数),并可将适于语音合成单元的语音合成的声音单元参数确定为候选单元参数。可根据是否实现匹配来改变各语音合成单元的候选单元参数的数量。
成本计算模块143是用于计算候选单元参数之间的级联概率的模块。为此,可使用通过对目标成本和级联成本求和所获得的成本函数。目标成本可通过计算输入标签与候选单元参数之间的匹配度来获得,可使用诸如音调、强度和长度之类的韵律信息作为特征向量来计算,并且可通过考虑各种特征向量(比如语境特征、与语音参数的距离、以及概率)来测量。级联成本可用来测量连续候选单元参数之间的距离和连续性,并且可通过将音调、强度、频谱失真、与语音参数的距离等认为是特征向量来测量。通过计算特征向量之间的距离和应用权重来获得的加权和可被用作成本函数。总成本函数等式可被用作下式:
[式1]
这里,分别是目标子成本和级联子成本。i是单元索引,j是级联子成本索引。n是全部候选单元参数的数量,p和q是子成本的数量。此外,S是不发音音节,u是候选单元参数,并且w是权重。
Viterbi搜索模块144是用于根据计算出的级联概率来搜索每个候选单元参数的最优级联路径的模块。可获得每个标签的候选单元参数中的具有连续候选单元参数之间的极佳动态性和稳定性的最优级联路径。Viterbi搜索可以是用于搜索具有最小累积成本(目标成本和级联成本之和)的候选单元参数的过程,并可通过使用由成本计算模块计算的成本计算结果值来执行。
参数单元序列生成模块145是用于组合与最优级联路径相对应的各候选单元参数以生成与输入文本的长度相对应的参数单元序列的模块。所生成的参数单元序列可以是针对HMM参数生成序列的输入,并且可应用于通过基于HMM来合成输入文本所获得的HMM语音参数。
处理器120可使用存储装置140中存储的各模块来控制语音识别装置100’的整体操作。
如图3所示,处理器120可包括RAM121、ROM122、CPU123、第1到第n接口124-1到124-n、和总线125。在该情况中,RAM121、ROM122、CPU123、第1到第n接口124-1到124-n等可通过总线125彼此级联。
ROM122可存储用于***引导的命令集。CPU123可将存储装置140中存储的各编程程序拷贝到RAM121,并执行被拷贝到RAM121的应用程序以执行各操作。
CPU123可使用存储装置140中存储的各模块来控制语音合成装置100’的整体操作。
CPU123可访问存储装置140,并使用存储装置140中存储的操作***(O/S)来执行引导。此外,CPU123可使用存储装置140中存储的各程序、内容、数据等来执行各种操作。
具体地,CPU123可执行基于HMM的语音合成操作。也就是说,CPU123可分析输入文本,以生成和语境相关的音位标签并使用预先存储的激励信号模型来选择对应于每个标签的HMM。然后,CPU123可基于所选HMM的输出分布来通过参数生成算法生成激励参数,并可配置合成滤波器,以生成合成语音信号。
第1到第n接口124-1到124-n可与前述各组件级联。接口之一可以是通过网络与外部设备级联的网络接口。
图4是用于解释根据本公开的示例实施例的语音合成装置100的配置的图。
参见图4,语音合成装置100可以在很大程度上包括基于HMM的语音合成单元200和参数序列生成器300。下文中,将略去与图2和3中的详细描述重复的详细描述。
基于HMM的语音合成方法可以在很大程度上归类为训练部分和合成部分。这里,根据本公开的示例实施例的基于HMM的语音合成单元200可包括用于使用在训练部分中生成的激励信号模型来合成语音的合成部分。从而,根据本公开的示例实施例的语音合成装置100可仅执行使用预训练模型的训练部分。
在训练部分中,可分析语音数据库(语音DB)10,以生成合成部分中所需的参数,作为统计模型。可从语音数据库10中提取频谱参数和激励参数(频谱参数提取40和激励参数提取41),并可使用语音数据库10的标签信息进行训练(训练HMM42)。可经由决定树聚类过程生成频谱模型111和激励信号模型112,作为最终语音模型。
在合成部分中,可分析输入文本(文本分析43),以生成包含语境信息的标签数据,并且可使用标签数据从语音模型中提取HMM状态参数(从HMM生成参数48)。HMM状态参数可以是静态和增量(delta)特征的均值/方差值。从语音模型提取的参数可用于经由使用最大似然估计(MLE)方案的参数生成算法来生成每一帧的参数,并通过音码器来生成最终合成语音。
参数序列生成器300是用于从实际语音参数数据库导出时域的参数单元序列以便增强由基于HMM的语音合成单元200生成的合成语音的逼真度和动态性的组件。
语音参数数据库(语音参数DB)140可存储从语音数据库10提取的多个语音参数和标签分段信息项、以及合成单元的各韵律修改的参数。然后,可对输入文本进行文本分析(文本分析43),然后可选择候选单元参数(候选单元参数选择44)。然后,可计算成本函数,以计算目标成本和级联成本(计算成本函数45),并且可经由viterbi搜索(viterbi搜索46)导出连续候选单元参数之间的最优级联路径。从而,可生成与输入文本的长度对应的参数单元序列(参数单元序列47),并且所生成的参数单元序列可输入到基于HMM的语音合成单元200的HMM参数生成模块(从HMM生成参数)48。这里,HMM参数生成模块48可以是激励信号参数生成模块,且可以包括激励信号参数生成模块和频谱参数生成模块。具体地,将参照图5来描述HMM参数生成模块48的配置。
图5是用于解释根据本公开的另一示例实施例的语音合成装置的配置的图。图5示出的示例中,HMM参数生成模块48包括频谱参数生成模块(频谱参数生成)48-1和激励信号参数生成模块(激励参数生成)48-2。
由参数序列生成器300生成的参数单元序列可与HMM参数生成模块48的频谱参数生成模块48-1和激励信号参数生成模块48-2组合,以生成具有参数之间的级联的极佳动态性和稳定性的参数。
首先,HMM参数生成模块48可使用标签数据从语音模型导出状态的持续时间、频谱和f0均值、以及方差参数,作为输入文本的文本分析结果,并且在该情况中,频谱和f0参数可包括静态、增量和D-增量特征。然后,可使用标签数据从参数序列生成器300生成频谱参数单元序列和激励信号参数单元序列。然后,HMM参数生成模块48可组合语音模型110和从参数序列生成器300导出的参数,以使用MLE方案来生成最终参数。在这种情况中,静态、增量、D-增量和方差参数中的静态特征的均值最大程度地影响最终参数结果,且从而将所生成的频谱参数单元序列和激励信号参数单元序列应用于静态均值可能是有效的。
在具有有限资源的嵌入式***(比如移动设备或CE设备)中,在建立参数序列生成器300的语音参数数据库140的过程中,除了频谱参数之外只存储激励信号参数,并且可以只生成与激励信号参数相关联的参数单元序列,从而,尽管将参数单元序列应用到基于HMM的语音合成单元200的激励信号参数生成模块48-2,但是可增强激励信号轮廓的动态性,并且可生成具有稳定韵律的合成语音。也就是说,频谱参数生成模块48-1可以是可选组件。
从而,可将所生成的参数单元序列输入与HMM参数生成模块48,并与HMM参数生成模块48组合,以生成最终声学参数,以及可通过音码器20将所生成的声学参数最终合成为声学信号(合成语音49)。
图6和7是用于解释根据本公开的示例实施例的用于生成参数单元序列的方法的图。
图6示出了用于为词语的语音合成选择各候选单元参数的过程。参见图6,当输入词语时,可从语音参数数据库110导出与“(#+-)”、相对应的各种修改,以搜索最优级联路径,并且可将语音波形级联以生成合成语音。例如,包括的候选单元参数在内的修改可以是等。为了搜索最优级联路径,需要定义目标成本和级联成本,且可使用viterbi搜索作为搜索方法。
根据本公开的示例实施例,可通过连续双音将如图6所示的输入文本定义成语音合成单元,并且可经由n个双音的级联来表示输入语句。在该情况中,可针对各个双音来选择多个候选单元参数,并且可在考虑目标成本和级联成本的成本函数的情况下执行viterbi搜索。从而,所选候选单元参数可被顺序组合,并且可检索各候选单元参数的最优候选单元参数。
如图7所示,关于整个文本,当候选单元参数没有被连续地级联时,可移除相应路径,并且可选择连续级联的候选单元参数。在该情况中,具有关于目标成本和级联成本之和的最小累积成本的路径可以是最优级联路径。从而,与最优级联路径相对应的各候选单元参数可被组合,以生成对应于输入文本的参数单元序列。
图8是用于解释根据本公开的示例实施例的语音合成方法的流程图。
首先,可接收包括多个语音合成单元在内的文本(输入文本)(S810)。然后,可从语音参数数据库中选择与构成输入文本的多个语音合成单元分别相对应的候选单元参数(S820),其中,语音参数数据库存储有与构成语音文件的语音合成单元相对应的多个参数。这里,语音合成单元可以是音位、半音节、音节、双音和三音中的任何一个。在该情况中,可检索并选择与各语音合成单元相对应的多个候选单元参数,并且可从多个所选候选单元参数中选择最优候选单元参数。在该情况中,该过程可通过计算目标成本和级联成本来执行。在该情况中,可通过计算候选单元参数之间的级联概率以搜索具有最高级联概率的候选单元参数来检索最优级联路径。作为搜索方法,可使用viterbi搜索。然后,根据候选参数之间的级联概率,可针对部分或全部文本来生成参数单元序列(S830)。然后,可使用参数单元序列来执行基于HMM的合成部分,以生成对应于文本的声学信号(S840)。这里,基于HMM的合成部分可将参数单元序列应用于通过由HMM训练的模型所生成的HMM语音参数,以生成针对韵律信息进行了补偿的合成语音信号。在该情况中,由HMM训练的模型可指代激励信号模型或还可包括频谱模型。
根据本公开的前述各实施例,可使用各韵律修改的参数来生成具有与使用传统HMM语音合成方法来合成的语音相比增强逼真度的合成语音。
根据本公开的前述各实施例的语音合成装置的控制方法可被体现为程序,并可被存储在多种记录介质中。也就是说,由各种处理器处理的用于执行语音合成装置的前述各种控制方法的计算机程序可被存储在记录介质中并被使用。
例如,可提供用于存储执行以下操作的程序的非瞬时计算机可读介质:接收包括多个语音合成单元在内的文本;从用于存储与构成语音文件的语音合成单元相对应的多个参数的语音参数数据库中选择与构成输入文本的多个语音合成单元分别对应的候选单元参数;根据连续级联的候选参数之间的级联概率来生成部分或全部文本的参数单元序列;以及使用参数单元序列来执行基于隐马尔科夫模型(HMM)的合成部分,以生成对应于文本的声学信号。
非瞬时计算机可读介质是不临时存储数据的介质,比如寄存器、高速缓存、和存储器,而是半永久性地存储数据并且可由设备读取。更具体地,前述应用或程序可存储在非瞬时计算机可读介质中,比如高密度盘(CD)、数字视频盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡和只读存储器(ROM)。
前述示例实施例和优点只是示例的,并且不被认为限制本公开的实施例。本公开的教导可以容易地应用于其他类型的装置和方法。同样,本公开的示例实施例的描述预期是说明性的,而不限制权利要求的范围,并且许多备选、修改和变化对于本领域技术人员将是显而易见的。

Claims (10)

1.一种语音合成装置,包括:
语音参数数据库,被配置为存储与构成语音文件的语音合成单元分别相对应的多个参数;
输入单元,被配置为接收包括多个语音合成单元在内的文本;以及
处理器,被配置为
从所述语音参数数据库中存储的所述多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数;
根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列;以及
使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作,并从而生成与所述文本相对应的声学信号。
2.根据权利要求1所述的语音合成装置,其中,为了生成部分或全部所述文本的参数单元序列,所述处理器:
顺序组合所选择的多个候选单元参数中的候选单元参数,
根据候选单元参数之间的级联概率来搜索顺序组合的候选单元参数的级联路径,以及
组合与所述级联路径相对应的候选单元参数。
3.根据权利要求2所述的语音合成装置,还包括:
存储装置,被配置为存储激励信号模型,
其中,为了生成与所述文本相对应的声学信号,所述处理器:
将所述激励信号模型应用到所述文本,以生成与所述文本相对应的HMM语音参数,以及
将所述参数单元序列应用到所生成的HMM语音参数。
4.根据权利要求3所述的语音合成装置,其中:
所述存储装置还存储执行所述合成操作所需要的频谱模型;以及
为了生成与所述文本相对应的HMM语音参数,所述处理器将所述激励信号模型和所述频谱模型应用到所述文本。
5.一种方法,包括:
接收包括多个语音合成单元在内的文本;
从与构成语音文件的语音合成单元相对应并且存储在语音参数数据库中的多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数;
根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列;以及
使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作,并从而生成与所述文本相对应的声学信号。
6.根据权利要求5所述的方法,其中,生成参数单元序列包括:
顺序组合所选择的多个候选单元参数中的候选单元参数;
根据候选单元参数之间的级联概率来搜索顺序组合的候选单元参数的级联路径;以及
组合与所述级联路径相对应的候选单元参数,以生成部分或全部所述文本的参数单元序列。
7.根据权利要求5所述的方法,其中,执行合成操作包括:
将激励信号模型应用到所述文本,以生成与所述文本相对应的HMM语音参数,以及
将所述参数单元序列应用到所生成的HMM语音参数,以生成所述声学信号。
8.根据权利要求6所述的方法,其中,搜索级联路径使用借助viterbi算法的搜索方法。
9.根据权利要求7所述的方法,其中,为了生成HMM语音参数,所述方法还包括:
将执行所述合成操作所需要的频谱模型应用到所述文本,以生成与所述文本相对应的HMM语音参数。
10.一种存储程序的非瞬时计算机可读记录介质,所述程序在由硬件处理器执行时,引起执行以下操作:
接收包括多个语音合成单元在内的文本;
从与构成语音文件的语音合成单元相对应并且存储在语音参数数据库中的多个参数中选择与所接收的文本中包括的所述多个语音合成单元分别相对应的多个候选单元参数;
根据所选择的多个候选单元参数中的连续级联候选单元参数之间的级联概率来生成部分或全部所述文本的参数单元序列;以及
使用所述参数单元序列来执行基于隐马尔科夫模型HMM的合成操作,并从而生成与所述文本相对应的声学信号。
CN201510791532.6A 2014-11-17 2015-11-17 语音合成装置及其控制方法 Pending CN105609097A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140159995A KR20160058470A (ko) 2014-11-17 2014-11-17 음성 합성 장치 및 그 제어 방법
KR10-2014-0159995 2014-11-17

Publications (1)

Publication Number Publication Date
CN105609097A true CN105609097A (zh) 2016-05-25

Family

ID=54545002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510791532.6A Pending CN105609097A (zh) 2014-11-17 2015-11-17 语音合成装置及其控制方法

Country Status (4)

Country Link
US (1) US20160140953A1 (zh)
EP (1) EP3021318A1 (zh)
KR (1) KR20160058470A (zh)
CN (1) CN105609097A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481715A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及***
CN108573692A (zh) * 2017-03-14 2018-09-25 谷歌有限责任公司 语音合成单元选择
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、***、车辆和介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
KR102108906B1 (ko) * 2018-06-18 2020-05-12 엘지전자 주식회사 음성 합성 장치
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置
KR102159988B1 (ko) * 2018-12-21 2020-09-25 서울대학교산학협력단 음성 몽타주 생성 방법 및 시스템
US11151979B2 (en) 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
US11556782B2 (en) * 2019-09-19 2023-01-17 International Business Machines Corporation Structure-preserving attention mechanism in sequence-to-sequence neural models
US20210383790A1 (en) * 2020-06-05 2021-12-09 Google Llc Training speech synthesis neural networks using energy scores
CN111862934B (zh) * 2020-07-24 2022-09-27 思必驰科技股份有限公司 语音合成模型的改进方法和语音合成方法及装置
CN113257221B (zh) * 2021-07-06 2021-09-17 成都启英泰伦科技有限公司 一种基于前端设计的语音模型训练方法及语音合成方法
US11915714B2 (en) * 2021-12-21 2024-02-27 Adobe Inc. Neural pitch-shifting and time-stretching

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203702A1 (en) * 2005-06-16 2007-08-30 Yoshifumi Hirose Speech synthesizer, speech synthesizing method, and program
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
CN101593516A (zh) * 2008-05-28 2009-12-02 国际商业机器公司 语音合成的方法和***
US20110054903A1 (en) * 2009-09-02 2011-03-03 Microsoft Corporation Rich context modeling for text-to-speech engines
CN102227767A (zh) * 2008-11-12 2011-10-26 Scti控股公司 自动语音-文本转换***和方法
CN102822889A (zh) * 2010-04-05 2012-12-12 微软公司 用于tts级联成本的预先保存的数据压缩
US20130117026A1 (en) * 2010-09-06 2013-05-09 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
CN103226946A (zh) * 2013-03-26 2013-07-31 中国科学技术大学 一种基于受限玻尔兹曼机的语音合成方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
WO2002027709A2 (en) * 2000-09-29 2002-04-04 Lernout & Hauspie Speech Products N.V. Corpus-based prosody translation system
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN101661754B (zh) * 2003-10-03 2012-07-11 旭化成株式会社 数据处理单元和数据处理单元控制方法
EP1704558B8 (en) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US20100066742A1 (en) * 2008-09-18 2010-03-18 Microsoft Corporation Stylized prosody for speech synthesis-based applications
US8108406B2 (en) * 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US20110071835A1 (en) * 2009-09-22 2011-03-24 Microsoft Corporation Small footprint text-to-speech engine
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和***
US8856129B2 (en) * 2011-09-20 2014-10-07 Microsoft Corporation Flexible and scalable structured web data extraction
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
US9082401B1 (en) * 2013-01-09 2015-07-14 Google Inc. Text-to-speech synthesis
JP6091938B2 (ja) * 2013-03-07 2017-03-08 株式会社東芝 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9865247B2 (en) * 2014-07-03 2018-01-09 Google Inc. Devices and methods for use of phase information in speech synthesis systems
JP6392012B2 (ja) * 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
US20070203702A1 (en) * 2005-06-16 2007-08-30 Yoshifumi Hirose Speech synthesizer, speech synthesizing method, and program
CN101593516A (zh) * 2008-05-28 2009-12-02 国际商业机器公司 语音合成的方法和***
CN102227767A (zh) * 2008-11-12 2011-10-26 Scti控股公司 自动语音-文本转换***和方法
US20110054903A1 (en) * 2009-09-02 2011-03-03 Microsoft Corporation Rich context modeling for text-to-speech engines
CN102822889A (zh) * 2010-04-05 2012-12-12 微软公司 用于tts级联成本的预先保存的数据压缩
US20130117026A1 (en) * 2010-09-06 2013-05-09 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
CN103226946A (zh) * 2013-03-26 2013-07-31 中国科学技术大学 一种基于受限玻尔兹曼机的语音合成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及***
CN108573692A (zh) * 2017-03-14 2018-09-25 谷歌有限责任公司 语音合成单元选择
CN108573692B (zh) * 2017-03-14 2021-09-14 谷歌有限责任公司 语音合成单元选择
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、***、车辆和介质
CN109389990B (zh) * 2017-08-09 2023-09-26 黑莓有限公司 加强语音的方法、***、车辆和介质
CN107481715A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107481715B (zh) * 2017-09-29 2020-12-08 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
US20160140953A1 (en) 2016-05-19
EP3021318A1 (en) 2016-05-18
KR20160058470A (ko) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105609097A (zh) 语音合成装置及其控制方法
US10891928B2 (en) Automatic song generation
JP5768093B2 (ja) 音声処理システム
CN1540625B (zh) 多语种文本-语音***的前端结构
CN101236743B (zh) 生成高质量话音的***和方法
JP4247564B2 (ja) システム、プログラムおよび制御方法
US20090254349A1 (en) Speech synthesizer
US20080177543A1 (en) Stochastic Syllable Accent Recognition
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
CN102822889B (zh) 用于tts级联成本的预先保存的数据压缩
CN103065619A (zh) 一种语音合成方法和语音合成***
CN111161695B (zh) 歌曲生成方法和装置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US8731931B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
JP4150645B2 (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP2010224419A (ja) 音声合成装置、方法およびプログラム
KR102479023B1 (ko) 외국어 학습 서비스 제공 장치, 방법 및 프로그램
US9251782B2 (en) System and method for concatenate speech samples within an optimal crossing point
CN112750423B (zh) 个性化语音合成模型构建方法、装置、***及电子设备
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
JP2005181998A (ja) 音声合成装置および音声合成方法
JP2009271190A (ja) 音声素片辞書作成装置及び音声合成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160525