CN100524457C - 文本至语音转换以及调整语料库的装置和方法 - Google Patents

文本至语音转换以及调整语料库的装置和方法 Download PDF

Info

Publication number
CN100524457C
CN100524457C CNB200410046117XA CN200410046117A CN100524457C CN 100524457 C CN100524457 C CN 100524457C CN B200410046117X A CNB200410046117X A CN B200410046117XA CN 200410046117 A CN200410046117 A CN 200410046117A CN 100524457 C CN100524457 C CN 100524457C
Authority
CN
China
Prior art keywords
text
corpus
rhythm
prosodic
length distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200410046117XA
Other languages
English (en)
Other versions
CN1705016A (zh
Inventor
施勤
张维
朱维彬
柴海新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB200410046117XA priority Critical patent/CN100524457C/zh
Priority to US11/140,190 priority patent/US7617105B2/en
Publication of CN1705016A publication Critical patent/CN1705016A/zh
Priority to US12/167,707 priority patent/US8595011B2/en
Application granted granted Critical
Publication of CN100524457C publication Critical patent/CN100524457C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本至语音的转换方法和装置,以及一种调整文本至语音转换语料库的方法和装置。其中,文本至语音的转换方法包括文本分析步骤,用于基于由第一语料库产生的文本至语音转换模型,对所述文本进行分析以获得文本的描述性韵律注解信息;韵律参数预测步骤,用于基于上述文本分析步骤的结果对文本的韵律参数进行预测;语音合成步骤,用于基于所预测的文本的韵律参数合成所述文本的语音;其中所述文本的描述性韵律注解信息包括文本的韵律结构,所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。本发明根据合成语音的目标语音速度调整文本的韵律结构,从而可以获得更好的合成语音质量。

Description

文本至语音转换以及调整语料库的装置和方法
技术领域
本发明涉及文本至语音转换技术,尤其涉及文本至语音(TTS)转换技术中的语音速度调节技术以及调整语料库的技术。
背景技术
目前的文本至语音转换***和方法的目的是将输入的文本转换为具有尽可能的自然发音特性的合成语音。在此及下文中所述的自然语音特性是指真人自然发音的语音特性。该自然发音一般通过对真人朗读该文本进行录音而得到。文本至语音转换技术,尤其是用于自然发音的文本至语音转换,通常使用一个语料库。该语料库包括大量的文本及其相应的录音、韵律标注和其它基本信息标注。文本至语音转换***和方法通常包括三部分:文本分析部分、韵律参数预测部分和语音合成部分。对于要基于语料库进行语音转换的普通文本,文本分析部分负责将该文本解析成具有描述性的韵律注解的多信息文本。该韵律注解信息包括文本的发音、重音、韵律结构信息,如韵律短语边界以及停顿信息。韵律参数预测部分负责根据文本分析部分得出的结果预测文本的韵律参数,即文本的韵律语音表示,如音高、音长和音量等等。语音合成部分负责根据文本的上述韵律参数产生语音。基于自然发音语料库,该合成的语音是普通文本中所隐含的语义和韵律信息的智能物理发音结果。
基于统计学方法进行的文本至语音转换是当前TTS技术的一种重要趋势。在基于统计学的方法中,通过一个海量标注语料库对文本分析和韵律参数预测模型进行训练。然后针对每个合成片断从多个候选片断中进行选择,语音合成部分将选定的片断进行合成,从而得到所需的合成语音。
目前,文本的韵律结构是文本分析中的一种重要信息,一般认为文本的韵律结构是根据对文本进行语义学和语法学分析而得到的结果。已有技术在进行文本分析时对于韵律结构的预测并未注意到并进而考量语音速度调节对韵律结构的影响。但是,本发明在对具有不同语音速度的语料库进行比较后,发现语音速度和韵律结构是密切相关的。
此外,已有技术在进行文本至语音转换时,当需要不同的语音速度时,一般是在语音合成阶段通过调整韵律参数中的发音音长来调整语音速度。由于未考虑语音速度和韵律结构之间的关系,影响了合成语音的自然发音效果。
发明内容
根据上文所述,本发明的目的之一是提供一种改进的文本至语音转换装置和方法以获得更好的语音质量。
本发明的另一个目的是提供一种调节TTS语料库的装置和方法以满足目标语音速度的需要。
为了解决上述技术问题,本发明提供了一种文本至语音的转换方法,该方法包括:文本分析步骤,用于基于由第一语料库产生的文本至语音转换模型,对所述文本进行分析以获得文本的描述性韵律注解信息;韵律参数预测步骤,用于基于上述文本分析步骤的结果对文本的韵律参数进行预测;语音合成步骤,用于基于所预测的文本的韵律参数合成所述文本的语音;其中所述文本的描述性韵律注解信息包括文本的韵律结构,所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
本发明还提供了一种文本至语音转换装置,包括:文本分析装置,用于基于由第一语料库产生的文本至语音转换模型,对文本进行分析以获得文本的描述性韵律注解信息,该文本的描述性韵律注解信息包括文本的韵律结构;韵律参数预测装置,用于基于上述文本分析装置获得的信息对文本的韵律参数进行预测;语音合成装置,用于基于所预测的文本的韵律参数合成所述文本的语音;韵律结构调整装置,用于将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
根据本发明的另一方面,上述目标语音速度对应于一第二语料库的语音速度。上述韵律结构包括韵律短语。本发明通过对文本的韵律短语长度分布进行调整,使得其与第二语料库的韵律短语长度分布相匹配。从而使得文本的韵律短语长度分布适合于目标语音速度。
根据本发明的另一方面,还提供了一种用于调整文本至语音转换语料库的方法,所述语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述方法包括:基于一第一语料库创建用于进行韵律结构预测的决策树;为所述语料库设置一目标语音速度;基于所述决策树,为所述第一语料库建立韵律短语长度分布与语音速度之间的关系;基于所述决策树和所述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。
本发明还提供了一种用于调整文本至语音转换语料库的装置,所述语料库为第一语料库,所述装置包括:决策树创建装置,配置为基于第一语料库创建用于进行韵律结构预测的决策树;目标语音速度设置装置,配置为为所述语料库设置一目标语音速度;关系创建装置,配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系;调整装置,配置为基于所述决策树和所述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。
如在本申请的开始部分所述,目前的文本至语音转换装置和方法的目的是将输入的文本转换为具有尽可能的自然发音特性的合成语音。本发明提供了一种改进的技术以实现这一目的。本发明提供了一种将语音速度与发音的韵律结构之间建立联系的方法和装置,并提供了一种根据语音速度的需要对文本的韵律结构进行调整的方法和装置。
附图说明
图1是根据本发明的一种文本至语音转换方法的示意性流程图;
图2是根据本发明的另一种文本至语音转换方法的示意性流程图;
图3是根据本发明的一种文本至语音转换装置的示意性方框图;
图4是根据本发明的另一种文本至语音转换装置的示意性方框图;
图5是根据本发明的一种调节TTS语料库的方法的示意性流程图;
图6是根据本发明的一种调节TTS语料库的装置的示意性方框图。
具体实施方式
本发明提供了根据语音速度对文本的韵律结构进行预测的方法,以下将结合附图对本发明进行详细描述。如上文所述,已有技术在进行文本分析时对于韵律结构的预测并未注意到并进而考量语音速度调节对韵律结构的影响。但是,本发明在对具有不同语音速度的语料库进行比较后,发现语音速度和韵律结构是密切相关的。韵律结构包括韵律韵律词、韵律短语和语调短语。语音速度越快,韵律结构中的韵律短语的长度越长,语调短语的长度有可能也会越长。如果利用从具有第一语音速度的一个语料库得到的文本分析模型,对输入文本的韵律结构进行预测,其结果将与从具有另一语音速度的另一个语料库得到的韵律结构不匹配。根据以上分析可知,可以通过根据所需的语音速度对文本的韵律结构进行调整,以便获得更好的文本至语音转换的质量。为了达到此目的,还可以同时或单独对语调短语的长度分布进行调整。本发明对于对语调短语的长度分布进行调整,可以采用与对韵律短语进行调整类似的方法来进行。
对于文本韵律结构的调整,优选通过将文本的韵律短语长度分布修改为一目标分布来进行。该目标分布可以通过多种方法得到,例如该目标分布可以对应于另一个语料库的韵律短语长度分布,还可以根据实际真人的朗读录音进行分析而得到,也可以对其它多个语料库中的分布进行加权平均而得到,还可以对调整后的结果进行主观听觉评估而得到。
根据所需的语音速度对文本的韵律结构进行调整,可以通过多种方式进行。如附图1所示,对文本的韵律结构进行调整可以在对输入的文本进行分析的同时或之后进行。如图2所示,也可以在对输入的文本进行分析之前,通过对语料库进行韵律结构调整,从而影响对输入文本进行分析而得到的韵律结构。对韵律结构的调整,可以根据语音速度的要求修改用于文本韵律分析的统计模型结果或修改语法学和语义学规则,也可以通过修改文本分析的其它规则。如对于语音速度快的需求,可以设定规则合并部分韵律短语,以增加韵律短语的长度。这种合并可以通过合并相同的句子成分,也可以合并相关的句子成分等方法进行。对韵律结构的调整,还可以如下文所述通过调整韵律边界概率的阈值来进行。
图1是根据本发明的一种文本至语音转换方法的示意性流程图。在图1所示的方法中,在文本分析步骤S110,将基于由第一语料库产生的文本至语音转换模型,对要被转换为语音的文本进行分析,以获得文本的描述性韵律注解信息。该文本至语音转换模型包括文本至韵律结构预测模型和韵律参数预测模型。语料库中包括预先录制的大量文本的声音文件、该文本的相应的韵律标注,包括该文本的韵律结构标注,以及该文本的基本信息标注等等。文本至语音转换模型存储的是根据第一语料库得到的文本至语音转换的规律模型。其中,描述性韵律注解信息包括文本的韵律结构,还可以包括发音、重音等等。韵律结构包括韵律词(prosody word)、韵律短语(prosodyphrase)和语调短语(intonation phrase)。然后,在韵律结构调整步骤S120,将根据所需要的目标语音速度,对文本的韵律结构进行调整。在进行文本的韵律结构调整时,也可以同时考虑上述语料库的语音速度。本领域的技术人员可以理解韵律结构调整步骤S120既可以在文本分析步骤S110之后进行,也可以与文本分析步骤S110同时进行。在韵律参数预测步骤S130,基于上述文本分析步骤的结果以及文本至语音转换模型中的韵律参数预测模型对文本的韵律参数进行预测。文本的韵律参数包括音高(value of pitch)、音长(duration)和音量(energy)等。在语音合成步骤S140,基于所预测的文本的韵律参数以及语料库合成该文本的语音。在语音合成步骤S140,也可以同时调整所预测的韵律参数,如音长,以满足目标语音速度的要求。可以理解,调整所预测的韵律参数也可以在语音合成步骤之前进行。本领域的普通技术人员还可以理解,该方法还可以进一步包括对合成的语音进行听觉评估的步骤(图中未示出),并根据听觉评估的结果进一步调整所述文本的韵律结构。与图2中的方法相比,图1中所示的方法尤其适于但不限于根据目标语音速度处理少量要转换语音的文本。
图2是根据本发明的另一种文本至语音转换方法的示意性流程图。根据图2所示的方法,首先在调整语料库的韵律结构的步骤S210,根据一目标语音速度对将要用于文本至语音转换的第一语料库的韵律结构进行调整。在调整语料库的韵律结构的时候,也可以同时考虑该语料库的原始语音速度。然后,在文本分析步骤S220,将基于由该调整后的语料库产生的文本至语音转换模型,对要被转换为语音的文本进行分析,以获得文本的描述性韵律注解信息。该描述性韵律注解信息包括文本的韵律结构。在韵律参数预测步骤S230,基于上述文本分析步骤的结果以及文本至语音转换模型对文本的韵律参数进行预测。在语音合成步骤S240,基于所预测的文本的韵律参数以及语料库合成该文本的语音。在语音合成步骤S240,也可以同时调整所预测的韵律参数,如音长,以满足目标语音速度的要求。与图1中的方法相比,图2中所示的方法适于但不限于根据目标语音速度处理大量要转换语音的文本。
在图1和图2所示的方法中,调整韵律结构优选通过调整韵律短语的长度分布来进行。调整韵律短语的长度分布,优选将该分布根据上文所述的目标分布来调整,尤其是将该分布与目标分布相匹配。而该目标分布可以对应于一第二语料库的韵律短语分布。在图2所示的方法中,上述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,上述第二语料库具有对应于第二语音速度以及第一韵律边界概率阈值的第二韵律短语长度分布。韵律结构的调整通过以下步骤进行:根据目标语音速度调整所述第一韵律边界概率阈值,以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配。而文本分析步骤则基于调整后的第一语料库对所述文本进行分析。而在图1所示的方法中,可以采用类似的方法将文本的韵律结构与该目标分布,即第二语料库的分布相匹配。
图3是根据本发明的一种文本至语音转换装置的示意性方框图。该装置被配置为适于执行图1所示的方法。在图3中,根据本发明的文本至语音转换装置300,包括文本韵律结构调整装置360、文本分析装置320、韵律参数预测装置330和语音合成装置340。文本至语音转换装置300可以调用不同的语料库,如图中所示的第一语料库310,以及由该语料库生成的文本至语音转换模型(TTS模型)315。如上文所述,语料库中包括预先录制的大量文本的声音文件、该文本的韵律标注,包括该文本的韵律结构标注,以及该文本的基本信息标注等等。文本至语音转换模型存储的是根据语料库得到的文本至语音转换规律的模型。文本至语音转换装置300也可以根据需要但并非必须包括语料库310和TTS模型315。
在图3中,文本文本分析装置320,用于基于由第一语料库310产生的文本至语音转换模型315,对输入的文本进行分析以获得文本的描述性韵律注解信息,该文本的描述性韵律注解信息包括文本的韵律结构。文本至语音转换模型315包括文本至韵律结构预测模型和韵律参数预测模型。韵律参数预测装置330接收文本分析装置320的分析结果,用于基于上述文本分析装置获得的信息以及文本至语音转换模型315对文本的韵律参数进行预测。语音合成装置340与韵律参数预测装置相耦合,接收所预测的文本的韵律参数并基于所预测的文本的韵律参数以及语料库310合成所述文本的语音。韵律结构调整装置360与文本分析装置320相耦合,用于根据合成语音的目标语音速度对所述文本的韵律结构进行调整。在进行韵律结构的调整时,也可以同时考虑语料库310的语音速度。在语音合成装置340还可以根据目标语音速度对预测的韵律参数进行调整,如调整韵律参数中的音长。
图4是根据本发明的另一种文本至语音转换装置的示意性方框图。该装置被配置为适于执行图2所示的方法。在图4中,根据本发明的文本至语音转换装置400,包括语料库韵律结构调整装置460、文本分析装置320、韵律参数预测装置330和语音合成装置340。文本至语音转换装置400可以调用不同的语料库,如图中所示的第一语料库310,以及由该语料库生成的文本至语音转换模型(TTS模型)315。文本至语音转换装置400也可以根据需要但并非必须包括语料库310和TTS模型315。该语料库310和TTS模型315如上文结合图3所述。在图4中的文本至语音转换装置400中,语料库韵律结构调整装置460配置为根据目标语音速度调整第一语料库310的韵律结构。文本分析装置320,用于基于由调整后的第一语料库310产生的文本至语音转换模型315,对输入的文本进行分析以获得文本的描述性韵律注解信息,该文本的描述性韵律注解信息包括文本的韵律结构。韵律参数预测装置330接收文本分析装置320的分析结果,用于基于上述文本分析装置获得的信息以及文本至语音转换模型对文本的韵律参数进行预测。语音合成装置340与韵律参数预测装置相耦合,接收所预测的文本的韵律参数并基于所预测的文本的韵律参数以及语料库310合成所述文本的语音。在进行韵律结构的调整时,也可以同时考虑语料库310的语音速度。在语音合成装置340还可以根据目标语音速度对预测的韵律参数进行调整,如调整韵律参数中的音长。
图5是根据本发明的一种优选的调节TTS语料库的方法的示意性流程图。本领域的普通技术人员可以理解,图中以及下述方法也适用于要转换语音的输入文本,以调整对其预测的韵律结构。在该方法用于输入文本的韵律结构时,输入文本的集合相当于下述第一语料库中的文本。在该方法中,所要调整的第一语料库具有对应于第一语音速度SpeedA以及第一韵律边界概率阈值ThresholdA的第一韵律短语长度分布DistributionA。在创建决策树的步骤S510,基于该第一语料库创建用于进行韵律结构预测的决策树。在此步骤中,首先为第一语料库中的每一个字或词提取韵律边界上下文信息,然后基于所述韵律边界上下文信息,创建所述用于韵律边界预测的决策树。每个词的上下文信息包括该词的左边和右边词汇的信息。词汇的信息包括词性(Part of Speech,POS),音节长度或单词长度(syllable length or word length)以及其他语法信息(syntacticinformation)。
对于词汇i的边界i的特征向量F(Boundaryi),可表示为:
F(Boundaryi)=(F(wi-N),F(wi-N-1),...,F(wi),...F(wi+N-1))
F ( w k ) = ( POS w k , Length w k , . . . )      (i-N-1≤k≤i+N-1)
其中,F(Wk)表示词汇k的特征向量,POSWk表示词汇k的词性,lengthwk表示词汇k的音节或词汇长度。
基于上述信息,可以创建用于韵律结构预测的决策树。当接收到一个句子时,在提取上述特征向量并创建决策树之后,通过遍历决策树就可以得到每个词汇前后边界的概率信息。众所周知,决策树是一种统计学方法,该方法考虑了每个单元的上下文特征信息,并给出每个单元的概率信息(Probabilityi)。边界阈值(Threshold=α)定义为:如果边界概率大于α,则确定该边界,即确定了韵律短语的边界。
在设置目标语音速度的步骤S520,对所需要的语料库的目标语音速度进行设定。该目标语音速度可以对应于文本至语音转换的某个特定应用。作为优选方案,该目标语音速度可以对应于一第二语料库的第二语音速度。该第二语料库具有对应于第二语音速度SpeedB以及第二韵律边界概率阈值ThresholdB的第二韵律短语长度分布DistributionB
在关系创建步骤S530,为所述第一语料库建立韵律结构,如韵律短语长度分布,与语音速度之间的关系。在优选方案中,韵律短语长度分布与目标语音速度之间的关系通过韵律边界概率阈值来建立。对于一给定的阈值,如果语音速度快,则就会有更多的韵律短语具有更长韵律短语长度。作为选择,该关系也可以根据创建和/或分析具有不同语音速度的语料库来创建。针对韵律短语长度分布与对应的语音速度的关系进行听觉主观评估,也可以作为创建该关系的依据。
如上文所述,具有不同语音速度的语料库中的韵律短语分布不同。如果语音速度快,则更多的韵律短语具有更长的长度。据此,可以理解如果通过调整而使阈值变小,则韵律短语的边界数量将增加,而更多的韵律短语的长度变短。相反,如果通过调整而使阈值变大,则韵律短语的边界数量将减少,而更多的韵律短语的长度变长。因此,韵律短语的长度分布与目标语音速度可以通过该阈值建立起关系。通过调整该阈值,可以使一个语料库(A)的韵律短语长度分布与另一个语料库(B)的韵律短语长度分布相匹配。该新的韵律短语分布将与语料库B的语音速度相匹配。因而,达到根据目标语音速度调整韵律结构的目的。作为选择,也可以通过调整该阈值,使一个语料库(A)的韵律短语长度分布与一目标分布相匹配。
换言之,通过调整韵律短语边界概率阈值(Threshold),可以使得第一语料库的韵律短语长度分布与第二语料库的韵律短语长度分布相适应。例如第一语料库的第一语音速度(SpeedA)在韵律短语边界概率阈值ThresholdA=0.5时,与第一韵律短语长度分布(DistributionA)相对应。对于具有第二语音速度SpeedB的第二语料库,在韵律短语边界概率阈值ThresholdB=0.5时的第二韵律短语长度分布DistributionB,可以通过上述的决策树方法得到。然后,可以改变第一语料库的韵律短语边界概率阈值使得第一韵律短语长度分布(DistributionA)与第二语音速度SpeedB之下的第二韵律短语长度分布DistributionB相匹配。
对于这两个语料库,第一语音速度和第二语音速度的关系(SpeedB=α·SpeedA)可以知道。可以调整韵律短语边界概率阈值ThresholdA使得
DistributionA|(ThresholdA=β)=DistributionB|(ThresholdB=0.5).
DistributionA|(ThresholdA=β)表示第一语料库在韵律短语边界概率阈值为β时的韵律短语长度分布A。DistributionB|(ThresholdB=0.5)表示第二语料库在韵律短语边界概率阈值为0.5时的韵律短语长度分布B。
在调整步骤S540,基于上述决策树和上述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。在优选方案中DistributionA|(ThresholdA=β)定义为:
DistributionA|(ThresholdA=β)=Max(Count(Lengthi))|(ThresholdA=β)
Max(Count(Lengthi))|(ThresholdA=β)表示具有最大长度的韵律短语的分布,如具有最大长度的韵律短语的数量在所有韵律短语中所占的比例。
与此类似,也可以创建与具有其它语音速度的语料库的关系。其他与语音速度和韵律短语边界阈值相关的其它参数可以通过曲线拟和的方式来得到。
作为选择,也可以通过调整具有最大长度和第二大长度的韵律短语长度分布,或与此类似的方式,来调整文本的韵律短语的长度分布。还可以利用曲线拟和的方法匹配第一语料库与第二语料库的韵律短语长度分布。在此,通过改变第一语料库的韵律短语边界阈值,可以得到一组韵律短语长度分布的曲线。对于第二语料库,也可以得到其韵律短语长度分布曲线。可以通过比较来在该曲线组中找出与第二语料库的曲线最相近的曲线。从而可以得到相应的韵律短语边界阈值。
两条曲线之间的差别比较可以通过以下方式进行。其中,曲线可以表示为:
f ( n ) = Count ( n ) Σ m = 0 M Count ( m )  其中(n=1,...,M)。
其中,f(n)表示长度为n的韵律短语在全部韵律短语中所占的比例,Count(n)表示长度为n的韵律短语的数量,M是韵律短语长度的最大值。
对于两条曲线:f1(n)和f2(n),它们之间的差别可以表示为:
Diff ( f 1 , f 2 ) = Σ n = 1 M ( f 1 ( n ) - f 2 ( n ) ) M
当然,也可以使用其它方式来比较两条曲线之间的差别。例如,利用夹角链码方法来表示并比较曲线,请参考赵宇和陈雁秋在软件学报的Vol.15 No.2,P300-307所描述的“曲线描述的一种方法:夹角链码”。
本领域的技术人员可以理解,上述调整韵律短语长度分布的方法也适用于调整语调短语的分布。
图6是根据本发明的一种调节TTS语料库的装置的示意性方框图。该调节TTS语料库的装置被配置为适于执行图5中的方法。在图6中,用于调整文本至语音转换语料库的装置600包括:决策树创建装置620、目标语音速度设置装置660、关系创建装置630、调整装置640。其中,决策树创建装置620,配置为基于第一语料库创建用于进行韵律结构预测的决策树;目标语音速度设置装置660,配置为为所述语料库设置一目标语音速度;关系创建装置630,配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系;调整装置640,配置为基于所述决策树和所述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。
其中,决策树创建装置620进一步配置为:为第一语料库中的每一个字或词提取韵律边界上下文信息;基于所述韵律边界上下文信息,创建所述用于韵律边界预测的决策树。
其中,所述调整装置640进一步配置为根据所述目标语音速度而调整第一语料库的韵律短语长度分布,以便与一目标分布相匹配。所述目标语音速度可以对应于一第二语料库的第二语音速度。其中,所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布,所述调整装置640进一步配置为:根据所述第二语料库的韵律短语长度分布,调整所述第一语料库的韵律短语长度分布。
其中,所述关系创建装置630进一步配置为:建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系;所述调整装置640进一步配置为通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。所述调整装置640还可以进一步配置为通过利用曲线拟和方法调整所述韵律短语长度分布;或者进一步配置为通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
以上结合优选法方案对本发明进行了详细的描述,但是可以理解,以上实施例仅用于说明而非限定本发明。本领域的技术人员可以对本发明的所示方案进行修改而不脱离本发明精神。

Claims (48)

1.一种文本至语音的转换方法,包括:
a)文本分析步骤,用于基于由第一语料库产生的文本至语音转换模型,对所述文本进行分析以获得文本的描述性韵律注解信息;
b)韵律参数预测步骤,用于基于上述文本分析步骤的结果对文本的韵律参数进行预测;
c)语音合成步骤,用于基于所预测的文本的韵律参数合成所述文本的语音;
其中所述文本的描述性韵律注解信息包括文本的韵律结构,所述方法还包括将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
2.根据权利要求1所述的文本至语音的转换方法,其中所述文本的描述性韵律注解信息还包括发音、重音。
3.根据权利要求1所述的文本至语音的转换方法,其中所述文本的韵律参数包括音高、音长和音量。
4.根据权利要求1所述的文本至语音的转换方法,其中所述韵律结构包括韵律词、韵律短语和语调短语。
5.根据权利要求4所述的文本至语音的转换方法,其中对所述文本的韵律结构的调整是通过改变文本的韵律短语的长度分布来进行。
6.根据权利要求5所述的文本至语音的转换方法,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述文本的韵律短语的长度分布的调整通过以下步骤进行:
调整第一韵律边界概率阈值,以便调整所述第一语料库的韵律短语长度分布;
所述文本分析步骤基于调整后的第一语料库对所述文本进行分析。
7.根据权利要求1所述的文本至语音的转换方法,其中进一步包括对合成的语音进行听觉评估的步骤,并根据听觉评估的结果进一步调整所述文本的韵律结构。
8.根据权利要求1所述的文本至语音的转换方法,其中所述目标语音速度对应于一第二语料库的第二语音速度。
9.根据权利要求1所述的文本至语音的转换方法,其中所述韵律结构包括韵律短语,所述调整文本的韵律结构是通过将文本的韵律短语长度分布修改为一目标分布来进行。
10.根据权利要求8所述的文本至语音的转换方法,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布,所述韵律结构的调整通过以下步骤进行:
根据目标语音速度调整所述第一韵律边界概率阈值,以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配;
所述文本分析步骤基于调整后的第一语料库对所述文本进行分析。
11.根据权利要求1或9所述的文本至语音的转换方法,其中还包括根据所述目标语音速度对所述韵律参数进行调整的步骤。
12.根据权利要求3所述的文本至语音的转换方法,其中还包括根据所述目标语音速度对所述韵律参数中的音长进行调整的步骤。
13.根据权利要求9或10所述的文本至语音的转换方法,其中所述韵律短语长度分布的调整通过利用曲线拟和方法进行。
14.根据权利要求5、6、9或10所述的文本至语音的转换方法,其中所述韵律短语长度分布的调整是通过调整具有最长长度的韵律短语的分布来进行。
15.根据权利要求4所述的文本至语音的转换方法,其中对所述文本的韵律结构的调整还包括调整文本的语调短语。
16.一种文本至语音转换装置,包括:
文本分析装置,用于基于由第一语料库产生的文本至语音转换模型,对文本进行分析以获得文本的描述性韵律注解信息,该文本的描述性韵律注解信息包括文本的韵律结构;
韵律参数预测装置,用于基于上述文本分析装置获得的信息对文本的韵律参数进行预测;
语音合成装置,用于基于所预测的文本的韵律参数合成所述文本的语音;
其特征在于所述文本至语音转换装置还包括韵律结构调整装置,用于将所述文本的韵律结构根据合成语音的目标语音速度进行调整。
17.根据权利要求16所述的文本至语音转换装置,其中所述韵律结构包括韵律词、韵律短语和语调短语。
18.根据权利要求17所述的文本至语音转换装置,其中韵律结构调整装置进一步配置为根据目标语音速度来调整文本的韵律短语的长度分布。
19.根据权利要求17所述的文本至语音转换装置,其中韵律结构调整装置进一步配置为根据目标语音速度来调整文本的语调短语。
20.根据权利要求18所述的文本至语音转换装置,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,
其中所述韵律结构调整装置进一步配置为根据目标语音速度调整第一韵律边界概率阈值,以便调整所述第一语料库的韵律短语长度分布;
所述文本分析装置进一步配置为基于调整后的第一语料库对所述文本进行分析。
21.根据权利要求16所述的文本至语音转换装置,其中文本的韵律参数包括音高、音长和音量。
22.根据权利要求16所述的文本至语音转换装置,其中所述目标语音速度对应于一第二语料库的第二语音速度。
23.根据权利要求16所述的文本至语音转换装置,其中所述韵律结构包括韵律短语,所述韵律结构调整装置进一步配置为将文本的韵律短语长度分布修改为一目标分布。
24.根据权利要求22所述的文本至语音转换装置,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布,所述韵律结构调整装置进一步配置为根据目标语音速度调整第一韵律边界概率阈值,以便调整并使得所述第一语料库的韵律短语长度分布与所述第二语料库的韵律短语长度分布相匹配;所述文本分析装置进一步配置为基于调整后的第一语料库对所述文本进行分析。
25.根据权利要求16或23所述的文本至语音转换装置,其中所述语音合成装置进一步配置为根据所述目标语音速度对所述韵律参数进行调整。
26.根据权利要求25所述的文本至语音转换装置,其中所述韵律参数包括音长,所述语音合成装置进一步配置为根据所述目标语音速度对所述音长进行调整。
27.根据权利要求23或24所述的文本至语音转换装置,其中所述韵律结构调整装置进一步配置为利用曲线拟和方法来调整韵律短语长度分布。
28.根据权利要求18、20、23或24其中之一所述的文本至语音转换装置,其中所述韵律结构调整装置进一步配置为:通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
29.一种用于调整文本至语音转换语料库的方法,所述语料库为第一语料库,所述方法包括:
a)基于一第一语料库创建用于进行韵律结构预测的决策树;
b)为所述第一语料库设置一目标语音速度;
c)基于所述决策树,为所述第一语料库建立韵律短语长度分布与语音速度之间的关系;
d)基于所述决策树和所述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。
30.根据权利要求29所述的用于调整文本至语音转换语料库的方法,其中用于创建决策树的步骤a)进一步包括:
为第一语料库中的每一个字或词提取韵律边界上下文信息;
基于所述韵律边界上下文信息,创建所述用于韵律边界预测的决策树。
31.根据权利要求29所述的用于调整文本至语音转换语料库的方法,其中所述步骤d)进一步包括根据所述目标语音速度而调整第一语料库的韵律短语长度分布,以便与一目标分布相匹配。
32.根据权利要求29所述的用于调整文本至语音转换语料库的方法,其中所述目标语音速度对应于一第二语料库的第二语音速度。
33.根据权利要求32所述的用于调整文本至语音转换语料库的方法,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布,所述步骤d)通过以下方法进行:根据所述第二语料库的韵律短语长度分布,调整所述第一语料库的韵律短语长度分布。
34.根据权利要求29或33所述的用于调整文本至语音转换语料库的方法,其中:
为所述第一语料库建立韵律短语长度分布与语音速度之间的关系的步骤c)进一步包括:建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系;
用于调整第一语料库的韵律短语长度分布的步骤d)是通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。
35.根据权利要求29-33中任一项所述的用于调整文本至语音转换语料库的方法,其中:所述韵律短语长度分布的调整通过利用曲线拟和方法进行。
36.根据权利要求34所述的用于调整文本至语音转换语料库的方法,其中:所述韵律短语长度分布的调整通过利用曲线拟和方法进行。
37.根据权利要求29-33中任一项所述的用于调整文本至语音转换语料库的方法,其中:所述韵律短语长度分布的调整是通过调整具有最长长度的韵律短语的分布来进行。
38.根据权利要求34所述的用于调整文本至语音转换语料库的方法,其中:所述韵律短语长度分布的调整是通过调整具有最长长度的韵律短语的分布来进行。
39.一种用于调整文本至语音转换语料库的装置,所述语料库为第一语料库,所述装置包括:
决策树创建装置,配置为基于第一语料库创建用于进行韵律结构预测的决策树;
目标语音速度设置装置,配置为为所述语料库设置一目标语音速度;
关系创建装置,配置为基于所述决策树为所述第一语料库建立韵律短语长度分布与语音速度之间的关系;
调整装置,配置为基于所述决策树和所述关系,根据所述目标语音速度调整第一语料库的韵律短语长度分布。
40.根据权利要求39所述的用于调整文本至语音转换语料库的装置,其中决策树创建装置进一步配置为:
为第一语料库中的每一个字或词提取韵律边界上下文信息;
基于所述韵律边界上下文信息,创建所述用于韵律边界预测的决策树。
41.根据权利要求39所述的用于调整文本至语音转换语料库的装置,其中所述调整装置进一步配置为根据所述目标语音速度而调整第一语料库的韵律短语长度分布,以便与一目标分布相匹配。
42.根据权利要求39所述的用于调整文本至语音转换语料库的装置,其中所述目标语音速度对应于一第二语料库的第二语音速度。
43.根据权利要求42所述的用于调整文本至语音转换语料库的装置,其中所述第一语料库具有对应于第一语音速度以及第一韵律边界概率阈值的第一韵律短语长度分布,所述第二语料库具有对应于第二语音速度以及第二韵律边界概率阈值的第二韵律短语长度分布,所述调整装置进一步配置为:根据所述第二语料库的韵律短语长度分布,调整所述第一语料库的韵律短语长度分布。
44.根据权利要求39或43所述的用于调整文本至语音转换语料库的装置,其中:
所述关系创建装置进一步配置为:建立韵律边界概率阈值、韵律短语长度分布与语音速度之间的关系;
所述调整装置进一步配置为通过调整韵律边界概率的阈值来调整第一语料库的韵律短语长度分布。
45.根据权利要求39-43中任一项所述的用于调整文本至语音转换语料库的装置,其中所述调整装置进一步配置为:通过利用曲线拟和方法调整所述韵律短语长度分布。
46.根据权利要求44所述的用于调整文本至语音转换语料库的装置,其中所述调整装置进一步配置为:通过利用曲线拟和方法调整所述韵律短语长度分布。
47.根据权利要求37-43中任一项所述的用于调整文本至语音转换语料库的装置,其中所述调整装置进一步配置为:通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
48.根据权利要求44所述的用于调整文本至语音转换语料库的装置,其中所述调整装置进一步配置为:通过调整具有最长长度的韵律短语的分布来调整所述韵律短语长度分布。
CNB200410046117XA 2004-05-31 2004-05-31 文本至语音转换以及调整语料库的装置和方法 Expired - Fee Related CN100524457C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB200410046117XA CN100524457C (zh) 2004-05-31 2004-05-31 文本至语音转换以及调整语料库的装置和方法
US11/140,190 US7617105B2 (en) 2004-05-31 2005-05-27 Converting text-to-speech and adjusting corpus
US12/167,707 US8595011B2 (en) 2004-05-31 2008-07-03 Converting text-to-speech and adjusting corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200410046117XA CN100524457C (zh) 2004-05-31 2004-05-31 文本至语音转换以及调整语料库的装置和方法

Publications (2)

Publication Number Publication Date
CN1705016A CN1705016A (zh) 2005-12-07
CN100524457C true CN100524457C (zh) 2009-08-05

Family

ID=35426540

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200410046117XA Expired - Fee Related CN100524457C (zh) 2004-05-31 2004-05-31 文本至语音转换以及调整语料库的装置和方法

Country Status (2)

Country Link
US (2) US7617105B2 (zh)
CN (1) CN100524457C (zh)

Families Citing this family (196)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
JP4114888B2 (ja) * 2005-07-20 2008-07-09 松下電器産業株式会社 声質変化箇所特定装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101432801B (zh) * 2006-02-23 2012-04-18 日本电气株式会社 语音识别词典制作支持***、语音识别词典制作支持方法
CN101046956A (zh) * 2006-03-28 2007-10-03 国际商业机器公司 交互式音效产生方法及***
CA2660395A1 (en) * 2006-08-21 2008-02-28 Philippe Jonathan Gabriel Lafleur Text messaging system and method employing predictive text entry and text compression and apparatus for use therein
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090326948A1 (en) * 2008-06-26 2009-12-31 Piyush Agarwal Automated Generation of Audiobook with Multiple Voices and Sounds from Text
US10127231B2 (en) 2008-07-22 2018-11-13 At&T Intellectual Property I, L.P. System and method for rich media annotation
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101814288B (zh) * 2009-02-20 2012-10-03 富士通株式会社 使语音合成时长模型自适应的方法和设备
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与***
CN102376304B (zh) * 2010-08-10 2014-04-30 鸿富锦精密工业(深圳)有限公司 文本朗读***及其文本朗读方法
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) * 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8260615B1 (en) * 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130294746A1 (en) * 2012-05-01 2013-11-07 Wochit, Inc. System and method of generating multimedia content
US9524751B2 (en) 2012-05-01 2016-12-20 Wochit, Inc. Semi-automatic generation of multimedia content
US9396758B2 (en) 2012-05-01 2016-07-19 Wochit, Inc. Semi-automatic generation of multimedia content
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US8438029B1 (en) 2012-08-22 2013-05-07 Google Inc. Confidence tying for unsupervised synthetic speech adaptation
TWI503813B (zh) * 2012-09-10 2015-10-11 Univ Nat Chiao Tung 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
JP5954221B2 (ja) * 2013-02-28 2016-07-20 ブラザー工業株式会社 音源特定システム、及び音源特定方法
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN105593936B (zh) * 2013-10-24 2020-10-23 宝马股份公司 用于文本转语音性能评价的***和方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9553904B2 (en) 2014-03-16 2017-01-24 Wochit, Inc. Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9240178B1 (en) * 2014-06-26 2016-01-19 Amazon Technologies, Inc. Text-to-speech processing using pre-stored results
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9659219B2 (en) 2015-02-18 2017-05-23 Wochit Inc. Computer-aided video production triggered by media availability
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106486111B (zh) * 2016-10-14 2020-02-07 北京光年无限科技有限公司 基于智能机器人的多tts引擎输出语速调节方法及***
CN106448665A (zh) * 2016-10-28 2017-02-22 努比亚技术有限公司 语音处理装置及方法
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6930185B2 (ja) * 2017-04-04 2021-09-01 船井電機株式会社 制御方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN108280118A (zh) * 2017-11-29 2018-07-13 广州市动景计算机科技有限公司 文本播读方法、装置及客户端、服务器和存储介质
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10733984B2 (en) * 2018-05-07 2020-08-04 Google Llc Multi-modal interface in a voice-activated network
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN109326281B (zh) * 2018-08-28 2020-01-07 北京海天瑞声科技股份有限公司 韵律标注方法、装置和设备
CN109065016B (zh) * 2018-08-30 2021-04-13 出门问问信息科技有限公司 语音合成方法、装置、电子设备及非暂态计算机存储介质
CN109285550A (zh) * 2018-09-14 2019-01-29 中科智云科技(珠海)有限公司 基于软交换技术的语音对话智能分析方法
CN109285536B (zh) * 2018-11-23 2022-05-13 出门问问创新科技有限公司 一种语音特效合成方法、装置、电子设备及存储介质
CN109859746B (zh) * 2019-01-22 2021-04-02 安徽声讯信息技术有限公司 一种基于tts的语音识别语料库生成方法及***
CN109948142B (zh) * 2019-01-25 2020-01-14 北京海天瑞声科技股份有限公司 语料选取处理方法、装置、设备及计算机可读存储介质
CN110265028B (zh) * 2019-06-20 2020-10-09 百度在线网络技术(北京)有限公司 语音合成语料库的构建方法、装置及设备
CN112185351B (zh) * 2019-07-05 2024-05-24 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
KR102663669B1 (ko) * 2019-11-01 2024-05-08 엘지전자 주식회사 소음 환경에서의 음성 합성
CN110853613B (zh) * 2019-11-15 2022-04-26 百度在线网络技术(北京)有限公司 韵律停顿等级预测的校正方法、装置、设备和介质
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
CN112309368A (zh) * 2020-11-23 2021-02-02 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质
US11580955B1 (en) * 2021-03-31 2023-02-14 Amazon Technologies, Inc. Synthetic speech processing

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696042A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Syllable boundary recognition from phonological linguistic unit string data
US4797930A (en) * 1983-11-03 1989-01-10 Texas Instruments Incorporated constructed syllable pitch patterns from phonological linguistic unit string data
DE69232112T2 (de) * 1991-11-12 2002-03-14 Fujitsu Ltd., Kawasaki Vorrichtung zur Sprachsynthese
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5949961A (en) * 1995-07-19 1999-09-07 International Business Machines Corporation Word syllabification in speech synthesis system
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP2001296883A (ja) * 2000-04-14 2001-10-26 Sakai Yasue 音声認識方法および装置、音声合成方法および装置、記録媒体
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
GB0113581D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
US7630883B2 (en) * 2001-08-31 2009-12-08 Kabushiki Kaisha Kenwood Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
US8145491B2 (en) * 2002-07-30 2012-03-27 Nuance Communications, Inc. Techniques for enhancing the performance of concatenative speech synthesis
TWI425502B (zh) * 2011-03-15 2014-02-01 Mstar Semiconductor Inc 音訊的時間伸縮方法與相關裝置

Also Published As

Publication number Publication date
US8595011B2 (en) 2013-11-26
US20050267758A1 (en) 2005-12-01
US7617105B2 (en) 2009-11-10
CN1705016A (zh) 2005-12-07
US20080270139A1 (en) 2008-10-30

Similar Documents

Publication Publication Date Title
CN100524457C (zh) 文本至语音转换以及调整语料库的装置和方法
US8234118B2 (en) Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same
Kuligowska et al. Speech synthesis systems: disadvantages and limitations
CN101685633A (zh) 基于韵律参照的语音合成装置和方法
US20130262120A1 (en) Speech synthesis device and speech synthesis method
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
Balyan et al. Automatic phonetic segmentation of Hindi speech using hidden Markov model
Li et al. Acoustical F0 analysis of continuous Cantonese speech
Torres et al. Emilia: a speech corpus for Argentine Spanish text to speech synthesis
Nagy et al. Improving HMM speech synthesis of interrogative sentences by pitch track transformations
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
Sreejith et al. Automatic prosodic labeling and broad class Phonetic Engine for Malayalam
Li et al. Hierarchical Stress Modeling in Mandarin Text-to-Speech.
Demenko et al. Prosody annotation for unit selection TTS synthesis
CN113628609A (zh) 自动音频内容生成
EP1589524B1 (en) Method and device for speech synthesis
Demenko et al. Prosody annotation for corpus based speech synthesis
Bruce et al. On the analysis of prosody in interaction
JPH0580791A (ja) 音声規則合成装置および方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20091002

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20091002

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090805

Termination date: 20200531