CN1879147B - 文本到语音转换方法和*** - Google Patents

文本到语音转换方法和*** Download PDF

Info

Publication number
CN1879147B
CN1879147B CN200380110846.0A CN200380110846A CN1879147B CN 1879147 B CN1879147 B CN 1879147B CN 200380110846 A CN200380110846 A CN 200380110846A CN 1879147 B CN1879147 B CN 1879147B
Authority
CN
China
Prior art keywords
phoneme
language
sound
vowel
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200380110846.0A
Other languages
English (en)
Other versions
CN1879147A (zh
Inventor
莱奥纳多·巴迪诺
克劳迪亚·巴罗洛
西尔维娅·夸扎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
Loquendo SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Loquendo SpA filed Critical Loquendo SpA
Publication of CN1879147A publication Critical patent/CN1879147A/zh
Application granted granted Critical
Publication of CN1879147B publication Critical patent/CN1879147B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Document Processing Apparatus (AREA)

Abstract

用于对包括第二语言的某些部分的第一语言的文本(T1,...,Tn)文本进行操作的文本-语音转换***(10),包括:用于将所述第二语言的所述部分转换为第二语言的音素的字形/音素记录器(30);映射模块(40;40b),被配置为将第二语言的所述音素的至少一部分映射到第一语言的音素集中;以及语音-合成模块(50),该模块被提供有包括作为所述映射结果产生的所述第一语言的所述音素集的结果音素流,以及代表所述文本的所述第一语言的音素流,并从所述结果音素流生成(50)语音信号。

Description

文本到语音转换方法和***
技术领域
本发明涉及文本到语音转换技术,即允许书写的文字被转换成可理解的语音信号的技术。
背景技术
根据所谓的“单元选择可串联合成”,文本-语音转换***是已知的。这要求包括由讲母语者发音的预先记录的句子的数据库。元音数据库是单语言,所有句子都以说话者语言书写和发音。
该类型的文本-语音转换***可以如此正确地只“读取”以说话者的语言书写的文本,而可以以可理解的方式读出文本中可能包括的任何外语单词,只有在包括在作为对文本-语音转换***的支持提供的词典中(与它们正确的语音一起)的情况下才可以。因此,只通过在语言中存在变化的情况下改变说话者声音,多语言文本可以正确地读入这样的***。这就产生了一般而言不愉快的效果,当在高频下语言中产生变化并且时间非常短暂时,越来越明显。
此外,必须读出他或她自己的语言的文本中包括的外语单词的当前说话者一般习惯于以这样的方式读出这些单词,可能不同于-也大大地不同于相同单词在包含在对应的完全的外语的文本中时的正确发音。
作为示例,必须读出英语文本中包括的意大利人名字或姓的英国或美国说话者,与母语为意大利语的说话者在读出相同名字和姓时的发音有相当的不同。相应地,收听相同口头文本的说英语的主题,一般将发现,如果按预期的那样发音,被讲英语者“扭曲”,而不是用正确的意大利语发音读出,则比较容易理解(至少大致)意大利语名字和姓。
类似地,通过采用正确的英国英语或美国英语发音来读出由讲意大利语者读出的意大利语文本中包括的英国或美国城市的名称,一般将被视为不适当的复杂化,并为此,在一般的使用中被拒绝。
过去通过采用本质上两种不同的方法,已经处理了读取多种语言文本的问题。
一方面,进行了通过借助于双语或多语言说话者产生多语种元音数据库的尝试。C.Traber等人所著的文章″From multilingual topolyglot speech synthesis″Proceedings of the Eurospeech,pages835-838,1999是这样的方法的示例。
此方法基于假设(本质上,是否有多种语言说话者),这种说话者是难以遇到的,也难以复制。此外,这样的方法一般没有解决一般与文本中包括的外语单词关联的问题,希望外语单词以与对应的语言的正确的发音不同的方式(可能显著不同)读出。
另一种方法是,对于外语,采用记录器,在其输出端产生的音素,为了发音,被映射到说话者声音的语言的音素中。此后一种方法的示例有:W.N.Campbell ″Foreign-language speech synthesis″Proceedings ESCA/COCSDA ETRW on Speech Synthesis,JenolanCaves,Australia,1998 and″Talking Foreign.Concatenative SpeechSynthesis and Language Barrier″,Proceedings of the EurospeechScandinavia,pages 337-340,2001。
Campbell的工作本质上旨在根据从单语种日语数据库开始生成的声音,合成双语文本,如英语和日语。如果说话者声音是日语,而输入文本是英文的,则激活英语记录器,以产生英语音素。语音映射模块将每一个英语音素映射到对应的类似的日语音素中。根据语音发音类别来评估相似性。通过搜索提供了日语和英语音素之间的对应关系的查询表来进行映射。
作为随后的步骤,根据与当利用英语声音合成相同文本时生成的信号的声音相似性,从日语数据库中选择用于制作日语声音读物的各种声音单元。
Campbell提议的方法的核心是表达了两种语言中的音素之间的对应关系的查询表。可以通过调查两种语言的特征手动创建这样的表。
原则上,这样的方法适用于任何其他语言对,但是,每一个语言对都要求对它们之间的对应关系的显式的分析。这样的方法相当麻烦,事实上,在实践中,在包括两种以上的语言的合成***的情况下是不可行的,因为要考虑的语言对的数量将很快变得非常大。
此外,一般有一个以上的说话者用于每一种语言,至少具有稍有不同音韵***。为了使任何说话者声音能够说所有可用的语言,对于每一个声音-语言对,都需要相应的表。
在包括N种语言和M种说话者声音(显然,M等于或大于N)的合成***的情况下,在将查询表用于第一语音映射步骤的情况下,如果将一个说话者声音的音素映射到每一种外语的单一声音的那些音素中,那么,对于每一个说话者声音,必须生成N-1不同的表,如此,累加到总共N*(M-1)个查询表。
在利用十五种语言以及每一种语言都有两个说话者声音(对应于在本申请的受让人开发的Loquendo TTS文本-语音转换***中所采用的当前配置)操作的合成***的情况下,将需要435个查询表。该图相当有效,特别是在考虑到可能要求手动生成这样的查询表的情况下。
扩展这样的***以包括一个新的说话者声音只说一种新的语言,将需要添加M+N=45个新表。在这方面,必须考虑到,对于一个或多个语言,常常有新的音素添加到文本-语音转换***,当添加的新的音素是***中已经存在的音素的音位变体时,这是常见的情况。在该情况下,需要检查和修改属于正在向其中添加新的音素的语言的所有查询表。
发明内容
鉴于上述情况,需要除去了上文所考虑的现有技术配置的缺点的改进的文本-语音转换***。具体来说,本发明的目标是提供多语言的文本-语音转换***,该***:
-可以不需要依赖懂多种语言的说话者,以及
-可以通过借助于简单体系结构来实现,存储器要求适度,同时也不需要生成(可能手动)相关数量的查询表,特别是当改进了***,外加了一个或多个语言的新音素的情况下。
根据本发明,该目标可以通过具有随后的权利要求中所阐述的特征的方法来实现。本发明还涉及对应的文本-语音转换***和可加载到至少一个计算机的存储器中的,并包括用于执行本发明的方法的步骤的软件代码部分的计算机程序产品。如这里所使用,这样的计算机程序产品相当于对包含用于控制计算机***以协调本发明的方法的性能的指令的计算机可读的介质。“至少一个计算机”显然强调了以分布式方式实现的本发明的***的可能性。
如此,本发明的优选实施例是包括至少一个使用第二语言的部分的第一语言的文本的文本-语音转换***的方案,包括:
-用于将所述第二语言的所述部分转换为所述第二语言的音素的字形/音素记录器,
-映射模块,被配置为将所述第二语言的所述音素的至少一部分映射到所述第一语言的音素集中,
-语音-合成模块,向该模块提供包括作为所述映射结果产生的所述第一语言的所述音素集的音素的结果流,以及代表所述文本的所述第一语言的音素流;以及从所述音素的结果流生成语音信号;映射模块被配置为:
-在正在被映射的所述第二语言的每个所述音素和所述第一语言的一组候选映射音素之间执行相似性测试,
-给所述测试的结果指定相应的分数,以及
-将所述第二语言的每一个所述音素作为所述分数的函数映射到从所述候选映射音素中选出的所述第一语言的一组映射音素中。
优选情况下,映射模块被配置为将所述第二语言的所述音素映射到从下列各项中选出的所述第一语言的一组映射音素:
-所述第一语言的一组音素,包括所述第一语言的三个、两个或一个音素,或
-空集,其中,在所述第二语言的所述音素的所述结果流中没有包括音素。
通常,将其任何所述分数不能达到所述阈值的所述第二语言的那些音素映射到所述第一语言的音素的所述空集中。
如此,通过所述第一语言的说话者声音读出音素的结果流。
基本上,这里所描述的配置基于语音映射配置,其中,***中包括的每一个说话者声音能够读取多语言文本,而不修改元音数据库。具体来说,这里所描述的配置的优选实施例在存在于表中的音素之中搜索说话者声音的语言,接收最类似于外语音素的音素作为输入。可以根据如根据国际标准IPA所定义的语音-发音特征,表达两个音素之间的相似度。语音映射模块量化了语音类别的关系/相似性的程度和它们在音素之间的比较中的意义。
这里所描述的配置不包括说话者声音语言的数据库中包括的段和借助讲外语者声音所合成的信号之间的任何“声音”比较。因此,从计算观点来看,整个配置不太麻烦,省去了具有可用于“外语”的说话者声音的***:只需字形-音素记录器就足够了。
此外,语音映射是独立于语言的。音素之间的比较排他地引用了与每一个音素关联的语音特征的矢量,这些特征事实上是独立于语言的。如此,映射模块“不知道”涉及的语言,这意味着,对于***中的每一个语言对(或每一个声音-语言对),对于要执行(可能手动)的任何特定活动,没有任何要求。此外,将新的语言或新的音素集成到***中将不要求对语音映射模块进行修改。
在不损失效率的情况下,这里所描述的配置与现有技术***相比,导致明显的简化,相对于以前的解决方案,还涉及高度的一般化。
所进行的实验显示,完全实现了使单语种说话者声音能够以可理解的方式说外语的目标。
附图说明
现在将参考下面的附图,只作为示例,对本发明进行描述:
-图1是用于集成了这里所描述的改善的文本-语音转换***的方框图,以及
-图2到8是图1的文本-语音转换***的可能的操作的示范性流程图。
具体实施方式
图1的方框图描述了多语言型文本-语音转换***的总体体系结构。
基本上,图1的***可以作为其输入接收基本上可以算是“多语言”文字的文字。
在本发明的上下文中,定义“多语言”的意义是双重的:
首先,输入文字是多语言的,它对应于以多种不同的语言T1...,Tn(例如,十五种不同的语言)中的任何一种语言书写的文字,以及
其次,每一个文本T1,...,Tn本身是多语言的,它可以包括以不同于文本的基本语言的一种或多种语言书写的单词或句子。
文本T1,..,Tn以电子文本格式被提供到***(一般表示为10)。
通过例如OCR扫描读取之类的技术,可以轻松地将不同形式的文本(例如,打印文本的硬拷贝)转换为电子格式。这些方法已为大家所熟知,如此,没有必要在这里提供详细描述。
***10中的第一框通过语言识别模块20来表示,该模块识别输入到***的文本的基本语言以及包括在基本文本中的任何“外语”单词或句子的语言。
再者,用于自动地执行这样的语言识别功能的模块已为大家所熟知,(例如,从字处理***的正字法校正器),从而,没有必要在这里提供详细描述。
在下面,在描述本发明的示范性实施例时,将参考这样的情况:基本输入文本是意大利语文本,其中,包括以英语书写的单词或短语。还将假设说话者声音为意大利语。
有三个模块30、40和50与语言识别模块20连接。
具体来说,模块30是字形/音素记录器,用于将作为输入接收到的文本分段为字形(例如,字母或字母组),并将它转换为对应的音素流。模块30可以是任何已知类型的字形/音素记录器,如包括在上文已经引用的Loquendo TTS文本-语音转换***中的那种类型。
基本上,来自模块30的输出将是包括输入文本的基本语言(例如意大利语)的音素的音素流,在其中分散有包括在基本文本中的外语单词或短语所用语言(例如英语)的音素“脉冲”。
参考40表示映射模块,下面将详细描述其结构和操作。基本上,模块40将从模块30输出的混合音素流-包括输入文本的基本语言(意大利语)的音素以及外语(英语)的音素-转换为只包括第一种基本语言(即在示例中为意大利语)的音素的音素流。
最后,模块50是语音-合成模块,该模块由从模块40输出的(意大利语)音素流生成合成语音信号,被馈送到说话者60,以生成可以被人感觉、听到和理解的对应的声音语音信号。
诸如这里所显示的模块60之类的语音信号合成模块是任何文本到语音转换信号的基本组件,如此,没有必要在这里提供详细描述。
下面是模块40的操作的描述。
基本上,模块40包括分别表示为40a和40b的第一和第二部分。
第一部分40a基本上被配置为向模块50传递已经是基本语言(在本示例中为意大利语)的音素的那些音素。
第二部分40b包括说话者声音(意大利语)的音素表,并作为输入接收将映射到说话者声音(意大利语)的语言的音素中的外语(英语)的音素流,以便允许这样的声音发音。
如上文所指出的,模块20向模块40指出,在给定语言的文字的范围内,何时外语的字或句子出现。通过经过线路24从模块20发送到模块40的“信号开关”信号,发生这种情况。
再者,再强调一遍,将意大利语和英语作为涉及文本-语音转换***的两种语言只是举例而已。事实上,这里所描述的配置的基本优点位于,在模块40的部分40b中执行的语音映射是独立于语言的。映射模块40不知道涉及的语言,这意味着,对于***中的每一个语言对(或每一个声音-语言对),对于要执行(可能手动)的任何特定活动,没有任何要求。
基本上,在模块40中,将每一个“外语”语言音素与表中所存在的所有音素进行比较(可以包括本身不是基本语言的音素的音素)。
因此,输出音素的变数可以对应于每一个输入音素:例如,三个音素、两个音素,一个音素或根本没有音素。
例如,将外语双元音与说话者-声音以及元音对相比较。
将分数与执行的每一个比较进行关联。
最后选择的音素将是具有最高分数和高于阈值的值的那些音素。如果在说话者声音中没有音素达到阈值,则将外语音素映射到零音素中,因此,对于该音素,不产生声音。
通过可变长度的n个语音发音类别的矢量,以意义明确的方式定义每一个音素。根据IPA标准定义的类别如下:
-(a)两个基本类别“元音”和“辅音”;
-(b)类别“双元音”;
-(c)元音(即元音)特征无重音的/带重音的,非音节、长音、鼻音化、r音化、圆唇音;
-(d)元音类别“舌前音”、“央元音”、“舌根音”;
-(e)元音类别“闭塞音”、“闭塞音-闭塞音-半开元音”、“闭塞音-半开元音”、“半开元音”、“开元音-半开元音”、“开元音-开元音-半开元音”、“开元音”;
-(f)辅音模式类别“***音”、“鼻音”、“颤音”、“触音/闪音”、“摩擦音”、“舌边音-摩擦音”、近似音、“舌边音”、“塞擦音”;
-(g)辅音位置类别“双唇音”、“唇齿音”、“齿音”、“齿槽音”、“后齿槽音”、“卷舌音”、“上腭音”、“软腭音”、“小舌音”、“咽喉音”、“声门音”;以及
-(h)其他辅音类别“浊音”、“长音”、“音节”、“送气音”、”不除阻”、“清音”、“半辅音”。
实际上,类别“半辅音”不是标准IPA特点。此类别是冗余类别,以便简明地表示近似/齿槽音/上腭音辅音或近似音-软腭音辅音。
类别(d)和(e)还描述了双元音的第二组件。
如果音素是元音,则每一个矢量都包含一个类别(a),一个或无类别(b),如果音素是元音,至少一个类别(e),如果音素是元音,一个类别(d),如果音素是元音,一个类别(e),如果音素是辅音,则一个类别(f),如果音素是辅音,则至少一个类别(g),如果音素是辅音,则至少一个类别(h)。
通过比较对应的矢量,向所述按矢量的比较分配相应的分数,执行音素之间的比较。
通过比较对应的类别,向所述按类别比较分配相应的分数值,所述相应的分数值被相加以生成所述分数。
每一个按类别的比较都关联了微分的权重,以便不同的按类别的比较都可以在生成对应的分数时具有不同的权重。
例如,通过比较(f)类别获得的最大分数值始终低于通过比较(g)类别获得的分数值(即,与类别(f)比较关联的权重高于与类别(g)比较关联的权重)。结果,与类别(g)之间的相似性相比,矢量(分数)之间的关系将主要受类别(f)之间的相似性的影响。
下面描述的过程使用了具有下列值的一组常数:
-MaxCount=100
-Kopen=14
-Sstep=1
-Mstep=2*Lstep
-Lstep=4*Mstep
-Kmode=Kopen+(Lstep*2)
-Thr=Kmode
-Kplace3=1
-Kplace2=(Kplace3*2)+1
-Kplace1=((Kplace2)*2)+1
-DecrOPen=5
现在将通过引用图2到8的流程图,通过假设向模块40输入单音素,描述这里所示范的***的操作。如果作为模块40的输入提供多个音素,对于每一个输入的音素,将重复下面所描述的过程。
下面将具有类别“双元音或塞擦音”的音素表示为“可分的音素”。
当定义音素的模式和位置类别时,它们是单义的,除非特别指明。
例如,如果给定外语音素(例如,PhonA)被称为“摩擦音-小舌音”,这意味着,它具有单模式类别(摩擦音)和单位置类别(小舌音)。
通过首先参考图2的流程图,在步骤100中,扫描说话者声音语言的表的索引(Indx)(下面表示为TabB)被设置为零,即,位于表中的第一音素中。
与变量MaxScore、TmpScrMax、FirstMaxScore、Loop和Continue的情况相同,分数值(Score)被设置为零初始值。在nil音素中,设置音素BestPhon、FirstBest和FirstBestCmp。
在步骤104中,将外语音素(PhonA)的类别的矢量与说话者声音语言(PhonB)的音素的矢量进行比较。
如果两个矢量相同,则两个音素相同,在步骤108中,分数(Score)被换至值MaxCount,随后的步骤是步骤144。
如果矢量不同,则在步骤112中,比较基础类别(a)。
存在三种情况:两个音素都是辅音(128),两者都是元音(116)或不同(140)。
在步骤116中,就PhonA是否为双元音作出判断。如果是肯定回答,则在步骤124中,如下面详细描述的,激活图4的流程图中所描述的功能。
如果它不是双元音,则在步骤120中,激活图5的流程图中所描述的函数,以将元音与元音进行比较。
可以理解,两个步骤120和124都可能导致分数被修改,如下面所详细描述的。
随后,处理进入步骤144。
在步骤128中(辅音之间的比较),就PhonA是否为塞擦音进行检查。如果是肯定回答,则在步骤136中,激活图7的流程图中所描述的功能。或者,在步骤132中,激活图6中所描述的功能,以便比较两个辅音。
在步骤140中,如下面详细描述的,激活图8的流程图中所描述的功能。
类似地,在下面详细描述了在步骤132和136中可以修改分数所根据的那些标准。
随后,***进入步骤144。
比较的结果汇集到步骤144,在该步骤中,读取分数值(Score)。
在步骤148中,将分数值与表示为MaxCount的值进行比较。如果分数值等于MaxCount,则终止搜索,这意味着,为PhonA查找到了说话者声音语言中的对应的音素(步骤152)。
如果分数值低于MaxCount(在步骤148中所检查的),则在步骤156中,过程如图3的流程图所描述的那样进行。
在步骤160中,将与值Continue与值1进行比较。在肯定回答的情况下(即,Continue等于1),在将值Loop设置为值1并将Continue、Indx和Score复位为零值之后,***回到步骤104。或者,***进入步骤164。
从这里,如果PhonA是鼻音或r音,所选择的音素不是这些类型中的任何一种类型,***进入步骤168,在该步骤中,通过来自TabB的辅音补充所选择的音素,其语音-发音特征允许模拟PhonA的鼻音化或r音化的声音。
在步骤172中,所选择的音素(或多个音素)被发送到输出语音映射模块40,以便提供到模块50。
从图2的流程图的步骤156中到达图3的步骤200。
从步骤200中,如果满足下列两个条件之一,***进入步骤224:
-PhonA是将要映射到两个元音中的双元音;
-PhonA是塞擦音,PhonB是非塞擦音辅音,但是,可以是塞擦音的组件。
参数Loop表示自顶到底扫描表TabB多少次。其值可以是0或1。
只有在PhonA是双元音或塞擦音的情况下,Loop才被设置为值1,从而不可能在Loop等于1的情况下到达步骤204。在步骤204中,检查Maximum Condition。如果分数值(Score)高出MaxScore或者如果相等,并且PhonB的n个语音特征的集比BestPhon的集,则可以满足此条件。
如果满足该条件,则***进入步骤208,在该步骤中,MaxScore被延至分数值,PhonB变为BestPhon。
在步骤212中,将Indx与TabLen(TabB中的音素的数量)进行比较。
如果Indx高于或等于TabLen,则***进入下面将描述的步骤284。
如果Indx是较低,那么,PhonB不是表中的最后一个音素,***进入步骤220,在该步骤中,Indx被增大1。
如果PhonB是表中的最后一个音素,那么,终止搜索,BestPhon(与分数MaxScore关联)是替代PhonA的候选音素。
在步骤224中,检查Loop的值。
如果Loop等于0,那么,***进入步骤228,在该步骤中,就PhonB是双元音还是塞擦音作出检查。
在肯定回答的情况下(即,如果PhonB是双元音或塞擦音),随后的步骤是步骤232。
此时,在步骤232中,在Score和MaxScore之间检查最大条件(Maximum Condition)。
如果满足该条件(即,Score高于MaxScore),则在步骤236中,MaxScore被延至Score的值,PhonB变为BestPhon。
在步骤240(如果步骤228的检查显示了,PhonB既不是双元音,也不是塞擦音,则到达该步骤),则就在Score和TmpScrMAX之间是否存在maximum condition进行检查(以FirstBestComp代替BestPhon)。如果满足这一条件(即,Score高于TmpScrMAX),则在步骤244中,TmpScrMax通过Score延迟,FirstBestComp通过PhonB延迟。
在步骤248中,就PhonB是否为TabB中的最后一个音素作出判断(那么,Indx等于TabLen)。
在肯定回答的情况下(252),作为变量FirstMaxScore存储了MaxScore的值,作为FirstBest存储了BestPhon,随后,在步骤256中,Indx被设置为0,continue被设置为1(以便还将搜索PhonA的第二个组件),以及Score被设置为0。
如果Loop等于1,即,如果判断PhonB为PhonA的可能的第二组件,则从步骤224中到达步骤260。在步骤260中,则就在Score和MaxScore(属于BestPhon)之间的比较中是否满足maximum condition作出判断。
在步骤264中,在满足最大条件(maximum condition)的情况下,Score存储在MaxScore中,PhonB存储在BestPhon中。在步骤266中,就PhonB是否为表中的最后一个音素作出判断,在肯定回答的情况下,***进入步骤272中。
在步骤272中,根据是否满足FirstMaxScore大于或等于(TmpScrMax+MaxScore)的条件,可以在可分的音素或说话者语言声音中的一对音素之间选择最类似于PhonA的音素。作为MaxScore存储了该关系的两个成员的较高值。在选择落在一对音素的情况下,这将是FirstBestCmp和BestPhon。否则,只考虑FirstBest。
值得指出的是,BestPhon(在第二次迭代中查找到)不能是双元音或塞擦音。在步骤276中,Indx增大1,Score被设置为0。
***从步骤280回到步骤104。
当完成搜索时,从步骤272(或步骤212)到达步骤284。在步骤284中,在MaxScore和阈值常量Thr之间进行比较。如果MaxScore较高,那么,候选音素(或音素对)是PhonA的替代。在否定回答的情况下,将PhonA映射到nil音素中。
图4的流程图是图2的图表的方框124的详细描述。
如果PhonA是双元音,则到达步骤300。
在步骤302中,就PhonB是否为双元音,Loop是否等于0作出判断。在肯定回答的情况下,***进入步骤304中,在该步骤中,在判断PhonA的特点之后,如果PhonA是将要映射到单元音中的双元音,则***进入步骤306。
此种类型的双元音具有第一组件,该第一组件是半开元音和央元音,第二组件,该第二组件是闭塞音-闭塞音-半开元音和舌根音。
***从步骤306进入步骤144。
在步骤308中,调用比较两个双元音的函数。
在步骤310中,通过该函数,比较两个音素的类别(b),对于查找到的每一个共同的特点,Score增大1:
在步骤312中,比较两个双元音的第一组件,在步骤314中,对于两个组件,调用叫做F_CasiSpec_Voc的函数。
此函数执行下列情况下满足的三个判断,如果:
-两个双元音的组件似乎是开元音、或开元音-开元音-半开元音、舌前音而不是圆唇音,或开元音-半开元音,舌根音,而不是圆唇音;
-PhonA的组件是半开元音和央元音,在TabB中,没有表现了两种类别的音素存在,PhonB是闭塞音-半开元音和舌前音;
-PhonA的组件是闭塞音、舌前音和圆唇音,或闭塞音-闭塞音-半开元音,舌前音和圆唇音,在TabB中,没有具有这样的特点的音素存在,而PhonB是闭塞音、舌根音,以及圆唇音或闭塞音-闭塞音-半开元音,舌根音和圆唇音。
如果满足了三个条件中的任何条件,在步骤316中,通过增加(KOpen*2),延迟Score的值。
否则,在步骤318中,对于两个组件,调用函数F_ValPlace_Voc。
这样的函数比较类别“舌前音、央元音和舌根音”(类别(d))。
如果相同,Score增大Kopen;如果它们不同,则将一个值增加到Score,如果两个类别之间的距离是1,则该Score包括KOpen减去常数DecrOpen,而如果距离是2,则Score不增大。
在央元音和舌前音之间和在央元音和舌根音之间存在等于1的距离,而在舌前音和舌根音之间存在等于2的距离。
在步骤320中,对于比较双元音的两个组件,调用函数F_ValOpen_Voc。具体来说,通过在两个连续迭代中比较第一组件和第二组件,F_ValOpen_Voc以循环方式操作。
该函数比较类别(e),并将小于类别之间的距离的值的常数KOpen添加到Score中,如下面的表1中所报告的。
矩阵是对称的,其中,只报告了上部。
通过作数字示例,如果PhonA是闭元音,PhonB是闭塞音-半开元音,则将等于(KOpen-(6*Lstep))的值添加到Score,在考虑到常数的值之后,Score等于8。
在步骤322中,如果组件都具有圆唇音特点,则将常数(KOpen+1)添加到Score中。相反,如果两个中只有一个是圆唇音,那么,Score被降低KOpen。
如果已经比较了开头两个组件,***从步骤324中回到步骤314;相反,当也比较了第二组件时,则进入步骤326。
在步骤326中,终止两个双元音的比较,***回到步骤144。
在步骤328中,就PhonB是否为双元音,Loop是否等于1作出判断。如果是这种情况,***进入步骤306。
在步骤330中,就PhonA是否为将要映射到单元音中的双元音作出判断。如果是这种情况,则在步骤331中,检查Loop,如果判断它等于1,则到达步骤306。
在步骤332中,创建音素TmpPhonA。
TmpPhonA是元音,而没有双元音特征,并具有“闭塞音-半开元音”、“舌根音”和“圆唇音”特点。
随后,***进入步骤334中,在该步骤中,比较TmpPhonA和PhonB。通过在没有双元音类别的两个元音音素之间调用比较函数,来执行比较。
在图5中详细描述了也在图2的流程图中的步骤120中调用了该函数。
在步骤336中,调用该函数,以在PhonA和PhonB的组件之间执行比较:因此,在步骤338中,如果Loop等于0,则将PhonA的第一组件与PhonB进行比较(在步骤344中)。相反,如果Loop等于1,则将PhonA的第二组件与PhonB进行比较(在步骤340中)。
在步骤340中,对于查找到的每一个身份,通过将Score增大1,对鼻音化和r音化的类别进行引用。
在步骤342中,如果PhonA在其第一组件上带有重音,PhonB是带重音的元音,或者,如果PhonA是无重音的或在其第二组件中带有重音,PhonB是无重音的元音,则Score增大2。在所有其他情况下,它都缩小2。
在步骤344中,如果PhonA在第二组件上带有重音,PhonB是带有重音的元音,或者,如果PhonA在第一辅音中带有重音或者是无重音的双元音,PhonB是无重音的元音,那么,Score增大2;相反,在所有其他情况下,它都缩小2。
在步骤348中,将PhonA的第一或第二组件的类别(d)和(e)与PhonB进行比较(分别取决于Loop是等于0还是等于1)。
根据在步骤314到322所描述的相同原理,执行特征矢量的比较并更新Score。
步骤350标志着返回到步骤144。
图5的流程图详细描述了图2的图表的步骤120,即,不是双元音的两个元音之间的比较。
在步骤400中,就PhonB是否为双元音作出判断。在肯定回答的情况下,***直接进入步骤470。
在步骤410中,对于被发现相同的每一个类别,通过将Score增大1,根据类别(b),进行比较。
相反,在步骤420中,调用上文中已经描述的函数F_CasiSpec_Voc,以便判断是否满足该函数的其中一个条件。
如果是这种情况,在步骤430中,Score增大数量(KOpen*2)。
在否定回答的情况下,在步骤440中,调用函数F_ValPlace_Voc。
随后,在步骤450中,调用函数F_ValOpen_Voc。
在步骤460中,如果两个元音具有圆唇音类别,则Score增大一个常量(KOpen+1);如果,相反,发现只有一个音素具有圆唇音类别,那么,Score降低KOpen。
步骤470标志着比较结束,此后,***回到步骤144。
图6的流程图详细描述图1的图表中的方框132。
在步骤500中,比较两个辅音,而变量TmpKP被设置为0,在步骤504中调用函数F_CasiSpec_Cons。
该函数判断是否满足下列条件中的任何条件;
1.0PhonA是小舌音-摩擦音,在TabB中,没有具有这些特征的音素,PhonB是颤音-齿槽音;
1.1PhonA是小舌音-摩擦音,在TabB中,没有具有这些特征的音素,PhonB是近似音-齿槽音;
1.2PhonA是小舌音-摩擦音,在TabB中,没有具有这些特征的音素,PhonB是小舌音-颤音;
1.3PhonA是小舌音-摩擦音,在TabB中,没有具有这些特征的音素,或具有1.0、或1.1或1.2的PhonB的那些特征的音素,PhonB是舌边音-齿槽音;
2.0PhonA是声门-摩擦音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-软腭音;
3.0PhonA是摩擦音-软腭音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-声门音或***音-软腭音;
4.0PhonA是颤音-齿槽音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-小舌音;
4.1PhonA是颤音-齿槽音,在TabB中,没有具有这些特征的音素,PhonB是近似音-齿槽音;
4.2PhonA是颤音-齿槽音,在TabB中,没有具有这些特征的音素,或具有4.0和4.1的PhonB的那些特征的音素,PhonB是舌边音-齿槽音;
5.0PhonA是鼻音-软腭音,在TabB中,没有具有这些特征的音素,PhonB是鼻音-齿槽音;
5.1PhonA是鼻音-软腭音,在TabB中,没有具有这些特征的音素,或具有5.0的PhonB的那些特征的音素,PhonB是鼻音-双唇音;
6.0PhonA是摩擦音-齿音-非浊音,在TabB中,没有具有这些特征的音素,PhonB是近似音-齿音;
6.1PhonA是摩擦音-齿音-非浊音,在TabB中,没有具有这些特征的音素,或具有6.0的PhonB的那些特征的音素,PhonB是***音-齿音;
6.2PhonA是摩擦音-齿音-非浊音,在TabB中,没有具有这些特征的音素,或具有6.0的PhonB的那些特征的音素,PhonB是***音-齿槽音;
7.0PhonA是摩擦音-齿音-浊音,在TabB中,没有具有这些特征的音素,PhonB是近似音-齿音;
7.1PhonA是摩擦音-齿音-浊音,在TabB中,没有具有这些特征的音素,或具有7.0的PhonB的那些特征的音素,PhonB是***音-齿音;
7.2PhonA是摩擦音-齿音-浊音,在TabB中,没有具有这些特征的音素,或具有7.0的PhonB的那些特征的音素,PhonB是***音-齿槽音;
8.0PhonA是摩擦音-上腭音-齿槽音-非浊音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-后齿槽音;
8.1PhonA是摩擦音-上腭音-齿槽音-非浊音,在TabB中,没有具有这些特征的音素,或具有8.0的PhonB的那些特征的音素,PhonB是摩擦音-上腭音;
9.0PhonA是摩擦音-后齿槽音,在TabB中,没有具有这些特征或摩擦音-卷舌音的音素,PhonB是摩擦音-齿槽音-上腭音;
10.0PhonA是摩擦音-后齿槽音-软腭音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-齿槽音-上腭音;
10.1PhonA是摩擦音-后齿槽音-软腭音,在TabB中,没有具有这些特征的音素,PhonB是摩擦音-上腭音;
10.2PhonA是摩擦音-后齿槽音-软腭音,在TabB中,没有具有这些特征的音素,或10.0或10.1的那些特征的音素,PhonB是摩擦音-后齿槽音;
11.0PhonA是***音-上腭音,在TabB中,没有具有这些特征的音素,PhonB是舌边音-上腭音;
11.1PhonA是***音-上腭音,在TabB中,没有具有这些特征或PhonB di 11.0的那些特征的音素,PhonB是摩擦音-上腭音或近似音-上腭音;
12.0PhonA是摩擦音-双唇音齿音-浊音,在TabB中,没有具有这些特征的音素,PhonB是近似音-双唇音-浊音;
13.0PhonA是摩擦音-上腭音-浊音,在TabB中,没有具有这些特征的音素,PhonB是***音-上腭音-浊音或近似音-上腭音-浊音;
14.0PhonA是舌边音-上腭音,在TabB中,没有具有这些特征的音素,PhonB是***音-上腭音;
14.1PhonA是舌边音-上腭音,在TabB中,没有具有这些特征的音素,或14.0的PhonB的那些特征的音素,PhonB是摩擦音-上腭音或近似音-上腭音;
15.0PhonA是近似音-齿音,在TabB中,没有具有这些特征的音素,PhonB是***音-齿音或***音-齿槽音;
16.0PhonA是近似音-双唇音,在TabB中,没有具有这些特征的音素,PhonB是***音-双唇音;
17.0PhonA是近似音-软腭音,在TabB中,没有具有这些特征的音素,PhonB是***音-软腭音;
18.0PhonA是近似音-齿音,在TabB中,没有具有这些特征的音素,PhonB是颤音-齿槽音或摩擦音-小舌音或颤音-小舌音;
18.1PhonA是近似音-齿槽音,在TabB中,没有具有这些特征的音素,或18.0中的PhonB的那些特征的音素,PhonB是舌边音-齿槽音。
如果满足这些条件中的任何一个,则***进入步骤508中,在该步骤中,在比较的整个过程中,用TmpPhonB代替PhonB,直到步骤552中。
如果不满足上述条件中的任何一个条件,则***直接进入步骤512中,在该步骤中,比较模式类别(f)。
如果PhonA和PhonB具有相同类别,那么,Score增大KMode。
在步骤516中,调用函数F_CompPen_Cons,以控制是否满足下列条件:
-PhonA是摩擦音-后齿槽音,PhonB(或TmpPhonB)是摩擦音-后齿槽音-软腭音。
如果满足条件,那么,Score缩小Kplace1。
在步骤520中,调用函数F_ValPlace_Cons,以根据表2中报告的内容增大TmpKP。
在该表中,PhonA的类别位于垂直轴中,PhonB的类别位于水平轴中。每一个单元都包括被添加到Score中的红利值。
通过假设PhonA只有类别“唇齿音”,PhonB只有齿音类别,那么,通过扫描该行,以便查找唇齿音,交叉列,以查找齿音,可以发现,值Kplace2必须被添加到Score中。
在步骤524中,就PhonA是否为近似音-半辅音并且PhonB(或TmpPhonB)是近似音作出判断。如果是肯定的结果,则***进入步骤528中,在该步骤中,对TmpKP进行测试。
进行这样的测试,以便确保,在正在被比较的两个音素都是近似音,并具有相同的位置类别的情况下,它们的Score高于任何比较辅音-元音的情况。
如果这样的变量大于或等于Kplace1,那么,在步骤532中,TmpKP增大KMode。在否定回答的情况下,TmpKP在步骤536中被设置为零。
在步骤540中,数量TmpKP被添加到Score中。
在步骤544中,就Score是否高于KMode作出判断。
如果是这种情况,则在步骤548中,比较类别(h),半辅音类别除外。对于查找到的每一个身份,Score都增大1。
步骤552标志着比较结束,此后,***回到图1的步骤144。
图7的流程图引用了在PhonA是塞擦音辅音(图2的步骤136)的情况下音素之间的比较。
在步骤600中,开始比较,并在步骤604中,就PhonB是否为塞擦音并且Loop是否等于0作出判断。
如果是这种情况,则***进入步骤608,该步骤又使***回到步骤132。
在步骤612中,就PhonB是否为塞擦音以及Loop是否等于1作出判断。
如果是这种情况,则直接到达步骤660。
在步骤616中,就PhonB可以被视为由塞擦音组成作出判断。
如果Loop等于1并且PhonB具有类别摩擦音-后齿槽音-软腭音,就不是这种情况。
如果是这种情况,则***进入步骤660。
在步骤620中,对Loop的值进行判断:如果该值等于0,则***进入步骤642。
在该步骤中,PhonA在与PhonB的比较中被TmpPhonA 临时替代;它与PhonA具有相同特征,但它不是塞擦音,而是***音。
在步骤628中,就TmpPhonA是否具有唇齿音类别作出判断;如果在步骤636中是这种情况,齿音类别被从类别的矢量中删除。
在步骤632中,就TmpPhonA是否具有后齿槽音类别作出判断;在肯定回答的情况下,在步骤644中这样的类别被齿槽音类别代替。
在步骤640中,就TmpPhonA是否具有类别齿槽音-上腭音作出判断;如果是这种情况,则去除上腭音类别。
在步骤652中,PhonA在与PhonB的比较中被TmpPhonA临时替代(直到到达步骤144);它与PhonA具有相同特征,但它是摩擦音,而不是塞擦音。
通过将TmpPhonA与PhonB与比较,步骤656标志着进入步骤132的比较。
步骤660标志着返回到步骤144。
图8的流程图详细描述了图2的流程图的步骤140。
如果PhonA是辅音,PhonB是元音,或者,如果PhonA是元音,PhonB是辅音,则到达步骤700。音素TmpPhonA被设置为零音素。
在步骤705中,就phona是否为元音以及PhonB是否为辅音作出判断。在肯定回答的情况下,下一个步骤是步骤780。
在步骤710中,就PhonA是否为近似音-半辅音作出判断。
在否定回答的情况下,***直接进入步骤780。
在步骤720中,就PhonA是否为颚音作出判断。如果是这种情况,则在步骤730中,将TmpPhonA被转换成无重音-舌前音-闭元音,并在TmpPhonA和PhonB之间执行步骤120的比较。
在步骤740中,就PhonA是否为双唇音-软腭音作出判断。如果是这种情况,则在步骤750中,将TmpPhonA转换成无重音-闭塞音-舌根音-圆唇元音,并在TmpPhonA和PhonB之间执行步骤120(图2)的比较。
在步骤760中,就PhonA是否为双唇音-上腭音作出判断。如果是这种情况,则在步骤770中,将TmpPhonA转换成无重音-闭塞音-舌根音-圆唇元音,并在TmpPhonA和PhonB之间进行步骤120的比较。
步骤780标志着***回到步骤144中。
下面报告了上文中反复引用的两个表1和2。
  闭塞音   闭塞音-闭塞音-半开元音   闭塞音-半开元音   半开元音   开元音-半开元音   开元音-开元音-半开元音   开元音
  闭塞音   0   2*LStep   6*LStep   7*LStep   8*LStep   12*LStep   14*LStep
  闭塞音   闭塞音-闭塞音-半开元音   闭塞音-半开元音   半开元音   开元音-半开元音   开元音-开元音-半开元音   开元音
  闭塞音-闭塞音-半开元音   0   4*LStep   5*LStep   6*LStep   10*LStep   12*LStep
  闭塞音-半开元音   0   1*LStep   2*LStep   6*LStep   8*LStep
  半开元音   0   1*LStep   5*LStep   7*LStep
  开元音-半开元音   0   4*LStep   6*LStep
  开元音-开元音-半开元音   0   2LStep
  开元音   0
表1:元音特点的距离(e)
Figure G2003801108460D00241
当然,在不违背本发明的基本原理的情况下,实施例可以变化,相对于所描述的内容,可以有显著不同,这里的描述只作为示例,而不偏离如所附的权利要求所定义的本发明的范围。

Claims (12)

1.对包括至少一个使用第二语言的部分的第一语言的文本(T1,...,Tn)进行文本-语音转换的方法,其特征在于,该方法包括下列步骤:
-将所述第二语言的所述部分转换(30)为所述第二语言的音素,
-将所述第二语言的所述音素的至少一部分映射(40;40b)到所述第一语言的音素集中,
-将从所述映射产生的所述第一语言的所述音素集包括在代表所述文本的所述第一语言的音素流中,以产生音素的结果流,以及
从所述音素的结果流生成(50)语音信号,
其中,所述映射(40)的步骤包括下列操作:
-在正在被映射的所述第二语言的每个所述音素和所述第一语言的一组候选映射音素之间执行相似性测试,将所述第二语言的所述音素和所述第一语言的所述候选映射音素表示为语音类别矢量,由此将代表所述第二语言的每一个所述音素的语音类别的矢量与代表所述第一语言中的所述候选映射音素的语音类别的一组语音类别矢量进行比较,所述比较是按类别执行的,
-向该按类别的比较分配相应的分数值,所述相应的分数值被相加以生成用于所述测试的结果的相应的分数,以及
-将所述第二语言的每一个所述音素映射(40b)到从所述候选映射音素中选出的所述第一语言的一组映射音素中,作为所述分数的函数。
2.根据权利要求1所述的方法,其特征在于,该方法包括将所述第二语言的所述音素映射(40b)到从下列各项中选出的所述第一语言的一组映射音素中的步骤:
-所述第一语言的一组音素,包括所述第一语言的三个、两个或一个音素,或
-空集,其中,在所述第二语言的所述音素的所述结果流中没有包括音素。
3.根据权利要求2所述的方法,其特征在于,所述映射(40)的步骤包括下列操作:
-为所述测试的结果定义阈值(Th),以及
-将其任何所述分数不能达到所述阈值的所述第二语言的任何音素映射到所述第一语言的音素的所述空集中。
4.根据权利要求1所述的方法,其特征在于,该方法包括在将所述相应的分数值相加时,向所述分数值分配微分的权重以生成所述分数的步骤。
5.根据权利要求1所述的方法,其特征在于,该方法包括从包括下列各项的组中选择所述语音类别的操作:
-(a)两个基本类别“元音”和“辅音”;
-(b)类别“双元音”;
-(c)元音特征无重音的/带重音的,非音节、长音、鼻音化、r音化、圆唇音;
-(d)元音类别“舌前音”、“央元音”、“舌根音”;
-(e)元音类别“闭塞音”、“闭塞音-闭塞音-半开元音”、“闭塞音-半开元音”、“半开元音”、“开元音-半开元音”、“开元音-开元音-半开元音”、“开元音”;
-(f)辅音模式类别“***音”、“鼻音”、“颤音”、“触音/闪音”、“摩擦音”、“舌边音-摩擦音”、”近似音”、“舌边音”、“塞擦音”;
-(g)辅音位置类别“双唇音”、“唇齿音”、“齿音”、“齿槽音”、“后齿槽音”、“卷舌音”、“上腭音”、“软腭音”、“小舌音”、“咽喉音”、“声门音”;以及
-(h)其他辅音类别“浊音”、“长音”、“音节”、“送气音”、”不除阻”、“清音”、“半辅音”。
6.根据权利要求1所述的方法,其特征在于,该方法包括通过所述第一语言的说话者声音发出(50,60)所述音素的结果流的步骤。
7.对包括至少一个使用第二语言的部分的第一语言的文本(T1,...,Tn)进行文本-语音转换的***,其特征在于,该***包括:
-用于将所述第二语言的所述部分转换为所述第二语言的音素的字形/音素记录器(30),
-映射模块(40;40b),被配置为将所述第二语言的所述音素的至少一部分映射到所述第一语言的音素集中,
-语音-合成模块(50),该模块被提供有包括从所述映射产生的所述第一语言的所述音素集的音素的结果流,以及代表所述文本的所述第一语言的音素流,并从所述音素的结果流生成(50)语音信号,
其中,所述映射模块(40)被配置为:
-在正在被映射的所述第二语言的每个所述音素和所述第一语言的一组候选映射音素之间执行相似性测试,将所述第二语言的所述音素和所述第一语言的所述候选映射音素表示为语音类别矢量,由此将代表所述第二语言的每一个所述音素的语音类别的矢量与代表所述第一语言中的所述候选映射音素的语音类别的一组语音类别矢量进行比较,所述比较是按类别执行的,
-向该按类别的比较分配相应的分数值,所述相应的分数值被相加以生成用于所述测试的结果的相应的分数,以及
-将所述第二语言的每一个所述音素映射(40b)到从所述候选映射音素中选出的所述第一语言的一组映射音素中,作为所述分数的函数。
8.根据权利要求7所述的***,其特征在于,所述映射模块(40)被配置将所述第二语言的所述音素映射(40b)到从下列各项中选出的所述第一语言的一组映射音素:
-所述第一语言的一组音素,包括所述第一语言的三个、两个或一个音素,或
-空集,其中,在所述第二语言的所述音素的所述结果流中没有包括音素。
9.根据权利要求8所述的***,其特征在于,所述映射模块(40)被配置为:
-为所述测试的结果定义阈值(Th),以及
-将其任何所述分数不能达到所述阈值的所述第二语言的任何音素映射到所述第一语言的音素的所述空集中。
10.根据权利要求7所述的***,其特征在于,所述映射模块(40)被配置为,在将所述相应的分数值相加时,向所述分数值分配微分的权重以生成所述分数。
11.根据权利要求7所述的***,其特征在于,所述映射模块(40)被配置为基于包括下列各项的组中的语音类别进行操作:
(a)两个基本类别“元音”和“辅音”;
(b)类别“双元音”;
(c)元音特征无重音的/带重音的,非音节、长音、鼻音化、r音化、圆唇音;
(d)元音类别“舌前音”、“央元音”、“舌根音”;
(e)元音类别“闭塞音”、“闭塞音-闭塞音-半开元音”、“闭塞音-半开元音”、“半开元音”、“开元音-半开元音”、“开元音-开元音-半开元音”、“开元音”;
(f)辅音模式类别“***音”、“鼻音”、“颤音”、“触音/闪音”、“摩擦音”、“舌边音-摩擦音”、近似音、“舌边音”、“塞擦音”;
(g)辅音位置类别“双唇音”、“唇齿音”、“齿音”、“齿槽音”、“后齿槽音”、“卷舌音”、“上腭音”、“软腭音”、“小舌音”、“咽喉音”、“声门音”;以及
(h)其他辅音类别“浊音”、“长音”、“音节”、“送气音”、”不除阻”、“清音”、“半辅音”。
12.根据权利要求7所述的***,其特征在于,所述语音-合成模块(50)被配置为通过所述第一语言的说话者声音发出(50,60)所述音素的结果流。
CN200380110846.0A 2003-12-16 2003-12-16 文本到语音转换方法和*** Expired - Fee Related CN1879147B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2003/014314 WO2005059895A1 (en) 2003-12-16 2003-12-16 Text-to-speech method and system, computer program product therefor

Publications (2)

Publication Number Publication Date
CN1879147A CN1879147A (zh) 2006-12-13
CN1879147B true CN1879147B (zh) 2010-05-26

Family

ID=34684493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200380110846.0A Expired - Fee Related CN1879147B (zh) 2003-12-16 2003-12-16 文本到语音转换方法和***

Country Status (9)

Country Link
US (2) US8121841B2 (zh)
EP (1) EP1721311B1 (zh)
CN (1) CN1879147B (zh)
AT (1) ATE404967T1 (zh)
AU (1) AU2003299312A1 (zh)
CA (1) CA2545873C (zh)
DE (1) DE60322985D1 (zh)
ES (1) ES2312851T3 (zh)
WO (1) WO2005059895A1 (zh)

Families Citing this family (207)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
EP1721311B1 (en) 2003-12-16 2008-08-13 LOQUENDO SpA Text-to-speech method and system, computer program product therefor
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US8036895B2 (en) * 2004-04-02 2011-10-11 K-Nfb Reading Technology, Inc. Cooperative processing for portable reading machine
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
EP2044804A4 (en) 2006-07-08 2013-12-18 Personics Holdings Inc PERSONAL HEARING AID AND METHOD
DE102006039126A1 (de) * 2006-08-21 2008-03-06 Robert Bosch Gmbh Verfahren zur Spracherkennung und Sprachwiedergabe
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7912718B1 (en) * 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510112B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP2011197511A (ja) * 2010-03-23 2011-10-06 Seiko Epson Corp 音声出力装置、音声出力装置の制御方法、印刷装置および装着ボード
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
EP2595143B1 (en) 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
AU2014227586C1 (en) 2013-03-15 2020-01-30 Apple Inc. User training by intelligent digital assistant
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US8768704B1 (en) * 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
AU2015305397A1 (en) * 2014-08-21 2017-03-16 Jobu Productions Lexical dialect analysis system
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及***
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN106547511B (zh) 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10102189B2 (en) 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
US9910836B2 (en) 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10586527B2 (en) * 2016-10-25 2020-03-10 Third Pillar, Llc Text-to-speech process capable of interspersing recorded words and phrases
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
EP3955243A3 (en) * 2018-10-11 2022-05-11 Google LLC Speech generation using crosslingual phoneme mapping
CN110211562B (zh) * 2019-06-05 2022-03-29 达闼机器人有限公司 一种语音合成的方法、电子设备及可读存储介质
CN114727780A (zh) 2019-11-21 2022-07-08 科利耳有限公司 语音测听评分
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN112927676A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 一种语音信息的获取方法、装置、设备和存储介质
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1336634A (zh) * 2000-07-28 2002-02-20 国际商业机器公司 根据基音信息识别声调语言的方法与设备
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
EP1721311B1 (en) 2003-12-16 2008-08-13 LOQUENDO SpA Text-to-speech method and system, computer program product therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1336634A (zh) * 2000-07-28 2002-02-20 国际商业机器公司 根据基音信息识别声调语言的方法与设备
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CAMPELL N.Foreign-Language speech synthesis.PROCEEDINGS OF ESCA/COCOSDA WORKSHOP ON SPEECH SYNTHESIS.1998,177-180. *

Also Published As

Publication number Publication date
CA2545873C (en) 2012-07-24
ATE404967T1 (de) 2008-08-15
EP1721311A1 (en) 2006-11-15
US20070118377A1 (en) 2007-05-24
CA2545873A1 (en) 2005-06-30
ES2312851T3 (es) 2009-03-01
AU2003299312A1 (en) 2005-07-05
US20120109630A1 (en) 2012-05-03
CN1879147A (zh) 2006-12-13
DE60322985D1 (de) 2008-09-25
EP1721311B1 (en) 2008-08-13
US8321224B2 (en) 2012-11-27
WO2005059895A1 (en) 2005-06-30
US8121841B2 (en) 2012-02-21

Similar Documents

Publication Publication Date Title
CN1879147B (zh) 文本到语音转换方法和***
Lee et al. Spoken language resources for Cantonese speech processing
Ghai et al. Literature review on automatic speech recognition
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
KR102352986B1 (ko) 언어 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
Ali et al. Generation of Arabic phonetic dictionaries for speech recognition
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
KR20220022343A (ko) 음성인식 장치 및 방법
Karthikadevi et al. The development of syllable based text to speech system for Tamil language
Arora et al. Supervised grapheme-to-phoneme conversion of orthographic schwas in Hindi and Punjabi
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Chao-angthong et al. Northern Thai dialect text to speech
Nair et al. Rule-based grapheme to phoneme converter for malayalam
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
US20090132237A1 (en) Orthogonal classification of words in multichannel speech recognizers
Byrd A note on English sentence-final stops
Unnibhavi et al. Development of Kannada speech corpus for continuous speech recognition
KR100451919B1 (ko) 영어 발음 기호의 분해 및 합성 방법
Mahar et al. Phonology for Sindhi letter-to-sound conversion
Jayasankar et al. Word and syllable based concatenative model of text to speech synthesis of Tamil language
Al-Daradkah et al. Automatic grapheme-to-phoneme conversion of Arabic text
Trancoso et al. On the pronunciation of common lexica and proper names in European Portuguese
Beringer et al. Regional Pronunciation Variants for Automatic Segmentation.
Udhyakumar et al. Decision tree learning for automatic grapheme-to-phoneme conversion for Tamil

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526