CN1547733A - 使用分级概括语音模板用于定制语音合成器数据库的方法和工具 - Google Patents

使用分级概括语音模板用于定制语音合成器数据库的方法和工具 Download PDF

Info

Publication number
CN1547733A
CN1547733A CNA028066197A CN02806619A CN1547733A CN 1547733 A CN1547733 A CN 1547733A CN A028066197 A CNA028066197 A CN A028066197A CN 02806619 A CN02806619 A CN 02806619A CN 1547733 A CN1547733 A CN 1547733A
Authority
CN
China
Prior art keywords
data
template
data base
condition
customer data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028066197A
Other languages
English (en)
Other versions
CN1231887C (zh
Inventor
ʷ�ٷ�Ƥ��ɭ
史蒂夫皮尔森
彼得维普莱克
��͵�ղ��
吉恩-克劳德詹奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1547733A publication Critical patent/CN1547733A/zh
Application granted granted Critical
Publication of CN1231887C publication Critical patent/CN1231887C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种语音合成定制***(10)提供一种用于产生分级定制用户数据库的机制。该定制***包括模板管理工具(14),用于根据从用户(18)得到的定制数据和从文本-语音转换(TTS)合成器(12)得到的相关的复制动态合成数据(20)产生模板。复制的动态合成数据按照具有分级的动态数据结构组织。该定制***进一步包括补充合成器的标准数据库的用户数据库(22)。工具将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的语音合成数据。

Description

使用分级概括语音模板 用于定制语音合成器数据库的方法和工具
技术领域
本发明涉及语音合成。特别地,本发明涉及一种语音合成器定制***,其可以在动态数据结构的所有级层覆盖语言合成数据。
背景技术
随着语音合成器输出质量的不断提高,越来越多的应用开始加入合成技术。例如,汽车导航***,用于视觉受损的装置也开始加入语音合成器。然而,随着语音合成普及度的增加,常规方式中的一些局限性变得明显。
一个值得注意的困难就是,容量和开发成本的考虑限制了常规合成器可以处理的词汇量。附图1和2简要示出了典型的合成器具有分级的动态数据结构,其中动态数据结构包括语言树20和声学树22。语言树20包含用于将要被合成的句子的语法和语言对象,而声学树22具有用于该句子的韵律和声学对象。这样,在合成一个句子的时候,根据输入的文本构建(或组装)这两个分级树状结构。通常需要意识到的是,树具有节点,这样“父节点”具有到每一“子节点”的“分支”。这里语言树20和声学树22被称作树状结构是因为父节点只能对第一子节点和末尾子节点进行访问,而其余的子节点被包括在一个表中。而且,每一子节点可以对相应的父节点进行访问。然而,树结构的层次组成了分级结构。
在固定(或标准)数据库的辅助下,一个特定句子的上述树结构和节点信息通过各种合成模块被实时构建。例如,语法分析模块通常根据要合成的句子产生从句和短语,而音标表示器使用标准数据库根据句中词语构建语素和音素。包括在标准数据库中的音节划分和音位变体规则根据词语、语素和音素产生音节和变体音位。韵律算法根据所有前述信息产生韵律短语、韵律词语等等。
如附图3所示,标准数据库24因此典型地包括具有放置在树20、22的节点中的信息的表。目前的“串接合成”尤其如此。需要注意的是,由于存储在标准数据库24中的数据会为动态树20、22中的各级节点提供信息,所以标准数据库24实质上也是分级的。而且数据库24中的较高级层的数据可能会参照较低级层的数据(或相反)。例如,关于某种类型的短语的信息可能会向下参照词语序列和它们相应的词汇信息。在这种方式下,通过对同一数据项的多重参照实现了数据共享(和节省存储器)。简单地说,标准数据库24是一个关系数据库。
值得注意的是,上述数据库24是为一般的非限制的合成而设计,具有显著的空间和开发成本问题。因为这些常规的限制,限制了数据库24的大小和复杂度。因此,为了将一个给定的合成器设计到一个特定的应用,人们发现通常需要一个用户数据库。实际上,合成器按照惯例提供装载到合成器中的“用户字典”并完成指定的应用。通常,为了根据标准结果转换合成语音,在输入文本中标记嵌入的语言允许命令。例如,有一种方式包括,在文本中***高和低音调标记(包括数值)来表示在哪里提高语调以及提升多少。
尽管上述用户数据库的常规方式在某些情况下是有用的,然而仍存在一些困难。例如,顺序产生的语音合成数据不能在动态数据结构的所有级层统一地覆盖。而且,常规合成器最大限度处理一级或两级,并且每一级都有不同的机制。进一步,由于不能达到线性文本中所需要的级别间隔,因此,对于文本标记某些级层(例如双音位)基本上是不可访问的。
还有重要的一点需要注意,常规用户数据库方式仅用计算的普通合成序列不能覆盖语音合成数据。例如,设想我们想指定一个新用户提供双音位A-B,那么只有A上所需要的重音水平是2,和某种类型的音位变体出现在所要合成的上下文环境中。需要意识到的是,只有当应用了复杂的音位变体规则集(这样确定音位变体流),和韵律模块已经选择了去重音的词语,它反过来又影响给定音素的重音水平,之后确定的条件才能得知。在常规方式下,合成前不能事先实际得知这些条件信息。因此实际上不可能自动在每一个应该使用设定双音的地方对输入文本进行标记。简单说来,用户定义的条件不能普遍的基于合成处理的内部状态,并且因此在传统的文本标记处理下受到了严重的限制。
另一个值得关注的是,常规用户数据库并不像动态数据结构那样组织在同一级层周围,因此在合成中对在哪里和对什么修改的控制不灵活。
发明内容
根据本发明的语音合成器定制***提供上述以及其他目的。该定制***具有一个模板管理工具,用于根据来自用户的定制数据和来自文本-语音转换(TTS)合成器复制的动态合成数据产生模板。被复制的动态合成数据按照具有分级的动态数据结构组织。该定制***进一步包括补充合成器标准数据库的用户数据库。该工具将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。因此工具的使用提供组织、调节和维持用户模板的分级和多维稀疏集合的机制。进一步提供统一覆盖语音合成数据的机制,减少处理开销和提供更加“自然”的用户数据库。
根据本发明进一步提供一种用户数据库。该用户数据库有多个模板,用于覆盖TTS合成器的语音合成数据。语音合成数据按照具有分级的动态数据结构组织。该用户数据库进一步包括组织模板的分级数据结构,这样模板使得用户数据库可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。
根据本发明的另一方面提供一种定制合成器的方法。该方法包括根据来自用户的定制数据和来自合成器的相关复制动态合成数据产生模板的步骤。合成器的标准数据库补充增加有一个用户数据库。该方法进一步包括将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的多个级层上统一覆盖顺序产生的合成语音数据。
需要理解的是,前面的概述和下面的详细描述仅仅是本发明的范例,用来提供一个用于理解如权利要求的本发明的实质和特征的概要或框架。附图提供了对本发明进一步的理解,并合并组成说明书的一部分。附图示出了本发明的各个特征和实施例,并和描述一起用于解释本发明的原理和操作。
附图说明
根据详细描述和附图将会更充分地理解本发明,其中:
图1为常规语言树的图示,有助于理解本发明;
图2为常规声学树的图示,有助于理解本发明;
图3为常规文本-语音转换合成器的框图,有助于理解本发明;
图4为根据本发明原理的语音合成器定制***的框图;
图5为根据本发明的一个实施例的模板管理工具的框图;和
图6为根据本发明的一个实施例的用户数据库的图示。
具体实施方式
下面对优选实施例的描述实际上仅仅只是范例,并不是对本发明以及本发明的应用或使用的限制。
现在转到图4,所示为语音合成器定制***10。需要注意的重要的一点是,定制***10可以应用于例如汽车导航、呼叫路由、外语教学和英特网内容合成。在这些应用的每一个应用中,有必要定制一个具有应用环境的先前知识的普通语音合成器12。虽然优选的实施例将参照汽车导航来描述,但本发明的实质和范围却并非如此受限。
通常,定制***10具有一个模板管理工具14,用于根据从用户18得到的定制数据和从文本-语音转换(TTS)合成器12复制的动态合成数据20产生模板。如前所述,复制的动态合成数据20按照具有分级的动态数据结构组织。该定制***10进一步包括补充合成器12的标准数据库24的用户数据库22。下面将要更加详细的论述,该工具10将模板16组装在用户数据库22中,这样模板16使得用户数据库22可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。
图6示出了每一模板16定义一个模板16用以覆盖语音合成数据的条件/键码,和为了覆盖语音合成数据所要执行的动作/数据。要意识到的是,条件通常可以与语言树结构或者声学树结构的级层对应。所以,模板16a-16c与语言树结构的句子层相对应。可以看到,顶层模板可以用来与句子框架匹配,其中顶层匹配句子框架减少在低层对运行时间处理的需求。例如,模板16a的条件与低层模板16d匹配,因此只需要满足一个就可以同时触发模板16a和16d相应的动作。
进一步可以看到模板16d-16k具有的条件通常与语言树结构的词语层相对应。可以看到,低层模板16d-16g被用来定制基频线,模板16e与顶层模板16a和16b附加匹配,用来减少存储需求。进一步需要意识到的是简单的“非匹配”模板,例如16f和16h可以用于更多的本地定制。
此外,模板16l和16m中展示了一个与声学树结构的音节层对应的条件的范例。重要的一点需要注意的是匹配可以在树结构之间交叉进行。这样,为了进一步节约处理资源,(声学树的)音节层模板16l可以与(语言树的)词语层模板16g匹配。图6因此说明了模板16可以用来定制多种参数。然而,所示的用户数据库22仅仅是典型的数据库的简单图,它为与本发明相关的利益提供有用的说明。
继续参照图4和图5,进一步详细的论述优选的模板管理工具10。可以看到,工具10通常包括模板产生器26、输出界面28和一个或多个输入界面30。模板产生器26根据定制数据处理复制的动态合成数据20,输出界面28将复制的动态合成数据20以图形的方式显示给用户18。输入界面30从用户18得到定制数据。
需要注意的是,这里描述的用于定制TTS合成器12的方法是互动的。在图4中的四个区域转换的箭头可以看作循环处理的一部分,其中模板被产生,并且补充用户数据库被反复地组装,直到得到一个理想的合成输出。需要意识到的是理想的合成输出很大程度上由使用定制***的应用(也就是汽车导航、视觉受损装置等等)所决定。
优选的,输入界面包括命令解释器30a,在键盘输入装置和模板产生器26之间可操作的耦合。图形工具模块30b在鼠标输入装置和模板产生器26之间可操作的耦合。声音处理模块30c在麦克风输入装置和模板产生器26之间可操作的耦合。在一个实施例中,声音处理模块30c包括输入波形子模块32,用于根据从麦克风输入装置得到的数据产生输入波形。音调提取模块34根据输入波形产生音调数据,而共振峰分析子模块36根据输入波形产生共振峰数据。更进一步优选的,音素标识子模块38根据输入波形自动标识音素。
本领域的熟练技术人员现在可以意识到,根据前面的描述,本发明的主要教导可以以多种形式实现。虽然本发明可以与特定的范例结合在一起来描述,但由于在对附图、详述和下面的权利要求进行研究的基础上,其他的修改对于熟练的专业人员是明显的,因此本发明的真正范围不受此限制。

Claims (24)

1、一种语言合成器定制***,包括:
模板管理工具,用于根据从用户得到的定制数据和从文本-语音转换合成器复制的动态合成数据产生模板,被复制的动态合成数据按照具有分级的动态数据结构组织;和
用户数据库,用于补充合成器标准数据库;
该工具将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的合成语音数据。
2、权利要求1所述的定制***,其中每一模板定义一个模板被用以覆盖语音合成数据的条件,和为了覆盖语音合成数据所要执行的动作。
3、权利要求2所述的定制***,其中条件与语言树结构的级层相对应。
4、权利要求2所述的定制***,其中条件与声学树结构的级层相对应。
5、权利要求1所述的定制***,其中工具包括:
模板产生器,用于根据定制数据处理复制的动态合成数据;
输出界面,用于将复制的动态合成数据以图形的方式显示给用户;和
一个或多个输入界面,用于从用户获得定制数据。
6、权利要求5所述的定制***,其中输入界面包括命令解释器,可操作地连接在键盘输入装置和模板产生器之间。
7、权利要求5所述的定制***,其中输入界面包括图形工具模块,可操作地连接在鼠标输入装置和模板产生器之间。
8、权利要求5所述的定制***,其中输入界面包括声音处理模块,可操作地连接在麦克风输入装置和模板产生器之间。
9、权利要求8所述的定制***,其中声音处理模块包括:
输入波形子模块,用于根据从麦克风输入装置得到的数据产生输入波形;
音调提取子模块,用于根据输入波形产生音调数据;
共振峰分析子模块,用于根据输入波形产生共振峰数据;和
音素标识子模块,用于根据输入波形自动标识音素。
10、一种用户数据库,包括:
多个模板,用于覆盖文本-语音转换合成器的语音合成数据;
所述语言合成数据按照具有分级的动态数据结构组织;和
分级数据结构,对模板进行组织,这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的合成语音数据。
11、权利要求10所述的用户数据库,其中每一模板定义一个模板被用以覆盖语音合成数据的条件,和为了覆盖语音合成数据所要执行的动作。
12、权利要求11所述的用户数据库,其中条件与语言树结构的句子层相对应。
13、权利要求11所述的用户数据库,其中条件与语言树结构的从句层相对应。
14、权利要求11所述的用户数据库,其中条件与语言树结构的短语层相对应。
15、权利要求11所述的用户数据库,其中条件与语言树结构的词语层相对应。
16、权利要求11所述的用户数据库,其中条件与语言树结构的语素层相对应。
17、权利要求11所述的用户数据库,其中条件与语言树结构的音素层相对应。
18、权利要求11所述的用户数据库,其中条件与声学树结构的发音层相对应。
19、权利要求11所述的用户数据库,其中条件与声学树结构的韵律短语层相对应。
20、权利要求11所述的用户数据库,其中条件与声学树结构的韵律词语层相对应。
21、权利要求11所述的用户数据库,其中条件与声学树结构的音节层相对应。
22、权利要求11所述的用户数据库,其中条件与声学树结构的音位变体层相对应。
23、一种用于定制文本-语音转换合成器的方法,该方法包括步骤:
(a)基于从用户得到的定制数据和从合成器得到的复制动态合成数据产生模板;
(b)为合成器的标准数据库补充一个用户数据库;和
(c)将模板组装在用户数据库中,这样模板使得用户数据库可以在动态数据结构的多个级层上统一地覆盖顺序产生的语音合成数据。
24、权利要求23所述的方法,进一步包括反复地重复步骤(a)至(c),直到得到理想的合成输出。
CNB028066197A 2001-03-15 2002-03-15 使用分级概括语音模板用于定制语音合成器数据库的方法和工具 Expired - Lifetime CN1231887C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/808,132 US6513008B2 (en) 2001-03-15 2001-03-15 Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
US09/808,132 2001-03-15

Publications (2)

Publication Number Publication Date
CN1547733A true CN1547733A (zh) 2004-11-17
CN1231887C CN1231887C (zh) 2005-12-14

Family

ID=25197952

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028066197A Expired - Lifetime CN1231887C (zh) 2001-03-15 2002-03-15 使用分级概括语音模板用于定制语音合成器数据库的方法和工具

Country Status (6)

Country Link
US (1) US6513008B2 (zh)
EP (1) EP1374222B1 (zh)
JP (1) JP2004522192A (zh)
CN (1) CN1231887C (zh)
DE (1) DE60213573D1 (zh)
WO (1) WO2002075720A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107850447A (zh) * 2015-07-29 2018-03-27 宝马股份公司 导航装置和导航方法

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
US20050177541A1 (en) * 2004-02-04 2005-08-11 Zorch, Inc. Method and system for dynamically updating a process library
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
CN1889170B (zh) * 2005-06-28 2010-06-09 纽昂斯通讯公司 基于录制的语音模板生成合成语音的方法和***
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7945441B2 (en) * 2007-08-07 2011-05-17 Microsoft Corporation Quantized feature index trajectory
US8065293B2 (en) * 2007-10-24 2011-11-22 Microsoft Corporation Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8447610B2 (en) 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8571870B2 (en) 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102324995B (zh) * 2011-04-20 2013-12-25 铁道部运输局 语音广播方法及***
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令***
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160307465A1 (en) * 2015-04-16 2016-10-20 Orson Morris Tormey Multilingual lesson building system and method for language learning
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107850447A (zh) * 2015-07-29 2018-03-27 宝马股份公司 导航装置和导航方法

Also Published As

Publication number Publication date
JP2004522192A (ja) 2004-07-22
EP1374222A4 (en) 2005-09-14
CN1231887C (zh) 2005-12-14
US20020133348A1 (en) 2002-09-19
US6513008B2 (en) 2003-01-28
EP1374222B1 (en) 2006-08-02
EP1374222A1 (en) 2004-01-02
DE60213573D1 (de) 2006-09-14
WO2002075720A8 (en) 2004-01-29
WO2002075720A1 (en) 2002-09-26

Similar Documents

Publication Publication Date Title
CN1231887C (zh) 使用分级概括语音模板用于定制语音合成器数据库的方法和工具
Dutoit High-quality text-to-speech synthesis: An overview
US7966185B2 (en) Application of emotion-based intonation and prosody to speech in text-to-speech systems
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
Aylett et al. The cerevoice characterful speech synthesiser sdk
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
Dutoit A short introduction to text-to-speech synthesis
Campbell Conversational speech synthesis and the need for some laughter
JP2006227589A (ja) 音声合成装置および音声合成方法
Ifeanyi et al. Text–To–Speech Synthesis (TTS)
Turunen Jaspis-a spoken dialogue architecture and its applications
CN101350195B (zh) 语音合成器产生***与方法
Aaron et al. Conversational computers
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
Ngugi et al. Swahili text-to-speech system
JP3282151B2 (ja) 音声制御方式
van Leeuwen et al. Speech Maker: a flexible and general framework for text-to-speech synthesis, and its application to Dutch
Griol et al. Big data for conversational interfaces: Current opportunities and prospects
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
Zahariev et al. Grapheme-to-phoneme and phoneme-to-grapheme conversion in Belarusian with NooJ for TTS and STT systems
Ogwu et al. Text-to-speech processing using African language as case study
Singh Text to Speech (On Device)
KR20220125005A (ko) 화자 적합성이 향상된 음성합성 모델 생성방법
Narupiyakul A unification-based focus system for prosodic analysis.
Ferenczi et al. A flexible client-server model for multilingual CTS/TTS development.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140711

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140711

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term

Granted publication date: 20051214

CX01 Expiry of patent term