CN1675681A - 客户机-服务器语音定制 - Google Patents

客户机-服务器语音定制 Download PDF

Info

Publication number
CN1675681A
CN1675681A CNA038191156A CN03819115A CN1675681A CN 1675681 A CN1675681 A CN 1675681A CN A038191156 A CNA038191156 A CN A038191156A CN 03819115 A CN03819115 A CN 03819115A CN 1675681 A CN1675681 A CN 1675681A
Authority
CN
China
Prior art keywords
computing equipment
synthetic speech
user
token sound
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038191156A
Other languages
English (en)
Inventor
让-克劳德·容科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1675681A publication Critical patent/CN1675681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)

Abstract

用户在分布式语音合成***中定制合成语音。用户在本地设备选择语音标准(14)。语音标准表示用户希望的合成语音的特征(22)。将语音标准传送到一个网络设备(16)。网络设备根据语音标准产生一组合成语音规则(20)。合成语音规则代表合成语音的韵律方面和其它特征(20)。将合成语音规则传送到本地设备,并用于创建合成语音(22)。

Description

客户机-服务器语音定制
技术领域
本发明涉及在客户机-服务器体系结构中定制合成语音,更具体地讲,涉及允许用户定制合成语音的特征。
背景技术
文本转语音(TTS)合成器是移动设备可用的最新功能部件。TTS合成器现在可以用于合成地址簿、电子邮件、或其它数据存储模块中的文本,以便于将内容提供给用户。由于移动电话、PDA、和其它个人备忘记事本之类的设备一般只可使用小尺寸的显示器,所以向这些设备的用户提供TTS合成是特别有益的。
由于语音合成的进步,定制个人应用的合成语音的能力成为一个令人日渐关注的领域。由于合成语音所需的资源,完全在移动设备中执行定制合成语音是十分困难的。但是,远端服务器能够执行所需的功能并且将结果发送到移动设备。使用位于移动设备本身上的定制语音,用户无需在线使用合成语音功能部件。
有一种方法可以根据用户希望传送的特定音调或情绪执行语音合成。用户可以在把语音发送到另一用户之前,选择语音特征来调节用户本身语音的转换。但是,这种方法不允许用户定制合成语音,并且局限于用户本身语音的混合。另一种方法使用语音的基本指令表来获得新的语音。这种方法根据已知语音的特征***已知语音来产生新的语音。
发明内容
本发明公开了一种在分布式语音合成***中定制合成语音的方法。在第一计算设备从用户捕获语音标准。语音标准代表用户希望合成的语音的特征。将捕获的语音标准传送到经过网络与第一计算设备互联的第二计算设备。第二计算设备根据语音标准产生一组合成语音规则。合成语音规则代表合成语音的韵律方面和其它特征。将合成语音规则传送到第一计算设备,并用于创建合成语音。
从以下提供的详细说明中,可以清楚地了解本发明的其它应用领域。应当知道,在指出本发明的优选实施例时,详细说明和特定示例仅仅是为了举例说明的目的,并不是要限制本发明的范围。
附图说明
从详细说明和附图可以更充分地理解本发明,其中:
图1示出了选择定制语音功能部件的方法;
图2示出了根据地理位置选择直觉语音标准的***;
图3示出了可定制语音合成的分布式体系结构;和
图4示出了产生变换数据的分布式体系结构。
具体实施方式
以下的优选实施例的说明只是举例说明性的,并不是要限制本发明、其应用、或用途。
图1示出了一种用户选择语音功能部件以定制合成语音输出的方法。将作为电子邮件、文本消息、或呼叫方标识符之类文本在移动设备上呈现给用户的各种数据,作为合成语音输出提供给用户。用户可能希望TTS合成的输出具有某种特征。例如,可能希望用听起来充满活力或兴奋的合成语音来通知新的文本或语音邮件消息。本发明允许用户引导直觉标准的进程,以定制希望的合成语音。
在步骤10,用户接入移动设备上的选择界面,以定制TTS输出。选择界面可以是一个触摸板、输入笔、或触摸屏,并且在步骤12中用于穿越移动设备上的图形用户界面(GUI)。GUI一般是通过网络客户机提供,并在移动设备上运行。可选地,用户可以使用语言命令与移动设备交互。移动设备上的语言识别器解释并执行语言命令。
在步骤14,用户可以使用选择界面观看和选择语音定制的直觉标准的种类。直觉标准显示在GUI上供用户观看。该标准代表合成语音在可能的语音多维空间中的位置。标准的选择表明目标语音在语音空间中的特定位置。一种可能的标准可以是合成语音的感知性别。男性语音可以是相对低沉,并且具有较低的音调,而更为女性化的语音可以具有比较高的音调,带有呼吸声的低音。用户也可以选择一种不可辨别男性或女性的语音。
另一种可能的标准可以是合成语音的感知年龄。在声谱的年轻极端值的语音具有较高的音调和共振峰值。此外,可以错误地发音某些音位,以进一步强调合成语音属于年轻的说话者的印象。相反,在声谱的老年端的语音可以是粗重或沙哑的。这可以通过使源频率非周期性或混乱来实现。
再一种可能的标准涉及合成语音的情绪强度。高情绪强度的表现可以通过加重口述短语中的特定音节的重音,延长停顿,或提高连续音节的速度来取得。低情绪强度可以通过产生更为中性或单调的合成语音来实现。
未知文本的语音合成的一个问题是希望的情绪与包含在消息中的韵律的协调。韵律是指口语的节奏和声调方面。当人类说话者说出一个短语或句子时,说话者经常并十分自然地将重音放在某些字或短语上,以强调说话要表达的意思。情绪上的变化也需要语音韵律上的改变,以便准确地表现希望的情绪。但是,对于未知文本,TTS***不知道句子的上下文或韵律,因此,在实现情绪改变方面存在着固有的困难。
但是,对于单个字和已知文本,情绪和韵律很容易协调。例如,可以用移动设备上标准的一般消息编码韵律信息。客户机和服务器都知道移动设备上通知接收到新电子邮件或呼叫方标识符的标准消息。当用户定制标准消息的合成语音的情绪时,***可以将情绪标准应用到已经知道的韵律信息,以便产生目标语音。此外,用户可能希望仅使用选择的情绪标准合成某些字或字的组合。***可以不管韵律,将情绪标准直接应用到有关字,并且仍然能够取得希望的效果。
在一个可选实施例中,用户可以为同一设备上的不同TTS功能选择不同的直觉标准。例如,可能希望电子邮件或文本消息的语音是比较不露感情和平稳的。在这种消息中,内容对于用户可能比传送方法更为重要。然而,对于诸如呼叫方通知和新邮件通知之类的其它消息,用户可能希望通过兴奋或充满活力的语音来提醒。这使得用户能够通过声音区别不同类型的消息。
在另一个实施例中,用户可以选择改变合成语音的说话风格或词汇的直觉标准。这些标准不会影响文本消息或电子邮件,所以能够准确地保持内容。但是,可以用这样的方式改变呼叫方通知和新电子邮件通知之类的标准消息。例如,用户可能希望使用正式的词汇以礼貌的方式传送通知。可选地,用户可能希望使用俚语或随意的词汇以非正式的方式传送通知。
另一种选择是提供有关选择模仿新闻主持人或演艺人员之类的著名人物的特定合成语音的标准。用户可以使用选择界面浏览特定语音的目录。将用户希望的特定合成语音存储在服务器上。当用户选择了特定合成语音时,服务器从已经存储在服务器上的语音提取需要的特征。将这些特征下载到客户机,客户机使用这些特征产生希望的合成语音。可选地,服务器可以仅存储特定语音的必要特征,而不是全部语音。
可以将直觉标准排列在一个用户使用选择界面进行引导的分级菜单中。菜单可以向用户提供诸如男性或女性之类的选项。在用户进行了选择之后,菜单提供另一个选项,例如,合成语音的感知年龄。可选地,可以通过服务器遥控分级菜单。随着用户从直觉标准进行选择,服务器在步骤18中动态地更新菜单,以包含特定语音定制可用的选择。随着用户进行选择,服务器可以删除与用户已经选择的标准不符合的特定标准。
可以将直觉标准作为滑动杆提供给用户,滑动杆代表可用于一个特定标准的定制程度。用户可以在提供的限度内调节这个杆,以取得希望的标准定制水平。例如,一种可能的实现是使用滑动杆改变合成语音的男性化和女性化的程度。用户可以根据滑动杆的位置,使合成语音更为男性化或更为女性化。可选地,使用可转动轮可以完成类似的功能。
在步骤16中,将用户选择的直觉标准上载到服务器。在步骤20中,服务器使用该标准确定目标合成语音。一旦建立了定制所需的参数,服务器在步骤22中将结果下载到客户机。如步骤24中所示,可以向用户收取下载定制语音的费用。费用可以用月租的形式收取,或根据每次使用的情况收取。可选地,服务器可以将目标语音的样本再现提供给用户。当用户选择了一个特定标准时,服务器可以下载一个简短的样本,这样,用户可以确定是否满意选择的标准。此外,用户可以收听代表所有选择的标准的样本语音。
直觉标准的一个范畴涉及字的发音,具体地讲,涉及方言及其对字的发音的效果。例如,用户可以选择将合成语音定制为具有波士顿或南方口音的标准。在一个实施例中,将具有定制发音特征的整个语言下载到客户机。在另一个实施例中,仅把将语言变换成希望的发音所需的数据下载到客户机。
可选地,可以以图2中所示的交互式地图或地球仪的形式提供合成语音的地理表示。如果希望一种具有特定位置的特征的口音,那么用户可以操纵GUI 70上的地球仪或地图的地理表示72,以加亮适当的位置。例如,如果用户希望带有得克萨斯口音的合成语音,那么可以使用选择界面74操纵地理表示72,直到加亮得克萨斯州中的一个特定区域。在初始级76,地理表示72作为一个地球仪开始。用户使用选择界面74穿越到地理表示72的下一级。地理表示72的中间级78是更为具体,例如,一个国家地图。最后级80是一个特定地理区域的表示,例如,得克萨斯州。用户使用选择界面74确认选择,并且与服务器82交换数据。这种地理选择可以用于代替或补充其它直觉标准。
也可以使用其它方法将用户选择的直觉标准可见地显示在移动设备上。在一个实施例中,可以根据各种颜色选择标准并显示在移动设备上。用户改变代表一种特定标准的给定颜色的强度或色调。例如,高的情绪可以对应于亮红色,而低情绪可以对应于暗褐色。类似地,较亮的颜色可以代表较年轻的语音,而较暗的颜色代表较老的语音。
在另一个实施例中,在移动设备上将用户选择的直觉标准表示为图标或卡通人物。情绪标准可以改变图标的面部表情,而性别标准使得图标呈现为男人或女人。其它标准可以影响图标的衣着、年龄、或活力。
在又一个实施例中,将直觉标准显示为二维或三维空间表示。例如,用户可以用类似于上述地理选择方法的方式操纵空间表示。用户可以选择三维空间表示中的一个位置,以指示情绪级别或性别。可选地,标准可以与另一个标准组成一对,并且表示为一个二维平面。例如,可以在一个平面上表示年龄和性别,在这个平面中,垂直操作影响年龄标准,水平操作影响性别标准。
用户可能希望下载一个合成语音的整个语言。例如,用户可以选择标准以使用西班牙文代替英文传送所有TTS消息。可选地,用户可以使用上述地理选择方法。语言改变可以是永久的或临时的,或者用户能够有选择地在下载的语言之间切换。在一个实施例中,可以为下载到客户机的每种语言向用户收取费用。
如图3中所示,可以看到分布式体系结构30的结构的几种实施例。如果用户希望选择的标准具有较高的质量和准确性,那么从服务器34下载完整合成数据库32。根据直觉标准在服务器34上建立完整的合成语音,并以级联单元数据库的形式发送到客户机36。在这个实施例中,由于需要较长的时间将完整的合成语音下载到客户机36,所以损失了效率。
还是参考图3,级联单元数据库38可以存在于客户机36上。当用户选择直觉标准时,服务器34根据该标准产生变换数据40,并把变换数据40下载到客户机36。客户机36将变换数据40应用到级联单元数据库38,以创建目标合成语音。
再参考图3,除了产生变换数据所需的资源42之外,也可以将级联单元数据库38保存在客户机36上。客户机36首先与服务器34通信,以接收有关变换数据和直觉标准的更新数据44。当新的标准和变换参数可用时,客户机36从服务器34下载更新数据44,以增大语音合成的定制范围。此外,在所有公开的实施例中,都可以具有下载新的直觉标准的能力。
现在参考图4,图4示出了将用于合成器定制的变换数据下载到客户机60的客户机-服务器体系结构50。在用户根据直觉标准52选择语音定制的同时,服务器54必须使用直觉标准52产生用于实际合成的变换数据。服务器54从客户机60接收选择的标准52,并将标准52映射到一组参数56。每个标准52对应于存在于服务器上的参数56。例如,用户所选择的一个特定标准可能需要有关幅度和共振峰频率的参数方差。可能的参数可以包括,但不限于,音调控制、语调、说话速率、基频、持续时间、和谱包络的控制。
服务器54建立有关的参数56,并使用这些参数数据产生一组变换标记58。变换标记58是向客户机60上的语音合成器62指定以何种方式修改哪些参数56以便产生目标语音的命令。将变换标记58下载到客户机60。合成器根据变换标记58修改自身的设置,例如,音调值,速度,或发音。随着修改的设置应用到已经保存在移动设备上的级联单元数据库64,合成器62根据修改的设置产生合成语音66。在服务器54将变换标记58下载到客户机60时,合成器62使用变换标记58。
变换标记58并不专用于特定的合成器。可以将变换标记58标准化,以便能够应用到大范围的合成器。因此,任何与服务器54互联的客户机60都可以使用变换标记58,而不必考虑移动设备上装备的合成器。
可选地,可以独立于服务器54修改合成器62的某些方面。例如,客户机60可以存储一个下载的变换标记58的数据库,或多个级联单元数据库。然后,用户可以根据已经保存在客户机60上的数据选择改变合成语音,而不必连接到服务器54。
在另一个实施例中,可以在到达客户机之前,通过服务器预处理用于合成的消息。一般将任何文本消息或电子邮件消息发送到服务器,服务器随后将这些消息发送到客户机。在本发明中,服务器可以在将文本发送到客户机之前,把初始变换标记应用于文本。例如,可以在服务器上修改音调或速度之类的参数,并在客户机上进行发音之类的进一步修改。
本发明的说明仅仅是举例说明性质的,因此,不脱离本发明的宗旨的改变应当在本发明的范围内。不认为这种改变脱离了本发明的精神和范围。

Claims (29)

1.一种用于将定制的合成语音数据提供给用户的方法,包括:
在第一计算设备从用户捕获语音标准,语音标准表示希望的合成语音的特征;
将语音标准传送到第二计算设备,第二计算设备经过网络连接到第一计算设备;和
在第二计算设备产生对应于所捕获的语音标准的合成语音规则,并将合成语音规则传送到第一计算设备。
2.根据权利要求1所述的方法,进一步包括估价向用户收取的费用。
3.根据权利要求2所述的方法,其中根据传送到第一计算设备的合成语音规则估价向用户收取的费用。
4.根据权利要求2所述的方法,其中根据指定的时间周期估价向用户收取的费用。
5.根据权利要求1所述的方法,其中第一计算设备是客户机,第二计算设备是服务器。
6.根据权利要求5所述的方法,其中客户机是移动电话。
7.根据权利要求5所述的方法,其中客户机是个人数据助理。
8.根据权利要求5所述的方法,其中客户机是个人备忘记事本。
9.根据权利要求1所述的方法,其中合成语音规则是级联单元数据库。
10.根据权利要求1所述的方法,进一步包括将更新数据从第二计算设备传送到第一计算设备,其中更新数据代表对可捕获的语音标准的调整。
11.一种用于在分布式语音合成***中定制合成语音的方法,包括:
在第一计算设备从用户捕获语音标准,语音标准表示希望的合成语音的特征;
将语音标准传送到第二计算设备,第二计算设备经过网络连接到第一计算设备;
根据语音标准在第二计算设备产生一组合成语音规则,该组合成语音规则代表合成语音的韵律方面;和
将该组合成语音规则传送到第一计算设备。
12.根据权利要求11所述的方法,其中该组合成语音规则代表合成语音的语音质量。
13.根据权利要求11所述的方法,其中该组合成语音规则代表合成语音的发音行为。
14.根据权利要求11所述的方法,其中该组合成语音规则代表合成语音的说话风格。
15.根据权利要求11所述的方法,其中从用户捕获语音标准包括根据语音标准的分级菜单选择希望的合成语音的特征。
16.根据权利要求15所述的方法,其中第二计算设备根据以前选择的语音标准修改分级菜单上可用的语音标准。
17.根据权利要求11所述的方法,其中从用户捕获语音标准包括根据地理位置选择希望的合成语音的特征。
18.根据权利要求11所述的方法,其中第一计算设备是客户机,第二计算设备是服务器。
19.根据权利要求18所述的方法,其中客户机是移动电话。
20.根据权利要求18所述的方法,其中客户机是个人数据助理。
21.根据权利要求18所述的方法,其中客户机是个人备忘记事本。
22.根据权利要求11所述的方法,其中语音标准表示合成语音的发音行为。
23.根据权利要求22所述的方法,其中语音标准进一步表示合成语音的方言。
24.根据权利要求11所述的方法,其中合成语音规则是级联单元数据库。
25.根据权利要求11所述的方法,进一步包括将更新数据从第二计算设备传送到第一计算设备,其中更新数据代表对可捕获的语音标准的调整。
26.一种用于根据用户选择的标准在分布式语音合成***中产生合成语音的方法,包括:
在第一计算设备从用户捕获语音标准,语音标准表示希望的合成语音的特征;
将语音标准传送到第二计算设备,第二计算设备经过网络连接到第一计算设备;
将语音标准映射到由语音特征确定的参数;
产生指示参数的变换的一组标记,其中参数的变换代表所捕获的语音标准;
将该组标记传送到第一计算设备;和
根据该组标记产生合成语音。
27.根据权利要求26所述的方法,包括在第二计算设备根据一组标记产生合成语音,并将合成语音传送到第一计算设备。
28.根据权利要求26所述的方法,其中将语音标准映射到由语音特征确定的参数,产生指示参数的变换的一组标记,和根据该组标记产生合成语音的步骤在第一计算设备上发生。
29.根据权利要求28所述的方法,进一步包括将更新数据从第二计算设备传送到第一计算设备,其中更新数据代表对可捕获的语音标准的调整。
CNA038191156A 2002-09-13 2003-09-10 客户机-服务器语音定制 Pending CN1675681A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/242,860 US20040054534A1 (en) 2002-09-13 2002-09-13 Client-server voice customization
US10/242,860 2002-09-13

Publications (1)

Publication Number Publication Date
CN1675681A true CN1675681A (zh) 2005-09-28

Family

ID=31991495

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038191156A Pending CN1675681A (zh) 2002-09-13 2003-09-10 客户机-服务器语音定制

Country Status (6)

Country Link
US (1) US20040054534A1 (zh)
EP (1) EP1543501A4 (zh)
JP (1) JP2005539257A (zh)
CN (1) CN1675681A (zh)
AU (1) AU2003270481A1 (zh)
WO (1) WO2004025406A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124515B (zh) * 2008-06-17 2012-09-12 声感有限公司 基于语音分析的说话者表征
CN104992703A (zh) * 2015-07-24 2015-10-21 百度在线网络技术(北京)有限公司 语音合成方法和***
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法

Families Citing this family (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7360151B1 (en) * 2003-05-27 2008-04-15 Walt Froloff System and method for creating custom specific text and emotive content message response templates for textual communications
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
ES2388606T3 (es) 2004-04-08 2012-10-16 Vdf Futureceuticals, Inc. Procedimientos y composiciones cosméticas de baya de café
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
EP1886302B1 (en) * 2005-05-31 2009-11-18 Telecom Italia S.p.A. Providing speech synthesis on user terminals over a communications network
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8224647B2 (en) * 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US8326629B2 (en) * 2005-11-22 2012-12-04 Nuance Communications, Inc. Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB2444539A (en) * 2006-12-07 2008-06-11 Cereproc Ltd Altering text attributes in a text-to-speech converter to change the output speech characteristics
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
WO2010070584A1 (en) * 2008-12-19 2010-06-24 Koninklijke Philips Electronics N.V. Method and system for adapting communications
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8805673B1 (en) 2011-07-14 2014-08-12 Globalenglish Corporation System and method for sharing region specific pronunciations of phrases
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
US9304787B2 (en) * 2013-12-31 2016-04-05 Google Inc. Language preference selection for a user interface using non-language elements
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP5802807B2 (ja) * 2014-07-24 2015-11-04 株式会社東芝 韻律編集装置、方法およびプログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9558734B2 (en) 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110232908B (zh) * 2019-07-30 2022-02-18 厦门钛尚人工智能科技有限公司 一种分布式语音合成***
US11176942B2 (en) * 2019-11-26 2021-11-16 Vui, Inc. Multi-modal conversational agent platform
US11514888B2 (en) * 2020-08-13 2022-11-29 Google Llc Two-level speech prosody transfer

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232112T2 (de) * 1991-11-12 2002-03-14 Fujitsu Ltd., Kawasaki Vorrichtung zur Sprachsynthese
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6658389B1 (en) * 2000-03-24 2003-12-02 Ahmet Alpdemir System, method, and business model for speech-interactive information system having business self-promotion, audio coupon and rating features
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
US8108509B2 (en) * 2001-04-30 2012-01-31 Sony Computer Entertainment America Llc Altering network transmitted content data based upon user specified characteristics

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124515B (zh) * 2008-06-17 2012-09-12 声感有限公司 基于语音分析的说话者表征
CN104992703A (zh) * 2015-07-24 2015-10-21 百度在线网络技术(北京)有限公司 语音合成方法和***
CN104992703B (zh) * 2015-07-24 2017-10-03 百度在线网络技术(北京)有限公司 语音合成方法和***
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN105304080B (zh) * 2015-09-22 2019-09-03 科大讯飞股份有限公司 语音合成装置及方法

Also Published As

Publication number Publication date
WO2004025406A2 (en) 2004-03-25
EP1543501A4 (en) 2006-12-13
EP1543501A2 (en) 2005-06-22
AU2003270481A8 (en) 2004-04-30
WO2004025406A3 (en) 2004-05-21
AU2003270481A1 (en) 2004-04-30
JP2005539257A (ja) 2005-12-22
US20040054534A1 (en) 2004-03-18

Similar Documents

Publication Publication Date Title
CN1675681A (zh) 客户机-服务器语音定制
US7483832B2 (en) Method and system for customizing voice translation of text to speech
US7401020B2 (en) Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7603278B2 (en) Segment set creating method and apparatus
US7113909B2 (en) Voice synthesizing method and voice synthesizer performing the same
US7966186B2 (en) System and method for blending synthetic voices
CN101176146B (zh) 声音合成装置
CN1316448C (zh) 适用于提高合成语音可懂性的运行时合成语音的方法
Yi Natural-sounding speech synthesis using variable-length units
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
US7099828B2 (en) Method and apparatus for word pronunciation composition
JP2011028130A (ja) 音声合成装置
Macon et al. Concatenation-based midi-to-singing voice synthesis
Gibbon Prosody: The rhythms and melodies of speech
JP2011028131A (ja) 音声合成装置
Hamad et al. Arabic text-to-speech synthesizer
Ifeanyi et al. Text–To–Speech Synthesis (TTS)
JP4490818B2 (ja) 定常音響信号のための合成方法
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
Henton Challenges and rewards in using parametric or concatenative speech synthesis
JPH09179576A (ja) 音声合成方法
Liberman Computer speech synthesis: its status and prospects.
JP4366918B2 (ja) 携帯端末
Singh Text to Speech (On Device)
Kogeda et al. An Implementation of isiXhosa Text-to-Speech Modules to Support e-Services in Marginalized Rural Areas

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication