CN1675681A

CN1675681A - 客户机－服务器语音定制

Info

Publication number: CN1675681A
Application number: CNA038191156A
Authority: CN
Inventors: 让-克劳德·容科
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-09-13
Filing date: 2003-09-10
Publication date: 2005-09-28
Also published as: WO2004025406A2; EP1543501A4; EP1543501A2; AU2003270481A8; WO2004025406A3; AU2003270481A1; JP2005539257A; US20040054534A1

Abstract

用户在分布式语音合成***中定制合成语音。用户在本地设备选择语音标准(14)。语音标准表示用户希望的合成语音的特征(22)。将语音标准传送到一个网络设备(16)。网络设备根据语音标准产生一组合成语音规则(20)。合成语音规则代表合成语音的韵律方面和其它特征(20)。将合成语音规则传送到本地设备，并用于创建合成语音(22)。

Description

客户机-服务器语音定制

技术领域

本发明涉及在客户机-服务器体系结构中定制合成语音，更具体地讲，涉及允许用户定制合成语音的特征。

背景技术

文本转语音(TTS)合成器是移动设备可用的最新功能部件。TTS合成器现在可以用于合成地址簿、电子邮件、或其它数据存储模块中的文本，以便于将内容提供给用户。由于移动电话、PDA、和其它个人备忘记事本之类的设备一般只可使用小尺寸的显示器，所以向这些设备的用户提供TTS合成是特别有益的。

由于语音合成的进步，定制个人应用的合成语音的能力成为一个令人日渐关注的领域。由于合成语音所需的资源，完全在移动设备中执行定制合成语音是十分困难的。但是，远端服务器能够执行所需的功能并且将结果发送到移动设备。使用位于移动设备本身上的定制语音，用户无需在线使用合成语音功能部件。

有一种方法可以根据用户希望传送的特定音调或情绪执行语音合成。用户可以在把语音发送到另一用户之前，选择语音特征来调节用户本身语音的转换。但是，这种方法不允许用户定制合成语音，并且局限于用户本身语音的混合。另一种方法使用语音的基本指令表来获得新的语音。这种方法根据已知语音的特征***已知语音来产生新的语音。

发明内容

本发明公开了一种在分布式语音合成***中定制合成语音的方法。在第一计算设备从用户捕获语音标准。语音标准代表用户希望合成的语音的特征。将捕获的语音标准传送到经过网络与第一计算设备互联的第二计算设备。第二计算设备根据语音标准产生一组合成语音规则。合成语音规则代表合成语音的韵律方面和其它特征。将合成语音规则传送到第一计算设备，并用于创建合成语音。

从以下提供的详细说明中，可以清楚地了解本发明的其它应用领域。应当知道，在指出本发明的优选实施例时，详细说明和特定示例仅仅是为了举例说明的目的，并不是要限制本发明的范围。

附图说明

从详细说明和附图可以更充分地理解本发明，其中：

图1示出了选择定制语音功能部件的方法；

图2示出了根据地理位置选择直觉语音标准的***；

图3示出了可定制语音合成的分布式体系结构；和

图4示出了产生变换数据的分布式体系结构。

具体实施方式

以下的优选实施例的说明只是举例说明性的，并不是要限制本发明、其应用、或用途。

图1示出了一种用户选择语音功能部件以定制合成语音输出的方法。将作为电子邮件、文本消息、或呼叫方标识符之类文本在移动设备上呈现给用户的各种数据，作为合成语音输出提供给用户。用户可能希望TTS合成的输出具有某种特征。例如，可能希望用听起来充满活力或兴奋的合成语音来通知新的文本或语音邮件消息。本发明允许用户引导直觉标准的进程，以定制希望的合成语音。

在步骤10，用户接入移动设备上的选择界面，以定制TTS输出。选择界面可以是一个触摸板、输入笔、或触摸屏，并且在步骤12中用于穿越移动设备上的图形用户界面(GUI)。GUI一般是通过网络客户机提供，并在移动设备上运行。可选地，用户可以使用语言命令与移动设备交互。移动设备上的语言识别器解释并执行语言命令。

在步骤14，用户可以使用选择界面观看和选择语音定制的直觉标准的种类。直觉标准显示在GUI上供用户观看。该标准代表合成语音在可能的语音多维空间中的位置。标准的选择表明目标语音在语音空间中的特定位置。一种可能的标准可以是合成语音的感知性别。男性语音可以是相对低沉，并且具有较低的音调，而更为女性化的语音可以具有比较高的音调，带有呼吸声的低音。用户也可以选择一种不可辨别男性或女性的语音。

另一种可能的标准可以是合成语音的感知年龄。在声谱的年轻极端值的语音具有较高的音调和共振峰值。此外，可以错误地发音某些音位，以进一步强调合成语音属于年轻的说话者的印象。相反，在声谱的老年端的语音可以是粗重或沙哑的。这可以通过使源频率非周期性或混乱来实现。

再一种可能的标准涉及合成语音的情绪强度。高情绪强度的表现可以通过加重口述短语中的特定音节的重音，延长停顿，或提高连续音节的速度来取得。低情绪强度可以通过产生更为中性或单调的合成语音来实现。

未知文本的语音合成的一个问题是希望的情绪与包含在消息中的韵律的协调。韵律是指口语的节奏和声调方面。当人类说话者说出一个短语或句子时，说话者经常并十分自然地将重音放在某些字或短语上，以强调说话要表达的意思。情绪上的变化也需要语音韵律上的改变，以便准确地表现希望的情绪。但是，对于未知文本，TTS***不知道句子的上下文或韵律，因此，在实现情绪改变方面存在着固有的困难。

但是，对于单个字和已知文本，情绪和韵律很容易协调。例如，可以用移动设备上标准的一般消息编码韵律信息。客户机和服务器都知道移动设备上通知接收到新电子邮件或呼叫方标识符的标准消息。当用户定制标准消息的合成语音的情绪时，***可以将情绪标准应用到已经知道的韵律信息，以便产生目标语音。此外，用户可能希望仅使用选择的情绪标准合成某些字或字的组合。***可以不管韵律，将情绪标准直接应用到有关字，并且仍然能够取得希望的效果。

在一个可选实施例中，用户可以为同一设备上的不同TTS功能选择不同的直觉标准。例如，可能希望电子邮件或文本消息的语音是比较不露感情和平稳的。在这种消息中，内容对于用户可能比传送方法更为重要。然而，对于诸如呼叫方通知和新邮件通知之类的其它消息，用户可能希望通过兴奋或充满活力的语音来提醒。这使得用户能够通过声音区别不同类型的消息。

在另一个实施例中，用户可以选择改变合成语音的说话风格或词汇的直觉标准。这些标准不会影响文本消息或电子邮件，所以能够准确地保持内容。但是，可以用这样的方式改变呼叫方通知和新电子邮件通知之类的标准消息。例如，用户可能希望使用正式的词汇以礼貌的方式传送通知。可选地，用户可能希望使用俚语或随意的词汇以非正式的方式传送通知。

另一种选择是提供有关选择模仿新闻主持人或演艺人员之类的著名人物的特定合成语音的标准。用户可以使用选择界面浏览特定语音的目录。将用户希望的特定合成语音存储在服务器上。当用户选择了特定合成语音时，服务器从已经存储在服务器上的语音提取需要的特征。将这些特征下载到客户机，客户机使用这些特征产生希望的合成语音。可选地，服务器可以仅存储特定语音的必要特征，而不是全部语音。

可以将直觉标准排列在一个用户使用选择界面进行引导的分级菜单中。菜单可以向用户提供诸如男性或女性之类的选项。在用户进行了选择之后，菜单提供另一个选项，例如，合成语音的感知年龄。可选地，可以通过服务器遥控分级菜单。随着用户从直觉标准进行选择，服务器在步骤18中动态地更新菜单，以包含特定语音定制可用的选择。随着用户进行选择，服务器可以删除与用户已经选择的标准不符合的特定标准。

可以将直觉标准作为滑动杆提供给用户，滑动杆代表可用于一个特定标准的定制程度。用户可以在提供的限度内调节这个杆，以取得希望的标准定制水平。例如，一种可能的实现是使用滑动杆改变合成语音的男性化和女性化的程度。用户可以根据滑动杆的位置，使合成语音更为男性化或更为女性化。可选地，使用可转动轮可以完成类似的功能。

在步骤16中，将用户选择的直觉标准上载到服务器。在步骤20中，服务器使用该标准确定目标合成语音。一旦建立了定制所需的参数，服务器在步骤22中将结果下载到客户机。如步骤24中所示，可以向用户收取下载定制语音的费用。费用可以用月租的形式收取，或根据每次使用的情况收取。可选地，服务器可以将目标语音的样本再现提供给用户。当用户选择了一个特定标准时，服务器可以下载一个简短的样本，这样，用户可以确定是否满意选择的标准。此外，用户可以收听代表所有选择的标准的样本语音。

直觉标准的一个范畴涉及字的发音，具体地讲，涉及方言及其对字的发音的效果。例如，用户可以选择将合成语音定制为具有波士顿或南方口音的标准。在一个实施例中，将具有定制发音特征的整个语言下载到客户机。在另一个实施例中，仅把将语言变换成希望的发音所需的数据下载到客户机。

可选地，可以以图2中所示的交互式地图或地球仪的形式提供合成语音的地理表示。如果希望一种具有特定位置的特征的口音，那么用户可以操纵GUI 70上的地球仪或地图的地理表示72，以加亮适当的位置。例如，如果用户希望带有得克萨斯口音的合成语音，那么可以使用选择界面74操纵地理表示72，直到加亮得克萨斯州中的一个特定区域。在初始级76，地理表示72作为一个地球仪开始。用户使用选择界面74穿越到地理表示72的下一级。地理表示72的中间级78是更为具体，例如，一个国家地图。最后级80是一个特定地理区域的表示，例如，得克萨斯州。用户使用选择界面74确认选择，并且与服务器82交换数据。这种地理选择可以用于代替或补充其它直觉标准。

也可以使用其它方法将用户选择的直觉标准可见地显示在移动设备上。在一个实施例中，可以根据各种颜色选择标准并显示在移动设备上。用户改变代表一种特定标准的给定颜色的强度或色调。例如，高的情绪可以对应于亮红色，而低情绪可以对应于暗褐色。类似地，较亮的颜色可以代表较年轻的语音，而较暗的颜色代表较老的语音。

在另一个实施例中，在移动设备上将用户选择的直觉标准表示为图标或卡通人物。情绪标准可以改变图标的面部表情，而性别标准使得图标呈现为男人或女人。其它标准可以影响图标的衣着、年龄、或活力。

在又一个实施例中，将直觉标准显示为二维或三维空间表示。例如，用户可以用类似于上述地理选择方法的方式操纵空间表示。用户可以选择三维空间表示中的一个位置，以指示情绪级别或性别。可选地，标准可以与另一个标准组成一对，并且表示为一个二维平面。例如，可以在一个平面上表示年龄和性别，在这个平面中，垂直操作影响年龄标准，水平操作影响性别标准。

用户可能希望下载一个合成语音的整个语言。例如，用户可以选择标准以使用西班牙文代替英文传送所有TTS消息。可选地，用户可以使用上述地理选择方法。语言改变可以是永久的或临时的，或者用户能够有选择地在下载的语言之间切换。在一个实施例中，可以为下载到客户机的每种语言向用户收取费用。

如图3中所示，可以看到分布式体系结构30的结构的几种实施例。如果用户希望选择的标准具有较高的质量和准确性，那么从服务器34下载完整合成数据库32。根据直觉标准在服务器34上建立完整的合成语音，并以级联单元数据库的形式发送到客户机36。在这个实施例中，由于需要较长的时间将完整的合成语音下载到客户机36，所以损失了效率。

还是参考图3，级联单元数据库38可以存在于客户机36上。当用户选择直觉标准时，服务器34根据该标准产生变换数据40，并把变换数据40下载到客户机36。客户机36将变换数据40应用到级联单元数据库38，以创建目标合成语音。

再参考图3，除了产生变换数据所需的资源42之外，也可以将级联单元数据库38保存在客户机36上。客户机36首先与服务器34通信，以接收有关变换数据和直觉标准的更新数据44。当新的标准和变换参数可用时，客户机36从服务器34下载更新数据44，以增大语音合成的定制范围。此外，在所有公开的实施例中，都可以具有下载新的直觉标准的能力。

现在参考图4，图4示出了将用于合成器定制的变换数据下载到客户机60的客户机-服务器体系结构50。在用户根据直觉标准52选择语音定制的同时，服务器54必须使用直觉标准52产生用于实际合成的变换数据。服务器54从客户机60接收选择的标准52，并将标准52映射到一组参数56。每个标准52对应于存在于服务器上的参数56。例如，用户所选择的一个特定标准可能需要有关幅度和共振峰频率的参数方差。可能的参数可以包括，但不限于，音调控制、语调、说话速率、基频、持续时间、和谱包络的控制。

服务器54建立有关的参数56，并使用这些参数数据产生一组变换标记58。变换标记58是向客户机60上的语音合成器62指定以何种方式修改哪些参数56以便产生目标语音的命令。将变换标记58下载到客户机60。合成器根据变换标记58修改自身的设置，例如，音调值，速度，或发音。随着修改的设置应用到已经保存在移动设备上的级联单元数据库64，合成器62根据修改的设置产生合成语音66。在服务器54将变换标记58下载到客户机60时，合成器62使用变换标记58。

变换标记58并不专用于特定的合成器。可以将变换标记58标准化，以便能够应用到大范围的合成器。因此，任何与服务器54互联的客户机60都可以使用变换标记58，而不必考虑移动设备上装备的合成器。

可选地，可以独立于服务器54修改合成器62的某些方面。例如，客户机60可以存储一个下载的变换标记58的数据库，或多个级联单元数据库。然后，用户可以根据已经保存在客户机60上的数据选择改变合成语音，而不必连接到服务器54。

在另一个实施例中，可以在到达客户机之前，通过服务器预处理用于合成的消息。一般将任何文本消息或电子邮件消息发送到服务器，服务器随后将这些消息发送到客户机。在本发明中，服务器可以在将文本发送到客户机之前，把初始变换标记应用于文本。例如，可以在服务器上修改音调或速度之类的参数，并在客户机上进行发音之类的进一步修改。

本发明的说明仅仅是举例说明性质的，因此，不脱离本发明的宗旨的改变应当在本发明的范围内。不认为这种改变脱离了本发明的精神和范围。

Claims

1.一种用于将定制的合成语音数据提供给用户的方法，包括：

在第一计算设备从用户捕获语音标准，语音标准表示希望的合成语音的特征；

将语音标准传送到第二计算设备，第二计算设备经过网络连接到第一计算设备；和

在第二计算设备产生对应于所捕获的语音标准的合成语音规则，并将合成语音规则传送到第一计算设备。

2.根据权利要求1所述的方法，进一步包括估价向用户收取的费用。

3.根据权利要求2所述的方法，其中根据传送到第一计算设备的合成语音规则估价向用户收取的费用。

4.根据权利要求2所述的方法，其中根据指定的时间周期估价向用户收取的费用。

5.根据权利要求1所述的方法，其中第一计算设备是客户机，第二计算设备是服务器。

6.根据权利要求5所述的方法，其中客户机是移动电话。

7.根据权利要求5所述的方法，其中客户机是个人数据助理。

8.根据权利要求5所述的方法，其中客户机是个人备忘记事本。

9.根据权利要求1所述的方法，其中合成语音规则是级联单元数据库。

10.根据权利要求1所述的方法，进一步包括将更新数据从第二计算设备传送到第一计算设备，其中更新数据代表对可捕获的语音标准的调整。

11.一种用于在分布式语音合成***中定制合成语音的方法，包括：

将语音标准传送到第二计算设备，第二计算设备经过网络连接到第一计算设备；

根据语音标准在第二计算设备产生一组合成语音规则，该组合成语音规则代表合成语音的韵律方面；和

将该组合成语音规则传送到第一计算设备。

12.根据权利要求11所述的方法，其中该组合成语音规则代表合成语音的语音质量。

13.根据权利要求11所述的方法，其中该组合成语音规则代表合成语音的发音行为。

14.根据权利要求11所述的方法，其中该组合成语音规则代表合成语音的说话风格。

15.根据权利要求11所述的方法，其中从用户捕获语音标准包括根据语音标准的分级菜单选择希望的合成语音的特征。

16.根据权利要求15所述的方法，其中第二计算设备根据以前选择的语音标准修改分级菜单上可用的语音标准。

17.根据权利要求11所述的方法，其中从用户捕获语音标准包括根据地理位置选择希望的合成语音的特征。

18.根据权利要求11所述的方法，其中第一计算设备是客户机，第二计算设备是服务器。

19.根据权利要求18所述的方法，其中客户机是移动电话。

20.根据权利要求18所述的方法，其中客户机是个人数据助理。

21.根据权利要求18所述的方法，其中客户机是个人备忘记事本。

22.根据权利要求11所述的方法，其中语音标准表示合成语音的发音行为。

23.根据权利要求22所述的方法，其中语音标准进一步表示合成语音的方言。

24.根据权利要求11所述的方法，其中合成语音规则是级联单元数据库。

25.根据权利要求11所述的方法，进一步包括将更新数据从第二计算设备传送到第一计算设备，其中更新数据代表对可捕获的语音标准的调整。

26.一种用于根据用户选择的标准在分布式语音合成***中产生合成语音的方法，包括：

将语音标准映射到由语音特征确定的参数；

产生指示参数的变换的一组标记，其中参数的变换代表所捕获的语音标准；

将该组标记传送到第一计算设备；和

根据该组标记产生合成语音。

27.根据权利要求26所述的方法，包括在第二计算设备根据一组标记产生合成语音，并将合成语音传送到第一计算设备。

28.根据权利要求26所述的方法，其中将语音标准映射到由语音特征确定的参数，产生指示参数的变换的一组标记，和根据该组标记产生合成语音的步骤在第一计算设备上发生。

29.根据权利要求28所述的方法，进一步包括将更新数据从第二计算设备传送到第一计算设备，其中更新数据代表对可捕获的语音标准的调整。