CN1391209A

CN1391209A - 话音合成方法以及执行此方法的话音合成器

Info

Publication number: CN1391209A
Application number: CN01141286A
Authority: CN
Inventors: 额贺信尾; 永松健司; 北原义典
Original assignee: Hitachi Ltd
Current assignee: Maxell Ltd
Priority date: 2001-06-11
Filing date: 2001-08-03
Publication date: 2003-01-15
Anticipated expiration: 2021-08-03
Also published as: CN1235187C; KR20020094988A; US7113909B2; JP2002366186A; US20020188449A1

Abstract

公开一种方法，将立体声类型语句合成为任意语音格式的话音，并允许第三方准备韵律数据和允许具有话音合成部分的终端设备的用户获得韵律数据。此话音合成方法确定话音内容标识符来指示立体声类型语句的话音内容的类型；准备包括与话音内容标识符相对应的语音格式和韵律数据的语音格式词典14；通过指示(12)用于要生成(15)的合成话音的内容标识符和语音格式从语音格式词典14中选择要生成的合成话音的韵律数据，并将选择的韵律数据作为话音合成器驱动数据添加到话音合成器13，从而利用特定的语音格式来执行话音合成。立体声类型语句的话音可以利用任意语音格式来合成。由第三方准备的韵律数据(语音格式词典)可通过网络载入到便携式终端设备的话音合成器中。

Description

话音合成方法以及执行此方法的话音合成器

本发明涉及一种话音(voice)合成方法以及执行这一方法的话音合成器和***。更具体地说，本发明涉及一种话音合成方法，这种方法将具有几乎固定不变内容的立体声类型语句经话音合成后，转换为一种话音。本发明还涉及一种用于执行这一方法的话音合成器以及一种数据生成方法，该方法对获得上述方法和话音合成器来说，是必不可少的。本发明特别用于含有便携式终端设备的通信网络中，其中每个终端设备都有一个话音合成器和一个可与该便携式终端设备连接的数据通信装置。

一般来说，话音合成是生成话音声波的一种方案，话音声波根据以下因素生成：表示说话内容的发音符号(话音元素符号)、是话音声调的物理度量的音调的时间串行模式(基频模式)以及每一话音元素的持续时间与功率(话音元素强度)。在下面，上述三种参数，即基频模式、话音元素持续时间以及话音元素强度一般称为“韵律参数”，话音元素符号和韵律参数的组合一般称为“韵律数据”。

生成话音声波的典型方法有以下两种，一种是驱动利用滤波器模仿一个话音元素的声域特征的参数的参数合成方法；另一种是声波级联方法，从人说话生成的话音声波中提取表示各个话音元素特征的只言片语，并将这些只言片语连接起来。显然，生成“韵律数据”在话音合成中是非常重要的。话音合成方法一般可用于包括日话在内的语言。

话音合成需要设法获得与要进行话音合成的语句内容相对应的韵律参数。在话音合成技术适用于电子邮件与电子报纸的读出等的情况下，例如，应对任何语句进行语言分析，以识别字词或短语之间的界限，同时还应确定短语的重音类型，此后应从重音信息、音节信息等中获得韵律参数。已经建立这些与自动转换有关的基本方法，并且能利用公开在“基于字词之间的连接强度的语音***的日文文本的结构分析仪”(1995年日本声学学会会刊第51卷第1期第3-13页)中的方法来获得这些基本方法。

在韵律参数之中，由于包括音节(话音元素)所在的上下文的各种因素，音节(话音元素)的持续时间各不相同。影响持续时间的因素包括对声音清晰度的限制，例如音节的类型、时间、字的重要性、短语界限的指示、短语中的节拍、整个节拍以及语言限制，例如句法的意思。控制话音元素持续时间的一般方法是就上述因素对实际观察到的持续时间数据的影响程度进行统计分析，并使用通过分析得到的规则。例如，“用规则对语音(speech)合成进行音素持续时间控制”(电子、信息和通信工程师学会会刊，1984/7，第J67-A卷第7期)描述了一种韵律参数计算方法。当然，韵律参数的计算并不仅限于这种方法。

虽然上述话音合成方法涉及将任意语句转换为韵律参数的方法或文本话音合成方法。但在合成与具有准备合成的预定内容的立体声类型语句相对应的话音的情况中，存在着另外一种计算韵律参数的方法。诸如在基于话音的消息通知中使用的语句或使用电话机的话音通告服务的立体声类型语句的话音合成不象任何给定语句的话音合成那样复杂。因此，有可能把与语句的结构或模式对应的韵律数据存储在数据库中，并在计算韵律参数时搜索存储的模式和使用与上述模式类似的模式的韵律参数。与利用文本话音合成方法得到的合成话音相比，此方法可大大提高合成话音的逼真度。例如，日本专利公开号249677/1999中公开了采用上述方法的韵律参数计算方法。

合成话音的声调取决于韵律参数的质量。合成话音的语音格式，诸如，情感表达或方言，可通过适当控制合成话音声调进行控制。

涉及立体声类型语句的传统话音合成方案主要用于基于话音的信息通知或使用电话的话音通告服务。然而，在这些方案的实际应用中，合成话音固定于一种语音格式而各种各样的话音，诸如方言和外语话音不能根据需要自由合成。因此，需要将一些方言或类似方言的东西装入诸如蜂窝电话与玩具这样一些要求某种乐趣的设备中，并且提供外语话音的方案对于设备的国际化来说是必不可少的。

然而，常规技术在开发过程中没有考虑在进行话音合成时将话音内容任意转换为每一种方言或表达方式，因此碰到技术上的困难。此外，常规技术使除了***用户与操作人员之外的第三方难以自由地准备韵律数据。还有，像蜂窝电话这样一种计算资源极受限制的设备不能利用各种语音格式来合成话音。

因此，本发明的主要目的是提供一种话音合成方法和话音合成器，利用用于一种立体声类型语句的各种语音格式在其中安装有话音合成装置的终端设备中合成话音。

本发明的另一个目的是提供一种韵律数据分配方法，可以允许除了话音合成器的制造商、拥有者与用户之外的第三方准备“韵律数据”，并允许话音合成器的用户使用此数据。

为了达到这些目的，根据本发明的话音合成方法配备有许多话音内容标识符来指示在合成话音中要输出的话音内容的类型；准备一个语音格式词典，用于为每一话音内容标识符存储多种语音格式的韵律数据；在执行话音合成时，指示所需的话音内容标识符和语音格式；从语音格式词典中读出指示的韵律数据；并将读出的韵律数据转换为话音作为话音合成器驱动数据。

根据本发明的话音合成器由以下装置组成：用于生成识别指定在合成话音中要输出的话音内容类型的内容类型的标识符的装置；语音格式指示装置，用于指示在合成话音中要输出的话音内容的语音格式；语音格式词典，包含多种语音格式，这些格式分别对应于许多话音内容标识符以及与这些话音内容标识符和语音格式相关的韵律数据；话音合成部分，在话音内容标识符和语音格式指示之后，该部分从语音格式词典中读出与指定的话音内容标识符和语音格式相关的韵律数据，并将此韵律数据转换为话音。

语音格式词典可以在制造话音合成器或终端设备时事先安装在话音合成器或配有话音合成器的便携式终端设备中，或者只有与必不可少的话音内容标识符和任意语音格式相关的韵律数据才可以通过通信网络装载到话音合成器或终端设备中，或者语音格式词典可安装在便携式压缩存储器中，该存储器可装配在此终端设备中。可以通过向除了终端设备的制造商和网络管理员之外的第三方公开话音内容的管理方法并允许第三方按照此管理方法准备含有与话音内容标识符相关的韵律参数的语音格式词典来准备语音格式词典。

本发明允许安装在话音合成器或配有话音合成器的终端设备中的程序的每一个开发者利用只从有关指示将待合成的话音的语音格式的语音格式指示器的信息中获得的所需语音格式和话音内容标识符来完成话音合成。此外，在准备语音格式词典的人只需准备与语句标识符相对应的语音格式词典而不考虑合成程序的操作时，能容易地利用所需的语音格式来进行话音合成。

本发明的这个与其他优点在参照附图阅读与理解下面的描述之后对于本领域技术人员将变得显而易见。

图1是表示使用根据本发明的话音合成器和话音合成方法的信息分配***的一个实施例的方框图；

图2是表示蜂窝电话机的一个实施例的结构的图，此蜂窝电话机是装备有本发明的话音合成器的终端设备；

图3是用于解释话音内容标识符的图；

图4是表示根据标准语言的标识符进行语音合成的语句的图；

图5是表示根据大阪(Ohsaka)方言的标识符进行话音合成的语句的图；

图6是表示根据一个实施例的语音格式词典的数据结构的图；

图7是表示对应于图6所示的每一个标识符的韵律数据的数据结构的图。

图8是表示与图5所示的语音格式词典中的Ohsaka方言“meiru gakitemasse”相对应的话音元素表的图；

图9是表示根据本发明的话音合成方法的一个实施例的话音合成程序的图；

图10是表示根据本发明的蜂窝电话机的一个实施例的显示部分的图；

图11是表示根据本发明的蜂窝电话机的此实施例的显示部分的图。

图1是表示使用本发明的话音合成器和话音合成方法的信息分配***的一个实施例的方框图。

此实施例的信息分配***具有通信网络3和连接到此通信网络3的语音格式存储服务器1与4，诸如装备有本发明的话音合成器的蜂窝电话机的便携式终端设备(以下简称“终端设备”)可连接到该通信网络。终端设备7具有：用于指示对应于终端设备用户8指示的语音格式的语音格式词典的装置；数据传送装置，用于将指示的语音格式词典从服务器1或4传送到终端设备；和语音格式词典存储装置，用于将传送的语音格式词典存储在终端设备7的语音格式词典存储器中，以便利用终端设备用户8所指示的语音格式进行话音合成。

现在将描述其中终端设备用户8利用语音格式词典设置合成话音的语音格式的模式。

第一种方法是“预安装”方法，允许诸如制造商的终端设备提供者9将语音格式词典安装在终端设备7中。在这种情况下，数据生成器10准备语音格式词典，并将语音格式词典提供给便携式终端设备提供者9，而便携式终端设备提供者9将此语音格式词典存储在终端设备7的存储器中，并将终端设备7提供给终端设备用户8。在第一种方法中，终端设备用户8可以从开始使用终端设备7起设置与更改输出话音的语音格式。

在第二种方法中，数据生成器5将语音格式词典提供给拥有便携式终端设备7可与之连接的通信网络3的通信公司2，而通信公司2或数据生成器5将此语音格式词典存储在语音格式存储服务器1或4中。当通过终端设备7从终端设备用户8中接收到语音格式词典的传送(下载)请求时，通信公司2确定便携式终端设备7是否能获得存储在语音格式存储服务器1中的语音格式词典。此时，通信公司2可以根据语音格式词典的特性向终端设备用户8收取通信费用或下载费用。

在第三种方法中，除了终端设备用户8、终端设备提供者9以及通信公司2之外的第三方5通过查阅话音内容管理表(表示立体声类型语句类型的标识符的相关数据)来准备语音格式词典，并将语音格式词典存储在语音格式存储服务器4中。当终端设备7通过通信网络3接入时，服务器4允许语音格式词典的下载以响应终端设备用户8的请求。已下载语音格式词典的终端设备7的拥有者8选择所需的语音格式来设置由终端设备7将要输出的合成话音消息(立体声类型语句)的语音格式。此时，数据生成器5可以通过作为代理的通信公司2根据语音格式词典的特性向终端设备用户8收取许可证费用。

使用上述三种方法之中的任何一种方法，终端设备用户8获得语音格式词典，以便设置与变更在终端设备7中将要输出的合成话音的语音格式。

图2是表示蜂窝式电话机的一个实施例的结构的图，该电话机是装备有本发明的话音合成器的终端设备。蜂窝电话7具有天线18、无线处理部分19、基带信号处理部分21、输入/输出部分(输入密钥、显示部分等)以及话音合成器20。由于除话音合成器20之外的其它部分均与现有技术的部分相同，所以将省略其描述。

在此图中，在从终端设备7之外获得语音格式词典时，话音合成器20中的语音格式指示装置11利用话音内容标识符输入装置12所指示的话音内容标识符获得语音格式词典。话音内容标识符装置12接收话音内容标识符。例如，当终端设备7接收到一个邮件时，话音内容标识符输入装置12自动接收表示通知邮件从基带信号处理部分21中到达的消息的标识符。

语音格式词典存储器14(我们将在后面对该装置进行详细讨论)存储与话音内容标识符相对应的语音格式和韵律数据。或预先装入或通过通信网络3下载数据。韵律参数存储器15存储来自语音格式词典存储器14的选择的与特定的语音格式的合成话音的数据。合成声波存储器16将来自语音格式词典存储器14的数据转换为声波信号，并存储这一信号。话音输出部分17输出作为声信号从合成声波存储器16读出的声波信号，并且也可以用作蜂窝电话机的扬声器。

话音合成装置13是信号处理单元，存储有驱动与控制上述各个装置和存储器并执行话音合成的程序。话音合成装置13可以用作执行基带信号处理部分21的其它通信处理的CPU。为便于描述，话音合成装置13表示为话音合成部分的一个组成部分。

图3是用于解释话音内容标识符的图并表示多个标识符和利用这些际识符表示的话音内容的相关表。在此图中，分别定义用于标识符“ID-1”、“ID-2”、“ID-3”和“ID-4”的表示对应于标识符“ID-1”、“ID-2”、“ID-3”以及“ID-4”的话音内容的类型的“通知邮件到达的消息”、“通知呼叫的消息”“通知发送方姓名的消息”以及“通知报警信息的消息”。

对于标识符“ID-4”，语音格式词典生成器5或10能准备用于“通知报警信息的消息”的任意语音格式词典。图3所示的关系并不保密并且作为文件(话音内容管理数据表)对公众是公开的。不用说，这种关系可作为电子数据在计算机或网络上公开。

图4与5表示作为不同的语音格式的示例根据标识符在标准语言和Ohsaka方言中待合成的语句。图4表示将进行话音合成的语句，其语音格式为标准语言(以下称为“标准模式”)。图5表示将进行合成的语句，其语音格式为Ohsaka方言(以下称为Ohsaka方言)。例如，对于标识符“ID-1”，将进行话音合成的语句在标准模式中表示为“meiru ga chakusin simasita”(这在英文中表示：“邮件已到达”)，而在Ohsaka方言中则表示为“meiru ga kitemasse”(这在英文中也表示“邮件已到达”)。这些措词可根据需要利用生成语音格式词典的生成器来定义并且不限于这些示例中的措词。例如，对于Ohsaka方言中的标识符“ID-1”，将进行话音合成的语句可以是“kimasita，kimasita，meiru desse！”(这在英文中表示：“已到达，已到达，这是邮件！”)。可选择地，如图5中的标识符“ID-4”那样，立体声类型语句可以具有可以替代的部分(如利用O的字符所示)。

这样的数据在读出不能一成不变地准备的诸如发送者信息的信息时是有效的。读出立体声类型语句的方法可利用公开在“利用字词和语句韵律数据库对韵律进行控制”(1998年日本声学学会会刊第227-228页)中的技术。

图6是表示根据一个实施例的语音格式词典的数据结构的图。该数据结构存储在图2所示的语音格式词典存储器14中。语音格式词典包括识别语音格式的语音信息402、索引表403以及与相应标识符对应的韵律数据404至407。语音信息402登记语音格式词典14的语音格式类型，例如“标准模式”或“Ohsaka方言”。对于***是共用的特征标识符可添加到语音格式词典14中。当在终端设备7上选择语音格式时，语音信息402变为关键信息。存储在索引表403中的是表示对应于每一个标识符的语音格式词典开头的顶部地址的数据。与所述标识符对应的语音格式词典应在终端设备上进行搜索，并且通过利用索引表403对语音格式词典的位置进行管理，就有可能获得快速搜索。在韵律数据404至407设置为具有固定长度并且逐一进行搜索的情况中，可能不需要索引表403。

图7表示对应于图6所示的相应标识符的韵律数据404至407的数据结构。该数据结构存储在图2所示的韵律参数存储器15中。韵律数据501由识别语音格式的语音信息502和话音元素表503组成。韵律数据的话音内容标识符在语音信息502中进行描述。例如，在“ID-4”和“OO no jikan ni narimasita”的示例中，“ID-4”在语音信息502中进行描述。话音元素表503包括话音合成器驱动数据或者说由待进行话音合成的语句的发音符号，各个话音元素的持续时间以及话音元素的强度组成的韵律数据。

图8表示对应于“meiru ga kitemasse”或对应于Ohsaka方言的语音格式词典中的标识符“ID-1”的要进行话音合成的语句的话音元素表的一个示例。话音元素表601包括发音符号数据602、每一个话音元素的持续时间数据603以及每一个话音元素的强度数据604。尽管每一个话音元素的持续时间是用毫秒表示的，但不局限于这一单位，而可以利用能表示持续时间的任何物理数量来表示。同样，利用赫兹(Hz)表示的每一个话音元素的强度也不限于这一单位，而可以以能表示强度的任何物理数量来表示。

在这个示例中，发音符号如图8所示为“m/e/e/r/u/g/a/k/i/t/e/m/a/Q/s/e”。话音元素“r”的持续时间为39毫秒并且强度为352Hz(605)。发音符号“Q”606表示阻塞音。

图9表示根据本发明的话音合成方法的一个实施例从语音格式的选择到合成话音声波的生成的话音合成程序。这一示例表示这种方法的程序，通过这种方法，如图2所示的终端设备7的用户选择“Ohsaka方言”的合成语音格式，并且一个消息在呼叫到来时以合成话音的方式生成。管理表1007存储电话号码及有关在呼叫到来时用于确定话音内容的人员姓名的信息。

为了在上述示例中合成声波，首先，根据从语音格式指示装置11输入的语音格式指示信息来转换语音格式词典存储器14中的语音格式词典(S1)。语音格式词典1(141)或语音格式词典2(142)存储在语音格式词典存储器14中。当终端设备7接收到呼叫时，话音内容标识符输入装置12利用标识符“ID-2”确定“通知呼叫的消息”的合成，以便将用于标识符“ID-2”的韵律数据设置为合成目标(S2)。接下来，确定要生成的韵律数据(S3)。在这一示例中，此语句中没有根据需要替换的字词，不执行特定处理。然而，在使用例如图5所示的“ID-3”话音内容的情况下，从(在图2所示的基带信号处理部分21中提供的)管理表1007中获得呼叫者的姓名信息，并确定韵律数据“suzukisan karayadee”。

在以上述方式确定韵律数据之后，计算如图8所示的话音元素表(S4)。为了在此示例中利用“ID-2”来合成声波，只需要将存储在语音格式词典存储器14中的韵律数据传送给韵律参数存储器15。

但是，在使用例如图5所示的“ID-3”的话音内容的情况下，呼叫者的姓名信息从管理表1007中获得，并确定韵律数据“suzukisan karayadee”。计算用于“suzuki”部分的韵律参数，并将这些参数传送到韵律参数存储器15。用于“suzuki”部分的韵律参数的计算可利用公开在“利用字词和语句韵律数据库对韵律进行控制”(1998年日本声学学会会刊第227-228页)中的方法来实现。

最后，话音合成器13从韵律参数存储器15中读出韵律参数，将这些韵律参数转换为合成的声波数据，并将此数据存储在合成声波存储器16中(S5)。合成声波存储器16中的合成声波数据通过话音输出部分或电声转换器17作为合成话音顺序输出。

图10与11是均表示在指示合成话音的语音格式时装配有本发明的话音合成器的便携式终端设备的显示情况的图。终端设备用户8选择便携式终端设备7显示器71上的“SET UP SYNTHESIS SPEECH STYLE(建立合成语音格式)”菜单。在图10A中，“SET UP SYNTHESIS SPEECH STYLE”菜单71a在与“SET UP ALARM(建立告警)”和“SET UP SOUND INDICATING RECEIVING(建立表示接收的声音)”相同的层上完成。只要实现建立合成语音格式的功能，“SET UP SYNTHESISSPEECH STYLE”菜单71a就不必在同一层上，而可以利用另一方法来得到。在选择“SET UP SYNTHESIS SPEECH STYLE”菜单71a之后，寄存在便携式终端设备7中的合成话音格式如图10B所示显示在显示器71上。显示的字符串就是存储在图6所示的语音信息402中的字符串。语音格式词典包括以生成利用拟人化老鼠生成的话音的方式准备的数据，例如“nezumide chu”(这在英文中表示“这是一只老鼠”)。当然，可以使用表示选择的语音格式词典特征的任何字符串。例如，在终端设备用户8打算以“Ohsaka方言”合成话音的情况下，高亮度显示“OHSAKA DIALECT”71b，以选择相应的合成语音格式。语音格式词典并不限于日语，而可以提供英语或法语语音格式词典，或英语或法语发音符号可存储在语音格式词典中。

图11表示便携式终端设备的显示部分来解释允许图1所示的终端设备用户8通过通信网络3获得语音格式词典的方法的图。当便携式终端设备7通过通信网络3连接到信息管理服务器时，给出所示的显示。图11A表示便携式终端设备7连接到语音格式词典分配服务后的显示情况。

首先，为终端设备用户8提供用于检验是否获得合成语音格式数据的显示71。当选择表示同意的“OK”71c时，显示71转换为(b)，并将寄存在信息管理服务器中的语音格式词典的目录显示出来。老鼠“nezumide chu”的模拟话音使用的语音格式词典、用于“Ohsaka方言”的消息的语音格式词典等都寄存在此服务器中。

接下来，终端设备用户8将高亮度的显示转向将要获得的语音格式数据，并按下同意(OK)按钮。信息管理服务器1将与请求的语音格式相对应的语音格式词典发送给通信网络3。在传送结束后，完成语音格式词典的发送和接收。利用上述程序，未安装在终端设备7中的语音格式词典存储在终端设备7中。尽管上述方法通过接入通信公司提供的服务器获得数据，但不是通信公司的第三方5当然可以接入语音格式存储服务器4来获得数据。

本发明能保证能以任何一种语音格式读出立体声类型信息的便携式终端设备的容易开发。

各种其它修改对于本领域技术人员来说将容易实施而不违背本发明的范畴与精神。因此，上面的描述和说明不应认为限制利用附加的权利要求书来定义的本发明的范围。

Claims

1.利用话音合成将立体声类型语句转换为话音的一种话音合成方法，包括以下步骤：

确定话音内容标识符来指示所述立体声类型语句的话音内容的类型；

准备语音格式词典，此词典包括与上述话音内容标识符相对应的语音格式和韵律数据；

通过指示用于待生成的合成话音的内容标识符和语音格式从所述语音格式词典中选择要生成的所述合成话音的韵律数据；

将所述选择的韵律数据作为话音合成器驱动数据添加到话音合成装置，从而利用特定的语音格式来执行话音合成。

2.根据权利要求1的话音合成方法，其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每个话音元素的持续时间、强度和功率方面的信息，这些发音符号是一些话音元素，将所述立体声类型语句的所述话音内容分解为这些话音元素。

3.一种话音合成器，用于通过将立体声类型语句转换为韵律数据并将所述韵律数据作为话音合成器驱动数据添加到话音合成部分来执行话音合成，包括：

话音内容标识符，用于指示所述立体声语句的话音内容的类型；

存储器，用于存储语音格式词典，其中指示用于合成话音的语音格式的语音格式指示信息与韵律数据相互相关；

指示装置，用于指示话音内容标识符和在话音合成时待合成的话音的语音格式；

所述话音合成部分用于从所述语音格式词典中选择所述指示装置指示的所述韵律数据，并将所述韵律数据转换为话音信号。

4.根据权利要求3的话音合成器，其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每一个话音元素的持续时间、强度和功率方面的信息，这些发音符号是所述立体声类型语句的所述发音内容分解成的话音元素。

5.一种蜂窝电话机，具有如权利要求3所述的话音合成器。

6.一种韵律数据分配方法，通过将立体声类型语句转换为韵律数据并将所述韵律数据作为话音合成器驱动数据添加到终端设备的话音合成部分中来执行话音合成，此方法包括以下步骤：

决定话音内容标识符来指示所述立体声类型语句的话音内容的类型；

准备包括对应于所述话音内容标识符的语音格式和韵律数据的语音格式词典；

将所述语音格式词典提供给通信网络中配备的服务器，或提供给通过所述服务器连接的终端设备。

7.根据权利要求6的韵律数据分配方法，其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每一个话音元素的持续时间、强度和功率方面的信息，这些发音符号是所述立体声类型语句的所述话音内容分解而成的话音元素。

8.根据权利要求6的韵律数据分配方法，其中在将所述语音格式词典提供给通过所述通信网络中配备的所述服务器连接的终端设备的情况下，所述终端设备包括以下装置：用于指示语音格式词典的装置，该语音格式词典对应于由终端设备用户指示的语音格式；数据传送装置，用于将所述指示的语音格式词典从所述服务器传送到所述终端设备；和语音格式词典存储装置，用于将所述传送的语音格式词典存储到所述终端设备中的语音格式词典存储器内，以便利用所述终端设备用户指示的所述语音格式来完成语音合成。

9.根据权利要求7的韵律数据分配方法，其中所述语音格式词典的准备通过查阅对公众是公开的用于合成的内容的管理目录来生成韵律数据。