CN1391209A - 话音合成方法以及执行此方法的话音合成器 - Google Patents

话音合成方法以及执行此方法的话音合成器 Download PDF

Info

Publication number
CN1391209A
CN1391209A CN01141286A CN01141286A CN1391209A CN 1391209 A CN1391209 A CN 1391209A CN 01141286 A CN01141286 A CN 01141286A CN 01141286 A CN01141286 A CN 01141286A CN 1391209 A CN1391209 A CN 1391209A
Authority
CN
China
Prior art keywords
speech
phonetic matrix
dictionary
synthetic
rhythm data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01141286A
Other languages
English (en)
Other versions
CN1235187C (zh
Inventor
额贺信尾
永松健司
北原义典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxell Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1391209A publication Critical patent/CN1391209A/zh
Application granted granted Critical
Publication of CN1235187C publication Critical patent/CN1235187C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

公开一种方法,将立体声类型语句合成为任意语音格式的话音,并允许第三方准备韵律数据和允许具有话音合成部分的终端设备的用户获得韵律数据。此话音合成方法确定话音内容标识符来指示立体声类型语句的话音内容的类型;准备包括与话音内容标识符相对应的语音格式和韵律数据的语音格式词典14;通过指示(12)用于要生成(15)的合成话音的内容标识符和语音格式从语音格式词典14中选择要生成的合成话音的韵律数据,并将选择的韵律数据作为话音合成器驱动数据添加到话音合成器13,从而利用特定的语音格式来执行话音合成。立体声类型语句的话音可以利用任意语音格式来合成。由第三方准备的韵律数据(语音格式词典)可通过网络载入到便携式终端设备的话音合成器中。

Description

话音合成方法以及执行此方法的话音合成器
本发明涉及一种话音(voice)合成方法以及执行这一方法的话音合成器和***。更具体地说,本发明涉及一种话音合成方法,这种方法将具有几乎固定不变内容的立体声类型语句经话音合成后,转换为一种话音。本发明还涉及一种用于执行这一方法的话音合成器以及一种数据生成方法,该方法对获得上述方法和话音合成器来说,是必不可少的。本发明特别用于含有便携式终端设备的通信网络中,其中每个终端设备都有一个话音合成器和一个可与该便携式终端设备连接的数据通信装置。
一般来说,话音合成是生成话音声波的一种方案,话音声波根据以下因素生成:表示说话内容的发音符号(话音元素符号)、是话音声调的物理度量的音调的时间串行模式(基频模式)以及每一话音元素的持续时间与功率(话音元素强度)。在下面,上述三种参数,即基频模式、话音元素持续时间以及话音元素强度一般称为“韵律参数”,话音元素符号和韵律参数的组合一般称为“韵律数据”。
生成话音声波的典型方法有以下两种,一种是驱动利用滤波器模仿一个话音元素的声域特征的参数的参数合成方法;另一种是声波级联方法,从人说话生成的话音声波中提取表示各个话音元素特征的只言片语,并将这些只言片语连接起来。显然,生成“韵律数据”在话音合成中是非常重要的。话音合成方法一般可用于包括日话在内的语言。
话音合成需要设法获得与要进行话音合成的语句内容相对应的韵律参数。在话音合成技术适用于电子邮件与电子报纸的读出等的情况下,例如,应对任何语句进行语言分析,以识别字词或短语之间的界限,同时还应确定短语的重音类型,此后应从重音信息、音节信息等中获得韵律参数。已经建立这些与自动转换有关的基本方法,并且能利用公开在“基于字词之间的连接强度的语音***的日文文本的结构分析仪”(1995年日本声学学会会刊第51卷第1期第3-13页)中的方法来获得这些基本方法。
在韵律参数之中,由于包括音节(话音元素)所在的上下文的各种因素,音节(话音元素)的持续时间各不相同。影响持续时间的因素包括对声音清晰度的限制,例如音节的类型、时间、字的重要性、短语界限的指示、短语中的节拍、整个节拍以及语言限制,例如句法的意思。控制话音元素持续时间的一般方法是就上述因素对实际观察到的持续时间数据的影响程度进行统计分析,并使用通过分析得到的规则。例如,“用规则对语音(speech)合成进行音素持续时间控制”(电子、信息和通信工程师学会会刊,1984/7,第J67-A卷第7期)描述了一种韵律参数计算方法。当然,韵律参数的计算并不仅限于这种方法。
虽然上述话音合成方法涉及将任意语句转换为韵律参数的方法或文本话音合成方法。但在合成与具有准备合成的预定内容的立体声类型语句相对应的话音的情况中,存在着另外一种计算韵律参数的方法。诸如在基于话音的消息通知中使用的语句或使用电话机的话音通告服务的立体声类型语句的话音合成不象任何给定语句的话音合成那样复杂。因此,有可能把与语句的结构或模式对应的韵律数据存储在数据库中,并在计算韵律参数时搜索存储的模式和使用与上述模式类似的模式的韵律参数。与利用文本话音合成方法得到的合成话音相比,此方法可大大提高合成话音的逼真度。例如,日本专利公开号249677/1999中公开了采用上述方法的韵律参数计算方法。
合成话音的声调取决于韵律参数的质量。合成话音的语音格式,诸如,情感表达或方言,可通过适当控制合成话音声调进行控制。
涉及立体声类型语句的传统话音合成方案主要用于基于话音的信息通知或使用电话的话音通告服务。然而,在这些方案的实际应用中,合成话音固定于一种语音格式而各种各样的话音,诸如方言和外语话音不能根据需要自由合成。因此,需要将一些方言或类似方言的东西装入诸如蜂窝电话与玩具这样一些要求某种乐趣的设备中,并且提供外语话音的方案对于设备的国际化来说是必不可少的。
然而,常规技术在开发过程中没有考虑在进行话音合成时将话音内容任意转换为每一种方言或表达方式,因此碰到技术上的困难。此外,常规技术使除了***用户与操作人员之外的第三方难以自由地准备韵律数据。还有,像蜂窝电话这样一种计算资源极受限制的设备不能利用各种语音格式来合成话音。
因此,本发明的主要目的是提供一种话音合成方法和话音合成器,利用用于一种立体声类型语句的各种语音格式在其中安装有话音合成装置的终端设备中合成话音。
本发明的另一个目的是提供一种韵律数据分配方法,可以允许除了话音合成器的制造商、拥有者与用户之外的第三方准备“韵律数据”,并允许话音合成器的用户使用此数据。
为了达到这些目的,根据本发明的话音合成方法配备有许多话音内容标识符来指示在合成话音中要输出的话音内容的类型;准备一个语音格式词典,用于为每一话音内容标识符存储多种语音格式的韵律数据;在执行话音合成时,指示所需的话音内容标识符和语音格式;从语音格式词典中读出指示的韵律数据;并将读出的韵律数据转换为话音作为话音合成器驱动数据。
根据本发明的话音合成器由以下装置组成:用于生成识别指定在合成话音中要输出的话音内容类型的内容类型的标识符的装置;语音格式指示装置,用于指示在合成话音中要输出的话音内容的语音格式;语音格式词典,包含多种语音格式,这些格式分别对应于许多话音内容标识符以及与这些话音内容标识符和语音格式相关的韵律数据;话音合成部分,在话音内容标识符和语音格式指示之后,该部分从语音格式词典中读出与指定的话音内容标识符和语音格式相关的韵律数据,并将此韵律数据转换为话音。
语音格式词典可以在制造话音合成器或终端设备时事先安装在话音合成器或配有话音合成器的便携式终端设备中,或者只有与必不可少的话音内容标识符和任意语音格式相关的韵律数据才可以通过通信网络装载到话音合成器或终端设备中,或者语音格式词典可安装在便携式压缩存储器中,该存储器可装配在此终端设备中。可以通过向除了终端设备的制造商和网络管理员之外的第三方公开话音内容的管理方法并允许第三方按照此管理方法准备含有与话音内容标识符相关的韵律参数的语音格式词典来准备语音格式词典。
本发明允许安装在话音合成器或配有话音合成器的终端设备中的程序的每一个开发者利用只从有关指示将待合成的话音的语音格式的语音格式指示器的信息中获得的所需语音格式和话音内容标识符来完成话音合成。此外,在准备语音格式词典的人只需准备与语句标识符相对应的语音格式词典而不考虑合成程序的操作时,能容易地利用所需的语音格式来进行话音合成。
本发明的这个与其他优点在参照附图阅读与理解下面的描述之后对于本领域技术人员将变得显而易见。
图1是表示使用根据本发明的话音合成器和话音合成方法的信息分配***的一个实施例的方框图;
图2是表示蜂窝电话机的一个实施例的结构的图,此蜂窝电话机是装备有本发明的话音合成器的终端设备;
图3是用于解释话音内容标识符的图;
图4是表示根据标准语言的标识符进行语音合成的语句的图;
图5是表示根据大阪(Ohsaka)方言的标识符进行话音合成的语句的图;
图6是表示根据一个实施例的语音格式词典的数据结构的图;
图7是表示对应于图6所示的每一个标识符的韵律数据的数据结构的图。
图8是表示与图5所示的语音格式词典中的Ohsaka方言“meiru gakitemasse”相对应的话音元素表的图;
图9是表示根据本发明的话音合成方法的一个实施例的话音合成程序的图;
图10是表示根据本发明的蜂窝电话机的一个实施例的显示部分的图;
图11是表示根据本发明的蜂窝电话机的此实施例的显示部分的图。
图1是表示使用本发明的话音合成器和话音合成方法的信息分配***的一个实施例的方框图。
此实施例的信息分配***具有通信网络3和连接到此通信网络3的语音格式存储服务器1与4,诸如装备有本发明的话音合成器的蜂窝电话机的便携式终端设备(以下简称“终端设备”)可连接到该通信网络。终端设备7具有:用于指示对应于终端设备用户8指示的语音格式的语音格式词典的装置;数据传送装置,用于将指示的语音格式词典从服务器1或4传送到终端设备;和语音格式词典存储装置,用于将传送的语音格式词典存储在终端设备7的语音格式词典存储器中,以便利用终端设备用户8所指示的语音格式进行话音合成。
现在将描述其中终端设备用户8利用语音格式词典设置合成话音的语音格式的模式。
第一种方法是“预安装”方法,允许诸如制造商的终端设备提供者9将语音格式词典安装在终端设备7中。在这种情况下,数据生成器10准备语音格式词典,并将语音格式词典提供给便携式终端设备提供者9,而便携式终端设备提供者9将此语音格式词典存储在终端设备7的存储器中,并将终端设备7提供给终端设备用户8。在第一种方法中,终端设备用户8可以从开始使用终端设备7起设置与更改输出话音的语音格式。
在第二种方法中,数据生成器5将语音格式词典提供给拥有便携式终端设备7可与之连接的通信网络3的通信公司2,而通信公司2或数据生成器5将此语音格式词典存储在语音格式存储服务器1或4中。当通过终端设备7从终端设备用户8中接收到语音格式词典的传送(下载)请求时,通信公司2确定便携式终端设备7是否能获得存储在语音格式存储服务器1中的语音格式词典。此时,通信公司2可以根据语音格式词典的特性向终端设备用户8收取通信费用或下载费用。
在第三种方法中,除了终端设备用户8、终端设备提供者9以及通信公司2之外的第三方5通过查阅话音内容管理表(表示立体声类型语句类型的标识符的相关数据)来准备语音格式词典,并将语音格式词典存储在语音格式存储服务器4中。当终端设备7通过通信网络3接入时,服务器4允许语音格式词典的下载以响应终端设备用户8的请求。已下载语音格式词典的终端设备7的拥有者8选择所需的语音格式来设置由终端设备7将要输出的合成话音消息(立体声类型语句)的语音格式。此时,数据生成器5可以通过作为代理的通信公司2根据语音格式词典的特性向终端设备用户8收取许可证费用。
使用上述三种方法之中的任何一种方法,终端设备用户8获得语音格式词典,以便设置与变更在终端设备7中将要输出的合成话音的语音格式。
图2是表示蜂窝式电话机的一个实施例的结构的图,该电话机是装备有本发明的话音合成器的终端设备。蜂窝电话7具有天线18、无线处理部分19、基带信号处理部分21、输入/输出部分(输入密钥、显示部分等)以及话音合成器20。由于除话音合成器20之外的其它部分均与现有技术的部分相同,所以将省略其描述。
在此图中,在从终端设备7之外获得语音格式词典时,话音合成器20中的语音格式指示装置11利用话音内容标识符输入装置12所指示的话音内容标识符获得语音格式词典。话音内容标识符装置12接收话音内容标识符。例如,当终端设备7接收到一个邮件时,话音内容标识符输入装置12自动接收表示通知邮件从基带信号处理部分21中到达的消息的标识符。
语音格式词典存储器14(我们将在后面对该装置进行详细讨论)存储与话音内容标识符相对应的语音格式和韵律数据。或预先装入或通过通信网络3下载数据。韵律参数存储器15存储来自语音格式词典存储器14的选择的与特定的语音格式的合成话音的数据。合成声波存储器16将来自语音格式词典存储器14的数据转换为声波信号,并存储这一信号。话音输出部分17输出作为声信号从合成声波存储器16读出的声波信号,并且也可以用作蜂窝电话机的扬声器。
话音合成装置13是信号处理单元,存储有驱动与控制上述各个装置和存储器并执行话音合成的程序。话音合成装置13可以用作执行基带信号处理部分21的其它通信处理的CPU。为便于描述,话音合成装置13表示为话音合成部分的一个组成部分。
图3是用于解释话音内容标识符的图并表示多个标识符和利用这些际识符表示的话音内容的相关表。在此图中,分别定义用于标识符“ID-1”、“ID-2”、“ID-3”和“ID-4”的表示对应于标识符“ID-1”、“ID-2”、“ID-3”以及“ID-4”的话音内容的类型的“通知邮件到达的消息”、“通知呼叫的消息”“通知发送方姓名的消息”以及“通知报警信息的消息”。
对于标识符“ID-4”,语音格式词典生成器5或10能准备用于“通知报警信息的消息”的任意语音格式词典。图3所示的关系并不保密并且作为文件(话音内容管理数据表)对公众是公开的。不用说,这种关系可作为电子数据在计算机或网络上公开。
图4与5表示作为不同的语音格式的示例根据标识符在标准语言和Ohsaka方言中待合成的语句。图4表示将进行话音合成的语句,其语音格式为标准语言(以下称为“标准模式”)。图5表示将进行合成的语句,其语音格式为Ohsaka方言(以下称为Ohsaka方言)。例如,对于标识符“ID-1”,将进行话音合成的语句在标准模式中表示为“meiru ga chakusin simasita”(这在英文中表示:“邮件已到达”),而在Ohsaka方言中则表示为“meiru ga kitemasse”(这在英文中也表示“邮件已到达”)。这些措词可根据需要利用生成语音格式词典的生成器来定义并且不限于这些示例中的措词。例如,对于Ohsaka方言中的标识符“ID-1”,将进行话音合成的语句可以是“kimasita,kimasita,meiru desse!”(这在英文中表示:“已到达,已到达,这是邮件!”)。可选择地,如图5中的标识符“ID-4”那样,立体声类型语句可以具有可以替代的部分(如利用O的字符所示)。
这样的数据在读出不能一成不变地准备的诸如发送者信息的信息时是有效的。读出立体声类型语句的方法可利用公开在“利用字词和语句韵律数据库对韵律进行控制”(1998年日本声学学会会刊第227-228页)中的技术。
图6是表示根据一个实施例的语音格式词典的数据结构的图。该数据结构存储在图2所示的语音格式词典存储器14中。语音格式词典包括识别语音格式的语音信息402、索引表403以及与相应标识符对应的韵律数据404至407。语音信息402登记语音格式词典14的语音格式类型,例如“标准模式”或“Ohsaka方言”。对于***是共用的特征标识符可添加到语音格式词典14中。当在终端设备7上选择语音格式时,语音信息402变为关键信息。存储在索引表403中的是表示对应于每一个标识符的语音格式词典开头的顶部地址的数据。与所述标识符对应的语音格式词典应在终端设备上进行搜索,并且通过利用索引表403对语音格式词典的位置进行管理,就有可能获得快速搜索。在韵律数据404至407设置为具有固定长度并且逐一进行搜索的情况中,可能不需要索引表403。
图7表示对应于图6所示的相应标识符的韵律数据404至407的数据结构。该数据结构存储在图2所示的韵律参数存储器15中。韵律数据501由识别语音格式的语音信息502和话音元素表503组成。韵律数据的话音内容标识符在语音信息502中进行描述。例如,在“ID-4”和“OO no jikan ni narimasita”的示例中,“ID-4”在语音信息502中进行描述。话音元素表503包括话音合成器驱动数据或者说由待进行话音合成的语句的发音符号,各个话音元素的持续时间以及话音元素的强度组成的韵律数据。
图8表示对应于“meiru ga kitemasse”或对应于Ohsaka方言的语音格式词典中的标识符“ID-1”的要进行话音合成的语句的话音元素表的一个示例。话音元素表601包括发音符号数据602、每一个话音元素的持续时间数据603以及每一个话音元素的强度数据604。尽管每一个话音元素的持续时间是用毫秒表示的,但不局限于这一单位,而可以利用能表示持续时间的任何物理数量来表示。同样,利用赫兹(Hz)表示的每一个话音元素的强度也不限于这一单位,而可以以能表示强度的任何物理数量来表示。
在这个示例中,发音符号如图8所示为“m/e/e/r/u/g/a/k/i/t/e/m/a/Q/s/e”。话音元素“r”的持续时间为39毫秒并且强度为352Hz(605)。发音符号“Q”606表示阻塞音。
图9表示根据本发明的话音合成方法的一个实施例从语音格式的选择到合成话音声波的生成的话音合成程序。这一示例表示这种方法的程序,通过这种方法,如图2所示的终端设备7的用户选择“Ohsaka方言”的合成语音格式,并且一个消息在呼叫到来时以合成话音的方式生成。管理表1007存储电话号码及有关在呼叫到来时用于确定话音内容的人员姓名的信息。
为了在上述示例中合成声波,首先,根据从语音格式指示装置11输入的语音格式指示信息来转换语音格式词典存储器14中的语音格式词典(S1)。语音格式词典1(141)或语音格式词典2(142)存储在语音格式词典存储器14中。当终端设备7接收到呼叫时,话音内容标识符输入装置12利用标识符“ID-2”确定“通知呼叫的消息”的合成,以便将用于标识符“ID-2”的韵律数据设置为合成目标(S2)。接下来,确定要生成的韵律数据(S3)。在这一示例中,此语句中没有根据需要替换的字词,不执行特定处理。然而,在使用例如图5所示的“ID-3”话音内容的情况下,从(在图2所示的基带信号处理部分21中提供的)管理表1007中获得呼叫者的姓名信息,并确定韵律数据“suzukisan karayadee”。
在以上述方式确定韵律数据之后,计算如图8所示的话音元素表(S4)。为了在此示例中利用“ID-2”来合成声波,只需要将存储在语音格式词典存储器14中的韵律数据传送给韵律参数存储器15。
但是,在使用例如图5所示的“ID-3”的话音内容的情况下,呼叫者的姓名信息从管理表1007中获得,并确定韵律数据“suzukisan karayadee”。计算用于“suzuki”部分的韵律参数,并将这些参数传送到韵律参数存储器15。用于“suzuki”部分的韵律参数的计算可利用公开在“利用字词和语句韵律数据库对韵律进行控制”(1998年日本声学学会会刊第227-228页)中的方法来实现。
最后,话音合成器13从韵律参数存储器15中读出韵律参数,将这些韵律参数转换为合成的声波数据,并将此数据存储在合成声波存储器16中(S5)。合成声波存储器16中的合成声波数据通过话音输出部分或电声转换器17作为合成话音顺序输出。
图10与11是均表示在指示合成话音的语音格式时装配有本发明的话音合成器的便携式终端设备的显示情况的图。终端设备用户8选择便携式终端设备7显示器71上的“SET UP SYNTHESIS SPEECH STYLE(建立合成语音格式)”菜单。在图10A中,“SET UP SYNTHESIS SPEECH STYLE”菜单71a在与“SET UP ALARM(建立告警)”和“SET UP SOUND INDICATING RECEIVING(建立表示接收的声音)”相同的层上完成。只要实现建立合成语音格式的功能,“SET UP SYNTHESISSPEECH STYLE”菜单71a就不必在同一层上,而可以利用另一方法来得到。在选择“SET UP SYNTHESIS SPEECH STYLE”菜单71a之后,寄存在便携式终端设备7中的合成话音格式如图10B所示显示在显示器71上。显示的字符串就是存储在图6所示的语音信息402中的字符串。语音格式词典包括以生成利用拟人化老鼠生成的话音的方式准备的数据,例如“nezumide chu”(这在英文中表示“这是一只老鼠”)。当然,可以使用表示选择的语音格式词典特征的任何字符串。例如,在终端设备用户8打算以“Ohsaka方言”合成话音的情况下,高亮度显示“OHSAKA DIALECT”71b,以选择相应的合成语音格式。语音格式词典并不限于日语,而可以提供英语或法语语音格式词典,或英语或法语发音符号可存储在语音格式词典中。
图11表示便携式终端设备的显示部分来解释允许图1所示的终端设备用户8通过通信网络3获得语音格式词典的方法的图。当便携式终端设备7通过通信网络3连接到信息管理服务器时,给出所示的显示。图11A表示便携式终端设备7连接到语音格式词典分配服务后的显示情况。
首先,为终端设备用户8提供用于检验是否获得合成语音格式数据的显示71。当选择表示同意的“OK”71c时,显示71转换为(b),并将寄存在信息管理服务器中的语音格式词典的目录显示出来。老鼠“nezumide chu”的模拟话音使用的语音格式词典、用于“Ohsaka方言”的消息的语音格式词典等都寄存在此服务器中。
接下来,终端设备用户8将高亮度的显示转向将要获得的语音格式数据,并按下同意(OK)按钮。信息管理服务器1将与请求的语音格式相对应的语音格式词典发送给通信网络3。在传送结束后,完成语音格式词典的发送和接收。利用上述程序,未安装在终端设备7中的语音格式词典存储在终端设备7中。尽管上述方法通过接入通信公司提供的服务器获得数据,但不是通信公司的第三方5当然可以接入语音格式存储服务器4来获得数据。
本发明能保证能以任何一种语音格式读出立体声类型信息的便携式终端设备的容易开发。
各种其它修改对于本领域技术人员来说将容易实施而不违背本发明的范畴与精神。因此,上面的描述和说明不应认为限制利用附加的权利要求书来定义的本发明的范围。

Claims (9)

1.利用话音合成将立体声类型语句转换为话音的一种话音合成方法,包括以下步骤:
确定话音内容标识符来指示所述立体声类型语句的话音内容的类型;
准备语音格式词典,此词典包括与上述话音内容标识符相对应的语音格式和韵律数据;
通过指示用于待生成的合成话音的内容标识符和语音格式从所述语音格式词典中选择要生成的所述合成话音的韵律数据;
将所述选择的韵律数据作为话音合成器驱动数据添加到话音合成装置,从而利用特定的语音格式来执行话音合成。
2.根据权利要求1的话音合成方法,其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每个话音元素的持续时间、强度和功率方面的信息,这些发音符号是一些话音元素,将所述立体声类型语句的所述话音内容分解为这些话音元素。
3.一种话音合成器,用于通过将立体声类型语句转换为韵律数据并将所述韵律数据作为话音合成器驱动数据添加到话音合成部分来执行话音合成,包括:
话音内容标识符,用于指示所述立体声语句的话音内容的类型;
存储器,用于存储语音格式词典,其中指示用于合成话音的语音格式的语音格式指示信息与韵律数据相互相关;
指示装置,用于指示话音内容标识符和在话音合成时待合成的话音的语音格式;
所述话音合成部分用于从所述语音格式词典中选择所述指示装置指示的所述韵律数据,并将所述韵律数据转换为话音信号。
4.根据权利要求3的话音合成器,其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每一个话音元素的持续时间、强度和功率方面的信息,这些发音符号是所述立体声类型语句的所述发音内容分解成的话音元素。
5.一种蜂窝电话机,具有如权利要求3所述的话音合成器。
6.一种韵律数据分配方法,通过将立体声类型语句转换为韵律数据并将所述韵律数据作为话音合成器驱动数据添加到终端设备的话音合成部分中来执行话音合成,此方法包括以下步骤:
决定话音内容标识符来指示所述立体声类型语句的话音内容的类型;
准备包括对应于所述话音内容标识符的语音格式和韵律数据的语音格式词典;
将所述语音格式词典提供给通信网络中配备的服务器,或提供给通过所述服务器连接的终端设备。
7.根据权利要求6的韵律数据分配方法,其中所述韵律数据至少包括一个发音符号序列以及构成所述发音符号序列的每一个话音元素的持续时间、强度和功率方面的信息,这些发音符号是所述立体声类型语句的所述话音内容分解而成的话音元素。
8.根据权利要求6的韵律数据分配方法,其中在将所述语音格式词典提供给通过所述通信网络中配备的所述服务器连接的终端设备的情况下,所述终端设备包括以下装置:用于指示语音格式词典的装置,该语音格式词典对应于由终端设备用户指示的语音格式;数据传送装置,用于将所述指示的语音格式词典从所述服务器传送到所述终端设备;和语音格式词典存储装置,用于将所述传送的语音格式词典存储到所述终端设备中的语音格式词典存储器内,以便利用所述终端设备用户指示的所述语音格式来完成语音合成。
9.根据权利要求7的韵律数据分配方法,其中所述语音格式词典的准备通过查阅对公众是公开的用于合成的内容的管理目录来生成韵律数据。
CNB011412860A 2001-06-11 2001-08-03 话音合成方法、话音合成器及其韵律数据分配方法 Expired - Lifetime CN1235187C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001175090A JP2002366186A (ja) 2001-06-11 2001-06-11 音声合成方法及びそれを実施する音声合成装置
JP175090/2001 2001-06-11

Publications (2)

Publication Number Publication Date
CN1391209A true CN1391209A (zh) 2003-01-15
CN1235187C CN1235187C (zh) 2006-01-04

Family

ID=19016283

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011412860A Expired - Lifetime CN1235187C (zh) 2001-06-11 2001-08-03 话音合成方法、话音合成器及其韵律数据分配方法

Country Status (4)

Country Link
US (1) US7113909B2 (zh)
JP (1) JP2002366186A (zh)
KR (1) KR20020094988A (zh)
CN (1) CN1235187C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924996B (zh) * 2005-08-31 2011-06-29 台达电子工业股份有限公司 利用语音辨识以选取声音内容的***及其方法
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN113807080A (zh) * 2020-06-15 2021-12-17 科沃斯商用机器人有限公司 文本纠正方法、设备及存储介质

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
GB2392592B (en) * 2002-08-27 2004-07-07 20 20 Speech Ltd Speech synthesis apparatus and method
US20040102964A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Speech compression using principal component analysis
DE60314844T2 (de) * 2003-05-07 2008-03-13 Harman Becker Automotive Systems Gmbh Verfahren und Vorrichtung zur Sprachausgabe, Datenträger mit Sprachdaten
TWI265718B (en) * 2003-05-29 2006-11-01 Yamaha Corp Speech and music reproduction apparatus
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
US20050060156A1 (en) * 2003-09-17 2005-03-17 Corrigan Gerald E. Speech synthesis
US20050075865A1 (en) * 2003-10-06 2005-04-07 Rapoport Ezra J. Speech recognition
US20050102144A1 (en) * 2003-11-06 2005-05-12 Rapoport Ezra J. Speech synthesis
JP4277697B2 (ja) * 2004-01-23 2009-06-10 ヤマハ株式会社 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
WO2005109661A1 (en) * 2004-05-10 2005-11-17 Sk Telecom Co., Ltd. Mobile communication terminal for transferring and receiving of voice message and method for transferring and receiving of voice message using the same
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
US7548877B2 (en) * 2004-08-30 2009-06-16 Quixtar, Inc. System and method for processing orders for multiple multilevel marketing business models
WO2006081482A2 (en) * 2005-01-26 2006-08-03 Hansen Kim D Apparatus, system, and method for digitally presenting the contents of a printed publication
ES2336686T3 (es) * 2005-05-31 2010-04-15 Telecom Italia S.P.A. Proporcionar sintesis del habla en terminales de usuario en una red de comunicaciones.
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7958131B2 (en) 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
KR100644814B1 (ko) * 2005-11-08 2006-11-14 한국전자통신연구원 발화 스타일 조절을 위한 운율모델 생성 방법 및 이를이용한 대화체 음성합성 장치 및 방법
US8650035B1 (en) * 2005-11-18 2014-02-11 Verizon Laboratories Inc. Speech conversion
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US8340956B2 (en) * 2006-05-26 2012-12-25 Nec Corporation Information provision system, information provision method, information provision program, and information provision program recording medium
US20080022208A1 (en) * 2006-07-18 2008-01-24 Creative Technology Ltd System and method for personalizing the user interface of audio rendering devices
US8510112B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8438032B2 (en) 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP2008172579A (ja) * 2007-01-12 2008-07-24 Brother Ind Ltd 通信装置
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
US8655660B2 (en) * 2008-12-11 2014-02-18 International Business Machines Corporation Method for dynamic learning of individual voice patterns
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
US20130124190A1 (en) * 2011-11-12 2013-05-16 Stephanie Esla System and methodology that facilitates processing a linguistic input
CN111768755A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112652309A (zh) * 2020-12-21 2021-04-13 科大讯飞股份有限公司 一种方言语音转换方法、装置、设备及存储介质
CN114299969B (zh) * 2021-08-19 2024-06-11 腾讯科技(深圳)有限公司 音频合成方法、装置、设备及介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
JP3587048B2 (ja) 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6029132A (en) * 1998-04-30 2000-02-22 Matsushita Electric Industrial Co. Method for letter-to-sound in text-to-speech synthesis
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成***与语音合成方法
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924996B (zh) * 2005-08-31 2011-06-29 台达电子工业股份有限公司 利用语音辨识以选取声音内容的***及其方法
CN106575500A (zh) * 2014-09-25 2017-04-19 英特尔公司 基于面部结构合成话音的方法和装置
CN113807080A (zh) * 2020-06-15 2021-12-17 科沃斯商用机器人有限公司 文本纠正方法、设备及存储介质

Also Published As

Publication number Publication date
CN1235187C (zh) 2006-01-04
KR20020094988A (ko) 2002-12-20
US7113909B2 (en) 2006-09-26
JP2002366186A (ja) 2002-12-20
US20020188449A1 (en) 2002-12-12

Similar Documents

Publication Publication Date Title
CN1235187C (zh) 话音合成方法、话音合成器及其韵律数据分配方法
CN1795492B (zh) 在便携设备上合成语音的方法、低性能计算设备和***
CN1160700C (zh) 提供网络协同会话服务的***和方法
US20040111271A1 (en) Method and system for customizing voice translation of text to speech
US6098041A (en) Speech synthesis system
US20060069567A1 (en) Methods, systems, and products for translating text to speech
US7974836B2 (en) System and method for voice user interface navigation
CN1316448C (zh) 适用于提高合成语音可懂性的运行时合成语音的方法
CN1675681A (zh) 客户机-服务器语音定制
EP2017832A1 (en) Voice quality conversion system
EP2306450A1 (en) Voice synthesis model generation device, voice synthesis model generation system, communication terminal device and method for generating voice synthesis model
CN105261355A (zh) 一种语音合成方法和装置
EP0378694A1 (en) Response control system
US20050182630A1 (en) Multilingual text-to-speech system with limited resources
CN110149805A (zh) 双向语音翻译***、双向语音翻译方法和程序
CN111445897B (zh) 歌曲生成方法、装置、可读介质及电子设备
CN107808007A (zh) 信息处理方法和装置
CN106295717A (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN110600004A (zh) 一种语音合成播放方法、装置和存储介质
CN110289015A (zh) 一种音频处理方法、装置、服务器、存储介质及***
CN112669815A (zh) 歌曲定制生成方法及其相应的装置、设备、介质
Abdullah et al. Paralinguistic speech processing: An overview
CN103581857A (zh) 一种语音提示的方法、语音合成服务器及终端
CN100359907C (zh) 便携式终端装置
US20020193993A1 (en) Voice communication with simulated speech data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HITACHI LTD.

Free format text: FORMER OWNER: HITACHI,LTD.

Effective date: 20130718

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130718

Address after: Tokyo, Japan

Patentee after: Hitachi Consumer Electronics Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Hitachi Manufacturing Co., Ltd.

ASS Succession or assignment of patent right

Owner name: HITACHI MAXELL LTD.

Free format text: FORMER OWNER: HITACHI LTD.

Effective date: 20150327

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150327

Address after: Osaka, Japan

Patentee after: Hitachi Maxell, Ltd.

Address before: Tokyo, Japan

Patentee before: Hitachi Consumer Electronics Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20171213

Address after: Kyoto Japan

Patentee after: Mike seer

Address before: Osaka, Japan

Patentee before: Hitachi Maxell, Ltd.

TR01 Transfer of patent right
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20060104