CN102089804A

CN102089804A - 声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法

Info

Publication number: CN102089804A
Application number: CN2009801268433A
Authority: CN
Inventors: 水口纪子
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2008-07-11
Filing date: 2009-07-07
Publication date: 2011-06-08
Anticipated expiration: 2029-07-07
Also published as: KR20110021944A; US20110144997A1; WO2010004978A1; EP2306450A1; CN102089804B; EP2306450A4; JP2010020166A

Abstract

本发明提供能够适当地取得用户声音的声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法。声音合成模型生成***(1)构成为包含移动通信终端(2)和声音合成模型生成装置(3)。移动通信终端(2)具有从所输入的声音提取声音特征量的特征量提取部(201)、以及从声音取得文本数据的文本数据取得部(202)。声音合成模型(3)具有：声音合成模型生成部(301)，其根据由学习信息取得部(200)取得的特征量和文本数据生成声音合成模型；图像信息生成部(307)，其根据基于特征量和文本数据的参数生成图像信息；以及信息输出部(309)，其将图像信息发送到移动通信终端(2)。

Description

声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法

技术领域

本发明涉及声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法。

背景技术

以往，公知有生成声音合成模型的技术。声音合成模型是为了生成与所输入的文本(字符串)对应的声音数据而使用的信息。例如像专利文献1记载的那样，作为使用声音合成模型的声音合成方法，具有以下方法：分析所输入的字符串，参照声音合成模型，组合与文本对应的声音数据，从而生成声音数据。

专利文献1：日本特开2003-295880号公报

但是，在生成声音合成模型时，需要预先收集任意对象者(用户)的声音数据。为了收集该数据，需要准备例如录音室由任意对象者长时间(几小时～几十小时)录制录音。此时，用户长时间根据例如剧情说明书输入(录制)声音这样的行为，可能会使想输入声音的用户的动力下降。

发明内容

本发明正是为了解决以上问题而完成的，其目的在于，提供一种能够适当地取得用户声音的声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法。

为了达到上述目的，本发明的声音合成模型生成装置的特征在于，具有：学习信息取得单元，其取得用户声音的特征量以及与声音对应的文本数据；声音合成模型生成单元，其根据由学习信息取得单元取得的特征量和文本数据进行学习，生成声音合成模型；参数生成单元，其生成由声音合成模型生成单元生成的声音合成模型的表示学习程度的参数；图像信息生成单元，其根据由参数生成单元生成的参数，生成用于向用户显示图像的图像信息；以及图像信息输出单元，其输出由图像信息生成单元生成的图像信息。

根据该结构，根据声音的特征量和文本数据生成声音合成模型，生成该声音合成模型的表示学习程度的参数。此外，根据参数生成用于向用户显示图像的图像信息，并输出该图像信息。由此，输入声音的用户能够将声音合成模型的学习程度识别为可视化的图像，因此能够得到对输入了声音的成就感，想输入声音的用户的动力提高。结果，能够适当地取得用户声音。

此外，优选还具有请求信息生成单元，该请求信息生成单元为了取得特征量，根据由参数生成单元生成的参数生成并输出用于使用户输入声音的请求信息。根据该结构，由用户输入的声音适合用于生成声音合成模型的学习。

此外，优选还具有单词提取单元，该单词提取单元从由学习信息取得单元取得的文本数据中提取单词，参数生成单元根据由单词提取单元提取出的单词的累计单词数，生成声音合成模型的表示学习程度的参数。根据该结构，根据累计单词数生成参数，因此用户能够通过观察根据参数生成的图像信息，识别到单词数增加的情况。由此，能够进一步得到对输入了声音的成就感。结果，能够更适当地取得用户声音。

此外，优选图像信息是用于显示角色图像的信息。根据该结构，输出给用户的角色图像例如以根据参数变大这样的方式进行变化，因此与用图像显示例如数值等的情况相比，能够在视觉上给用户带来好感。由此，能够进一步得到用户的成就感，想输入声音的用户的动力进一步提高。结果，能够更适当地取得用户声音。

此外，优选声音合成模型生成单元按照每个用户生成声音合成模型。根据该结构，能够生成与每个用户对应的声音合成模型，由此每个人都能够利用声音合成模型。

此外，优选声音特征量是将声音标示为声音单位的上下文数据以及与表示声音特征的声音波形相关的数据。根据该结构，能够可靠地生成声音合成模型。

为了达到上述目的，本发明的声音合成模型生成***构成为包含具有通信功能的通信终端、和能够与该通信终端进行通信的声音合成模型生成装置，其特征在于，通信终端具有：声音输入单元，其输入用户声音；学习信息发送单元，其将由声音输入单元输入的声音、或者由该声音的特征量构成的声音信息以及与声音对应的文本数据，发送到声音合成模型生成装置；图像信息接收单元，其响应从声音信息发送单元发送了声音信息和文本数据的情况，从声音合成模型生成装置接收用于向用户显示图像的图像信息；以及显示单元，其显示由图像信息接收单元接收到的图像信息，声音合成模型生成装置具有：学习信息取得单元，其通过接收从通信终端发送的声音信息取得声音的特征量，并且，通过接收来取得从通信终端发送的文本数据；声音合成模型生成单元，其根据由学习信息取得单元取得的特征量和文本数据进行学习，生成声音合成模型；参数生成单元，其生成由声音合成模型生成单元生成的声音合成模型的表示学习程度的参数；图像信息生成单元，其根据由参数生成单元生成的参数，生成图像信息；以及图像信息输出单元，其将由图像信息生成单元生成的图像信息发送到通信终端。

根据该结构，在通信终端中进行声音的取得，当在声音合成模型生成装置中接收到由该声音或该声音的特征量构成的声音信息以及与声音对应的文本数据时，根据特征量和文本数据生成声音合成模型。并且，生成声音合成模型的表示学习程度的参数，根据该参数生成用于向用户显示图像的图像信息，并将该图像信息从声音合成模型生成装置发送到通信终端。由此，能够将声音合成模型的学习程度识别为可视化的图像，因此能够得到对输入了声音的成就感，想输入声音的用户的动力提高。结果，能够适当地取得用户声音。此外，在通信终端中取得声音，因此不需要录音室等这样的设备，从而能够简单地取得声音。

此外，优选通信终端还具有特征量提取单元，该特征量提取单元从由声音输入单元输入的声音中提取声音的特征量。从通信终端发送的声音有时会由于编码解码(codec)或通信路径而劣化，当根据该声音生成声音合成模型时，声音合成模型的品质可能会下降。但是，根据上述结构，由通信终端提取生成声音合成模型所需的特征量，并发送该特征量，因此能够生成精度高的声音合成模型。

此外，优选还具有文本数据取得单元，该文本数据取得单元从由声音输入单元输入的声音中取得与声音对应的文本数据。根据该结构，不需要用户输入与声音对应的文本数据，因此能够节省用户时间。

此外，本发明除了能够如上所述记述为声音合成模型生成***的发明以外，还能够如下所述记述为声音合成模型生成***中包含的通信终端的发明。声音合成模型生成***中包含的该通信终端具有新的结构，这也与本发明相当。因此，起到与声音合成模型生成***相同的作用和效果。

即，本发明的通信终端具有通信功能，其特征在于，具有：声音输入单元，其输入用户声音；特征量提取单元，其从由声音输入单元输入的声音中提取声音的特征量；文本数据取得单元，其取得与声音对应的文本数据；学习信息发送单元，其将由特征量提取单元提取出的声音的特征量、以及由文本数据取得单元取得的文本数据发送到能够与通信终端进行通信的声音合成模型生成装置；图像信息接收单元，其响应从学习信息发送单元发送了特征量和文本数据的情况，从声音合成模型生成装置接收用于向用户显示图像的图像信息；以及显示单元，其显示由图像信息接收单元接收到的图像信息。

此外，本发明除了能够如上所述记述为声音合成装置、声音合成模型生成***以及通信终端的发明以外，还能够如下所述记述为声音合成模型生成方法的发明。方法发明仅种类不同，实质上是相同的发明，起到相同的作用和效果。

即，本发明的声音合成模型生成方法，其特征在于，具有：学习信息取得步骤，取得用户声音的特征量以及与声音对应的文本数据；声音合成模型生成步骤，根据在学习信息取得步骤中取得的特征量和文本数据进行学习，生成声音合成模型；参数生成步骤，生成在声音合成模型生成步骤中生成的声音合成模型的表示学习程度的参数；图像信息生成步骤，根据在参数生成步骤中生成的参数，生成用于向用户显示图像的图像信息；以及图像信息输出步骤，输出在图像信息生成步骤中生成的图像信息。

此外，本发明的声音合成模型生成方法是声音合成模型生成***的声音合成模型生成方法，声音合成模型生成***构成为包含具有通信功能的通信终端、和能够与该通信终端进行通信的声音合成模型生成装置，其特征在于，通信终端进行如下步骤：声音输入步骤，输入用户声音；学习信息发送步骤，将在声音输入步骤中输入的声音、或者由该声音的特征量构成的声音信息以及与声音对应的文本数据，发送到声音合成模型生成装置；图像信息接收步骤，响应在声音信息发送步骤中发送了声音信息和文本数据的情况，从声音合成模型生成装置接收用于向用户显示图像的图像信息；以及显示步骤，显示在图像信息接收步骤中接收到的图像信息，声音合成模型生成装置进行如下步骤：学习信息取得步骤，通过接收从通信终端发送的声音信息取得声音的特征量，并且，通过接收来取得从通信终端发送的文本数据；声音合成模型生成步骤，根据在学习信息取得步骤中取得的特征量和文本数据进行学习，生成声音合成模型；参数生成步骤，生成在声音合成模型生成步骤中生成的声音合成模型的表示学习程度的参数；图像信息生成步骤，根据在参数生成步骤中生成的参数，生成图像信息；以及图像信息输出步骤，将在图像信息生成步骤中生成的图像信息发送到通信终端。

此外，本发明的声音合成模型生成方法是具有通信功能的通信终端的声音合成模型生成方法，其特征在于，具有：声音输入步骤，输入用户声音；特征量提取步骤，从在声音输入步骤中输入的声音中提取该声音的特征量；文本数据取得步骤，取得与声音对应的文本数据；学习信息发送步骤，将在特征量提取步骤中提取出的声音的特征量、以及在文本数据取得步骤中取得的文本数据，发送到能够与通信终端进行通信的声音合成模型生成装置；图像信息接收步骤，响应在学习信息发送步骤中发送了特征量和文本数据的情况，从声音合成模型生成装置接收用于向用户显示图像的图像信息；以及显示步骤，显示在图像信息接收步骤中接收到的图像信息。

根据本发明，能够可视化地识别通过用户输入的声音而生成的声音合成模型的学习程度，因此能够防止用户长时间只输入声音这样的行为造成的用户对输入声音的动力降低，从而能够适当地取得用户声音。

附图说明

图1是示出本发明的一个实施方式的声音合成模型生成***的结构的图。

图2是示出移动通信终端的硬件结构的图。

图3是示出声音合成模型生成装置的硬件结构的图。

图4是示出在显示器上显示有图像信息和请求信息的一例的图。

图5是示出保持有单词数据的表的一例的图。

图6是示出将参数和表示图像变化度的等级对应起来的表的一例的图。

图7示出显示在移动通信终端的显示器上的角色图像根据表示图像变化度的等级而变化的一例。

图8是示出移动通信终端和声音合成模型生成装置的处理的序列图。

具体实施方式

以下，与附图一起对本发明的声音合成模型生成装置、声音合成模型生成***、通信终端以及声音合成模型生成方法的优选实施方式进行详细说明。此外，在附图说明中对同一要素标注同一符号，并省略重复的说明。

图1示出本发明的一个实施方式的声音合成模型生成***的结构。如图1所示，声音合成模型生成***1构成为包括移动通信终端(通信终端)2、和声音合成模型生成装置3。移动通信终端2和声音合成模型生成装置3能够通过移动通信彼此收发信息。在图1中仅示出了一个移动通信终端2，但在声音合成模型生成***1中，通常包括无数移动通信终端2。此外，声音合成模型生成装置3可以由一个装置构成，也可以由多个装置构成。

声音合成模型生成***1是能够针对移动通信终端2的用户生成声音合成模型的***。声音合成模型是为了生成与所输入的文本对应的用户声音数据而使用的信息。利用声音合成模型合成的声音数据能够在例如朗读移动通信终端2中的邮件时、再现外出时的消息时，以及博客或WEB上利用。

移动通信终端2例如是便携电话机，是如下的通信终端：与覆盖本机所处的无线区域的基站进行无线通信，根据用户的操作，接受通话服务或分组通信服务。此外，移动通信终端2能够利用使用了分组通信服务的应用程序，应用程序通过从声音合成模型生成装置3发送的数据进行更新。应用程序的管理也可以不通过声音合成模型生成装置3进行，而通过另外设置的装置进行。另外，本实施方式中的应用程序是能够进行画面显示，例如通过用户声音进行命令输入的培育类的游戏。更具体而言，是通过用户声音输入培育利用应用程序显示的角色(角色的外观等变化)的游戏。

声音合成模型生成装置3是根据从移动通信终端2发送的与用户声音相关的信息，生成声音合成模型的装置。声音合成模型生成装置3处于移动通信网，由提供声音合成模型生成服务的服务运营商管理。

图2是示出移动通信终端2的硬件结构的图。如图2所示，移动通信终端2由CPU(Central Processing Unit：中央处理器)21、RAM(Random Access Memory：随机存取存储器)22、ROM(Read Only Memory：只读存储器)23、操作部24、话筒25、无线通信部26、显示器27、扬声器28以及天线29等硬件构成。通过这些构成要素进行动作，发挥以下说明的移动通信终端2的各功能。

图3是示出声音合成模型生成装置3的硬件结构的图。如图3所示，声音合成模型生成装置3构成为具有以下硬件等的计算机：CPU 31、作为主存储装置的RAM32和ROM 33、网卡等作为数据收发设备的通信模块34、硬盘等辅助存储装置35、键盘等用于向声音合成模型生成装置3输入信息的输入装置36以及监视器等用于输出信息的输出装置37。通过这些构成要素进行动作，发挥声音合成模型生成装置3的后述功能。

接着，说明移动通信终端2和声音合成模型生成装置3的功能。

参照图1，说明移动通信终端2。如图1所示，移动通信终端2具有声音输入部200、特征量提取部201、文本数据取得部202、学习信息发送部203、接收部204、显示部205、声音合成模型保持部206以及声音合成部207。

声音输入部200是话筒25，是输入用户声音的声音输入单元。声音输入部200输入用户声音作为例如向上述应用程序的命令输入。声音输入部200通过滤波器去除所输入的声音中的噪声，将由用户输入的声音作为声音数据输出到特征量提取部201和文本数据取得部202。

特征量提取部201从声音数据提取声音特征量，声音数据是从声音输入部200接收到的。声音特征量是对声音的高低、速度、重音等音质进行数值化而得到的数据，具体而言，例如是将声音标示(labeling)为声音单位的上下文数据(context data)以及与表示声音特征的声音波形相关的数据。上下文数据是将声音数据分割(标示)为音素等声音单位的上下文标记(音素串)。声音单位是指“音素”、“单词”、“词组”等依照预定规则划分声音而得到的单位。作为上下文标记的主要因素，具体而言，是指之前、当前、后续的音素，当前音素的重音短语内的音节延长度位置，之前、当前、后续的词性/活用形/活用型，之前、当前、后续的重音短语的长度/韵律信息，该重音短语的位置/前后有无断句，之前、当前、后续的呼气段落的长度，当前呼气段落的位置、文章的长度等。与声音波形相关的数据是对数基本频率以及梅尔倒谱参数。对数基本频率表示声音高度，通过从声音数据提取基本频率参数来提取。梅尔倒谱参数表示声音的音质，通过对声音数据进行梅尔倒谱分析来提取。特征量提取部201将提取出的特征量输出到学习信息发送部203。

文本数据取得部202是根据从声音输入部200接收到的声音数据取得与声音对应的文本数据的文本数据取得单元。文本数据取得部202通过对所输入的声音数据进行分析(声音识别)，取得内容与用户输入的声音一致的文本数据(字符串)。文本数据取得部202将取得的文本数据输出到学习信息发送部203。另外，文本数据也可以根据由特征量提取部201提取出的声音特征量取得。

学习信息发送部203是将从特征量提取部201接收到的特征量以及从文本数据取得部202接收到的文本数据发送到声音合成模型生成装置3的学习信息发送单元。学习信息发送部203通过XML over HTTP、SIP等将特征量和文本数据发送到声音合成模型生成装置3。此时，在移动通信终端2和声音合成模型生成装置3之间，进行使用例如SIP或IMS的用户认证。

接收部204是如下的接收单元(图像信息接收单元)：响应通过学习信息发送部203将特征量和文本数据发送到声音合成模型生成装置3的情况，从声音合成模型生成装置3接收图像信息、请求信息以及声音合成模型。图像信息是用于向用户在显示器27上显示图像的信息。请求信息例如是促使用户输入声音的信息或输入的文章和语言等的信息，在显示器27上显示与请求信息对应的图像(文本)。图像信息和请求信息由上述应用程序使用并输出。此外，也可以从扬声器28输出与请求信息对应的声音数据。接收部204将接收到的图像信息和请求信息输出到显示部205，并且将声音合成模型输出到声音合成模型保持部206。

显示部205是对从接收部204接收到的图像信息和请求信息进行显示的显示单元。显示部205在应用程序已起动的情况下，将图像信息和请求信息显示在移动通信终端2的显示器27上。图4是示出在显示器27上显示有图像信息和请求信息的一例的图。如该图所示，作为角色C的图像，图像信息显示在显示器27的上侧，作为请求用户输入声音的消息，请求信息例如显示三个选择项目S1～S3。用户对显示在显示器27上的选择项目S1～S3的任意一个进行发声，并通过声音输入部200输入该发出的声音。

声音合成模型保持部206保持从接收部204接收到的声音合成模型。声音合成模型保持部206在从接收部204接收到与声音合成模型相关的信息时，对已有的声音合成模型进行更新处理。

声音合成部207参照保持在声音合成模型保持部206中的声音合成模型，合成声音数据。合成声音数据的方法使用以往公知的方法。具体而言，例如声音合成部207在通过移动通信终端2的操作部24(键盘)输入文本(字符串)，用户发出合成指示时，参照声音合成模型保持部206，大概预测与从所保持的声音合成模型输入的文本的音素串(上下文标记)对应的声响特征量(对数基本频率和梅尔倒谱参数)，合成并生成与所输入的文本对应的声音数据。声音合成部207将合成的声音数据输出到例如扬声器28。另外，用声音合成部207生成的声音数据还用于应用程序。

接着，说明声音合成模型生成装置3。如图1所示，声音合成模型生成装置3具有学习信息取得部300、声音合成模型生成部301、模型数据库302、统计模型数据库303、单词提取部304、单词数据库305、参数生成部306、图像信息生成部307、请求信息生成部308以及信息输出部309。

学习信息取得部300是通过从移动通信终端2接收来取得特征量和文本数据的学习信息取得单元。学习信息取得部300将从移动通信终端2接收并取得的特征量和文本数据输出到声音合成模型生成部301，并且将文本数据输出到单词提取部304。

声音合成模型生成部301是根据从学习信息取得部300接收到的特征量和文本数据进行学习来生成声音合成模型的声音合成模型生成单元。声音合成模型的生成通过以往公知的方法进行。具体而言，例如声音合成模型生成部301通过基于隐马尔可夫模型(Hidden Markov model：HMM)的学习，生成每个移动通信终端2的用户的声音合成模型。声音合成模型生成部301使用作为一种概率模型的HMM对音素等声音单位(上下文标记)的声响特征量(对数基本频率和梅尔倒谱参数)分别进行模型化。声音合成模型生成部301关于对数基本频率和梅尔倒谱参数反复进行学习。声音合成模型生成部301根据分别针对对数基本频率和梅尔倒谱参数生成的模型，根据状态分布(高斯分布)确定表示声音节奏和拍子的状态持续长度(音韵持续长度)并进行模型化。然后，声音合成模型生成部301合成对数基本频率和梅尔倒谱参数的HMM以及状态持续长度的模型来生成声音合成模型。将生成的声音合成模型输出到模型数据库302和统计模型数据库303。

模型数据库302按照每个用户保持从声音合成模型生成部301接收到的声音合成模型。模型数据库302在从声音合成模型生成部301接收与新的声音合成模型相关的信息时，对已有的声音合成模型进行更新处理。

统计模型数据库303集中保持从声音合成模型生成部301接收到的全部移动通信终端2的用户的声音合成模型。为了通过例如统计模型生成部进行生成全部用户的平均模型和用户的不同年龄层的平均模型的处理，对各个用户的声音合成模型的不足模型进行插值，使用与保持在统计模型数据库303中的声音合成模型相关的信息。

单词提取部304是从文本数据提取单词的单词提取单元，所述文本数据是从学习信息取得部300接收到的。单词提取部304在从学习信息取得部300接收到文本数据时，参照保持有用于通过词素分析等方法确定单词的单词信息的字典数据库(未图示)，根据文本数据和单词信息的一致程度，从文本数据提取单词。单词是指句子构成的最小单位，例如包含“手机”等这样的独立词、和“を”等这样的附属词。单词提取部304按照每个用户将表示提取出的单词的单词数据输出到单词数据库305。

单词数据库305按照每个用户保持从单词提取部304接收到的单词数据。单词数据库305保持图5所示的表。图5是示出保持有单词数据的表的一例的图。如图5所示，在单词数据的表中，对应地保持有按照依照预定规则分割而成的12个种类的每一个收纳的“单词数据”、和该单词数据的“单词数”。例如，在种类1中，保持有“手机”、“声音”等这样的单词，每个种类的累计单词数为“50”。另外，收纳有单词的种类通过频谱部的决策树、基本频率的决策树以及状态持续长度模型的决策树等现有方法确定。

参数生成部306是如下的参数生成单元：根据保持有由单词提取部304提取出的单词的单词数据库305的累计单词数，生成声音合成模型的表示学习程度的参数。上述学习程度是指表示声音合成模型能够以何种程度再现用户声音的程度(声音合成模型的精度)。参数生成部306根据单词数据库305的每个种类的单词数计算累计单词数，按照每个用户生成与该累计单词数成比例的声音合成模型的表示学习程度的参数。参数用例如0、1、...这样的数值表示，随着数值变大，表示学习程度越高。根据累计单词数计算参数是因为每个种类的单词数增加与声音合成模型的精度提高有直接关系。参数生成部306将生成的参数输出到图像信息生成部307和请求信息生成部308。另外，在参数中包含有能够确定每个种类的单词数的信息。此外，关于声音合成模型的精度，越增加声音数据的输入，精度越高，用户声音的再现性也增加，但是还能够将在统计上提高率停滞程度的声音数据定义为最大数。

图像信息生成部307是如下的图像信息生成单元：根据从参数生成部306输出的参数，生成用于向移动通信终端2的用户显示图像的图像信息。图像信息生成部307生成用于显示在应用程序中使用的角色图像的图像信息。图像信息生成部307保持图6所示的表。图6是示出将参数和表示图像变化度的等级对应起来的表的一例的图。如图6所示，参数为“0”时等级为“1”，参数为“3”时等级为“4”。图像信息生成部307生成与表示图像变化度的等级对应的图像信息，并将该图像信息输出到信息输出部309。

在此，在图7中示出显示在移动通信终端2的显示器27上的角色图像根据表示图像变化度的等级而变化的一例。图7(a)示出与等级1对应的角色图像C1，图7(b)是示出与等级3对应的角色图像C2的图。如图7(a)、(b)所示，在等级1中，角色图像C1的轮廓不清晰，与此相对，在等级3中，角色图像C2的轮廓清晰。由此，角色图像根据对应于参数的等级而成长(变化)。此外，显示在角色图像C1、C2的对白框内的语言也以随着等级变高而流畅发声的方式进行显示。即，当通过用户声音进行声音合成模型的学习时，通过应用程序显示的角色也随其成长。

请求信息生成部308是如下的请求信息生成单元：为了根据由参数生成部306生成的参数取得特征量，生成用于使用户输入声音的请求信息。请求信息生成部308根据参数，对保持在单词数据库中的每个种类的单词数进行比较，确定单词数比其他种类少的种类，从而计算与该种类对应的单词。具体而言，如图5所示，在例如种类“6”比其他种类保持的单词数少的情况下，请求信息生成部308计算多个与种类“6”对应的单词。接着，请求信息生成部308生成表示计算出的单词的请求信息，并输出到信息输出部309。

信息输出部309是如下的信息输出单元(图像信息输出单元)：将在声音合成模型生成部301中生成的声音合成模型、从图像信息生成部307输出的图像信息以及从请求信息生成部308输出的请求信息发送到移动通信终端2。信息输出部309在由参数生成部306重新生成参数的情况下，发送声音合成模型、图像信息以及请求信息。

接着，参照图8，对在本实施方式的声音合成模型生成***1中执行的处理(声音合成模型生成方法)进行说明。图8是示出移动通信终端2和声音合成模型生成装置3的处理的序列图。

如图8所示，在移动通信终端2中，首先由用户通过声音输入部200输入与应用程序的显示对应的声音(S01，声音输入步骤)。接着，通过特征量提取部201，根据通过声音输入部200输入的声音数据，提取声音特征量(S02)。并且，通过文本数据取得部202根据由声音输入部200输入的声音数据，取得与声音对应的文本数据(S03)。通过学习信息发送部203将包含声音特征量和文本数据的学习信息发送到声音合成模型生成装置3(S04，学习信息发送步骤)。

在声音合成模型生成装置3中，通过由学习信息取得部300从移动通信终端2接收学习信息来取得特征量和文本数据(S05，学习信息取得步骤)。接着，由声音合成模型生成部301根据取得的特征量和文本数据生成声音合成模型(S06，声音合成模型生成步骤)。并且，由单词提取部304根据取得的文本数据提取单词(S07)。然后，由参数生成部306根据提取出的单词的累计单词数，生成声音合成模型的表示学习程度的参数(S08，参数生成步骤)。

接着，由图像信息生成部307根据生成的参数，生成与用于向移动通信终端2的用户显示图像的参数对应的图像信息(S09)。并且，为了针对移动通信终端2的用户根据生成的参数取得特征量，由请求信息生成部308生成用于输入声音的请求信息(S10)。由信息输出部309将由此生成的声音合成模型、图像信息以及请求信息从声音合成模型生成部301发送到移动通信终端2(S11，信息输出步骤)。

在移动通信终端2中，由接收部204接收声音合成模型、图像信息以及请求信息，声音合成模型被保持在声音合成模型保持部206中，并且图像信息和请求信息通过显示部205显示在显示器上(S12，显示步骤)。移动通信终端2的用户根据显示在显示器27上的请求信息，输入声音。当输入声音时，返回步骤S01的处理来反复以下处理。以上是通过本实施方式的声音合成模型生成***1执行的处理。

如上所述，根据本实施方式，根据声音特征量和文本数据生成声音合成模型，生成该声音合成模型的表示学习程度的参数。然后，根据参数生成用于向用户显示图像的图像信息，并输出该图像信息。由此，输入声音的用户能够将声音合成模型的学习程度识别为可视化的图像，因此能够得到对输入了声音的成就感，想输入声音的动力提高。结果，能够适当地取得用户声音。

此外，为了根据由声音合成模型生成装置3的参数生成部306生成的参数取得特征量，生成用于使用户输入声音的请求信息并发送到移动通信终端2，因此由用户输入的声音适合用于生成声音合成模型的学习。

此外，参数生成部306根据由单词提取部304提取出的单词的累计单词数，生成声音合成模型的表示学习程度的参数。由此，根据累计单词数生成参数，因此用户能够通过观察根据参数生成的图像信息，识别到单词数增加的情况。由此，能够进一步得到对输入了声音的成就感。结果，能够更适当地取得用户声音。

此外，从声音合成模型生成装置3发送到移动通信终端2的图像信息是用于显示角色图像的信息，输出给用户的角色图像例如以根据参数变大这样的方式进行变化，因此与用图像显示例如数值等的情况相比，能够在视觉上给用户带来好感。由此，能够进一步得到用户的成就感，想输入声音的动力进一步提高。结果，能够更适当地取得用户声音。

此外，声音合成模型生成部301按照每个用户生成声音合成模型，因此能够生成与每个用户对应的声音合成模型，由此每个人都能够利用声音合成模型。

此外，声音特征量是将声音标示为声音单位后的上下文数据以及与表示声音特征的声音波形相关的数据(对数基本频率和梅尔倒谱参数)，因此能够可靠地生成声音合成模型。

此外，用移动通信终端2取得声音，因此不需要录音室等这样的设备，从而能够简单地取得声音。此外，与根据从移动通信终端2发送的声音生成声音合成模型的情况不同，移动通信终端2提取为了生成声音合成模型所需的特征量并进行发送，因此与使用由于通信路径而劣化的声音生成声音合成模型的情况相比，能够生成精度高的声音合成模型。

本发明不限于上述实施方式。在上述实施方式中，为了生成声音合成模型，使用HMM进行学习，但是也可以使用其他算法生成声音合成模型。

此外，在上述实施方式中，通过移动通信终端2的特征量提取部201提取声音特征量，将特征量发送到声音合成模型生成装置3，但是也可以将输入到声音输入部200的声音作为声音信息(例如AAC、AMR等编码后的声音)发送到声音合成模型生成装置3。此时，在声音合成模型生成装置3中提取特征量。

此外，在上述实施方式中，图像信息生成部307根据与参数对应的等级生成图像信息，所述参数与保持在单词数据库305中的单词的累计单词数对应，但是图像信息生成方法不限于该方法。例如，也可以设置保持用于构成角色图像C的大小和性格等的数据的数据库，在由用户输入例如“谢谢”这样的声音时，依照预定规则，将表示大小的数据加上1，将表示性格温柔程度的数据加上1，从而生成图像信息。

此外，在上述实施方式中，将图像信息设为用于显示角色图像的信息，但是也可以是例如图表、数值和用于显示汽车等这样的物体的信息。在图表的情况下，能够设为显示累计单词数的信息，在是汽车等这样的物体的情况下，能够设为在变成预定单词数时使形状变化的信息等。

此外，在上述实施方式中，将图像信息设为用于显示角色图像的显示数据，但不一定需要设为显示数据，只要是用于在移动通信终端2中生成图像的数据即可。例如，也可以在声音合成模型生成装置3中，根据从参数生成部306输出的参数生成用于生成图像的图像信息并进行发送，在接收到该图像信息的移动通信终端2中生成角色图像。具体而言，在声音合成模型生成装置3中生成的图像信息是预先设定的表示角色图像的面部大小和皮肤颜色等的参数。

此外，也可以将从声音合成模型生成装置3的参数生成部306输出的参数作为图像信息进行发送，移动通信终端2根据该参数生成角色图像。此时，移动通信终端2根据上述参数，保持表示生成哪种角色图像的信息(例如图6所示的信息)。

此外，也可以将保持在声音合成模型生成装置3的单词数据库305中的单词数据的累计单词数作为图像信息进行发送，移动通信终端2根据该图像信息生成角色图像。此时，移动通信终端2根据累计单词数生成参数，并根据该参数保持表示生成哪种角色图像的信息(例如图6所示的信息)。

此外，在上述实施方式中，请求信息生成部308根据保持在单词数据库305中的每个单词种类的单词数，生成请求信息，但是也可以构成为从预先存储有待请求的单词的数据库依次请求单词。

此外，在上述实施方式中，成为文本数据取得部202设置在移动通信终端2中的结构，但是也可以构成为设置在声音合成模型生成装置3中。此外，文本数据的取得可以不由移动通信终端2自身进行，而由能够通过移动通信进行信息收发的服务器装置进行。此时，移动通信终端2将由特征量提取部201提取出的特征量发送到服务器装置，响应发送了该特征量的情况，从服务器装置发送根据特征量取得的文本数据。

此外，在上述实施方式中，通过文本数据取得部202取得文本数据，但是也可以在用户输入声音后由用户自身进行输入。此外，也可以从请求信息中包含的文本数据取得所述文本数据。

此外，在上述实施方式中，文本数据取得部202不向用户确认而取得文本数据，但是也可以构成为向用户显示一次取得的文本数据，在由用户按下例如确认键时，取得所述文本数据。

此外，在上述实施方式中，成为由移动通信终端2和声音合成模型生成装置3构成声音合成模型生成***1的方式，但是也可以仅由声音合成模型生成装置3构成。此时，在声音合成模型生成装置3中设置声音输入部等。

符号说明

1：声音合成模型生成***；2：移动通信终端(通信终端)；3：声音合成模型生成装置；200：声音输入部(声音输入单元)；201：特征量提取部(特征量提取单元)；202：文本数据取得部(文本数据取得单元)；203：学习信息发送部(学习信息发送单元)；204：接收部(图像信息接收单元)；205：显示部(显示单元)；300：学习信息取得部(学习信息取得单元)；301：声音合成模型生成部(声音合成模型生成单元)；304：单词提取部(单词提取单元)；306：参数生成部(参数生成单元)；307：图像信息生成部(图像信息生成单元)；308：请求信息生成部(请求信息生成单元)；309：信息输出部(图像信息输出单元)；C、C1、C2：角色图像。

Claims

1.一种声音合成模型生成装置，其特征在于，该声音合成模型生成装置具有：

学习信息取得单元，其取得用户声音的特征量以及与所述声音对应的文本数据；

声音合成模型生成单元，其根据由所述学习信息取得单元取得的所述特征量和所述文本数据进行学习，生成声音合成模型；

参数生成单元，其生成由所述声音合成模型生成单元生成的所述声音合成模型的表示学习程度的参数；

图像信息生成单元，其根据由所述参数生成单元生成的所述参数，生成用于向用户显示图像的图像信息；以及

图像信息输出单元，其输出由所述图像信息生成单元生成的所述图像信息。

2.根据权利要求1所述的声音合成模型生成装置，其特征在于，该声音合成模型生成装置还具有请求信息生成单元，该请求信息生成单元为了取得所述特征量，根据由所述参数生成单元生成的所述参数生成并输出用于使所述用户输入所述声音的请求信息。

3.根据权利要求1或2所述的声音合成模型生成装置，其特征在于，

该声音合成模型生成装置还具有单词提取单元，该单词提取单元从由所述学习信息取得单元取得的所述文本数据中提取单词，

所述参数生成单元根据由所述单词提取单元提取出的所述单词的累计单词数，生成所述声音合成模型的表示所述学习程度的所述参数。

4.根据权利要求1～3中的任意一项所述的声音合成模型生成装置，其特征在于，所述图像信息是用于显示角色图像的信息。

5.根据权利要求1～4中的任意一项所述的声音合成模型生成装置，其特征在于，所述声音合成模型生成单元按照每个所述用户生成所述声音合成模型。

6.根据权利要求1～5中的任意一项所述的声音合成模型生成装置，其特征在于，所述特征量是将所述声音标示为声音单位的上下文数据以及与表示所述声音的特征的声音波形相关的数据。

7.一种声音合成模型生成***，其构成为包含具有通信功能的通信终端、和能够与该通信终端进行通信的声音合成模型生成装置，其特征在于，

所述通信终端具有：

声音输入单元，其输入用户的声音；

学习信息发送单元，其将由所述声音输入单元输入的所述声音、或者由该声音的特征量构成的声音信息以及与所述声音对应的文本数据，发送到所述声音合成模型生成装置；

图像信息接收单元，其响应于从所述声音信息发送单元发送了所述声音信息和所述文本数据的情况，从所述声音合成模型生成装置接收用于向所述用户显示图像的图像信息；以及

显示单元，其显示由所述图像信息接收单元接收到的所述图像信息，

所述声音合成模型生成装置具有：

学习信息取得单元，其通过接收从所述通信终端发送的所述声音信息取得所述声音的特征量，并且，通过接收来取得从所述通信终端发送的所述文本数据；

图像信息生成单元，其根据由所述参数生成单元生成的所述参数，生成所述图像信息；以及

图像信息输出单元，其将由所述图像信息生成单元生成的所述图像信息发送到所述通信终端。

8.根据权利要求7所述的声音合成模型生成***，其特征在于，

所述通信终端还具有特征量提取单元，该特征量提取单元从由所述声音输入单元输入的所述声音中提取该声音的特征量。

9.根据权利要求7或8所述的声音合成模型生成***，其特征在于，该声音合成模型生成***还具有文本数据取得单元，该文本数据取得单元从由所述声音输入单元输入的所述声音中取得与该声音对应的文本数据。

10.一种具有通信功能的通信终端，其特征在于，该通信终端具有：

声音输入单元，其输入用户的声音；

特征量提取单元，其从由所述声音输入单元输入的所述声音中提取该声音的特征量；

文本数据取得单元，其取得与所述声音对应的文本数据；

学习信息发送单元，其将由所述特征量提取单元提取出的所述声音的特征量、以及由文本数据取得单元取得的所述文本数据，发送到能够与所述通信终端进行通信的声音合成模型生成装置；

图像信息接收单元，其响应于从所述学习信息发送单元发送了所述特征量和所述文本数据的情况，从所述声音合成模型生成装置接收用于向所述用户显示图像的图像信息；以及

显示单元，其显示由所述图像信息接收单元接收到的所述图像信息。

11.一种声音合成模型生成方法，其特征在于，该声音合成模型生成方法具有如下步骤：

学习信息取得步骤，取得用户声音的特征量以及与声音对应的文本数据；

声音合成模型生成步骤，根据在所述学习信息取得步骤中取得的所述特征量和所述文本数据进行学习，生成声音合成模型；

参数生成步骤，生成在所述声音合成模型生成步骤中生成的所述声音合成模型的表示学习程度的参数；

图像信息生成步骤，根据在所述参数生成步骤中生成的所述参数，生成用于向用户显示图像的图像信息；以及

图像信息输出步骤，输出在所述图像信息生成步骤中生成的所述图像信息。

12.一种声音合成模型生成***的声音合成模型生成方法，该声音合成模型生成***构成为包含具有通信功能的通信终端、和能够与该通信终端进行通信的声音合成模型生成装置，其特征在于，

所述通信终端进行如下步骤：

声音输入步骤，输入用户的声音；

学习信息发送步骤，将在所述声音输入步骤中输入的所述声音、或者由该声音的特征量构成的声音信息以及与所述声音对应的文本数据，发送到所述声音合成模型生成装置；

图像信息接收步骤，响应于在所述声音信息发送步骤中发送了所述声音信息和所述文本数据的情况，从所述声音合成模型生成装置接收用于向所述用户显示图像的图像信息；以及

显示步骤，显示在所述图像信息接收步骤中接收到的所述图像信息，

所述声音合成模型生成装置进行如下步骤：

学习信息取得步骤，通过接收从所述通信终端发送的所述声音信息取得所述声音的特征量，并且，通过接收来取得从所述通信终端发送的所述文本数据；

图像信息生成步骤，根据在所述参数生成步骤中生成的所述参数，生成所述图像信息；以及

图像信息输出步骤，将在所述图像信息生成步骤中生成的所述图像信息发送到所述通信终端。

13.一种具有通信功能的通信终端的声音合成模型生成方法，其特征在于，该声音合成模型生成方法具有如下步骤：

声音输入步骤，输入用户的声音；

特征量提取步骤，从在所述声音输入步骤中输入的所述声音中提取该声音的特征量；

文本数据取得步骤，取得与所述声音对应的文本数据；

学习信息发送步骤，将在所述特征量提取步骤中提取出的所述声音的特征量、以及在所述文本数据取得步骤中取得的所述文本数据，发送到能够与所述通信终端进行通信的声音合成模型生成装置；

图像信息接收步骤，响应于在所述学习信息发送步骤中发送了所述特征量和所述文本数据的情况，从所述声音合成模型生成装置接收用于向所述用户显示图像的图像信息；以及

显示步骤，显示在所述图像信息接收步骤中接收到的所述图像信息。