JP2007264503A - 音声合成装置及びその方法 - Google Patents

音声合成装置及びその方法 Download PDF

Info

Publication number
JP2007264503A
JP2007264503A JP2006092489A JP2006092489A JP2007264503A JP 2007264503 A JP2007264503 A JP 2007264503A JP 2006092489 A JP2006092489 A JP 2006092489A JP 2006092489 A JP2006092489 A JP 2006092489A JP 2007264503 A JP2007264503 A JP 2007264503A
Authority
JP
Japan
Prior art keywords
waveform data
unit
synthesis
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006092489A
Other languages
English (en)
Inventor
Osamu Nishiyama
修 西山
Shinko Morita
眞弘 森田
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006092489A priority Critical patent/JP2007264503A/ja
Priority to EP06822540A priority patent/EP2002421A1/en
Priority to KR1020087026383A priority patent/KR20090005090A/ko
Priority to US11/570,208 priority patent/US20090216537A1/en
Priority to CNA2006800546796A priority patent/CN101449319A/zh
Priority to PCT/JP2006/321579 priority patent/WO2007110992A1/en
Publication of JP2007264503A publication Critical patent/JP2007264503A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】合成音声の生成に要する時間に処理単位間で大きな差が生じることを避け、また、データ取得に起因する合成音声の生成に要する時間の増大を確実に抑制する音声合成装置を提供する。
【解決手段】音声合成装置は、外部から音声合成の対象となるテキストデータを取得するテキスト取得部11と、テキストデータに形態素解析・構文解析を行う言語処理部12と、テキストデータのアクセントや品詞などの韻律や言語に関わる属性に基づいて、合成単位列を音声合成部14に出力する韻律処理部13と、合成単位列から合成音声を生成する音声合成部14と、出力された所定の量の合成音声を蓄積後、または、出力された合成音声を逐次的に再生する音声波形出力部15とを備えている。
【選択図】 図1

Description

本発明は、例えば、音素記号・音節記号などの音韻記号、または、自然言語の表記に用いる文字の系列から音声を合成する音声合成装置、音声合成方法及び音声合成プログラムに関するものである。
従来の音声合成装置では音質向上の一つの方法として、非特許文献1に開示されているように、利用する波形データを増やすことが効果的であることが知られている。この方法を実現するために、メモリとハードディスクに多量の波形データを分散配置して利用する方法が検討されている。
また、複数の合成単位の組み合わせである合成単位列(処理単位)毎に合成音声を生成する音声合成装置において、多量の波形データをメモリとハードディスクに分散配置する場合、高速なデータ取得が可能であるメモリに利用頻度の高い波形データを配置して優先的に利用する方法が特許文献1で開示されている。
さらに、各合成素片(特許文献1中では「音声素片」と表現されている)の波形データが格納されている記憶装置へのアクセス速度に関するコスト(アクセス速度コスト)を含む複数のサブコストに基づいて、合成素片を先頭から順次的に決定する方法が特許文献2で開示されている。
特許文献1,2に開示されている方法によれば、複数の処理単位に対する合成音声を生成するのに要する合計の処理時間の増大を不確実ながらもある程度抑制することができる。
しかし、それら複数の処理単位中のある処理単位に対応する合成音声を生成する際に、低速なデータ取得しか成し得ないハードディスクに配置された波形データの利用が集中する場合がある。この場合に、ハードディスクから波形データを取得するのに要する時間が、その処理単位に対する合成音声の生成に要する時間において過大となり、合成音声の生成に要する時間に処理単位間で大きな差が生じ得ることがある。ところがこの差を回避する方法がなく、また、データの取得に起因する合成音声の生成に要する時間の増大を確実に抑制する方法もないという問題点がある。
日本音響学会 2004年秋季研究発表会 公演論文集 (P.369−P.370) 特開平7−141000号公報 特開2005−266010公報
上記したように従来技術には、合成音声の生成に要する時間に処理単位間で大きな差が生じることを避けることができないという問題点がある。また、データの取得に起因する合成音声の生成に要する時間の増大を確実に抑制することができないという問題点がある。
そこで、本発明は上記問題点を解決するためになされたものであって、合成音声の生成に要する時間に処理単位間で大きな差が生じることがなく、また、データ取得に起因する合成音声の生成に要する時間の増大を確実に抑制する音声合成装置、音声合成方法及び音声合成プログラムを提供することを目的とする。
本発明は、入力された合成単位列に含まれる所定の処理単位内の複数の合成単位に対応する合成素片の波形データをそれぞれ取得して、これら波形データを接続することで音声を合成する音声合成装置において、前記合成素片の波形データ以外の属性情報を格納した属性情報記憶媒体と、前記合成素片の波形データをそれぞれ格納し、かつ、前記格納した波形データを取得するためのデータ取得時間が異なる複数の波形データ記憶媒体と、前記波形データが格納されている波形データ記憶媒体の識別子を含むデータ配置情報を前記合成素片毎に格納したデータ配置情報記憶媒体と、前記処理単位内の前記各合成単位の属性情報に基づいて、前記各合成単位に対応する合成素片候補を前記属性情報記憶媒体からそれぞれ取得する候補取得部と、前記合成単位毎に取得した複数の合成素片候補のそれぞれの組み合わせから構成された複数の系列を求め、前記処理単位内における前記各合成素片の波形データのデータ取得時間の合計がデータ取得上限時間を越えないように、前記データ配置情報に基づいて前記複数の系列から一の系列を選択する合成素片選択部と、前記選択した一の系列上にある合成素片を組み合わせて合成素片列を生成する合成素片生成部と、前記合成素片列に含まれる合成素片の波形データを前記各波形データ記憶媒体からそれぞれ取得して接続する波形生成部と、を備えることを特徴とする音声合成装置である。
本発明によれば、合成音声の生成に要する時間に処理単位間で大きな差が生じることがなく、また、データ取得に起因する合成音声の生成に要する時間の増大を確実に抑制する。
(用語の定義)
本発明の実施形態を説明する前に、本明細書で利用する用語を定義する。
「合成単位」は、合成音声、または、人によって発話された音声を構成する基本となる要素であり、かつ、ある一定の共通特性を有する波形データの集合を複数個形成する際の単位の種類である。従来例では、半音素・音素・音節・Diphone、CVC・VCV(Vは母音、Cは子音)などがある。
「合成単位列」は、複数個の合成単位の系列である。
「処理単位」は、所定の制約を満たした複数個の合成単位の系列である。
「制約」とは、例えば、個数や目標となる合成音声の各合成単位が対応する区間の継続時間長の総和などがある。
「音韻記号」は、ある合成単位によってカテゴリー化された各集合に与えられたラベルに相当する。例えば、合成単位を音素とした場合、音素記号がこれに相当する。従来例では、音素記号、音声記号、音節記号やそれらの組み合わせなどがある。
「合成素片」は、ある合成単位によってカテゴリー化された集合群の何れかに属する要素を表す。例えば、音素を合成単位とした場合、同一の音素記号が付与された収録音声のある1区間の波形データの集合には、一定の共通した特性をもつ波形データのみが属することとなる。これらの波形データに、波形データ以外の属性、例えば、発声対象である自然言語における当該区間の言語に関する属性(アクセント核からの距離、当該区間を含む単語の品詞など)や発声された音声の当該区間の音響属性(基本周波数など)に関する値(属性値)などを付与することで、一つの合成素片となる。
「素片属性」は、合成素片が持つ波形データ以外の属性を表す。例えば、上記言語に関する属性(言語属性)や音響属性なども含まれる。
「素片データ」は、合成素片が有する属性に対する値(属性値)の総称である。例えば、各合成素片の波形データや素片属性「基本周波数」のデータなどを総称している。
「素片ID」は、各合成素片が持ち、自他の合成素片を識別するための識別子である。
以下、上記用語を利用して本発明の各実施形態について図面に基づいて説明する。
(第1の実施形態)
以下、本発明の第1の実施形態の音声合成装置について図1から図14に基づいて説明する。
(1)音声合成装置の構成
図1は、本実施形態に係わる音声合成装置10を示すブロック図である。
音声合成装置10は、外部から音声合成の対象となるテキストデータを取得するテキスト取得部11と、テキストデータに形態素解析・構文解析を行う言語処理部12と、テキストデータのアクセントや品詞などの韻律や言語に関わる属性に基づいて、合成単位列を音声合成部14に出力する韻律処理部13と、合成単位列から合成音声を生成する音声合成部14と、出力された所定の量の合成音声を蓄積後、または、出力された合成音声を逐次的に再生する音声波形出力部15とを備えている。
音声合成装置10は、上記各部11〜14の機能を実現するプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、音声素片データを格納するデータ取得時間の異なる複数の記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどを適宜利用して実現することができる。
なお、韻律処理部13から音声合成部14に引き渡される合成単位列を構成するそれぞれの「合成単位」には、音韻記号や目標とする韻律情報やそれが対応する区間を含むテキストに関わる言語情報などが付与されている。この合成単位列によって、目標とする合成音声が表現されて、音声合成部14に渡される。
「韻律情報」には、基本周波数、継続時間長、メルケプストラム係数、及びパワーなどがある。
「言語情報」には、単語、アクセント句の音節数、または、モーラ数・アクセント型や、各合成単位の対応する単語、アクセント句内での音節、または、モーラを単位とした位置や、各合成単位が含まれる音節がアクセント核か否かを表すフラグなどがある。
(2)音声合成部14の構成
図2に基づいて音声合成部14について説明する。図2は、音声合成部14を示すブロック図である。
音声合成部14は、記録媒体110、合成素片選択部130、波形生成部140から構成されている。
記録媒体110は、全ての合成素片の全ての素片データ(M−1...M−k、H−1...H−k)を格納したデータ取得時間に長短を有する複数の記憶媒体から構成されるている。具体的には、メモリ111とハードディスク(以下、「HDD」という)112から構成されている。メモリ111は、全ての合成素片の全ての素片属性に関する素片データと一部の合成素片の全ての波形データと、全ての合成素片の波形データが格納されている記憶媒体がメモリ111かHDD112の何れであるかを記録したデータ配置情報113を格納している。HDD112は、メモリ111に波形データを格納していない合成素片の波形データを格納している。
合成素片選択部130は、韻律制御部13から入力された合成単位列の各合成単位が有する目標合成音声の音韻・韻律情報・言語情報と、メモリ111に格納されている各合成素片の所定の素片属性の素片データと、前記データ配置情報113と、HDD112からの波形データの取得に関する合成単位列に対する制約とに基づいて、合成単位毎に合成素片を選択して複数の合成素片の組み合わせである合成素片列を生成する。
波形生成部140は、合成単位毎に選択された合成素片の波形データをメモリ111とHDD112から取得し、接続することで合成単位列に対応する合成音声を生成する。
なお、本実施形態の「波形データ」は、波形データを符号化したパラメータ系列でも良く、さらに、ピッチマークなどの「波形データ」と合わせて波形生成部140で利用するデータが付随していても良く、これに限定されるものではない。
また、本実施形態では、データ配置情報113に記録されている素片データの例として「波形データ」を例示しているが、合成素片選択部130より後段の処理で利用する波形データ、または、所定の素片属性に関する素片データであり、かつ、全合成素片にわたっては唯一の記憶媒体に格納されていない(複数の記憶媒体に分散配置されている)場合であれば良く、これに限定されるものではない。
また、データ配置情報113に記録されている情報として「全ての合成素片」に関して記録することを例示したが、結果的に全ての合成素片の波形データに関する素片データが格納されている記憶媒体が一意に決定できれば良く、例えば、データ配置情報113に記録されていないことによって、ある合成素片の所望の素片データが格納されている記憶媒体が決定する場合でもよく、これに限定されるものではない。
なお、この音声合成部14は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。
すなわち、合成素片の素片データを格納するデータ取得時間の異なる属性情報記憶媒体・波形データ記憶媒体と、合成素片の波形データが配置されている記憶媒体を記録したデータ配置情報と、前記各波形データ記憶媒体からの波形データの取得に関する合成単位列に対する制約と前記データ配置情報とに少なくとも基づいて複数の合成素片の組み合わせである合成素片列を生成する合成素片選択部130と、前記合成素片列に含まれる合成素片の波形データを前記記憶媒体より取得して接続する波形生成部140は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。
(3)記録媒体110の構成
本実施形態では、一般的なコンピュータの構成を例として、記憶媒体110を主記憶装置であるメモリ111、補助記憶装置であるHDD112(HD、ハードディクスと同義語として表現)の組み合わせを例示する。
しかし、本実施形態の装置構成にとらわれることなく、外部記憶装置(リムーバブルディスク)を構成に取り入れてもよい。外部記憶装置としては、リムーバブルハードディスクなどの磁気ディスク、CDやDVDなどの光ディスク、各種フラッシュメモリ(NAND型、NOR型、DiNOR型、ORNAND型など)などの半導体メモリが追加され、上記した主記憶装置、補助記憶装置、外部記憶装置から複数の記憶媒体を利用する構成を採っても良い。
また、補助記憶装置の代わりとして外部記憶装置が利用され、上記した主記憶装置、外部記憶装置から複数の記憶媒体を利用する構成を採っても良い。
このように、データ取得時間に長短を有する複数の記憶媒体から構成されれば、どのような組み合わせでも良く、本実施形態の例に限定されるものではない。
(4)音声合成装置10の動作
次に、図1及び図3を用いて、本実施形態に係わる音声合成装置10の動作について説明する。図3は、音声合成装置10の動作を示すフローチャートである。
まず、テキスト取得部11は、外部から音声合成の対象となるテキストデータを取得する(S301)。
次に、言語処理部12は、テキスト取得部11が取得したテキストデータに形態素解析を施して、テキストデータを形態素に分割する(S302)。なお、膠着語ではない言語においては、このステップが省略されることがある。
次に、言語処理部12は、分割された形態素の系列に対して構文解析を施し、読み情報・品詞・活用形・形態素間の係り受けなどの属性値を各形態素に付与する(S303)。
次に、韻律処理部13は、言語処理部12から入力された所定の属性に関する値が付与された形態素の系列の各形態素に対して、その属性値に基づいて、音韻記号列・アクセント型などの韻律に関わる属性値を追加する(S304)。
次に、韻律処理部13は、S303,S304で各形態素に付与された属性値に基づいて、合成音声の目標となる韻律情報を合成単位毎に生成し、各々が音韻記号、韻律情報、言語情報を持つ複数の合成単位から成る合成単位列を生成する(S305)。本実施形態では、音素を合成単位として利用している。
次に、音声合成部14は、所定の制約を満たす複数個の合成単位からなる合成単位列を複数個形成し、各々の合成単位列を処理単位とする(S306)。本実施形態では、処理単位に含まれる合成単位の目標継続時間長の総和が所定の時間以内となるように先頭から順に分割する。
次に、音声合成部14は、対応する合成音声をまだ生成していない処理単位の内、先頭の処理単位に対応する合成音声を生成し、音声波形出力部15に出力する(S307)。このS307に関しては、後に別途詳述する。
次に、音声波形出力部15は、音声合成部14において生成された合成音声の再生を開始し、直ちにS309に移行する。
S307及びS308の処理は、入力されたテキストデータに対応する全ての処理単位に対して行われるまで繰り返される(S309)。
なお、S301〜S304において、解析や必要なデータ取得に使用するデータベースが必要であれば、適宜補えば良い。
また、S305において、本実施形態では音素を合成単位としたが、これに限定するものではない。
また、S306において、本実施形態では、各合成単位の継続時間長の総和を基準として合成単位列を分割して複数の処理単位を形成したが、先頭から順に所定の個数の合成単位から成る処理単位に分割しても良い。
また、本実施形態では、S306において所定の制約を設けて複数個の処理単位を形成したが、例えば、韻律処理部13から入力された合成単位列全体が所定の制約を満たす場合などのように、制約を設けずに、韻律処理部13から入力された合成単位列全体を1つの処理単位とみなして、以降の処理を行っても良い。この場合、S307において音声合成部14は処理単位を選択する必要がなく。また、S308において音声波形出力部15はS309に移行する必要がなく、S309の処理は省略される。
(5)音声合成部14の動作
次に、図2及び図4を用いて、音声合成部14の動作について説明する。図4は、音声合成部14の1つの処理単位に対する動作を示すフローチャートである。
(5−1)予備選択
まず、合成素片選択部130は、前記所定の処理単位に含まれる合成単位毎に複数の合成素片を予備的に選択し、候補数を絞り込む。すなわち、予備選択を行う(S401)。この予備選択は、第1予備選択と第2予備選択の二段階がある。
(5−1−1)第1予備選択
第1予備選択は、各合成単位において、同一の音韻記号が付与された合成素片の集合を選択する。すなわち、その音韻記号を用いて合成素片の集合を選択して、目標となる合成音声の各合成単位が対応する区間を生成するのに利用する合成素片の選択の幅を限定する。これによって、当該区間を構成するのに適した一定の共通する特性を有する波形データをもつ合成素片が後の処理によって選択されることを保証する。
(5−1−2)第2予備選択
第2予備選択は、第1予備選択で選択された同一の音韻記号が付与された合成素片の集合の各要素と目標となる韻律情報、言語情報が付与された合成単位とを以下のようにして比較する。
所定のN個の各属性Kに関して、図5のように、合成単位T(i=0,・・・,n−1)が有する目標とする韻律情報あるいは言語情報Attrib(T)と各合成素片Uij(j=0,・・・,M−1)の有する属性値Attrib(Uij)との差異の程度diffTARGET,K(T,Uij)を算出する。算出には、属性K毎に定められたターゲットサブコスト関数SubCostTARGET,K(Attrib(T),Attrib(Uij))を用いる。
Figure 2007264503
それら所定の各属性に関する目標の合成単位Tと各合成素片Uijとの差異diffTARGET,K(T,Uij)の重み付き和(重みw(k=1,・・・,N))をもって、合成単位Tと各合成素片Uijとの差異の程度DIFFTARGET(T,Uij)(ターゲットコスト)を算出する。
Figure 2007264503
その後、合成単位Tにおいて、目標となる合成音声の要素である各合成単位との差異の程度DIFFTARGET(T,Uij)が小さいものから順に所定の個数Mの合成素片をUij(j=0,・・・,M−1)から選択し、それら選択された合成単位TのUSELECTED,ij(j=0,・・・,M−1)を以降の処理対象とする。この処理を、処理単位内の全ての合成単位T(i=0,・・・,n−1)に対して行う。
なお、本実施形態では、目標となる合成音声の要素である各合成単位との差異DIFFTARGET(T,Uij)を、各属性Kに関する差異diffTARGET,K(T,Uij)の重み付き和をもって算出したが、例えば、積によって算出されても良く、これに限定させるものではない。
また、本実施形態では、各合成単位において所定の個数を上限とした合成素片を選択したが、例えば、差異の程度DIFFTARGET(T,Uij)の値に対する閾値を設けて、各合成単位にに対して相応しい合成素片を閾値処理によって選択しても良く、これに限定させるものではない。
また、本実施形態では、以降の処理量の削減を目的として、各合成単位において所定の個数を上限とした合成素片を予備的に選択したが、例えば、合成素片の数が前記個数以下である場合のように、以降の処理が十分に高速に行えるのであれば選択する処理は必須ではない。
(5−2)合成素片列の決定
次に、S402からS409まで合成素片選択部130は、Dynamic Programing(DP)によって、S401で合成単位T(i=0,・・・,n−1)毎に予備的に選択されている合成素片USELECTED,ij(j=0,・・・,M−1)をノード(Node)とした合成素片の系列であるパス(Path)の探索(仮説展開と評価)を行い、複数個の合成素片からなる合成素片列を複数本、当該処理単位に対して決定する。
より詳細には、合成単位Tと比較して選択された合成素片USELECTED,ij毎に(j=0,・・・,M−1)、その合成素片USELECTED,ijが、合成素片USELECTD,(i−1)jに接続されている合成単位Ti−1以前の全てのパス(合成素片の系列)に後続することを仮定する。それら仮定されたT以前のパス(仮説パス)を評価する。その内、評価結果が上位Q位までの仮説パスのみを選択し、パス(合成素片の系列)を一意に特定できる情報と評価結果のQつの組を合成素片USELECTED,ijに記録する。
この一連の処理を合成単位Tと比較して選択された全ての合成素片USELECTED,ij(j=0,・・・,M−1)で行い(S403からS408)、完了後、後続の合成単位Ti+1に進んで同様の操作を行う(S402からS409)。
(5−3)S404からS407までの処理
以下では、S404からS407までの処理に対して、図6〜図10を参照しながら例示する。
まず、合成素片選択部130は、図6(a)のように、合成単位Tの合成素片USELECTED,1j(j=0,・・・,4)に接続されているT以前の全てのパス(破線及び太実線)に当該合成素片USELECTED,20(合成単位Tの合成素片j=0)が接続することを仮定する(破線及び太実線)。記憶媒体110から波形データの取得に関する当該合成単位列(処理単位:TからT)に対する制約を満たさないパス((USELECTED,00,USELECTED,11,USELECTED,20)、(USELECTED,03,USELECTED,14,USELECTED,20))をそれら仮定したパスの中から除外し、以後の評価対象から外す(太実線)(S404)。
(5−3−1)制約の適用方法
記憶媒体110から波形データの取得に関する当該合成単位列(処理単位)に対する制約の適用方法について詳述する。
本実施形態では、制約として、合成素片選択部130より後の処理で利用する素片データ(波形データ)をHDD112から取得する処理単位当たりの上限回数が与えられた場合を例示する。
データ配置情報113には、全ての合成素片に対して、合成素片選択部130より後の処理で利用する波形データ、または、所定の素片属性の素片データが格納されている記憶媒体が判別できるように、各合成素片の素片IDと各記憶媒体の識別子とが対応付けて格納されている(図6(b)参照)。
本実施形態では、波形生成部140で利用する波形データに関して、図6(b)のように、全合成素片(4892個)の素片ID(1〜4892)と波形データが格納されている記憶媒体の識別子(メモリ111は「1」、HDD112は「2」)とが対応付けて格納されている。
まず、仮定したパス上の各合成素片の素片IDを用いて、合成素片選択部130より後段の処理で利用する各合成素片の所定の素片データが何れの記憶媒体に格納されているのかをデータ配置情報113を用いて導出する。
本実施形態では、波形生成部140で利用する各合成素片の波形データがメモリ111かHDD112の何れに保存されているのかを判別する。図6(a)の合成素片(丸印)上に記した数字は、格納されている記憶媒体の識別子を示したものである。「1」はメモリ111を表し、「2」はHDD112を表す。
次に、合成素片選択部130より後段の処理において処理単位に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約と、仮定した各パス上にある全合成素片の前記所定の素片データの全記憶媒体における配分状況とを比較し、制約を満たさない仮定したパスを以降の評価対象から削除する。
本実施形態では、制約として、波形生成部140において処理単位(合成単位Tから合成単位Tまでの合成単位列)に対する合成音声を生成する際にHDD112から波形データを取得する上限回数を2回と定め、図6(a)のように、合成単位Tの合成素片j=0(USELECTED,20)に接続するパス(破線と太実線)の内、波形生成部140においてHDD112から3回以上波形データを取得する必要があるパス(太実線:(USELECTED,00,USELECTED,11,USELECTED,20)、(USELECTED,03,USELECTED,14,USELECTED,20))を選択し、以降の評価対象から除外している。
このようにして、データ取得に関する制約を仮定した全てのパスを適用して、制約を満たさないパスを以降の評価対象から除外する。
上記したように、合成素片選択部130より後段の処理で利用するデータを得る為にアクセスが必要となる各記憶媒体へのアクセス回数を制限することによって、データ取得に要する時間の上限であるデータ取得上限時間を制御、抑制できれば良く、その制約の考え方や変更方法によって本発明の効果が限定されるものではない。例えば、以下に示すような方法が考えられる。
(5−3−2)制約の適用方法の変更例1
本実施形態では、制約として上限回数を利用する場合を示した。しかし、上記したように1つの処理単位に含まれる合成単位の数が固定であって、利用する記憶媒体が2種類の場合など、高速なデータ取得が可能にある記憶媒体(例えば、メモリ111)から波形データを取得する下限回数を制約として利用しても同様の効果が得られる(下限値を満たさないパスが以降の評価対象から除外される)。
(5−3−3)制約の適用方法の変更例2
本実施形態では、現在仮定しているパスに適用する制約として、HDD112のみへのアクセス回数の制約を例示したが、上記したように、3つ以上の記憶媒体がある場合などは、それぞれの記憶媒体にアクセス回数に関する制約を個別に設けても良く、これに限定されるものではない。
(5−3−4)制約の適用方法の変更例3
回数として与えられた制約を現在仮定しているパスにそのまま適用する必要はなく、例えば、処理単位において、全合成単位の継続時間長の総和と合成単位Tから現在の合成単位Tまでの継続時間長との総和との比を制約として与えられた上限回数或いは下限回数に乗じて、各合成単位において制約を動的に変更しても良く、これに限定されるものではない。
(5−3−5)制約の適用方法の変更例4
本実施形態では、各記憶媒体からの素片データの取得に関する合成単位列に対する制約を定数として与えられている場合を例示しているが、実施装置における各記憶媒体のアクセス速度に応じて制約を固定値として外部から指定しても良く、或いは、他のプロセスの各記憶媒体の使用状況、または、使用予定に応じて制約値を動的に変更してもよく、これに限定されるものではない。
(5−4)接続コストの算出
次に、合成素片選択部130は、図7(a)、図7(b)のように、当該合成素片USELECTED,ijと前記仮定したパス上の直前の各合成素片USELECTED,(i−1)s(s=0,・・・,S−1)とが隣接することに対する違和感の程度(接続コスト)DIFFCONC(USELECTED,(i−1)s,USELECTED,ij)を求める(S405)。
合成素片間の接続コストDIFFCONC(USELECTED,(i−1)s,USELECTED,ij)(i=2,j=0,s=0,・・・,4)の算出方法について詳述する。
各合成素片USELECTED,(i−1)s(i−1=1,s=0,・・・,4)、USELECTED,ij(i=2,j=0)が有する所定のM個の各属性Pにおいて、属性値Attrib(USELECTED,(i−1)s)、Attrib(USELECTED,ij)の不自然な変動の程度diffCONC,P(USELECTED,(i−1)s ,USELECTED,ij)を算出する。算出には、属性P毎に定められた接続サブコスト関数SubCostCONC,P(Attrib(USELECTED,(i−1)s),Attrib(USELECTED,ij))を用いる。
Figure 2007264503
それら所定の各属性に関する隣接する合成素片間の不自然な変化diffCONC,P(USELECTED,(i−1)s,USELECTED,ij)の重み付き和(重みw(p=1,・・・,M))をもって、当該合成素片USELECTED,ij (i=2,j=0)と前記仮定したパス上の直前の各合成素片USELECTED,(i−1)s(i−1=1,s=0,・・・,4)とが隣接することに対する違和感の程度(接続コスト)DIFFCONC(USELECTED,(i−1)s,USELECTED,ij)を算出する。
Figure 2007264503
なお、本実施形態では、当該合成素片USELECTED,ij(i=2,j=0)と前記仮定したパス上の直前の各合成素片USELECTED,(i−1)s(i−1=1,s=0,・・・,4)とが隣接することに関する違和感の程度DIFFCONC(USELECTED,(i−1)s,USELECTED,ij)を各属性Pに関する程度diffCONC,P(USELECTED,(i−1)s,USELECTED,ij)の重み付き和をもって算出したが、例えば、積によって算出されても良く、これに限定されるものではない。
(5−5)トータルコストの算出
次に、合成素片選択部130は、S401で求めたターゲットコストDIFFTARGET(T,Uij)とS405で求めた接続コストDIFFCONC(USELECTED,(i−1)s,USELECTED,ij)と合成単位Ti−1の各合成素片USELECTED,(i−1)sが格納していた合成単位Tから合成単位Ti−1までのQ本のパス(合成素片の系列)Path(i−1)sq(q=1,・・・,Q)に対する総合評価(トータルコスト)Cost(Path(i−1)sq)とを利用して、S404において選択された各仮説パス(USELECTED,ij,Path(i−1)sq)(s=0,・・・,S−1、q=1,・・・,Q、最大SxQ本)に対するトータルコストを式(3)によって算出する(S406)。
Figure 2007264503
図8は、それら仮説パスの内の1本である(USELECTED,20,USELECTED,12,USELECTED,03,UDecided)に対する総合評価(トータルコスト)を導出する際の模式図である。
合成素片USELECTED,20のターゲットコストDIFFTARGET(T,USELECTED,20)と、合成素片USELECTED,20とUSELECTED,12間の接続コストDIFFCONC(USELECTED,12,USELECTED,20)と合成素片USELECTED,12が格納していた1本目のパスPath121 (Path12q,q=1:(USELECTED,12,USELECTED,03,UDecided))に対する総合評価(トータルコスト)Cost(Path121)との関係を示した図である。
なお、本実施形態では、仮説パス(USELECTED,ij,Path(i−1)sq)に対するトータルコストをS401で求めたターゲットコストDIFFTARGET(T,Uij)とS405で求めた接続コストDIFFCONC(USELECTED,(i−1)s,USELECTED,ij)と合成素片USELECTED,(i−1)sが格納していた合成単位Tから合成単位Ti−1までのパスPath(i−1)sqに対するトータルコストCost(Path(i−1)sq)との和をもって算出したが、例えば、積で算出するなどでも良く、これに限定されるものではない。
(5−6)ランク分け
(5−6−1)ランク分けの概要
次に、合成素片選択部130は、図9、図10、図11のように、S404において残った各パスについて(最大SxQ本)、合成素片選択部130より後段の処理において処理単位に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約に対する充実の度合いを調べて、Q個のランクに分ける。なお、「ランク」とは、HDD112から波形データを取得する回数をいう。
さらに、図12のように、S406において導出したトータルコストが最も低い各ランクにおける最適なパスを1つ選択し、最終的に合成単位Tの合成素片USELECTED,ijが記憶すべきQ本のパスを選択し、合成素片の系列を示すパスPathijq(q=1,・・・,Q)と各々のトータルコストCost(Pathijq)を記録し、その他のパスに関する情報を全て破棄する(S407)。
(5−6−2)制約に対する充実度
データ取得に関する制約に対する充実の度合いについて詳述する。
本実施形態では、上記した上限回数を1回を単位としてランク分けし、それら上限回数の各ランクを利用した場合を例示する。
S404において用いたデータ取得に関する制約より強い制約を複数段階用意する。合成素片選択部130より後段の処理において処理単位(合成単位列)に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約と、仮定した各パス上にある全合成素片の前記所定の素片データの全記憶媒体における配分状況とを比較し、より強い制約に対する合否の組み合わせによって、それぞれの仮説パスにランク付けを行う。
本実施形態では、波形生成部140において処理単位に対する合成音声を生成する際にHDD112から波形データを取得する条件回数を1回ずつ減少させていくことで、すなわち、ランクを変えていく。そして、1回・0回までとした強い制約を新たに設けて、0回までの制約を満たすパスのランク、0回より多く1回までの制約を満たすパスのランク、1回より多く2回までの制約を満たすパスのランクの合計3個のランクに分ける。最初のランクである0個までの制約を満たすパス(太線)は無く(図9)、2個目のランクである0個より多く1個までの制約を満たすパス(太実線)を図10は示しており、3個目のランクである1個より多く2個までの制約を満たすパス(太実線)を図11は示している。
このようにして、各記憶媒体からのデータの取得に関する制約に対する充実度に従ってランク分けされた各仮説パス群から最適なパスを1本選択し、それらのパスに対してのみ、以降の処理によって仮説展開が進められる。
本実施形態においては、図12に示したとおり、パスPath200=(None)、Path201=(USELECTED,20,USELECTED,10,USELECTED,01,UDecided)とそのトータルコストCost(Path201)、パスPath202=(USELECTED,20,USELECTED,12,USELECTED,03,UDecided)とそのトータルコストCost(Path202)が合成素片USELECTED,20に格納されて以降の処理が継続される。
上記したように、制約に関する充実度によってランク分けされた各パス群の中でより良いパスを選択し、今後の処理を続けていくことによって、現在の合成単位より後の合成単位において制約を犯す可能性のある合成素片を仮定したパスに追加することが可能となる。
(5−6−3)制約に対する充実度に関する変更例
なお、以降の処理によって制約を侵す可能性のある合成素片を追加する余地を残す目的が達せられれば良く、そのランク分けの方法と選択するパスの本数によって本発明の効果が限定されるものではない。例えば、以下に示すような方法が考えられる。
本実施形態では、現在仮定しているパスのランク分けに利用する一層限定した制約を設定する方法として、等間隔のステップ(1回)を利用した。しかし、等間隔である必要はなく、1回以下(0回と1回)と2回の2つのランクに分ける場合も考えられ、これに限定されるものではない。
また、本実施形態では、制約を強めて各充実度のランク毎に最適なパスを1つ選択しているが、複数であっても良い。
また、上記したように、時間として与えられた制約や回数として与えられた制約を、全合成単位の継続時間長の総和と合成単位Tから現在の合成単位Tまでの継続時間長の総和との比を制約として与えられた回数・時間に乗じて利用するような、各合成単位における制約を動的に緩和するように変更していく方法でも良い。このような制約を動的に緩和させていく場合には、各合成素片に対して最適なパスを唯一選択する方式をとっても良いし、上位複数のパスを選択しても良い。
(5−7)まとめ
このようにして、S404からS407の処理を当該合成単位中の各合成素片に対して施し(S403からS408)、S403からS408の処理を当該処理単位中の各合成単位に対して施し(S402からS409)、図13のように、データ取得に関する制約を満たすパスを1つの処理単位に対して複数本導出する。
(5−8)変更例
なお、本実施形態では、記憶媒体110からの素片データの取得に関する合成単位列に対する制約を満たすように逐次的な仮説展開と評価による合成素片列の選択を行った。
しかし、例えば、所定の個数の合成単位毎に記憶媒体110からの素片データの取得に関する制約を考慮したパスの選択を行い、その間の合成単位におけるパス選択では、制約を考慮しない従来手法のコスト関数を用いたパス選択を行う方法も考えられる(図23)。
また、極端な場合には、処理単位の最初の合成単位Tから最後の合成単位Tn−1まで、記憶媒体110からの素片データの取得に関する合成単位列に対する制約を考慮せずに合成素片列を選択し、最後に記憶媒体110からの素片データの取得に関する合成単位列に対する制約を満たす合成単位列のみを選択してもよく、これに限定されるものではない。
(5−9)Best Pathの決定
次に、合成素片選択部130は、合成単位Tn−1(=T)の合成素片が格納する全てのパスPath(n−1)jq(j=0,・・・,S−1、q=1,・・・,Q)をトータルコストCost(Path(n−1)jq)で比較することによって評価する。図14のように、最もトータルコストが低いパスPath432=(USELECTED,43,USELECTED,32,USELECTED,20,USELECTED,10,USELECTED,01,UDecided)を当該処理単位における最適なパスと位置付け、当該パスPath432上にある合成素片の系列を出力する(S410)。
(5−10)波形データの接続
次に、波形生成部140は、合成素片選択部130から入力された合成素片の系列に従って、波形データ、または、所定の属性の素片データを記憶媒体110から取得し、当該処理単位に対する合成音声を生成する(S411)。
本実施形態では、メモリ111とHDD112から波形データを、メモリ111からピッチ周期などのその他付随する素片データを取得し、ピッチ同期波形重畳方式(PSOLA)などの公知技術によって当該処理単位に対する合成音声を生成する。
(6)効果
このように、第1の実施形態に係わる音声合成装置10によれば、合成素片選択部130より後段の波形生成部140で利用する所定の素片データの配置に関する情報とデータ取得に関する合成単位列に対する制約とを考慮しつつ合成素片の系列を選択することで、後段の波形生成部140で合成音声を生成する際に利用する波形データのデータ取得を確実に制御できる。
また、低速なデータ取得しか成し得ない記憶媒体から所定の素片データを取得することが集中してデータ取得の所要時間が各処理単位に対する合成音声の生成に要する時間において過大となることを防ぐ。これにより、合成音声の生成に要する時間に処理単位間で大きな差が生じることを避け、また、データ取得に起因する合成音声の生成に要する時間の増大を確実に抑制することが可能となる。
また、1文章などの複数の処理単位からなる入力に対して、先頭の処理単位から順次的に合成音声を生成し、全処理単位に対する合成音声の生成を完了する前に既に生成・蓄積されている合成音声を再生し始める機構を持つ音声合成装置においては、波形データの取得に起因する合成音声の生成に要する時間の増大を確実に抑制することにより、既に生成・蓄積されている合成音声を全て再生し終えても次に再生すべき合成音声の生成が完了しない「音途切れ」の発生を抑制することが可能となる。
また、データ取得時間の過大に因る「音途切れ」の発生を抑制することにより、波形データが配置された記憶媒体のデータ取得に要する時間の大小に囚われずに波形データを配置できるため、利用可能なデータが増えることで合成音声の音質が向上することを期待できる。
(第2の実施形態)
次に、本発明の第2の実施形態の音声合成装置16について図15から図23に基づいて説明する。
本実施形態では、記憶媒体に3種類(主記憶装置、補助記憶装置、外部記憶装置)の記憶媒体を持つ構成を例示する。それら記憶媒体からのデータ(波形データ)取得に関する合成単位列に対する制約として、データ取得に要する概算時間を利用した場合を例示する。
(1)音声合成装置16の構成
図15は、本実施形態に係わる音声合成装置16を示すブロック図である。
音声合成装置16は、上記した第1の実施形態と同様に、外部から音声合成の対象となるテキストデータを取得するテキスト取得部11と、テキストデータに形態素解析・構文解析を行う言語処理部12と、テキストデータのアクセントや品詞などの韻律や言語に関わる属性に基づいて、合成単位列を音声合成部17に出力する韻律処理部13と、合成単位列から合成音声を生成する音声合成部17と、出力された所定の量の合成音声を蓄積後、または、出力された合成音声を逐次的に再生する音声波形出力部15とを備えている。
上記テキスト取得部11、言語処理部12、韻律処理部13、音声波形出力部15は、第1の実施形態と同一の処理を行い、音声合成部17は一部異なる処理を行う。
なお、韻律処理部13から音声合成部17に引き渡される合成単位列を構成するそれぞれの合成単位にも、第1の実施形態と同様の情報(音韻記号、韻律情報、言語情報など)が付与されている。
図16は、本発明の第2の実施形態に係わる音声合成装置16の音声合成部17を示すブロック図である。
(2)音声合成部17の構成
音声合成部17は、第1の実施形態とは異なり、メモリ115とHDD112に加えて新たにNAND型フラッシュメモリ116が記憶媒体114に付与されている。
音声合成部17は、記録媒体114、合成素片選択部131、波形生成部141から構成されている。
記録媒体114は、全ての合成素片の全ての素片データ(M−1...M−k、H−1...H−k)を格納したデータ取得時間に長短を有する複数の記憶媒体から構成されるている。具体的には、メモリ115とHDD112、NAND型フラッシュメモリ116から構成されている。
メモリ115は、全ての合成素片の全ての素片属性に関する素片データと一部の合成素片の全ての波形データと、全ての合成素片の波形データが格納されている記憶媒体がメモリ115かHDD112かNAND型フラッシュメモリ116の何れであるかを記録したデータ配置情報117とを格納している。
HDD112とNAND型フラッシュメモリ116とは、メモリ115に波形データを格納していない合成素片の波形データを格納している。
合成素片選択部131は、韻律制御部13から入力された合成単位列の各合成単位が有する目標合成音声の音韻・韻律情報・言語情報と、メモリ115に格納されている各合成素片の所定の素片属性の素片データと、前記データ配置情報117と、メモリ115・HDD112・NAND型フラッシュメモリ116からの波形データの取得に関する合成単位列に対する制約とに基づいて、合成単位毎に合成素片を選択して複数の合成素片の組み合わせである合成素片列を生成する。
波形生成部141は、合成単位毎に選択された合成素片の波形データをメモリ115とHDD112とNAND型フラッシュメモリ116から取得し、接続することで合成単位列に対応する合成音声を生成する。
本実施形態では、記憶媒体114を主記憶装置であるメモリ115、補助記憶装置であるHDD112に、外部記憶装置としてNAND型フラッシュメモリ116が加わった構成の組み合わせを例示する。しかし、上記したように、外部記憶装置としてはその他に多種多様な装置を組合すことが考えられ、さらには、主記憶装置と外部記憶装置を利用した構成を採ることも可能であるが、データ取得時間に長短を有する複数の記憶媒体から構成されれば、どのような組み合わせでも良く、本実施形態の例に限定されるものではない。
(3)音声合成装置16の動作
以下では、本実施形態に係わる音声合成装置16の動作について、第1の実施形態との差異についてのみ説明する。
すなわち、音声合成装置16の動作は、図3に示した第1の実施形態に係わる合成音声装置10の動作内容とS307を除いて同一である。また、その動作内容に差異があるS307の動作内容は、図4に示した第1の実施形態に係わる合成音声装置10の音声合成部14が行うS404とS407を除いて同一である。
(4)音声合成部17の動作
以下では、図17〜図22を用いて、音声合成部17の第1の実施形態に係わる動作内容と異なるS504とS507について述べる。
合成素片選択部131は、図18(a)のように、合成単位Tの合成素片に接続されているT以前の全てのパス(破線及び太実線)に当該合成素片U20(合成単位Tの合成素片j=0)が後続することを仮定し(破線及び太実線)、記憶媒体114からの波形データの取得に関する当該合成単位列(処理単位:TからT)に対する制約を満たさないパスをそれら仮定したパスの中から除外し、以後の評価対象から外す(太実線)(S504)。
(5)制約の適用方法
本実施形態での記憶媒体114からの波形データの取得に関する当該合成単位列(処理単位)に対する制約の適用方法について詳述する。
本実施形態では、制約として、合成素片選択部131より後の処理で利用する素片データ(波形データ)を記憶媒体114から取得するのに要する処理単位当たりの上限時間が与えられた場合を例示する。
データ配置情報117には、第1の実施形態と同様に、全ての合成素片に対して、合成素片選択部131より後の処理で利用する波形データ、または、所定の素片属性の素片データが格納されている記憶媒体が判別できるように各合成素片の素片IDと各記憶媒体の識別子とが対応付けて格納されている。
本実施形態では、波形生成部141で利用する波形データに関して、図18(b)のように、全合成素片(4892個)の素片ID(1〜4892)と波形データが格納されている記憶媒体の識別子(メモリ115は「1」、HDD112は「2」、NAND型フラッシュ116は「3」)とが対応付けて格納されている。
まず、仮定したパス上の各合成素片の素片IDを用いて、合成素片選択部131より後段の処理で利用する各合成素片の所定の素片データが何れの記憶媒体に格納されているのかをデータ配置情報117を用いて導出する。
本実施形態では、波形生成部141で利用する各合成素片の波形データがメモリ115かHDD112かNAND型フラッシュメモリ116の何れに格納されているのかを判別する。図18(a)の合成素片(丸印)上に記した数字は、格納されている記憶媒体の識別子を示したものである。「1」はメモリ115を表し、「2」はHDD112を表し、「3」はNAND型フラッシュメモリを表す。
次に、合成素片選択部131より後段の処理において処理単位に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約と、仮定した各パス上にある全合成素片の前記所定の素片データの全記憶媒体における配分状況に基づいて算出された評価結果とを比較し、制約を満たさない仮定したパスを以降の評価対象から削除する。
本実施形態では、制約として、波形生成部141において処理単位(合成単位Tから合成単位Tまでの合成単位列)に対する合成音声を生成する際に記憶媒体114から波形データを取得するのに要する時間を100msec未満と定め、図18(a)のように、合成単位Tの合成素片USELECTED,20に接続するパス(破線と太実線)の内、波形生成部141において記憶媒体114から波形データを取得するのに要する時間が100msec以上かかるパス(太実線)を選択し、以降の評価対象から除外する。
より具体的には、各記憶媒体からデータを取得するのに要する時間の概算値と、データ配置情報117より導出した各パス上の全合成素片の波形データが格納されている記憶媒体の分布、すなわち、以後アクセスが必要な各記憶媒体へのアクセス回数の累計とから、次式を満たすパスを以後の評価対象から削除する。
Figure 2007264503
例えば、図18(a)の一番下の実線で示したパス(USELECTED,20、USELECTED,14、USELECTED,03)の場合、
Figure 2007264503
となり、削除される。なお、各記憶媒体からのデータ取得に要する時間の概算値は、各記憶媒体の製造企業が提供する情報を利用すればよい。
このようにして、データ取得に関する制約を仮定した全てのパスに適用して、制約を満たさないパスを以後の評価対象から除外する。
また、時間として与えられた制約を現在仮定しているパスにそのまま適用する必要はなく、例えば、処理単位において、全合成単位の目標継続時間長の総和と合成単位Tから現在の合成単位Tまでの目標継続時間長の総和との比を制約として与えられた時間に乗じて、各合成単位において制約を動的に増加(変更)しても良く、これに限定されるものではない。
また、本実施形態では、各記憶媒体からの素片データの取得に関する合成単位列に対する制約を定数として与えられている場合を例示しているが、本発明を実施する装置における各記憶媒体のアクセス速度に応じて制約を固定値として外部から指定しても良く、或いは、他のプロセスの各記憶媒体の使用状況、または、使用予定に応じて制約値を動的に変更してもよく、その制約値の与え方や変更方法によって本実施形態の効果が限定されるものではない。
(7)各ランクでのBest Pathの格納
次に、S507について述べる。
合成素片選択部131は、図19、図20のように、S504において残った各パスについて、合成素片選択部131より後段の処理において処理単位に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約に対する充実の度合いを調べて、Q個のランクに分ける。さらに、図21のように、各ランクにおいてS406において導出したトータルコストが最も低い最適なパスを1つ選択し、最終的に合成単位Tiの合成素片USELECTED,ijが記憶すべきQ本のパスを選択し、合成素片の系列を示すパスPathijqと各々のトータルコストCost(Pathijq)を記録し(q=1,・・・,Q)、その他のパスに関する情報を全て破棄する(S507)。
(8)制約に対する充実度
データ取得に関する制約に対する充実の度合いについて詳述する。
本実施形態では、上記した上限所要時間を50msecを単位としてランク分けし、それら上限所要時間の各ランクを利用した場合を例示する。
本実施形態においても、S504において用いたデータ取得に関する制約より強い制約を複数段階用意し、合成素片選択部131より後段の処理において合成単位列(処理単位)に対する処理を実施する際の各記憶媒体からの素片データの取得に関する制約と、仮定した各パス上にある全合成素片の前記所定の素片データの全記憶媒体における配分状況に基づいて算出された評価結果とを比較し、より強い制約に対する合否の組み合わせによって、それぞれのパスにランク付けを行う。
本実施形態では、波形生成部141において処理単位に対する合成音声を生成する際に記憶媒体114から波形データを取得する為の所要時間の上限を50msecずつ減少させていくことで、50msec未満とした強い制約を新たに設けて、50msec未満の制約を満たすパス、100msecの制約を満たすパスの2個のランクに分ける。50msec未満の制約を満たすパス(太実線)を図19は示しており、50msec以上100msec未満の制約を満たすパス(太実線)を図20は示している。
このようにして、各記憶媒体からのデータ取得に関する制約に対する充実度に従ってランク分けされた各パス群から最適なパスを1本選択し、それらのパスに対してのみ、以降の処理によって仮説展開が進められる。
上記したように、制約に関する充実度によってランク分けされた各パス群の中でより良いパスを選択し、今後の処理を続けていくことによって、現在の合成単位より後の合成単位において制約を犯す可能性のある合成素片を仮定したパスに追加することが可能となるのである。このように、以後の処理によって制約を侵す可能性のある合成素片を追加する余地を残す目的が達せられれば良く、そのランク分けの方法と選択するパスの本数によって本実施形態の効果が限定されるものではない。例えば、以下に示すような方法が考えられる。
本実施形態では、現在仮定しているパスのランク分けに利用する一層限定した制約を設定する方法として、等間隔のステップ(50msec)を利用した。しかし、等間隔である必要はなく、25msec未満と25msec以上50msec未満と50msec以上100msec未満の3つのランクに分ける場合も考えられ、これに限定されるものではない。
また、本実施形態では、制約を強めて各充実度のランク毎に最適なパスを1つ選択しているが、複数であっても良い。
また、例えば、上記したように、時間として与えられた制約として与えられた制約を、全合成単位の継続時間長の総和と合成単位Tから現在の合成単位Tまでの継続時間長の総和との比を制約として与えられた回数・時間に乗じて利用するような、各合成単位における制約を動的に緩和するように変更していく方法でも良く。このような制約を動的に緩和させていく場合には、各合成素片に対して最適なパスを唯一選択する方式をとっても良いし、上位複数のパスを選択しても良い。
(9)制約を満たすパスの導出
このようにして、S504・S405・S406・S507の処理を当該合成単位中の各合成素片に対して施し(S403からS408)、S403からS408の処理を当該処理単位中の各合成単位に対して施し(S402からS409)、図22のように、データ取得に関する制約を満たすパスを1つの処理単位に対して複数本導出する。
(10)効果
このように、第2の実施形態に係わる音声合成装置16によれば、合成素片選択部131より後段の波形生成部141で利用する所定の素片データの配置に関する情報とデータ取得に関する合成単位列に対する制約とを考慮しつつ合成素片の系列を選択することで、後段の波形生成部141で合成音声を生成する際に利用する波形データのデータ取得を確実に制御でき、低速なデータ取得しか成し得ない記憶媒体から所定の素片データを取得することが集中してデータ取得の所要時間が各処理単位に対する合成音声の生成に要する時間において過大となることを防ぎ、合成音声の生成に要する時間に処理単位間で大きな差が生じることを避け、また、データ取得に起因する合成音声の生成に要する時間の増大を確実に抑制することを可能となる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
例えば、本発明を実施する機器構成やその性能や使用環境によってデータ取得時間が変動し得る、しかし、各波形データを格納した記憶媒体からの波形データの取得に関わる制約を外部より指定することを可能とすることによりデータ取得時間の過大に因る「音途切れ」の発生を実施装置に適応させて抑制することができるので、実施する装置に合わせた音質を実現することができる。さらに、全処理単位に対応する合成音声を全て生成・蓄積してから再生を開始する構成をとる音声合成装置においては、時間を問わず高品質な合成音声を生成することも可能となる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係わる音声合成装置の構成を示すブロック図である。 本発明の第1の実施形態に係わる音声合成装置の合成音声部14の構成を示すブロック図である。 本発明の第1の実施形態に係わる音声合成装置の動作を示すフローチャートである。 本発明の第1の実施形態に係わる合成音声装置の合成音声部14の動作を示すフローチャートである。 予備選択の説明に用いる図である。 (a)はデータ取得に関する制約を満たさない場合の処理に対する説明図であり、(b)はデータ配置情報の内部構造に対する1実施形態(波形データに関するテーブル)である。 (a)は接続コスト算出の説明に用いる図であり、(b)は接続コスト算出の説明に用いる図である。 トータルコストの算出の説明に用いる図である。 データ取得の制約に関する説明図(各アクセスランクのBest Path算出1)である。 データ取得の制約に関する説明図(各アクセスランクのBest Path算出2)である。 データ取得の制約に関する説明図(各アクセスランクのBest Path算出3)である。 全アクセスランクのBeSTパスに対するパスとトータルコストの格納の説明図である。 データ取得の制約に関する説明図(処理単位への適用が完了した際の結果)である。 データ取得の制約に関する説明図(処理単位でのBest Path)である。 実施形態2の全体の構成に関わる音声合成装置のブロック図である。 本発明の第2の実施形態に係わる音声合成装置の合成音声部17の構成を示すブロック図である。 本発明の第2の実施形態に係わる合成音声装置の合成音声部17の動作を示すフローチャートである。 (a)はデータ取得に関する制約を満たさない場合の処理に対する説明図であり、(b)はデータ配置情報の内部構造に対する1実施形態(波形データに関するテーブル)である。 データ取得の制約に関する説明図(各アクセスランクでのBest Path選択1)である。 データ取得の制約に関する説明図(各アクセスランクでのBest Path選択2)である。 全ランクでのBest Pathである。 データ取得の制約に関する説明図(処理単位でのデータ取得に関する制約の適用が完了した時点)である。 データ取得に関する制約を複数の合成単位間隔で適用する場合の図である。
符号の説明
10 音声合成装置
11 テキスト取得部
12 言語処理部
13 韻律処理部
14 音声合成部
15 音声波形出力部

Claims (10)

  1. 入力された合成単位列に含まれる所定の処理単位内の複数の合成単位に対応する合成素片の波形データをそれぞれ取得して、これら波形データを接続することで音声を合成する音声合成装置において、
    前記合成素片の波形データ以外の属性情報を格納した属性情報記憶媒体と、
    前記合成素片の波形データをそれぞれ格納し、かつ、前記格納した波形データを取得するためのデータ取得時間が異なる複数の波形データ記憶媒体と、
    前記波形データが格納されている波形データ記憶媒体の識別子を含むデータ配置情報を前記合成素片毎に格納したデータ配置情報記憶媒体と、
    前記処理単位内の前記各合成単位の属性情報に基づいて、前記各合成単位に対応する合成素片候補を前記属性情報記憶媒体からそれぞれ取得する候補取得部と、
    前記合成単位毎に取得した複数の合成素片候補のそれぞれの組み合わせから構成された複数の系列を求め、前記処理単位内における前記各合成素片の波形データのデータ取得時間の合計がデータ取得上限時間を越えないように、前記データ配置情報に基づいて前記複数の系列から一の系列を選択する合成素片選択部と、
    前記選択した一の系列上にある合成素片を組み合わせて合成素片列を生成する合成素片生成部と、
    前記合成素片列に含まれる合成素片の波形データを前記各波形データ記憶媒体からそれぞれ取得して接続する波形生成部と、
    を備える
    ことを特徴とする音声合成装置。
  2. 前記データ取得上限時間が、前記各波形データ記憶媒体に対する取得回数に換算されている
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記データ取得上限時間が、前記各波形データ記憶媒体に対するアクセス時間に換算されている
    ことを特徴とする請求項1記載の音声合成装置。
  4. 前記データ取得上限時間が、変更可能である
    ことを特徴とする請求項1記載の音声合成装置。
  5. 前記合成素片選択部は、前記データ取得上限時間を越えないように、前記データ配置情報に基づいて前記複数の系列から一の系列を選択する場合に、
    前記データ取得上限時間を越えない複数の系列を選択し、
    前記データ取得上限時間を段階的に分割したランクによって前記系列を分け、
    前記ランク毎にコストが低い系列を選択し、
    前記コストが低い系列の集合からさらにコストが低い複数の系列を選択する
    ことを特徴とする請求項1記載の音声合成装置。
  6. 前記合成素片選択部は、
    前記データ取得上限時間を越えない前記複数の系列から最もコストが低い一の系列を選択する
    ことを特徴とする請求項1または5記載の音声合成装置。
  7. 前記属性記憶媒体とデータ配置情報記憶媒体とがメモリである
    ことを特徴とする請求項1記載の音声合成装置。
  8. 前記波形データ記憶媒体が、メモリ、ハードディスク、または、フラッシュメモリである
    ことを特徴とする請求項1記載の音声合成装置。
  9. 入力された合成単位列に含まれる所定の処理単位内の複数の合成単位に対応する合成素片の波形データをデータ取得時間が異なる複数の波形データ記憶媒体からそれぞれ取得して、これら波形データを接続することで音声を合成する音声合成方法において、
    前記処理単位内の前記各合成単位の属性情報に基づいて、前記各合成単位に対応する合成素片候補を、前記合成素片の波形データ以外の属性情報を格納した属性情報記憶媒体からそれぞれ取得し、
    前記合成単位毎に取得した複数の合成素片候補のそれぞれの組み合わせから構成された複数の系列を求め、前記処理単位内における前記各合成素片の波形データのデータ取得時間の合計がデータ取得上限時間を越えないように、前記波形データが格納されている波形データ記憶媒体の識別子を含むデータ配置情報に基づいて前記複数の系列から一の系列を選択し、
    前記選択した一の系列上にある合成素片を組み合わせて合成素片列を生成し、
    前記合成素片列に含まれる合成素片の波形データを前記各波形データ記憶媒体からそれぞれ取得して接続する
    ことを特徴とする音声合成方法。
  10. 入力された合成単位列に含まれる所定の処理単位内の複数の合成単位に対応する合成素片の波形データをデータ取得時間が異なる複数の波形データ記憶媒体からそれぞれ取得して、これら波形データを接続することで音声をコンピュータによって合成する音声合成プログラムにおいて、
    前記処理単位内の前記各合成単位の属性情報に基づいて、前記各合成単位に対応する合成素片候補を、前記合成素片の波形データ以外の属性情報を格納した属性情報記憶媒体からそれぞれ取得し、
    前記合成単位毎に取得した複数の合成素片候補のそれぞれの組み合わせから構成された複数の系列を求め、前記処理単位内における前記各合成素片の波形データのデータ取得時間の合計がデータ取得上限時間を越えないように、前記波形データが格納されている波形データ記憶媒体の識別子を含むデータ配置情報に基づいて前記複数の系列から一の系列を選択し、
    前記選択した一の系列上にある合成素片を組み合わせて合成素片列を生成し、
    前記合成素片列に含まれる合成素片の波形データを前記各波形データ記憶媒体からそれぞれ取得して接続する
    ことを特徴とする音声合成プログラム。
JP2006092489A 2006-03-29 2006-03-29 音声合成装置及びその方法 Pending JP2007264503A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006092489A JP2007264503A (ja) 2006-03-29 2006-03-29 音声合成装置及びその方法
EP06822540A EP2002421A1 (en) 2006-03-29 2006-10-19 Speech synthesis apparatus and method thereof
KR1020087026383A KR20090005090A (ko) 2006-03-29 2006-10-19 음성합성장치 및 그 방법
US11/570,208 US20090216537A1 (en) 2006-03-29 2006-10-19 Speech synthesis apparatus and method thereof
CNA2006800546796A CN101449319A (zh) 2006-03-29 2006-10-19 语音合成装置及其方法
PCT/JP2006/321579 WO2007110992A1 (en) 2006-03-29 2006-10-19 Speech synthesis apparatus and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006092489A JP2007264503A (ja) 2006-03-29 2006-03-29 音声合成装置及びその方法

Publications (1)

Publication Number Publication Date
JP2007264503A true JP2007264503A (ja) 2007-10-11

Family

ID=37562066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006092489A Pending JP2007264503A (ja) 2006-03-29 2006-03-29 音声合成装置及びその方法

Country Status (6)

Country Link
US (1) US20090216537A1 (ja)
EP (1) EP2002421A1 (ja)
JP (1) JP2007264503A (ja)
KR (1) KR20090005090A (ja)
CN (1) CN101449319A (ja)
WO (1) WO2007110992A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4406440B2 (ja) * 2007-03-29 2010-01-27 株式会社東芝 音声合成装置、音声合成方法及びプログラム
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
KR101526866B1 (ko) 2009-01-21 2015-06-10 삼성전자주식회사 깊이 정보를 이용한 깊이 노이즈 필터링 방법 및 장치
US10681096B2 (en) * 2011-08-18 2020-06-09 Comcast Cable Communications, Llc Multicasting content
US9325756B2 (en) 2011-12-29 2016-04-26 Comcast Cable Communications, Llc Transmission of content fragments
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
CN103854643B (zh) * 2012-11-29 2017-03-01 株式会社东芝 用于合成语音的方法和装置
CN112309367B (zh) * 2020-11-03 2022-12-06 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN114333763A (zh) * 2022-03-16 2022-04-12 广东电网有限责任公司佛山供电局 一种基于重音的语音合成方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266010A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2006010849A (ja) * 2004-06-23 2006-01-12 Mitsubishi Electric Corp 音声合成装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449233A (en) * 1980-02-04 1984-05-15 Texas Instruments Incorporated Speech synthesis system with parameter look up table
JP3563756B2 (ja) * 1994-02-04 2004-09-08 富士通株式会社 音声合成システム
US5708760A (en) * 1995-08-08 1998-01-13 United Microelectronics Corporation Voice address/data memory for speech synthesizing system
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5930756A (en) * 1997-06-23 1999-07-27 Motorola, Inc. Method, device and system for a memory-efficient random-access pronunciation lexicon for text-to-speech synthesis
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6697780B1 (en) * 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
CN1234109C (zh) * 2001-08-22 2005-12-28 国际商业机器公司 语调生成方法、语音合成装置、语音合成方法及语音服务器
EP1304680A3 (en) * 2001-09-13 2004-03-03 Yamaha Corporation Apparatus and method for synthesizing a plurality of waveforms in synchronized manner
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266010A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2006010849A (ja) * 2004-06-23 2006-01-12 Mitsubishi Electric Corp 音声合成装置

Also Published As

Publication number Publication date
CN101449319A (zh) 2009-06-03
EP2002421A1 (en) 2008-12-17
KR20090005090A (ko) 2009-01-12
WO2007110992A1 (en) 2007-10-04
US20090216537A1 (en) 2009-08-27

Similar Documents

Publication Publication Date Title
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP2007264503A (ja) 音声合成装置及びその方法
JP4130190B2 (ja) 音声合成システム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2011013454A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP4639932B2 (ja) 音声合成装置
US9020821B2 (en) Apparatus and method for editing speech synthesis, and computer readable medium
JP2009133890A (ja) 音声合成装置及びその方法
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5480188B2 (ja) 使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)
JP2007163667A (ja) 音声合成装置および音声合成プログラム
KR101495410B1 (ko) 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
JPH06318094A (ja) 音声規則合成装置
WO2013011634A1 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP4787686B2 (ja) テキスト選択装置、その方法、そのプログラム、及びその記録媒体
JP5123347B2 (ja) 音声合成装置
JP7183556B2 (ja) 合成音生成装置、方法、及びプログラム
JP5620776B2 (ja) 話速調整装置、音声合成システム、およびプログラム
JP4882569B2 (ja) 音声合成装置、方法及びプログラム
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110308