JP2004347994A - 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム - Google Patents

音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム Download PDF

Info

Publication number
JP2004347994A
JP2004347994A JP2003146768A JP2003146768A JP2004347994A JP 2004347994 A JP2004347994 A JP 2004347994A JP 2003146768 A JP2003146768 A JP 2003146768A JP 2003146768 A JP2003146768 A JP 2003146768A JP 2004347994 A JP2004347994 A JP 2004347994A
Authority
JP
Japan
Prior art keywords
speech
spectrum
segment
phoneme
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003146768A
Other languages
English (en)
Inventor
Osamu Kimura
治 木村
Tomokazu Morio
智一 森尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003146768A priority Critical patent/JP2004347994A/ja
Publication of JP2004347994A publication Critical patent/JP2004347994A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】合成素片の保存容量を削減しつつ、合成素片における変形歪と接続歪の発生による音質劣化が抑制された音声合成装置を提供する。
【解決手段】音声合成用の合成素片を接続して音声波形を合成する音声合成装置において、2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片と前記後続素片とにおける接続音韻の韻律情報を設定する設定手段と、前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出手段と、前記算出手段で算出された補間スペクトルに近づくように、前記接続音韻のスペクトルを変形する変形手段とを備える音声合成装置とする。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、文字列から合成音声を生成出力する音声合成装置に関する。
【0002】
【従来の技術】
従来の音声合成装置では、VCV(母音・子音・母音)連接、CVC(子音・母音・子音)連接、VC+CV(母音・子音+子音・母音)連接などの調音結合に基づいた単位を、音声合成のための合成単位として設定している。そして、音声合成時には、文字列に対応する合成単位の音声合成パラメータ(合成素片)におけるピッチ(周波数)、パワー(音圧)および継続長(時間)などの韻律を、あらかじめ自然音声を分析して作成した音声合成パラメータにおけるそれらの基準値に近づけるように変形させた後、先行合成素片(先行素片)と後続合成素片(後続素片)とを接続することによって、目標とする韻律環境に近い音声を合成させている。
【0003】
ここで、この基準値となる音声合成パラメータ(合成素片)は、その量が増加するほど合成音声の自然性が向上する。しかしながらその場合には、合成素片の保存にかかるメモリ量が増大してしまうことや、合成にかかる処理が遅くなってしまうことなどの問題がある。したがって、合成素片の保存量を削減しながらも、合成音声の自然性を向上させることのできる技術の開発が重要である。
【0004】
ところが、合成素片の保存量を削減するほど、合成素片の変形(韻律の変形:変形歪)により音質が劣化し、また、合成素片の接続にかかる接続歪が増大するため、合成音声の自然性が激しく劣化してしまう。
【0005】
そこで、このような変形歪や接続歪の発生を抑制するために、以下の3つの技術が提案されている。
▲1▼ ピッチ長の2倍の長さを有する窓関数で先行素片の終端波形と後続素片の先端波形とを切り出した後、これらの波形に重み付けを行いながら窓関数の中心位置を合わせて加算することにより補間波形を生成し、この補間波形を介して先行素片と後続素片とを接続させる技術(例えば、特許文献1参照。)。
▲2▼ 予め保存されている音声素片のなかから、先行素片と後続素片との音韻環境に対応付けられた複数の音声素片を抽出し、さらにそれらの中から変形歪みおよび接続歪みが最小となる音声素片を、先行音声素片および後続音声素片としてそれぞれ選択して用いる技術(例えば、特許文献2参照。)。
▲3▼ 先行素片と後続素片との接続部におけるターゲットスペクトルを設定し、予め保存されている複数の合成素片のなかから、そのターゲットスペクトルとの誤差が最小である合成素片を、先行素片および後続素片として再選択して用いる技術(例えば、特許文献3参照。)。
【0006】
【特許文献1】
特開平7−72897号公報(第2頁)
【特許文献2】
特開2001−282278号公報(第2頁)
【特許文献3】
特許第3109778号公報(第2頁)
【0007】
しかしながら、この特許文献1に記載の技術では、先行素片と後続素片との変形歪みの増大を防止できず、合成音声の音質が劣化してしまう。
【0008】
また、上記特許文献2〜3に記載の技術では、素片の組み合わせによって接続歪が大幅に増加してしまうことがある。このためこれらの技術には、合成素片の保存量を増加させずに安定した音質を得るため、さらなる改良を行う余地が残されている。
【0009】
【発明が解決しようとする課題】
本発明は上記課題を解決するものであり、合成素片の保存容量を削減しつつ、合成素片における変形歪と接続歪による音質劣化を抑制した音声合成装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の音声合成装置は、音声合成用の合成素片を接続して音声波形を合成する音声合成装置において、2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定手段と、前記設定手段で設定された音韻系列および韻律情報に基づいて補間スペクトルを算出する算出手段と、前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形手段とを備えることを特徴とする。
【0011】
この構成であると、合成音声を生成させるために、上記変形手段により先行素片および後続素片のスペクトル自身が変形される。これにより、音韻環境に対応付けられた音声素片を大量に保存しておく必要がなくなり、装置の必須メモリ量が削減される。また、この構成であると、上記設定手段および上記算出手段により韻律情報および音韻系列に基づいた補間スペクトルが算出され、これに基づいて先行素片および後続素片のスペクトルが変形されるため、変形歪と接続歪との発生による音質劣化が抑制される。
【0012】
本発明の音声合成装置は、さらに、前記変形手段が、前記それぞれの接続音韻のスペクトルを、前記先行素片と前記後続素片との接続位置に向けて前記補間スペクトルに近づくように変形させる構成とすることができる。
【0013】
この構成であると、先行素片における接続音韻のスペクトルが、終端側(接続位置側)に近づくほど補間スペクトルに近づき、かつ、後続素片における接続音韻のスペクトルが、始端側(接続位置側)に近づくほど補間スペクトルに近づく。これにより、上記接続歪みの発生が一層抑制される。
【0014】
本発明の音声合成装置は、さらに、前記算出手段が、音韻毎にラベル付けされた音声データを格納した補間スペクトル算出用メモリを備え、かつ、前記音韻毎にラベル付けされた音声データのうち、前記韻律情報および前記音韻系列との適合度が最小である音声データをコスト関数に基づいて選択し、前記選択された音声データの接続音韻から、その時間中心におけるパワースペクトルを補間スペクトルとして算出する構成とすることができる。
【0015】
この構成であると、合成音声を生成させるために、先行素片および後続素片の韻律情報および音韻系列との適合度が最小である、自然音声を分析して音素毎にラベル付けされた音声データに基づいて補間スペクトルが算出される。これにより、変形歪と接続歪みの発生による音質劣化が一層抑制される。
【0016】
本発明の音声合成装置は、さらに、前記算出手段が、韻律情報の級別に対応付けられたスペクトルパラメータを音韻系列毎に格納した補間スペクトル算出用メモリを備え、かつ、前記韻律情報および前記音韻系列に基づいてそれらに対応付けられたスペクトルパラメータを選択し、補間スペクトルとして算出する構成とすることができる。
【0017】
この構成であると、先行素片および後続素片の韻律情報および音韻系列に対応付けた代表的なスペクトルが級別にメモリされているため、音声合成装置における必須メモリ量と、補間スペクトルの算出にかかる計算コストとが一層削減される。
【0018】
【発明の実施の形態】
以下に、本発明の実施の形態について説明する。
〔実施の形態1〕
本発明の実施の形態1にかかる音声合成装置は、図1に示すように、
A)漢字仮名交じり文を入力する入力部10と、
B)単語毎に対応する品詞、読み、モーラ数およびアクセント等を格納した日本語辞書用メモリ13と、
C)読みに対応する合成単位波形を格納した音声データ辞書用メモリ14と、
D)補間スペクトル算出用メモリ15と、
E)合成された音声を出力する出力部12と、
F)各部を制御するようにプログラムされたコンピュータからなる制御部11と、
G)各部を接続するバス16と
を少なくとも備えている。
【0019】
また、前記制御部11は、図2に示すように、
a)単語の読みとアクセントの付与部21と、
b)音韻系列と韻律情報とを生成する生成部22と、
c)合成素片選択部23と、
d)補間スペクトルの算出に必要な音韻系列と韻律情報とを設定する設定部24と、
e)補間スペクトル算出部25と、
f)先行合成素片と後続合成素片とを補間スペクトルに基づいて変形する合成素片変形部26と、
g)変形された合成素片から合成波形を生成する音声合成部27と
からなる。
【0020】
ここで以下に、本実施の形態1における処理様式について説明する。
(1)入力部10から入力された漢字仮名交じり文が、単語の読みとアクセントの付与部21に入力される。
【0021】
(2)付与部21では、まず、上記日本語辞書用メモリ13が参照され、この漢字仮名交じり文が各単語に分割される。その後、単語毎にアクセントの型および読みが付与されて生成部22へ出力される。ここにおける各単語の分割方法としては、例えば、最長一致法、文節最小法(文中の文節数が最小となるように単語を選択する方法)などがあげられる。
【0022】
(3)生成部22では、まず、各単語間の結合度、アクセント型または読みに基づいて呼気段落単位で単語が結合され、音韻毎のピッチパタンや継続時間長などの韻律情報と、音韻系列とが生成される。その後、この韻律情報は韻律情報と音韻系列の設定部24に出力され、この音韻系列は合成素片選択部23に出力される。
【0023】
(4)合成素片選択部23では、入力した音韻系列に基づいて合成素片が選択され、合成素片の音韻系列が算出される。その後、韻律情報と音韻系列の設定部24に合成素片の音韻系列が出力され、合成素片変形部26に合成素片が出力される。
【0024】
(5)韻律情報と音韻系列の設定部24では、上記韻律情報および上記合成素片の音韻系列が、補間スペクトルの算出に必要な音韻系列および韻律情報として設定された後、補間スペクトル算出部25に出力される。
【0025】
(6)補間スペクトル算出部25では、合成素片の接続が滑らかで韻律の変形による劣化が最も少なくなる補間スペクトルが算出される(この詳細は後述する)。
【0026】
(7)合成素片変形部26では、合成素片選択部23で選択された先行合成素片(先行素片)および後続合成素片(後続素片)のスペクトル時系列が、先行素片と後続素片との接続位置に向けて上記補間スペクトルに近づくように変形される(この詳細は後述する)。その後、ここで変形された先行合成素片および後続合成素片が音声合成部27に出力される。
【0027】
(8)音声合成部27では、まず、上記先行合成素片(先行素片)および後続合成素片(後続素片)の韻律が変形される。その後、先行素片と後続素片とが接続され、合成波形が生成される。
(9)上記合成波形に基づき、出力部12から合成音声が出力される。
【0028】
<<補間スペクトルの算出>>
ここで、合成単位がVCVであり、入力テキスト列/watashi/に対して音声を合成させる過程を例として、図3のフローチャートに基づいて、上記補間スペクトル算出部25における補間スペクトルの算出処理様式を詳しく説明する。
【0029】
[ステップ(S)1] 韻律情報と音韻系列の設定部24から、先行合成素片と後続合成素片との音韻系列と接続音韻の韻律情報とが入力される。ここで、先行素片が/wa/、後続素片が/ata/である場合、音韻系列とは/wata/であり、接続音韻とは/w/と/t/とに挟まれた/a/である。また、韻律情報とは、音韻のピッチ(周波数)やパワー(音圧)、継続長(時間)などである。
【0030】
[S2] 補間スペクトル算出用メモリ15から、先行合成素片と後続合成素片との接続位置における音韻系列と適合しうる1以上の候補音声データが検索される。ここで、この補間スペクトル算出用メモリ15には、自然音声を収録した音声データおよびその音声データに対応する音韻名とその開始位置、終了位置を示すラベルデータが格納されている。
【0031】
[S3] S2で検索されたそれぞれの候補音声データについて、以下の式(1)に示すコスト関数により、適合度(CT)が算出される。
【数1】
Figure 2004347994
ここで、C(0)は音韻系列と候補音声データとの近似コストを表しており、以下のように規定される。
▲1▼ 候補音声データが/wata/をすべて含む場合:C(0)=0
▲2▼ 候補音声データが/wat/を含む場合:C(0)=1
▲3▼ 候補音声データが/wa/または/at/を含む場合:C(0)=2
▲4▼ 候補音声データが/a/のみを含む場合:C(0)=3
すなわち、音韻系列に適合する候補音声データの範囲が小さくなるほど近似コストが増大するように規定されている。
【0032】
さらに、C(1)〜C(3)は韻律情報と候補音声データとの近似コストを表しており、以下のように規定される。
▲5▼ 韻律情報のうちピッチ(単位:Hz)にかかる近似コスト:C(1)=|(接続音韻のピッチ)−(候補音声データのピッチ)|/(接続音韻のピッチ)
▲6▼ 韻律情報のうちパワー(単位:dB)にかかる近似コスト:C(2)=|(接続音韻のパワー)−(音声データのパワー)|
▲7▼ 韻律情報のうち時間長(単位:msec)にかかる近似コスト:C(3)=|(接続音韻の時間長)−(音声データの時間長)|
【0033】
また、W(0)〜W(3)は重み係数であり、補間スペクトル算出用メモリ15に格納された音声データから、該当する音韻のピッチ、パワー、継続長の標準偏差の逆数に基づいて算出される値である。
【0034】
[S4] S2検索された候補音声データの中から、上記式(1)に基づく適合度(CT)が最小である音声データが選択される。
[S5] S4で選択された音声データの接続音韻における時間中心のパワースペクトルを算出し、補間スペクトルs(w)とする。なお、wは周波数を示すパラメータである。
【0035】
以上S1〜S5の処理により、先行合成素片と後続合成素片とを変形させるための補間スペクトルs(w)が算出される。なお、補間スペクトルs(w)は、接続音韻における平均スペクトルで算出することもできる。
【0036】
ところで、上記重み係数は、すべての音素について共通の値を用いることができるが、より精度の高い補間パラメータを選択するためには、上記標準偏差を音素毎に算出し音素毎に異なる重み係数を設定しておくことが望ましい。さらに、補間スペクトルを含む音声で合成音声を生成、評価する準備実験によって、この重み係数を最適化しておけば、さらに補間パラメータの選択精度を高めることができる。
【0037】
<<接続音韻の変形処理>>
次に、上述した、合成素片変形部26で行われる、先行素片と後続素片とにおける接続音韻を補間スペクトルs(w)に基づいた変形処理の様式について以下に説明する。
〔先行素片の変形〕
変形前の先行素片におけるtフレーム目のパワースペクトルをSp(t,w)とし、変形後のそれをSp’(t,w)とする。この先行素片のスペクトルは、以下の式(2)〜(4)に示す関係式に従い、後続素片との接続位置に向けて補間スペクトルs(w)に近づくように変形される。
【数2】
Figure 2004347994
【数3】
Figure 2004347994
【数4】
Figure 2004347994
【0038】
ここで、図4に示すように、上記式(2)〜(4)におけるLp、L1、mpは以下のように規定される。すなわち、
▲1▼ Lpは先行素片の総フレーム数であり、
▲2▼ L1は接続音韻の総フレーム数であり、
▲3▼ mpは接続音韻のうちパワースペクトルが変形されるフレームであり、接続位置を基点として0以上、L1以下の整数値をとる。
【0039】
〔後続素片の変形〕
変形前の後続素片におけるtフレーム目のパワースペクトルをSf(t,w)とし、変形後のそれをSf’(t,w)とする。と、この後続素片のスペクトルは、以下の式(5)〜(7)に示す関係式に従い、先行素片との接続位置に向けて補間スペクトルs(w)に近づくように変形される。
【数5】
Figure 2004347994
【数6】
Figure 2004347994
【数7】
Figure 2004347994
【0040】
ここで、図4に示すように、上記式(5)〜(7)における、Lf、L2、mfは以下のように規定される。すなわち、
▲1▼ Lfは後続素片の総フレーム数であり、
▲2▼ L2は接続音韻の総フレーム数であり、
▲3▼ mfは接続音韻のうちパワースペクトルが変形されるフレームであり、接続位置を基点として0以上、L2以下の整数値をとる。
【0041】
ところで、図4では便宜的に、関数『Wt』および関数『1−Wt』の軌跡を連続的に表示しているが、これらの関数はフレーム毎に離散的な値をとり得るため、微視的には階段状になることは勿論である。
【0042】
以上説明したように、本実施の形態1では、
▲1▼ 合成音声を生成させるために、上記変形手段により先行素片および後続素片のスペクトル自身が変形される。これにより、音韻環境に対応付けられた音声素片を大量に保存しておく必要がなくなり、装置の必須メモリ量が削減される。
▲2▼ 上記設定手段および上記算出手段により韻律情報および音韻系列に基づいた補間スペクトルが算出され、これに基づいて先行素片および後続素片のスペクトルが変形されるため、変形歪と接続歪との発生による音質劣化が抑制される。
【0043】
〔実施の形態2〕
次に、実施の形態2として、本発明の第2の態様である音声合成装置を示す。本実施の形態2では、自然音声から抽出されたスペクトルパラメータが、韻律情報の級別に対応付けられ、かつ、音韻系列毎に格納されている補間スペクトル算出用メモリを用いて補間スペクトルが算出されること以外は、上記実施の形態1と同じである。
【0044】
ところで、上記『スペクトルパラメータ』とは、スペクトル包絡とスペクトル微細構造とからなる音声スペクトルのうち、スペクトル包絡に対応するものである。
【0045】
ここで以下に、補間スペクトル算出用メモリに格納された、このような韻律情報の級別に対応付けられたスペクトルパラメータからなるテーブルについて説明する。
図5に、音韻系列が/wat/であり、韻律情報がピッチ(周波数)と継続長(時間)とからなるテーブルの一例を示す。このテーブルでは、20種類のスペクトルパラメータが、ピッチと継続長との級別に配列されている。ここでは、例えば、/wat/における接続音韻/a/のピッチが170Hzであり、その継続長が130msecである場合には、このテーブルより100Hz以上200Hz未満のピッチ級、かつ、150ms未満の継続長級に対応付けられたスペクトルパラメータs2(w)が選択され、補間スペクトルとして算出される。
【0046】
このような本実施の形態2では、先行合成素片および後続合成素片の韻律情報および音韻系列に対応付けて、自然音声から抽出された代表的なスペクトルパラメータが、級別に補間スペクトル算出用メモリに格納されているため、補間スペクトル算出用メモリにおけるメモリ容量と補間スペクトルの算出にかかる計算コストとが一層削減され、かつ、変形歪と接続歪みによる音質劣化が抑制される。
【0047】
〔実施の形態3〕
本発明の第3の態様である音声合成プログラムは、
A)前記先行素片と前記後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定プログラムコードと、
B)前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出プログラムコードと、
C)前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形プログラムコードと
を少なくとも備える。
【0048】
上記構成の音声合成プログラムであると、上記実施の形態1〜2にかかる音声合成装置における、韻律情報および音韻系列の設定手段、補間スペクトルの算出手段および合成素片の変形手段が提供される。
【0049】
〔実施の形態4〕
本発明の第4の態様である音声合成装置駆動プログラムは、
A)前記先行素片と前記後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定手段を駆動する設定手段駆動プログラムコードと、
B)前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出手段を駆動する算出手段駆動プログラムコードと、
C)前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形手段を駆動する変形手段駆動プログラムコードと
を少なくとも備える。
【0050】
上記構成の音声合成装置駆動プログラムであると、上記実施の形態1〜2にかかる音声合成装置における、韻律情報および音韻系列の設定手段と、補間スペクトルの算出手段と合成素片の変形手段とが駆動される。
【0051】
ところで、上記実施の形態3および4に示すプログラムは、読み出し専用メモリ(ROM)、ネットワーク、コンピュータ読み取り可能な外部記録媒体などを介して供給することができる。また、このような外部記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカードなどがあげられる。
【0052】
〔その他の事項〕
(1)上記実施の形態では合成単位がVCVである例を示したが、本発明は、CV単位、CV+VC単位、CVC単位などの合成単位で接続する場合であっても勿論適用できる。
(2)上記実施の形態では、韻律情報としてピッチと継続長を用いた例を示したが、これにパワーを加えてそれぞれを組み合わせることにより、韻律情報の精度をより高めることもできる。
(3)上記実施の形態では、音韻系列と韻律情報とに対応付けて補間スペクトルを規定した例を示したが、補間スペクトル算出用メモリの容量を削減するために、音韻条件のみを対応付けて規定することもできる。
(4)上記実施の形態では、パワースペクトルの変形による補間処理の例を示したが、音声波形を補間スペクトルに準じて変形することによる補間処理方法を除外するものではない。
【0053】
【発明の効果】
以上説明したように、本発明の音声合成装置であると、以下に示す効果が得られるため、韻律の変形と接続歪による音質劣化を最小限に抑え、限られた素片容量であっても、音質が安定した、自然性の高い合成音声が生成する。
▲1▼ 上記変形手段を備えているため、先行合成素片および後続合成素片のスペクトル自身が変形されて、合成音声が生成される。これにより、音韻環境に対応付けられた音声素片を大量に保存しておく必要がなくなるため、装置のメモリ量が削減される。
▲2▼ 上記設定手段および上記算出手段を備えているため、韻律情報および音韻系列に基づいた補間スペクトルが算出され、これに基づいて先行素片および後続素片のスペクトルが変形される。これにより、変形歪と接続歪との発生による音質劣化が抑制される。
▲3▼ 先行合成素片および後続合成素片の韻律情報および音韻系列に対応付けて、自然音声から抽出された代表的なスペクトルパラメータが、級別に補間スペクトル算出用メモリに格納されている。これにより、メモリ容量と補間スペクトルの算出にかかる計算コストとが一層削減され、かつ、変形歪と接続歪みによる音質劣化が抑制される。
【図面の簡単な説明】
【図1】図1は、本発明の音声合成装置の主要な構成を示す概念図である。
【図2】図2は、本発明の音声規則合成装置における制御部の構成を詳細に示す概念図である。
【図3】図3は、補間スペクトル算出部における処理様式を示すフローチャートである。
【図4】図4は、合成素片の変形様式を示す模式図である。
【図5】図5は、補間スペクトル算出用メモリに格納された補間スペクトルテーブルの一例である。
【符号の説明】
10 入力部
11 制御部
12 出力部
13 日本語辞書用メモリ
14 音声データ辞書用メモリ
15 補間スペクトル算出用メモリ
16 バス
21 単語読みとアクセントの付与部
22 生成部
23 合成素片選択部
24 韻律情報と音韻系列の設定部
25 補間スペクトル算出部
26 合成素片変形部
27 音声合成部

Claims (12)

  1. 音声合成用の合成素片を接続して音声波形を合成する音声合成装置において、
    2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定手段と、
    前記設定手段で設定された音韻系列および韻律情報に基づいて補間スペクトルを算出する算出手段と、
    前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形手段と
    を備えることを特徴とする音声合成装置。
  2. 前記変形手段が、前記それぞれの接続音韻のスペクトルを、前記先行素片と前記後続素片との接続位置に向けて前記補間スペクトルに近づくように変形させる
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記算出手段が、
    音韻毎にラベル付けされた音声データを格納した補間スペクトル算出用メモリをさらに備え、
    かつ、前記音韻毎にラベル付けされた音声データのうち、前記韻律情報および前記音韻系列との適合度が最小である音声データをコスト関数に基づいて選択し、前記選択された音声データから補間スペクトルを算出する
    ことを特徴とする請求項1記載の音声合成装置。
  4. 前記算出された補間スペクトルが、前記選択された音声データの接続音韻における時間中心のパワースペクトルである
    ことを特徴とする請求項3記載の音声合成装置。
  5. 前記算出された補間スペクトルが、前記選択された音声データの接続音韻における平均パワースペクトルである
    ことを特徴とする請求項3記載の音声合成装置。
  6. 前記算出手段が、
    韻律情報の級別に対応付けられたスペクトルパラメータを音韻系列毎に格納した補間スペクトル算出用メモリを備え、
    かつ、前記韻律情報および前記音韻系列に基づいてそれらに対応付けられたスペクトルパラメータを選択し、補間スペクトルとして算出する
    ことを特徴とする請求項1記載の音声合成装置。
  7. 入力されたテキストデータを単語に分割し、前記分割された単語毎にアクセントの型および読みを付与する付与手段と、
    前記分割された単語を呼気段落単位毎に結合し、韻律情報および音韻系列を生成して前記設定手段に出力する生成手段と
    をさらに備えることを特徴とする請求項1記載の音声合成装置。
  8. 音声合成用の合成素片を接続して音声波形を合成する音声合成方法において、
    2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定工程と、
    前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出工程と、
    前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形工程と
    を備えることを特徴とする音声合成方法。
  9. 入力されたテキストデータを単語に分割し、前記分割された単語毎にアクセントの型および読みを付与する付与工程と、
    前記分割された単語を呼気段落単位毎に結合し、韻律情報および音韻系列を生成して前記設定手段に出力する生成工程と
    をさらに備えることを特徴とする請求項8記載の音声合成方法。
  10. 音声合成用の合成素片を接続して音声波形を合成する音声合成装置を駆動させるプログラムであって、
    2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定手段を駆動する設定手段駆動プログラムコードと、
    前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出手段を駆動する算出手段駆動プログラムコードと、
    前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形手段を駆動する変形手段駆動プログラムコードと
    を少なくとも備えることを特徴とする音声合成装置駆動プログラム。
  11. 音声合成用の合成素片を接続して音声波形を合成する音声合成処理プログラムであって、
    2つの合成素片を接続する際に先行する先行素片と後続する後続素片とから音韻系列を設定し、かつ、前記先行素片および前記後続素片の接続音韻における韻律情報を設定する設定プログラムコードと、
    前記設定手段で設定された音韻系列および韻律情報に基づいて、補間スペクトルを算出する算出プログラムコードと、
    前記補間スペクトルに基づいて、前記先行素片と前記後続素片とが有するそれぞれの接続音韻のスペクトルを変形する変形プログラムコードと
    を少なくとも備えることを特徴とする音声合成処理プログラム。
  12. 請求項10または11記載のプログラムが記録された記憶媒体。
JP2003146768A 2003-05-23 2003-05-23 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム Pending JP2004347994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003146768A JP2004347994A (ja) 2003-05-23 2003-05-23 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146768A JP2004347994A (ja) 2003-05-23 2003-05-23 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Publications (1)

Publication Number Publication Date
JP2004347994A true JP2004347994A (ja) 2004-12-09

Family

ID=33533524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146768A Pending JP2004347994A (ja) 2003-05-23 2003-05-23 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Country Status (1)

Country Link
JP (1) JP2004347994A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237015A (ja) * 2008-03-26 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声素片接続装置及びプログラム
CN113129863A (zh) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 语音时长预测方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237015A (ja) * 2008-03-26 2009-10-15 Nippon Hoso Kyokai <Nhk> 音声素片接続装置及びプログラム
CN113129863A (zh) * 2019-12-31 2021-07-16 科大讯飞股份有限公司 语音时长预测方法、装置、设备及可读存储介质
CN113129863B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音时长预测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
US5740320A (en) Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US20200410981A1 (en) Text-to-speech (tts) processing
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3361066B2 (ja) 音声合成方法および装置
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP2009133890A (ja) 音声合成装置及びその方法
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JP3515406B2 (ja) 音声合成方法及び装置
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
EP1589524B1 (en) Method and device for speech synthesis
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP3571925B2 (ja) 音声情報処理装置
JPH09230893A (ja) 規則音声合成方法及び音声合成装置
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
EP1640968A1 (en) Method and device for speech synthesis
JP2007079476A (ja) 音声合成装置および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081028