JPH1138989A

JPH1138989A - 音声合成装置及び方法

Info

Publication number: JPH1138989A
Application number: JP9188515A
Authority: JP
Inventors: Osamu Kaseno; 修加瀬野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-07-14
Filing date: 1997-07-14
Publication date: 1999-02-12
Also published as: US6212501B1

Abstract

(57)【要約】【課題】文の一部だけを規則合成で変更可能とし、その
他の部分は分析で作成したパラメータを使用して合成す
る場合に、規則合成部と分析部の韻律の接続性を良く
し、より自然性の良い合成を可能とする。【解決手段】はめ込み文データベース１１から、ユーザ
指定のはめ込み文と、そのはめ込み文中の定型部のパラ
メータを文選択部１２が取り出すと、文入力部１３は、
そのはめ込み文中のはめ込み部に挿入すべきユーザ指定
の文を入力する。文作成部１４は、その入力文及び上記
定型部の文を結合し、パラメータ作成部１５は、その結
合された文からパラメータを作成する。パラメータ抽出
部１６は、そこからはめ込み部のパラメータを抽出し、
パラメータはめ込み部１７は、このはめ込み部のパラメ
ータと上記定型部のパラメータとを結合して音声合成用
のパラメータを作成する。合成部１８は、このパラメー
タから合成音を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文内容が固定の定
型部と文内容が変化するはめ込み部とを有するはめ込み
文に対して、当該はめ込み部の位置にユーザ指定の文を
挿入し、このユーザ指定の文が挿入されたはめ込み文の
音声を合成する音声合成装置及び方法に関する。

【０００２】

【従来の技術】近時、漢字仮名混じりの文を解析し、そ
の文が示す音声情報を規則合成により音声合成して出力
する音声合成装置が種々開発されている。この種の規則
合成法を採用した音声合成装置は、基本的には人間が発
声した音声を予めある単位、例えばＣＶ（子音、母
音）、ＣＶＣ（子音、母音、子音）、ＶＣＶ（母音、子
音、母音）、ＶＣ（母音、子音）毎にＬＳＰ（線スペク
トル対）分析やケプストラム分析等の手法を用いて分析
して求められる音韻情報を音声素片ファイルに登録して
おき、文を解析することにより得られる合成パラメータ
（音韻系列と韻律情報）と、この音声素片ファイルをも
とにして音源の生成と合成フィルタリング処理を行うこ
とにより合成音声を生成するものである。

【０００３】文からの規則合成を行う場合、文を解析
し、そこから音韻系列と韻律情報を生成することになる
のであるが、それらの生成を全て規則により行うため、
規則の不完全さの影響で、どうしても不自然なところが
出てきてしまう。

【０００４】そのため、発声する文章が予め決められて
いる場合には、実際に人間が発声した同一の文章を解析
して各種パラメータを作成し、それを用いて合成を行う
という技術がある。これにより、規則で生成するよりも
品質の良いパラメータを音声合成に使用できるため、よ
り自然な合成音を生成することができるようになる。

【０００５】そして、適用分野によっては、文の一部だ
けを規則合成で変更可能とし、その他の部分は分析で作
成したパラメータを使用して合成したいという要望があ
る。これにより、全文を規則合成するよりも自然で、一
部規則合成の柔軟性を取り入れた合成が可能となる。

【０００６】

【発明が解決しようとする課題】しかしながら、上記し
た従来技術においては、規則合成部分としてはめ込まれ
る文のみを使って規則合成し、それを分析による部分と
接続しても、接続が不自然になるという問題があった。
例えば、「田中様が、お待ちでございます。」のような
文において、「田中様が」を規則合成、「お待ちでござ
います」を分析合成とした場合、「田中様が」の部分
を、後に「お待ちでございます」が続くことを考慮せず
に規則合成すると、この文単体で終結するような雰囲気
を持つ調子で合成されてしまい、この後に「お待ちでご
ざいます」を発声すると違和感のある発声となってしま
うという問題があった。

【０００７】そこで、本発明は上記の問題を解決するた
めになされたものであり、その目的とするところは、文
の一部だけを規則合成で変更可能とし、その他の部分は
分析で作成した合成パラメータまたは音声波形データを
使用して合成する場合に、規則合成時にその文の近傍の
定型部の文章など、周辺の文環境考慮して合成処理を行
い、そこから規則合成部分として使用される内容の部分
のみを取り出して使用することにより、規則合成部と分
析部の韻律の接続性を良くし、より自然性の良い合成を
可能とした音声合成装置及び方法を提供することにあ
る。

【０００８】本発明の他の目的は、文の一部だけを規則
合成で変更可能とし、その他の部分は分析で作成した合
成パラメータまたは音声波形データを使用して合成する
場合に、変更可能部分（はめ込み部）と定型部とが休止
することなく発声される発声単位内においても、規則合
成部と分析部の韻律の接続性を良くし、より自然性の良
い合成を可能とした音声合成装置及び方法を提供するこ
とにある。

【０００９】

【課題を解決するための手段】本発明の第１の観点に係
る構成は、種々の定型部を持つはめ込み文毎に、当該は
め込み文中の定型部の分析合成により得られた音韻系列
並びに韻律情報、当該はめ込み文中のはめ込み部の周辺
の文環境を示す文環境情報、及び当該はめ込み文中のは
め込み部の位置情報を有するはめ込み文データが保持さ
れたデータベースと、上記はめ込み文データの１つをユ
ーザ指定に応じて選択する文選択手段と、この文選択手
段により選択されたはめ込み文データ中のはめ込み部に
挿入すべきユーザ指定の文を入力する文入力手段と、こ
の文入力手段により入力された文及び上記選択されたは
め込み文データ中の文環境情報をもとに、当該はめ込み
文データ中の少なくともはめ込み部の音韻系列並びに韻
律情報を作成するパラメータ作成手段と、このパラメー
タ作成手段により作成されたはめ込み部の音韻系列並び
に韻律情報を、上記選択されたはめ込み文データ中のは
め込み部の位置情報に従って当該はめ込み文データ中の
定型部の音韻系列並びに韻律情報に接続して、音声合成
用の音韻系列並びに韻律情報を作成するパラメータはめ
込み手段と、このパラメータはめ込み手段により作成さ
れた音声合成用の音韻系列並びに韻律情報に従って合成
音を作成する合成手段と、この合成手段により作成され
た合成音を出力する出力手段とを備えたことを特徴とす
る。

【００１０】このような構成においては、はめ込み部と
して規則合成される文だけでなく、その合成に影響を与
えるはめ込み部周辺の文（定型部の文）など、はめ込み
部周辺の文環境を示す情報を使用して、少なくともはめ
込み部の文の規則合成を行うことにより、はめ込み部周
辺の文環境を考慮した、少なくともはめ込み部の合成パ
ラメータ（音韻系列並びに韻律情報）が作成される。こ
こで、文環境情報として、はめ込み部周辺の文（定型部
の文）を用いると良く、この場合には、はめ込み部の文
のみでなく、その周辺の定型部の文も含めて解析するこ
とにより、はめ込み部周辺の文環境が反映されたはめ込
み部の合成パラメータを含む合成パラメータが作成され
るため、そこからはめ込み部の合成パラメータを抽出す
れば良い。また、文環境情報として、はめ込み部周辺の
文（定型部の文）に代えて、単にはめ込み部の周辺（前
または後ろ）に定型部が存在するという情報を用いるだ
けでも、はめ込み部の文だけから合成パラメータを生成
するのと異なって、当該はめ込み部周辺の文の発声に対
する影響を考慮した合成パラメータを生成できる。ま
た、文環境情報として、発声時の口調やテンポを示す情
報を加えるならば、その発声時の口調やテンポに合致し
た合成パラメータを生成することができる。

【００１１】はめ込み部周辺の文環境が反映されたはめ
込み部（つまり規則合成部）の合成パラメータは、分析
合成によって得られた定型部（つまり分析部）の合成パ
ラメータとはめ込み部の位置情報に従って接続され、そ
こから合成音が作成される。

【００１２】このように、はめ込まれる文の合成パラメ
ータをその周辺の文の影響を考慮しながら生成し、音声
合成に使用することにより、周辺の文との一体感を向上
した合成音の作成が可能となる。また、定型部とはめ込
み部共に、合成パラメータの生成以降は同じ音声合成方
法で作成可能なため、定型部とはめ込み部の音質を一致
させることが可能である。即ち、上記の構成において
は、規則合成部と分析部の韻律の接続性を良くし、より
自然性の良い合成を可能とする。

【００１３】なお、周辺の文の影響を考慮した規則合成
によるはめ込み部の合成パラメータと、分析合成による
定型部の合成パラメータを１つの文の合成パラメータと
して統合する場合、規則合成された部分の声の高さを定
型部に合わせるようにすると良い。そのためには、合成
パラメータをシフトすれば良い。このシフト動作は、合
成パラメータ結合時に限らず、例えばはめ込み部の合成
パラメータの作成時に行うようにしても良い。この他、
定型部用として複数の合成パラメータをデータベースに
用意しておき、はめ込み部の文のアクセント型などによ
って使用するパラメータを変えるようにすることも可能
である。

【００１４】本発明の第２の観点に係る構成は、上記第
１の観点に係る構成におけるパラメータ作成手段に、以
下の機能、即ちユーザ指定の入力文が挿入されるはめ込
み部とユーザ指定のはめ込み文データ中の定型部とが連
続していて、その間に休止区間がない場合に、上記入力
文とはめ込み文データ中の文環境情報をもとに、当該は
め込み文データ中の少なくともはめ込み部とそれに連続
する定型部の発声内容からなる発声単位（１呼吸句）を
作成し、その発声単位から当該はめ込み部の音韻系列並
びに韻律情報を作成する機能を持たせたことを特徴とす
る。

【００１５】このような構成においては、定型部とはめ
込み部が休止なしに発声される発声単位内に混在する部
分があっても、上記第１の観点に係る構成と同様に、は
め込まれる文の合成パラメータをその周辺の文の影響を
考慮しながら生成し、音声合成に使用することにより、
周辺の文との一体感を向上した合成音の作成し、また定
型部とはめ込み部の音質を一致させることができる。な
お、上記発声単位からはめ込み部の音韻系列並びに韻律
情報を作成する際、韻律情報中のピッチパラメータにつ
いては、音節の数や長さがはめ込み部に入力される文に
よって変わることから、はめ込み部の部分の音節長の和
からその部分を表すのに必要なピッチパラメータの数を
求め、その求めた数の分だけを抽出すれば良い。

【００１６】本発明の第３の観点に係る構成は、上記第
１の観点に係る構成におけるはめ込み文データの定型部
の情報、即ち分析合成により得られた音韻系列並びに韻
律情報に代えて、音声波形データを用いると共に、ユー
ザ指定の入力文及びユーザ指定のはめ込み文データ中の
文環境情報をもとに、当該はめ込み文データ中の少なく
ともはめ込み部の合成音を作成する合成手段と、この合
成手段により作成されたはめ込み部の合成音を、ユーザ
指定のはめ込み文データ中のはめ込み部の位置情報に従
って当該はめ込み文データ中の定型部の音声波形データ
に接続して、出力すべき合成音を作成する波形はめ込み
手段とを備えたことを特徴とする。

【００１７】ここで、合成手段による合成音の作成に際
しては、上記第１の観点に係る構成と同様にしてはめ込
み部周辺の文環境を考慮して作成された、少なくともは
め込み部の合成パラメータ（音韻系列並びに韻律情報）
を用いると良い。

【００１８】このような構成においては、はめ込まれる
文の合成音がその周辺の文の影響を考慮しながら生成さ
れるため、周辺の文との一体感を向上した合成音の作成
が可能となる。しかも、定型部として肉声による音声を
使用することができるので、定型部の自然性が向上す
る。

【００１９】本発明の第４の観点に係る構成は、上記第
３の観点に係る構成における合成手段と波形はめ込み手
段とに代えて、ユーザ指定の入力文が挿入されるはめ込
み部とユーザ指定のはめ込み文データ中の定型部に相当
する部分との過渡点近傍の声の高さが、実際の定型部に
存在するはめ込み部と接続される部分の音声の高さと一
致するように少なくともはめ込み部の合成音を作成する
合成手段と、この合成手段により作成されたはめ込み部
の合成音を、ユーザ指定のはめ込み文データ中のはめ込
み部の位置情報に従って当該はめ込み文データ中の定型
部の音声波形データに位相を一致させて接続し、出力す
べき合成音を作成する波形はめ込み手段とを備えたこと
を特徴とする。

【００２０】ここで、合成手段による合成音の作成に際
しては、上記第３の観点に係る構成と同様に、はめ込み
部周辺の文環境を考慮して作成された、少なくともはめ
込み部の合成パラメータを用いると良いが、はめ込み部
と定型部が無音区間を挟まずに接続される場合には更
に、はめ込み部と定型部との過渡点近傍で、そのピッチ
の高さが定型部のものと一致するように合成パラメータ
を作成すると良い。これは、はめ込み部のピッチデータ
の値をシフトするなどの処理で実現できる。このような
構成においては、定型部とはめ込み部が連続して発声さ
れる部分にも適用可能となり、接続部を滑らかに合成す
ることができる。

【００２１】

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。［第１の実施形態］図１は、本発明を、人の発声した文
を分析することにより得られる合成パラメータ中に、規
則合成で得られる合成パラメータを埋め込み、それをも
とに音声を合成する音声合成装置に適用した第１の実施
形態を示すブロック構成図である。

【００２２】図１の音声合成装置は、はめ込み部として
規則合成される文にその周辺の文を付加し、はめ込み部
の周辺の文と共に規則合成を行うことにより文環境（は
め込み部周辺の環境）を考慮した合成パラメータを作成
し、そこから実際にはめ込み部として必要な部分のパラ
メータを抽出し、それを分析合成部の合成パラメータ中
に埋め込み、音声合成する機能を実現するために（つま
り、実際に規則合成部としてはめ込まれる文のみでな
く、その合成に影響を与える周辺の文も含めて解析する
ことにより、規則合成される文の埋め込まれる周辺の文
環境を考慮したパラメータを生成し、音声合成する機能
を実現するために）、はめ込み文データベース１１、文
選択部１２、文入力部１３、文作成部１４、パラメータ
作成部１５、パラメータ抽出部１６、パラメータはめ込
み部１７、合成部１８、及び出力部１９から構成され
る。

【００２３】はめ込み文データベース１１には、種々の
はめ込み文データが保存されている。このはめ込み文デ
ータは、文内容が固定の定型部の文（定型文）と、ユー
ザの指定に応じて文内容が変化する非定型部としてのは
め込み部の位置に配置された、はめ込み部であることを
識別するための識別文字データ（例えば特定記号）とを
含む文形式のデータ構造の、はめ込み合成用の文（以
下、はめ込み文と称する）、及び定型部の文の合成パラ
メータ等のデータから構成される。

【００２４】ここで、はめ込み文中の識別文字データ
は、そのデータ位置からはめ込み部の位置が分かること
から、はめ込み文データは、はめ込み部の位置データ、
即ちユーザ指定の文をどこに挿入するかの位置データを
有していることになる。また、定型部の文は、はめ込み
部の周辺の文の環境を表すことから、文環境情報である
といえる。また、定型部の文の合成パラメータは、人が
発声した音声を分析して作成されたもの（分析合成によ
るパラメータ）である。この合成パラメータは、対応す
る文の表す音韻系列と韻律情報とからなる。この韻律情
報は、各音韻の発声時間長（音韻長）、音韻系列により
表される文を発声する際の声の高さ（ピッチ）の変化の
仕方を表すデータなどからなる。なお、文環境情報に、
発声時の口調やテンポを示す情報を加えることも可能で
あり、定型部の文に代えて、単にはめ込み部の後ろまた
は前に定型部が存在するという情報を用いることも可能
である。

【００２５】文選択部１２は、はめ込み文データベース
１１に複数の文データが存在する場合に、ユーザ指定に
応じて必要なはめ込み文のデータを取り出す機能を提供
する。

【００２６】文入力部１３は、文選択部１２で選択され
たはめ込み文（中のはめ込み部分）にはめ込むべき文
を、ユーザにキーボードなどから入力させることで取得
する。文作成部１４は、入力された文と、はめ込み文デ
ータベース１１に定型部に対応する形で保存されている
文環境情報としての文（定型文）とを、発声順通りに結
合する。

【００２７】パラメータ作成部１５は、文作成部１４で
作成された文を解析し、音声合成に必要な合成パラメー
タを作成する。パラメータ抽出部１６は、パラメータ作
成部１５で作成された合成パラメータの中から、規則合
成に必要な部分のパラメータを抽出する。この抽出法と
しては、定型部は発声される内容が予め判明しているこ
とから、得られた合成パラメータを解析し、定型部に対
応する部分を削除して得る方法や、文作成部１４におい
て文の作成以外にはめ込み部の始終端を表すインデック
ス情報を作成しておき、パラメータ作成部１５では、そ
のインデックス情報をもとパラメータにおけるはめ込み
部の始終端を表すインデックス情報を作成し、これをも
とにはめ込み部のパラメータを抽出する方法などが適用
可能である。

【００２８】パラメータはめ込み部１７は、定型部の合
成パラメータと、パラメータ抽出部１６で得られた規則
合成部の合成パラメータとの結合を行う。このとき、規
則合成で作成された部分（規則合成部）と定型部とで
は、発声する声の高さに差がある可能性があるので、規
則合成された部分の声の高さを定型部に合わせるため
に、合成パラメータ中のピッチの情報を、一定周波数
や、一定の声のオクターブなどでシフトさせるような処
理を行っても良い。

【００２９】合成部１８は、パラメータはめ込み部１７
で作成された合成パラメータから合成音声を作成する。
出力部１９は、合成部１８で得られた合成音声を、スピ
ーカで再生したり、ファイル（例えばディスク）に出力
するなどの処理を行う。

【００３０】なお、上記各部間のデータの授受は、コン
ピュータが通常に有する主記憶などのメモリを介して行
われるものとする。次に、図１の構成の動作を図２のフ
ローチャートを参照して説明する。

【００３１】まず文選択部１２は、はめ込み文データベ
ース１１に蓄えられている複数のはめ込み合成用の文
（はめ込み文）の中からどれを使用するかを、ユーザに
例えばユーザインタフェース（図示せず）を介して選択
指定させ、指定されたはめ込み文を当該データベース１
１から取り出す（ステップＳ１１）。このとき文選択部
１２は、選択したはめ込み文の定型部の合成パラメータ
も取得する。ここでは例として、「（Ｗｈｏ）、お待ち
でございます。」というはめ込み文が選択されたとする
と、「お待ちでございます。」の部分が定型部となる。
また、“（Ｗｈｏ）”の記述部分は、例えば「田中様
が」のような文が実際には挿入されるはめ込み部を表
す。但し本実施形態では、データ構造上は、“（Ｗｈ
ｏ）”の部分には、はめ込み部を表す識別文字データで
ある所定の記号、例えば“％”が用いられている。

【００３２】次に文選択部１２から文入力部１３に制御
が渡される。すると文入力部１３は、文選択部１２によ
り選択的に取り出されはめ込み文から、ユーザによる入
力が必要な部分、即ちはめ込み部を検索し、そのはめ込
み部に挿入する文をユーザにキーボード等から入力させ
て取り込む処理を行う（ステップＳ１２）。先に挙げた
例では、“（Ｗｈｏ）”の部分がはめ込み部であること
から、ユーザにこの部分の入力を要求し、その結果を得
る。ここでは、「田中様が」という文が入力されたもの
とする。

【００３３】次に文入力部１３から文作成部１４に制御
が渡される。すると文作成部１４は、文選択部１２で選
択されたはめ込み文中の文環境情報としての定型部の文
と、文入力部１３で入力されたはめ込み部の文とを結合
して１つの文を作成する（ステップＳ１３）。この例で
は、定型部、はめ込み部がそれぞれ「お待ちでございま
す。」、「田中様が」に対応するので、「田中様が、お
待ちでございます。」という文が得られることになる。

【００３４】次に文作成部１４からパラメータ作成部１
５に制御が渡される。するとパラメータ作成部１５は、
上記ステップＳ１３で文作成部１４により得られた文を
解析し、この文を音声合成するのに必要な（音韻系列及
び韻律情報からなる）合成パラメータを生成する（ステ
ップＳ１４）。即ちパラメータ作成部１５は、文作成部
１４により得られた文を音声合成するのに必要な合成パ
ラメータを規則合成により生成する。

【００３５】次にパラメータ作成部１５からパラメータ
抽出部１６に制御が渡される。するとパラメータ抽出部
１６は、上記ステップＳ１４でパラメータ作成部１５に
より作成された合成パラメータの中から、はめ込み部と
して必要な部分の合成パラメータを抽出する（ステップ
Ｓ１５）。この例では、「田中様が」の部分の合成パラ
メータが抽出される。

【００３６】このように、ステップＳ１５で抽出された
「田中様が」の部分の合成パラメータは、後続する定型
部の「お待ちでございます。」を含む、「田中様が、お
待ちでございます。」という文を解析することで生成さ
れた合成パラメータより抽出されたものである。即ち、
ステップＳ１５で得られる「田中様が」の部分の合成パ
ラメータは、はめ込み部の「田中様が」という文だけか
ら生成されたものではなく、当該はめ込み部の文に加え
て、当該はめ込み部周辺の文環境を示す文環境情報（こ
こでは、定型部の文）を利用し、当該はめ込み部周辺の
文の発声に対する影響を考慮して生成されたものである
といえる。したがって、この合成パラメータを使用する
ことで、周辺の文との一体感を向上した合成音の作成が
可能となる。また、文環境情報として、発声時の口調や
テンポを示す情報を加えるならば、その発声時の口調や
テンポに合致した合成パラメータを生成することができ
るため、周辺の文との一体感を一層向上した合成音の作
成が期待できる。なお、文環境情報として、定型部の文
「お待ちでございます。」に代えて、単にはめ込み部の
後に定型部が存在するという情報を用いるだけでも、は
め込み部の「田中様が」という文だけから合成パラメー
タを生成するのと異なって、当該はめ込み部周辺の文の
発声に対する影響を考慮した合成パラメータを生成でき
るため、周辺の文との一体感を向上した合成音の作成が
可能となる。

【００３７】さて、上記ステップＳ１５における合成パ
ラメータ抽出には、この例の場合には「田中様が」の直
後、即ちはめ込み部の直後が句読点で切れており、そこ
に無音区間が挿入されることから、パラメータ作成部１
５により作成された合成パラメータの中から当該無音声
区間を検索し、この部分までを抽出してくるという手法
が適用可能である。

【００３８】次にパラメータ抽出部１６からパラメータ
はめ込み部１７に制御が渡される。するとパラメータは
め込み部１７は、上記ステップＳ１５でパラメータ抽出
部１６により抽出されたはめ込み部の合成パラメータ
と、文選択部１２によりはめ込み文データベース１１か
ら取得された定型部の合成パラメータとの結合を行う
（ステップＳ１６）。これにより、（周辺の文、具体的
には定型部「お待ちでございます。」の影響を考慮し
た）規則合成によるはめ込み部「田中様が」の合成パラ
メータと、（予め用意されていた）分析合成による定型
部「お待ちでございます。」の合成パラメータが１つの
文の合成パラメータとして統合される。この際、規則合
成された部分の声の高さを定型部に合わせるようにする
と良い。そのためには、このパターンメモリ統合（結
合）では、例えばピッチ形状の結合にも工夫が必要とな
る。このピッチ形状の結合には、ステップＳ１４で作成
したものをそのまま使用する手法も適用可能であるが、
本実施形態では、次のような手法を適用する。以下、本
実施形態で適用するピッチ形状の結合手法につき、図３
を参照して説明する。

【００３９】まず図３（ａ）は、ステップＳ１４で作成
された規則合成による「田中様が、お待ちでございま
す。」という文を発声する際のピッチ形状を示す。ここ
で、「田中様が」と「お待ちでございます。」の間のピ
ッチ形状の指定されていない部分は発声の休止区間を表
し、Ｐ１は休止区間におけるピッチの回復幅、Ｌ１は休
止区間の長さ（時間長）を表す。

【００４０】図３（ｂ）は、図３（ａ）のピッチ形状か
ら取り出した規則合成によるはめ込み部「田中様が」の
ピッチ形状と、分析合成により得られた定型部「お待ち
でございます。」のピッチ形状を結合しようとする様子
を示す。

【００４１】図３（ｃ）は、図３（ｂ）に示す規則合成
による「田中様が」のピッチ形状と、分析合成により得
られた「お待ちでございます。」のピッチ形状を結合
（接続）した状態を示す。この結合に際しては、休止区
間におけるピッチ回復幅Ｐ２を図３（ａ）のＰ１に、休
止長Ｌ２を図３（ａ）のＬ１に、それぞれ合わせるよう
に、規則合成による「田中様が」の合成パラメータ（即
ち規則合成部分の合成パラメータ）をシフトさせる手法
を適用する。この他、人の発声した「誰々様が、お待ち
でございます。」（“誰々”の部分は任意）という声を
予め分析して、このときのピッチ回復幅、休止長をデー
タベースに保存しておき、これにＰ２、Ｌ２を合わせる
手法も適用可能である。この分析による値（ピッチ回復
幅、休止長）を使用する場合には、ステップＳ１６での
合成パラメータ結合時に規則合成部分の合成パラメータ
をシフトするのではなく、ステップＳ１４での規則合成
による合成パラメータ生成処理で、ピッチ回復幅Ｐ２、
休止長Ｌ１が上記分析による値に一致するような合成パ
ラメータを作成するものでも良い。また、定型部につい
ては、定型部用として複数の合成パラメータをはめ込み
文データベース１１に用意しておき、はめ込み部の文の
アクセント型などによって使用するパラメータを変える
ようにしても良い。

【００４２】さて、ステップＳ１６において、はめ込み
部の合成パラメータと定型部の合成パラメータとがパラ
メータはめ込み部１７により結合されると、当該パラメ
ータはめ込み部１７から合成部１８に制御が渡される。
すると合成部１８は、パラメータはめ込み部１７により
結合（作成）された合成パラメータから合成音の作成を
行う（ステップＳ１７）。これにより、「田中様が、お
待ちでございます。」という音声の波形データを得るこ
とができる。

【００４３】ここで、定型部「お待ちでございます。」
の部分は、はめ込まれる「田中様が」の部分と無音区間
で隔てられ、音韻の結合などによる発声への影響を受け
にくい。したがって、この定型部「お待ちでございま
す。」の区間の波形データをはめ込み文データベース１
１に予め保存しておき、それを使用するようにしても構
わない。

【００４４】出力部１９は、ステップＳ１７で合成部１
８により作成された合成音をスピーカに出力するなどの
出力処理を行う（ステップＳ１８）。このようにして、
はめ込まれる文を囲む文環境を考慮した、はめ込み部を
含む文の音声合成が可能となる。

【００４５】以上、はめ込み部と定型部が休止区間で隔
てられている場合、即ちはめ込み部と定型部のそれぞれ
が（発声単位である）１呼吸句の場合における、はめ込
み部を含む文の音声合成について説明した。しかし、は
め込み部と定型部とが連続していて、その間に休止区間
がなく、両者が１呼吸句内で接続される場合もある。そ
こで、以下では、はめ込み部と定型部とが１呼吸句内で
接続される場合における、音声合成装置によるはめ込み
部を含む文の音声合成について説明する。ここで、音声
合成装置の基本構成は図１の構成と同様であり、全体の
処理の流れは図２と同様であることから、便宜的に図１
の構成と図２のフローチャートを参照し、先の例と異な
る部分を中心に説明する。

【００４６】例として、「新宿」をはめ込み部（に挿入
される文）、「から」を定型部（の文）とするものを用
いる。実際の文章では、「から」の後に「来た」等が続
くのであろうが、ここでは簡便のため、「から」までで
説明する。

【００４７】まず、ステップＳ１１では、文選択部１２
により「（ｐｌａｃｅ）から」というはめ込み文が得ら
れる。ここで“（ｐｌａｃｅ）”は文がはめ込まれる部
分であり、実際には「％から」と記述されているものと
する。

【００４８】ステップＳ１２では、“（ｐｌａｃｅ）”
の部分にはめ込まれる文がユーザから入力され、文入力
部１３により取り込まれる。ここでは、“新宿”が入力
されたとする。

【００４９】ステップＳ１３では、文作成部１４により
はめ込み部の文「新宿」と文環境情報としての定型部の
文「から」とが結合されて、「新宿から」という文が作
成される。

【００５０】ステップＳ１４では、ステップＳ１３で作
成された文「新宿から」をパラメータ作成部１５にて解
析し、はめ込み部「新宿」と定型部「から」とが休止区
間で隔てられずに連続しているものとして、規則合成に
よる対応する合成パラメータを作成する。

【００５１】ステップＳ１５では、ステップＳ１４で作
成された合成パラメータから、はめ込み部として実際に
使用する部分、ここでは「新宿」の部分の合成パラメー
タを、パラメータ抽出部１６にて抽出する。

【００５２】ここで、「新宿から」という（休止区間の
ない）１呼吸句の文の合成パラメータから「新宿」の部
分の合成パラメータを抽出する処理を、図４を参照して
説明する。

【００５３】まず、ステップＳ１４における処理によ
り、図４（ａ）に示すような「新宿から」を全て規則合
成するためのパラメータが作成されたものとする。図４
（ａ）において、“し”から“ら”までの各音節は「新
宿から」の文を解析して得られた発声する音の列を表
す。各音節の下にある数値は、その音節を発声する時間
長を表し、その下の山型のグラフは、発声するときの音
の高さ（ピッチ）の変化を表す。縦線は音節間の区切り
をわかりやすくするために描いたもので、その間隔は音
節の時間長で決まる。ピッチを表す値は、一定の時間間
隔（フレーム）毎に与えられている。ステップＳ１５
は、図４（ａ）の合成パラメータから、図４（ｂ）にあ
るような実際にはめ込み部として使用される部分、ここ
では「新宿」の部分を表す合成パラメータを取り出すた
めの処理を行うもので、その詳細は次の通りである。

【００５４】まず、「新宿から」の合成パラメータのう
ち、音節の種類とその時間長を表すパラメータについて
は、不要部分が最後の「から」を表す部分であること
が、はめ込み文データベース１１にはめ込み文「（ｐｌ
ａｃｅ）から」の定型部として登録されていることから
予め判明しているので、その２音節分のデータをパラメ
ータの最後から削除すれば良い。次に、ピッチパラメー
タについては、音節の数や長さがはめ込み部に入力され
る文によって変わるため、それに応じてデータ数は毎回
異なる。そこで、「新宿」の部分の音節長の和からその
部分を表すのに必要なピッチパラメータの数を求め、求
めた数の分だけをピッチデータ先頭から抽出する。これ
により、「新宿から」という文を自然に発声するために
必要な「新宿」の部分の合成パラメータを得ることがで
きる。

【００５５】ステップＳ１６では、ステップＳ１５で抽
出された合成パラメータと、はめ込み文「（ｐｌａｃ
ｅ）から」の定型部としてはめ込み文データベース１１
に登録されている「から」の部分の合成パラメータとの
接続をパラメータはめ込み部１７にて行う。

【００５６】このステップＳ１６での処理を図４に当て
はめると、ステップＳ１５で抽出された図４（ｂ）に示
す規則合成によるはめ込み部「新宿」用のパラメータ
と、図４（ｃ）に示す分析合成による定型部「から」の
パラメータとを接続し、図４（ｄ）に示す「しんじゅく
から」を表すパラメータを生成することに相当する。簡
単には、「新宿」の部分のパラメータの後ろに「から」
の部分のパラメータをそのまま続ければ良い。但し、規
則合成時にいくら文環境を考慮したとはいえ、分析によ
るものとは異なってしまう可能性が高い。そのため、
「新宿」の部分のパラメータの後ろに「から」の部分の
パラメータをそのまま接続しただけでは、その接続部で
ピッチが不連続になるといったことが起こり得る。

【００５７】そこで、ピッチを確実に連続的なものとす
るため、はめ込み部のピッチデータの終端の値が定型部
の始端の値と同じになるように、はめ込み部のピッチデ
ータの値全てをシフトするなどの処理を、例えばステッ
プＳ１６で行うようにすると良い。この他、ステップＳ
１４で、規則合成によりはめ込み部と共に作成した定型
部に相当する部分のピッチデータの始端の値が、定型部
としてはめ込み文データベース１１に保存してあるピッ
チデータの始端の値に一致するように、はめ込み部のピ
ッチデータの値を当該ステップＳ１４にてシフトしても
良いし、定型部のデータと共にはめ込み部の終端のピッ
チの値をはめ込み文データベース１１に保存しておき、
規則合成で作成されたはめ込み部のピッチデータの終端
の値がこれと一致するように、はめ込み部のピッチデー
タをシフトするようにしても良い。このようにすれば、
はめ込み部と定型部の間でピッチが大きく変化する場合
にも対処できるので、先のはめ込み部の終端と定型部の
始端のピッチの値を一致させる手法よりなお良い。

【００５８】ステップＳ１７では、ステップＳ１６で作
成された合成パラメータから合成部１８にて波形データ
を作成し、ステップＳ１８で出力部１９がその出力を行
う。このようにして、はめ込まれる語を囲む文環境を考
慮した、はめ込み部を含む文の音声合成ができるように
なる。［第２の実施形態］図５は、本発明を、人の発声した文
中に、規則合成で作成した文をはめ込む音声合成装置に
適用した第２の実施形態を示すブロック構成図である。

【００５９】この音声合成装置は、はめ込み部として規
則合成される文にその周辺の文を付加し、はめ込み部の
周辺の文と共に規則合成を行うことにより文環境（はめ
込み部周辺の文環境）を考慮したはめ込み部の合成音を
作成し、それを定型部の音声中に埋め込む機能を実現す
るために、はめ込み文データベース２１、文選択部２
２、文入力部２３、文作成部２４、パラメータ作成部２
５、合成部２６、波形抽出部２７、波形はめ込み部２
８、及び出力部２９から構成される。

【００６０】ここで、はめ込み文データベース２１、文
選択部２２、文入力部２３、文作成部２４、パラメータ
作成部２５については、図１中のはめ込み文データベー
ス１１、文選択部１２、文入力部１３、文作成部１４、
パラメータ作成部１５と同様の機能を有しているため、
説明を省略する。但し、はめ込み文データベース２１に
は、はめ込み文データベース１１と異なって、はめ込み
文中の定型部のデータとして、その合成パラメータでは
なく、音声データ（音声波形データ）が格納される。こ
の音声データは、圧縮した形式で格納されていても構わ
ない。また、パラメータ作成部２５には、はめ込まれる
文の声の高さを、周辺に付加されることになる音声の高
さに合わせるために、作成された合成パラメータを調整
する機能を付加しても良い。

【００６１】合成部２６は、パラメータ作成部２５で作
成された合成パラメータから合成音声を作成する。波形
抽出部２７は、合成部２６で作成された合成音声の中か
ら、はめ込み部として必要な部分を抽出する。

【００６２】波形はめ込み部２８は、波形抽出部２７で
抽出されたはめ込み部の音声波形と定型部の音声波形と
を結合して、出力すべき合成波形を作成する。出力部２
９は、波形はめ込み部２８により作成された合成波形
を、スピーカで再生したり、ファイル（ディスク）に出
力するなどの処理を行う。

【００６３】次に、図５の構成の動作を図６のフローチ
ャートを参照して説明する。まず文選択部２２は、はめ
込み文データベース２１に蓄えられている複数のはめ込
み文の中からどれを使用するかをユーザに選択指定さ
せ、指定されたはめ込み文を当該データベース２１から
取り出す（ステップＳ２１）。このとき文選択部２２
は、選択したはめ込み文の定型部の音声データも取り出
す。この定型部の音声データが取り出される点が、前記
第１の実施形態におけるステップＳ１１と異なる。

【００６４】次の文入力部２３によるステップＳ２２の
動作からパラメータ作成部２５によるステップＳ２４の
動作までは、前記第１の実施形態における文入力部１３
によるステップＳ１２の動作からパラメータ作成部１５
によるステップＳ１４の動作までと同様であるため、説
明を省略する。

【００６５】さて、ステップＳ２４で、文作成部２４に
より得られた文を音声合成するのに必要な合成パラメー
タが作成されると、パラメータ作成部２５から合成部２
６に制御が渡される。すると合成部２６は、文作成部２
４により作成された合成パラメータから合成音波形の作
成を行う（ステップＳ２５）。

【００６６】次に合成部２６から波形抽出部２７に制御
が渡される。すると波形抽出部２７は、ステップＳ２５
で合成部２６により作成された合成音波形から、はめ込
み部として必要な波形部分を抽出する（ステップＳ２
６）。

【００６７】次に波形抽出部２７から波形はめ込み部２
８に制御が渡される。すると波形はめ込み部２８は、文
選択部２２によりはめ込み文データベース２１から取り
出された定型部の音声波形と、ステップＳ２６で波形抽
出部２７により抽出されたはめ込み部の波形とを接続し
て、出力すべき合成波形を作成する（ステップＳ２
７）。

【００６８】出力部２９は、ステップＳ２７で波形はめ
込み部２８により作成された合成波形をスピーカに出力
するなどの出力処理を行う（ステップＳ２８）。このよ
うにして、はめ込まれる文を囲む文環境を考慮した、は
め込み部を含む文の音声合成が可能となる。

【００６９】以上、はめ込み部と定型部の間で、音声波
形の結合を特に意識しないで接続される場合について説
明した。これは、はめ込み部と定型部が無音区間で分離
されていたり、音声のパワーが接続部で十分小さくなる
など、音韻間の接続を意識しないで良い場合に特に有効
である。しかし、音韻が無音区間を挟まずに接続される
場合、そのままでは波形が不連続となり、その不連続部
分（接続部分）でノイズが発生する可能性がある。そこ
で以下では、音韻間の接続を行う場合における、音声合
成装置によるはめ込み部を含む文の音声合成について説
明する。ここで、音声合成装置の基本構成は図５の構成
と同様であり、全体の処理の流れは図６と同様であるこ
とから、便宜的に図５の構成と図６のフローチャートを
参照し、先の例と異なる部分を中心に説明する。

【００７０】まずパラメータ作成部２５は、ステップＳ
２４の処理において、はめ込み部の波形と定型部の音声
波形との接する部分近傍で、即ちはめ込み部と定型部と
の過渡点近傍で、そのピッチの高さが定型部のものと一
致するように合成パラメータを作成する。これは、はめ
込み部のピッチデータの値をシフトするなどの処理で実
現できる。

【００７１】波形抽出部２７は、パラメータ作成部２５
により作成された合成パラメータをもとに合成部２６が
ステップＳ２５で作成した合成音波形から、ステップＳ
２６の処理ではめ込み部の波形を抽出する。このはめ込
み部の波形の抽出に際しては、波形抽出部２７は、はめ
込み部の区問のみでなく、定型部との補間のためにある
程度の余裕をもって、例えば位相ずれを合わせるのに必
要な最低のピッチ分だけ余分に、波形を切り出す。

【００７２】波形はめ込み部２８は、ステップＳ２７の
処理で、はめ込み部と定型部の波形を接続する。その
際、接続部における波形の位相が一致するように位置を
調整してから接続を行う。また、波形が滑らかにつなが
るように、周辺で補間を行うようにしても良い。また、
パラメータ作成部２５によるステップＳ２４での処理で
波形のパワーも揃えることが可能であるならば、補間せ
ずにそのまま波形を接続しても良い。この手法を適用し
た上記ステップＳ２７における処理を図に表すと、図７
のようになる。

【００７３】図７（ａ）における三角波がはめ込み部の
波形で、“はめ込み部波形”と記されている範囲Ａが音
韻長の計算から得られるはめ込み部として必要な波形部
であり、“補間用波形”と記されている範囲Ｂが、補間
のために余裕としてとった部分を表す。図７（ｂ）は定
型部の波形（定型部波形）を表す。

【００７４】図７（ａ）中の“はめ込み部波形”の終端
と、図７（ｂ）の定型部波形の始端を比較すると、位相
がずれている。このため、図７（ａ）中の“はめ込み部
波形”と図７（ｂ）の定型部波形をこのまま接続すると
ノイズ等の原因となる。そこで波形はめ込み部２８は、
“補間用波形”（補間区間）を利用して、図７（ａ）の
波形と図７（ｂ）の波形の位相が一致するように時間位
置をずらして調整を行う。図７（ａ）の波形と図７
（ｂ）の波形は、それぞれ波形の頂点の位置が一致する
ように配置されており、位相を合わせた状態となってい
る。

【００７５】次に波形はめ込み部２８は、図７（ａ）の
波形から、図７（ｂ）の波形と接続するのに必要な補間
部分を含めて、図７（ｃ）のようなはめ込み部を抽出す
る。そして波形はめ込み部２８は、（補間部分を含め
て）抽出した図７（ｃ）のはめ込み部の波形と図７
（ｂ）の定型部波形とを接続し、図７（ｄ）の合成音波
形を作成する。なお、以上の説明では、はめ込み部の音
声が長くなる方向で位相を合わせたが、短くなる方向で
合わせても良い。

【００７６】また、波形合成のように波形の配置位置を
合成音の作成時に任意に決定可能な場合には、接続位置
におけるはめ込み部の波形の位相が定型部と一致するよ
うに合成部２６にてはめ込み部の波形を作成すれば、接
続位置において位相を合わせるために音韻長が変化して
しまうこともなくなお良い。

【００７７】以上に述べた第１、第２の実施形態で適用
した音声合成装置における処理手順（図２、図６のフロ
ーチャートの示す処理手順）は、プログラム読み取り可
能なパーソナルコンピュータ等のコンピュータに、当該
処理手順を実行させるためのプログラムを記録したＣＤ
−ＲＯＭ、ＤＶＤ−ＲＯＭ、フロッピーディスク、メモ
リカード等の記録媒体に記録されているプログラムを当
該コンピュータで読み取り実行させることにより実現さ
れる。なお、プログラムを記録した記録媒体の内容が、
通信媒体等を介してコンピュータにダウンロードされる
ものであっても構わない。

【００７８】なお、本発明は上述した実施形態に限定さ
れるものではない。例えば、前記第２の実施形態では、
パラメータ作成部２５で作成した合成パラメータの全て
を合成部２６で合成し、波形抽出部２７で必要な部分を
抽出するようにしているが、合成部２６において、波形
抽出部２７で抽出されるような範囲のみを合成するよう
にし、これを波形はめ込み部２８で使用するようにして
も良い。この場合、波形抽出部２７は不要となる。

【００７９】また、前記第１、第２の実施形態（におけ
るパラメータ作成部１５、パラメータ作成部２５）で
は、いずれも定型部を含めた全体の合成パラメータを解
析により作成するようにしているが、定型部は合成パラ
メータの生成の考慮には入れるものの（即ち、はめ込み
部の文の周辺の環境は考慮するものの）、合成パラメー
タの生成自体ははめ込み部のみを対象に行うようにして
も良い。

【００８０】また、前記第２の実施形態で、はめ込み部
と定型部の音韻の接続を考慮する場合において、図７の
例では、補間に必要な波形データをはめ込み部からのみ
とるようにしているが、はめ込み文データベース２１に
保存する定型部の音声データの方に補間区間をとってお
いても良いし、両方に補間区間をとっておいても良い。
但し、補間区間を定型部にもとる場合、はめ込み部がど
のような音韻で終端するか特定できないことから、その
音韻毎に音声データを保存するなどの手法が必要とな
る。

【００８１】また、前記第１及び第２の実施形態では、
はめ込み部の合成パラメータ作成に周辺の文環境を反映
させるために、はめ込み部の文を周辺の文に埋め込み、
その全体に対して解析を行うようにしているが、はめ込
み部の内容に関わらず、定型部の内容のみで決定される
解析内容については予め処理してデータベース（はめ込
み文データベース１１または２１）に保持しておき、実
際のはめ込み合成の際には、保持した情報を用いること
により処理量を減らすようにしても良い。

【００８２】また、前記第１の実施形態では、はめ込み
文データベース１１に保持する定型部の合成パラメータ
は音声を分析したものであるとしたが、文からの規則合
成等で作成した合成パラメータを、修正により最適化し
たものを保持するようにしても良い。

【００８３】また、前記第１及び第２の実施形態では、
はめ込み部として任意の文が挿入され、これを解析して
合成パラメータを作成する場合について説明したが、は
め込み部に挿入される文の種類が予め定められており
（用意されており）、その中からユーザに選択させる場
合にも適用可能である。この場合、それぞれの挿入され
る文用に最適化された合成パラメータ、あるいは高い品
質で合成パラメータが生成できるデータの形で、はめ込
み部のデータをはめ込み文データベースに保持しておく
と良い。要するに、本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。

【００８４】

【発明の効果】以上詳述したように本発明によれば、は
め込まれる文の合成パラメータをその周辺の文の影響を
考慮しながら生成し、音声合成に使用することにより、
周辺の文との一体感を向上した合成音を作成できる。ま
た、定型部とはめ込み部共に、合成パラメータの生成以
降は同じ音声合成方法で作成可能なため、定型部とはめ
込み部の音質を一致させることができる。

【００８５】また、本発明によれば、はめ込み部と定型
部とが休止することなく発声される発声単位内において
も、はめ込み部周辺の文との一体感を向上した合成音を
作成でき、且つ定型部とはめ込み部の音質を一致させる
ことができる。

【００８６】また、本発明によれば、はめ込まれる文の
合成音をその周辺の文の影響を考慮しながら生成するた
め、周辺の文との一体感を向上した合成音を作成でき、
しかも定型部として肉声による音声を使用することがで
きるので、定型部の自然性が向上する。また、本発明に
よれば、定型部とはめ込み部が連続して発声される部分
の接続部を滑らかに合成することができる。

【図面の簡単な説明】

【図１】本発明の音声合成装置の第１の実施形態を示す
もので、はめ込み部と定型部を合成パラメータの段階で
接続する音声合成装置のブロック構成図。

【図２】図１の構成における処理の流れを説明するため
のフローチャート。

【図３】図１の構成において、はめ込み部と定型部を休
止を挿入して接続する接続処理を説明するための図。

【図４】図１の構成において、はめ込み部と定型部を連
続して接続する接続処理を説明するための図。

【図５】本発明の音声合成装置の第２の実施形態を示す
もので、はめ込み部と定型部を音声波形データの段階で
接続する音声合成装置のブロック構成図。

【図６】図５の構成における処理の流れを説明するため
のフローチャート。

【図７】図５の構成において、はめ込み部と定型部を連
続して接続する接続処理を説明するための図。

【符号の説明】

１１，２１…はめこみ文データベース１２，２２…文選択部１３，２３…文入力部１４，２４…文作成部１５，２５…パラメータ作成部１６…パラメータ抽出部１７…パラメータはめ込み部１８，２６…合成部１９，２９…出力部２７…波形抽出部２８…波形はめ込み部

Claims

【特許請求の範囲】

【請求項１】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成装置であって、種々の定型部を持つはめ込み文毎に、当該はめ込み文中
の定型部の分析合成により得られた音韻系列並びに韻律
情報、当該はめ込み文中のはめ込み部の周辺の文環境を
示す文環境情報、及び当該はめ込み文中のはめ込み部の
位置情報を有するはめ込み文データが保持されたデータ
ベースと、前記はめ込み文データの１つをユーザ指定に応じて選択
する文選択手段と、前記文選択手段により選択されたはめ込み文データ中の
はめ込み部に挿入すべきユーザ指定の文を入力する文入
力手段と、前記文入力手段により入力された文及び前記選択された
はめ込み文データ中の文環境情報をもとに、当該はめ込
み文データ中の少なくともはめ込み部の音韻系列並びに
韻律情報を作成するパラメータ作成手段と、前記パラメータ作成手段により作成されたはめ込み部の
音韻系列並びに韻律情報を、前記選択されたはめ込み文
データ中のはめ込み部の位置情報に従って当該はめ込み
文データ中の定型部の音韻系列並びに韻律情報に接続し
て、音声合成用の音韻系列並びに韻律情報を作成するパ
ラメータはめ込み手段と、前記パラメータはめ込み手段により作成された音声合成
用の音韻系列並びに韻律情報に従って合成音を作成する
合成手段と、前記合成手段により作成された合成音を出力する出力手
段とを具備することを特徴とする音声合成装置。
【請求項２】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成装置であって、種々の定型部を持つはめ込み文毎に、当該はめ込み文中
の定型部の分析合成により得られた音韻系列並びに韻律
情報、当該はめ込み文中のはめ込み部の周辺の文環境を
示す文環境情報、及び当該はめ込み文中のはめ込み部の
位置情報を有するはめ込み文データが保持されたデータ
ベースと、前記はめ込み文データの１つをユーザ指定に応じて選択
する文選択手段と、前記文選択手段により選択されたはめ込み文データ中の
はめ込み部に挿入すべきユーザ指定の文を入力する文入
力手段と、前記文入力手段により入力された文が挿入されるはめ込
み部と前記選択されたはめ込み文データ中の定型部とが
休止区間で隔てられずに連続している場合、前記入力さ
れた文と当該はめ込み文データ中の文環境情報をもと
に、当該はめ込み文データ中の少なくともはめ込み部と
それに連続する定型部の発声内容からなる発声単位を作
成し、その発声単位から当該はめ込み部の音韻系列並び
に韻律情報を作成するパラメータ作成手段と、前記パラメータ作成手段により作成されたはめ込み部の
音韻系列並びに韻律情報を、前記選択されたはめ込み文
データ中のはめ込み部の位置情報に従って当該はめ込み
文データ中の定型部の音韻系列並びに韻律情報に接続し
て、音声合成用の音韻系列並びに韻律情報を作成するパ
ラメータはめ込み手段と、前記パラメータはめ込み手段により作成された音声合成
用の音韻系列並びに韻律情報に従って合成音を作成する
合成手段と、前記合成手段により作成された合成音を出力する出力手
段とを具備することを特徴とする音声合成装置。
【請求項３】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成装置であって、種々の定型部を持つはめ込み文毎に、当該はめ込み文中
の定型部の音声波形データ、当該はめ込み文中のはめ込
み部の周辺の文環境を示す文環境情報、及び当該はめ込
み文中のはめ込み部の位置情報を有するはめ込み文デー
タが保持されたデータベースと、前記はめ込み文データの１つをユーザ指定に応じて選択
する文選択手段と、前記文選択手段により選択されたはめ込み文データ中の
はめ込み部に挿入すべきユーザ指定の文を入力する文入
力手段と、前記文入力手段により入力された文及び前記選択された
はめ込み文データ中の文環境情報をもとに、当該はめ込
み文データ中の少なくともはめ込み部の合成音を作成す
る合成手段と、前記合成手段により作成されたはめ込み部の合成音を、
前記選択されたはめ込み文データ中のはめ込み部の位置
情報に従って当該はめ込み文データ中の定型部の音声波
形データに接続して、出力すべき合成音を作成する波形
はめ込み手段と、前記波形はめ込み手段により作成された合成音を出力す
る出力手段とを具備することを特徴とする音声合成装
置。
【請求項４】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成装置であって、種々の定型部を持つはめ込み文毎に、当該はめ込み文中
の定型部の音声波形データ、当該はめ込み文中のはめ込
み部の周辺の文環境を示す文環境情報、及び当該はめ込
み文中のはめ込み部の位置情報を有するはめ込み文デー
タが保持されたデータベースと、前記はめ込み文データの１つをユーザ指定に応じて選択
する文選択手段と、前記文選択手段により選択されたはめ込み文データ中の
はめ込み部に挿入すべきユーザ指定の文を入力する文入
力手段と、前記文入力手段により入力された文及び前記選択された
はめ込み文データ中の文環境情報をもとに、当該はめ込
み文データ中の少なくともはめ込み部の合成音を作成す
る合成手段であって、前記はめ込み部と当該はめ込み文
データ中の定型部に相当する部分との過渡点近傍の声の
高さが、実際の定型部に存在する前記はめ込み部と接続
される部分の音声の高さと一致するように少なくともは
め込み部の合成音を作成する合成手段と、前記合成手段により作成されたはめ込み部の合成音を、
前記選択されたはめ込み文データ中のはめ込み部の位置
情報に従って当該はめ込み文データ中の定型部の音声波
形データに位相を一致させて接続し、出力すべき合成音
を作成する波形はめ込み手段と、前記波形はめ込み手段により作成された合成音を出力す
る出力手段とを具備することを特徴とする音声合成装
置。
【請求項５】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成方法であって、種々の定型部を持つはめ込み文毎にデータベースに保持
されている、当該はめ込み文中の定型部の分析合成によ
り得られた音韻系列並びに韻律情報、当該はめ込み文中
のはめ込み部の周辺の文環境を示す文環境情報、及び当
該はめ込み文中のはめ込み部の位置情報を有するはめ込
み文データの中から、ユーザの指定するはめ込み文デー
タを選択して、この選択したはめ込み文データ中のはめ
込み部に挿入すべきユーザ指定の文を入力し、前記入力した文及び前記選択したはめ込み文データ中の
文環境情報をもとに、当該はめ込み文データ中の少なく
ともはめ込み部の音韻系列並びに韻律情報を作成し、前記作成したはめ込み部の音韻系列並びに韻律情報を、
前記選択したはめ込み文データ中のはめ込み部の位置情
報に従って当該はめ込み文データ中の定型部の音韻系列
並びに韻律情報に接続して、音声合成用の音韻系列並び
に韻律情報を作成し、前記作成した音声合成用の音韻系列並びに韻律情報から
音声を合成することを特徴とする音声合成方法。
【請求項６】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成する音声合
成方法であって、種々の定型部を持つはめ込み文毎にデータベースに保持
されている、当該はめ込み文中の定型部の分析合成によ
り得られた音韻系列並びに韻律情報、当該はめ込み文中
のはめ込み部の周辺の文環境を示す文環境情報、及び当
該はめ込み文中のはめ込み部の位置情報を有するはめ込
み文データの中から、ユーザの指定するはめ込み文デー
タを選択して、この選択したはめ込み文データ中のはめ
込み部に挿入すべきユーザ指定の文を入力し、前記入力した文が挿入されるはめ込み部と前記選択した
はめ込み文データ中の定型部とが休止区間で隔てられず
に連続している場合、前記入力した文と当該はめ込み文
データ中の文環境情報をもとに、当該はめ込み文データ
中の少なくともはめ込み部とそれに連続する定型部の発
声内容からなる発声単位を作成して、その発声単位から
当該はめ込み部の音韻系列並びに韻律情報を作成し、前記作成したはめ込み部の音韻系列並びに韻律情報を、
前記選択したはめ込み文データ中のはめ込み部の位置情
報に従って当該はめ込み文データ中の定型部の音韻系列
並びに韻律情報に接続して、音声合成用の音韻系列並び
に韻律情報を作成し、前記作成した音声合成用の音韻系列並びに韻律情報から
音声を合成することを特徴とする音声合成方法。
【請求項７】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成するプログ
ラムを記録したコンピュータ読取り可能な記録媒体であ
って、種々の定型部を持つはめ込み文毎にデータベースに保持
されている、当該はめ込み文中の定型部の分析合成によ
り得られた音韻系列並びに韻律情報、当該はめ込み文中
のはめ込み部の周辺の文環境を示す文環境情報、及び当
該はめ込み文中のはめ込み部の位置情報を有するはめ込
み文データの中から、ユーザの指定するはめ込み文デー
タを選択して、この選択したはめ込み文データ中のはめ
込み部に挿入すべきユーザ指定の文を入力するステップ
と、前記入力した文及び前記選択したはめ込み文データ中の
文環境情報をもとに、当該はめ込み文データ中の少なく
ともはめ込み部の音韻系列並びに韻律情報を作成するス
テップと、前記作成したはめ込み部の音韻系列並びに韻律情報を、
前記選択したはめ込み文データ中のはめ込み部の位置情
報に従って当該はめ込み文データ中の定型部の音韻系列
並びに韻律情報に接続して、音声合成用の音韻系列並び
に韻律情報を作成するステップと、前記作成した音声合成用の音韻系列並びに韻律情報から
音声を合成するステップとをコンピュータに実行させる
プログラムを記録したコンピュータ読取り可能な記録媒
体。
【請求項８】文内容が固定の定型部と文内容が変化す
るはめ込み部とを有するはめ込み文に対して、前記はめ
込み部の位置にユーザ指定の文を挿入し、このユーザ指
定の文が挿入されたはめ込み文の音声を合成するプログ
ラムを記録したコンピュータ読取り可能な記録媒体であ
って、種々の定型部を持つはめ込み文毎にデータベースに保持
されている、当該はめ込み文中の定型部の音声波形デー
タ、当該はめ込み文中のはめ込み部の周辺の文環境を示
す文環境情報、及び当該はめ込み文中のはめ込み部の位
置情報を有するはめ込み文データの中から、ユーザの指
定するはめ込み文データを選択して、この選択したはめ
込み文データ中のはめ込み部に挿入すべきユーザ指定の
文を入力するステップと、前記入力した文及び前記選択したはめ込み文データ中の
文環境情報をもとに、当該はめ込み文データ中の少なく
ともはめ込み部の合成音を作成するステップと、前記作成したはめ込み部の合成音を、前記選択したはめ
込み文データ中のはめ込み部の位置情報に従って当該は
め込み文データ中の定型部の音声波形データに接続し
て、出力すべき合成音を作成するステップとをコンピュ
ータに実行させるプログラムを記録したコンピュータ読
取り可能な記録媒体。