JPH1138989A - 音声合成装置及び方法 - Google Patents

音声合成装置及び方法

Info

Publication number
JPH1138989A
JPH1138989A JP9188515A JP18851597A JPH1138989A JP H1138989 A JPH1138989 A JP H1138989A JP 9188515 A JP9188515 A JP 9188515A JP 18851597 A JP18851597 A JP 18851597A JP H1138989 A JPH1138989 A JP H1138989A
Authority
JP
Japan
Prior art keywords
sentence
inset
data
fixed
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9188515A
Other languages
English (en)
Inventor
Osamu Kaseno
修 加瀬野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9188515A priority Critical patent/JPH1138989A/ja
Priority to US09/114,150 priority patent/US6212501B1/en
Publication of JPH1138989A publication Critical patent/JPH1138989A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】文の一部だけを規則合成で変更可能とし、その
他の部分は分析で作成したパラメータを使用して合成す
る場合に、規則合成部と分析部の韻律の接続性を良く
し、より自然性の良い合成を可能とする。 【解決手段】はめ込み文データベース11から、ユーザ
指定のはめ込み文と、そのはめ込み文中の定型部のパラ
メータを文選択部12が取り出すと、文入力部13は、
そのはめ込み文中のはめ込み部に挿入すべきユーザ指定
の文を入力する。文作成部14は、その入力文及び上記
定型部の文を結合し、パラメータ作成部15は、その結
合された文からパラメータを作成する。パラメータ抽出
部16は、そこからはめ込み部のパラメータを抽出し、
パラメータはめ込み部17は、このはめ込み部のパラメ
ータと上記定型部のパラメータとを結合して音声合成用
のパラメータを作成する。合成部18は、このパラメー
タから合成音を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文内容が固定の定
型部と文内容が変化するはめ込み部とを有するはめ込み
文に対して、当該はめ込み部の位置にユーザ指定の文を
挿入し、このユーザ指定の文が挿入されたはめ込み文の
音声を合成する音声合成装置及び方法に関する。
【0002】
【従来の技術】近時、漢字仮名混じりの文を解析し、そ
の文が示す音声情報を規則合成により音声合成して出力
する音声合成装置が種々開発されている。この種の規則
合成法を採用した音声合成装置は、基本的には人間が発
声した音声を予めある単位、例えばCV(子音、母
音)、CVC(子音、母音、子音)、VCV(母音、子
音、母音)、VC(母音、子音)毎にLSP(線スペク
トル対)分析やケプストラム分析等の手法を用いて分析
して求められる音韻情報を音声素片ファイルに登録して
おき、文を解析することにより得られる合成パラメータ
(音韻系列と韻律情報)と、この音声素片ファイルをも
とにして音源の生成と合成フィルタリング処理を行うこ
とにより合成音声を生成するものである。
【0003】文からの規則合成を行う場合、文を解析
し、そこから音韻系列と韻律情報を生成することになる
のであるが、それらの生成を全て規則により行うため、
規則の不完全さの影響で、どうしても不自然なところが
出てきてしまう。
【0004】そのため、発声する文章が予め決められて
いる場合には、実際に人間が発声した同一の文章を解析
して各種パラメータを作成し、それを用いて合成を行う
という技術がある。これにより、規則で生成するよりも
品質の良いパラメータを音声合成に使用できるため、よ
り自然な合成音を生成することができるようになる。
【0005】そして、適用分野によっては、文の一部だ
けを規則合成で変更可能とし、その他の部分は分析で作
成したパラメータを使用して合成したいという要望があ
る。これにより、全文を規則合成するよりも自然で、一
部規則合成の柔軟性を取り入れた合成が可能となる。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来技術においては、規則合成部分としてはめ込まれ
る文のみを使って規則合成し、それを分析による部分と
接続しても、接続が不自然になるという問題があった。
例えば、「田中様が、お待ちでございます。」のような
文において、「田中様が」を規則合成、「お待ちでござ
います」を分析合成とした場合、「田中様が」の部分
を、後に「お待ちでございます」が続くことを考慮せず
に規則合成すると、この文単体で終結するような雰囲気
を持つ調子で合成されてしまい、この後に「お待ちでご
ざいます」を発声すると違和感のある発声となってしま
うという問題があった。
【0007】そこで、本発明は上記の問題を解決するた
めになされたものであり、その目的とするところは、文
の一部だけを規則合成で変更可能とし、その他の部分は
分析で作成した合成パラメータまたは音声波形データを
使用して合成する場合に、規則合成時にその文の近傍の
定型部の文章など、周辺の文環境考慮して合成処理を行
い、そこから規則合成部分として使用される内容の部分
のみを取り出して使用することにより、規則合成部と分
析部の韻律の接続性を良くし、より自然性の良い合成を
可能とした音声合成装置及び方法を提供することにあ
る。
【0008】本発明の他の目的は、文の一部だけを規則
合成で変更可能とし、その他の部分は分析で作成した合
成パラメータまたは音声波形データを使用して合成する
場合に、変更可能部分(はめ込み部)と定型部とが休止
することなく発声される発声単位内においても、規則合
成部と分析部の韻律の接続性を良くし、より自然性の良
い合成を可能とした音声合成装置及び方法を提供するこ
とにある。
【0009】
【課題を解決するための手段】本発明の第1の観点に係
る構成は、種々の定型部を持つはめ込み文毎に、当該は
め込み文中の定型部の分析合成により得られた音韻系列
並びに韻律情報、当該はめ込み文中のはめ込み部の周辺
の文環境を示す文環境情報、及び当該はめ込み文中のは
め込み部の位置情報を有するはめ込み文データが保持さ
れたデータベースと、上記はめ込み文データの1つをユ
ーザ指定に応じて選択する文選択手段と、この文選択手
段により選択されたはめ込み文データ中のはめ込み部に
挿入すべきユーザ指定の文を入力する文入力手段と、こ
の文入力手段により入力された文及び上記選択されたは
め込み文データ中の文環境情報をもとに、当該はめ込み
文データ中の少なくともはめ込み部の音韻系列並びに韻
律情報を作成するパラメータ作成手段と、このパラメー
タ作成手段により作成されたはめ込み部の音韻系列並び
に韻律情報を、上記選択されたはめ込み文データ中のは
め込み部の位置情報に従って当該はめ込み文データ中の
定型部の音韻系列並びに韻律情報に接続して、音声合成
用の音韻系列並びに韻律情報を作成するパラメータはめ
込み手段と、このパラメータはめ込み手段により作成さ
れた音声合成用の音韻系列並びに韻律情報に従って合成
音を作成する合成手段と、この合成手段により作成され
た合成音を出力する出力手段とを備えたことを特徴とす
る。
【0010】このような構成においては、はめ込み部と
して規則合成される文だけでなく、その合成に影響を与
えるはめ込み部周辺の文(定型部の文)など、はめ込み
部周辺の文環境を示す情報を使用して、少なくともはめ
込み部の文の規則合成を行うことにより、はめ込み部周
辺の文環境を考慮した、少なくともはめ込み部の合成パ
ラメータ(音韻系列並びに韻律情報)が作成される。こ
こで、文環境情報として、はめ込み部周辺の文(定型部
の文)を用いると良く、この場合には、はめ込み部の文
のみでなく、その周辺の定型部の文も含めて解析するこ
とにより、はめ込み部周辺の文環境が反映されたはめ込
み部の合成パラメータを含む合成パラメータが作成され
るため、そこからはめ込み部の合成パラメータを抽出す
れば良い。また、文環境情報として、はめ込み部周辺の
文(定型部の文)に代えて、単にはめ込み部の周辺(前
または後ろ)に定型部が存在するという情報を用いるだ
けでも、はめ込み部の文だけから合成パラメータを生成
するのと異なって、当該はめ込み部周辺の文の発声に対
する影響を考慮した合成パラメータを生成できる。ま
た、文環境情報として、発声時の口調やテンポを示す情
報を加えるならば、その発声時の口調やテンポに合致し
た合成パラメータを生成することができる。
【0011】はめ込み部周辺の文環境が反映されたはめ
込み部(つまり規則合成部)の合成パラメータは、分析
合成によって得られた定型部(つまり分析部)の合成パ
ラメータとはめ込み部の位置情報に従って接続され、そ
こから合成音が作成される。
【0012】このように、はめ込まれる文の合成パラメ
ータをその周辺の文の影響を考慮しながら生成し、音声
合成に使用することにより、周辺の文との一体感を向上
した合成音の作成が可能となる。また、定型部とはめ込
み部共に、合成パラメータの生成以降は同じ音声合成方
法で作成可能なため、定型部とはめ込み部の音質を一致
させることが可能である。即ち、上記の構成において
は、規則合成部と分析部の韻律の接続性を良くし、より
自然性の良い合成を可能とする。
【0013】なお、周辺の文の影響を考慮した規則合成
によるはめ込み部の合成パラメータと、分析合成による
定型部の合成パラメータを1つの文の合成パラメータと
して統合する場合、規則合成された部分の声の高さを定
型部に合わせるようにすると良い。そのためには、合成
パラメータをシフトすれば良い。このシフト動作は、合
成パラメータ結合時に限らず、例えばはめ込み部の合成
パラメータの作成時に行うようにしても良い。この他、
定型部用として複数の合成パラメータをデータベースに
用意しておき、はめ込み部の文のアクセント型などによ
って使用するパラメータを変えるようにすることも可能
である。
【0014】本発明の第2の観点に係る構成は、上記第
1の観点に係る構成におけるパラメータ作成手段に、以
下の機能、即ちユーザ指定の入力文が挿入されるはめ込
み部とユーザ指定のはめ込み文データ中の定型部とが連
続していて、その間に休止区間がない場合に、上記入力
文とはめ込み文データ中の文環境情報をもとに、当該は
め込み文データ中の少なくともはめ込み部とそれに連続
する定型部の発声内容からなる発声単位(1呼吸句)を
作成し、その発声単位から当該はめ込み部の音韻系列並
びに韻律情報を作成する機能を持たせたことを特徴とす
る。
【0015】このような構成においては、定型部とはめ
込み部が休止なしに発声される発声単位内に混在する部
分があっても、上記第1の観点に係る構成と同様に、は
め込まれる文の合成パラメータをその周辺の文の影響を
考慮しながら生成し、音声合成に使用することにより、
周辺の文との一体感を向上した合成音の作成し、また定
型部とはめ込み部の音質を一致させることができる。な
お、上記発声単位からはめ込み部の音韻系列並びに韻律
情報を作成する際、韻律情報中のピッチパラメータにつ
いては、音節の数や長さがはめ込み部に入力される文に
よって変わることから、はめ込み部の部分の音節長の和
からその部分を表すのに必要なピッチパラメータの数を
求め、その求めた数の分だけを抽出すれば良い。
【0016】本発明の第3の観点に係る構成は、上記第
1の観点に係る構成におけるはめ込み文データの定型部
の情報、即ち分析合成により得られた音韻系列並びに韻
律情報に代えて、音声波形データを用いると共に、ユー
ザ指定の入力文及びユーザ指定のはめ込み文データ中の
文環境情報をもとに、当該はめ込み文データ中の少なく
ともはめ込み部の合成音を作成する合成手段と、この合
成手段により作成されたはめ込み部の合成音を、ユーザ
指定のはめ込み文データ中のはめ込み部の位置情報に従
って当該はめ込み文データ中の定型部の音声波形データ
に接続して、出力すべき合成音を作成する波形はめ込み
手段とを備えたことを特徴とする。
【0017】ここで、合成手段による合成音の作成に際
しては、上記第1の観点に係る構成と同様にしてはめ込
み部周辺の文環境を考慮して作成された、少なくともは
め込み部の合成パラメータ(音韻系列並びに韻律情報)
を用いると良い。
【0018】このような構成においては、はめ込まれる
文の合成音がその周辺の文の影響を考慮しながら生成さ
れるため、周辺の文との一体感を向上した合成音の作成
が可能となる。しかも、定型部として肉声による音声を
使用することができるので、定型部の自然性が向上す
る。
【0019】本発明の第4の観点に係る構成は、上記第
3の観点に係る構成における合成手段と波形はめ込み手
段とに代えて、ユーザ指定の入力文が挿入されるはめ込
み部とユーザ指定のはめ込み文データ中の定型部に相当
する部分との過渡点近傍の声の高さが、実際の定型部に
存在するはめ込み部と接続される部分の音声の高さと一
致するように少なくともはめ込み部の合成音を作成する
合成手段と、この合成手段により作成されたはめ込み部
の合成音を、ユーザ指定のはめ込み文データ中のはめ込
み部の位置情報に従って当該はめ込み文データ中の定型
部の音声波形データに位相を一致させて接続し、出力す
べき合成音を作成する波形はめ込み手段とを備えたこと
を特徴とする。
【0020】ここで、合成手段による合成音の作成に際
しては、上記第3の観点に係る構成と同様に、はめ込み
部周辺の文環境を考慮して作成された、少なくともはめ
込み部の合成パラメータを用いると良いが、はめ込み部
と定型部が無音区間を挟まずに接続される場合には更
に、はめ込み部と定型部との過渡点近傍で、そのピッチ
の高さが定型部のものと一致するように合成パラメータ
を作成すると良い。これは、はめ込み部のピッチデータ
の値をシフトするなどの処理で実現できる。このような
構成においては、定型部とはめ込み部が連続して発声さ
れる部分にも適用可能となり、接続部を滑らかに合成す
ることができる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は、本発明を、人の発声した文
を分析することにより得られる合成パラメータ中に、規
則合成で得られる合成パラメータを埋め込み、それをも
とに音声を合成する音声合成装置に適用した第1の実施
形態を示すブロック構成図である。
【0022】図1の音声合成装置は、はめ込み部として
規則合成される文にその周辺の文を付加し、はめ込み部
の周辺の文と共に規則合成を行うことにより文環境(は
め込み部周辺の環境)を考慮した合成パラメータを作成
し、そこから実際にはめ込み部として必要な部分のパラ
メータを抽出し、それを分析合成部の合成パラメータ中
に埋め込み、音声合成する機能を実現するために(つま
り、実際に規則合成部としてはめ込まれる文のみでな
く、その合成に影響を与える周辺の文も含めて解析する
ことにより、規則合成される文の埋め込まれる周辺の文
環境を考慮したパラメータを生成し、音声合成する機能
を実現するために)、はめ込み文データベース11、文
選択部12、文入力部13、文作成部14、パラメータ
作成部15、パラメータ抽出部16、パラメータはめ込
み部17、合成部18、及び出力部19から構成され
る。
【0023】はめ込み文データベース11には、種々の
はめ込み文データが保存されている。このはめ込み文デ
ータは、文内容が固定の定型部の文(定型文)と、ユー
ザの指定に応じて文内容が変化する非定型部としてのは
め込み部の位置に配置された、はめ込み部であることを
識別するための識別文字データ(例えば特定記号)とを
含む文形式のデータ構造の、はめ込み合成用の文(以
下、はめ込み文と称する)、及び定型部の文の合成パラ
メータ等のデータから構成される。
【0024】ここで、はめ込み文中の識別文字データ
は、そのデータ位置からはめ込み部の位置が分かること
から、はめ込み文データは、はめ込み部の位置データ、
即ちユーザ指定の文をどこに挿入するかの位置データを
有していることになる。また、定型部の文は、はめ込み
部の周辺の文の環境を表すことから、文環境情報である
といえる。また、定型部の文の合成パラメータは、人が
発声した音声を分析して作成されたもの(分析合成によ
るパラメータ)である。この合成パラメータは、対応す
る文の表す音韻系列と韻律情報とからなる。この韻律情
報は、各音韻の発声時間長(音韻長)、音韻系列により
表される文を発声する際の声の高さ(ピッチ)の変化の
仕方を表すデータなどからなる。なお、文環境情報に、
発声時の口調やテンポを示す情報を加えることも可能で
あり、定型部の文に代えて、単にはめ込み部の後ろまた
は前に定型部が存在するという情報を用いることも可能
である。
【0025】文選択部12は、はめ込み文データベース
11に複数の文データが存在する場合に、ユーザ指定に
応じて必要なはめ込み文のデータを取り出す機能を提供
する。
【0026】文入力部13は、文選択部12で選択され
たはめ込み文(中のはめ込み部分)にはめ込むべき文
を、ユーザにキーボードなどから入力させることで取得
する。文作成部14は、入力された文と、はめ込み文デ
ータベース11に定型部に対応する形で保存されている
文環境情報としての文(定型文)とを、発声順通りに結
合する。
【0027】パラメータ作成部15は、文作成部14で
作成された文を解析し、音声合成に必要な合成パラメー
タを作成する。パラメータ抽出部16は、パラメータ作
成部15で作成された合成パラメータの中から、規則合
成に必要な部分のパラメータを抽出する。この抽出法と
しては、定型部は発声される内容が予め判明しているこ
とから、得られた合成パラメータを解析し、定型部に対
応する部分を削除して得る方法や、文作成部14におい
て文の作成以外にはめ込み部の始終端を表すインデック
ス情報を作成しておき、パラメータ作成部15では、そ
のインデックス情報をもとパラメータにおけるはめ込み
部の始終端を表すインデックス情報を作成し、これをも
とにはめ込み部のパラメータを抽出する方法などが適用
可能である。
【0028】パラメータはめ込み部17は、定型部の合
成パラメータと、パラメータ抽出部16で得られた規則
合成部の合成パラメータとの結合を行う。このとき、規
則合成で作成された部分(規則合成部)と定型部とで
は、発声する声の高さに差がある可能性があるので、規
則合成された部分の声の高さを定型部に合わせるため
に、合成パラメータ中のピッチの情報を、一定周波数
や、一定の声のオクターブなどでシフトさせるような処
理を行っても良い。
【0029】合成部18は、パラメータはめ込み部17
で作成された合成パラメータから合成音声を作成する。
出力部19は、合成部18で得られた合成音声を、スピ
ーカで再生したり、ファイル(例えばディスク)に出力
するなどの処理を行う。
【0030】なお、上記各部間のデータの授受は、コン
ピュータが通常に有する主記憶などのメモリを介して行
われるものとする。次に、図1の構成の動作を図2のフ
ローチャートを参照して説明する。
【0031】まず文選択部12は、はめ込み文データベ
ース11に蓄えられている複数のはめ込み合成用の文
(はめ込み文)の中からどれを使用するかを、ユーザに
例えばユーザインタフェース(図示せず)を介して選択
指定させ、指定されたはめ込み文を当該データベース1
1から取り出す(ステップS11)。このとき文選択部
12は、選択したはめ込み文の定型部の合成パラメータ
も取得する。ここでは例として、「(Who)、お待ち
でございます。」というはめ込み文が選択されたとする
と、「お待ちでございます。」の部分が定型部となる。
また、“(Who)”の記述部分は、例えば「田中様
が」のような文が実際には挿入されるはめ込み部を表
す。但し本実施形態では、データ構造上は、“(Wh
o)”の部分には、はめ込み部を表す識別文字データで
ある所定の記号、例えば“%”が用いられている。
【0032】次に文選択部12から文入力部13に制御
が渡される。すると文入力部13は、文選択部12によ
り選択的に取り出されはめ込み文から、ユーザによる入
力が必要な部分、即ちはめ込み部を検索し、そのはめ込
み部に挿入する文をユーザにキーボード等から入力させ
て取り込む処理を行う(ステップS12)。先に挙げた
例では、“(Who)”の部分がはめ込み部であること
から、ユーザにこの部分の入力を要求し、その結果を得
る。ここでは、「田中様が」という文が入力されたもの
とする。
【0033】次に文入力部13から文作成部14に制御
が渡される。すると文作成部14は、文選択部12で選
択されたはめ込み文中の文環境情報としての定型部の文
と、文入力部13で入力されたはめ込み部の文とを結合
して1つの文を作成する(ステップS13)。この例で
は、定型部、はめ込み部がそれぞれ「お待ちでございま
す。」、「田中様が」に対応するので、「田中様が、お
待ちでございます。」という文が得られることになる。
【0034】次に文作成部14からパラメータ作成部1
5に制御が渡される。するとパラメータ作成部15は、
上記ステップS13で文作成部14により得られた文を
解析し、この文を音声合成するのに必要な(音韻系列及
び韻律情報からなる)合成パラメータを生成する(ステ
ップS14)。即ちパラメータ作成部15は、文作成部
14により得られた文を音声合成するのに必要な合成パ
ラメータを規則合成により生成する。
【0035】次にパラメータ作成部15からパラメータ
抽出部16に制御が渡される。するとパラメータ抽出部
16は、上記ステップS14でパラメータ作成部15に
より作成された合成パラメータの中から、はめ込み部と
して必要な部分の合成パラメータを抽出する(ステップ
S15)。この例では、「田中様が」の部分の合成パラ
メータが抽出される。
【0036】このように、ステップS15で抽出された
「田中様が」の部分の合成パラメータは、後続する定型
部の「お待ちでございます。」を含む、「田中様が、お
待ちでございます。」という文を解析することで生成さ
れた合成パラメータより抽出されたものである。即ち、
ステップS15で得られる「田中様が」の部分の合成パ
ラメータは、はめ込み部の「田中様が」という文だけか
ら生成されたものではなく、当該はめ込み部の文に加え
て、当該はめ込み部周辺の文環境を示す文環境情報(こ
こでは、定型部の文)を利用し、当該はめ込み部周辺の
文の発声に対する影響を考慮して生成されたものである
といえる。したがって、この合成パラメータを使用する
ことで、周辺の文との一体感を向上した合成音の作成が
可能となる。また、文環境情報として、発声時の口調や
テンポを示す情報を加えるならば、その発声時の口調や
テンポに合致した合成パラメータを生成することができ
るため、周辺の文との一体感を一層向上した合成音の作
成が期待できる。なお、文環境情報として、定型部の文
「お待ちでございます。」に代えて、単にはめ込み部の
後に定型部が存在するという情報を用いるだけでも、は
め込み部の「田中様が」という文だけから合成パラメー
タを生成するのと異なって、当該はめ込み部周辺の文の
発声に対する影響を考慮した合成パラメータを生成でき
るため、周辺の文との一体感を向上した合成音の作成が
可能となる。
【0037】さて、上記ステップS15における合成パ
ラメータ抽出には、この例の場合には「田中様が」の直
後、即ちはめ込み部の直後が句読点で切れており、そこ
に無音区間が挿入されることから、パラメータ作成部1
5により作成された合成パラメータの中から当該無音声
区間を検索し、この部分までを抽出してくるという手法
が適用可能である。
【0038】次にパラメータ抽出部16からパラメータ
はめ込み部17に制御が渡される。するとパラメータは
め込み部17は、上記ステップS15でパラメータ抽出
部16により抽出されたはめ込み部の合成パラメータ
と、文選択部12によりはめ込み文データベース11か
ら取得された定型部の合成パラメータとの結合を行う
(ステップS16)。これにより、(周辺の文、具体的
には定型部「お待ちでございます。」の影響を考慮し
た)規則合成によるはめ込み部「田中様が」の合成パラ
メータと、(予め用意されていた)分析合成による定型
部「お待ちでございます。」の合成パラメータが1つの
文の合成パラメータとして統合される。この際、規則合
成された部分の声の高さを定型部に合わせるようにする
と良い。そのためには、このパターンメモリ統合(結
合)では、例えばピッチ形状の結合にも工夫が必要とな
る。このピッチ形状の結合には、ステップS14で作成
したものをそのまま使用する手法も適用可能であるが、
本実施形態では、次のような手法を適用する。以下、本
実施形態で適用するピッチ形状の結合手法につき、図3
を参照して説明する。
【0039】まず図3(a)は、ステップS14で作成
された規則合成による「田中様が、お待ちでございま
す。」という文を発声する際のピッチ形状を示す。ここ
で、「田中様が」と「お待ちでございます。」の間のピ
ッチ形状の指定されていない部分は発声の休止区間を表
し、P1は休止区間におけるピッチの回復幅、L1は休
止区間の長さ(時間長)を表す。
【0040】図3(b)は、図3(a)のピッチ形状か
ら取り出した規則合成によるはめ込み部「田中様が」の
ピッチ形状と、分析合成により得られた定型部「お待ち
でございます。」のピッチ形状を結合しようとする様子
を示す。
【0041】図3(c)は、図3(b)に示す規則合成
による「田中様が」のピッチ形状と、分析合成により得
られた「お待ちでございます。」のピッチ形状を結合
(接続)した状態を示す。この結合に際しては、休止区
間におけるピッチ回復幅P2を図3(a)のP1に、休
止長L2を図3(a)のL1に、それぞれ合わせるよう
に、規則合成による「田中様が」の合成パラメータ(即
ち規則合成部分の合成パラメータ)をシフトさせる手法
を適用する。この他、人の発声した「誰々様が、お待ち
でございます。」(“誰々”の部分は任意)という声を
予め分析して、このときのピッチ回復幅、休止長をデー
タベースに保存しておき、これにP2、L2を合わせる
手法も適用可能である。この分析による値(ピッチ回復
幅、休止長)を使用する場合には、ステップS16での
合成パラメータ結合時に規則合成部分の合成パラメータ
をシフトするのではなく、ステップS14での規則合成
による合成パラメータ生成処理で、ピッチ回復幅P2、
休止長L1が上記分析による値に一致するような合成パ
ラメータを作成するものでも良い。また、定型部につい
ては、定型部用として複数の合成パラメータをはめ込み
文データベース11に用意しておき、はめ込み部の文の
アクセント型などによって使用するパラメータを変える
ようにしても良い。
【0042】さて、ステップS16において、はめ込み
部の合成パラメータと定型部の合成パラメータとがパラ
メータはめ込み部17により結合されると、当該パラメ
ータはめ込み部17から合成部18に制御が渡される。
すると合成部18は、パラメータはめ込み部17により
結合(作成)された合成パラメータから合成音の作成を
行う(ステップS17)。これにより、「田中様が、お
待ちでございます。」という音声の波形データを得るこ
とができる。
【0043】ここで、定型部「お待ちでございます。」
の部分は、はめ込まれる「田中様が」の部分と無音区間
で隔てられ、音韻の結合などによる発声への影響を受け
にくい。したがって、この定型部「お待ちでございま
す。」の区間の波形データをはめ込み文データベース1
1に予め保存しておき、それを使用するようにしても構
わない。
【0044】出力部19は、ステップS17で合成部1
8により作成された合成音をスピーカに出力するなどの
出力処理を行う(ステップS18)。このようにして、
はめ込まれる文を囲む文環境を考慮した、はめ込み部を
含む文の音声合成が可能となる。
【0045】以上、はめ込み部と定型部が休止区間で隔
てられている場合、即ちはめ込み部と定型部のそれぞれ
が(発声単位である)1呼吸句の場合における、はめ込
み部を含む文の音声合成について説明した。しかし、は
め込み部と定型部とが連続していて、その間に休止区間
がなく、両者が1呼吸句内で接続される場合もある。そ
こで、以下では、はめ込み部と定型部とが1呼吸句内で
接続される場合における、音声合成装置によるはめ込み
部を含む文の音声合成について説明する。ここで、音声
合成装置の基本構成は図1の構成と同様であり、全体の
処理の流れは図2と同様であることから、便宜的に図1
の構成と図2のフローチャートを参照し、先の例と異な
る部分を中心に説明する。
【0046】例として、「新宿」をはめ込み部(に挿入
される文)、「から」を定型部(の文)とするものを用
いる。実際の文章では、「から」の後に「来た」等が続
くのであろうが、ここでは簡便のため、「から」までで
説明する。
【0047】まず、ステップS11では、文選択部12
により「(place)から」というはめ込み文が得ら
れる。ここで“(place)”は文がはめ込まれる部
分であり、実際には「%から」と記述されているものと
する。
【0048】ステップS12では、“(place)”
の部分にはめ込まれる文がユーザから入力され、文入力
部13により取り込まれる。ここでは、“新宿”が入力
されたとする。
【0049】ステップS13では、文作成部14により
はめ込み部の文「新宿」と文環境情報としての定型部の
文「から」とが結合されて、「新宿から」という文が作
成される。
【0050】ステップS14では、ステップS13で作
成された文「新宿から」をパラメータ作成部15にて解
析し、はめ込み部「新宿」と定型部「から」とが休止区
間で隔てられずに連続しているものとして、規則合成に
よる対応する合成パラメータを作成する。
【0051】ステップS15では、ステップS14で作
成された合成パラメータから、はめ込み部として実際に
使用する部分、ここでは「新宿」の部分の合成パラメー
タを、パラメータ抽出部16にて抽出する。
【0052】ここで、「新宿から」という(休止区間の
ない)1呼吸句の文の合成パラメータから「新宿」の部
分の合成パラメータを抽出する処理を、図4を参照して
説明する。
【0053】まず、ステップS14における処理によ
り、図4(a)に示すような「新宿から」を全て規則合
成するためのパラメータが作成されたものとする。図4
(a)において、“し”から“ら”までの各音節は「新
宿から」の文を解析して得られた発声する音の列を表
す。各音節の下にある数値は、その音節を発声する時間
長を表し、その下の山型のグラフは、発声するときの音
の高さ(ピッチ)の変化を表す。縦線は音節間の区切り
をわかりやすくするために描いたもので、その間隔は音
節の時間長で決まる。ピッチを表す値は、一定の時間間
隔(フレーム)毎に与えられている。ステップS15
は、図4(a)の合成パラメータから、図4(b)にあ
るような実際にはめ込み部として使用される部分、ここ
では「新宿」の部分を表す合成パラメータを取り出すた
めの処理を行うもので、その詳細は次の通りである。
【0054】まず、「新宿から」の合成パラメータのう
ち、音節の種類とその時間長を表すパラメータについて
は、不要部分が最後の「から」を表す部分であること
が、はめ込み文データベース11にはめ込み文「(pl
ace)から」の定型部として登録されていることから
予め判明しているので、その2音節分のデータをパラメ
ータの最後から削除すれば良い。次に、ピッチパラメー
タについては、音節の数や長さがはめ込み部に入力され
る文によって変わるため、それに応じてデータ数は毎回
異なる。そこで、「新宿」の部分の音節長の和からその
部分を表すのに必要なピッチパラメータの数を求め、求
めた数の分だけをピッチデータ先頭から抽出する。これ
により、「新宿から」という文を自然に発声するために
必要な「新宿」の部分の合成パラメータを得ることがで
きる。
【0055】ステップS16では、ステップS15で抽
出された合成パラメータと、はめ込み文「(plac
e)から」の定型部としてはめ込み文データベース11
に登録されている「から」の部分の合成パラメータとの
接続をパラメータはめ込み部17にて行う。
【0056】このステップS16での処理を図4に当て
はめると、ステップS15で抽出された図4(b)に示
す規則合成によるはめ込み部「新宿」用のパラメータ
と、図4(c)に示す分析合成による定型部「から」の
パラメータとを接続し、図4(d)に示す「しんじゅく
から」を表すパラメータを生成することに相当する。簡
単には、「新宿」の部分のパラメータの後ろに「から」
の部分のパラメータをそのまま続ければ良い。但し、規
則合成時にいくら文環境を考慮したとはいえ、分析によ
るものとは異なってしまう可能性が高い。そのため、
「新宿」の部分のパラメータの後ろに「から」の部分の
パラメータをそのまま接続しただけでは、その接続部で
ピッチが不連続になるといったことが起こり得る。
【0057】そこで、ピッチを確実に連続的なものとす
るため、はめ込み部のピッチデータの終端の値が定型部
の始端の値と同じになるように、はめ込み部のピッチデ
ータの値全てをシフトするなどの処理を、例えばステッ
プS16で行うようにすると良い。この他、ステップS
14で、規則合成によりはめ込み部と共に作成した定型
部に相当する部分のピッチデータの始端の値が、定型部
としてはめ込み文データベース11に保存してあるピッ
チデータの始端の値に一致するように、はめ込み部のピ
ッチデータの値を当該ステップS14にてシフトしても
良いし、定型部のデータと共にはめ込み部の終端のピッ
チの値をはめ込み文データベース11に保存しておき、
規則合成で作成されたはめ込み部のピッチデータの終端
の値がこれと一致するように、はめ込み部のピッチデー
タをシフトするようにしても良い。このようにすれば、
はめ込み部と定型部の間でピッチが大きく変化する場合
にも対処できるので、先のはめ込み部の終端と定型部の
始端のピッチの値を一致させる手法よりなお良い。
【0058】ステップS17では、ステップS16で作
成された合成パラメータから合成部18にて波形データ
を作成し、ステップS18で出力部19がその出力を行
う。このようにして、はめ込まれる語を囲む文環境を考
慮した、はめ込み部を含む文の音声合成ができるように
なる。 [第2の実施形態]図5は、本発明を、人の発声した文
中に、規則合成で作成した文をはめ込む音声合成装置に
適用した第2の実施形態を示すブロック構成図である。
【0059】この音声合成装置は、はめ込み部として規
則合成される文にその周辺の文を付加し、はめ込み部の
周辺の文と共に規則合成を行うことにより文環境(はめ
込み部周辺の文環境)を考慮したはめ込み部の合成音を
作成し、それを定型部の音声中に埋め込む機能を実現す
るために、はめ込み文データベース21、文選択部2
2、文入力部23、文作成部24、パラメータ作成部2
5、合成部26、波形抽出部27、波形はめ込み部2
8、及び出力部29から構成される。
【0060】ここで、はめ込み文データベース21、文
選択部22、文入力部23、文作成部24、パラメータ
作成部25については、図1中のはめ込み文データベー
ス11、文選択部12、文入力部13、文作成部14、
パラメータ作成部15と同様の機能を有しているため、
説明を省略する。但し、はめ込み文データベース21に
は、はめ込み文データベース11と異なって、はめ込み
文中の定型部のデータとして、その合成パラメータでは
なく、音声データ(音声波形データ)が格納される。こ
の音声データは、圧縮した形式で格納されていても構わ
ない。また、パラメータ作成部25には、はめ込まれる
文の声の高さを、周辺に付加されることになる音声の高
さに合わせるために、作成された合成パラメータを調整
する機能を付加しても良い。
【0061】合成部26は、パラメータ作成部25で作
成された合成パラメータから合成音声を作成する。波形
抽出部27は、合成部26で作成された合成音声の中か
ら、はめ込み部として必要な部分を抽出する。
【0062】波形はめ込み部28は、波形抽出部27で
抽出されたはめ込み部の音声波形と定型部の音声波形と
を結合して、出力すべき合成波形を作成する。出力部2
9は、波形はめ込み部28により作成された合成波形
を、スピーカで再生したり、ファイル(ディスク)に出
力するなどの処理を行う。
【0063】次に、図5の構成の動作を図6のフローチ
ャートを参照して説明する。まず文選択部22は、はめ
込み文データベース21に蓄えられている複数のはめ込
み文の中からどれを使用するかをユーザに選択指定さ
せ、指定されたはめ込み文を当該データベース21から
取り出す(ステップS21)。このとき文選択部22
は、選択したはめ込み文の定型部の音声データも取り出
す。この定型部の音声データが取り出される点が、前記
第1の実施形態におけるステップS11と異なる。
【0064】次の文入力部23によるステップS22の
動作からパラメータ作成部25によるステップS24の
動作までは、前記第1の実施形態における文入力部13
によるステップS12の動作からパラメータ作成部15
によるステップS14の動作までと同様であるため、説
明を省略する。
【0065】さて、ステップS24で、文作成部24に
より得られた文を音声合成するのに必要な合成パラメー
タが作成されると、パラメータ作成部25から合成部2
6に制御が渡される。すると合成部26は、文作成部2
4により作成された合成パラメータから合成音波形の作
成を行う(ステップS25)。
【0066】次に合成部26から波形抽出部27に制御
が渡される。すると波形抽出部27は、ステップS25
で合成部26により作成された合成音波形から、はめ込
み部として必要な波形部分を抽出する(ステップS2
6)。
【0067】次に波形抽出部27から波形はめ込み部2
8に制御が渡される。すると波形はめ込み部28は、文
選択部22によりはめ込み文データベース21から取り
出された定型部の音声波形と、ステップS26で波形抽
出部27により抽出されたはめ込み部の波形とを接続し
て、出力すべき合成波形を作成する(ステップS2
7)。
【0068】出力部29は、ステップS27で波形はめ
込み部28により作成された合成波形をスピーカに出力
するなどの出力処理を行う(ステップS28)。このよ
うにして、はめ込まれる文を囲む文環境を考慮した、は
め込み部を含む文の音声合成が可能となる。
【0069】以上、はめ込み部と定型部の間で、音声波
形の結合を特に意識しないで接続される場合について説
明した。これは、はめ込み部と定型部が無音区間で分離
されていたり、音声のパワーが接続部で十分小さくなる
など、音韻間の接続を意識しないで良い場合に特に有効
である。しかし、音韻が無音区間を挟まずに接続される
場合、そのままでは波形が不連続となり、その不連続部
分(接続部分)でノイズが発生する可能性がある。そこ
で以下では、音韻間の接続を行う場合における、音声合
成装置によるはめ込み部を含む文の音声合成について説
明する。ここで、音声合成装置の基本構成は図5の構成
と同様であり、全体の処理の流れは図6と同様であるこ
とから、便宜的に図5の構成と図6のフローチャートを
参照し、先の例と異なる部分を中心に説明する。
【0070】まずパラメータ作成部25は、ステップS
24の処理において、はめ込み部の波形と定型部の音声
波形との接する部分近傍で、即ちはめ込み部と定型部と
の過渡点近傍で、そのピッチの高さが定型部のものと一
致するように合成パラメータを作成する。これは、はめ
込み部のピッチデータの値をシフトするなどの処理で実
現できる。
【0071】波形抽出部27は、パラメータ作成部25
により作成された合成パラメータをもとに合成部26が
ステップS25で作成した合成音波形から、ステップS
26の処理ではめ込み部の波形を抽出する。このはめ込
み部の波形の抽出に際しては、波形抽出部27は、はめ
込み部の区問のみでなく、定型部との補間のためにある
程度の余裕をもって、例えば位相ずれを合わせるのに必
要な最低のピッチ分だけ余分に、波形を切り出す。
【0072】波形はめ込み部28は、ステップS27の
処理で、はめ込み部と定型部の波形を接続する。その
際、接続部における波形の位相が一致するように位置を
調整してから接続を行う。また、波形が滑らかにつなが
るように、周辺で補間を行うようにしても良い。また、
パラメータ作成部25によるステップS24での処理で
波形のパワーも揃えることが可能であるならば、補間せ
ずにそのまま波形を接続しても良い。この手法を適用し
た上記ステップS27における処理を図に表すと、図7
のようになる。
【0073】図7(a)における三角波がはめ込み部の
波形で、“はめ込み部波形”と記されている範囲Aが音
韻長の計算から得られるはめ込み部として必要な波形部
であり、“補間用波形”と記されている範囲Bが、補間
のために余裕としてとった部分を表す。図7(b)は定
型部の波形(定型部波形)を表す。
【0074】図7(a)中の“はめ込み部波形”の終端
と、図7(b)の定型部波形の始端を比較すると、位相
がずれている。このため、図7(a)中の“はめ込み部
波形”と図7(b)の定型部波形をこのまま接続すると
ノイズ等の原因となる。そこで波形はめ込み部28は、
“補間用波形”(補間区間)を利用して、図7(a)の
波形と図7(b)の波形の位相が一致するように時間位
置をずらして調整を行う。図7(a)の波形と図7
(b)の波形は、それぞれ波形の頂点の位置が一致する
ように配置されており、位相を合わせた状態となってい
る。
【0075】次に波形はめ込み部28は、図7(a)の
波形から、図7(b)の波形と接続するのに必要な補間
部分を含めて、図7(c)のようなはめ込み部を抽出す
る。そして波形はめ込み部28は、(補間部分を含め
て)抽出した図7(c)のはめ込み部の波形と図7
(b)の定型部波形とを接続し、図7(d)の合成音波
形を作成する。なお、以上の説明では、はめ込み部の音
声が長くなる方向で位相を合わせたが、短くなる方向で
合わせても良い。
【0076】また、波形合成のように波形の配置位置を
合成音の作成時に任意に決定可能な場合には、接続位置
におけるはめ込み部の波形の位相が定型部と一致するよ
うに合成部26にてはめ込み部の波形を作成すれば、接
続位置において位相を合わせるために音韻長が変化して
しまうこともなくなお良い。
【0077】以上に述べた第1、第2の実施形態で適用
した音声合成装置における処理手順(図2、図6のフロ
ーチャートの示す処理手順)は、プログラム読み取り可
能なパーソナルコンピュータ等のコンピュータに、当該
処理手順を実行させるためのプログラムを記録したCD
−ROM、DVD−ROM、フロッピーディスク、メモ
リカード等の記録媒体に記録されているプログラムを当
該コンピュータで読み取り実行させることにより実現さ
れる。なお、プログラムを記録した記録媒体の内容が、
通信媒体等を介してコンピュータにダウンロードされる
ものであっても構わない。
【0078】なお、本発明は上述した実施形態に限定さ
れるものではない。例えば、前記第2の実施形態では、
パラメータ作成部25で作成した合成パラメータの全て
を合成部26で合成し、波形抽出部27で必要な部分を
抽出するようにしているが、合成部26において、波形
抽出部27で抽出されるような範囲のみを合成するよう
にし、これを波形はめ込み部28で使用するようにして
も良い。この場合、波形抽出部27は不要となる。
【0079】また、前記第1、第2の実施形態(におけ
るパラメータ作成部15、パラメータ作成部25)で
は、いずれも定型部を含めた全体の合成パラメータを解
析により作成するようにしているが、定型部は合成パラ
メータの生成の考慮には入れるものの(即ち、はめ込み
部の文の周辺の環境は考慮するものの)、合成パラメー
タの生成自体ははめ込み部のみを対象に行うようにして
も良い。
【0080】また、前記第2の実施形態で、はめ込み部
と定型部の音韻の接続を考慮する場合において、図7の
例では、補間に必要な波形データをはめ込み部からのみ
とるようにしているが、はめ込み文データベース21に
保存する定型部の音声データの方に補間区間をとってお
いても良いし、両方に補間区間をとっておいても良い。
但し、補間区間を定型部にもとる場合、はめ込み部がど
のような音韻で終端するか特定できないことから、その
音韻毎に音声データを保存するなどの手法が必要とな
る。
【0081】また、前記第1及び第2の実施形態では、
はめ込み部の合成パラメータ作成に周辺の文環境を反映
させるために、はめ込み部の文を周辺の文に埋め込み、
その全体に対して解析を行うようにしているが、はめ込
み部の内容に関わらず、定型部の内容のみで決定される
解析内容については予め処理してデータベース(はめ込
み文データベース11または21)に保持しておき、実
際のはめ込み合成の際には、保持した情報を用いること
により処理量を減らすようにしても良い。
【0082】また、前記第1の実施形態では、はめ込み
文データベース11に保持する定型部の合成パラメータ
は音声を分析したものであるとしたが、文からの規則合
成等で作成した合成パラメータを、修正により最適化し
たものを保持するようにしても良い。
【0083】また、前記第1及び第2の実施形態では、
はめ込み部として任意の文が挿入され、これを解析して
合成パラメータを作成する場合について説明したが、は
め込み部に挿入される文の種類が予め定められており
(用意されており)、その中からユーザに選択させる場
合にも適用可能である。この場合、それぞれの挿入され
る文用に最適化された合成パラメータ、あるいは高い品
質で合成パラメータが生成できるデータの形で、はめ込
み部のデータをはめ込み文データベースに保持しておく
と良い。要するに、本発明はその要旨を逸脱しない範囲
で種々変形して実施することができる。
【0084】
【発明の効果】以上詳述したように本発明によれば、は
め込まれる文の合成パラメータをその周辺の文の影響を
考慮しながら生成し、音声合成に使用することにより、
周辺の文との一体感を向上した合成音を作成できる。ま
た、定型部とはめ込み部共に、合成パラメータの生成以
降は同じ音声合成方法で作成可能なため、定型部とはめ
込み部の音質を一致させることができる。
【0085】また、本発明によれば、はめ込み部と定型
部とが休止することなく発声される発声単位内において
も、はめ込み部周辺の文との一体感を向上した合成音を
作成でき、且つ定型部とはめ込み部の音質を一致させる
ことができる。
【0086】また、本発明によれば、はめ込まれる文の
合成音をその周辺の文の影響を考慮しながら生成するた
め、周辺の文との一体感を向上した合成音を作成でき、
しかも定型部として肉声による音声を使用することがで
きるので、定型部の自然性が向上する。また、本発明に
よれば、定型部とはめ込み部が連続して発声される部分
の接続部を滑らかに合成することができる。
【図面の簡単な説明】
【図1】本発明の音声合成装置の第1の実施形態を示す
もので、はめ込み部と定型部を合成パラメータの段階で
接続する音声合成装置のブロック構成図。
【図2】図1の構成における処理の流れを説明するため
のフローチャート。
【図3】図1の構成において、はめ込み部と定型部を休
止を挿入して接続する接続処理を説明するための図。
【図4】図1の構成において、はめ込み部と定型部を連
続して接続する接続処理を説明するための図。
【図5】本発明の音声合成装置の第2の実施形態を示す
もので、はめ込み部と定型部を音声波形データの段階で
接続する音声合成装置のブロック構成図。
【図6】図5の構成における処理の流れを説明するため
のフローチャート。
【図7】図5の構成において、はめ込み部と定型部を連
続して接続する接続処理を説明するための図。
【符号の説明】
11,21…はめこみ文データベース 12,22…文選択部 13,23…文入力部 14,24…文作成部 15,25…パラメータ作成部 16…パラメータ抽出部 17…パラメータはめ込み部 18,26…合成部 19,29…出力部 27…波形抽出部 28…波形はめ込み部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成装置であって、 種々の定型部を持つはめ込み文毎に、当該はめ込み文中
    の定型部の分析合成により得られた音韻系列並びに韻律
    情報、当該はめ込み文中のはめ込み部の周辺の文環境を
    示す文環境情報、及び当該はめ込み文中のはめ込み部の
    位置情報を有するはめ込み文データが保持されたデータ
    ベースと、 前記はめ込み文データの1つをユーザ指定に応じて選択
    する文選択手段と、 前記文選択手段により選択されたはめ込み文データ中の
    はめ込み部に挿入すべきユーザ指定の文を入力する文入
    力手段と、 前記文入力手段により入力された文及び前記選択された
    はめ込み文データ中の文環境情報をもとに、当該はめ込
    み文データ中の少なくともはめ込み部の音韻系列並びに
    韻律情報を作成するパラメータ作成手段と、 前記パラメータ作成手段により作成されたはめ込み部の
    音韻系列並びに韻律情報を、前記選択されたはめ込み文
    データ中のはめ込み部の位置情報に従って当該はめ込み
    文データ中の定型部の音韻系列並びに韻律情報に接続し
    て、音声合成用の音韻系列並びに韻律情報を作成するパ
    ラメータはめ込み手段と、 前記パラメータはめ込み手段により作成された音声合成
    用の音韻系列並びに韻律情報に従って合成音を作成する
    合成手段と、 前記合成手段により作成された合成音を出力する出力手
    段とを具備することを特徴とする音声合成装置。
  2. 【請求項2】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成装置であって、 種々の定型部を持つはめ込み文毎に、当該はめ込み文中
    の定型部の分析合成により得られた音韻系列並びに韻律
    情報、当該はめ込み文中のはめ込み部の周辺の文環境を
    示す文環境情報、及び当該はめ込み文中のはめ込み部の
    位置情報を有するはめ込み文データが保持されたデータ
    ベースと、 前記はめ込み文データの1つをユーザ指定に応じて選択
    する文選択手段と、 前記文選択手段により選択されたはめ込み文データ中の
    はめ込み部に挿入すべきユーザ指定の文を入力する文入
    力手段と、 前記文入力手段により入力された文が挿入されるはめ込
    み部と前記選択されたはめ込み文データ中の定型部とが
    休止区間で隔てられずに連続している場合、前記入力さ
    れた文と当該はめ込み文データ中の文環境情報をもと
    に、当該はめ込み文データ中の少なくともはめ込み部と
    それに連続する定型部の発声内容からなる発声単位を作
    成し、その発声単位から当該はめ込み部の音韻系列並び
    に韻律情報を作成するパラメータ作成手段と、 前記パラメータ作成手段により作成されたはめ込み部の
    音韻系列並びに韻律情報を、前記選択されたはめ込み文
    データ中のはめ込み部の位置情報に従って当該はめ込み
    文データ中の定型部の音韻系列並びに韻律情報に接続し
    て、音声合成用の音韻系列並びに韻律情報を作成するパ
    ラメータはめ込み手段と、 前記パラメータはめ込み手段により作成された音声合成
    用の音韻系列並びに韻律情報に従って合成音を作成する
    合成手段と、 前記合成手段により作成された合成音を出力する出力手
    段とを具備することを特徴とする音声合成装置。
  3. 【請求項3】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成装置であって、 種々の定型部を持つはめ込み文毎に、当該はめ込み文中
    の定型部の音声波形データ、当該はめ込み文中のはめ込
    み部の周辺の文環境を示す文環境情報、及び当該はめ込
    み文中のはめ込み部の位置情報を有するはめ込み文デー
    タが保持されたデータベースと、 前記はめ込み文データの1つをユーザ指定に応じて選択
    する文選択手段と、 前記文選択手段により選択されたはめ込み文データ中の
    はめ込み部に挿入すべきユーザ指定の文を入力する文入
    力手段と、 前記文入力手段により入力された文及び前記選択された
    はめ込み文データ中の文環境情報をもとに、当該はめ込
    み文データ中の少なくともはめ込み部の合成音を作成す
    る合成手段と、 前記合成手段により作成されたはめ込み部の合成音を、
    前記選択されたはめ込み文データ中のはめ込み部の位置
    情報に従って当該はめ込み文データ中の定型部の音声波
    形データに接続して、出力すべき合成音を作成する波形
    はめ込み手段と、 前記波形はめ込み手段により作成された合成音を出力す
    る出力手段とを具備することを特徴とする音声合成装
    置。
  4. 【請求項4】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成装置であって、 種々の定型部を持つはめ込み文毎に、当該はめ込み文中
    の定型部の音声波形データ、当該はめ込み文中のはめ込
    み部の周辺の文環境を示す文環境情報、及び当該はめ込
    み文中のはめ込み部の位置情報を有するはめ込み文デー
    タが保持されたデータベースと、 前記はめ込み文データの1つをユーザ指定に応じて選択
    する文選択手段と、 前記文選択手段により選択されたはめ込み文データ中の
    はめ込み部に挿入すべきユーザ指定の文を入力する文入
    力手段と、 前記文入力手段により入力された文及び前記選択された
    はめ込み文データ中の文環境情報をもとに、当該はめ込
    み文データ中の少なくともはめ込み部の合成音を作成す
    る合成手段であって、前記はめ込み部と当該はめ込み文
    データ中の定型部に相当する部分との過渡点近傍の声の
    高さが、実際の定型部に存在する前記はめ込み部と接続
    される部分の音声の高さと一致するように少なくともは
    め込み部の合成音を作成する合成手段と、 前記合成手段により作成されたはめ込み部の合成音を、
    前記選択されたはめ込み文データ中のはめ込み部の位置
    情報に従って当該はめ込み文データ中の定型部の音声波
    形データに位相を一致させて接続し、出力すべき合成音
    を作成する波形はめ込み手段と、 前記波形はめ込み手段により作成された合成音を出力す
    る出力手段とを具備することを特徴とする音声合成装
    置。
  5. 【請求項5】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成方法であって、 種々の定型部を持つはめ込み文毎にデータベースに保持
    されている、当該はめ込み文中の定型部の分析合成によ
    り得られた音韻系列並びに韻律情報、当該はめ込み文中
    のはめ込み部の周辺の文環境を示す文環境情報、及び当
    該はめ込み文中のはめ込み部の位置情報を有するはめ込
    み文データの中から、ユーザの指定するはめ込み文デー
    タを選択して、この選択したはめ込み文データ中のはめ
    込み部に挿入すべきユーザ指定の文を入力し、 前記入力した文及び前記選択したはめ込み文データ中の
    文環境情報をもとに、当該はめ込み文データ中の少なく
    ともはめ込み部の音韻系列並びに韻律情報を作成し、 前記作成したはめ込み部の音韻系列並びに韻律情報を、
    前記選択したはめ込み文データ中のはめ込み部の位置情
    報に従って当該はめ込み文データ中の定型部の音韻系列
    並びに韻律情報に接続して、音声合成用の音韻系列並び
    に韻律情報を作成し、 前記作成した音声合成用の音韻系列並びに韻律情報から
    音声を合成することを特徴とする音声合成方法。
  6. 【請求項6】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成する音声合
    成方法であって、 種々の定型部を持つはめ込み文毎にデータベースに保持
    されている、当該はめ込み文中の定型部の分析合成によ
    り得られた音韻系列並びに韻律情報、当該はめ込み文中
    のはめ込み部の周辺の文環境を示す文環境情報、及び当
    該はめ込み文中のはめ込み部の位置情報を有するはめ込
    み文データの中から、ユーザの指定するはめ込み文デー
    タを選択して、この選択したはめ込み文データ中のはめ
    込み部に挿入すべきユーザ指定の文を入力し、 前記入力した文が挿入されるはめ込み部と前記選択した
    はめ込み文データ中の定型部とが休止区間で隔てられず
    に連続している場合、前記入力した文と当該はめ込み文
    データ中の文環境情報をもとに、当該はめ込み文データ
    中の少なくともはめ込み部とそれに連続する定型部の発
    声内容からなる発声単位を作成して、その発声単位から
    当該はめ込み部の音韻系列並びに韻律情報を作成し、 前記作成したはめ込み部の音韻系列並びに韻律情報を、
    前記選択したはめ込み文データ中のはめ込み部の位置情
    報に従って当該はめ込み文データ中の定型部の音韻系列
    並びに韻律情報に接続して、音声合成用の音韻系列並び
    に韻律情報を作成し、 前記作成した音声合成用の音韻系列並びに韻律情報から
    音声を合成することを特徴とする音声合成方法。
  7. 【請求項7】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成するプログ
    ラムを記録したコンピュータ読取り可能な記録媒体であ
    って、 種々の定型部を持つはめ込み文毎にデータベースに保持
    されている、当該はめ込み文中の定型部の分析合成によ
    り得られた音韻系列並びに韻律情報、当該はめ込み文中
    のはめ込み部の周辺の文環境を示す文環境情報、及び当
    該はめ込み文中のはめ込み部の位置情報を有するはめ込
    み文データの中から、ユーザの指定するはめ込み文デー
    タを選択して、この選択したはめ込み文データ中のはめ
    込み部に挿入すべきユーザ指定の文を入力するステップ
    と、 前記入力した文及び前記選択したはめ込み文データ中の
    文環境情報をもとに、当該はめ込み文データ中の少なく
    ともはめ込み部の音韻系列並びに韻律情報を作成するス
    テップと、 前記作成したはめ込み部の音韻系列並びに韻律情報を、
    前記選択したはめ込み文データ中のはめ込み部の位置情
    報に従って当該はめ込み文データ中の定型部の音韻系列
    並びに韻律情報に接続して、音声合成用の音韻系列並び
    に韻律情報を作成するステップと、 前記作成した音声合成用の音韻系列並びに韻律情報から
    音声を合成するステップとをコンピュータに実行させる
    プログラムを記録したコンピュータ読取り可能な記録媒
    体。
  8. 【請求項8】 文内容が固定の定型部と文内容が変化す
    るはめ込み部とを有するはめ込み文に対して、前記はめ
    込み部の位置にユーザ指定の文を挿入し、このユーザ指
    定の文が挿入されたはめ込み文の音声を合成するプログ
    ラムを記録したコンピュータ読取り可能な記録媒体であ
    って、 種々の定型部を持つはめ込み文毎にデータベースに保持
    されている、当該はめ込み文中の定型部の音声波形デー
    タ、当該はめ込み文中のはめ込み部の周辺の文環境を示
    す文環境情報、及び当該はめ込み文中のはめ込み部の位
    置情報を有するはめ込み文データの中から、ユーザの指
    定するはめ込み文データを選択して、この選択したはめ
    込み文データ中のはめ込み部に挿入すべきユーザ指定の
    文を入力するステップと、 前記入力した文及び前記選択したはめ込み文データ中の
    文環境情報をもとに、当該はめ込み文データ中の少なく
    ともはめ込み部の合成音を作成するステップと、 前記作成したはめ込み部の合成音を、前記選択したはめ
    込み文データ中のはめ込み部の位置情報に従って当該は
    め込み文データ中の定型部の音声波形データに接続し
    て、出力すべき合成音を作成するステップとをコンピュ
    ータに実行させるプログラムを記録したコンピュータ読
    取り可能な記録媒体。
JP9188515A 1997-07-14 1997-07-14 音声合成装置及び方法 Pending JPH1138989A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9188515A JPH1138989A (ja) 1997-07-14 1997-07-14 音声合成装置及び方法
US09/114,150 US6212501B1 (en) 1997-07-14 1998-07-13 Speech synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9188515A JPH1138989A (ja) 1997-07-14 1997-07-14 音声合成装置及び方法

Publications (1)

Publication Number Publication Date
JPH1138989A true JPH1138989A (ja) 1999-02-12

Family

ID=16225076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9188515A Pending JPH1138989A (ja) 1997-07-14 1997-07-14 音声合成装置及び方法

Country Status (2)

Country Link
US (1) US6212501B1 (ja)
JP (1) JPH1138989A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477224B1 (ko) * 2002-09-28 2005-03-17 에스엘투 주식회사 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
JP2005321520A (ja) * 2004-05-07 2005-11-17 Mitsubishi Electric Corp 音声合成装置及びそのプログラム
JP2006084859A (ja) * 2004-09-16 2006-03-30 Advanced Telecommunication Research Institute International 音声合成方法及び音声合成プログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2007286507A (ja) * 2006-04-19 2007-11-01 Asahi Kasei Corp 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP2008107454A (ja) * 2006-10-24 2008-05-08 Hitachi Ltd 音声合成装置
JP2009020264A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 音声合成装置及び音声合成方法並びにプログラム
US7973752B2 (en) 2002-11-06 2011-07-05 Sharp Kabushiki Kaisha Display apparatus
JP2012042974A (ja) * 2011-10-26 2012-03-01 Hitachi Ltd 音声合成装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
DE10031008A1 (de) * 2000-06-30 2002-01-10 Nokia Mobile Phones Ltd Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe
US20020168089A1 (en) * 2001-05-12 2002-11-14 International Business Machines Corporation Method and apparatus for providing authentication of a rendered realization
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
EP1630791A4 (en) * 2003-06-05 2008-05-28 Kenwood Corp SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, AND PROGRAM
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
WO2005093713A1 (ja) * 2004-03-29 2005-10-06 Ai, Inc. 音声合成装置
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
CN111429878B (zh) * 2020-03-11 2023-05-26 云知声智能科技股份有限公司 一种自适应语音合成方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3060276B2 (ja) 1994-08-19 2000-07-10 富士通株式会社 音声合成装置
JP3432336B2 (ja) 1995-08-07 2003-08-04 富士通テン株式会社 音声合成装置
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477224B1 (ko) * 2002-09-28 2005-03-17 에스엘투 주식회사 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
US7973752B2 (en) 2002-11-06 2011-07-05 Sharp Kabushiki Kaisha Display apparatus
JP2005321520A (ja) * 2004-05-07 2005-11-17 Mitsubishi Electric Corp 音声合成装置及びそのプログラム
JP4525162B2 (ja) * 2004-05-07 2010-08-18 三菱電機株式会社 音声合成装置及びそのプログラム
JP2006084859A (ja) * 2004-09-16 2006-03-30 Advanced Telecommunication Research Institute International 音声合成方法及び音声合成プログラム
JP2006145691A (ja) * 2004-11-17 2006-06-08 Kenwood Corp 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP4574333B2 (ja) * 2004-11-17 2010-11-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP2007286507A (ja) * 2006-04-19 2007-11-01 Asahi Kasei Corp 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP4751230B2 (ja) * 2006-04-19 2011-08-17 旭化成株式会社 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP2008107454A (ja) * 2006-10-24 2008-05-08 Hitachi Ltd 音声合成装置
JP2009020264A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 音声合成装置及び音声合成方法並びにプログラム
JP2012042974A (ja) * 2011-10-26 2012-03-01 Hitachi Ltd 音声合成装置

Also Published As

Publication number Publication date
US6212501B1 (en) 2001-04-03

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
JPH1138989A (ja) 音声合成装置及び方法
JP2003295882A (ja) 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP2002221980A (ja) テキスト音声変換装置
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP2006227589A (ja) 音声合成装置および音声合成方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2003271194A (ja) 音声対話装置及びその制御方法
JPH05113795A (ja) 音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JPH0887297A (ja) 音声合成システム
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP3060276B2 (ja) 音声合成装置
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JP3575919B2 (ja) テキスト音声変換装置
JP2642617B2 (ja) 音声合成装置
JP2703253B2 (ja) 音声合成装置
JP2577372B2 (ja) 音声合成装置および方法
JP3883780B2 (ja) 音声合成装置
JPH11161297A (ja) 音声合成方法及び装置
JP3308875B2 (ja) 音声合成方法および装置
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置