JPH08160990A

JPH08160990A - 音声合成装置

Info

Publication number: JPH08160990A
Application number: JP6306165A
Authority: JP
Inventors: Kaoru Tsukamoto; 薫塚本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1994-12-09
Filing date: 1994-12-09
Publication date: 1996-06-21

Abstract

(57)【要約】【目的】より自然な合成音声を生成することが可能な
音声合成装置を提供する。【構成】テキスト解析部１１は入力文字情報から音韻
韻律記号列を生成し、音声単位辞書１６には音声素片デ
ータ記憶部１４に格納されている音声単位について、音
声単位ラベルと音声素片データ記憶部での記憶位置など
が記述される。音韻継続時間テーブル１７には、自然発
声された連続音声を、音韻の使用頻度に応じて前後２音
以上の音韻環境を持つように分類すると共に、分類され
た音韻環境における音韻継続時間を、無音部、子音部、
母音部別に記述している。また、合成パラメータ生成部
１３は、音韻韻律記号列に従って、各音韻の音韻環境か
ら前記音韻継続時間テーブルを検索して音韻継続時間を
決定し、子音部、母音部別に自然な継続時間を設定す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、入力された文字列情
報に基づき音声を合成して出力する音声合成装置に関す
る。

【０００２】

【従来の技術】文字情報をを入力してそれを音声に変換
して出力する音声合成装置は、出力語彙の制限が無いこ
とから録音再生型の音声合成技術にとって代わる音声合
成技術として種々の分野での応用が期待できる。例え
ば、ワードプロセッサ等で作成されたテキストデータを
音声に変換して出力させたり、また、テキストを編集す
るだけで簡単に応答メッセージを作成、変更することが
出来るので、電話等の通信サービスなどにも利用でき
る。

【０００３】図２は、日本語（漢字かな混じり文）を入
力とする従来の音声合成装置（日本語テキスト音声変換
装置）の構成を示したものであり、この図を参照して従
来の音声合成装置の概要を説明する。

【０００４】図２において、テキスト解析部（１０１）
は、発音辞書（１０２）を利用して、文字情報入力部
（１００）より入力された漢字かな混じり文から音韻韻
律記号列を生成する。この音韻韻律記号列とは、入力文
の読み、アクセント、イントネーション等を文字列とし
て記述したものであり、中間言語と呼ばれる。各単語の
読みとアクセントは、発音辞書（１０２）に登録されて
おり、テキスト解析部（１０１）はこの発音辞書（１０
２）を参照しながら音韻韻律記号列を生成する。

【０００５】合成パラメータ生成部（１０３）では、音
韻韻律記号列に基づき音声素片を取り出し、予め定めら
れた規則により音韻継続時間、基本周波数パターンとい
った音声合成用のパラメータを生成する。このうち、音
声素片は単語等を発音した時の発声データから分析生成
されるもので、音声合成のための音声の基本単位であ
り、これらを重ね合わせていくことによって合成波形が
生成される。尚、以下の説明ではＣＶ（子音−母音）、
ＶＣＶ（母音−子音−母音）等の音声の基本要素の組み
合わせ自体を音声単位と呼び、その音声単位の波形を実
現する要素を音声素片と呼ぶ。各音声単位は、例えば、
複数の音声素片から成る組に対応する。音声素片データ
は、ＲＯＭ等でなる音声素片データ記憶部（１０４）に
格納されており、合成パラメータ生成部（１０３）は音
韻韻律記号列から音声単位を認識して対応する音声素片
データを取り出す。

【０００６】音声合成部（１０５）は、合成パラメータ
生成部（１０３）が生成した合成パラメータに基づいて
合成波形（音声信号）を生成する。このような合成音声
信号が、スピーカ（１０６）を介して音声出力された
り、回線を介して他の装置に伝送されたりする。

【０００７】上記従来技術では、予め決められた規則に
基づいて音韻継続時間等の合成パラメータを決定してい
たが、合成音の自然性を高めるために、実音声の音韻を
前後の音韻環境毎に分析した結果を統計処理によって与
える方法が、例えば特開平０３−１６１８００に開示さ
れている。

【０００８】

【発明が解決しようとする課題】しかしながら、上記第
１の従来技術では、音韻継続時間は入力されたテキスト
が変換された音韻記号列によって、予め決められた規則
に基づいて与えられるものであり、自然音声の継続時間
に比べると単調であり、音韻継続時間は母音定常部の伸
縮のみで行われることが多かった。

【０００９】また、第２の従来技術においても、着目す
る音韻の前後の音韻別の統計量しか考慮していないた
め、適切な継続時間が求まらないことがあった。また、
統計を細分化した場合、全ての音韻環境についての統計
量を集めることは困難であり、どのような継続時間テー
ブルを構成したらよいかがわからないという問題があっ
た。

【００１０】従って、本発明の主たる目的は、音声単位
の接続による歪みが比較的少ないＶＣＶやＣＶＣ単位等
を用いた音声合成合成装置において、自然音声の分析デ
ータに基づいて、前後２モーラ以上の環境別に、使用頻
度により効率よく細分化した継続時間テーブルを作成し
て、合成時にこのテーブルを参照することにより、より
自然な音韻継続時間を持つ合成音声を生成することが可
能な音声合成装置を提供することにある。

【００１１】

【課題を解決するための手段】この発明は、前記課題を
解決するために、入力文字情報から音韻韻律記号列を生
成するテキスト解析部と、音声素片データを格納する音
声素片データ記憶部と、音声素片データ記憶部に格納さ
れている音声単位について、音声単位ラベルと音声素片
データ記憶部での記憶位置などを記述した音声単位辞書
と、自然発声された連続音声を、音韻の使用頻度に応じ
て前後２音以上の音韻環境を持つように分類すると共
に、分類された音韻環境における音韻継続時間を、無音
部、子音部、母音部別に記述した音韻継続時間テーブル
と、音韻韻律記号列に従って、各音韻の音韻環境から前
記音韻継続時間テーブルを検索して音韻継続時間を決定
し、子音部、母音部別に自然な継続時間を設定する合成
パラメータ生成部とを備えたことを特徴とする。

【００１２】

【作用】この発明による音声合成装置においては、テキ
スト解析部は入力文字情報から音韻韻律記号列を生成
し、音声素片データ記憶部は音声合成信号の基準となる
音声素片データを記憶する。また、音声単位辞書には音
声素片データ記憶部に格納されている音声単位につい
て、音声単位ラベルと音声素片データ記憶部での記憶位
置などが記述される。更に、音韻継続時間テーブルに
は、自然発声された連続音声を、音韻の使用頻度に応じ
て前後２音以上の音韻環境を持つように分類すると共
に、分類された音韻環境における音韻継続時間を、無音
部、子音部、母音部別に記述している。また、合成パラ
メータ生成部は、音韻韻律記号列に従って、各音韻の音
韻環境から前記音韻継続時間テーブルを検索して音韻継
続時間を決定し、子音部、母音部別に自然な継続時間を
設定する。従って自然な音韻継続時間を持つ合成音声を
生成することが可能となる。

【００１３】

【実施例】図１は、本発明の音声合成装置の構成を示す
機能ブロック図であり、文字情報入力部１０、テキスト
解析部１１、発音辞書１２、合成パラメータ生成部１
３、音声素片データ記憶部１４、音声合成部１５、音声
単位辞書１６、継続時間テーブル１７、スピーカ１８か
ら構成される。上記構成のうち、文字情報入力部１０、
発音辞書１２、音声素片データ記憶部１４、音声合成部
１５及びスピーカ１８は、図２の従来の音声合成装置の
対応する構成要素と同１つの動作を行うものである。

【００１４】本実施例における合成パラメータ生成部１
３が利用する継続時間テーブル１７には継続時間モデル
に基づいて自然に発声された音声データから分析生成さ
れた継続時間が格納されている。

【００１５】音声単位辞書１６には、音声素片データ記
憶部１４に格納されている音声単位について、例えば音
声単位がＶＣＶ単位であれば／ａｋｉ／、／ｅｋｉ／等
の音声単位ラベル（音声単位名）と音声素片データ記憶
部１４での記憶位置などが記述されている。

【００１６】合成パラメータ生成部１３は、音韻記号列
に基づいて音声単位辞書１６を参照し、選択された音声
単位に従って、対応する音声素片データを音声素片デー
タ記憶部１４から取り出し、テキストの音韻環境やアク
セント情報から継続時間テーブル１７を参照して継続時
間を決定し、パワーや基本周波数パターン等の音声合成
用パラメータを生成する。

【００１７】以上説明したように機能する各部よりなる
本実施例の音声合成装置は全体としては、以下のように
動作する。この動作手順を図３を用いて説明する。先
ず、文字情報（漢字かな混じり文等のテキストデータ）
を入力し（ステップＳ２０１）、その文字情報を解析し
て１フレーズ毎に音韻韻律記号列に変換する（ステップ
Ｓ２０２）。

【００１８】次に、音韻韻律記号列に沿ってフレーズの
先頭の音声単位の種類により、順次、音声単語辞書１６
を検索し、音声素片データを取り出す。（ステップＳ２
０３）。

【００１９】その後、フレーズ毎に、音韻韻律記号列に
基づいて継続時間テーブル１７を参照することによりそ
れぞれの音韻の継続時間を決定し（ステップＳ２０
４），韻律パラメータ（音韻継続時間、基本周波数パタ
ーン、パワー等を規定するパラメータ）を設定する（ス
テップＳ２０５）．

【００２０】以上のようにして韻律パラメータと音声素
片データからなる合成パラメータが決定されると、音声
信号を合成して（ステップＳ２０６）出力する（ステッ
プＳ２０７）．出力方法としては、スピーカー１８から
の出力でもよいし、また、回線を介して他の装置への伝
送でもよい。

【００２１】次に、継続時間テーブル１７の作成方法に
ついて詳述する。先ず、各音韻毎に無音部、子音部、母
音部の各部位毎にラベリングされた自然音声を用いて、
前後の音韻環境別に継続時間を算出する。図４は、
「か」についての音韻環境を分類したものの一部であ
る。「か」に近い音韻環境から、ラベルがツリー状に広
がったラベルテーブルが構成されているが、他の音韻に
ついても同様である。先ず、子音部が［Ｋ］のグループ
にあるものが、分類ツリーのトップとなる。次の分類は
「か、き、く、け、こ」の音韻となる。その次の分類
は、後続音韻環境が「さ」の例が図示されているが、先
ず、［Ｓ］のグループ、その次に「さ、し、す、せ、
そ」のグループとなる。更にその次は、直前環境である
が、ここでは母音グループの平均で、その次が各母音毎
に「あ、い、う、え、お」というように、後続、前環境
というように交互にツリー状にラベルが記載される。語
頭や語尾以降で続く音韻がないときには、語頭から後続
環境へ、語尾から直前環境へと一方向に分類を行い、ラ
ベルを作成する。これが、テーブルのラベルとなる。

【００２２】音声データは、ラベルに従って無音部、子
音部、母音部の各部に分けて継続時間が計算され、テー
ブルに記述される。ツリーの下に行くに従ってデータ量
が少なくなるが、データのばらつきが統計的に吸収され
なくなるまで、例えば、データが１０程度になるまで繰
り返し分類していく。こうすると、ツリーの途中でデー
タが足りなくなるが、そのときはデータの足りなくなっ
た時点のラベルに終端記号を記載する（図４では＊記号
を用いている）。このようにして作成されたテーブル
は、データ量の多い音韻、つまり、使用頻度の高い音韻
について、より細かく音韻継続時間を記述することがで
きる。

【００２３】この継続時間テーブル１７を用いて音韻継
続時間を決定する処理（図３のステップＳ２０４）の具
体例を以下に示す。ここでは、入力文を”これは、音声
合成装置です”として説明する。また、本発明は、合成
単位を特に問題にしないが、ここではＶＣＶ単位を用い
て説明する。

【００２４】上記入力文は、テキスト解析部１１によっ
てＰ１コレワ、Ｐ２オンセーゴーセーソ’−チデスＰ０と解析される。テキスト解析部１１では、このように発
音辞書１２を参照しながら、入力文を音韻韻律記号列に
変換する。この時、必要に応じて文頭や文中、文末にフ
レーズ記号（Ｐ０，Ｐ１，Ｐ２）等を挿入する。これら
のフレーズ記号は、文頭や文中、文末におけるフレーズ
の立ち上がり、立ち下がりを示すものである。

【００２５】先ず、第１フレーズである”コレワ”につ
いて、合成パラメータ生成部１３は音韻記号列に基づい
て音声単位辞書１６を参照し、選択された音声単位に従
って、対応する音声素片データを音声素片データ記憶部
１４から取り出す。ＶＣＶ音声単位では、／ｋｏ／、／
ｏｒｅ／、／ｅｗａ／の３個の音声単位に相当する音声
素片が取り出される。

【００２６】次に、継続時間テーブル１７を参照し、そ
れぞれの音韻の継続時間を決定する。それぞれの音韻環
境は表１のようになっている。

【００２７】

【表１】ここでは、音韻記号列から、継続時間テーブル１７を参
照し、音声単位における音声素片の構成（子音長、母音
長）からテーブル上の継続時間が実現されるように、フ
レーム長とフレーム数とを決めることで、総合的に継続
時間を決定する。このような継続時間テーブルを用いる
ことで、子音部、母音部で個々に継続時間を求め、自然
音声の子音長と母音長のバランスに近いように決めるこ
とが可能である。

【００２８】例えば、音韻／ｋｏ／について、１フレー
ムが８ミリ秒の標準速で、テーブルで要求される長さ
が、テーブル：｛ｋｏ｝＝｛ｋ｝＋｛ｏ｝＝６フレーム＋９
フレームであり、実際の音声素片の長さが、素片構成：｛ｋｏ｝＝｛ｋ｝＋｛ｏ｝＝５フレーム＋１
１フレームであった場合、音声素片の子音部のフレーム長を９．６
ミリ秒にすればテーブルと同じ子音の継続時間が実現で
き、母音部については従来通り母音定常部のフレーム数
を加減することで、全体により自然に近い継続時間を設
定できる。

【００２９】それぞれの音韻の音韻環境により、継続時
間テーブル上でどこまで分類されているか異なるが、そ
の音韻が分類されたところの最終端のデータを用いる。
このことにより、使用頻度の高い音韻については、より
詳しく適切な音韻継続時間を求めることが可能であり、
音声がより自然になる。また、このように前後２音以上
の環境と、無音、子音、母音長を分けて持つことによ
り、無声化音を自動で設定可能であり、フレーズ間のポ
ーズ長、無音区間の長さも全て統計データから決めるこ
とが可能である。ツリーの最終端のデータを用いるとい
うことは、例えば、「明かすのであった。（ａｋａｓｕ
ｎｏｄｅａｔｔａ）」という音韻列の「か」の継続時間
を図４から参照するには、後続の［ｓｕ］のラベルを確
認し、次に直前の［ａ］、次に後続環境の２番目の［ｎ
ｏ］のラベルをみると、終端記号（＊）が付加されてい
るので、［ｎｏ］の前のグループ［ｎ］のグループの平
均データを用いることになる。

【００３０】

【発明の効果】以上、詳細に説明したように、本発明に
よれば、入力文字情報から音韻韻律記号列を生成するテ
キスト解析部と、音声素片データを格納する音声素片デ
ータ記憶部と、前記音声素片データ記憶部に格納されて
いる音声単位について、音声単位ラベルと音声素片デー
タ記憶部での記憶位置などを記述した音声単位辞書と、
自然発声された連続音声を、音韻の使用頻度に応じて前
後２音以上の音韻環境を持つように分類すると共に、分
類された音韻環境における音韻継続時間を、無音部、子
音部、母音部別に記述した音韻継続時間テーブルと、前
記音韻韻律記号列に従って、各音韻の音韻環境から前記
音韻継続時間テーブルを検索して音韻継続時間を決定
し、子音部、母音部別に自然な継続時間を設定する合成
パラメータ生成部とを備えた構成としたので、フレーズ
の立ち上がりや立ち下がり、アクセントのある音韻に非
常に効果的に作用し、肉声感が増加しより自然な印象を
与えるという効果がある。

【図面の簡単な説明】

【図１】本発明の音声合成装置の一実施例の構成を示す
ブロック図である。

【図２】従来の音声合成装置の構成を示すブロック図で
ある。

【図３】実施例の音声合成装置の音声合成動作手順を示
すフローチャートである。

【図４】継続時間テーブルの構成例を示す図である。

【符号の説明】

１０文字情報入力部１１テキスト解析部１２発音辞書１３合成パラメータ生成部１４音声素片データ記憶部１５音声合成部１６音声単位辞書１７継続時間テーブル１８スピーカ

Claims

【特許請求の範囲】

【請求項１】入力文字情報から音韻韻律記号列を生成
するテキスト解析部と、音声素片データを格納する音声素片データ記憶部と、前記音声素片データ記憶部に格納されている音声素片に
ついて、音声単位ラベルと音声素片データ記憶部での記
憶位置などを記述した音声単位辞書と、自然発声された連続音声を、音韻の使用頻度に応じて前
後２音以上の音韻環境を持つように分類すると共に、分
類された音韻環境における音韻継続時間を、無音部、子
音部、母音部別に記述した音韻継続時間テーブルと、前記音韻韻律記号列に従って、各音韻の音韻環境から前
記音韻継続時間テーブルを検索して音韻継続時間を決定
し、子音部、母音部別に自然な継続時間を設定する合成
パラメータ生成部とを備えたことを特徴とする音声合成
装置。