JPH08160990A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH08160990A
JPH08160990A JP6306165A JP30616594A JPH08160990A JP H08160990 A JPH08160990 A JP H08160990A JP 6306165 A JP6306165 A JP 6306165A JP 30616594 A JP30616594 A JP 30616594A JP H08160990 A JPH08160990 A JP H08160990A
Authority
JP
Japan
Prior art keywords
phoneme
unit
speech
voice
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6306165A
Other languages
English (en)
Inventor
Kaoru Tsukamoto
薫 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP6306165A priority Critical patent/JPH08160990A/ja
Publication of JPH08160990A publication Critical patent/JPH08160990A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 より自然な合成音声を生成することが可能な
音声合成装置を提供する。 【構成】 テキスト解析部11は入力文字情報から音韻
韻律記号列を生成し、音声単位辞書16には音声素片デ
ータ記憶部14に格納されている音声単位について、音
声単位ラベルと音声素片データ記憶部での記憶位置など
が記述される。音韻継続時間テーブル17には、自然発
声された連続音声を、音韻の使用頻度に応じて前後2音
以上の音韻環境を持つように分類すると共に、分類され
た音韻環境における音韻継続時間を、無音部、子音部、
母音部別に記述している。また、合成パラメータ生成部
13は、音韻韻律記号列に従って、各音韻の音韻環境か
ら前記音韻継続時間テーブルを検索して音韻継続時間を
決定し、子音部、母音部別に自然な継続時間を設定す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、入力された文字列情
報に基づき音声を合成して出力する音声合成装置に関す
る。
【0002】
【従来の技術】文字情報をを入力してそれを音声に変換
して出力する音声合成装置は、出力語彙の制限が無いこ
とから録音再生型の音声合成技術にとって代わる音声合
成技術として種々の分野での応用が期待できる。例え
ば、ワードプロセッサ等で作成されたテキストデータを
音声に変換して出力させたり、また、テキストを編集す
るだけで簡単に応答メッセージを作成、変更することが
出来るので、電話等の通信サービスなどにも利用でき
る。
【0003】図2は、日本語(漢字かな混じり文)を入
力とする従来の音声合成装置(日本語テキスト音声変換
装置)の構成を示したものであり、この図を参照して従
来の音声合成装置の概要を説明する。
【0004】図2において、テキスト解析部(101)
は、発音辞書(102)を利用して、文字情報入力部
(100)より入力された漢字かな混じり文から音韻韻
律記号列を生成する。この音韻韻律記号列とは、入力文
の読み、アクセント、イントネーション等を文字列とし
て記述したものであり、中間言語と呼ばれる。各単語の
読みとアクセントは、発音辞書(102)に登録されて
おり、テキスト解析部(101)はこの発音辞書(10
2)を参照しながら音韻韻律記号列を生成する。
【0005】合成パラメータ生成部(103)では、音
韻韻律記号列に基づき音声素片を取り出し、予め定めら
れた規則により音韻継続時間、基本周波数パターンとい
った音声合成用のパラメータを生成する。このうち、音
声素片は単語等を発音した時の発声データから分析生成
されるもので、音声合成のための音声の基本単位であ
り、これらを重ね合わせていくことによって合成波形が
生成される。尚、以下の説明ではCV(子音−母音)、
VCV(母音−子音−母音)等の音声の基本要素の組み
合わせ自体を音声単位と呼び、その音声単位の波形を実
現する要素を音声素片と呼ぶ。各音声単位は、例えば、
複数の音声素片から成る組に対応する。音声素片データ
は、ROM等でなる音声素片データ記憶部(104)に
格納されており、合成パラメータ生成部(103)は音
韻韻律記号列から音声単位を認識して対応する音声素片
データを取り出す。
【0006】音声合成部(105)は、合成パラメータ
生成部(103)が生成した合成パラメータに基づいて
合成波形(音声信号)を生成する。このような合成音声
信号が、スピーカ(106)を介して音声出力された
り、回線を介して他の装置に伝送されたりする。
【0007】上記従来技術では、予め決められた規則に
基づいて音韻継続時間等の合成パラメータを決定してい
たが、合成音の自然性を高めるために、実音声の音韻を
前後の音韻環境毎に分析した結果を統計処理によって与
える方法が、例えば特開平03−161800に開示さ
れている。
【0008】
【発明が解決しようとする課題】しかしながら、上記第
1の従来技術では、音韻継続時間は入力されたテキスト
が変換された音韻記号列によって、予め決められた規則
に基づいて与えられるものであり、自然音声の継続時間
に比べると単調であり、音韻継続時間は母音定常部の伸
縮のみで行われることが多かった。
【0009】また、第2の従来技術においても、着目す
る音韻の前後の音韻別の統計量しか考慮していないた
め、適切な継続時間が求まらないことがあった。また、
統計を細分化した場合、全ての音韻環境についての統計
量を集めることは困難であり、どのような継続時間テー
ブルを構成したらよいかがわからないという問題があっ
た。
【0010】従って、本発明の主たる目的は、音声単位
の接続による歪みが比較的少ないVCVやCVC単位等
を用いた音声合成合成装置において、自然音声の分析デ
ータに基づいて、前後2モーラ以上の環境別に、使用頻
度により効率よく細分化した継続時間テーブルを作成し
て、合成時にこのテーブルを参照することにより、より
自然な音韻継続時間を持つ合成音声を生成することが可
能な音声合成装置を提供することにある。
【0011】
【課題を解決するための手段】この発明は、前記課題を
解決するために、入力文字情報から音韻韻律記号列を生
成するテキスト解析部と、音声素片データを格納する音
声素片データ記憶部と、音声素片データ記憶部に格納さ
れている音声単位について、音声単位ラベルと音声素片
データ記憶部での記憶位置などを記述した音声単位辞書
と、自然発声された連続音声を、音韻の使用頻度に応じ
て前後2音以上の音韻環境を持つように分類すると共
に、分類された音韻環境における音韻継続時間を、無音
部、子音部、母音部別に記述した音韻継続時間テーブル
と、音韻韻律記号列に従って、各音韻の音韻環境から前
記音韻継続時間テーブルを検索して音韻継続時間を決定
し、子音部、母音部別に自然な継続時間を設定する合成
パラメータ生成部とを備えたことを特徴とする。
【0012】
【作用】この発明による音声合成装置においては、テキ
スト解析部は入力文字情報から音韻韻律記号列を生成
し、音声素片データ記憶部は音声合成信号の基準となる
音声素片データを記憶する。また、音声単位辞書には音
声素片データ記憶部に格納されている音声単位につい
て、音声単位ラベルと音声素片データ記憶部での記憶位
置などが記述される。更に、音韻継続時間テーブルに
は、自然発声された連続音声を、音韻の使用頻度に応じ
て前後2音以上の音韻環境を持つように分類すると共
に、分類された音韻環境における音韻継続時間を、無音
部、子音部、母音部別に記述している。また、合成パラ
メータ生成部は、音韻韻律記号列に従って、各音韻の音
韻環境から前記音韻継続時間テーブルを検索して音韻継
続時間を決定し、子音部、母音部別に自然な継続時間を
設定する。従って自然な音韻継続時間を持つ合成音声を
生成することが可能となる。
【0013】
【実施例】図1は、本発明の音声合成装置の構成を示す
機能ブロック図であり、文字情報入力部10、テキスト
解析部11、発音辞書12、合成パラメータ生成部1
3、音声素片データ記憶部14、音声合成部15、音声
単位辞書16、継続時間テーブル17、スピーカ18か
ら構成される。上記構成のうち、文字情報入力部10、
発音辞書12、音声素片データ記憶部14、音声合成部
15及びスピーカ18は、図2の従来の音声合成装置の
対応する構成要素と同1つの動作を行うものである。
【0014】本実施例における合成パラメータ生成部1
3が利用する継続時間テーブル17には継続時間モデル
に基づいて自然に発声された音声データから分析生成さ
れた継続時間が格納されている。
【0015】音声単位辞書16には、音声素片データ記
憶部14に格納されている音声単位について、例えば音
声単位がVCV単位であれば/aki/、/eki/等
の音声単位ラベル(音声単位名)と音声素片データ記憶
部14での記憶位置などが記述されている。
【0016】合成パラメータ生成部13は、音韻記号列
に基づいて音声単位辞書16を参照し、選択された音声
単位に従って、対応する音声素片データを音声素片デー
タ記憶部14から取り出し、テキストの音韻環境やアク
セント情報から継続時間テーブル17を参照して継続時
間を決定し、パワーや基本周波数パターン等の音声合成
用パラメータを生成する。
【0017】以上説明したように機能する各部よりなる
本実施例の音声合成装置は全体としては、以下のように
動作する。この動作手順を図3を用いて説明する。先
ず、文字情報(漢字かな混じり文等のテキストデータ)
を入力し(ステップS201)、その文字情報を解析し
て1フレーズ毎に音韻韻律記号列に変換する(ステップ
S202)。
【0018】次に、音韻韻律記号列に沿ってフレーズの
先頭の音声単位の種類により、順次、音声単語辞書16
を検索し、音声素片データを取り出す。(ステップS2
03)。
【0019】その後、フレーズ毎に、音韻韻律記号列に
基づいて継続時間テーブル17を参照することによりそ
れぞれの音韻の継続時間を決定し(ステップS20
4),韻律パラメータ(音韻継続時間、基本周波数パタ
ーン、パワー等を規定するパラメータ)を設定する(ス
テップS205).
【0020】以上のようにして韻律パラメータと音声素
片データからなる合成パラメータが決定されると、音声
信号を合成して(ステップS206)出力する(ステッ
プS207).出力方法としては、スピーカー18から
の出力でもよいし、また、回線を介して他の装置への伝
送でもよい。
【0021】次に、継続時間テーブル17の作成方法に
ついて詳述する。先ず、各音韻毎に無音部、子音部、母
音部の各部位毎にラベリングされた自然音声を用いて、
前後の音韻環境別に継続時間を算出する。図4は、
「か」についての音韻環境を分類したものの一部であ
る。「か」に近い音韻環境から、ラベルがツリー状に広
がったラベルテーブルが構成されているが、他の音韻に
ついても同様である。先ず、子音部が[K]のグループ
にあるものが、分類ツリーのトップとなる。次の分類は
「か、き、く、け、こ」の音韻となる。その次の分類
は、後続音韻環境が「さ」の例が図示されているが、先
ず、[S]のグループ、その次に「さ、し、す、せ、
そ」のグループとなる。更にその次は、直前環境である
が、ここでは母音グループの平均で、その次が各母音毎
に「あ、い、う、え、お」というように、後続、前環境
というように交互にツリー状にラベルが記載される。語
頭や語尾以降で続く音韻がないときには、語頭から後続
環境へ、語尾から直前環境へと一方向に分類を行い、ラ
ベルを作成する。これが、テーブルのラベルとなる。
【0022】音声データは、ラベルに従って無音部、子
音部、母音部の各部に分けて継続時間が計算され、テー
ブルに記述される。ツリーの下に行くに従ってデータ量
が少なくなるが、データのばらつきが統計的に吸収され
なくなるまで、例えば、データが10程度になるまで繰
り返し分類していく。こうすると、ツリーの途中でデー
タが足りなくなるが、そのときはデータの足りなくなっ
た時点のラベルに終端記号を記載する(図4では*記号
を用いている)。このようにして作成されたテーブル
は、データ量の多い音韻、つまり、使用頻度の高い音韻
について、より細かく音韻継続時間を記述することがで
きる。
【0023】この継続時間テーブル17を用いて音韻継
続時間を決定する処理(図3のステップS204)の具
体例を以下に示す。ここでは、入力文を”これは、音声
合成装置です”として説明する。また、本発明は、合成
単位を特に問題にしないが、ここではVCV単位を用い
て説明する。
【0024】上記入力文は、テキスト解析部11によっ
て P1コレワ、P2オンセーゴーセーソ’−チデスP0 と解析される。テキスト解析部11では、このように発
音辞書12を参照しながら、入力文を音韻韻律記号列に
変換する。この時、必要に応じて文頭や文中、文末にフ
レーズ記号(P0,P1,P2)等を挿入する。これら
のフレーズ記号は、文頭や文中、文末におけるフレーズ
の立ち上がり、立ち下がりを示すものである。
【0025】先ず、第1フレーズである”コレワ”につ
いて、合成パラメータ生成部13は音韻記号列に基づい
て音声単位辞書16を参照し、選択された音声単位に従
って、対応する音声素片データを音声素片データ記憶部
14から取り出す。VCV音声単位では、/ko/、/
ore/、/ewa/の3個の音声単位に相当する音声
素片が取り出される。
【0026】次に、継続時間テーブル17を参照し、そ
れぞれの音韻の継続時間を決定する。それぞれの音韻環
境は表1のようになっている。
【0027】
【表1】 ここでは、音韻記号列から、継続時間テーブル17を参
照し、音声単位における音声素片の構成(子音長、母音
長)からテーブル上の継続時間が実現されるように、フ
レーム長とフレーム数とを決めることで、総合的に継続
時間を決定する。このような継続時間テーブルを用いる
ことで、子音部、母音部で個々に継続時間を求め、自然
音声の子音長と母音長のバランスに近いように決めるこ
とが可能である。
【0028】例えば、音韻/ko/について、1フレー
ムが8ミリ秒の標準速で、テーブルで要求される長さ
が、 テーブル:{ko}={k}+{o}=6フレーム+9
フレーム であり、実際の音声素片の長さが、 素片構成:{ko}={k}+{o}=5フレーム+1
1フレーム であった場合、音声素片の子音部のフレーム長を9.6
ミリ秒にすればテーブルと同じ子音の継続時間が実現で
き、母音部については従来通り母音定常部のフレーム数
を加減することで、全体により自然に近い継続時間を設
定できる。
【0029】それぞれの音韻の音韻環境により、継続時
間テーブル上でどこまで分類されているか異なるが、そ
の音韻が分類されたところの最終端のデータを用いる。
このことにより、使用頻度の高い音韻については、より
詳しく適切な音韻継続時間を求めることが可能であり、
音声がより自然になる。また、このように前後2音以上
の環境と、無音、子音、母音長を分けて持つことによ
り、無声化音を自動で設定可能であり、フレーズ間のポ
ーズ長、無音区間の長さも全て統計データから決めるこ
とが可能である。ツリーの最終端のデータを用いるとい
うことは、例えば、「明かすのであった。(akasu
nodeatta)」という音韻列の「か」の継続時間
を図4から参照するには、後続の[su]のラベルを確
認し、次に直前の[a]、次に後続環境の2番目の[n
o]のラベルをみると、終端記号(*)が付加されてい
るので、[no]の前のグループ[n]のグループの平
均データを用いることになる。
【0030】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、入力文字情報から音韻韻律記号列を生成するテ
キスト解析部と、音声素片データを格納する音声素片デ
ータ記憶部と、前記音声素片データ記憶部に格納されて
いる音声単位について、音声単位ラベルと音声素片デー
タ記憶部での記憶位置などを記述した音声単位辞書と、
自然発声された連続音声を、音韻の使用頻度に応じて前
後2音以上の音韻環境を持つように分類すると共に、分
類された音韻環境における音韻継続時間を、無音部、子
音部、母音部別に記述した音韻継続時間テーブルと、前
記音韻韻律記号列に従って、各音韻の音韻環境から前記
音韻継続時間テーブルを検索して音韻継続時間を決定
し、子音部、母音部別に自然な継続時間を設定する合成
パラメータ生成部とを備えた構成としたので、フレーズ
の立ち上がりや立ち下がり、アクセントのある音韻に非
常に効果的に作用し、肉声感が増加しより自然な印象を
与えるという効果がある。
【図面の簡単な説明】
【図1】本発明の音声合成装置の一実施例の構成を示す
ブロック図である。
【図2】従来の音声合成装置の構成を示すブロック図で
ある。
【図3】実施例の音声合成装置の音声合成動作手順を示
すフローチャートである。
【図4】継続時間テーブルの構成例を示す図である。
【符号の説明】
10 文字情報入力部 11 テキスト解析部 12 発音辞書 13 合成パラメータ生成部 14 音声素片データ記憶部 15 音声合成部 16 音声単位辞書 17 継続時間テーブル 18 スピーカ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力文字情報から音韻韻律記号列を生成
    するテキスト解析部と、 音声素片データを格納する音声素片データ記憶部と、 前記音声素片データ記憶部に格納されている音声素片に
    ついて、音声単位ラベルと音声素片データ記憶部での記
    憶位置などを記述した音声単位辞書と、 自然発声された連続音声を、音韻の使用頻度に応じて前
    後2音以上の音韻環境を持つように分類すると共に、分
    類された音韻環境における音韻継続時間を、無音部、子
    音部、母音部別に記述した音韻継続時間テーブルと、 前記音韻韻律記号列に従って、各音韻の音韻環境から前
    記音韻継続時間テーブルを検索して音韻継続時間を決定
    し、子音部、母音部別に自然な継続時間を設定する合成
    パラメータ生成部とを備えたことを特徴とする音声合成
    装置。
JP6306165A 1994-12-09 1994-12-09 音声合成装置 Pending JPH08160990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6306165A JPH08160990A (ja) 1994-12-09 1994-12-09 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6306165A JPH08160990A (ja) 1994-12-09 1994-12-09 音声合成装置

Publications (1)

Publication Number Publication Date
JPH08160990A true JPH08160990A (ja) 1996-06-21

Family

ID=17953834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6306165A Pending JPH08160990A (ja) 1994-12-09 1994-12-09 音声合成装置

Country Status (1)

Country Link
JP (1) JPH08160990A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003028010A1 (en) * 2001-09-25 2003-04-03 Motorola, Inc. Text-to-speech native coding in a communication system
CN107256706A (zh) * 2012-10-04 2017-10-17 谷歌公司 使用分类器将音频话语映射至动作

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003028010A1 (en) * 2001-09-25 2003-04-03 Motorola, Inc. Text-to-speech native coding in a communication system
US6681208B2 (en) * 2001-09-25 2004-01-20 Motorola, Inc. Text-to-speech native coding in a communication system
CN107256706A (zh) * 2012-10-04 2017-10-17 谷歌公司 使用分类器将音频话语映射至动作

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US20090094035A1 (en) Method and system for preselection of suitable units for concatenative speech
Levinson et al. Speech synthesis in telecommunications
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JPH08335096A (ja) テキスト音声合成装置
Bonafonte Cávez et al. A billingual texto-to-speech system in spanish and catalan
JPH0887297A (ja) 音声合成システム
JPH01284898A (ja) 音声合成方法
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Farrugia Text-to-speech technologies for mobile telephony services
Henton Challenges and rewards in using parametric or concatenative speech synthesis
JPH08160990A (ja) 音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JP3113101B2 (ja) 音声合成装置
JP3575919B2 (ja) テキスト音声変換装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
Niimi et al. Synthesis of emotional speech using prosodically balanced VCV segments
JP2703253B2 (ja) 音声合成装置
JP3397406B2 (ja) 音声合成装置及び音声合成方法
EP1640968A1 (en) Method and device for speech synthesis
Evans et al. An approach to producing new languages for talking applications for use by blind people
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK
Juergen Text-to-Speech (TTS) Synthesis