JPH0594196A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH0594196A
JPH0594196A JP3278806A JP27880691A JPH0594196A JP H0594196 A JPH0594196 A JP H0594196A JP 3278806 A JP3278806 A JP 3278806A JP 27880691 A JP27880691 A JP 27880691A JP H0594196 A JPH0594196 A JP H0594196A
Authority
JP
Japan
Prior art keywords
voice
unit
analysis
rule
synthesizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3278806A
Other languages
English (en)
Inventor
Keiichi Yamada
敬一 山田
Yoshiaki Oikawa
芳明 及川
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP3278806A priority Critical patent/JPH0594196A/ja
Publication of JPH0594196A publication Critical patent/JPH0594196A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、実際の人間の音声に比して品質の劣
化が少なく違和感のない合成音を発声し得る音声合成装
置を実現しようとするものである。 【構成】実音声の分析合成において高品質なピツチ変換
法である複素ケプストラム分析を用いると共に、音声の
合成に用いる音声単位データそれぞれ1つにおいて、そ
の有声部分においては音源情報としてのインパルスと声
道特性としての単位応答波形の必要複数組を持ち、その
無声部分においては実音声の切り出し波形を持つように
したことにより、ピツチパターンの変化によるスペクト
ル包絡の歪みを生じることなく、人間の音声に近い高品
質な合成音声を任意に生成し得る。

Description

【発明の詳細な説明】
【0001】
【目次】以下の順序で本発明を説明する。 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段(図1及び図2) 作用(図1及び図2) 実施例 (1)実施例の原理 (2)実施例の音声合成装置(図1及び図2) (3)他の実施例 発明の効果
【0002】
【産業上の利用分野】本発明は音声合成装置に関し、特
に規則合成方式による音声合成装置に適用して好適なも
のである。
【0003】
【従来の技術】従来、規則合成方式による音声合成装置
においては、入力された文字の系列を解析した後、所定
の規則に従つてパラメータを合成することにより、いか
なる言葉でも音声合成し得るようになされている(特開
平3-119396号公報)。
【0004】すなわち規則合成方式による音声合成装置
は、入力された文字の系列を解析した後、所定の規則に
従つて、各文節ごとにアクセントを検出し、各文節の並
びから、文字系列全体としての抑揚、ポース等を表現す
るピツチパラメータを合成する。
【0005】さらに音声合成装置は、同様に所定の規則
に従つて各文節を例えばCV単位のような音声単位に分
割した後、そのスペクトラムを表現する合成パラメータ
を生成する。これにより、ピツチパラメータ及び合成パ
ラメータに基づいて合成音を発声するようになされてい
る。
【0006】
【発明が解決しようとする課題】ところで従来の合成パ
ラメータに基づく一般的な合成法として線形予測分析を
用いた残差駆動による合成方式では、合成音声のピツチ
を変更する場合に音源情報である予測残差波形に対して
処理を施している。
【0007】すなわち合成音声のピツチ周波数を低くす
る場合には前記予測残差波形の終端から所望のピツチ周
期となるように一定値0を挿入し、また合成音声のピツ
チ周波数を高くする場合には前記予測残差波形を途中で
打ち切ることによつて、所望のピツチ周期にするという
処理である。
【0008】ところが線形予測分析においては実音声か
らの音源情報(ピツチ情報)と声道特性(スペクトル包
絡)の分離が不完全なため、この波形処理によつて前記
予測残差波形に含まれているスペクトル包絡情報に歪み
を与えることになり、この歪みによつて合成音声の品質
が劣化しやすい問題があつた。
【0009】本発明は以上の点を考慮してなされたもの
で、実際の人間の音声に比して品質の劣化が少なく違和
感のない合成音を発声することができる音声合成装置を
提案しようとするものである。
【0010】
【課題を解決するための手段】かかる課題を解決するた
めに第1の発明においては、入力された文字の系列を解
析して得られた単語、文節の境界及び基本アクセントを
蓄積する解析情報蓄積部3と、音声単位内において周期
性を有する有声部分に関しては、実音声の分析処理によ
つて得られた各1ピツチ周期分に対応する音声波形デー
タを音声単位として蓄積し、音声単位内において周期性
のない無声部分に関しては、実音声をそのまま音声波形
データとして蓄積するメモリ部2と、解析情報蓄積部3
の解析情報に基づき、所定の音韻規則及び韻律規則に従
つてピツチパターンを生成する音声合成規則部4と、メ
モリ部2の音声単位及び音声合成規則部4のピツチパタ
ーンに基づいて、音声を合成する音声合成部5とを設け
るようにした。
【0011】また第2の発明においては、解析情報蓄積
部3に入力された文章の文字の系列を単語、文節の境界
及び基本アクセントに解析する文章解析部3を設けるよ
うにした。
【0012】
【作用】実音声の分析合成において高品質なピツチ変換
法である複素ケプストラム分析を用いると共に、音声の
合成に用いる音声単位データそれぞれ1つにおいて、そ
の有声部分においては音源情報としてのインパルスと声
道特性としての単位応答波形の必要複数組を持ち、その
無声部分においては実音声の切り出し波形を持つことに
よつて、ピツチパターンの変化によるスペクトル包絡の
歪みを生じることなく、人間の音声に近い高品質な合成
音声を任意に生成し得る音声合成装置を実現できる。
【0013】
【実施例】以下図面について、本発明の一実施例を詳述
する。
【0014】(1)実施例の原理 この実施例の場合、合成に使用する音声単位の分析処理
で、実音声の有声部分における音源情報と声道特性の分
離に複素ケプストラム分析を用い、音源情報をインパル
スとして抽出し、また声道特性は音源情報であるインパ
ルスの単位応答として抽出する。
【0015】この複素ケプストラム分析は、実音声の分
析合成において高品質なピツチ変換法、発話速度変換法
として既知の分析手法であり、この音声の分析合成にお
いて有益な分析手法を任意文発声の規則合成に用いるよ
うになされている。
【0016】合成に使用する音声単位の有声部分には、
複素ケプストラム分析手法によつて抽出されたインパル
スと単位応答の両者を1つの組合せとして、音声単位有
声部分に必要なフレーム数だけの組合せを有声部分のデ
ータとして貯えておく。また、音声単位の無声部分にお
いては、実音声の無声部分をそのまま切り出してデータ
として貯えておく。
【0017】これにより音声単位はインパルスとその単
位応答からなる複数フレーム分の組合せか、無声部分で
ある実音声の切り出し波形か、あるいはその両者から構
成されることとなる。
【0018】このためまずこのような内容で構成される
音声単位データをメモリに貯えた音声単位記憶部と共
に、入力された文字の系列を解析して、単語、文節の境
界及び基本アクセントを検出する文章解析部とを設け
る。
【0019】さらにこれに加えてこの文章解析部の検出
結果に基づいて、所定の韻律規則に従つて、合成音声の
ピツチパターンを生成し、また音韻規則に従つて合成音
声に必要な合成波形データを前記音声単位記憶部から読
み出しを行なう音声合成規則部と、合成波形データ及び
ピツチパターンに基づいて、合成音を生成する音声合成
部とを設ける。
【0020】このようにすれば音声単位データ内のイン
パルスを所望のピツチパターンに対応するピツチ周期の
間隔に順次配置して、それぞれのインパルスと組合せに
なつている単位応答を1組ずつ重畳することによつて音
声を合成するのであるが、音源情報がインパルスである
ためピツチ周期が伸縮してもそれによる音源情報への影
響はほとんどなく、ピツチパターンが大きく変化するよ
うな場合でもスペクトル包絡に歪みが生じない。
【0021】このように音声のピツチ変換に適した複素
ケプストラム分析を規則合成に用いることによつて、人
間の音声に近い高品質な任意合成音が得られる。また合
成パラメータによる合成方式のように複雑な演算処理を
必要としないため、音声合成部における処理を高速化し
得るようになされている。
【0022】(2)実施例の音声合成装置 図1において、1は全体として演算処理装置構成の音声
合成装置の概略構成を示し、音声単位記憶部2、文章解
析部3、音声合成規則部4及び音声合成部5に分割さ
れ、まず文章解析部3は、所定の入力装置から入力され
たテキスト入力(文字の系列で表された文章等でなる)
を所定の辞書を基準にして解析し、仮名文字列に変換し
た後、単語、文節毎に分解する。
【0023】すなわち日本語においては、英語のように
単語が分かち書きされていないことから、例えば「米国
産業界」のような言葉は、「米国/産業・界」、「米/
国産/業界」のように2種類区分化し得る。
【0024】このため文章解析部3は辞書を参考にしな
がら、言葉の連続関係及び単語の統計的性質を利用し
て、テキスト入力を単語、文節毎に分解するようになさ
れ、これにより単語、文節の境界を検出する。さらに文
章解析部3は、各単語毎に基本アクセントを検出した
後、これらを音声合成規則部4に出力する。
【0025】音声合成規則部4は日本語の特徴に基づい
て設定された所定の音韻規則に従つて、文章解析部3の
検出結果及びテキスト入力を処理するようになされてい
る。すなわち日本語の自然な音声は、言語学的特性に基
づいて区別すると、約100程度の発声の単位に区分し
得ることが知られており、例えば「さくら」という単語
を発声の単位に区分すると、「sa」+「ku」+「ra」の
3つのCV単位に分割することができる。
【0026】また日本語は単語が連続する場合、連なつ
た後ろの語の語頭音節が濁音化したり(すなわち続濁で
なる)、語頭以外のガ行音が鼻音化したりして、単語単
体の場合と発声が変化する特徴がある。
【0027】従つて音声合成規則部4はこれら日本語の
特徴に従つて音韻規則が設定されるようになされ、この
音韻規則に従つてテキスト入力を音韻記号列(すなわち
上述の「sa」+「ku」+「ra」等の連続する列でなる)
に変換するようになされている。さらに音声合成規則部
4は、当該音韻記号列に基づいて、音声単位記憶部2か
ら各音声単位のデータをロードする。
【0028】ここでこの音声合成装置1においては、波
形編集の手法を用いて合成音を発声するようになされ、
音声単位記憶部2からロードされるデータは、各CV単
位で表される合成音を生成する際に用いられる波形デー
タでなる。この波形合成に用いられる音声単位データは
次のような構成からなる。
【0029】音声単位データの有声部に関しては、実音
声の有声部分において前記複素ケプストラム分析を用い
て抽出された、1ピツチに対応するインパルスと単位応
答波形を一組として、この組を1つの音声単位データと
して必要なピツチ分だけ貯えたものからなり、また音声
単位データの無声部に関しては、実音声の無声部分の波
形を切り出してそのまま貯えたものからなる。
【0030】従つて音声単位データがCV単位である場
合には、1つの音声単位CVの子音部Cが無声子音であ
る時には無声部分の切り出し波形と、インパルスと単位
応答波形からなる複数組によつて1つの音声単位データ
が構成され、また1つの音声単位CVの子音部Cが有声
子音である時にはインパルスと単位応答波形からなる複
数組のみによつて1つの音声単位データが構成されるこ
ととなる。
【0031】音声合成規則部4は音声単位記憶部2から
ロードされた音声単位データを、テキスト入力に応じた
順序(以下このデータを合成波形データと呼ぶ)で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。
【0032】さらに音声合成規則部4は所定の韻律規則
に基づいて、テキスト入力を適当な長さで分割して、切
れ目(すなわちポーズでなる)を検出する。このように
して、図2に示すように、例えばテキスト入力として文
章「きれいな花を山田さんからもらいました」が入力さ
れた場合は(図2(A))、当該テキスト入力は、「き
れいな」、「はな」、「やまださんから」、「もらいま
した」に分解された後、「はな」及び「やまださんか
ら」間にポーズが検出される(図2(B))。
【0033】さらに音声合成規則部4は韻律規則及び各
単語の基本アクセントに基づいて、各文節のアクセント
を検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として(以下モーラと呼
ぶ)高低の2レベルで表現することができる。このとき
文節の内容等に応じて、文節のアクセント位置を区別す
ることができる。
【0034】例えば端、箸、橋は2モーラの単語で、そ
れぞれアクセントのない0型、アクセントの位置が先頭
のモーラにある1型、アクセントの位置が2モーラ目に
ある2型に分類することができる。かくしてこの実施例
において音声合成規則部4は、テキスト入力の各文節
を、1型、2型、0型、4型と分類し(図2(C))こ
れにより文節単位でアクセント及びポーズを検出する。
【0035】さらに音声合成規則部4はアクセント及び
ポーズの検出結果に基づいて、テキスト入力全体の抑揚
を表す基本ピツチパターンを生成する。すなわち日本語
においては、文節のアクセントは、感覚的に2レベルで
表し得るのに対し、実際の抑揚は、アクセントの位置か
ら徐々に低下する特徴がある(図2(D))。
【0036】さらに日本語においては、文節が連続して
1つの文章になると、ポーズから続くポーズに向かつ
て、抑揚が徐々に低下する特徴がある(図2(E))。
従つて音声合成規則部4は、かかる日本語の特徴に基づ
いて、テキスト入力全体の抑揚を表すパラメータを各モ
ーラ毎に生成した後、人間が発声した場合と同様に抑揚
が滑らかに変化するように、モーラ間に補間によりパラ
メータを設定する。
【0037】かくして音声合成規則部4は、テキスト入
力に応じた順序で、各モーラのパラメータ及び補間した
パラメータを合成し(以下ピツチパターンと呼ぶ)、か
くしてテキスト入力を読み上げた音声の抑揚を表すピツ
チパターン(図2(F))を得ることができる。
【0038】次に音声合成部5は合成波形データ及びピ
ツチパターンに基づいて波形合成処理を行ない、合成音
を生成する。この波形合成処理は、次のようなことを行
なつている。合成音声の有声部分においては、合成波形
データ内のインパルスをピツチパターンに基づいて並
べ、その並べられたインパルスそれぞれに対応する単位
応答波形を各インパルスに重畳する。
【0039】また合成音声の無声部分においては、合成
波形データ内の切り出し波形をそのまま所望の合成音声
の波形とする。これにより、ピツチパターンの変化に追
従して抑揚の変化する合成音を得ることができる。
【0040】従つて合成音において音源情報にインパル
スを用いているため、合成音のピツチ周期が伸縮しても
それによる音源情報への影響はほとんどなく、ピツチパ
ターンが大きく変化するような場合でもスペクトル包絡
に歪みが生じることなく、人間の音声に近い高品質な任
意合成音が得られる。
【0041】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部2で、所定の辞
書を基準にして解析され、単語、文節の境界及び基本ア
クセントが検出される。この単語、文節の境界及び基本
アクセントの検出結果は、音声合成規則部4で、所定の
音韻規則に従つて処理され、抑揚のない状態でテキスト
入力を読み上げた音声を表す合成波形データが生成され
る。
【0042】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部4で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは、合成波形
データと共に音声合成部5に出力され、ここでピツチパ
ターン及び合成波形データに基づいて合成音が生成され
る。
【0043】以上の構成によれば、音声の合成に用いる
音声単位データそれぞれ1つにおいて、その有声部分に
おいては音源情報としてのインパルスと声道特性として
の単位応答波形の必要複数組を持ち、その無声部分にお
いては実音声の切り出し波形を持つことによつて、ピツ
チパターンの変化によるスペクトル包絡の歪みを生じる
ことなく、人間の音声に近い高品質な合成音声を任意に
生成し得る音声合成装置を実現できる。
【0044】(3)他の実施例 なお上述の実施例においては、音源情報としてインパル
スを用いて単位応答波形と重畳することによつて波形合
成を行なつているが、このインパルスを理想的なインパ
ルスと見なすことによつて、インパルスをピツチ周期間
隔に並べて重畳することなく、直接単位応答波形をピツ
チパターンに対応するように並べることで、所望の合成
音を生成するようにしてもよい。
【0045】さらに上述の実施例においては、音声単位
記憶部2において音声単位データをCV単位で保持して
いるが、これはCV単位のみではなく、CVC単位など
別の音声単位でデータを保持してもよい。
【0046】
【発明の効果】上述のように本発明によれば、実音声の
分析合成において高品質なピツチ変換法である複素ケプ
ストラム分析を用いるようにしたことにより、人間の音
声に近い高品質な合成音を任意に合成し得る音声合成装
置を実現できる。
【図面の簡単な説明】
【図1】本発明の一実施例による音声合成装置を示すブ
ロツク図である。
【図2】その動作の説明に供する略線図である。
【符号の説明】
1……音声合成装置、2……音声単位記憶部、3……文
章解析部、4……音声合成規則部、5……音声合成部。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力された文字の系列を解析して得られた
    単語、文節の境界及び基本アクセントを蓄積する解析情
    報蓄積部と、 音声単位内において周期性を有する有声部分に関して
    は、実音声の分析処理によつて得られた各1ピツチ周期
    分に対応する音声波形データを上記音声単位として蓄積
    し、上記音声単位内において周期性のない無声部分に関
    しては、上記実音声をそのまま上記音声波形データとし
    て蓄積するメモリ部と、 上記解析情報蓄積部の解析情報に基づき、所定の音韻規
    則及び韻律規則に従つてピツチパターンを生成する音声
    合成規則部と、 上記メモリ手段の上記音声単位及び上記音声合成規則部
    の上記ピツチパターンに基づいて、音声を合成する音声
    合成部とを具えることを特徴とする音声合成装置。
  2. 【請求項2】上記解析情報蓄積部には入力された文章の
    文字の系列を単語、文節の境界及び基本アクセントに解
    析する文章解析部を具えることを特徴とする請求項1に
    記載の音声合成装置。
JP3278806A 1991-09-30 1991-09-30 音声合成装置 Pending JPH0594196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3278806A JPH0594196A (ja) 1991-09-30 1991-09-30 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3278806A JPH0594196A (ja) 1991-09-30 1991-09-30 音声合成装置

Publications (1)

Publication Number Publication Date
JPH0594196A true JPH0594196A (ja) 1993-04-16

Family

ID=17602433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3278806A Pending JPH0594196A (ja) 1991-09-30 1991-09-30 音声合成装置

Country Status (1)

Country Link
JP (1) JPH0594196A (ja)

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US5758320A (en) Method and apparatus for text-to-voice audio output with accent control and improved phrase control
US8340967B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
JP2000206982A (ja) 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JPH0632020B2 (ja) 音声合成方法および装置
JPH0887297A (ja) 音声合成システム
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
Rama et al. Thirukkural: a text-to-speech synthesis system
van Rijnsoever A multilingual text-to-speech system
JPH08335096A (ja) テキスト音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JPH0594196A (ja) 音声合成装置
JP3235747B2 (ja) 音声合成装置及び音声合成方法
JPH0756590A (ja) 音声合成装置、音声合成方法及び記録媒体
JP3614874B2 (ja) 音声合成装置及び方法
JP2703253B2 (ja) 音声合成装置
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JPH01321496A (ja) 音声合成装置
JPH0764586A (ja) 音声合成装置
JPH0667685A (ja) 音声合成装置
JPH09292897A (ja) 音声合成装置
JPH07140999A (ja) 音声合成装置及び音声合成方法
JPH06250685A (ja) 音声合成方式および規則合成装置