JPH08502603A

JPH08502603A - 音声合成及び認識システム

Info

Publication number: JPH08502603A
Application number: JP6516879A
Authority: JP
Inventors: ラクリー、チョン
Original assignee: コリアテレコミュニケーションオーソリティー
Priority date: 1993-01-30
Filing date: 1994-01-28
Publication date: 1996-03-19
Also published as: EP0681729A1; WO1994017519A1; EP0681729B1

Abstract

(57)【要約】本発明は、標準音声情報を貯蔵するためのメモリの量を節減することができ、合成された音質及び音声の認識率を向上させることができる音声合成及び認識システムに関する。前記音声合成及び認識システムは音素の中点部を境界に両分した半音素データが貯蔵されたメモリを備えメモリに貯蔵された半音素データをデコーディングし、デコーディングした半音素データを連鎖させ合成音声信号を発生し、前記メモリに貯蔵された前記半音素データと前記音声信号を比較して音声信号に該当する単語、句及び節に対する文字列データを発生する。

Description

【発明の詳細な説明】発明の名称音声合成及び認識システム技術分野本発明は文字情報を音声信号の形態に変換し、音声信号を文字情報に変換するための音声合成及び認識システムに関し、特に標準音声情報を貯蔵するためのメモリの量を軽減することができ、合成された音質及び音声の認識率を向上させることができる音声合成及び認識システムに関する。背景技術既存の音声合成システム（Text-to-Speech Synthesis System）は無制限の語彙を音声信号の形態に変換するための連鎖合成（Synthesis by Concatenation）方式、フォーモント合成（Formant Synthesis）方式、及び調音モデル（Articul atory Model）方式等を採用している。前記連鎖合成方式は、人の音声を音節や音素のような音声単位に分割して得た短い音声断片（Speech Segment）等をコーディングし、前記コーディングされた音声断片等をメモリに貯蔵する。また、前記連鎖合成方式は使用者が入力する文字列を発音記号の形態に変換し、変換された発音の記号に該当する音声断片等をメモリから順次読み取ることにより合成音声を発生する。また、前記フォーモント合成方式は合成単位に該当する音声断片等から得られたフォーモント等の周波数に関するデータが貯蔵されたメモリを備える。前記フォーモント合成方式は前記データを用いて発音記号列に該当するフォーモント変化関数を算出し、前記フォーモント変化関数により周波数が任意に可変されることができるフォーモント合成フィルタを駆動することにより合成音声を発生させる。また、前記調音モデル方式は声道（Vocal Tract）を数式にモデル化し、前記モデル化した声道を数式計算することにより発音記号列を発生する際、発生される音声信号を算出する。上述した既存の音声合成方式により合成される音声単位（即ち、合成単位）は音節、音素又はダイフォン（Diphone）等である。音声信号に変換される文字情報は字素（letter）等で構成され前記字素は窮極的に音素に変換するため、音声を表記するための一番自然で便利な単位は音素である。前記音素を合成単位に定める場合には、音素の個数が言語により相違するが、２０〜４０個程度に過ぎないので音声合成システムは非常に少ない量のメモリを必要とする長所を提供するが、音素の音価が前後の他の音素等の影響を受けて変わる調音結合（Coarticula tion）現象を反映することができないため音質を低下させる問題点を引き起こす。前記音素を合成単位にする音声合成システムは音質の低下により殆ど用いられていない。尚、音節を合成単位とする音声合成システムは音節内の音素間の調音結合を反映することができるので、音素を合成単位にする音声合成システムに比べ向上された音質の音声を提供する。逆に、大部分の言語において音節の数は音素の数に比べて１００倍以上となるため、音節を合成単位にする音声合成システムは音素を合成単位とする音声合成システムに比べて多量のメモリを要求する欠点を有する。前記音節を合成単位とする音声合成システムの欠点を解消するため、ダイフォンを合成単位とする音声合成システムが提案されている。前記ダイフォン音声合成システムは連続した音声の中で各音素を前及び後の音素の影響を受けないと考えられる中央で分割させる場合が得られる、二つの隣接音素間の遷移部分を基本合成単位と定める。ダイフォンを合成単位にする場合、音声合成システムは音節を合成単位にする音声合成システムに比べては低いが、比較的良好な音質の音声を発生する。また、前記ダイフォン音声合成システムは前記音節を合成単位にする音声合成システムに比べ非常に少ない量のメモリを用いる長所を提供する。しかし、前記ダイフォンが隣接した二つの音素の組み合わせで表現されるため、前記ダイフォン音声合成システムは音素を合成単位にする音声合成システムに比べ非常に多量のメモリを必要とする欠点を有していた。一方、音声を文字列の形態に変換するための音声認識システムは、パターン合致（Pattern Matching）又はパターン分類（Pattern Classification）と呼ばれる音声認識方法を用いる。前記音声認識方法は音声信号の特徴パラメタを抽出し、既にメモリに貯蔵した多数の基準音声信号から抽出された基準の特徴パラメタ等と順次比較し一番似ている音声を選ぶ。また、前記音声認識方法は選ばれた音声に対する文字列を音声認識の結果として出力する。さらに、前記音声認識方法には主に通用されている隠匿マルコフモデル（Hidden Markov Model；以下“H MM”という）、動的時間歪曲（Dynamic Time Warping；以下“DTW”という）、及び人工神経網（Artificial Neural Network；以下“ANN”という）方式がある。前記音声認識システム等も前記音声合成システム等と同様に、ダイフォン、音節、又は音素を認識単位に用いるため非常に多量のメモリを所要としたり、非常に低い認識率を有する問題点を有している。実際に、前記ダイフォンを認識単位とする音声認識システムは前記音節を認識単位とする音声認識システムに比べ、低い認識率を有する欠点と少ない量のメモリを必要とする長所を有する。また、前記ダイフォンを認識単位とする音声認識システムは前記音素を認識単位とする音声認識システムに比べて高い認識率を有する反面に、前記音素型音声認識システムに比べ非常に多量のメモリを所有するという欠点を有する。発明の開示従って、本発明の目的は合成音声の音質及び音声認識率を向上させることができ、メモリの量を減少させることができる音声合成及び認識システムを提供することにある。前記目的を達成するため、本発明の音声合成システムは音素又は変異音を先行音素及び後続音素の影響を受けない音素、又は変異音の正常状態時点の付近で両分する半音素を、音声を合成するための基本音声単位に用いることを特徴とする。前記の目的を達成するため、本発明の音声認識システムは音素又は変異音を先行音素及び後続音素の影響を受けない音素又は変異音の正常状態時点付近で両分したことにより生成された半音素から抽出した認識パターンデータを音声認識用基本認識単位に用いることを特徴とする。図面の簡単な説明図１Ａは、一例の一つの単語に対する音声データのフォーマットである。図１Ｂは、図１Ａの音声データに対する音節データのフォーマットである。図１Ｃは、図１Ａの音声データに対する音素データのフォーマットである。図１Ｄは、図１Ａの音声データに対するダイフォンデータのフォーマットである。図１Ｅは、図１Ａの音声データに対する半音素データのフォーマットである。図２は、本発明の実施例による音声合成システムのブロック図である。図３は、図２に示した音声断片組合せ部の詳細ブロック図である。図４は、図３に示した音声単位選定部の詳細ブロック図である。図５は、図４に示した図１メモリに貯蔵された前後関係による半音素表である。図６は、本発明の実施例による音声認識システムのブロック図である。図７は、図６に示した認識部の詳細ブロック図である。発明を実施するための最良の形態まず、図１Ａ乃至図１Ｅを参照し本発明の音声合成及び認識システムで用いられる半音素データのフォーマットを従来の音節、音素、及びダイフォンデータのフォーマットと対比して説明する。ータ（Ｐ１〜Ｐ５）で構成されており、前記第１乃至第５音素データ（Ｐ１〜Ｐる。図１Ａ乃至図１Ｃにおいて、“＃”は休止状態を示す。データのフォーマットが示されている。前記音声データは第１乃至第６のダイフォンデータ（Ｄ１〜Ｄ６）で構成されている。前記ダイフォンの基本概念は各音素の音価が隣接した前後の音素の影響だけを受けて変わるため、隣接した二つの音素間の遷移部分を合成の基本単位とし、前記基本単位等を連鎖的に連結させることにより任意の連続音声を発生する。従って、ダイフォンの境界部は各音素の中点と一致するものと見ることができるが、一層詳しく説明すると、隣接した二音素の影響を受けない正常状態時点（Steady State Instance）がダイフォンデータの境界部となる。図１Ｅを参照すると、本発明の音声合成及び認識システムにより用いられる半音素データのフォーマットが説明されている。前記半音素データのフォーマットは第１〜第１０半音素データを有する。図１Ｃ及び図１Ｅを比べると、前記半音素データ等は前記音素データを音素データの正常状態時点である中央部を基準に両分することにより生成される。前記両分した半音素デー夕等（ｄ１〜ｄ１０）の中で左側の半音素等（ｄ１、ｄ３、ｄ５、ｄ７、ｄ９）は前半音素（Initial Demiphone）といい、また右側の半音素等（ｄ２、ｄ４、ｄ６、ｄ８、ｄ１０）は後半音素（Final Demiphone）という。そして、図１Ｄ及び図１Ｅを比べると、前記第１〜第１０半音素データ（ｄ１〜ｄ１０）の境界部は前記第１〜第６ダイフォンデータ（Ｄ１−Ｄ６）の境界部と一致する。従って、前半音素及び後半音素等は音素及びダイフォンデータを発生するため適切に結合することができる。例えば、第１及び第２半音素データ（ｄ１、ｄ２）、また、第３及び第４半音素データ（ｄ３、ｄ４）をそれぞれ結合させると、前記第１及び第２音素データ（Ｐ１、Ｐ２）が生成される。さらに、第２及び第３半音素データ（ｄ２、ｄ３）、また第４及び第５半音素データ（ｄ４、ｄ５）をそれぞれ結合させると、第２及び第３ダイフォンデータ（Ｄ２、Ｄ３）が発生する。このように、半音素データが音素データ及びダイフォンデータの形態に変換されることができるため、半音素を合成単位とする音声合成及び認識システムはダイフォン音声合成及び認識システムのように高音質の合成音声信号を発生することができ、また音素音声合成及び認識システムのように少ないメモリ量を必要とすることになる。これを再び説明すると、ダイフォンを合成単位とされた合成音声信号の音質と同様な音質の合成音声信号を発生しようとする場合、本発明による音声合成システムは音素音声合成システムより多く、ダイフォン音声合成システムよりは少ない量のメモリを所要する。前記メモリの軽減される理由を説明すると次の通りである。説明の便宜上、音素等と各音素の前後に置かれ得る音素の種類を３０種と仮定してみる。この場合、ダイフォンは９００（３０×３０）種の種類を有する。前記９００種の種類のダイフォンは音素が隣接した音素の前半部及び後半部だけに影響を及ぼし、前記影響の音素により異なるという仮定に基づく。しかし、実際に一つの音素が隣接した音素から受ける影響は同一な調音位置の音素に対しては同一な場合が大部分である。例えば、韓国語の音素を調音位置により分類すると、子音の場合には唇音（Labial）、歯音（Dental）、硬口蓋音（Palatal）、軟口蓋音（Velar）、声門音（Glottal）の５種類がある。また、母音の場合には前母音（Front）、中央母音（Central）、後母音（Back）があり、前記中央母音及び後母音はそれぞれ平唇音（Flat）及び円唇音（Rounded）に分類される。結果的に、母音は５種類に分類される。従って、ダイフォンの前半部である後半音素及びダイフォンの後半部である前半音素の種類はそれぞれ３００（３０×１０）種になる。半音素の長さは音素のダイフォンの半分程度なので、必要なメモリの量は３００個のダイフォンに該当する。結果的に、半音素を合成単位とする音声合成及び認識システムのメモリの量は、ダイフォンを合成単位とする音声合成及び認識システムより１／３倍に軽減される。尚、半音素の合成単位とする音声合成及び認識システムはダイフォンを合成単位とする音声合成及び認識システムに比べ合成音声の音質を向上させようとする場合、一層効果的である。さらに、ダイフォン音声合成システムは音素が隣接音素の影響だけを受けると仮定しているが、実際に前後の多数個の音素等から影響を受けるため、合成音声が音質が満足できるものではなかった。調音結合を十分に反映して人間の発声のような自然な音声を合成するためには、各音素の周囲に多くの音素等の影響を考慮するいわゆる前後関係依存単位（Context-dependent unit）を採用しなければならない。韓国語の場合、人間の音声と同様な合成音声を発生するため各音素の先行音素３個と後続音素の３個の影響を考慮すべきであると仮定すると、前後関係に依存する音素の種類は約３千万（３０×１０⁶）個になる。これに比べ、大部分の音素、特に母音の前半音素及び後半音素はそれぞれ先行音素及び後続音素等の影響だけを受けるので半音素を合成単位とする場合、前後関係に依存する半音素６万（３０×１０³×２）個の種類を有する。前後関係に依存する前記半音素等を貯蔵するため必要なメモリの量は３万個の音素を貯蔵するのに必要なメモリの量に該当する。従って、極く自然な合成音声を発生しようとする場合、半音素を合成単位とする音声合成システムに必要なメモリの量は、従来のダイフォン音声合成システムに比べて１／１０００に減少することができる。実際には、各音素の前後に置かれ得る音素の種類を制限する条件が適用されるため、必要なメモリの量は数千個に減少されダイフォンの場合と殆ど同様になる。言い換えれば、前記ダイフォン音声合成システムに所要する量のメモリを用いれば、本発明の音声合成システムは調音結合現象を反映した極く自然な合成音声を発生できるようになる。図２を参照すると、入力ライン（１１）から文字データ列を入力する音声学的前処理部（１０）を備えた本発明の実施例による音声合成システムが説明されている。前記音声学前処理部（１０）は前記文字データ列の句文（Syntax）を分析して句文分析データを発生し、前記句文分析データによる音韻変動規則を適用して文字データ列に対する発音記号データの列を発生する。また、前記音声学的前処理部（１０）は前記発音記号データの列と前記句文分析データを音声断片組合せ部（１４）及び韻律発生部（１２）にそれぞれ供給する。これとは別に、前記音声学前処理部（１０）は前記発生記号データの列と前記句文分析データを全て前記韻律発生部（１２）に供給することもできる。前記発音記号データ列は音素記号（Phonetic symbol）又は変異音記号（Allophonic symbol）で構成される。前記文字データ列はキーボード、コンピュータ又はデータベースから前記入力ライン（１１）を経て前記音声学的前処理部（１０）に供給される。結果的に、前記音声学的前処理部（１０）は文字データ列を発音記号データ列の形態に変換する機能を果たす。さらに、前記韻律発生部（１２）は前記音声学的前処理部（１０）からの前記句文分析データを用いて発生する音声の抑揚に対する抑揚パターンデータ（Into nation Pattern Data）、発生される音声の強弱に対する強勢パターンデータ（S tress Pattern Data）、及び各音素の持続時間（Duration）に関するデータを発生する。前記韻律発生部（１２）から発生した前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データを音声断片組合せ部（１４）に供給する。これとは別に、前記韻律発生部（１２）は通常前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データを前記音声学的前処理部（１０）から点線の入力ラインを経て入力される前記発音記号データの列に挿入し、前記３種類の韻律データが載せられた発音記号データの列を前記音声断片組合せ部（１４）に供給することもできる。尚、前記音声断片組合せ部（１４）は半音素データ等が貯蔵されたメモリを備え、前記音声的前処理部（１０）から順次入力される発音記号データに該当する前記半音素データ等を前記メモリから読み取る。さらに、前記音声断片組合せ部（１４）は前記読み取った半音素データ等を前記韻律発生部（１２）からの前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データにより前記読み取った半音素データ等のピッチ、エナージー（強さ）、及び持続時間を調節して前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データに相当する抑揚、強弱、及び発声速度を有する合成音声信号を発生する。前記音声断片組合せ部（１４）により生成された合成音声信号は出力ライン（１３）を経て送り出される。これとは別に、前記韻律発生部（１２）からの３種類の韻律データが載せられた発音記号データの列を入力する場合、前記音声断片組合せ部（１４）は前記３種類の韻律データが載せられた発音記号データの列を発音記号データ等と３種類の韻律データに分離する。尚、前記音声断片組合せ部（１４）は前記メモリから前記分離した発音記号データ等に該当する半音素データ等を読み取り、前記分離された抑揚パターンデータ、前記分離された強勢パターンデータ、及び前記分離された持続時間データにより前記読み取った半音素データ等のピッチ、エナージー（強さ）、及び周期を調節して前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データに該当する抑揚、強勢及び発音速度を有する合成音声信号を発生する。図３には、第１入力ライン（１５）から発音記号データの列を入力される半音素選定部（１６）と、第２入力ライン（１７）から抑揚パターンデータ、強勢パターンデータ、及び持続時間データを入力される半音素合成部（２０）を備えた図２に示した音声断片組合せ部（１４）が示されている。前記半音素選定部（１６）は発音記号データに該当する前半音素及び後半音素の住所等を発生し、前記半音素の住所等を半音素貯蔵部（１８）に印加する。前記半音素貯蔵部（１８）は音素を構成する前半音素及び後半音素データを貯蔵している。尚、前記半音素貯蔵部（１８）は前記半音素選定部（１６）からの前記半音素の住所に該当する自己内の貯蔵領域に貯蔵された前半音素及び後半音素データを読み取り、前記読み取った前後半音素データを前記半音素合成部（２０）に供給する。前記半音素貯蔵部（１８）に貯蔵した半音素データは実際に人により発音された音声サンプルを半音素単位に分割し、分割した音声サンプルをコーディングすることにより形成される。特に、前記前半音素データは先行音素と隣接した現行音素の境界付近に存在する遷移成分だけを含む。さらに、前記後半音素データは後続音素と隣接した現行音素の境界付近に存在する遷移成分だけを含む。前記音素を形成する前記前半音素及び後半音素データ等が貯蔵された前記半音素貯蔵部（１８）の貯蔵領域に対する前記半音素の住所等は、前記半音素選定部（１６）に内蔵されたメモリ（図示せず）に貯蔵される。前記半音素合成部（２０）は前記半音素データのコーディング方式により種々な形態に構成される。前記半音素データが線形予測符号化された場合、前記半音素合成部（２０）は前記半音素貯蔵部（１８）から入力される前半音素データ及び後半音素データを線形予測復号して合成音声データを発生する。尚、前記半音素データがフォーモント符号化した場合、前記半音素合成部（２０）はフォーモント変化データを有する前記半音素貯蔵部（１８）からの前記半音素データにより、フォーモント周波数を変化させるよう構成したフォーモント合成フィルタを備える。前記フォーモント合成フィルタは前記半音素貯蔵部（１８）からの前半音素データ及び後半音素データにより、フォーモント周波数等と音源信号の種類及び強さを制御して合成音声データを発生する。また、前記半音素データが声道の形態及び音源に関する情報を有するよう調音モデリングされた場合に、前記半音素合成部（２０）は前記半音素貯蔵部（１８）からの前半音素データ及び後半音素データに含まれた前記声道の形態及び音源情報を音響学的演算して合成音声データを発生する。前記３種類の合成方式において、白色雑音は合成音声が無声音の区間で音源信号として用いられる。さらに、合成音声が有声音の区間では、人為的な声門パルス（Glottal Pulse）又はインパルスの列が音源信号として用いられる。また、前記半音素合成部（２０）は前記第２入力ライン（１７）からの前記強勢パターンデータ及び抑揚パターンデータにより、前記音源信号の振幅及びパルス間隔を調節して合成音声が定められた強勢及び抑揚を有するようにする。前記半音素合成部（２０）は前記第２入力ライン（１７）からの持続時間データによる音素の長さを決定する声道パラメタ等の時間的変化率を調節して合成音声が定められた発声速度を有するようにする。また、前記半音素合成部（２０）は内挿法（Interpolation）を用いて隣接した半音素の声門パラメタ等の間の変化を滑らかにし、滑らかに連結された合成音声が発声されるようにする。前記半音素合成部（２０）により発生された合成音声データは、ディジタルアナログ（Digi tal-Analog；以下“D-A”という）変換部（２２）に供給される。前記Ｄ−Ａ変換部（２２）は、前記半音素合成部（２０）からの合成音声データをアナログ信号の形態に変換してアナログ信号の形態を有する合成音声信号を発生する。また、前記Ｄ−Ａ変換部（２２）は、前記合成音声信号に含まれた音声帯域以外の高周波数成分の雑音信号を除去するため前記合成音声信号を低域フィルタリングする。また、前記Ｄ−Ａ変換部（２２）は前記低域フィルタリングされた合成音声信号を電力増幅し、電力増幅された合成音声信号を出力ライン（１３）を経てスピーカー等の音声出力装置側に送り出す。このため、前記Ｄ−Ａ変換部（２２）はＤ−Ａ変換機、低域通過フィルタ、及び増幅機を備える。図４を参照すると、入力ライン（２３）から発音記号データを入力されるためのシフトレジスター（３８）と、前記シフトレジスター（３８）から発音記号データの列を並列の形態に入力される第１メモリ（４０）を備える図３に示した音声単位選定部（１６）が詳細に説明されている。前記シフトレジスター（３８）は３個の先行音素及び３個後続音素による影響を反映すべく、前記入力ライン（２３）に直列接続した７個の音素バッファ（２４〜３６）を備える。前記７個の音素バッファ（２４〜３６）は前記入力ライン（２３）からの音素に対する発音記号データを右側方向に順次移動させ、前記７個の音素バッファ（２４〜３６）等はそれぞれ自己内に貯蔵された発音記号データ（Ｐ１〜Ｐ７）を前記第１メモリ（４０）に供給する。即ち、第４音素バッファ（３０）は現在の音素に対する発音記号データ（Ｐ４）を貯蔵し、第１〜第３音素バッファ（２４〜２８）は夫々３個の後続音素に対する発音記号データ（Ｐ１〜Ｐ３）を一つずつ貯蔵し、第５〜第７音素バッファ（３０〜３６）は３個の先行音素に対する発音記号データ（Ｐ５〜Ｐ７）を一つずつ貯蔵する。尚、前記シフトレジスター（３８）を構成する前記第１〜第７音素バッファ（２４〜３６）から前記７個の発音記号データ（Ｐ１〜Ｐ７）を入力される前記第１メモリ（４０）は、前記７個の発音記号データ（Ｐ１〜Ｐ７）の論理値に該当する番地の貯蔵領域に貯蔵された前半音素記号（ｄ_in）及び後半音素記号（ｄ_fn）を読み取り、読み取られた前半音素及び後半音素記号（ｄ_in，ｄ_fn）を出力する。このため、前記第１メモリ（４０）は、図５に示すように、７個の音素に対する発音記号データ（Ｐ１〜Ｐ７）の論理値により配列された前半音素及び後半音素記号（ｄ_in，ｄ_fn）等を有する前後関係による半音素表を備える。結局、前記第１メモリ（４０）から出力される前記前半音素及び後半音素記号（ｄ_in，ｄ_fn）は、現在の音素と３個の先行音素及び３個の後続音素に対する前後関係により決定される。図５に示した前後関係による半音素表において、第１及び第７発音記号データ（Ｐ１、Ｐ７）は無視可能なデータとして作用する。例えば、“音声合成システム”という文字列を音声合成しようとする場合、前処理部（１０）から入力される。前記発音記号データの列の中で記号／＃／は休止状態を表す発音記号である。さらに、その次の音素“ ”に対する発音記号データは第１音素バッファ（２４）を経て第７音素バッファ（３６）側に移動する。しかし、前記第１メモリ（４０）は、前記入力ライン（２３）に５個の発音ない。これとは別に、前記入力ライン（２３）に５個の発音記号データ（即ち、ータに対する前半音素及び後半音素記号を出力する。同様に１０番目の発音記号４）に入力されなければならない。これを詳細に説明すると次の通りである。（４０）から出力される前半音素及び後半音素記号（ｄ_in，ｄ_fn）は、図５に示し尚、前記半音素選定部（１６）は前記第１メモリ（４０）からの前半音素及び後半音素記号（ｄ_in，ｄ_fn）を入力する第２メモリ（４２）を追加して備える。前記第２メモリ（４２）は前記前半音素及び後半音素記号（ｄ_in，ｄ_fn）の論理値に該当する番地の貯蔵領域に貯蔵された前半音素及び後半音素のアドレスを読み取り、前記読み取った前半音素及び後半音素のアドレスを図３に示した半音素貯蔵部（１８）に供給する。前記図５に示した前記前後関係による半音素表は、実際音声断片のクラスタリング（Clustering）による方法又は音声学的論理による方法により形成されることができる。前記音声断片クラスタリングによる方法は先ず影響を及ぼす範囲内にあると判断される先行音素、及び後続音素を前後音素制限条件（Phonotactic constraint）を考慮して変化させた全ての場合に対する各音素を人の実際音声から採った後、前記採取した各音素に対する音声信号を両分することにより前半音素及び後半音素を得る。さらに、前記クラスタリングによる方法は前記前半音素等、又は後半音素等をそれら同士で比較して類似なもの同士集合化（Clusteri ng）することにより、前後関係による半音素表を作成する。この場合、類似な半音素同士が集合化するため、前半音素及び後半音素を時間的基準化（Time normalization）し、類似度の尺度（Similarity measure）を用いて自動又は手動にグルーピング（Grouping）し、各グループに含まれた多数個の前半音素及び後半音素の中でいずれか一つをそのグループを代表する前半音素又は後半音素の記号に定める。前記クラスタリングによる方法は影響を及ぼす最大範囲内の先行音素及び後続音素を変化させた全ての場合に対する音素の音声資料を採取しなければならないので、採取すべき音声試料の量が非常に多い欠点を有している。前記採取すべき音声資料の量を大幅に減少するために、先行音素及び後続音素の数と種類を減らす次のような方法が用いられる。前記先行音素及び後続音素の数及び種類を減らすための方法は、各音素に対し先行することができる全ての音素と後続することができる全ての音素の組合せを求めるが、現在の音素から一番近い先行母音及び休止音素と後続母音及び休止音素までの組合せだけ採ればよく、それより遠い音素は前後関係に含ませる必要がない。例えば、韓国語において、現在の音素が子音である場合に可能な限り前後関係の形態は（#）C（V）、（V）C（#）、（V）C（V）、（VC）C（V）及び（V） C（CV）、の５個しかない。即ち、前半音素及び後半音素は全て同じく５個の形態の前後関係を有する。ここで、括弧の中の記号は前後関係（Context）を示し、Ｃは子音、Ｖは母音、そして＃は休止状態を示す休止音素を意味する。滑音（ Glide）は常に母音と同様に取り扱われる。現在音素が母音である場合に前半音素は後続音素の影響を受けず、後半音素は先行音素の影響を受けない。従って、この場合に可能な前後関係の形態は前半音素で#（V）、（V）V、（#C）V、（VC ）V、及び（VCC）Vの５種類を有し、さらに後半音素では（V）#、V（V）、V（C# ）、V（CV）、及びV（CCV）の５種類を有する。若し、この場合現在の母音に隣接した子音が硬口蓋音（Palatal）であれば、その子音の外の音素の影響を受けない。一方、音声学的理論による方法では任意の現在の音素の周辺音素等を同様な影響を与える音素の種類別にグルーピング（Grouping）することにより前後関係による半音素表を作成する。前記音声学的論理による方法は母音を前母音、中央母音、後母音、円唇、及び平唇音の５種類に分類し、尚、子音を唇音、歯音、硬口蓋音、軟口蓋音、及び声門音の５種類に分類する。しかし、前記の分類は現在音素の半音素に隣接した音素に対しては一層細分されなければならない。即ち、現在音素が母音であり、現在音素の半音素と隣接した音素が母音であれば、母音は低母音（low）／高母音（high）の形態に再区分されなければならない。さらに、現在音素が母音であり、現在音素と隣接した音素が子音である場合、母音は現在音素と隣接した音素が側音、鼻音、破裂音（又は破擦音）、摩擦音（又は気息音）であるかによって細分されなければならない。現在音素が母音であり、現在音素の半音素と隣接した先行の音素が子音である場合には、前記隣接した先行の子音は有声平唇音（Voiced plain）、無音平唇音（Unvoiced plain）、声門音（Glottalized）、帯気音（Aspirated）であるかによって細分されなければならない。一方、現在音素が子音である場合、子音は構成成分により４種類に区分することができる。これを詳しく説明すると、子音は鼻音（Nasal Murmur）である場合、円唇及び平唇音の影響を受けず、破裂音及び破擦音の停止ギャプ（Stop gap）は隣接音素の影響を受けなく、さらに、摩擦音（Frication Noise／ｓ／及び／ ∫／は前母音及び後母音の母音の影響を受けず、また気息音（Aspiration N を説明する。 V₂）、（#）C（V₂）、（V₁）C（#）、（V₁C₁）C₂（V₂）、及び（V₁）C（C₂V₂）のような４種類のまた、上記Ｖ₂の位置に用いることができる移動音は／ｗ／のような円唇移動音び／ｗ／を含むグループに分かれる。）の後半音素に対しＣ₁は影響を及ぼさない。じなので同様なグループに属する。図５に示した表は前記音声学的論理による方素を例示する。図６には入力ライン（４３）からの音声信号を入力されるアナログディジタル（Analog-Digital）：以下“A-D”という）変換部（４４）と、半音素データが貯蔵された半音素データ貯蔵部（４８）を備えた本発明の実施例による音声認識システムが示されている。前記A-D変換部（４４）は前記入力ライン（４３）からの音声信号に含まれた高周波数成分の雑音信号を除去するため前記音声信号を低域フィルタリングする。また前記A-D変換部（４４）は前記ファルタリングした音声信号をディジタル信号の形態に変換し、ディジタル信号の形態に変換したディジタル音声データを特徴抽出部（４６）に供給する。前記特徴抽出部（４６）は、前記A-D変換部（４４）からのディジタル音声データを処理し特徴パラメタの列を発生する。前記特徴抽出部（４６）から発生した前記特徴パラメタは、短期間音声エナージー（Short-term energy）、短期間音声エナージーの差信号（Differenced Sho rt-term energy）、及び音声スペクトラムを表すフィルタバンク（Filter bank ）の出力エナージーを含む。前記特徴パラメタは前記フィルタバンクの出力エナージーの代わりに線形予測係数（Linear prediction coefficient）、反射係数（Reflection coefficient）、対数面積比（Log area ratio）、又はキャプストラム（Cepstrum）係数を含むことができる。前記半音素データ貯蔵部（４８）に貯蔵された前記半音素データは、図４のような半音素選定部（１６）により前後関係を反映した半音素に対する特徴パラメタ、人工神経網モデルの加重値、又は音声スペクトラムの状態占有確率及び状態間転移確率を有する。前記半音素データを構成する特徴パラメタはそのまま符号化することができるが、一般にベクトル量子化することにより作成される。前記半音素データを形成する前記音声スペクトラムの状態占有確率及び状態間遷移確率は、認識段階以前に各半音素をマルコフモデルリング（Markov-Model ling）し、各半音素に該当する多数の音声資料等から音声スペクトラムを示す特徴を抽出し、さらに前記音声スペクトラムを示す特徴を統計学的に処理することにより生成される。また、前記半音素データを形成する前記人工神経網モデルの加重値は、認識段階以前に半音素に対する多数の音声資料から特徴パラメタ等を抽出し、前記抽出された特徴パラメタ等を人工神経網の学習方法を用い学習させることにより発生する。前記音声認識システムは前記特徴抽出部（４６）の出力データを入力される認識部（５２）と、認識語等が貯蔵された認識語貯蔵部（５０）を追加して備える。前記認識語貯蔵部（５０）に貯蔵された認識語は単語、句、及び文章の文字列に対する文字データと、前記単語、句、及び文章を表現することができる半音素等の列に対するアドレスの列を有する。前記半音素等の列に含まれた半音素等は前後関係が反映されている。前記前後関係が反映された半音素等は図４に示した半音素選定部（１６）に文字列に対する発音記号データの列を供給することにより生成される。また、前記認識語貯蔵部（５０）は認識語が変更又は追加される場合、新しい認識語等が貯蔵されたロム（ROM）又は非揮発性メモリに交換されることもできる。前記認識語貯蔵部（５０）は、前記認識部（５２）から認識語アドレスが印加される場合、前記認識語アドレスに該当する貯蔵区域に貯蔵した前記文字列データ及び半音素アドレスの列を読み取る。また、前記認識語貯蔵部（５０）は前記読み取った文字列データを前記認識部（５２）に供給する一方、前記半音素アドレスの列を前記半音素データ貯蔵部（４８）に供給する。すると、前記半音素データ貯蔵部（４８）は前記認識語貯蔵部（５０）から順次印加される半音素アドレスに該当する貯蔵領域に貯蔵された半音素データを順次読み取り、前記読み取った規準半音素データを前記認識部（５２）に供給する。前記認識部（５２）はパターンマッチング方法で前記特徴抽出部（４６）の出力を前記認識語貯蔵部（５０）に貯蔵された全ての認識語に対する半音素データの列等と比較するため、前記認識語貯蔵部（５０）に印加される認識語アドレスの論理値を一番低い論理値から一番大きい論理値まで順次増加させる。さらに、前記認識語アドレスの論理値が変更されるごとに、前記認識部（５２）は前記特徴抽出部（４６）の出力データと前記半音素データ貯蔵部（４８）から順次供給される前記半音素データの列を比較して近似度を算出する。また、前記認識部（５２）は自己内に保管された以前の近似度を現在の近似度と比較する。前記現在の近似度より以前の近似度が大きい場合、前記認識部（５２）は前記現在の近似度及び前記認識語貯蔵部（５０）からの文字列の代わりに以前の近似度及び文字列を保管する。これとは別に、前記現在の近似度が以前の近似度より大きい場合に、前記認識部（５２）は保管されている以前の近似度及び文字列の代わりに現在の近似度及び前記認識語貯蔵部（５０）からの文字列を保管する。また、前記認識部（５２）は前記特徴抽出部（４６）の出力データが前記認識語貯蔵部（５０）に貯蔵された全ての認識語等に対する半音素データの列等と比較することが完了された時、最終的に保管された文字列を音声認識の結果として出力ライン（４５）を経て出力装置（図示せず）側に送り出す。前記出力装置としてはモニタ又はプリンタ等が用いられることができる。図７を参照すると、入力ライン（５３）から図６に示した特徴抽出部（４６）の出力データを入力される第１バッファ（５４）と、また、前記半音素データ貯蔵部（４８）からの半音素データの列を入力される第２バッファ（５６）とを備える図６に示された認識部（５２）が詳しく説明されている。前記認識語貯蔵部（５０）に貯蔵された全ての認識語が前記特徴抽出部（４６）の出力データと比較される間、前記第１バッファ（５４）は前記特徴抽出部（４６）の出力データを貯蔵する。また、前記第２バッファ（５６）は前記半音素データ貯蔵部（４８）からの前記半音素データの列を一時保管する。前記認識部（５２）は前記第１及び第２バッファ（５４、５６）から、前記特徴抽出部（４６）の出力データ及び前記半音素データの列を入力される近似度計算部（５８）を追加して備える。前記近似度計算部（５８）は前記特徴抽出部（４６）の出力データと前記半音素データの列との近似度を算出し、また、算出された近似度を最高値判断部（６０）に供給する。前記最高値判断部（６０）は前記近似度計算部（５８）からの現在の近似度を自己内に保管された以前の近似度と比較する。前記現在の近似値より前記以前の近似度が大きい場合、前記最高値判断部（６０）は前記現在の近似度を無視し、前記認識語貯蔵部（５０）に供給される前記認識語アドレスの論理値を“１”程度増加させる。逆に前記現在の近似度が前記以前の近似度より大きい場合、前記最高値判断部（６０）は保管中の以前の近似度及び文字列の代わりに前記現在の近似度及び前記認識語貯蔵部（５０）からの文字列を保管する。また、前記最高値判断部（６０）は、前記認識語アドレスが最高の論理値を有する場合、自己内に保管された文字列を音声認識結果として出力ライン（４５）を経て出力装置側に送り出す。上述したように、本発明の音声合成システムは音節、音素及びダイフォンより小さい半音素を音声の合成単位にして音声合成用単位音声を貯蔵するためのメモリの量を低減することができる利点を提供する。また、本発明の音声合成システムは半音素に音素の前後関係を反映して合成音声の音質を向上させることができる利点を提供する。また、本発明の音声認識システムも音節、音素、及びダイフォンより小さい音声単位の半音素を比較用認識単位データとして用い、比較用認識単位データを貯蔵するためのメモリの量を低減できるようにする利点を提供する。さらに、本発明の音声認識システムは半音素データに音素の前後関係を反映して音声の認識率を向上させることができる利点を提供する。

Claims

【特許請求の範囲】１．音素又は変異音を先行音素及び後続音素の影響を受けない音素、又は変異音の正常状態始点付近で両分した半音素を、音声を合成するための基本音声単位に用いることを特徴とする音声合成システム。２．前記半音素が先行音素又は後続音素と隣接した音素、又は変異音の境界部に存在する遷移成分で構成されたことを特徴とする、請求項１に記載の音声合成システム。３．単語、句及び節に対する文字列データの構文を分析して構文分析データを発生し、前記構文分析データによる韻律変動規則により前記文字列データを発音記号データの形態に変換する音声学的前処理手段と、前記音声学的前処理手段からの前記構文分析データにより音声の抑揚を調節するための抑揚パターンデータ、音声の強弱を調節するための強勢パターンデータ、及び音素の持続時間を調節するための持続時間データを発生する韻律発生手段と、音素の中点部を境界に両分した前半音素及び後半音素データが貯蔵された半音素貯蔵部と、前記音声学的前処理手段からの前記発音記号データに該当する、少なくとも一つ以上の前記前半音素及び後半音素データを前記半音素貯蔵部から読み取り、前記読み取った前半音素及び後半音素データ等をデコーディングして音声信号を合成し、また前記韻律発生手段からの前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データにより前記合成された音声信号の抑揚、強弱及び発音速度を調節する音声断片組合せ手段とを備えたことを特徴とする音声合成システム。４．前記音声断片組合せ手段が、前記音声学的前処理手段からの発音記号データが含む音素等に該当する前半音素及び後半音素等を選定し、前記選定された前半音素及び後半音素に対する半音素データ等が貯蔵された前記半音素貯蔵部の貯蔵区域に対するアドレス等を発生し、また前記半音素データ等に対するアドレス等を前記半音素貯蔵部に供給する音声単位選定手段と、前記半音素貯蔵部から読み取られる前記半音素データ等をデコーディングして音声信号を合成し、前記韻律発生手段からの前記抑揚パターンデータ、強勢パターンデータ及び持続時間データにより前記合成された音声信号の抑揚、強弱、及び発音速度を調節する半音素合成手段と、前記半音素合成手段からの合成音声データを、アナログ信号の形態を有する合成音声信号に変換するＤ−Ａ変換手段とを備えたことを特徴とする、請求項３に記載の音声合成システム。５．前記音声単位選定手段が前記音声学的前処理手段からの奇数個の音素に対する発音記号データを貯蔵するためのシフトレジスターと、隣接音素との前後関係による半音素表を貯蔵し、前記シフトレジスターからの前記奇数個の音素に対する発音記号データの論理値により、隣接音素との前後関係による一つの音素に対する前半音素及び後半音素記号を発生する第１メモリと、前記第１メモリからの前記前半音素、及び後半音素記号に対する半音素データが貯蔵された前記半音素貯蔵部の貯蔵区域等に対するアドレス等を発生し、前記発生したアドレス等を前記半音素貯蔵部に印加する第２メモリとを備えたことを特徴とする、請求項４に記載の音声合成システム。６．前記シフトレジスターが、３個の先行音素及び３個の後半音素からの影響を反映することができるよう７個の音素のバッファを備えたことを特徴とする、請求項５に記載の音声合成システム。７．前記前後関係による半音素表が、先行音素及び後続音素を前後音素制限条件により変換させた場合に対する各音素の音声資料を採取し、前記採取された音声資料を前半音素及び後半音素に両分し、また前記前半音素及び後半音素を類似なもの同士、それぞれ分類することにより作成されたことを特徴とする、請求項５に記載の音声合成システム。８．前記前後関係による半音素表は、半音素と隣接した先行及び後続母音を前母音、中央母音及び後母音、さらに円唇及び平唇音であるかにより分離し、前記半音素が母音及び移動音の場合に前記分類された先行及び後続母音を低母音及び高母音に細分し、前記半音素と隣接した先行及び後続子音を唇音、歯音、硬口蓋音、軟口蓋音、声門音に分類し、前記分類した先行及び後続子音を前記半音素が側音、鼻音、破裂音及び気息音であるかによって細分し、さらに、前記細分類した先行子音を前記半音素が有声平唇音、無声平唇音、声門音及び帯気音であるかによって細分することにより作成されたことを特徴とする、請求項５に記載の音声合成システム。９．前記前後関係による半音素表は、子音及び鼻音である半音素が隣接した円唇音及び平唇音の影響を受けないようにし、子音及び破擦音である半音素が、隣接した前母音及び後母音の影響を受けないようにし、破擦及び破裂音の停止ギャプを有する子音の半音素は隣接した音素の影響を受けないようにし、子音及び気息音の半音素が、隣接した開母音及び閉母音の影響を受けるように作成されたことを特徴とする、請求項８に記載の音声合成システム。１０．音素又は変異音を先行音素及び後続音素の影響を受けない音素、又は変異音の正常状態始点付近で両分したことにより生成された半音素から抽出した認識パターンデータを、音声認識用基本認識単位に用いることを特徴とする音声認識システム。１１．前記認識パターンデータは、半音素音声資料から特徴パラメタを抽出し、抽出した特徴パタメタをコーディングすることにより生成されたことを特徴とする、請求項１０に記載の音声認識システム。１２．前記認識パターンデータは、半音素音声資料をモデルリングし、その音声モデルからの抽出した特徴パラメタを含むことを特徴とする、請求項１０に記載の音声認識システム。１３．音声信号をディジタル信号の形態に変換するためのＡ−Ｄ変換手段と、前記Ａ−Ｄ変換手段からのディジタル音声データからの音声の特徴パラメタ等を抽出する特徴抽出手段と、特徴パラメタを有する半音素データが貯蔵された半音素データ貯蔵部と、単語、句及び節に対する文字列データ及び前記文字列に対する半音素データ等を読み取られるよう、前記半音素データ貯蔵部に印加されるアドレス等を有する多数の認識語が貯蔵された認識語貯蔵部と、前記特徴抽出手段からの特徴パラメタ等を、前記認識語貯蔵部に貯蔵された前記多数の認識語等に対する前記半音素データ貯蔵部からの半音素データ等と順次比較し、最高の近似値を有する認識語の文字列を選択する認識手段とを備えたことを特徴とする音声認識システム。１４．前記半音素貯蔵部に貯蔵された半音素データは、先行音素及び後続音素からの影響を反映した音素の音素資料から抽出された特徴パラメタを有することを特徴とする、請求項１３に記載の音声認識システム。１５．前記半音素データに含まれた特徴パラメタが、短期間音声エナージー、前記短期間音声エナージーの差、フィルタバンクの出力エナージー、及び反射係数を含むことを特徴とする、請求項１４に記載の音声認識システム。１６．前記認識語貯蔵部は、認識対象語彙の変更及び増加される場合に新しい認識語等が貯蔵されたメモリ装置に交換できるようにされたことを特徴とする、請求項１４に記載の音声認識システム。１７．前記半音素データ貯蔵部に貯蔵された半音素データが、半音素に対する特徴パラメタの加重値を有することを特徴とする、請求項１３に記載の音声認識システム。１８．前記半音素データ貯蔵部に貯蔵された半音素データが、マルコフモデルリングされた半音素に対する音声スペクトラムの占有分布及び状態間転移分布値を有することを特徴とする、請求項１３に記載の音声認識システム。