JPH08502603A - 音声合成及び認識システム - Google Patents

音声合成及び認識システム

Info

Publication number
JPH08502603A
JPH08502603A JP6516879A JP51687994A JPH08502603A JP H08502603 A JPH08502603 A JP H08502603A JP 6516879 A JP6516879 A JP 6516879A JP 51687994 A JP51687994 A JP 51687994A JP H08502603 A JPH08502603 A JP H08502603A
Authority
JP
Japan
Prior art keywords
data
phoneme
semiphoneme
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6516879A
Other languages
English (en)
Inventor
ラク リー、チョン
Original Assignee
コリア テレコミュニケーション オーソリティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コリア テレコミュニケーション オーソリティー filed Critical コリア テレコミュニケーション オーソリティー
Publication of JPH08502603A publication Critical patent/JPH08502603A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 本発明は、標準音声情報を貯蔵するためのメモリの量を節減することができ、合成された音質及び音声の認識率を向上させることができる音声合成及び認識システムに関する。前記音声合成及び認識システムは音素の中点部を境界に両分した半音素データが貯蔵されたメモリを備えメモリに貯蔵された半音素データをデコーディングし、デコーディングした半音素データを連鎖させ合成音声信号を発生し、前記メモリに貯蔵された前記半音素データと前記音声信号を比較して音声信号に該当する単語、句及び節に対する文字列データを発生する。

Description

【発明の詳細な説明】 発明の名称 音声合成及び認識システム 技術分野 本発明は文字情報を音声信号の形態に変換し、音声信号を文字情報に変換する ための音声合成及び認識システムに関し、特に標準音声情報を貯蔵するためのメ モリの量を軽減することができ、合成された音質及び音声の認識率を向上させる ことができる音声合成及び認識システムに関する。 背景技術 既存の音声合成システム(Text-to-Speech Synthesis System)は無制限の語 彙を音声信号の形態に変換するための連鎖合成(Synthesis by Concatenation) 方式、フォーモント合成(Formant Synthesis)方式、及び調音モデル(Articul atory Model)方式等を採用している。 前記連鎖合成方式は、人の音声を音節や音素のような音声単位に分割して得た 短い音声断片(Speech Segment)等をコーディングし、前記コーディングされた 音声断片等をメモリに貯蔵する。また、前記連鎖合成方式は使用者が入力する文 字列を発音記号の形態に変換し、変換された発音の記号に該当する音声断片等を メモリから順次読み取ることにより合成音声を発生する。 また、前記フォーモント合成方式は合成単位に該当する音声断片等から得られ たフォーモント等の周波数に関するデータが貯蔵されたメモリを備える。前記フ ォーモント合成方式は前記データを用いて発音記号列に該当するフォーモント変 化関数を算出し、前記フォーモント変化関数により周波数が任意に可変されるこ とができるフォーモント合成フィルタを駆動することにより合成音声を発生させ る。 また、前記調音モデル方式は声道(Vocal Tract)を数式にモデル化し、前記 モデル化した声道を数式計算することにより発音記号列を発生する際、発生され る音声信号を算出する。 上述した既存の音声合成方式により合成される音声単位(即ち、合成単位)は 音節、音素又はダイフォン(Diphone)等である。音声信号に変換される文字情 報は字素(letter)等で構成され前記字素は窮極的に音素に変換するため、音声 を表記するための一番自然で便利な単位は音素である。前記音素を合成単位に定 める場合には、音素の個数が言語により相違するが、20〜40個程度に過ぎな いので音声合成システムは非常に少ない量のメモリを必要とする長所を提供する が、音素の音価が前後の他の音素等の影響を受けて変わる調音結合(Coarticula tion)現象を反映することができないため音質を低下させる問題点を引き起こす 。前記音素を合成単位にする音声合成システムは音質の低下により殆ど用いられ ていない。 尚、音節を合成単位とする音声合成システムは音節内の音素間の調音結合を反 映することができるので、音素を合成単位にする音声合成システムに比べ向上さ れた音質の音声を提供する。逆に、大部分の言語において音節の数は音素の数に 比べて100倍以上となるため、音節を合成単位にする音声合成システムは音素 を合成単位とする音声合成システムに比べて多量のメモリを要求する欠点を有す る。 前記音節を合成単位とする音声合成システムの欠点を解消するため、ダイフォ ンを合成単位とする音声合成システムが提案されている。前記ダイフォン音声合 成システムは連続した音声の中で各音素を前及び後の音素の影響を受けないと考 えられる中央で分割させる場合が得られる、二つの隣接音素間の遷移部分を基本 合成単位と定める。ダイフォンを合成単位にする場合、音声合成システムは音節 を合成単位にする音声合成システムに比べては低いが、比較的良好な音質の音声 を発生する。また、前記ダイフォン音声合成システムは前記音節を合成単位にす る音声合成システムに比べ非常に少ない量のメモリを用いる長所を提供する。し かし、前記ダイフォンが隣接した二つの音素の組み合わせで表現されるため、前 記ダイフォン音声合成システムは音素を合成単位にする音声合成システムに比べ 非常に多量のメモリを必要とする欠点を有していた。 一方、音声を文字列の形態に変換するための音声認識システムは、パターン合 致(Pattern Matching)又はパターン分類(Pattern Classification)と呼ばれ る音声認識方法を用いる。前記音声認識方法は音声信号の特徴パラメタを抽出し 、既にメモリに貯蔵した多数の基準音声信号から抽出された基準の特徴パラメタ 等と順次比較し一番似ている音声を選ぶ。また、前記音声認識方法は選ばれた音 声に対する文字列を音声認識の結果として出力する。さらに、前記音声認識方法 には主に通用されている隠匿マルコフ モデル(Hidden Markov Model;以下“H MM”という)、動的時間歪曲(Dynamic Time Warping;以下“DTW”という)、 及び人工神経網(Artificial Neural Network;以下“ANN”という)方式がある 。 前記音声認識システム等も前記音声合成システム等と同様に、ダイフォン、音 節、又は音素を認識単位に用いるため非常に多量のメモリを所要としたり、非常 に低い認識率を有する問題点を有している。実際に、前記ダイフォンを認識単位 とする音声認識システムは前記音節を認識単位とする音声認識システムに比べ、 低い認識率を有する欠点と少ない量のメモリを必要とする長所を有する。また、 前記ダイフォンを認識単位とする音声認識システムは前記音素を認識単位とする 音声認識システムに比べて高い認識率を有する反面に、前記音素型音声認識シス テムに比べ非常に多量のメモリを所有するという欠点を有する。 発明の開示 従って、本発明の目的は合成音声の音質及び音声認識率を向上させることがで き、メモリの量を減少させることができる音声合成及び認識システムを提供する ことにある。 前記目的を達成するため、本発明の音声合成システムは音素又は変異音を先行 音素及び後続音素の影響を受けない音素、又は変異音の正常状態時点の付近で両 分する半音素を、音声を合成するための基本音声単位に用いることを特徴とする 。 前記の目的を達成するため、本発明の音声認識システムは音素又は変異音を先 行音素及び後続音素の影響を受けない音素又は変異音の正常状態時点付近で両分 したことにより生成された半音素から抽出した認識パターンデータを音声認識用 基本認識単位に用いることを特徴とする。 図面の簡単な説明 図1Aは、一例の一つの単語に対する音声データのフォーマットである。 図1Bは、図1Aの音声データに対する音節データのフォーマットである。 図1Cは、図1Aの音声データに対する音素データのフォーマットである。 図1Dは、図1Aの音声データに対するダイフォンデータのフォーマットであ る。 図1Eは、図1Aの音声データに対する半音素データのフォーマットである。 図2は、本発明の実施例による音声合成システムのブロック図である。 図3は、図2に示した音声断片組合せ部の詳細ブロック図である。 図4は、図3に示した音声単位選定部の詳細ブロック図である。 図5は、図4に示した図1メモリに貯蔵された前後関係による半音素表である 。 図6は、本発明の実施例による音声認識システムのブロック図である。 図7は、図6に示した認識部の詳細ブロック図である。 発明を実施するための最良の形態 まず、図1A乃至図1Eを参照し本発明の音声合成及び認識システムで用いら れる半音素データのフォーマットを従来の音節、音素、及びダイフォンデータの フォーマットと対比して説明する。 ータ(P1〜P5)で構成されており、前記第1乃至第5音素データ(P1〜P る。図1A乃至図1Cにおいて、“#”は休止状態を示す。 データのフォーマットが示されている。前記音声データは第1乃至第6のダイフ ォンデータ(D1〜D6)で構成されている。前記ダイフォンの基本概念は各音 素の音価が隣接した前後の音素の影響だけを受けて変わるため、隣接した二つの 音素間の遷移部分を合成の基本単位とし、前記基本単位等を連鎖的に連結させる ことにより任意の連続音声を発生する。従って、ダイフォンの境界部は各音素の 中点と一致するものと見ることができるが、一層詳しく説明すると、隣接した二 音素の影響を受けない正常状態時点(Steady State Instance)がダイフォンデ ータの境界部となる。 図1Eを参照すると、本発明の音声合成及び認識システムにより用いられる半 音素データのフォーマットが説明されている。前記半音素データのフォーマット は第1〜第10半音素データを有する。図1C及び図1Eを比べると、前記半音 素データ等は前記音素データを音素データの正常状態時点である中央部を基準に 両分することにより生成される。前記両分した半音素デー夕等(d1〜d10) の中で左側の半音素等(d1、d3、d5、d7、d9)は前半音素(Initial Demiphone)といい、また右側の半音素等(d2、d4、d6、d8、d10) は後半音素(Final Demiphone)という。そして、図1D及び図1Eを比べると 、前記第1〜第10半音素データ(d1〜d10)の境界部は前記第1〜第6ダ イフォンデータ(D1−D6)の境界部と一致する。従って、前半音素及び後半 音素等は音素及びダイフォンデータを発生するため適切に結合することができる 。例えば、第1及び第2半音素データ(d1、d2)、また、第3及び第4半音 素データ(d3、d4)をそれぞれ結合させると、前記第1及び第2音素データ (P1、P2)が生成される。さらに、第2及び第3半音素データ(d2、d3 )、また第4及び第5半音素データ(d4、d5)をそれぞれ結合させると、第 2及び第3ダイフォンデータ(D2、D3)が発生する。このように、半音素デ ータが音素データ及びダイフォンデータの形態に変換されることができるため、 半音素を合成単位とする音声合成及び認識システムはダイフォン音声合成及び認 識システムのように高音質の合成音声信号を発生することができ、また音素音声 合成及び認識システムのように少ないメモリ量を必要とすることになる。これを 再び説明すると、ダイフォンを合成単位とされた合成音声信号の音質と同様な音 質 の合成音声信号を発生しようとする場合、本発明による音声合成システムは音素 音声合成システムより多く、ダイフォン音声合成システムよりは少ない量のメモ リを所要する。前記メモリの軽減される理由を説明すると次の通りである。 説明の便宜上、音素等と各音素の前後に置かれ得る音素の種類を30種と仮定 してみる。この場合、ダイフォンは900(30×30)種の種類を有する。前 記900種の種類のダイフォンは音素が隣接した音素の前半部及び後半部だけに 影響を及ぼし、前記影響の音素により異なるという仮定に基づく。しかし、実際 に一つの音素が隣接した音素から受ける影響は同一な調音位置の音素に対しては 同一な場合が大部分である。例えば、韓国語の音素を調音位置により分類すると 、子音の場合には唇音(Labial)、歯音(Dental)、硬口蓋音(Palatal)、軟 口蓋音(Velar)、声門音(Glottal)の5種類がある。また、母音の場合には前 母音(Front)、中央母音(Central)、後母音(Back)があり、前記中央母音及 び後母音はそれぞれ平唇音(Flat)及び円唇音(Rounded)に分類される。結果 的に、母音は5種類に分類される。従って、ダイフォンの前半部である後半音素 及びダイフォンの後半部である前半音素の種類はそれぞれ300(30×10) 種になる。半音素の長さは音素のダイフォンの半分程度なので、必要なメモリの 量は300個のダイフォンに該当する。結果的に、半音素を合成単位とする音声 合成及び認識システムのメモリの量は、ダイフォンを合成単位とする音声合成及 び認識システムより1/3倍に軽減される。 尚、半音素の合成単位とする音声合成及び認識システムはダイフォンを合成単 位とする音声合成及び認識システムに比べ合成音声の音質を向上させようとする 場合、一層効果的である。 さらに、ダイフォン音声合成システムは音素が隣接音素の影響だけを受けると 仮定しているが、実際に前後の多数個の音素等から影響を受けるため、合成音声 が音質が満足できるものではなかった。調音結合を十分に反映して人間の発声の ような自然な音声を合成するためには、各音素の周囲に多くの音素等の影響を考 慮するいわゆる前後関係依存単位(Context-dependent unit)を採用しなければ ならない。韓国語の場合、人間の音声と同様な合成音声を発生するため各音素の 先行音素3個と後続音素の3個の影響を考慮すべきであると仮定すると、前後関 係に依存する音素の種類は約3千万(30×106)個になる。これに比べ、大 部分の音素、特に母音の前半音素及び後半音素はそれぞれ先行音素及び後続音素 等の影響だけを受けるので半音素を合成単位とする場合、前後関係に依存する半 音素6万(30×103×2)個の種類を有する。前後関係に依存する前記半音 素等を貯蔵するため必要なメモリの量は3万個の音素を貯蔵するのに必要なメモ リの量に該当する。従って、極く自然な合成音声を発生しようとする場合、半音 素を合成単位とする音声合成システムに必要なメモリの量は、従来のダイフォン 音声合成システムに比べて1/1000に減少することができる。実際には、各 音素の前後に置かれ得る音素の種類を制限する条件が適用されるため、必要なメ モリの量は数千個に減少されダイフォンの場合と殆ど同様になる。言い換えれば 、前記ダイフォン音声合成システムに所要する量のメモリを用いれば、本発明の 音声合成システムは調音結合現象を反映した極く自然な合成音声を発生できるよ うになる。 図2を参照すると、入力ライン(11)から文字データ列を入力する音声学的 前処理部(10)を備えた本発明の実施例による音声合成システムが説明されて いる。前記音声学前処理部(10)は前記文字データ列の句文(Syntax)を分析 して句文分析データを発生し、前記句文分析データによる音韻変動規則を適用し て文字データ列に対する発音記号データの列を発生する。また、前記音声学的前 処理部(10)は前記発音記号データの列と前記句文分析データを音声断片組合 せ部(14)及び韻律発生部(12)にそれぞれ供給する。これとは別に、前記 音声学前処理部(10)は前記発生記号データの列と前記句文分析データを全て 前記韻律発生部(12)に供給することもできる。前記発音記号データ列は音素 記号(Phonetic symbol)又は変異音記号(Allophonic symbol)で構成される。 前記文字データ列はキーボード、コンピュータ又はデータベースから前記入力ラ イン(11)を経て前記音声学的前処理部(10)に供給される。結果的に、前 記音声学的前処理部(10)は文字データ列を発音記号データ列の形態に変換す る機能を果たす。 さらに、前記韻律発生部(12)は前記音声学的前処理部(10)からの前記 句文分析データを用いて発生する音声の抑揚に対する抑揚パターンデータ(Into nation Pattern Data)、発生される音声の強弱に対する強勢パターンデータ(S tress Pattern Data)、及び各音素の持続時間(Duration)に関するデータを発 生する。前記韻律発生部(12)から発生した前記抑揚パターンデータ、強勢パ ターンデータ、及び持続時間データを音声断片組合せ部(14)に供給する。こ れとは別に、前記韻律発生部(12)は通常前記抑揚パターンデータ、強勢パタ ーンデータ、及び持続時間データを前記音声学的前処理部(10)から点線の入 力ラインを経て入力される前記発音記号データの列に挿入し、前記3種類の韻律 データが載せられた発音記号データの列を前記音声断片組合せ部(14)に供給 することもできる。 尚、前記音声断片組合せ部(14)は半音素データ等が貯蔵されたメモリを備 え、前記音声的前処理部(10)から順次入力される発音記号データに該当する 前記半音素データ等を前記メモリから読み取る。さらに、前記音声断片組合せ部 (14)は前記読み取った半音素データ等を前記韻律発生部(12)からの前記 抑揚パターンデータ、強勢パターンデータ、及び持続時間データにより前記読み 取った半音素データ等のピッチ、エナージー(強さ)、及び持続時間を調節して 前記抑揚パターンデータ、強勢パターンデータ、及び持続時間データに相当する 抑揚、強弱、及び発声速度を有する合成音声信号を発生する。前記音声断片組合 せ部(14)により生成された合成音声信号は出力ライン(13)を経て送り出 される。 これとは別に、前記韻律発生部(12)からの3種類の韻律データが載せられ た発音記号データの列を入力する場合、前記音声断片組合せ部(14)は前記3 種類の韻律データが載せられた発音記号データの列を発音記号データ等と3種類 の韻律データに分離する。尚、前記音声断片組合せ部(14)は前記メモリから 前記分離した発音記号データ等に該当する半音素データ等を読み取り、前記分離 された抑揚パターンデータ、前記分離された強勢パターンデータ、及び前記分離 された持続時間データにより前記読み取った半音素データ等のピッチ、エナージ ー(強さ)、及び周期を調節して前記抑揚パターンデータ、強勢パターンデータ 、及び持続時間データに該当する抑揚、強勢及び発音速度を有する合成音声信号 を発生する。 図3には、第1入力ライン(15)から発音記号データの列を入力される半音 素選定部(16)と、第2入力ライン(17)から抑揚パターンデータ、強勢パ ターンデータ、及び持続時間データを入力される半音素合成部(20)を備えた 図2に示した音声断片組合せ部(14)が示されている。前記半音素選定部(1 6)は発音記号データに該当する前半音素及び後半音素の住所等を発生し、前記 半音素の住所等を半音素貯蔵部(18)に印加する。 前記半音素貯蔵部(18)は音素を構成する前半音素及び後半音素データを貯 蔵している。尚、前記半音素貯蔵部(18)は前記半音素選定部(16)からの 前記半音素の住所に該当する自己内の貯蔵領域に貯蔵された前半音素及び後半音 素データを読み取り、前記読み取った前後半音素データを前記半音素合成部(2 0)に供給する。前記半音素貯蔵部(18)に貯蔵した半音素データは実際に人 により発音された音声サンプルを半音素単位に分割し、分割した音声サンプルを コーディングすることにより形成される。特に、前記前半音素データは先行音素 と隣接した現行音素の境界付近に存在する遷移成分だけを含む。さらに、前記後 半音素データは後続音素と隣接した現行音素の境界付近に存在する遷移成分だけ を含む。前記音素を形成する前記前半音素及び後半音素データ等が貯蔵された前 記半音素貯蔵部(18)の貯蔵領域に対する前記半音素の住所等は、前記半音素 選定部(16)に内蔵されたメモリ(図示せず)に貯蔵される。 前記半音素合成部(20)は前記半音素データのコーディング方式により種々 な形態に構成される。前記半音素データが線形予測符号化された場合、前記半音 素合成部(20)は前記半音素貯蔵部(18)から入力される前半音素データ及 び後半音素データを線形予測復号して合成音声データを発生する。尚、前記半音 素データがフォーモント符号化した場合、前記半音素合成部(20)はフォーモ ント変化データを有する前記半音素貯蔵部(18)からの前記半音素データによ り、フォーモント周波数を変化させるよう構成したフォーモント合成フィルタを 備える。前記フォーモント合成フィルタは前記半音素貯蔵部(18)からの前半 音素データ及び後半音素データにより、フォーモント周波数等と音源信号の種類 及び強さを制御して合成音声データを発生する。また、前記半音素データが声道 の形態及び音源に関する情報を有するよう調音モデリングされた場合に、前記半 音素合成部(20)は前記半音素貯蔵部(18)からの前半音素データ及び後半 音素データに含まれた前記声道の形態及び音源情報を音響学的演算して合成音声 データを発生する。前記3種類の合成方式において、白色雑音は合成音声が無声 音の区間で音源信号として用いられる。さらに、合成音声が有声音の区間では、 人為的な声門パルス(Glottal Pulse)又はインパルスの列が音源信号として用 いられる。 また、前記半音素合成部(20)は前記第2入力ライン(17)からの前記強 勢パターンデータ及び抑揚パターンデータにより、前記音源信号の振幅及びパル ス間隔を調節して合成音声が定められた強勢及び抑揚を有するようにする。前記 半音素合成部(20)は前記第2入力ライン(17)からの持続時間データによ る音素の長さを決定する声道パラメタ等の時間的変化率を調節して合成音声が定 められた発声速度を有するようにする。また、前記半音素合成部(20)は内挿 法(Interpolation)を用いて隣接した半音素の声門パラメタ等の間の変化を滑 らかにし、滑らかに連結された合成音声が発声されるようにする。前記半音素合 成部(20)により発生された合成音声データは、ディジタル アナログ(Digi tal-Analog;以下“D-A”という)変換部(22)に供給される。 前記D−A変換部(22)は、前記半音素合成部(20)からの合成音声デー タをアナログ信号の形態に変換してアナログ信号の形態を有する合成音声信号を 発生する。また、前記D−A変換部(22)は、前記合成音声信号に含まれた音 声帯域以外の高周波数成分の雑音信号を除去するため前記合成音声信号を低域フ ィルタリングする。また、前記D−A変換部(22)は前記低域フィルタリング された合成音声信号を電力増幅し、電力増幅された合成音声信号を出力ライン( 13)を経てスピーカー等の音声出力装置側に送り出す。このため、前記D−A 変換部(22)はD−A変換機、低域通過フィルタ、及び増幅機を備える。 図4を参照すると、入力ライン(23)から発音記号データを入力されるため のシフトレジスター(38)と、前記シフトレジスター(38)から発音記号デ ータの列を並列の形態に入力される第1メモリ(40)を備える図3に示した音 声単位選定部(16)が詳細に説明されている。前記シフトレジスター(38) は3個の先行音素及び3個後続音素による影響を反映すべく、前記入力ライン( 23)に直列接続した7個の音素バッファ(24〜36)を備える。前記7個の 音素バッファ(24〜36)は前記入力ライン(23)からの音素に対する発音 記号データを右側方向に順次移動させ、前記7個の音素バッファ(24〜36) 等はそれぞれ自己内に貯蔵された発音記号データ(P1〜P7)を前記第1メモ リ(40)に供給する。即ち、第4音素バッファ(30)は現在の音素に対する 発音記号データ(P4)を貯蔵し、第1〜第3音素バッファ(24〜28)は夫 々3個の後続音素に対する発音記号データ(P1〜P3)を一つずつ貯蔵し、第 5〜第7音素バッファ(30〜36)は3個の先行音素に対する発音記号データ (P5〜P7)を一つずつ貯蔵する。尚、前記シフトレジスター(38)を構成 する前記第1〜第7音素バッファ(24〜36)から前記7個の発音記号データ (P1〜P7)を入力される前記第1メモリ(40)は、前記7個の発音記号デ ータ(P1〜P7)の論理値に該当する番地の貯蔵領域に貯蔵された前半音素記 号(din)及び後半音素記号(dfn)を読み取り、読み取られた前半音素及び後 半音素記号(din,dfn)を出力する。このため、前記第1メモリ(40)は、 図5に示すように、7個の音素に対する発音記号データ(P1〜P7)の論理値 により配列された前半音素及び後半音素記号(din,dfn)等を有する前後関係 による半音素表を備える。結局、前記第1メモリ(40)から出力される前記前 半音素及び後半音素記号(din,dfn)は、現在の音素と3個の先行音素及び3 個の後続音素に対する前後関係により決定される。図5に示した前後関係による 半音素表において、第1及び第7発音記号データ(P1、P7)は無視可能なデ ータとして作用する。 例えば、“音声合成システム”という文字列を音声合成しようとする場合、前 処理部(10)から入力される。前記発音記号データの列の中で記号/#/は休 止状態を表す発音記号である。さらに、その次の音素“ ”に対する発音記号 データは第1音素バッファ(24)を経て第7音素バッファ(36)側に移動す る。しかし、前記第1メモリ(40)は、前記入力ライン(23)に5個の発音 ない。これとは別に、前記入力ライン(23)に5個の発音記号データ(即ち、 ータに対する前半音素及び後半音素記号を出力する。同様に10番目の発音記号 4)に入力されなければならない。これを詳細に説明すると次の通りである。 (40)から出力される前半音素及び後半音素記号(din,dfn)は、図5に示 し 尚、前記半音素選定部(16)は前記第1メモリ(40)からの前半音素及び 後半音素記号(din,dfn)を入力する第2メモリ(42)を追加して備える。 前記第2メモリ(42)は前記前半音素及び後半音素記号(din,dfn)の論理 値に該当する番地の貯蔵領域に貯蔵された前半音素及び後半音素のアドレスを読 み取り、前記読み取った前半音素及び後半音素のアドレスを図3に示した半音素 貯蔵部(18)に供給する。 前記図5に示した前記前後関係による半音素表は、実際音声断片のクラスタリ ング(Clustering)による方法又は音声学的論理による方法により形成されるこ とができる。前記音声断片クラスタリングによる方法は先ず影響を及ぼす範囲内 にあると判断される先行音素、及び後続音素を前後音素制限条件(Phonotactic constraint)を考慮して変化させた全ての場合に対する各音素を人の実際音声か ら採った後、前記採取した各音素に対する音声信号を両分することにより前半音 素及び後半音素を得る。さらに、前記クラスタリングによる方法は前記前半音素 等、又は後半音素等をそれら同士で比較して類似なもの同士集合化(Clusteri ng)することにより、前後関係による半音素表を作成する。 この場合、類似な半音素同士が集合化するため、前半音素及び後半音素を時間 的基準化(Time normalization)し、類似度の尺度(Similarity measure)を用 いて自動又は手動にグルーピング(Grouping)し、各グループに含まれた多数個 の前半音素及び後半音素の中でいずれか一つをそのグループを代表する前半音素 又は後半音素の記号に定める。前記クラスタリングによる方法は影響を及ぼす最 大範囲内の先行音素及び後続音素を変化させた全ての場合に対する音素の音声資 料を採取しなければならないので、採取すべき音声試料の量が非常に多い欠点を 有している。前記採取すべき音声資料の量を大幅に減少するために、先行音素及 び後続音素の数と種類を減らす次のような方法が用いられる。 前記先行音素及び後続音素の数及び種類を減らすための方法は、各音素に対し 先行することができる全ての音素と後続することができる全ての音素の組合せを 求めるが、現在の音素から一番近い先行母音及び休止音素と後続母音及び休止音 素までの組合せだけ採ればよく、それより遠い音素は前後関係に含ませる必要が ない。例えば、韓国語において、現在の音素が子音である場合に可能な限り前後 関係の形態は(#)C(V)、(V)C(#)、(V)C(V)、(VC)C(V)及び(V) C(CV)、の5個しかない。即ち、前半音素及び後半音素は全て同じく5個の形 態の前後関係を有する。ここで、括弧の中の記号は前後関係(Context)を示し 、Cは子音、Vは母音、そして#は休止状態を示す休止音素を意味する。滑音( Glide)は常に母音と同様に取り扱われる。現在音素が母音である場合に前半音 素は後続音素の影響を受けず、後半音素は先行音素の影響を受けない。従って、 この場合に可能な前後関係の形態は前半音素で#(V)、(V)V、(#C)V、(VC )V、及び(VCC)Vの5種類を有し、さらに後半音素では(V)#、V(V)、V(C# )、V(CV)、及びV(CCV)の5種類を有する。若し、この場合現在の母音に隣 接した子音が硬口蓋音(Palatal)であれば、その子音の外の音素の影響を受け ない。 一方、音声学的理論による方法では任意の現在の音素の周辺音素等を同様な影 響を与える音素の種類別にグルーピング(Grouping)することにより前後関係に よる半音素表を作成する。前記音声学的論理による方法は母音を前母音、中央母 音、後母音、円唇、及び平唇音の5種類に分類し、尚、子音を唇音、歯音、硬 口蓋音、軟口蓋音、及び声門音の5種類に分類する。しかし、前記の分類は現在 音素の半音素に隣接した音素に対しては一層細分されなければならない。即ち、 現在音素が母音であり、現在音素の半音素と隣接した音素が母音であれば、母音 は低母音(low)/高母音(high)の形態に再区分されなければならない。さら に、現在音素が母音であり、現在音素と隣接した音素が子音である場合、母音は 現在音素と隣接した音素が側音、鼻音、破裂音(又は破擦音)、摩擦音(又は気 息音)であるかによって細分されなければならない。現在音素が母音であり、現 在音素の半音素と隣接した先行の音素が子音である場合には、前記隣接した先行 の子音は有声平唇音(Voiced plain)、無音平唇音(Unvoiced plain)、声門音 (Glottalized)、帯気音(Aspirated)であるかによって細分されなければなら ない。 一方、現在音素が子音である場合、子音は構成成分により4種類に区分するこ とができる。これを詳しく説明すると、子音は鼻音(Nasal Murmur)である場合 、円唇及び平唇音の影響を受けず、破裂音及び破擦音の停止ギャプ(Stop gap) は隣接音素の影響を受けなく、さらに、摩擦音(Frication Noise/s/及び/ ∫/は前母音及び後母音の母音の影響を受けず、また気息音(Aspiration N を説明する。 V2)、(#)C(V2)、(V1)C(#)、(V1C1)C2(V2)、及び(V1)C(C2V2) のような4種類の また、上記V2の位置に用いることができる移動音は/w/のような円唇移動音 び/w/を含むグループに分かれる。 )の後半音素に対しC1は影響を及ぼさない。 じなので同様なグループに属する。図5に示した表は前記音声学的論理による方 素を例示する。 図6には入力ライン(43)からの音声信号を入力されるアナログディジタル (Analog-Digital):以下“A-D”という)変換部(44)と、半音素データが 貯蔵された半音素データ貯蔵部(48)を備えた本発明の実施例による音声認識 システムが示されている。前記A-D変換部(44)は前記入力ライン(43)か らの音声信号に含まれた高周波数成分の雑音信号を除去するため前記音声信号を 低域フィルタリングする。また前記A-D変換部(44)は前記ファルタリングし た音声信号をディジタル信号の形態に変換し、ディジタル信号の形態に変換した ディジタル音声データを特徴抽出部(46)に供給する。 前記特徴抽出部(46)は、前記A-D変換部(44)からのディジタル音声デ ータを処理し特徴パラメタの列を発生する。 前記特徴抽出部(46)から発生した前記特徴パラメタは、短期間音声エナー ジー(Short-term energy)、短期間音声エナージーの差信号(Differenced Sho rt-term energy)、及び音声スペクトラムを表すフィルタバンク(Filter bank )の出力エナージーを含む。前記特徴パラメタは前記フィルタバンクの出力エナ ージーの代わりに線形予測係数(Linear prediction coefficient)、反射係数 (Reflection coefficient)、対数面積比(Log area ratio)、又はキャプスト ラム(Cepstrum)係数を含むことができる。前記半音素データ貯蔵部(48)に 貯蔵された前記半音素データは、図4のような半音素選定部(16)により前後 関係を反映した半音素に対する特徴パラメタ、人工神経網モデルの加重値、又は 音声スペクトラムの状態占有確率及び状態間転移確率を有する。前記半音素デー タを構成する特徴パラメタはそのまま符号化することができるが、一般にベクト ル量子化することにより作成される。 前記半音素データを形成する前記音声スペクトラムの状態占有確率及び状態間 遷移確率は、認識段階以前に各半音素をマルコフ モデルリング(Markov-Model ling)し、各半音素に該当する多数の音声資料等から音声スペクトラムを示す特 徴を抽出し、さらに前記音声スペクトラムを示す特徴を統計学的に処理すること により生成される。 また、前記半音素データを形成する前記人工神経網モデルの加重値は、認識段 階以前に半音素に対する多数の音声資料から特徴パラメタ等を抽出し、前記抽出 された特徴パラメタ等を人工神経網の学習方法を用い学習させることにより発生 する。 前記音声認識システムは前記特徴抽出部(46)の出力データを入力される認 識部(52)と、認識語等が貯蔵された認識語貯蔵部(50)を追加して備える 。前記認識語貯蔵部(50)に貯蔵された認識語は単語、句、及び文章の文字列 に対する文字データと、前記単語、句、及び文章を表現することができる半音素 等の列に対するアドレスの列を有する。前記半音素等の列に含まれた半音素等は 前後関係が反映されている。前記前後関係が反映された半音素等は図4に示した 半音素選定部(16)に文字列に対する発音記号データの列を供給することによ り 生成される。また、前記認識語貯蔵部(50)は認識語が変更又は追加される場 合、新しい認識語等が貯蔵されたロム(ROM)又は非揮発性メモリに交換される こともできる。 前記認識語貯蔵部(50)は、前記認識部(52)から認識語アドレスが印加 される場合、前記認識語アドレスに該当する貯蔵区域に貯蔵した前記文字列デー タ及び半音素アドレスの列を読み取る。また、前記認識語貯蔵部(50)は前記 読み取った文字列データを前記認識部(52)に供給する一方、前記半音素アド レスの列を前記半音素データ貯蔵部(48)に供給する。すると、前記半音素デ ータ貯蔵部(48)は前記認識語貯蔵部(50)から順次印加される半音素アド レスに該当する貯蔵領域に貯蔵された半音素データを順次読み取り、前記読み取 った規準半音素データを前記認識部(52)に供給する。 前記認識部(52)はパターンマッチング方法で前記特徴抽出部(46)の出 力を前記認識語貯蔵部(50)に貯蔵された全ての認識語に対する半音素データ の列等と比較するため、前記認識語貯蔵部(50)に印加される認識語アドレス の論理値を一番低い論理値から一番大きい論理値まで順次増加させる。さらに、 前記認識語アドレスの論理値が変更されるごとに、前記認識部(52)は前記特 徴抽出部(46)の出力データと前記半音素データ貯蔵部(48)から順次供給 される前記半音素データの列を比較して近似度を算出する。また、前記認識部( 52)は自己内に保管された以前の近似度を現在の近似度と比較する。前記現在 の近似度より以前の近似度が大きい場合、前記認識部(52)は前記現在の近似 度及び前記認識語貯蔵部(50)からの文字列の代わりに以前の近似度及び文字 列を保管する。これとは別に、前記現在の近似度が以前の近似度より大きい場合 に、前記認識部(52)は保管されている以前の近似度及び文字列の代わりに現 在の近似度及び前記認識語貯蔵部(50)からの文字列を保管する。 また、前記認識部(52)は前記特徴抽出部(46)の出力データが前記認識 語貯蔵部(50)に貯蔵された全ての認識語等に対する半音素データの列等と比 較することが完了された時、最終的に保管された文字列を音声認識の結果として 出力ライン(45)を経て出力装置(図示せず)側に送り出す。前記出力装置と してはモニタ又はプリンタ等が用いられることができる。 図7を参照すると、入力ライン(53)から図6に示した特徴抽出部(46) の出力データを入力される第1バッファ(54)と、また、前記半音素データ貯 蔵部(48)からの半音素データの列を入力される第2バッファ(56)とを備 える図6に示された認識部(52)が詳しく説明されている。前記認識語貯蔵部 (50)に貯蔵された全ての認識語が前記特徴抽出部(46)の出力データと比 較される間、前記第1バッファ(54)は前記特徴抽出部(46)の出力データ を貯蔵する。また、前記第2バッファ(56)は前記半音素データ貯蔵部(48 )からの前記半音素データの列を一時保管する。 前記認識部(52)は前記第1及び第2バッファ(54、56)から、前記特 徴抽出部(46)の出力データ及び前記半音素データの列を入力される近似度計 算部(58)を追加して備える。前記近似度計算部(58)は前記特徴抽出部( 46)の出力データと前記半音素データの列との近似度を算出し、また、算出さ れた近似度を最高値判断部(60)に供給する。前記最高値判断部(60)は前 記近似度計算部(58)からの現在の近似度を自己内に保管された以前の近似度 と比較する。前記現在の近似値より前記以前の近似度が大きい場合、前記最高値 判断部(60)は前記現在の近似度を無視し、前記認識語貯蔵部(50)に供給 される前記認識語アドレスの論理値を“1”程度増加させる。逆に前記現在の近 似度が前記以前の近似度より大きい場合、前記最高値判断部(60)は保管中の 以前の近似度及び文字列の代わりに前記現在の近似度及び前記認識語貯蔵部(5 0)からの文字列を保管する。また、前記最高値判断部(60)は、前記認識語 アドレスが最高の論理値を有する場合、自己内に保管された文字列を音声認識結 果として出力ライン(45)を経て出力装置側に送り出す。 上述したように、本発明の音声合成システムは音節、音素及びダイフォンより 小さい半音素を音声の合成単位にして音声合成用単位音声を貯蔵するためのメモ リの量を低減することができる利点を提供する。また、本発明の音声合成システ ムは半音素に音素の前後関係を反映して合成音声の音質を向上させることができ る利点を提供する。 また、本発明の音声認識システムも音節、音素、及びダイフォンより小さい音 声単位の半音素を比較用認識単位データとして用い、比較用認識単位データを貯 蔵するためのメモリの量を低減できるようにする利点を提供する。さらに、本発 明の音声認識システムは半音素データに音素の前後関係を反映して音声の認識率 を向上させることができる利点を提供する。

Claims (1)

  1. 【特許請求の範囲】 1.音素又は変異音を先行音素及び後続音素の影響を受けない音素、又は変異音 の正常状態始点付近で両分した半音素を、音声を合成するための基本音声単位に 用いることを特徴とする音声合成システム。 2.前記半音素が先行音素又は後続音素と隣接した音素、又は変異音の境界部に 存在する遷移成分で構成されたことを特徴とする、請求項1に記載の音声合成シ ステム。 3.単語、句及び節に対する文字列データの構文を分析して構文分析データを発 生し、前記構文分析データによる韻律変動規則により前記文字列データを発音記 号データの形態に変換する音声学的前処理手段と、 前記音声学的前処理手段からの前記構文分析データにより音声の抑揚を調節す るための抑揚パターンデータ、音声の強弱を調節するための強勢パターンデータ 、及び音素の持続時間を調節するための持続時間データを発生する韻律発生手段 と、 音素の中点部を境界に両分した前半音素及び後半音素データが貯蔵された半音 素貯蔵部と、 前記音声学的前処理手段からの前記発音記号データに該当する、少なくとも一 つ以上の前記前半音素及び後半音素データを前記半音素貯蔵部から読み取り、前 記読み取った前半音素及び後半音素データ等をデコーディングして音声信号を合 成し、また前記韻律発生手段からの前記抑揚パターンデータ、強勢パターンデー タ、及び持続時間データにより前記合成された音声信号の抑揚、強弱及び発音速 度を調節する音声断片組合せ手段とを備えたことを特徴とする音声合成システム 。 4.前記音声断片組合せ手段が、前記音声学的前処理手段からの発音記号データ が含む音素等に該当する前半音素及び後半音素等を選定し、前記選定された前半 音素及び後半音素に対する半音素データ等が貯蔵された前記半音素貯蔵部の貯蔵 区域に対するアドレス等を発生し、また前記半音素データ等に対するアドレス等 を前記半音素貯蔵部に供給する音声単位選定手段と、 前記半音素貯蔵部から読み取られる前記半音素データ等をデコーディングして 音声信号を合成し、前記韻律発生手段からの前記抑揚パターンデータ、強勢パタ ーンデータ及び持続時間データにより前記合成された音声信号の抑揚、強弱、及 び発音速度を調節する半音素合成手段と、 前記半音素合成手段からの合成音声データを、アナログ信号の形態を有する合 成音声信号に変換するD−A変換手段とを備えたことを特徴とする、請求項3に 記載の音声合成システム。 5.前記音声単位選定手段が前記音声学的前処理手段からの奇数個の音素に対す る発音記号データを貯蔵するためのシフトレジスターと、 隣接音素との前後関係による半音素表を貯蔵し、前記シフトレジスターからの 前記奇数個の音素に対する発音記号データの論理値により、隣接音素との前後関 係による一つの音素に対する前半音素及び後半音素記号を発生する第1メモリと 、 前記第1メモリからの前記前半音素、及び後半音素記号に対する半音素データ が貯蔵された前記半音素貯蔵部の貯蔵区域等に対するアドレス等を発生し、前記 発生したアドレス等を前記半音素貯蔵部に印加する第2メモリとを備えたことを 特徴とする、請求項4に記載の音声合成システム。 6.前記シフトレジスターが、3個の先行音素及び3個の後半音素からの影響を 反映することができるよう7個の音素のバッファを備えたことを特徴とする、請 求項5に記載の音声合成システム。 7.前記前後関係による半音素表が、先行音素及び後続音素を前後音素制限条件 により変換させた場合に対する各音素の音声資料を採取し、前記採取された音声 資料を前半音素及び後半音素に両分し、また前記前半音素及び後半音素を類似な もの同士、それぞれ分類することにより作成されたことを特徴とする、請求項5 に記載の音声合成システム。 8.前記前後関係による半音素表は、半音素と隣接した先行及び後続母音を前母 音、中央母音及び後母音、さらに円唇及び平唇音であるかにより分離し、 前記半音素が母音及び移動音の場合に前記分類された先行及び後続母音を低母 音及び高母音に細分し、 前記半音素と隣接した先行及び後続子音を唇音、歯音、硬口蓋音、軟口蓋音、 声門音に分類し、 前記分類した先行及び後続子音を前記半音素が側音、鼻音、破裂音及び気息音 であるかによって細分し、 さらに、前記細分類した先行子音を前記半音素が有声平唇音、無声平唇音、声 門音及び帯気音であるかによって細分することにより作成されたことを特徴とす る、請求項5に記載の音声合成システム。 9.前記前後関係による半音素表は、子音及び鼻音である半音素が隣接した円唇 音及び平唇音の影響を受けないようにし、 子音及び破擦音である半音素が、隣接した前母音及び後母音の影響を受けない ようにし、 破擦及び破裂音の停止ギャプを有する子音の半音素は隣接した音素の影響を受 けないようにし、 子音及び気息音の半音素が、隣接した開母音及び閉母音の影響を受けるように 作成されたことを特徴とする、請求項8に記載の音声合成システム。 10.音素又は変異音を先行音素及び後続音素の影響を受けない音素、又は変異 音の正常状態始点付近で両分したことにより生成された半音素から抽出した認識 パターンデータを、音声認識用基本認識単位に用いることを特徴とする音声認識 システム。 11.前記認識パターンデータは、半音素音声資料から特徴パラメタを抽出し、 抽出した特徴パタメタをコーディングすることにより生成されたことを特徴とす る、請求項10に記載の音声認識システム。 12.前記認識パターンデータは、半音素音声資料をモデルリングし、その音声 モデルからの抽出した特徴パラメタを含むことを特徴とする、請求項10に記載 の音声認識システム。 13.音声信号をディジタル信号の形態に変換するためのA−D変換手段と、 前記A−D変換手段からのディジタル音声データからの音声の特徴パラメタ等 を抽出する特徴抽出手段と、 特徴パラメタを有する半音素データが貯蔵された半音素データ貯蔵部と、 単語、句及び節に対する文字列データ及び前記文字列に対する半音素データ等 を読み取られるよう、前記半音素データ貯蔵部に印加されるアドレス等を有する 多数の認識語が貯蔵された認識語貯蔵部と、 前記特徴抽出手段からの特徴パラメタ等を、前記認識語貯蔵部に貯蔵された前 記多数の認識語等に対する前記半音素データ貯蔵部からの半音素データ等と順次 比較し、最高の近似値を有する認識語の文字列を選択する認識手段とを備えたこ とを特徴とする音声認識システム。 14.前記半音素貯蔵部に貯蔵された半音素データは、先行音素及び後続音素か らの影響を反映した音素の音素資料から抽出された特徴パラメタを有することを 特徴とする、請求項13に記載の音声認識システム。 15.前記半音素データに含まれた特徴パラメタが、短期間音声エナージー、前 記短期間音声エナージーの差、フィルタバンクの出力エナージー、及び反射係数 を含むことを特徴とする、請求項14に記載の音声認識システム。 16.前記認識語貯蔵部は、認識対象語彙の変更及び増加される場合に新しい認 識語等が貯蔵されたメモリ装置に交換できるようにされたことを特徴とする、請 求項14に記載の音声認識システム。 17.前記半音素データ貯蔵部に貯蔵された半音素データが、半音素に対する特 徴パラメタの加重値を有することを特徴とする、請求項13に記載の音声認識シ ステム。 18.前記半音素データ貯蔵部に貯蔵された半音素データが、マルコフ モデル リングされた半音素に対する音声スペクトラムの占有分布及び状態間転移分布値 を有することを特徴とする、請求項13に記載の音声認識システム。
JP6516879A 1993-01-30 1994-01-28 音声合成及び認識システム Pending JPH08502603A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1993/1295 1993-01-30
KR930001295 1993-01-30
PCT/KR1994/000007 WO1994017519A1 (en) 1993-01-30 1994-01-28 Speech synthesis and recognition system

Publications (1)

Publication Number Publication Date
JPH08502603A true JPH08502603A (ja) 1996-03-19

Family

ID=19350233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6516879A Pending JPH08502603A (ja) 1993-01-30 1994-01-28 音声合成及び認識システム

Country Status (3)

Country Link
EP (1) EP0681729B1 (ja)
JP (1) JPH08502603A (ja)
WO (1) WO1994017519A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
DE69128582T2 (de) * 1990-09-13 1998-07-09 Oki Electric Ind Co Ltd Methode zur Phonemunterscheidung
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式

Also Published As

Publication number Publication date
EP0681729A1 (en) 1995-11-15
WO1994017519A1 (en) 1994-08-04
EP0681729B1 (en) 1999-09-08

Similar Documents

Publication Publication Date Title
US11990118B2 (en) Text-to-speech (TTS) processing
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
Syrdal et al. Applied speech technology
US11763797B2 (en) Text-to-speech (TTS) processing
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
US9147392B2 (en) Speech synthesis device and speech synthesis method
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
TWI360108B (en) Method for synthesizing speech
Mullah A comparative study of different text-to-speech synthesis techniques
JP2002229590A (ja) 音声認識システム
KR0123845B1 (ko) 음성합성 및 인식시스템
Lobanov et al. Phonetic-Acoustical Problems of Personal Voice Cloning by TTS
JPH08502603A (ja) 音声合成及び認識システム
Nthite et al. End-to-End Text-To-Speech synthesis for under resourced South African languages
JP3742206B2 (ja) 音声合成方法及び装置
i Barrobes Voice Conversion applied to Text-to-Speech systems
Ng Survey of data-driven approaches to Speech Synthesis
Law et al. Cantonese text-to-speech synthesis using sub-syllable units.
JP2006227367A (ja) 音声合成装置
Karjalainen Review of speech synthesis technology