JP4942860B2 - 認識辞書作成装置、音声認識装置及び音声合成装置 - Google Patents

認識辞書作成装置、音声認識装置及び音声合成装置 Download PDF

Info

Publication number
JP4942860B2
JP4942860B2 JP2011550720A JP2011550720A JP4942860B2 JP 4942860 B2 JP4942860 B2 JP 4942860B2 JP 2011550720 A JP2011550720 A JP 2011550720A JP 2011550720 A JP2011550720 A JP 2011550720A JP 4942860 B2 JP4942860 B2 JP 4942860B2
Authority
JP
Japan
Prior art keywords
acoustic
unit
language
phoneme label
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011550720A
Other languages
English (en)
Other versions
JPWO2011089651A1 (ja
Inventor
裕三 丸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP4942860B2 publication Critical patent/JP4942860B2/ja
Publication of JPWO2011089651A1 publication Critical patent/JPWO2011089651A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • CCHEMISTRY; METALLURGY
    • C01INORGANIC CHEMISTRY
    • C01GCOMPOUNDS CONTAINING METALS NOT COVERED BY SUBCLASSES C01D OR C01F
    • C01G41/00Compounds of tungsten
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • CCHEMISTRY; METALLURGY
    • C01INORGANIC CHEMISTRY
    • C01PINDEXING SCHEME RELATING TO STRUCTURAL AND PHYSICAL ASPECTS OF SOLID INORGANIC COMPOUNDS
    • C01P2006/00Physical properties of inorganic compounds
    • C01P2006/80Compositional purity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Inorganic Chemistry (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、ユーザが発話した音声によって音声認識用辞書に語彙登録を行う認識辞書作成装置、これを用いた音声認識装置及び音声合成装置に関するものである。
音声認識を適用するアプリケーションによっては、ユーザが発話した音声を登録して認識対象語として使う場合がある。以降では、この動作をユーザ辞書の生成と称する。音声によるユーザ辞書の生成例としては、ラジオの周波数に対応したラジオ局名を音声で登録したり、電話番号に対応した人名や場所名を音声で登録したりする場合がある。
また、カーナビゲーションシステムや携帯端末等、複数の国をまたがって使用され得る機器に搭載される音声認識では、言語の切り替え機能が求められる。
関連する従来技術として、例えば、特許文献1には、電子辞書の使用言語を切り替えるにあたり、ユーザが発話した音声を音声認識して得られた文字データと装置内に記憶されている単語とを照合することにより、ユーザが使いたい言語を決定する使用言語切り替え方法が開示されている。
一般的には、言語ごとに音声データを収集し、収集された音声データを用いて構築した音声認識アルゴリズムや音声標準モデルを使って、ユーザが発話した音声が認識される。このため、言語を切り替えた場合には、音声認識手段そのものや音声標準モデルを切り替える必要がある。
従来では、一般的に知られている音声認識の技術を用いて、言語ごとに、ユーザが発生した音声を最も良く表現する音素のラベル列を生成し、ユーザ辞書として保存することにより、音声認識で使う言語を切り替えても、ユーザが発生した音声を音声認識可能とした音声認識装置も提案されている。
しかしながら、言語変更の度に音素ラベル列を作成する場合には、発話音声をメモリに保存して処理を行うため、発話音声の保存領域を確保できる大容量のメモリが必要であるという課題があった。
また、発生音声をメモリに保存できない場合には、想定される全ての言語について音素ラベル列をそれぞれ作成しておかなければならないが、単一の言語の音素ラベル列を作成する場合であっても多大な時間を要するため、想定される全ての言語について必要な処理時間は膨大なものとなる。この他に、全ての言語分の音素ラベル列を保存可能な大容量のメモリも必要である。
この発明は、上記のような課題を解決するためになされたもので、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができる認識辞書作成装置、これを用いた音声認識装置及び音声合成装置を得ることを目的とする。
特開2001−282788号公報
この発明に係る認識辞書作成装置は、入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、音響分析部から入力した入力音声の音響特徴の時系列と、音響標準パタン記憶部に記憶された音響標準パタンとを照合して入力音声の音素ラベル列を作成する音響データマッチング部と、音響データマッチング部により作成された入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、言語を切り替える言語切り替え部と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、言語記憶部に記憶した言語の音素レベル列から、言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えるものである。
この発明によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルとを備え、マッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように言語が切り替わっても、マッピングテーブルを参照して高速に登録語彙を、切り替え後の言語用に変換することができるため、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができるという効果がある。
この発明の実施の形態1による認識辞書作成装置の構成を示すブロック図である。 実施の形態1の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。 実施の形態1の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートである。 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。 実施の形態2の音声認識装置による動作の流れを示すフローチャートである。 この発明の実施の形態3による音声合成装置の構成を示すブロック図である。 実施の形態3の音声合成装置による動作の流れを示すフローチャートである。 この発明の実施の形態4による認識辞書作成装置の構成を示すブロック図である。 実施の形態4の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。 実施の形態4の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による認識辞書作成装置の構成を示すブロック図である。図1において、実施の形態1の認識辞書作成装置1は、マイク2a、音声取り込み部2、音響分析部3、言語ごとの音響標準パタン4、音響データマッチング部5、ユーザ辞書登録部(ユーザ辞書記憶部)6、ユーザ辞書作成時言語記憶部(言語記憶部)7、言語切り替え部8、音素ラベル列変換部9及び言語間音響データマッピングテーブル保存部(マッピングテーブル記憶部)10を備える。
音声取り込み部2は、マイク2aで取り込まれた音声をデジタル信号に変換する構成部である。音響分析部3は、音声取り込み部2でデジタル信号化された音声信号を分析して音響特徴の時系列に変換する構成部である。例えば、音声信号を一定の時間間隔で分析して、音声の特徴を表す音響特徴量(音響特徴量ベクトル)を計算する。
音響標準パタン4は、言語X(X=1,2,3,・・・)の各音素ラベル列にそれぞれ対応する標準の音響特徴(音声の断片について音響特徴量の性質を表す標準モデル)であり、例えば音素を単位としてHMM(隠れマルコフモデル)等によりモデル化したものである。音響データマッチング部5は、音響分析部3によって得られた入力音声の音響特徴の時系列と言語Xの音響標準パタン4とを照合して、音響標準パタン4を構成する標準の音響特徴に対応した音素ラベル列から、入力音声に最も類似する音素ラベル列を作成する構成部である。
ユーザ辞書登録部6は、ユーザ辞書を有する構成部であり、音響データマッチング部5によって作成された入力音声の音素ラベル列をユーザ辞書に格納する。ユーザ辞書作成時言語記憶部7は、ユーザ辞書を作成した際に、音声認識の言語として設定されていた設定言語を記憶する記憶部である。言語切り替え部8は、音声認識の言語として使用する設定言語を切り替える構成部である。
音素ラベル列変換部9は、言語間音響データマッピングテーブルを用いて、ユーザ辞書に登録された際の言語で表現された音素ラベル列を、言語切り替え部8により変更された言語の音素ラベル列へ変換する構成部である。言語間音響データマッピングテーブル保存部10は、互いに異なる言語の対とこれら言語の各音素ラベルとの対応関係を示す言語間音響データマッピングテーブルを記憶する記憶部である。
なお、一方の言語では他方の言語の音素ラベルを表現できない場合、当該他方の言語で表現し得る音素ラベルのうち、類似した音素ラベルを対応付ける。例えば、日本語では、英語の音素ラベル/l/を表現できない。そこで、日本語と英語における言語間音響データマッピングテーブルには、英語の音素ラベル/l/に発音が類似した日本語の音素ラベル/r/を対応させる。
また、音声取り込み部2、音響分析部3、音響標準パタン4、音響データマッチング部5、ユーザ辞書登録部6、ユーザ辞書作成時言語記憶部7、言語切り替え部8、音素ラベル列変換部9及び言語間音響データマッピングテーブル保存部10は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン4、ユーザ辞書登録部6、ユーザ辞書作成時言語記憶部7及び言語間音響データマッピングテーブル保存部10で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
図2は、実施の形態1の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2)。
続いて、ユーザ辞書作成時言語記憶部7が、音響データマッチング部5に現在設定されている、ユーザ辞書登録時の設定言語を確認し(ステップST3)、自身に登録する(ステップST4)。なお、設定言語は、認識辞書作成装置1を用いた音声認識装置や音声合成装置において、音声認識や音声合成の対象となる言語として予め設定されている言語である。図2の例では、英語を設定言語としている。音響分析部3は、ステップST2で音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する(ステップST5)。
音響データマッチング部5は、自身に設定されている言語(設定言語)に対応する音響標準パタン4を読み出し、この設定言語の音響標準パタン4と、音響分析部3で得られた入力音声の音響特徴の時系列とを照合して、音響標準パタン4を構成する標準の音響特徴に対応した音素ラベル列から、入力音声の音響特徴の時系列に最も類似した当該入力音声を表す最適な音素ラベル列を作成する(ステップST6)。例えば、入力音声が「Michael」であり、設定言語が英語の場合は、図2に示すように「#,/m/,/a/,/i/,/k/,/l/,#」という音素ラベル列が得られる。
ユーザ辞書登録部6は、音響データマッチング部5により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する(ステップST7)。これにより、設定言語の登録語彙テキストに対応した音素ラベル列が登録されたユーザ辞書が作成される。
次に設定言語を切り替えた場合における動作について説明する。
図3は、実施の形態1の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図2で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
例えば、ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1a)。ここでは、日本語に切り替えられたものとする。
音素ラベル列変換部9は、ユーザ辞書作成時言語記憶部7に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する(ステップST2a)。上述したように、図2では、ユーザ辞書登録時の設定言語は英語である。
続いて、音素ラベル列変換部9は、ステップST2aで確認したユーザ辞書の登録時における設定言語と言語切り替え部8から指定された切り替え後の言語とを用いて、言語間音響データマッピングテーブル保存部10を検索して、ユーザ辞書の登録時における設定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込む。
言語間音響データマッピングテーブルは、図3に示すように、英語の音素ラベルと日本語の音素ラベルとの対応関係を示すテーブルデータである。例えば、図3において、英語の音素ラベルのうち、符号Aで示す発音が類似する3つの異なる音素ラベルは、日本語で表現できないものを含んでいる。この場合は、日本語の音素ラベルのうち、符号Aで示す音素ラベルの発音に類似した1つの音素ラベル(/a/)を対応付ける。また、日本語では、英語の音素ラベル/l/を表現できないので、英語の音素ラベル/l/に発音が類似した日本語の音素ラベル/r/を対応付ける。
音素ラベル列変換部9は、言語間音響データマッピングテーブル保存部10から読み込んだ言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録されている音素ラベル列を、切り替え後の言語の音素ラベル列に変換する(ステップST3a)。
例えば、図3に示すように、「Michael」という英語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/l/,#」が、英語と日本語の言語間音響データマッピングテーブルにおける対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。
なお、言語間音響データマッピングテーブルの作成方法に関して、例えば下記の参考文献1に開示されている。
(参考文献1);特開2007−155833号公報
ユーザ辞書登録部6は、ステップST3aで音素ラベル列変換部9により変換された音素ラベル列を、ユーザ辞書に再格納する(ステップST4a)。図3では、登録語彙が「Michael」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」が1つの登録語として格納される。
以上のように、この実施の形態1によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルとを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することにより、ユーザ辞書の登録時から設定言語が変更された場合であっても、言語間音響データマッピングテーブルに基づいて音素ラベル列を変換するだけで、変更後の言語のユーザ辞書を作成でき、対応言語の音素ラベル列を作成する処理時間を格段に短縮することが可能である。
また、言語を変更する度に音素ラベル列を作成する場合であっても発話音声を保存する必要がなく、ユーザ辞書登録時の音素ラベル列のみを保存して、想定される全ての言語について音素ラベルを予め作成しておく必要もない。これにより、大容量のメモリも不要である。
実施の形態2.
図4は、この発明の実施の形態2による音声認識装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声認識装置を示している。図4において、実施の形態2による音声認識装置1Aは、上記実施の形態1で示した認識辞書作成装置1の構成に加え、辞書照合部11、言語ごとの音響標準パタンで表現される一般辞書12及び認識結果出力部13を備える。なお、図4において、図1と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
辞書照合部11は、入力音声の音素ラベル列と、設定言語の音響標準パタンで表現される一般辞書12の語彙と、ユーザ辞書登録部6のユーザ辞書に登録されている語彙を照合して、一般辞書12及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する構成部である。一般辞書12は、言語X(X=1,2,3,・・・)の音響標準パタンで表現される辞書であり、その言語の地名などの大語彙(音素ラベル列)が登録される。認識結果出力部13は、音声認識結果を出力する構成部であり、辞書照合部11による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する。
また、辞書照合部11、言語ごとの音響標準パタンで表現される一般辞書12及び認識結果出力部13は、この発明の趣旨に従う音声認識プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン4や一般辞書12に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
図5は、実施の形態2の音声認識装置による動作の流れを示すフローチャートである。
ユーザが、入力装置を用いて音声認識開始を指示してから(ステップST1b)、音声認識の対象となる音声を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2b)。音響分析部3は、ステップST2bで音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する。
音響データマッチング部5は、ユーザ辞書作成時言語記憶部7に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する(ステップST3b)。図5では、ユーザ辞書登録時の設定言語は日本語であったものとする。
続いて、音響データマッチング部5は、音響分析部3から取り込んだ入力音声の音響特徴の時系列と、設定言語の音響標準パタン4から、当該入力音声について設定言語の音素ラベル列を作成する(ステップST4b)。例えば、入力音声が「Michael」であり、設定言語が日本語である場合、日本語の音響標準パタンで表現された音素ラベル列として「#,/m/,/a/,/i/,/k/,/r/,#」が得られる。
次に、辞書照合部11は、音響データマッチング部5により作成された入力音声の音素ラベル列と、設定言語の音響標準パタン4で表現される一般辞書12の語彙と、ユーザ辞書登録部6のユーザ辞書に登録されている語彙を照合し、一般辞書12及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する(ステップST5b)。認識結果出力部13は、辞書照合部11による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する(ステップST6b)。
図5に示すように、設定言語(ここでは、日本語)の音響標準パタンで表現される一般辞書12には、地名等の大語彙が音素ラベル列として登録されている。また、ユーザ辞書には、上記実施の形態1で示したように、ユーザの発話により任意の語彙が音素ラベル列として登録されている。ここで、ユーザ辞書の登録語1として「#,/m/,/a/,/i/,/k/,/r/,#」が登録されている場合、辞書照合部11が、入力音声の音素ラベル列に最も類似する語彙として登録語1を特定し、認識結果出力部13が、登録語1を認識結果として出力する。
以上のように、この実施の形態2によれば、上記実施の形態1の認識辞書作成装置の構成に加え、一般辞書12を記憶する一般辞書記憶部と、音響データマッチング部5により作成された入力音声の音素ラベル列と、一般辞書12と、ユーザ辞書とを照合して、一般辞書12及びユーザ辞書のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部11と、辞書照合部11によって特定された語彙を、音声認識結果として出力する認識結果出力部13とを備えたので、上記実施の形態1の効果に加えて、ユーザ辞書を用いた音声認識を行う音声認識装置1Aを提供することができる。
実施の形態3.
図6は、この発明の実施の形態3による音声合成装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声合成装置を示している。図6において、実施の形態3による音声合成装置1Bは、上記実施の形態1で示した認識辞書作成装置1の構成と、上記実施の形態2で示した言語ごとの音響標準パタンで表現される一般辞書12に加え、テキスト入力部14、登録語部分検出部15、登録語部分音素ラベル列置き換え部(登録語彙置換部)16、その他の部分の音素ラベル列置き換え部(一般辞書置換部)17及び音声合成部18を備える。なお、図6において、図1及び図4と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
テキスト入力部14は、音声に変換するテキストを入力する構成部である。登録語部分検出部15は、テキスト入力部14から取り込んだ入力テキストから、ユーザ辞書に登録された登録語を検出する構成部である。登録語部分音素ラベル列置き換え部16は、登録語部分検出部15により検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える構成部である。その他の部分の音素ラベル列置き換え部17は、登録語部分音素ラベル列置き換え部16を介して、登録語部分検出部15により検出された登録語以外の入力テキスト部分を入力する構成部であり、登録語以外の入力テキスト部分の語を、設定言語の音響標準パタンで表現された一般辞書12から取り込んだ音素ラベル列に置き換える。音声合成部18は、音素ラベル列置き換え部16,17により得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する構成部である。
なお、テキスト入力部14、登録語部分検出部15、登録語部分音素ラベル列置き換え部16、その他の部分の音素ラベル列置き換え部17及び音声合成部18は、この発明の趣旨に従う音声合成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、音響標準パタン4や一般辞書12に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
図7は、実施の形態3の音声合成装置による動作の流れを示すフローチャートである。
ユーザが、テキスト入力部14を用いて、音声に変換したいテキストを入力する(ステップST1c)。このとき、ユーザ辞書の登録語を識別する識別子を設定する。例えば、図7に示すように、ユーザ辞書の登録語1をテキスト入力する場合、登録語の識別子である二重括弧を登録語1の前後に設定する。
登録語部分検出部15は、テキスト入力部14から入力テキストを取り込み、入力テキストに設定された登録語の識別子を用いて登録語を検出する(ステップST2c)。図7の例では、二重括弧が前後に設定された登録語1が検出される。
次に、登録語部分音素ラベル列置き換え部16は、登録語部分検出部15によって検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える(ステップST3c)。これにより、登録語1が、対応する音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に置換される。
その他の部分の音素ラベル列置き換え部17は、登録語部分音素ラベル列置き換え部16を介して、入力テキストにおける、登録語部分検出部15により検出された登録語以外の部分を入力し、登録語以外の入力テキスト部分の語を、設定言語の一般辞書12から取り込んだ音素ラベル列に置き換える(ステップST4c)。ここでは、設定言語が日本語であるものとし、登録語以外の入力テキスト部分である、助詞の「は」、名詞の「大阪」、助詞の「に」、動詞の「いった」が、図7に示すように、日本語の一般辞書12に登録されている、対応する音素ラベル列にそれぞれ置き換えられる。
音声合成部18は、登録語部分音素ラベル列置き換え部16及びその他の部分の音素ラベル列置き換え部17によって得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する(ステップST5c)。図7の例では、「マイクルは大阪に行った」という合成音声が出力される。ここで、登録語1以外の部分は、日本語の音素ラベルで発話されるが、登録語1である「マイクル」は、上記実施の形態1で示したようにユーザ辞書に設定時の設定言語が英語であるので、英語的な発話となる。
以上のように、この実施の形態3によれば、上記実施の形態1の認識辞書作成装置の構成に加えて、テキストを入力するテキスト入力部14と、テキスト入力部14から入力されたテキストの文字列から、ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部15と、登録語部分検出部15によって検出された語彙部分を、ユーザ辞書から取得した対応する音素ラベル列に置き換える登録語部分音素ラベル列置き換え部16と、テキストの文字列のうち、登録語部分検出部15によって検出された語彙部分以外の部分を、一般辞書12の対応する音素ラベル列に置き換えるその他の部分の音素ラベル列置き換え部17と、登録語部分音素ラベル列置き換え部16及びその他の部分の音素ラベル列置き換え部17によって得られたテキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部18を備える。
このように構成することで、上記実施の形態1の効果に加え、ユーザ辞書を用いた音声合成を行う音声合成装置1Bを提供することができる。
実施の形態4.
図8は、この発明の実施の形態4による認識辞書作成装置の構成を示すブロック図である。図8において、実施の形態4の認識辞書作成装置1aは、上記実施の形態1の構成におけるユーザ辞書作成時言語記憶部7がない代わりに、登録時音響パタン設定部19を備える。登録時音響パタン設定部19は、認識辞書作成装置1aを用いた音声認識装置や音声合成装置に設定されている設定言語に関わらず、音響データマッチング部5の処理に用いる音響標準パタン4の言語として、自身に予め登録されている所定の言語を設定する構成部である。この所定の言語は、設定言語に依らず、登録時音響パタン設定部19に予め登録される。なお、図8において、図1で示した構成部と同一又は同様に動作するものについては、同一符号を付し説明を省略する。
次に動作について説明する。
図9は、実施の形態4の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1d)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2d)。
続いて、登録時音響パタン設定部19が、システムの設定言語の代わりに、自身に予め登録されている所定言語を音響データマッチング部5に設定する(ステップST3d)。図9の例では、英語を所定言語としている。音響分析部3は、ステップST2dで音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する(ステップST4d)。
音響データマッチング部5は、登録時音響パタン設定部19から設定された所定言語に対応する音響標準パタン4を読み出し、この設定言語の音響標準パタン4と、音響分析部3で得られた入力音声の音響特徴の時系列とから、入力音声を表す最適な音素ラベル列を作成する(ステップST5d)。入力音声が「Michael」であり、所定言語が英語であると、図9に示すように、「#,/m/,/a/,/i/,/k/,/l/,#」という音素ラベル列が得られる。
ユーザ辞書登録部6は、音響データマッチング部5により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する(ステップST6d)。
次に、音素ラベル列変換部9が、言語間音響データマッピングテーブル保存部10から読み込んだ言語間音響データマッピングテーブルに基づいて、上述のようにして得られた入力音声(登録語彙)に対する所定言語の音素ラベル列と、システムに現在設定されている設定言語の音素ラベルとの対応付けを行い、ユーザ辞書に登録した所定言語による登録語彙の音素ラベル列を設定言語の音素ラベル列に変換し、現在のユーザ辞書としてユーザ辞書登録部6に登録する(ステップST7d)。
次に設定言語を切り替えた場合における動作について説明する。
図10は、実施の形態4の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図9で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1e)。ここでは、日本語に切り替えられたものとする。
音素ラベル列変換部9は、言語切り替え部8から指定された切り替え後の言語と、所定言語とを用いて、言語間音響データマッピングテーブル保存部10を検索して、ユーザ辞書の登録時における所定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込み、この言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録した所定言語の音素ラベル列を、切り替え後の言語の音素ラベル列に変換する(ステップST2e)。
例えば、所定言語である英語の「Michael」の音素ラベル列「#,/m/,/a/,/i/,/k/,/l/,#」が、切り替え後の言語である日本語との言語間音響データマッピングテーブルの対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。
ユーザ辞書登録部6は、ステップST2eにおいて音素ラベル列変換部9により変換された音素ラベル列を、ユーザ辞書に追加格納する(ステップST3e)。図10では、登録語彙テキストが「Michael」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」が、登録語として格納される。
以上のように、この実施の形態4によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルと、音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する登録時音響パタン設定部19とを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、登録時音響パタン設定部19により選択された言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することで、上記実施の形態1では、ユーザ辞書への登録する語彙の対象言語としてN個の言語が設定可能である場合、ユーザ辞書への登録時の言語と設定可能な言語との(N×(N−1))/2個分の組み合わせの全てに対応する言語間音響データマッピングテーブルが必要であったところ、登録時音響パタン設定部19によって設定される1つの所定言語と上記設定可能な言語との(N−1)個分の組み合わせに対応する言語間音響データマッピングテーブルでよく、言語間音響データマッピングテーブルのデータサイズを低減することが可能である。
なお、上記実施の形態2及び上記実施の形態3では、上記実施の形態1による認識辞書作成装置1を用いて音声認識装置及び音声合成装置を構成する場合を示したが、図4及び図6で示した構成において、上記実施の形態1による認識辞書作成装置の代わりに、図8に示した上記実施の形態4による認識辞書作成装置1aを組み合わせて音声認識装置及び音声合成装置を構成しても構わない。これにより、上記実施の形態4による効果も併せて得られる音声認識装置及び音声合成装置を提供することができる。
この発明に係る認識辞書作成装置は、発話音声を保存する大容量のメモリが不要で、全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができることから、車載機器の音声認識装置や音声合成装置に好適である。

Claims (6)

  1. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素レベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。
  2. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
    前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
    前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。
  3. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    前記ユーザ辞書に登録した音素ラベル列の言語を記憶する言語記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
    テキストを入力するテキスト入力部と、
    前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
    前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
    前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
    前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。
  4. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
    前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。
  5. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
    前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
    前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
    前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。
  6. 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
    標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
    前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
    前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
    前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
    言語を切り替える言語切り替え部と、
    言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
    前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
    テキストを入力するテキスト入力部と、
    前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
    前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
    前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
    前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。
JP2011550720A 2010-01-22 2010-01-22 認識辞書作成装置、音声認識装置及び音声合成装置 Expired - Fee Related JP4942860B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/000369 WO2011089651A1 (ja) 2010-01-22 2010-01-22 認識辞書作成装置、音声認識装置及び音声合成装置

Publications (2)

Publication Number Publication Date
JP4942860B2 true JP4942860B2 (ja) 2012-05-30
JPWO2011089651A1 JPWO2011089651A1 (ja) 2013-05-20

Family

ID=44306475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011550720A Expired - Fee Related JP4942860B2 (ja) 2010-01-22 2010-01-22 認識辞書作成装置、音声認識装置及び音声合成装置

Country Status (5)

Country Link
US (1) US9177545B2 (ja)
JP (1) JP4942860B2 (ja)
CN (1) CN102687197B (ja)
DE (1) DE112010005168B4 (ja)
WO (1) WO2011089651A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2816558A1 (en) 2013-06-17 2014-12-24 Fujitsu Limited Speech processing device and method

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013195928A (ja) * 2012-03-22 2013-09-30 Yamaha Corp 音声素片切出装置
JP5990962B2 (ja) * 2012-03-23 2016-09-14 ヤマハ株式会社 歌唱合成装置
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
US9197481B2 (en) * 2012-07-10 2015-11-24 Tencent Technology (Shenzhen) Company Limited Cloud-based translation method and system for mobile client
US9886947B2 (en) * 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
US10403265B2 (en) 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
US10628567B2 (en) * 2016-09-05 2020-04-21 International Business Machines Corporation User authentication using prompted text
DE112017007852B4 (de) * 2017-09-11 2023-05-17 Mitsubishi Electric Corporation Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren
JP6920153B2 (ja) * 2017-09-27 2021-08-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及***
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
CN113611282B (zh) * 2021-08-09 2024-05-14 苏州市广播电视总台 广播节目智能播报***及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202889A (ja) * 1997-11-17 1999-07-30 Internatl Business Mach Corp <Ibm> 音声識別装置、発音矯正装置およびこれらの方法
JP2000352989A (ja) * 1999-04-30 2000-12-19 Lucent Technol Inc ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2001296880A (ja) * 2000-03-27 2001-10-26 Lucent Technol Inc 固有名の複数のもっともらしい発音を生成する方法および装置
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
WO2011004502A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US7181395B1 (en) 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US6738738B2 (en) * 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
JP2002247646A (ja) 2001-02-19 2002-08-30 Sony Corp 携帯端末装置およびコンピュータプログラム
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
WO2004047077A1 (en) * 2002-11-15 2004-06-03 Voice Signal Technologies, Inc. Multilingual speech recognition
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
US7415411B2 (en) 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
DE602004023134D1 (de) * 2004-07-22 2009-10-22 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
JP2007155833A (ja) 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム
US20070255567A1 (en) * 2006-04-27 2007-11-01 At&T Corp. System and method for generating a pronunciation dictionary
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8073693B2 (en) * 2008-12-04 2011-12-06 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202889A (ja) * 1997-11-17 1999-07-30 Internatl Business Mach Corp <Ibm> 音声識別装置、発音矯正装置およびこれらの方法
JP2000352989A (ja) * 1999-04-30 2000-12-19 Lucent Technol Inc ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2001296880A (ja) * 2000-03-27 2001-10-26 Lucent Technol Inc 固有名の複数のもっともらしい発音を生成する方法および装置
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
WO2011004502A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2816558A1 (en) 2013-06-17 2014-12-24 Fujitsu Limited Speech processing device and method
US9672809B2 (en) 2013-06-17 2017-06-06 Fujitsu Limited Speech processing device and method

Also Published As

Publication number Publication date
US9177545B2 (en) 2015-11-03
WO2011089651A1 (ja) 2011-07-28
US20120203553A1 (en) 2012-08-09
CN102687197B (zh) 2014-07-23
DE112010005168B4 (de) 2018-12-13
JPWO2011089651A1 (ja) 2013-05-20
DE112010005168T5 (de) 2012-11-08
CN102687197A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
JP4942860B2 (ja) 認識辞書作成装置、音声認識装置及び音声合成装置
US8606581B1 (en) Multi-pass speech recognition
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US20130090921A1 (en) Pronunciation learning from user correction
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP5274711B2 (ja) 音声認識装置
JP3803029B2 (ja) 音声認識装置
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JP2009518677A (ja) 莫大な語彙を有する音声認識システム
JP6985221B2 (ja) 音声認識装置及び音声認識方法
WO2016103358A1 (ja) 音声認識装置及び音声認識方法
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
US7181397B2 (en) Speech dialog method and system
KR20180124226A (ko) 음성인식 작동 시스템 및 방법
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP4877112B2 (ja) 音声処理装置およびプログラム
US20090254335A1 (en) Multilingual weighted codebooks
JP3881155B2 (ja) 音声認識方法及び装置
Ramasubramanian et al. Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition
WO2019049364A1 (ja) 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
WO2019030810A1 (ja) 音声認識装置および音声認識方法
JP2010008768A (ja) 音声認識装置及び音声認識方法
WO2020240647A1 (ja) 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120228

R150 Certificate of patent or registration of utility model

Ref document number: 4942860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees