JP4942860B2 - 認識辞書作成装置、音声認識装置及び音声合成装置 - Google Patents
認識辞書作成装置、音声認識装置及び音声合成装置 Download PDFInfo
- Publication number
- JP4942860B2 JP4942860B2 JP2011550720A JP2011550720A JP4942860B2 JP 4942860 B2 JP4942860 B2 JP 4942860B2 JP 2011550720 A JP2011550720 A JP 2011550720A JP 2011550720 A JP2011550720 A JP 2011550720A JP 4942860 B2 JP4942860 B2 JP 4942860B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- unit
- language
- phoneme label
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title description 13
- 238000003786 synthesis reaction Methods 0.000 title description 12
- 238000013507 mapping Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 17
- 238000013506 data mapping Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 230000005477 standard model Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01G—COMPOUNDS CONTAINING METALS NOT COVERED BY SUBCLASSES C01D OR C01F
- C01G41/00—Compounds of tungsten
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- C—CHEMISTRY; METALLURGY
- C01—INORGANIC CHEMISTRY
- C01P—INDEXING SCHEME RELATING TO STRUCTURAL AND PHYSICAL ASPECTS OF SOLID INORGANIC COMPOUNDS
- C01P2006/00—Physical properties of inorganic compounds
- C01P2006/80—Compositional purity
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- Inorganic Chemistry (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
関連する従来技術として、例えば、特許文献1には、電子辞書の使用言語を切り替えるにあたり、ユーザが発話した音声を音声認識して得られた文字データと装置内に記憶されている単語とを照合することにより、ユーザが使いたい言語を決定する使用言語切り替え方法が開示されている。
従来では、一般的に知られている音声認識の技術を用いて、言語ごとに、ユーザが発生した音声を最も良く表現する音素のラベル列を生成し、ユーザ辞書として保存することにより、音声認識で使う言語を切り替えても、ユーザが発生した音声を音声認識可能とした音声認識装置も提案されている。
また、発生音声をメモリに保存できない場合には、想定される全ての言語について音素ラベル列をそれぞれ作成しておかなければならないが、単一の言語の音素ラベル列を作成する場合であっても多大な時間を要するため、想定される全ての言語について必要な処理時間は膨大なものとなる。この他に、全ての言語分の音素ラベル列を保存可能な大容量のメモリも必要である。
このように言語が切り替わっても、マッピングテーブルを参照して高速に登録語彙を、切り替え後の言語用に変換することができるため、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができるという効果がある。
実施の形態1.
図1は、この発明の実施の形態1による認識辞書作成装置の構成を示すブロック図である。図1において、実施の形態1の認識辞書作成装置1は、マイク2a、音声取り込み部2、音響分析部3、言語ごとの音響標準パタン4、音響データマッチング部5、ユーザ辞書登録部(ユーザ辞書記憶部)6、ユーザ辞書作成時言語記憶部(言語記憶部)7、言語切り替え部8、音素ラベル列変換部9及び言語間音響データマッピングテーブル保存部(マッピングテーブル記憶部)10を備える。
図2は、実施の形態1の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2)。
図3は、実施の形態1の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図2で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
例えば、ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1a)。ここでは、日本語に切り替えられたものとする。
音素ラベル列変換部9は、ユーザ辞書作成時言語記憶部7に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する(ステップST2a)。上述したように、図2では、ユーザ辞書登録時の設定言語は英語である。
例えば、図3に示すように、「Michael」という英語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/l/,#」が、英語と日本語の言語間音響データマッピングテーブルにおける対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。
なお、言語間音響データマッピングテーブルの作成方法に関して、例えば下記の参考文献1に開示されている。
(参考文献1);特開2007−155833号公報
このように構成することにより、ユーザ辞書の登録時から設定言語が変更された場合であっても、言語間音響データマッピングテーブルに基づいて音素ラベル列を変換するだけで、変更後の言語のユーザ辞書を作成でき、対応言語の音素ラベル列を作成する処理時間を格段に短縮することが可能である。
また、言語を変更する度に音素ラベル列を作成する場合であっても発話音声を保存する必要がなく、ユーザ辞書登録時の音素ラベル列のみを保存して、想定される全ての言語について音素ラベルを予め作成しておく必要もない。これにより、大容量のメモリも不要である。
図4は、この発明の実施の形態2による音声認識装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声認識装置を示している。図4において、実施の形態2による音声認識装置1Aは、上記実施の形態1で示した認識辞書作成装置1の構成に加え、辞書照合部11、言語ごとの音響標準パタンで表現される一般辞書12及び認識結果出力部13を備える。なお、図4において、図1と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
図5は、実施の形態2の音声認識装置による動作の流れを示すフローチャートである。
ユーザが、入力装置を用いて音声認識開始を指示してから(ステップST1b)、音声認識の対象となる音声を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2b)。音響分析部3は、ステップST2bで音声取り込み部2から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する。
続いて、音響データマッチング部5は、音響分析部3から取り込んだ入力音声の音響特徴の時系列と、設定言語の音響標準パタン4から、当該入力音声について設定言語の音素ラベル列を作成する(ステップST4b)。例えば、入力音声が「Michael」であり、設定言語が日本語である場合、日本語の音響標準パタンで表現された音素ラベル列として「#,/m/,/a/,/i/,/k/,/r/,#」が得られる。
図6は、この発明の実施の形態3による音声合成装置の構成を示すブロック図であり、上記実施の形態1による認識辞書作成装置を用いた音声合成装置を示している。図6において、実施の形態3による音声合成装置1Bは、上記実施の形態1で示した認識辞書作成装置1の構成と、上記実施の形態2で示した言語ごとの音響標準パタンで表現される一般辞書12に加え、テキスト入力部14、登録語部分検出部15、登録語部分音素ラベル列置き換え部(登録語彙置換部)16、その他の部分の音素ラベル列置き換え部(一般辞書置換部)17及び音声合成部18を備える。なお、図6において、図1及び図4と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。
図7は、実施の形態3の音声合成装置による動作の流れを示すフローチャートである。
ユーザが、テキスト入力部14を用いて、音声に変換したいテキストを入力する(ステップST1c)。このとき、ユーザ辞書の登録語を識別する識別子を設定する。例えば、図7に示すように、ユーザ辞書の登録語1をテキスト入力する場合、登録語の識別子である二重括弧を登録語1の前後に設定する。
次に、登録語部分音素ラベル列置き換え部16は、登録語部分検出部15によって検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える(ステップST3c)。これにより、登録語1が、対応する音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に置換される。
このように構成することで、上記実施の形態1の効果に加え、ユーザ辞書を用いた音声合成を行う音声合成装置1Bを提供することができる。
図8は、この発明の実施の形態4による認識辞書作成装置の構成を示すブロック図である。図8において、実施の形態4の認識辞書作成装置1aは、上記実施の形態1の構成におけるユーザ辞書作成時言語記憶部7がない代わりに、登録時音響パタン設定部19を備える。登録時音響パタン設定部19は、認識辞書作成装置1aを用いた音声認識装置や音声合成装置に設定されている設定言語に関わらず、音響データマッチング部5の処理に用いる音響標準パタン4の言語として、自身に予め登録されている所定の言語を設定する構成部である。この所定の言語は、設定言語に依らず、登録時音響パタン設定部19に予め登録される。なお、図8において、図1で示した構成部と同一又は同様に動作するものについては、同一符号を付し説明を省略する。
図9は、実施の形態4の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから(ステップST1d)、登録しようとしている語彙を発話する。例えば、個人名の「Michael」が発話されたものとする。音声取り込み部2は、マイク2aを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部3に出力する(ステップST2d)。
次に、音素ラベル列変換部9が、言語間音響データマッピングテーブル保存部10から読み込んだ言語間音響データマッピングテーブルに基づいて、上述のようにして得られた入力音声(登録語彙)に対する所定言語の音素ラベル列と、システムに現在設定されている設定言語の音素ラベルとの対応付けを行い、ユーザ辞書に登録した所定言語による登録語彙の音素ラベル列を設定言語の音素ラベル列に変換し、現在のユーザ辞書としてユーザ辞書登録部6に登録する(ステップST7d)。
図10は、実施の形態4の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図9で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
ユーザが、入力装置を用いて言語切り替え部8に新たな言語を指定することにより、言語切り替え部8が、切り替え後の言語を音素ラベル列変換部9に設定する(ステップST1e)。ここでは、日本語に切り替えられたものとする。
例えば、所定言語である英語の「Michael」の音素ラベル列「#,/m/,/a/,/i/,/k/,/l/,#」が、切り替え後の言語である日本語との言語間音響データマッピングテーブルの対応関係に基づいて、日本語の音素ラベル列である「#,/m/,/a/,/i/,/k/,/r/,#」に変換される。
このように構成することで、上記実施の形態1では、ユーザ辞書への登録する語彙の対象言語としてN個の言語が設定可能である場合、ユーザ辞書への登録時の言語と設定可能な言語との(N×(N−1))/2個分の組み合わせの全てに対応する言語間音響データマッピングテーブルが必要であったところ、登録時音響パタン設定部19によって設定される1つの所定言語と上記設定可能な言語との(N−1)個分の組み合わせに対応する言語間音響データマッピングテーブルでよく、言語間音響データマッピングテーブルのデータサイズを低減することが可能である。
Claims (6)
- 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素レベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録した音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。 - 入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000369 WO2011089651A1 (ja) | 2010-01-22 | 2010-01-22 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4942860B2 true JP4942860B2 (ja) | 2012-05-30 |
JPWO2011089651A1 JPWO2011089651A1 (ja) | 2013-05-20 |
Family
ID=44306475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011550720A Expired - Fee Related JP4942860B2 (ja) | 2010-01-22 | 2010-01-22 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9177545B2 (ja) |
JP (1) | JP4942860B2 (ja) |
CN (1) | CN102687197B (ja) |
DE (1) | DE112010005168B4 (ja) |
WO (1) | WO2011089651A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816558A1 (en) | 2013-06-17 | 2014-12-24 | Fujitsu Limited | Speech processing device and method |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013195928A (ja) * | 2012-03-22 | 2013-09-30 | Yamaha Corp | 音声素片切出装置 |
JP5990962B2 (ja) * | 2012-03-23 | 2016-09-14 | ヤマハ株式会社 | 歌唱合成装置 |
JP5942559B2 (ja) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | 音声認識装置 |
US9197481B2 (en) * | 2012-07-10 | 2015-11-24 | Tencent Technology (Shenzhen) Company Limited | Cloud-based translation method and system for mobile client |
US9886947B2 (en) * | 2013-02-25 | 2018-02-06 | Seiko Epson Corporation | Speech recognition device and method, and semiconductor integrated circuit device |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
WO2015075789A1 (ja) * | 2013-11-20 | 2015-05-28 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US9747897B2 (en) * | 2013-12-17 | 2017-08-29 | Google Inc. | Identifying substitute pronunciations |
US9824684B2 (en) * | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
US10403265B2 (en) | 2014-12-24 | 2019-09-03 | Mitsubishi Electric Corporation | Voice recognition apparatus and voice recognition method |
US10628567B2 (en) * | 2016-09-05 | 2020-04-21 | International Business Machines Corporation | User authentication using prompted text |
DE112017007852B4 (de) * | 2017-09-11 | 2023-05-17 | Mitsubishi Electric Corporation | Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
CN109243428B (zh) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及*** |
US10957318B2 (en) * | 2018-11-02 | 2021-03-23 | Visa International Service Association | Dynamic voice authentication |
CN113611282B (zh) * | 2021-08-09 | 2024-05-14 | 苏州市广播电视总台 | 广播节目智能播报***及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11202889A (ja) * | 1997-11-17 | 1999-07-30 | Internatl Business Mach Corp <Ibm> | 音声識別装置、発音矯正装置およびこれらの方法 |
JP2000352989A (ja) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法 |
JP2001188556A (ja) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2001296880A (ja) * | 2000-03-27 | 2001-10-26 | Lucent Technol Inc | 固有名の複数のもっともらしい発音を生成する方法および装置 |
JP2003022087A (ja) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | 音声認識方法 |
WO2011004502A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
KR100277694B1 (ko) * | 1998-11-11 | 2001-01-15 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
JP2001282788A (ja) | 2000-03-28 | 2001-10-12 | Kyocera Corp | 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体 |
US7181395B1 (en) | 2000-10-27 | 2007-02-20 | International Business Machines Corporation | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data |
US6738738B2 (en) * | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
EP1233406A1 (en) * | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Speech recognition adapted for non-native speakers |
JP2002247646A (ja) | 2001-02-19 | 2002-08-30 | Sony Corp | 携帯端末装置およびコンピュータプログラム |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
WO2004047077A1 (en) * | 2002-11-15 | 2004-06-03 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
DE10304460B3 (de) * | 2003-02-04 | 2004-03-11 | Siemens Ag | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
US7415411B2 (en) | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
DE602004023134D1 (de) * | 2004-07-22 | 2009-10-22 | France Telecom | Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
US7630898B1 (en) * | 2005-09-27 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | System and method for preparing a pronunciation dictionary for a text-to-speech voice |
JP2007155833A (ja) | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
US20070255567A1 (en) * | 2006-04-27 | 2007-11-01 | At&T Corp. | System and method for generating a pronunciation dictionary |
US8290775B2 (en) * | 2007-06-29 | 2012-10-16 | Microsoft Corporation | Pronunciation correction of text-to-speech systems between different spoken languages |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US8073693B2 (en) * | 2008-12-04 | 2011-12-06 | At&T Intellectual Property I, L.P. | System and method for pronunciation modeling |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
-
2010
- 2010-01-22 WO PCT/JP2010/000369 patent/WO2011089651A1/ja active Application Filing
- 2010-01-22 CN CN201080056433.9A patent/CN102687197B/zh not_active Expired - Fee Related
- 2010-01-22 US US13/500,855 patent/US9177545B2/en not_active Expired - Fee Related
- 2010-01-22 DE DE112010005168.2T patent/DE112010005168B4/de not_active Expired - Fee Related
- 2010-01-22 JP JP2011550720A patent/JP4942860B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11202889A (ja) * | 1997-11-17 | 1999-07-30 | Internatl Business Mach Corp <Ibm> | 音声識別装置、発音矯正装置およびこれらの方法 |
JP2000352989A (ja) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | ユーザが文字列の発音を設定することを可能にするためにコンピュータ上で実行される方法 |
JP2001188556A (ja) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2001296880A (ja) * | 2000-03-27 | 2001-10-26 | Lucent Technol Inc | 固有名の複数のもっともらしい発音を生成する方法および装置 |
JP2003022087A (ja) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | 音声認識方法 |
WO2011004502A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816558A1 (en) | 2013-06-17 | 2014-12-24 | Fujitsu Limited | Speech processing device and method |
US9672809B2 (en) | 2013-06-17 | 2017-06-06 | Fujitsu Limited | Speech processing device and method |
Also Published As
Publication number | Publication date |
---|---|
US9177545B2 (en) | 2015-11-03 |
WO2011089651A1 (ja) | 2011-07-28 |
US20120203553A1 (en) | 2012-08-09 |
CN102687197B (zh) | 2014-07-23 |
DE112010005168B4 (de) | 2018-12-13 |
JPWO2011089651A1 (ja) | 2013-05-20 |
DE112010005168T5 (de) | 2012-11-08 |
CN102687197A (zh) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4942860B2 (ja) | 認識辞書作成装置、音声認識装置及び音声合成装置 | |
US8606581B1 (en) | Multi-pass speech recognition | |
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5274711B2 (ja) | 音声認識装置 | |
JP3803029B2 (ja) | 音声認識装置 | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
JP2009518677A (ja) | 莫大な語彙を有する音声認識システム | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
WO2016103358A1 (ja) | 音声認識装置及び音声認識方法 | |
US20140067400A1 (en) | Phonetic information generating device, vehicle-mounted information device, and database generation method | |
US7181397B2 (en) | Speech dialog method and system | |
KR20180124226A (ko) | 음성인식 작동 시스템 및 방법 | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP3881155B2 (ja) | 音声認識方法及び装置 | |
Ramasubramanian et al. | Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition | |
WO2019049364A1 (ja) | 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法 | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
WO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP2010008768A (ja) | 音声認識装置及び音声認識方法 | |
WO2020240647A1 (ja) | 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4942860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |