JP2013250379A - 音声認識装置、音声認識方法およびプログラム - Google Patents
音声認識装置、音声認識方法およびプログラム Download PDFInfo
- Publication number
- JP2013250379A JP2013250379A JP2012124247A JP2012124247A JP2013250379A JP 2013250379 A JP2013250379 A JP 2013250379A JP 2012124247 A JP2012124247 A JP 2012124247A JP 2012124247 A JP2012124247 A JP 2012124247A JP 2013250379 A JP2013250379 A JP 2013250379A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- words
- text
- user dictionary
- text portion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Landscapes
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 音声中に含まれる固有名詞に対して、その音響的特徴の抽出での誤りを補正してユーザ辞書との対比を行うことによって、その認識精度を改善させる「音声認識装置、音声認識方法およびプログラム」を提供する。
【解決手段】 情報端末における音声認識装置100は、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する。入力された音声は、その音声波形に基づいて音声認識によるテキスト化され、そこから固有名詞に係るテキスト部位が抽出される。抽出されたテキスト部位における特定の文字は置き換えられ、1または複数の単語が生成される。これらの単語は前記ユーザ辞書で検索され、該当単語が含まれている場合には、前記固有名詞に係るテキスト部位は当該単語で置き換えられる。
【選択図】 図1
【解決手段】 情報端末における音声認識装置100は、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する。入力された音声は、その音声波形に基づいて音声認識によるテキスト化され、そこから固有名詞に係るテキスト部位が抽出される。抽出されたテキスト部位における特定の文字は置き換えられ、1または複数の単語が生成される。これらの単語は前記ユーザ辞書で検索され、該当単語が含まれている場合には、前記固有名詞に係るテキスト部位は当該単語で置き換えられる。
【選択図】 図1
Description
本発明は、入力音声に対する認識精度を改善させる音声認識装置、音声認識方法およびプログラムに関する。
キーボードなどによる手入力が困難な環境におけるコンピュータの利用状況、例えば、走行中の車両におけるナビゲーション装置の操作制御、携帯型情報端末での文字入力などにおいて、音声認識による情報入力の活用が増えてきている。音声認識技術では、入力された音声を、その音響的な特徴に対する、音響モデルと呼ばれる音声コーパスを利用したデータとの比較による解析と、その言語的な特徴に対する、言語モデルと呼ばれる音素の並びに対する言語的制約に基づく解析とを通して、テキストデータに変換する、ということが基礎技術として確立されている。
情報機器に入力される音声は、その発話者の声質、入力機器の性能、周囲環境などによって影響を受けるので、音声認識技術における最大の関心はその認識精度を如何に向上させるかといったことにある。一般的に、音響モデルおよび言語モデルにおけるサンプルデータ、すなわち音声コーパスや登録単語を増加させることによって、その認識精度を高めることができるが、一方でデータの増加に伴う処理速度の低下の問題が懸念される。
このような問題を解決しうる技術として特許文献1が存在する。特許文献1に開示の技術は、第1音声認識部で認識された音声に対し、更にその特定の区間を抽出して、その区間に対してより制約的な言語モデルに基づく解析を行なうことによって、認識精度を向上させるといったものである。そして、この特定の区間を抽出する方法として、周知の「固有名詞抽出技術」を用いることにより、固有名詞をその特定の区間として抽出し、これを専用の固有名詞辞書と対比することで精度向上を図ることが開示されている。
また、車載ナビゲーション用の音声認識装置における認識精度を向上させる技術として、特許文献2が存在する。特許文献2に開示の技術は、音声辞書を地域毎にグループ分けし、車両の現在位置に基づいて音声認識の際に利用する辞書を使い分けることで、その認識精度を向上させるといったものである。
特許文献1に開示の技術によって、音声中に含まれる特定表現に対する認識精度を一定程度改善することが期待されるものの、次のような理由によりその程度は限定的になるものと考えられる。すなわち、特許文献1の技術は、抽出される特定区間の表現に対して言語モデルを変えて再認識を実施するものであり、従って、もともと音響モデルにおける認識に誤りが含まれていた場合には、たとえその区間に対して再認識を行なったとしても、その認識精度を向上させることは期待できない。
この問題は特許文献2に開示の技術においても同様であり、音響モデルにおける認識に誤りが含まれていた場合には、精度向上は期待できない。
本発明は、これらの問題を解決するためになされたものであり、音声中に含まれる固有名詞に対して、その音響的特徴の抽出での誤りを補正してユーザ辞書との対比を行うことによって、その認識精度を改善させることができるものである。
本発明は、情報端末における音声認識装置であって、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する手段と、入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成する手段と、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換える手段と、を有する。
好ましくは、前記音声をテキスト化する手段が、音響モデルに基づく確率により音声波形に含まれる各音素を決定する手段を含み、前記抽出されたテキスト部位から1または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。
好ましくは、前記抽出されたテキスト部位から1または複数の単語を生成する手段が、前記音声をテキスト化するときに、各音素の次候補とされた音素を、前記抽出されたテキスト部位における対応音素と置き換える。
好ましくは、前記音声認識装置が、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置であり、前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである。
好ましくは、前記ユーザ辞書を作成する手段が、移動体の現在位置、目的地または現在地から目的値までの経路に基づいて、地図データから取得される地名、施設名を含む固有名称を収集して構成されるものである。
好ましくは、前記ユーザ辞書が、各固有名称に対して、その読み、位置座標、登録日時の各情報を備えるとともに、それらの情報に基づいてその優先順位が与えられたものであり、前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する。
本発明は、情報端末における音声認識方法であって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。
好ましくは、前記音声をテキスト化するステップが、音響モデルに基づく確率により音声波形に含まれる各音素を決定するステップを含み、前記抽出されたテキスト部位から1または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。
本発明は、情報端末における音声認識プログラムであって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。
本発明によれば、抽出された固有名詞に係るテキスト部位に対し、その文字の組み換えを行った上でユーザ辞書との対比がなされる。これによって当該テキスト部位に対する、音響モデルによる認識での誤りがあった場合でも、その補正がなされる可能性が高まり、結果として認識精度が向上することが期待できるものである。特に、音声をテキスト化するときに、各音素の次候補とされた音素を置き換えの対象とすることで、その置換回数を最小に抑えることができ、認識速度上の影響を最小にできる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。以下では、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置を例に取って、本発明の詳細を説明する。実施例に係る音声認識装置においては、移動体の現在位置や走行履歴の情報を活用して、音声認識の精度を向上させるものである。この種の情報端末の形態としては、車両のコンソールに設置された車載ナビゲーション装置、または車載ナビゲーション装置に接続してそこから移動体の情報を取得可能な携帯型情報端末、または自身がナビゲーション機能を備えた携帯型情報端末などが考えられる。
図1は、本発明の実施例に係る情報端末における、音声認識装置の構成例を示すブロック図である。同図に示すように、音声認識装置100は、音声入力部102、音声認識部104、認識テキスト補正部106、生成テキスト出力部108、記憶部110および制御部112を有する。これらの各機能は、CPU、メモリ、通信機能などを備えた汎用コンピュータ上で、本音声認識に係るプログラムを実行することによって実現することができる。
音声入力部102は、利用者の音声をマイクなどから入力して音声波形に変換する。音声認識部104は、入力音声波形を解析してその音声に対応するテキストを出力するもので、音響モデル114に基づく解析を実施する音響解析部116と、言語モデル118に基づく解析を実施する言語解析部120との二段階に渡る解析で音声を認識する。音響解析部116では、入力音声波形を音素、音節、トライフォン(三つ組音素)などの小単位に分離し、音響モデル114に蓄積した大量の音声波形データ(音声コーパス)と対比する。そして、その中から最も近似度の高い音声を認識結果として出力する。例えば、音響解析部116では、「小菅(こすげ)」という入力に対して、図2に模式的に示されるような中間出力が得られる。図における縦方向の並びは、各音素に対する対応候補の確からしさの程度を表している。例えば、入力音声の最初の音素に対し、音響モデルとの対比により、「こ」、「ほ」、「か」がその候補として選出され、それらの確からしさの度合いはそれぞれ90%、80%、60%といった具合になる。音響解析部116における解析データは記憶部110に記録され、認識テキスト補正部106においても利用される。
言語解析部120では、言語モデル118に蓄積した大量の単語データと、単語の並びの制約や品詞を定義した句・文データから、音響解析部116で得られたテキストの並びを、言語的に解析する。単語の並びの制約の表現には、N個の単語の並びにおける出現頻度をテーブル化したn.gram文法などを用いて、並びの確からしさを確率的に表現する。音声認識部104では、音響解析部116における小単位の音声解析結果に対し、言語解析部120における言語的解析によって、入力音声に対する意味的補正がなされ、それが音声認識出力として得られる。
認識テキスト補正部106は、音声認識部104の出力を取得して、更にその補正を行うもので、固有名詞抽出部122、置き換え単語生成部124、置き換え判定部126、ユーザ辞書生成部128、ユーザ辞書130およびユーザ辞書管理部132を備える。固有名詞抽出部122は、音声認識部104からの音声に係る出力において、その固有名詞に係るテキスト部位を抽出する。固有名詞の抽出においては、前記言語解析部120による品詞解析の結果を利用する。置き換え単語生成部124は、固有名詞抽出部122で抽出された固有名詞に対し、その単語を構成する文字の置き換えを行なって1または複数の単語を生成する。この際、置き換え単語生成部124では、前記音響解析部116で得られた音素候補の確率値を利用して、その組合せ数を限定する。例えば、対象音素に対する確率値が80%以上のもの、対象音素の次候補のみ、などの境界値を設定して対象候補を限定する。図2で示した、入力音声「小菅(こすげ)」に対して次候補の音素のみ、すなわち「ほ」「う」「げ」を対象にした場合、図3に示すように、置き換え単語生成部124で生成される単語の組み合わせ数は8組となる。
置き換え判定部126は、置き換え単語生成部124で生成された各単語につき、それがユーザ辞書130に含まれているか検索し、該当単語が辞書内に存在する場合に、これを置換文字列として決定する。例えば、ユーザ辞書130内には、「小菅(こすげ)」の単語が登録されていて、一方で音声認識部104で認識された「小杉(こすぎ)」の単語が含まれていない場合においては、「小杉(こすぎ)」に変えて「小菅(こすげ)」を認識文字として採択する。後述するようにユーザ辞書130における各単語は、所定基準に基づく優先順位を持っており、組合せ単語のうちで複数の単語が辞書内に発見された場合には、その優先順位に従って置き換え単語を決定する。
ユーザ辞書130は、ユーザのナビゲーション装置における利用状況に基づいて取得される固有名称を蓄積したデータベースであり、ユーザ辞書生成部128は、ナビゲーション装置134に接続して、そこからユーザの利用状況を取得し固有名称を抽出する。ここでナビゲーション装置におけるユーザの利用状況を把握するものとして、車両の現在および過去の走行情報が利用される。具体的には、現在位置算出部134aで算出される車両の現在位置の周辺おける地域や施設の情報、誘導経路案内部134bで構築した誘導経路および目的地の周辺おける地域や施設の情報、並びに施設検索部134cで検索された施設の情報を、地図データ134dから取得する。好適な実施例において取得される情報には、その地域または施設の「読み」、「綴り」、「位置座標」、「登録日時」の各情報が含まれる。図4に、ユーザ辞書130に登録される固有名称のデータ構造の一例を示した。
登録される固有名称には、所定基準に基づく優先順位が付けられる。例えば、その元データにおける出現頻度、登録日時、現在の車両位置からの距離の何れかまたはそれらの複合的基準に従って、優先順位を決定し、登録時またはその読み出し時にデータの並び替えを行なう。ユーザ辞書管理部132は、このようなデータの並び替えに係るデータ管理を行うと共に、古い情報をユーザ辞書130から削除する処理を定期的に実行する。
生成テキスト出力部108は、音声認識部104で認識されたテキストに対し、置き換え判定部126で採択された単語の置き換えを行なって、これを音声認識結果として次処理に渡す。例えば、ソーシャルテキスト投稿サービスの利用に際して、本音声認識が利用される場合には、この音声認識結果は、そのようなサービスのアプリケーション・インタフェースプログラムに渡され、情報端末が備える通信機能などを介して投稿可能になる。また、ナビゲーション装置に対する施設検索などの操作に利用される場合には、音声認識結果は、ナビゲーション装置側に入力されその施設案内プログラムの実行を可能にする。
記憶部110は、本音声認識装置100における各処理の段階で生成される一時データを記憶する。そのようなデータには、音声入力部102からの音声波形、音響解析部116からの抽出音素およびその確率値、言語解析部120からの句・文データおよびその品詞などの属性情報、固有名詞抽出部122で抽出された固有名詞、置き換え単語生成部124で生成された単語群、置き換え判定部126で採択された置き換え単語、生成テキスト出力部108で出力される生成テキストが含まれる。制御部112は、音声認識装置100の各機能を制御する。
次に、図5のフローチャートに従って、本音声認識装置における音声認識処理の過程を説明する。図において本音声認識処理は、利用者がマイクなどの音声入力機器に対して発話することによって開始される(ステップS502)。利用者のボタン操作などによる明示的な指示、または一定時間の無音を検出することなどにより、音声入力の終了を検出し(ステップS504)、音声入力部102において入力音声を音声波形データに変換する(ステップS506)。取得された音声波形は、音声認識部104へ入力され、最初に音響モデルに基づく音響解析に掛けられる(ステップS508)。音響解析部116では、音声波形は音素などの小単位に分離され、個々が音声コーパスと対比されて、その確率値に応じて解析テキストが決定される。この解析データは後の利用のために記憶部に保存される。次に、この解析テキストは言語モデルに基づく言語解析に掛けられる(ステップS510)。言語解析部120では、言語モデルにおける単語データと句・文データから、解析テキストの並びを言語的に解析し、並びの確からしさを確率値として表現する。そして確率値の高い並びをその音声テキストとして決定する。
次に、言語解析部120からの出力テキストは、固有名詞抽出部122に渡され、そのテキストにおける固有名詞に係る単語が抽出される(ステップS512)。固有名詞の抽出には、言語解析部120における品詞解析の結果を利用する。テキスト中に固有名詞が存在しない場合、処理はステップS514からステップS524に移り、言語解析部120からの出力テキストを最終的な生成テキストとし、次処理に出力する。
ステップS514においてテキスト中に固有名詞に係る単語が含まれていると判断される場合は、次に、その単語に対する1または複数の置き換え単語を生成する(ステップS516)。前述のとおり、単語中の各文字の置き換え基準は、音響解析部116で得られた各音素に対する確率値を参照することによる。そして、ここで生成された各単語に対して、ユーザ辞書130に対する検索を実施し(ステップS518)、辞書中に該当単語が存在する場合には、これを元のテキストから抽出した固有名詞と置き換え、認識テキストを完成させ、これを最終的な認識テキストとして次処理に出力する(ステップS520〜524)。生成した複数の単語がユーザ辞書130に見つかった場合は、前述したその固有名詞の優先順位基準に従い、優先順位が高い単語を置き換え単語として採択する。一方で、生成した複数の単語の何れもがユーザ辞書130に存在しない場合、または置換前の固有名詞だけがユーザ辞書130に存在する場合には、ステップS520からステップS524に処理を移し、言語解析部120からの出力テキストを最終的な認識テキストとして出力する。以上のようにして、利用者からの入力音声は、音響モデルによる解析、言語モデルによる解析、およびユーザ辞書を利用した固有名詞の置き換え、の各処理を経て音声認識されテキスト文字として出力されるのである。
図6は、本音声認識装置における各解析における出力テキストの変化を模式的に表している。ここでは、利用者がソーシャルテキスト投稿サービスに対して音声による投稿を行う状況で、「小菅ジャンクション到着」と発話した場合を例とする。この入力に係る音声波形は個々の音素に分離され、音響解析によって各文字単位で音声コーパスとの対比による認識が行われる。この例では、「こすげ」の発話における「げ」の音素がより確率値の高い「ぎ」と認識されたと仮定する。他の文字は発話通りに解析されたものとする。
音響解析により認識された音声波形の各音素「こ」、「す」、「ぎ」、「じゃ」、「ん」...「く」は、言語解析により「小杉(こすぎ)」、「ジャンクション」および「到着(とうちゃく)」と解析されている。このテキストに対して固有名詞である「小杉(こすぎ)」の文字列が抽出され、その文字の組み合わせとして「こすぎ」、「こすげ」、「ほすぎ」...などが生成される。ユーザ辞書にはこれらの候補に対して「小菅(こすげ)」という固有名詞のみがヒットし、置き換え単語として選ばれる。これによって、「小杉(こすぎ)ジャンクション到着」という認識テキストは、「小菅(こすげ)ジャンクション到着」というテキストに変換され、音声認識における最終結果として出力される。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。前記実施例では、ユーザ辞書で管理する固有名称を、ナビゲーションに係るデータから収集したが、情報端末またはナビゲーション装置において蓄積されている他のデータ、例えば端末に格納した人名、住所などの個人の情報を含むアドレスデータ、視聴のために格納した映像および楽曲の情報その他の、ユーザに係る情報からも収集して良い。
100:音声認識装置 102:音声入力部
104:音声認識部 106:認識テキスト補正部
108:生成テキスト出力部 110:記憶部
112:制御部 114:音響モデル
116:音響解析部 118:言語モデル
120:言語解析部 122:固有名詞抽出部
124:置き換え単語生成部 126:置き換え判定部
128:ユーザ辞書生成部 130:ユーザ辞書
132:ユーザ辞書管理部
104:音声認識部 106:認識テキスト補正部
108:生成テキスト出力部 110:記憶部
112:制御部 114:音響モデル
116:音響解析部 118:言語モデル
120:言語解析部 122:固有名詞抽出部
124:置き換え単語生成部 126:置き換え判定部
128:ユーザ辞書生成部 130:ユーザ辞書
132:ユーザ辞書管理部
Claims (9)
- 情報端末における音声認識装置であって、
固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成
する手段と、
入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複
数の単語を生成する手段と、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係る
テキスト部位を当該単語で置き換える手段と、
を有する音声認識装置。 - 前記音声をテキスト化する手段が、音響モデルに基づく確率により音
声波形に含まれる各音素を決定する手段を含み、
前記抽出されたテキスト部位から1または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項1に記載の音声認識装置。 - 前記抽出されたテキスト部位から1または複数の単語を生成する手段が、前記音声をテキスト化するときに、各音素の次候補とされた音素を、前記抽出されたテキスト部位における対応音素と置き換える、
請求項2に記載の音声認識装置。 - 前記音声認識装置が、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置であり、
前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである、
請求項1〜3の何れかに記載の音声認識装置。 - 前記ユーザ辞書を作成する手段が、移動体の現在位置、目的地または現在地から目的値までの経路に基づいて、地図データから取得される地名、施設名を含む固有名称を収集して構成されるものである、
請求項4に記載の音声認識装置。 - 前記ユーザ辞書が、各固有名称に対して、その読み、位置座標、登録日時の各情報を備えるとともに、それらの情報に基づいてその優先順位が与えられたものであり、
前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する、
請求項5に記載の音声認識装置。 - 情報端末における音声認識方法であって、
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識方法。 - 前記音声をテキスト化するステップが、音響モデルに基づく確率により音声波形に含まれる各音素を決定するステップを含み、
前記抽出されたテキスト部位から1または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項7に記載の音声認識方法。 - 情報端末における音声認識プログラムであって、
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、1または複数の単語を生成するステップと、
前記ユーザ辞書に前記1または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012124247A JP2013250379A (ja) | 2012-05-31 | 2012-05-31 | 音声認識装置、音声認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012124247A JP2013250379A (ja) | 2012-05-31 | 2012-05-31 | 音声認識装置、音声認識方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013250379A true JP2013250379A (ja) | 2013-12-12 |
Family
ID=49849138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012124247A Pending JP2013250379A (ja) | 2012-05-31 | 2012-05-31 | 音声認識装置、音声認識方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013250379A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN112236816A (zh) * | 2018-09-20 | 2021-01-15 | 海信视像科技股份有限公司 | 信息处理装置、信息处理***以及影像装置 |
-
2012
- 2012-05-31 JP JP2012124247A patent/JP2013250379A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606947B2 (en) | 2015-11-30 | 2020-03-31 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN112236816A (zh) * | 2018-09-20 | 2021-01-15 | 海信视像科技股份有限公司 | 信息处理装置、信息处理***以及影像装置 |
CN112236816B (zh) * | 2018-09-20 | 2023-04-28 | 海信视像科技股份有限公司 | 信息处理装置、信息处理***以及影像装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663424B (zh) | 意图理解装置以及方法 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
US20150255064A1 (en) | Intention estimating device and intention estimating method | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP2013218095A (ja) | 音声認識サーバ統合装置および音声認識サーバ統合方法 | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP6033136B2 (ja) | 情報処理装置およびナビゲーション装置 | |
JP5073024B2 (ja) | 音声対話装置 | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
JP2013250379A (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP5378907B2 (ja) | 音声対話装置及び音声対話プログラム | |
JP2013235117A (ja) | 単語分割装置、及び単語分割方法 | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
KR101068120B1 (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 |