JP5310563B2 - 音声認識システム、音声認識方法、および音声認識用プログラム - Google Patents

音声認識システム、音声認識方法、および音声認識用プログラム Download PDF

Info

Publication number
JP5310563B2
JP5310563B2 JP2009547096A JP2009547096A JP5310563B2 JP 5310563 B2 JP5310563 B2 JP 5310563B2 JP 2009547096 A JP2009547096 A JP 2009547096A JP 2009547096 A JP2009547096 A JP 2009547096A JP 5310563 B2 JP5310563 B2 JP 5310563B2
Authority
JP
Japan
Prior art keywords
speech
hypothesis
recognition
speech recognition
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009547096A
Other languages
English (en)
Other versions
JPWO2009081895A1 (ja
Inventor
史博 安達
亮輔 磯谷
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009547096A priority Critical patent/JP5310563B2/ja
Publication of JPWO2009081895A1 publication Critical patent/JPWO2009081895A1/ja
Application granted granted Critical
Publication of JP5310563B2 publication Critical patent/JP5310563B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、ワードスポッティング手法を用いた音声認識システム、音声認識方法、および音声認識用プログラムに関する。
入力音声に含まれるキーワードを認識するワードスポッティング手法による音声認識では、認識に用いる記述文法中に任意の音節列をガーベージとして受理するガーベージモデルを含めることで、発声する可能性のある文パターンや単語を全て記述することなく、比較的簡単に音声認識を実現することが可能であった(非特許文献1参照。)。
このガーベージをどのようにモデル化するかが精度・速度に大きく影響を及ぼすが、カバーする範囲を広くするために一般的には、特許文献1に示されているように無音モデルと日本語の全ての音節(音素)を表すモデルを用いることが多い。
特許第3039634号公報 小沼知浩、武田一哉,"Garbage modelと構文的拘束を用いたワードスポッティングの検討",日本音響学会1992年秋期研究発表会講演論文集2−1−17,1992年,p.111−112
記述文法に従って音声認識処理をする場合、文法制約が失われてしまうのを防ぐために、通常異なるパスにある単語同士はそれぞれ分けて探索仮説を扱い、独立にスコア計算する。記述文法中のガーベージモデルも同様、別のパスにあるガーベージはそれぞれ個別に認識処理(仮説の生成及びスコアの計算等)されることになる。任意の発声が認識できるように全ての音節モデルを用いてガーベージをモデル化した場合、ガーベージモデルがカバーする範囲は広くなるものの、探索空間が広くなるために処理量が多くなる。このため、記述文法中にガーベージモデルが多く含まれれば含まれるほど、全体的な認識時間がかかるという問題があった。これは、個々のガーベージモデルの処理量を削減するような手法をとっても本質的に残る問題である。
本発明の目的は、ガーベージが文法中に多く含まれる場合であっても、高速に認識処理をすることができる音声認識システム、音声認識方法、および音声認識用プログラムを提供することにある。
本発明による音声認識システムは、入力音声に含まれるキーワードを認識する音声認識システムであって、入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1の音声認識処理部と、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2の音声認識処理部とを備え、前記第2の音声認識処理部は、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする。
また、本発明による音声認識方法は、入力音声に含まれるキーワードを認識するための音声認識方法であって、入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1のステップと、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の累計スコアから、認識結果を出力する第2のステップとを含み、前記第2のステップで、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする。
また、本発明による音声認識用プログラムは、入力音声に含まれるキーワードを認識するための音声認識用プログラムであって、コンピュータに、入力音声の音声特徴量に基づき、前記入力音声を第1の文法に従って認識する第1の音声認識処理、および入力音声の音声特徴量に基づき、前記入力音声を第2の文法に従って認識する第2の音声認識処理を実行させ、前記第1の音声認識処理で、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成させ、前記第2の音声認識処理で、前記第2の文法に従って生成される各仮説のガーベージ区間の構造およびスコアを、前記認識仮説グラフから取得させることを特徴とする。
本発明によれば、認識仮説グラフの構造・スコアを各ガーベージ区間で共通に利用することでガーベージ個々のサーチ処理を省略することができるので、ガーベージが文法(ここでは、第2の文法)中に多く含まれる場合であっても、高速に認識処理をすることができる。
以下、本発明の実施形態について図面を参照して説明する。図1は、本発明の一実施形態による音声認識システムの構成例を示すブロック図である。図1に示す音声認識システムは、第1の音声認識処理部11と、第2の音声認識処理部12とを備える。
第1の音声認識処理部11は、入力音声の音声特徴量に対して、第1の文法21に従って音声認識処理を行う。そして、その音声認識処理で第1の文法21に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する。第1の音声認識処理部11は、例えば、音声認識処理で入力音声に対して第1の文法21に従い最も尤度の高い単語列等を探索した結果をグラフ形式で表現した情報を、認識仮説グラフとして生成してもよい。認識仮説グラフは、各ノードの構造情報(何フレーム目に何のノードがあるか、各ノードがどのように接続されているか(何のアークがあるか)を示す情報等)と各ノード間のスコアの情報とを含んでいればよく、例えば、ネットワークの形式やトレリスの形式で表現された情報であってもよい。また、第1の音声認識処理部11に与えられる第1の文法21は、ガーベージを受理する文法であれば、どのような文法であってもよい。例えば、入力音声を、音素・音素列・音節・音節列・単語・単語列の任意の連鎖として受理するよう規定された文法でよい。
第2の音声認識処理部12は、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法22に従った音声認識処理を行う。そして、その音声認識処理で第2の文法22に従って導出した仮説の総合スコアから、認識結果を出力する。なお、本発明における第2の音声認識処理部12は、音声認識処理における解探索過程で仮説を構築(生成)していく際に、各仮説のガーベージ区間の構造およびスコアを、第1の音声認識処理部11が生成した認識仮説グラフから取得する。
第2の音声認識処理部12は、例えば、第2の文法22におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することによって仮説を伸ばしていけばよい。また、その際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択するようにしてもよい。
以下、より具体的な構成例を用いて説明する。図2は、本発明の一実施形態による音声認識システムのより具体的な構成例を示すブロック図である。図2に示すように、本実施形態による音声認識システムは、音声分析部100と、音声認識部200とを備える。なお、本実施形態では、音声認識処理の解探索過程で導出した仮説のことを探索仮説と表現する。なお、音声認識処理における仮説とは、認識結果の候補として導出される、文法に沿って認識単位の実体(音素等)を接続した接続構造における一経路(パス)に相当する。
音声分析部100は、入力音声を一定時間(以下、フレーム)ごとに音声特徴量に変換する。
音声認識部200は、音声分析部100が変換した音声特徴量に基づき、入力音声を認識する。音声認識部200は、認識仮説グラフ生成部201と、仮説探索部202と、第1の文法記憶部211と、第2の文法記憶部212とを含む。
認識仮説グラフ生成部201は、第1の文法記憶部211に記憶されている情報によって示される第1の文法に従って音声認識処理を行い、認識仮説グラフを出力する。なお、認識仮説グラフ生成部201は、図1に示す第1の音声認識処理部11に相当する処理部である。なお、認識仮説グラフ生成部201が出力する認識仮説グラフは、生成される全ての探索仮説についての情報を示していなくてもよい。例えば、探索仮説のスコア(認識単位の各接続に係るスコアを累積させたスコア)が所定の値以上の探索仮説についての情報のみを示す認識仮説グラフを出力することも可能である。
仮説探索部202は、第2の文法記憶部212に記憶されている情報によって示される第2の文法に従って音声認識処理を行い、探索仮説を認識(生成)し、その探索仮説から認識結果を出力する。なお、仮説探索部202は、図1に示す第2の音声認識処理部12に相当する処理部である。
第1の文法記憶部211は、第1の文法を示す情報を記憶する。第1の文法記憶部211は、例えば、第1の文法が受理する文章表現を、ネットワーク文法の形式で記述された情報を記憶する。なお、音声認識用の文法は、語句の定義と語句間の接続関係が示されていればよく、ネットワーク文法の形式以外にも、CFG文法(文脈自由文法)や正規文法などの形式で表現された情報であってもよい。具体的には、図3に示すような任意の音素の無限ループで表現するなどの手法を用いればよい。
図3は、第1の文法の定義例を示す説明図である。なお、図3は、monophone(単一音素モデル)を単位とした例を示しているが、これに限らず、triphone(3つ組音素モデル)でも音節でも単語でも可能である。図3に示すように、入力音声において発声されうる全ての音素を無限ループで接続することにより、任意の音素列を受理する文法が定義できる。
第2の文法記憶部212は、第2の文法を示す情報を記憶する。第2の文法記憶部212は、例えば、第2の文法が受理する文章表現を、ネットワーク文法の形式で記述された情報として記憶する。なお、第2の文法は、タスクで規定されたキーワード以外の区間をガーベージ区間として定義されていればよい。具体的には、図4に示すようなガーベージ区間であることを示す特殊な単語”<Garbage>”を定義するなどの手法を用いればよい。なお、ここでいうキーワードとは、必ずしも単語を単位としなくてもよく、任意の音素列や音節列等、タスクで規定された語句であれば何であってもよい。
図4は、第2の文法の定義例を示す説明図である。なお、図4に示す例では、”ベートーベン”や”月光”といった単語を単位とした例を示しているが、これに限らず、音節や音素を単位に定義することも可能である。図4に示すように、キーワード以外の音素列が発声されうる箇所に特殊な単語”<Garbage>”を挿入することにより、キーワード以外の区間をガーベージ区間として受理する文法が定義できる。なお、このようなガーベージを含む言語モデル(ここでは、記述文法)を定義することで、発声される可能性のある全ての語句を記述することなく任意の語句(単語・音節・音素列等)を受理することができるので、図4に示す例では、例えば、「ベートーベンが作曲した英雄を聞きたい」,「ベートーベンの英雄はどれ」,「ベートーベンは英雄を作曲した」などの様々なパターンの入力が受理できるようになる。
次に、本実施形態の動作について説明する。図5は、本実施形態の音声認識システムの動作例を示すフローチャートである。図5に示すように、まず、当該音声認識システムに対してユーザが発話を行うと(ステップS1)、音声分析部100は、入力された音声を音声特徴量に変換する(ステップS2)。
次に、認識仮説グラフ生成部201は、音声特徴量を、第1の記憶部211に記憶されている情報によって示される第1の文法に従って音声認識処理をすることにより、認識仮説グラフを生成する(ステップS3)。
認識仮説グラフ生成部201によって認識仮説グラフが生成されると、仮説探索部202は、音声特徴量を、第2の文法記憶部212に記憶されている情報によって示される第2の文法に従って音声認識処理することにより探索仮説を生成し、かつ認識仮説グラフ生成部201により作成された認識仮説グラフの構造・スコアを利用することにより探索仮説を導出(生成)する(ステップS4)。最後に、探索仮説からスコアが最良のパスを認識結果として出力する(ステップS5)。
以下、より具体的な例を提示して本実施形態の動作を説明する。本例では、「ベートーベンが作曲した英雄を聞きたい」という入力音声を音声認識するために、図4に示した記述文法を第2の文法として用いて音声認識処理を行うことを考える。ここでは作曲家名と曲名の2つのキーワードが認識できればタスクが達成されるものとする。キーワード以外の発声を受理するために、文法中にガーベージ(”<Garbage>”と記述)を含めることで、種々の発声バリエーションを吸収する。
まず、音声分析部100は、入力音声を一定の時間(フレーム)ごとに音声特徴量に変換する。そして、変換した音声特徴量を認識仮説グラフ生成部201及び仮説探索部202に入力する。音声分析部100は、例えば、入力された音声波形から短時間周波数分析によって特徴量ベクトルを抽出することにより、特徴量としてのMFCC(Mel-Frequency Ceptstrum Coefficient )を算出してもよい。なお、音声を音声特徴量に変換する方法は、例えば、文献「鹿野他、情報処理学会編,”音声認識システム”,オーム社,2001年,p.1−15」(文献2)などにも開示されている。
次に、認識仮説グラフ生成部201は、音声分析部100から出力される音声特徴量を用いて音声認識処理を行う。認識仮説グラフ生成部201は、第1の文法に従ってフレーム同期連続音声認識処理を行えばよい。第1の文法としては、発声中のガーベージ部分を受理するように作成されたものを用いる。ここでは、任意の音節列を受理する文法を用いた場合について説明するが、これに限らず、あらかじめ定めた音素、音節、単語の連鎖を受理するような文法を用いてもよいし、連鎖に制約を加えたり、連鎖確率を導入したりすることもできる。なお、第1の文法における語句の単位は、第2の文法によらずあらかじめ定めたものを用いてもよいし、第2の文法などに応じて定めたものを用いてもよい。例えば、第2の文法では単語を単位とし、第1の文法では音素を単位とするというように、第2の文法と異なるものを用いることも可能である。
音声認識処理の方法としては、例えば、最も一般的なHMM(Hidden Markov Model ,隠れマルコフモデル)に基づく特徴ベクトル時系列の確率モデルを用いてもよい。認識仮説グラフ生成部201は、例えば、音声認識処理として、このHMMに基づく確率モデルを用い、所定のモデル単位(monophoneやtriphone等)での各要素に対応づけた状態の遷移確率や出力確率を元に尤度を求める。なお、HMMに基づく音声認識手法の具体的方法は、例えば、文献「古井,”音声情報処理”,森北出版,1998年,p.96−114」(文献3)などにも開示されている。ここでは、第1の文法に従った認識になるため、主に音素を単位とした仮説が構築され、それら仮説の構造(認識単位である音素の接続関係)および各接続に係るスコア(尤度)を示す認識仮説グラフが生成される。
また、仮説探索部202は、音声分析部100が変換した音声特徴量を用いて音声認識処理を行う。なお、音声認識処理の方法としては、認識仮説グラフ生成部201と同様でよい。仮説探索部202は、本例では、図4に示す記述文法の例に従って音声認識処理を進めるので、まず、「ベートーベン」「シューベルト」などのキーワード区間に対応した処理を行い、探索仮説を導出する。ここでは、第mフレーム目に「ベートーベン」の「ン」の音に関する探索仮説が単語終端に達したとする。前述のHMMに基づいた手法では、第m+1フレーム目は自己ループにより「ン」の音として仮説スコア(先頭フレームからの累積スコア)が計算されるか、状態遷移により次の<Garbage>区間の先頭の音として仮説スコアが計算されることになる。本発明では、仮説探索部202は、記述文法に従った音声認識処理を行うが、キーワード区間とガーベージ区間で異なる生成手法(サーチ手法)を用いる。
仮説探索部202は、キーワード区間のサーチ手法として、前述したようなHMMに基づくフレーム毎のスコア計算によってノードの接続先パスを探索する手法を用いる。一方、ガーベージ区間のサーチ手法としては、前述したようなHMMに基づき毎フレームスコア計算するような手法ではなく、事前に認識仮説グラフ生成部201によって作成された認識仮説グラフの構造とスコアを利用し、それらを各ガーベージ区間において共通に利用する手法を用いる。つまり、仮説探索部202は、ガーベージ区間に達した各探索仮説に対して、認識仮説グラフの区間をコピーして探索仮説を伸ばす。通常の手法だと各ガーベージ区間でそれぞれにスコア計算・照合処理されていたが、本発明の手法により認識仮説グラフ作成時の1回のスコア計算・照合処理で済むことになり、特に図4のように複数のパスにガーベージ(<Garbage>)が含まれるような場合は大きく処理時間が短縮されることになる。
前述のようにガーベージ区間のサーチ処理を行うには、通常は認識仮説グラフが事前に生成されている必要があるが、認識仮説グラフ生成部201による認識仮説グラフ生成処理と仮説探索部202による探索仮説生成処理とを並行に行い、ガーベージ区間に達した仮説に対して時間的に後で生成された認識仮説グラフからガーベージ区間とする区間を得ることも可能である。
以下では、triphoneを認識単位として用い、認識仮説グラフとしてtriphoneのグラフを出力する例の説明をするが、認識単位としては他にも音節、diphone、monophoneなど通常音声認識処理の単位として使用する可能性のあるものは全て使用可能であり、第1の文法の記述および使用する認識単位に応じて、認識仮説グラフとして生成する情報も音素のグラフや音節のグラフなど種々のものが考えられる。また、第1の文法に従った音声認識処理による認識仮説グラフの生成に関しては、入力音声の時間方向と同方向に処理することで生成する手法と、逆方向に処理することで生成する手法とが考えられる。
認識仮説グラフ生成部201は、例えば、第1の文法に従って入力音声の時間方向と逆方向に連続音声認識を行い、triphoneを単位とした木構造の認識仮説グラフを生成する。生成されるグラフの例を図6に示す。図6は、triphoneを認識単位とした認識仮説グラフの例を示す説明図である。時間的に逆に処理をしているので、グラフの右方向(時間的に遅い)がルートになり、左方向(時間的に早い)がリーフとなる。つまり、図の右方向から認識処理が進んでいるので、ノードAの親ノードがノードBとなる。また、ノードBの親ノードがノードCとなる。図6では、例えば、時刻n+N(ノードB)の次フレームからtriphone「g−a+e」に続くtriphone「N−g+a」の探索が始まり、時刻n+2(ノードA’’),n+1(ノードA’),n(ノードA)などに終端が達したことが示されている。各ノードには、例えば、連続音声認識処理の際の累積スコアが付与される。これは、ルートノードからの累積スコアであってもよいし、親ノードからの累積スコアでも任意の祖先ノードからの累積スコアでも構わない。なお、図6に示す例では、接続構造が木構造で表現される認識仮説グラフの例を示しているが、接続構造の表現形式は、これに限るものではなく、例えば、前述したようなネットワークの形式であったり、トレリスの形式であったりしてもよい。
仮説探索部202は、ある仮説においてキーワード「ベートーベン」の単語終端が第nフレームに達した場合、次フレームの仮説として前述の例ではノードA’に接続し得る。ガーベージ区間をサーチする際、ノードの開始点が決まると、認識仮説グラフ上で自動的に親ノードを順に辿る(A’→B→C→・・・)ことが可能であるので、仮説探索部202では毎フレームスコア計算することなく、即座に何フレームも先に探索仮説を伸ばすことが可能となる。従って、伸ばした先の各ノードを単語終端、つまりガーベージ区間の終端として扱うことが可能である。
また、仮説探索部202は、入力音声の言語において単語終端となりうるノードが限られる場合には、単語終端となりうるノードのみを選択対象とすればよい。例えば、日本語であれば、単語終端となりうるノードを母音と「ん」の音素に対応づけられたノードに限定し、それ以外の音素は単語終端にはならないとして、そのノードを終端とする区間を選択対象から除外してもよい。例えば、図6に示す例では、ノードBを選択対象から除外することができる。また、選択した区間を接続して探索仮説を伸ばす際のスコアとしては、認識仮説グラフの各ノードに付与された累積スコアを用いる。例えば、ノードA’からノードCに探索仮説を伸ばした場合、ノードA’に付与された累積スコアからノードCに付与された累積スコアを引き算することで、ノードA’−ノードC間のスコアが簡単に計算できる。この計算方法はどのノードからの累積スコアを残すかで変わってくるが、いずれも容易である。なお、日本語の場合に母音と「ん」の音素以外の音素に対応づけられたノードを除外する例は、あくまで一例であって、これに限定されるものではなく、他の条件に基づいて除外することも可能である。例えば、単語終端となりうるノードとしてさらに「っ」の音節に対応づけられたノードを含めるような条件づけも考えられる。仮説探索部202は、第2の文法を規定した管理者によって指定される条件に基づいて、単語終端となりうるノードか否かの判断を行えばよい。
また、認識仮説グラフ中からガーベージ区間を決める際には、上述の例ではtriphoneの音素コンテキストを考慮して始端ノードを決めたが、monophoneのようにコンテキストがない場合は、同フレームに存在する全てのノードが始端ノードになりうる。
なお、認識仮説グラフ中のスコアは上述のように累積スコアがノードに付与されたものに限らず、例えば2ノード間を結ぶアークにその区間のスコアが付与されているなど、任意のノード間の経路を辿るときのスコアが算出できるように付与されていればよい。なお、入力音声中のキーワード部分がガーベージに吸収されるのを防ぐため、ガーベージ区間のスコアには一定の、あるいは継続時間長や音節数等に応じたペナルティを付加してもよい。
ここで、ノードCを単語終端として扱った場合、次に接続し得るのは図4に示す記述文法の例に従いキーワード「月光」か「英雄」となるので、再度キーワード区間のサーチとしてその区間からの音声認識処理を行い探索仮説を伸ばしていく。なお、triphoneを用いた説明をしたが、この場合右音素環境を利用することができ、実際にはノードC(triphon「g−a+e」の接続先ノード)の場合「e」から始まる「英雄」のみを処理の対象とすることができる。
最終的に、仮説探索部202によって第2の文法に従って認識(生成)された各仮説の総合スコア(先頭フレームから最終フレームまでの累計スコア)から、入力音声に対して最も尤度が高いキーワード列を導出し、それを認識結果として出力すればよい。
以上のように、ガーベージ区間とキーワード区間を異なる手法でサーチすることにより、種々の発声バリエーションをカバーしながらも、各ガーベージ区間で独立にスコア計算する必要がない(つまり、認識仮説グラフのスコアをそのままコピーすれば良い)ため、高速化が実現できる。
なお、上記説明では、入力音声の時間方向と逆方向に音声認識して認識仮説グラフを作成する方法での適用方法を説明したが、入力音声の時間方向と同方向に連続音声認識して認識仮説グラフを作成する方法であっても、基本的な方法は同様である。ただし、同方向に連続音声認識して認識仮説グラフを生成する場合、ガーベージ区間の単語終端が出力できる個数が異なる。つまり逆方向の場合、木構造の認識仮説グラフの各ノードは親ノードが1つなので、あるノードが仮説の先頭と決まれば、ガーベージ区間に対応する仮説の終端が自動的に1つに決まった。一方、同方向の場合、仮説の先頭のノードが親ノード、終端ノードが子孫ノードとなるので、単語終端としては複数存在することになる。そのような場合には、単語終端となる区間それぞれを、ガーベージ区間に達した仮説に接続して、1つ以上の新たな仮説として構築していけばよい。
なお、時間的に同方向の場合には、記述文法に従った音声認識処理と並行してグラフ生成の処理を行うことができる。また、認識仮説グラフが木構造でなくネットワークのような複雑なグラフになっても、終端ノードとして利用できるノードの数が増えるだけになり、基本的な構成は変わらず利用できる。逆方向に認識仮説グラフ生成処理をする場合には、音声認識処理に先駆けて認識仮説グラフを生成することになるので、音声認識処理する際に認識仮説グラフを先読みの結果として利用可能になり、認識精度の向上や音声認識処理時の探索空間削減による高速化の効果が得られる。一方で、同方向に認識仮説グラフ生成処理をする場合、逆方向の場合と異なり、認識仮説グラフ生成処理と音声認識処理が並列に処理可能になるため高速化の効果が得られる。
図7は、ガーベージ区間のコピーの一例を示す説明図である。ここで、図7(a)は、monophoneを認識単位とした認識仮説グラフの例を示している。また、図7(b)は、探索仮説をグラフ形式で表現した例を示している。認識仮説グラフ生成部201は、入力音声を第1の文法に従って音声認識処理することにより、認識仮説グラフとして、例えば、図7(a)に示すような音素のグラフを生成する。一方、仮説探索部202は、入力音声を第2の文法に従って音声認識処理をすることにより、例えば、図7(b)に示すような主に単語のグラフで表現される探索仮説を生成する。仮説探索部202は、キーワード区間に対しては、第2の文法中に明示的に定義されているベートーベン(beetoobeN)や英雄(eeyuu)などの音素列に従って音声認識処理を行う。一方、明示的に音素列が定義されていないガーベージ区間に対しては、認識仮説グラフ生成部201が生成した認識仮説グラフから適切な区間をコピーして探索仮説の一部として用いる。
図7に示す例では、第2の文法におけるキーワード「ベートーベン」の単語終端に達した仮説(すなわち、ガーベージ区間に達した仮説)に対して、認識仮説グラフにおいて当該仮説の単語終端(すなわち、音素’N’)となったノードに接続しうるノード(ここでは、認識仮説グラフ中で同フレームに位置する音素’N’に続くノード)を始点とするパス(区間)P1−1およびP1−2の構造(およびスコア)を、ガーベージ区間として接続することによって、当該仮説を伸ばしている。また、例えば、キーワード「モーツァルト」の単語終端(すなわち、音素’o’)に達した仮説に対して、認識仮説グラフ中で同フレームに位置する音素’o’に続くノードを始点とするパスP2−1およびP2−2の構造(およびスコア)を、ガーベージ区間として接続することによって当該仮説を伸ばしている。なお、図7に示す例では、1つの始点ノードに対しガーベージ区間として接続する区間を2つ選択する例を示しているが、選択する区間の数は2つに限らない。例えば、単語終端になりうるノードを終端とする区間全てを選択することも可能である。
また、仮説探索部202における音声認識処理の方向についても、入力音声の時間方向と逆方向に行うことも可能である。例えば、認識仮説グラフ生成部201における処理をまず入力音声に同期して順方向(同方向)に行って認識仮説グラフを生成し、音声入力終了後に仮説探索部202が入力音声の時間方向と逆方向に仮説探索処理を行う構成も考えられる。この場合、前述したように認識仮説グラフを先読みの結果として利用可能になり、認識精度の向上や音声認識処理時の探索空間削減による高速化の効果が得られる。
先に説明した通り、第1の文法としては、任意の音節列を受理する文法など、第2の文法によらず事前に定義したものを使用することも可能である。この場合、第1の文法を事前にtriphone等の認識単位のネットワークに展開し、その探索に特化した専用処理をあらかじめ認識仮説グラフ生成部201に導入するなどにより、認識仮説グラフを高速に生成できるようにしてもよい。
以上、この発明の実施形態を図面により詳細に説明したが、具体的な構成はこの実施形態に限るものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもよい。
例えば、上述した実施形態における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは、記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことが可能である。
あるいは、プログラムは、フロッピーディスク(登録商標)、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納(記録)しておくことが可能である。
このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。
また、上記実施形態で説明した処理動作は、時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。
また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。
なお、上記実施形態では、入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1の音声認識処理部(例えば、第1の音声認識処理部11)と、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2の音声認識処理部(例えば、第2の音声認識処理部12)とを備え、第2の音声認識処理部は、ガーベージ区間の構造およびスコアを認識仮説グラフから取得する音声認識システムの構成が示されている。
また、上記実施形態では、第1の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いる音声認識システムの構成が示されている。
また、上記実施形態では、第2の音声認識処理部が、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続する音声認識システムの構成が示されている。
また、上記実施形態では、第2の音声認識処理部が、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択する音声認識システムの構成が示されている。
また、上記実施形態では、第1の音声認識処理部が、入力音声の時間方向と同方向に音声認識処理を行う音声認識システムの構成が示されている。
また、上記実施形態では、第1の音声認識処理部が、入力音声の時間方向と逆方向に音声認識処理を行う音声認識システムの構成が示されている。
また、上記実施形態では、第2の音声認識処理部が、入力音声の時間方向と逆方向に音声認識処理を行う音声認識システムの構成が示されている。
また、上記実施形態では、第2の音声認識処理部が、入力音声の時間方向と同方向に音声認識処理を行う音声認識システムの構成が示されている。
本発明は、ガーベージモデルを含む文法に従って入力音声を認識する場合に、好適に適用可能である。
この出願は、2007年12月25日に出願された日本出願特願2007−332028を基礎とする優先権を主張し、その開示を全てここに取り込む。
本発明による音声認識システムの構成例を示すブロック図である。 本発明による音声認識システムのより具体的な構成例を示すブロック図である。 第1の文法の定義例を示す説明図である。 第2の文法の定義例を示す説明図である。 音声認識システムの動作例を示すフローチャートである。 triphoneを単位とした認識仮説グラフの例を示す説明図である。 ガーベージ区間のコピーの一例を示す説明図である。
符号の説明
11 第1の音声認識処理部
12 第2の音声認識処理部
100 音声分析部
200 音声認識部
201 認識仮説グラフ生成部
202 仮説探索部
211 第1の文法記憶部
212 第2の文法記憶部

Claims (24)

  1. 入力音声に含まれるキーワードを認識する音声認識システムであって、
    入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1の音声認識処理部と、
    入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2の音声認識処理部とを備え、
    前記第2の音声認識処理部は、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識システム。
  2. 第1の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項1に記載の音声認識システム。
  3. 第2の音声認識処理部は、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項1または請求項2に記載の音声認識システム。
  4. 第2の音声認識処理部は、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項3に記載の音声認識システム。
  5. 第1の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項1から請求項4のうちのいずれか1項に記載の音声認識システム。
  6. 第1の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項1から請求項4のうちのいずれか1項に記載の音声認識システム。
  7. 第2の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
  8. 第2の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
  9. 入力音声に含まれるキーワードを認識するための音声認識方法であって、
    入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1のステップと、
    入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2のステップとを含み、
    前記第2のステップで、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識方法。
  10. 第1の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項9に記載の音声認識方法。
  11. 第2のステップで、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項9または請求項10に記載の音声認識方法。
  12. 第2のステップで、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項11に記載の音声認識方法。
  13. 第1のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項9から請求項12のうちのいずれか1項に記載の音声認識方法。
  14. 第1のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項9から請求項12のうちのいずれか1項に記載の音声認識方法。
  15. 第2のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項9から請求項14のうちのいずれか1項に記載の音声認識方法。
  16. 第2のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項9から請求項14のうちのいずれか1項に記載の音声認識方法。
  17. 入力音声に含まれるキーワードを認識するための音声認識用プログラムであって、
    コンピュータに、
    入力音声の音声特徴量に基づき、前記入力音声を第1の文法に従って認識する第1の音声認識処理、および
    入力音声の音声特徴量に基づき、前記入力音声を第2の文法に従って認識する第2の音声認識処理を実行させ、
    前記第1の音声認識処理で、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成させ、
    前記第2の音声認識処理で、前記第2の文法に従って生成される各仮説のガーベージ区間の構造およびスコアを、前記認識仮説グラフから取得させることを特徴とする音声認識用プログラム。
  18. コンピュータに、
    第1の音声認識処理で、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された第1の文法に従って入力音声を認識させることを特徴とする請求項17に記載の音声認識用プログラム。
  19. コンピュータに、
    第2の音声認識処理で、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択させ、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続させることを特徴とする請求項17または請求項18に記載の音声認識用プログラム。
  20. コンピュータに、
    第2の音声認識処理で、ガーベージ区間に達した仮説に接続する音声区間として、認識仮説グラフから入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択させることを特徴とする請求項19に記載の音声認識用プログラム。
  21. コンピュータに、
    第1の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項17から請求項20のうちのいずれか1項に記載の音声認識用プログラム。
  22. コンピュータに、
    第1の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項17から請求項20のうちのいずれか1項に記載の音声認識用プログラム。
  23. コンピュータに、
    第2の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項17から請求項22のうちのいずれか1項に記載の音声認識用プログラム。
  24. コンピュータに、
    第2の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項17から請求項22のうちのいずれか1項に記載の音声認識用プログラム。
JP2009547096A 2007-12-25 2008-12-22 音声認識システム、音声認識方法、および音声認識用プログラム Active JP5310563B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009547096A JP5310563B2 (ja) 2007-12-25 2008-12-22 音声認識システム、音声認識方法、および音声認識用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007332028 2007-12-25
JP2007332028 2007-12-25
PCT/JP2008/073282 WO2009081895A1 (ja) 2007-12-25 2008-12-22 音声認識システム、音声認識方法、および音声認識用プログラム
JP2009547096A JP5310563B2 (ja) 2007-12-25 2008-12-22 音声認識システム、音声認識方法、および音声認識用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009081895A1 JPWO2009081895A1 (ja) 2011-05-06
JP5310563B2 true JP5310563B2 (ja) 2013-10-09

Family

ID=40801196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009547096A Active JP5310563B2 (ja) 2007-12-25 2008-12-22 音声認識システム、音声認識方法、および音声認識用プログラム

Country Status (3)

Country Link
US (1) US8639507B2 (ja)
JP (1) JP5310563B2 (ja)
WO (1) WO2009081895A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
DK2994908T3 (da) * 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
CN105493180B (zh) * 2013-08-26 2019-08-30 三星电子株式会社 用于语音识别的电子装置和方法
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10360904B2 (en) 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN107293298B (zh) * 2016-04-05 2021-02-19 富泰华工业(深圳)有限公司 语音控制***及方法
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
CN108305617B (zh) * 2018-01-31 2020-09-08 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
JP6462936B1 (ja) * 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
EP3598444B1 (en) * 2018-07-16 2023-12-27 Tata Consultancy Services Limited Method and system for muting classified information from an audio

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2002278584A (ja) * 2001-03-15 2002-09-27 Mitsubishi Electric Corp 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003140685A (ja) * 2001-10-30 2003-05-16 Nippon Hoso Kyokai <Nhk> 連続音声認識装置およびそのプログラム
JP2004184716A (ja) * 2002-12-04 2004-07-02 Nissan Motor Co Ltd 音声認識装置
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JP3039634B2 (ja) 1997-06-16 2000-05-08 日本電気株式会社 音声認識装置
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2002278584A (ja) * 2001-03-15 2002-09-27 Mitsubishi Electric Corp 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003140685A (ja) * 2001-10-30 2003-05-16 Nippon Hoso Kyokai <Nhk> 連続音声認識装置およびそのプログラム
JP2004184716A (ja) * 2002-12-04 2004-07-02 Nissan Motor Co Ltd 音声認識装置
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法

Also Published As

Publication number Publication date
WO2009081895A1 (ja) 2009-07-02
US8639507B2 (en) 2014-01-28
JPWO2009081895A1 (ja) 2011-05-06
US20110131043A1 (en) 2011-06-02

Similar Documents

Publication Publication Date Title
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
JP6727607B2 (ja) 音声認識装置及びコンピュータプログラム
US8914286B1 (en) Speech recognition with hierarchical networks
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
CN112435654A (zh) 通过帧***对语音数据进行数据增强
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2013125144A (ja) 音声認識装置およびそのプログラム
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2009116075A (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP3440840B2 (ja) 音声認識方法及びその装置
JP2004294542A (ja) 音声認識装置及びそのプログラム
KR101068120B1 (ko) 다중 탐색 기반의 음성 인식 장치 및 그 방법
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
JP6023543B2 (ja) 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130617

R150 Certificate of patent or registration of utility model

Ref document number: 5310563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150