JP6585022B2

JP6585022B2 - 音声認識装置、音声認識方法およびプログラム

Info

Publication number: JP6585022B2
Application number: JP2016220855A
Authority: JP
Inventors: 学永尾; 浩司藤村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2019-10-02
Anticipated expiration: 2036-11-11
Also published as: CN108074562A; CN108074562B; JP2018077440A; US10803858B2; US20180137863A1

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。

フィラーおよび言い淀み等を、言語情報と同時に評価することができる音響モデルが知られている。このような音響モデルを用いた音声認識システムでは、フィラーおよび言い淀み等を除去して音声認識することができるので、認識精度を高くすることができる。

しかし、フィラーおよび言い淀み等を除去した場合、認識結果を用いるアプリケーションは、フィラーまたは言い淀み等が付加されていた単語を検出することができない。従って、音声認識結果を用いるアプリケーションは、フィラーおよび言い淀み等を用いた情報処理をすることができなかった。

特開２０１５−１４３８００号公報

那須悠、藤村浩司、「ＬＳＴＭ−ＣＴＭを用いた音響イベント検出・除去音声認識システムの検討」、電子情報通信学会、信学技報Ｖｏｌ．１１６Ｎｏ．２０８、ＰＲＭＵ２０１６−６９、ｐ．１２１−１２６、２０１６年９月 Hiroya Fujisaki， "Computing PROSODY：Computational Models for Processing Spontaneous Speech"， ISBN-13:978-1461274766， Springer New York，1997，PP.28-29 Alex Graves and Navdeep Jaitly， "Towards end-to-end speech recognition with recurrent neural networks"， in Proceedings of the 31st International Conference on Machine Learning （ICML-14）， 2014， pp.1764−1772 Yichuan Tang， "Deep Learning using Linear Support Vector Machines"， arXiv:1306.0239v4 [cs.LG] 21， Feb 2015

発明が解決しようとする課題は、音声信号に含まれる言語情報と、言語情報に付随するパラ言語情報および／または非言語情報とを認識することにある。

実施形態に係る音声認識装置は、算出部と、探索部と、付加記号取得部と、出力部とを備える。前記算出部は、音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する。前記探索部は、前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する。前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得する。前記出力部は、前記出力記号と、取得した前記付加記号とを対応付けて出力する。

実施形態に係る音声認識装置の構成を示す図。スコア算出部の構成の一例を示す図。経路探索部の構成を示す図。経路探索部の処理フローを示す図。アルファベットの入力記号列の一例を示す図。図５の入力記号列から連続する認識対象記号を削除する処理を示す図。図６の入力記号列から認識対象記号以外を削除する処理を示す図。アルファベットの出力記号を生成する処理を示す図。アルファベットの入力記号列における出力記号に対応する範囲を示す図。アルファベットの出力記号および付加記号の一例を示す図。日本語の入力記号列の一例を示す図。図１１の入力記号列から連続する認識対象記号を削除する処理を示す図。日本語の入力記号列から認識対象記号以外を削除する処理を示す図。日本語の出力記号を生成する処理を示す図。日本語の入力記号列における出力記号に対応する範囲の一例を示す図。日本語の出力記号および付加記号の一例を示す図。音声認識装置による処理を表す疑似コードの一例を示す図。疑似コードにより認識されるアルファベットの記号の一例を示す図。疑似コードにより認識される日本語の記号の一例を示す図。第２変形例に係る音声認識装置による処理を表す疑似コードを示す図。第４変形例に係る音声認識装置による処理を表す疑似コードを示す図。音声認識装置のハードウェアブロック図。

以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置１０は、音声信号に含まれる言語情報を認識し、認識して得られた言語情報を表す出力記号を出力する。これとともに、音声認識装置１０は、言語情報に付随して音声信号に含まれるパラ言語情報および／または非言語情報を認識し、認識したパラ言語情報および／または非言語情報を表す付加記号を、出力記号に対応させて出力する。

（定義）
まず、実施の形態で用いる用語について説明する。

音響情報とは、音声信号に含まれる情報である。音響情報には、言語情報、パラ言語情報、非言語情報および無音情報が含まれる。

言語情報は、音響情報の一つであり、話し手が言語を発声することにより音声信号に付加した、文字により表すことができる情報である。例えば、言語情報は、音素、音節、モーラ単位でまとめた音素、サブワード、文字、単語等である。日本語の場合、言語情報は、仮名であってよい。また、英語の場合、言語情報は、発音記号であってもよいし、アルファベットであってもよい。日本語の促音のように、言語情報になりうる無音はここに含まれる。

パラ言語情報は、音響情報の一つであり、話し手が発声することにより音声信号に付加した、言語情報からは識別できない情報である。パラ言語情報は、例えば、話し手が考え中であることを示すフィラー、および、イントネーションの方向により表される言語情報が相手への質問であるのか等を識別するための情報である。例えば、「そうですか」という言語情報の後半のイントネーションが高くなっている場合、その言語情報は質問であることを表す。また、「そうですか」という言語情報の後半のイントネーションが低くなっている場合には、その言語情報は肯定を示す。従って、質問を表すパラ言語情報は、例えば言語情報の後半のイントネーションが高くなっていることを示す。なお、パラ言語情報は、フィラーおよび質問に限らず、他の情報をさらに表してもよい。

非言語情報は、音響情報の一つであり、音声信号に含まれる話し手の特徴を表す情報である。例えば、非言語情報は、話し手の性別、話し手の年齢、話し手の身体的特徴、話し手の個性、話し手の感情、言い淀み、語断片、および、言い直し等の情報である。なお、非言語情報は、話し手の特徴を表す情報であれば、例えば話し手がコントロールできないような他の情報および話し手の状態等を表す情報であってもよい。

無音情報は、音響情報の一つであり、音声信号に言語情報、パラ言語情報、非言語情報の何れも含まれない状態（例えば無音および雑音）を表す情報である。

入力記号は、音響情報を表す記号である。記号集合は、入力記号を要素とする集合である。記号集合は、予め定義されている。記号集合は、入力記号として、少なくとも１つの認識対象記号と、少なくとも１つの付加記号と、対象外記号とを含む。

認識対象記号は、入力記号の一つであり、認識対象の言語情報を表す記号である。記号集合は、音声信号に含むことが可能な全ての言語情報に対応する文字（例えば、全ての発音記号）を、認識対象記号として含んでよい。また、音声認識装置１０が特定の単語のみを認識する場合（例えば「こんにちは」のみを認識する場合）、特定の単語を認識するために必要な言語情報に対応する文字を、認識対象記号として含んでもよい。無音情報を認識する場合には、認識対象記号の一つとして、無音情報を表す無音記号を認識対象記号に含んでもよい。

付加記号は、入力記号の一つであり、パラ言語情報および／または非言語情報を表す記号である。記号集合は、音声信号に含むことが可能な全てのパラ言語情報および非言語情報に対応する文字を、付加記号として含んでよい。また、音声認識装置１０が特定のパラ言語情報または非言語情報のみを認識する場合（例えばフィラーのみを認識する場合）、特定のパラ言語情報または非言語情報に対応する文字を、付加記号として含んでもよい。

対象外記号は、入力記号の一つであり、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。つまり、対象外記号は、音声認識装置１０が認識対象記号または付加記号をまだ認識できないことを表す記号である。より具体的には、対象外記号は、後述するスコア算出部２６がどの認識対象記号または付加記号のスコアを良くするか決める処理を保留していることを表す記号である。対象外記号の音響スコアは、処理を保留しているとき良くなり、処理を保留していないとき悪くなる。従って、後述するフレーム１つ分の音声を入力したときに計算される対象外記号のスコアが良いとき、その音声は、無音情報、認識対象の言語情報、認識対象外の言語情報、認識対象のパラ言語情報、認識対象外のパラ言語情報、認識対象の非言語情報、認識対象外の非言語情報のうちの、一部または全部に対応することがある。

入力記号列は、音声信号を認識して得られる尤もらしい入力記号の系列である。音声認識装置１０は、１つの音声信号に対して、１個の入力記号列を生成してよい。また、音声認識装置１０は、１つの音声信号に対して、Ｍ個（Ｍは２以上の整数）の入力記号列を生成してもよい。

出力記号は、音声信号の認識結果を表す。出力記号は、単語、文字、サブワード単語列等であってよい。出力記号は、入力記号列に含まれる認識対象記号に基づき生成される。音声認識装置１０は、１個の入力記号列から時系列に並んだ複数の出力記号を生成してもよい。時系列に並んだ複数の出力記号を、出力記号列と呼ぶ場合もある。

（実施形態）
図１は、実施形態に係る音声認識装置１０の構成を示す図である。音声認識装置１０は、特徴抽出部２２と、音響モデル記憶部２４と、スコア算出部２６と、探索モデル記憶部２８と、経路探索部３０とを備える。

特徴抽出部２２は、認識対象の音声信号を取得する。特徴抽出部２２は、例えば集音装置により検出された音声信号を取得する。

特徴抽出部２２は、フレーム毎に音声信号を解析して、フレーム毎に特徴ベクトルを算出する。特徴ベクトルは、音声の特徴を表す複数種類の特徴量を含む。フレームは、１つの特徴ベクトルを算出するための音声信号の区間である。フレームは、中心時刻が所定間隔毎にずれるように設定される。また、複数のフレームは、例えば互いに同一の時間長である。それぞれのフレームは、他のフレームと一部の区間が重なってもよい。

音響モデル記憶部２４は、音響モデルを記憶する。音響モデルは、音声信号をパターン認識するためにスコア算出部２６により用いられるデータである。音響モデルは、音声認識装置１０による音声信号の認識に先だって、学習装置により適切に訓練されている。音響モデル記憶部２４は、例えばネットワーク上のサーバにより実現されてもよい。

スコア算出部２６は、特徴抽出部２２によりフレーム毎に算出された特徴ベクトルに基づき、音響モデル記憶部２４に記憶された音響モデルを用いて、複数のスコアベクトルが並んだスコアベクトル列を算出する。それぞれのスコアベクトルは、予め定められた記号集合の要素である入力記号毎の音響スコアを含む。

スコアベクトルに含まれるそれぞれの音響スコアは、何れかの入力記号に対応している。音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている尤もらしさを表す。なお、音声信号に含まれている音響情報と、入力記号が表す音響情報とは、フレーム同期（時間同期）していなくてよい。すなわち、入力記号が表す音響情報は、音声信号に含まれている音響情報から遅延してもよい。例えば、１５番目のフレームの特徴ベクトルの入力によってスコア算出部２６が計算するスコアベクトルに含まれる音響スコアのうち、最も良い音響スコアが対応する入力記号が表す音響情報が、１〜１０番目のフレームに含まれていてもよい。

スコアベクトルは、含まれる全ての音響スコアを合成した場合、特定値（例えば１）となるように正規化されている。例えば、音響スコアが確率または尤度である場合、スコアベクトルは、含まれる全ての音響スコアを加算すると、特定値となるように正規化されている。また、音響スコアが対数確率または対数尤度である場合、スコアベクトルは、含まれるそれぞれの音響スコアに対して指数演算したのち、全ての音響スコアを加算すると、特定値となるように正規化されている。

例えば、音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている確率、尤度、対数尤度または対数確率であってよい。音響スコアは、値が大きい程、良い（すなわち、尤もらしい）ことを示してもよいし、値が小さい程、良いことを示してもよい。例えば、音響スコアは、確率、尤度、対数確率または対数尤度である場合には、値が大きい程、良いことを示す。また、例えば、音響スコアは、符号を反転した対数確率または符号を反転した対数尤度である場合には、値が小さい程、良いことを示す。また、音響スコアは、音声信号（特徴ベクトル）と音響モデルとの何らかの距離を音響スコアとする場合には、値が小さい程、良いことを示す。

スコアベクトル列は、複数のスコアベクトルが並んだ情報である。スコア算出部２６は、算出したスコアベクトル列を経路探索部３０に与える。なお、特徴抽出部２２およびスコア算出部２６は、音声信号に基づきスコアベクトル列を算出する算出部に対応する。

探索モデル記憶部２８は、探索モデルを記憶する。探索モデルは、スコアベクトル列から入力記号列および出力記号列を生成するために経路探索部３０により用いられるデータである。探索モデルは、音声認識装置１０による音声信号の認識に先だって、学習装置により適切に訓練されている。探索モデル記憶部２８は、例えばネットワーク上のサーバにより実現されてもよい。

経路探索部３０は、スコア算出部２６により算出されたスコアベクトル列における尤もらしい音響スコアを辿る入力記号の経路を探索することにより、入力記号列を生成する。さらに、経路探索部３０は、入力記号列に含まれる入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、音声信号の認識結果を表す出力記号を生成する。経路探索部３０は、探索モデル記憶部２８に記憶された探索モデルを用いて入力記号列および出力記号を生成してよい。入力記号の経路とは、スコアベクトルごとに選択した入力記号の系列である。なお、記号集合の要素の数をｘ、スコアベクトル列の長さをｙとすると、入力記号の経路としてありうる組み合わせの数はｘ^ｙ個となる。経路探索部３０は、入力記号の経路を入力記号の系列としてそのまま記憶してもよいし、探索モデルを参照することで間接的に記憶してもよい。

さらに、経路探索部３０は、入力記号列における出力記号に対応する範囲に含まれる入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得する。そして、経路探索部３０は、出力記号と、取得した付加記号とを対応付けて出力する。

図２は、スコア算出部２６の構成の一例を示す図である。スコア算出部２６は、例えば図２に示すような、コネクショニスト時系列分類法（ＣＴＣ）を適用した再帰型ニューラルネットワーク（ＲＮＮ）であってよい。

例えば、スコア算出部２６は、入力層４２と、少なくとも１つの中間層４４と、出力層４６とを有する。入力層４２、中間層４４および出力層４６のそれぞれは、少なくとも１つの信号の取得処理、取得した信号に対する演算処理、および、少なくとも１つの信号の出力処理を実行する。

入力層４２と、少なくとも１つの中間層４４と、出力層４６とは、直列に接続される。入力層４２は、特徴ベクトルを受け取り、演算処理を実行する。そして、入力層４２は、演算結果として得られた少なくとも１つの信号を、次段の中間層４４へ出力する。また、それぞれの中間層４４は、前段から受け取った少なくとも１つの信号に対して演算処理を実行する。そして、それぞれの中間層４４は、演算結果として得られた少なくとも１つの信号を、次段の中間層４４または出力層４６へと出力する。さらに、それぞれの中間層４４は、自身への信号を帰還させる帰還路を有してもよい。

出力層４６は、前段の中間層４４から受け取った信号に対して演算処理を実行する。そして、出力層４６は、演算結果としてスコアベクトルを出力する。出力層４６は、入力記号の数分の信号を出力する。出力層４６は、出力する信号が、入力記号のそれぞれに対応付けられている。例えば、出力層４６は、ソフトマックス関数による演算を実行する。

また、それぞれの層が演算処理に用いるパラメータは、音響モデル記憶部２４に記憶された音響モデルから与えられる。音響モデルは、特徴ベクトルに基づき、予め定められた記号集合に含まれるそれぞれの入力記号の音響スコアを出力するように、予め学習装置により訓練されている。すなわち、音響モデルは、認識対象の言語情報を表す少なくとも１つの認識対象記号、パラ言語情報および／または非言語情報を表す少なくとも１つの付加記号、および、認識対象外の音響スコアを表す対象外記号のそれぞれの音響スコアを出力するように、学習装置により訓練されている。

これにより、スコア算出部２６は、記号集合に含まれるそれぞれの入力記号についての音響スコアを同時に出力することができる。つまり、スコア算出部２６は、認識対象記号、付加記号および対象外記号のそれぞれについての音響スコアを同時に出力することができる。

なお、スコア算出部２６は、ＲＮＮに代えて、ＲＮＮを拡張した長・短期記憶（ＬｏｎｇＳｈｏｒ−ＴｅｒｍＭｅｍｏｒｙ）と呼ばれるネットワークであってもよい。また、出力層４６は、ソフトマックス関数に代えて、サポートベクタマシーンを用いてもよい（例えば、非特許文献４）。

図３は、経路探索部３０の構成を示す図である。経路探索部３０は、探索部５２と、入力記号取得部５４と、出力記号取得部５６と、対応関係取得部５８と、入力記号記憶部６０と、出力記号記憶部６２と、対応関係記憶部６４と、付加記号取得部６６と、出力部６８とを有する。

探索部５２は、スコア算出部２６により算出されたスコアベクトル列における尤もらしい音響スコアを辿る入力記号の経路を探索することにより、入力記号列を生成する。さらに、探索部５２は、入力記号列に含まれる入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、音声信号の認識結果を表す出力記号を生成する。探索部５２は、探索モデル記憶部２８に記憶された探索モデルを用いて入力記号列を生成してよい。また、探索部５２は、探索モデルを用いて出力記号を生成してもよい。

また、探索部５２は、入力記号列を生成した後に、入力記号列に基づき出力記号を生成してもよい。また、探索部５２は、入力記号列および出力記号を一括して生成してもよい。また、探索部５２は、１個の入力記号列を生成してもよいし、Ｍ個の入力記号列を生成してもよい。また、探索部５２は、それぞれの入力記号列から、１つの出力記号を生成してもよいし、時系列に並んだ複数の出力記号を生成してもよい。

探索モデルは、探索部５２に対して探索のために用いるデータを与える。例えば、探索部５２が用いる探索モデルは、重み付き有限状態トランスデューサ（ＷＦＳＴ）である。この場合、探索部５２は、ビタビアルゴリズムにより音響スコアの累積値が最良となるような入力記号の経路を探索する。また、探索部５２が用いる探索モデルは、ＲＮＮまたはＲＮＮから派生したネットワークであってもよい。このような探索モデルを用いることによって、探索部５２は、入力記号の経路として探索できる経路に制限を設けたり、探索時に優先する経路を指定したり、音響スコアが悪くても優先的に生成する入力記号列を指定することができる。さらに、探索モデルは、入力記号列と出力記号との対応関係を表す情報を含む。探索モデルがＷＦＳＴの場合、探索部５２は、入力記号の経路をＷＦＳＴ上の経路、すなわち、ＷＦＳＴの状態と遷移の組み合わせによって記憶してもよい。

入力記号取得部５４は、探索部５２が探索により生成した入力記号列を取得する。入力記号取得部５４は、探索部５２がＭ個の入力記号列を生成した場合には、Ｍ個の入力記号列を取得する。

出力記号取得部５６は、探索部５２が探索により得た出力記号を取得する。出力記号取得部５６は、探索部５２が１個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、複数の出力記号を取得する。また、出力記号取得部５６は、探索部５２が探索によりＭ個の入力記号列を生成した場合には、それぞれの入力記号列について出力記号を取得する。

対応関係取得部５８は、探索部５２が探索により得た入力記号列および出力記号に基づき、入力記号列における出力記号に対応する範囲を示す対応関係情報を取得する。対応関係取得部５８は、探索部５２が１個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、それぞれの出力記号について、対応関係情報を取得する。また、出力記号取得部５６は、探索部５２がＭ個の入力記号列を生成した場合には、それぞれの入力記号列について対応関係情報を取得する。

入力記号記憶部６０は、入力記号取得部５４が取得した入力記号列を記憶する。出力記号記憶部６２は、出力記号取得部５６が取得した出力記号を記憶する。対応関係記憶部６４は、対応関係取得部５８が取得した対応関係情報を記憶する。

付加記号取得部６６は、出力記号記憶部６２に記憶された出力記号および対応関係記憶部６４に記憶された対応関係情報を読み出す。そして、付加記号取得部６６は、入力記号記憶部６０に記憶された入力記号列における出力記号に対応する範囲に含まれる入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得する。また、付加記号取得部６６は、１個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、それぞれの出力記号について、付加記号を取得する。また、付加記号取得部６６は、探索部５２がＭ個の入力記号列を生成した場合には、それぞれの入力記号列に含まれる出力記号について、付加記号を取得する。

出力部６８は、出力記号と、取得した付加記号とを対応付けて出力する。出力部６８は、探索部５２が時系列に並んだ複数の出力記号を生成した場合には、複数の出力記号の時系列が識別可能なように出力するとともに、それぞれの出力記号に対応付けて、対応する付加記号を出力する。また、探索部５２がＭ個の入力記号列を生成した場合には、それぞれの入力記号列に含まれる出力記号について、出力記号と、取得した付加記号とを対応付けて出力する。

図４は、経路探索部３０の処理フローを示す図である。経路探索部３０は、最良の１個の入力記号列を生成する場合、図４に示すような手順で処理を実行する。

まず、Ｓ１１において、経路探索部３０は、スコアベクトル列を取得する。続いて、Ｓ１２において、経路探索部３０は、スコアベクトル列に基づき、尤もらしい入力記号の経路を探索して、１個の入力記号列を生成する。例えば、経路探索部３０は、フレーム毎に音響スコアが最も良い入力記号を選択して連結することにより、入力記号列を生成してもよい。また、例えば、経路探索部３０は、ＷＦＳＴ等の探索モデルを用いてビタビアルゴリズム等により最良の経路を探索して、入力記号列を生成してもよい。

続いて、Ｓ１３において、経路探索部３０は、入力記号列の中で、複数の認識対象記号が連続する部分を検出し、連続する複数の認識対象記号のうち何れか１つを残し、他を削除する。これにより、経路探索部３０は、同一の言語情報が重複して認識されてしまうことを回避することができる。

例えば、経路探索部３０は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の１つを残し、２番目以降を削除する。これに代えて、経路探索部３０は、入力記号列の中で、連続する複数の認識対象記号のうち、最後の１つを残し、他を削除してもよい。

続いて、Ｓ１４において、経路探索部３０は、Ｓ１３の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。すなわち、経路探索部３０は、入力記号列から、付加記号および対象外記号を削除する。

続いて、Ｓ１５において、経路探索部３０は、Ｓ１３およびＳ１４の処理をした後の入力記号列から、出力記号を生成する。すなわち、経路探索部３０は、認識対象記号のみを含む入力記号列から、出力記号を生成する。

例えば、経路探索部３０は、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、入力記号列と出力記号との対応表である探索モデルは、発音記号の列と単語とを対応付けた発音辞書であってよい。また、経路探索部３０は、１個の入力記号列から時系列に複数の出力記号を生成してもよい。

なお、経路探索部３０は、Ｓ１２、Ｓ１３、Ｓ１４およびＳ１５の処理をそれぞれ独立に実行してもよい。また、経路探索部３０は、探索モデルがＷＦＳＴである場合、Ｓ１２、Ｓ１３、Ｓ１４およびＳ１５の処理を一括して処理してよい。この場合、経路探索部３０は、入力記号列および出力記号を後から参照できるように探索結果を記憶しておく。

続いて、Ｓ１６において、経路探索部３０は、それぞれの出力記号について、対応関係情報を生成する。対応関係情報は、入力記号列における、その出力記号に対応する範囲を示す。

ここで、入力記号列における出力記号に対応する範囲は、出力記号の生成の元となる認識対象記号を全て含む連続した範囲である。さらに、入力記号列における出力記号に対応する範囲は、前後の他の出力記号に対応する範囲と境界が隣接する範囲であってもよい。

なお、経路探索部３０は、出力記号と入力記号列との対応関係を解析して、範囲の境界を検出する。これに代えて、経路探索部３０は、探索モデルまたは他の情報に基づき、境界を検出してもよい。

続いて、Ｓ１７において、経路探索部３０は、それぞれの出力記号について、入力記号列における対応関係情報に示された範囲に含まれる入力記号の中から、付加記号を取得する。続いて、Ｓ１８において、経路探索部３０は、出力記号と、取得した付加記号とを対応付けて出力する。

なお、経路探索部３０は、Ｍ個の入力記号列を生成してもよい。この場合、経路探索部３０は、Ｓ１２〜Ｓ１８の処理をそれぞれの入力記号列について実行する。また、探索モデルがＷＦＳＴの場合、経路探索部３０は、Ｓ１２から１５までの処理を一括して実行することにより、Ｍ個の入力記号列を生成することができる。

図５、図６、図７、図８、図９および図１０は、アルファベットを認識する場合における経路探索部３０の処理内容を説明するための図である。経路探索部３０は、図４の処理フローに従ってアルファベットを認識する場合には、次のような処理を実行する。

なお、この場合、音響モデルは、記号集合に含まれるアルファベットの入力記号を認識するように学習装置により予め訓練されている。また、認識対象記号は、音素記号である場合が多いが、ここでは、アルファベットを認識するように音響モデルが学習されている。このような学習方法は、例えば、非特許文献３に記載されている。

例えば、Ｓ１２において、経路探索部３０は、図５に示すような、入力記号列を生成する。ここで、例えば、予め定められた記号集合が下記の通りであったとする。
記号集合（入力記号の集合）＝｛ε，ａ，ｄ，ｇ，ｈ，ｏ，＜ｆ＞，＜ｇ＞，＜ｑ＞｝

また、入力記号のうち、認識対象記号が下記の通りであったとする。
認識対象記号の集合＝｛ａ，ｄ，ｇ，ｈ，ｏ｝

また、入力記号のうち、付加記号が下記のとおりであったとする。なお、＜ｆ＞は、パラ言語情報の一つであるフィラーを表す記号である。また、＜ｇ＞は、非言語情報の一つである語断片を表す記号である。＜ｑ＞は、パラ言語情報の一つである質問を表す記号である。
付加記号の集合＝｛＜ｆ＞，＜ｇ＞，＜ｑ＞｝

また、入力記号のうち、対象外記号が下記の通りであったとする。なお、εは、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。
対象外記号＝ε

Ｓ１３において、経路探索部３０は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の１つを残し、２番目以降を削除する。例えば、図６の例においては、３番目の入力記号および４番目の入力記号が共に“ａ”である。また、１３番目の入力記号および１４番目の入力記号が共に“ｇ”である。そこで、Ｓ１３において、経路探索部３０は、３番目の入力記号を残し、４番目の入力記号を削除する。また、経路探索部３０は、１３番目の入力記号を残し、１４番目の入力記号を削除する。

続いて、Ｓ１４において、経路探索部３０は、Ｓ１３の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。例えば、図７の例に示すように、経路探索部３０は、入力記号列から、“＜ｆ＞”、“＜ｇ＞”、“＜ｑ＞”および“ε”を削除し、“ａ”，“ｄ”，“ｇ”，“ｈ”，“ｏ”を残存させる。

続いて、Ｓ１５において、経路探索部３０は、Ｓ１３およびＳ１４の処理をした後の入力記号列から、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、図８に示すように、経路探索部３０は、入力記号列である“ａｈｇｇｏｏｄ”から、３つの出力記号“ｈ_１＝ａｈ”、“ｈ_２＝ｇ”および“ｈ_３＝ｇｏｏｄ”を生成する。なお、出力記号“ｈ”の下付の添え字は、出力記号の発生順序を表す。

続いて、Ｓ１６において、経路探索部３０は、それぞれの出力記号について、対応関係情報を生成する。ここで、入力記号列における出力記号に対応する範囲は、出力記号の生成の元となる認識対象記号を全て含む連続した範囲である。さらに、入力記号列における出力記号に対応する範囲は、前後の他の出力記号に対応する範囲と境界が隣接する範囲であってもよい。

例えば、図９に示す例において、１番目の出力記号“ｈ_１＝ａｈ”について、入力記号列の対応する範囲は、１番目の入力記号から１２番目の入力記号までである。また、２番目の出力記号“ｈ_２＝ｇ”について、入力記号列の対応する範囲は、１３番目の入力記号から１８番目の入力記号までである。また、３番目の出力記号“ｈ_３＝ｇｏｏｄ”について、入力記号列の対応する範囲は、１９番目の入力記号から３２番目の入力記号までである。

図９の例において、範囲の先頭側の境界は、１番目の出力記号の場合、入力記号列の先頭であり、２番目以降の出力記号の場合、その出力記号に対応する先頭の認識対象記号の直前である。また、図９の例において、範囲の末尾側の境界は、最後の出力記号の場合、入力記号列の最後であり、最後以外の出力記号の場合、次の出力記号の先頭側の境界と同一である。これにより、経路探索部３０は、入力記号列における出力記号に対応する範囲を、前後の他の出力記号に対応する範囲と境界が隣接する範囲とすることができる。

なお、経路探索部３０は、Ｓ１３において連続する複数の認識対象記号のうち先頭の１つを残し、２番目以降を削除する場合には、この図９のように境界を定める。しかし、Ｓ１３において連続する複数の認識対象記号のうち、最後の１つを残し、他を削除する場合には、範囲の末尾側の境界は、最後の出力記号の場合、入力記号列の最後であり、最後以外の出力記号の場合、その出力記号に対応する最後の認識対象記号の直後である。そして、範囲の先頭側の境界は、１番目の出力記号の場合、入力記号列の先頭であり、２番目以降の出力記号の場合、直前の出力記号の末尾側の境界と同一である。

続いて、Ｓ１７において、経路探索部３０は、それぞれの出力記号について、入力記号列における対応関係情報に示された範囲に含まれる入力記号の中から、付加記号を取得する。

例えば、図１０の例の場合、１番目の出力記号“ｈ_１＝ａｈ”における入力記号列の対応する範囲（１番目から１２番目）には、“＜ｆ＞”が含まれる。従って、経路探索部３０は、１番目の出力記号“ｈ_１＝ａｈ”に対応させて“＜ｆ＞”を取得する。また、例えば、２番目の出力記号“ｈ_２＝ｇ”における入力記号列の対応する範囲（１３番目から１８番目）には、“＜ｇ＞”が含まれる。従って、経路探索部３０は、２番目の出力記号“ｈ_２＝ｇ”に対応させて“＜ｇ＞”を取得する。例えば、３番目の出力記号“ｈ_３＝ｇｏｏｄ”における入力記号列の対応する範囲（１９番目から３２番目）には、“＜ｑ＞”が含まれる。従って、経路探索部３０は、２番目の出力記号“ｈ_３＝ｇｏｏｄ”に対応させて“＜ｑ＞”を取得する。

続いて、Ｓ１８において、経路探索部３０は、出力記号と、取得した付加記号とを対応付けて出力する。例えば、図１０の例の場合、経路探索部３０は、１番目の出力記号“ｈ_１＝ａｈ”に対応させて、取得した付加記号を含む付加情報“ｐ_１＝｛＜ｆ＞｝”を出力する。また、経路探索部３０は、２番目の出力記号“ｈ_２＝ｇ”に対応させて、取得した付加記号を含む付加情報“ｐ_２＝｛＜ｇ＞｝”を出力する。また、経路探索部３０は、３番目の出力記号“ｈ_３＝ｇｏｏｄ”に対応させて、取得した付加記号を含む付加情報“ｐ_３＝｛＜ｑ＞｝”を出力する。

図１１、図１２、図１３、図１４、図１５および図１６は、日本語を認識する場合における経路探索部３０の処理内容を説明するための図である。経路探索部３０は、図４の処理フローに従って日本語を認識する場合には、次のような処理を実行する。なお、この場合、音響モデルは、記号集合に含まれる日本語の入力記号を認識するように学習装置により予め訓練されている。

例えば、Ｓ１２において、経路探索部３０は、図１１に示すような、入力記号列を生成する。ここで、例えば、予め定められた記号集合が下記の通りであったとする。
記号集合（入力記号の集合）＝｛ε，あ，い，き，す，て，わ，ん，＜ｆ＞，＜ｇ＞，＜ｑ＞｝

また、入力記号のうち、認識対象記号が下記の通りであったとする。
認識対象記号の集合＝｛あ，い，き，す，て，わ，ん｝

また、入力記号のうち、付加記号が下記のとおりであったとする。
付加記号の集合＝｛＜ｆ＞，＜ｇ＞，＜ｑ＞｝

また、入力記号のうち、対象外記号が下記の通りであったとする。
対象外記号＝ε

続いて、Ｓ１３において、経路探索部３０は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の１つを残し、２番目以降を削除する。例えば、図１２の例においては、３番目の入力記号および４番目の入力記号が共に同一の認識対象記号である。また、１１番目の入力記号および１２番目の入力記号が共に同一の認識対象記号である。また、２６番目の入力記号および２７番目の入力記号が共に同一の認識対象記号である。そこで、Ｓ１３において、経路探索部３０は、これらのうち、先頭の入力文字を残し、残りを削除する。

続いて、Ｓ１４において、経路探索部３０は、Ｓ１３の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。例えば、図１３の例に示すように、経路探索部３０は、入力記号列から、“＜ｆ＞”、“＜ｇ＞”、“＜ｑ＞”および“ε”を削除する。

続いて、Ｓ１５において、経路探索部３０は、Ｓ１３およびＳ１４の処理をした後の入力記号列から、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、図１４に示すように、経路探索部３０は、入力記号列から、６つの出力記号を生成する。

続いて、Ｓ１６において、経路探索部３０は、それぞれの出力記号について、対応関係情報を生成する。

例えば、図１５に示す例において、１番目の出力記号“ｈ_１”について、入力記号列の対応する範囲は、１番目の入力記号から７番目の入力記号までである。また、２番目の出力記号“ｈ_２”について、入力記号列の対応する範囲は、８番目の入力記号から１０番目の入力記号までである。また、３番目の出力記号“ｈ_３”について、入力記号列の対応する範囲は、１１番目の入力記号から２２番目の入力記号までである。また、４番目の出力記号“ｈ_４”について、入力記号列の対応する範囲は、２３番目の入力記号から３０番目の入力記号までである。また、５番目の出力記号“ｈ_５”について、入力記号列の対応する範囲は、３１番目の入力記号から３４番目の入力記号までである。また、６番目の出力記号“ｈ_６”について、入力記号列の対応する範囲は、３５番目の入力記号から４４番目の入力記号までである。

例えば、図１６の例の場合、１番目の出力記号“ｈ_１”における入力記号列の対応する範囲（１番目から７番目）には、付加記号が含まれない。また、例えば、２番目の出力記号“ｈ_２”における入力記号列の対応する範囲（８番目から１０番目）には、付加記号が含まれない。例えば、３番目の出力記号“ｈ_３”における入力記号列の対応する範囲（１１番目から２２番目）には、“＜ｆ＞”が含まれる。また、例えば、４番目の出力記号“ｈ_４”における入力記号列の対応する範囲（２３番目から３０番目）には、付加記号が含まれない。例えば、５番目の出力記号“ｈ_５”における入力記号列の対応する範囲（３１番目から３４番目）には、“＜ｇ＞”が含まれる。例えば、６番目の出力記号“ｈ_５”における入力記号列の対応する範囲（３５番目から４４番目）には、“＜ｑ＞”が含まれる。

続いて、Ｓ１８において、経路探索部３０は、出力記号と、取得した付加記号とを対応付けて出力する。

例えば、図１６の例の場合、経路探索部３０は、１番目の出力記号“ｈ_１”に対応させて、何れの付加記号を含まない付加情報“ｐ_１＝｛｝”を出力する。また、経路探索部３０は、２番目の出力記号“ｈ_２”に対応させて、何れの付加記号を含まない付加情報“ｐ_２＝｛｝”を出力する。また、経路探索部３０は、３番目の出力記号“ｈ_３”に対応させて、取得した付加記号を含む付加情報“ｐ_３＝｛＜ｆ＞｝”を出力する。また、経路探索部３０は、４番目の出力記号“ｈ_４”に対応させて、何れの付加記号を含まない付加情報“ｐ_４＝｛｝”を出力する。また、経路探索部３０は、５番目の出力記号“ｈ_５”に対応させて、取得した付加記号を含む付加情報“ｐ_５＝｛＜ｇ＞｝”を出力する。また、経路探索部３０は、６番目の出力記号“ｈ_６”に対応させて、取得した付加記号を含む付加情報“ｐ_６＝｛＜ｑ＞｝”を出力する。

図１７は、音声認識装置１０による認識処理を表す疑似コードの一例を示す図である。音声認識装置１０は、一例として、図１７に示す疑似コードを１行目から順次に実行する。

１行目では、音声認識装置１０は、ξに、ξ_{ｉｎｉｔｉａｌ}を代入する。ξは、探索中の複数の入力記号列および対応する出力記号を格納する。例えば、ξは、ビタビアルゴリズムで探索したＷＦＳＴの経路を格納してもよい。ξ_{ｉｎｉｔｉａｌ}は、ξの初期状態を示す。音声認識装置１０は、１行目を実行することにより、ξを初期化することができる。

２行目は、ｉに１からＮまでの整数を順次に代入し、ｉに整数を代入する毎に、３行目から５行目までの処理を繰り返すことを示す。ｉは、変数である。Ｎは、音声信号のフレームの総数である。音声認識装置１０は、音声信号の１番目のフレームからＮ番目のフレームのそれぞれについて、３行目から５行目までの処理を実行する。

３行目では、音声認識装置１０は、ｖに、ｅｘｔｒａｃｔ＿ｆｅａｔｕｒｅｓ（ｆ_ｉ）の処理結果を代入する。ｖは、特徴ベクトルを格納する変数である。ｆ_ｉは、ｉ番目のフレームの音声信号である。ｅｘｔｒａｃｔ＿ｆｅａｔｕｒｅｓ（ｆ_ｉ）は、ｉ番目のフレームの音声信号から特徴ベクトルを算出する関数である。音声認識装置１０は、３行目を実行することにより、ｉ番目のフレームの特徴ベクトルを算出することができる。

４行目では、音声認識装置１０は、ｓに、ｃａｌｃ＿ｓｃｏｒｅｓ（ｖ）を代入する。ｓは、スコアベクトルを格納する変数である。ｃａｌｃ＿ｓｃｏｒｅｓ（ｖ）は、特徴ベクトルからスコアベクトルを算出する関数である。音声認識装置１０は、４行目を実行することにより、ｉ番目のフレームのスコアベクトルを算出することができる。

５行目では、音声認識装置１０は、ξに、ｓｅａｒｃｈ（ξ，ｓ）の処理結果を代入する。ｓｅａｒｃｈ（ξ，ｓ）は、新たなスコアベクトルを追加したスコアベクトル列から、入力記号列および出力記号の探索結果を取得する関数である。音声認識装置１０は、５行目を実行することにより、１からｉ番目のフレームまでを探索した段階における、入力記号列および出力記号を生成することができる。ビタビアルゴリズムでＷＦＳＴの経路を探索している場合は、音声認識装置１０は、新たなスコアベクトル１つ分だけＷＦＳＴの経路を延ばし、その経路を処理結果としてξに格納してもよい。

そして、音声認識装置１０は、ｉ＝Ｎとなるまで３行目から５行目の処理を繰り返すことにより、音声信号を認識した結果である入力記号列および出力記号を生成することができる。

６行目では、音声認識装置１０は、ｈに、ｂｅｓｔ（ξ）の処理結果を代入する。ｈは、出力記号と、出力記号の順序を表すインデックスとの組を要素とする集合を格納する変数である。ｂｅｓｔ（ξ）は、ξに保持されている１または複数の出力記号と、それぞれの出力記号の順序とを取得する関数である。音声認識装置１０は、６行目を実行することにより、音声信号の認識結果である１または複数の出力記号およびそれぞれの出力記号の順序を取得することができる。ビタビアルゴリズムでＷＦＳＴの経路を探索している場合、ｂｅｓｔ（ξ）は、ξに保持されている経路から、１または複数の出力記号と、それぞれの出力記号の順序とを取得する。

７行目では、音声認識装置１０は、Ψに、空集合を代入する。図中の０に／を重ねた記号は空集合を表している。Ψは、出力記号の順序を表すインデックスと、その出力記号に対応する付加記号の集合との組を、要素とする集合を格納する変数である。音声認識装置１０は、７行目を実行することにより、Ψを空集合にすることができる。

８行目は、ｉに１から｜ｈ｜までの整数を順次に代入し、ｉに整数を代入する毎に、９行目から１４行目までの処理を繰り返すことを示す。｜ｈ｜は、Ψに保持されている出力記号の個数である。従って、音声認識装置１０は、１番目の出力記号から｜ｈ｜番目の出力記号のそれぞれについて、９行目から１４行目までの処理を実行する。

９行目では、音声認識装置１０は、Ａに、空集合を代入する。Ａは、付加記号の集合である。音声認識装置１０は、９行目を実行することにより、Ａを空集合にすることができる。

１０行目では、音声認識装置１０は、πに、ｇｅｔ＿ｓｙｍｂｏｌ＿ｓｅｑｕｅｎｃｅ（ｈ_ｉ）を代入する。πは、入力記号の集合である。ｇｅｔ＿ｓｙｍｂｏｌ＿ｓｅｑｕｅｎｃｅ（ｈ_ｉ）は、ξに保持されている入力記号列における、ｉ番目の出力記号に対応する範囲に含まれる１または複数の入力記号を取得する関数である。音声認識装置１０は、１０行目を実行することにより、入力記号列における、ｉ番目の出力記号に対応する範囲に含まれる１または複数の入力記号を取得することができる。ビタビアルゴリズムでＷＦＳＴの経路を探索している場合、ｇｅｔ＿ｓｙｍｂｏｌ＿ｓｅｑｕｅｎｃｅ（ｈ_ｉ）は、ξに保持されている経路のうち、ｉ番目の出力記号に対応する部分に含まれる１または複数の入力記号を取得する。

１１行目は、Ｒ＼Ｌに含まれる要素であるσ毎に、１２行目から１３行目までの処理を実行することを示す。Ｒは、全ての認識対象記号と全ての付加記号とを含む集合である。Ｌは、全ての認識対象記号を含む集合である。Ｒ＼Ｌは、ＲからＬを除いた集合である。すなわち、Ｒ＼Ｌは、全ての付加記号を含む集合である。従って、音声認識装置１０は、全ての付加記号毎に、１２行目から１３行目までの処理を繰り返し実行する。

１２行目では、音声認識装置１０は、πにσが含まれるか否かを判断する。音声認識装置１０は、πにσが含まれると判断した場合、１３行目を実行する。

１３行目では、音声認識装置１０は、Ａにσを代入する。従って、音声認識装置１０は、１２行目および１３行目を実行することにより、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる付加記号を取得することができる。

１４行目では、音声認識装置１０は、出力記号の順序を表すインデックスであるｉと、付加記号の集合であるＡとの組を、Ψに追加する。これにより、音声認識装置１０は、ｉ番目の出力記号に対応する付加記号をΨに追加することができる。

１５行目では、音声認識装置１０は、ｈおよびΨを上位のプログラムに返す。これにより、音声認識装置１０は、複数の出力記号と、それぞれの出力記号に対応する付加記号とを出力することができる。

図１８は、図１７の疑似コードにより認識されるアルファベットの記号の一例を示す図である。図１８のＡは、記号集合（入力記号の集合）であるΣ、認識対象記号の集合であるＬ、認識対象記号と付加記号との集合であるＲ、付加記号の集合であるＲ＼Ｌの一例を示す。図１８のＢは、入力記号列であるπ_ｈの一例を示す。図１８のＣは、出力記号ｈ_１、ｈ_２、ｈ_３の一例を示す。

図１８に示す入力記号列“π_ｈ”における、１番目の出力記号“ｈ_１＝ａｈ”に対応する範囲は、例えば、下記の通りであったとする。
εεａａ＜ｆ＞εεｈ＜ｆ＞εε

この場合、ｈ_１について、疑似コードの１０行目が実行されると、π＝“εεａａ＜ｆ＞εεｈ＜ｆ＞εε”となる。続いて、ｈ_１について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｆ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛１，｛＜ｆ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、１番目の出力記号が、フィラーであることを識別することができる。

また、入力記号列“π_ｈ”における、２番目の出力記号“ｈ_２＝ｇ”に対応する範囲は、例えば、下記の通りであったとする。
ｇｇεε＜ｇ＞ε

この場合、ｈ_２について、疑似コードの１０行目が実行されると、π＝“ｇｇεε＜ｇ＞ε”となる。続いて、ｈ_２について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｇ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛２，｛＜ｇ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、２番目の出力記号が、語断片であることを識別することができる。

また、もし、２番目の出力記号“ｈ_２＝ｇ”に対応する入力記号列が、例えば下記の通りであったとする。
ｇｇεε＜ｇ＞ε＜ｆ＞ε

この場合、Ψ＝｛２，｛＜ｆ＞，＜ｇ＞｝｝となり、複数の付加記号が含まれる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、２番目の出力記号が、フィラーかつ語断片であることを識別することができる。

また、入力記号列“π_ｈ”における、３番目の出力記号“ｈ_３＝ｇｏｏｄ”に対応する範囲は、例えば、下記の通りであったとする。
ｇεｏεεεｏεｄε＜ｑ＞εεε

この場合、ｈ_３について、疑似コードの１０行目が実行されると、π＝“ｇεｏεεεｏεｄε＜ｑ＞εεε”となる。続いて、ｈ_３について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｑ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛３，｛＜ｑ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、３番目の出力記号である出力記号が、語断片であることを識別することができる。

図１９は、図１７の疑似コードにより認識される日本語の記号の一例を示す図である。図１９のＡは、記号集合（入力記号の集合）であるΣ、認識対象記号の集合であるＬ、認識対象記号と付加記号の集合であるＲ、付加記号の集合であるＲ＼Ｌの一例を示す。図１９のＢは、入力記号列であるπ_ｈの一例を示す。図１９のＣは、出力記号ｈ_１、ｈ_２、ｈ_３、ｈ_４、ｈ_５、ｈ_６の一例を示す。

入力記号列“π_ｈ”における、１番目の出力記号“ｈ_１”に対応する範囲は、例えば、下記の通りであったとする。
εεああεすε

この場合、ｈ_１について、疑似コードの１０行目が実行されると、下記のようになる。
π＝εεああεすε

続いて、ｈ_１について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛｝となる。続いて、１４行目が実行されると、Ψ＝｛１，｛｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、１番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。ここで、｛｝は空集合を表す。すなわち、この場合、｛｝は何れの付加記号も含まないことを意味する。

図１９に示す入力記号列“π_ｈ”における、２番目の出力記号“ｈ_２”に対応する範囲は、例えば、下記の通りであったとする。
わεε

この場合、ｈ_２について、疑似コードの１０行目が実行されると、下記のようになる。
π＝わεε

続いて、ｈ_２について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛｝となる。続いて、１４行目が実行されると、Ψ＝｛２，｛｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、２番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。

入力記号列“π_ｈ”における、３番目の出力記号“ｈ_３”に対応する範囲は、例えば、下記の通りであったとする。
ああεε＜ｆ＞εあεεε＜ｆ＞ε

この場合、ｈ_３について、疑似コードの１０行目が実行されると、下記のようになる。
π＝ああεε＜ｆ＞εあεεε＜ｆ＞ε

続いて、ｈ_３について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｆ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛３，｛＜ｆ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、３番目の出力記号が、フィラーであることを識別することができる。

入力記号列“π_ｈ”における、４番目の出力記号“ｈ_４”に対応する範囲は、例えば、下記の通りであったとする。
いεεいいεεε

この場合、ｈ_４について、疑似コードの１０行目が実行されると、下記のようになる。
π＝いεεいいεεε

続いて、ｈ_４について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛｝となる。続いて、１４行目が実行されると、Ψ＝｛４，｛｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、４番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。

入力記号列“π_ｈ”における、５番目の出力記号“ｈ_５”に対応する範囲は、例えば、下記の通りであったとする。
て＜ｇ＞んε

この場合、ｈ_５について、疑似コードの１０行目が実行されると、下記のようになる。
π＝て＜ｇ＞んε

続いて、ｈ_５について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｇ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛５，｛＜ｇ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、５番目の出力記号が、語断片であることを識別することができる。

入力記号列“π_ｈ”における、６番目の出力記号“ｈ_６”に対応する範囲は、例えば、下記の通りであったとする。
てεんεεきεε＜ｑ＞ε

この場合、ｈ_６について、疑似コードの１０行目が実行されると、下記のようになる。
π＝てεんεεきεε＜ｑ＞ε

続いて、ｈ_６について、疑似コードの１１行目から１３行目が実行されると、Ａ＝｛＜ｑ＞｝となる。続いて、１４行目が実行されると、Ψ＝｛６，｛＜ｑ＞｝｝となる。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、６番目の出力記号が、質問であることを識別することができる。

以上のように本実施形態に係る音声認識装置１０によれば、音声信号に含まれる言語情報と、言語情報に付随するパラ言語情報および／または非言語情報とを認識することができる。そして、音声認識装置１０によれば、認識した言語情報に対応する出力記号と、認識した言語情報に付随するパラ言語情報および／または非言語情報に対応する付加記号とを対応付けて出力することができる。

（第１変形例）
第１変形例において、出力部６８は、出力記号と、入力記号列における出力記号に対応する範囲に含まれる全ての入力記号と対応付けて出力してもよい。この場合、音声認識装置１０により認識された結果を用いるアプリケーションは、受け取った１または複数の入力記号の中に付加記号が含まれるか否かを解析する。

例えば、図１６の疑似コードにおける、１４行目の（ｉ，Ａ）を、（ｉ，π）と置き換える。これにより、音声認識装置１０は、出力記号と、入力記号列における出力記号に対応する範囲に含まれる全ての入力記号と対応付けて出力することができる。また、この場合、音声認識装置１０により認識された結果を用いるアプリケーションは、図１６の疑似コードにおける１１行目から１３行目に対応する処理を実行する。これにより、アプリケーションは、それぞれの出力記号に対応する付加記号を取得することができる。

（第２変形例）
図２０は、第２変形例に係る音声認識装置１０による認識処理を表す疑似コードの一例を示す図である。第２変形例において、付加記号取得部６６は、入力記号列における出力記号に対応する範囲に含まれる付加記号の個数に基づき、取得した付加記号の信頼度を算出する。そして、出力部６８は、算出した信頼度を対応する付加記号とともに出力する。

例えば、付加記号取得部６６は、入力記号列における出力記号に対応する範囲に含まれる認識対象記号の個数に対する、入力記号列における出力記号に対応する範囲に含まれる付加記号の個数の割合を信頼度として算出する。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、パラ言語情報または非言語情報を、信頼度に応じて用いることができる。

第２変形例に係る音声認識装置１０は、例えば、図２０に示す疑似コードを１行目から順次に実行する。図２０に示す疑似コードは、図１７に示した疑似コードの一部を変更したコードである。具体的には、図１７に示した疑似コードの１２行目および１３行目が、図２０に示す疑似コードの１２行目から１９行目までに置き換わっている。また、図１７に示した疑似コードの１４行目および１５行目が、図２０に示す疑似コードの２０行目および２１行目に置き換わっている。以下、相違点を中心に説明する。

１１行目は、Ｒ＼Ｌに含まれる要素であるσ毎に、１２行目から２０行目までの処理を実行することを示す。従って、音声認識装置１０は、全ての付加記号毎に、１２行目から２０行目までの処理を繰り返し実行する。

１２行目では、音声認識装置１０は、ｃに０を代入し、ｄに０を代入する。ｃおよびｄは、変数である。

１３行目では、ｊに１から｜π｜までの整数を順次に代入し、ｊに整数を代入する毎に、１４行目から１７行目までの処理を繰り返すことを示す。｜π｜は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる入力記号の個数である。従って、音声認識装置１０は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる、１番目の入力記号から｜π｜番目の入力記号のそれぞれについて、１４行目から１７行目までの処理を実行する。

１４行目では、音声認識装置１０は、π_ｊとσとが同一であるか否かを判断する。π_ｊは、入力記号列におけるｉ番目の出力記号に対応する範囲における、ｊ番目の入力記号である。音声認識装置１０は、π_ｊとσとが同一である場合、１５行目を実行し、同一でない場合、１５行目をスキップする。

１５行目では、音声認識装置１０は、ｃに１を加算する。

１６行目では、音声認識装置１０は、π_ｊがＬに含まれるか否かを判断する。Ｌは、全ての認識対象記号を含む集合である。すなわち、音声認識装置１０は、π_ｊが何れかの認識対象記号であるかを判断する。音声認識装置１０は、π_ｊがＬに含まれる場合、１７行目を実行し、含まれない場合、１７行目をスキップする。

１７行目では、音声認識装置１０は、ｄに１を加算する。

１８行目では、音声認識装置１０は、ｃが０より大きいか否かを判断する。１８行目において、ｃは、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれるσで特定される付加記号の個数を表す。従って、音声認識装置１０は、１８行目を実行することにより、入力記号列におけるｉ番目の出力記号に対応する範囲に、σで特定される付加記号が含まれているか否かを判断している。音声認識装置１０は、ｃが０より大きい場合、１９行目を実行し、含まれない場合、１９行目をスキップする。

１９行目では、音声認識装置１０は、Ａに、σとｃ／ｄとの組を代入する。ｃ／ｄは、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる認識対象記号の個数に対する、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれるσで特定される付加記号の個数である。すなわち、ｃ／ｄは、付加記号であるσの信頼度を表す。従って、音声認識装置１０は、１９行目を実行することにより、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる付加記号と、その付加記号の信頼度との組を取得することができる。

２０行目では、音声認識装置１０は、出力記号の順序を表すインデックスであるｉと、付加記号と信頼度との組の集合であるＡとの組を、Ψに追加する。これにより、音声認識装置１０は、ｉ番目の出力記号に対応する付加記号と信頼度との組をΨに追加することができる。

２１行目では、音声認識装置１０は、ｈおよびΨを上位のプログラムに返す。これにより、音声認識装置１０は、複数の出力記号と、それぞれの出力記号に対応する付加記号および信頼度とを出力することができる。

（第３変形例）
第３変形例に係る付加記号取得部６６は、入力記号列における出力記号に対応する範囲に含まれる付加記号の位置に基づき、取得した付加記号の信頼度を算出する。例えば、付加記号取得部６６は、入力記号列における出力記号に対応する範囲の後ろの方に付加記号が位置する程、高い信頼度としてもよい。反対に、付加記号取得部６６は、入力記号列における出力記号に対応する範囲の前の方に付加記号が位置する程、高い信頼度としてもよい。

例えば、図２０の疑似コードにおける、１５行目を下記のように置き換える。これにより、音声認識装置１０は、入力記号列における出力記号に対応する範囲の後ろの方に付加記号が位置する程、高い信頼度とすることができる。
ｃ←ｃ＋ｊ

また、例えば、図２０の疑似コードにおける、１５行目を下記のように置き換える。これにより、音声認識装置１０は、入力記号列における出力記号に対応する範囲の前の方に付加記号が位置する程、高い信頼度とすることができる。
ｃ←ｃ＋｜π｜−ｊ＋１

（第４変形例）
図２１は、第４変形例に係る音声認識装置１０による認識処理を表す疑似コードの一例を示す図である。

第４変形例において、付加記号取得部６６は、入力記号列における出力記号に対応する範囲内の予め定められた位置に含まれる付加記号を取得する。例えば、付加記号取得部６６は、入力記号列における出力記号に対応する範囲内の、最後の認識対象記号より後ろに含まれる付加記号を取得する。これにより、音声認識装置１０により認識された結果を用いるアプリケーションは、言語情報が発声された後の音響情報から抽出された、パラ言語情報または非言語情報を用いることができる。なお、付加記号取得部６６は、予め定められた位置であれば、入力記号列における出力記号に対応する範囲内の何れの位置から付加記号を取得してもよい。

第４変形例に係る音声認識装置１０は、例えば、図２１に示す疑似コードを１行目から順次に実行する。図２１に示す疑似コードは、図１７に示した疑似コードの一部を変更したコードである。具体的には、図１７に示した疑似コードの１２行目および１３行目が、図２１に示す疑似コードの１２行目から１６行目までに置き換わっている。また、図１７に示した疑似コードの１４行目および１５行目が、図２０に示す疑似コードの１７行目および１８行目に置き換わっている。以下、相違点を中心に説明する。

１２行目では、ｊに｜π｜から１までの整数を１ずつ値を減じながら順次に代入し、ｊに整数を代入する毎に、１３行目から１６行目までの処理を繰り返すことを示す。｜π｜は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる入力記号の個数である。従って、音声認識装置１０は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる、｜π｜番目の入力記号から１番目の入力記号までのそれぞれについて、後の入力記号から順に、１３行目から１６行目までの処理を実行する。

１３行目では、音声認識装置１０は、π_ｊがＬに含まれるか否かを判断する。Ｌは、全ての認識対象記号を含む集合である。π_ｊは、入力記号列におけるｉ番目の出力記号に対応する範囲における、ｊ番目の入力記号である。すなわち、音声認識装置１０は、π_ｊが何れかの認識対象記号であるかを判断する。音声認識装置１０は、π_ｊがＬに含まれる場合、１４行目を実行し、含まれない場合、１４行目をスキップする。

１４行目では、音声認識装置１０は、１３行目から１６行目までの繰り返しの処理を中断し、処理を１１行目に戻す。

１５行目では、音声認識装置１０は、π_ｊとσとが同一であるか否かを判断する。音声認識装置１０は、π_ｊとσとが同一である場合、１６行目を実行し、同一でない場合、１６行目をスキップする。

１６行目では、音声認識装置１０は、Ａに、σを代入する。

１７行目では、音声認識装置１０は、出力記号の順序を表すインデックスであるｉと、付加記号の集合であるＡとの組を、Ψに追加する。これにより、音声認識装置１０は、入力記号列における出力記号に対応する範囲内の、最後の認識対象記号より後ろに含まれる付加記号をΨに追加することができる。

なお、付加記号取得部６６は、入力記号列における出力記号に対応する範囲内の、最初の認識対象記号より前の付加記号を取得してもよい。この場合、例えば、図２１の疑似コードにおける、１２行目を下記のように置き換える。これにより、音声認識装置１０は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる、１番目の入力記号から｜π｜番目の入力記号までのそれぞれについて、前の入力記号から順に、１３行目から１６行目までの処理を実行する。
ｆｏｒｊｆｒｏｍ１ｔｏ｜π｜

また、付加記号取得部６６は、入力記号列における出力記号に対応する範囲内の、中央位置から最後までの間の付加記号を取得してもよい。この場合、図２１の疑似コードにおける１３行目と１４行目を除去して、１２行目を下記のように置き換える。これにより、音声認識装置１０は、入力記号列におけるｉ番目の出力記号に対応する範囲に含まれる、中央位置から｜π｜番目の入力記号までのそれぞれについて、順次に、１５行目から１６行目までの処理を実行する。
ｆｏｒｊｃｅｉｌ（｜π｜／２）ｔｏ｜π｜

なお、ｃｅｉｌ（｜π｜／２）は、｜π｜／２の小数点以下を切り上げる関数である。なお、付加記号取得部６６は、コードにより特定することが可能な位置であれば、入力記号列における出力記号に対応する範囲内の何れの位置から付加記号を取得してもよい。

図２２は、音声認識装置１０のハードウェアブロック図である。音声認識装置１０は、一例として、一般のコンピュータ（情報処理装置）と同様のハードウェア構成により実現される。音声認識装置１０は、ＣＰＵ（Central Processing Unit）１０１と、操作部１０２と、表示部１０３、マイクロフォン１０４と、ＲＯＭ（Read Only Memory）１０５と、ＲＡＭ（Random Access Memory）１０６と、記憶部１０７と、通信装置１０８と、バス１０９とを備える。各部は、バス１０９により接続される。

ＣＰＵ１０１は、ＲＡＭ１０６の所定領域を作業領域としてＲＯＭ１０５または記憶部１０７に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置１０（特徴抽出部２２、スコア算出部２６および経路探索部３０（入力記号取得部５４、出力記号取得部５６、対応関係取得部５８、付加記号取得部６６および出力部６８を含む））を構成する各部の動作を統括的に制御する。また、ＣＰＵ１０１は、ＲＯＭ１０５または記憶部１０７に予め記憶されたプログラムとの協働により、操作部１０２、表示部１０３、マイクロフォン１０４および通信装置１０８等を実現させる。

操作部１０２は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をＣＰＵ１０１に出力する。

表示部１０３は、ＬＣＤ（Liquid Crystal Display）等の表示装置である。表示部１０３は、ＣＰＵ１０１からの表示信号に基づいて、各種情報を表示する。例えば、表示部１０３は、出力記号および付加記号等を表示する。なお、通信装置１０８または記憶部１０７等に出力記号および付加記号等を出力する場合には、音声認識装置１０は、表示部１０３を備えなくてもよい。

マイクロフォン１０４は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置１０８から入力される音声信号のパターン認識をする場合には、音声認識装置１０は、マイクロフォン１０４を備えなくてもよい。

ＲＯＭ１０５は、音声認識装置１０の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。ＲＡＭ１０６は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等の揮発性の記憶媒体である。ＲＡＭ１０６は、ＣＰＵ１０１の作業領域として機能する。具体的には、音声認識装置１０が用いる各種変数およびパラメータ等を一時記憶するバッファ等として機能する。

記憶部１０７は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶部１０７は、音声認識装置１０の制御に用いられるプログラムおよび各種設定情報等を記憶する。また、記憶部１０７は、音響モデル記憶部２４、探索モデル記憶部２８、入力記号記憶部６０、出力記号記憶部６２および対応関係記憶部６４等が記憶する情報を記憶する。

通信装置１０８は、外部の機器と通信して、出力記号および付加記号等の出力等に用いられる。予め記録された音声信号またはマイクロフォン１０４から入力した音声信号のパターン認識をする場合であり、出力記号および付加記号等を表示部１０３または記憶部１０７に出力する場合には、音声認識装置１０は、通信装置１０８を備えなくてもよい。

本実施形態の音声認識装置１０で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声認識装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施形態の音声認識装置１０で実行されるプログラムは、上述した特徴抽出モジュール、スコア算出モジュールおよび経路探索モジュール（入力記号取得モジュール、出力記号取得モジュール、対応関係取得モジュール、付加記号取得モジュールおよび出力モジュールを含む）を含むモジュール構成となっており、ＣＰＵ１０１（プロセッサ）が記憶媒体等からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、特徴抽出部２２、スコア算出部２６および経路探索部３０（入力記号取得部５４、出力記号取得部５６、対応関係取得部５８、付加記号取得部６６および出力部６８を含む）が主記憶装置上に生成されるようになっている。なお特徴抽出部２２、スコア算出部２６および経路探索部３０の一部または全部がハードウェアにより構成されていてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１０音声認識装置
２２特徴抽出部
２４音響モデル記憶部
２６スコア算出部
２８探索モデル記憶部
３０経路探索部
４２入力層
４４中間層
４６出力層
５２探索部
５４入力記号取得部
５６出力記号取得部
５８対応関係取得部
６０入力記号記憶部
６２出力記号記憶部
６４対応関係記憶部
６６付加記号取得部
６８出力部
１０１ＣＰＵ
１０２操作部
１０３表示部
１０４マイクロフォン
１０５ＲＯＭ
１０６ＲＡＭ
１０７記憶部
１０８通信装置
１０９バス

Claims

音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する算出部と、
前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する探索部と、
前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得する付加記号取得部と、
前記出力記号と、取得した前記付加記号とを対応付けて出力する出力部と
を備える音声認識装置。
前記入力記号は、前記音声信号に含まれる音響情報を表し、
前記音響スコアは、対応する前記入力記号により表される前記音響情報が、前記音声信号に含まれている尤もらしさを表す
請求項１に記載の音声認識装置。
前記パラ言語情報は、話し手が発声することにより前記音声信号に付加した、前記言語情報からは識別できない情報であり、
前記非言語情報は、前記音声信号に含まれる前記話し手の特徴を表す情報である
請求項２に記載の音声認識装置。
前記言語情報、前記パラ言語情報および前記非言語情報のそれぞれは、前記音響情報の一つであり、
前記記号集合は、前記入力記号として、前記認識対象記号および前記付加記号を含む
請求項３に記載の音声認識装置。
無音情報は、前記音響情報の一つであり、
前記記号集合は、前記認識対象記号として、前記無音情報を表す無音記号をさらに含む
請求項４に記載の音声認識装置。
対象外記号は、前記認識対象記号および前記付加記号が表す前記音響情報のうち、何れの前記音響情報が前記音声信号に含まれているかが未定であることを表す記号であり、
前記記号集合は、前記入力記号として、対象外記号をさらに含む
請求項４または５に記載の音声認識装置。
前記出力部は、前記入力記号列に基づき生成した複数の前記出力記号を出力する
請求項１から６の何れか１項に記載の音声認識装置。
それぞれの前記出力記号について、前記入力記号列における前記出力記号に対応する範囲を示す対応関係情報を取得する対応関係取得部をさらに備え、
前記付加記号取得部は、それぞれの前記出力記号について、前記入力記号列における前記対応関係情報に示された範囲に含まれる前記入力記号の中から、前記付加記号を取得する
請求項７に記載の音声認識装置。
前記入力記号列における前記出力記号に対応する範囲は、前記出力記号の生成の元となる前記認識対象記号を全て含む連続した範囲である
請求項８に記載の音声認識装置。
前記入力記号列における前記出力記号に対応する範囲は、前後の他の前記出力記号に対応する範囲と境界が隣接する範囲である
請求項９に記載の音声認識装置。
前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記付加記号の個数に基づき、取得した前記付加記号の信頼度を算出し、
前記出力部は、前記信頼度を対応する前記付加記号とともに出力する
請求項１から１０の何れか１項に記載の音声認識装置。
前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記付加記号の位置に基づき、取得した前記付加記号の信頼度を算出し、
前記出力部は、前記信頼度を対応する前記付加記号とともに出力する
請求項１から１０の何れか１項に記載の音声認識装置。
前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲内の予め定められた位置に含まれる前記付加記号を取得する
請求項１から１２の何れか１項に記載の音声認識装置。
前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲内の、最後の前記認識対象記号より後ろに含まれる前記付加記号を取得する
請求項１３に記載の音声認識装置。
前記探索部は、前記スコアベクトル列を探索して、１個の前記入力記号列を生成する
請求項１から１４の何れか１項に記載の音声認識装置。
前記探索部は、前記スコアベクトル列を探索して、Ｍ個（Ｍは２以上の整数）の前記入力記号列を生成し、
前記探索部は、それぞれの前記入力記号列について、前記出力記号を生成し、
前記付加記号取得部は、それぞれの前記入力記号列について、前記付加記号を取得し、
前記出力部は、それぞれの前記入力記号列について、前記出力記号と前記付加記号とを対応付けて出力する
請求項１から１４の何れか１項に記載の音声認識装置。
情報処理装置が、音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出し、
前記情報処理装置が、前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成し、
前記情報処理装置が、前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得し、
前記情報処理装置が、前記出力記号と、取得した前記付加記号とを対応付けて出力する
音声認識方法。
情報処理装置を、
音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する算出部と、
前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する探索部と、
前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および／または非言語情報を表す付加記号を取得する付加記号取得部と、
前記出力記号と、取得した前記付加記号とを対応付けて出力する出力部と
して機能させるためのプログラム。