JP2013072974A

JP2013072974A - 音声認識装置、方法及びプログラム

Info

Publication number: JP2013072974A
Application number: JP2011211469A
Authority: JP
Inventors: Kenji Iwata; 憲治岩田; Kentaro Torii; 健太郎鳥居; Naoshi Uchihira; 直志内平; Tetsuro Chino; 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-27
Filing date: 2011-09-27
Publication date: 2013-04-22
Also published as: US20130080161A1

Abstract

【課題】音声認識精度を向上することにある。
【解決手段】一実施形態に係る音声認識装置は、業務推定部、音声認識部及び特徴量抽出部を含む。業務推定部は、利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する。音声認識部は、前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する。特徴量抽出部は、前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する。前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行う。
【選択図】図１

Description

本発明の実施形態は、音声認識装置、方法及びプログラムに関する。

入力された音声情報に対して音声認識を行うことにより、この音声情報に対応するテキストデータを音声認識結果として生成する音声認識装置がある。近年、音声認識装置における音声認識精度は向上しているが、音声認識結果には少なからず誤りが存在する。音声認識装置においては、十分な音声認識精度を確保するためには、利用者が様々な業務を行い、業務ごとに発声する内容が異なる場面で音声認識装置を利用する場合、利用者が行っている業務の内容に対応した音声認識手法に従って音声認識を行うのも有効な手段である。

従来から、ＧＰＳ（global positioning system）を利用して取得された位置情報に基づいて国又は地域を推定し、推定した国又は地域に対応する言語データを参照して音声認識を行う音声認識装置がある。位置情報のみに基づいて利用者が行っている業務を推定する音声認識装置では、業務が瞬間的に切り替わる場合などに、利用者が行っている業務を正しく推定できることができず、十分な音声認識精度が得られない問題がある。さらに、音声情報に基づいて利用者の国を推定し、推定した国の言語で情報提示を行う音声認識装置がある。音声情報のみに基づいて利用者が行っている業務を推定する音声認識装置では、音声情報が入力されない限り業務を推定するための有用な情報が得られないため、業務を詳細に推定することができず、十分な音声認識精度が得られない問題がある。

特開２０００−１９４６９８号公報特開２００１−８３９９１号公報

上述したように、利用者が様々な業務を行い、業務ごとに発声する内容が異なる場面で音声認識装置を利用する場合、音声認識精度を向上するためには、利用者が行っている業務の内容に対応した音声認識手法に従って音声認識を行うことが有効である。

本発明が解決しようとする課題は、音声認識精度を向上することができる音声認識装置、方法及びプログラムを提供することにある。

一実施形態に係る音声認識装置は、業務推定部、音声認識部及び特徴量抽出部を含む。業務推定部は、利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する。音声認識部は、前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する。特徴量抽出部は、前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する。前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行う。

第１の実施形態に係る音声認識装置を概略的に示すブロック図。図１の音声認識装置を備える携帯端末を概略的に示すブロック図。病院業務のスケジュールの一例を示す模式図。図１に示した音声認識装置の動作を概略的に示すフローチャート。第１の実施形態の比較例１に係る音声認識装置の動作を説明する図。図１に示した音声認識装置の動作の一例を説明する図。図１に示した音声認識装置の動作の他の例を説明する図。第１の実施形態の比較例２に係る音声認識装置の動作を説明する図。図１に示した音声認識装置の動作のさらに他の例を説明する図。第１の実施形態の変形例１に係る音声認識装置を概略的に示すブロック図。図１０に示した音声認識装置の動作を概略的に示すフローチャート。第１の実施形態の変形例２に係る音声認識装置を概略的に示すブロック図。図１２に示した音声認識装置の動作を概略的に示すフローチャート。第１の実施形態の変形例３に係る音声認識装置を概略的に示すブロック図。図１４に示した音声認識装置の動作を概略的に示すフローチャート。第２の実施形態に係る音声認識装置を概略的に示すブロック図。第２の実施形態に係る業務と言語モデルとの関係の一例を示す図。図１６に示した音声認識装置の動作を概略的に示すフローチャート。第３の実施形態に係る音声認識装置を概略的に示すブロック図。図１９に示した音声認識装置の動作を概略的に示すフローチャート。第４の実施形態に係る音声認識装置を概略的に示すブロック図。図２１に示した音声認識装置の動作を概略的に示すフローチャート。第５の実施形態に係る音声認識装置を概略的に示すブロック図。図２３に示した音声認識装置の動作を概略的に示すフローチャート。

以下、必要に応じて図面を参照しながら、実施形態に係る音声認識装置、方法及びプログラムを説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

（第１の実施形態）
図１は、第１の実施形態に係る音声認識装置１００を概略的に示している。この音声認識装置１００は、利用者が発した音声を示す音声情報に対して音声認識を行い、この音声情報に対応するテキストデータを音声認識結果として出力若しくは記録するものである。音声認識装置１００は、独立した装置として実施されてもよく、或いは、携帯端末などの他の装置に組み込まれて実施されてもよい。本実施形態では、音声認識装置１００が携帯端末に組み込まれており、利用者がこの携帯端末を携帯しながら使用するとして説明する。さらに、具体的な説明を行う際には、音声認識装置１００が病院内で使用される場合を例に挙げる。音声認識装置１００が病院で使用される場合、利用者は、例えば看護師であり、「手術」、「配膳」などの種々の業務（作業）を行う。利用者が看護師である場合、音声認識装置１００は、例えば、入院患者の看護記録及びメモを取るために利用される。

まず、音声認識装置１００を備える携帯端末について説明する。
図２は、本実施形態に係る音声認識装置１００を備える携帯端末２００を概略的に示している。この携帯端末２００は、図２に示されるように、入力部２０１、マイクロホン２０２、表示部２０３、無線通信部２０４、ＧＰＳ（global positioning system）受信機２０５、記憶部２０６及び制御部２０７を備える。入力部２０１、マイクロホン２０２、表示部２０３、無線通信部２０４、ＧＰＳ受信機２０５、記憶部２０６及び制御部２０７は、バス２１０を介して互いに通信可能に接続されている。以下では、携帯端末を単に端末と呼ぶ。

入力部２０１は、例えば操作ボタンやタッチパネルなどの入力装置であり、利用者からの指示を受け付ける。マイクロホン２０２は、利用者が発する音声を受音し、これを音声信号に変換する。表示部２０３は、制御部２０６の制御もとで、テキストデータ及び画像データなどを表示する。

無線通信部２０４は、無線ＬＡＮ通信部、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信部、非接触通信部などを含むことができる。無線ＬＡＮ通信部は、周辺のアクセスポイントを経由して他の装置と通信する。Ｂｌｕｅｔｏｏｔｈ通信部は、Ｂｌｕｅｔｏｏｔｈを搭載した他の装置と近距離無線通信を行う。非接触通信部は、無線タグ、例えば、ＲＦＩＤ（radio frequency identification）タグから情報を非接触で読み取る。ＧＰＳ受信機２０５は、ＧＰＳ衛星からＧＰＳ情報を受信し、受信したＧＰＳ情報から経度及び緯度を算出する。

記憶部２０６は、制御部２０７により実行されるプログラム、各種処理を行う上で必要なデータなどの種々のデータを記憶する。制御部２０７は、携帯端末２００内の各部を制御する。さらに、制御部２０７は、記憶部２０６に記憶されているプログラムを実行することにより様々な機能を提供することができる。例えば、制御部２０７は、スケジュール機能を提供する。スケジュール機能は、入力部２０１又は無線通信部２０４を通じて、利用者が行う業務の内容、日時、場所などの登録を受け付けること、登録内容を出力することなどを含む。登録内容（スケジュール情報ともいう）は、記憶部２０６に記憶される。さらに、制御部２０７は、時刻を通知する時計機能なども提供する。

なお、図２に示される端末２００は、音声認識装置１００が適用される装置の一例であり、音声認識装置１００が適用される装置は、この例に限定されない。また、音声認識装置１００が独立した装置として実施される場合、音声認識装置１００は、図２に示される要素の全部又は一部を含むことができる。

次に、図１に示される音声認識装置１００について説明する。
音声認識装置１００は、業務推定部１０１、音声認識部１０２、特徴量抽出部１０３、非音声情報取得部１０４及び音声情報取得部１０５を備えている。

非音声情報取得部１０４は、利用者の業務に関連する非音声情報を取得する。非音声情報としては、例えば、利用者の位置を示す情報（位置情報）、利用者情報、周囲の人に関する情報、周囲の物に関する情報、時刻に関する情報（時間情報）などが挙げられる。利用者情報は、利用者自身に関する情報であり、例えば、職種（例えば、医師、看護師、薬剤師）を示す情報、スケジュール情報などを含む。非音声情報は、業務推定部１０１へ送られる。

音声情報取得部１０５は、利用者が発した音声を示す音声情報を取得する。具体的には、音声情報取得部１０５は、マイクロホン２０２を含み、マイクロホン２０２によって受音された音声を音声情報として取得する。なお、音声情報取得部１０５は、外部装置から、例えば通信ネットワークを介して、音声情報を受け取ってもよい。音声情報は、音声認識部１０２へ送られる。

業務推定部１０１は、非音声情報取得部１０４により取得された非音声情報と特徴量抽出部１０３により抽出された特徴量（後述する）との少なくとも一方に基づいて、利用者が行っている業務を推定する。本実施形態では、利用者が行う可能性のある業務は予め定められており、業務推定部１０１は、後述する方法に従って、予め定められている業務の中から１又は複数の業務を、利用者が行っている業務として選定する。業務推定部１０１は、推定した業務を示す業務情報を生成する。この業務情報は、音声認識部１０２へ送られる。

音声認識部１０２は、業務推定部１０１からの業務情報に対応する音声認識手法に従って、音声情報取得部１０５からの音声情報に対して音声認識を行う。音声認識結果は、外部装置（例えば、記憶部２０６）へ出力されるとともに、特徴量抽出部１０３へ送られる。

特徴量抽出部１０３は、音声認識部１０２で得られた音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する。この特徴量は、利用者が行っている業務を再度推定するために使用される。特徴量抽出部１０３は、抽出した特徴量を業務推定部１０１に供給することで、業務の推定を再度行うように促す。特徴量抽出部１０３が抽出する特徴量については後述する。

上述した構成を備える音声認識装置１００は、非音声情報に基づいて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から得られる情報（特徴量）を用いて利用者が行っている業務を再推定する。これにより、利用者が行っている業務を正しく推定することが可能となる。その結果、音声認識装置１００は、利用者が行っている業務に対応した音声認識手法に従って音声認識を行うことができるので、音声認識精度が向上する。

次に、音声認識装置１００内の各部をより詳細に説明する。
まず、非音声情報取得部１０４について説明する。前述したように、非音声情報としては、例えば、位置情報、スケジュール情報などの利用者情報、周囲の人に関する情報、周囲の物に関する情報、時間情報などがある。非音声情報取得部１０４は、ここに例示される情報を全て取得する必要はなく、例示した情報及び他の情報のうちの少なくとも１つを取得すればよい。

非音声情報取得部１０４が位置情報を取得する方法を具体的に説明する。一例では、非音声情報取得部１０４は、ＧＰＳ受信機２０５から出力される緯度及び経度の情報を位置情報として取得する。他の例では、無線ＬＡＮ向けアクセスポイント及びＢｌｕｅｔｏｏｔｈ搭載機器が各所に設置され、無線通信部２０４が、受信信号強度（ＲＳＳＩ：received signal strange indication）に基づいて端末２００の最も近くに設置されている無線ＬＡＮ向けアクセスポイント又はＢｌｕｅｔｏｏｔｈ搭載機器を検出する。非音声情報取得部１０４は、検出された無線ＬＡＮ向けアクセスポイント又はＢｌｕｅｔｏｏｔｈ搭載機器の設置場所を位置情報として取得する。
さらに他の例では、非音声情報取得部１０４は、ＲＦＩＤを利用して位置情報を取得することができる。この場合、位置情報を格納したＲＦＩＤタグを器具及び部屋の入口などに取り付けておき、非接触通信部によりＲＦＩＤタグから位置情報を読み出す。さらにまた他の例では、特定の場所に設置されているパーソナルコンピュータ（ＰＣ）へログインするといった、利用者の位置を特定することを可能にする行動を利用者が実行した場合に、位置情報が外部装置から非音声情報取得部１０４に通知される。

さらに、周囲の人に関する情報及び周囲の物に関する情報もまたＢｌｕｅｔｏｏｔｈ及びＲＦＩＤなどを利用して取得することができる。スケジュール情報及び時間情報は、それぞれ端末２００のスケジュール機能及び時計機能を利用して取得することができる。

なお、上述した非音声情報の取得方法は例示であり、非音声情報取得部１０４は、任意の他の方法で非音声情報を取得してもよい。さらに、非音声情報は、端末２００で取得される情報であってもよく、外部装置で取得されて外部装置から端末２００へ伝達される情報であってもよい。

次に、音声情報取得部１０５が音声情報を取得する方法を具体的に説明する。
前述したように、音声情報取得部１０５は、マイクロホン２０２を含む。一例では、入力部２０１内の所定の操作ボタンが押下されている期間中に、マイクロホン２０２で受音された利用者からの音声が音声情報として取得される。他の例では、利用者が所定の操作ボタンを押下することで入力開始を指示し、無音区間を検出することで音声情報取得部１０５が入力終了を認識し、音声情報取得部１０５は、入力開始から入力終了までの間にマイクロホン２０２で受音された利用者からの音声を音声情報として取得する。

次に、業務推定部１０１が利用者の業務を推定する方法を具体的に説明する。
業務推定部１０１は、統計的処理に基づく方法を利用して利用者の業務を推定することができる。統計的処理に基づく方法は、例えば、ある情報（非音声情報及び特徴量の少なくとも一方）が入力されたときに何の業務であるかを学習させたモデルを予め作成しておき、実際に得られた情報（非音声情報及び特徴量の少なくとも一方）からそのモデルを用いた確率計算によって業務を推定する。利用するモデルとしては、ＳＶＭ（Support Vector Machine）、対数線形モデル（Log Linear Model）などの既存の確率モデルがある。

さらに、利用者のスケジュールは、図３に示す病院業務のスケジュールのように、業務を行う順番はある程度決まっているが実行する時間が明確には決まっていない場合がある。この場合、業務推定部１０１は、スケジュール情報、位置情報、時間情報などを組み合わせて用いてルールベースで業務を推定することができる。或いは、時間帯ごとに各業務の確率が予め定義されていて、業務推定部１０１は、時間情報から各業務の確率を取得し、この確率を位置情報又は音声情報などに基づいて補正し、最終的な確率値の大きさに応じて利用者が行っている業務を推定してもよい。例えば、確率値が最も大きい業務が、利用者が行っている業務として選定され、或いは、確率値が閾値以上である１以上の業務が、利用者が行っている業務として選定される。確率計算の際は、多値ロジスティック回帰モデル、ベイジアンネット、隠れマルコフモデルなどを利用することができる。

なお、業務推定部１０１は、上記方法に従って利用者が行っている業務を推定する例に限らず、他の方法に従って利用者が行っている業務を推定してもよい。

次に、音声認識部１０２が音声認識を行う方法を具体的に説明する。
本実施形態では、音声認識部１０２は業務情報に対応する音声認識手法に従って音声認識を行う。このため、音声認識結果は業務情報に応じて変化する。音声認識方法としては、次に例示する３つの方法がある。

第１の方法は、Ｎ−ｂｅｓｔアルゴリズムを利用する。具体的には、第１の方法は、まず、通常の音声認識を行って信頼度つき音声認識結果候補を複数生成する。続いて、業務ごとに予め定められている各単語の出現頻度などを用いて、音声認識結果候補それぞれと業務情報に示される業務とがマッチしている度合を示すスコアを算出する。そして、算出したスコアを音声認識結果候補の信頼度に反映させる。それにより、業務情報に対応する音声認識結果候補の信頼度が高くなる。最終的に、最も信頼度の高い音声認識結果候補を音声認識結果として選定する。
第２の方法は、音声認識に用いられる言語モデルに各業務での単語のつながりを記述しておき、業務情報に応じて単語のつながりを変化させた言語モデルを用いて音声認識を行う。第３の方法は、予め定められる複数の業務それぞれに対応付けて複数の言語モデルを保持しておき、業務情報によって示される業務に対応する言語モデルを選択し、選択した言語モデルを用いて音声認識を行う。ここでいう言語モデルとは、文法形式で記述されているもの、単語や単語列の出現確率を記述しているものなどのように、音声認識の際に言語的情報として用いられるものを指す。
ここで、業務情報に対応する音声認識手法に従って音声認識を行うとは、業務情報に従って音声認識方法（例えば、上記第１の方法）を実行することを意味し、業務情報に従って音声認識方法（例えば、上述した第１、第２及び第３の方法）を切り替えて音声認識を行うことを意味するものではない。

なお、音声認識部１０２は、上記の３つの方法のうちのいずれかに従って音声認識を行う例に限らず、他の方法に従って音声認識を行ってもよい。

次に、特徴量抽出部１０３が抽出する特徴量について説明する。
利用者が行っている業務に関連する特徴量として、音声認識部１０２が前述したＮ−ｂｅｓｔアルゴリズムに従って音声認識を行う場合は、業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度などを用いることができる。業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度は、音声認識結果に含まれる各単語が業務情報によって示される業務において使用される頻度に対応し、音声認識結果が業務情報によって示される業務とどれだけマッチしているかを表す。この場合、予め定められる複数の業務ごとに収集されたテキストデータを解析することにより、業務ごとに複数の単語を出現頻度と対応付けて保持する参照テーブルが予め作成される。特徴量抽出部１０３は、業務情報によって示される業務と音声認識結果に含まれる各単語とを用いて参照テーブルを参照することで、その業務での各単語の出現頻度を得る。

また、前述したような言語モデルを用いて音声認識を行う場合は、特徴量として、音声認識結果の言語部分の尤度、言語モデルの作成に用いた学習データには存在しない単語の並びが音声認識結果の単語列内に存在する回数又は割合などを用いることができる。ここで、音声認識結果の言語部分の尤度は、音声認識結果の言語的確からしさを示す。より詳細には、音声認識結果の言語部分の尤度は、音声認識における確率計算で得られた音声認識結果の尤度のうち、言語モデルによって得られた尤度を示す。音声認識結果の言語部分の尤度、言語モデル作成に用いた学習データには存在しない単語の並びが音声認識結果の単語列内に存在する回数又は割合は、音声認識結果に含まれる単語列が、音声認識に用いた言語モデルとどれだけマッチしているかを表す。この場合、音声認識に用いた言語モデルの情報を特徴量抽出部１０３に送る必要がある。

さらに、特徴量として、特定の業務でしか使用されない単語が音声認識結果に出現する回数又は割合などを用いることができる。音声認識結果に特定の業務でしか使用されない単語が含まれている場合、利用者が行っている業務が該特定の業務であると特定することが可能である。従って、特定の業務でしか使用されない単語が音声認識結果に出現する回数又は割合を特徴量として用いることにより、利用者が行っている業務を正しく推定することができる。

次に、図１及び図４を参照して、音声認識装置１００の動作について説明する。
図４は、音声認識装置１００が実行する音声認識処理の一例を示している。まず、利用者によって音声認識装置１００が起動されると、非音声情報取得部１０４は、非音声情報を取得する（ステップＳ４０１）。業務推定部１０１は、非音声情報取得部１０４によって取得された非音声情報に基づいて利用者が現在行っている業務を推定し、該業務の内容を示す業務情報を生成する（ステップＳ４０２）。

次に、音声認識部１０２は、音声情報の入力待ちを行う（ステップＳ４０３）。音声認識部１０２が音声情報を受け取ると、ステップＳ４０４に進む。音声認識部１０２は、業務情報に対応する音声認識手法に従って、受け取った音声情報に対して音声認識を行う（ステップＳ４０４）。

ステップＳ４０３において音声情報が入力されない場合、ステップＳ４０１に戻る。即ち、音声情報が入力されるまで、非音声情報取得部１０４によって取得された非音声情報に基づく業務の推定が繰り返し実行される。この際、音声認識装置１００の起動後に業務の推定が１回でも実行されていれば、音声情報は、ステップＳ４０１とステップＳ４０３との間のいずれのタイミングで入力されてもよい。即ち、ステップＳ４０４の音声認識が実行される前に、ステップＳ４０２の業務の推定が１回でも実行されていればよい。

なお、特徴量を用いずに非音声情報取得部１０４で取得される非音声情報に基づいて業務を推定する処理は、音声認識時以外に常に実行させておく必要はなく、一定期間ごとに実行され、或いは、非音声情報が大きく変化したときに実行されればよい。或いは、音声認識装置１００は、音声情報が入力されたときに業務の推定を実行し、その後に、入力された音声情報に対し音声認識を行うようにしてもよい。

ステップＳ４０４の音声認識が完了すると、音声認識部１０２は、音声認識結果を出力する（ステップＳ４０５）。一例では、音声認識結果は、記憶部２０６に記憶されるとともに、表示部２０３に表示される。音声認識結果を表示することにより、利用者は、発した音声が正しく認識されたかどうかを確認することができる。記憶部２０６、音声認識結果を時間情報などの他の情報とともに記憶することができる。

次に、特徴量抽出部１０３は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する（ステップＳ４０６）。ステップＳ４０５の処理及びステップＳ４０６の処理は、逆の順序で実行されてもよく、或いは、同時に実行されてもよい。ステップＳ４０６で特徴量が抽出されると、ステップＳ４０１に戻る。音声認識が実行された後のステップＳ４０２では、業務推定部１０１は、非音声情報取得部１０４によって取得された非音声情報と、特徴量抽出部１０３によって抽出された特徴量とを用いて、利用者が行っている業務を再推定する。

なお、ステップＳ４０６の処理の実行後には、ステップＳ４０１ではなく、ステップＳ４０２に戻るようにしてもよい。この場合、業務推定部１０１は、非音声情報取得部１０４によって取得された非音声情報を用いずに、特徴量抽出部１０３によって抽出された特徴量を用いて業務を再推定する。

上述したように、音声認識装置１００は、非音声情報取得部１０４によって取得された非音声情報に基づいて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から抽出される特徴量を使用して業務を再推定している。このように、非音声情報取得部１０４によって取得された非音声情報と音声認識結果から得られる情報（特徴量）とを用いて業務を推定することにより、利用者が行っている業務を正しく推定することができるようになる。その結果、音声認識装置１００は、利用者が行っている業務に対応する音声認識手法に従って音声認識を行うことができるので、音声認識精度が向上する。

次に、図５から図９を参照して、比較例１に係る音声認識装置及び比較例２に係る音声認識装置と比較して、本実施形態の音声認識装置１００がどのような場面で利点を有するかを具体的に説明する。ここで、比較例１に係る音声認識装置は、非音声情報のみに基づいて業務を推定するものである。また、比較例２に係る音声認識装置は、音声情報（音声認識結果）のみに基づいて業務を推定するものである。図５から図９の各々に示す事例では、音声認識装置は、各看護師が病院内で携帯する端末であって、内部的には看護師が行っている業務を推定する機能を持つ。音声認識装置は、看護記録及びメモを取るために看護師によって使用され、看護師が音声を入力すると、その音声に対して現在行っている業務に特化した音声認識を行う。

図５は、比較例１に係る音声認識装置（端末）５００の動作例を示す。図５に示す事例は、正しく音声認識を行うことができない例である。図５に示されるように、非音声情報として、看護師Ａのスケジュール情報、看護師Ａの位置情報、及び時刻情報が取得されている。そして、看護師Ａが行っている業務は、取得された非音声情報に基づいて「バイタル」、「ケア」及び「配膳」に絞り込まれている。即ち、業務情報には、「バイタル」、「ケア」及び「配膳」が含まれている。ここで、「バイタル」は患者の体温や血圧などを測定し記録する業務であり、「ケア」は患者の体の洗浄などを行う業務である。さらに、「配膳」は患者に食事を配る業務である。しかしながら、必ずしも看護師Ａがこれら業務のいずれかを行うとは限らない。例えば、看護師Ａは、患者Ｄに投与する薬の変更を行うように医師Ｂから指示されることがある。このように、投与する薬の変更を行う「投薬変更」という業務が割り込みで発生することがある。このような割り込み業務に関する記録を音声で行う場合、「投薬変更」が業務情報に含まれていないので、音声認識装置５００は、看護師Ａが発した音声を誤認識する可能性が高い。誤認識を回避するためには、利用者が行っている業務を再度推定する必要がある。しかしながら、位置情報などの非音声情報はそれほど変化しないため、音声認識装置５００は、「投薬変更」を含むように業務情報を変更することができない。

図６は、本実施形態に係る音声認識装置（端末）１００の動作例を示す。より具体的には、図６は、図５の事例と同じ状況での音声認識装置１００の動作例を示す。図５の事例と同様に、看護師Ａが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点では、看護師Ａが「投薬変更」業務に関連する音声を入力したとしても、業務情報に「投薬変更」が含まれていないので、図５の事例と同様に正しく認識されない可能性がある。図６に示されるように、本実施形態の音声認識装置１００では、音声認識部１０２が「投薬変更」に関連する音声情報を受けて音声認識を行い、特徴量抽出部１０３が音声認識結果から特徴量を抽出し、業務推定部１０１が抽出された特徴量を用いて業務を再推定する。再推定の結果、看護師Ａが行うと考えられる全ての業務が業務情報に含まれることになる。例えば、業務情報には、「バイタル」、「ケア」、「配膳」及び「投薬変更」が含まれるようになる。この状態で看護師Ａが「投薬変更」に関連する音声情報を再び入力すると、業務情報に「投薬変更」業務が含まれているので、音声認識部１０２は、「投薬変更」に関連する音声情報を正しく認識することができる。図６の例のように利用者の業務が瞬間的に変化する場合にも、本実施形態の音声認識装置１００は、利用者の業務に応じた音声認識を行うことができる。

図７は、本実施形態に係る音声認識装置１００の動作の他の例を示す。より具体的には、図７は、音声情報から得られる特徴量を用いて業務を詳細に推定する動作を示す。図７の事例においても、図５の事例と同様に、看護師Ａが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点で、看護師Ａが、体温を測る「バイタル」業務に関連する音声情報を入力したとする。音声認識装置１００は、この音声情報に対し音声認識を行って音声認識結果を生成する。さらに、音声認識装置１００は、その後の「バイタル」業務に関連する発声の音声認識精度をより高めるために、音声認識結果から「バイタル」業務であることを示す特徴量を抽出する。そして、音声認識装置１００は、抽出した特徴量を用いて業務を再推定する。それにより、音声認識装置１００は、直前の推定結果である「バイタル」、「ケア」及び「配膳」のなかから、看護師Ａが行っている業務が「バイタル」であると絞り込む。その後、看護師Ａが「バイタル」業務に属する体温測定結果に関連する音声情報を入力すると、音声認識装置１００は、看護師Ａが発した音声を正しく認識することができる。

図８は、比較例２に係る音声認識装置（端末）８００の動作例を示す。この事例は、正しく音声認識を行うことができない例である。前述したように、比較例２の音声認識装置８００は、音声認識結果のみを用いて業務を推定する。まず、看護師Ａは、「手術」業務を開始することを記録するために、「手術を開始します」と音声認識装置８００に向けて発声する。音声認識装置８００は、看護師Ａからの音声情報を受けて、看護師Ａが行っている業務が「手術」であると絞り込む。即ち、業務情報が「手術」のみを含む。この状態で、医師Ｂにより指定された薬を手術対象患者に投与したことを記録するために、看護師Ａが「△△を投薬しました」と発声したとする。この場合、薬剤名には大量の候補があるため、音声認識装置８００は、音声情報を誤認識する可能性が高い。薬剤名は、手術対象患者が特定されれば絞り込むことも可能であるが、看護師Ａが患者名を発声しない限り絞り込むことはできない。

図９は、本実施形態に係る音声認識装置１００の動作のさらに他の例を示す。より詳細には、図９は、図８の事例と同様の状況での音声認識装置１００の動作を示す。この事例では、音声認識装置１００は、音声認識結果を用いて看護師Ａの業務を「手術」に絞り込んでいる。さらに、図９に示されるように、音声認識装置１００は、患者ごとに付与されている無線タグからタグ情報を取得し、タグ情報から手術対象患者が患者Ｃであると特定している。手術対象患者が患者Ｃであると特定されているので、薬剤名は、患者Ｃに投与される可能性のある薬に絞り込まれている。そのため、次に看護師Ａが薬剤名を発声したときには、音声認識装置１００は、看護師Ａが発声した薬剤名を正しく認識することができる。

なお、音声認識装置１００は、図９に示されるようなタグ情報から手術対象患者を特定する例に限らず、看護師Ａのスケジュール情報などから手術対象患者を特定してもよい。

以上のように、第１の実施形態に係る音声認識装置によれば、非音声情報を用いて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から得られる情報を用いて業務を再び推定することにより、利用者が行っている業務を正しく推定することができる。従って、利用者が行っている業務に対応した音声認識手法に従って音声認識を行うことができるので、入力された音声を正しく認識することができる。即ち、音声認識精度が向上する。

［第１の実施形態の変形例１］
図１に示される音声認識装置１００は、１回の音声情報の入力に対して業務の再推定を１回だけ行っている。これに対し、第１の実施形態の変形例１に係る音声認識装置は、１回の音声情報の入力に対して業務の再推定を複数回行う。

図１０は、第１の実施形態の変形例１に係る音声認識装置１０００を概略的に示している。この音声認識装置１０００は、図１の音声認識装置１００の構成に加えて、業務推定遂行判断部１００１及び音声情報記憶部１００２を備えている。業務推定遂行判断部１００１は、業務の推定を遂行するか否かを判断する。音声情報記憶部１００２は、入力された音声情報を記憶する。

次に、図１０及び図１１を参照して、音声認識装置１０００の動作について説明する。
図１１は、音声認識装置１０００が実行する音声認識処理の一例を示している。図１１のステップＳ１１０１、Ｓ１１０２、Ｓ１１０４、Ｓ１１０６、Ｓ１１０７、Ｓ１１０８はそれぞれ図４のステップＳ４０１、Ｓ４０２、Ｓ４０３、Ｓ４０４、Ｓ４０５、Ｓ４０６と同様の処理であるので、その説明を適宜省略する。

利用者によって音声認識装置１０００が起動されると、非音声取得部１０４は、非音声情報を取得する（ステップＳ１１０１）。業務推定部１０１は、非音声情報に基づいて利用者が現在行っている業務を推定する（ステップＳ１１０２）。次に、音声情報記憶部１００２に音声情報が記憶されているか否かが判断される（ステップＳ１１０３）。音声情報記憶部１００２に音声情報が保持されていない場合、ステップＳ１１０４に進む。

音声認識部１０２は、音声情報の入力待ちを行う（ステップＳ１１０４）。音声情報が入力されない場合、ステップＳ１１０１に戻る。音声認識部１０２が音声情報を受け取ると、ステップＳ１１０５に進む。音声認識部１０２は、受け取った音声情報に対して複数回音声認識を行う場合に備えて、この音声情報を音声情報記憶部１００２に格納する（ステップＳ１１０５）。ステップＳ１１０５の処理は、次のステップＳ１１０６の後に実行されてもよい。

次に、音声認識部１０２は、業務情報に対応する音声認識手法に従って、受け取った音声情報に対して音声認識を行い（ステップＳ１１０６）、音声認識結果を出力する（ステップＳ１１０７）。特徴量抽出部１０３は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する（ステップＳ１１０８）。特徴量が抽出されると、ステップＳ１１０１に戻る。

ステップＳ１１０８で特徴量が抽出された後のステップＳ１１０２では、業務推定部１０２は、非音声情報と特徴量とに基づいて利用者が行っている業務を再推定する。続いて、音声情報記憶部１００２に音声情報が記憶されているか否かが判断される（ステップＳ１１０３）。音声情報記憶部１００２に音声情報が保持されている場合、ステップＳ１１０９に進む。業務推定遂行判断部１００１は、業務情報に基づいて、業務の再推定を再度行うか否かを判断する（ステップＳ１１０９）。業務の再推定を行うか否かの判断基準としては、例えば、音声情報取得部１０６に保持されている音声情報に対して再推定を行った回数、直前に得られた業務情報と今回得られた業務情報とが同一であるかどうか、直前に得られた業務情報と今回得られた業務情報との変化が詳細な絞り込みを行った程度の変化でしかないかなどといった業務情報の変化の程度などが挙げられる。

業務推定遂行判断部１００１が業務推定を行うと判断した場合、ステップＳ１１０６に進む。ステップＳ１１０６では、音声認識部１０２は、音声記憶部１００２に保持されている音声情報に対して音声認識を行う。ステップＳ１１０７以降の処理は前述した通りである。

ステップＳ１１０３において業務推定遂行判断部１００１が業務推定を行わないと判断した場合、ステップＳ１１１０に進む。ステップＳ１１１０では、音声認識部１０２は、音声記憶部１００２に保持されている音声情報を破棄する。その後、ステップＳ１１０４では、音声認識部１０２は、音声情報の入力待ちを行う。

このようにして、音声認識装置１０００は、１回の音声情報の入力に対して業務の再推定を複数回行う。これにより、１回の音声情報の入力で利用者の業務を詳細に推定することができる。

次に、第１の実施形態の変形例１に係る音声認識装置１０００の動作例を簡単に説明する。
音声認識装置１０００は、図７の例のように、非音声情報に基づいて「バイタル」、「ケア」及び「配膳」の３つの業務に利用者の業務を絞り込んでおり、この時点で、「投薬変更」に関連する音声情報が入力されたとする。音声認識装置１０００は、入力された音声情報に対して音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を用いて利用者が行っている業務を再推定する。再推定の結果、利用者の業務は、利用者が行っている可能性がある業務に拡大される。例えば、業務情報には、「バイタル」、「ケア」、「配膳」及び「投薬変更」が含まれる。さらに、音声認識装置１０００は、記憶されている「投薬変更」に関連する音声情報に対して再度音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を利用者が行っている業務を再推定する。その結果、利用者が行っている業務は「投薬変更」であると推定される。この後に、利用者が「投薬変更」に関連する音声情報を入力すると、音声認識装置１０００は、入力された音声情報を正しく認識することができる。

以上のように、第１の実施形態の変形例１に係る音声認識装置によれば、１回の音声情報の入力を用いて業務の再推定を複数回行うことにより、１回の音声情報の入力で利用者の業務を詳細に推定することができる。

［第１の実施形態の変形例２］
図１に示される音声認識装置１００は、音声情報の入力に対して、非音声情報に基づいて生成された業務情報に対応する音声認識手法に従って音声認識を行っている。しかしながら、図６の事例のように、音声認識結果を用いずに非音声情報を用いて利用者が行っている業務を推定し、推定の結果得られる業務情報に対応する音声認識手法に従って音声認識を行う場合、入力された音声情報を誤認識する可能性がある。第１の実施形態の変形例２に係る音声認識装置は、正しく音声認識が行われたか否かを判断し、正しく音声認識が行われたと判断した場合に音声認識結果を出力する。

図１２は、第１の実施形態の変形例２に係る音声認識装置１２００を概略的に示している。図１２に示される音声認識装置１２００は、図１に示される音声認識装置１００の構成に加えて、出力判断部１２０１を備えている。この出力判断部１２０１は、業務情報及び音声認識結果に基づいて、音声認識結果を出力するか否かを判断する。音声認識結果の出力を行うかどうかの判断基準としては、１回の音声情報の入力に対して業務の再推定を行った回数、直前に得られた業務情報と比べて今回得られた業務情報が変化したかどうか、業務情報の変化が詳細な絞り込みを行った程度の変化でしかないかなどの業務情報の変化の程度、音声認識結果の信頼度がある閾値以上であるかどうかなどが挙げられる。

次に、図１２及び図１３を参照して、音声認識装置１２００の動作について説明する。
図１３は、音声認識装置１２００が実行する音声認識処理の一例を示している。図１３のステップＳ１３０１、Ｓ１３０２、Ｓ１３０４、Ｓ１３０５、Ｓ１３０６、Ｓ１３０７はそれぞれ図４のステップＳ４０１、Ｓ４０２、Ｓ４０５、Ｓ４０３、Ｓ４０４、Ｓ４０６と同じ処理であるので、その説明を適宜省略する。

まず、利用者によって音声認識装置１２００が起動されると、非音声情報取得部１０４は、非音声情報を取得する（ステップＳ１３０１）。業務推定部１０１は、取得された非音声情報に基づいて利用者が現在行っている業務を推定し、業務情報を生成する（ステップＳ１３０２）。音声情報が入力される前では、ステップＳ１３０３及びステップＳ１３０４は省略される。

次に、音声認識部１０２は、音声情報の入力待ちを行う（ステップＳ１３０５）。音声認識部１０２は、音声情報を受け取ると、業務情報に対応する音声認識手法に従って、音声情報に対して音声認識を行う（ステップＳ１３０６）。続いて、特徴量抽出部１０３は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する（ステップＳ１３０７）。ステップＳ１３０７で特徴量が抽出されると、ステップＳ１３０１に戻る。

音声認識が実行された後のステップＳ１３０２では、業務推定部１０１は、ステップＳ１３０１で得られた非音声情報と、ステップＳ１３０７で得られた特徴量とに基づいて、利用者が現在行っている業務を再推定し、業務情報を新たに生成する。次に、出力判断部１２０１は、新たな業務情報及び音声認識結果に基づいて、音声認識結果を出力するか否かを判断する（ステップＳ１３０３）。音声認識結果を出力すると出力判断部１２０１が判断した場合、音声認識部１０２は、音声認識結果を出力する（ステップＳ１３０４）。

一方、ステップＳ１３０３において出力判断部１２０１が音声認識結果を出力しないと判断した場合、音声認識部１０２は、音声認識結果を出力せずに、音声情報の入力待ちを行う。

なお、ステップＳ１３０３とステップＳ１３０４の組は、ステップＳ１３０２の後からステップＳ１３０６の前までであれば任意のタイミングで実行されてもよい。また、出力判断部１２０１は、業務情報を用いずに、音声認識結果を出力するか否かを判断してもよい。例えば、出力判断部１２０１は、音声認識結果の信頼度の大きさに応じて音声認識結果を出力するか否かを判断する。具体的には、出力判断部１２０１は、音声認識結果の信頼度が閾値より大きければ音声認識結果を出力すると判断し、音声認識結果の信頼度が閾値以下であれば音声認識結果を出力しないと判断する。業務情報を用いない場合、ステップＳ１３０３とステップＳ１３０４の組は、ステップＳ１３０６の音声認識を実行した直後に実行されてもよく、或いは、次にステップＳ１３０６か実行される前までの任意のタイミングで実行されてもよい。

上述したように、音声認識装置１２００は、音声認識結果に基づいて、或いは、業務情報と音声認識結果との組に基づいて、音声認識結果を出力するか否かを判断している。音声認識装置１２００は、入力された音声情報を誤認識した可能性が高い場合には、音声認識結果を出力せずに、音声認識結果を用いて業務の再推定を行う。

次に、音声認識装置１２００の動作例を簡単に説明する。
図７を再び参照すると、看護師Ａが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点では、看護師Ａが「投薬変更」業務に関連する音声を入力したとしても、業務情報に「投薬変更」が含まれていないので、図６の事例と同様に正しく認識されない可能性がある。音声認識装置１２００は、入力された音声情報を誤認識した可能性があると判断し、音声認識結果を出力しない。その後、音声認識装置１２００が業務の再推定を行い、その結果、業務情報に「投薬変更」業務が含まれるようになる。業務情報に「投薬変更」業務が含まれている状態で、「投薬変更」業務に関連する音声情報が入力されると、音声認識装置１２００は、音声認識結果を正しく得られたと判断し、音声認識結果を出力する。それにより、看護師が言い直しをすることなく精度のよい音声認識結果を出力することができる。

以上のように、第１の実施形態の変形例２に係る音声認識装置は、少なくとも音声認識結果に基づいて音声認識結果を出力するか否かを判断する。それにより、入力された音声情報が正しく認識された場合に音声認識結果を出力するようにすることが可能になる。

［第１の実施形態の変形例３］
図１に示される音声認識装置１００は、特徴量抽出部１０３で得られた特徴量を業務推定部１０１に送ることにより、業務の再推定を行うように促している。第１の実施形態の変形例３に係る音声認識装置は、特徴量抽出部１０３で得られた特徴量に基づいて、業務の再推定を行う必要があるか否かを判断し、必要ありと判断した場合に業務の再推定を行う。

図１４は、第１の実施形態の変形例３に係る音声認識装置１４００を概略的に示す。この音声認識装置１４００は、図１に示される音声認識装置１００の構成に加えて、再推定判断部１４０１を備えている。この再推定判断部１４０１は、業務の再推定に用いる特徴量に基づいて、業務推定を行うか否かを判断する。

次に、図１４及び図１５を参照して、音声認識装置１４００の動作について説明する。
図１５は、音声認識装置１４００が実行する音声認識処理の一例を示している。図１５のステップＳ１５０１〜Ｓ１５０６は図４のステップＳ４０１〜Ｓ４０６と同じ処理であるので、その説明を省略する。

ステップＳ１５０６では、特徴量抽出部１０３は、ステップＳ１５０４で得られた音声認識結果から業務の再推定に用いる特徴量を抽出する。ステップＳ１５０７では、再推定判断部１４０１は、ステップＳ１５０６で得られた特徴量に基づいて、業務の再推定を行うか否かを判断する。判断方法としては、業務推定部１０１で非音声情報を用いて業務を推定する方法と同じ様に、確率モデル及びスケジュール情報を用いて、業務情報が誤っている確率を計算し、その確率が所定値以上である場合に再推定を行うと判定する方法が挙げられる。再推定判断部１４０１が再推定を行うと判断した場合、ステップＳ１５０１に戻り、業務推定部１０１は、非音声情報と特徴量とに基づいて業務の再推定を行う。

再推定判断部１４０１が再推定を行わないと判断した場合、ステップＳ１５０３に戻る。即ち、業務の再推定を行うことなく、音声認識部１０２が音声情報の入力待ちを行う。

なお、業務の推定が不要であると再推定判断部１４０１が判断した場合は、業務の再推定を行わないと説明したが、業務推定部１０１は、特徴量抽出部１０３で得られた特徴量を用いずに、非音声情報取得部１０４により取得された非音声情報に基づいて業務の推定を行ってもよい。

以上のように、音声認識装置１４００は、特徴量抽出部１０３で得られた特徴量に基づいて再推定を行う必要があるか否かを判断し、必要が無い場合は業務の推定を行わない。これにより、不要な処理を省略することができる。

（第２の実施形態）
第２の実施形態では、業務の構造を階層構造で記述できる場合について説明する。
図１６は、第２の実施形態に係る音声認識装置１６００を概略的に示している。図１６に示される音声認識装置１６００は、図１に示される音声認識装置１００の構成に加えて、言語モデル選択部１６０１を備えている。言語モデル選択部１６０１は、予め用意される複数の言語モデルから、業務推定部１０１から受け取る業務情報に従って言語モデルを選択する。本実施形態では、音声認識部１０２は、言語モデル選択部１６０１で選択された言語モデルを用いて音声認識を行う。

本実施形態では、図１７に示すように、利用者が行う業務は、その詳細度に応じて階層化されている。図１７に示される階層構造は、職種、業務大分類、及び詳細業務を有する。職種は、「看護師」、「医師」、「薬剤師」などである。業務大分類には、「外科」、「内科」、「リハビリ科」などの業務が含まれる。詳細業務には、「手術」、「バイタル」、「ケア」、「注射・点滴」、並びに、「配膳」などの業務が含まれる。言語モデルは、最下層（末端）である詳細業務に含まれる業務それぞれに対応付けられている。推定された業務が詳細業務のいずれかである場合、言語モデル選択部１６０１は、業務情報により示される業務に対応する言語モデルを選択する。例えば、業務推定部１０１によって推定された業務が「手術」である場合、「手術」に対応付けられている言語モデルが選択される。

また、推定された業務が業務大分類に含まれる業務のいずれかである場合、言語モデル選択部１６０１は、推定された業務からたどることができる複数の業務それぞれに対応付けられている複数の言語モデルを選択する。例えば、推定結果が「外科」である場合、「外科」から分岐する「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」のそれぞれに対応付けられている言語モデルが選択される。言語モデル選択部１６０１は、選択した複数の言語モデルを組み合わせて音声認識に利用する言語モデルを生成する。言語モデルを組み合わせる方法としては、各言語モデルに含まれる各単語の出現確率を選択された全ての言語モデルについて平均化する方法、各言語モデルでの音声認識結果から信頼度の高い結果を採用する方法、又は既存の他の方法を利用することができる。

一方、業務情報に複数の業務が含まれる場合、言語モデル選択部１６０１は、複数の業務それぞれに対応する言語モデルを選択し、これらを組み合わせて言語モデルを生成する。言語モデル選択部１６０１は、選択或いは生成した言語モデルを音声認識部１０２に送る。

次に、図１６及び図１８を参照して、音声認識装置１６００の動作について説明する。
図１８は、音声認識装置１６００が実行する音声認識処理の一例を示している。図１８のステップＳ１８０１、Ｓ１８０２、Ｓ１８０４、Ｓ１８０６、Ｓ１８０７はそれぞれ図４のステップＳ４０１、４０２、４０３、４０５、４０６と同じ処理であるので、その説明を適宜省略する。

まず、利用者によって音声認識装置１００が起動されると、非音声情報取得部１０１は、非音声情報を取得する（ステップＳ１８０１）。業務推定部１０１は、取得された非音声情報に基づいて、利用者が現在行っている業務を推定する（ステップＳ１８０２）。次に、言語モデル選択部１６０１は、業務推定部１０１からの業務情報に従って、言語モデルを選択する（ステップＳ１８０３）。

言語モデルが選択されると、音声認識部１０２は、音声情報の入力待ちを行う（ステップＳ１８０４）。音声認識部１０２が音声情報を受け取ると、ステップＳ１８０５に進む。音声認識部１０２は、言語モデル選択部１６０１によって選択された言語モデルを用いて、音声情報に対して音声認識を行う（ステップＳ１８０５）。

ステップＳ１８０４おいて音声情報が入力されない場合、ステップＳ１８０１に戻る。即ち、音声情報が入力されるまで、ステップＳ１８０１〜Ｓ１８０４が繰り返される。一旦言語モデルが選択された後であれば、音声情報は、ステップＳ１８０１とステップＳ１８０４との間のどのタイミングで入力されてもよい。即ち、ステップＳ１８０５の音声認識が行われる前に、ステップＳ１８０３の言語モデルの選択が行われていればよい。

ステップＳ１８０５の音声認識が終了すると、音声認識部１０２は、音声認識結果を出力する（ステップＳ１８０６）。さらに、特徴量抽出部１０３は、音声認識結果から、業務推定に用いる特徴量を抽出する（ステップＳ１８０７）。特徴量が抽出されると、ステップＳ１８０１に戻る。

このようにして、音声認識装置１６００は、非音声情報に基づいて業務を推定し、業務情報に従って言語モデルを選択し、選択した言語モデルを用いて音声認識を行った結果を、業務を再度推定する際に使用している。

業務の再推定を行う際は、既に推定されている業務を抽象化して得られる業務と既に推定されている業務を具体化して得られる業務に業務候補の範囲を限定する。それにより、効果的に業務の再推定を行うことができる。図１７の例では、推定されている業務が「外科」である場合、利用者が行っている業務の候補は「全体」、「看護師」、「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」となる。この例では、「外科」を抽象化して得られる業務は、「全体」及び「看護師」であり、「外科」を具体化して得られる業務は、「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」である。また、利用者の業務の候補を限定する際は、詳細度を用いて限定する範囲を設定してもよい。図１７の例では、推定されている業務が「看護師」である場合、詳細度の違いを１つまでに限定すると、利用者の業務の候補は「全体」及び「外科」となる。

以上のように、第２の実施形態に係る音声認識装置によれば、非音声情報に基づいて業務を推定し、業務情報に従って言語モデルを選択し、選択した言語モデルを用いて音声認識を行った結果を業務の再推定に用いることにより、利用者が行っている業務を正しく推定することができる。第２の実施形態に係る音声認識装置は、利用者が行っている業務に対応する音声認識手法に従って音声認識を行うことができるので、音声認識精度を向上することができる。

（第３の実施形態）
第１の実施形態では、業務情報に対応する音声認識手法に従って音声認識を行って得られた結果から、業務の再推定に用いる特徴量を抽出している。業務情報により示される業務とは異なる業務に対応する音声認識手法に従って音声認識を行い、音声認識結果から特徴量を抽出し、この特徴量を併用して業務の再推定を行うことにより、より高精度な業務の再推定が可能となる。

図１９は、第３の実施形態に係る音声認識装置１９００を概略的に示している。この音声認識装置１９００は、図１９に示されるように、業務推定部１０１、音声認識部（第１音声認識部ともいう）１０２、特徴量抽出部１０３、非音声情報入力部１０４、音声情報取得部１０５、関連業務選択部１９０１、及び第２音声認識部１９０２を備えている。本実施形態の業務推定部１０１は、業務情報を第１音声認識部１０２とともに関連業務選択部１９０１に送る。

関連業務選択部１９０１は、業務推定部１０１で得られた業務に基づいて、予め定められる複数の業務の中から、業務の再推定に利用する業務（以下、関連業務と呼ぶ）を選択する。一例では、関連業務選択部１９０１は、業務情報により示される業務とは異なる業務を関連業務として選択する。なお、関連業務選択部１９０１は、業務推定部１０１により推定された業務に基づいて関連業務を選択する例に限らず、常に同じ業務を関連業務として選択してもよい。さらに、選択される関連業務の数は１に限らず、複数の業務が関連業務として選択されてもよい。例えば、関連業務は、予め定められる複数の業務の全てを組み合わせたものとすることができる。或いは、絶対に間違いのない非音声情報、例えば利用者情報が取得されている場合は、関連業務は、その非音声情報に基づいて特定される若しくは絞り込まれる業務とすることができる。また、第２の実施形態のように、予め定められる業務が階層構造で記述されている場合、業務推定部１０１で推定された業務を抽象化して得られる業務を関連業務としてもよい。関連業務を示す関連業務情報は、第２音声認識部１９０２へ送られる。

第２音声認識部１９０２は、関連業務情報に対応する音声認識手法に従って音声認識を行う。第２音声認識部１９０２は、第１音声認識部１０２と同じ方法で音声認識を行うことができる。第２音声認識部１９０２で得られた音声認識結果は、特徴量抽出部１０３へ送られる。

本実施形態の特徴量抽出部１０３は、第１音声認識部１０２で得られた音声認識結果と第２音声認識部１９０２で得られた音声認識結果とを用いて、利用者が行っている業務に関連する特徴量を抽出する。抽出した特徴量は、業務推定部１０１へ送られる。どのような特徴量を抽出するかについては後述する。

次に、図１９及び図２０を参照して、音声認識装置１９００の動作について説明する。
図２０は、音声認識装置１９００が実行する音声認識処理の一例を示している。図２０のステップＳ２００１〜Ｓ２００５は、図４のステップＳ４０１〜Ｓ４０５と同じ処理であるので、その説明を省略する。

ステップＳ２００６では、関連業務選択部１９０１は、業務推定部１０１により生成された業務情報に基づいて、業務の再推定に利用する関連業務を選択し、選択した関連業務を示す関連業務情報を生成する。ステップＳ２００７では、第２音声認識部１９０２は、関連業務情報に対応する音声認識手法に従って音声認識を行う。これらのステップＳ２００６及びステップＳ２００７の組とステップＳ２００４及びステップＳ２００５の組とは逆の順序で実行されてもよく、或いは、同時に実行されてもよい。また、常に同じ業務を関連業務とする場合などのように、業務情報に応じて関連業務が変わらない場合、ステップＳ２００１の処理は任意のタイミングで実行することができる。

一例では、特徴量抽出部１０３は、第１音声認識部１０２で得られた音声認識結果の言語部分の尤度及び第２音声認識部１９０２で得られた音声認識結果の言語部分の尤度を特徴量として抽出する。なお、特徴量抽出部１０３は、これらの尤度の差を特徴量として生成してもよい。第２音声認識部１９０２で得られた音声認識結果の言語部分の尤度が第１音声認識部１０２で得られた音声認識結果の言語部分の尤度より高い場合、業務情報に示される業務とは異なる業務で音声認識した方が音声認識結果の言語部分の尤度が高くなると考えられるので、業務の再推定を行う必要がある。第１音声認識部１０２で得られた音声認識結果の言語部分の尤度及び第２音声認識部１９０２で得られた音声認識結果の言語部分の尤度を特徴量として抽出する場合、関連業務は、予め定められる複数の業務の全てを組み合わせたものであってもよく、或いは、利用者情報などの特定の非音声情報により特定される業務であってもよい。なお、上述した特徴量は適宜併用して再推定に用いてもよい。

さらに、音声認識装置１９００では、予め定められる複数の業務それぞれに対応付けられている言語モデルを用いて音声認識を行い、複数得られた音声認識結果のそれぞれの尤度を比較することにより、業務を詳細に推定することができる。また、他の文献に開示される他の方法を利用して利用者の業務が推定されてもよい。

以上のように、第３の実施形態に係る音声認識装置によれば、業務情報に対応する音声認識手法に従って音声認識を行った結果と関連業務情報に対応する音声認識手法に従って音声認識を行った結果とから得られる情報（特徴量）を業務の再推定に用いることで、第１の実施形態に係る音声認識装置よりも精度の高い業務の推定が可能となる。これにより、利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。

（第４の実施形態）
第１の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第４の実施形態では、音素認識結果から利用者が行っている業務に関連する特徴量をさらに抽出する。音声認識結果から得られる特徴量と音素認識結果から得られる特徴量とを用いて業務の再推定を行うことにより、より高精度な業務の推定が可能となる。

図２１は、第４の実施形態に係る音声認識装置２１００を概略的に示している。この音声認識装置２１００は、業務推定部１０１、音声認識部１０２、特徴量抽出部１０３、非音声情報取得部１０４、音声情報取得部１０５、音素認識部２１０１を備えている。音素認識部２１０１は、入力された音声情報に対して音素認識を行う。音素認識部２１０１は、音素認識結果を特徴量抽出部１０３に送る。本実施形態の特徴量抽出部１０３は、音声認識部１０２で得られた音声認識結果及び音素認識部２１０１で得られた音素認識結果から、業務の再推定に用いる特徴量を抽出する。特徴量抽出部１０３は、抽出した特徴量を業務推定部１０１に送る。どのような特徴量を抽出するかについては後述する。

次に、図２１及び図２２を参照して、音声認識装置２１００の動作について説明する。
図２２は、音声認識装置２１００が実行する音声認識処理の一例を示している。図２２のステップＳ２２０１〜Ｓ２２０５は、それぞれ図４のステップＳ４０１〜Ｓ４０５と同じ処理であるので、その説明を省略する。

ステップＳ２２０６では、音素認識部２１０１は、入力された音声情報に対して音素認識を行う。ステップＳ２２０６とステップＳ２２０４及びＳ２２０５の組とは逆の順序で実行されてもよく、或いは、同時に実行されてもよい。

ステップＳ２２０７では、特徴量抽出部１０３は、音声認識部１０２から受け取った音声認識結果及び音素認識部２１０１から受け取った音素認識結果から、業務の再推定に用いる特徴量を抽出する。一例では、特徴量抽出部１０３は、音素認識結果の尤度及び音声認識結果の音響部分の尤度を特徴量として抽出する。音声認識結果の音響部分の尤度は、音声認識結果の音響的確からしさを示す。より詳細には、音声認識結果の音響部分の尤度は、音声認識における確率計算で得られた音声認識結果の尤度のうち、音響モデルによって得られた尤度を示す。他の例では、特徴量は、音素認識結果の尤度と音声認識結果の音響部分の尤度との差とすることができる。音素認識結果の尤度と音声認識結果の音響部分の尤度との差が小さい場合、言語モデルで表現できる単語列に似た発声を行っていると考えられ、即ち、利用者の業務が正しく推定されていると考えられる。そのため、この特徴量を用いることで誤った業務の再推定を防ぐことができる。

以上のように、第４の実施形態に係る音声認識装置によれば、音声認識結果及び音素認識結果を用いて業務を再推定することにより、利用者が行っている業務をより高い精度で推定することが可能となる。利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。

（第５の実施形態）
第１の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第５の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出するとともに、入力された音声情報そのものから、利用者が行っている業務に関連する特徴量を抽出する。これらを併用することにより、より高精度な業務の推定が可能となる。

図２３は、第５の実施形態に係る音声認識装置２３００を概略的に示している。図２３に示される音声認識装置２３００は、図１に示される音声認識装置１００の構成に加えて、音声詳細情報取得部２２０１を備えている。

音声情報詳細取得部２２０１は、音声情報から音声詳細情報を取得し、特徴量抽出部２２０１に送る。音声詳細情報としては、音声の長さ、音声の各時間での音量又は波形などが挙げられる。

本実施形態の特徴量抽出部１０３は、音声認識部１０２から受け取る音声認識結果と音声詳細情報取得部２２０２から受け取る音声詳細情報とから、業務の再推定に用いる特徴量を抽出する。どのような特徴量を抽出するかについては後述する。

次に、図２３及び図２４を参照して、音声認識装置２３００の動作について説明する。

図２４は、音声認識装置２３００が実行する音声認識処理の一例を示している。図２４のステップＳ２４０１〜Ｓ２４０５は、図１のステップＳ４０１〜Ｓ４０５と同じ処理であるので、その説明を省略する。

ステップＳ２４０６では、音声詳細情報取得部２２０１は、入力された音声情報から、業務の再推定に利用可能な音声詳細情報を抽出する。なお、ステップＳ２４０４及びステップＳ２４０５の組とステップＳ２４０６とは、逆の順序で実行されてもよく、或いは、同時に実行されてもよい。

ステップＳ２４０７では、特徴量抽出部１０３は、音声認識部１０２で得られた音声認識結果から、利用者が行っている業務に関連する特徴量を抽出するとともに、音声詳細情報取得部２２０２で得られた音声詳細情報から、利用者が行っている業務に関連する特徴量をさらに抽出する。

音声詳細情報から抽出される特徴量は、例えば、入力された音声情報の長さ、音声情報に含まれる周囲雑音の大きさなどである。音声情報の長さが極端に短い場合、端末の操作ミスなどで間違って入力された音声情報である可能性が高い。音声情報の長さを特徴量として用いることで、間違って入力された音声情報を基に業務の再推定を行うことを防ぐことができる。また、周囲雑音が大きい場合、利用者の業務が正しく推定されていたとしても、音声認識結果に誤りが生じることがある。従って、周囲雑音が大きい場合には、業務の再推定を行わないようにする。このように、周囲雑音の大きさを用いることで、誤っている可能性がある音声認識結果を用いて業務の再推定を行うことを防ぐことができる。周囲雑音の大きさを検出する方法としては、音声情報の初めの部分は利用者の音声がないと仮定して、その部分の音の大きさを周囲雑音の大きさとする方法がある。

以上のように、第４の実施形態に係る音声認識装置によれば、入力される音声情報そのものに含まれる情報を業務の再推定に用いることで、より精度よく業務を再推定することが可能となる。利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声認識装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の無線通信装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…音声認識装置、１０１…業務推定部、１０２…音声認識部、１０３…特徴量抽出部、１０４…非音声情報取得部、１０５…音声情報取得部、２００…携帯端末、２０１…入力部、２０２…マイクロホン、２０３…表示部、２０４…無線通信部、２０５…ＧＰＳ受信機、２０６…記憶部、２０７…制御部、１０００…音声認識装置、１００１…業務推定遂行判断部、１００２…音声情報記憶部、１２００…音声認識装置、１２０１…出力判断部、１４００…音声認識装置、１４０１…再推定判断部、１６００…音声認識装置、１６０１…言語モデル選択部、１９００…音声認識装置、１９０１…関連業務選択部、１９０２…音声認識部、２１００…音声認識装置、２１０１…音素認識部、２３００…音声認識装置、２３０１…音声詳細情報取得部。

Claims

利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定部と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、第１音声認識結果を生成する第１音声認識部と、
前記第１音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出部と、
を具備し、
前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記第１音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行うことを特徴とする音声認識装置。
前記特徴量抽出部は、前記業務情報により示される業務の内容での前記第１音声認識結果に含まれる各単語の出現頻度と、前記第１音声認識結果の言語部分の尤度と、前記第１音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第１音声認識結果の単語列内に存在する回数又は割合と、の少なくとも１つを、前記特徴量として抽出することを特徴とする請求項１に記載の音声認識装置。
前記業務情報に従って、予め用意される複数の言語モデルの中から言語モデルを選択する言語モデル選択部をさらに具備し、
前記第１音声認識部は、前記選択された言語モデルを用いて音声認識を行うことを特徴とする請求項１に記載の音声認識装置。
予め定められる複数の業務が階層構造で記述され、前記複数の言語モデルがそれぞれ前記階層構造の末端に位置する複数の業務に対応付けられており、
前記言語モデル選択部は、前記業務情報により示される業務の内容に対応する言語モデルを選択することを特徴とする請求項３に記載の音声認識装置。
予め定められる複数の業務の中から業務の再推定に利用する関連業務を選択し、該選択した関連業務を示す関連業務情報を生成する関連業務選択部と、
前記関連業務情報に対応する音声認識手法に従って前記音声情報に対して音声認識を行い、第２音声認識結果を生成する第２音声認識部と、をさらに具備し、
前記特徴量抽出部は、前記第１音声認識結果及び前記第２音声認識結果から、前記特徴量を抽出することを特徴とする請求項１に記載の音声認識装置。
前記関連業務選択部は、前記複数の業務の全てを組み合わせたものと前記入力された非音声情報により特定される業務とのいずれか一方を前記関連業務として選択し、
前記特徴量抽出部は、前記第１音声認識結果の言語部分の尤度と前記第２音声認識結果の言語部分の尤度とを前記特徴量として抽出することを特徴とする請求項５に記載の音声認識装置。
前記音声情報に対して音素認識を行い、音素認識結果を生成する音素認識部をさらに具備し、
前記特徴量抽出部は、前記第１音声認識結果と前記音素認識結果とから前記特徴量を抽出することを特徴とする請求項１に記載の音声認識装置。
前記特徴量抽出部は、前記第１音声認識結果の音響部分の尤度と前記音素認識結果の尤度とを前記特徴量として抽出することを特徴とする請求項７に記載の音声認識装置。
前記特徴量抽出部は、前記第１音声認識結果と前記音声情報とから前記特徴量を抽出することを特徴とする請求項１に記載の音声認識装置。
前記特徴量抽出部は、
前記業務情報により示される業務での前記第１音声認識結果に含まれる各単語の出現頻度、前記第１音声認識結果の言語部分の尤度、及び前記第１音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第１音声認識結果の単語列内に存在する回数又は割合のうちの少なくとも１つと、
前記音声情報の長さ、及び前記音声情報に含まれる周囲雑音の大きさのうちの少なくとも１つと、を前記特徴量として抽出することを特徴とする請求項９に記載の音声認識装置。
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成することと、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成することと、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出することと、
少なくとも前記特徴量を用いて前記利用者の業務を再推定することと、
再推定の結果得られる業務情報に基づいて音声認識を行うことと、
を具備することを特徴とする音声認識方法。
コンピュータを、
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定手段と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する音声認識手段と、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出手段として機能させ、前記業務推定手段は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識手段は、再推定の結果得られる業務情報に基づいて音声認識を行う、音声認識プログラム。