JP2018091954A

JP2018091954A - 音声認識装置、及び音声認識方法

Info

Publication number: JP2018091954A
Application number: JP2016234118A
Authority: JP
Inventors: 博之常盤; Hiroyuki Tokiwa; 健太湯本; Kenta Yumoto; 野中　修; Osamu Nonaka; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2018-06-14
Also published as: US10482872B2; US20180158450A1; CN108133709B; CN108133709A

Abstract

【課題】簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供する。
【解決手段】一実施形態に係る音声認識装置は、人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、を具備する。
【選択図】図１

Description

本発明は、音声認識装置、及び音声認識方法に関する。

近年、音声を認識してテキストデータを生成する音声認識装置が実用化されている。音声認識装置は、音声を認識してテキストデータを生成する場合、誤認識が生じる可能性がある。例えば、特表２００５−５０７５３６号公報（以下、特許文献１と称する）に記載のように、認識されたテキストを修正する技術が開示されている。

特表２００５−５０７５３６号公報

特許文献１に記載の技術によると、誤認識により生じたテキストを修正する修正員は、テキストファイルを読むとともに音声を聞くことによって、欠陥があるまたは不適当であると推定されるテキスト節を修正する。即ち、手作業でテキストを修正する必要がある為、手間であるという課題がある。

本発明は、簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供することを目的とする。

一実施形態に係る音声認識装置は、人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、を具備する。

本発明によれば、簡易に高い精度で音声を認識することができる音声認識装置、及び音声認識方法を提供することができる。

図１は、一実施形態に係る音声認識装置の構成例について説明する為の説明図である。図２は、一実施形態に係る音声認識装置の撮像部及び収音部の配置の例について説明する為の説明図である。図３は、一実施形態に係る音声認識装置の動作の例について説明する為の説明図である。図４は、一実施形態に係る音声認識装置の音声認識処理の例について説明する為の説明図である。図５は、一実施形態に係る音声認識装置の子音発声フレームを特定する処理の例について説明する為の説明図である。図６は、一実施形態に係る音声認識装置の子音特定処理の例について説明する為の説明図である。図７は、一実施形態に係る音声認識装置における項目リストの例について説明する為の説明図である。図８は、一実施形態に係る音声認識装置により表示される項目別音声認識画面の例について説明する為の説明図である。図９は、一実施形態に係る音声認識装置の項目別音声認識処理の例について説明する為の説明図である。図１０は、一実施形態に係る音声認識装置の案内表示の例について説明する為の説明図である。

以下、図を参照しながら、一実施形態に係る音声認識装置及び音声認識方法について詳細に説明する。

図１は、一実施形態に係る音声認識装置１の例を示す説明図である。音声認識装置１は、音声の録音、映像の録画、及び音声の認識を行う端末である。なお、図１では、音声の録音、映像の録画、及び音声の認識を行う構成が一体になった例を示すが、音声の録音及び映像の録画を行う構成と、音声の認識を行う構成とは別体であってもよい。即ち、音声認識装置の音声の録音及び映像の録画を行う構成は、音声の録音及び映像の録画を行いファイルを生成するレコーダ（例えばＩＣレコーダなど）であってもよい。また、音声認識装置の音声の認識を行う構成は、クラウド上に置かれ、取得したファイルに基づいて音声認識を行うプログラムとして構成されていてもよい。

音声認識装置１は、音声の録音を行うことにより、音声ストリームを生成する。音声ストリームは、時間的に連続した音声を示すデータである。また、音声認識装置１は、映像の録画を行うことにより、映像ストリームを生成する。映像ストリームは、時間的に連続した映像（画像）を示すデータである。音声認識装置１は、音声ストリームと映像ストリームとを同期させて動画ファイルを生成する。さらに、音声認識装置１は、上記の動画ファイルに基づいて音声認識を行い、人物が発声した言葉に応じたテキストデータを生成する。

図１に示されるように、音声認識装置１は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、不揮発性メモリ１４、通信部１５、撮像部１６、収音部１７、表示部１８、音声再生部１９、時計部２０、姿勢センサ２１、及び操作部２２を備える。

ＣＰＵ１１は、演算処理を実行する演算素子（たとえば、プロセッサ）である。ＣＰＵ１１は、ＲＯＭ１２に記憶されているプログラムなどのデータに基づいて種々の処理を行う。ＣＰＵ１１は、ＲＯＭ１２に格納されているプログラムを実行することにより、種々の動作を実行可能な制御部として機能する。例えば、ＣＰＵ１１は、各部を制御することによって、音声の録音、映像の録画、及び音声の認識を行わせる。

ＲＯＭ１２は、読み出し専用の不揮発性メモリである。ＲＯＭ１２は、プログラム及びプログラムで用いられるデータなどを記憶する。

ＲＡＭ１３は、ワーキングメモリとして機能する揮発性のメモリである。ＲＡＭ１３は、ＣＰＵ１１の処理中のデータなどを一時的に格納する。また、ＲＡＭ１３は、ＣＰＵ１１が実行するプログラムを一時的に格納する。

不揮発性メモリ１４は、種々の情報を記憶可能な記憶媒体である。不揮発性メモリ１４は、プログラム及びプログラムで用いられるデータなどを記憶する。不揮発性メモリ１４は、例えば、ソリッドステイトドライブ（ＳＳＤ）、ハードディスクドライブ（ＨＤＤ）、または他の記憶装置である。なお、不揮発性メモリ１４の代わりに、メモリカードなどの記憶媒体を挿入可能なカードスロットなどのメモリＩ／Ｆが設けられていてもよい。

通信部１５は、他の機器と通信する為のインタフェースである。通信部１５は、他の機器と電気的に接続する為の端子、または、他の機器と無線通信する為の通信回路を備える。端子は、例えば、ＵＳＢ端子、ＬＡＮコネクタ、または他の何らかの有線接続用の端子である。通信回路は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）、またはＷｉ−Ｆｉ（登録商標）などの規格に応じて他の機器と無線通信を行う為のアンテナ及び信号処理回路を備えるものである。通信部１５は、音声認識装置１を制御する為の制御信号を他の機器から受け取り、ＣＰＵ１１に供給する構成であってもよい。

撮像部１６は、ディジタルの画像データを取得（撮像）するカメラを有する。また、撮像部１６は、画像データを連続して取得することにより、画像データが時間的に連続した映像ストリームを取得する。映像ストリームは、１枚の画像を１フレームとした複数のフレームを有する。撮像部１６は、撮像素子と、撮像素子に光を結像させる光学系とを備える。

撮像素子は、光を光電変換し電荷を蓄える画素が複数配列されて構成された撮像面を備える。画素は、入射する光の光量に応じた電気信号を生成する。撮像素子は、例えば、Charge Coupled Devices（ＣＣＤ）イメージセンサ、Complementary Metal Oxide Semiconductor（ＣＭＯＳ）イメージセンサ、または他の撮像素子により構成される。撮像面に配列された複数の画素の光が入射する面にはカラーフィルタが設けられている。撮像素子は、異なる色のカラーフィルタが設けられた複数の画素によってカラーの画像信号を生成する。

光学系は、複数のレンズが組み合わされた合成レンズである。光学系は、合成レンズの焦点距離に応じた撮像画角内の被写体からの光を撮像素子の撮像面に結像させる。光学系は、例えば焦点調節用のレンズ（フォーカスレンズ）を備えていてもよい。また、光学系は、例えば焦点距離調節用のレンズ（ズームレンズ）を備えていてもよい。

撮像部１６は、撮像素子の複数の画素により生成された電気信号を読み出し、電気信号をディジタル信号に変換することにより、ディジタルの画像データを取得する。また、撮像部１６は、撮像素子の複数の画素により生成された電気信号を連続して読み出し、電気信号をディジタル信号に変換することにより、映像ストリームを生成する。

収音部１７は、音声を取得（録音）するマイクを有する。また、収音部１７は、音声を連続して取得することにより、音声が時間的に連続した音声ストリームを取得する。収音部１７は、音声をアナログの電気信号に変換し、電気信号をディジタル信号に変換することにより、ディジタルの音声データを取得する。収音部１７は、取得した音声データに基づいて音声ストリームを生成する。即ち、撮像部１６及び収音部１７は、映像ストリーム及び音声ストリームを取得する取得部として機能する。

表示部１８は、画面を表示する表示装置を有する。表示部１８は、ＣＰＵ１１、または図示されないグラフィックコントローラなどの表示制御部から入力される映像信号に応じて画面を表示装置に表示する。

音声再生部１９は、音声を再生するスピーカを有する。音声再生部１９は、ＣＰＵ１１、または図示されないサウンドコントローラなどの音声制御部から入力される音声信号に応じて音声をスピーカから出力する。

時計部２０は、時刻を計るものである。時計部２０は、現在時刻、または経過時間などの時間に関する情報をＣＰＵ１１に供給する。

姿勢センサ２１は、音声認識装置１の図示されない筐体の姿勢を検出するセンサである。姿勢センサ２１は、筐体の姿勢の検出結果をＣＰＵ１１に供給する。例えば、姿勢センサ２１は、筐体の回転運動を検出する角速度センサである。また例えば、姿勢センサ２１は、筐体の重力方向に対する向き、及び筐体の変位を検出する加速度センサであってもよい。

操作部２２は、操作部材の操作に基づいて、操作信号を生成する。操作部材は、例えば操作キー、またはタッチセンサなどである。タッチセンサは、ある領域内において指定された位置を示す情報を取得する。タッチセンサは、上記の表示部１８と一体にタッチパネルとして構成されることにより、表示部１８に表示された画面上のタッチされた位置を示す信号をＣＰＵ１１に入力する。

ＣＰＵ１１は、ＲＯＭ１２または不揮発性メモリ１４などに記憶されているプログラムを実行することによって、録音処理、音声認識処理、項目別音声認識処理、及び辞書更新処理などを音声認識装置１に実行させる。項目別音声認識処理の項目については後述する。

録音処理は、音声認識装置１が音声ストリームと映像ストリームとを取得する処理である。録音処理を行う場合、ＣＰＵ１１は、収音部１７により音声ストリームを生成し、撮像部１６により映像ストリームを生成し、音声ストリーム及び映像ストリームに基づいて動画ファイルを生成し、動画ファイルを不揮発性メモリ１４に記録する。なお、動画ファイルの映像ストリームは、開始から終了までの間音声ストリームに同期したものでなくてもよい。動画ファイルの映像ストリームは、少なくとも人物が発声している間に録画されたものであればよい。例えば、ＣＰＵ１１は、通信部１５などの取得部によって外部から映像ストリーム及び音声ストリームを取得する構成であってもよい。

さらに、ＣＰＵ１１は、音声認識装置１が音声ストリームと映像ストリームとを取得する場合、口を写すように促す構成であってもよい。例えば、ＣＰＵ１１は、撮像部１６のレンズを口に向けることを促す情報を表示部１８または音声再生部１９から出力する構成であってもよい。またさらに、ＣＰＵ１１は、映像ストリームに基づいて人物の少なくとも口が写っているか否か判定し、人物の口が写っていない場合に口を映すように促す構成であってもよい。

例えば、図２に示されるように、撮像部１６のレンズ及び収音部１７のマイクは、音声認識装置１の筐体の同じ面に設けられている。人物が音声認識装置１を手に持った状態で声を発声する場合、収音部１７のマイクを口に向けることが想定される。撮像部１６のレンズが収音部１７のマイクと同じ面に設けられていることにより、収音部１７のマイクを口に向けた場合に撮像部１６のレンズも人物の口に向くことになる。即ち、図２に示されるように、音声認識装置１の撮像部１６のレンズが人物の口に向けられている場合、撮像部１６の撮像画角に人物の口が写る。ＣＰＵ１１は、映像ストリームのフレームに人物の口が写っているか否かを画像認識を行うことによって判断する。また、ＣＰＵ１１は、姿勢センサ２１の検出結果に応じて人物の口が写っているか否か判断してもよい。例えば、姿勢センサ２１により音声認識装置１の撮像部１６のレンズの光軸が水平よりも下方に向けられていることが検出された場合、ＣＰＵ１１は、人物の口が写っていないと判断してもよい。また、例えば、姿勢センサ２１により音声認識装置１の撮像部１６のレンズの光軸が鉛直に向けられている場合、ＣＰＵ１１は、人物の口が写っていないと判断してもよい。

音声認識処理は、音声ストリームと、映像ストリームとに基づいて人物が発声した言葉に応じたテキストデータを生成する処理である。音声認識処理を行う場合、ＣＰＵ１１は、音声ストリームの音の波形と、予め記憶された音響モデルとを比較し、母音及び子音などを認識する。即ち、ＣＰＵ１１は、音声ストリームに基づいて人物が発声した子音を含む音声を認識する音声認識部として機能する。

音響モデルは、例えば、母音及び子音などの音の要素毎に予め生成された音の波形である。音響モデルは、不揮発性メモリ１４またはＲＯＭ１２などに予め記憶される。例えば、ＣＰＵ１１は、音声ストリームの音の波形と音響モデルの波形とを比較し、類似度が高い音響モデルに対応した母音及び子音などを認識する。なお、音声認識装置１は、例えば言語または項目毎に異なる複数の音響モデルを不揮発性メモリ１４に予め記憶する構成であってもよい。

さらに、ＣＰＵ１１は、映像ストリームに基づいて、発声を行う場合の人物の口の形状の変化を認識する。ＣＰＵ１１は、認識した口の形状の変化に基づいて、人物が発声している子音を推定する。例えば、ＣＰＵ１１は、認識した口の形状の変化と、予め記憶された口形モデルとを比較し、人物が発声している子音を推定する。即ち、ＣＰＵ１１は、映像ストリームの人物の口の形状に基づいて人物が発声した子音を推定する子音推定部として機能する。ＣＰＵ１１は、子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正する。即ち、ＣＰＵ１１は、子音の推定結果と音声ストリームに基づく子音の認識結果とに基づいて子音を特定する子音特定部として機能する。

口形モデルは、例えば、子音毎の口の形状の変化を示すものである。口形モデルは、不揮発性メモリ１４に予め記憶される。例えば、ＣＰＵ１１は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した子音を、人物が発声している子音として推定する。なお、音声認識装置１は、例えば言語または項目毎に異なる複数の口形モデルを不揮発性メモリ１４に予め記憶する構成であってもよい。また、口形モデルは、例えば、母音毎の口の形状の変化を示すものをさらに含んでいてもよい。この場合、ＣＰＵ１１は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した母音を、人物が発声している母音として推定してもよい。例えば、外国語のように、普段、使っていない言語の教材などには、ビデオや写真、イラストなどを使って説明しているものがあるが、こうした画像データなどは、そのまま推定時の教師画像のように利用することが出来る。こうした教師画像で深層学習した結果で、上記推定時の判断を行っても良い。

さらに、ＣＰＵ１１は、母音及び子音の認識結果と、予め記憶された辞書（単語認識辞書）とに基づいて単語を認識し、単語の認識結果に基づいてテキストデータを生成する。

単語認識辞書は、単語と子音及び母音の組み合わせとが対応付けられたものである。単語認識辞書は、不揮発性メモリ１４に予め記憶される。ＣＰＵ１１は、単語認識辞書を参照することにより、子音及び母音の組み合わせから単語を認識することができる。即ち、ＣＰＵ１１は、単語認識辞書を参照することにより、母音及び子音の認識結果に応じた単語を単語認識辞書から取得する。なお、音声認識装置１は、言語または項目毎に異なる複数の単語認識辞書を不揮発性メモリ１４に予め記憶する構成であってもよい。例えば、音声認識装置１は、項目ごとに複数の異なる単語認識辞書を不揮発性メモリ１４に予め記憶する構成であってもよい。

項目別音声認識処理は、予め設定された項目毎に録音処理及び音声認識処理を行う処理である。項目は、認識対象の音声の種類を示すものである。項目は、音声認識装置１が適用される分野に応じて適宜設定される。例えば、音声認識装置１が医療分野のディクテーションに用いられる場合、項目は、名前、年齢、性別、患部、診察結果、及び日付などである。これらの項目は、予め記憶されたものであってもよいし、操作部２２による操作に応じて生成されたものであってもよい。これらの項目は、項目リストとして音声認識装置１に記憶される。項目リストについては後述する。また、項目によって発声される子音、母音、単語などに偏りが存在する。この為、上記のように、単語認識辞書、口形モデル、及び音響モデルが項目ごとに予め記憶されていてもよい。

項目別音声認識処理を行う場合、ＣＰＵ１１は、予め設定された項目毎に発声を促し、項目毎に音声認識装置１により音声ストリーム及び映像ストリームを取得する。ＣＰＵ１１は、音声ストリームと、映像ストリームと、項目に応じた辞書とに基づいて、人物が発声した単語を認識する。

具体的には、ＣＰＵ１１は、予め設定された複数の項目のうちの１つを選択する。ＣＰＵ１１は、撮像部１６のレンズを口に向けることを促す情報及び選択した項目を示す情報を、表示部１８または音声再生部１９から出力し、撮像部１６及び収音部１７により音声ストリーム及び映像ストリームを取得する。

ＣＰＵ１１は、音声ストリームの音の波形と、予め記憶された音響モデルとを比較し、母音及び子音などを認識する。ＣＰＵ１１は、映像ストリームに基づいて、発声を行う場合の人物の口の形状の変化を認識する。ＣＰＵ１１は、認識した口の形状の変化と口形モデルとに基づいて、人物が発声している子音を推定する。ＣＰＵ１１は、子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正する。

ＣＰＵ１１は、母音及び子音の認識結果と、単語認識辞書とに基づいて単語を認識し、単語の認識結果に基づいてテキストデータを生成する。この場合、ＣＰＵ１１は、選択した項目に応じた単語認識辞書を参照し、母音及び子音の認識結果に応じた単語を認識し、単語の認識結果に基づいてテキストデータを生成する。

辞書更新処理は、上記の単語認識辞書、音響モデル、及び口形モデルなどの更新を行う処理である。ＣＰＵ１１は、例えば、通信部１５を介して他の機器から単語認識辞書、音響モデル、及び口形モデルを受信した場合、受信した単語認識辞書、音響モデル、及び口形モデルを不揮発性メモリ１４に記憶されている単語認識辞書、音響モデル、及び口形モデルに上書きする。なお、単語認識辞書、音響モデル、及び口形モデルは、個別に更新されてもよい。また、単語認識辞書、音響モデル、及び口形モデルの更新が不要である場合、単語認識辞書、音響モデル、及び口形モデルは、不揮発性メモリ１４ではなくＲＯＭ１２に記憶されていてもよい。

図３は、音声認識装置１の動作の例を示すフローチャートである。音声認識装置１のＣＰＵ１１は、操作部２２による操作、または通信部１５を介して入力される制御信号に応じて種々の動作を実行する。

まず、ＣＰＵ１１は、録音処理を実行するか否か判断する（ステップＳ１１）。ＣＰＵ１１は、録音処理を実行する操作が操作部２２によって入力された場合、または通信部１５により録音処理を実行することを指示する情報が入力された場合、録音処理を実行すると判断する。ＣＰＵ１１は、録音処理を実行すると判断した場合（ステップＳ１１、ＹＥＳ）、撮像部１６及び収音部１７により音声ストリーム及び映像ストリームを取得する録音処理を実行する（ステップＳ１２）。

次に、ＣＰＵ１１は、音声認識処理を実行するか否か判断する（ステップＳ１３）。ＣＰＵ１１は、音声認識処理を実行する操作が操作部２２によって入力された場合、または通信部１５により音声認識処理を実行することを指示する情報が入力された場合、音声認識処理を実行すると判断する。ＣＰＵ１１は、音声認識処理を実行すると判断した場合（ステップＳ１３、ＹＥＳ）、取得した音声ストリーム及び映像ストリームに基づいて音声認識処理を実行する（ステップＳ１４）。

次に、ＣＰＵ１１は、項目別音声認識処理を実行するか否か判断する（ステップＳ１５）。ＣＰＵ１１は、項目別音声認識処理を実行する操作が操作部２２によって入力された場合、または通信部１５により項目別音声認識処理を実行することを指示する情報が入力された場合、項目別音声認識処理を実行すると判断する。ＣＰＵ１１は、項目別音声認識処理を実行すると判断した場合（ステップＳ１５、ＹＥＳ）、撮像部１６及び収音部１７により項目ごとに音声ストリーム及び映像ストリームを取得し、取得した音声ストリーム及び映像ストリームに基づいて項目ごとに音声を解析する項目別音声認識処理を実行する（ステップＳ１６）。

次に、ＣＰＵ１１は、辞書更新処理を実行するか否か判断する（ステップＳ１７）。ＣＰＵ１１は、辞書更新処理を実行すると判断した場合（ステップＳ１７、ＹＥＳ）、通信部１５を介して取得した単語認識辞書、音響モデル、及び口形モデルなどにより辞書更新処理を実行する（ステップＳ１８）。

ＣＰＵ１１は、録音処理を実行した場合、音声認識処理を実行した場合、項目別音声認識処理を実行した場合、またはステップＳ１７で辞書更新処理を実行しないと判断した場合（ステップＳ１７、ＮＯ）、処理を終了する。また、ＣＰＵ１１は、録音処理を実行した場合、音声認識処理を実行した場合、項目別音声認識処理を実行した場合、またはステップＳ１７で辞書更新処理を実行しないと判断した場合（ステップＳ１７、ＮＯ）、ステップＳ１１の処理に戻ってもよい。

図４は、音声認識装置１が実行する音声認識処理の例を示すフローチャートである。なお、ここでは、録音処理によって既に生成された動画ファイルの音声ストリーム及び映像ストリームに基づいて、音声認識装置１が音声認識を行う例を示す。しかし、録音処理と音声認識は同時に行われてもよい。即ち、音声認識装置１は、録音処理によって逐次生成される音声ストリーム及び映像ストリームに基づいて、音声認識処理を行う構成であってもよい。

まず、音声認識装置１のＣＰＵ１１は、音声ストリームを取得する（ステップＳ２１）。例えば、ＣＰＵ１１は、動画ファイルを再生することにより音声ストリームを取得する。

ＣＰＵ１１は、映像ストリームを取得する（ステップＳ２２）。例えば、ＣＰＵ１１は、動画ファイルを再生することにより映像ストリームを取得する。

ＣＰＵ１１は、取得した音声ストリームに基づいて音声認識を行う（ステップＳ２３）。例えば、ＣＰＵ１１は、音声ストリームの音の波形と、音響モデルとを比較し、母音及び子音などを認識する。

ＣＰＵ１１は、音声ストリームに基づく母音及び子音の認識結果と、映像ストリームとに基づいて、子音を特定する子音特定処理を行う（ステップＳ２４）。これにより、ＣＰＵ１１は、音声ストリーム及び映像ストリームから母音及び子音を認識する。

以下、子音特定処理について説明する。
母音及び子音は、舌の形、唇の形、及び顎の開閉度などによって変化する。母音は、声帯の震動を伴って一定時間継続可能な有声音である。子音は、口の中で空気の流れが妨害されることによって発声される音である。例えば、日本語は、無声破裂音、無声破擦音、無声摩擦音、鼻音、半母音、または流音などの子音と、母音と、により音韻が成り立っている。

母音は、舌の形、唇の形、及び顎の開閉度などによって決まる。これに対し、子音は、口の中での空気の流れを変える為の舌の動き及び形状、顎の動き及び形状、並びに息の制御などの時間的な変化によって決まる。この為、母音を母音の発声時の唇の形状から特定することは、子音の特定に比べて容易である。

また、息の制御によって区別される子音の例として、持続時間の長短によって区別される長子音、及び短子音などがある。また、息の制御によって区別される子音の例として、瞬間的に勢いのある息によって生じる破裂音及び濁音がある。このような息の制御は、言語、地域差、及び個人差などによって異なる場合がある。この為、人物が正確に息の制御を行うことができていない可能性がある。例えば、同じ日本人でも、地方によっては、「ｈ」と「ｃ」、「ｌ」と「ｒ」などの子音が正確に区別されていない場合がある。また、例えば、ある人物が母国語では区別されていない子音を発音する場合、ネイティブの舌の動き及び形状、顎の動き及び形状、並びに息の制御を真似ることが難しい場合がある。この為、人物が、子音の違いを強調しようとして発声する場合、人物の表情に変化（こわばるなど）が生じる可能性がある。つまり、空気の流れを舌や顎や息の経時変化を制御することによって、口の形状のみならず、顔全体の表情、ひいては姿勢の変化も引き起こしやすく、このような画像の変化情報を考慮して、発話者の意図を読み取る事は、非常に重要かつ効果的であるので、母音の判定以上に画像を考慮した判定は効果を奏する。

上記のような理由によって、音声のみで子音及び母音を正確に認識することは困難である。この為、音声認識装置１は、頭子音から母音に到るまでの過程を解析することによって、子音の認識の正確性を向上させる。

例えば、ある人物が母国語では区別されていない子音（例えば「ｌ」と「ｒ」）を発音する場合に、口をリラックスさせた状態で「ｌ」を発声し、唇を突き出した状態で「ｒ」を発声するとする。このような場合、音声では「ｌ」と「ｒ」との違いを区別することが難しい場合がある。しかしながら、上記のように、「ｌ」と「ｒ」では舌の形、唇の形、及び顎の開閉度などが異なることが推定される。この為、音声認識装置１は、子音の発声から母音の発声に到るまでの子音発声フレームを用いて、人物の口の形状の変化を解析することによって、子音の認識の正確性を向上させる。もちろん、口形状の変化とした部分は、一瞬の口の形の離散的な時系列変化のみならず、連続した変化、特定の口の形状になるまでの画像変化の過程、口の変化であってもよく、顔の下半分の変化であってもよく、顔をこわばらせているかどうかなど、顔全体の変化、表情の変化のような画像変化であってもよい。前述のように、口などの発話に重要な部位の基本的な変化のみならず、口の近傍や、連携して動く人体部位の画像を利用してもよい。口の特定部分の陰影やコントラストが不足してその変化画像が判定しきれない場合は、顎の部分の画像、口の周りの皺やたるみ具合、顔のこわばりの陰影変化などを併用、代用してもよい。形状変化は母音など特定の形状への収束過程である場合が多いが、振幅や振動を伴うものがある。さらに様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用したりしてもよい。また、特定のパターン光を顔の特定部位に照射して、その変化を見ても良い。日本語のように、子音の後に母音が来る事が多い言語では、母音に到る過程を重視してもよいが、子音で終わる言葉も多い。この場合は、母音に依存せず、声帯を振動や上下唇の開き方、形状を検出して類推してもよい。この場合、話者は、舌先を、上前歯の裏歯茎や上前歯の先端に付ける、舌先端のみで空気の流れを制御するなどを試みるので、口の隙間等から舌の位置の画像が検出できれば確実だが、表情から推測してもよい。

図５は、子音発声フレームを特定する処理について説明する為の説明図である。図５の（ａ）及び（ｂ）の横軸は時間を示す。ここでは、上述の変化のうち、基本的な部位の基本的な考え方を単純化して説明するために、口の開口面積のような観点で説明をしているが、もっと様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用してもよい。こうした画像部位や変数が多くなれば、人工知能の深層学習などを利用する方法もあるが、フローチャートや遷移図等を利用して説明できるようにあえて単純化した説明を行う。図５の（ａ）の縦軸は、人物の口の開口面積を示す。即ち、図５のグラフ４１は、ある音韻を人物が「ｒａ」と発声した場合の人物の口の開口面積の変化を示す。図５の（ｂ）の縦軸は、ある音韻を人物が「ｒａ」と発声した場合の人物の口の横幅と縦幅との比を示す。例えば、図５の（ｂ）の縦軸は、人物の口の横幅に対する縦幅の比を示す。即ち、図５のグラフ４２は、人物の口の横幅と縦幅との比の変化を示す。即ち、図５のグラフ４１及びグラフ４２は、人物の口の形状の変化を示す。また、図５の（ｃ）は、少なくとも発声している人物の口が写ったフレームが連続した映像ストリームの例を示す。

まず、ＣＰＵ１１は、母音を検出する。ＣＰＵ１１は、例えば、音声ストリームと音響モデルとに基づいて母音を検出する。また、ＣＰＵ１１は、映像ストリームと口形モデルとに基づいて母音を検出する構成であってもよい。また、ＣＰＵ１１は、映像ストリームに基づいて、発声を行っている人物の喉の震えを検出し、検出した喉の震えに基づいて母音を検出する構成であってもよい。前述のように、口などの発話に重要な部位の基本的な変化のみならず、口の近傍や、連携して動く人体部位の画像を利用してもよく、ここでは喉を利用している。ただ、喉はコントラストがない場合があり、変化も小さいので、その震え画像が判定しきれない場合は、顎の部分の画像、口の周りの皺やたるみ具合、頬の変化や、顔のこわばりの陰影変化などで代用してもよい。ここで振動という観点で説明をしているが、必ずしも振幅が何度も起こる必要もなく、１回の振幅変化なども含まれる。この振幅や振動以外にも、様々なファクターや数値を合わせて採用したり、特定の状況に応じて、別の画像解析方法を代用したりしてもよい。また、特定のパターン光を喉や口元、頬などに照射して、その変化を見ても良い。このように、音の情報のみならず、画像情報を併用して母音を判定してもよい。

例えば、タイミングｔ２において母音（本例では「ａ」）が検出されたとする。この場合、ＣＰＵ１１は、タイミングｔ２より前のタイミングｔ１からタイミングｔ２までの間の映像ストリームから子音発声フレームを特定する。ＣＰＵ１１は、タイミングｔ１からタイミングｔ２までのフレームの中から少なくとも１つ以上のフレームを子音（本例では「ｒ」）が発声された子音発声フレームとして特定する。なお、ＣＰＵ１１は、タイミングｔ１からタイミングｔ２までの全てのフレームを子音発声フレームとして特定する構成であってもよい。

タイミングｔ１は、例えば、タイミングｔ２より所定時間前のタイミングである。タイミングｔ１は、映像ストリームに基づいてＣＰＵ１１が決定したタイミングであってもよい。例えば、ＣＰＵ１１は、タイミングｔ２より所定時間以内であって、開口面積が所定の値以上になったタイミングをタイミングｔ１として決定する。また、例えば、ＣＰＵ１１は、タイミングｔ２より所定時間以内であって、口の横幅と縦幅との比が所定の値以上になったタイミングをタイミングｔ１として決定してもよい。また、例えば、ＣＰＵ１１は、タイミングｔ２より所定時間以内であって、所定の音量以上の音が録音されたタイミングを音声ストリームから検出し、検出したタイミングをタイミングｔ１として決定してもよい。また、例えば、ＣＰＵ１１は、タイミングｔ２より所定時間以内であって、且つ開口面積が所定の値以上になったタイミング、口の横幅と縦幅との比が所定の値以上になったタイミング、及び所定の音量以上の音が録音されたタイミングのうちのいずれかのタイミングより所定時間前のタイミングをタイミングｔ１として決定してもよい。開口面積が所定の値以上になったタイミング、口の横幅と縦幅との比が所定の値以上になったタイミング、及び所定の音量以上の音が録音されたタイミングは、それぞれ人物が発声を開始したタイミングに近いことが推測される。この為、上記のようにタイミングｔ１を決定することにより、人物が発声を始めるタイミングを子音発声フレームの先頭にすることができる。

図６は、図４のステップＳ２６に対応する子音特定処理について説明する為の説明図である。

ＣＰＵ１１は、音声ストリームに基づく音声認識の結果から、母音に対応するタイミングを検出する（ステップＳ４１）。

ＣＰＵ１１は、検出された母音に対応するタイミングに基づいて、子音が発声されていることが推定される映像ストリーム中のフレームである子音発声フレームを特定する（ステップＳ４２）。

ＣＰＵ１１は、特定した子音発声フレームにおける人物の口の形状の変化を認識し、認識した人物の口の形状の変化と、口形モデルとに基づいて、子音を推定する（ステップＳ４３）。ＣＰＵ１１は、認識した口の形状の変化と、口形モデルが示す口の形状の変化とを比較し、類似度が高い口形モデルに対応した子音を、人物が発声している子音として推定する。

口の形状の変化は、１つの子音発声フレームにおける開口面積であってもよいし、１つの子音発声フレームにおける口の横幅と縦幅との比であってもよいし、１つの子音発声フレームにおける開口面積と、口の横幅と縦幅との比と、を組み合わせて数値化したものであってもよい。

また、口の形状の変化は、複数の子音発声フレームにおける開口面積の変化を示すものであってもよいし、複数の子音発声フレームにおける口の横幅と縦幅との比の変化を示すものであってもよいし、複数の子音発声フレームにおける開口面積の変化と、口の横幅と縦幅との比の変化と、を組み合わせて数値化したものであってもよい。

ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果とを比較する（ステップＳ４４）。

ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致するか否か判断する。（ステップＳ４５）。

ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致すると判断した場合（ステップＳ４５、ＹＥＳ）、一致した比較結果に基づいて子音を特定する（ステップＳ４６）。即ち、ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果及び音声認識による子音の認識結果を採用し、子音を特定し、子音特定処理を終了する。

ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果が一致しないと判断した場合（ステップＳ４５、ＮＯ）、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果とのいずれかを採用して子音を特定し（ステップＳ４７）、子音特定処理を終了する。なお、ＣＰＵ１１は、口の形状の変化に基づく子音の推定結果と、音声認識による子音の認識結果との比較結果とで予め設定された方を採用する。また、ＣＰＵ１１は、口の形状の変化に基づく子音の推定と、音声認識による子音の認識と、を行う際に子音毎にスコアを算出し、算出されたスコアを子音毎に加算し、加算されたスコアに応じて子音を特定する構成であってもよい。

また、音声認識装置１が言語または項目毎に異なる複数の口形モデルを記憶する構成である場合、ＣＰＵ１１は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した口形モデルを用いてステップＳ４３の処理を実行する構成であってもよい。

なお、ＣＰＵ１１は、操作部２２による操作入力、または通信部１５を介して他の機器から供給される情報などに基づいて、認識対象の音声の言語または項目を判断する。

ＣＰＵ１１は、上記の子音特定処理を完了すると、図４のステップＳ２５の処理に移行する。即ち、ＣＰＵ１１は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて、単語を認識可能か否か判断する（ステップＳ２５）。例えば、ＣＰＵ１１は、音声認識によって認識した母音及び子音特定処理により特定した子音と、単語認識辞書とに基づいて単語を認識可能か否か判断する。具体的には、ＣＰＵ１１は、単語認識辞書を参照し、音声認識によって認識した母音及び子音特定処理により特定した子音の組み合わせに応じた単語が単語認識辞書から取得可能か否か判断する。

ＣＰＵ１１は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて単語を認識可能ではないと判断した場合（ステップＳ２５、ＮＯ）、ステップＳ２１の処理に移行し、再度ステップＳ２１乃至ステップＳ２５を実行する。

また、ＣＰＵ１１は、音声認識によって認識した母音及び子音特定処理により特定した子音に基づいて単語を認識可能であると判断した場合（ステップＳ２５、ＹＥＳ）、音声認識によって認識した母音及び子音特定処理により特定した子音に応じた単語を単語認識辞書から取得することにより、単語を認識する（ステップＳ２６）。

ＣＰＵ１１は、単語の認識結果に基づいてテキストデータを生成する（ステップＳ２７）。

ＣＰＵ１１は、音声認識処理を終了するか否か判断する（ステップＳ２８）。ＣＰＵ１１は、音声認識処理を終了しないと判断した場合（ステップＳ２８、ＮＯ）、ステップＳ２１の処理に移行し、再度ステップＳ２１乃至ステップＳ２７を実行する。

ＣＰＵ１１は、音声認識処理を終了すると判断した場合（ステップＳ２８、ＹＥＳ）、図４の音声認識処理を終了する。例えば、ＣＰＵ１１は、音声ストリーム及び映像ストリームの終端まで音声認識処理を行った場合、音声認識処理を終了すると判断する。また、ＣＰＵ１１は、音声認識処理を終了する操作が入力された場合、音声認識処理を終了すると判断する。

なお、音声認識装置１が言語または項目毎に異なる複数の音響モデルを記憶する構成である場合、ＣＰＵ１１は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した音響モデルを用いてステップＳ２３の処理を実行する構成であってもよい。

また、音声認識装置１が言語または項目毎に異なる複数の単語認識辞書を記憶する構成である場合、ＣＰＵ１１は、認識対象の音声の言語または項目を判断し、判断した言語または項目に対応した単語認識辞書を用いてステップＳ２７及びステップＳ２６の処理を実行する構成であってもよい。

上記した構成によると、音声認識装置１は、音声ストリームから子音及び母音を認識し、音声ストリームに同期した映像ストリームにおいて子音を発声している子音発声フレームを音声ストリームに基づく母音の認識結果に応じて特定する。さらに、音声認識装置１は、子音発声フレームにおける人物の口の形状の変化に基づいて、人物が発声している子音を推定する。これにより、音声認識装置１は、音声ストリームに基づく子音の認識結果と、映像ストリームに基づく子音の推定結果と、に基づいて子音を特定することができる。この結果、音声認識装置１は、音声認識の精度を向上させることができる。

次に、項目別音声認識処理について説明する。
音声認識装置１は、逐次生成される音声ストリーム及び映像ストリームに基づいて、項目別音声認識処理を行う構成であるとして説明する。この為に、音声認識装置１は、項目別音声認識処理を行う項目を示す項目リストを予め記憶する。項目は、上記したように認識対象の音声の種類を示すものである。項目リストは、認識対象の音声の種類の一覧、即ち、項目の一覧を示すものである。項目リストは、予め記憶されたものであってもよいし、操作部２２による操作に応じて生成されたものであってもよい。また、項目リストは、操作部２２による操作に応じて修正可能に構成されている。

図７は、項目リストの例を示す。本例では、音声認識装置１が医療分野のディクテーションに用いられる例について説明する。図７に示されるように、項目は、例えば、名前、年齢、性別、患部、診察結果、及び日付などである。

また、例えば、項目リストの中の項目には、優先度が設定されている。図７の例では、名前、年齢、性別、患部、診察結果、日付の順に高い優先度が設定されている。例えば、ＣＰＵ１１は、優先度が高い順に音声認識処理を行う。

また、例えば、項目リストの中の各項目には、種々の特徴が対応付けられている。例えば、項目リストの中の各項目に対応付けられる特徴は、その項目がどのような項目であるのかを示す情報（第１の特徴）である。例えば、第１の特徴は、認識結果の単語が適正な単語であるか否かをＣＰＵ１１に判断させる為の情報である。ＣＰＵ１１は、認識結果の単語が第１の特徴の設定に応じたものであると判断した場合、認識結果の単語が適正であると判断する。例えば、項目が「名前」である場合、単語が適正な単語であるのか否かをＣＰＵ１１に判断させることができない為、第１の特徴は、ブランクとして設定される。また、例えば、項目が「年齢」である場合、第１の特徴として年齢を示す数字などが設定される。また、例えば、項目が「性別」である場合、第１の特徴として性別を示す単語が設定される。また、例えば、項目が「患部」である場合、第１の特徴として患部を示す特定単語（即ち患部のリストを示す患部辞書）が設定される。また、例えば、項目が「診察結果」である場合、第１の特徴として診察結果を示す特定単語（即ち診察結果のリストが科別に設定された科別辞書）が設定される。また、例えば、項目が「日付」である場合、第１の特徴として日付を示す単語が設定される。

また、例えば、項目リストの中の各項目に対応付けられる特徴は、その項目について録音処理を行う時間を示す情報（第２の特徴）である。ＣＰＵ１１は、ある項目について録音処理を行う場合に、その項目に対応した第２の特徴が示す時間だけ録音処理を行う。例えば、項目が「名前」である場合、第２の特徴として「最大５秒」が設定される。また、例えば、項目が「年齢」である場合、第２の特徴として「最大１秒」が設定される。また、例えば、項目が「性別」である場合、第２の特徴として「最大１秒」が設定される。また、例えば、項目が「患部」である場合、第２の特徴として「最大２秒」が設定される。また、例えば、項目が「診察結果」である場合、第２の特徴として「最大数分」が設定される。また、例えば、項目が「日付」である場合、第２の特徴として「最大１秒」が設定される。

また、例えば、項目リストの中の各項目に対応付けられる特徴は、その項目の単語数、及び音節数などを示す情報（第３の特徴）である。例えば、第３の特徴は、認識結果の単語が適正な単語であるか否かをＣＰＵ１１に判断させる為の情報である。ＣＰＵ１１は、認識結果の単語数及び音節数が第３の特徴の設定に応じたものであると判断した場合、認識結果の単語が適正であると判断する。例えば、項目が「名前」である場合、第３の特徴として「単語数個、音節数個まで」が設定される。また、例えば、項目が「年齢」である場合、第３の特徴として「単語３個、音節３個まで」が設定される。また、例えば、項目が「性別」である場合、第３の特徴として「単語１個、音節２個まで」が設定される。また、例えば、項目が「患部」である場合、第３の特徴として「単語数個、各単語の音節が数個まで」が設定される。また、例えば、項目が「診察結果」または「日付」である場合、単語数及び音節数で認識結果が適正であるか否かを判断することが難しい為、第３の特徴としてブランク（限定なし）が設定される。

ＣＰＵ１１は、項目別音声認識処理を実行する場合、上記の項目リストに応じて、項目別音声認識処理を実行する為の画面（項目別音声認識画面）５１を表示部１８に表示する。

図８は、項目別音声認識画面５１の例を示す。項目別音声認識画面５１は、第１の表示欄５２、第２の表示欄５３、第３の表示欄５４、第４の表示欄５５、第５の表示欄５６、第６の表示欄５７、第７の表示欄５８、第８の表示欄５９、スタートボタン６０、第１のインジケータ６１、第２のインジケータ６２、第３のインジケータ６３、第４のインジケータ６４、第５のインジケータ６５、第６のインジケータ６６、アップロードボタン６７、及び終了ボタン６８などの表示を有する。第１の表示欄５２、第２の表示欄５３、第３の表示欄５４、第４の表示欄５５、第５の表示欄５６、第６の表示欄５７、第７の表示欄５８、第８の表示欄５９、スタートボタン６０、第１のインジケータ６１、第２のインジケータ６２、第３のインジケータ６３、第４のインジケータ６４第４の第４のインジケータ６４、第５のインジケータ６５、第６のインジケータ６６、アップロードボタン６７、及び終了ボタン６８は、それぞれ操作部２２によって選択操作が可能な状態で項目別音声認識画面５１に表示される。

ＣＰＵ１１は、項目リストに含まれる項目に応じて、第１の表示欄５２、第２の表示欄５３、第３の表示欄５４、第４の表示欄５５、第５の表示欄５６、及び第６の表示欄５７を項目別音声認識画面５１に表示する。なお、ここでは、ＣＰＵ１１が図７に示される項目リストに基づいて項目別音声認識画面５１を表示する例について説明する。

第１の表示欄５２は、「名前」の項目の音声認識の結果であるテキストデータが表示される領域である。第１の表示欄５２が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「名前」の項目の音声認識を編集する。

第２の表示欄５３は、「年齢」の項目の音声認識の結果であるテキストデータが表示される領域である。第２の表示欄５３が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「年齢」の項目の音声認識を編集する。

第３の表示欄５４は、「性別」の項目の音声認識の結果であるテキストデータが表示される領域である。第３の表示欄５４が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「性別」の項目の音声認識を編集する。

第４の表示欄５５は、「患部」の項目の音声認識の結果であるテキストデータが表示される領域である。第４の表示欄５５が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「患部」の項目の音声認識を編集する。

第５の表示欄５６は、「診察結果」の項目の音声認識の結果であるテキストデータが表示される領域である。第５の表示欄５６が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「診察結果」の項目の音声認識を編集する。

第６の表示欄５７は、「日付」の項目の音声認識の結果であるテキストデータが表示される領域である。第６の表示欄５７が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、「日付」の項目の音声認識を編集する。

第７の表示欄５８は、項目別音声認識処理の結果を含むファイルの送信先を示す情報が表示される領域である。第７の表示欄５８が選択されている状態で操作部２２により文字列の入力操作が行われた場合、ＣＰＵ１１は、操作部２２による操作入力に応じて、ファイルの送信先を編集する。送信先は、通信部１５を介して通信可能な他の機器である。例えば、送信先は、通信部１５を介して通信可能なネットワーク上に設置されたサーバである。

第８の表示欄５９は、項目別音声認識処理の結果を含むファイルであって、第７の表示欄５８に示された送信先に送信するファイルのファイル名が表示される領域である。第８の表示欄５９が選択された場合、ＣＰＵ１１は、送信可能なファイルのリストを表示部１８に表示する。ＣＰＵ１１は、操作部２２による操作に応じて、第７の表示欄５８に表示された送信先に送信するファイルを選択する。ＣＰＵ１１は、選択されたファイルのファイル名を第８の表示欄５９に表示する。

スタートボタン６０は、操作部２２による操作に応じて選択可能なボタンである。ＣＰＵ１１は、スタートボタン６０が選択された場合、項目別音声認識処理を実行する。例えば、ＣＰＵ１１は、スタートボタン６０が選択された場合、項目リストに含まれる全ての項目の項目別音声認識処理を逐次実行する。より具体的には、ＣＰＵ１１は、スタートボタン６０が選択された場合、優先順位の高い順、即ち、「名前」、「年齢」、「性別」、「患部」、「診察結果」、「日付」の順に項目別音声認識処理を実行する。

まず、ＣＰＵ１１は、「名前」について項目別音声認識処理を実行する場合、項目別音声認識処理を実行する項目が「名前」である旨を表示部１８に表示する。さらに、ＣＰＵ１１は、第２の特徴が示す時間の間、音声ストリーム及び映像ストリームの取得、及び音声ストリームに基づく音声認識を行い、子音及び母音の認識結果を取得する。ＣＰＵ１１は、子音及び母音の認識結果に基づいて単語を認識し、単語の認識結果が「名前」に対応した第１の特徴及び第３の特徴の設定に応じたものであるか否か判断する。ＣＰＵ１１は、単語の認識結果が「名前」に対応した第１の特徴及び第３の特徴の設定に応じたものではないと判断した場合、映像ストリームに基づいて人物が発声した子音を推定して母音及び子音の認識結果を修正する。ＣＰＵ１１は、修正された母音及び子音の認識結果に基づいて、再度単語を認識し、単語の認識結果が「名前」に対応した第１の特徴及び第３の特徴の設定に応じたものであるか否かを再度判断する。ＣＰＵ１１は、単語の認識結果が「名前」に対応した第１の特徴及び第３の特徴の設定に応じたものであると判断した場合、単語の認識結果からテキストデータを生成し、次の項目の項目別音声認識処理に移行する。

ＣＰＵ１１は、この一連の項目別音声認識処理を項目リストの項目毎に実行する。ＣＰＵ１１は、項目リストの全項目について項目別音声認識処理を行った場合、項目別音声認識処理の結果を含むファイルを生成する。さらに、ＣＰＵ１１は、項目別音声認識処理の結果を含むファイルを生成した場合、生成したファイルを第８の表示欄５９に表示させる。

第１のインジケータ６１乃至第６のインジケータ６６は、各項目の項目別音声認識処理の状態を示す表示である。ＣＰＵ１１は、項目別音声認識処理が未実行であることを示す表示、項目別音声認識処理が実行中であることを示す表示、及び項目別音声認識処理が完了したことを示す表示のうちのいずれかを第１のインジケータ６１乃至第６のインジケータ６６として表示させる。

第１のインジケータ６１は、「名前」の項目別音声認識処理の状態を示す表示である。第２のインジケータ６２は、「年齢」の項目別音声認識処理の状態を示す表示である。第３のインジケータ６３は、「性別」の項目別音声認識処理の状態を示す表示である。第４のインジケータ６４は、「患部」の項目別音声認識処理の状態を示す表示である。第５のインジケータ６５は、「診察結果」の項目別音声認識処理の状態を示す表示である。第６のインジケータ６６は、「日付」の項目別音声認識処理の状態を示す表示である。

図８は、「名前」、「年齢」、及び「性別」について項目別音声認識処理が完了し、「患部」について項目別音声認識処理が実行中であり、「診察結果」及び「日付」について項目別音声認識処理が未実行である例を示している。この場合、ＣＰＵ１１は、項目別音声認識処理が未実行であることを示す表示を第１のインジケータ６１乃至第３のインジケータ６３として表示させる。また、ＣＰＵ１１は、項目別音声認識処理が実行中であることを示す表示を第４のインジケータ６４として表示させる。また、ＣＰＵ１１は、項目別音声認識処理が完了したことを示す表示を第５のインジケータ６５及び第６のインジケータ６６として表示させる。また、ＣＰＵ１１は、第１のインジケータ６１乃至第６のインジケータ６６のいずれかが選択された場合、選択されたインジケータに対応する項目の項目別音声認識処理を再度実行する構成であってもよい。

アップロードボタン６７は、操作部２２による操作に応じて選択可能なボタンである。ＣＰＵ１１は、アップロードボタン６７が選択された場合、第８の表示欄５９に表示されたファイルを第７の表示欄５８に表示された送信先に通信部１５によって送信するアップロードを行う。

終了ボタン６８は、操作部２２による操作に応じて選択可能なボタンである。ＣＰＵ１１は、終了ボタン６８が選択された場合、項目別音声認識処理を終了する。また、ＣＰＵ１１は、項目別音声認識処理が行われて認識結果が存在する状態で終了ボタン６８が選択された場合、認識結果を破棄するか否かをユーザに選択させるボタンを項目別音声認識画面５１に表示してもよい。

上記した項目別音声認識画面５１を表示部１８に表示することにより、ＣＰＵ１１は、録音処理を行っている旨、項目の一覧、項目別音声認識処理が未実行である項目、項目別音声認識処理を実行中の項目、項目別音声認識処理が完了した項目、ファイルの送信先、及び送信するファイルなどを音声認識装置１のユーザに確認させることができる。さらに、ＣＰＵ１１は、項目別音声認識画面５１上での操作に応じて、項目別音声認識処理の結果の修正、ファイルの送信先の設定、及び送信するファイルの選択などを行うことができる。この結果、音声認識装置１は、ユーザの利便性を向上させることができる。

図９は、音声認識装置１が実行する項目別音声認識処理の具体例を示すフローチャートである。

ＣＰＵ１１は、項目別音声認識処理を実行する場合、まず音声認識を行う項目のリストである項目リストを認識する（ステップＳ５１）。

ＣＰＵ１１は、認識した項目リストに基づいて、図８のような項目別音声認識画面５１を表示部１８に表示させる（ステップＳ５２）。

ＣＰＵ１１は、項目別音声認識画面５１を表示させると、項目別音声認識処理における各項目の録音処理及び音声認識処理を開始する（ステップＳ５３）。例えば、ＣＰＵ１１は、項目別音声認識画面５１において、スタートボタン６０が選択された場合、各項目の録音処理及び音声認識処理を開始する。また、例えば、ＣＰＵ１１は、項目別音声認識画面５１において、第１のインジケータ６１乃至第６のインジケータ６６のうちのいずれかが選択された場合、選択されたインジケータに対応した項目の録音処理及び音声認識処理を開始する構成であってもよい。なお、ＣＰＵ１１は、図８のような項目別音声認識画面５１を表示せず、自動的に各項目の録音処理及び音声認識処理を開始する構成であってもよい。

ＣＰＵ１１は、項目リストの中に未入力項目があるか否か判断する（ステップＳ５４）。例えば、ＣＰＵ１１は、音声認識が行われていない項目が項目リストの中にある場合、未入力項目があると判断する。

ＣＰＵ１１は、未入力項目があると判断した場合（ステップＳ５４、ＹＥＳ）、未入力項目のうちの１つを音声認識の対象の項目として選択し、収音部１７により音声ストリームを取得する（ステップＳ５５）。さらに、ＣＰＵ１１は、選択した項目が何の項目であるのかを示す情報を表示部１８に表示してもよい。

また、ＣＰＵ１１は、撮像部１６により映像ストリームを取得する（ステップＳ５６）。即ち、ＣＰＵ１１は、撮像部１６により発声を行っている人物の口元を撮影し、映像ストリームを取得する。ＣＰＵ１１は、映像ストリームに基づいて人物の少なくとも口が写っているか否か判定し、人物の口が写っていない場合に口を映すように促してもよい。

ＣＰＵ１１は、取得した音声ストリームに基づいて音声認識を行う（ステップＳ５７）。例えば、ＣＰＵ１１は、選択した項目に応じた音響モデルと、音声ストリームの音の波形とを比較し、母音及び子音などを認識する。また、ＣＰＵ１１は、不揮発性メモリ１４に記憶された複数の音響モデルと、音声ストリームの音の波形とを比較し、母音及び子音などを認識する構成であってもよい。

ＣＰＵ１１は、ステップＳ５５において録音処理を開始してからの経過時間に基づいて、選択した項目に応じた所定時間（録音処理を行う時間）が経過したか否か判断する（ステップＳ５８）。即ち、ＣＰＵ１１は、ステップＳ５５において選択した項目に対応付られている第２の特徴が示す時間だけ録音処理を行ったか否か判断する。

ＣＰＵ１１は、項目に応じた所定時間が経過していないと判断した場合（ステップＳ５８、ＮＯ）、とまどいの有無を判定する（ステップＳ５９）。ＣＰＵ１１は、発声をしている人物が言葉に詰まっている場合にとまどい（例えば音声の途切れ）を検出する。例えば、ＣＰＵ１１は、所定の音量以上の声が所定時間検出されなかった場合、とまどいを検出する。

ＣＰＵ１１は、とまどいが検出された場合（ステップＳ５９、ＹＥＳ）、録音処理を行っている項目を示す情報を表示部１８に表示する案内表示を行う（ステップＳ６０）。図１０は、案内表示の例について説明する為の説明図である。ＣＰＵ１１は、例えば、録音処理を行っている項目を示す案内表示６９を項目別音声認識画面５１に重畳させて表示する。これにより、音声認識装置１は、発声をしている人物が項目を忘れてしまった場合などに、発声をしている人物に録音処理を行っている項目を認識させることができる。なお、ＣＰＵ１１は、とまどいが検出された場合、録音処理を行っている項目を示す音声を音声再生部１９から出力する構成であってもよい。ＣＰＵ１１は、ステップＳ５９でとまどいが検出されなかった場合（ステップＳ５９、ＮＯ）、またはステップＳ６０で案内表示を行った場合、ステップＳ５５に移行し、ステップＳ５５乃至ステップＳ６０の処理を繰り返す。またさらに、ＣＰＵ１１は、項目別音声認識処理における項目毎の録音処理を開始する度に、項目を示す案内表示６９を表示部１８に表示する構成であってもよい。

また、音声認識装置１のＣＰＵ１１は、項目別音声認識処理のうちの録音処理を行っている場合、録音処理の実行中であることを示す表示を表示部１８に表示させてもよい。具体的には、ＣＰＵ１１は、ステップＳ５５及びステップＳ５６の実行中に録音処理の実行中であることを項目別音声認識画面５１上の第１のインジケータ６１乃至第６のインジケータ６６によって示してもよい。これにより、音声認識装置１は、録音処理の実行中であることを、発声を行っている人物に確認させることができる。

またさらに、ＣＰＵ１１は、とまどいが検出された場合に人物の口の画像を撮像部１６により撮像する構成であってもよい。音声の途切れるタイミングでは、人物が子音及び母音の発声を行っていないことが推定される。この為、音声の途切れるタイミングにおける人物の口は、発声の為に変形していない基準の口の形状であることが推定される。ＣＰＵ１１は、音声の途切れが検出された場合に撮像部１６により撮像した人物の口の画像を基準顔画像として取得する。ＣＰＵ１１は、この基準顔画像を用いて、図５における人物の口の開口面積を正規化してもよい。例えば、ＣＰＵ１１は、基準顔画像における人物の口の開口面積に対する、映像ストリームにおける各フレームにおける人物の口の開口面積の比を算出し、図５のグラフ４１を算出された比に置き換えてもよい。

また、ＣＰＵ１１は、項目別音声認識処理における録音処理を行っている間、音声認識装置１の撮像部１６のレンズが発声を行っている人物に向けられた姿勢から、表示部１８が発声を行っている人物に向けられた姿勢への変化を姿勢センサ２１の検出結果に基づいて検出してもよい。即ち、ＣＰＵ１１は、発声を行っている人物が表示部１８を覗き込むことを検出してもよい。具体的には、ＣＰＵ１１は、図９のステップＳ５５乃至ステップＳ５８までの間に、発声を行っている人物が表示部１８を覗き込んでいるか否か判断する。さらに、ＣＰＵ１１は、発声を行っている人物が表示部１８を覗き込むことが検出された場合、案内表示６９を表示部１８に表示させる構成であってもよい。これにより、音声認識装置１は、項目別音声認識処理を行っている項目を、発声を行っている人物に確認させることができる。

ＣＰＵ１１は、ステップＳ５８で項目に応じた所定時間が経過したと判断した場合（ステップＳ５８、ＹＥＳ）、選択した項目に応じた単語認識辞書から子音及び母音の認識結果に応じた単語を取得することにより、単語を認識する（ステップＳ６１）。

ＣＰＵ１１は、単語の認識結果が妥当であるか否か判断する（ステップＳ６２）。上記のように、ＣＰＵ１１は、ステップＳ６１における単語の認識結果が、ステップＳ５５で選択した項目に応じた単語であるか否か判断する。即ち、ＣＰＵ１１は、ステップＳ６１における単語の認識結果が、ステップＳ５５で選択した項目に対応付けられている第１の特徴に応じた単語であるか否か、第３の特徴に応じた単語数及び文節数であるか否かなどを判断する。

ＣＰＵ１１は、単語の認識結果が妥当ではないと判断した場合（ステップＳ６２、ＮＯ）、図４のステップＳ２４と同様の子音特定処理を行い（ステップＳ６３）、ステップＳ６１の処理に移行する。即ち、ＣＰＵ１１は、図６の子音特定処理を行い、再度単語の認識を行う。これにより、ＣＰＵ１１は、映像ストリームに基づく子音の推定結果を用いて、音声ストリームに基づく子音の認識結果を修正し、修正した子音及び母音の認識結果に基づいて、単語の認識を行う。

ＣＰＵ１１は、単語の認識結果が妥当であると判断した場合（ステップＳ６１、ＹＥＳ）、単語の認識結果に基づいてテキストデータを生成し（ステップＳ６４）、ステップＳ５４の処理に移行する。ＣＰＵ１１は、ステップＳ５４の処理に移行すると、項目リストの中に未入力項目があるか否かを再度判断する。また、ＣＰＵ１１は、１つの項目について項目別音声認識処理が完了した場合、第１のインジケータ６１乃至第６のインジケータ６６のうち項目別音声認識処理が完了した項目に対応するインジケータを、項目別音声認識処理が完了した旨を示す表示に切り替える。さらに、ＣＰＵ１１は、未入力項目があると判断した場合、第１のインジケータ６１乃至第６のインジケータ６６のうち次に項目別音声認識処理を行う項目に対応するインジケータを、項目別音声認識処理が実行中である旨を示す表示に切り替える。これにより、音声認識装置１は、次に項目別音声認識処理を行う項目を、発声を行う人物に確認させることができる。

ＣＰＵ１１は、ステップＳ５４で、未入力項目がないと判断した場合（ステップＳ５４、ＮＯ）、項目別音声認識処理の結果を含むファイルを生成する（ステップＳ６５）。このファイルは、例えば、音声ストリーム、及びテキストデータを含むものである。また、このファイルは、映像ストリームをさらに含んでいてもよい。

ＣＰＵ１１は、生成したファイルを不揮発性メモリ１４に保存し（ステップＳ６６）、項目別音声認識処理を終了する。

さらに、ＣＰＵ１１は、項目別音声認識画面５１上での操作に応じて、生成したファイルをアップロードしてもよい。即ち、ＣＰＵ１１は、項目別音声認識処理によってファイルが生成された後に、項目別音声認識画面５１においてアップロードボタン６７が選択された場合、第８の表示欄５９に表示されたファイルを第７の表示欄５８に表示された送信先に通信部１５によって送信するアップロードを行う。

上記した構成によると、音声認識装置１は、項目毎に録音処理を行うことによって、音声ストリーム及び映像ストリームを取得する。音声認識装置１は、音声ストリームから子音及び母音を認識し、子音及び母音の認識結果から単語を認識する。音声認識装置１は、単語の認識結果が項目に適したものであるか否かを判断する。音声認識装置１は、単語の認識結果が項目に適したものではないと判断した場合、映像ストリームに基づいて子音を推定し、子音の推定結果を用いて音声ストリームに基づく子音及び母音の認識結果を修正する。音声認識装置１は、修正した子音及び母音の認識結果に基づいて、再度単語を認識する。これにより、音声認識装置１は、単語の認識結果が項目に適したものではない場合に、映像ストリームに基づく子音の推定結果を用いて、単語を再度認識することができる。この結果、音声認識装置１は、音声認識の精度を向上させることができる。

なお、上記のように、音声認識装置１は、音声認識を行う項目を選択した上で録音処理及び音声認識を行うことによって、項目に応じた単語認識辞書、音響モデル、及び口形モデルなどを選択することができる。これにより、音声認識装置１は、音声認識の精度を向上させることができる。

また、音声認識装置１は、音声認識を項目毎に行うことによって、発声の始まりの検出を容易にすることができる。これにより、音声認識装置１は、発声の始まりの子音の認識の精度を向上させることができる。また、音声認識装置１は、最初の子音に応じて、後続の母音及び子音、並びに単語などを予め設定された学習パターンに応じて推測してもよい。これにより、音声認識装置１は、効率的に音声認識を行うことができる。

また、音声認識装置１は、予め項目を選択するのではなく、録音処理及び音声認識を行い、これらの結果に応じて項目を選択し、選択した項目に応じた口形モデルを用いて子音特定処理を行う構成であってもよい。例えば、音声認識装置１のＣＰＵ１１は、音声認識によって認識した子音及び母音の組み合わせに応じて複数の項目に応じた単語認識辞書と突き合せを行うことによって単語を認識し、認識した単語が収録されている単語認識辞書に応じた項目を選択する。さらに、音声認識装置１のＣＰＵ１１は、認識した単語に応じて項目を選択し、選択した項目に応じた口形モデルを用いて子音特定処理を行う。これにより、音声認識装置１は、項目を予め設定しない状態であっても、音声認識の精度を向上させることができる。

なお、上記の実施形態では、音響モデルは、母音及び子音などの音の要素毎に予め生成された音の波形であると説明したが、この構成に限定されない。音響モデルは、単語毎に予め生成された音の波形であってもよい。音響モデルが単語毎に予め生成された音の波形である場合、ＣＰＵ１１は、音声ストリームから抽出した波形と、音響モデルの波形とを比較することにより、単語を認識することができる。

なお、上述の各実施の形態で説明した機能は、プログラムをコンピュータに読み込ませることによって実現されたものであってもよいし、ハードウエアによって実現されたものであってもよい。もちろん、文脈などを考慮せず、限られた音の情報だけで高精度の音声認識は困難であるので、その時に入力した音声以外の文脈や発話の背景などを考慮してもよい。このような場合は、画像や音声の入力情報の拡大や、その他の情報を含め、様々な情報や変数を総合的に判断した方が良い場合が生ずる。このような場合、人工知能に有用な判断の根拠となる情報（ディクテーション結果をフィードバックできるようにして、結果の良好な場合に有効だった情報を入力するようにしたり、失敗した時の情報を参考にさせたりすれば教師情報となる）を多く深層学習させてもよい。このような学習であれば、口の形状なども厳密な数値化やパターン化を意識しないでも同様の効果の音声認識が可能となる。ただし、そのような機械学習であっても、本願の技術的特徴が含まれたものであれば、本願のカバー範囲である事は言うまでもない。

以上、本発明を上述の各実施の形態を参照して説明したが、本発明は上述の各実施の形態に限定されるものではなく、各実施の形態の構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。また、当業者の知識に基づいて各実施の形態における組合せや処理の順番を適宜組み替えることや各種の設計変更等の変形を実施の形態に対して加えることも可能であり、そのような変形が加えられた実施の形態も本発明の範囲に含まれ得る。

１…音声認識装置、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…不揮発性メモリ、１５…通信部、１６…撮像部、１７…収音部、１８…表示部、１９…音声再生部、２０…時計部、２１…姿勢センサ、２２…操作部。

Claims

人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部と、
前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識する音声認識部と、
前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定する子音推定部と、
前記子音推定部により推定した子音と、前記音声認識部による認識した子音とに基づいて子音を特定する子音特定部と、
を具備する音声認識装置。
前記子音推定部は、母音が検出されたタイミングに基づいて、母音の前であり且つ前記映像ストリーム中の前記人物が子音を発声したことが推定されるフレームである子音発声フレームを特定し、前記子音発声フレームにおける前記人物の口の形状に基づいて前記人物が発声した子音を推定する請求項１に記載の音声認識装置。
前記子音発声フレームは、母音が検出されるまでの複数のフレームであり、
前記子音推定部は、複数の前記子音発声フレームにおける前記人物の口の形状の変化に基づいて、前記人物が発声した子音を推定する請求項２に記載の音声認識装置。
前記子音推定部は、母音が検出されたタイミングより所定時間前のタイミングを前記子音発声フレームの先頭として決定する請求項３に記載の音声認識装置。
前記子音推定部は、開口面積が所定の値以上になったタイミングを前記子音発声フレームの先頭として決定する請求項３に記載の音声認識装置。
前記子音推定部は、口の横幅と縦幅との比が所定の値以上になったタイミングを前記子音発声フレームの先頭として決定する請求項３に記載の音声認識装置。
前記子音推定部は、所定の音量以上の音が検出されたタイミングを前記子音発声フレームの先頭として決定する請求項３に記載の音声認識装置。
前記子音推定部は、所定の音量以上の音が検出されたタイミングより所定時間前のタイミングを前記子音発声フレームの先頭として決定する請求項３に記載の音声認識装置。
前記子音推定部は、前記音声ストリームに基づいて前記人物が母音を発声したタイミングを検出する請求項２乃至８のいずれか１項に記載の音声認識装置。
前記子音推定部は、前記映像ストリームに基づいて前記人物が母音を発声したタイミングを検出する請求項２乃至８のいずれか１項に記載の音声認識装置。
前記音声認識部により認識された母音と、前記子音特定部により特定された子音と、予め設定された単語認識辞書とに基づいて単語を認識する単語認識部をさらに具備する請求項１に記載の音声認識装置。
認識対象の音声の種類を示す項目を選択する項目選択部をさらに具備し、
前記単語認識部は、前記音声認識部により認識された母音と、前記子音特定部により特定された子音と、前記項目選択部により選択された項目に対応した単語を有する単語認識辞書とに基づいて単語を認識する、
をさらに具備する請求項１１に記載の音声認識装置。
前記取得部により前記音声ストリーム及び前記映像ストリームの取得を行っている旨を表示する表示部をさらに具備する請求項１２に記載の音声認識装置。
前記表示部は、前記項目選択部により選択された項目を前記音声ストリーム及び前記映像ストリームの取得時に表示する請求項１３に記載の音声認識装置。
人物が発声した音声を録音した音声ストリームと、前記人物の少なくとも口を撮像した映像ストリームとを取得する取得部を備える音声認識装置における音声認識方法であって、
前記音声認識装置が、
前記音声ストリームに基づいて前記人物が発声した子音を含む音声を認識し、
前記映像ストリームの前記人物の口の形状に基づいて前記人物が発声した子音を推定し、
前記映像ストリームに基づいて推定された子音と、前記音声ストリームに基づいて認識された子音とに基づいて子音を特定する音声認識方法。