JP2014092627A

JP2014092627A - 音声認識装置、音声認識方法、及びそのためのプログラム

Info

Publication number: JP2014092627A
Application number: JP2012242050A
Authority: JP
Inventors: Kazuyoshi Katsuta; 和義割田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-11-01
Filing date: 2012-11-01
Publication date: 2014-05-19

Abstract

【課題】音声認識装置へ発声していない人の発声の誤認識をより高い精度で抑止できる音声認識装置を提供する。
【解決手段】音声認識装置１は、音声認識装置１前方の音声を集音した音声情報を、文字に変換し送信する音声認識部１３１と、音声認識装置１前方に人物を検知し人物検知情報を出力する人物検知部１１０と、音声認識装置１前方を撮影した画像情報が、画像内に音声認識装置１を直視している人物の顔があれば、顔検知情報を出力する顔検出部１２１と、音声認識部１からの音声情報の受信と人物検知情報と顔検知情報に応じて、音声情報を送信する応答可否判定部１００と、応答可否判定部１００から受信した文字情報に対応した応答メッセージを、人物への応答メッセージをフレーズ単位で記憶する応答データベース１４１のフレーズを一つないし複数選択して決定する応答制御部１０１と、応答メッセージの音声を出力する応答出力部１４０とを含む。
【選択図】図１

Description

本発明は、装置への発声を正確に検知し応答する音声認識装置、音声認識方法、及びそのためのプログラムに関する。

ロボットの音声認識技術において、ロボットへの発声を正確に検知し応答する技術が知られている。この技術は、ロボットに向けられた発声であるか否かを区別する。

その技術の一例が特許文献１に記載されている。特許文献１に記載された技術は、カメラや接触センサ、人検知センサから出力される人物検知情報に基づいて、人が周囲に居ることを感知し、かつカメラの画像情報から顔情報を抽出し、顔が検知されている場合、ロボットに向けられた発声と認識し、応答する。

特開２００７−１５５９８５号公報

しかしながら、上述した特許文献１に記載された技術は、ロボットの周囲３６０度全ての方向に対してセンサとカメラが備わっており、どの方向に人がいても反応してしまう。したがって、特許文献１に記載された技術は、ロボットへ発声していない人の発声を誤認識してしまうという問題点がある。

本発明の目的の一例は、上述した問題点を解決できる音声認識装置、音声認識方法およびプログラムを提供することにある。

本発明の一形態における第一の音声認識装置は、音声認識装置前方の音声を集音し音声情報として出力する音声入力部と、前記音声入力部から受信した前記音声情報を、文字情報に変換する音声認識部と、前記音声認識装置の前方の人物を検知し、人物検知情報を出力する人物検知部と、前記音声認識装置前方を撮影し、画像情報を出力する人物撮影部と、前記人物撮影部から受信した前記画像情報から、前記音声認識装置を直視している人物の顔を検知し、顔検知情報を出力する顔検出部と、前記音声認識部からの前記文字情報の受信と前記人物検知部からの前記人物検知情報及び前記顔検出部からの前記顔検知情報の受信とに応じて、前記文字情報を出力する応答可否判定部と、前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化し、記憶する応答データベースと、前記応答可否判定部から受信した前記文字情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定する応答制御部と、前記応答制御部で決定した前記応答メッセージを音声として出力する応答出力部を備える。

本発明の一形態における第一の音声認識方法は、音声入力部が、音声認識装置前方の音声を集音し音声情報とし、音声認識部が、前記音声入力部から受信した前記音声情報を文字情報に変換し、応答可否判定部が、前記音声認識部からの前記音声情報の受信と人物検知部からの人物検知情報および顔検出部からの顔検知情報の受信とに応じて、前記文字情報を出力し、応答データベースが、前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化して記憶し、応答制御部が、前記応答可否判定部から受信した前記音声情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定し、応答出力部が、前記応答メッセージの音声を出力する。

本発明の一形態における第一のプログラムは、音声入力部が、音声認識装置前方の音声を集音し音声情報とし、音声認識部が、前記音声入力部から受信した前記音声情報を文字情報に変換し、応答可否判定部が、前記音声認識部からの前記音声情報の受信と人物検知部からの人物検知情報および顔検出部からの顔検知情報の受信とに応じて、前記文字情報を出力し、応答データベースが、前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化して記憶し、応答制御部が、前記応答可否判定部から受信した前記音声情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定し、応答出力部が、前記応答メッセージの音声を出力する処理をコンピュータに実行させる。

本発明によれば、音声認識装置へ発声していない人の発声の誤認識をより高い精度で防止できるという効果が得られる。

図１は、本発明の第一の実施形態の構成を示すブロック図である。図２は、第一の実施の形態における音声認識装置１をコンピュータ装置とその周辺装置で実現したハードウェア構成を示す図である。図３は、第一の実施の形態における音声認識装置１の外観の一例を示す図である。図４は、第一の実施の形態における音声認識装置１の音声情報入力動作を示すフローチャートである。図５は、第一の実施の形態における音声認識装置１の人物検知情報入力動作を示すフローチャートである。図６は、第一の実施の形態における音声認識装置１の顔検知情報入力動作を示すフローチャートである。図７は、第一の実施の形態における音声認識装置１の応答可否判定動作を示すフローチャートである。図８は、第一の実施の形態における音声認識装置１の応答メッセージ出力動作を示すフローチャートである。

次に、本発明の実施形態について図面を参照して詳細に説明する。

［第１の実施の形態］
図１は、本発明の第一の実施の形態における音声認識装置１の構成を示すブロック図である。図１を参照すると、音声認識装置１は、応答可否判定部１００と、応答制御部１０１と、人物検知部１１０と、人物撮影部１２０と、顔検出部１２１と、音声入力部１３０と、音声認識部１３１と、応答出力部１４０と、応答データベース１４１と、を備える。

次に、第一の実施の形態における音声認識装置１の構成について説明する。

音声入力部１３０は、音声認識装置１前方の音声を集音し、音声認識部１３１に送信する。

音声認識部１３１は、音声認識エンジンを含む。、具体的に、音声認識部１３１は、入力音声から人物の発声とは関係ない生活騒音などの雑音情報を弁別し排除する前処理回路と、その前処理回路で雑音情報が排除された音声情報を受信し、その音声情報から発声音に対応する文字を認識し、文字情報に変換し、応答可否判定部１００にその文字情報を出力する音声認識変換回路とを含む。

人物検知部１１０は、音声認識装置１の前方で人物を検知し、人物検知情報を応答可否判定部１００に出力する。人物を検知する方法は、赤外線センサまたは超音波センサによる検知方法、人物撮影部１２０の画像情報を処理して検知する方法などいずれの方法でも良い。また、人物検知情報とは、人物を検知した旨を示すあるいは通知する情報である。

人物撮影部１２０は、音声認識装置１前方をカメラなどによって撮影し、画像情報を顔検出部１２１へ送信する。

顔検出部１２１は、受信した画像情報から人物の顔を検知する処理を実行する。その結果、受信画像内に音声認識装置１を直視している人物の顔を抽出できると顔検出部１２１が判断する場合、顔検知情報を応答可否判定部１００に出力する。また、顔検知情報とは、顔を検知した旨を示すあるいは通知する情報であり、顔の画像情報である必要がなく、あるいは顔の個人を識別する情報まで必要としない。

応答可否判定部１００は、音声認識部１３１から、音声情報に対応する文字情報を受信した場合、同時に人物検知情報と顔検知情報を受信しているか確認する。受信している場合、応答可否判定部１００は応答制御部１０１へ、音声情報に対応する文字情報を送信する。

応答データベース１４１は、音声認識装置１から人物検知情報と顔検知情報によって認知された人物が発声する音声に応答するための応答メッセージを、フレーズ単位でデータベース化し、記憶する。応答データベース１４１が記憶するフレーズのデータは、音声データでも文字情報でも構わない。

応答制御部１０１は、応答可否判定部１００から受信した文字情報に対応した応答メッセージを、応答データベース１４１のフレーズを一つないし複数選択し、応答出力部１４０へ、音声信号として出力する。応答データベース１４１が記憶するフレーズのデータが文字情報の場合、応答制御部１０１は、選択したフレーズのメッセージの文字情報を、音声合成して音声信号に変換し、応答出力部１４０へその音声信号を出力する。

応答出力部１４０は、受信した応答メッセージの音声を出力する。

図３は、本発明の第一の実施の形態における音声認識装置１の外観の一例を示す図である。図３に示すように、音声認識装置１は、一例として、ロボットである。

図３に示すように、音声認識装置１の音声入力部１３０は、主にマイクロフォンで構成される。人物撮影部１２０は、主にカメラで構成される。応答出力部１４０は、主にスピーカで構成される。人物検知部１１０は、主にセンサで構成される。なお、人物の検知を人物撮影部１２０の画像情報を処理して検知する場合、人物検知部１１０を省略することができる。また、それぞれの構成要素はひとつないし複数あっても良く、また設置部位は問わないが、人物撮影部１２０と人物検知部１１０は音声認識装置１の前方を撮影および検知するものとする。

図２は、本発明の第一の実施の形態における音声認識装置１をコンピュータおよびその周辺装置で実現したハードウェア構成を示す図である。図２に示されるように、音声認識装置１は、ＣＰＵ１１、出力装置１２、入力装置１３、主記憶装置１４、二次記憶装置１５を含む。

ＣＰＵ１１は、オペレーティングシステムを動作させて本発明の第一の実施の形態に係る音声認識装置１の全体を制御する。また、ＣＰＵ１１は、例えば二次記憶装置１５から主記憶装置１４にプログラムやデータを読み出す。そして、ＣＰＵ１１は、第一の実施の形態における応答可否判断部１００、応答制御部１０１、顔検出部１２１および音声認識部１３１として機能し、プログラム制御に基づいて各種の処理を実行する。

出力装置１２は、例えばスピーカなどで実現され、第一の実施の形態における応答出力部１４０として機能する。

入力装置１３は、例えばセンサ、カメラ、マイクロフォンなどで実現され、第一の実施の形態における人物検出部１１０、人物撮影部１２０、音声入力部１３０として機能する。

二次記憶装置１５は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。また、コンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされてもよい。また、二次記憶装置１５は、第一の実施の形態における応答データベース１４１として機能する。

なお、第一の実施の形態の説明において利用されるブロック図（図１）には、ハードウェア単位の構成ではなく、機能単位のブロックが示されている。これらの機能ブロックは図２に示されるハードウェア構成によって実現される。ただし、音声認識装置１が備える各部の実現手段は特に限定されない。すなわち、音声認識装置１は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。

また、ＣＰＵ１１は、二次記憶装置１５に記録されているコンピュータプログラムを読み込み、そのプログラムにしたがって、応答可否判断部１００、応答制御部１０１、顔検出部１２１および音声認識部１３１として動作してもよい。

また、前述のプログラムのコードを記録した記録媒体（または記憶媒体）が、音声認識装置１に供給され、音声認識装置１が記録媒体に格納されたプログラムのコードを読み出し実行してもよい。すなわち、本発明は、第一の実施の形態における音声認識装置１が実行するためのソフトウェア（音声認識プログラム）を一時的に記憶するまたは非一時的に記憶する二次記憶装置１５も含む。

以上のように構成された音声認識装置１の動作について、図４から図８のフローチャートを参照して説明する。

図４は、第一の実施の形態における音声認識装置１での音声情報入力の動作の概要を示すフローチャートである。尚、このフローチャートによる処理は、前述したＣＰＵによるプログラム制御に基づいて、実行されても良い。

図４に示すように、まず、音声入力部１３０は、音声認識装置１前方の音声を集音し、音声認識部１３１に出力する（ステップＳ１０１）。

次に、音声認識部１３１は、受信した音声を処理する。具体的には、前処理回路が人物の発声とは関係ない生活騒音などを弁別し排除する（ステップＳ１０２）。

次に、音声認識部１３１は、前処理回路で処理した音声情報に人物の発声が入っているか確認する（ステップＳ１０３）。もし入っていれば（ステップＳ１０３でＹＥＳ）、音声認識部１３１の音声認識変換回路は、音声情報を文字情報、例えば、テキストデータに変換し、応答可否判断部１００に出力する（ステップＳ１０４）。

以上で、音声認識装置１は、音声情報入力の動作を終了する。

図５は、第一の実施の形態における音声認識装置１での人物検知情報入力の動作の概要を示すフローチャートである。尚、このフローチャートによる処理も、前述したＣＰＵによるプログラム制御に基づいて、実行されても良い。

図５に示すように、まず、人物検知部１１０は、音声認識装置１前方に人物を検知した場合（ステップＳ２０１でＹＥＳ）、人物検知情報を応答可否判定部１００に出力する（ステップＳ２０２）。

以上で、音声認識装置１は、人物検知情報入力の動作を終了する。

図６は、第一の実施の形態における音声認識装置１での顔検知情報入力の動作の概要を示すフローチャートである。尚、このフローチャートによる処理も、前述したＣＰＵによるプログラム制御に基づいて、実行されても良い。

図６に示すように、まず、人物撮影部１２０は、音声認識装置１前方を撮影し、画像情報を顔検出部１２１へ出力する（ステップＳ３０１）。

次に、顔検出部１２１は、受信した画像情報を画像処理する（ステップＳ３０２）。

次に、顔検出部１２１は、画像処理の結果、画像内に、音声認識装置１を直視している人物の顔を抽出できるか確認する（ステップＳ３０３）。抽出できた場合は（ステップＳ３０３でＹＥＳ）、顔検知情報を応答可否判定部１００に出力する（ステップＳ３０４）。

以上で、音声認識装置１は、顔検知情報入力の動作を終了する。

図７は、第一の実施の形態における音声認識装置１での応答可否判定の動作の概要を示すフローチャートである。尚、このフローチャートによる処理も、前述したＣＰＵによるプログラム制御に基づいて、実行されても良い。

図７に示すように、まず、応答可否判定部１００は、音声認識部１３１から、集音された音声情報に対応する文字情報を受信する（ステップＳ４０１）。

次に、応答可否判定部１００は、同時に人物検知部１１０からの人物検知情報と顔検出部１２１からの顔検知情報を受信しているか確認する（ステップＳ４０２）。もし受信していれば（ステップＳ４０２でＹＥＳ）、応答可と判定し、文字情報を応答制御部１０１へ送信する（ステップＳ４０３）。

以上で、音声認識装置１は、応答可否判定の動作を終了する。

図８は、第一の実施の形態における音声認識装置１での応答メッセージの出力動作の概要を示すフローチャートである。尚、このフローチャートによる処理も、前述したＣＰＵによるプログラム制御に基づいて、実行されても良い。

図８に示すように、まず、応答制御部１０１は、受信した文字情報に対応した応答メッセージを、応答データベース１４１のフレーズを一つないし複数選択して決定する（ステップＳ５０１）。

次に、応答制御部１０１は、決定した応答メッセージを音声信号として応答出力部１４０へ送信する（ステップＳ５０２）。この場合、応答制御部１０１は、音声メッセージが文字情報の場合、その文字情報を音声合成して音声信号に変換して出力する。また、応答メッセージが音声データの場合、その音声データを音声信号に変換し、応答出力部１４０に出力する。

次に、応答出力部１４０は、受信した応答メッセージの音声を出力する（ステップＳ５０３）。

以上で、音声認識装置１は、応答メッセージ出力の動作を終了する。

次に、本発明の第１の実施の形態の効果について説明する。

上述した本実施形態における音声認識装置１は、音声認識装置１へ発声していない人の発声の誤認識をより高い精度で防止できる。

その理由は、以下のような構成を含むからである。即ち、第１に人物検知部１１０は、音声認識装置１の前方に人物を検知した場合、人物検知情報を応答可否判定部１００に出力する。第２に、人物撮影部１２０は、音声認識装置１の前方を撮影する。その画像内に音声認識装置１を直視している人物の顔があれば、顔検出部１２１は、顔検知情報を応答可否判定部１００に送信する。第３に、応答可否判定部１００は、同時に人物検知情報と顔検知情報を受信している場合、応答可と判定する。これにより、音声認識装置１は、人物が音声認識装置１の前方に居て、かつ音声認識装置１を直視している場合に応答可とするので、音声認識装置１へ発声していない人の発声の誤認識をより高い精度で防止できるという効果が得られる。

以上説明した、本発明の各実施形態における各構成要素は、その機能をハードウェア的に実現することはもちろん、プログラム制御に基づくコンピュータ装置、ファームウェアで実現することができる。プログラムは、磁気ディスクや半導体メモリなどのコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における構成要素として機能させる。

以上、各実施の形態を参照して本発明を説明したが、本発明は上記実施の形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえる様々な変更をすることができる。

たとえば、以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が１個のモジュールとして実現されたり、一つの構成要素が複数のモジュールで実現されたりしてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であったり、ある構成要素の一部と他の構成要素の一部とが重複していたり、といったような構成であってもよい。

また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障しない範囲で変更することができる。

さらに、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。

さらに、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作の全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。

本発明は、音声認識装置へ発声していない人の発声の誤認識をより高い精度で抑止できる音声認識装置に適用できる。

１音声認識装置
１１ＣＰＵ
１２出力装置
１３入力装置
１４主記憶装置
１５二次記憶装置
１００応答可否判定部
１０１応答制御部
１１０人物検知部
１２０人物撮影部
１２１顔検出部
１３０音声入力部
１３１音声認識部
１４０応答出力部
１４１応答データベース

Claims

音声認識装置前方の音声を集音し音声情報として出力する音声入力部と、
前記音声入力部から受信した前記音声情報を、文字情報に変換する音声認識部と、
前記音声認識装置の前方の人物を検知し、人物検知情報を出力する人物検知部と、
前記音声認識装置前方を撮影し、画像情報を出力する人物撮影部と、
前記人物撮影部から受信した前記画像情報から、前記音声認識装置を直視している人物の顔を検知し、顔検知情報を出力する顔検出部と、
前記音声認識部からの前記文字情報の受信と、前記人物検知部からの前記人物検知情報および前記顔検出部からの前記顔検知情報の受信とに応じて、前記文字情報を出力する応答可否判定部と、
前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化し、記憶する応答データベースと、
前記応答可否判定部から受信した前記文字情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定する応答制御部と、
前記応答制御部で決定した前記応答メッセージを音声として出力する応答出力部と
を含む音声認識装置。
前記音声認識部は、前記音声情報から、人物の発声とは関係ない生活騒音などを弁別し排除する前処理回路を含む請求項１記載の音声認識装置。
前記顔検出部は、顔検出のため、前記人物撮影部から受信した前記画像情報を画像処理する請求項１記載の音声認識装置。
前記応答データベースが記憶する前記応答メッセージは、音声データもしくは文字情報である請求項１記載の音声認識装置。
音声入力部が、音声認識装置前方の音声を集音し音声情報とし、
音声認識部が、前記音声入力部から受信した前記音声情報を文字情報に変換し、
応答可否判定部が、前記音声認識部からの前記音声情報の受信と、人物検知部からの人物検知情報および顔検出部からの顔検知情報の受信とに応じて、前記文字情報を出力し、
応答データベースが、前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化して記憶し、
応答制御部が、前記応答可否判定部から受信した前記音声情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定し、
応答出力部が、前記応答メッセージの音声を出力する
音声認識方法。
音声入力部が、音声認識装置前方の音声を集音し音声情報とし、
音声認識部が、前記音声入力部から受信した前記音声情報を文字情報に変換し、
応答可否判定部が、前記音声認識部からの前記音声情報の受信と、人物検知部からの人物検知情報および顔検出部からの顔検知情報の受信とに応じて、前記文字情報を出力し、
応答データベースが、前記音声認識装置から人物への応答メッセージを、フレーズ単位でデータベース化して記憶し、
応答制御部が、前記応答可否判定部から受信した前記音声情報に対応した応答メッセージを、前記応答データベースのフレーズを一つないし複数選択して決定し、
応答出力部が、前記応答メッセージの音声を出力する処理
をコンピュータに実行させるプログラム。