WO2020230460A1

WO2020230460A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2020230460A1
Application number: PCT/JP2020/013473
Authority: WO
Inventors: 高橋　晃; 和也立石; 裕一郎小山; 浩明小川; 智恵鎌田; 典子戸塚; 衣未留角尾; 悠希武田; 幸徳前田; 寛黒田; 啓福井; 秀明渡辺
Original assignee: ソニー株式会社
Priority date: 2019-05-14
Filing date: 2020-03-25
Publication date: 2020-11-19
Also published as: US20220223167A1

Abstract

音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法を実現する。マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。このような音声対話システムは、例えばスマートスピーカー、エージェント、あるいはエージェント機器等と呼ばれる。
　このような音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。

　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　音声対話システムの大きな課題として、システムのマイクを介して入力する音が、ユーザがシステムに話しかけた音声であるか、あるいはユーザ以外のテレビやラジオ、エアコン等の装置等から出力される音声やノイズであるかを区別するのが難しいという問題がある。

　ユーザがシステムに対して話しかけた音以外の音をシステムがユーザ発話であると認識して処理を行うと、誤った処理を行ってしまう可能性がある。このようなシステムの誤動作は、例えば「湧き出し」と呼ばれる。

　このような誤動作を防止する構成を開示した従来技術として特許文献１（特開２０１７－０９０７８９号公報）がある。

　この特許文献１には、発話者の音声を含む音響信号を音声認識して第１の音声認識結果を取得し、さらに、別の収音手段で取得した例えばテレビ放送等の音響信号等を含む音響信号を音声認識して第２の音声認識結果を取得し、この２つの音声認識結果から共通データを抽出して、この共通データを発話者の音声を含む第１の音声認識結果から取り除くことで、第１の音声認識結果に含まれる発話者の発話のみを抽出する手法を開示している。

　しかし、この特許文献１に開示された方式は、複数の音響信号に対して個別に音声認識処理を実行して、さらにその２つの音声認識結果の共通部分を解析して抽出し、最後に、第１の音声認識結果から共通部分を減算するという複雑な処理を行う必要があり、システム内の音声認識エンジン等のデータ処理部の処理負荷や処理時間の増大、すなわち処理コストが大きくなるという問題がある。

特開２０１７－０９０７８９号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話とユーザ発話以外の雑音とを区別して、ユーザ発話のみに対する処理を行うことを可能とする情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の一実施例においては、ユーザ発話以外の雑音（ノイズ）として区別すべきテレビ等の機器から出力される音響の特徴量をデータベース（ＤＢ）に登録し、この登録情報を利用してシステムに対する入力音からノイズを除去して、明瞭なユーザ発話を取得することを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。

　本開示の第１の側面は、
　音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部は、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置にある。

　さらに、本開示の第２の側面は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部は、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置にある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部が、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法にある。

　さらに、本開示の第４の側面は、
　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部が、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記プログラムは、前記ユーザ発話音声抽出部に、
　前記入力音の音源方向を解析させ、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラムにある。

　さらに、本開示の第６の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記プログラムは、前記外部機器出力音解析部に、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　具体的には、例えば、マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。
　本構成により、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に基づく応答や処理を行う音声対話システムの例について説明する図である。情報処理装置の設置環境の例について説明する図である。本開示の情報処理装置が生成、利用する外部機器出力音特性データベースの格納データの例について説明する図である。外部機器の出力する音の情報処理装置に対する入力例について説明する図である。外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源（再生音声ファイル）の具体例について説明する図である。外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源（再生音声ファイル）の具体例について説明する図である。情報処理装置のデータ処理部による外部機器出力音の周波数特性の解析結果の例を示すグラフである。本開示の情報処理装置の具体的な構成例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．音声対話システムの概要と問題点について
　２．本開示の情報処理装置が生成、利用する外部機器出力音特性データベースについて
　３．本開示の情報処理装置の構成例について
　４．外部機器出力音解析部の実行する処理の詳細について
　５．外部機器出力音解析部がビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について
　６．ユーザ発話音声抽出部の実行する処理の詳細について
　７．情報処理装置のハードウェア構成例について
　８．本開示の構成のまとめ

　　［１．音声対話システムの概要と問題点について］
　まず、図１以下を参照して、音声対話システムの概要と問題点について説明する。
　図１は、ユーザ１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、ユーザの発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー１３を介して出力する。
　図１に示す例では、情報処理装置１０は、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、マイク（アレイ）１１、表示部１２、スピーカー１３を有しており、音声入出力と画像入出力が可能な構成を有する。

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　なお、ユーザ発話に対する音声認識処理や意味解析処理は、情報処理装置１０内で行ってもよいし、クラウド側のサーバにおいて実行する構成としてもよい。

　マイク（アレイ）１１は、音源方向を特定するため、異なる位置に配置した複数のマイクから構成されている。
　異なる位置に配置した複数のマイクが、特定方向にある音源からの音を取得すると、マイクアレイ１１の各マイクに対する音源からの音の到達時間は少しずつ、ずれることになる。すなわち、各マイクは音源方向に応じて位相差を持った音信号を入力する。この位相差は、音源方向に応じて異なるものとなり、各マイクの取得した音声信号の位相差を解析することで、音源方向を求めることができる。

　情報処理装置１０は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う。
　なお、情報処理装置１０は、ネットワークを介してサーバと接続され、サーバから、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、前述したように音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　しかし、音声対話を行う情報処理装置１０の実際の利用環境には様々なノイズが存在する。情報処理装置１０の実際の利用環境の一例を図２に示す。
　図２に示すように、音声対話を行う情報処理装置１０の周囲には、テレビ３１、ラジオ３２、冷蔵庫３３、炊飯器３４等の外部機器が存在している。これらの外部機器は、動作時に様々な音を出力する。

　例えば、テレビ３１やラジオ３２のスイッチがＯＮであれば、様々な番組の音声が出力されることになる。これらのテレビ３１やラジオ３２の音声は、ユーザ発話に対するノイズ音になる。
　また、近年の冷蔵庫３３、炊飯器３４等にも音声出力機能を有しているものが多い。例えば冷蔵庫３３からは、「ドアが開いています」といった音声出力がなされる。また、炊飯器３４からは、「ごはんが炊き上がりました」といった音声出力がなされる。
　なお、図２に示す機器以外にも、エアコンや換気扇等の外部機器が動作している場合にも、定常的なノイズ音が発生する。

　情報処理装置１０は、ユーザ発話に併せてこのような様々な外部機器から出力されるノイズもマイクを介して入力する。
　この結果、情報処理装置１０は、ユーザ発話の音声認識処理を正しく実行することができず、ユーザ発話の意図と異なる処理を実行してしまうというエラー（湧き出し）を発生させる可能性が高まることになる。
　本開示の情報処理装置は、マイク入力音からノイズを除去または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現するものである。

　なお、このような、湧き出しによるエラーを回避する対策としては、以下のような方法が考えられる。
　（１）音声らしい発話区間のみを選択する。例えばＶＡＤ（Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ）による音声区間検出を行い、音声とノイズを区別する。
　（２）ユーザが発話する場合、特定の「起動ワード」の発話を求める。
　（３）背景ノイズとユーザ発話の音圧の違いを検出する。
　（４）ノイズ源となる音源位置が固定された機器の出力するノイズ音を登録し、この登録ノイズデータを情報処理装置１０の入力音から除去してユーザ発話を抽出する。

　例えば上記（１）～（４）のような複数の対策が考えられるが、上記（１）の対策は、ノイズ源がテレビやラジオ等、人の音声と同様の音を出力する機器の場合は、ＶＡＤによる検出を実行しても、ユーザ発話との区別を行うことができないという問題がある。
　（２）の起動ワードは、ユーザに逐次、起動ワードを発声させることを強いることになり、ユーザ負担が大きくなるという問題がある。

　（３）の背景ノイズとユーザ発話の音圧の違いで区別する処理は、テレビやラジオなどのスピーカーがマイクに近い位置に設定されている場合や、ユーザとマイクが離れている場合などでは、明確な区別ができず、誤判定する可能性が高くなるという問題がある。
　（４）の登録ノイズデータを情報処理装置１０の入力音から除去してユーザ発話を抽出する構成は、常時ノイズを発している機器、例えばエアコン等の機器に対しては、効果があると推定される。しかし、テレビやラジオ等の機器は一定のノイズを出力しないため、この処理による効果が得られにくい。

　本開示の情報処理装置は、これらの問題点を解決して、情報処理装置１０のマイク入力音に含まれる様々な外部機器からの出力音であるノイズ（雑音）を除去、または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現する。

　　［２．本開示の情報処理装置が生成、利用する外部機器出力音特性データベースについて］
　次に、本開示の情報処理装置が生成し、ユーザ発話抽出のために利用する外部機器出力音特性データベースについて説明する。

　本開示の情報処理装置は、情報処理装置のマイク入力音にユーザ発話以外の様々な外部機器出力音が含まれる場合、マイク入力音からこれらの外部機器出力音を除去、または低減してクリアなユーザ発話音声を選択抽出して、ユーザ発話に対する応答処理を実行する。

　この処理を実現するため、本開示の情報処理装置は、予め外部機器の出力音の特性情報を記録したデータベース（ＤＢ）を生成する。このデータベースを「外部機器出力音特性データベース（ＤＢ）」と呼ぶ。

　図３に「外部機器出力音特性データベース（ＤＢ）」のデータ構成例を示す。
　図３に示すように、外部機器出力音特性ＤＢは、テレビやラジオ等の様々な外部機器について、以下の各情報を対応付けて記録したデータベースである。
　（ａ）外部機器ＩＤ
　（ｂ）機器種別
　（ｃ）音源方向
　（ｄ）特徴量
　なお、特徴量には、（ｄ１）周波数特性、または（ｄ２）発話テキストの少なくともいずれかの情報を記録する。

　（ａ）外部機器ＩＤには、例えば、図２に示す情報処理装置１０の置かれたリビングルームに置かれた外部機器の識別子を記録する。
　（ｂ）機器種別には、外部機器の種類、例えば、ＴＶ、ラジオ等の機器種別を記録する。

　（ｃ）音源方向と、（ｄ）特徴量については、情報処理装置１０が実行する外部機器出力音の特性測定処理によって取得された情報、あるいはユーザによる入力情報を記録する。
　（ｃ）音源方向は、情報処理装置１０の有するマイクアレイを構成する各マイクの取得音を解析することによって判別することができる。

　なお、前述したように、（ｄ）特徴量には、（ｄ１）周波数特性、または（ｄ２）発話テキストの少なくともいずれかの情報を記録する。
　（ｄ１）周波数特性は、例えば、外部機器出力音の周波数（Ｈｚ）と出力強度（ｄＢ）との対応情報である。
　外部機器出力音の周波数特性は、情報処理装置１０が実行する外部機器出力音の特性測定処理によって取得することができる。この処理の詳細については後述する。

　（ｄ２）発話テキストは、例えば、炊飯器のスピーカーから出力される「ごはんが炊き上がりました」等の発話テキストである。
　この発話テキスト情報は、ユーザ入力によって登録してもよいし、情報処理装置１０の音声認識処理によって解析したテキスト情報を登録する構成としてもよい。

　なお、例えば図２に示すようなリビング環境では、テレビ等の外部機器の出力する音波は、外部機器から情報処理装置１０に直接入力する直接波と壁等に反射して入力する反射波とが混在した音波となる。
　具体的には、図４に示すように、例えば外部機器であるテレビ３１の出力する音波は、１つの直接波と複数の反射波として情報処理装置１０に入力されることになる。

　情報処理装置１０はマイクアレイ１１を構成する各マイクによってこれらの複数の音波の混合信号を入力する。情報処理装置１０のデータ処理部は、例えば、音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を推定して、この推定方向をデータベースに記録する。
　なお、具体的には、例えばマイクアレイ１１を利用して既存のＤＳ法やＭＵＳＩＣ法によって音源方向を判定することが可能である。

　さらに、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、音源方向の方からの音を選択取得して、その音の周波数特性を解析する。
　解析された外部機器出力音の周波数特性情報はデータベースに記録する。

　なお、これらの外部機器出力音の特性、すなわち音源方向や、周波数特性等の特徴量を計測する際には、予め用意された音源（再生音声ファイル）を利用し、この音源（再生音声ファイル）を、測定対象とするテレビ等の外部機器のスピーカーから出力させる。

　外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源（再生音声ファイル）の具体例を図５、図６に示す。
　図５は、可聴領域の全周波数帯の音を均等に含むホワイトノイズである。
　図５には、ホワイトノイズの
　（１ａ）波形データ
　（１ｂ）スペクトログラム
　（１ｃ）周波数特性平均データ
　これらの各データを示している。

　このようなホワイトノイズを、外部機器のスピーカーから出力させて情報処理装置１０のマイクアレイ１１で取得して外部機器出力音の特性、すなわち音源方向や、周波数特性等の特徴量を計測する。

　なお、外部機器出力音の音源方向や周波数特性等の特徴量を計測する際に利用する音源（再生音声ファイル）は、このようなホワイトノイズに限らず、図６に示すように時間推移に伴い周波数特性が変動する音源としてもよい。

　ただし、情報処理装置１０のデータ処理部は、利用する音源（再生音声ファイル）の特性情報を保持し、この音源（再生音声ファイル）の特性と、マイクアレイ１１からの入力音の特性を比較して、外部機器出力音の音源方向や周波数特性等の特徴量を解析する。

　図７は、情報処理装置１０のデータ処理部による外部機器出力音の周波数特性の解析結果の例を示すグラフである。
　横軸が周波数（Ｈｚ）、縦軸が強度（ｄＢ）である。
　グラフには、２つの線を示している。実線が、音源（再生音声ファイル）として、図５を参照して説明したホワイトノイズを利用した場合の周波数特性計測結果である。
　点線が、音源（再生音声ファイル）として、図６を参照して説明した音源、すなわち時間推移に伴い周波数特性が変動する音源を利用した場合の周波数特性計測結果である。
　いずれの音源を利用した場合もほぼ同様の解析結果が得られている。

　なお、一般的に例えば部屋やコンサートホール等の音響特徴量を計測する場合、インパルス応答を計測する場合が多い。
　インパルス応答計測手法として、下記の２つの手法が知られている。
　（１）ＴＳＰ（Ｔｉｍｅ　Ｓｔｒｅｃｈｅｄ　Ｐｕｌｓｅ）を利用した処理
　（２）Ｍ系列信号（Ｍｉｘｍｕｍ　Ｌｅｎｇｔｈ　Ｓｅｑｕｅｎｃｅ）を利用した処理

　ただし、本開示の構成では、情報処理装置１０のマイクアレイ１１の周波数特性は既知であり、さらに、予め既知の周波数特性を有する音源（再生音声ファイル）を外部機器のスピーカーから出力する構成であり、情報処理装置１０のデータ処理部は、これらの既知の情報を用いることで、各外部機器の出力音の特性を解析している。すなわち、上記のようなインパルス応答の計測を行うことなく各外部機器の出力音の特性を計測している。

　マイクの特性が既知であり、音源（再生音声ファイル）の特性も既知であれば、厳密な室内のインパルス応答を知らなくても、各外部機器の出力音の特性、すなわち音源方向や周波数特性等を解析することができる。

　本開示の情報処理装置１０は、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、音源方向の方からの音を選択取得して、その音の周波数特性を解析する。
　この解析処理によって取得する外部機器の周波数特性は、例えば各周波数（Ｈｚ）対応の強度特性（ｄＢ）情報等であり、以下の式で示される外部機器周波数特性である。
　外部機器周波数特性＝（マイクアレイ１１の取得する観測信号の周波数特性）－（音源（再生音声ファイル）の周波数特性）

　ここで解析される外部機器周波数特性は、外部機器と情報処理装置１０の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
　解析された外部機器出力音の周波数特性情報はデータベースに記録する。

　　［３．本開示の情報処理装置の構成例について］
　次に、図８を参照して、本開示の情報処理装置の具体的な構成例について説明する。
　図８は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置１００の一構成例を示す図である。この図８に示す情報処理装置１００は、先に説明した図１他に示す情報処理装置１０に対応する。

　図８に示すように、情報処理装置１００は、制御部１０１、記憶部１０２、通信部１０３、音声入力部（マイクアレイ）１０５、音声出力部（スピーカー）１０６、画像出力部（表示部）１０７、データ処理部１１０、外部機器出力音ＤＢ１２１、応答処理用データＤＢ１２２を有する。
　なお、データ処理部１１０は、外部機器出力音解析部１１１、ユーザ発話音声抽出部１１２、音声認識部１１３、応答処理部１１４を有する。

　なお、図８には、１つの外部機器１５０も示している。外部機器１５０は、例えば先に図２を参照して説明したテレビ３１、ラジオ３２、冷蔵庫３３等の外部機器である。外部機器１５０は、制御部１５１、音声出力部１５２、通信部１５３を有する。
　なお、外部機器は図に示す１つ以外にも複数の外部機器が存在する。

　情報処理装置１００の通信部１０３は、この外部機器１５０やその他の外部機器との通信を実行し、さらに外部サーバ、例えば図に示すデータ処理サーバ１６１や、外部機器情報提供サーバ１６２との通信を実行する。

　データ処理サーバ１６１は、例えば音声認識処理を実行する。先に説明したように、音声認識処理は、情報処理装置１００内で実行してもよいが、外部サーバにおいて実行してもよい。情報処理装置１００内で音声認識処理を実行しない場合、図に示す情報処理装置１００のデータ処理部１１０内の音声認識処理部１１３は省略してもよい。この場合、情報処理装置１００は通信部１０３を介してデータ処理サーバ１６１に音声認識処理を依頼し、データ処理サーバ１６１における音声認識結果を受信して、応答処理部１１４に入力してユーザ１に対する応答を行う。

　外部機器情報提供サーバ１６２は、外部機器の出力音に関する情報を提供するサーバである。
　例えば炊飯器が出力する音声テキスト情報、具体的には、
　「ごはんが炊き上がりました」
　このような外部機器の音声出力音声テキスト情報等を情報処理装置１００に提供する。
　情報処理装置１００の制御部１０１は、この情報を外部機器出力音特性ＤＢ１２１に登録する。すなわち、先に図３を参照して説明した外部機器出力音特性ＤＢ１２１の（ｄ）特徴量の（ｄ２）発話テキスト情報として登録する。

　なお、前述したように、外部機器の発話テキストのデータベース登録処理は、ユーザが実行してもよいし、情報処理装置１００のデータ処理部１１０の音声認識部１１３における音声認識結果を利用して実行してもよい。

　情報処理装置１００の各構成要素の実行する処理について説明する。
　制御部１０１は、情報処理装置１００内で実行する様々な処理の統括的制御を実行する。例えば外部機器の出力音特性の解析処理や、ユーザ発話の解析処理、応答生成処理等、情報処理装置１００内で実行する様々な処理の統括的制御を実行する。
　これらの処理は、例えば記憶部１０２に格納されたプログラムに従って実行することができる。
　制御部１０１はプログラム実行機能を有するＣＰＵ等のプロセッサを有している。

　記憶部１０２は、制御部１０１の実行するプログラムの他、様々な処理に適用するパラメータ等を格納している。例えば先に図５や図６を参照して説明した外部機器出力音の特性解析に利用するための音源（再生音声ファイル）も格納している。さらに、音声入力部（マイク）１０５を介して入力される音声情報の記録領域としても利用される。

　通信部１０３は、外部機器１５０や外部サーバとの通信を実行する。
　外部機器１５０は、例えば、テレビ（ＴＶ）やラジオ等であり、様々な外部機器出力音（ノイズ）を発生するノイズ発生装置である。

　外部機器１５０は、制御部１５１、音声出力部１５２、通信部１５３を有する。外部機器１５０の出力音の解析処理を実行する場合は、情報処理装置１００は、通信部１０３を介して、先に図５や図６を参照して説明した音源（再生音声ファイル）を送信して、外部機器１５０の音声出力部１５２を介して出力させる。

　この出力音は、情報処理装置１００の音声入力部（マイクアレイ）１０５に入力される。
　音声入力部（マイクアレイ）１０５に入力されたた取得音信号は、データ処理部１１０の外部機器出力音解析部１１１に入力される。

　外部機器出力音解析部１１１は、外部機器の出力音の解析を実行し、外部機器の音源方向、特徴量としての周波数特性等を解析する。さらに、この解析結果を、外部機器出力音特性データベース１２１に記録する。
　すなわち、先に図３を参照して説明した外部機器出力音特性データベース１２１に記録するためのデータの生成と記録処理を行う、
　なお、外部機器出力音解析部１１１の実行する処理の詳細については、後段で説明する。

　ユーザが発話を実行した場合も、その発話音声は、情報処理装置１００の音声入力部（マイクアレイ）１０５に入力される。
　音声入力部（マイクアレイ）１０５に入力されたた取得音信号は、データ処理部１１０のユーザ発話音声抽出部１１２に入力される。

　ユーザ発話音声抽出部１１２は、音声入力部（マイクアレイ）１０５に入力される取得音から、外部機器の出力音を除去または低減する処理を実行して、入力音からユーザ発話音声を抽出する。
　このユーザ発話音声抽出部１１２におけるユーザ発話音声抽出処理に際して、外部機器出力音特性データベース１２１の登録情報が利用される。
　なお、このユーザ発話音声抽出部１１２の実行する処理の詳細については後段で説明する。

　ユーザ発話音声抽出部１１２によって抽出されたユーザ発話音声信号は、音声認識付保１１３に入力される。
　音声認識部１１３は、外部機器の出力音が除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能により、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　応答処理部１１４は、音声認識部１１３から音声認識結果を取得し、応答処理用データＤＢ１２２を参照して、ユーザ１に対する応答（システム発話）を生成する。
　応答処理部１１４の生成した応答データは、音声出力部（スピーカー）１０６や、画像出力部（表示部）１０７を介して出力される。

　　［４．外部機器出力音解析部の実行する処理の詳細について］
　次に、情報処理装置１００のデータ処理部１１０内の外部機器出力音解析部１１１の実行する処理の詳細について説明する。

　前述したように、外部機器出力音解析部１１１は、外部機器の出力音の解析を実行し、外部機器の音源方向、特徴量としての周波数特性等を解析する。さらに、この解析結果を、外部機器出力音特性データベース１２１に記録する。
　すなわち、先に図３を参照して説明した外部機器出力音特性データベース１２１に記録するためのデータの生成と記録処理を行う、

　図９に示すフローチャートを参照して外部機器出力音解析部１１１の実行する処理のシーケンスについて説明する。
　なお、図９以下に示すフローに従った処理は、例えば、情報処理装置の記憶部に格納されたプログラムに従って、プログラム実行機能を持つＣＰＵ等の制御の下に実行可能な処理である。
　図９に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ１０１）
　まず、情報処理装置１００は、ステップＳ１０１において、出力音特性の解析対象機器を選択する。
　例えば図２に示すリビング環境における複数の外部機器、すなわちテレビ３１、ラジオ３２、冷蔵庫３３、炊飯器３４等の外部機器から１つの出力音特性の解析対象機器を選択する。

　　（ステップＳ１０２）
　次に、情報処理装置１００は、ステップＳ１０１で選択した外部機器から、規定の予め用意された音源（再生音声ファイル）に従った音を出力させる。
　具体的には、例えば先に図５、図６を参照して説明した音源（再生音声ファイル）に従った音を、選択した外部機器のスピーカーを介して出力させる。

　情報処理装置１００は、通信部１０３を介して、解析対象として選択した外部機器に音源（再生音声ファイル）データを送信し、送信した音源（再生音声ファイル）に従った音を、選択した外部機器のスピーカーを介して出力させる。

　　（ステップＳ１０３）
　次のステップＳ１０３以下の処理は、情報処理装置１００のデータ処理部１１０の外部機器出力音解析部１１１が実行する処理である。

　ステップＳ１０２において、外部機器から出力された音信号は、情報処理装置１００の音声入力部（マイクアレイ）１０５に入力され、その入力音が外部機器出力音解析部１１１に入力される。

　外部機器出力音解析部１１１は、まず、ステップＳ１０３において音源方向の解析処理を実行する。
　外部機器出力音解析部１１１は、例えば、音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用して外部機器から出力される音の音源方向を解析する。具体的には、音声入力部（マイクアレイ）１０５を構成する各マイクの入力信号の位相差解析などを適用したＤＳ法やＭＵＳＩＣ法によって音源方向を解析する。

　　（ステップＳ１０４）
　外部機器出力音解析部１１１は、ステップＳ１０４において音源方向の解析処理に成功したか否かを判定し、成功していない場合はステップＳ１１１に進み、出力音調整を実行し、再度、ステップＳ１０２以下の処理を繰り返す。

　ステップＳ１０４において音源方向の解析処理に成功したと判定した場合はステップＳ１０５に進む。

　　（ステップＳ１０５）
　ステップＳ１０４において音源方向の解析処理に成功したと判定した場合は、外部機器出力音解析部１１１は、ステップＳ１０５において選択機器の出力音の音源方向データをデータベースに登録する。すなわち外部機器出力音特性データベース１２１に記録する。

　　（ステップＳ１０６）
　次に、外部機器出力音解析部１１１は、ステップＳ１０６において、外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する。

　　（ステップＳ１０７）
　次に、外部機器出力音解析部１１１は、ステップＳ１０７において、外部機器出力音の周波数特性を解析する。
　この解析処理によって取得する周波数特性データは、例えば各周波数（Ｈｚ）対応の強度（ｄＢ）情報等であり、例えば、以下の式で示される外部機器周波数特性である。
　外部機器周波数特性＝（音声入力部（マイクアレイ）１０５の取得する観測信号の周波数特性）－（音源（再生音声ファイル）の周波数特性）
　ここで解析される外部機器周波数特性は、外部機器と情報処理装置１００の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。

　　（ステップＳ１０８）
　次に、外部機器出力音解析部１１１は、ステップＳ１０８において、ステップＳ１０７で解析した外部機器出力音の周波数特性をデータベースに登録する。
　すなわち外部機器出力音特性データベース１２１に記録する。

　　（ステップＳ１０９）
　最後に、外部機器出力音解析部１１１は、ステップＳ１０９において、全ての解析対象外部機器の解析処理が完了したか否かを判定する。未処理の外部機器がある場合は、ステップＳ１０１に戻り、未処理機器について、ステップＳ１０１以下の処理を実行する。

　ステップＳ１０９において、全ての解析対象外部機器の解析処理が完了したと判定した場合は処理を終了する。
　これらの処理によって、先に図３を参照して説明した外部機器出力音特性データベース１２１に対する外部機器音声特性情報の登録処理が完了する。

　なお、図３に示す外部機器出力音特性データベース１２１の登録データ中、（ｄ２）発話テキストについては、外部機器情報提供サーバ１６２から取得する情報を入力すればよい。また、ユーザ入力によって登録してもよいし、情報処理装置１００の音声認識部１１３による音声認識結果を登録してもよい。

　上述したように、外部機器の出力音特性情報、すなわち、外部機器の音源方向、特徴量としての周波数特性等は、情報処理装置１００のデータ処理部１１０内の外部機器出力音解析部１１１において、図９に示すフローに従って実行され、外部機器出力音特性データベース１２１に記録される。

　次に、図１０を参照して図９に示すフローに従って実行される外部機器の出力する音信号に対する信号処理の具体例について説明する
　図１０は、情報処理装置１００の音声入力部（マイクアレイ）１０５が入力する入力音信号に対する信号処理を説明する図である。
　これらの信号処理は、外部機器出力音解析部１１１が実行する。

　まず、ステップＳ１８１において、音声入力部（マイクアレイ）１０５が入力する入力音信号１７１に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換（ＦＴ：Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。

　次に、ステップＳ１８２において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を算出する。

　次に、ステップＳ１８３において、推定した外部機器の音源方向の音を選択して強調する信号処理であるビームフォーミング（ＢＦ）処理を行うためのパラメータであるビームフォーミング（ＢＦ）係数を算出して、ステップＳ１８４において、算出した係数を適用したビームフォーミング（ＢＦ）処理を実行する。

　次に、音源方向からの入力音に対してステップＳ１８５以下の処理を実行する。
　ステップＳ１８５では、処理シーケンスに応じて順次取得される周波数特性データを特定周波数ごとに加算する処理を実行し、さらに、ステップＳ１８６において、その加算結果の平均化処理を実行する。
　これらの処理によって、音声信号に含まれるノイズ除去、低減が実行される。

　ステップＳ１８７では、最終的に外部機器出力音特性ＤＢ１２１に記録するための外部機器周波数特性データを算出する。具体的には、再生音源周波数特性１７２を取得して、以下の式に従ってデータベースに登録する外部機器周波数特性を算出する。
　外部機器周波数特性＝（マイクアレイ１１の取得する観測信号の周波数特性）－（音源（再生音声ファイル）の周波数特性）
　なお、音源（再生音声ファイル）の周波数特性が平坦でない場合は、必要に応じて音源の周波数特性に対する補正処理を行う。

　上記式に従って算出される外部機器周波数特性は、外部機器と情報処理装置１００の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。
　解析された外部機器出力音の周波数特性情報を外部機器出力音特性ＤＢ１２１に記録する。

　　［５．外部機器出力音解析部がビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について］
　次に、情報処理装置１００のデータ処理部１１０内の外部機器出力音解析部１１１の実行する処理の別の処理例として、ビームフォーミング処理を実行せずマイクアレイのマイク単位の入力音の周波数特性解析処理を行う実施例について説明する。

　図１１に示すフローチャートを参照して本実施例に従って外部機器出力音解析部１１１が実行する処理のシーケンスについて説明する。

　　（ステップＳ２０１～Ｓ２０５，Ｓ２１１）
　ステップＳ２０１～Ｓ２０５、およびステップＳ２１１の処理は、先に図９を参照して説明したフローのステップＳ１０１～Ｓ１０５，Ｓ１１１の処理と同様の処理である。

　すなわち、ステップＳ２０１において、出力音特性の解析対象機器を選択する。
　ステップＳ２０２において、ステップＳ２０１で選択した外部機器から、規定の予め用意された音源（再生音声ファイル）に従った音を出力させる。
　具体的には、例えば先に図５、図６を参照して説明した音源（再生音声ファイル）に従った音を、選択した外部機器のスピーカーを介して出力させる。

　次に、ステップＳ２０３において、音源方向の解析処理を実行する。
　外部機器出力音解析部１１１は、例えば、音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用して外部機器から出力される音の音源方向を解析する。
　ステップＳ２０４において音源方向の解析処理に成功したか否かを判定し、成功していない場合はステップＳ２１１に進み、出力音調整を実行し、再度、ステップＳ２０２以下の処理を繰り返す。
　ステップＳ２０４において音源方向の解析処理に成功したと判定した場合はステップＳ２０５に進む。

　ステップＳ２０４において音源方向の解析処理に成功したと判定した場合は、外部機器出力音解析部１１１は、ステップＳ２０５において選択機器の出力音の音源方向データをデータベースに登録する。すなわち外部機器出力音特性データベース１２１に記録する。

　このように、本実施例においても、外部機器の出力音の音源方向の解析処理とデータベース記録処理については、先に図９を参照して説明したフローのステップＳ１０１～Ｓ１０５，Ｓ１１１の処理と同様の処理として実行される。

　ステップＳ２０６以下の処理が、本実施例固有の処理となる。以下、ステップＳ２０６以下の処理について説明する。

　　（ステップＳ２０６）
　情報処理装置１００の外部機器出力音解析部１１１は、ステップＳ２０６において、音声入力部（マイクアレイ）１０５のマイクアレイを構成する各マイクの入力音単位で、周波数特性を解析する。

　この解析処理によって取得する周波数特性データは、音声入力部（マイクアレイ）１０５のマイクアレイを構成する各マイク単位の入力音の周波数特性である。
　例えばマイクアレイを構成するマイクの数がｎ個である場合、
　マイク数ｎに応じたｎ個の周波数特性データを生成する。

　すなわち、以下の第１マイク～第ｎマイク対応のｎ個の周波数特性を取得する。
　第１マイクの入力音に対応する外部機器出力音の周波数特性である第１マイク対応周波数特性
　第２マイクの入力音に対応する外部機器出力音の周波数特性である第２マイク対応周波数特性
　　・・・
　第ｎマイクの入力音に対応する外部機器出力音の周波数特性である第ｎマイク対応周波数特性

　このように、外部機器出力音解析部１１１は、ステップＳ２０６において第１マイク～第ｎマイク対応のｎ個の周波数特性を取得する。
　これらのｎ個の外部機器出力音周波数特性は、いずれも例えば各周波数（Ｈｚ）対応の強度（ｄＢ）情報等であり、例えば、第ｘマイクの外部機器周波数特性は以下の式によって算出される外部機器周波数特性となる。なお、ｘは１～ｎのいずれかの値である。
　第ｘマイク対応外部機器周波数特性＝（第ｘマイクの取得する観測信号の周波数特性）－（音源（再生音声ファイル）の周波数特性）
　ここで解析される外部機器周波数特性は、外部機器と情報処理装置１００の置かれた例えばリビングの伝達特性の影響を含む周波数特性となる。

　　（ステップＳ２０７）
　次に、外部機器出力音解析部１１１は、ステップＳ２０７において、ステップＳ２０６で解析したｎ個のマイク対応のｎ個の外部機器出力音の周波数特性をデータベースに登録する。
　すなわち外部機器出力音特性データベース１２１に記録する。

　　（ステップＳ２０８）
　最後に、外部機器出力音解析部１１１は、ステップＳ２０８において、全ての解析対象外部機器の解析処理が完了したか否かを判定する。未処理の外部機器がある場合は、ステップＳ２０１に戻り、未処理機器について、ステップＳ２０１以下の処理を実行する。

　ステップＳ２０８において、全ての解析対象外部機器の解析処理が完了したと判定した場合は処理を終了する。

　これらの処理によって、先に図３を参照して説明した外部機器出力音特性データベース１２１に対する外部機器音声特性情報の登録処理が完了する。
　ただし、本実施例では、図３の外部機器出力音特性データベース１２１の（ｄ１）周波数特性には、情報処理装置１００の音声入力部（マイクアレイ）１０５を構成するｎ個のマイクに対応するｎ個の周波数特性情報が記録される。

　次に、図１２を参照して図１１に示すフローに従って実行される外部機器の出力する音信号に対する信号処理の具体例について説明する
　図１２は、情報処理装置１００の音声入力部（マイクアレイ）１０５が入力する入力音信号に対する信号処理を説明する図である。
　これらの信号処理は、外部機器出力音解析部１１１が実行する。

　まず、ステップＳ２８１において、音声入力部（マイクアレイ）１０５が入力する入力音信号２７１に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換（ＦＴ：Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。

　次に、ステップＳ２８２において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用して直接波成分の到来方向、すなわち外部機器の音源方向を算出する。

　次に、ステップＳ２８３において、処理シーケンスに応じて順次取得される周波数特性データを特定周波数ごとに加算する処理を実行し、さらに、ステップＳ２８４において、その加算結果の平均化処理を実行する。
　これらの処理によって、音声信号に含まれるノイズ除去、低減が実行される。

　ステップＳ２８５では、最終的に外部機器出力音特性ＤＢ１２１に記録するための第１マイク～第ｎマイク対応のｎ個の周波数特性を算出する。具体的には、再生音源周波数特性２７２を取得して、外部機器出力音特性ＤＢ１２１に記録するデータを算出する。
　例えば、第ｘマイクの外部機器周波数特性は以下の式によって算出される外部機器周波数特性となる。ただしｘ＝１～ｎである。
　第ｘマイク対応外部機器周波数特性＝（第ｘマイクの取得する観測信号の周波数特性）－（音源（再生音声ファイル）の周波数特性）

　なお、音源（再生音声ファイル）の周波数特性が平坦でない場合は、必要に応じて音源の周波数特性に対する補正処理を行う。

　これらの処理によって、先に図３を参照して説明した外部機器出力音特性データベース１２１に対する外部機器音声特性情報の登録処理が完了する。
　ただし、本実施例では、図３の外部機器出力音特性データベース１２１の（ｄ１）周波数特性には、情報処理装置１００の音声入力部（マイクアレイ）１０５を構成するｎ個のマイクに対応するｎ個の周波数特性情報が記録される。
　本実施例の処理では、ビームフォーミング処理を省略した処理が可能となる。

　　［６．ユーザ発話音声抽出部の実行する処理の詳細について］
　次に、図８に示す情報処理装置１００のデータ処理部１１０のユーザ発話音声抽出部１１２の実行する処理の詳細について説明する。

　前述したように、ユーザ発話音声抽出部１１２は、音声入力部（マイクアレイ）１０５に入力される取得音から、外部機器の出力音を除去または低減する処理を実行して、入力音からユーザ発話音声を抽出する。
　このユーザ発話音声抽出部１１２におけるユーザ発話音声抽出処理に際して、外部機器出力音特性データベース１２１の登録情報が利用される。

　図１３と図１４に示すフローチャートを参照してユーザ発話音声抽出部１１２の実行する処理のシーケンスについて説明する。
　図１３～図１４に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ３０１）
　まず、情報処理装置１００のデータ処理部１１０のユーザ発話音声抽出部１１２は、ステップＳ３０１において、音声入力部（マイクアレイ）１０５から音信号を入力する。

　　（ステップＳ３０２）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３０２において、入力音の音源方向を解析する。例えば、音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用してマイク入力音の音源方向を算出する。

　　（ステップＳ３０３）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３０３において、ステップＳ３０２で解析した音源方向を検索キーとして、外部機器出力音特性ＤＢ１２１を検索する。

　　（ステップＳ３０４）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３０４において、外部機器出力音特性ＤＢ１２１に、ステップＳ３０２で解析した音源方向と一致または類似する音源方向を記録した登録外部機器が検出されたか否かを判定する。
　検出されなかった場合は、ステップＳ３２１に進む。
　一方、検出された場合はステップＳ３０５に進む。

　　（ステップＳ３０５）
　ステップＳ３０４において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器が検出された場合、ユーザ発話音声抽出部１１２は、ステップＳ３０５において、ＤＢから検出した登録外部機器の特徴量として周波数特性情報が記録されているか否かを判定する。
　登録されていない場合は、ステップＳ３１１に進む。
　登録されている場合は、ステップＳ３０６に進む。

　なお、ステップＳ３０２で解析した音源方向と一致または類似する音源方向を記録した登録外部機器で、かつ周波数特性を記録した外部機器がＤＢから複数、検出された場合は、以下のステップＳ３０６～Ｓ３０７の処理をＤＢから検出された外部機器ごとに繰り返し実行する。

　　（ステップＳ３０６）
　ステップＳ３０５において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器のＤＢ登録データとして周波数特性情報が記録されていると判定した場合、ユーザ発話音声抽出部１１２は、ステップＳ３０６において、ＤＢからその登録外部機器の周波数特性情報を取得する。

　　（ステップＳ３０７）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３０７において、ＤＢから取得した登録外部機器の周波数特性に相当する音信号を、音声入力部（マイクアレイ）１０５からの入力音から減算する処理を実行する。
　この処理の後、ステップＳ３１１に進む。

　　（ステップＳ３１１）
　ステップＳ３０５の判定がＮｏ、すなわち、ＤＢから検出した登録外部機器の特徴量として周波数特性情報が記録されていない場合、および、ステップＳ３０７の処理完了後、すなわち、録外部機器の周波数特性に相当する音信号を、音声入力部（マイクアレイ）１０５からの入力音から減算する処理を実行後、ステップＳ３１１の処理を実行する。

　ユーザ発話音声抽出部１１２は、ステップＳ３１１において、入力音と音源方向が一致すると判定されたＤＢ登録外部機器の特徴量として発話テキストが記録されているか否かを判定する。
　記録されていない場合は、ステップＳ３２１に進む。
　一方、発話テキストが記録されている場合は、ステップＳ３１２に進む。

　　（ステップＳ３１２）
　ステップＳ３１１において、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器のＤＢ登録データとして発話テキストが記録されていると判定した場合、ユーザ発話音声抽出部１１２は、ステップＳ３１２において、ＤＢからその登録外部機器に対応して記録された発話テキストを取得する。

　　（ステップＳ３１３）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３１３において、入力音信号に対する音声認識処理を音声認識部１１３において実行させ、その音声認識結果を入力する。

　　（ステップＳ３１４）
　次に、ユーザ発話音声抽出部１１２は、ステップＳ３１４において、入力音信号に対する音声認識結果と、ＤＢの登録外部機器に対応して記録された発話テキストを比較し、一致するか否かを判定する。

　一致した場合は、入力音が外部機器による発話であると判定し、その後の応答処理を実行することなく、処理を終了する。
　一方、一致しない場合はユーザ発話であると判定し、ステップＳ３２２に進み、応答処理を実行する。

　　（ステップＳ３２１）
　ステップＳ３０４の判定がＮｏ、すなわち、入力音の音源方向と一致または類似する音源方向を記録した登録外部機器が検出されなかった場合、または、ステップＳ３１１の判定がＮｏ、すなわち、入力音と音源方向が一致すると判定されたＤＢ登録外部機器の特徴量として発話テキストが記録されていない場合、これらの場合は、ステップＳ３２１～Ｓ３２２の処理を実行する。
　これらの場合は、入力音に、ユーザ発話のみが含まれると判定した場合の処理であ

　この場合、ステップＳ３２１において、入力信号の音声認識処理を実行する。
　この処理は、音声認識部１１３において実行される。あるいは外部のデータ処理サーバ１６１において実行してもよい。

　　（ステップＳ３２２）
　ステップＳ３２１の処理後、または、ステップＳ３１４の判定がＮｏの場合、すなわち、入力音信号に対する音声認識結果と、ＤＢの登録外部機器に対応して記録された発話テキストが一致しないと判定された場合はステップＳ３２２の処理を実行する。

　情報処理装置１００は、ステップＳ３２２において、音声認識結果に基づく応答処理を実行する。
　この処理は、情報処理装置１００のデータ処理部１１０の応答処理部１１４が実行する。
　この処理は、ユーザ発話に対する応答処理として実行される処理となる。

　次に、図１５と、図１６を参照してユーザ発話音声抽出部１１２の実行する処理の具体例について説明する。
　図１５は、音声入力部（マイクアレイ）１０５の入力音に、ユーザ発話音声と外部機器の出力音が混在する場合の処理例である。
　図１６は、音声入力部（マイクアレイ）１０５の入力音に、ユーザ発話音声が含まれず、外部機器の出力音のみが含まれる場合の処理例である。

　まず、図１５を参照して、音声入力部（マイクアレイ）１０５の入力音に、ユーザ発話音声と外部機器の出力音が混在する場合の処理例について説明する。

　図１５は、情報処理装置１００の音声入力部（マイクアレイ）１０５が入力する入力音信号に対する信号処理を説明する図である。
　これらの信号処理は、ユーザ発話音声抽出部１１２が実行する。

　まず、ステップＳ４０１において、音声入力部（マイクアレイ）１０５が入力する入力音信号３２１に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換（ＦＴ：Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。
　なお、本処理例において、入力音信号３２１には、ユーザ発話音声と外部機器出力音が含まれた混在信号である。

　次に、ステップＳ４０２において、時間周波数変換データを用いて、音源方向推定処理を実行する。音源到来方向推定（ＤＯＡ：Ｄｉｒｅｃｔｉｏｎ　ｏｆ　Ａｒｒｉｖａｌ）技術を利用してマイク入力音の音源方向を算出する。

　次に、ステップＳ４０３において、推定した音源方向の音を選択して強調する信号処理であるビームフォーミング（ＢＦ）処理とノイズ低減（ＮＲ）処理を行うためのパラメータであるフィルタ係数を算出して、ステップＳ４０４において、算出した係数を適用したビームフォーミング（ＢＦ）処理とノイズ低減（ＮＲ）処理を実行する。

　次に、ステップＳ４０５において、ビームフォーミング（ＢＦ）とノイズ低減（ＮＲ）処理後の信号に対する音声区間検出処理を実行する。

　この音声区間検出処理は、例えば既存のＶＡＤ（Ｖｏｉｃｅ　Ａｃｔｏｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ）技術を利用した処理であり、音声が含まれる区間と、それ以外の区間を判別して、音声区間のみの音声区間信号を選択抽出する処理である。

　次に、選択抽出された音声区間信号に対して、ステップＳ４０６において、外部機器出力音の除去処理を実行する。
　この外部機器出力音除去処理は、外部機器出力特性データベース１２１に登録された情報を利用して実行する。

　まず、外部機器出力特性データベース１２１に登録された複数の外部機器対応情報から、ステップＳ４０２における音源方向解析結果によって解析された得音源方向に該当する外部機器のエントリを選択する。
　さらに、その選択エントリの特徴量、例えば周波数特性情報を取得する。

　ステップＳ４０６では、音声区間信号に含まれる音声信号から、この外部機器出力特性データベース１２１から選択したエントリの周波数特性に一致する周波数信号を減算する処理を実行する。
　この減算処理によって、ステップＳ４０５で選択された音声区間信号内に含まれる外部機器の出力音声が取り除かれ、結果として外部機器の出力音が含まれないユーザ発話音声信号のみが抽出される。

　このように、ステップＳ４０６では、音声区間信号から外部機器出力音を除去してユーザ発話音声信号が抽出される。

　次のステップＳ４０７では、ユーザ発話音声信号のみによって構成される信号に対する周波数時間変換処理、すなわち逆フーリエ変換（逆ＦＴ）を実行する。この処理によってユーザ発話対応の音声信号からなる出力音信号３３１が生成される。

　このように、ユーザ発話音声抽出部１１２は、情報処理装置１００の音声入力部（マイクアレイ）１０５が入力する入力音信号に対する信号処理を実行して、ユーザ発話音声と外部機器の出力音が混在する入力音から、外部機器出力音を除去または低減してユーザ発話音声信号のみからなる出力音信号３３１を抽出する処理を実行する。

　ユーザ発話音声抽出部１１２が抽出したユーザ発話音声信号（出力音信号３３１）は、情報処理装置１００のデータ処理部１１０の音声認識部１１３に入力される。
　音声認識部１１３は、外部機器の出力音が除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能により、音声データを複数の単語から構成されるテキストデータに変換する。

　なお、前述したように音声認識処理は外部サーバ、すなわち図８を参照して説明したデータ処理サーバ１６１において実行させてもよい。
　この場合は、ユーザ発話音声抽出部１１２が抽出したユーザ発話音声信号をデータ処理サーバ１６１に送信し、音声認識結果をデータ処理サーバ１６１から受信する。

　音声認識処理結果は、応答処理部１１４に出力される。応答処理部１１４は、音声認識処理結果を入力して、応答処理用データＤＢ１２２を参照して、ユーザに対する応答（システム発話）を生成する。
　応答処理部１１４の生成した応答データは、音声出力部（スピーカー）１０６や、画像出力部（表示部）１０７を介して出力される。

　次に、図１６を参照して、音声入力部（マイクアレイ）１０５の入力音に、ユーザ発話音声が含まれず、外部機器の出力音のみが含まれる場合の処理例について説明する。
　図１６に示す信号処理も、ユーザ発話音声抽出部１１２が実行する。

　まず、ステップＳ４０１において、音声入力部（マイクアレイ）１０５が入力する入力音信号３５１に対して、時間周波数変換処理を実行する。いわゆるフーリエ変換（ＦＴ：Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）により、各時間単位の周波数成分の振幅を解析可能な時間周波数変換データを生成する。

　なお、本処理例において、入力音信号３５１には、ユーザ発話音声は含まれず、外部機器の出力音声のみが含まれる。

　ステップＳ４０６では、音声区間信号に含まれる音声信号から、この外部機器出力特性データベース１２１から選択したエントリの周波数特性に一致する周波数信号を減算する処理を実行する。
　この減算処理によって、ステップＳ４０５で選択された音声区間信号内に含まれる外部機器の出力音声が取り除かれる。

　本実施例では、入力音信号３５１には、外部機器の出力音のみが含まれ、ユーザ発話音声信号は含まれていないため、ステップＳ４０６では外部機器出力音の除去により、音声信号がほとんど含まれない信号が生成される。

　次のステップＳ４０７では、この信号に対する周波数時間変換処理、すなわち逆フーリエ変換（逆ＦＴ）を実行する。このの処理によって生成される出力音信号３６１は、ほぼ無音の信号となる。

　ユーザ発話音声抽出部１１２が抽出した信号は、情報処理装置１００のデータ処理部１１０の音声認識部１１３に入力されるが、音声認識部１１３は、ほぼ無音の入力信号に対して音声認識処理は実行しない。
　すなわち、本開示の情報処理装置１００では、ユーザ発話以外の音声に対して無駄な音声認識を行うことがなくなり、余計なデータ処理が実行されない。

　　［７．情報処理装置のハードウェア構成例について］
　次に、図１７を参照して、情報処理装置のハードウェア構成例について説明する。
　図１７を参照して説明するハードウェアは、先に図８を参照して説明した情報処理装置のハードウェア構成例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［８．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部は、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置。

　（２）　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースに記録された外部機器出力音の音源方向が、前記入力音の音源方向と一致または類似する場合、前記入力音に外部機器出力音が含まれると判定する（１）に記載の情報処理装置。

　（３）　前記ユーザ発話音声抽出部は、
　前記入力音の音源方向を解析後に、
　解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する（１）または（２）に記載の情報処理装置。

　（４）　前記ユーザ発話音声抽出部は、
　外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を減算する処理を実行してユーザ発話音声を抽出する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である周波数特性が記録され、
　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースから、外部機器出力音の周波数特性を取得して、取得した周波数特性に対応する音信号を前記入力音から減算する処理を実行する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である外部機器発話テキスト情報が記録され、
　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースから、外部機器発話テキスト情報を取得して、取得した外部機器発話テキスト情報が、前記入力音の音声認識結果と一致する場合に、入力音に外部機器出力音が含まれると判定する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記ユーザ発話音声抽出部は、
　前記入力音の音声区間検出処理を実行し、
　処理対象データを音声区間データとして、外部機器出力音の除去処理を実行する（１）～（６）いずれかに記載の情報処理装置。

　（８）　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部は、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置。

　（９）　前記外部機器出力音解析部は、
　前記外部機器と情報処理装置の置かれた室内の伝達特性の影響を含む周波数特性を解析する（８）に記載の情報処理装置。

　（１０）　前記外部機器出力音解析部の取得する前記外部機器の周波数特性は、
　外部機器の周波数特性＝（マイクアレイの取得する観測信号の周波数特性）－（再生音声データの周波数特性）
　上記式に従った周波数特性である（８）または（９）に記載の情報処理装置。

　（１１）　前記外部機器出力音解析部は、
　前記入力音の音源方向を解析後に、
　解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、外部機器出力音の周波数特性を解析する（８）～（１０）いずれかに記載の情報処理装置。

　（１２）　前記外部機器出力音解析部は、
　前記マイクアレイを構成する各マイクの取得音単位で周波数特性を解析する（８）～（１１）いずれかに記載の情報処理装置。

　（１３）　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部が、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法。

　（１４）　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部が、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法。

　（１５）　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記プログラムは、前記ユーザ発話音声抽出部に、
　前記入力音の音源方向を解析させ、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラム。

　（１６）　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記プログラムは、前記外部機器出力音解析部に、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　具体的には、例えば、マイク入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有する。ユーザ発話音声抽出部は、入力音の音源方向を解析し、データベースに記録された外部機器出力音の音源方向に基づいて、入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、データベースに記録された外部機器出力音の特徴量、例えば周波数特性に対応する音信号を入力音から除去して外部機器出力音を除去したユーザ発話音声を抽出する。
　本構成により、音声入力部を介して入力する音声から外部機器出力音を除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。

　　１０　情報処理装置
　　１１　マイク（アレイ）
　　１２　表示部
　　１３　スピーカー
　　３１　テレビ
　　３２　ラジオ
　　３３　冷蔵庫
　　３４　炊飯器
　１００　情報処理装置
　１０１　制御部
　１０２　記憶部
　１０３　通信部
　１０５　音声入力部（マイクアレイ）
　１０６　音声出力部（スピーカー）
　１０７　画像出力部（表示部）
　１１０　データ処理部
　１１１　外部機器出力音解析部
　１１２　ユーザ発話音声抽出部
　１１３　音声認識部
　１１４　応答処理部
　１２１　外部機器出力音ＤＢ
　１２２　応答処理用データＤＢ
　１５０　外部機器
　１５１　制御部
　１５２　音声出力部
　１５３　通信部
　１６１　データ処理サーバ
　１６２　外部機器情報提供サーバ
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部は、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理装置。
　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースに記録された外部機器出力音の音源方向が、前記入力音の音源方向と一致または類似する場合、前記入力音に外部機器出力音が含まれると判定する請求項１に記載の情報処理装置。
　前記ユーザ発話音声抽出部は、
　前記入力音の音源方向を解析後に、
　解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行する請求項１に記載の情報処理装置。
　前記ユーザ発話音声抽出部は、
　外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を減算する処理を実行してユーザ発話音声を抽出する請求項１に記載の情報処理装置。
　前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である周波数特性が記録され、
　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースから、外部機器出力音の周波数特性を取得して、取得した周波数特性に対応する音信号を前記入力音から減算する処理を実行する請求項１に記載の情報処理装置。
　前記外部機器出力音特性データベースには、外部機器出力音の音源方向と、特徴量である外部機器発話テキスト情報が記録され、
　前記ユーザ発話音声抽出部は、
　前記外部機器出力音特性データベースから、外部機器発話テキスト情報を取得して、取得した外部機器発話テキスト情報が、前記入力音の音声認識結果と一致する場合に、入力音に外部機器出力音が含まれると判定する請求項１に記載の情報処理装置。
　前記ユーザ発話音声抽出部は、
　前記入力音の音声区間検出処理を実行し、
　処理対象データを音声区間データとして、外部機器出力音の除去処理を実行する請求項１に記載の情報処理装置。
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部は、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理装置。
　前記外部機器出力音解析部は、
　前記外部機器と情報処理装置の置かれた室内の伝達特性の影響を含む周波数特性を解析する請求項８に記載の情報処理装置。
　前記外部機器出力音解析部の取得する前記外部機器の周波数特性は、
　外部機器の周波数特性＝（マイクアレイの取得する観測信号の周波数特性）－（再生音声データの周波数特性）
　上記式に従った周波数特性である請求項８に記載の情報処理装置。
　前記外部機器出力音解析部は、
　前記入力音の音源方向を解析後に、
　解析された音源方向の音を選択して強調する信号処理であるビームフォーミング処理を実行して、外部機器出力音の周波数特性を解析する請求項８に記載の情報処理装置。
　前記外部機器出力音解析部は、
　前記マイクアレイを構成する各マイクの取得音単位で周波数特性を解析する請求項８に記載の情報処理装置。
　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記ユーザ発話音声抽出部が、
　前記入力音の音源方向を解析し、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行する情報処理方法。
　情報処理装置において実行する情報処理方法であり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記外部機器出力音解析部が、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、音声入力部を介する入力音からユーザ発話音声を抽出するユーザ発話音声抽出部を有し、
　前記プログラムは、前記ユーザ発話音声抽出部に、
　前記入力音の音源方向を解析させ、
　外部機器出力音特性データベースに記録された外部機器出力音の音源方向に基づいて、前記入力音に外部機器出力音が含まれるか否かを判定し、含まれると判定した場合に、外部機器出力音特性データベースに記録された外部機器出力音の特徴量を利用して、前記入力音から外部機器出力音を除去する処理を実行させるプログラム。
　情報処理装置において情報処理を実行させるプログラムであり、
　前記情報処理装置は、
　外部機器の出力音の特性を解析してデータベースに記録する外部機器出力音解析部を有し、
　前記プログラムは、前記外部機器出力音解析部に、
　既知の周波数特性を有する音声データを外部機器から出力させてマイクアレイが取得した音信号を入力し、入力する音信号の解析を実行して、外部機器の音源方向と、外部機器出力音の周波数特性を解析させるプログラム。