WO2019235134A1

WO2019235134A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2019235134A1
Application number: PCT/JP2019/018769
Authority: WO
Inventors: 栗屋　志伸
Original assignee: ソニー株式会社
Priority date: 2018-06-07
Filing date: 2019-05-10
Publication date: 2019-12-12

Abstract

音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法を実現する。音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に応じた処理や応答を実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声対話システムの利用が増大している。このような音声対話システムは、例えばスマートスピーカー、エージェント、あるいはエージェント機器等と呼ばれる。
　このような音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。

　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　音声対話システムの大きな課題として、システムのマイクを介して入力する音が、ユーザがシステムに話しかけた音声であるか、あるいはシステム以外に対する発話やノイズであるかを判断するのが難しいという問題がある。

　ユーザがシステムに対して話しかけた音以外の音をシステムがユーザ発話であると認識して処理を行うと、誤った処理を行ってしまう可能性がある。このようなシステムの誤動作は、例えば「湧き出し」と呼ばれる。

　このような誤動作を防止する方法はいくつか提案されている。例えば、ユーザがシステムに対する発話を行う場合、予め規定した「起動ワード」を用いるものがある。具体的には、例えばシステムのニックネームを「起動ワード」として予め登録し、ユーザがシステムに対して発話を行う場合、まず、起動ワードの発話を行い、起動ワードに続けてシステムに対する要求を発話するというものである。

　システム側では、例えば、起動ワード後の１発話のみを対象として認識するという処理等が行われる。しかし、この設定では、ユーザは１つの発話ごとに、逐次、起動ワードを発する必要があり、ユーザの負担が大きくなる。
　起動ワード後の複数発話以上をシステムに対するユーザ発話であると認識させる構成も可能であるが、起動ワード後のユーザ発話のどこまでをシステムに対する発話であると判断すべきかの区切りが困難になるという問題がある。

　起動ワードを利用することなく、システムに対するユーザ発話を識別するためには、システムに対するユーザ発話と、それ以外の音、すなわちノイズ音等を区別することが必要となる。ノイズにはシステムに対するユーザ発話以外の人のしゃべり声、ＴＶ、インターネット音声コンテンツなどの出力音、さらに、エアコン・換気扇などの定常ノイズ音等がある。

　なお、ユーザの周辺に他の音源が存在する場合でも音声認識精度を向上させる技術を開示した従来技術として特許文献１（特開２０１７－１３８４７６号公報）がある。これは、雑音の音源となる周辺装置の状態を検出して、ユーザが発話すると推定されるタイミングに合わせて周辺装置の出力音を低下させる制御を行うというものである。
　しかし、この手法では、ユーザの発話タイミングを推定する処理が必要であり、このタイミング推定が正しく実行されなければ効果が得られないという問題がある。

特開２０１７－１３８４７６号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザ発話タイミングに応じて周辺装置の出力音を制御するといった処理を行うことなく、システムに対する入力音から高精度なノイズ除去を行い、クリアなユーザ発話を取得して精度の高い音声認識を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の一実施例においては、ノイズ発生源ごとのノイズ情報をノイズデータベース（ＤＢ）に登録し、この登録情報を利用してシステムに対する入力音からノイズを除去して、明瞭なユーザ発話を取得することを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。

　本開示の第１の側面は、
　音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置にある。

　さらに、本開示の第２の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
　音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
　応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法にある。

　さらに、本開示の第４の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末が、
　ユーザ発話を入力する音声入力処理を実行し、
　前記データ処理サーバが、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
　ノイズキャンセルされた後の音声情報に対する音声認識処理と、
　音声認識結果に基づく応答処理を実行し、
　前記ノイズキャンセル処理においては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
　音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
　応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　具体的には、例えば、音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。
　本構成により、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に基づく応答や処理を行う音声対話システムの例について説明する図である。音声対話システムとして利用可能な情報処理装置の構成例と利用例について説明する図である。情報処理装置の設置環境の例について説明する図である。本開示の情報処理装置の構成例について説明する図である。ノイズＤＢの格納データの一例について説明する図である。応答用データＤＢの格納データの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明するフローチャートを示す図である。情報処理装置の実行するノイズキャンセル処理の具体例について説明する図である。情報処理装置の実行するノイズキャンセル処理の具体例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。ノイズＤＢの格納データの一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスの一例について説明する図である。情報処理システムの構成例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．音声対話システムの概要と問題点について
　２．本開示の情報処理装置の構成例について
　３．情報処理装置の実行する処理の詳細について
　３－１．（処理１）ノイズＤＢ１１０に対するノイズ情報の登録処理
　３－２．（処理２）ノイズＤＢ１１０に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理
　３－３．（処理３）ユーザ発話に基づく応答処理と外部デバイス制御処理
　４．情報処理装置、および情報処理システムの構成例について
　５．情報処理装置のハードウェア構成例について
　６．本開示の構成のまとめ

　　［１．音声対話システムの概要と問題点について］
　まず、図１以下を参照して、音声対話システムの概要と問題点について説明する。
　図１は、ユーザ１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、ユーザの発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー１４を介して出力する。
　図１に示す例では、情報処理装置１０は、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　なお、ユーザ発話に対する音声認識処理や意味解析処理は、情報処理装置１０内で行ってもよいし、クラウド側のサーバ２０の１つであるデータ処理サーバにおいて実行する構成としもよい。

　音声対話システムを構成する情報処理装置１０は、図２に示すように、エージェント機器１０ａに限らず、スマホ１０ｂやＰＣ１０ｃ等のような様々な装置形態とすることが可能である。

　情報処理装置１０は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図２に示すテレビ、エアコン等の外部機器３０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、情報処理装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器３０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　なお、情報処理装置１０は、ネットワークを介してサーバ２０と接続され、サーバ２０から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、前述したように音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　しかし、音声対話を行う情報処理装置１０の実際の利用環境には様々なノイズが存在する。情報処理装置１０の実際の利用環境の一例を図３に示す。
　図３に示すように、音声対話を行う情報処理装置１０の周囲には、ＴＶ１，３１、エアコン１，３２、換気扇３３、ＴＶ２，３４等の機器（外部デバイス）が存在している。これらの機器（外部デバイス）は、動作時に様々な音（ノイズ）を発生する。

　ＴＶのスイッチがＯＮであれば、様々な番組の音声が出力されることになる。このＴＶ音声は、ユーザ発話に対するノイズ音である。またエアコンや換気扇が動作している場合、定常的なノイズ音が発生する。
　情報処理装置１０は、ユーザ発話に併せてこのような様々な機器（外部デバイス）から出力されるノイズもマイクを介して入力する。

　この結果、情報処理装置１０は、ユーザ発話の音声認識処理を正しく実行することができず、ユーザ発話の意図と異なる処理を実行してしまうというエラー（湧きだし）を発生させる可能性が高まることになる。
　本開示の情報処理装置は、マイク入力音からノイズを除去または低減してクリアなユーザ発話音声を抽出して音声認識を行うことで、エラーの低減を実現するものである。

　　［２．本開示の情報処理装置の構成例について］
　次に、図４を参照して、本開示の情報処理装置の具体的な構成例について説明する。
　図４は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置１００の一構成例を示す図である。この図４に示す情報処理装置１００は、図１、図２に示す情報処理装置１０と同様の構成を有し、同様の処理を実行する。ただし、以下において説明する本開示の処理は主に音声に関する処理であるので、画像関連の処理構成（カメラ、表示部）については省略して説明する。

　図４に示すように、情報処理装置１００は、チューナ１０１、デコーダ１０２、ノイズ管理部１０３、制御部１０４、ノイズキャンセル部１０５、音声入力部（マイク）１０６、音声認識部１０７、応答処理部１０８、音声出力部（スピーカー）１０９、ノイズＤＢ（データベース）１１０、応答処理用データＤＢ１１１、通信部１１２を有する。

　通信部１１２は、外部デバイス２００、外部デバイスコントローラ（リモコン）２２０、情報提供サーバ２５０等と情報処理装置１００間の通信を実行する。
　外部デバイス２００は、例えば、先に図３を参照して説明したテレビ（ＴＶ）や、エアコンや、換気扇等、情報処理装置１００の利用環境において様々なノイズを発生するノイズ発生機器である。図４には、外部デバイス２００を１つのみ示しているが、外部デバイスは１つに限らず、複数存在してもよい。

　外部デバイス２００は、状態管理部２０１と、音声出力部２０２を有する。この構成は、テレビ（ＴＶ）や、エアコンや、換気扇等の構成を簡略化して示したものであり、本開示の処理において利用される構成のみを示している。状態管理部２０１は、音声出力制御、動作モード（ＯＮ，ＯＦＦ、設定、チャンネル等）の制御や、情報処理装置１００との通信を行う。

　外部デバイスコントローラ（リモコン）２２０は、例えばリモコンであり、ＴＶのリモコン、エアコンや換気扇等のリモコンである。外部デバイスコントローラ（リモコン）２２０も情報処理装置１００との通信機能を有する。ただし、この通信機能は必須構成ではなく、情報処理装置１００は、外部デバイス２００、または、外部デバイスコントローラ（リモコン）２２０の少なくともいずれかから、外部デバイス２００の動作モード（ＯＮ，ＯＦＦ、設定、チャンネル等）に関する情報を取得可能な構成であればよい。

　情報提供サーバ２５０は、例えば情報処理装置１００に対して実行されたユーザ１のユーザ発話に対応する情報提供や処理を行うサーバである。例えば天気情報を提供するサーバ、音楽提供サーバ等、ユーザの要求に応じたサービスを提供するサーバ等によって構成される。図には１つの情報提供サーバ２５０のみを示しているが、このサーバも多数存在し、ネットワークを介して情報処理装置１００との通信を実行する。

　次に、情報処理装置１００の内部の構成について説明する。
　チューナ１０１は、例えばテレビやラジオの放送波、さらにインターネット等を介して配信されるデータを受信する。例えばテレビ番組や、音楽コンテンツ、動画コンテンツ等を受信する。テレビの場合、特定の設定チャンネルの信号を受信し、インターネットからは、特定の指定ＵＲＬからの情報を受信する。

　チューナ１０１による受信データは、デコーダ１０２へ入力され、デコーダ１０２において受信データのデコード処理が実行される。デコード結果に含まれる音声信号は、ノイズ管理部１０３へ入力される。

　ノイズ管理部１０３は、以下の２つの処理実行時に際して異なる処理を実行する。
　（ａ）ノイズ情報登録処理実行時
　（ｂ）ノイズキャンセル処理実行時
　以下、これらの２つの処理実行時においてノイズ管理部１０３が実行する処理について説明する。

　（ａ）ノイズ情報登録処理実行時
　ノイズ情報登録処理とは、様々な外部デバイスから出力されるノイズ情報をノイズＤＢ（データベース）１１０に登録する処理である。
　ノイズＤＢ（データベース）１１０に登録されるデータの例を図５に示す。
　ノイズＤＢ１１０には、ノイズ識別子単位で以下のデータが対応付けられて記録される。
　（ａ）ノイズ識別子（（ａ１）デバイス識別子と、（ａ２）動作モード）
　（ｂ）ノイズ種別
　（ｃ）マイク入力音声ノイズ算出関数
　（ｄ）マイク入力定常ノイズ
　（ｅ）ノイズ信号取得用リンク

　（ａ）ノイズ識別子は、（ａ１）デバイス識別子と、（ａ２）動作モードによって構成される。例えばエントリ（１）に示す例は、デバイス識別子＝ＴＶ１、動作モード＝（ＣＨ＝ａｎｙ，ＶＯＬ＝３０））がノイズ識別子である。
　このノイズ識別子データは、ノイズを発生させる機器である外部デバイスの識別子（ＴＶ１等）と、その外部デバイスの動作モード（ＶＯＬ＝３０）等からなるデータである。

　（ｂ）ノイズ種別には、（ａ）ノイズ識別子によって特定されるノイズの種類が登録される。具体的には、以下の３種類のノイズ種別がある。
　（ｂ１）テレビやラジオ番組、ネット配信コンテンツを構成する音声対応の音声ノイズ、
　（ｂ２）エアコン、換気扇等の動作音等の定常ノイズ、
　（ｂ３）例えばデバイスエラー時に発するノイズ等、特殊な音声ノイズであり、デバイスの製造者や販売者がノイズ音声情報を提供するリンク設定ノイズ、

　具体的には、（ｂ１）音声ノイズとは、時間（ｔ）の推移に伴い変化するノイズ信号である。（ｂ２）定常ノイズは、時間（ｔ）の推移に伴う変化がほとんどないノイズ信号である。（ｂ３）リンク設定ノイズは、外部からノイズ音情報を取得可能なノイズ信号である。

　（ｃ）マイク入力音声ノイズ算出関数は、（ｂ）ノイズ種別が「音声ノイズ」である場合にのみ記録される。すなわち、テレビやラジオ番組、ネット配信コンテンツを構成する音声対応の音声ノイズである場合にのみ記録される。

　この「（ｃ）マイク入力音声ノイズ算出関数」には、情報処理装置１００が置かれた環境に応じたマイク入力音声ノイズ信号の算出関数を記録する。情報処理装置１００が置かれる環境は、例えば図３を参照して説明した環境等、様々な環境が想定される。情報処理装置１００のマイクには、その環境に応じたノイズ信号が入力される。

　例えば図３に示すような環境では、テレビ等の外部デバイスのスピーカーからの出力音は、周囲の壁、天井、床等に反射し、情報処理装置１００のマイクに入力する音は、外部デバイスのスピーカーからの出力音と反射音を合成したものとなる。

　図５に示すエントリ（１）（ＴＶ１）には、マイク入力音声ノイズ算出関数として、以下の（式１）が登録されている。
　ｇ１（ｆ１（ｔ））・・・（式１）
　上記（式１）において、
　ｆ１（ｔ）は、情報処理装置１００のチューナ１０１が受信する音声信号の時間（ｔ）に従った推移を示す関数である。すなわち、上記（式１）は、チューナ１０１が受信する音声信号の関数ｆ１（ｔ）から、情報処理装置１００の音声入力部（マイク）１０６が入力する音声ノイズ信号ｇ１（ｔ）を算出する関数である。
　なお、チューナ１０１の受信信号は、ＴＶ１のチャンネルと同じ設定の受信信号である。

　図５に示すエントリ（１）（ＴＶ１）には、マイク入力音声ノイズ算出関数ｇ１（ｆ１（ｔ））の一例として以下の（式２）が登録されている。
　ｇ１（ｆ１（ｔ））＝ΣＫ（ｎ）・ｆ１（ｔ－Ｔ（ｎ））・・・（式２）
　上記（式２）は、チューナ受信信号ｆ１（ｔ）から、マイク入力音声ノイズ信号を算出する関数ｇ１（ｆ１（ｔ））の一例である。

　上記（式２）において、
　ｎは、ＴＶ１から出力された音が情報処理装置１００のマイクに入力する場合の音の数である。マイクには、ＴＶ１から直接入力する音の他、壁や天井等の複数の反射音が入力する。ｎはこれらの入力音の総数である。
　ｋ（ｎ）は、ｎ個の各入力音のレベル（相対強度）を示すパラメータである。
　Ｔ（ｎ）は、ｎ個の各入力音の遅延時間である。
　なお、ｆ１（ｔ）が、ＴＶ１の出力音の音声信号（音声波形）、すなわち遅延のない音声波形信号である。
　ｆ１（ｔ－Ｔ（ｎ））は、ｎ個の各入力音の遅延時間を考慮した音声信号（音声波形）となる。

　例えば、
　ｋ（１）・ｆ１（ｔ－Ｔ（１））は、情報処理装置１００のマイクに入力するｎ個の入力音の第１番目の入力音声信号（音声波形）に相当する。
　ｋ（２）・ｆ１（ｔ－Ｔ（２））は、情報処理装置１００のマイクに入力するｎ個の入力音の第２番目の入力音声信号（音声波形）に相当する。
　情報処理装置１００のマイクに入力するｎ個の入力音を全て加算した結果が、上記（式２）によって算出される値であり、この値が、情報処理装置１００のマイクに入力するノイズ音に相当する。

　ノイズ管理部１０３は、ノイズキャンセル部１０５にチューナ１０１から入力する遅延の無い音声信号と、音声入力部（マイク）１０６から様々な反射波等を含むＴＶ音声信号を入力させて、上記（式１）、（式２）に示すマイク入力音声ノイズ算出関数を算出させて、この関数ｇをノイズＤＢ１１０に登録する。
　なお、「（ｃ）マイク入力音声ノイズ算出関数」は、設置位置が異なるＴＶやラジオ等の機器ごとに異なる関数ｇが登録される。
　この関数のＤＢ登録処理のシーケンスの詳細については後段で説明する。

　ノイズＤＢ１１０に対する関数登録処理の後、ノイズキャンセル部１０５によるノイズキャンセル処理が可能となる。ノイズキャンセル部１０５は、チューナ１０１から入力する遅延の無い音声信号ｆ１（ｔ）と、ノイズＤＢ１１０に登録されたマイク入力音声ノイズ算出関数ｇ１（ｆ１（ｔ））を適用して、情報処理装置１００の音声入力部（マイク）１０６に入力される音声信号に含まれるノイズ信号成分を算出する。
　このＤＢ登録関数を利用した音声ノイズ算出処理のシーケンスの詳細についても後段で説明する。

　図５に示すノイズＤＢ１１０の登録データについての説明を続ける。
　（ｄ）マイク入力定常ノイズ信号は、ノイズ種別が定常ノイズである場合、すなわち、エアコン、換気扇等の動作音等時間的変異の少ない定常ノイズである場合に記録される。

　ノイズ管理部１０３は、定常ノイズの場合、制御部１０４から定常ノイズ登録開始指示を入力して、音声入力部（マイク）１０６から入力する定常ノイズの音声信号（波形）をノイズキャンセル部１０５経由で入力して、ノイズ識別子（デバイス識別子と動作モード）に対応付けてノイズＤＢ１１０に登録する。エアコン、換気扇等の動作音等の定常ノイズは時間による変動量が少ないため、遅延等を考慮することなく、音声入力部（マイク）１０６から入力する信号をそのまま登録する。

　（ｅ）ノイズ信号取得用リンクは、ノイズ種別がリンク設定ノイズである場合、すなわち例えばデバイスエラー時に発するノイズ等、特殊な音声ノイズであり、デバイスの製造者や販売者等からノイズ音声情報を取得可能なリンク設定ノイズである場合に記録される。

　この（ｅ）ノイズ信号取得用リンクには、ノイズ音声情報を提供するサイトのＵＲＬ情報等のアクセス情報を記録する。
　ノイズ管理部１０３は、ノイズ種別がリンク設定ノイズである場合、外部デバイスの製造者や販売者等のノイズ音声情報提供者情報を、ネットワークを介して取得し、ノイズ識別子（デバイス識別子と動作モード）に対応付けてノイズＤＢ１１０に登録する。あるいはユーザが取得したＵＲＬ情報等を記録してもよい。

　このように、ノイズ管理部１０３は、ノイズ情報登録処理実行時には、ノイズ種別に応じた異なる処理を実行する。すなわち、以下の各処理を実行する。
　（１）ノイズ種別がＴＶやラジオの放送、あるいはネット配信コンテンツ等の音声ノイズ等である場合は、「（ｃ）マイク入力音声ノイズ算出関数」フィールドに、マイク入力音声ノイズ算出関数を登録する。
　（２）ノイズ種別が、エアコン、換気扇等の動作音等の定常ノイズである場合は、「（ｄ）マイク入力定常ノイズ信号」フィールドに、音声入力部（マイク）１０６から入力する定常ノイズの音声信号（波形）を登録する。
　（３）ノイズ種別がリンク設定ノイズである場合は、「（ｅ）ノイズ取得用リンク」に、ノイズ音声情報提供サイトを示すＵＲＬ情報等のアクセス情報を登録する。

　ノイズ管理部１０３は、このノイズＤＢ１１０に対するノイズ情報登録処理の他、ノイズキャンセル処理実行時には、制御部１０４からの指示に応じて、ノイズＤＢ１１０に登録されたノイズ情報を取得して、ノイズキャンセル部１０５に提供する処理を行う。ノイズキャンセル部１０５は、この情報を利用してノイズキャンセル処理を実行する。

　次に制御部１０４について説明する。制御部１０４は、ノイズ管理部１０３がノイズＤＢ１１０にノイズ情報を登録する処理を行う場合、ノイズＤＢ１１０に登録するノイズの発生源となる外部デバイスの動作モードを制御、または動作モード情報を取得してノイズ管理部１０３に提供する処理等を実行する。

　また、ノイズキャンセル部１０５が音声入力部（マイク）１０６を介して入力する音声信号からのノイズキャンセル処理を実行する場合には、ノイズの発生源である外部デバイスの動作モード情報を取得してノイズ管理部１０３と、ノイズキャンセル部１０５に提供する処理等を実行する。

　ノイズキャンセル部１０５は、音声入力部（マイク）１０６を介して入力する音声信号からのノイズキャンセル処理を実行する。この処理の具体的なシーケンスと処理の具体例については後述する。

　音声入力部（マイク）１０６は、ユーザ１のユーザ発話を入力する。ただし、この入力音には、ユーザ発話のみならず、テレビ、エアコン、換気扇等の外部デバイスの発するノイズが含まれる。
　音声入力部（マイク）１０６が入力した音声信号は、ノイズキャンセル部１０５に入力され、ノイズキャンセル部１０５においてノイズの除去または低減処理が実行される。

　音声認識部１０７は、ノイズキャンセル部１０５から、ノイズ除去または低減されたクリアなユーザ発話音声信号を入力して、ユーザ発話の音声認識処理を実行する。具体的には、例えば、ＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能により、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　応答処理部１０８は、音声認識部１０７から音声認識結果を取得し、応答処理用ＤＢ１１１を参照して、ユーザ１に対する応答（システム発話）を生成する。

　なお、ユーザ１が、ノイズの登録処理や、外部デバイスの制御を要求している場合には、音声出力部（スピーカー）１０９にユーザ１を介して出力する応答（システム発話）、例えば、システム発話＝「了解です」を生成するとともに、制御部１０４に対して、ノイズの登録処理や、外部デバイスの制御指示を出力する。

　応答処理用ＤＢ１１１に格納されるデータの一例について、図６を参照して説明する。図６に示すように、応答処理用ＤＢ１１１には、以下の各データが対応付けて記録されている。
　（ａ）入力ユーザ発話テキスト情報
　（ｂ）出力システム応答発話
　（ｃ）出力コマンド

　（ａ）入力ユーザ発話テキスト情報は、音声認識部１０７から音声認識結果として入力するユーザ発話のテキスト情報である。
　（ｂ）出力システム応答発話は、（ａ）に登録されたユーザ発話が音声認識部１０７から入力された場合、応答処理部１０８が音声出力部（スピーカー）１０９を介して出力するシステム応答発話である。
　（ｃ）出力コマンドは、（ａ）に登録されたユーザ発話が音声認識部１０７から入力された場合、応答処理部１０８が制御部１０４に出力するコマンドである。

　音声出力部（スピーカー）１０９は応答処理部１０８で生成されたシステム発話（応答）を出力する。
　なお、図４の構成図には示していないが、情報処理装置１００は表示部等を介した応答出力を行うことも可能であり、この場合、応答処理部１０８は、応答用の画像情報を生成、または応答処理用ＤＢ１１１や外部サーバから取得して表示部に出力する。

　　［３．情報処理装置の実行する処理の詳細について］
　次に、図４に示す情報処理装置１００が実行する処理の詳細について説明する。
　情報処理装置１００が実行する以下の各処理について、順次、説明する。
　（処理１）ノイズＤＢ１１０に対するノイズ情報の登録処理
　（処理２）ノイズＤＢ１１０に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理
　（処理３）ユーザ発話に基づく応答処理と外部デバイス制御処理

　　［３－１．（処理１）ノイズＤＢ１１０に対するノイズ情報の登録処理］
　まず、（処理１）ノイズＤＢ１１０に対するノイズ情報の登録処理について、図７、図８に示すシーケンス図を参照して説明する。
　以下、図７、図８に示すシーケンス図の各ステップの処理について説明する。

　　（ステップＳ１１）
　まず、ステップＳ１１において、外部デバイス２００の音声出力部２０２が出力するノイズが、情報処理装置１００の音声入力部（マイク）１０６に入力される。
　なお、ここでは、一例として、外部デバイス２００がテレビ（図３、図５に示すＴＶ１）である場合の処理例について説明する。すなわち、図５に示すノイズＤＢ１１１のデータ中のエントリ（１）のデータの登録処理を行う場合の処理例について説明する。

　　（ステップＳ１２）
　次に、ステップＳ１２において、ユーザ１が情報処理装置１００に対して、以下のユーザ発話を実行する。
　ユーザ発話＝テレビのノイズを登録して

　このユーザ発話は、情報処理装置１００の音声入力部（マイク）１０６に入力され、音声認識部１０７において音声認識処理が実行され、音声認識結果が応答処理部１０８に入力される。

　　（ステップＳ１３）
　次に、ステップＳ１３において、応答処理部１０８が、音声出力部（スピーカー）１０９を介して以下のシステム発話（応答）を出力する。
　システム発話＝了解です。しばらく静かにしてください。

　このシステム発話は、先に図６を参照して説明した応答処理用ＤＢ１１１の登録データを利用した処理である。

　　（ステップＳ２１）
　次に、図８に進み、ステップＳ２１において、応答処理部１０８は、制御部１０４に対して、テレビノイズ登録指示コマンド（ＲＥＧＩＳＴＥＲ：ＴＶＣＨ＝１：ＶＯＬ＝３０）を出力する。
　すなわち、ノイズ登録を実行する対象を特定するためのノイズ識別子（デバイス識別子、動作モード）を制御部１０４に通知して、ノイズ登録を実行するように要求する。
　なお、応答処理部１０８は、制御部１０４が通信部１１２を介して受信した外部デバイスの動作モード情報を入力しており、この入力情報に基づいてコマンドを生成して出力する。

　あるいは、応答処理部１０８は、ノイズ識別子（デバイス識別子、動作モード）を制御部１０４に通知することなく、単に音声入力部（マイク）１０６に入力されている音声ノイズの登録要求のみをコマンドとして制御部１０４に出力する構成としてもよい、この場合、制御部１０４は、外部デバイス２００、あるいはガイブデバイスコントローラ２２０からの取得情報に基づいて、音声入力部（マイク）１０６に入力されている音声ノイズの発生源であるデバイス識別子と動作モードを取得する。

　　（ステップＳ２２）
　次に、制御部１０４は、ステップＳ２２において、外部デバイス２００の状態管理部２０１に外部デバイス制御信号（ＣＨ＝１：ＶＯＬ＝３０）を出力する。これは、ノイズ登録処理期間において、外部デバイス２００（本例ではＴＶ１）の設定チャンネルとボリュームを固定するために実行される。

　　（ステップＳ２３）
　次に、制御部１０４は、ステップＳ２３において、チューナ１０１に対して、受信動作モード制御信号（ＣＨ＝１：ＶＯＬ＝３０）を出力する。これは、ノイズ情報登録処理対象となる音声信号と同じ音声信号を、チューナ１０１を介して受信するための処理である。

　　（ステップＳ２４）
　次に、制御部１０４は、ステップＳ２４において、ノイズ管理部１０３に対して、ノイズ登録処理の開始指示を出力する。

　　（ステップＳ２５）
　次に、ステップＳ２５において、ノイズ管理部１０３は、ノイズキャンセル部１０５に対して、マイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））取得指示を出力する。

　　（ステップＳ２６）
　次に、ステップＳ２６において、ノイズ管理部１０３は、チューナ１０１、デコーダ１０２を介して音声信号ｆ（ｔ）を入力する。この音声信号ｆ（ｔ）は、（ＣＨ＝１：ＶＯＬ＝３０）の設定の遅延のないテレビの音声信号に相当する。

　　（ステップＳ２７）
　次に、ステップＳ２７において、ノイズ管理部１０３は、ノイズキャンセル部１０５に、チューナ１０１、デコーダ１０２を介して取得した音声信号ｆ（ｔ）を転送する。この音声信号ｆ（ｔ）は、（ＣＨ＝１：ＶＯＬ＝３０）の設定の遅延のないテレビの音声信号に相当する。

　　（ステップＳ２８）
　次に、ステップＳ２８において、ノイズキャンセル部１０５は、音声入力部（マイク）１０６を介して、外部デバイス２００（本例ではＴＶ１）から出力される音声ｇ（ｔ）を入力する。この入力音声ｇ（ｔ）には直接音の他、壁、天井等によって反射された複数の反射音等が含まれる。

　　（ステップＳ２９）
　次に、ステップＳ２９において、ノイズキャンセル部１０５は、チューナ１０１、デコーダ１０２を介して取得した音声信号ｆ（ｔ）と、音声入力部（マイク）１０６を介して入力する音声ｇ（ｔ）を適用して、マイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））を算出する。
　マイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））は、チューナ１０１を介して取得可能な音声信号ｆ（ｔ）から、音声入力部（マイク）１０６を介して入力する音声ノイズ信号を算出可能とした関数である。

　　（ステップＳ３０）
　次に、ステップＳ３０において、ノイズキャンセル部１０５は、ステップＳ２９で算出したマイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））をノイズ管理部１０３に出力する。

　　（ステップＳ３１）
　次に、ステップＳ３１において、ノイズ管理部１０３は、ノイズキャンセル部１０５から入力したマイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））を、ノイズＤＢ１１０に登録する。なお、登録処理に際しては、ノイズ識別子（デバイス識別子と動作モード）、ノイズ種別に対応付けて登録する処理を実行する。

　このようにして、図５に示すノイズＤＢ１１１のエントリ（１）のノイズ情報登録処理が行われる。
　なお、上述した処理シーケンスは、ノイズ種別がＴＶやラジオの放送、あるいはネット配信コンテンツ等の音声ノイズ等である場合の登録処理である。ノイズ種別が、エアコン、換気扇等の動作音等の定常ノイズである場合は、「（ｄ）マイク入力定常ノイズ信号」フィールドに、音声入力部（マイク）１０６から入力する定常ノイズの音声信号（波形）を登録する。また、ノイズ種別がリンク設定ノイズである場合は、「（ｅ）ノイズ取得用リンク」に、ノイズ音声情報提供サイトを示すＵＲＬ情報等のアクセス情報を登録する処理が実行される。

　　［３－２．（処理２）ノイズＤＢ１１０に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理］
　次に、（処理２）ノイズＤＢ１１０に登録されたノイズ情報を利用したノイズキャンセル処理と応答処理について、図９に示すシーケンス図を参照して説明する。

　　（ステップＳ３１）
　まず、ステップＳ３１において、外部デバイス２００の音声出力部２０２が出力するノイズが、情報処理装置１００の音声入力部（マイク）１０６に入力される。
　なお、ここでは、一例として、外部デバイス２００がテレビ（図３、図５に示すＴＶ１）である場合の処理例について説明する。すなわち、図５に示すノイズＤＢ１１１のデータ中のエントリ（１）の登録データを利用したノイズキャンセル処理を行う場合の処理例について説明する。

　　（ステップＳ３２～Ｓ３３）
　次に、ステップＳ３２において、ユーザ１が情報処理装置１００に対して、以下のユーザ発話を実行する。
　ユーザ発話＝今、何時
　このユーザ発話は、情報処理装置１００の音声入力部（マイク）１０６に入力され、ステップＳ３３において、ノイズキャンセル部１０５に入力される。

　　（ステップＳ３４）
　次に、ノイズキャンセル部１０５は、ステップＳ３４において、ノイズＤＢ１１０の登録データを、ノイズ管理部１０３を介して取得する。
　ノイズ管理部１０３は、制御部１０４から、現在動作中の外部デバイスの情報と動作モード情報を入力しており、この入力情報に基づいて、音声入力部（マイク）１０６に入力されているノイズ発生源に関する登録情報をノイズキャンセル部１０５に提供する。本例では図５に示すノイズＤＢ１１１のデータ中のエントリ（１）の登録データが、ノイズキャンセル部１０５に提供される。

　　（ステップＳ３５）
　次に、ノイズキャンセル部１０５は、ステップＳ３５において、ステップＳ３４で取得したノイズＤＢ１１０の登録データを利用したノイズキャンセル処理を実行する。

　ステップＳ３５においてノイズキャンセル部１０５が実行するノイズキャンセル処理の詳細シーケンスについて、図１０に示すフローチャートを参照して説明する。
　　（ステップＳ４１）
　まず、ノイズキャンセル部１０５は、ステップＳ４１において、ユーザ発話入力時のチューナ入力音声信号ｆ（ｔ）をメモリから取得する。情報処理装置１００は、音声入力部（マイク）１０６が入力する一定期間の過去の音声信号をメモリ（記憶部）に記録しており、ノイズキャンセル部１０５は、ユーザ発話入力時のチューナ入力音声信号ｆ（ｔ）をメモリから取得する。

　　（ステップＳ４２）
　次に、ノイズキャンセル部１０５は、ステップＳ４２において、チューナ入力音声信号ｆ（ｔ）と、ノイズＤＢ１１０に登録されたマイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））を適用して音声入力部（マイク）１０６の入力信号に含まれるテレビノイズ音声信号ｇ（ｆ（ｔ））を算出する。

　　（ステップＳ４３）
　次に、ノイズキャンセル部１０５は、ステップＳ４３において、音声入力部（マイク）１０６から入力する音声信号から、ステップＳ４２で算出したテレビノイズ音声信号ｇ（ｆ（ｔ））を減算して、ノイズ除去後のユーザ発話音声信号を生成する。

　ノイズキャンセル処理の具体例について図１１を参照して説明する。
　図１１（Ａ）は、音声入力部（マイク）１０６から入力する音声信号の一例である。
　この入力信号は、ユーザ発話実行時の入力音声信号であり、ユーザ発話対応の音声信号と、テレビから出力されるテレビノイズ信号が含まれている。

　図１１（Ｂ）は、図１０に示すフローのステップＳ４２において、ノイズキャンセル部１０５が算出した信号である。すなわち、音声入力部（マイク）１０６の入力信号に含まれるテレビノイズ音声信号である。
　ノイズキャンセル部１０５は、チューナ入力音声信号ｆ（ｔ）と、ノイズＤＢ１１０に登録されたマイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））を適用して音声入力部（マイク）１０６の入力信号に含まれるテレビノイズ音声信号ｇ（ｆ（ｔ））を算出する。この算出結果が、図１１（Ｂ）に示すテレビノイズ信号である。

　図１１（Ａ）に示す音声入力部（マイク）１０６から入力する音声信号から、図１１（Ｂ）に示すテレビノイズ信号を減算することで、図１１（Ｃ）に示す信号、すなわち、ノイズ除去後のユーザ発話音声信号が得られる。
　この減算処理によるノイズ除去ユーザ発話音声信号の取得処理が、図１０に示すフローのステップＳ４３の処理である。

　このようにして、ノイズキャンセル部１０５は、図９に示すステップＳ３５において、ノイズＤＢ１１０の登録データを利用してノイズキャンセル処理を実行してテレビノイズ信号を除去、または低減したクリアなユーザ発話音声信号を取得する。

　　（ステップＳ３６）
　次に、ノイズキャンセル部１０５は、ステップＳ３６において、ノイズキャンセル済みのクリアなユーザ発話音声信号を音声認識部１０７に出力する。

　　（ステップＳ３７）
　次に、音声認識部１０７は、ノイズキャンセル部１０５から取得したノイズキャンセル済みのクリアなユーザ発話音声信号に基づく音声認識処理を実行して、音声認識結果を応答処理部１０８に出力する。

　　（ステップＳ３８～Ｓ３９）
　次に、ステップＳ３８において、応答処理部１０８が、以下のシステム発話（応答）を生成し、ステップＳ３９において、音声出力部（スピーカー）１０９を介して出力する。
　システム発話＝１０時です。
　このシステム発話は、先に図６を参照して説明した応答処理用ＤＢ１１１の登録データを利用した処理である。

　なお、図９～図１１を参照して説明したノイズキャンセル処理は、音声入力部（マイク）１０６から入力する音声信号に含まれるノイズが１台のテレビの１つの音声ノイズである場合の例であるが、現実には、例えばテレビとエアコン等、複数のノイズ発生源からのノイズが併せて入力されるといったことが想定される。

　このように複数の外部デバイス（ノイズ発生源）からのノイズが入力される場合のノイズキャンセル部１０５のノイズキャンセル処理例について図１２を参照して説明する。

　図１２左下に示す（Ａ）は、音声入力部（マイク）１０６から入力する音声信号の一例である。
　この入力信号は、ユーザ発話実行時の入力音声信号であり、ユーザ発話対応の音声信号と、テレビから出力されるテレビノイズ信号と、さらにエアコンから出力されるエアコンノイズ信号が含まれている。

　図１２左上（Ｂ１）は、ノイズキャンセル部１０５が算出するテレビノイズ音声信号であり、音声入力部（マイク）１０６の入力信号に含まれるテレビノイズ音声信号である。
　ノイズキャンセル部１０５は、チューナ入力音声信号ｆ（ｔ）と、ノイズＤＢ１１０に登録されたマイク入力音声ノイズ算出関数ｇ（ｆ（ｔ））を適用して音声入力部（マイク）１０６の入力信号に含まれるテレビノイズ音声信号ｇ（ｆ（ｔ））を算出する。この算出結果が、図１２（Ｂ１）に示すテレビノイズ信号である。

　図１２（Ｂ２）は、ノイズキャンセル部１０５がノイズＤＢ１１０の登録データから取得したエアコンノイズ信号（マイク入力定常ノイズ）である。エアコンノイズ信号は時間的な変異が少ないため、予め取得済みのデータをそのまま利用することができる。

　図１２右上に示す（Ｂ３）は、（Ｂ１）＋（Ｂ２）であり、ノイズキャンセル部１０５チューナ入力信号に基づいて算出したテレビノイズ信号と、ノイズＤＢ１１０に登録されたエアコンノイズ信号の加算結果である。

　図１２下段には、図１２（Ａ）に示す音声入力部（マイク）１０６の入力音声信号から、図１２（Ｂ３）に示すテレビノイズ信号＋エアコンノイズ信号の減算処理を示している。この減算処理により、図１２（Ｃ）に示す信号、すなわち、ノイズ除去後のユーザ発話音声信号が得られる。

　このようにノイズキャンセル部１０５は、音声入力部（マイク）１０６の入力音声信号に複数の外部デバイスによるノイズが含まれる場合でも、ノイズＤＢ１１０の登録データを利用してノイズキャンセル処理を実行して複数の外部デバイスのノイズ信号を除去または低減したクリアなユーザ発話音声信号を取得することができる。

　　［３－３．（処理３）ユーザ発話に基づく応答処理と外部デバイス制御処理］
　次に、（処理３）ユーザ発話に基づく応答処理と外部デバイス制御処理について、図１３に示すシーケンス図を参照して説明する。

　　（ステップＳ５１）
　まず、ステップＳ５１において、外部デバイス２００の音声出力部２０２が出力するノイズが、情報処理装置１００の音声入力部（マイク）１０６に入力される。
　なお、ここでは、一例として、外部デバイス２００がテレビ（図３、図５に示すＴＶ１）であり、テレビの設定が６ｃｈに設定されている場合の処理例について説明する。

　なお、ノイズＤＢ１１０には、図１４に示すように、エントリ（１）としてＴＶ１の６Ｃｈのノイズ情報が登録されており、エントリ（２）としてＴＶ１の１Ｃｈのノイズ情報が登録されている。

　　（ステップＳ５２～Ｓ５３）
　次に、ステップＳ５２において、ユーザ１が情報処理装置１００に対して、以下のユーザ発話を実行する。
　ユーザ発話＝１ｃｈに変えて
　このユーザ発話は、情報処理装置１００の音声入力部（マイク）１０６に入力され、ステップＳ５３において、ノイズキャンセル部１０５に入力される。

　　（ステップＳ５４）
　次に、ノイズキャンセル部１０５は、ステップＳ５４において、ノイズＤＢ１１０の登録データを、ノイズ管理部１０３を介して取得する。
　ノイズ管理部１０３は、制御部１０４から、現在動作中の外部デバイスの情報と動作モード情報を入力しており、この入力情報に基づいて、音声入力部（マイク）１０６に入力されているノイズ発生源に関する登録情報をノイズキャンセル部１０５に提供する。本例では図５に示すノイズＤＢ１１１のデータ中のエントリ（１）の登録データが、ノイズキャンセル部１０５に提供される。

　　（ステップＳ５５）
　次に、ノイズキャンセル部１０５は、ステップＳ５５において、ステップＳ５４で取得したノイズＤＢ１１０の登録データを利用したノイズキャンセル処理を実行する。

　このステップＳ５５において実行するノイズキャンセル処理は、先に図１０、図１１を参照して説明した処理と同様の処理である。

　　（ステップＳ５６）
　次に、ノイズキャンセル部１０５は、ステップＳ５６において、ノイズキャンセル済みのクリアなユーザ発話音声信号を音声認識部１０７に出力する。

　　（ステップＳ５７）
　次に、音声認識部１０７は、ノイズキャンセル部１０５から取得したノイズキャンセル済みのクリアなユーザ発話音声信号に基づく音声認識処理を実行して、音声認識結果を応答処理部１０８に出力する。

　　（ステップＳ５８～Ｓ５９）
　次に、ステップＳ５８において、応答処理部１０８が、以下のシステム発話（応答）を生成し、ステップＳ５９において、音声出力部（スピーカー）１０９を介して出力する。
　システム発話＝了解です。
　このシステム発話は、先に図６を参照して説明した応答処理用ＤＢ１１１の登録データを利用した処理である。

　　（ステップＳ６０）
　さらに、応答処理部１０８はステップＳ６０において、外部デバイス制御指示を制御部１０４に対して出力する。この処理も、先に図６を参照して説明した応答処理用ＤＢ１１１の登録データを利用した処理である。
　このステップＳ６０以下の詳細処理について、図１５を参照して説明する。

　なお、前述したように、ノイズＤＢ１１０には、図１４に示すように、エントリ（１）としてＴＶ１の６Ｃｈのノイズ情報が登録されており、エントリ（２）としてＴＶ１の１Ｃｈのノイズ情報が登録されている。

　　（ステップＳ８１）
　まず、応答処理部１０８はステップＳ８１において、外部デバイス（テレビ）制御指示コマンド（ＣＨＡＮＧＥ：ＴＶ：ＣＨ＝１）を制御部１０４に出力する。この指示コマンドの出力は、ユーザ発話＝１ｃｈに変えての音声認識結果に基づく処理であり、先に図６を参照して説明した応答処理用ＤＢ１１１の登録データを利用した処理である。

　　（ステップＳ８２）
　次に、制御部１０４は、ステップＳ８２において、チューナ１０１に対して、受信、動作モード制御信号（ＣＨ＝１）を出力し、チューナ１０１の受信設定を１ｃｈに変更する。

　　（ステップＳ８３）
　次に、制御部１０４は、ステップＳ８３において、外部デバイス２００（本例ではＴＶ）の状態管理部２０１に対して、制御信号（ＣＨ＝１）を出力し、外部デバイス（ＴＶ）２００の設定を１ｃｈに変更する。

　　（ステップＳ８４～Ｓ８６）
　次に、制御部１０４は、ステップＳ８４において、ノイズ識別子（デバイス識別子＋動作モード）をノイズ管理部１０３に出力して、ステップＳ８５～Ｓ８６において、ノイズ管理部１０３を介してノイズＤＢ１１０から、ノイズ識別子（デバイス識別子＋動作モード）対応のノイズ情報を取得してノイズキヤンセル部１０５に出力する。
　すなわち、図１４に示すノイズＤＢ１１０のエントリ（２）のノイズ情報を取得してノイズキヤンセル部１０５に出力する。

　ノイズキャンセル部１０５は、このデータを利用してノイズキャンセル処理を行うことになる。
　このように、外部デバイスの動作モードが変更された場合には、その変更後の動作モード対応のノイズ情報をノイズＤＢ１１０から取得することで外部デバイスの音声出力態様に合せた正しいノイズキャンセル処理を実行することが可能となる。

　　［４．情報処理装置、および情報処理システムの構成例について］
　本開示の情報処理装置１０の実行する処理について説明したが、図４に示す情報処理装置１００の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやＰＣ等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。

　図１６にシステム構成例を示す。
　図１６（１）情報処理システム構成例１は、図４に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやＰＣ、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置４１０内に構成した例である。
　ユーザ端末に相当する情報処理装置４１０は、例えば応答文生成時に外部サービスを利用する場合にのみ、サービス提供サーバ４２０と通信を実行する。

　サービス提供サーバ４２０は、例えば音楽提供サーバ、映画等のコンテンツ提供サーバ、ゲームサーバ、天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する処理の実行や応答生成に必要となる情報を提供可能なサーバ群によって構成される。

　一方、図１６（２）情報処理システム構成例２は、図４に示す情報処理装置の機能の一部をユーザの所有するスマホやＰＣ、エージェント機器等のユーザ端末である情報処理装置４１０内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ４６０において実行する構成としたシステム例である。

　例えば、図４に示す装置中の音声入力部（マイク）１０６、音声出力部（スピーカー）１０９のみをユーザ端末側の情報処理装置４１０側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。

　具体的には、ユーザ端末が音声入力部を有し、データ処理サーバがユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、ノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部を有する構成等が可能である。サーバのノイズキャンセル部は、ノイズ識別子に対応付けられたノイズ情報を取得して、ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する。
　なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、１つの機能を双方で実行する構成も可能である。

　　［５．情報処理装置のハードウェア構成例について］
　次に、図１７を参照して、情報処理装置のハードウェア構成例について説明する。
　図１７を参照して説明するハードウェアは、先に図４を参照して説明した情報処理装置のハードウェア構成例であり、また、図１６を参照して説明したデータ処理サーバ４６０を構成する情報処理装置のハードウェア構成の一例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［６．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置。

　（２）　前記ノイズデータベースは、
　ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
　前記ノイズキャンセル部は、
　前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する（１）に記載の情報処理装置。

　（３）　前記ノイズデータベースには、チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出するための関数が登録され、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出する（１）または（２）に記載の情報処理装置。

　（４）　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて算出したノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する（３）に記載の情報処理装置。

　（５）　前記ノイズデータベースには、時間推移に伴う変化の少ない定常ノイズ信号が登録されており、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された定常ノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記ノイズデータベースには、ノイズ信号を取得するためのアクセス情報が記録されており、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録されたアクセス情報によるアクセス先から取得するノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記ノイズキャンセル部は、
　前記音声入力部を介して入力する音声信号に複数の異なる外部デバイスからのノイズが含まれる場合、各外部デバイスのノイズの加算結果を算出し、前記音声入力部を介して入力する音声信号から、前記加算結果を減算する処理を実行する（１）～（６）いずれかに記載の情報処理装置。

　（８）　前記情報処理装置は、さらに、
　ノイズ発生源となる外部デバイスの動作モードを取得する制御部を有し、
　前記制御部は、
　前記ノイズキャンセル部におけるノイズキャンセル処理に必要となる制御を実行する（１）～（７）いずれかに記載の情報処理装置。

　（９）　前記制御部は、
　ノイズ発生源となる外部デバイスの動作モードに対応する音声信号をチューナを介して受信するようにチューナに制御信号を出力する（８）に記載の情報処理装置。

　（１０）　前記制御部は、
　前記ノイズデータベースに対するノイズ情報登録処理の開始要求をノイズ管理部に出力する（８）または（９）に記載の情報処理装置。

　（１１）　前記制御部は、
　前記ノイズキャンセル部に、前記音声入力部から入力するノイズ信号を算出するための関数を生成する処理を実行させる（８）～（１０）いずれかに記載の情報処理装置。

　（１２）　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システム。

　（１３）　前記ノイズデータベースは、
　ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
　前記ノイズキャンセル部は、
　前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する（１２）に記載の情報処理システム。

　（１４）　情報処理装置において実行する情報処理方法であり、
　ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
　音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
　応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法。

　（１５）　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末が、
　ユーザ発話を入力する音声入力処理を実行し、
　前記データ処理サーバが、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
　ノイズキャンセルされた後の音声情報に対する音声認識処理と、
　音声認識結果に基づく応答処理を実行し、
　前記ノイズキャンセル処理においては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法。

　（１６）　情報処理装置において情報処理を実行させるプログラムであり、
　ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
　音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
　応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。
　具体的には、例えば、音声入力部を介して入力する音声からノイズを除去するノイズキャンセル部と、ノイズキャンセル後の音声情報を入力して音声認識処理を実行する音声認識部と、音声認識結果に基づく応答処理を実行する応答処理部と、ノイズ識別子とノイズ信号、またはノイズ信号の算出関数等を対応付けたノイズデータベースを有する。ノイズキャンセル部は、ノイズデータベースに記録されたノイズ情報を利用して音声入力部の入力音声に含まれるノイズ成分を解析し、入力音声からノイズ成分を減算する処理を実行する。
　本構成により、音声入力部を介して入力する音声からノイズを除去してクリアなユーザ発話に基づく音声認識を行うことを可能とした装置、方法が実現される。

　　１０　情報処理装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　２０　サーバ
　　３０　外部機器
　１００　情報処理装置
　１０１　チューナ
　１０２　デコーダ
　１０３　ノイズ管理部
　１０４　制御部
　１０５　ノイズキャンセル部
　１０６　音声入力部（マイク）
　１０７　音声認識部
　１０８　応答処理部
　１０９　音声出力部（スピーカー）
　１１０　ノイズＤＢ（データベース）
　１１１　応答処理用データＤＢ
　１１２　通信部
　４１０　情報処理装置
　４２０　サービス提供サーバ
　４６０　データ処理サーバ
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理装置。
　前記ノイズデータベースは、
　ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
　前記ノイズキャンセル部は、
　前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する請求項１に記載の情報処理装置。
　前記ノイズデータベースには、チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出するための関数が登録され、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて、前記音声入力部から入力するノイズ信号を算出する請求項１に記載の情報処理装置。
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された関数と、前記チューナを介して入力する音声信号に基づいて算出したノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項３に記載の情報処理装置。
　前記ノイズデータベースには、時間推移に伴う変化の少ない定常ノイズ信号が登録されており、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録された定常ノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項１に記載の情報処理装置。
　前記ノイズデータベースには、ノイズ信号を取得するためのアクセス情報が記録されており、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに登録されたアクセス情報によるアクセス先から取得するノイズ信号を、前記音声入力部を介して入力する音声信号から減算する処理を実行する請求項１に記載の情報処理装置。
　前記ノイズキャンセル部は、
　前記音声入力部を介して入力する音声信号に複数の異なる外部デバイスからのノイズが含まれる場合、各外部デバイスのノイズの加算結果を算出し、前記音声入力部を介して入力する音声信号から、前記加算結果を減算する処理を実行する請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　ノイズ発生源となる外部デバイスの動作モードを取得する制御部を有し、
　前記制御部は、
　前記ノイズキャンセル部におけるノイズキャンセル処理に必要となる制御を実行する請求項１に記載の情報処理装置。
　前記制御部は、
　ノイズ発生源となる外部デバイスの動作モードに対応する音声信号をチューナを介して受信するようにチューナに制御信号を出力する請求項８に記載の情報処理装置。
　前記制御部は、
　前記ノイズデータベースに対するノイズ情報登録処理の開始要求をノイズ管理部に出力する請求項８に記載の情報処理装置。
　前記制御部は、
　前記ノイズキャンセル部に、前記音声入力部から入力するノイズ信号を算出するための関数を生成する処理を実行させる請求項８に記載の情報処理装置。
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル部と、
　前記ノイズキャンセル部におけるノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識部と、
　前記音声認識部における音声認識結果に基づく応答処理を実行する応答処理部と、
　ノイズ識別子に対応付けてノイズ情報を記録したノイズデータベースを有し、
　前記ノイズキャンセル部は、
　前記ノイズデータベースに記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理システム。
　前記ノイズデータベースは、
　ノイズ発生源となる外部デバイスのデバイス識別子と、該外部デバイスの動作モードによって構成されるノイズ識別子と、前記音声入力部から入力するノイズ信号、または該ノイズ信号の算出関数、または該ノイズ信号を取得するためのアクセス情報を対応付けたノイズデータベースであり、
　前記ノイズキャンセル部は、
　前記ノイズデータベースの登録情報を利用してノイズキャンセル処理を実行する請求項１２に記載の情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　ノイズキャンセル部が、音声入力部を介して入力する音声からノイズを除去または低減するノイズキャンセル処理ステップと、
　音声認識部が、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行する音声認識ステップと、
　応答処理部が、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行する応答処理ステップを実行し、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行する情報処理方法。
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末が、
　ユーザ発話を入力する音声入力処理を実行し、
　前記データ処理サーバが、
　前記ユーザ端末から受信する音声からノイズを除去または低減するノイズキャンセル処理と、
　ノイズキャンセルされた後の音声情報に対する音声認識処理と、
　音声認識結果に基づく応答処理を実行し、
　前記ノイズキャンセル処理においては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記ユーザ端末から受信する音声に含まれるノイズ成分を解析し、前記ユーザ端末から受信する音声からノイズ成分を減算する処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　ノイズキャンセル部に、音声入力部を介して入力する音声からノイズを除去または低減させるノイズキャンセル処理ステップと、
　音声認識部に、前記ノイズキャンセル処理ステップにおいてノイズキャンセルされた後の音声情報を入力して音声認識処理を実行させる音声認識ステップと、
　応答処理部に、前記音声認識ステップにおける音声認識結果に基づく応答処理を実行させる応答処理ステップを実行させ、
　前記ノイズキャンセル処理ステップにおいては、
　ノイズデータベースにノイズ識別子に対応付けて記録されたノイズ情報を利用して前記音声入力部の入力音声に含まれるノイズ成分を解析し、前記入力音声からノイズ成分を減算する処理を実行させるプログラム。