JP7186375B2

JP7186375B2 - 音声処理装置、音声処理方法および音声処理システム

Info

Publication number: JP7186375B2
Application number: JP2018066232A
Authority: JP
Inventors: 直也田中; 智史山梨; 正成宮本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-12-09
Anticipated expiration: 2038-03-29
Also published as: JP2019174778A; US11804220B2; US20240005919A1; CN111886647A; JP7458013B2; EP3779973A4; WO2019187371A1; US20210043198A1; JP2023011945A; EP3779973A1

Description

本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置および音声処理システム、ならびに音声処理装置により実行される音声処理方法に関する。

例えばミニバン、ワゴン車、ワンボックスカー等、車体の前後方向に複数（例えば３列以上）の座席（シート）が配置された比較的大きな車両において、運転席に座る運転者と後部座席に座る乗員（例えば運転者の家族や友人）との間で会話をしたり、後部座席までカーオーディオの音楽を流したりして、それぞれの席に設置されたマイクとスピーカを用いて音声を乗員または車載機器の間で伝達したり入出力したりする音声技術を搭載することが検討されている。

また、車両も通信インターフェースを有するものが近年多く登場するようになった。通信インターフェースは、無線通信の機能を有し、例えば携帯電話網（セルラー網）、無線ＬＡＮ（Local Area Network）等により構築され、車両内においてもネットワーク環境が整備されるようになった。運転者等はこのような通信インターフェースを介してインターネット回線上の例えばクラウドコンピューティングシステム（以下、単に「クラウド」とも称する）にアクセスして運転中に種々のサービスを受けることが可能になった。

ここで、家庭用機器等においてクラウドを用いる音声技術の１つとして自動音声認識システムの開発が加速している。この自動音声認識システムは、クラウド上のサービスを受けるためのヒューマン・マシン・インターフェースとして普及しつつある。自動音声認識システムは、人間が発声した音声をテキストデータに変換等してコンピュータ等の制御装置にその音声の内容を認識されるものである。自動音声認識システムは、人間の手指を用いるキーボード入力に代わるインターフェースであり、より人間に近い操作でコンピュータ等に指示可能である。特に、車両では運転者の手指は従来のドライバー主体の運転走行中または例えば自動運転レベル３の自動運転中のハンドル操作に取られるため、車両に対する自動音声認識の音声技術導入には必然的な動機がある。

なお、自動運転のレベルは、ＮＨＴＳＡ（National Highway Traffic Safety Administration）によれば運転自動化なし（レベル０）、運転者支援(レベル１)、部分的運転自動化（レベル２）、条件付運転自動化（レベル３）、高度運転自動化（レベル４）、および完全自動運転化（レベル５）に分類されている。レベル３では、自動運転システムが運転を主導しつつ、必要に応じて人間による運転が要請される。自動運転システムのレベル３は近年、実用化されつつある。

自動音声認識の音声技術に関する従来技術として、発声されたオーディオデータ（音声信号）がホットワードに対応するかどうかを判定し、ホットワードに対応すると判定されたオーディオデータのホットワードオーディオフィンガープリントを生成し、このホットワードオーディオフィンガープリントが以前に記憶されたホットワードオーディオフィンガープリントと一致した時に、発声されたコンピュータデバイスへのアクセスを無効化する技術が知られる（例えば、特許文献１参照）。

なお、ホットワードは、システムまたは制御装置に対して対応する動作を実行させるための事前に設定された予約音声を指すとされる。ホットワードは、指令または命令を送信するトリガとなる所定ワード（特定の単語）であり、ＷｕＷ（Wake Up Word，ウェイクアップワード）とも称される。本明細書中では、以下、この所定ワードのことを「ＷｕＷ（Wake up Word）」またはウェイクアップワードとも称して説明する。

特開２０１７－０７６１１７号公報

しかしながら、上記特許文献１に開示の技術は、ホットワードすなわちＷｕＷが静かな環境下で発声されることを想定して構成されている。つまり、車両等の移動体のように、常に振動や車載機器のノイズが発生する環境下での使用においては、ＷｕＷが車両内のどの方向から発声されたか否かを検出することは考慮されていない。

そのため、上記特許文献１の技術を用いても、振動やノイズが定常的に発生する車両内において、ＷｕＷに続けて車載機器の作動を指示する具体的な指示音声が発声されても、どの方向からＷｕＷが発声されたか検出できない可能性があった。ＷｕＷの検出に基づいて車載機器の作動を迅速に行うことができない可能性があり、この点で改善の余地があった。

本開示は、上述した従来の事情に鑑みて案出され、車両内で発声される所定ワード（例えば、ウェイクアップワード等）の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する音声処理装置、音声処理方法および音声処理システムを提供することを目的とする。

本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するマイク特定部と、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、音声処理装置を提供する。

また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するステップと、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、音声処理方法を提供する。

また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、前記音声処理装置は、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定し、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、前記話者が発声した音声の認識結果を取得し、前記制御装置は、前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、音声処理システムを提供する。

本開示によれば、車両内で発声される所定ワード（例えば、ウェイクアップワード等）の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する。この抽出により、所定ワードの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明（クリア）に出力することができる。その結果、自動音声認識等の精度や性能を向上させ、所定ワードの検出に基づいて車載機器の作動を迅速に行うことができる。

実施の形態１に係る車両の上面図実施の形態１に係る音声処理システムの構成を説明する機能ブロック図実施の形態１に係る音声制御部の構成を説明する処理ブロック図実施の形態１に係る音声制御部の動作手順を示すフローチャート音声処理装置および音声認識サーバ間での動作手順を示すシーケンス図実施の形態１に係る第１変形例の音声制御部の動作を示す処理ブロック図実施の形態１に係る第１変形例の音声制御部の動作手順を示すフローチャート実施の形態１に係る第２変形例の音声制御部の動作を示す処理ブロック図実施の形態２に係る車両の上面図実施の形態２に係る音声処理装置のシステム構成を説明する機能ブロック図実施の形態２に係る音声処理部の信号処理の動作を示す処理ブロック図実施の形態２に係る音声処理部の動作手順を示すフローチャート

以下、適宜図面を参照しながら、本開示に係る、車両に搭載可能な音声処理装置、音声処理方法および音声処理システムを具体的に開示した各実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

また、実施の形態１でいう「部」または「装置」とは単にハードウェアによって実現される物理的構成に限定されず、その構成が有する機能をプログラム等のソフトウェアにより実現されるものも含む。また、１つの構成が有する機能が２つ以上の物理的構成により実現されても、または２つ以上の構成の機能が例えば１つの物理的構成によって実現されていても構わない。

また、各実施の形態の車両に搭載可能な音声処理装置、音声処理方法および音声処理システムは、車両に搭載されており、例えば複数のシートのそれぞれに対応して複数の異なるマイクが配置され、これら複数の異なるマイクのそれぞれにより収音された音声信号を適宜音声処理する。

（実施の形態１）
図１～図８を参照して、本開示に係る車両１に搭載可能な音声処理装置１００、音声処理方法および音声処理システム１００Ｓの実施の形態１について説明する。

先ず図１を参照して、実施の形態１に係る車両１の構成について説明する。図１は、実施の形態１に係る車両１の上面図である。

図１に示すように、車両１は、道路運送車両法に基づく自動車において自動走行可能な自動車を一例に挙げている。車両１には、実施の形態１の音声処理システム１００Ｓが搭載される。

車両１は、車両１を構成する車体２を有する。車両１は、例えばミニバン、ワゴン車、ワンボックスカー等、前後方向に複数（例えば３列以上）の座席（シート）が配置された比較的大きな車両である。また、車体２内の運転席に着座する運転者の前方には、インストルメントパネル３が配置される。なお、車体２内部には、車載機器の１つとしてナビゲーション装置３５（図２参照）も搭載されており、ナビゲーション装置３５は、ＤＳＰ（Digital Signal Processor）を含んで構成される。

車両１の車体２内には、複数のシートのそれぞれに対応して配置される複数（例えば、実施の形態１では６本）の異なるマイクＭＣ１～ＭＣ６と、同様に複数のシートそれぞれに対応して配置される音声出力装置２０（後述参照）の複数（例えば、実施の形態１では４つ）の車載スピーカＳＰ１～ＳＰ４と、この複数のマイクＭＣ１～ＭＣ６により入力された音声信号を処理する音声処理装置１００と、車両に搭載される１つ以上の車載機器３０と、が搭載される。

複数のマイクＭＣ１～ＭＣ６は、運転者の運転シート（１列目シート）、乗員のセカンドシート（２列目）およびサードシート（３列目シート）にそれぞれ対応して２本ずつ配置される。これにより、複数のマイクＭＣ１～ＭＣ６は、運転者または乗員が発する音声を車体２内の全領域で収音可能である。また、実施の形態１では、マイクＭＣ１～ＭＣ６は指向性マイクまたは無指向性マイクのいずれでも良い。

複数の車載スピーカＳＰ１～ＳＰ４のうち一対の車載スピーカＳＰ１，ＳＰ２は、運転者の運転シートおよび助手シートに対応するドアにそれぞれ内蔵して配置される。また、残りの一対の車載スピーカＳＰ３，ＳＰ４は、乗員のセカンドシートおよびサードシート間の車体２側壁部にそれぞれ内蔵して配置される。これにより、複数の車載スピーカＳＰ１～ＳＰ４は、音声処理装置１００または車載機器３０から出力される音声信号を車両１の内に着席している運転者または乗員に向けて出力可能である。また、実施の形態１では、車載スピーカＳＰ１～ＳＰ４は、マイクＭＣ１～ＭＣ６と同様に指向性スピーカまたは無指向性スピーカのいずれでも良い。なお、車載スピーカＳＰ１～ＳＰ４の少なくとも１つは車両１のインストルメントパネル３に配置されても良く、この場合には、運転者または助手シートの乗員は音声内容をより鮮明に把握可能となる。

音声処理装置１００および車載機器３０は、インストルメントパネル３近傍に配置される。また、音声処理装置１００および車載機器３０は無線通信回線を介してクラウドＣＬに接続される。クラウドＣＬ上には、音声認識サーバ４０が設けられる。また、実施の形態１では、複数のマイクＭＣ１～ＭＣ６と音声処理装置１００とを含んで、音声処理システム１００Ｓが構成されることになる。

次に図２を参照して、音声処理システム１００Ｓのシステム構成について説明する。図２は、音声処理システム１００Ｓの構成を説明する機能ブロック図である。

車両１には、１つ以上の音声出力装置２０と、複数の車載機器３０と、実施の形態１の音声処理システム１００Ｓと、が搭載される。

音声出力装置２０は、車載機器３０から出力された音声信号を増幅するアンプ（増幅回路の一例）２１と、この増幅された音声信号を出力する前述の複数の車載スピーカＳＰ１～ＳＰ４と、を含む。複数の車載スピーカＳＰ１～ＳＰ４は、前述したように、車両１に設置される複数のドアや車両１のインストルメントパネル３等に内蔵されて設けられる。

複数の車載機器３０は、車体２内に搭載される各種機器の総称である。具体的には、複数の車載機器３０は、カーオーディオ３１、エアコンディショナー３２、照明装置３３、映像表示装置３４、ナビゲーション装置３５等を含んで構成される。これら車載機器３０はいずれも後述する音声処理装置１００の車載機器制御部１２０に接続される。

カーオーディオ３１は、音響装置であり、ラジオ放送を受信したり、ＣＤ（Compact Disc）や電子音楽ファイルなどの音楽媒体などを再生したりする。

エアコンディショナー３２は、車体２内の温度や湿度を調整して運転者または乗員の車内環境を快適にする。また、エアコンディショナー３２は、乾燥した空気の送風により車体２のフロントガラスやサイドガラスの霜取りや曇り取りを行う。

照明装置３３は、安全走行に必要であり、車両１の前方を照らしたり、車両１の周辺に車両１の行動を照明により報知したりする。

映像表示装置３４は、画像表示部として例えば液晶パネルを含んで構成され、インストルメントパネル３に一体的に設けられる。映像表示装置３４は、運転者または乗員に対し画像情報を適宜表示する。

ナビゲーション装置３５は、車両１の走行時に車両１の位置や目的地までの経路をガイドする。経路のガイドは、例えば前述の映像表示装置３４等を共通に用いて、地図情報や矢印情報等が映像表示装置３４に適宜表示されて行われる。なお、実施の形態１では、車載機器３０としてカーオーディオ３１、エアコンディショナー３２、照明装置３３、映像表示装置３４、ナビゲーション装置３５を列挙したが、あくまで例示でありこれらに限定されることは意図されない。

音声出力装置２０のアンプ２１には、カーオーディオ３１、映像表示装置３４、ナビゲーション装置３５等の車載機器３０が接続され、これら車載機器３０から音声信号が出力される。この音声信号は、最終的に音声出力装置２０の車載スピーカＳＰ１～ＳＰ４を通じて車体２内に流される。

音声処理システム１００Ｓは、前述したように、複数のマイクＭＣ１～ＭＣ６と、音声処理装置１００と、を含んで構成される。音声処理装置１００は、通信インターフェース１１０と、車載機器制御部（制御装置の一例）１２０と、メモリ１３０と、音声制御部（音声処理部の一例）１４０と、を含む。図２では、通信インターフェースを便宜的に「通信Ｉ／Ｆ」と記載している。なお、音声処理装置１００においてその一部または全部の機能はソフトウェアで実現されており、このソフトウェアの一部または全部を例えばナビゲーション装置３５のＤＳＰ上で実行されるように構成しても良い。この場合には、既存のハード資源をそのまま利用できるので製造コストを抑制することが可能となる。

通信インターフェース１１０は、無線通信の機能を有しており、無線通信回線を介してクラウドＣＬに接続され無線通信を行う。また、通信インターフェース１１０は、無線通信回路として携帯電話網（セルラー網）、無線ＬＡＮ等を使用することが可能である。

なお、クラウドＣＬには音声認識サーバ４０が設けられる。音声認識サーバ４０は、同様に通信インターフェース４１を含み、さらに演算機４２とメモリ４３とストレージ４４とを有する。演算機４２は、データ処理および所定のアルゴリズムを実行するためのＣＰＵ（Central Processing Unit）である。メモリ４３は、所定のデータやアルゴリズムを一時的に記憶保持するＲＡＭ（Random Access Memory）である。ストレージ４４は、大容量のデータ等を記憶するための大容量記憶装置（例えば、ＨＤＤ（Hard Disk Drive）もしくはＳＳＤ（Solid State Drive））であり、磁気記憶装置、光学記憶装置等の１つ以上の記憶装置を含んで構成される。

車載機器制御部１２０は、例えばＣＰＵ、ＤＳＰまたはＦＰＧＡ（Field Programmable Gate Array）を用いて構成され、後述する自動音声認識システムの認識結果に基づいて、各車載機器３０のＯＮ／ＯＦＦを制御したり、その動作状況を音声で報知するように指示したりして車載機器３０それぞれの作動を制御する。また、音声処理装置１００のメモリ１３０は、車載機器制御部１２０および音声制御部１４０の間の所定のデータやプログラム等のやり取りを行うための一時的記憶装置として機能する。

ここで、実施の形態１では、車載された音声処理装置１００とクラウド上に設けられた音声認識サーバ４０とを含んで自動音声認識システムが実現される。すなわち、音声処理装置１００は複数のマイクＭＣ１～ＭＣ６により収音された音声信号を取り込む。音声処理装置１００は、音声信号を音声処理した上で、通信インターフェース１１０を介してクラウドＣＬおよび音声認識サーバ４０に音声信号を送信する。この音声信号の送信により、音声認識サーバ４０は、送信された音声信号を例えばコーパスに基づき音声認識してテキストデータに変換する。このテキストデータは、システムコマンドまたはデータ入力等の様々な目的や所定のサービス利用のために用いられる。

テキストデータの変換や解釈については、所定の自動音声認識アルゴリズムに従って行われる。この自動音声認識アルゴリズムは、音声認識サーバ４０に実装されており、例えばディープラーニングに基づく人工知能（ＡＩ：Artificial Intelligence）により生成される。このような、音声認識および人工知能により運転者または乗員は、音声を発することでクラウドＣＬ上の、例えば他のサーバが提供する種々のサービス、例えばスケジュール管理またはサポートデスクへの問い合わせ等を受けることが可能となる。また、運転者または乗員は、音声処理装置１００の車載機器制御部１２０を通じて各車載機器３０の操作指示、例えば音楽再生等を音声で指示することも可能となる。

また、自動音声認識システムは、装置に指示を出す前に発せされる所定ワード、実施の形態１ではその一例としてＷｕＷ（ウェイクアップワード：Wake Up Word）をトリガとして実質的に機能する。人により発せられたＷｕＷの音声が、システムへのアクセスを許可するキーとなるので、システムが検出可能なように事前に所定ワードにより定義される。そのため、このＷｕＷは、事前に音声処理装置１００のメモリ１３０などに適宜記憶保持される。なお、ＷｕＷは、その一例として例えば「ハロー、マイ・コンピュータ」や「ヘイ、ビークル」等で定義付けられるが、特にこのフレーズ（語句）に限定されず種々のものを採用することができ、任意に設定可能である。

ＷｕＷを含むフレーズが検出されれば、自動音声認識システムが起動（ウェイクアップ）し、その自動認識の動作が開始されることになる。このＷｕＷを用いたシステム起動により、自動音声認識システムは常時動作する必要はなく、必要とされるときだけ起動または機能すれば良い。これにより、システムの演算処理やネットワークの回線トラフィックなどの負担を低減することが可能となる。

実施の形態１では、このようなＷｕＷの検出機能は音声処理装置１００の音声制御部１４０に実装される。また、ＷｕＷの検出に関する音声信号マッチングモデルは、事前に設定され、例えば音声処理装置１００のメモリ１３０に記憶保持されている。なお、音声信号マッチングモデルとしては、例えばパターンマッチング辞書モデルまたは音響モデル等が採用されるが、これに限定されない。種々のモデルまたはその他の音声信号マッチング技術を適宜採用することができる。

次に図３を参照して、音声制御部１４０の構成について説明する。図３は、音声制御部１４０の構成を説明する信号処理ブロック図である。

図３に示すように、音声制御部１４０は、ＷｕＷ検出部（ワード検出部の一例）１４１と、音声信号バッファ部（保持部の一例）１４２と、話者位置検出部（マイク特定部の一例）１４３と、ＣＴＣ（Cross Talk Canceller）部（音声処理部の一例）１４４と、を有する。また、音声制御部１４０にはＡ／Ｄ変換器（図示略）が設けられる。Ａ／Ｄ変換器は、マイクＭＣ１～ＭＣ６の音声信号を所定のサンプリング周期で量子化してデジタル変換し、音声制御部１４０内部に取り込む。

ＷｕＷ検出部１４１は、複数の異なるマイクＭＣ１～ＭＣ６のそれぞれにより収音された音声信号を直接取得する。また、ＷｕＷ検出部１４１は、メモリ１３０に記憶保持された音声信号マッチングモデルを事前に取得しており、その音声信号マッチングモデルをその内部に保持している。ＷｕＷ検出部１４１は、入力された音声信号に基づき、所定の音声信号マッチングモデルに対応するアルゴリズムに従って、特定の話者より発生されたＷｕＷの音声信号の有無を検出する。ＷｕＷ検出部１４１は、ＷｕＷの音声を検出したら、その検出情報を話者位置検出部１４３にトリガ信号として送信する。なお、ＷｕＷ検出部１４１に記憶保持部を設けて、その記憶保持部に前述の音声信号マッチングモデルを保持しておいても良い。また、マッチングアルゴリズムは、例えばディープラーニングに基づく人工知能（ＡＩ：Artificial Intelligence）により生成されても良い。

音声信号バッファ部１４２は、例えばＲＡＭ等の記憶回路により構成され、入力されたマイクＭＣ１～ＭＣ６の音声信号それぞれを個別に所定時間分（例えば２～３秒）、常時記憶保持する。音声信号バッファ部１４２の容量が一杯になったら、マイクＭＣ１～ＭＣ６の音声信号それぞれにおいて古い音声信号は上書き更新され、現時点から直前（所定期間前まで）のタイミングでの最新の音声データそれぞれが繰り返し記憶保持される。以下、このような一連の処理を「バッファリング処理」ともいう。なお、音声信号バッファ部１４２を音声制御部１４０の内部に設ける代わりに、その機能を音声処理装置１００のメモリ１３０に共通化し、音声制御部１４０はこの音声処理装置１００のメモリ１３０にバッファされた音声信号を適宜取得するように構成しても良い。この場合には、部品点数を少なくして製造コストを削減することが可能となる。

話者位置検出部１４３は、ＷｕＷ検出部１４１から送信されたトリガ信号を受信すると、この受信時刻を時刻の基準に設定する。話者位置検出部１４３は、その受信時刻から過去所定時間分の音声信号（つまり、バッファリング処理された信号）を個別に音声信号バッファ部１４２からそれぞれ取得する。話者位置検出部１４３は、ＷｕＷの音声信号とこのバッファリング処理された各音声信号とを照会して、例えば音源方向推定アルゴリズムに従って車体２内におけるＷｕＷの話者の空間的位置を検出する。

音源方向推定アルゴリズムでは、例えばマイクＭＣ１～ＭＣ６間の音声信号の時間差検出に基づいて空間的な位置検出を行う。また、時間差検出以外にも、マイクＭＣ１～ＭＣ６の音声信号それぞれをフーリエ変換やスペクトル分析して、その音声信号ごとの音声波形、周波数や音声レベル等をさらに分析して位置検出することも可能である。

このようにして話者位置検出部１４３は、ＷｕＷの音声が検出された場合に、音声信号バッファ部１４２に記憶保持される所定時間分の音声信号のそれぞれの特性に基づいて、ＷｕＷを発生した話者の空間的な位置検出を行う。これにより、話者位置検出部１４３は、その話者に最も近くに配置されたマイク（つまり、マイクＭＣ１～ＭＣ６のうちいずれか）、すなわちＷｕＷの音声を収音したマイクを話者位置マイクとして特定する。話者位置検出部１４３は、例えば話者位置マイクの識別番号をＣＴＣ部１４４に送信する。

また、話者位置検出部１４３が話者位置マイクを特定した後は、音声信号バッファ部１４２はバッファリング処理を停止する。また、ＷｕＷ検出部１４１の動作も停止する。これにより、音声制御部１４０の処理の負荷を低減することが可能となる。

ＣＴＣ部１４４は、マイクＭＣ１～ＭＣ６の音声信号をリアルタイムにそれぞれ直接取得する。また、ＣＴＣ部１４４は、適用フィルタ（図示略）および加算器（図示略）を有する。ＣＴＣ部１４４は、ＷｕＷの話者が発声した音声のみを抽出可能とするため、話者位置マイクで収音された音声信号に対し適応フィルタで生成されたダミー音声信号（言い換えると、キャンセル信号）を加算器で加算することでＷｕＷの話者以外が発声した音声をキャンセルする。これにより、ＣＴＣ部１４４は、音声信号バッファ部１４２に記憶保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、ＷｕＷの話者でない乗員が発声した音声を抑圧して、ＷｕＷの話者が発声した音声のみを可能な限り抽出して出力する。

また、適応フィルタは、話者位置マイクを含むマイクＭＣ１～ＭＣ６で収音された音声信号すべてを参照して、例えば学習アルゴリズムに従って各マイクＭＣ１～ＭＣ６間の伝達特性と等価になるまでフィルタ係数を更新しながら成長する。この適応フィルタを用いて音声信号の処理を行うことで、話者以外の音声をキャンセルするためのダミー音声信号を生成することが可能となる。なお、適応フィルタに限らず、ＷｕＷの話者以外の音声をキャンセル可能であれば種々のフィルタを採用することができる。例えば、マイクＭＣ１～ＭＣ６間の伝達特性を予め実測して、この実測結果を反映したフィルタを事前に設計し実装しても良い。また、ＣＴＣ部１４４は、適用フィルタによる処理に加えて、話者位置マイク以外のマイクのボリュームを下げ、話者位置マイクから収音される音声信号のみが音声制御部１４０に入力されるように構成しても良い。

次に図４および図５を参照して、音声制御部１４０の動作、並びに音声処理装置１００および音声認識サーバ４０間での動作手順について説明する。図４は、音声制御部１４０の動作手順を示すフローチャートである。図５は、音声処理装置１００および音声認識サーバ４０間での動作を示すシーケンス図である。なお、図４は、図５のサブルーチンＳＲ１の動作手順を示している。先ず図４を用いて音声制御部１４０の動作手順、すなわちサブルーチンＳＲ１について説明する。

図４に示すように、サブルーチンＳＲ１において、音声制御部１４０は、各マイクＭＣ１～６により収音された音声信号を取得して、ＷｕＷ検出部１４１および音声信号バッファ部１４２にこれら音声信号を先ず入力する（Ｓ１０）。ＷｕＷ検出部１４１は、入力された各音声信号に基づき、所定の音声信号マッチングアルゴリズムに従って、ＷｕＷの音声信号の検出を音声信号ごとに並行して開始する（Ｓ１１）。ＷｕＷ検出部１４１は、入力された各音声信号のいずれかにＷｕＷの音声信号が含まれるか否かを判定する（Ｓ１２）。判定の結果、ＷｕＷ検出部１４１がＷｕＷの音声信号があると判定すれば、ＷｕＷ検出部１４１の処理はステップＳ１４に進む。その一方、ＷｕＷ検出部１４１がＷｕＷの信号がないと判定すれば、ＷｕＷ検出部１４１の処理はステップＳ１１に戻る。

ＷｕＷ検出部１４１のステップＳ１１およびＳ１２の処理に並行して、音声信号バッファ部１４２は、入力されたマイクＭＣ１～ＭＣ６の音声信号それぞれを個別に所定時間分、常時記憶保持する。すなわち、音声信号バッファ部１４２は、マイクＭＣ１～ＭＣ６の音声信号それぞれに対しバッファリング処理を行う（Ｓ１３）。

話者位置検出部１４３は、ＷｕＷの音声信号とバッファリング処理された各音声信号とを照会して、車体２内におけるＷｕＷの話者の空間的位置を検出する。これにより、話者位置検出部１４３は、ＷｕＷの音声を収音したマイクを話者位置マイクとして特定する（Ｓ１４）。この話者位置マイクの特定により、話者位置マイクの音声信号に混入するＷｕＷの話者以外が発声した音声を抑圧するように、音声制御部１４０はＣＴＣ部１４４の適応フィルタのフィルタ係数を設定して機能（起動）させる（Ｓ１５）。

このＣＴＣ部１４４の設定の際、ＷｕＷ検出部１４１、音声信号バッファ部１４２および話者位置検出部１４３は、ステップＳ１５以降（図５に示すメインルーチンも含む）では動作（例えばバッファリング処理等）が不要となるのでその機能を停止する（Ｓ１６）。

ＣＴＣ部１４４の適応フィルタのフィルタ係数が設定されたら、ＣＴＣ部１４４は、話者位置マイクの音声信号を直接取得して、ＷｕＷの話者でない乗員が発声した音声を抑圧する。このとき、ＣＴＣ部１４４は、適応フィルタを用いて音声信号のフィルタリング処理を行う（Ｓ１７）。音声制御部１４０は、ＷｕＷを発声した話者の音声が鮮明になった音声信号を出力し、このフィルタリング処理による出力状態を維持する（Ｓ１８）。

すなわち、ＷｕＷが発声されその話者位置マイクが特定された以降の音声は、ＣＴＣ部１４４でのフィルタリング処理が常時施される。その結果、ＷｕＷの話者以外の運転者または乗員が発声した音声は打ち消され、ＷｕＷの話者が発声した音声が主な音声信号が出力され続けることになる。このような一連のステップＳ１０～Ｓ１８が実行され、サブルーチンＳＲ１は終了し、図５に示すメインルーチンの動作手順に戻ることになる。

図５に示すように、音声処理装置１００の音声制御部１４０によるサブルーチンＳＲ１が終了すると、音声処理装置１００の処理はステップＳ１００に進む。音声制御部１４０は、通信インターフェース１１０を用いて音声認識サーバ４０に所定の音声認識起動コマンドを送信する（Ｓ１００）。

ここで、音声認識サーバ４０は、音声処理装置１００の音声制御部１４０から音声認識起動コマンドを受信したか否かを判定する（Ｓ１０２）。音声認識サーバ４０は、受信していないと判定すれば、音声認識サーバ４０の処理はステップＳ１０１に戻り、待機モードとなる。すなわち、音声認識サーバ４０は、音声認識起動コマンドが受信されるまで待機モードとされる。その一方、音声認識サーバ４０は、音声認識起動コマンドを受信したと判定すれば、音声認識サーバ４０の処理はステップＳ１０４に進む。なお、音声認識起動コマンドは、音声認識サーバ４０に自動音声認識の実行を促すトリガとして機能する命令文である。また、ＷｕＷ検出部１４１がＷｕＷの音声を検出したと同時に、音声認識サーバ４０に音声認識起動コマンドが送信されるように構成しても良い。

音声制御部１４０は、ステップＳ１００の後、ＣＴＣ部１４４がフィルタリング処理した音声信号を音声認識サーバ４０に送信する（Ｓ１０３）。音声認識サーバ４０は、その音声信号を受信して、前述の通り音声認識を実行する。音声認識サーバ４０は、通信インターフェース４１を用いて音声認識結果を音声制御部１４０に送信する（Ｓ１０４）。なお、サブルーチンＳＲ１以降、音声制御部１４０により出力される音声信号は、ＣＴＣ部１４４でのフィルタリング処理が行われており、ＷｕＷの話者が発声した音声が主な音声信号となっている。すなわち、ステップＳ１０３では、サブルーチンＳＲ１のステップＳ１７，Ｓ１８と同様な処理が実行されている。

音声処理装置１００の車載機器制御部１２０は、音声認識サーバ４０の認識結果に基づいて、車載機器３０それぞれの作動を制御する（Ｓ１０５）。

次に、音声制御部１４０は、所定の条件を満たしたか否かを検出することで、音声認識を終了するか否かを判定する（Ｓ１０６）。音声制御部１４０音声認識を終了すると判定すれば、音声制御部１４０の処理はステップＳ１０７に進む。その一方、音声制御部１４０が音声認識を終了しないと判定すれば、音声制御部１４０の処理はステップＳ１０３に戻る。

音声制御部１４０は音声認識終了コマンドを音声認識サーバ４０に送信する（Ｓ１０７）。音声認識サーバ４０は、音声制御部１４０から音声認識終了コマンドを受信したか否かを判定し（Ｓ１０８）、受信したと判定すると音声認識サーバ４０の処理はステップＳ１０１に戻り再び待機モードとなる。その一方、音声認識サーバ４０が受信していないと判定するとステップＳ１０４に戻る。音声認識終了コマンドを受信しない限り、音声認識サーバ４０は音声認識を実行し続ける。

すなわち、これらステップＳ１０６，Ｓ１０７により、音声制御部１４０は、その制御機能の一部として、所定の条件を検出した場合に、自装置の作動モードを、ＷｕＷの話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード（Ｓ１０３）から、ＷｕＷの音声の有無を検出するＷｕＷ検出待機モード（すなわちＳＲ１：所定ワード検出待機モードの一例）に移行する機能をさらに有することになる。

ここで、実施の形態１では、所定の条件として２つの動作手順が選択的に実行される。所定の条件に関する第１動作手順では、ＷｕＷとは異なる音声認識の終了を意味するストップワード（ＳＷ，Stop Word：終了ワードの一例）が事前に定義、設定される。ステップＳ１０６において、音声制御部１４０のＷｕＷ検出部１４１は、ＷｕＷの検出だけではなく、話者位置マイクにより収音された音声信号に基づいて、同様なアルゴリズムに従ってＳＷの音声の有無を検出する。音声制御部１４０は、ＳＷの音声が検出されたか否かを判定することによってステップＳ１０６を実行して、自装置の作業モードをＷｕＷ検出待機モードに移行する。

また、所定の条件に関する第２動作手順では、音声制御部１４０は、話者が発声した音声の認識結果を取得して一定時間が経過したか否かを判定することによってステップＳ１０６を実行して、自装置の作業モードをＷｕＷ検出待機モードに移行する。

このようにステップＳ１０６では、これら第１または第２動作手順のいずれか１つの条件が満足されるかどうかが判定され、音声制御部１４０の処理が実行される。

以上により、実施の形態１に係る音声処理装置１００は、複数の異なるマイクＭＣ１～ＭＣ６のそれぞれにより収音された所定時間分の音声信号を保持する音声信号バッファ部（保持部の一例）１４２を備える。音声処理装置１００は、複数の異なるマイクＭＣ１～ＭＣ６のそれぞれにより収音された音声信号に基づいて、車両１に乗車している話者が発声するＷｕＷ（所定ワードの一例）の音声の有無を検出するＷｕＷ検出部（ワード検出部の一例）１４１を備える。音声処理装置１００は、ＷｕＷの音声が検出された場合に、音声信号バッファ部１４２に保持される所定時間分の音声信号のそれぞれの特性に基づいて、ＷｕＷの音声信号を収音したマイク（例えば、マイクＭＣ１～ＭＣ６のうちいずれか）を話者位置マイク（例えばマイクＭＣ１）として特定する話者位置検出部（マイク特定部の一例）１４３を備える。音声処理装置１００は、音声信号バッファ部１４２に保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、話者が発声した音声を出力するとともに、話者でない乗員が発声した音声を抑圧するＣＴＣ部（音声処理部の一例）１４４を備える。

これにより、音声処理装置１００または音声処理システム１００Ｓは、車両１内で発声されるＷｕＷの発声方向を迅速に検出し、そのＷｕＷの話者がＷｕＷに続けて発声する音声をその話者以外の音声に対して排他的に抽出できる。音声処理装置１００または音声処理システム１００Ｓは、この抽出により、ＷｕＷの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明（クリア）に出力することができる。その結果、音声処理装置１００または音声処理システム１００Ｓは、自動音声認識等の精度や性能を向上させ、ＷｕＷの検出に基づいて車載機器３０の作動を迅速に行うことができる。

また、音声処理装置１００は、所定の条件を検出した場合に、自装置の作動モードを、話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード（Ｓ１０３）から、ＷｕＷ（所定ワードの一例）の音声の有無を検出するＷｕＷ検出待機モード（ＳＲ１、所定ワード検出待機モードの一例）に移行する音声制御部１４０（音声処理部の一例）をさらに備える。これにより、音声処理装置１００は、必要なときのみ自装置を作動させるので、無駄な処理を削減するとともに、音声認識サーバ４０との間で過剰な回線トラフィックが発生するのを防止することができる。

また、音声処理装置１００では、ＷｕＷ検出部１４１は、話者位置マイクにより収音された音声信号に基づいて、ＷｕＷ（所定ワードの一例）と異なるＳＷ（終了ワードの一例）の音声の有無を検出する。音声処理装置１００は、音声制御部１４０は、ＷｕＷと異なるＳＷの音声が検出された場合に、所定の条件を満たしたとして、自装置の作動モードをＷｕＷ検出待機モード（ＳＲ１、所定ワード検出待機モードの一例）に移行する。これにより、音声処理装置１００は、ＷｕＷの話者自身で音声処理装置１００の作動を終了させることができるので、運転者または乗員の人間側で無駄な処理や過剰な回線トラフィックを自発的に削減することができる。また、運転者または乗員は、音声処理装置１００が待機状態になったことを自明的に把握することができる。

また、音声処理装置１００では、音声制御部１４０は、話者が発声した音声の認識結果を取得して一定時間が経過した場合に、所定の条件を満たしたとして、自装置の作動モードをＷｕＷ検出待機モード（ＳＲ１、所定ワード検出待機モードの一例）に移行する。これにより、音声処理装置１００は、ＷｕＷの話者自身で音声処理装置１００の作動を終了させてなくても自動的に装置側で作業を終了することができる。このため、音声処理装置１００では、無駄な処理や過剰な回線トラフィックの発生を自動的に抑制することができる。

（実施の形態１の第１変形例）
次に図６および図７を参照して、実施の形態１の第１変形例に係る音声制御部１４０の動作について説明する。図６は、第１変形例の音声制御部１４０の動作を示す処理ブロック図である。図７は、第１変形例の音声制御部１４０の動作手順を示すフローチャートである。なお、図３および図４と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。

図６に示すように、第１変形例では、音声制御部１４０は再生音キャンセラ１４５およびノイズキャンセラ（不図示）をさらに備える。再生音キャンセラ１４５は、複数の車載機器３０のうちカーオーディオ（音楽再生装置の一例）３１にも接続されており、ＣＴＣ部１４４の出力信号とともにその出力信号も入力される。具体的には、再生音キャンセラ１４５には、カーオーディオ３１が音声出力装置２０のアンプ２１に出力する音声信号と同じ信号（デジタル信号）が入力される（図２参照）。なお、ノイズキャンセラは、再生音キャンセラ１４５の出力信号にローパスフィルタ等のフィルタリング処理を実行してノイズを除去する。

再生音キャンセラ１４５も、ＣＴＣ部１４４と同様に適用フィルタ（不図示）および加算器（不図示）を有する。再生音キャンセラ１４５の適応フィルタは、カーオーディオ３１で再生される音楽の音声信号を参照して、その再生音楽に関するダミー音声信号を生成する。再生音キャンセラ１４５は、話者位置マイクで収音された音声に対し適応フィルタで生成された、再生音楽に関するダミー音声信号を加算器で加算する。これにより、再生音キャンセラ１４５は、車載スピーカＳＰ１，ＳＰ２，ＳＰ３，ＳＰ４を介して車体２内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする。このようにして、再生音キャンセラ１４５は、音声制御部１４０の出力音声信号から、車両１に搭載されるカーオーディオ３１の再生音楽（再生音の一例）が複数の異なるマイクＭＣ１～６により収音された再生音信号を抑圧する。

図７に示すように、再生音キャンセラ１４５の処理は、ＣＴＣ部１４４のステップＳ１７での処理の後に実行される。再生音キャンセラ１４５は、カーオーディオ３１の再生音楽の音声信号を取得して、前述したフィルタ処理により話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする（Ｓ２０）。その以降は、ＣＴＣ部１４４および再生音キャンセラ１４５両方でのフィルタリング処理により、音声制御部１４０は、ＷｕＷを発声した話者の音声が鮮明になった音声信号を出力し、この出力状態を維持する（Ｓ１８）。

以上により、実施の形態１の第１変形例に係る音声処理装置１００は、音声制御部（音声処理部の一例）１４０の出力音声信号から、車両１に搭載されるカーオーディオ（音楽再生装置の一例）３１の再生音楽（再生音の一例）が複数の異なるマイクＭＣ１～６により収音された再生音信号を抑圧する再生音キャンセラ１４５をさらに備える。これにより、再生音キャンセラ１４５は、車載スピーカＳＰ１，ＳＰ２，ＳＰ３，ＳＰ４を介して車体２内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルすることができる。このため、音声処理装置１００は、ＷｕＷを発声した話者以外の音声が混入して出力されるのをより効果的に抑制して、その話者が発声する音声をより鮮明にすることができる。

（実施の形態１の第２変形例）
図８を参照して、実施の形態１の第２変形例に係る音声制御部１４０の動作について説明する。図８は、第２変形例の音声制御部１４０の動作を示す処理ブロック図である。なお、図３と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。

図８に示すように、第２変形例では、音声制御部１４０はビームフォーミング（ＢＦ：Beam Forming）処理部１４６をさらに備える。また、複数の異なるマイクＭＣ１～６は、それぞれ複数のマイク素子を含んで構成されるマイクアレイとされる。

ビームフォーミング処理部１４６は、マイクロアレイで構成される複数のマイクＭＣ１～６を用いて、話者位置マイクにより収音された音声信号の音源に対応する話者に、音声信号の指向性を形成する。この指向性の形成により、ビームフォーミング処理部１４６は、その指向軸をＷｕＷの話者の方向に向けて車体２内におけるその話者周辺の音声やノイズの収音を抑制する。

以上により、実施の形態１の第２変形例に係る音声処理装置１００は、話者位置マイクにより収音された音声信号の音源に対応する話者（すなわちＷｕＷを発声した話者）に、音声信号の指向性を形成するビームフォーミング処理部１４６をさらに備える。音声処理装置１００は、複数の異なるマイクＭＣ１～６は、それぞれ複数のマイク素子を含んで構成されるマイクアレイである。これにより、ビームフォーミング処理部１４６は、マイクロアレイで構成される複数のマイクＭＣ１～６を用いて、車体２内におけるその話者周辺の音声やノイズの収音を抑制して、その話者が発声する音声をより一層鮮明にすることができる。

（実施の形態２）
次に図９～図１２を参照して、本開示に係る車両１に搭載可能な音声処理装置２００、音声処理方法および音声処理システム２００Ｓの実施の形態２について説明する。図９は、実施の形態２に係る車両１の上面図である。図１０は、音声処理装置２００のシステム構成を説明する機能ブロック図である。図１１は、音声制御部２４０の信号処理の動作を示す処理ブロック図である。図１２は、音声制御部２４０の動作手順を示すフローチャートである。なお、実施の形態１と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。

図９および図１０にそれぞれ示すように、実施の形態２では、複数のマイクＭＣ（具体的には、マイクＭＣ１～ＭＣ６とＷｕＷ検出用マイクＭＣ７）は車体２内に７本配置され、７本のうちマイクＭＣ１～ＭＣ６以外である第７のマイクは、ＷｕＷ検出用マイクＭＣ７とされる。特定のマイクの一例としてのＷｕＷ検出用マイクＭＣ７は、ＷｕＷを検出するために用いられる専用のマイクであり、車両１に乗車している乗員の発する音声を均等に収音し易くするために、できるだけ車体２の略中央部分天井面に埋設される。図９では、ＷｕＷ検出用マイクＭＣ７は、マイクＭＣ３とマイクＭＣ４との間の中間的位置に配置されるが、配置される位置に限定されない。実施の形態２では、第７のマイク（つまり、ＷｕＷ検出用マイクＭＣ７）以外のマイクＭＣ１～ＭＣ６により収音された音声に基づいて、ＷｕＷの検出は行われない。

そのため、図１１に示すように、音声制御部２４０の信号処理の動作において、ＷｕＷ検出部２４１には複数のマイクＭＣ１～ＭＣ６の音声信号は入力されず、第７のマイク（ＷｕＷ検出用マイクＭＣ７）により収音された音声のみ、すなわち１チャンネル分の音声しか入力されない。その一方、音声信号バッファ部１４２、話者位置検出部１４３およびＣＴＣ部１４４には、上記実施の形態１と同様、マイクＭＣ１～ＭＣ６の６チャンネル分の音声が入力される。

ＷｕＷ検出部２４１は、このＷｕＷ検出用マイクＭＣ７の収音した音声信号に基づき所定のマッチングアルゴリズムに従って、車両１に乗車している人物の中から特定の話者より発生されたＷｕＷの音声信号の有無を検出する。その他の構成については、上記実施の形態１と同様である。

すなわち、図１２に示すように、実施の形態２に係るＷｕＷ検出部２４１は、ＷｕＷ検出用マイクＭＣ７により収音された音声信号を直接取得する（Ｓ３０）。ＷｕＷ検出部２４１は、入力されたＷｕＷ検出用マイクＭＣ７の音声信号の検出処理を開始する（Ｓ３１）。ＷｕＷ検出部２４１は、入力された音声信号の中にＷｕＷの音声信号が含まれるか否かを判定する（Ｓ３２）。その一方、これらＷｕＷ検出部２４１のステップＳ３０～ステップＳ３２の処理に並行して、音声信号バッファ部１４２は、実施の形態１と同様に、マイクＭＣ１～ＭＣ６により収音された音声信号をそれぞれ取得する（Ｓ３３）。音声信号バッファ部１４２は、入力されたマイクＭＣ１～ＭＣ６の音声信号それぞれを個別に所定時間分、常時記憶保持する。それ以降のステップは、実施の形態１と同様である。

以上により、実施の形態２に係る音声処理装置２００は、ＷｕＷ検出部（ワード検出部の一例）２４１は、複数の異なるマイクＭＣ（具体的には、マイクＭＣ１～ＭＣ６と、ＷｕＷ検出用マイクＭＣ７）のうちＷｕＷ検出用マイクＭＣ７により収音された音声信号に基づいて、話者が発声するＷｕＷ（所定ワードの一例）の音声の有無を検出する。これにより、音声処理装置２００は、ＷｕＷの音声を検出する際にＷｕＷ検出用マイクＭＣ７により収音された音声信号の中からＷｕＷの音声を検出すればよいので、音声制御部２４０のＷｕＷ検出部２４１が処理すべき情報量を軽減して、より迅速にＷｕＷの話者が発声する音声をより迅速に鮮明にすることができる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

本開示は、車両内で発声される所定ワード（例えば、ウェイクアップワード等）の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出することができる車両に搭載可能な音声処理装置、音声処理方法および音声処理システムとして有用である。

１車両
２車体
３インストルメントパネル
２０音声出力装置
２１アンプ
３０車載機器
３１カーオーディオ
３２エアコンディショナー
３３照明装置
３４映像表示装置
３５ナビゲーション装置
４０音声認識サーバ
４１通信インターフェース
４２演算機
４３メモリ
４４ストレージ
１００Ｓ音声処理システム
１００音声処理装置
１１０通信インターフェース
１２０車載機器制御部
１３０メモリ
１４０音声制御部
１４１ＷｕＷ検出部
１４２音声信号バッファ部
１４３話者位置検出部
１４４ＣＴＣ部
１４５再生音キャンセラ
１４６ビームフォーミング処理部
２００Ｓ音声処理システム
２００音声処理装置
２４０音声制御部
２４１ＷｕＷ検出部
ＳＰ１，ＳＰ２，ＳＰ３，ＳＰ４車載スピーカ
ＭＣ１，ＭＣ２，ＭＣ３，ＭＣ４，ＭＣ５，ＭＣ６マイク
ＭＣ７ＷｕＷ検出用マイク
ＣＬクラウド

Claims

複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するマイク特定部と、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、
音声処理装置。
前記所定時間分の音声信号のそれぞれの特性は、前記複数の異なるマイク間の音声信号の時間差を検出して得られる、
請求項１に記載の音声処理装置。
前記所定時間分の音声信号のそれぞれの特性は、前記複数の異なるマイクの音声信号ごとの音声波形、周波数、音声レベルを分析して得られる、
請求項１に記載の音声処理装置。
前記マイク特定部は、前記ワード検出部からトリガ信号を受信してこの受信時刻を時刻の基準に設定し、前記所定時間分の音声信号のそれぞれ前記基準の時刻に対する時間差に基づき前記所定ワードを発声した話者の空間的な位置検出する、
請求項２に記載の音声処理装置。
前記音声処理部の出力音声信号から、前記車両に搭載される音楽再生装置の再生音が前記複数の異なるマイクにより収音された再生音信号を抑圧する再生音キャンセラ、をさらに備える、
請求項１に記載の音声処理装置。
前記話者位置マイクにより収音された音声信号の音源に対応する前記話者に、音声信号の指向性を形成するビームフォーミング処理部、をさらに備え、
前記複数の異なるマイクは、それぞれ複数のマイク素子を含んで構成されるマイクアレイである、
請求項１または５に記載の音声処理装置。
前記ワード検出部は、
前記複数の異なるマイクのうち特定のマイクにより収音された音声信号に基づいて、前記話者が発声する所定ワードの音声の有無を検出する、
請求項１に記載の音声処理装置。
所定の条件を検出した場合に、自装置の作動モードを、前記話者が発声した音声を出力して前記話者でない乗員が発声した音声を抑圧する特定話者音声出力モードから、前記所定ワードの音声の有無を検出する所定ワード検出待機モードに移行する制御部、をさらに備える、
請求項１に記載の音声処理装置。
前記ワード検出部は、
前記話者位置マイクにより収音された音声信号に基づいて、前記所定ワードと異なる終了ワードの音声の有無を検出し、
前記制御部は、
前記所定ワードと異なる終了ワードの音声が検出された場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項８に記載の音声処理装置。
前記制御部は、
前記話者が発声した音声の認識結果を取得して一定時間が経過した場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項８に記載の音声処理装置。
複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置されたマイクを話者位置マイクとして特定するステップと、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、
音声処理方法。
複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、
前記音声処理装置は、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記複数の異なるマイクから前記所定ワードを発声した話者の最も近くに配置された前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定し、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、
前記話者が発声した音声の認識結果を取得し、
前記制御装置は、
前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、
音声処理システム。