JP7337699B2

JP7337699B2 - 口の画像を入力コマンドと相互に関連付けるシステム及び方法

Info

Publication number: JP7337699B2
Application number: JP2019552263A
Authority: JP
Inventors: チェックレナード; リシーマンジェイソン
Original assignee: ジョイソンセイフティシステムズアクイジションエルエルシー
Priority date: 2017-03-23
Filing date: 2018-03-23
Publication date: 2023-09-04
Anticipated expiration: 2038-03-23
Also published as: CN111033611A; EP3602544A1; EP3602544A4; US10748542B2; US11031012B2; US20180286404A1; JP2020518844A; US20210035586A1; WO2018175959A1

Description

関連出願の相互参照
本出願は、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｏｆＣｏｒｒｅｌａｔｉｎｇＭｏｕｔｈＩｍａｇｅｓｔｏＩｎｐｕｔＣｏｍｍａｎｄｓ」と題された２０１７年３月２３日に出願された、同時係属中の米国仮特許出願第６２／４７５，５１０号明細書の優先権を主張するものであり、その全体が参照により組み込まれる。

本開示は、自動音声認識及び音声入力機器からの可聴コマンドの受信の分野に関し、可聴コマンドは、その可聴コマンドの発生源に焦点を合わせたカメラなどの撮像機器又は画像センサからの画像データを用いてクロスチェックされる。話し言葉は、話し手の口から空気を介して伝わる音波を口の動きが調節することにより、生成される。ユーザ向けの車両音声入力システムは、しばしば、音を検出するように配置された１つ又は複数のマイクロホンから構成される。通常、これらのマイクロホンは、音声の機械的周波数の範囲（２０ｋＨｚ未満の周波数の音波）に渡って機械的に共鳴する電気機械アセンブリである。デジタル音声トークン（時間的な音声の断片）を人工音声認識システムに送り、デジタルリクエスト（例えば、車両娯楽報道番組若しくは車両制御システムにおける情報技術のリクエスト、又は無線ネットワークを介して送信される外部のウェブベースサービスのリクエスト）に変換することができる。これらの可聴リクエストの結果、所望の機能が単純化及び／又は自動化されて、ユーザの快適性及び／又は利便性及び／又は安全性－しばしばこれら３点全てが高められる。

人工音声認識システムの性能を高めようとして、多数のデジタル方式でアルゴリズム駆動型の方法が開発されてきた。例えば、可聴コンテンツから特定のユーザの発話特性を学習することに基づくトークンマッチングシステムを、人工音声認識システムの成功率を高めるために使用することが多い。別の典型的な方法は、人工知能技術を使用して、音声入力の発話特性を１つ又は複数の音声的特徴（例えば、言語、発音、等）と照合することである。雑音を減らすためにしばしば使用される更なる方法の１つは、ユーザが大抵の場合ハンドル上にある電気機械的ボタンを押して、音声の取り込みをボタンが押し下げられている時間に限定するよう求めることである。

場合によっては、音検出及び処理システムは１つ又は複数のマイクロホンを使用し、又、その後に続く信号処理を利用して、雑音（道路の雑音、車両娯楽システムからの雑音、及びユーザ以外の可聴入力、を含む）の影響を低減する。マイクロホンを適切に幾何学的に配置することにより、雑音低減を達成し、雑音を低減しながらユーザの音声入力を強めることができる。又、通常運転中に、ユーザの位置に対して複数のマイクロホンを適切に対称的に配置することにより、外部の雑音源の影響が低減される。具体的には、マイクロホンは、目が自然と前方を向いている、例えば、ユーザが車両の運転者である場合には「目が道路を向いている」ときの、自然な口の位置の照準ベクトルに対して対称的に配置される。マイクロホン入力のその後の位相相殺処理により、雑音の影響が実質的に低減されることが示されている。この例では、複数のマイクロホンで検出されるユーザ音声信号の位相は同じである（ユーザの口からの移動距離が同じであるため）が、車両の内外の他の位置からの雑音の位相は、複数のマイクロホンで異なる位相を有することになり、従って、この音は、様々な信号処理技術を通じて除去することができる。

自動音声認識処理におけるエラーにより、意図したユーザの音声を誤って判断することがあり、結果としてユーザの潜在的な苛立ち（及び／又は注意散漫）につながることがある。例えば、音声認識は、音を誤って解釈し、間違ったリクエスト（例えば、間違った人に電話をかける）を行うことがある。又は、音声認識はリクエストを無視することがある。音検出及び測定システムを含む自動音声認識処理の目標の１つは、ユーザの音声入力音（信号）の品質を最大化し、望ましくない音（雑音）を最小化すること、例えば、信号対雑音（ＳＮＲ）比を最大化することである。

自動音声認識の分野での問題の１つは、先行技術によるシステムには、知覚された音声入力を更なる帯域外の情報（即ち、標準的な音響信号分析以外の情報）を用いてダブルチェックするための信頼できる方法が不足していることにある。当該技術分野において必要なのは、車両の動作及び性能について自動音声認識システムに対して発せられたユーザコマンドが、出所、認証、及び内容の点で確認されるように、自動音声認識システムを構成することにある。

一実施形態では、本開示は、コンピュータメモリと、撮像ソフトウェア及び音響処理ソフトウェアを実行するプロセッサと、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信する上記カメラと、少なくとも１つの音声入力から得られた音響サンプルの音響データストリームを上記の音響処理ソフトウェアに送信する音声入力機器と、少なくとも１つのタイマーによって受け取られたそれぞれのトリガーに応答して測定される経過時間値を上記のコンピュータメモリに送信するように構成された上記少なくとも１つのタイマーと、を備える自動音声認識のためのシステムを提示する。音響処理ソフトウェアは、タイマートリガーをアクティブ及び非アクティブにして、それぞれの音響サンプル時間及び音響サンプル間の合間期間を測定するように構成される。音響処理ソフトウェアは更に、合間期間を、コマンド間の予測合間時間値に対応するコマンド間隔時間値と比較するように構成される。

第２の実施形態では、自動音声認識のためのシステムは、コンピュータメモリと、撮像ソフトウェア、音響処理ソフトウェア、及びコマンド処理ソフトウェアを実行するプロセッサと、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信する上記カメラと、少なくとも１つの音声入力から得られた音響サンプルの音響データストリームを音響処理ソフトウェアに送信する音声入力機器と、を含む。撮像ソフトウェアは、デジタルピクセルデータのフレームから、音声入力の物理的な発生源を表すピクセルの部分集合を分離する。コマンド処理ソフトウェアは、メモリに記憶されたコンピュータ可読命令のサブルーチンであることがあり、時間ベースで、各音響サンプルを、画像データの連続フレームのそれぞれのグループ内の物理的発生源を表すピクセルのそれぞれの部分集合と相互に関連付ける。撮像ソフトウェアは、ピクセルのそれぞれの部分集合から物理的発生源のそれぞれの位置を導出することにより、音声入力の物理的発生源の複数の位置を追跡するように構成される。コマンド処理ソフトウェアは、上記の音声入力機器に対する音声入力の上記の物理的発生源のそれぞれの位置に応じて、音響サンプルをコマンドとして検証する。

更に別の実施形態では、自動音声認識のためのデータ取得システムは、コンピュータメモリと、撮像ソフトウェア、音響処理ソフトウェア、コマンド処理ソフトウェア、及びコーデックソフトウェアを実行するプロセッサと、を含む。このシステムは更に、カメラに関連付けられた視野内で取得された画像からデジタルピクセルデータの複数のフレームをメモリに送信する上記カメラを含む。音声入力機器は、それぞれの音声入力から得られるデジタル音響データストリームの組をメモリに送信する。撮像ソフトウェアは、デジタルピクセルデータのフレームから、音声入力の発生源を表すピクセルの部分集合を分離する。プロセッサは、音声入力の発生源を表すピクセルの部分集合に基づいて、デジタル音響サンプルのそれぞれの組に対して音声トークンプロファイルを生成し、プロセッサは、それぞれの音声プロファイルをデータベースに記憶し、個々のユーザに関連付けられた音声プロファイルを識別するためにデータベースをフィルタリングし、識別された音声プロファイルをそれぞれの個人のそれぞれのコーデックとして記憶する。

本明細書で説明する自動音声認識システムの概略図である。カメラ視野内に第１のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第１のフレームである。カメラ視野内に第２のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第２のフレームである。カメラ視野内に第３のユーザを有するカメラによって収集され、本明細書で説明する自動音声認識システムに関連付けられた画像データの第３のフレームである。本明細書で説明する自動音声認識システムを使用した車両内の異なるユーザ位置に対する調節可能なカメラ視野の概略図である。図２Ａのカメラからの画像データの第１のフレームであり、カメラ視野内の第１の位置に位置するユーザの口に焦点を合わせている。図２Ａのカメラからの画像データの第２のフレームであり、カメラ視野内の第２の位置に位置するユーザの口に焦点を合わせている。図１の自動音声認識システムによって取得された音響信号の音声トークンプロファイルのプロットである。図３Ａの音声トークンプロファイルに関連付けられた画像データのフレームであり、ユーザの口が動いていることを示す。図３Ａの音声トークンプロファイルに関連付けられた画像データの第２のフレームであり、ユーザの口が静止していることを示す。ユーザの頭部がわずかにユーザの右側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。ユーザの頭部がカメラにまっすぐに向いておりユーザの目が道路を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。ユーザの頭部がわずかにユーザの左側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。ユーザの頭部が急角度でユーザのはるか右側を向いている状態で、視野内にユーザの頭部を有する、車両内に設置されたカメラの側面図である。図１Ａの自動音声認識システムを利用した車両内のユーザの口に焦点を合わせているカメラによって収集された画像データの第１のフレームの概略図である。図５Ａの画像データの解析された部分であり、ユーザの口が第１の位置にある状態で音声トークンを発声しているユーザの口の画像を示す。図５Ａの画像データの解析された部分であり、ユーザの口が第２の位置にある状態で第２の音声トークンを発声しているユーザの口の画像を示す。図５Ａの画像データの解析された部分であり、ユーザの口が第３の位置にある状態で第３の音声トークンを発声しているユーザの口の画像を示す。図１の自動音声認識システムによって取得され、図５Ａ～５Ｄの画像データとのマッチングに利用可能な音響信号の音声トークンプロファイルのプロットである。図１の自動音声認識システムと連携して使用される画像データの第２のフレームであり、カメラ視野内のユーザの口の第２の図を提供する。図１による自動音声認識システムの概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームへの参照を含む。図１による自動音声認識システムによって利用される信号処理方法の概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームへの参照を含む。図１による自動音声認識システムによって利用される信号処理方法の概略図であり、システムによって使用される画像データ及び音響データの、収集され対にされたフレームのタイミング特徴への参照を含む。本明細書で説明する車内全体に渡るデータ収集のために配置された、画像検出機器及び音声入力機器のシステムの斜視図である。

本開示の用語は、その文脈に対する最も広い解釈に照らして読み取られるべきである。例えば、「カメラ」という用語は、例えばＲＧＢ、赤外帯域光、並びに、正弦波ＬＥＤ又はＶＣＳＥＬＩＲレーザを使用して強度画像及び奥行画像を取得する同期光源、などの異なる波長で動作する、あらゆる種類の機器を含む。更に、「カメラ」という用語は、単に画像フレームを収集する機器の代わりに、３Ｄ飛行時間カメラを含むが、これに限定はされない。他の実施形態は、「点群」データフレームを収集する画像センサを含む。これらの点群データフレームは、各ピクセルにおいてセンサからの距離及び強度を含む。本開示の範囲内に含まれるカメラは、「マルチスペクトル」２Ｄ又は３Ｄカメラであることもあり、これらでは、各ピクセルは複数の波長での反射率とカメラから反射面までの距離とを含むことができる。本開示における「カメラ」の使用は、固定の撮像機器と、データ収集のために領域を掃引する機器との両方、並びに固定の又は調節可能な視野での対応する機能、を包含することがある。

本開示における単一の装置又は要素の使用は、本明細書の目標を達成するのに必要な同じ装置及び要素の複数のインスタンスを利用した同等の実施形態も可能にする。従って、本開示の実施形態は、複数の撮像機器、複数の音声入力機器、及び複数のコンピュータ・ハードウェア・コンポーネントが、本明細書で考察する目的のために連携して作用するような構成を含むが、これに限定はされない。

本開示の一実施形態では、個人の口及び舌の動きが声帯から発せられる音波に影響を及ぼすことによって生成される、物理的な又は「機械的な」共鳴運動は、まずアナログ電気信号に変換され、このアナログ電気信号は、アナログ信号処理方法（増幅、周波数フィルタリング）を介して更に処理するか、且つ／又はデジタル信号に変換してデジタル信号処理方法を介して更に処理することができる。結果として得られる信号は、ハンズフリー音声通信、音声制御、又は音声機能要求を含む、様々な自動音声認識アプリケーションで使用することができる。一般的に、説明を何らかの単一の範囲に限定することなく、本開示の実施形態は、マイクロホン、又は音波を感知し音エネルギーをアナログ若しくはデジタルの電気信号などの別の形式に変換するように構成された任意の音声入力機器、によって取得された音響信号の一部を利用する。音響信号は通常、ユーザ視聴覚監視システムＡＶＭＳ及び本明細書で説明する自動音声認識システムと対話する個人から発せられる。ここでの説明に従って収集され分析される音響信号の部分は、まとめて「音声入力」と呼ばれる。音声入力は、音響信号全体又は単一の音声入力内の単語、句、又は音の部分を表す個々の「音声トークン」に更に分割することができる。言い換えると、本開示の目的のために、「音声トークン」は、音声入力の最小の区別可能な区分とみなすことができ、本明細書で説明するシステムにより更に評価するために音声入力から解析されることがある。

本明細書で説明するシステム及び方法は、視聴覚監視システムの個々のユーザ、常にではないが大抵の場合は車両の運転者、に言及する。しかしながら、ユーザ、運転者、及び他の車両の同乗者への言及は、本明細書で説明する自動音声認識システムの実施形態の範囲を限定することを意図してはいない。

本開示の自動音声認識システム及びアプリケーションは、視聴覚監視システム（ＡＶＭＳ）１００全体への電子通信及び送信によって実施され利用可能になり、このＡＶＭＳ１００は、自動音声認識システム２００を使用して、ＡＶＭＳ１００を使用し対話する者、通常はこれに限定するものではないが車両のユーザ１５、に関する多大な空間的／時間的情報を取得する。取得される情報には、特定の個人のユーザ識別、顔の中心位置の検出及び追跡、顔のサイズ、形状、及びユーザの顔の回転方向、並びに目、鼻、唇、及び耳などの顔の特定の特徴が含まれることがあるが、これらに限定はされない。視聴覚監視システム（ＡＶＭＳ）１００全体に自動音声認識システム２００を取り入れることにより、本開示で説明するコンピュータ化された方法及びシステムは、顔髭、マスク、メガネ、サングラス、及び／又は、飲むこと、呼吸、喫煙、食事、携帯電話での会話、咳、あくび、横目、しかめ面、泣くこと、叫ぶこと、などの活動及び状態を含むがこれらには限定されない、他のユーザ状態又は見た目の特徴を検出し追跡することを可能にする。ＡＶＭＳ１００を使用して、読唇パターン、心拍数、呼吸数、皮膚温度、及び、たとえビデオ形式であったとしても単なる画像からは容易に明らかではない他のユーザ属性、などのユーザ１５に関する生理学的な情報を取得することも、技術的には可能である。

図１に示す一実施形態では、視聴覚監視システム（ＡＶＭＳ）１００は、本明細書で説明する自動音声認識システム２００を含むか、又は電子通信を介してアクセスする。自動音声認識システム２００は、プロセッサ２５０と電子通信するカメラ２４０と、非一時的なコンピュータ可読媒体に記憶されたソフトウェア命令を有するコンピュータ可読メモリ２１５とを含む。非一時的なコンピュータ可読媒体及びメモリ２１５は、データベース３００に記憶された予め訓練された単語及び句の少なくとも１つの辞書３１５と、同様に電子通信する。辞書は、１つ又は複数の「キーワード」句、及び１つ又は複数の「コマンド」句を含むことができる。「キーワード」句は、音声認識処理を開始するために使用することができる１つ又は複数の単語、例えば、「コマンド開始」など、から構成される。一旦「キーワード」句が検出されると、これには一般的に、「コマンド」句リクエストが続く（例えば、「目的地に到着するために十分な料金を持っているか？」など）。データベース３００は、メモリ２１５に対してローカルである追加の記憶構造に格納されることがあり、又は、異なる実施形態では、カメラ２４０、プロセッサ２５０、及びメモリ２１５は、ネットワークを介して自動音声認識システムに接続された遠隔サーバメモリ及び動作／アプリケーションへアクセスすることがある。本明細書で説明するコンポーネントを接続するネットワークには、インターネット、電話、携帯電話、衛星、及び、異なる地理的位置に渡って情報を共有する任意の他の有線、無線、又は光ファイバー伝送機構が含まれる。

カメラ２４０は、レンズからの視野２４６を含み、このレンズは、そのカメラに関連付けられた視野内で取得された画像から、デジタルピクセルデータの連続的なフレームの形態で画像データを生成する。図１の例では、視野２４６は、少なくともユーザの頭部及び／又は顔の一部、好ましくはユーザの顔全体を含んで、本明細書で説明する画像解析ソフトウェアで使用される画像を生成する。図１Ｂ、図１Ｃ、及び図１Ｄは、異なるユーザＱ、Ｒ、Ｓからカメラ２４０によって取得された画像２０、３０、４０の非限定的な例を示しており、これらのユーザは、車両の内部又は車両の一部の上に配置されることがあるカメラの視野に入ったのである。なお、それぞれのユーザＱ－２０、Ｒ－３０、及びＳ－４０として図示されているＡＶＭＳ１００のユーザの各々は、例えば、頭部及び顔の形状、肌の色及び濃さ、目の形、並びに特に、顔及びカメラの視野２４６に対する各ユーザの口２７、３７、４７の個別の位置、を含む、著しく異なる身体的特徴を有する。従って、カメラ２４０は、図１の自動音声認識システム２００及びＡＶＭＳ１００と連携して、上述したソフトウェア命令にアクセスしてパターン認識及び顔識別処理を完了する。これにより、カメラ２４０が、ユーザＱ－２０、Ｒ－３０、及びＳ－４０の顔の視野パターン２２によって示される、ユーザの口に視野２４６の焦点を合わせることが可能になる。カメラの視野２４６内のユーザの口２７、３７、４７の位置と共に、撮像ソフトウェア２２５の一部である顔認識ソフトウェア命令を使用して、自動音声認識システム２００は、関連するプロセッサ２５０を利用して、ユーザ／ユーザＱ－２０、Ｒ－３０、Ｓ－４０のうちのどの選択された人が、車両内にいて、運転しながら又は車両内の同乗者である間にコマンドを発することができる状況にあるかを識別するための十分な情報を有する。カメラ２４０は、カメラのハードウェアと一体的に取り付けられた、又はカメラ２４０、ＡＶＭＳ１００、及び自動音声認識システム２００とデータ通信する複数のマイクロホンのシステムの一部として取り付けられた、マイクロホン２３９も含むことがある。

上述したように、本開示の実施形態の一態様は、自動音声認識システム２００によって使用するためにユーザのプロファイルを含むデータベース３００にユーザ関連情報を記憶することを含む。一実施形態では、車両内のユーザ視聴覚監視システム（ＡＶＭＳ）１００にコマンドを発することを許可された各ユーザ（Ｑ－２０、Ｒ－３０、Ｓ－４０）は、データベース３００に記憶された、又はそれぞれのユーザに関する情報を記録するための類似のデータ記憶アーキテクチャに記憶された、プロファイルを有する。この実施形態では、自動音声認識システム２００は、ＡＶＭＳ１００と通信しており、又、自動音声認識システム２００を訓練してＡＶＭＳ１００のユーザ１５を認識することを可能にする人工知能機能を含む。ユーザを認識することには、身体的な特徴（例えば、身長、横幅、頭部の形状、顔の特徴、ユーザが車両の座席にいるときの口の位置）に関して、及び音声の特徴（例えば、構文、アクセント、コマンド及び方言のタイミング、特定の単語又は句の発音）に関して、個人を識別することが含まれる。一実施形態では、特定のユーザが車両を操作し、その車両に関連付けられたそれぞれのＡＶＭＳ１００及び自動音声認識システム２００と対話するとき、データベース３００内のそのユーザのプロファイルは、繰り返し使用することで時間の経過とともに継続的に更新される。従って、データベース３００内のユーザの記録は、益々多くの単語及び句を含むように内容が膨らみ、これらの単語及び句は、ＡＶＭＳ１００が時間の経過と共に学習し成功裏に実施したコマンド及び命令と対にすることができる。言い換えると、ユーザが特定のコマンドを発音すると、その可聴のコマンドは、本明細書で説明する自動音声認識システム２００を介してＡＶＭＳ１００に送信される。関連するデータベースエントリが同様に更新され、その結果、それぞれのユーザのデータベースエントリには、コンピュータ使用可能形式でそのコマンドと対にされることになるそれぞれの音響サンプル（例えば、図７、２８２で音響サンプル２８２として図示される音響信号）が含まれるようになる。自動音声認識システム２００及び接続されたＡＶＭＳ１００には検証技術が組み込まれて、ユーザからの特定の音声入力４２がＡＶＭＳ１００の特定のコマンドと関係することを確認する。

従って、本明細書で説明する自動音声認識システム２００は、データベース３００、及び所与のユーザ又は他のＡＶＭＳ１００のユーザ１５に特有のコマンドの関連する辞書３１５、へアクセスする。このデータベース３００は、車両内にローカルに記憶されることがあり、又は、遠隔サーバからアクセス可能であることがある。遠隔アクセスする場合、各車両が遠隔サーバと電子通信するそれぞれのＡＶＭＳ１００を有するなら、データベース３００内のユーザのプロファイルを、２台以上の車両と関連付けて使用することがある。この点に関して、本開示の一態様は、自動音声認識システム２００を実装し、且つＡＶＭＳ１００が車両内の個々のユーザ又はＡＶＭＳ１００の任意のユーザ（例えば、同乗者）を識別しながら、その個人に対する音声認識処理の態様をカスタマイズすることを可能にする、システム、方法、及びコンピュータプログラム製品である。

上述したように、機械学習技術を使用して、以前に使用した可聴音声トークンをデータベースエントリに入れ、その後、データベース内の各ユーザプロファイル毎に個々の音声コーデックを導出する。コーデックは、音声認識機能をサポートする単純で効率的な方法で、図８の参照符号４５Ａ、４５Ｂ、４５Ｃに示すような音声トークン（例えば、句、音節、文）を表すのに使用することができる、音声要素の数学モデルを表す。各個人は、その個人のコーデック内で認識モデルとして表すことができる、異なるアクセント、トーン、構文の使用法、及び音声パターンを有することができる。従って、コーデックは、所与のＡＶＭＳ１００コマンド又は他の音声入力を表すのに、個人に特有の音及び顔画像の間の数学的にモデル化された関係を表現する。一実施形態では、メモリ２１５に記憶される個人のコーデックは、テンプレートとして構成されるデータ記憶構造であり、このテンプレートは、関連する自動音声認識システム２００が人工知能手順を利用して、長期間の使用に渡って、音声トークン、音響サンプル、及びコマンドデータの音声入力の新たなインスタンスを処理するにつれて、定期的な更新にかけられる。従って、テンプレートは、更新可能なデータ記憶構造の形式でのヒューマン・マシン・インターフェースとして動作する。従って、テンプレートのメモリ構造は、音声認識データを記憶する不揮発性のコンピュータ可読媒体のセクターで確立され、その結果、セクターは記憶目的のために個別に圧縮される。この点に関して、以下で考察する画像と音響との相関技術を使用して、テンプレートは、記憶されるデータの少なくとも１つのセクターをより高速で引き出し解凍することができる態様で、関連するコマンドデータを記憶することができる。自動音声認識システム２００は、所与の動作に必要なセクターのみを解凍することができる。データタイプに応じてセクターでコーデックを記憶することによる柔軟性により、クラウドサーバ環境でコーデックの分散記憶が可能になる。

車両のそれぞれのＡＶＭＳ１００の内部に自動音声認識システム２００を実装することは、データベースコーデックを選択し、且つ／又は訓練シーケンスを通じて所与の個人に対して使用されることになる新たなコーデックを生成し、且つ個人の音声特性を学習する、のに必要なソフトウェア及びハードウェア属性を自動音声認識システム２００に組み込むことを含む。ＡＶＭＳ１００は、本明細書で説明する自動音声認識システム２００の所与のユーザによる繰り返しの使用に渡って、その個人に対するコーデックを改良し向上させるようにプログラムされる。本明細書で説明するシステムを通じて個々のユーザを識別することにより、個人の音声リクエストに関する統計情報（例えば、音声リクエストの発生頻度、繰り返し回数、及び状態）を分析し、音声認識性能をカスタマイズし且つ／又は最適化することが可能になる。例えば、自動音声認識システム２００がコーデックを使用して、最も頻繁に使用される名前（例えば、家族の）、ウェブ検索リクエスト（例えば、天気、チームのスコア、地図、及び交通情報）、又は、個人がよく使う他の用語、並びにＡＶＭＳ１００に向けられた特定のコマンド及びリクエスト、を学習することができる。これらの記憶されたリクエストは、音声認識処理において優先順位付けされることがある。新たな自動音声認識リクエスト中に、以前に記憶された情報を検索し、これを利用して、自動音声認識システム２００を介してＡＶＭＳ１００に向けられた追加の言語ベースのコマンドを学習することができる。

図２Ａ、図２Ｂ、及び図２Ｃは、本開示の一態様を示しており、この態様では、自動音声認識システム２００は、車両内の音声入力４２（即ち、一連の音響サンプル２８２又は音声トークン４５）の発生源として知覚されたターゲットユーザ１５に、車両カメラの視野の焦点を合わせる。一実施形態では、自動音声認識システム２００は、ユーザがＡＶＭＳ１００に向けてコマンドを発するのを知覚するように構成される。図２Ｂは、ある個人１５の記憶された画像を示しており、この個人１５は、以前にＡＶＭＳ１００にアクセスしており、本明細書で説明する自動音声認識システム２００の以前の使用を記録した上述のデータベース３００内にプロファイルを有する。データベースプロファイル３００は、図１でユーザＱ－２０として示された個人について以前に収集され記憶されたデータを含む。図２Ａの例では、ユーザＱ－２０は、車両内の第１及び第２の位置（ｎ、ｎ＋１）から音声入力４２として可聴のキーワード又はコマンドを発し、これらの位置はそれぞれ第１の位置「ｎ」及び第２の位置「ｎ＋１」としてラベル付けされており、車両のこのユーザは、両方の位置から車両ＡＶＭＳ１００にアクセスできる。例えば、位置１は、ユーザがまず車両に乗ったときに車両内で想定される初期位置と一致し、位置２は、ユーザがより快適で利用し易いように調節された第２の位置（即ち、車両の座席をローカルに調節する車両座席システムにおける、好ましい又は以前に記憶された座席位置）と一致することがある。図２Ａのカメラ２４０は、ＡＶＭＳ１００と電子通信しており、従って、本明細書で説明する自動音声認識システム２００とも電子通信しており、この自動音声認識システム２００は、車両内のマイクロホン２３９からの入力に応じて、カメラ２４０及び関連する視野２４６を調節する制御システムを含む。マイクロホン２３９、又はユーザから少なくとも１つの音声入力４２を受け取る任意の音声入力機器は、有線、無線、ファイバー等であり得る信号伝送方式を介して自動音声認識システム２００に接続されている。

本開示で説明する自動音声認識システム２００は、１つの非限定的な実施形態では、音響処理ソフトウェア２７５及び撮像ソフトウェア２２５を含むソフトウェアモジュールとして構成されることがあるソフトウェア（即ち、非一時的なコンピュータ可読媒体に記憶されたコンピュータ可読命令）を含む。自動音声認識システム２００に向けられた音声入力４２の物理的属性を音響処理ソフトウェアが使用して、マイクロホン２３９に対する音声入力４２の位置及び方向を表すデータを導出することができる。複数のマイクロホン２３９を車両内の戦略的な位置に取り付けることにより、システムは、音声入力４２から得られるそれぞれの受信音響サンプル２８２の物理的特性を学習してメモリ２１５に記憶する人工知能機能を、音響処理ソフトウェアの内部に含むことがある。例えば、様々なマイクロホン２３９から音声トークン４５として分割された、それぞれのサンプル２８２の振幅及び位相は、その車両のシステムに記憶された仮想幾何学マッピングと共に、自動音声認識システム２００が、ユーザ又はＡＶＭＳ１００の他のユーザによって音声入力４２が発声されたときから、音声入力４２が源を発する車両内の方向及び幾何学的位置を分離することを可能にする。

図２Ｂ及び図２Ｃに示すように、ＡＶＭＳ環境で動作する自動音声認識システム２００は、音声入力方向及び起点データを利用してカメラ２４０及びカメラの視野２４６を、それぞれのユーザ（又は話者）の口２７、３７、４７に向けるように構成されることがある。口の位置のこの決定は、音声入力データの出所の方向、及び利用可能であれば、この特定のユーザ／話者用のデータベース内に記憶された他のプロファイルデータから推定することができる。例えば、自動音声認識システム２００は、音声入力の類似の種類の幾何学的出所を持つデータベースプロファイルの最も可能性の高い候補者にアクセスするように構成されることがある。図２Ｂ及び図２Ｃの例では、音響信号２８２の物理的プロファイル、及び上述したデータベース３００内に以前に記憶されたユーザプロファイルデータ、のうちの片方又は両方を使用することにより、自動音声認識システム２００は、ユーザ識別情報、車両内のユーザの位置、及び音声認識処理に使用することができる任意の関連する音声コーデック、を識別するのに十分な情報にアクセスできる。このアクセスは、システムが、音声入力機器２３２として動作する少なくとも１つのマイクロホン２３９と共に関連するカメラ２４０からのデータを含むがこれらには限定されない情報を受け取って、ユーザが車両内で位置「ｎ」に座っているか又は位置「ｎ＋１」に座っているかに関わりなく、ユーザの顔上のユーザの口の位置を識別することにより、達成される。一旦カメラ２４０がユーザの口について訓練すると、カメラ２４０によって収集された画像２０、３０、４０を、自動音声認識システム２００にアクセス可能な画像処理ソフトウェア２２５が比較して、ユーザの口が動いているか又は動いていないかを判断することができる。図５に示すように、画像データのフレーム２７０Ａ～２７０Ｄ間のピクセルにおける画像の相違により、ユーザの口の動き及び／又は静止状態を判断することができる。口の動きは、ユーザがコマンドを発したかどうか、又は、音声入力はコマンドを許可されていない別の発生源からのものかどうかを評価するための、予備的な識別基準として、撮像ソフトウェアにより使用されることがある。

図３は、ユーザの口の画像シーケンスが、口が動いているか又は静止しているかをどのように示すかを図示している。図３Ｂ及び図３Ｃで図示した画像データのフレーム２２Ａ、２２Ｂは、車両内の様々なマイクロホン２３９によって受信された音響信号３０２の例示的なプロットなどの、音響データの対応するシーケンスと比較することができる。実施形態によっては、ユーザ／ユーザから自動音声認識システム２００への音声入力信号４２は、音声入力機器（例えば、マイクロホン２３９）によって取り込まれた一連の音声入力４２の一部として、音声入力機器２３２へ到達する。従って、本明細書で説明する自動音声認識システム２００は、音響処理ソフトウェア２７５を含み、この音響処理ソフトウェア２７５は、音声入力機器２３９によって受信された到来する音データを取得、記憶、操作、解析、及び総じて使用して音声認識アルゴリズムを連動させることを可能にするコンピュータで実施される命令を有する。このソフトウェアは、自動音声認識システムの目的を推進するのに必要な任意のデータ強調技術でフィルタリング、強調、バッファリング、クリップ、又は係合を行うことができる。特に、音響処理ソフトウェア２００は、多数の音響信号を利用して、本明細書で説明する音声認識処理への有効な音声入力を判断するように、より具体的には、音声認識を効率的に遂行できるようにする重要な音、単語の一部、又は句に関連した音声トークン４５（即ち、音声データの断片）を識別するように、構成される。

図３Ａのプロットは、本開示のシステムが、撮像ソフトウェア２２５による作用を受ける画像データ２７０であって、口が動いていること、及び音響信号３０２の振幅が音声入力４２を生成するユーザを示す特性を有していること、を認識する画像データ２７０の対応するフレームと相関付ける、一連の音響信号の一部についての、例示的な音響信号プロファイルを示す。図３Ｃの画像「ｎ＋１」では、ユーザの口は動いておらず、音響信号の対応するプロットが、音声入力が検出されていないことを裏付ける。従って、図３は、フレーム２２Ａ、２２Ｂ毎にアクセスされる、カメラ２４０からの画像を、ＡＶＭＳによって受け取られた一連の音声入力４２から解析された音響信号３０２の対応するプロットと対にすることができることを示している。振幅閾値３３３（ユーザコマンドであり得る最小レベルとみなされる）を満足する音響信号の部分について、本明細書で説明するシステムは、音響信号２８２のその部分をカメラ２４０からの対応する画像と対にして、ユーザが音声入力４２を発したことを確認する。ユーザの口が同時に動いていると、この音声入力４２は、自動音声認識システム２００による更なる処理を必要とするユーザからのＡＶＭＳコマンドである可能性が高い候補となる。なお、本明細書での様々な実施形態のこの詳細な説明は、音響サンプル部分２８２を、時間領域プロットにおいて、画像データの対応するフレーム２１Ａ、２１Ｂ、２２Ａ、２２Ｂと対にすることを含む。しかしながら、この例は、本明細書で説明するシステム及び方法を、対になった動作をプロットするための任意の特定の座標系に限定はしない。音響信号の特性を対応する画像と比較し、これに応じてそれらを対にするために、多数の他のデジタル信号解析方法が利用可能である。従って、図３の例は、本明細書で説明する画像データと音響データを比較するのに利用可能な信号処理技術を限定するものではない。

図４は、本明細書で説明する装置、方法、及びシステムで有用なデータ収集の更に別の態様を示す。図４に従って、車両に及び／又は車両の内部に取り付けられたカメラ２４０は、視野２４６を有し、好ましくは、ＡＶＭＳ１００及び／又は自動音声認識システム２００によって調節可能な視野２４６を有する。ＡＶＭＳ１００及び／又は音声認識システム２００は、シャッター速度、フレームレート、解像度、色制御、焦点及びレンズ設定、視野の奥行、視野角、焦点距離、及び作動距離、を含むがこれらには限定されないカメラ設定を変更するように動作可能である。上述したように、特定のカメラ設定は、カメラ及び／又はＡＶＭＳの構成要素部品である非一時的なコンピュータ可読媒体にプログラムされたソフトウェアによって制御され、ＡＶＭＳは、車両内の上述したマイクロホン構成を利用して、音声入力の発生源の位置及び潜在的な識別情報を識別する。音声入力の発生源の位置及び予想される識別情報を識別した後で、発生源の頭部、顔、特に発生源の口の位置を特定しその画像を提供するための最適なカメラ設定が構成される。

図４では、カメラ設定は、車両内の音響信号２８２の発生源の画像データ２７０をフレーム毎に提供するように構成される。図４Ａ～図４Ｄの各々は、カメラ２４０が、自動音声認識システム２００及びＡＶＭＳ１００が使用する画像データ２７０を引き出して処理し、関連するマイクロホン２３９又はマイクロホンの組で受信された音声入力４（即ち、音響信号又は音声トークン）がＡＶＭＳのコマンドとして正確に識別されることを確認することを示す。図４の例示的な実施形態では、カメラ２４０は、音声入力４２の発生源として車両ユーザの画像を取得する視野２４６から画像データ２７０を生成する。

図４Ａは、カメラの視野内でのユーザの頭部、顔、及び口の第１の位置を示す。この例では、カメラ２４０は、ユーザの顔がわずかにユーザの右側を向いている画像データ２７０を生成する。一実施形態では、音声入力が、ＡＶＭＳが車両内に設置された車両システムの車両アレイ内部でアクションを起こすのに使用するものとみなされるべき有効なコマンドであるかどうかを評価するために、ユーザの頭部及び顔がユーザの視点から左又は右を向いている程度が、自動音声認識システム及び／又はＡＶＭＳの意思決定工程におけるデータポイントになる。

言い換えると、自動音声認識システムのソフトウェアがユーザの頭部及び顔の位置の画像を使用して、３次元座標系を基準にして頭部、顔、及び／又は口の回転の程度を判断することができる。一例では、３次元座標系は、車両の床に対して水平な平面内にｘ軸及びｙ軸を含み、車両の床に対して垂直な平面内にｚ軸を含む。これらのｘ軸、ｙ軸及びｚ軸は、理論的にはユーザの頭部の内部に位置する原点を中心としたデカルト座標系を確立する。データ及び画像処理の意味では、本明細書で説明するソフトウェア及びシステムの内部で、ユーザの頭部がマッピングされている３次元座標系を使用して、図４に示すようにユーザがコマンドデータを発しているかどうかを判断することができる。一例では、コマンドデータを含むような発話又は音声入力４２を識別するための最適な頭部位置は、顔がまっすぐに前に向けられ、目がユーザの正面の「道路に向いて」いる位置にある、頭部位置である。図４Ｂはこの位置を示しており、音声認識システムは、音声入力機器（図示せず）として少なくとも１つのマイクロホンと、ユーザの頭部、顔、及び／又は口の画像データを提供するカメラと、これらのコンポーネントからのデータを取り込む自動音声認識システムと、を利用する。従って、ＡＶＭＳは、マイクロホンへの音声入力内の潜在的なコマンドデータの内容と有効性との両方を評価することができる。一実施形態では、上述のデカルト座標に対するユーザの顔及び口の角回転の程度を使用して、ユーザの頭部、顔、及び口が、ユーザがＡＶＭＳコマンドを発したときに期待される位置にありそうかどうかを判断することができる。比較すると、図４Ｃ及び図４Ｄは、これらの画像と対になっている発話をコマンドデータであるとＡＶＭＳがみなす閾値（即ち、頭部の回転の角度又は程度）の外側にある可能性が高い頭部、顔、及び口の回転を示している。システムは、カメラ視野２４６に対するユーザの頭部、顔、及び口の変化する角度に対して許容範囲を有して構成されることがあり、その結果、頭部、顔、及び口の角度が図４Ａに示されたものなどの所定の許容範囲内にあることを画像データの収集されたフレームが示す限り、音声入力信号は、コマンドデータを含む可能性のある候補とみなされることがある。

本開示の装置、システム、及び方法は、更なる分析のために単一フレーム内の部分画像データ２７０を解析する、追加のハードウェア及びソフトウェアモジュールを含む。図５Ａは、画像データ２７０の例示的なフレームを示しており、車両内に設置されたカメラは、ＡＶＭＳに対するコマンドであり得る発話の発生源としてユーザの口にその設定の焦点を合わせている。カメラ２４０によって提供される画像データの各フレームを分析して、ユーザ、より具体的にはＡＶＭＳコマンドの発生源としてユーザの口、を表すピクセル構成を判断することができる。図５Ｂ、図５Ｃ、及び図５Ｄでは、ユーザの口が、カメラ２４０によって提供される口のピクセルのそれぞれの組に分離されている。ＡＶＭＳ１００にインストールされているか、又はＡＶＭＳ１００に対して遠隔で利用可能な、画像解析及び読唇ソフトウェアが、特定の口の形状から生じる可能性がある音又は音声出力を識別するために、具備されていることがある。これらの口の形状を順番に配置することにより、ユーザが可聴信号として発した可能性のあるコマンドを解読するように、ＡＶＭＳ１００を構成できる。上述したように、ＡＶＭＳ１００に機械学習技術を実装して、一連の音響信号のデータベース３００へのエントリを導出し、それによって、データベース３００中の各ユーザプロファイルの個々の音声コーデックをプログラムすることができる。コーデックは、音声認識機能をサポートする単純で効率的な方法で、音響信号２８２又は音声トークン４５（例えば、句、音節、文）を表すのに使用することができる、音声要素の数学モデルを表す。各個人は、その個人のコーデックで表すことができる、異なるアクセント、トーン、構文の使用法、及び音声パターンを有することができる。図５に示すように、このデータベース３００及びコーデック実装の一部は、画像データから解析されユーザのプロファイルに保存することができる、それぞれの口の位置、口の形状、及び顔の表情、の集合である。従って、ユーザのコーデックは、それぞれのＡＶＭＳユーザが、どのように顔、口、舌、唇、及び関連する頭の筋肉組織を動かしてコマンドを話すか、についてのデータ及びモデルを含むことがある。自動音声認識ソフトウェアが、データベースに益々多くの音声エントリを提供し、各ユーザに対する、次第により詳細で精巧で、呼応してより正確なコーデックをもたらすにつれて、自動音声認識システムは、利用可能な音声入力、頭部の回転分析、及び少なくともユーザの口の画像データから、コマンドデータとして発声された言語を解読するように訓練される。

図６は、本明細書で説明する実施形態による自動音声認識システム２００のシステムアーキテクチャの全体的な実装の一例を示す。車両内のユーザ１５が、可聴音声信号６７５の形式の少なくとも１つの音声入力４２の目標発生源として、特定されている。本開示のシステムにより考慮される音響サンプル２８２の部分は、単一のコマンドの有限成分として識別することができる音響信号のストリングからの断片である音声トークン４５を含む。図６は、システムの音抽出範囲内の他の音４９が、雑音発生源２６、３６であり得ることを示し、これらの２次的な音響発生源２６、３６は対応する音声入力信号４２に影響を及ぼすが、分析からは除外されることが好ましい、というのも、雑音発生源２６、３６は、ＡＶＭＳ１００又は周辺コンポーネントに有用なコマンドデータを含んでいないからである。

システムは、更なる処理のために、音声入力４２をデジタル形式又はアナログ形式の電子信号６７５に変換するように構成された音声入力機器２３２を含む。図６の例では、音声入力機器２３２はマイクロホン２３９である。他の実施態様は、アレイに配置された、又は車両全体の異なる位置に配置された複数のマイクロホン２３９を含むことがある。上述したように、各音声入力機器から受信された電子信号６７５の物理的属性と共に、車両内部の音声入力機器２３２の地理的位置により、ＡＶＭＳ１００が、音響サンプル２８２が端を発する車両内部の位置及び方向を識別することが可能になる。このようにして、システムは、望ましい目標発生源又は周辺の雑音発生源から発せられる音声入力４２の予備的なスクリーニングを可能にする。

図６及び図７によると、一実施形態では、自動音声認識システム２００はコンピュータメモリ２１５にアクセスし、プロセッサ２５０は、少なくとも撮像ソフトウェア２２５及び音響処理ソフトウェア２７５を実行する。プロセッサ２５０は、それぞれの音声入力機器２３２及びカメラ２４０によって収集された、一連の音響信号２８２の一部を、画像データのフレーム２１Ａ、２１Ｂ、２２Ａ、２２Ｂの全体的な集合の一部と対にするように構成される。音響信号及び画像データの両方に対する上述した操作は、ＡＶＭＳに能力を与え、これには、音声トークン４５に分割された音声入力４２の発生源の位置を識別することと、所与の音声入力４２又は音声トークン４５が、認可されたユーザ又は車両のユーザからのキーワード句又はコマンドである可能性が高いと画像データ２７０Ａ、２７０Ｂが立証するかどうかを判断することと、が含まれる。キーワード句又はコマンドデータの存在を決定することは、自動音声認識システム２００が、上述したような個々のユーザ／ユーザの発話及び言語パターンの異なる態様のモデルを有するコーデックにアクセスすることによって、更に適応される。所与のユーザ／ユーザの組のプロファイルとしてアクセス可能なコーデック及び他のデータベースエントリを利用して、本明細書で説明する音響信号及び画像データの一方又は両方に対して動作する高度な機械翻訳及び読唇手順を提供することができる。

図７は、上述したデータベース３００及び翻訳辞書３１５にローカルに又はリモートに接続された非一時的なコンピュータ可読メモリ２１５及びプロセッサ２５０を介して利用可能な信号処理ステップの例を示す。図７に記載するように、図６のカメラ２４０からの画像データ２７０Ａ、２７０Ｂ、２７０Ｃの解析されたフレームが、特定の音声入力４２の発声中のユーザの唇及び口の個々の形状を識別するように分離されており、特定の音声入力４２は、音響サンプル２８２Ａ、２８２Ｂ、２８２Ｃに変換され、更に、単語又は句の一部などの、音声トークン４５Ａ、４５Ｂ、４５Ｃに解析分解されることがある。図３のシステムと同様に、少なくとも１つのマイクロホン２３９などの音声入力機器２３２によって取り込まれた全体的な音響サンプル２８２からの音声トークン４５Ａ～４５Ｃは、音響信号から同様に解析され、図示するように時間又は周波数空間のいずれかでプロットされる。本開示のシステム２００は、車両ＡＶＭＳ１００に関連して、同じ時間又は周波数領域で同様に吟味される対応する音声トークン４５と共に、図示するような画像を利用し、このデータを使用して、特定の音及び単語の形の音声入力を確認することができる。

図８は、信号処理手順の１つ又は複数の例を示し、この信号処理手順により、図７の対になった音響データ及び画像データを、音声認識及び読唇プロファイルの上述したデータベース３００に記憶されたユーザプロファイルから選択されたコーデックと共に、使用することができる。逐次的な画像データフレーム２７０Ａ、２７０Ｂ、２７０Ｃとして図８に示された口の画像のピクセルデータフレームを、対応する音響サンプル２８２Ａ、２８２Ｂ、２８２Ｃと対にすることに加えて、非限定的な信号処理技術の１つは、画像データフレーム２７０Ａ、２７０Ｂ、２７０Ｃと対になった音響信号２８２Ａ、２８２Ｂ、２８２Ｃを、対応する音声トークン４５Ａ、４５Ｂ、４５Ｃと照合する。本明細書で説明するシステムは、対応する音声トークン４５Ａ、４５Ｂ、４５Ｃを表す連続的な音響サンプル２８２Ａ、２８２Ｂ、２８２Ｃの組の音響サンプル長時間７００を利用する能力も含む。これらのデータセットを、音響サンプル２８２Ａ、２８２Ｂ、２８２Ｃの間の合間期間７１５と共に追跡して、それぞれの音響信号データストリームにおけるキーワード句又はコマンドデータの有無について更に評価する。図７に示すような時間又は周波数空間での音声トークン４５Ａ、４５Ｂ、４５Ｃのプロットは、一連のトリガーポイント７５０として説明することができ、ここでは、自動音声認識システムが音響サンプル内の一連の音響セグメントの開始点及び停止点を検出することができるのに十分な、生音響から導出された電子信号を音声入力機器が提供する。図７及び図８では、各音響セグメント又は音声トークン４５は、音響サンプル２８２Ａ、２８２Ｂ、２８２Ｃがプロット用に選択された領域でゼロ軸と交差することによって決定される、識別可能な開始トリガー７５０Ａ、７５０Ｃ、７５０Ｅ及び停止トリガー７５０Ｂ、７５０Ｄ、７５０Ｆを有する。時間領域では、例えば、関連するクロック２９０が、所与の音声トークン４５の開始トリガーと停止トリガーとの間の時間を測定し、この測定値は、本明細書では音響サンプル長時間７００と呼ぶことがある。連続する音声トークンの第１の停止トリガーと後に続く開始トリガーとの間の時間は、合間期間長７１５Ａ、７１５Ｂ、７１５Ｃとみなされる。本開示で説明するシステム、方法、及びコンピュータプログラム製品は、音響サンプル長及び合間期間長を、ＡＶＭＳへの音声コマンドの全般的な検証及び音声翻訳における追加のデータポイントとして利用するように構成される。

図８の例では、ユーザ／ユーザは、処理のために可聴形式で一連のキーワード句又はコマンドを提供することにより、システムを訓練することができる。この訓練は、電気機械式スイッチを使用して、訓練要求の開始又は停止を示すことを含むこともある。プロセッサ２５０、メモリ２１５、及びデータベース３００は、これらの例示的なキーワード句又はコマンドを使用して、データベース内のユーザプロファイルを更新し、そのユーザの対応するコーデックは、ユーザの発話パターンモデル及び言語プロファイルと共に利用可能になる。大局的な意味では、所与のユーザ／ユーザからのコマンドデータ信号７６５である可能性が高いサンプル長７００及び予期される合間期間７１５の長さを識別することにより、非コマンドデータ７７５である雑音発生源に起因して音声入力機器で受信された音響とは対照的に、少なくともコマンドデータの第１のレベルのスクリーニングが提供される。非限定的な一例で示すように、車両内又は電話での一般的な会話などの雑音発生源２６、３６は、コマンドデータ７６５と同じ開始トリガー７５０Ａ及び停止トリガー７５０Ｂを有する可能性は低く、コマンドデータ７６５なら、ユーザはより意図的に発音を明確にする。既知のキーワード句又はコマンドデータの合間期間及び音響サンプル時間を、システムのユーザのコーデックにおいてモデル化して、ユーザ／ユーザの識別情報と、画像データ２７０からの読唇及び音響サンプル２８２からの音声トークン４５の新たな機械翻訳を実施するのに必要なプロファイルデータと、をより迅速に評価することができる。

上述の図及び特徴を考慮して、本開示は、非一時的なコンピュータ可読媒体に記憶された一連のコンピュータ実施命令及びモジュールとして、関連する方法及び／又はコンピュータプログラム製品を実装するようにプログラムされたソフトウェアで実施することができる自動音声認識のための全般的なシステムについて説明する。このシステムは、コンピュータメモリ２１５、プロセッサ２５０、システムクロック２９０、及び、ローカルメモリに記憶された又はクライアント及びサーバの分散システムにおいてネットワークを介してリモートでアクセスされる、上述のコンピュータ実施命令、を含む。プロセッサ２５０は、対応するデータをＡＶＭＳ又は異なるシステムの別のプロセッサに通信するために撮像ソフトウェア２２５及び音響処理ソフトウェア２７５を実行する幾つかのＡＶＭＳプロセッサのうちの１つであり得る。本開示の自動音声認識システム２００は、カメラ２４０に関連付けられた視野２４６内で取得された画像からデジタルピクセルデータの複数の連続フレームを送信するカメラ２４０を含む。マイクロホン２３９などの音声入力機器２３２は、ユーザ／ユーザからの少なくとも１つの音声入力から取得された音声トークン３０２の音響データストリームを、音響処理ソフトウェア２７５に送信する。少なくとも１つのクロック／タイマー２９０は、音響データストリームのセグメントに関連付けられたそれぞれの開始トリガー及び停止トリガーを受信及び／又は識別するのに応答して測定される経過時間値をコンピュータメモリに送信するように構成される。音響処理ソフトウェア２７５は、ハードウェアであれソフトウェアであれ、適切なスイッチをアクティブ及び非アクティブにして、それぞれの音響サンプル時間７００と、音響サンプル間の合間期間７１５とを測定するタイマー２９０を提供するようにプログラムされる。実施形態によっては、音響サンプルは、少なくとも１つの音声入力４２から解析された上述の音声トークン４５である。車両内部からの上述した発話及びキーワード句及びコマンド認識の一部として、音響処理ソフトウェア２７５は、合間期間７１５を、有効なコマンドデータセット内のコマンド間の予期される合間時間値に対応するコマンド間隔時間値定数と比較するように更に構成される。既知のコマンド音響信号の送信中の合間期間を追跡することは、音声トークンを、キーワード句若しくはコマンドとして又はキーワード句若しくはコマンドの一部として識別するための、音声認識システムの訓練の一態様である。

上述の画像データ及び音響データの両方の特徴を識別すると、システムは、ＡＶＭＳ１００にとって有用なコマンドデータの境界の明らかに外側にある音響及び画像データをスクリーニングするように構成される。潜在的に有効なキーワード句及びコマンドデータは、コンピュータのメモリ及び／又はバッファ構造において更なる処理のために維持され、一方、無効なサンプルは破棄される。１つの構成例では、システムは、音声トークンと以前に対にされた口の画像を分析して、音声入力機器がごく周囲からの音響データを収集している時間の間に、ユーザの口が動いていたかどうかを確認する。ユーザの口が動いていないことを画像データが示す期間については、それらの画像と時間領域で対にされた対応する音響サンプル又は音声トークンは、無効であるとして破棄されることがある。同様に、システムはプロセッサ及びメモリを更に利用して、ＡＶＭＳ１００への可能なコマンドであると思われる音響信号の振幅閾値を記憶する。確立された閾値を超える、音響信号及び個々の音声トークンの振幅は、ＡＶＭＳ１００へのコマンドとして有用な形式に変換するために更に考慮されることがある。本開示のシステム及び方法として実装されるコンピュータソフトウェアは、多数の異なるモジュールに配置されることがあり、例えば、音響信号処理ソフトウェア２７５、画像データ処理ソフトウェア２２５、及び適切な命令が動作するようにＡＶＭＳに送信されることを確実にするコマンド処理ソフトウェア、などがそうである。

図８及び図９によって例示される別の実施形態では、本開示によるシステムは、上述のコンポーネント及びコンピュータ化された方法を利用して、認可されたユーザからのコマンドデータを、車両内の異なる個人から発せられた非コマンドデータと区別する。追加の実施形態では、システムは、個人からの音声入力４２を、雑音発生源２６、３６の音声入力と区別するように構成される。上述した音響信号処理技術は、以下を行うシステムを包含する、即ち、物理的な特徴、位置、声紋、及び他の識別基準を記録し、この記録されたデータをメモリ２１５に記憶し、所与の音声入力４２が認可されたユーザ１５からのものかどうかを評価し、車両内のそのユーザの位置を評価し、ユーザ１５がＡＶＭＳ１００に向けて発するのを許可されたコマンドの種類を評価するシステムを包含する。口の動き、物理的位置、身体測定値、音響信号の方向、異なるマイクロホンでの音響信号の強度、及び本開示の範囲内の他のパラメータを追跡することにより、ＡＶＭＳは、所与の個人とデータベース３００内の特定の記録とを相互に関連付けることができ、各ユーザ１５が発することがある有効なコマンドに対する予め設定された適切な認可を追跡することができる。例えば、運転者は車両の動作を制御するコマンドを発することができるが、車両の他の場所にいる他の同乗者が特定されることがあり、車両内のそれぞれの位置に応じて、車両内で利用可能な特定の付属品に関するコマンドを発することができる。子供などの個人は、いかなるコマンドデータを発することも認可されないことがある。これらの認可の各々は、コンピュータ可読メモリに予めプログラムされていることがあり、各ユーザ１５が車両に乗った際にアドホックに割り当てられることがある。

ＡＶＭＳ１００への複数のユーザアクセスに応じて、本明細書で説明する実施形態は更に、車両内の様々な位置にいるユーザからのコマンド７６５を追跡し、識別し、制御するように構成可能なシステムコンポーネントを含む。車両の内部全体に配置された複数の音声入力機器２３２を利用することに加えて、本開示は、車両内部全体、個々の座席、前部座席エリア及び脚収容部、後部座席エリア及び脚収容部など、までをも含む広いエリアをカバーする視野９７５を有するものとして、図９に図示する画像検出器及びセンサ９５０の使用を組み込む。他の実施形態では、カメラ９１０Ａ～９１０Ｇ、及び車両全体に渡る特定の目標物に対するより正確な視野を有する他の画像センサを、戦略的に配置された音声入力機器９２０Ａ～９２０Ｆ及び／又は記録装置、送受信機などと共に配置することにより、ＡＶＭＳは、全ての適切な信号伝搬及び信号分析技術を利用して特定の音声入力の起点を見分けるように構成される。これらの技術には、車両内の無線通信システムを構成するハードウェアからのビーム形成技術が含まれるが、これに限定はされない。例えば、アンテナアレイは、適応ビーム形成を使用して、車両内から発せられる適切な音響信号を強調及び拒絶する。アンテナアレイのレイアウトを設計するのに有用な信号処理技術は、音声入力４２の起点を特定するために、本明細書で説明するようなＡＶＭＳに適用可能である。

開示された方法及びシステムを実施するのに使用することができるコンポーネントが開示されている。これらの及び他のコンポーネントが本明細書で開示されている。これらのコンポーネントの組み合わせ、部分集合、相互作用、グループ等が開示される場合、これらの個々の及び集合的な様々な組み合わせ及び置換の各々についての具体的な言及が明示的に開示されていない可能性があっても、各々は、全ての方法及びシステムについて、具体的に考察され本明細書に説明されていることを、理解されたい。これは、開示する方法のステップを含むがこれに限定はされない、本出願の全ての態様に当てはまる。従って、実施することができる様々な追加のステップがある場合、これらの追加のステップの各々は、開示する方法の任意の特定の実施形態又は実施形態の組み合わせで実施することができることを理解されたい。

当業者には理解されるように、方法及びシステムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェアとハードウェアの態様を組み合わせた実施形態、の形態を取ることができる。更に、方法及びシステムは、コンピュータ可読記憶媒体に組み込まれたコンピュータ可読プログラム命令（例えば、コンピュータソフトウェア）を有する、その記憶媒体上のコンピュータプログラム製品の形態を取ることがある。より具体的には、本方法及びシステムは、ウェブで実施されるコンピュータソフトウェアの形態を取ることがある。ハードディスク、ＣＤ－ＲＯＭ、光学式記憶装置、又は磁気記憶装置を含む、任意の適切なコンピュータ可読記憶媒体を利用することができる。

図６～図９を参照すると、方法及びシステムの実施形態は、本明細書では、方法、システム、装置、及びコンピュータプログラム製品のブロック図及び流れ図を参照して説明される。ブロック図及び流れ図の各ブロックは、コンピュータプログラム命令によって実施することができることを、理解されたい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置にロードして、機械を製造することができ、その結果、コンピュータ又は他のプログラム可能データ処理装置上で実行される命令は、流れ図のブロックで指定された機能を実装するための手段を生成する。

これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置を特定の態様で機能させることができるコンピュータ可読メモリに記憶することもでき、その結果、コンピュータ可読メモリに記憶された命令は、流れ図のブロックで指定された機能を実行するためのコンピュータ可読命令を含む製品を製造する。コンピュータプログラム命令は、コンピュータ又は他のプログラム可能データ処理装置にロードして、一連の動作ステップをそのコンピュータ又は他のプログラム可能装置上で実行させて、コンピュータ実施プロセスを生成することもでき、その結果、そのコンピュータ又は他のプログラム可能装置上で実行される命令は、流れ図のブロックで指定された機能を実行するためのステップを提供する。

従って、ブロック図及び流れ図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するためのステップの組み合わせ、及び指定された機能を実行するためのプログラム命令手段、をサポートする。ブロック図及び流れ図の各ブロック、及びブロック図及び流れ図のブロックの組み合わせは、指定された機能又はステップを実施する専用ハードウェアベースのコンピュータシステム、又は専用ハードウェアとコンピュータ命令との組み合わせによって、実装することができることも理解されたい。

本明細書には、貯蔵圧予測をサポートするために使用されるコンピュータ可読媒体の実施形態が記載される。図は、本明細書で開示する方法と共に使用するコンピュータ可読媒体の実施形態の概要を提示する。結果は、グラフィカルユーザインターフェース形式でゲートウェイ（インターネット又は衛星を介した遠隔コンピュータ）に届けることができる。説明したシステムは、本明細書に開示したアルゴリズムなどのアルゴリズムを用いて使用することができる。

図から理解されるように、この実施態様では、コンピュータは、他の要素と通信する処理ユニット１０６を含むことがある。同様にコンピュータ可読媒体には、データを受信及び表示するための出力機器及び入力機器が含まれことがある。この表示機器／入力機器は、例えば、モニターと組み合わせて使用されるキーボード又はポインティングデバイスであり得る。コンピュータシステムは更に、ハードディスク、着脱可能磁気ディスク、又はＣＤ－ＲＯＭディスクなどの様々なコンピュータ可読媒体に情報を記憶するために、ハードディスクドライブ、フロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、ＳＤディスク、光ディスクドライブ、などの少なくとも１つの記憶装置を含むことがある。当業者に理解されるように、これらの記憶装置の各々は、適切なインターフェースによってシステムバスに接続されることがある。記憶装置及びそれらに関連するコンピュータ可読媒体は、不揮発性の記憶を提供することができる。上述したコンピュータは、当技術分野における任意の他のタイプのコンピュータで置き換えることができることに留意することが重要である。そのような媒体は、例えば、磁気カセット、フラッシュメモリカード、及びデジタルビデオディスクを含む。

システムの実施形態を更に含むのは、ネットワーク・インターフェース・コントローラであり得る。当業者であれば、本明細書で開示するシステム及び方法は、コンピュータ機器又はコンピュータの形態で汎用コンピュータ機器を備えるゲートウェイを介して、実施されることがあることを、理解するであろう。

メモリバス又はメモリコントローラ、周辺機器用バス、アクセラレイティッド・グラフィックス・ポート、及び様々なバスアーキテクチャのいずれかを使用したプロセッサ又はローカルバスを含む、幾つかの可能なタイプのバス構造のうちの１つ又は複数を使用することができる。例として、そのようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクス標準協会（ＶＥＳＡ）ローカルバス、アクセラレイティッド・グラフィックス・ポート（ＡＧＰ）バス、及び、周辺コンポーネント相互接続（ＰＣＩ）、ＰＣＩ－Ｅｘｐｒｅｓｓバス、パーソナル・コンピュータ・メモリ・カード産業協会（ＰＣＭＣＩＡ）、ユニバーサル・シリアル・バス（ＵＳＢ）などを含むことがある。バス、及び本明細書で指定する全てのバスは、有線又は無線のネットワーク接続を介して実装されることがあり、プロセッサ、大容量記憶装置、オペレーティングシステム、ネットワークインターフェースコントローラ、入出力インターフェース、及び表示機器を含むサブシステムの各々は、完全な分散システムを効果的に実現するために、この形式のバスを通じて接続された、物理的に離れた位置にある１台又は複数台の遠隔コンピュータ機器の内部に含まれることがある。

コンピュータは通常、様々なコンピュータ可読媒体を備えている。例示的な可読媒体は、コンピュータがアクセス可能な任意の利用可能な媒体とすることができ、この媒体は、例えば、揮発性及び不揮発性の媒体の両方、着脱可能及び着脱不可能な媒体の両方を含むが、これらに限定することは意図していない。システムメモリは、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリ、及び／又は読み出し専用メモリ（ＲＯＭ）などの不揮発性メモリの形態のコンピュータ可読媒体を含む。

別の態様では、コンピュータ１０２は、他の着脱可能／着脱不可能な、揮発性／不揮発性のコンピュータ記憶媒体も含むことがある。例えば、これに限定するものではないが、大容量記憶装置は、ハードディスク、着脱可能磁気ディスク、着脱可能光ディスク、磁気カセット又は他の磁気記憶装置、フラッシュメモリカード、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）又は他の光学記憶装置、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気消去可能プログラマブル読み出し専用メモリ（ＥＥＲＰＯＭ）などであり得る。

任意に、例としてオペレーティングシステム及び計算ソフトウェアを含む、任意の数のプログラムモジュールを、大容量記憶装置に記憶することができる。オペレーティングシステム及び計算ソフトウェア（又はそれらの何らかの組み合わせ）の各々は、プログラミング及び計算ソフトウェアの要素を含むことがある。大容量記憶装置には、データも記憶することができる。データは、当技術分野で既知の１つ又は複数のデータベースのいずれかに記憶することもできる。そのようなデータベースの例としては、ＤＢ２（商標）、マイクロソフト（商標）アクセス、マイクロソフト（商標）ＳＱＬサーバ、オラクル（商標）、ｍｙＳＱＬ、ＰｏｓｔｇｒｅＳＱＬなどが挙げられる。データベースは、集中型であることも、又は複数のシステムにまたがって分散していることもあり得る。

別の態様では、ユーザは、コマンド及び情報を、入力機器を介してコンピュータ１０２に入力することができる。そのような入力機器の例としては、キーボード、ポインティングデバイス（例えば、「マウス」）、マイクロホン、ジョイスティック、スキャナ、グローブなどの触覚入力デバイス、及び他の身体カバーなどが挙げられるが、これらに限定するものではない。これらの及び他の入力機器は、ネットワーク・インターフェース・コントローラに結合されたヒューマン・マシン・インターフェースを介して処理部に接続されることがあるが、他のインターフェース及びバス構造、例えば、パラレルポート、ゲームポート、ＩＥＥＥ１３９４ポート（Ｆｉｒｅｗｉｒｅポートとしても知られる）、シリアルポート、又はユニバーサル・シリアル・バス（ＵＳＢ）などによって接続することもできる。

更に別の態様では、表示機器が、ディスプレイアダプタなどのインターフェースを介してシステムバスに接続されることがある。コンピュータは、２つ以上のディスプレイアダプタを有することがあり、且つ２つ以上の表示機器を有することがあることが企図されている。例えば、表示機器とは、モニター、ＬＣＤ（液晶ディスプレイ）、又はプロジェクターであり得る。表示機器に加えて、他の出力周辺機器が、入出力インターフェースを介してコンピュータに接続することができるスピーカー及びプリンタなどのコンポーネントを含むことがある。方法の任意のステップ及び／又は結果は、任意の形式で出力機器に出力することができる。そのような出力は、文字、グラフィック、アニメーション、音声、触覚などを含むがこれらには限定されない、任意の形式の視覚表現であり得る。

コンピュータ１０２は、ネットワーク環境で動作することができる。例として、遠隔コンピュータ機器は、パーソナルコンピュータ、携帯型コンピュータ、サーバ、ルーター、ネットワークコンピュータ、ピアデバイス、センサノード、又は他の一般的なネットワークノード等であり得る。コンピュータと遠隔コンピュータ機器との間の論理接続は、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、又は任意の他の形式のネットワークを介して確立されることがある。そのようなネットワーク接続は、ネットワークアダプタを介していることがある。ネットワークアダプタは、有線環境及び無線環境の両方で実装されることがある。そのようなネットワーク環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、及びインターネットなどの他のネットワークにおいて、従来からのものであり一般的である。

開示した方法の任意のものを、コンピュータ可読媒体に組み込まれたコンピュータ可読命令によって実行することができる。コンピュータ可読媒体は、コンピュータがアクセスすることができる任意の利用可能な媒体とすることができる。限定するものではないが、例として、コンピュータ可読媒体は、「コンピュータ記憶媒体」及び「通信媒体」を含むことができる。「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性の、着脱可能及び着脱不可能な媒体を含む。例示的なコンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、又は所望の情報を記憶するために使用することができ、コンピュータがアクセスすることができる、任意の他の媒体、を含むが、これらに限定はされない。

本明細書で説明する方法及びシステムは、機械学習及び反復学習などの人工知能技術を用いることがある。そのような技術の例としては、エキスパートシステム、事例に基づく推論、ベイジアン・ネットワーク、行動ベースのＡＩ、ニューラルネットワーク、ファジーシステム、進化的計算法（例えば、遺伝的アルゴリズム）、群知能（例えば、蟻アルゴリズム）、及びハイブリッド・インテリジェント・システム（例えば、ニューラルネットワークを通じて生成されたエキスパート推論ルール、又は統計学習からの生成ルール）が挙げられるが、これらに限定はされない。

本明細書で説明する方法、システム、及びコンピュータプログラム製品の実施形態は、以下の特許請求の範囲に更に記載される。

Claims

車両内のエリアを監視するためのシステムであって、
コンピュータメモリと、
撮像ソフトウェア及び音響処理ソフトウェアを実行するプロセッサと、
撮像機器であって、前記車両内の視野から取得され、前記撮像機器に関連付けられた画像からのピクセルデータの複数のフレームを前記撮像ソフトウェアに送信する、撮像機器と、
音声入力の音響データストリームを前記音響処理ソフトウェアに送信する音声入力機器と、を含み、
前記プロセッサは、前記ピクセルデータの前記複数のフレーム及び前記音声入力から前記音響データストリームの発生源としてユーザを識別するように構成され、前記システムは、
前記音響データストリーム内の音声コマンドの存在を識別するために、前記音声入力及び前記音声入力間の合間期間に対応する経過時間値を前記コンピュータメモリに送信するように構成された少なくとも１つのタイマーを含み、
前記音響処理ソフトウェアは更に、音声コマンドデータのスクリーニングを提供するために、前記合間期間に対応する前記時間値を音声コマンド間の予測合間時間値と比較するように構成される、システム。
前記コンピュータメモリに記憶される振幅閾値を更に含み、前記音響処理ソフトウェアは更に、それぞれの音声入力の振幅を前記振幅閾値と比較して、有効な音声入力、無効な音声入力、及び前記合間期間を区別するように構成される、請求項１に記載のシステム。
（ｉ）時間領域で前記有効な音声入力を追跡し、（ｉｉ）無効な音声入力を破棄し、（ｉｉｉ）前記時間領域で前記合間期間を追跡する、ように構成されたコマンド処理ソフトウェアを更に含む、請求項２に記載のシステム。
前記コマンド処理ソフトウェアは、前記時間領域においてピクセルデータの前記フレームも追跡し、又、前記プロセッサ及び前記コンピュータメモリを利用して、前記時間領域において、ピクセルデータの前記フレームを、対応するタイミングにある有効な音声入力及び合間期間とグループ化して、前記音響データストリーム内の前記音声コマンドを有効にする、請求項３に記載のシステム。
前記撮像ソフトウェアは、ピクセルデータの連続フレームを比較し、前記連続フレーム間の画像差を判断するように構成される、請求項１に記載のシステム。
前記音声入力は、ユーザの口から発せられており、前記画像差は、ユーザの口が動いていること及び／又は動いていないことを決定する前記フレームにおけるピクセル差を含む、請求項５に記載のシステム。
前記プロセッサは、前記コンピュータメモリに記憶されたコマンド処理ソフトウェアにアクセスし、前記ピクセルデータの部分集合によって表わされる前記口の仮想位置から、前記撮像機器の前記視野に対する前記口の物理的位置を計算する、請求項６に記載のシステム。
前記プロセッサは、前記コンピュータメモリに記憶されたコマンド処理ソフトウェアにアクセスし、有効な音声入力の持続期間中の又は合間期間中の前記口の複数の仮想位置を決定する、請求項７に記載のシステム。
前記口の前記仮想位置は、前記音声入力中の音声コマンドデータの存在を検証する、請求項８に記載のシステム。
前記口の前記仮想位置は、前記口が、音声入力の前記音響データストリームの持続期間中は動いており、且つ／又は合間期間中は動いていないことを検証する、請求項９に記載のシステム。
前記コマンド処理ソフトウェアは、少なくとも１つの有効な音声入力とグループ化された前記口のそれぞれの仮想位置を表すピクセルデータの複数のフレームを識別し、前記複数のフレーム間の前記画像差を比較して、前記ユーザの口の動きから音声コマンドを解読する、請求項９に記載のシステム。
前記コマンド処理ソフトウェアは、前記音声コマンドを前記コンピュータメモリに送信する、請求項１１に記載のシステム。
前記音声コマンドを認可データと照合して、前記音響データストリームの前記発生源が前記音声コマンドを発する許可を有しているかどうかを判断するための、前記認可データのデータベースを更に含む、請求項１２に記載のシステム。
前記プロセッサは、前記音響データストリームの前記発生源として前記ユーザが前記車両の運転者であるか又は同乗者であるかを判断するように構成される、請求項１３に記載のシステム。
前記運転者か又は前記同乗者のうちの少なくとも一方に対応する音声入力機器及び撮像機器のそれぞれの組を更に含む、請求項１３に記載のシステム。
デジタルピクセルデータを更に含み、前記撮像ソフトウェアは、前記フレームから、前記音響データストリームの物理的発生源を表す前記デジタルピクセルデータの部分集合を分離する、請求項１に記載のシステム。
前記メモリは、前記デジタルピクセルデータの部分集合によって表わされる一連の口の動きと、前記音声入力の部分によって表わされる発声とを照合する翻訳辞書を含む、請求項１６に記載のシステム。
前記プロセッサは、前記車両内の前記音声入力機器の設定位置に対する前記口の仮想位置を計算して、前記音響データストリームの方向を決定する、請求項１７に記載のシステム。
前記プロセッサは、前記音響データストリームの前記方向、前記ピクセルデータの前記フレーム、前記発声を利用して、前記音声入力の発生源を識別する、請求項１８に記載のシステム。
前記プロセッサは、前記音声入力の前記発生源を利用して、前記発声中の音声コマンドを認証する、請求項１９に記載のシステム。
前記音声コマンドは、前記プロセッサが前記時間領域でピクセルデータの前記フレームを追跡し、前記時間領域で、ピクセルデータの前記フレームを対応するタイミングの音声入力とグループ化することにより、更に検証される、請求項３または４に記載のシステム。
前記音声入力の前記発生源は、前記プロセッサが前記ピクセルデータを評価して、前記音声入力の前記発生源の顔の特徴を識別することにより、更に検証される、請求項２０に記載のシステム。
前記音声入力の部分として記憶された音声トークンのデータベースを更に含んで、識別されたユーザについてやはり前記データベースに記憶された音声コマンドとして音声入力を評価する、請求項２０に記載のシステム。