JP2020502555A

JP2020502555A - アービトレーションに基づく音声認識

Info

Publication number: JP2020502555A
Application number: JP2019521032A
Authority: JP
Inventors: スティーブン・ベックハート; テッド・リン
Original assignee: ソノズインコーポレイテッド
Priority date: 2016-10-19
Filing date: 2017-10-18
Publication date: 2020-01-23
Anticipated expiration: 2037-10-18
Also published as: EP4235650A2; US10614807B2; EP3529692B1; EP4235650A3; CN110073326A; JP6668555B2; US20190074008A1; US20200234708A1; WO2018075660A1; JP2020098364A; JP7108084B2; JP2021119414A; US20220351725A1; US11727933B2; US20180108351A1; US20240079006A1; CN110073326B; EP3529692A1; US10181323B2; JP6884245B2

Abstract

第１音声入力が検出され、第１音声入力に関連する第１信頼度が決定される。メッセージがネットワークデバイスによって受信される。メッセージは、第１音声入力の犬種つん関連する第２信頼度を含む。第１信頼度が第２信頼度よりも大きいかどうか決定される。第１信頼度が第２信頼度よりも大きいとの決定に基づいて、第２音声入力がサーバに送信される。

Description

関連出願の相互参照

この出願は、２０１６年１０月１９日に出願され「Ａｒｂｉｔｒａｔｉｏｎ−ＢａｓｅｄＶｏｉｃｅＲｅｃｏｇｎｉｔｉｏｎ」と題された米国特許出願第１５／２９７，６２７号に基づく優先権を主張する。この出願の内容は、その全体が参照により本明細書に組み込まれる。

本願は、コンシューマ製品に関するものであり、特に、メディア再生に向けられた方法、システム、製品、機能、サービス、および他の要素に関するものや、それらのいくつかの態様に関する。

２００３年に、ソノズ・インコーポレイテッドが最初の特許出願のうちの１つである「複数のネットワークデバイス間のオーディオ再生を同期する方法」と題する特許出願をし、２００５年にメディア再生システムの販売を開始するまで、アウトラウド設定におけるデジタルオーディオへのアクセスおよび試聴のオプションは厳しく制限されていた。人々は、ソノズ無線ＨｉＦｉシステムによって、１つ又は複数のネットワーク再生デバイスを介して多くのソースから音楽を実質的に無制限に体験できるようになっている。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェアコントロールアプリケーションを通じて、ネットワーク再生デバイスを備えたいずれの部屋においても、人々は自分が望む音楽を再生することができる。また、例えばコントローラを用いて、再生デバイスを備えた各部屋に異なる歌をストリーミングすることもできるし、同期再生のために複数の部屋をグループ化することもできるし、全ての部屋において同期して同じ歌を聞くこともできる。

これまでのデジタルメディアに対する関心の高まりを考えると、試聴体験を更に向上させることができるコンシューマアクセス可能な技術を更に開発することにニーズがある。

本明細書で開示されている技術の特徴、態様、および利点は、以下の記載、添付の特許請求の範囲、および添付の図面を参照するとより理解しやすい。

図１は、ある実施形態を実施することができる例示的なメディア再生システム構成を図示する。図２は、例示的な再生デバイスの機能ブロック図を図示する。図３は、例示的な制御デバイスの一例の機能ブロック図を図示する。図４は、例示的なコントローラインタフェースを図示する。図５は、例示的な複数のネットワークデバイスを図示する。図６は、例示的なネットワークマイクロホンデバイスの機能ブロック図を図示する。図７は、ネットワークマイクロホンデバイス間のアービトレーションに関連する機能の簡略化されたフロー図を図示する。図８は、アービトレーション・メッセージの例を図示する。図９は、第１実施形態におけるネットワークマイクロホン間のアービトレーションに関連する機能の詳細なフロー図を図示する。図１０は、第２実施形態におけるネットワークマイクロホン間のアービトレーションに関連する機能の詳細なフロー図を図示する。図１１は、アービトレーション機能のフロー図を図示する。図１２は、ネットワークマイクロホンとサーバとの間の音声認識に関連するフロー図を図示する。

図面は、いくつかの例示的な実施形態を説明することを目的としているが、本発明が、図面に示した配置および手段に限定されるものではないことは理解される。

Ｉ．概要
メディアコンテンツを大音量で聞くことは、家族、友人、およびゲストが関わる社会的活動である。メディアコンテンツは、例えば、トークラジオ、本、テレビからのオーディオ、ローカルドライブに記憶された音楽、メディアソースからの音楽（例えば、Ｐａｎｄｏｒａ（登録商標）ラジオ、Ｓｐｏｔｉｆｙ（登録商標）、Ｓｌａｃｋｅｒ（登録商標）、ラジオ、グーグルプレイ（商標）、ｉＴｕｎｅｓＲａｄｉｏ）、および他のオーディオマテリアルを含み得る。例えば、人々はパーティやその他の社交集会にて、大音量で音楽を再生することがある。さらに、音楽は、１つのリスニングゾーン又は複数のリスニングゾーンで同時に再生されてもよく、各リスニングゾーンの音楽は、可聴エコーまたはグリッチなしで同期され得る。

いくつかのデバイス（例えば、ライト）の中でも特に、オーディオ再生デバイス又はシステムを制御するために、音声入力が使用されると、音楽体験を高めることができる。例えば、ユーザは、再生されているオーディオコンテンツ、プレイリスト、再生キュー、またはリスニングゾーンを変更すること、音楽トラックをプレイリストまたは再生キューに追加すること、または再生設定を変更すること（例えば、再生、一時停止、次のトラック、前のトラック、再生音量、ＥＱ設定など）を行いたい場合がある。ユーザは、デバイスの中でも特に、ネットワークマイクロホンデバイス（ＮＭＤ）によって受信されるオーディオ再生デバイスの制御に関連する音声入力を提供し得る。ＮＭＤは、音声入力を検出するためのマイクロホンを含み得る。ＮＭＤは、例えば、デバイスの中でも特に、オーディオ再生デバイスまたはシステムを制御するために、マイクロホンを介して音声入力を受信することができるＳＯＮＯＳ（登録商標）再生デバイス、サーバ、またはシステムであり得る。追加的または代替的に、ＮＭＤは、マイクロホンを介して音声入力を受信してオーディオ再生デバイスまたはシステムを制御することができる、例えば、ＡＭＡＺＯＮ（登録商標）ＥＣＨＯ（登録商標）、ＡＰＰＬＥ（登録商標）ＩＰＨＯＮＥ（登録商標）デバイス、サーバ、又はシステムであり得る。「ＤｅｆａｕｌｔＰｌａｙｂａｃｋＤｅｖｉｃｅＤｅｓｉｇｎａｔｉｏｎ」と題する米国特許出願第１５／０９８，８６７号は、その内容が参照により本明細書に組み込まれており、音声対応家庭用アーキテクチャの例を提供している。

ユーザからの音声入力は、ウェイクワードとそれに続く音声コマンドとから構成され得る。ウェイクワードは、音声コマンドの形で音声入力が続くことをＮＭＤに示し得る。ウェイクワードは、例の中でも特に、「アレクサ（Ａｌｅｘａ（登録商標））」、「ＯＫグーグル（ＯＫＧｏｏｇｌｅ（登録商標））」、「ヘイソノズ（ＨｅｙＳｏｎｏｓ（登録商標））」、または「ヘイシリ（ＨｅｙＳｉｒｉ（登録商標））」などの音声入力であってもよい。音声コマンドは、デバイスの中でも特に、メディア再生デバイスまたはシステムの制御が要求されていることをＮＭＤに示す音声入力であってもよい。音声コマンドの例は、例えば、再生音量、再生トランスポート制御、音楽ソース選択、およびグループ化などのメディア再生の再生設定のいずれかを変更するためのコマンドを含んでもよい。あるいは、音声コマンドは、「音量設定は？」または「プレイリストにはどんな曲がありますか」などの情報を要求する音声入力であってもよい。リスニング範囲内の複数のＮＭＤは、ウェイクワードを検出し、ウェイクワードに続く音声コマンドを受信してもよい。

本明細書で述べられる実施形態は、複数のＮＭＤのうちのどのＮＭＤが音声入力（例えば、音声コマンドまたはウェイクワードおよび音声コマンド）をクラウドベースのコンピュータ、例えばサーバに送信することができるかをアービトレーション（調停）するための方法およびシステムに関する。ＮＭＤは、クラウドベースのコンピュータが音声入力に対して音声認識を実行できるように、クラウドベースのコンピュータに音声入力を送信してもよい。音声認識は、要求された制御または情報の識別を可能にする。例えば、アービトレーションプロセスは、複数のＮＭＤが同じ音声コマンドをクラウドベースのコンピュータに送信することを回避し、それによって音楽の再生などの他の活動に使用される可能性がある帯域幅が無駄になることを回避する。

アービトレーションプロセスは、ＮＭＤがウェイクワードを検出することで開始してもよい。ＮＭＤは、例えば、「アレクサ」、「ＯＫグーグル」、「ヘイソノズ」、または「ヘイシリ」のいずれかのウェイクワードを識別してもよく、また、ウェイクワードがどれだけ良く検出されたかに関連する信頼度を決定してもよい。ウェイクワードが検出されるとき、ＮＭＤはオーディオコンテンツを再生していてもよい。この場合、ＮＭＤはまた、ＮＭＤによって再生されているオーディオを調整してもよく、これにより、再生されているオーディオを超えてウェイクワードに続く音声コマンドを明確に受信することができる。オーディオは様々なやり方で調整されてもよい。様々なやり方としては、再生中のオーディオを一時停止すること、または再生中のオーディオをダッキングすることを含んでもよい。

いくつかの実施形態では、ＮＭＤは、音声コマンドをクラウドベースのコンピュータに送信するかどうかを決定する前に、ＮＭＤがどれだけ待機することができるかを示す時間間隔を定義してもよい。時間間隔は静的パラメータであってもよいし、動的パラメータでもよい。時間間隔は、以下により詳細に述べられるアービトレーションを完了するのに十分な時間を提供し、待ち時間の問題に対処するというニーズのバランスをとるために選択されてもよい。

いくつかの実施形態では、ＮＭＤは、本明細書でアービトレーション・メッセージとも呼ばれるメッセージを生成してもよい。メッセージは、例えば家庭内の他のＮＭＤに送信される。アービトレーション・メッセージは、ＮＭＤによって受信されたウェイクワードの識別子、ウェイクワードがどれだけ良く検出されたかの信頼度、および時間間隔のうちの１つ又は複数を含んでもよい。ウェイクワードを検出した他のＮＭＤのそれぞれは、ウェイクワードの検出に関連する同様のアービトレーション・メッセージを他のＮＭＤに送信してもよい。

ＮＭＤが他のＮＭＤからアービトレーション・メッセージを受信する場合、ＮＭＤは他のＮＭＤとのアービトレーション（調停）に勝ったかどうかを決定してもよい。ＮＭＤによって検出されたウェイクワードの信頼度が、受信されたアービトレーション・メッセージによって示されるように他のＮＭＤによって検出されたものよりも大きい場合、ＮＭＤはアービトレーションに勝ち得る。検出されたウェイクワードに関連してより大きな信頼度を有するＮＭＤは、ウェイクワードに続く音声コマンドを明確に受信するためにより良い位置にある場合がある。

ＮＭＤがアービトレーションに負けた場合、ＮＭＤは、ＮＭＤによって再生されている音声を復元してもよい。たとえば、ＮＭＤはオーディオのダッキングを解除してもよいし、または一時停止を解除してもよい。あるいは、アービトレーションに勝ったＮＭＤ、ＮＭＤとの結合ゾーン内の別のＮＭＤ、またはクラウドベースのコンピュータによって通知されるまで、オーディオは調整されなくてもよい。

ＮＭＤが時間間隔を設定する場合、ＮＭＤは時間間隔が満了するまで他のＮＭＤから追加のアービトレーション・メッセージを受信してもよい。ＮＭＤはこれらの追加のアービトレーション・メッセージに関してアービトレーションを実行してもよい。ＮＭＤがアービトレーションに勝ち続ける場合、時間間隔が満了したときにＮＭＤは、受信した音声コマンドをクラウドベースのコンピュータに送信してもよい。クラウドベースのコンピュータは、音声コマンドに関して音声認識を実行してもよい。例えば、クラウドベースのコンピュータは、音声コマンドをテキストに変換し、そのテキストを解釈し、次いでそのテキストに基づいて応答を作成してもよい。音声コマンドが情報の要求である場合、応答はテキストの形式でＮＭＤに送信され、ＮＭＤによって可聴的に再生されるオーディオ応答に変換された要求された情報であってもよい。それに加えてまたはその代わりに、音声コマンドがメディア再生システムまたはデバイスの制御に関連付けられている場合、その応答は特定の音楽コンテンツの再生または再生デバイスの設定の変更などのメディア再生デバイスまたはシステムの制御に関連付けられたコマンドであってもよい。サーバはコマンドをＮＭＤに送信してもよく、ＮＭＤはコマンドを実行するか、または他のネットワークデバイスにコマンドを実行するように指示してもよい。

いくつかの実施形態では、アービトレーションは、各ＮＭＤでローカルに実行されるのではなく、集中型デバイスによって実行されてもよい。集中型デバイスは、指定されたＮＭＤまたはローカルエリアネットワーク上の他のネットワークデバイスであってもよい。集中型デバイスは、ウェイクワードを検出した１つ又は複数のＮＭＤのうちのどのＮＭＤがクラウドベースのコンピュータにウェイクワードに続く音声コマンドを送信すべきかを決定するように構成されてもよい。これに関して、集中型デバイスは、１つ又は複数のＮＭＤからアービトレーション・メッセージを受信し、そのアービトレーション・メッセージに関連する信頼度に基づいて、どのＮＭＤがその受信した音声コマンドをクラウドベースのコンピュータに送信すべきかを識別してもよい。例えば、集中型デバイスは、どのＮＭＤが最も高い信頼度でウェイクワードを検出したかを決定してもよい。次に、集中型デバイスは、識別されたＮＭＤに受信した音声コマンドをクラウドベースのコンピュータに送信させてもよい。

上記の説明から続けて、例示的な実施形態は、プロセッサ、メモリ、およびメモリに格納され、プロセッサによって実行可能なコンピュータ命令を備える第１ネットワークデバイスを含む。コンピュータ命令は、第１音声入力を検出すること；第１音声入力に関連する第１信頼度を決定すること；メッセージを受信すること、ここでメッセージは、第２ネットワークデバイスによる第１音声入力の検出に関連する第２信頼度を含む；第１信頼度が第２信頼度より大きいかどうかを決定すること；第１信頼度が第２信頼度よりも大きいとの決定に基づいて、サーバに第２音声入力を送信すること；を含む。第１ネットワークデバイスは、第１音声入力の検出に応答してオーディオ再生のボリューム（音量）を調整するためのコンピュータ命令をさらに含んでもよい。第１ネットワークデバイスは、オーディオ再生が音楽再生であると決定するためのコンピュータ命令をさらに含んでもよく、第１音声入力の検出に応答してオーディオ再生のボリュームを調整することは、音楽再生をダッキングすることを含んでもよい。第１ネットワークデバイスは、オーディオ再生がオーディオブックの再生であると決定するためのコンピュータ命令をさらに含んでもよく、第１音声入力の検出に応答してオーディオ再生のボリュームを調整することは、オーディオブックの再生を一時停止することを含んでもよい。第１ネットワークデバイスは、オーディオ再生のボリュームを調整前のボリューム設定に戻すための通知を受信するコンピュータ命令をさらに含んでもよい。メッセージは、第１メッセージであってもよい。第１ネットワークデバイスは、検出された第１音声入力に関連する第１信頼度を含む第２メッセージを第２のネットワークデバイスに送信するコンピュータ命令をさらに含んでもよい。第１ネットワークデバイスは、第２音声入力をサーバに送信する前にタイマの満了を待つコンピュータ命令をさらに含んでもよい。応答は音声応答であってもよい。第１ネットワークデバイスは、音声応答を可聴的に再生するコンピュータ命令をさらに含んでもよい。第１音声入力はウェイクワードであってもよく、第２音声入力は音声コマンドであってもよい。第１音声入力は第２音声入力と同じであってもよい。

別の例示的な実施形態は、方法を含み得る。方法は、第１音声入力を検出するステップ；第１音声入力に関連する第１信頼度を決定するステップ；メッセージを受信するステップ、ここでメッセージは、ネットワークデバイスによる第１音声入力の検出に関連する第２信頼度を含む；第１信頼度が第２信頼度より大きいかどうかを決定するステップ；第１信頼度が第２信頼度より大きいとの決定に基づいて、サーバに第２音声入力を送信するステップ；を含む。方法は、音声入力を検出することに応答してオーディオ再生のボリューム（音量）を調整するステップをさらに含んでもよい。方法は、オーディオ再生が音楽再生であると決定するステップをさらに含んでもよく、音声入力の検出に応答してオーディオ再生のボリュームを調整するステップは、音楽再生をダッキングすることを含んでもよい。方法は、オーディオ再生がオーディオブックの再生であると決定するステップをさらに含んでもよく、音声入力の検出に応答してオーディオ再生のボリュームを調整するステップは、オーディオブックの再生を一時停止することを含んでもよい。方法は、オーディオ再生のボリュームを調整前のボリューム設定に戻すための通知を受信するステップをさらに含んでもよい。方法は、第２音声入力をサーバに送信する前にタイマの満了を待つステップをさらに含んでもよい。方法は、音声応答を可聴的に再生するステップをさらに含んでもよい。メッセージは、第１メッセージであってもよい。方法は、検出された第１音声入力に関連する第１信頼度を含む第２メッセージをネットワークデバイスに送信するステップをさらに含んでもよい。第１音声入力はウェイクワードであってもよく、第２音声入力は音声コマンドであってもよい。

さらに別の例示的な実施形態は、プロセッサによって実行される命令を含む有形の非一時的なコンピュータ読み取り可能な記憶媒体を含み得る。有形の非一時的なコンピュータ読み取り可能な記憶媒体は、命令が実行されると、プロセッサに方法を実施させる。方法は、第１音声入力を検出するステップ；第１音声入力に関連する第１信頼度を決定するステップ；メッセージを受信するステップ、ここでメッセージは、ネットワークデバイスによる第１音声入力の検出に関連する第２信頼度を含む；第１信頼度が第２信頼度より大きいかどうかを決定するステップ；第１信頼度が第２信頼度より大きいとの決定に基づいて、サーバに第２音声入力を送信するステップ；を含む。

本開示が他の多数の実施形態を含むことは、当業者に理解される。本開示が他の多数の実施形態を含むことは、当業者に理解される。本明細書に記載された一部の例は、「ユーザ」及び／又は他の実体等、所定の主体により実行される機能を示す場合があるが、この記載は、説明の目的のみを有することを理解されたい。特許請求の範囲自体に明示的に必要であることが記載されていない限り、こうした任意の主体による行動が必要であると解釈されるべきではない。当業者であれば、本開示が多数の他の実施形態を含むことが理解される。更に、本明細書で述べられている例は、例示的な特徴を任意の適切な方法で組み合わせることによって形成された多数の実施形態に拡張してもよい。さらに、本明細書で述べられている例は、例示的な特徴を任意の適切な方法で組み合わせることによって形成された多数の実施形態に拡張してもよい。

ＩＩ．動作環境の例
図１は、本明細書で開示されている１つ又は複数の実施形態で実施可能又は実装可能なメディア再生システム１００の例示的な構成を示す。図示されるように、メディア再生システム１００は、複数の部屋および空間、例えば、主寝室、オフィス、ダイニングルーム、およびリビングルームを有する例示的なホーム環境に関連付けられている。図１の例に示されるように、メディア再生システム１００は、再生デバイス１０２−１２４、制御デバイス１２６および１２８、有線又は無線のネットワークルータ１３０を含む。

更に、例示的なメディア再生システム１００の異なる構成要素、および異なる構成要素がどのように作用してユーザにメディア体験を提供するかに関しての説明は、以下のセクションで述べられている。本明細書における説明は、概してメディア再生システム１００を参照しているが、本明細書で述べられている技術は、図１に示されるホーム環境の用途に限定されるものではない。例えば、本明細書で述べられている技術は、マルチゾーンオーディオが望まれる環境、例えば、レストラン、モール、又は空港のような商業的環境、スポーツ用多目的車（ＳＵＶ）、バス又は車のような車両、船、若しくはボード、飛行機などの環境において有益である。

ａ．例示的な再生デバイス
図２は、図１のメディア再生システム１００の再生デバイス１０２−１２４の１つ又は複数を構成する例示的な再生デバイス２００の機能ブロック図を示す。再生デバイス２００は、プロセッサ２０２、ソフトウェアコンポーネント２０４、メモリ２０６、オーディオ処理コンポーネント２０８、オーディオアンプ２１０、スピーカー２１２、およびネットワークインタフェース２１４を含んでもよい。ネットワークインタフェース２１４は、無線インタフェース２１６および有線インタフェース２１８を含む。ある場合では、再生デバイス２００は、スピーカー２１２を含まないが、再生デバイス２００を外部スピーカーに接続するためのスピーカーインタフェースを含んでもよい。別の場合では、再生デバイス２００は、スピーカー２１２もオーディオアンプ２１０も含まないが、再生デバイス２００を外部オーディオアンプ又はオーディオビジュアルレシーバーに接続するためのオーディオインタフェースを含んでもよい。

ある例では、プロセッサ２０２は、メモリ２０６に記憶された命令に基づいて、入力データを処理するように構成されたクロック駆動コンピュータコンポーネントであってもよい。メモリ２０６は、プロセッサ２０２によって実行可能な命令を記憶するように構成された非一時的なコンピュータ読み取り可能記録媒体であってもよい。例えば、メモリ２０６は、ある機能を実行するためにプロセッサ２０２によって実行可能なソフトウェアコンポーネント２０４の１つ又は複数をロードすることができるデータストレージであってもよい。ある例では、機能は、再生デバイス２００がオーディオソース又は別の再生デバイスからオーディオデータを読み出すステップを含んでもよい。別の例では、機能は、再生デバイス２００がネットワーク上の別のデバイス又は再生デバイスにオーディオデータを送信するステップを含んでもよい。更に別の例では、機能は、マルチチャンネルオーディオ環境を作るために、再生デバイス２００と１つ又は複数の再生デバイスとをペアリングするステップを含んでもよい。

ある機能は、再生デバイス２００が、１つ又は複数の他の再生デバイスと、オーディオコンテンツの再生を同期するステップを含む。再生を同期している間、再生デバイス２００によるオーディオコンテンツの再生と１つ又は複数の他の再生デバイスによる再生との間の遅延を、リスナーが気づかないことが好ましい。「複数の独立クロックデジタルデータ処理デバイス間の動作を同期するシステムおよび方法」と題する米国特許第８，２３４，３９５号が本明細書に参照として援用されており、それは再生デバイス間のオーディオ再生を同期することが述べられたより詳細な例を提供している。

更に、メモリ２０６は、データを記憶するように構成されてもよい。データは、例えば、１つ又は複数のゾーン及び／又はゾーングループに一部として含まれる再生デバイス２００などの再生デバイス２００、再生デバイス２００によりアクセス可能なオーディオソース、又は再生デバイス２００（又は他の再生デバイス）に関連付け可能な再生キュー、に関連付けられている。データは、定期的に更新され、再生デバイス２００の状態を示す１つ又は複数の状態変数として記憶されてもよい。また、メモリ２０６は、メディアシステムの他のデバイスの状態に関連付けられたデータを含んでもよく、デバイス間で随時共有することによって、１つ又は複数のデバイスが、システムに関連するほぼ直近のデータを有することができる。他の実施形態も可能である。

オーディオ処理コンポーネント２０８は、１つ又は複数のデジタル−アナログ変換器（ＤＡＣ）、オーディオ処理コンポーネント、オーディオ強化コンポーネント、及びデジタルシグナルプロセッサ（ＤＳＰ）などを含んでいてもよい。ある実施形態では、１つ又は複数のオーディオ処理コンポーネント２０８は、プロセッサ２０２のサブコンポーネントであってもよい。ある実施形態では、オーディオコンテンツが、オーディオ処理コンポーネント２０８によって処理及び／又は意図的に変更されることによって、オーディオ信号を生成してもよい。生成されたオーディオ信号は、オーディオアンプ２１０に送信され、増幅され、スピーカー２１２を通じて再生される。特に、オーディオアンプ２１０は、１つ又は複数のスピーカー２１２を駆動できるレベルまでオーディオ信号を増幅するように構成されたデバイスを含んでもよい。スピーカー２１２は、独立した変換器（例えば、「ドライバ」）又は１つ又は複数のドライバを内包する筐体を含む完全なスピーカーシステムを備えてもよい。スピーカー２１２に備えられたあるドライバは、例えば、サブウーファー（例えば、低周波用）、ミドルレンジドライバ（例えば、中間周波用）、及び／又はツイーター（高周波用）を含んでもよい。ある場合では、１つ又は複数のスピーカー２１２のそれぞれの変換器は、オーディオアンプ２１０の対応する個々のオーディオアンプによって駆動されてもよい。再生デバイス２００で再生するアナログ信号を生成することに加えて、オーディオ処理コンポーネント２０８は、オーディオコンテンツを処理し、そのオーディオコンテンツを１つ又は複数の他の再生デバイスに再生させるために送信する。

再生デバイス２００によって処理及び／又は再生されるオーディオコンテンツは、外部ソース、例えば、オーディオライン−イン入力接続（例えば、オートディテクティング３．５ｍｍオーディオラインイン接続）又はネットワークインタフェース２１４を介して、受信されてもよい。

ネットワークインタフェース２１４は、データネットワーク上で再生デバイス２００と１つ又は複数の他のデバイスとの間のデータフローを可能にするように構成されてもよい。このように、再生デバイス２００は、再生デバイスと通信する１つ又は複数の他の再生デバイス、ローカルエリアネットワーク内のネットワークデバイス、又は例えば、インターネット等のワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。ある例では、再生デバイス２００によって送信および受信されたオーディオコンテンツおよび他の信号は、インターネットプロトコル（ＩＰ）に基づくソースアドレスおよびＩＰに基づく宛先アドレスを含むデジタルパケットの形で送信されてもよい。そのような場合、ネットワークインタフェース２１４は、デジタルパケットデータを解析することによって、再生デバイス２００宛てのデータを、再生デバイス２００によって適切に受信して処理することができる。

図示されるように、ネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８とを含んでもよい。無線インタフェース２１６は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、無線規格ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇモバイル通信基準などを含む無線基準（規格）のいずれか）に基づいて、他のデバイス（例えば、再生デバイス２００に関連付けられたデータネットワーク内の他の再生デバイス、スピーカー、レシーバー、ネットワークデバイス、制御デバイス）と無線通信してもよい。有線インタフェース２１８は、再生デバイス２００用のネットワークインタフェース機能を提供し、通信プロトコル（例えば、ＩＥＥＥ８０２．３）に基づいて他のデバイスとの有線接続を介して通信してもよい。図２に示されるネットワークインタフェース２１４は、無線インタフェース２１６と有線インタフェース２１８との両方を含んでいるが、ネットワークインタフェース２１４は、ある実施形態において、無線インタフェースのみか、又は有線インタフェースのみを含んでもよい。

マイクロホン２２０は、再生デバイス２００の環境内の音を検出するように配置することができる。たとえば、再生デバイスの筐体の外壁にマイクロホンを搭載することができる。マイクロホンは、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、またはダイナミックマイクロホンのような、現在知られているかまたは後に開発される任意のタイプのマイクロホンであってもよい。マイクロホンは、スピーカー２２０の周波数範囲の一部に敏感であってもよい。スピーカー２２０のうちの１つまたは複数は、マイクロホン２２０とは逆に動作してもよい。いくつかの態様では、再生デバイス２００は、マイクロホン２２０を含んでいなくてもよい。

ある例では、再生デバイス２００と他の再生デバイスとは、ペアにされて、オーディオコンテンツの２つの別々のオーディオコンポーネントを再生してもよい。例えば、再生デバイス２００は、左チャンネルオーディオコンポーネントを再生するように構成される一方、他の再生デバイスは、右チャンネルオーディオコンポーネントを再生するように構成されてもよい。これにより、オーディオコンテンツのステレオ効果を生成するか、又は強化することができる。ペアにされた再生デバイス（「結合再生デバイス」とも言う）は、更に、他の再生デバイスと同期してオーディオコンテンツを再生してもよい。

別の例では、再生デバイス２００は、１つ又は複数の他の再生デバイスと音響的に統合され、単一の統合された再生デバイス（統合再生デバイス）を形成してもよい。統合再生デバイスは、統合されていない再生デバイス又はペアにされた再生デバイスと比べて、サウンドの処理や再現を異なるように構成することができる。なぜならば、統合再生デバイスは、オーディオコンテンツを再生するスピーカー追加することができるからである。例えば、再生デバイス２００が、低周波レンジのオーディオコンテンツを再生するように設計されている場合（例えば、サブウーファー）、再生デバイス２００は、全周波数レンジのオーディオコンテンツを再生するように設計された再生デバイスと統合されてもよい。この場合、全周波数レンジの再生デバイスは、低周波の再生デバイス２００と統合されたとき、オーディオコンテンツの中高周波コンポーネントのみを再生するように構成されてもよい。一方で低周波レンジの再生デバイス２００は、オーディオコンテンツの低周波コンポーネントを再生する。更に、統合再生デバイスは、単一の再生デバイス、又は更に他の統合再生デバイスとペアにされてもよい。

例として、現在、ソノズ・インコーポレイテッドは、「ＰＬＡＹ：１」、「ＰＬＡＹ：３」、「ＰＬＡＹ：５」、「ＰＬＡＹＢＡＲ」、「ＣＯＮＮＥＣＴ：ＡＭＰ」、「ＣＯＮＮＥＣＴ」、および「ＳＵＢ」を含む再生デバイスを販売提供している。他の過去、現在、及び／又は将来のいずれの再生デバイスにおいても、追加的に又は代替的に本明細書で開示された実施例の再生デバイスに実装して使用することができる。更に、再生デバイスは、図２に示された特定の例又は提供されるソノズ製品に限定されないことは理解される。例えば、再生デバイスは、有線又は無線のヘッドホンを含んでもよい。別の例では、再生デバイスは、パーソナルモバイルメディア再生デバイス用のドッキングステーションを含むか、又は、それらと対話してもよい。更に別の例では、再生デバイスは、別のデバイス又はコンポーネント、例えば、テレビ、照明器具、又は屋内又は屋外で使用するためのいくつかの他のデバイスと一体化されてもよい。

ｂ．例示的な再生ゾーン構成
図１のメディア再生システムに戻って、環境は、１つ又は複数の再生ゾーンを有しており、それぞれの再生ゾーンは１つ又は複数の再生デバイスを含んでいる。メディア再生システム１００は、１つ又は複数の再生ゾーンで形成されており、後で１つ又は複数のゾーンが追加又は削除して、図１に示す例示的な構成としてもよい。それぞれのゾーンは、異なる部屋又は空間、例えば、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、及び／又はバルコニーに基づく名前が与えられてもよい。ある場合では、単一の再生ゾーンは複数の部屋又は空間を含んでもよい。別の場合では、単一の部屋又は空間は、複数の再生ゾーンを含んでもよい。

図１に示されるように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、および寝室のゾーンのそれぞれは、１つの再生デバイスを有する一方、リビングルームおよび主寝室のゾーンのそれぞれは、複数の再生デバイスを有する。リビングルームゾーンは、再生デバイス１０４、１０６、１０８、および１１０が、別々の再生デバイスとしてか、１つ又は複数の結合再生デバイスとしてか、１つ又は複数の統合再生デバイスとしてか、又はこれらのいずれかの組み合わせで、オーディオコンテンツを同期して再生するように構成されてもよい。同様に、主寝室の場合では、再生デバイス１２２および１２４が、別々の再生デバイスとしてか、結合再生デバイスとしてか、又は統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。

ある例では、図１の環境における１つ又は複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生している。例えば、ユーザは、バルコニーゾーンでグリルしながら、再生デバイス１０２によって再生されるヒップホップ音楽を聞くことができる。一方、別のユーザは、キッチンゾーンで食事を準備しながら、再生デバイス１１４によって再生されるクラシック音楽を聞くことができる。別の例では、再生ゾーンは、同じオーディオコンテンツを別の再生ゾーンと同期して再生してもよい。例えば、ユーザがオフィスゾーンにいる場合、オフィスゾーンの再生デバイス１１８が、バルコニーの再生デバイス１０２で再生されている音楽と同じ音楽を再生してもよい。そのような場合、再生デバイス１０２および１１８は、ロック音楽を同期して再生しているため、ユーザは、異なる再生ゾーン間を移動してもアウト−ラウドで再生されるオーディオコンテンツをシームレス（又は少なくともほぼシームレス）に楽しむことができる。再生ゾーン間の同期は、前述の米国特許第８，２３４，３９５号で述べられているような再生デバイス間の同期と同様の方法で行ってもよい。

上述したように、メディア再生システム１００のゾーン構成は、動的に変更してもよく、ある実施形態では、メディア再生システム１００は、複数の構成をサポートする。例えば、ユーザが１つ又は複数の再生デバイスを、物理的にゾーンに移動させるか、又はゾーンから移動させる場合、メディア再生システム１００は変更に対応するように再構成されてもよい。例えば、ユーザが再生デバイス１０２をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、再生デバイス１１８と再生デバイス１０２との両方を含んでもよい。必要に応じて、制御デバイス、例えば制御デバイス１２６と１２８とを介して、再生デバイス１０２が、ペアにされるか、又はオフィスゾーンにグループ化されるか、及び／又はリネームされてもよい。一方、１つ又は複数の再生デバイスが、再生ゾーンを未だ設定していないホーム環境において、ある領域に移動させられた場合、新しい再生ゾーンがその領域に形成されてもよい。

更に、メディア再生システム１００の異なる再生ゾーンは、動的にゾーングループに組み合わされてもよいし、又は別々の再生ゾーンに分割されてもよい。例えば、ダイニングルームゾーンとキッチンゾーン１１４とがディナーパーティ用のゾーングループに組み合わされることによって、再生デバイス１１２と１１４とがオーディオコンテンツを同期して再生することができる。一方、あるユーザがテレビを見たい一方、他のユーザがリビングルーム空間の音楽を聞きたい場合、リビングルームゾーンが、再生デバイス１０４を含むテレビゾーンと、再生デバイス１０６、１０８および１１０を含むリスニングゾーンと、に分けられてもよい。

ｃ．例示的な制御デバイス
図３は、メディア再生システム１００の制御デバイス１２６及び１２８のうちの一方又は両方を構成する例示的な制御デバイス３００の機能ブロック図を示す。図示されるように、制御デバイス３００は、プロセッサ３０２、メモリ３０４、ネットワークインタフェース３０６、ユーザインタフェース３０８、マイクロホン３１０、およびソフトウェアコンポーネント３１２を含んでもよい。ある例では、制御デバイス３００は、メディア再生システム１００専用の制御デバイスであってもよい。別の例では、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアがインストールされたネットワークデバイス、例えば、ｉＰｈｏｎｅ（登録商標）、ｉＰａｄ（登録商標）、又は任意の他のスマートフォン、タブレットあるいはネットワークデバイス（例えば、ＰＣ又はＭａｃ（登録商標）などのネットワークコンピュータ）であってもよい。

プロセッサ３０２は、メディア再生システム１００のユーザアクセス、コントロール、および構成を可能にすることに関する機能を実行するように構成されてもよい。メモリ３０４は、それらの機能を実行するためにプロセッサ３０２によって実行可能な１つ又は複数のソフトウェアコンポーネントと共にロードされ得るデータストレージであってもよい。また、メモリ３０４は、メディア再生システムコントローラアプリケーションソフトウェアと、メディア再生システム１００とユーザとに関連付けられた他のデータを記憶するように構成されてもよい。

ある例では、ネットワークインタフェース３０６は、工業規格（例えば、赤外線、無線、ＩＥＥＥ８０２．３などの有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５などの無線規格、４Ｇ通信規格など）に基づいてもよい。ネットワークインタフェース３０６においては、制御デバイス３００がメディア再生システム１００内の他のデバイスと通信するための手段を提供してもよい。ある例では、データおよび情報（例えば、状態変数）は、ネットワークインタフェース３０６を介して制御デバイス３００と他のデバイスとの間で通信されてもよい。例えば、メディア再生システム１００における再生ゾーンおよびゾーングループの構成は、制御デバイス３００によって、再生デバイス又は別のネットワークデバイスから受信されてもよいし、あるいは制御デバイス３００によって、ネットワークインタフェース３０６を介して別の再生デバイス又はネットワークデバイスに送信されてもよい。ある場合では、他のネットワークデバイスは、別の制御デバイスであってもよい。

ボリュームコントロールおよびオーディオ再生コントロールなどの再生デバイス制御コマンドは、ネットワークインタフェース３０６を介して制御デバイス３００から再生デバイスに通信されてもよい。上述したように、メディア再生システム１００の構成の変更は、ユーザにより制御デバイス３００を用いて行うことができる。構成の変更は、１つ又は複数の再生デバイスをゾーンに追加すること、１つ又は複数の再生デバイスをゾーンから取り除くこと、１つ又は複数のゾーンをゾーングループに追加すること、１つ又は複数のゾーンをゾーングループから取り除くこと、結合プレーヤー又は統合プレーヤーを形成すること、結合プレーヤー又は統合プレーヤーから１つ又は複数の再生デバイスに分けることなどを含んでもよい。このように、制御デバイス３００は、コントローラと呼ばれてもよく、制御デバイス３００は、メディア再生システムコントローラアプリケーションソフトウェアをインストールした専用のコントローラか、又はネットワークデバイスであってもよい。

制御デバイス３００は、マイクロホン３１０を含むことができる。マイクロホン３１０は、制御デバイス３００の環境内の音を検出するように配置することができる。マイクロホン３１０は、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、またはダイナミックマイクロホンのような、現在知られているかまたは後に開発される任意のタイプのマイクロホンであってもよい。マイクロホンは、周波数範囲の一部に敏感であってもよい。２つ以上のマイクロホン３１０は、オーディオソース（たとえば、音声、可聴音）の位置情報を捕捉し、および／または背景ノイズをフィルタリングすることを支援するように配置することができる。

制御デバイス３００のユーザインタフェース３０８は、図４に示されるコントローラインタフェース４００などのようなコントローラインタフェースを提供することによって、メディア再生システム１００のユーザアクセスおよび制御を可能にするように構成されてもよい。コントローラインタフェース４００は、再生制御領域４１０、再生ゾーン領域４２０、再生ステータス領域４３０、再生キュー領域４４０、およびオーディオコンテンツソース領域４５０を含む。図示されるユーザインタフェース４００は、図３の制御デバイス３００などのようなネットワークデバイス（及び／又は図１の制御デバイス１２６および１２８）を設けられたユーザインタフェースの単なる一例であって、ユーザによってメディア再生システム１００などのようなメディア再生システムを制御するためにアクセスされるものである。あるいは、様々なフォーマット、スタイル、および対話型シーケンスを他のユーザのインタフェースを１つ又は複数のネットワークデバイスに実装し、メディア再生システムへ類似の制御アクセスを提供してもよい。

再生制御領域４１０は、（例えば、タッチ又はカーソルを用いることで）選択可能なアイコンを含んでもよい。このアイコンによって、選択された再生ゾーン又はゾーングループ内の再生デバイスが、再生又は停止、早送り、巻き戻し、次にスキップ、前にスキップ、シャッフルモードのオン／オフ、リピートモードのオン／オフ、クロスフェードモードのオン／オフを行う。再生制御領域４１０は、別の選択可能なアイコンを含んでもよい。別の選択可能なアイコンは、イコライゼーション設定、再生ボリュームなど他の設定などを変更してもよい。

再生ゾーン領域４２０は、メディア再生システム１００内の再生ゾーンの表示を含んでもよい。ある実施形態では、再生ゾーンのグラフィック表示が選択可能であってもよい。追加の選択可能なアイコンを移動させることによって、メディア再生システム内の再生ゾーンを管理又は構成することができる。例えば、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分割、およびゾーングループのリネームなど他の管理又は構成を行うことができる。

例えば、図示されるように、「グループ」アイコンは、再生ゾーンのグラフィック表示のそれぞれに設けられてもよい。あるゾーンのグラフィック表示内の「グループ」アイコンは、メディア再生システム内の１つ又は複数のゾーンを選択して、あるゾーンとグループ化するオプションを出せるように選択可能であってもよい。一度グループ化すると、あるゾーンとグループ化されたゾーン内の再生デバイスは、あるゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成される。同様に、「グループ」アイコンは、ゾーングループのグラフィック表示内に設けられてもよい。この場合、「グループ」アイコンは、ゾーングループ内の１つ又は複数のゾーンをゾーングループから取り除くために、ゾーングループ内の１つ又は複数のゾーンを選択から外すというオプションを出すように選択可能であってもよい。ユーザインタフェース４００等のユーザインタフェースを介してゾーンをグループ化およびグループ解除するための他の対話をすることも可能であるし、実施することも可能である。再生ゾーン領域４２０内の再生ゾーンの表示は、再生ゾーン又はゾーングループ構成が変更されると、動的に更新されてもよい。

再生ステータス領域４３０は、現在再生されているオーディオコンテンツ、前に再生されたオーディオコンテンツ、又は選択された再生ゾーン又はゾーングループ内で次に再生するように予定されているオーディオコンテンツ、のグラフィック表示を含んでもよい。選択可能な再生ゾーン又は再生グループは、ユーザインタフェース上で、例えば、再生ゾーン領域４２０及び／又は再生ステータス領域４３０内で視覚的に区別されてもよい。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、およびメディア再生システムを、ユーザインタフェース４００を介して制御するときに、ユーザにとって有益な他の関連情報を含んでもよい。

再生キュー領域４４０は、選択された再生ゾーン又はゾーングループに関連付けられた再生キュー内のオーディオコンテンツのグラフィック表示を含んでもよい。ある実施形態では、それぞれの再生ゾーン又はゾーングループは、再生ゾーン又は再生グループによって再生される０以上のオーディオアイテムに対応する情報を含む再生キューに関連付けられてもよい。例えば、再生キュー内のそれぞれのオーディオアイテムは、ユー・アール・アイ（ＵＲＩ）、ユー・アール・エル（ＵＲＬ）、又は再生ゾーン又はゾーングループ内の再生デバイスによって使用可能な他の識別子を含んでもよい。これらによって、ローカルオーディオコンテンツソース又はネットワークオーディオコンテンツソース、からオーディオアイテムを見つけ、及び／又は取り出し、再生デバイスによって再生することができる。

ある例では、プレイリストが再生キューに追加されてもよい。この場合、プレイリスト内のそれぞれのオーディオアイテムに対応する情報が再生キューに追加されてもよい。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。更に別の例では、再生デバイスがストリーミングオーディオコンテンツ、例えば、再生時間を有することで連続して再生されないオーディオアイテムよりも、停止しない限り連続して再生されるインターネットラジオを再生し続けているとき、再生キューは、空であってもよいし、又は「未使用」であるが埋められていてもよい。別の実施形態では、再生キューは、インターネットラジオ及び／又は他のストリーミングオーディオコンテンツアイテムを含むことができ、且つ再生ゾーン又はゾーングループがそれらのアイテムを再生しているとき「未使用」とすることができる。他の例も可能である。

再生ゾーン又はゾーングループが「グループ化される」か、又は「グループ解除」されるとき、影響を受ける再生ゾーン又はゾーングループに関連付けられた再生キューは、クリアされてもよいし、又は再び関連付けられてもよい。例えば、第１再生キューを含む第１再生ゾーンが、第２再生キューを含む第２再生ゾーンとグループ化された場合、形成されたゾーングループは、関連付けられた再生キューを有してもよい。関連付けられた再生キューは、最初は空であるか、（例えば、第２再生ゾーンが第１再生ゾーンに追加された場合、）第１再生キューのオーディオアイテムを含むか、（例えば、第１再生ゾーンが第２再生ゾーンに追加された場合、）第２再生キューのオーディオアイテムを含むか、又は第１再生キューと第２再生キューとの両方のオーディオアイテムを組み合わせられる。その後、形成されたゾーングループがグループ解除された場合、グループ解除された第１再生ゾーンは、前の第１再生キューと再び関連付けられてもよいし、空の新しい再生キューに関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループに関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューに関連付けられてもよい。同様に、グループ解除された第２再生ゾーンは、前の第２再生キューと再び関連付けられてもよいし、空の新しい再生キューに関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループに関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューに関連付けられてもよい。

図４のユーザインタフェース４００に戻って、再生キュー領域４４０内のオーディオコンテンツのグラフィック表示は、トラックタイトル、アーティスト名、トラックの長さ、および再生キュー内のオーディオコンテンツに関連付けられた他の関連情報を含んでもよい。ある例では、オーディオコンテンツのグラフィック表示は、追加の選択可能なアイコンを選択して移動させることができる。これにより、再生キュー及び／又は再生キューに表示されたオーディオコンテンツを管理及び／又は編集することができる。例えば、表示されたオーディオコンテンツは、再生キューから取り除いてもよいし、再生キュー内の異なる位置に移動させてもよいし、すぐに再生させるか若しくは現在再生しているオーディオコンテンツの後に再生するように選択されてもよいし、あるいは他の動作を実行してもよい。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内の１つ又は複数の再生デバイスのメモリ、再生ゾーン又はゾーングループに入っていない再生デバイスのメモリ、及び／又は他の指定のデバイスのメモリに記憶されていてもよい。

オーディオコンテンツソース領域４５０は、選択可能なオーディオコンテンツソースのグラフィック表示を含んでいてもよい。このオーディオコンテンツソースにおいては、オーディオコンテンツが選択された再生ゾーン又はゾーングループによって取り出され、再生されてもよい。オーディオコンテンツソースに関する説明は、以降のセクションを参照することができる。

ｄ．例示的なオーディオコンテンツソース
前回図示したように、ゾーン又はゾーングループ内の１つ又は複数の再生デバイスは、再生するオーディオコンテンツを、（例えば、オーディオコンテンツの対応するＵＲＩ又はＵＲＬに基づいて、）複数の入手可能なオーディオコンテンツソースから取り出すように構成されてもよい。ある例では、オーディオコンテンツは、再生デバイスによって、対応するオーディオコンテンツソース（例えば、ライン−イン接続）から直接取り出されてもよい。別の例では、オーディオコンテンツは、１つ又は複数の他の再生デバイス若しくはネットワークデバイスを介してネットワーク上の再生デバイスに提供されてもよい。

例示的なオーディオコンテンツソースは、メディア再生システム内の１つ又は複数の再生デバイスのメモリを含んでもよい。メディア再生システムとしては、例えば、図１のメディア再生システム１００、１つ又は複数のネットワークデバイス上のローカルミュージックライブラリ（例えば、制御デバイス、ネットワーク対応のパーソナルコンピュータ、又はネットワーク接続ストレージ（ＮＡＳ）など）、インターネット（例えば、クラウド）を介してオーディオコンテンツを提供するストリーミングオーディオサービス、あるいは再生デバイス又はネットワークデバイスのライン−イン入力接続を介してメディア再生システムに接続されるオーディオソース、他の可能なシステムであってもよい。

ある実施形態では、オーディオコンテンツソースは、図１のメディア再生システム１００などのようなメディア再生システムに定期的に追加されてもよいし、定期的に取り除かれてもよい。ある例では、１つ又は複数のオーディオコンテンツソースが追加される、取り除かれる、又は更新される度に、オーディオアイテムのインデックス付けが行われてもよい。オーディオアイテムのインデックス付けは、ネットワーク上で共有される全てのフォルダ／ディレクトリ内の識別可能なオーディオアイテムをスキャンすることを含んでもよい。ここで、ネットワークは、メディア再生システム内の再生デバイスによってアクセス可能である。また、オーディオアイテムのインデックス付けは、メタデータ（例えば、タイトル、アーティスト、アルバム、トラックの長さなど）と他の関連情報とを含むオーディオコンテンツデータベースを作成すること、又は更新すること、を含んでもよい。他の関連情報とは、例えば、それぞれの識別可能なオーディオアイテムを見つけるためのＵＲＩ又はＵＲＬを含んでもよい。オーディオコンテンツソースを管理し、且つ維持するための他の例も可能である。

再生デバイス、コントローラデバイス、再生ゾーン構成、およびメディアコンテンツソースに関する上記論述は、以下に説明する機能および方法を実施することができる動作環境のいくつかの例を提供するだけである。本明細書に明示的に説明されていないメディア再生システム、再生デバイス、およびネットワークデバイスの他の動作環境および構成もまた、適用可能であり、機能および方法の実施に適している。

ｅ．複数のネットワークデバイスの例
図５は、音声制御に基づいてオーディオ再生体験を提供するように構成され得る例示的な複数のデバイス５００を図示する。当業者であれば、図５に図示されたデバイスは例示目的のみのためであり、異なるおよび／または追加のデバイスを含む変形が可能であり得ることを理解するであろう。図示されるように、複数のデバイス５００は、コンピュータ５０４、５０６、および５０８と、ネットワークマイクロホンデバイス（ＮＭＤ）５１２、５１４、および５１６と、再生デバイス（ＰＢＤ）５３２、５３４、５３６、および５３８と、コントローラデバイス（ＣＲ）５２２とを含む。

複数のデバイス５００のそれぞれは、とりわけ、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、およびパーソナルエリアネットワーク（ＰＡＮ）等の１つ又は複数のタイプのネットワークを介して、他の例の中でも、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、およびＩＥＥＥ８０２．１１等の１つ又は複数のネットワークプロトコルに従って、複数のデバイス内の１つ又は複数の他のデバイスとの通信を確立することができるネットワーク対応デバイスであってもよい。

図示されるように、コンピュータ５０４、５０６、および５０８は、クラウドネットワーク５０２の一部であってもよい。クラウドネットワーク５０２は、追加のコンピュータを含むことができる。一例では、コンピュータ５０４、５０６、および５０８は、異なるサーバであってもよい。別の例では、２つ以上のコンピュータ５０４、５０６、および５０８は、単一のサーバのモジュールであってもよい。同様に、コンピュータ５０４、５０６、および５０８のそれぞれは、１つ又は複数のモジュールまたはサーバを含むことができる。本明細書における例示を容易にする目的のために、コンピュータ５０４、５０６および５０８のそれぞれは、クラウドネットワーク５０２内の特定の機能を実行するように構成されてもよい。たとえば、コンピュータ５０８は、ストリーミング音楽サービスのオーディオコンテンツのソースであってもよい。

図示されるように、コンピュータ５０４は、通信経路５４２を介してＮＭＤ５１２、５１４および５１６とインタフェースするように構成され得る。ＮＭＤ５１２、５１４、および５１６は、１つ又は複数の「ＳｍａｒｔＨｏｍｅ」システムのコンポーネントでもよい。１つのケースでは、ＮＭＤ５１２、５１４、および５１６は、図１に図示されるデバイスの分散と同様に、家庭全体に物理的に分散されてもよい。別のケースでは、２つ以上のＮＭＤ５１２、５１４、および５１６が、互いに比較的近接して物理的に位置することができる。通信経路５４２は、とりわけ、インターネットを含むＷＡＮ、ＬＡＮ、および／またはＰＡＮ等の１つ又は複数のタイプのネットワークを備えることができる。

１つの例では、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、主にオーディオ検出用に構成されたデバイスであってもよい。別の例では、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数は、様々な主要なユーティリティを有するデバイスのコンポーネントであってよい。たとえば、図２および図３に関連して上記で示唆したように、ＮＭＤ５１２、５１４および５１６のうちの１つ又は複数は、再生デバイス２００のマイクロホン２２０またはネットワークデバイス３００のマイクロホン３１０であってもよい。さらに、いくつかのケースでは、ＮＭＤ５１２、５１４および／または５１６のうちの１つ又は複数は、再生デバイス２００またはネットワークデバイス３００であってもよい。例では、ＮＭＤ５１２、５１４および／または５１６のうちの１つ又は複数は、マイクロホンアレイ内に配置された多数のマイクロホンを含むことができる。

図示されるように、コンピュータ５０６は、通信経路５４４を介してＣＲ５２２およびＰＢＤ５３２、５３４、５３６、および５３８とインタフェースするように構成されてもよい。１つの例では、ＣＲ５２２は、図２のネットワークデバイス２００のようなネットワークデバイスであってよい。したがって、ＣＲ５２２は、図４のコントローラインタフェース４００を提供するように構成されてよい。同様に、ＰＢＤ５３２、５３４、５３６、および５３８は、図３の再生デバイス３００のような再生デバイスであってもよい。このように、ＰＢＤ５３２、５３４、５３６、および５３８は、図１に図示されるように、家庭全体に物理的に分散されてもよい。例示の目的で、ＰＢＤ５３６および５３８は、結合ゾーン５３０の一部であってもよく、一方、ＰＢＤ５３２および５３４は、それぞれの自身のゾーンの一部であってもよい。上記で説明したように、ＰＢＤ５３２、５３４、５３６、および５３８は、動的に結合、グループ化、結合解除およびグループ解除することができる。通信経路５４４は、とりわけ、インターネットを含むＷＡＮ、ＬＡＮ、および／またはＰＡＮのような１つまたは複数のタイプのネットワークを備えることができる。

１つの例では、ＮＭＤ５１２、５１４、および５１６と同様に、ＣＲ５２２およびＰＢＤ５３２、５３４、５３６、および５３８も、１つ又は複数の「ＳｍａｒｔＨｏｍｅ」システムのコンポーネントであってもよい。１つのケースでは、ＰＢＤ５３２、５３４、５３６、および５３８は、ＮＭＤ５１２、５１４、および５１６と同じ家庭全体に分散されてもよい。さらに、上記で示唆したように、ＰＢＤ５３２、５３４、５３６、および５３８のうちの１つ又は複数は、ＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数であってもよい。

ＮＭＤ５１２、５１４、および５１６は、ローカルエリアネットワークの一部であってもよく、通信経路５４２は、ＮＭＤ５１２、５１４、および５１６のローカルエリアネットワークを、ＷＡＮ（通信経路は図示せず）を介してコンピュータ５０４にリンクするアクセスポイントを含むことができる。同様に、各ＮＭＤ５１２、５１４、および５１６は、そのようなアクセスポイントを介して互いに通信することができる。

同様に、ＣＲ５２２およびＰＢＤ５３２、５３４、５３６、および５３８は、前のセクションで示唆したように、ローカルエリアネットワークおよび／またはローカル再生ネットワークの一部であってもよく、通信経路５４４は、ＣＲ５２２およびＰＢＤ５３２、５３４、５３６、および５３８のローカルエリアネットワークおよび／またはローカル再生ネットワークを、ＷＡＮを介してコンピュータ５０６へリンクするアクセスポイントを含むことができる。このため、ＣＲ５２２およびＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、アクセスポイント等を介して互いに通信することもできる。

１つの例では、単一のアクセスポイントは、通信経路５４２および５４４含んでいてもよい。１つの例では、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、ならびにＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、家庭用の同じアクセスポイントを介してクラウドネットワーク５０２にアクセスすることができる。

図５に図示されるように、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、ならびにＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、通信手段５４６を介して他のデバイスの１つ又は複数と直接通信することもできる。本明細書で説明する通信手段５４６は、１つ又は複数のタイプのネットワークを介して、１つ又は複数のネットワークプロトコルに従って、デバイス間の１つ又は複数の形式の通信を含み、および／または、１つ又は複数の他のネットワークデバイスを介した通信を含むことができる。たとえば、通信手段５４６は、とりわけ、Ｂｌｕｅｔｏｏｔｈ（商標）（ＩＥＥＥ８０２．１５）、ＮＦＣ、ワイヤレスダイレクト、および／または、プロプライエタリワイヤレスのうちの１つ又は複数を含むことができる。

１つの例では、ＣＲ５２２は、Ｂｌｕｅｔｏｏｔｈ（商標）を介してＮＭＤ５１２と通信し、別のローカルエリアネットワークを介してＰＢＤ５３４と通信することができる。別の例では、ＮＭＤ５１４は、別のローカルエリアネットワークを介してＣＲ５２２と通信し、Ｂｌｕｅｔｏｏｔｈを介してＰＢＤ５３６と通信することができる。さらなる例では、ＰＢＤ５３２、５３４、５３６、および５３８のそれぞれは、ローカル再生ネットワークとは異なるローカルエリアネットワークを介してＣＲ５２２とそれぞれ通信しながら、ローカル再生ネットワークを介してスパニングツリープロトコルに従って互いに通信することもできる。他の例も可能である。

いくつかのケースでは、ＮＭＤ５１２、５１４、および５１６、ＣＲ５２２、ならびにＰＢＤ５３２、５３４、５３６、および５３８の間の通信手段は、デバイス間の通信のタイプ、ネットワーク状態、および／または、レイテンシ要求に依存して変化することがある。たとえば、通信手段５４６は、ＮＭＤ５１６が、ＰＢＤ５３２、５３４、５３６、および５３８を有する家庭に最初に導入されるときに使用され得る。１つのケースでは、ＮＭＤ５１６は、ＮＭＤ５１６に対応する識別情報を、ＮＦＣを介してＰＢＤ５３８へ送信することができ、それに応答して、ＰＢＤ５３８は、ローカルエリアネットワーク情報を、ＮＦＣ（または他の形式の通信）を介して、ＮＭＤ５１６へ送信することができる。しかしながら、一旦ＮＭＤ５１６が家庭内で構成されると、ＮＭＤ５１６とＰＢＤ５３８との間の通信手段は変更してもよい。たとえば、ＮＭＤ５１６は、その後、通信経路５４２、クラウドネットワーク５０２、および通信経路５４４を介してＰＢＤ５３８と通信することができる。別の例では、ＮＭＤおよびＰＢＤは、ローカル通信手段５４６を介して決して通信しない。さらなる例では、ＮＭＤおよびＰＢＤは、主として、ローカル通信手段５４６を介して通信することができる。他の例も可能である。

例示的な例では、ＮＭＤ５１２、５１４、および５１６は、ＰＢＤ５３２、５３４、５３６、および５３８を制御する音声入力を受信するように構成されてもよい。利用できる制御コマンドには、とりわけ、再生音量制御、再生トランスポート制御、音楽ソース選択、およびグループ化等のように、前に示唆した任意のメディア再生システム制御を含むことができる。１つの事例では、ＮＭＤ５１２は、ＰＢＤ５３２、５３４、５３６、および５３８のうちの１つ又は複数を制御する音声入力を受信することができる。音声入力の受信に応答して、ＮＭＤ５１２は、音声入力を、通信経路５４２を介して、処理のために通信デバイス５０４へ送信することができる。１つの例では、コンピュータ５０４は、音声入力を等価のテキストコマンドへ変換し、テキストコマンドを解析してコマンドを識別することができる。その後、コンピュータ５０４は、テキストコマンドをコンピュータ５０６に送信することができる。別の例では、コンピュータ５０４は、音声入力を等価のテキストコマンドに変換し、次に、テキストコマンドをコンピュータ５０６に送信することができる。次に、コンピュータ５０６は、テキストコマンドを解析して、１つ又は複数の再生コマンドを識別することができる。

たとえば、テキストコマンドが「「ゾーン１」の「ストリーミングサービス１」から「アーティスト１」による「トラック１」を再生する」である場合、コンピュータ５０６は、（ｉ）「ストリーミングサービス１」から利用できる「アーティスト１」による「トラック１」のＵＲＬ、および（ｉｉ）「ゾーン１」における少なくとも１つの再生デバイスを識別することができる。この例では、「ストリーミングサービス１」からの「アーティスト１」による「トラック１」のＵＲＬは、コンピュータ５０８を指すＵＲＬであってよく、「ゾーン１」は結合ゾーン５３０であってよい。このように、ＵＲＬと、ＰＢＤ５３６および５３８のうちの一方または両方を識別すると、コンピュータ５０６は、識別されたＵＲＬを、再生のために、通信経路５４４を介して、ＰＢＤ５３６および５３８のうちの一方または両方に送信することができる。ＰＢＤ５３６および５３８のうちの一方または両方はそれぞれ、受信したＵＲＬに従って、コンピュータ５０８からオーディオコンテンツを検索し、「ストリーミングサービス１」からの「アーティスト１」による「トラック１」の再生を開始することができる。

当業者であれば、上記は例示的な単なる１つの例であり、他の実施も可能であることを理解するであろう。１つのケースでは、上記で説明したように、複数のデバイス５００のうちの１つ又は複数によって実行される動作は、複数のデバイス５００における１つ又は複数の他のデバイスによって実行されてもよい。たとえば、音声入力からテキストコマンドへの変換は、ＮＭＤ５１２、コンピュータ５０６、ＰＢＤ５３６、および／または、ＰＢＤ５３８のような別のデバイスによって代替的に、部分的にまたは完全に実行されてもよい。同様に、ＵＲＬの識別は、代替的に、部分的にまたは完全に、ＮＭＤ５１２、コンピュータ５０４、ＰＢＤ５３６、および／または、ＰＢＤ５３８のような別のデバイスによって実行されてよい。

ｆ．ネットワークマイクロホンデバイスの例
図６は、図５のＮＭＤ５１２、５１４、および５１６のうちの１つ又は複数であるように構成され得る例示的なネットワークマイクロホンデバイス６００の機能ブロック図を図示する。図示されるように、ネットワークマイクロホンデバイス６００は、プロセッサ６０２、メモリ６０４、マイクロホンアレイ６０６、ネットワークインタフェース６０８、ユーザインタフェース６１０、ソフトウェアコンポーネント６１２、およびスピーカー６１４を含む。当業者は、他のネットワークマイクロホンデバイスの構成および配置も可能であることを理解するであろう。たとえば、ネットワークマイクロホンデバイスは、代替的に、スピーカー６１４を除外してもよいし、マイクロホンアレイ６０６の代わりに単一のマイクロホンを有してもよい。

プロセッサ６０２は、汎用または専用のプロセッサまたはコントローラの形態を採ることができる１つ又は複数のプロセッサおよび／またはコントローラを含むことができる。たとえば、プロセッサユニット６０２は、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路、デジタル信号プロセッサ等を含むことができる。メモリ６０４は、これら機能を実行するためにプロセッサ６０２によって実行可能なソフトウェアコンポーネントのうちの１つ又は複数をロードすることができるデータストレージであってもよい。したがって、メモリ６０４は、１つ又は複数の非一時的コンピュータ可読記憶媒体を含むことができ、その例は、とりわけ、ランダムアクセスメモリ、レジスタ、キャッシュ等の揮発性記憶媒体と、読み出し専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、および／または、光学記憶デバイス等の不揮発性記憶媒体とを含む。

マイクロホンアレイ６０６は、ネットワークマイクロホンデバイス６００の環境内の音を検出するように配置された複数のマイクロホンであってもよい。マイクロホンアレイ６０６は、とりわけ、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、またはダイナミックマイクロホンのように、現在知られているかまたは後に開発される任意のタイプのマイクロホンを含むことができる。１つの例では、マイクロホンアレイは、ネットワークマイクロホンデバイスに対する１つ又は複数の方向からのオーディオを検出するように配置されてもよい。マイクロホンアレイ６０６は、周波数範囲の一部に敏感であってもよい。１つの例では、マイクロホンアレイ６０６の第１のサブセットは第１の周波数範囲に敏感である一方、マイクロホンアレイの第２のサブセットは第２の周波数範囲に敏感である。マイクロホンアレイ６０６は、オーディオソース（たとえば、音声、可聴音）の位置情報を捕捉し、および／または、背景ノイズをフィルタリングする際に支援するようにさらに配置されてもよい。特に、いくつかの実施形態では、マイクロホンアレイは、複数のマイクロホンではなく、単一のマイクロホンのみで構成されてもよい。

ネットワークインタフェース６０８は、とりわけ、様々なネットワークデバイス、たとえば、図５を参照すると、クラウドネットワーク５０２内のＣＲ５２２、ＰＢＤ５３２〜５３８、コンピュータ５０４〜５０８と、他のネットワークマイクロホンデバイスとの間の無線通信および／または有線通信を容易にするように構成することができる。このように、ネットワークインタフェース６０８は、これらの機能を実行するための任意の適切な形態を取ることができ、その例は、無線通信を容易にするように適合されたイーサネットインターフェース、シリアルバスインターフェース（たとえば、ＦｉｒｅＷｉｒｅ、ＵＳＢ２．０等）、チップセット、およびアンテナ、ならびに／または、有線通信および／もしくは無線通信を提供する他の任意のインタフェースを含むことができる。１つの例では、ネットワークインタフェース６０８は、業界規格（たとえば、赤外線、無線、ＩＥＥＥ８０２．３を含む有線規格、ＩＥＥＥ８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ、８０２．１１ａｃ、８０２．１５、４Ｇ移動通信規格を含む無線規格等）に基づくものであってもよい。

ネットワークマイクロホンデバイス６００のユーザインタフェース６１０は、ネットワークマイクロホンデバイスとのユーザインタラクションを容易にするように構成することができる。１つの例では、ユーザインタフェース６０８は、ユーザがネットワークマイクロホンデバイス６００に入力を直接提供するために、とりわけ、物理的ボタン、タッチセンシティブスクリーンおよび／または表面に設けられたグラフィカルインターフェースのうちの１つ又は複数を含むことができる。ユーザインタフェース６１０は、視覚的フィードバックおよび／またはオーディオフィードバックをユーザに提供するために、ライトおよびスピーカー６１４のうちの１つ又は複数をさらに含むことができる。１つの例では、ネットワークマイクロホンデバイス６００は、スピーカー６１４を介してオーディオコンテンツを再生するように構成することもできる。この場合、ＮＭＤ６００は、再生デバイス２００に関連する機能及び特徴を含んでいてもよい。

ＩＩＩ．アービトレーションベースの音声認識のための例示的なシステムおよび方法
複数のＮＭＤは、通信手段５４６を介して通信可能に接続されていてもよい。複数のＮＭＤのうちの１つ又は複数は、スピーカー（話者）によって発話された音声コマンドに関連付けられたウエイクワード（ｗａｋｅｗｏｒｄ）を検出してもよい。音声コマンドは、「音量設定は？」または「プレイリストに含まれている曲は？」などの情報の要求であってもよい。あるいは、音声コマンドは、可能性のある中でも特に、再生ボリューム（再生音量）、再生トランスポート制御、音楽ソース選択、およびグループ化などのメディア再生の再生設定のいずれかを修正するためのコマンドを含んでいてもよい。より多くの家庭用機器が（例えば、ネットワークインタフェースを組み込むことによって）「スマート」になるにつれて、音声コマンドを使用してメディア再生デバイス以外の家庭用機器を制御してもよい。音声コマンドは他の形態も採り得る。

本明細書で述べられている実施形態は、複数のＮＭＤのうちのどのＮＭＤが音声入力（例えば、音声コマンドまたはウェイクワードおよび音声コマンド）をクラウドベースのコンピュータ、例えばサーバに送信してもよいかをアービトレーション（調停）するための方法およびシステムに関する。ＮＭＤは、クラウドベースのコンピュータに音声入力を送信することによって、クラウドベースのコンピュータが音声入力に対して音声認識を実行してもよい。音声認識は、要求された制御または情報の識別を可能にする。例えば、アービトレーションプロセスは、複数のＮＭＤが同じ音声コマンドをクラウドベースのコンピュータに送信することを回避し、それによって、音楽の再生などの他のアクティビティに使用される可能性がある帯域幅を無駄にすることを回避する。

概して、本明細書に述べられる１つ又は複数の機能は、ＮＭＤによって個別に実行されてもよいし、あるいはコンピュータ５０４−５０６、ＰＢＤ５３２−５３８、ＮＭＤ５１２−５１６、ＣＲ５２２、又は本明細書で述べられている他の任意のデバイスと組み合わせて実行されてもよいことは理解される。

図７に示される実施形態７００は、本明細書で述べられている例示的な技法の一実施形態を提示する。簡単に言えば、７０２において、音声入力が検出してもよい。７０４で、音声入力について信頼度を決定してもよい。７０６において、アービトレーションプロセスが実行されてもよい。アービトレーションプロセスは、ＮＭＤが受信した音声コマンド、又は受信した音声コマンドと音声認識のための音声入力とをサーバに送信するかどうかを決定することを含んでもよい。家庭内の複数のＮＭＤが、図７で述べられている機能を実行してもよい。

実施形態７００は、例えば、図５に示される構成における１つ又は複数のＮＭＤ５１２−５１６を含むか、または備える動作環境内で実施することができる。ブロック７０２−７０６のうちの１つ又は複数は、１つ又は複数の動作、機能、またはアクションを含んでもよい。ブロックは順番に示されているが、これらのブロックは、並行して、および／または本明細書に述べられているものとは異なる順序で実行されてもよい。また、様々なブロックは、より少ないブロックに結合され、追加のブロックに分割され、および／または所望の実施に基づいて除去されてもよい。

さらに、本明細書に開示される実施形態７００および他のプロセスおよび方法について、フローチャートはいくつかの実施形態の１つの可能な実施形態の機能および動作を示す。これに関して、各ブロックは、モジュール、セグメント、またはプロセス内の特定の論理機能またはステップを実施するためにプロセッサによって実行可能な１つ又は複数の命令を含むプログラムコードの一部を表していてもよい。プログラムコードは、例えば、ディスク又はハードドライブを含む記憶装置などの任意のタイプのコンピュータ読み取り可能な媒体に記憶されてもよい。コンピュータ読み取り可能な媒体は、例えば、レジスタメモリ、プロセッサキャッシュ、およびランダムアクセスメモリ（ＲＡＭ）のような短期間データを記憶する有形の非一時的コンピュータ読み取り可能な媒体などの非一時的コンピュータ読み取り可能な媒体を含んでもよい。コンピュータ読み取り可能な媒体はまた、例えば、読み取り専用メモリ（ＲＯＭ）、光ディスクまたは磁気ディスク、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）のような、二次的または持続的長期記憶などの非一時的媒体を含んでもよい。コンピュータ読み取り可能な媒体は、他の任意の揮発性または不揮発性記憶システムであってもよい。コンピュータ読み取り可能な媒体は、例えばコンピュータ読み取り可能な記憶媒体、または有形の記憶装置と見なされてもよい。加えて、本明細書に開示される実施形態７００および他のプロセスおよび方法について、図７の各ブロックは、プロセス内の特定の論理機能を実行するように配線されている回路を表していてもよい。

図７に戻って参照すると、７０２において、音声入力が検出されてもよい。例えば、ＮＭＤは音声入力を受信するための１つ又は複数のマイクロホンを有していてもよい。いくつかの実施形態では、音声入力は、ウェイクワードの形をとっていてもよい。ウェイクワードは、例の中でも特に、「アレクサ（Ａｌｅｘａ）」、「ＯＫグーグル（ＯＫＧｏｏｇｌｅ）」、「ヘイ、ソノズ（ＨｅｙＳｏｎｏｓ）」、または「ヘイ、シリ（ＨｅｙＳｉｒｉ）」などの音声入力であってもよい。

ウェイクワードは、ＮＭＤが「ウェイクアップ」し、ウェイクワードに続く音声入力の受信を開始するための指示であってもよい。音声入力は、ＮＭＤによって受信される音声コマンドであってもよい。ＮＭＤは、音声コマンドが受信されると、受信された音声コマンドの音声記録を、例えばリングバッファまたはサーキュラバッファに格納してもよい。これに関して、ＮＭＤが受信された音声コマンドを処理のためにサーバに送信されない場合、音声記録は破棄されてもよい。リングバッファまたは循環バッファは、本明細書で述べられているデバイス又はサーバのいずれかを介してローカルにおよび／またはリモートに格納されてもよい。

いくつかの例では、ウェイクワードに続く音声コマンドが明確に受信されるように、ＮＭＤはまた、ＮＭＤによって再生されているオーディオを調整してもよい。オーディオは様々な方法で調整されてもよい。一実施形態では、オーディオをダッキングしてもよい。ダッキングは、例えば、検出されたウェイクワードの音量に比例する音量まで、オーディオの音量を下げることを含んでもよい。別の実施形態では、オーディオは一時停止されてもよい。オーディオがダッキングされているか一時停止されているかは、オーディオのタイプおよび所望のユーザ経験に依存してもよい。ＮＭＤは、オーディオに関連付けられたインジケータに基づいてオーディオのタイプを決定してもよい。例えば、ＮＭＤは音楽の形態のオーディオをダッキングしてもよい、ＮＭＤはオーディオブックまたはポッドキャストの形態のオーディオを一時停止してもよい。別の例では、以下でさらに説明されるように、ＮＭＤの利用可能な処理能力に応じて、オーディオがダッキングまたは一時停止されてもよい。他のアレンジメントもまた可能である。

ＮＭＤはオーディオ自体を調整してもよい。追加的に又は代替的に、ＮＭＤは、ＮＭＤとの結合ゾーン内のオーディオ再生デバイス、例えばステレオでオーディオを再生するデバイスによって再生されるオーディオを調整してもよい。例えば、通知が、結合された再生デバイスに送信されてもよい。いくつかの例では、通知はユニバーサルプラグアンドプレイ（ＵＰｎＰ）制御要求の形態をとってもよい。

いくつかの実施形態では、音声入力の検出はまた、受信した音声コマンドをサーバに送信する前にＮＭＤが待機する時間の長さを示す時間間隔の開始をトリガしてもよい。極端な例では、ウェイクワードが検出されるとすぐにＮＭＤが音声コマンドを送信してもよい。音声認識における最小の待ち時間が導入されるが、音声コマンドを送信する２つ以上のＮＭＤ間のようにサーバによってアービトレーション（調停）が実行される必要があってもよい。別の極端な例では、ＮＭＤは長い時間間隔、例えば１００ｍｓ後に音声コマンドを送信してもよい。長い時間間隔は調停するのに十分な時間を許容してもよいが、十分な待ち時間が音声認識に導入される。したがって、時間間隔の選択は、アービトレーション（調停）を実行するのに十分な時間を提供し、音声認識における待ち時間を最小限に抑えるという利益のバランスをとってもよい。

いくつかの実施形態では、時間間隔はすべてのＮＭＤについて同じであってもよい。他の実施形態では、時間間隔はローカルに決定されてもよい。例えば、時間間隔は、通信手段５４６に接続されるいくつかのＮＭＤに基づいていてもよい。時間間隔は、通信手段５４６に接続されているＮＭＤが多い場合は長く設定され、通信手段５４６に接続されているＮＭＤが少ない場合は短く設定されてもよい。ＮＭＤが多くなるほど、ＮＭＤがアービトレーションを実行するために互いに通信するのにより長い時間がかかることを意味し得、ＮＭＤが少なくなるほど、ＮＭＤがアービトレーションを実行するために互いに通信するためにより短い時間を要することを意味してもよい。

例えば、時間間隔は、ＮＭＤ同士の近接度に基づいて設定されてもよい。ＮＭＤが互いに近いほど、時間間隔は短くなる。逆に、ＮＭＤが離れているほど、時間間隔は長くなる。ＮＭＤが近いほど、ＮＭＤが互いに通信してアービトレーションを実行するのにより短い時間がかかることを意味し得、ＮＭＤが離れているほど、ＮＭＤが互いに通信してアービトレーションを実行するのにより多くの時間がかかることを意味してもよい。

例えば、時間間隔は、ＮＭＤが互いに有線接続であるか、又は無線接続であるかに基づいて設定されてもよい。有線接続は、信頼性が高く、再送信の必要性が少ないため、アービトレーションを実行するための時間間隔を短く設定することになってもよい。無線接続は信頼性が低く、再送信の必要性が増える可能性があるため、無線接続はアービトレーションを実行するためにより長い時間間隔を設定することになってもよい。

例えば、時間間隔は、ＮＭＤを互いに接続するネットワークの種類、例えば、ＷｉＦｉネットワークまたはＳｏｎｏｓＮｅｔなどの適正ネットワーク（ｐｒｏｐｒｉｅｔｙｎｅｔｗｏｒｋ）に基づいて設定してもよい。ＮＭＤ間のホップ数が少ないネットワークでは、アービトレーション（調停）を実行するための時間間隔を短く設定することになってもよい。逆に、ＮＭＤ間のホップ数が多いネットワークでは、アービトレーションを実行するための時間間隔を長く設定することになってもよい。ホップ数が少ないほど、ＮＭＤ同士の通信にかかる時間が短くなることを意味し得、ホップ数が多いほど、ＮＭＤ同士の通信にかかる時間が長くなることを意味し得る。

いくつかの実施形態では、時間間隔は静的な値であってもよい。他の実施形態では、時間間隔は動的な値であってもよい。例えば、時間間隔は、アービトレーション（調停）を実行し、待ち時間の問題に対処するのに十分な時間を提供するというニーズのバランスをとる学習アルゴリズムに基づいて調整してもよい。学習アルゴリズムは、受信した音声コマンドをサーバに送信するかどうかを決定する前に、ＮＭＤが待機する時間を示す時間間隔（例えば、２０ｍｓ）を最初に選択してもよい。次いで、「間違い（ｍｉｓｔａｋｅ）」がサーバによって検出された場合、時間間隔は（例えば、４０ｍｓに）増加されてもよい。間違いは、２つ以上のＮＭＤがウェイクワードに続く音声コマンドをサーバに別々に送信することであってもよい。この場合、サーバはＮＭＤに通知して時間間隔を長くしてもよい。学習アルゴリズムは、家庭、ＮＭＤのグループ、又は単一のＮＭＤに適用されてもよい。

７０４において、検出された音声入力について信頼度を決定してもよい。信頼度は、ウェイクワードがどれほど良く検出されたかを示してもよい。ＮＭＤは、検出されたウェイクワードに関連した特性を決定してもよい。一例では、特性は、ウェイクワードのオーディオエンベロープ（ａｕｄｉｏｅｎｖｅｌｏｐｅ）の形をとってもよい。オーディオエンベロープは、時間領域におけるウェイクワードの振幅および／または持続時間を定義してもよい。別の例では、特性は、ウェイクワードの周波数スペクトルの形をとってもよい。周波数スペクトルは、周波数領域におけるウェイクワードの周波数内容を定義してもよい。ＮＭＤは、ＮＭＤが受信する可能性がある各ウェイクワードに対する理想的な特性を記憶し、かつ／またはコンピュータ５０４−５０８から受信してもよい。理想的な特性は、例えば、雑音が存在しない場合のオーディオエンベロープ、継続時間、またはウェイクワードの周波数スペクトルであってもよい。検出されたウェイクワードの特性は、対応する理想的な特性と比較されてもよい。検出されたウェイクワードの特性と理想的な特性との間の相関度が高いことは、検出されたウェイクワードが理想的な特性に関連付けられたウェイクワードである可能性が高いことを示してもよい。ＮＭＤは、最も高い相関度で、ウェイクワードを識別してもよい。

いくつかの実施形態では、信頼度はこの相関度を示していてもよい。信頼度は、例えば、０から１または０から１００の値であってもよい。例えば、バックグラウンドノイズのない検出は、特定のウェイクワードが検出されたという高い信頼度を示す１の値（０から１の範囲内）を受信してもよい。一方、歪みやノイズが多い検出では、特定のウェイクワードが検出されたという低い信頼度を示す０．１（０から１の範囲内）を受信してもよい。例えば、バックグラウンドノイズのない検出は、特定のウェイクワードが検出されたという高い信頼度を示す１００の値（０から１００の範囲内）を受信してもよい。一方、歪みやノイズが多い検出は、特定のウェイクワードが検出されたという低い信頼度を示す１０（０から１００の範囲内）を受信してもよい。例えば、バックグラウンドノイズのない検出は、特定のウェイクワードが検出されたという高い信頼度を示す１０の値（０から１００の範囲内）を受信してもよい。一方、歪みやノイズが多い検出は、特定のウェイクワードが検出されたという低い信頼度を示す１００（０から１００の範囲内）を受信してもよい。例えば、バックグラウンドノイズのない検出は、特定のウェイクワードが検出されたという高い信頼度を示す０．１の値（０から１の範囲内）を受信してもよい。一方、歪みやノイズが多い検出は、特定のウェイクワードが検出されたという低い信頼度を示す１（０から１の範囲内）を受信してもよい。いくつかの例では、信頼度は、ＮＭＤとスピーカーとの間の相対距離と相関していてもよい。他のアレンジメントもまた可能である。

いくつかの実施形態では、ＮＭＤは、例えば家庭内の通信手段５４６上の他のＮＭＤに送信されるアービトレーション・メッセージを生成することができる。ウェイクワードも検出した家庭内の各ＮＭＤは、家庭内の他のＮＭＤにアービトレーション・メッセージを送信してもよい。典型的には、ウェイクワードを検出したＮＭＤは、音声入力の可聴範囲内にあり得る。

図８は、アービトレーション・メッセージ８００の一例を示す。アービトレーション・メッセージ８００は、ウェイクワード識別子８０２、音声識別子８０４、信頼度８０６、時間間隔８０８、およびタイムスタンプ８１０のうちの１つ又は複数を識別してもよい。アービトレーション・メッセージは、１つのメッセージとして示されているが、複数のメッセージの形をとってもよいし、８０２−８１０によって表されるよりも多いまたは少ない識別子を含んでもよい。

家庭は複数のウェイクワードをサポートしてもよい。ウェイクワード識別子８０２は、どのウェイクワードをＮＭＤが検出したかを示してもよい。例えば、ウェイクワード識別子は、ＮＭＤがウェイクワード「アレクサ（Ａｌｅｘａ）」、「ＯＫグーグル（ＯＫＧｏｏｇｌｅ）」、「ヘイソノズ（ＨｅｙＳｏｎｏｓ）」、または「ヘイシリ（ＨｅｙＳｉｒｉ）」を検出したかどうかを示してもよい。ウェイクワードは他の形をとってもよい。

任意で、アービトレーション・メッセージ８００は音声識別子８０４を含んでもよい。音声識別子は、ウェイクワードのスピーカー（話者）を識別してもよい。識別は、ウェイクワードを誰が話したか、例えば、メアリー又はトムであったか、スピーカーが男性又は女性であったか、および／またはスピーカーが年配又は若者であったかなどであってもよい。ＮＭＤは、構成プロセス中に、またはサーバなどのネットワークデバイスによって提供されている間に、ＮＭＤを使用することができる各スピーカーの特性を学習してもよい。その特徴は、そのスピーカーによってそのウェイクワードが話されたかどうかを識別するのを補助してもよい。例えば、特性はスピーカーによるスピーチの周波数スペクトルであってもよい。次いで、ＮＭＤがウェイクワードを受信すると、ＮＭＤは、そのウェイクワードがスピーカーの特性を有するかどうかを決定してもよい。ウェイクワードが特徴を有する場合、音声識別子は、例えば、ウェイクワードを話したのがメアリーまたはトムであるかどうか、および／またはウェイクワードを話したのが男性または女性であるかどうかなど、特徴と関連付けられるスピーカーを識別してもよい。

追加的または代替的に、アービトレーション・メッセージ８００は、検出されたウェイクワードに対する信頼度８０６を含んでもよい。アービトレーション・メッセージはまた、音声記録をサーバに送信する前にＮＭＤが待機する時間の長さに関連する時間間隔８０８を識別してもよい。時間間隔をアービトレーション・メッセージに含めることによって、あるＮＭＤは、他のＮＭＤがどの時間間隔を使用しているかを学習することが可能になってもよい。例えば、あるＮＭＤは他のＮＭＤのそれに基づいてその時間間隔を変更してもよい。さらに、アービトレーション・メッセージは、アービトレーション・メッセージに関連付けられたタイムスタンプ８１０を識別してもよい。タイムスタンプは、理由のうち特に、アービトレーション・メッセージの再送信を識別するために使用されてもよい。

７０６において、ウェイクワードおよび音声コマンドのうちの１つ又は複数に基づくアービトレーションプロセスを実行して、音声入力、例えば、ウェイクワードに続く音声コマンド又はウェイクワードおよび音声コマンドを、サーバなどのコンピュータ５０４−５０８のうちの１つまたは複数のデバイスに送信すべきかどうかを決定してもよい。例えば、ＮＭＤは、検出されたウェイクワードの信頼度に基づいて、音声コマンドを１つ又は複数のコンピュータに送信するかどうかを決定してもよい。例えば、ＮＭＤは、受信した音声コマンド（またはその一部）および検出されたウェイクワードの信頼度に基づいて、音声コマンドを１つ又は複数のコンピュータに送信するかどうかを決定してもよい。ＮＭＤが音声コマンドを送信しない場合、処理は終了してもよい。ＮＭＤが音声コマンドをサーバに送信する場合、ＮＭＤはサーバから応答を受信してもよい。応答は、ＮＭＤまたは別の再生デバイスによって再生されることになっている音声コマンドに対する音声応答であってもよい。例えば、音声応答は、「再生キュー内の次の曲は何ですか？」という音声コマンドに応答して、「次の曲はＰｕｒｐｌｅＲａｉｎです。」であってもよい。ＮＭＤは音声応答を再生してもよい。さらに、ＮＭＤによって再生されるオーディオがダッキングされるか、又はダッキングされることになっている場合、オーディオがダッキングされるときに、ＮＭＤは、オーディオと、再生のため音声応答とを混合してもよい。この点に関して、ＮＭＤは、それがミキシングを実行するのに十分な処理能力を有する場合、ウェイクワードを検出することに応答してオーディオをダッキングしてもよいし、ミキシングを実行するのに十分な処理能力を有しない場合、オーディオを一時停止してもよい。追加的または代替的に、応答はメディア再生デバイス又はシステムの制御に関連するコマンドであってもよい。例としては、音声コマンドに示された「ＷｈｅｎＤｏｖｅｓＣｒｙｂｙＰｒｉｎｃｅ」などの特定の音楽コンテンツを再生すること、または再生音量を設定することが含まれてもよい。

図９は、第１実施形態による、１つ又は複数のＮＭＤ間のアービトレーション（調停）に関連する機能の詳細なフロー図９００を示す。第１実施形態は、他のＮＭＤから受信されるアービトレーション・メッセージと、受信されたアービトレーション・メッセージに基づいてサーバに送信される音声コマンドと、に基づいている。説明する機能は、ＮＭＤによって個々に、またはコンピュータ５０４−５０６、ＰＢＤ５３２−５３８、ＮＭＤ５１２−５１６、ＣＲ５２２、または本明細書で述べられている他の任意のデバイスと組み合わせて実行することができる。

９０２において、第１音声入力が検出されてもよい。第１音声入力は、例えば、ウェイクワードであってもよい。いくつかの実施形態では、検出は時間間隔の開始を引き起こしてもよい。９０４において、第１音声入力に関連する第１信頼度を決定してもよい。信頼度は、ウェイクワードがどれほど良く検出されたか示していてもよい。第１信頼度は、ＮＭＤ自体によって決定されてもよい。追加的または代替的に、ＮＭＤは音声入力をコンピュータ５０４−５０８または他のネットワークデバイスに送信してもよく、コンピュータ５０４−５０８または他のネットワークデバイスから信頼度を受信してもよい。

９０６において、メッセージを受信してもよい。メッセージは、同じウェイクワードを検出したＮＭＤから送信されたアービトレーション・メッセージであってもよい。メッセージは、第１音声入力の検出に関連する第２信頼度を含んでもよい。

いくつかの実施形態では、ＮＭＤはまた、第１音声入力に関連する第１信頼度を含むアービトレーション・メッセージを他のＮＭＤに送信してもよい。例えば、ＮＭＤは、通信手段５４６に接続された他のＮＭＤにアービトレーション・メッセージを送信してもよい。このようにして、例えば家庭内の他のＮＭＤも、ＮＭＤによって検出されたウェイクワードに基づいてアービトレーション（調停）を実行することができる。

９０８において、第１信頼度が第２信頼度より大きいかどうかの決定がされる。第１信頼度が第２信頼度よりも大きい場合、ＮＭＤはアービトレーション（調停）に勝ってもよい。信頼度が大きいということは、ＮＭＤがウェイクワードに続く音声コマンドを明確に受信するのにより良い位置にある可能性があることを示している。

ＮＭＤは、時間間隔中に複数のＮＭＤから複数のアービトレーション・メッセージを受信してもよい。ＮＭＤは、例えば時間間隔が満了するまで、各アービトレーション・メッセージ内の信頼度を、検出された第１音声入力に関連する信頼度と比較し続けてもよい。検出された第１音声入力の信頼度が受信されたアービトレーション・メッセージのいずれかにおける信頼度よりも大きい限り、ＮＭＤはアービトレーション（調停）に勝ち続けてもよい。

いくつかの実施形態では、ＮＭＤは、アービトレーションを実行する前に時間間隔の満了を待ってもよい。時間間隔の満了時に、ＮＭＤは、その検出されたウェイクワードに関連付けられた信頼度を、その時間間隔中に受信されたアービトレーション・メッセージに示された信頼度と比較してもよい。ＮＭＤは、その検出されたウェイクワードに関連する信頼度が最も高いかどうかを決定してもよい。この決定に基づいて、ＮＭＤは、時間間隔の満了時に第２音声入力を１つ又は複数のコンピュータ５０４−５０８に送信してもよい。

９１０において、第２音声入力は、第１信頼度が第２信頼度よりも大きいとの決定に基づいて、サーバなどの１つ又は複数のコンピュータ５０４−５０８に送信されてもよい。いくつかの実施形態では、第２音声入力は、第１音声入力に続く音声コマンド、例えばウェイクワードであってもよい。他の実施形態では、第２音声入力は、第１音声入力がウェイクワードと音声コマンドの両方を示す限りにおいて、第１音声入力と同じであってもよい。さらに他の実施形態では、第１音声入力はまた、第２音声入力と共に１つ又は複数のコンピュータに送信されてもよい。サーバは、同じウェイクワードに関連付けられた音声コマンドをサーバに送信する２つ以上のＮＭＤ間で「クラウド内」で調停するために第１音声入力を使用してもよい。次に、サーバは、どの送信音声コマンドを音声認識に使用するかを決定してもよい。

その後、サーバは第２音声入力に対する応答を送信してもよい。応答は、ＮＭＤまたは他のネットワークデバイスによって再生される音声応答、または特定の音楽コンテンツの再生または再生デバイスの設定の変更などのメディア再生デバイスまたはシステムの制御に関連するコマンドであってもよい。

図１０は、第２実施形態によるネットワークマイクロホンデバイス間のアービトレーション（調停）に関連する機能の詳細なフロー図１０００を示す。第２実施形態は、ウェイクワードの検出に関連するアービトレーション・メッセージが時間間隔中に他のどのＮＭＤからも受信されず、ウェイクワードに続く音声コマンドが時間間隔の終了後にサーバに送信されるシナリオを示す。また、説明する機能は、ＮＭＤによって個々に、またはコンピュータ５０４−５０６、ＰＢＤ５３２−５３８、ＮＭＤ５１２−５１６、ＣＲ５２２、または本明細書で述べられる任意の他のデバイスと組み合わせて実行されてもよい。

１００２において、第１音声入力が検出されてもよい。第１音声入力は、例えば、ウェイクワードであってもよい。検出は、時間間隔の開始を引き起こしてもよい。１００４において、第１音声入力に関連した信頼度が決定されてもよい。信頼度は、ＮＭＤ自体によって決定されてもよい。追加的または代替的に、ＮＭＤは音声入力をコンピュータ５０４−５０８または他のネットワークデバイスに送信してもよく、次にコンピュータ５０４−５０８または他のネットワークデバイスから信頼度を受信してもよい。

いくつかの実施形態では、第１音声入力に関連する第１信頼度を含むメッセージ、例えばアービトレーション・メッセージが送信されてもよい。例えば、ＮＭＤは、家庭内等の通信手段５４６に接続された他のＮＭＤにアービトレーション・メッセージを送信してもよい。１００６において、別のＮＭＤによる第１入力の検出に関連するメッセージが時間間隔内に受信されていないという決定がされてもよい。例えば、ＮＭＤは、通信手段５４６上の他のどのＮＭＤからもアービトレーション・メッセージを受信しなかったと決定してもよい。１００８において、メッセージが受信されていないという決定に基づいて、第２音声入力が、サーバ等の１つ又は複数のコンピュータ５０４−５０８に送信され得る。第２音声入力は、ＮＭＤが受信した音声コマンドであって、ウェイクワードの形式で音声入力に続いたものであってもよい。

サーバは、第２音声入力に対する応答を送ってもよい。例えば、第２音声入力を送信したＮＭＤは、第２音声入力に対する応答を受信してもよい。応答は、ＮＭＤまたは他のネットワークデバイスによって再生される情報の要求に対する音声応答であってもよい。追加的または代替的に、応答は、特定の音楽コンテンツを再生する、または再生デバイスの設定を変更するなどのメディア再生デバイスまたはシステムの制御に関連するコマンドであってもよい。ＮＭＤまたは他のネットワークデバイスは、応答によって定義されたコマンドを実行してもよい。

図１１は、図７の７０６におけるアービトレーションプロセスに関連する機能をより詳細に説明するフローチャート１１００である。説明する機能は、ＮＭＤによって個々に、またはコンピュータ５０４−５０６、ＰＢＤ５３２−５３８、ＮＭＤ５１２−５１６、ＣＲ５２２、または本明細書で述べられている他の任意のデバイスと組み合わせて実行されてもよい。

１１０２において、ＮＭＤはアービトレーション・タイマのための時間間隔を確立してもよい。アービトレーション・タイマは、クロックベースのタイマであってもよい。アービトレーション・タイマは、ウェイクワードに続く音声コマンドを１つ又は複数のコンピュータ、例えばサーバに送信する前にＮＭＤが待機する時間を示す時間間隔に最初に設定されてもよい。時間の長さは、０から１００ｍｓのような設定可能なパラメータであってもよい。時間間隔は、音声認識に長い待ち時間を加えることなくＮＭＤ間で迅速にアービトレーション（調停）するように設定されてもよい。

１１０４において、アービトレーション・タイマが満了したかどうかの決定がされる。アービトレーション・タイマが満了していない場合、処理は１１０６に進み、アービトレーション・メッセージが受信されたかどうかを決定する。アービトレーション・メッセージは、同じウェイクワードを検出した別のＮＭＤからのメッセージであってもよい。アービトレーション・メッセージが受信されない場合、処理は１１０４に戻ってアービトレーション・タイマが満了したかどうかを決定してもよい。アービトレーション・メッセージを受信した場合、１１０８において、ＮＭＤは、検出した音声入力の特徴、例えば、ウェイクワードを、アービトレーション・メッセージを送信したＮＭＤによって検出されたウェイクワードの特徴と比較してもよい。

例えば、ＮＭＤは、検出したウェイクワードの信頼度を、受信したアービトレーション・メッセージ内の信頼度と比較してもよい。例えば、ＮＭＤは、検出したウェイクワードの音声識別子を、受信したアービトレーション・メッセージ内の音声識別子と比較してもよい。例えば、ＮＭＤは、検出したウェイクワードのウェイクワード識別子を、受信したアービトレーション・メッセージ内のウェイクワード・インジケータと比較してもよい。

ＮＭＤは、比較に基づいて、他のＮＭＤとのアービトレーションに「勝った」か、又は「負けた」かを決定してもよい。

ＮＭＤは、以下の決定のうちの１つ以上に基づいてアービトレーションに勝ってもよい：（ｉ）ＮＭＤによって決定された信頼度が、受信されたアービトレーション・メッセージに関連したものよりも大きい；（ｉｉ）ＮＭＤによって決定された音声識別子は、受信されたアービトレーション・メッセージに関連付けられた音声識別子とは異なる；（ｉｉｉ）ＮＭＤによって検出されたウェイクワードが、受信したアービトレーション・メッセージで識別されたウェイクワードと異なる。ＮＭＤは他の基準に基づいて勝ってもよい。

ＮＭＤによって決定された信頼度が、同じ検出されたウェイクワードについて受信されたアービトレーション・メッセージに関連するものよりも小さい場合、ＮＭＤはアービトレーションに負けてもよい。ＮＭＤが音声識別をサポートし、アービトレーション・メッセージも音声識別子を示す場合、ＮＭＤによって決定される信頼度が、同じ音声識別子および検出された同じウェイクワードに関して受信されたアービトレーション・メッセージに関連するものより小さい場合、ＮＭＤはアービトレーションに負けてもよい。ＮＭＤは他の基準に基づいて負けてもよい。

ＮＭＤがアービトレーションに勝った場合、処理は１１０４に戻ることができる。ＮＭＤがアービトレーションに負けた場合、１１０８で、アービトレーションは終了することができる。ウェイクワードが検出されたときに、ウェイクワードに続く音声コマンドをよりよく受信するように、ＮＭＤによって再生されるオーディオが調整され、例えば、ダックされてもよいし、あるいは一時停止されてもよい。ＮＭＤがアービトレーションに負けた場合、ＮＭＤは、ウェイクワードが検出されてオーディオが調整される前のオーディオの位置に戻すように、オーディオを調整してもよい。例えば、オーディオが一時停止されていた場合、オーディオは一時停止されていなくてもよく、例えばオーディオの再生は停止された位置から継続してもよい。例えば、オーディオがダッキングされた場合、オーディオはダッキング解除されてもよく、例えば、オーディオの音量は大きくされてもよい。例えば、オーディオがダッキングされた場合、オーディオはダッキングの前のオーディオ内のある点に戻されてもよい。ＮＭＤは、オーディオがダッキングされている位置、例えばタイムスタンプをオーディオ内に記憶してもよい。アービトレーションに負けると、オーディオは、オーディオがダッキングされたタイムスタンプなどのオーディオ内の位置で再生を開始してもよい。他のアレンジメントも可能である。

さらに別の実施形態では、ＮＭＤがアービトレーションに負けた場合、ＮＭＤは、通知を受け取るまで調整される前のレベル、例えばボリューム（音量）にそのオーディオを調整しなくてもよい。第１例では、通知は、アービトレーションに勝ったＮＭＤからのメッセージの形をとってもよい。第２例では、通知は、ＮＭＤとの結合ゾーンにある別の再生デバイス（またはＮＭＤ）からのメッセージの形をとってもよい。他の再生デバイスは、ＮＭＤと同期してオーディオを再生しており、アービトレーションに勝ち、音声コマンドをサーバに提供し、次いで音声認識が完了したときに音声を調整するためにＮＭＤに通知を送信してもよい。第３例では、通知は、アービトレーションに勝った可能性があるＮＭＤによって送信される信号の有無の形をとってもよい。信号は、スピーカーを介してＮＭＤによって出力されてもよい。例えば、信号は、音楽の周波数範囲外、例えば、２０Ｈｚから２０ＫＨｚの周波数範囲外であってもよいが、それでもなおＮＭＤのマイクロホンによる可聴範囲内であってもよい。この信号が存在すると、ＮＭＤはオーディオをウェイクワードが検出される前のレベルに調整する必要がある。あるいは、この信号が存在しないことは、ＮＭＤが、ウェイクワードが検出される前のレベルにオーディオを調整すべきであることを示し得る。通知は、ユニバーサルプラグアンドプレイ（ＵＰｎＰ）制御要求など、他の形態もとり得る。

１１０４において、時間間隔が満了した場合、１１１０において、ＮＭＤは受信した音声コマンドをサーバに送信してもよい。ＮＭＤがアービトレーションに勝ち続ける場合、時間間隔は満了してもよい。あるいは、時間間隔が満了する前に、ＮＭＤが他の任意のＮＭＤからのウェイクワードの検出に関連するアービトレーション・メッセージを受信しない場合、時間間隔は満了してもよい。実施形態では、音声コマンドは、音声コマンドをサーバにストリーミングすることによってサーバに送信されてもよい。

図１２は、ネットワークマイクロホンデバイスとコンピュータ、例えば、サーバとの間における音声コマンドの音声認識に関連するフロー図である。説明する機能は、コンピュータ５０４−５０６、ＰＢＤ５３２−５３８、ＮＭＤ５１２−５１６、ＣＲ５２２、または本明細書で述べられる他の任意のデバイスと組み合わせてＮＭＤによって実行されてもよい。

１２０２において、認識タイマを確立してもよい。認識タイマは、ＮＭＤが受信した音声コマンドをＮＭＤがサーバに送信（例えばストリーミング）し得る期間を定義するクロックベースのタイマとしてもよい。例えば、持続時間は５−１０秒に設定され、サーバが音声コマンドの送信を停止するようにＮＭＤに通知しない範囲で回復するために使用されてもよい。通信手段５４６を介した通信問題のため、またはサーバが別のＮＭＤによって受信された音声コマンドを処理することを決定したことをサーバがＮＭＤに通知することに失敗した場合、サーバは、送信を停止するようにＮＭＤに通知しなくてもよい。１２０４において、認識タイマが満了したかどうかの決定がされる。認識タイマが満了する場合、音声コマンドのストリーミングは終了する。いくつかの実施形態では、音声コマンドのストリーミングは、サーバが音声コマンドストリーミングを終了するために中止メッセージを送信した場合にも終了してもよい。中止メッセージは、別のＮＭＤがアービトレーションに勝ったことを示してもよい。

回復タイマが満了しない場合、１２０６において、ＮＭＤはサーバが音声コマンドのストリーミングを停止するための指示を送信したかどうかを決定してもよい。サーバが音声コマンドのストリーミングを停止するための指示を送信しなかった場合、処理は１２０４に戻って認識タイマが満了したかどうかを決定してもよい。サーバが音声コマンドのストリーミングを停止するための指示を送信した場合、１２０８においてＮＭＤはビジータイマを確立してもよい。ビジータイマは、ＮＭＤが音声コマンドを送信した後に、サーバがウェイクワードに続く音声コマンドに対する応答を送信する期間を示してもよい。

サーバはクラウドベースのサーバシステムであってもよい。サーバは、音声コマンドに対して音声認識を実行してもよい。例えば、サーバは音声コマンドをテキストに変換し、テキストを解釈し、そして次にテキストに基づいて応答を作成してもよい。１２１０において、ビジータイマの満了が確認される。ビジータイマが満了していない場合、１２１２において、ＮＭＤは応答が受信されたかどうかを確認するために確認する。応答はさまざまな形式を取ってもよい。

一例では、音声コマンドが情報の要求である場合、その応答は音声応答であってもよい。音声応答は、テキストの形式でＮＭＤに送信され、ＮＭＤによって可聴的に再生される音声応答に変換される要求された情報であってもよい。例えば、音声コマンドは、「天気はどうですか？」と問い合わせる音声コマンドに応答して、「晴れです」であってもよい。さらに、ＮＭＤが音声も再生している場合、音声応答は、ＮＭＤによって再生されている音声と混合されてもよい。音声が一時停止されている場合、音声応答は単独で再生されてもよい。

別の例では、音声応答は、音声コマンドが理解されなかったという指示であってもよい。たとえば、音声応答は「コマンドを理解できませんでした」などあってもよい。音声応答は他の形式を取ってもよい。

追加的または代替的に、応答は、特定の音楽コンテンツを再生する、または再生デバイスの設定を変更するなどのメディア再生デバイスまたはシステムの制御に関連するコマンドであってもよい。サーバはコマンドをＮＭＤに送信してもよく、ＮＭＤはコマンドを実行するか、または他のネットワークデバイスにコマンドを実行するように指示してもよい。例えば、コマンドは、ＮＭＤが特定のオーディオコンテンツを再生するため、または再生デバイスの設定を変更するためのものであってもよい。コマンドが受信された場合、ＮＭＤはそのコマンドを実行するか、またはそのコマンドを実行するように他のネットワークデバイスに命令してもよい。

応答は、制御デバイス３００上に表示されるテキストの形の応答を含む、他の形をとってもよい。他のアレンジメントも可能である。

１２１４において、例えば音声応答を再生したり、コマンドを実行したりするなど、応答に関連してアクションが実行される。サーバから応答が受信されない場合、処理は１２１０に戻る。応答が受信されずにビジータイマが満了すると、処理は終了してもよい。

サーバが音声コマンドを処理している間、ＮＭＤは追加のウェイクワードを検出するように構成されていなくてもよい。しかしながら、ＮＭＤは、音声応答を再生した結果として追加の音声入力を受信してもよい。サーバは、音声応答が追加の音声入力をもたらすという指示をＮＭＤに提供してもよい。ＮＭＤは追加の音声入力を待つためのタイマを確立してもよい。例えば、追加の音声入力は、閾値レベルを超える平均振幅を有するオーディオ信号であってもよい。ＮＭＤが閾値レベルを超えるオーディオ信号を検出した場合、ＮＭＤは追加の音声入力を受信し、その音声入力をサーバにストリーミングしてもよく、その時点でサーバはＮＭＤに応答を提供してもよい。応答は、本明細書で述べられている方法で音声コマンドとして処理されてもよい。タイマが満了する前に追加の音声入力が受信されない場合、ＮＭＤは音声入力の受信を停止し、処理を終了してもよい。

いくつかの実施形態では、アービトレーションは、各ＮＭＤでローカルに実行されるのではなく、集中型デバイスによって実行されてもよい。集中型デバイスは、例えば家庭内の通信手段５４６に接続された設計されたＮＭＤまたはネットワークデバイスであり、ウェイクワードを検出したどのＮＭＤがウェイクワードに続く音声コマンドをサーバに送信すべきかを決定する。これに関して、集中型デバイスは、１つ又は複数のＮＭＤからアービトレーション・メッセージを受信し、そのアービトレーション・メッセージに関連する信頼度に基づいて、どのＮＭＤがその受信した音声コマンドをクラウドベースのコンピュータに送信すべきかを識別してもよい。例えば、集中型デバイスは、どのＮＭＤが最も高い信頼度でウェイクワードを検出したかを決定してもよい。次に、集中型デバイスは、識別されたＮＭＤに、受信した音声コマンドをコンピュータに送信させてもよい。

ＮＭＤは、音声コマンドをコンピュータに提供することが信頼できる音声認識を実行するのに役立つであろうという十分に高い信頼度を有する音声コマンドを受信してもよい。したがって、いくつかの実施形態では、アービトレーションに勝たなかったＮＭＤによって受信された音声コマンドもまた、音声コマンドの音声認識における信頼性を向上させるためにコンピュータに送信してもよい。送信される受信音声コマンドは、閾値レベルを超える信頼度を有するものであってもよい。アービトレーションに勝ったＮＭＤは、信頼度が閾値レベルを超えた場合に、受信した音声コマンドをサーバに送信するようにそれらのＮＭＤに通知してもよい。音声コマンドの複数のバージョンは信頼できる音声認識を容易にし得る。

ＩＶ．結論
上記の説明は、とりわけ、コンポーネント、ファームウェアおよび／またはハードウェア上で実行されるソフトウェアを含む様々な例示的なシステム、方法、装置、および製品を開示している。そのような例は単に例示的なものであり、限定的であると見なされるべきではないことが理解される。例えば、ファームウェア、ハードウェアおよび／またはソフトウェアの態様またはコンポーネントのいずれかまたはすべてを、ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、またはハードウェア、ソフトウェアおよび／またはファームウェアの任意の組み合わせで実施できることが考えられる。したがって、提供される例は、そのようなシステム、方法、装置、および／または製品を実施するための唯一の方法ではない。

追加的に、本明細書における「実施形態」に対する参照は、実施形態に関連して説明した特定の特徴、構造、または特性を、本発明の少なくとも１つの例示的な実施形態に含めることができることを意味する。本明細書の様々な箇所におけるこの語句の出現は、必ずしもすべてが同じ実施形態を参照しているわけではなく、他の実施形態と相互排他的な別個のまたは代替の実施形態でもない。このように、本明細書で説明された実施形態は、当業者によって明白かつ暗黙的に理解され、他の実施形態と組み合わせることができる。

本明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他のシンボル表現に関して広く示されており、それらは直接又は間接的にネットワークに接続されるデータ処理デバイスの動作に類似するものである。これらの処理説明および表現は、一般的に当業者によって使用され、それらの仕事の内容を他の当業者に最も効率良く伝えることができる。多くの具体的な内容が、本開示を理解するために提供されている。しかしながら、当業者にとって、本開示の特定の実施形態が特定の、具体的な詳細なしに実施され得ることは理解される。他の例では、周知の方法、手順、コンポーネント、および回路が、実施形態を不必要に曖昧にすることを避けるため、詳細に説明していない。したがって、本開示の範囲は、上記した実施形態よりむしろ添付された特許請求の範囲によって定義される。

添付の特許請求の範囲のいずれかが単にソフトウェア及び／又はファームウェアへの実装をカバーするように読み取ると、少なくとも１つの例における要素の１つ又は複数は、本明細書では、ソフトウェア及び／又はファームウェアを記憶する有形の非一時的な記憶媒体、例えば、メモリ、ＤＶＤ、ＣＤ、Ｂｌｕ−ｒａｙ（登録商標）等を含むことが明確に定められている。

Claims

第１ネットワークデバイス（６００）のための方法であって、
第１音声入力を検出するステップ、
第１ネットワークデバイス（６００）によって第１音声入力がどれくらい良く検出されたかを示す第１信頼度（８０６）を決定するステップ、
第２ネットワークデバイス（６００）によって第１音声入力がどれくらい良く検出されたかを示す第２信頼度（８０６）を含むメッセージ（８００）を受信するステップ、
第１音声入力に続く第２音声入力を検出するステップ、
第１信頼度（８０６）が第２信頼度（８０６）よりも大きいと決定するとき、第２音声入力をサーバに、第１ネットワークデバイスによって送信するステップ、
を含む、方法。
第１音声入力は、ウェイクワードである、請求項１に記載の方法。
第２音声入力は、
情報の要求、および
メディア再生システムの再生設定を変更するコマンド、
のうちの１つである、請求項１又は２に記載の方法。
第１信頼度（８０６）が第２信頼度（８０６）よりも大きくないとき、第１ネットワークデバイス（６００）は、受信した第２音声コマンドの記録を破棄する、請求項１〜３のいずれか一項に記載の方法。
少なくとも第１ネットワークデバイスと第２ネットワークデバイスとを含む複数のネットワークデバイス（６００）は、通信手段（５４６）を介して通信可能に接続されている、請求項１〜４のいずれか一項に記載の方法。
更に、
通信手段（５４６）に接続される複数のネットワークデバイス（６００）に、第１信頼度（８０６）を含む第２メッセージ（８００）を、第１ネットワークデバイス（６００）によって送信するステップ、
を含む、請求項５に記載の方法。
１つ又は複数のメッセージ（８００）は、更に、
第１音声入力に対応するウェイクワード識別子（８０２）、
ウェイクワードのスピーカーを識別する音声識別子（８０４）、および
サーバに第２音声入力を送信するかどうかを決定する前に、第２ネットワークデバイス（６００）がどれくらい待つのかを示す時間間隔（８０８）、
のうち少なくとも１つを含む、請求項１〜６のいずれか一項に記載の方法。
更に、
サーバに第２音声入力を送信する前に時間間隔（８０８）の満了を待つステップ、ここで第１音声入力の検出は、時間間隔（８０８）の開始をトリガする、
を含む、請求項１〜７のいずれか一項に記載の方法。
更に、
時間間隔（８０８）が満了するまで、各信頼度（８０６）を含む１つ又は複数の追加のメッセージ（８００）を受信するステップ、
第１信頼度（８０６）が、時間間隔（８０８）の満了前に受信したメッセージ（８００）のすべての信頼度（８０６）よりも大きいかどうかを決定するステップ、
第１信頼度（８０６）が受信した信頼度（８０６）よりも大きいとき、時間間隔（８０８）が満了すると、サーバに第２音声入力を送信するステップ、
を含む、請求項８に記載の方法。
時間間隔（８０８）の長さは、通信手段（５４６）に接続されるネットワークデバイス（６００）の数に応じて設定されており、接続されているネットワークデバイス（６００）の数が少なくなるほど、時間間隔（８０８）は短く設定され、接続されているネットワークデバイス（６００）の数が多くなるほど、時間間隔（８０８）は長く設定される、請求項５と組み合わされる請求項８又は９に記載の方法。
時間間隔（８０８）の長さは、ネットワークデバイス（６００）同士の接近度に基づいて設定されており、ネットワークデバイス（６００）同士が近いほど、時間間隔（８０８）は短く設定される、請求項８〜１０のいずれか一項に記載の方法。
時間間隔（８０８）は、２つのネットワークデバイス（６００）がサーバに第２音声入力を送信することなく、時間間隔（８０８）を最小にする学習アルゴリズムに基づいて調整される、請求項８〜１１のいずれか一項に記載の方法。
更に、
サーバから、第２音声入力に対する音声応答を受信するステップ、
音声応答を可聴的に再生するステップ、
を含む、請求項１〜１２のいずれか一項に記載の方法。
更に、
検出された第１音声入力に応答してオーディオ再生のボリュームを調整するステップ、
を含む、請求項１〜１３のいずれか一項に記載の方法。
更に、
第１ネットワークデバイス（６００）と同期してオーディオを再生している別のネットワークデバイス（６００）のオーディオ再生のボリュームの調整を引き起こすステップ、
を含む、請求項１〜１４のいずれか一項に記載の方法。
更に、
オーディオ再生が音楽再生であることを決定するステップ、
を含み、
音声入力の検出に応答してオーディオ再生のボリュームを調整するステップは、音楽再生をダッキングすること、を有する、
請求項４に記載の方法。
更に、
オーディオ再生がオーディオブックの再生であることを決定するステップ、
を含み、
音声入力の検出に応答してオーディオ再生のボリュームを調整するステップは、オーディオブックの再生を一時停止すること、を有する、
請求項４に記載の方法。
更に、
オーディオ再生のボリュームを調整前のボリューム設定に戻す通知を受信するステップ、
を含む、請求項１〜１７のいずれか一項に記載の方法。
第１信頼度が第２信頼度より大きくないとき、第１ネットワークデバイスは、第１音声入力の検出に応答してオーディオ再生のボリュームを調整せず、
第１信頼度が第２信頼度より大きいとき、第１ネットワークデバイスは、第１音声入力の検出に応答してオーディオ再生のボリュームを調整する、
請求項１〜１３のいずれか一項に記載の方法。
請求項１〜１９のいずれか一項に記載の方法をコンピュータに実行させるための命令を記憶したコンピュータ読み取り可能な記録媒体。
プロセッサ（６０２）、
メモリ（６０４）、
第１音声入力及び第２音声入力を検出するように構成された１つ又は複数のマイクロホン（６０６）、
プロセッサ（６０２）に請求項１〜１９のいずれか一項の方法を実行させるためにメモリ（６０４）に格納され、プロセッサ（６０２）によって実行可能なコンピュータ命令、
を備える、第１ネットワークデバイス（６００）。