JP2023553867A

JP2023553867A - ユーザ発話プロファイル管理

Info

Publication number: JP2023553867A
Application number: JP2023533713A
Authority: JP
Inventors: パク、ソ・ジン; ムン、ソンクク; キム、レ－フン; ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2020-12-08
Filing date: 2021-09-28
Publication date: 2023-12-26
Also published as: TW202223877A; EP4260314A1; CN116583899A; KR20230118089A; US20220180859A1; US11626104B2; WO2022126040A1

Abstract

デバイスは、第１の電力モードで、オーディオストリームが少なくとも２人の話者の発話に対応するかどうかを決定するように構成されたプロセッサを含む。プロセッサは、オーディオストリームが少なくとも２人の話者の発話に対応すると決定したことに基づいて、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析するように構成される。プロセッサは、オーディオ特徴量データセットがユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、話者同質オーディオセグメントの複数のオーディオ特徴量データセットのうちのオーディオ特徴量データセットとの比較を実行するように構成される。プロセッサは、オーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、複数のオーディオ特徴量データセットに基づいてユーザ発話プロファイルを生成するように構成される。

Description

関連出願の相互参照
[0001] 本出願は、内容全体が参照により本明細書に明確に組み込まれる、２０２０年１２月８日に出願された、同一出願人が所有する米国非仮特許出願第１７／１１５，１５８号の優先権の利益を主張する。

[0002] 本開示は、概して、ユーザ発話プロファイル（user speech profile）の管理に関する。

[0003] 技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で、軽量で、ユーザ（user）によって容易に持ち運ばれる、モバイルフォンおよびスマートフォンなどのワイヤレス電話、タブレットならびにラップトップコンピュータを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイス（device）は、ワイヤレスネットワークを介して音声とデータパケットとを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなどの追加の機能を組み込む。また、そのようなデバイスは、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのデバイスはかなりの計算能力を含むことができる。

[0004] そのようなコンピューティングデバイスは、しばしば、１つまたは複数のマイクロフォンからオーディオ信号を受信するための機能を組み込む。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザ発話、マイクロフォンによってキャプチャされた外部音、またはそれらの組合せを表し得る。そのようなデバイスは、たとえば、ユーザ認識のために、ユーザ発話プロファイルに依拠するアプリケーションを含み得る。ユーザ発話プロファイルは、ユーザに所定の単語または文のスクリプトを話させることによって訓練され得る。ユーザ発話プロファイルを生成するためのそのような能動的なユーザ登録は、時間がかかり、不便であり得る。

[0005] 本開示の一実装形態によれば、オーディオ分析（audio analysis）のためのデバイスは、メモリ（memory）と１つまたは複数のプロセッサ（processor）とを含む。メモリは、複数のユーザの複数のユーザ発話プロファイルを記憶するように構成される。１つまたは複数のプロセッサは、第１の電力モード（first power mode）で、オーディオストリーム（audio stream）が少なくとも２人の異なる話者（at least two distinct talkers）の発話（speech）に対応するかどうかを決定するように構成される。１つまたは複数のプロセッサはまた、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モード（second power mode）で、セグメンテーション結果（segmentation result）を生成するためにオーディオストリームのオーディオ特徴量データ（audio feature data）を分析する（analyze）ように構成される。セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメント（talker-homogenous audio segment）を示す。１つまたは複数のプロセッサは、第１の話者同質オーディオセグメント（first talker-homogenous audio segment）の第１の複数のオーディオ特徴量データセット（a first plurality of audio feature data sets）のうちの第１のオーディオ特徴量データセット（first audio feature data set）が複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較（comparison）を実行するようにさらに構成される。１つまたは複数のプロセッサはまた、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイル（first user speech profile）を生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行うように構成される。

[0006] 本開示の別の実装形態によれば、オーディオ分析の方法は、デバイスにおいて、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することを含む。本方法はまた、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析することを含む。セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメントを示す。本方法は、デバイスにおいて、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することをさらに含む。本方法はまた、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、デバイスにおいて、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、デバイスにおいて、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを含む。

[0007] 本開示の別の実装形態によれば、非一時的コンピュータ可読媒体（non-transitory computer-readable medium）は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することを行わせる命令（instruction）を含む。命令はまた、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析することを行わせる。セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメントを示す。命令は、１つまたは複数のプロセッサによって実行されたとき、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することを１つまたは複数のプロセッサにさらに行わせる。命令はまた、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行わせる。

[0008] 本開示の別の実装形態によれば、装置は、複数のユーザの複数のユーザ発話プロファイルを記憶するための手段を含む。本装置はまた、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定するための手段を含む。本装置は、セグメンテーション結果を生成するために、第２の電力モードで、オーディオストリームのオーディオ特徴量データを分析するための手段をさらに含む。オーディオ特徴量データは、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで分析される。セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメントを示す。本装置は、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行するための手段をさらに含む。本装置はまた、第１の複数のオーディオ特徴量データセットに基づいて、第１のユーザ発話プロファイルを生成するための手段を含む。第１のユーザ発話プロファイルは、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づいて生成される。本装置は、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加するための手段をさらに含む。

[0009] 本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明と、発明を実施するための形態と、特許請求の範囲とを含む、本出願全体を検討した後に明らかになろう。

[0010] 本開示のいくつかの例による、ユーザ発話プロファイル管理（user speech profile management）の特定の例示的な例のブロック図。 [0011] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なシステムの特定の例示的な態様の図。 [0012] 本開示のいくつかの例による、図２Ａのシステムの例示的な構成要素の図。 [0013] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0014] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0015] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0016] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0017] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0018] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0019] 本開示のいくつかの例による、ユーザ発話プロファイル管理に関連する動作の例示的な態様の図。 [0020] 本開示のいくつかの例による、図２Ａのシステムによって実行され得るユーザ発話プロファイル管理の方法の特定の実装形態の図。 [0021] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能な集積回路の一例を示す図。 [0022] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なモバイルデバイスの図。 [0023] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なヘッドセットの図。 [0024] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なウェアラブル電子デバイスの図。 [0025] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能な音声制御スピーカーシステムの図。 [0026] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能な仮想現実ヘッドセットまたは拡張現実ヘッドセットの図。 [0027] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なビークル（vehicle）の第１の例の図。 [0028] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能なビークルの第２の例の図。 [0029] 本開示のいくつかの例による、ユーザ発話プロファイル管理を実行するように動作可能であるデバイスの特定の例示的な例のブロック図。

[0030] ユーザが所定の単語または文のセットを話す能動的なユーザ登録を使用してユーザ発話プロファイルをトレーニングすることは、時間がかかり、不便であり得る。たとえば、ユーザは、前もって計画し、ユーザ発話プロファイルをトレーニングするのに時間をかけなければならない。本明細書で開示されるユーザ発話プロファイル管理のシステムおよび方法は、能動的なユーザ登録を使用することなく、複数の話者（talker）を区別することを可能にする。たとえば、１人または複数のユーザの発話に対応するオーディオストリームがセグメンタ（segmentor）によって受信される。セグメンタは、オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成する。本明細書で使用される「話者同質オーディオセグメント（talker-homogenous audio segment）」は、同じ話者の発話を表すオーディオ部分（たとえば、オーディオフレーム）を含む。たとえば、セグメンテーション結果は、同じ話者の発話を表すオーディオフレームのセットを識別する。プロファイルマネージャ（profile manager）は、オーディオ特徴量（audio feature）が複数の記憶されたユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、オーディオフレームのセットのうちのオーディオフレームのオーディオ特徴量を比較する。プロファイルマネージャは、オーディオ特徴量が、記憶されたユーザ発話プロファイルのいずれにも一致しないと決定したことに応答して、オーディオ特徴量に少なくとも部分的に基づいてユーザ発話プロファイルを生成する。代替的に、プロファイルマネージャは、オーディオ特徴量が、記憶されたユーザ発話プロファイルに一致すると決定したことに応答して、オーディオ特徴量に少なくとも部分的に基づいて、記憶されたユーザ発話プロファイルを更新する。したがって、ユーザ発話プロファイルは、たとえば、通話または会議中に、受動的な登録を使用して生成または更新され得る。プロファイルマネージャはまた、複数の話者間の会話中に複数のユーザ発話プロファイルを生成または更新することができる。特定の例では、プロファイルマネージャは、生成または更新された発話プロファイルのプロファイル識別子を１つまたは複数の追加のオーディオアプリケーションに提供する。たとえば、オーディオアプリケーションは、対応するテキストの話者を示すラベルを有するトランスクリプトを生成するために、オーディオストリームの発話－テキスト変換を実行することができる。

[0031] 本開示の特定の態様が、図面を参照しながら以下で説明される。説明では、共通の特徴は、図面全体にわたって共通の参照番号によって指定される。いくつかの図面では、特定のタイプの特徴の複数の事例が使用される。これらの特徴は、物理的および／または論理的に異なるが、同じ参照番号が各々に使用され、異なる事例は、参照番号への文字の追加によって区別される。グループまたはタイプとしての特徴が本明細書で参照されるとき（たとえば、特徴のうちの特定の１つが参照されていないとき）、参照番号は、区別する文字なしで使用される。しかしながら、同じタイプの複数の特徴のうちの１つの特定の特徴が本明細書で参照されるとき、参照番号は、区別する文字とともに使用される。たとえば、図１を参照すると、複数のフレームが、図示され、参照番号１０２Ａ、１０２Ｂ、および１０２Ｃに関連付けられている。フレーム１０２Ａなどの、これらのフレームのうちの特定の１つを参照するとき、区別する文字「Ａ」が使用される。しかしながら、これらのフレームの任意の１つまたはグループとしてこれらのフレームを参照するとき、参照番号１０２は、区別する文字なしで使用される。

[0032] 本明細書で使用される様々な用語は、特定の実装形態について説明するために使用されるにすぎず、実装形態を限定するように意図されない。たとえば、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別段に明確に示さない限り、複数形を同様に含むものとする。さらに、本明細書で説明されるいくつかの特徴は、いくつかの実装形態では単数であり、他の実装形態では複数である。例示のために、図２Ａは、１つまたは複数のプロセッサ（図２Ａの「プロセッサ」２２０）を含むデバイス２０２を示し、これは、いくつかの実装形態では、デバイス２０２が単一のプロセッサ２２０を含み、他の実装形態では、デバイス２０２が複数のプロセッサ２２０を含むことを示す。本明細書での参照を容易にするために、そのような特徴は、概して、「１つまたは複数の」特徴として導入され、その後、複数の特徴に関係する態様が説明されていない限り、単数形で参照される。

[0033] 本明細書で使用される「備える（comprise）」、「備える（comprises）」、および「備える（comprising）」という用語は、「含む（include）」、「含む（includes）」、または「含む（including）」と互換的に使用され得る。追加として、「ここにおいて（wherein）」という用語は、「ここで（where）」と互換的に使用され得る。本明細書で使用される「例示的」は、例、実装形態、および／または態様を示し、限定的として、または選好もしくは好適な実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を修飾するために使用される序数語（たとえば、「第１の」、「第２の」、「第３の」など）は、別の要素に対するその要素の優先順位または順序をそれ自体によって示さず、（序数語の使用を別にすれば）むしろ同じ名前を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット」という用語は、特定の要素のうちの１つまたは複数を指し、「複数」という用語は、特定の要素のうちの複数（たとえば、２つ以上）を指す。

[0034] 本明細書で使用される「結合される（coupled）」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含み得、また（あるいは代替的に）、それらの任意の組合せを含み得る。２つのデバイス（または構成要素）は、１つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク（たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ）などを介して直接または間接的に結合（たとえば、通信可能に結合、電気的に結合、または物理的に結合）され得る。電気的に結合される２つのデバイス（または構成要素）は、同じデバイスまたは異なるデバイスに含まれることがあり、例示的な非限定的な例として、電子機器、１つもしくは複数のコネクタ、または誘導結合を介して接続されることがある。いくつかの実装形態では、電気通信などで通信可能に結合される２つのデバイス（または構成要素）は、１つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に信号（たとえば、デジタル信号またはアナログ信号）を送信および受信し得る。本明細書で使用される「直接結合される」は、介在する構成要素なしに結合される（たとえば、通信可能に結合される、電気的に結合される、または物理的に結合される）２つのデバイスを含み得る。

[0035] 本開示では、「決定すること（determining）」、「計算すること（calculating）」、「推定すること（estimating）」、「シフトすること（shifting）」、「調整すること（adjusting）」などの用語は、１つまたは複数の動作がどのように実施されるかを表すために使用され得る。そのような用語が限定的なものと解釈されるべきではなく、他の技法が、同様の動作を実施するために利用され得ることに留意されたい。追加として、本明細書で言及されるように、「生成すること（generating）」、「計算すること」、「推定すること」、「使用すること（using）」、「選択すること（selecting）」、「アクセスすること（accessing）」、および「決定すること」は、互換的に使用され得る。たとえば、パラメータ（または、信号）を「生成すること」、「計算すること」、「推定すること」、または「決定すること」は、パラメータ（または、信号）を能動的に生成すること、推定すること、計算すること、または決定することを指すことがあるか、あるいは、別の構成要素またはデバイスによってなど、すでに生成されているパラメータ（または、信号）を使用すること、選択すること、またはそれにアクセスすることを指すことがある。

[0036] 図１は、ユーザ発話プロファイル管理の例１００を示す。例１００において、セグメンタ１２４およびプロファイルマネージャ１２６は、話者の能動的なユーザ登録を使用することなく、複数の話者の発話を区別するためにオーディオストリーム１４１を処理するように協働する。

[0037] オーディオストリーム１４１は、図１においてフレーム１０２Ａ、１０２Ｂ、１０２Ｃとして表される複数の別個の部分を含む。この例では、各フレーム１０２は、オーディオストリーム１４１のオーディオの一部分を表すか、または符号化する。例示のために、各フレーム１０２は、オーディオストリームのオーディオの１／２秒を表し得る。他の例では、異なるサイズまたは持続時間のフレームが使用され得る。

[0038] オーディオストリーム１４１は、セグメンタ１２４への入力として提供される。セグメンタ１２４は、オーディオストリーム１４１をセグメント（segment）に分割することと、各セグメントを、単一の話者（single talker）の発話、複数の話者の発話、または無音（silence）を含むものとして識別することを行うように構成される。たとえば、図１において、セグメンタ１２４は、話者同質オーディオセグメント１１１Ａを共に形成するオーディオ部分（audio portion）１５１Ａの第１のセットを識別している。同様に、セグメンタ１２４は、第２の話者同質オーディオセグメント１１１Ｂを共に形成するオーディオ部分１５１Ｃの第２のセットを識別している。セグメンタ１２４はまた、無音または混合話者オーディオセグメント（mixed talker audio segment）１１３を共に形成するオーディオ部分１５１Ｂのセットを識別している。無音または混合話者オーディオセグメント１１３は、複数の話者の発話を含む音、または発話を含まない音（たとえば、無音または非発話ノイズ）を表す。

[0039] 特定の例では、以下でより詳細に説明されるように、セグメンタ１２４は、話者セグメンテーション（speaker segmentation）を実行するようにトレーニングされる１つまたは複数の機械学習セグメンテーションモデル（たとえば、ニューラルネットワーク）を使用することによって、オーディオストリーム１４１をセグメントに分割する。この例では、話者の事前登録は必要とされない。むしろ、セグメンタ１２４は、オーディオストリーム１４１の異なるオーディオフレーム間の話者特性を比較することによって、２人以上の以前に知られていない話者を区別するようにトレーニングされる。セグメンタ１２４が区別することができる話者の特定の数は、機械学習セグメンテーションモデルの構成およびトレーニングに依存する。例示すると、特定の態様では、セグメンタ１２４は、３人の話者を区別するように構成されることがあり、この場合、機械学習セグメンテーションモデルは、話者１出力ノードと、話者２出力ノードと、話者３出力ノードと、無音出力ノードと、混合出力ノードとに対応する５つの出力レイヤノードを含み得る。この態様では、各出力ノードは、分析されているオーディオ部分１５１のセットがそれぞれの出力ノードに関連付けられる尤度（likelihood）を示すセグメンテーションスコア（segmentation score）を出力として生成するようにトレーニングされる。例示すると、話者１出力ノードは、オーディオ部分１５１のセットが第１の話者（first talker）の発話を表すことを示すセグメンテーションスコアを生成し、話者２出力ノードは、オーディオ部分１５１のセットが第２の話者の発話を表すことを示すセグメンテーションスコアを生成し、以下同様である。

[0040] 特定の実装形態では、セグメンタ１２４が３人の話者を区別するように構成されるとき、機械学習セグメンテーションモデルは４つの出力レイヤノードを含み得る。たとえば、４つの出力レイヤノードは、話者１出力ノードと、話者２出力ノードと、話者３出力ノードと、無音出力ノードとを含み、混合出力ノードを含まない。この実装形態では、混合発話は、オーディオ部分１５１のセットが対応する話者の発話を表すことを示す複数の話者出力ノードのセグメンテーションスコアによって示される。

[0041] 特定の実装形態では、セグメンタ１２４が３人の話者を区別するように構成されるとき、機械学習セグメンテーションモデルは３つの出力レイヤノードを含み得る。たとえば、３つの出力レイヤノードは、話者１出力ノードと、話者２出力ノードと、話者３出力ノードとを含み、無音出力ノードを含まない。この実装形態では、無音は、オーディオ部分１５１のセットが対応する話者の発話を表さないことを示す話者出力ノードの各々のセグメンテーションスコアによって示される。例示すると、無音は、オーディオ部分１５１のセットが第１の話者の発話を表さないことを示すセグメンテーションスコアを話者１出力ノードが生成し、オーディオ部分１５１のセットが第２の話者の発話を表さないことを示すセグメンテーションスコアを話者２出力ノードが生成し、オーディオ部分１５１のセットが第３の話者の発話を表さないことを示すセグメンテーションスコアを話者３出力ノードが生成するときに示される。いくつかの態様では、本明細書で使用される「無音」は、「非発話ノイズ」などの、「発話の不在」を指す可能性がある。

[0042] 話者同質オーディオセグメント１１１のオーディオ部分１５１の各々は、オーディオストリーム１４１の複数のフレーム１０２を含む。例示すると、オーディオ部分１５１Ａの各々は、５秒の音を表す１０個のオーディオフレーム１０２を含み得る。他の例では、異なる数のフレームが、各オーディオ部分に含まれるか、または、フレームが、各オーディオ部分１５１Ａが１０秒を超えるまたは１０秒未満の音を表す異なるサイズのものである。追加として、各話者同質音声セグメント１１１は、複数のオーディオ部分１５１を含む。話者同質オーディオセグメント１１１当りのオーディオ部分１５１の数は可変である。たとえば、話者同質オーディオセグメント１１１は、無音の期間（たとえば、しきい値持続時間の無音）、または別の話者の発話などによって、話者の発話が割り込まれるまで継続し得る。

[0043] セグメンタ１２４は、話者同質オーディオセグメント１１１を識別するセグメンテーション結果を、プロファイルマネージャ１２６に提供する。プロファイルマネージャは、メモリ中にユーザ発話プロファイル（ＵＳＰ：user speech profile）１５０を維持する。各ユーザ発話プロファイル１５０は、プロファイル識別子（ＩＤ）１５５に関連付けられる。特定の態様では、プロファイルＩＤ１５５およびユーザ発話プロファイル１５０は、プロファイルマネージャ１２６によって生成される（たとえば、プロファイルＩＤ１５５およびユーザ発話プロファイル１５０は、ユーザの事前登録に基づかない）。

[0044] セグメンテーション結果に応答して、プロファイルマネージャ１２６は、話者同質オーディオセグメント１１１のオーディオ部分１５１をユーザ発話プロファイル１５０と比較する。オーディオ部分１５１がユーザ発話プロファイル１５０のうちの１つに一致する（たとえば、それに十分に類似している）場合、プロファイルマネージャ１２６は、オーディオ部分１５１に基づいてユーザ発話プロファイル１５０を更新する。たとえば、話者同質オーディオセグメント１１１Ａのオーディオ部分１５１Ａがユーザ発話プロファイル１５０Ａに十分に類似している場合、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ａを更新するためにオーディオ部分１５１Ａを使用する。

[0045] オーディオ部分１５１がユーザ発話プロファイル１５０のいずれにも一致しない場合、プロファイルマネージャ１２６は、オーディオ部分１５１に基づいてユーザ発話プロファイル１５０を追加する。たとえば、図１では、プロファイルマネージャ１２６は、話者同質オーディオセグメント１１１Ｃのオーディオ部分１５１Ｃに基づいてユーザ発話プロファイル１５０Ｃを生成し、ユーザ発話プロファイル１５０ＣにプロファイルＩＤ１５５Ｃを割り当てる。

[0046] プロファイルマネージャ１２６はまた、オーディオストリーム１４１中の話者または話者変更を示す出力を生成する。たとえば、出力は、話者同質オーディオセグメント１１１に一致するユーザ発話プロファイル１５０のプロファイルＩＤ１５５を含み得る。話者または話者変更に基づいて結果を生成する、１つまたは複数のオーディオ分析アプリケーション（audio analysis application）１８０。たとえば、オーディオ分析アプリケーション１８０は、テキストを生成するために検出された発話を書き起こすことがあり、話者の変更がいつ発生したかをテキスト中で示し得る。

[0047] 図２Ａを参照すると、ユーザ発話プロファイル管理を実行するように構成されたシステムの特定の例示的な態様が、開示され、全体的に２００と指定される。システム２００は、マイクロフォン２４６に結合されるデバイス２０２を含む。デバイス２０２は、図１のセグメンタ１２４およびプロファイルマネージャ１２６を使用して、ユーザ発話プロファイル管理を実行するように構成される。ある特定の態様では、デバイス２０２は、特徴量抽出器（feature extractor）２２２、セグメンタ１２４、プロファイルマネージャ１２６、話者検出器（talker detector）２７８、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せを含む１つまたは複数のプロセッサ２２０を含む。

[0048] 特徴量抽出器２２２は、オーディオストリームのオーディオ部分（たとえば、オーディオフレーム）の特徴量を表すオーディオ特徴量データセットを生成するように構成される。セグメンタ１２４は、同じ話者の発話を表すオーディオ部分（またはオーディオ特徴量データセット）を示すように構成される。プロファイルマネージャ１２６は、同じ話者の発話を表すオーディオ部分（またはオーディオ特徴量データセット）に基づいてユーザ発話プロファイルを生成（または更新）するように構成される。話者検出器２７８は、オーディオストリーム中で検出された話者のカウント（a count of talkers detected
）を決定するように構成される。特定の実装形態では、話者検出器２７８は、オーディオストリーム中の複数の話者を検出したことに応答してセグメンタ１２４をアクティブ化する（activate）ように構成される。この実装形態では、セグメンタ１２４は、話者検出器２７８がオーディオストリーム中の単一の話者を検出し、プロファイルマネージャ１２６が単一の話者に対応するユーザ発話プロファイルを生成（または更新）するときにバイパスされる。特定の実装形態では、１つまたは複数のオーディオ分析アプリケーション１８０は、ユーザ発話プロファイルに基づいてオーディオ分析を実行するように構成される。

[0049] 特定の態様では、デバイス２０２は、１つまたは複数のプロセッサ２２０に結合されたメモリ２３２を含む。特定の態様では、メモリ２３２は、バッファ２６８などの１つまたは複数のバッファを含む。メモリ２３２は、セグメンテーションしきい値２５７（図２Ａの「セグメントしきい値」）などの１つまたは複数のしきい値を記憶するように構成される。特定の態様では、１つまたは複数のしきい値は、ユーザ入力、構成設定値、デフォルトデータ、またはそれらの組合せに基づく。

[0050] 特定の態様では、メモリ２３２は、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せによって生成されたデータを記憶するように構成される。たとえば、メモリ２３２は、複数のユーザ２４２の複数のユーザ発話プロファイル１５０、セグメンテーション結果２３６（図２Ａの「セグメンテーション結果」）、オーディオ特徴量データセット（audio feature data set）２５２、オーディオ部分１５１、セグメンテーションスコア２５４（図２Ａの「セグメンテーションスコア」）、データセットセグメンテーション結果２５６（図２Ａの「データセットセグメンテーション結果」）、プロファイルＩＤ１５５、またはそれらの組合せを記憶するように構成される。メモリ２３２は、プロファイル更新データ（profile update data）２７２、ユーザ対話データ（user interaction data）２７４（図２Ａの「ユーザ対話データ」）、またはそれらの組合せを記憶するように構成される。

[0051] デバイス２０２は、モデム、ネットワークインターフェース、入力インターフェースを介して、またはマイクロフォン２４６から、オーディオストリーム１４１を受信するように構成される。特定の態様では、オーディオストリーム１４１は、１つまたは複数のオーディオ部分１５１を含む。たとえば、オーディオストリーム１４１は、オーディオ部分１５１に対応するオーディオフレームのセットに分割されることがあり、各オーディオフレームは、オーディオストリーム１４１の時間ウィンドウ化された部分を表す。他の例では、オーディオストリーム１４１は、オーディオ部分１５１を生成するために別の方法で分割され得る。オーディオストリーム１４１の各オーディオ部分１５１は、無音、ユーザ２４２のうちの１人または複数の発話、または他の音を含むか、または表す。単一のユーザの発話を表すオーディオ部分１５１のセットは、話者同質オーディオセグメント１１１と呼ばれる。各話者同質オーディオセグメント１１１は、複数のオーディオ部分１５１（たとえば、複数のオーディオフレーム）を含む。特定の態様では、話者同質オーディオセグメント１１１は、少なくともしきい値カウントのオーディオフレーム（たとえば、５つのオーディオフレーム）を含む。特定の態様では、話者同質オーディオセグメント１１１は、同じユーザの発話に対応するオーディオ部分１５１の連続するセットを含む。特定の態様では、オーディオ部分１５１の連続するセットは、オーディオ部分１５１の１つまたは複数のサブセットを含むことがあり、各サブセットは、発話時の自然な短い休止を示すしきい値よりも小さい無音に対応する。

[0052] オーディオストリーム１４１は、話者同質オーディオセグメント、無音に対応するオーディオセグメント、複数の話者に対応するオーディオセグメント、またはそれらの組合せの様々な組合せを含むことができる。一例として、図２Ａでは、オーディオストリーム１４１は、ユーザ２４２Ａの発話に対応する話者同質オーディオセグメント１１１Ａのオーディオ部分１５１Ａと、無音（または非発話ノイズ）に対応するオーディオセグメント１１３のオーディオ部分１５１Ｂと、ユーザ２４２Ｂの発話に対応する話者同質オーディオセグメント１１１Ｂのオーディオ部分１５１Ｃとを含む。他の例では、オーディオストリーム１１４は、オーディオセグメントの異なるセットまたは配置を含む。オーディオ部分はオーディオフレームを指すものとして説明されるが、他の実装形態では、オーディオ部分は、オーディオフレームの一部分、複数のオーディオフレーム、特定の発話もしくは再生持続時間に対応するオーディオデータ、またはそれらの組合せを指す。

[0053] 特徴量抽出器２２２は、オーディオ特徴量データセット２５２を生成するために、オーディオストリーム１４１のオーディオ特徴量を抽出（たとえば、決定）するように構成される。たとえば、特徴量抽出器２２２は、オーディオ特徴量データセット（ＡＦＤＳ：audio feature data set）２５２を生成するために、オーディオストリーム１４１のオーディオ部分１５１のオーディオ特徴量を抽出するように構成される。特定の態様では、オーディオ特徴量データセット２５２は、埋め込みベクトルなどのオーディオ特徴量ベクトルを含む。特定の態様では、オーディオ特徴量データセット２５２は、オーディオ部分１５１のメル周波数ケプストラム係数（ＭＦＣＣ：mel-frequency cepstral coefficient）を示す。特定の例では、特徴量抽出器２２２は、オーディオ部分１５１Ａのオーディオ特徴量を抽出することによって、１つまたは複数のオーディオ特徴量データセット２５２Ａを生成する。特徴量抽出器２２２は、オーディオ部分１５１Ｂのオーディオ特徴量を抽出することによって、１つまたは複数のオーディオ特徴量データセット２５２Ｂを生成する。特徴量抽出器２２２は、オーディオ部分１５１Ｃのオーディオ特徴量を抽出することによって、１つまたは複数のオーディオ特徴量データセット２５２Ｃを生成する。オーディオ特徴量データセット２５２は、１つまたは複数のオーディオ特徴量データセット２５２Ａ、１つまたは複数のオーディオ特徴量データセット２５２Ｂ、１つまたは複数のオーディオ特徴量データセット２５２Ｃ、またはそれらの組合せを含む。

[0054] 例示的な例では、特徴量抽出器２２２は、オーディオストリーム１４１の各フレームのオーディオ特徴量を抽出し、各フレームのオーディオ特徴量をセグメンタ１２４に提供する。特定の態様では、セグメンタ１２４は、特定の数のオーディオフレーム（たとえば、１０個のオーディオフレーム）のオーディオ特徴量のセグメンテーションスコア（たとえば、セグメンテーションスコア２５４）のセットを生成するように構成される。たとえば、オーディオ部分１５１は、特定の数のオーディオフレーム（たとえば、１０個のオーディオフレーム）を含む。特定の数のオーディオフレーム（たとえば、セグメンテーションスコアの特定のセットを生成するためにセグメンタ１２４によって使用される）のオーディオ特徴量は、オーディオ特徴量データセット２５２に対応する。たとえば、特徴量抽出器２２２は、第１０のオーディオフレームの第１０のオーディオ特徴量を含む、第１のオーディオフレームの第１のオーディオ特徴量、第２のオーディオフレームの第２のオーディオ特徴量などを抽出する。セグメンタ１２４は、第１０のオーディオ特徴量を含む、第１のオーディオ特徴量、第２のオーディオ特徴量などに基づいて、第１のセグメンテーションスコア２５４を生成する。たとえば、第１のオーディオ特徴量、第２のオーディオ特徴量、および第１０のオーディオ特徴量までは、第１のオーディオ特徴量データセット２５２に対応する。同様に、特徴量抽出器２２２は、第２０のオーディオフレームの第２０のオーディオ特徴量を含む、第１１のオーディオフレームの第１１のオーディオ特徴量、第１２のオーディオフレームの第１２のオーディオ特徴量などを抽出する。セグメンタ１２４は、第２０のオーディオ特徴量を含む、第１１のオーディオ特徴量、第１２のオーディオ特徴量などに基づいて、第２のセグメンテーションスコア２５４を生成する。たとえば、第１１のオーディオ特徴量、第１２のオーディオ特徴量、および第２０のオーディオ特徴量までは、第２のオーディオ特徴量データセット２５２に対応する。１０個のオーディオフレームに基づいてセグメンテーションスコアのセットを生成することは、例示的な例として提供されることを理解されたい。他の例では、セグメンタ１２４は、１０個よりも少ないまたは１０個よりも多いオーディオフレームに基づいてセグメンテーションスコアのセットを生成する。たとえば、オーディオ部分１５１は、１０個よりも少ないまたは１０個よりも多いオーディオフレームを含む。

[0055] セグメンタ１２４は、各オーディオ特徴量データセットについてセグメンテーションスコア（たとえば、セグメンテーションスコア２５４）のセットを生成するように構成される。たとえば、セグメンタ１２４へのオーディオ特徴量データセット２５２の入力に応答して、セグメンタ１２４は、複数のセグメンテーションスコア２５４を生成する。オーディオ特徴量データセット２５２に応答して生成されるセグメンテーションスコア２５４の数は、セグメンタ１２４が区別するようにトレーニングされる話者の数に依存する。一例として、セグメンタ１２４は、Ｋ個のセグメンテーションスコア２５４のセットを生成することによって、Ｋ人の異なる話者の発話を区別するように構成される。この例では、各セグメンテーションスコア２５４は、セグメンタ１２４に入力されたオーディオ特徴量データセットが対応する話者の発話を表す確率を示す。例示すると、セグメンタ１２４が、話者２９２Ａ、話者２９２Ｂ、および話者２９２Ｃなどの３人の異なる話者の発話を区別するように構成されるとき、Ｋは３に等しい。この例示的な例では、セグメンタ１２４は、セグメンタ１２４に入力された各オーディオ特徴量データセット２５２について、セグメンテーションスコア２５４Ａ、セグメンテーションスコア２５４Ｂ、およびセグメンテーションスコア２５４Ｃなどの３つのセグメンテーションスコア２５４を出力するように構成される。この例示的な例では、セグメンテーションスコア２５４Ａは、オーディオ特徴量データセット２５２が話者２９２Ａの発話を表す確率を示し、セグメンテーションスコア２５４Ｂは、オーディオ特徴量データセット２５２が話者２９２Ｂの発話を表す確率を示し、セグメンテーションスコア２５４Ｃは、オーディオ特徴量データセット２５２が話者２９２Ｃの発話を表す確率を示す。他の例では、セグメンタ１２４が区別するように構成される話者のカウント（上記の例ではＫ）は、３よりも大きいか、または３よりも小さい。

[0056] 話者２９２は、セグメンタ１２４によって、たとえば、セグメンテーションウィンドウの間に、直近に検出された話者のセットに対応する。特定の態様では、話者２９２は、セグメンタ１２４によって区別されるために事前登録される必要はない。セグメンタ１２４は、事前登録されていない複数のユーザの発話を区別することによって、複数のユーザの受動的な登録を可能にする。セグメンテーションウィンドウは、オーディオ部分の特定のカウント（たとえば、２０個のオーディオフレーム）、特定の時間ウィンドウ（たとえば、２０ミリ秒）の間にセグメンタ１２４によって処理されたオーディオ部分、または特定の発話持続時間（speech duration）もしくは再生持続時間に対応するオーディオ部分までを含む。

[0057] 図２Ａに示される例では、オーディオストリーム１４１のオーディオ部分１５１の特徴量を表すオーディオ特徴量データセット２５２は、セグメンタ１２４への入力として提供され得る。この例では、オーディオ特徴量データセット２５２は、ユーザ２４２Ａの発話を表すオーディオ特徴量データセット２５２Ａ、無音を表すオーディオ特徴量データセット２５２Ｂ、およびユーザ２４２Ｂの発話を表すオーディオ特徴量データセット２５２Ｃなどの、ユーザ２４２のうちの２人以上の発話を表す。特定の実装形態では、セグメンタ１２４は、ユーザ２４２に関する事前情報を有しない。たとえば、ユーザ２４２は、デバイス２０２に事前登録されていない。オーディオ特徴量データセット２５２の入力に応答して、セグメンタ１２４は、セグメンテーションスコア２５４Ａと、セグメンテーションスコア２５４Ｂと、セグメンテーションスコア２５４Ｃとを出力する。各セグメンテーションスコア２５４は、オーディオ特徴量データセット２５２がそれぞれの話者２９２の発話を表す確率を示し、セグメンテーションスコア２５４の各々は、セグメンテーションしきい値２５７と比較される。オーディオ特徴量データセット２５２のセグメンテーションスコア２５４の１つがセグメンテーションしきい値２５７を満たす場合、対応する話者２９２の発話は、オーディオ特徴量データセット２５２中で検出されたものとして示される。例示すると、オーディオ特徴量データセット２５２のセグメンテーションスコア２５４Ａがセグメンテーションしきい値２５７を満たす場合、話者２９２Ａの発話は、オーディオ特徴量データセット２５２（およびオーディオ特徴量データセット２５２によって表されるオーディオ部分１５１）中で検出されたものとして示される。同様の動作は、オーディオ特徴量データセット２５２Ａ、オーディオ特徴量データセット２５２Ｂ、およびオーディオ特徴量データセット２５２Ｃの各々について実行される。

[0058] セグメンタ１２４は、セグメンテーションウィンドウの間に、未知のユーザ（オーディオ特徴量データセット２５２によって表される発話に関連付けられる、セグメンタ１２４に知られていないユーザ２４２など）のプレースホルダとして話者２９２を使用する。たとえば、オーディオ特徴量データセット２５２Ａは、ユーザ２４２Ａの発話に対応する。セグメンタ１２４は、オーディオ特徴量データセット２５２Ａが、話者２９２Ａの発話（たとえば、ユーザ２４２Ａのプレースホルダ）に対応することを示すために、セグメンテーションしきい値２５７を満たすオーディオ特徴量データセット２５２Ａの各々のセグメンテーションスコア２５４Ａを生成する。別の例として、オーディオ特徴量データセット２５２Ｃは、ユーザ２４２Ｂの発話に対応する。セグメンタ１２４は、オーディオ特徴量データセット２５２Ｃが、話者２９２Ｂの発話（たとえば、ユーザ２４２Ｂのプレースホルダ）に対応することを示すために、セグメンテーションしきい値２５７を満たすオーディオ特徴量データセット２５２Ｃの各々のセグメンテーションスコア２５４Ｂを生成する。

[0059] 特定の実装形態では、セグメンタ１２４は、話者２９２Ａ（たとえば、ユーザ２４２Ａ）の発話がセグメンテーションウィンドウの持続時間にわたって検出されなかったとき、たとえば、話者２９２Ａに関連付けられた以前の発話を検出してからしきい値持続時間が満了したとき、別のユーザ（たとえば、ユーザ２４２Ｃ）のプレースホルダとして話者２９２Ａ（たとえば、セグメンテーションスコア２５４Ａ）を再使用し得る。セグメンタ１２４は、話者プレースホルダに関連付けられた以前のユーザがセグメンテーションウィンドウの間に話していなかったとき、別のユーザの話者プレースホルダを再使用することによって、オーディオストリーム１４１中の所定のカウントを超える話者（たとえば、Ｋ人を超える話者）に関連付けられた発話を区別することができる。特定の実装形態では、セグメンタ１２４は、話者２９２Ａ（たとえば、ユーザ２４２Ａ）、話者２９２Ｂ（たとえば、ユーザ２４２Ｂ）、および話者２９２Ｃ（たとえば、ユーザ２４２Ｃ）の各々の発話が、セグメンテーションウィンドウ内で検出されたと決定し、別のユーザ（たとえば、ユーザ２４２Ｄ）に関連付けられた発話が検出されたと決定したことに応答して、話者２９２Ａ（たとえば、ユーザ２４２Ａ）の発話が最も以前に検出されたと決定したことに基づいて、話者プレースホルダ（たとえば、話者２９２Ａ）を再使用する。

[0060] 特定の態様では、セグメンタ１２４は、ニューラルネットワークなどのトレーニングされた機械学習システムを含むか、またはそれに対応する。たとえば、オーディオ特徴量データセット２５２を分析することは、話者セグメンテーションニューラルネットワーク（speaker segmentation neural network）（または別の機械学習ベースのシステム）をオーディオ特徴量データセット２５２に適用することを含む。

[0061] 特定の態様では、セグメンタ１２４は、セグメンテーションスコア２５４に基づいてデータセットセグメンテーション結果２５６を生成する。データセットセグメンテーション結果２５６は、オーディオ部分１５１中で検出された話者２９２（もしあれば）を示す。たとえば、セグメンタ１２４によって出力されたデータセットセグメンテーション結果２５６は、話者２９２のセグメンテーションスコア２５４がセグメンテーションしきい値２５７を満たす（たとえば、それよりも大きい）と決定したことに応答して、話者２９２の発話が検出されたことを示す。例示すると、オーディオ特徴量データセット２５２のセグメンテーションスコア２５４Ａがセグメンテーションしきい値２５７を満たすとき、セグメンタ１２４は、話者２９２Ａの発話がオーディオ部分１５１中で検出されたことを示す、オーディオ特徴量データセット２５２についてのデータセットセグメンテーション結果２５６（たとえば、「１」）を生成する。別の例では、オーディオ特徴量データセット２５２のセグメンテーションスコア２５４Ａおよびセグメンテーションスコア２５４Ｂの各々がセグメンテーションしきい値２５７を満たすとき、セグメンタ１２４は、話者２９２Ａおよび話者２９２Ｂ（たとえば、複数の話者）の発話がオーディオ部分１５１中で検出されたことを示すために、オーディオ特徴量データセット２５２についてのデータセットセグメンテーション結果２５６（たとえば、「１、２」）を生成する。特定の例では、オーディオ特徴量データセット２５２のセグメンテーションスコア２５４Ａ、セグメンテーションスコア２５４Ｂ、およびセグメンテーションスコア２５４Ｃの各々がセグメンテーションしきい値２５７を満たさないとき、セグメンタ１２４は、無音（または非発話オーディオ）がオーディオ部分１５１中で検出されたことを示すために、オーディオ特徴量データセット２５２についてのデータセットセグメンテーション結果２５６（たとえば、「０」）を生成する。オーディオ部分１５１（またはオーディオ特徴量データセット２５２）についてのセグメンテーション結果２３６は、オーディオ部分１５１（またはオーディオ特徴量データセット２５２）のセグメンテーションスコア２５４、データセットセグメンテーション結果２５６、またはその両方を含む。

[0062] セグメンタ１２４は、オーディオ部分１５１（たとえば、オーディオ特徴量データセット２５２）のセグメンテーション結果２３６をプロファイルマネージャ１２６に提供するように構成される。プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が複数のユーザ発話プロファイル１５０のいずれにも一致しないと決定したことに応答して、オーディオ特徴量データセット２５２に少なくとも部分的に基づいてユーザ発話プロファイル１５０を生成するように構成される。特定の態様では、プロファイルマネージャ１２６は、話者同質オーディオセグメント１１１に基づいてユーザ発話プロファイル１５０を生成するように構成される。たとえば、プロファイルマネージャ１２６は、話者同質オーディオセグメント１１１Ａのオーディオ特徴量データセグメント１５２Ａに基づいて、話者２９２Ａについてのユーザ発話プロファイル１５０Ａ（たとえば、ユーザ２４２Ａのプレースホルダ）を生成するように構成される。ユーザ発話プロファイル１５０Ａは、ユーザ２４２Ａの発話を表す（たとえば、モデル化する）。代替的に、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２がユーザ発話プロファイル１５０に一致すると決定したことに応答して、オーディオ特徴量データセット２５２に基づいてユーザ発話プロファイル１５０を更新するように構成される。たとえば、プロファイルマネージャ１２６は、後続のオーディオ部分についてのユーザ２４２Ａのプレースホルダとしてどの話者２９２が使用されるかとは無関係に、ユーザ発話プロファイル１５０Ａに一致する後続のオーディオ部分に基づいて、ユーザ２４２Ａの発話を表すユーザ発話プロファイル１５０Ａを更新するように構成される。特定の態様では、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０を生成または更新したことに応答して、ユーザ発話プロファイル１５０のプロファイルＩＤ１５５を出力する。

[0063] 特定の実装形態では、話者検出器２７８は、オーディオストリーム１４１から抽出されたオーディオ特徴量に基づいて、オーディオストリーム１４１中で検出された話者のカウントを決定するように構成される。特定の態様では、話者検出器２７８は、特徴量抽出器２２２によって抽出されたオーディオ特徴量データセット２５２に基づいて話者のカウントを決定する。たとえば、話者のカウントを決定するために話者検出器２７８によって使用されるオーディオ特徴量は、セグメンテーション結果２３６を生成するためにセグメンタ１２４によって使用され、ユーザ発話プロファイル１５０を生成または更新するためにプロファイルマネージャ１２６によって使用されるオーディオ特徴量と同じであり得る。代替の態様では、話者検出器２７８は、特徴量抽出器２２２とは異なる第２の特徴量抽出器によって抽出されたオーディオ特徴量に基づいて話者のカウントを決定する。この態様では、話者のカウントを決定するために話者検出器２７８によって使用されるオーディオ特徴量は、セグメンテーション結果２３６を生成するためにセグメンタ１２４によって使用され、ユーザ発話プロファイル１５０を生成または更新するためにプロファイルマネージャ１２６によって使用されるオーディオ特徴量と異なり得る。特定の態様では、話者検出器２７８は、オーディオストリーム１４１中の少なくとも２人の異なる話者を検出したことに応答して、セグメンタ１２４をアクティブ化する。たとえば、セグメンタ１２４は、複数の話者がオーディオストリーム１４１中で検出されたとき、オーディオ特徴量データセット２５２を処理する。代替的に、話者検出器２７８がオーディオストリーム１４１中の単一の話者の発話を検出したとき、セグメンタ１２４はバイパスされ、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０を生成または更新するために、オーディオ特徴量データセット２５２を処理する。

[0064] いくつかの実装形態では、デバイス２０２は、１つまたは様々なタイプのデバイスに対応するか、またはそれに含まれる。例示的な例では、１つまたは複数のプロセッサ２２０は、たとえば、図１３を参照しながらさらに説明される、マイクロフォン２４６を含むヘッドセットデバイスに統合される。他の例では、１つまたは複数のプロセッサ２２０は、図１２を参照しながら説明されるモバイルフォンもしくはタブレットコンピュータデバイス、図１４を参照しながら説明されるウェアラブル電子デバイス、図１５を参照しながら説明される音声制御スピーカーシステム、または図１６を参照しながら説明される仮想現実ヘッドセットもしくは拡張現実ヘッドセットのうちの少なくとも１つに統合される。別の例示的な例では、１つまたは複数のプロセッサ２２０は、たとえば、図１７および図１８を参照しながらさらに説明される、マイクロフォン２４６も含むビークルに統合される。

[0065] 動作中、１つまたは複数のプロセッサ２２０は、１人または複数のユーザ２４２（たとえば、ユーザ２４２Ａ、ユーザ２４２Ｂ、ユーザ２４２Ｃ、ユーザ２４２Ｄ、またはそれらの組合せ）の発話に対応するオーディオストリーム１４１を受信する。特定の例では、１つまたは複数のプロセッサ２２０は、１人または複数のユーザの発話をキャプチャしたマイクロフォン２４６からオーディオストリーム１４１を受信する。別の例では、オーディオストリーム１４１は、メモリ２３２に記憶されたオーディオ再生ファイルに対応し、１つまたは複数のプロセッサ２２０は、メモリ２３２からオーディオストリーム１４１を受信する。特定の態様では、１つまたは複数のプロセッサ２２０は、別のデバイスから入力インターフェースまたはネットワークインターフェース（たとえば、モデムのネットワークインターフェース）を介してオーディオストリーム１４１を受信する。

[0066] 特徴量抽出段階中に、特徴量抽出器２２２は、オーディオストリーム１４１のオーディオ特徴量データセット２５２を生成する。たとえば、特徴量抽出器２２２は、オーディオストリーム１４１のオーディオ部分１５１の特徴量を決定することによって、オーディオ特徴量データセット２５２を生成する。特定の例では、オーディオストリーム１４１は、オーディオ部分１５１Ａ、オーディオ部分１５１Ｂ、オーディオ部分１５１Ｃ、またはそれらの組合せを含む。特徴量抽出器２２２は、オーディオ部分１５１Ａの特徴量を表すオーディオ特徴量データセット２５２Ａ、オーディオ部分１５１Ｂの特徴量を表すオーディオ特徴量データセット２５２Ｂ、およびオーディオ部分１５１Ｃの特徴量を表すオーディオ特徴量データセット２５２Ｃ、またはそれらの組合せを生成する。たとえば、特徴量抽出器２２２は、オーディオ部分１５１のオーディオ特徴量を抽出することによって、オーディオ部分１５１（たとえば、オーディオフレーム）についてのオーディオ特徴量データセット２５２（たとえば、特徴量ベクトル）を生成する。

[0067] セグメンテーション段階中に、セグメンタ１２４は、セグメンテーション結果２３６を生成するために、オーディオ特徴量データセット２５２を分析する。たとえば、セグメンタ１２４は、オーディオ部分１５１のセグメンテーションスコア２５４を生成するために、オーディオ部分１５１（たとえば、オーディオフレーム）のオーディオ特徴量データセット２５２（たとえば、特徴量ベクトル）を分析する。例示すると、セグメンテーションスコア２５４は、オーディオ部分１５１が話者２９２Ａの発話に対応する尤度を示すセグメンテーションスコア２５４Ａ（たとえば、０．６）を含む。セグメンテーションスコア２５４はまた、話者２９２Ｂおよび話者２９２Ｃの発話にそれぞれ対応するオーディオ部分１５１の尤度を示すセグメンテーションスコア２５４Ｂ（たとえば、０）およびセグメンテーションスコア２５４Ｃ（たとえば、０）を含む。特定の態様では、セグメンタ１２４は、セグメンテーションスコア２５４Ａがセグメンテーションしきい値２５７を満たし、セグメンテーションスコア２５４Ｂおよびセグメンテーションスコア２５４Ｃの各々がセグメンテーションしきい値２５７を満たさないと決定したことに応答して、オーディオ部分１５１が話者２９２Ａの発話に対応し、話者２９２Ｂまたは話者２９２Ｃのいずれの発話にも対応しないことを示すデータセットセグメンテーション結果２５６を生成する。セグメンタ１２４は、オーディオ部分１５１についてのセグメンテーションスコア２５４、データセットセグメンテーション結果２５６、またはその両方を示すセグメンテーション結果２３６を生成する。

[0068] 特定の例では、セグメンテーション段階中に、セグメンタ１２４は、複数のセグメンテーションスコア（たとえば、セグメンテーションスコア２５４Ａおよびセグメンテーションスコア２５４Ｂ）の各々がセグメンテーションしきい値２５７を満たすと決定したことに応答して、オーディオ部分１５１が複数の話者（たとえば、話者２９２Ａおよび話者２９２Ｂ）の発話に対応することを示すセグメンテーション結果２３６を生成する。

[0069] プロファイルマネージャ１２６は、図２Ｂを参照しながらさらに説明されるように、セグメンテーション結果２３６に基づいてオーディオ部分１５１（たとえば、オーディオ特徴量データセット２５２）を処理する。図２Ｂにおいて、メモリ２３２は、登録バッファ（enroll buffer）２３４、プローブバッファ（probe buffer）２４０、またはそれらの組合せを含む。たとえば、メモリ２３２は、話者２９２の各々について指定された登録バッファ２３４およびプローブバッファ２４０を含む。例示すると、メモリ２３２は、話者２９２Ａについて指定された登録バッファ２３４Ａおよびプローブバッファ２４０Ａと、話者２９２Ｂについて指定された登録バッファ２３４Ｂおよびプローブバッファ２４０Ｂと、話者２９２Ｃについて指定された登録バッファ２３４Ｃおよびプローブバッファ２４０Ｃとを含む。メモリ２３２は、登録しきい値（enrollment threshold）２６４、プロファイルしきい値（profile threshold）２５８、無音しきい値（silence threshold）２９４、またはそれらの組合せを記憶するように構成される。メモリ２３２は、停止条件（stop condition）２７０、発話プロファイル結果（speech profile result）２３８、無音カウント２６２（図２Ｂの「無音カウント」）、またはそれらの組合せを示すデータを記憶するように構成される。

[0070] プロファイルマネージャ１２６は、プロファイルチェック段階中に、オーディオ特徴量データセット２５２が既存のユーザ発話プロファイル１５０に一致するかどうかを決定するように構成される。特定の態様では、プロファイルマネージャ１２６は、セグメンテーション結果２３６を生成するためにセグメンタ１２４によって使用されるオーディオ特徴量と同じオーディオ特徴量を、ユーザ発話プロファイル１５０との比較またはユーザ発話プロファイル１５０の更新のために使用する。別の態様では、プロファイルマネージャ１２６は、セグメンテーション結果２３６を生成するためにセグメンタ１２４によって使用される第１のオーディオ特徴量とは異なる第２のオーディオ特徴量を、ユーザ発話プロファイル１５０との比較またはユーザ発話プロファイル１５０の更新のために使用する。

[0071] 特定の実装形態では、プロファイルマネージャ１２６は、比較の精度を改善するために、ユーザ発話プロファイル１５０と比較する前に、プローブバッファ２４０中の同じ話者に対応するオーディオ特徴量データセット２５２を収集するように構成される。オーディオ特徴量データセット２５２が既存のユーザ発話プロファイルに一致する場合、プロファイルマネージャ１２６は、更新段階中に、オーディオ特徴量データセット２５２に基づいて既存のユーザ発話プロファイルを更新するように構成される。オーディオ特徴量データセット２５２が既存のユーザ発話プロファイルに一致しない場合、プロファイルマネージャ１２６は、登録段階中に、オーディオ特徴量データセット２５２を登録バッファ２３４に追加し、登録バッファ２３４に記憶されたオーディオ特徴量データセット２５２が登録しきい値２６４を満たすと決定したことに応答して、登録バッファ２３４に記憶されたオーディオ特徴量データセット２５２に基づいてユーザ発話プロファイル１５０を生成するように構成される。

[0072] プロファイルチェック段階中に、プロファイルマネージャ１２６は、ユーザ発話プロファイルが利用可能ではなく、オーディオ部分１５１が話者（たとえば、話者２９２Ａ）の発話に対応することをセグメンテーション結果２３６が示すと決定したことに応答して、話者２９２について指定された登録バッファ２３４（たとえば、登録バッファ２３４Ａ）にオーディオ特徴量データセット２５２を追加し、登録段階に進む。

[0073] 特定の態様では、プロファイルマネージャ１２６は、少なくとも１つのユーザ発話プロファイル１５０が利用可能であると決定したことに応答して、オーディオ特徴量データセット２５２が少なくとも１つのユーザ発話プロファイル１５０のいずれかに一致するかどうかを決定するために、オーディオ特徴量データセット２５２と少なくとも１つのユーザ発話プロファイル１５０との比較を実行する。プロファイルマネージャ１２６は、少なくとも１つのユーザ発話プロファイル１５０が利用可能であり、オーディオ部分１５１が話者２９２（たとえば、話者２９２Ａ）の発話に対応することをセグメンテーション結果２３６が示すと決定したことに応答して、話者２９２について指定されたプローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）にオーディオ特徴量データセット２５２を追加する。

[0074] プロファイルマネージャ１２６は、プローブバッファ２４０に記憶されたオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）が少なくとも１つのユーザ発話プロファイル１５０のいずれかに一致するかどうかを決定する。たとえば、プロファイルマネージャ１２６は、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）と少なくとも１つのユーザ発話プロファイル１５０の各々との比較に基づいて、発話プロファイル結果２３８を生成する。例示すると、プロファイルマネージャ１２６は、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）とユーザ発話プロファイル１５０Ａとの比較に基づいて、発話プロファイル結果２３８Ａを生成する。

[0075] 特定の態様では、プロファイルマネージャ１２６は、単一のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２）がプローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）中で利用可能であると決定したことに応答して、単一のオーディオ特徴量データセットとユーザ発話プロファイル１５０Ａとの比較に基づいて、発話プロファイル結果２３８Ａを生成する。代替的に、プロファイルマネージャ１２６は、複数のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）がプローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）中で利用可能であると決定したことに応答して、複数のオーディオ特徴量データセットとユーザ発話プロファイル１５０Ａとの比較に基づいて、発話プロファイル結果２３８Ａを生成する。たとえば、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２とユーザ発話プロファイル１５０Ａとの比較に基づく第１のデータセット結果、プローブバッファ２４０の第２のオーディオ特徴量データセットとユーザ発話プロファイル１５０Ａとの比較に基づく第２のデータセット結果、プローブバッファ２４０の追加のオーディオ特徴量データセットとユーザ発話プロファイル１５０Ａとの比較に基づく追加のデータセット結果、またはそれらの組合せを生成する。プロファイルマネージャ１２６は、第１のデータセット結果、第２のデータセット結果、追加のデータセット結果、またはそれらの組合せ（たとえば、それらの加重平均）に基づいて発話プロファイル結果２３８Ａを生成する。特定の態様では、プローブバッファ２４０により最近追加されたオーディオ特徴量データセットのデータセット結果により高い重みが割り当てられる。

[0076] 発話プロファイル結果２３８Ａは、オーディオ特徴量データセットがユーザ発話プロファイル１５０Ａに一致する尤度を示す。同様に、プロファイルマネージャ１２６は、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）とユーザ発話プロファイル１５０Ｂとの比較に基づいて、発話プロファイル結果２３８Ｂを生成する。

[0077] 特定の態様では、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が対応するユーザ発話プロファイル１５０に一致する最も高い尤度を示す発話プロファイル結果２３８を選択する。たとえば、プロファイルマネージャ１２６は、発話プロファイル結果２３８Ａが発話プロファイル結果２３８Ｂよりも高い（たとえば、それ以上である）一致の尤度を示すと決定したことに応答して、発話プロファイル結果２３８Ａを選択する。プロファイルマネージャ１２６は、発話プロファイル結果２３８Ａ（たとえば、最も高い一致の尤度を示す発話プロファイル結果２３８Ａ）がプロファイルしきい値２５８を満たす（たとえば、それ以上である）と決定したことに応答して、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）に記憶されたオーディオ特徴量データセットがユーザ発話プロファイル１５０Ａに一致すると決定し、更新段階に進む。代替的に、プロファイルマネージャ１２６は、発話プロファイル結果２３８Ａ（たとえば、最も高い一致の尤度を示す発話プロファイル結果２３８Ａ）がプロファイルしきい値２５８を満たさない（たとえば、それよりも小さい）と決定したことに応答して、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）に記憶されたオーディオ特徴量データセットがユーザ発話プロファイル１５０のいずれにも一致しないと決定し、登録段階に進む。

[0078] 更新段階中に、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２がユーザ発話プロファイル１５０（たとえば、ユーザ発話プロファイル１５０Ａ）に一致すると決定したことに応答して、ユーザ発話プロファイル１５０を更新し、ユーザ発話プロファイル１５０のプロファイルＩＤ１５５を出力する。プロファイルマネージャ１２６は、プローブバッファ２４０に記憶されたオーディオ特徴量データセットに基づいて、（プローブバッファ２４０に記憶されたオーディオ特徴量データセットに一致した）ユーザ発話プロファイル１５０を更新する。したがって、ユーザ発話プロファイル１５０Ａは、ユーザ発話の変化に一致するように、経時的に発展する。

[0079] 登録段階中に、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が話者２９２（たとえば、話者２９２Ａ）の発話を表すことをセグメンテーション結果２３６が示すと決定したことに応答して、話者２９２に対応する登録バッファ２３４（たとえば、登録バッファ２３４Ａ）にオーディオ特徴量データセット２５２を追加する。プロファイルマネージャ１２６は、登録バッファ２３４に記憶されたオーディオ特徴量データセットが登録しきい値２６４を満たすかどうかを決定する。特定の態様では、プロファイルマネージャ１２６は、オーディオ特徴量データセットのカウントが登録しきい値２６４（たとえば、４８個のオーディオ特徴量データセット）以上であると決定したことに応答して、登録バッファ２３４に記憶されたオーディオ特徴量データセットが登録しきい値２６４を満たすと決定する。別の態様では、プロファイルマネージャ１２６は、オーディオ特徴量データセットの発話持続時間（たとえば、再生持続時間）が登録しきい値２６４（たとえば、２秒）以上であると決定したことに応答して、登録バッファ２３４に記憶されたオーディオ特徴量データセットが登録しきい値２６４を満たすと決定する。

[0080] プロファイルマネージャ１２６は、登録バッファ２３４に記憶されたオーディオ特徴量データセットが登録しきい値２６４を満たさないと決定したことに応答して、登録バッファ２３４に記憶されたオーディオ特徴量データセットに基づいてユーザ発話プロファイル１５０を生成することを控え、オーディオストリーム１４１の後続のオーディオ部分を処理し続ける。特定の態様では、プロファイルマネージャ１２６は、停止条件２７０が満たされるまで、話者２９２（たとえば、話者２９２Ａ）の発話を表す後続のオーディオ特徴量データセット（subsequent audio feature data set）を、登録バッファ２３４（たとえば、登録バッファ２３４Ａ）に追加し続ける。たとえば、プロファイルマネージャ１２６は、本明細書で説明されるように、登録バッファ２３４に記憶されたオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）のカウントが登録しきい値２６４を満たすこと、しきい値よりも長い無音（longer than threshold silence）がオーディオストリーム１４１中で検出されること、またはその両方を決定したことに応答して、停止条件２７０が満たされたと決定する。例示すると、停止条件２７０は、ユーザ発話プロファイルを生成するのに十分なオーディオ特徴量データセットが登録バッファ２３４中にあるとき、または話者２９２が発話するのを停止したように見えるときに満たされる。

[0081] 特定の態様では、プロファイルマネージャ１２６は、登録バッファ２３４に記憶されたオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）が登録しきい値２６４を満たすと決定したことに応答して、登録バッファ２３４に記憶されたオーディオ特徴量データセットに基づいてユーザ発話プロファイル１５０Ｃを生成し、登録バッファ２３４をリセットし、ユーザ発話プロファイル１５０Ｃを複数のユーザ発話プロファイル１５０に追加し、ユーザ発話プロファイル１５０ＣのプロファイルＩＤ１５５を出力し、オーディオストリーム１４１の後続のオーディオ部分を処理し続ける。したがって、プロファイルマネージャ１２６は、話者２９２（たとえば、話者２９２Ａ）について指定された登録バッファ２３４（たとえば、登録バッファ２３４Ａ）に記憶された同じ話者２９２（たとえば、話者２９２Ａ）に対応するオーディオ部分のオーディオ特徴量データセットに基づいてユーザ発話プロファイル１５０Ｃを生成する。ユーザ発話プロファイル１５０Ｃを生成するために複数のオーディオ特徴量データセットを使用することは、話者２９２Ａ（たとえば、ユーザ２４２Ａ）の発話を表す際のユーザ発話プロファイル１５０Ａの精度を改善する。セグメンタ１２４およびプロファイルマネージャ１２６は、したがって、事前登録される必要がなく、ユーザ発話プロファイル生成のために所定の単語または文を話す必要がない、ユーザについてのユーザ発話プロファイルを生成することによって、複数のユーザの受動的な登録を可能にする。

[0082] 特定の態様では、ユーザ発話プロファイル１５０を生成または更新するために、複数の話者に対応するオーディオ部分がスキップまたは無視される。たとえば、プロファイルマネージャ１２６は、オーディオ部分１５１が複数の話者の発話に対応することをセグメンテーション結果２３６が示すと決定したことに応答して、オーディオ部分１５１のオーディオ特徴量データセット２５２を無視し、オーディオストリーム１４１の後続のオーディオ部分を処理し続ける。たとえば、オーディオ特徴量データセット２５２を無視することは、オーディオ特徴量データセット２５２を複数のユーザ発話プロファイル１５０と比較することを控えること、オーディオ特徴量データセット２５２に基づいてユーザ発話プロファイル１５０を更新することを控えること、オーディオ特徴量データセット２５２に基づいてユーザ発話プロファイル１５０を生成することを控えること、またはそれらの組合せを含む。

[0083] 特定の態様では、しきい値（たとえば、同じユーザの発話の際の自然な短い休止を示す）よりも短い無音に対応するオーディオ部分は、ユーザ発話プロファイル１５０を生成または更新するためには使用されないが、しきい値よりも長い無音を検出するために追跡される。たとえば、セグメンテーション段階中に、セグメンタ１２４は、オーディオ部分１５１が無音に対応することを示すオーディオ特徴量データセット２５２のセグメンテーション結果２３６を生成する。プロファイルマネージャ１２６は、オーディオ部分１５１が無音に対応すると決定したことに応答して、無音カウント２６２を（たとえば、１だけ）増加させる。特定の態様では、プロファイルマネージャ１２６は、無音カウント２６２が無音しきい値２９４以上である（たとえば、ユーザが話し終えた後のより長い休止を示す）と決定したことに応答して、登録バッファ２３４（たとえば、登録バッファ２３４Ａ、登録バッファ２３４Ｂ、および登録バッファ２３４Ｃ）をリセットし（たとえば、空としてマークし）、プローブバッファ２４０（たとえば、プローブバッファ２４０Ａ、プローブバッファ２４０Ｂ、およびプローブバッファ２４０Ｃ）をリセットし（たとえば、空としてマークし）、無音カウント２６２を（たとえば、０に）リセットし、またはそれらの組合せを行い、オーディオストリーム１４１の後続のオーディオ部分を処理し続ける。特定の態様では、プロファイルマネージャ１２６は、無音カウント２６２が無音しきい値２９４以上であると決定したことに応答して、停止条件２７０が満たされたと決定する。プロファイルマネージャ１２６は、停止条件２７０が満たされたと決定したことに応答して、登録バッファ２３４（たとえば、登録バッファ２３４Ａ、登録バッファ２３４Ｂ、および登録バッファ２３４Ｃ）をリセットする。

[0084] 特定の態様では、プロファイルマネージャ１２６は、デバイス２０２に結合されたディスプレイデバイスに通知を与える。通知は、ユーザ発話分析が進行中であることを示す。特定の態様では、プロファイルマネージャ１２６は、ユーザ発話分析が実行されるべきかどうかを示すユーザ入力に基づいて、オーディオストリーム１４１を選択的に処理する。

[0085] 図２Ａに戻ると、特定の態様では、プロファイルマネージャ１２６は、オーディオストリーム１４１の処理中にユーザ発話プロファイル１５０のうちのいくつが生成または更新されるかを追跡するために、プロファイル更新データ２７２を維持する。たとえば、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０を更新する（または生成する）ことに応答して、プロファイル更新データ２７２を更新する。特定の例では、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ａを更新したことに応答して、ユーザ発話プロファイル１５０Ａが更新されたことを示すためにプロファイル更新データ２７２を更新する。別の例として、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ｃを生成したことに応答して、ユーザ発話プロファイル１５０Ｃが更新されたことを示すためにプロファイル更新データ２７２を更新する。プロファイルマネージャ１２６は、複数のユーザ発話プロファイル１５０の第１のカウント（first count）がオーディオストリーム１４１の処理中に更新されたことをプロファイル更新データ２７２が示すと決定したことに応答して、オーディオストリーム１４１中で検出された話者のカウントとして第１のカウントを出力する。

[0086] 特定の態様では、プロファイルマネージャ１２６は、複数のユーザ発話プロファイル１５０の各々に一致する検出された発話の持続時間を追跡するために、ユーザ対話データ２７４を維持する。プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０を更新（または生成）することに基づいて、ユーザ対話データ２７４を更新する。たとえば、プロファイルマネージャ１２６は、オーディオ部分１５１に基づいてユーザ発話プロファイル１５０Ａを更新したことに応答して、ユーザ発話プロファイル１５０Ａに関連付けられたユーザがオーディオ部分１５１の発話持続時間にわたって対話したことを示すためにユーザ対話データ２７４を更新する。別の例として、プロファイルマネージャ１２６は、オーディオ部分１５１に基づいてユーザ発話プロファイル１５０Ｃを生成したことに応答して、ユーザ発話プロファイル１５０Ｃに関連付けられたユーザがオーディオ部分１５１の発話持続時間にわたって対話したことを示すためにユーザ対話データ２７４を更新する。例示すると、話者同質オーディオセグメント１１１のオーディオ部分に基づいてユーザ発話プロファイル１５０を生成または更新した後、ユーザ対話データ２７４は、ユーザ発話プロファイル１５０に関連付けられたユーザが話者同質オーディオセグメント１１１の発話持続時間にわたって対話したことを示す。特定の態様では、プロファイルマネージャ１２６は、ユーザ対話データ２７４を出力する。

[0087] 特定の態様では、プロファイルマネージャ１２６は、プロファイルＩＤ１５５、プロファイル更新データ２７２、ユーザ対話データ２７４、追加情報、またはそれらの組合せを１つまたは複数のオーディオ分析アプリケーション１８０に提供する。たとえば、オーディオ分析アプリケーション１８０は、オーディオストリーム１４１のトランスクリプトを生成するために、オーディオ特徴量データセット２５２に対して発話－テキスト変換を実行する。オーディオ分析アプリケーション１８０は、オーディオ特徴量データセット２５２についてプロファイルマネージャ１２６から受信されたプロファイルＩＤ１５５に基づいて、トランスクリプト中のオーディオ特徴量データセット２５２に対応するテキストをラベル付けする。

[0088] 特定の態様では、１つまたは複数のプロセッサ２２０は、複数の電力モード（power mode）のうちの１つで動作するように構成される。たとえば、１つまたは複数のプロセッサ２２０は、電力モード２８２（たとえば、常時オン電力モード）または電力モード２８４（たとえば、オンデマンド電力モード）で動作するように構成される。特定の態様では、電力モード２８２は、電力モード２８４と比較してより低い電力モード（lower power mode）である。たとえば、１つまたは複数のプロセッサ２２０は、（電力モード２８４と比較して）電力モード２８２で動作することによってエネルギーを節約し、電力モード２８２で動作しない構成要素をアクティブ化するために、必要に応じて電力モード２８４に遷移する。

[0089] 特定の例では、デバイス２０２の機能のうちのいくつかは、電力モード２８４ではアクティブであるが、電力モード２８２ではアクティブでない。たとえば、話者検出器２７８は、電力モード２８２および電力モード２８４でアクティブ化され得る。この例では、特徴量抽出器２２２、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せは、電力モード２８４でアクティブ化され得、電力モード２８２ではアクティブ化され得ない。オーディオストリーム１４１が単一の話者の発話に対応するとき、セグメンタ１２４は、異なる話者に対応するオーディオ部分を区別するために使用される必要はない。セグメンタ１２４が使用される必要がないときに電力モード２８２に留まる（または、それに遷移する）ことは、全体的なリソース消費量を低減する。話者検出器２７８は、電力モード２８２で、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応するかどうかを決定するように構成される。１つまたは複数のプロセッサ２２０は、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応することを話者検出器２７８の出力が示すと決定したことに応答して、電力モード２８２から電力モード２８４に遷移し、セグメンタ１２４をアクティブ化するように構成される。たとえば、セグメンタ１２４は、セグメンテーション結果２３６を生成するために、電力モード２８４で、オーディオ特徴量データセット２５２を分析する。

[0090] 特定の例では、話者検出器２７８およびプロファイルマネージャ１２６は、電力モード２８２および電力モード２８４でアクティブ化され得る。この例では、特徴量抽出器２２２、セグメンタ１２４、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せは、電力モード２８４でアクティブ化され得、電力モード２８２ではアクティブ化され得ない。たとえば、単一の話者が検出されたことを示す話者検出器２７８の出力に応答して、１つまたは複数のプロセッサ２２０は、電力モード２８２のままであるか、またはそれに遷移する。プロファイルマネージャ１２６は、電力モード２８２で、オーディオ特徴量データセット２５２に基づいて、単一の話者のユーザ発話プロファイル１５０を生成または更新する。代替的に、１つまたは複数のプロセッサ２２０は、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応することを示す話者検出器２７８の出力に応答して、電力モード２８２から電力モード２８４に遷移し、セグメンタ１２４をアクティブ化する。たとえば、セグメンタ１２４は、セグメンテーション結果２３６を生成するために、電力モード２８４で、オーディオ特徴量データセット２５２を分析する。

[0091] 特定の例では、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、またはそれらの組合せは、電力モード２８２および電力モード２８４でアクティブ化され得る。この例では、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せは、電力モード２８２ではなく、電力モード２８４でアクティブ化され得る。特定の態様では、１つまたは複数のプロセッサ２２０は、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応することをセグメンテーション結果２３６が示すと決定したことに応答して、電力モード２８２から電力モード２８４に遷移し、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せをアクティブ化するように構成される。たとえば、プロファイルマネージャ１２６は、電力モード２８４で、オーディオ特徴量データセット２５２と複数のユーザ発話プロファイル１５０との比較を実行する。

[0092] 特定の態様では、１つまたは複数のプロセッサ２２０は、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応することをセグメンテーション結果２３６が示すと決定したことに応答して、電力モード２８４でオーディオストリーム１４１の後続のオーディオ部分を処理する。たとえば、特徴量抽出器２２２、セグメンタ１２４、またはその両方は、後続のオーディオ部分を処理するために電力モード２８４で動作する。特定の態様では、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、またはそれらの組合せは、電力モード２８２でオーディオストリーム１４１のオーディオ情報を決定し、電力モード２８４で１つまたは複数のオーディオ分析アプリケーション１８０にオーディオ情報（audio information）を提供する。オーディオ情報は、オーディオストリーム１４１中で示される話者のカウント、ボイスアクティビティ検出（ＶＡＤ：voice activity detection）情報（information）、またはその両方を含む。

[0093] 特定の実装形態では、オーディオストリーム１４１、オーディオ特徴量データセット２５２、またはそれらの組合せの１つまたは複数の部分はバッファ２６８に記憶され、１つまたは複数のプロセッサ２２０は、バッファ２６８からの、オーディオストリーム１４１、オーディオ特徴量データセット２５２、またはそれらの組合せの１つまたは複数の部分にアクセスする。たとえば、１つまたは複数のプロセッサ２２０は、オーディオ部分１５１をバッファ２６８に記憶する。特徴量抽出器２２２は、バッファ２６８からオーディオ部分１５１を取り出し、オーディオ特徴量データセット２５２をバッファ２６８に記憶する。セグメンタ１２４は、バッファ２６８からオーディオ特徴量データセット２５２を取り出し、オーディオ特徴量データセット２５２のセグメンテーションスコア２５４、データセットセグメンテーション結果２５６、またはそれらの組合せをバッファ２６８に記憶する。プロファイルマネージャ１２６は、バッファ２６８からオーディオ特徴量データセット２５２、セグメンテーションスコア２５４、データセットセグメンテーション結果２５６、またはそれらの組合せを取り出す。特定の態様では、プロファイルマネージャ１２６は、プロファイルＩＤ１５５、プロファイル更新データ２７２、ユーザ対話データ２７４、またはそれらの組合せをバッファ２６８に記憶する。特定の態様では、１つまたは複数のオーディオ分析アプリケーション１８０は、バッファ２６８から、プロファイルＩＤ１５５、プロファイル更新データ２７２、ユーザ対話データ２７４、またはそれらの組合せを取り出す。

[0094] したがって、システム２００は、複数の話者についての受動的なユーザ発話プロファイル登録および更新を可能にする。たとえば、複数のユーザ発話プロファイル１５０は、ユーザ２４２にスクリプトからの所定の単語または文を言わせる必要なしに、デバイス２０２の通常動作中にバックグラウンドで生成および更新され得る。

[0095] マイクロフォン２４６はデバイス２０２に結合されているものとして図示されているが、他の実装形態では、マイクロフォン２４６は、デバイス２０２に統合され得る。単一のマイクロフォン２４６が図示されているが、他の実装形態では、ユーザ発話をキャプチャするように構成された１つまたは複数の追加のマイクロフォン１４６が含まれ得る。

[0096] システム２００は、単一のデバイス２０２を含むものとして図示されているが、他の実装形態では、デバイス２０２において実行されるものとして説明される動作は、複数のデバイスの間で分散され得る。たとえば、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、または１つもしくは複数のオーディオ分析アプリケーション１８０のうちの１つまたは複数によって実行されるものとして説明される動作は、デバイス２０２において実行されることがあり、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、または１つもしくは複数のオーディオ分析アプリケーション１８０のうちの他のものによって実行されるものとして説明される動作は、第２のデバイスにおいて実行され得る。

[0097] 図３を参照すると、ユーザ発話プロファイル管理に関連する動作３００の例示的な態様が示されている。特定の態様では、動作３００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0098] 話者セグメンテーション３０２中に、図２Ａの特徴量抽出器２２２は、図２Ａを参照しながら説明されたように、オーディオストリーム１４１に基づいてオーディオ特徴量データセット２５２を生成する。セグメンタ１２４は、図２Ａを参照しながら説明されたように、セグメンテーション結果２３６を生成するために、オーディオ特徴量データセット２５２を分析する。

[0099] 音声プロファイル管理（voice profile management）３０４中に、図１のプロファイルマネージャ１２６は、３０６において、オーディオ特徴量データセット２５２が登録された話者に対応するかどうかを決定する。たとえば、プロファイルマネージャ１２６は、図２Ｂを参照しながら説明されたように、オーディオ特徴量データセット２５２がいずれかのユーザ発話プロファイル１５０に一致するかどうかを決定する。プロファイルマネージャ１２６は、３０６において、オーディオ特徴量データセット２５２がプロファイルＩＤ１５５を有するユーザ発話プロファイル１５０Ａに一致すると決定したことに応答して、３０８において、オーディオ特徴量データセット２５２に少なくとも部分的に基づいてユーザ発話プロファイル１５０Ａを更新する。代替的に、プロファイルマネージャ１２６は、３０６において、オーディオ特徴量データセット２５２が複数のユーザ発話プロファイル１５０のいずれにも一致せず、オーディオ特徴量データセット２５２が話者２９２Ａの発話を表すことをセグメンテーション結果２３６が示すと決定したことに応答して、３１０において、話者２９２Ａについて指定された登録バッファ２３４Ａにオーディオ特徴量データセット２５２を追加する。

[0100] プロファイルマネージャ１２６は、３１２において、登録バッファ２３４Ａのオーディオ特徴量データセットのカウント（または登録バッファ２３４Ａのオーディオ特徴量データセットの発話持続時間）が登録しきい値２６４よりも大きいと決定したことに応答して、３１４において、話者を登録する。たとえば、プロファイルマネージャ１２６は、図２Ｂを参照しながら説明されたように、登録バッファ２３４Ａのオーディオ特徴量データセットに基づいてユーザ発話プロファイル１５０Ｃを生成し、ユーザ発話プロファイル１５０Ｃを複数のユーザ発話プロファイル１５０に追加する。プロファイルマネージャ１２６は、オーディオストリーム１４１の後続のオーディオ部分を処理し続ける。

[0101] したがって、話者セグメンテーション３０２中に生成されたセグメンテーション結果２３６は、同じ話者の発話に対応するオーディオ特徴量データセットが、音声プロファイル管理３０４中に話者登録のための同じ登録バッファ中に収集されることを可能にする。複数のオーディオ特徴量データセットに基づいてユーザ発話プロファイル１５０Ｃを生成することは、話者の発話を表す際のユーザ発話プロファイル１５０Ｃの精度を改善する。

[0102] 図４を参照すると、ユーザ発話プロファイル管理に関連する動作４００の例示的な態様が示されている。特定の態様では、動作４００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0103] オーディオストリーム１４１は、オーディオ部分１５１Ａ～オーディオ部分１５１Ｉを含む。話者セグメンテーション３０２中に、図１のセグメンタ１２４は、図２Ａを参照しながら説明されたように、オーディオ部分１５１Ａ～Ｉの各々について、セグメンテーションスコア２５４Ａ、セグメンテーションスコア２５４Ｂ、およびセグメンテーションスコア２５４Ｃを生成する。

[0104] セグメンテーションスコア２５４は、オーディオ部分１５１Ａが（たとえば、話者２９２Ａとして指定された）同じ単一の話者の発話に対応することを示す。たとえば、オーディオ部分１５１Ａの各々のセグメンテーションスコア２５４Ａは、セグメンテーションしきい値２５７を満たす。オーディオ部分１５１Ａの各々のセグメンテーションスコア２５４Ｂおよびセグメンテーションスコア２５４Ｃは、セグメンテーションしきい値２５７を満たさない。

[0105] 発話プロファイル管理３０４中に、プロファイルマネージャ１２６は、話者２９２Ａに関連付けられた登録バッファ２３４Ａに、オーディオ部分１５１Ａ（たとえば、対応するオーディオ特徴量データセット）を追加する。プロファイルマネージャ１２６は、オーディオ部分１５１Ａ（たとえば、対応するオーディオ特徴量データセット）に基づいてユーザ発話プロファイル１５０Ａを生成する。

[0106] 特定の態様では、セグメンテーションスコア２５４は、オーディオ部分１５１Ｂが複数の話者、たとえば、話者２９２Ａおよび別の話者（たとえば、話者２９２Ｂとして指定された）の発話に対応することを示す。図４において、プロファイルマネージャ１２６は、オーディオ部分１５１Ｂ（たとえば、対応するオーディオ特徴量データセット）に基づいてユーザ発話プロファイル１５０Ａを更新する。特定の態様では、プロファイルマネージャ１２６はまた、話者２９２Ｂに関連付けられた登録バッファ２３４Ｂにオーディオ部分１５１Ｂを追加する。代替の態様では、プロファイルマネージャ１２６は、複数の話者に対応するオーディオ部分１５１Ｂを無視する。たとえば、プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０を更新または生成するためにオーディオ部分１５１Ｂを使用することを控える。

[0107] セグメンテーションスコア２５４は、オーディオ部分１５１Ｃが話者２９２Ｂ（たとえば、単一の話者）の発話に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｃを登録バッファ２３４Ｂに追加する。プロファイルマネージャ１２６は、登録バッファ２３４Ｂに記憶されたオーディオ部分（たとえば、対応するオーディオ特徴量データセット）が登録しきい値２６４を満たさないと決定したことに応答して、登録バッファ２３４Ｂに記憶されたオーディオ部分（たとえば、対応するオーディオ特徴量データセット）に基づいてユーザ発話プロファイル１５０を生成することを控える。特定の態様では、登録バッファ２３４Ｂに記憶されたオーディオ部分（たとえば、対応するオーディオ特徴量データセット）は、オーディオ部分１５１Ｂ（たとえば、対応するオーディオ特徴量データセット）とオーディオ部分１５１Ｃ（たとえば、対応するオーディオ特徴量データセット）とを含む。代替の態様では、登録バッファ２３４Ｂに記憶されたオーディオ部分（たとえば、対応するオーディオ特徴量データセット）は、オーディオ部分１５１Ｃ（たとえば、対応するオーディオ特徴量データセット）を含み、オーディオ部分１５１Ｂ（たとえば、対応するオーディオ特徴量データセット）を含まない。

[0108] セグメンテーションスコア２５４は、オーディオ部分１５１Ｄが（たとえば、話者２９２Ｃとして指定された）別の単一の話者の発話に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｄの第１のサブセット（たとえば、対応するオーディオ特徴量データセット）を登録バッファ２３４Ｃに追加する。プロファイルマネージャ１２６は、登録バッファ２３４Ｃに記憶されたオーディオ部分１５１Ｄの第１のサブセット（たとえば、対応するオーディオ特徴量データセット）が登録しきい値２６４を満たすと決定したことに応答して、登録バッファ２３４Ｃに記憶されたオーディオ部分１５１Ｄの第１のサブセット（たとえば、対応するオーディオ特徴量データセット）に基づいてユーザ発話プロファイル１５０Ｂを生成する。プロファイルマネージャ１２６は、オーディオ部分１５１Ｄの第２のサブセットに基づいてユーザ発話プロファイル１５０Ｂを更新する。

[0109] セグメンテーションスコア２５４は、オーディオ部分１５１Ｅがしきい値よりも大きい無音に対応することを示す。たとえば、オーディオ部分１５１Ｅのカウントは、無音しきい値２９４以上である。プロファイルマネージャ１２６は、オーディオ部分１５１Ｅがしきい値よりも大きい無音に対応すると決定したことに応答して、登録バッファ２３４をリセットする。

[0110] セグメンテーションスコア２５４は、オーディオ部分１５１Ｆが（たとえば、話者２９２Ａとして指定された）単一の話者の発話に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｆの各々がユーザ発話プロファイル１５０Ｂに一致すると決定したことに応答して、オーディオ部分１５１Ｆに基づいてユーザ発話プロファイル１５０Ｂを更新する。話者指定（たとえば、話者２９２Ａ）が再使用されているので、オーディオ部分１５１Ｄおよびオーディオ部分１５１Ｆは、オーディオ部分１５１Ｄおよびオーディオ部分１５１Ｆが同じ話者（たとえば、図２Ａのユーザ２４２Ｃ）の発話に対応し、同じユーザ発話プロファイル（たとえば、ユーザ発話プロファイル１５０Ｂ）に一致しても、異なる指定された話者、たとえば、話者２９２Ｃおよび話者２９２Ａにそれぞれ関連付けられる。

[0111] セグメンテーションスコア２５４は、オーディオ部分１５１Ｇが（たとえば、話者２９２Ｂとして指定された）単一の話者の発話に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｇの第１のサブセットがユーザ発話プロファイル１５０のいずれにも一致しないと決定したことに応答して、オーディオ部分１５１Ｇの第１のサブセットを話者２９２Ｂに関連付けられた登録バッファ２３４Ｂに追加する。プロファイルマネージャ１２６は、オーディオ部分１５１Ｇの第１のサブセットに基づいてユーザ発話プロファイル１５０Ｃを生成し、オーディオ部分１５１Ｇの第２のサブセットに基づいてユーザ発話プロファイル１５０Ｃを更新する。話者指定（たとえば、話者２９２Ｂ）が再使用されているので、オーディオ部分１５１Ｃおよびオーディオ部分１５１Ｇは、同じ指定された話者、たとえば話者２９２Ｂに関連付けられ、オーディオ部分１５１Ｃおよびオーディオ部分１５１Ｇは、同じユーザまたは異なるユーザの発話に対応することができる。

[0112] セグメンテーションスコア２５４は、オーディオ部分１５１Ｈがしきい値よりも大きい無音に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｈがしきい値よりも大きい無音に対応すると決定したことに応答して、登録バッファ２３４をリセットする。

[0113] セグメンテーションスコア２５４は、オーディオ部分１５１Ｉが（たとえば、話者２９２Ｃとして指定された）単一の話者の発話に対応することを示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｉの各々がユーザ発話プロファイル１５０Ａに一致すると決定したことに応答して、オーディオ部分１５１Ｉに基づいてユーザ発話プロファイル１５０Ａを更新する。話者指定（たとえば、話者２９２Ｃ）が再使用されているので、オーディオ部分１５１Ａおよびオーディオ部分１５１Ｉは、オーディオ部分１５１Ａおよびオーディオ部分１５１Ｉが同じユーザ（たとえば、図２Ａのユーザ２４２Ａ）の発話に対応し、同じユーザ発話プロファイル（たとえば、ユーザ発話プロファイル１５０Ａ）に一致しても、異なる指定された話者、たとえば、話者２９２Ａおよび話者２９２Ｃにそれぞれ関連付けられる。代替の態様では、プロファイルマネージャ１２６は、オーディオ部分１５１Ｉが複数のユーザ発話プロファイル１５０のいずれにも一致しないと決定したことに応答して、話者２９２Ｃに関連付けられた登録バッファ２３４Ｃにオーディオ部分１５１Ｉの第１のサブセットを追加し、オーディオ部分１５１Ｉの第１のサブセットに基づいてユーザ発話プロファイル１５０Ｄを生成する。話者指定（たとえば、話者２９２Ｃ）を再使用することによって、プロファイルマネージャ１２６は、セグメンタ１２４によって区別され得る話者２９２の所定のカウント（たとえば、Ｋ）よりも多いカウントのユーザプロファイルを生成（または更新）することができる。

[0114] 図５を参照すると、ユーザ発話プロファイル管理に関連する動作５００の例示的な態様が示されている。特定の態様では、動作５００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0115] オーディオストリーム１４１は、オーディオ部分１５１Ａと、オーディオ部分１５１Ｂと、オーディオ部分１５１Ｃとを含む。たとえば、オーディオ部分１５１Ａは、オーディオ部分１５１Ｄ（たとえば、オーディオフレーム）と、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｅとを含む。オーディオ部分１５１Ｂは、オーディオ部分１５１Ｆと、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｇとを含む。オーディオ部分１５１Ｃは、オーディオ部分１５１Ｈと、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｉとを含む。

[0116] 特定の態様では、オーディオ部分１５１Ａの各々のデータセットセグメンテーション結果２５６Ａは、オーディオ部分１５１Ａが話者２９２Ａの発話に対応することを示す。たとえば、オーディオ部分１５１Ｄのデータセットセグメンテーション結果２５６Ｄ（たとえば、「１」）は、オーディオ部分１５１Ｄが話者２９２Ａの発話を表すことを示す。別の例として、オーディオ部分１５１Ｅのデータセットセグメンテーション結果２５６Ｅ（たとえば、「１」）は、オーディオ部分１５１Ｅが話者２９２Ａの発話を表すことを示す。

[0117] オーディオ部分１５１Ｂの各々のデータセットセグメンテーション結果２５６Ｂは、オーディオ部分１５１Ｂが無音（または非発話ノイズ）に対応することを示す。たとえば、オーディオ部分１５１Ｆのデータセットセグメンテーション結果２５６Ｆ（たとえば、「０」）は、オーディオ部分１５１Ｆが無音（または非発話ノイズ）を表すことを示す。別の例として、オーディオ部分１５１Ｇのデータセットセグメンテーション結果２５６Ｇ（たとえば、「０」）は、オーディオ部分１５１Ｇが無音（または非発話ノイズ）を表すことを示す。

[0118] オーディオ部分１５１Ｃの各々のデータセットセグメンテーション結果２５６Ｃは、オーディオ部分１５１Ｃが話者２９２Ｂの発話に対応することを示す。たとえば、オーディオ部分１５１Ｈのデータセットセグメンテーション結果２５６Ｈ（たとえば、「２」）は、オーディオ部分１５１Ｈが話者２９２Ｂの発話を表すことを示す。別の例として、オーディオ部分１５１Ｉのデータセットセグメンテーション結果２５６Ｉ（たとえば、「２」）は、オーディオ部分１５１Ｉが話者２９２Ｂの発話を表すことを示す。

[0119] グラフ５９０は、セグメンテーション結果２３６の一例の視覚的表現である。たとえば、オーディオ部分１５１Ａは、話者２９２Ａ（たとえば、単一の話者）の発話を表し、したがって、オーディオ部分１５１Ａは、オーディオストリーム１４１の話者同質オーディオセグメント１１１Ａに対応する。オーディオ部分１５１Ｂは無音を表し、したがって、オーディオ部分１５１Ｂは、（たとえば、話者同質オーディオセグメントではなく）オーディオストリーム１４１のオーディオセグメント１１３Ａに対応する。オーディオ部分１５１Ｃは、話者２９２Ｂ（たとえば、単一の話者）の発話を表し、したがって、オーディオ部分１５１Ｃは、オーディオストリーム１４１の話者同質オーディオセグメント１１１Ｂに対応する。

[0120] グラフ５９２は、発話プロファイル結果２３８の一例の視覚的表現である。プロファイルマネージャ１２６は、オーディオ部分１５１Ａの第１のサブセットに基づいてユーザ発話プロファイル１５０Ａを生成する。プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ａの生成後、後続のオーディオ部分（たとえば、後続のオーディオ特徴量データセット）を、ユーザ発話プロファイル１５０Ａと比較することによって、発話プロファイル結果２３８Ａを決定する。オーディオ部分１５１の発話プロファイル結果２３８Ａは、オーディオ部分１５１がユーザ発話プロファイル１５０Ａに一致する尤度を示す。プロファイルマネージャ１２６は、オーディオ部分１５１Ｃの第１のサブセットをユーザ発話プロファイル１５０Ａと比較することによって、オーディオ部分１５１Ｃの第１のサブセットの発話プロファイル結果２３８Ａを決定する。プロファイルマネージャ１２６は、オーディオ部分１５１Ｃの第１のサブセットの発話プロファイル結果２３８Ａがプロファイルしきい値２５８よりも小さいと決定したことに応答して、オーディオ部分１５１Ｃの第１のサブセットがユーザ発話プロファイル１５０Ａに一致しないと決定する。

[0121] プロファイルマネージャ１２６は、オーディオ部分１５１Ｃの第１のサブセットがユーザ発話プロファイル１５０Ａに一致しないと決定したことに応答して、オーディオ部分１５１Ｃの第１のサブセットに基づいて、ユーザ発話プロファイル１５０Ｂを生成する。プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ｂの生成後、後続のオーディオ部分をユーザ発話プロファイル１５０Ｂと比較することによって、発話プロファイル結果２３８Ｂを決定する。発話プロファイル結果２３８Ｂは、オーディオ部分がユーザ発話プロファイル１５０Ｂに一致する尤度を示す。たとえば、オーディオ部分１５１Ｃの第２のサブセットの発話プロファイル結果２３８Ｂは、オーディオ部分１５１Ｃの第２のサブセットがユーザ発話プロファイル１５０Ｂに一致することを示す。特定の態様では、プロファイルマネージャ１２６は、グラフ５９０、グラフ５９２、またはその両方を含むグラフィカルユーザインターフェース（ＧＵＩ）を生成し、ＧＵＩをディスプレイデバイスに提供する。

[0122] 図６を参照すると、ユーザ発話プロファイル管理に関連する動作６００の例示的な態様が示されている。特定の態様では、動作６００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0123] オーディオストリーム１４１は、複数の話者の発話に対応するオーディオ部分１５１Ｊを含む。たとえば、オーディオ部分１５１Ｊは、オーディオ部分１５１Ｋ（たとえば、オーディオフレーム）と、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｌとを含む。特定の態様では、オーディオ部分１５１Ｊの各々のデータセットセグメンテーション結果２５６Ｄは、オーディオ部分１５１Ｊが話者２９２Ａおよび話者２９２Ｂの発話に対応することを示す。たとえば、オーディオ部分１５１Ｋのデータセットセグメンテーション結果２５６Ｋ（たとえば、「１、２」）は、オーディオ部分１５１Ｋが話者２９２Ａおよび話者２９２Ｂの発話を表すことを示す。別の例として、オーディオ部分１５１Ｌのデータセットセグメンテーション結果２５６Ｌ（たとえば、「１、２」）は、オーディオ部分１５１Ｌが話者２９２Ａおよび話者２９２Ｂの発話を表すことを示す。オーディオ部分１５１Ｊは、複数の話者の発話を表し、したがって、オーディオ部分１５１Ｊは、（たとえば、話者同質オーディオセグメントではなく）オーディオセグメント１１３Ｂに対応する。

[0124] プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ａの生成後、後続のオーディオ部分（たとえば、後続のオーディオ特徴量データセット）を、ユーザ発話プロファイル１５０Ａと比較することによって、発話プロファイル結果２３８Ａを決定する。プロファイルマネージャ１２６は、オーディオ部分１５１Ｊをユーザ発話プロファイル１５０Ａと比較することによって、オーディオ部分１５１Ｊの発話プロファイル結果２３８Ａを決定する。特定の態様では、オーディオ部分１５１Ｊが話者２９２Ａの発話に加えて話者２９２Ｂの発話を含むので、オーディオ部分１５１Ｊの発話プロファイル結果２３８Ａは、オーディオ部分１５１Ａの発話プロファイル結果２３８Ａよりも低い。

[0125] 図７を参照すると、ユーザ発話プロファイル管理に関連する動作７００の例示的な態様が示されている。特定の態様では、動作７００のうちの１つまたは複数は、特徴量抽出器２２２、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0126] オーディオストリーム１４１は、オーディオ部分１５１Ｊとオーディオ部分１５１Ｋとを含む。たとえば、オーディオ部分１５１Ｊは、オーディオ部分１５１Ｌ（たとえば、オーディオフレーム）と、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｍとを含む。オーディオ部分１５１Ｋは、オーディオ部分１５１Ｎ（たとえば、オーディオフレーム）と、１つまたは複数の追加のオーディオ部分と、オーディオ部分１５１Ｏとを含む。

[0127] 特定の態様では、オーディオ部分１５１Ｊの各々のデータセットセグメンテーション結果２５６Ｊは、オーディオ部分１５１Ｊが話者２９２Ｃ（たとえば、単一の話者）の発話を表し、したがって、オーディオ部分１５１Ｊが話者同質オーディオセグメント１１１Ｃに対応することを示す。オーディオ部分１５１Ｋの各々のデータセットセグメンテーション結果２５６Ｋは、オーディオ部分１５１Ｋが無音（または非発話ノイズ）を表し、したがって、オーディオ部分１５１Ｋがオーディオセグメント１１３Ｃに対応することを示す。

[0128] プロファイルマネージャ１２６は、ユーザ発話プロファイル１５０Ａの生成後、オーディオ部分１５１Ｊをユーザ発話プロファイル１５０Ａと比較することによって、オーディオ部分１５１Ｊの発話プロファイル結果２３８Ａを決定する。プロファイルマネージャ１２６は、発話プロファイル結果２３８Ａがプロファイルしきい値２５８よりも小さいと決定したことに応答して、オーディオ部分１５１Ｊがユーザ発話プロファイル１５０Ａに一致しないと決定する。

[0129] プロファイルマネージャ１２６は、オーディオ部分１５１Ｊがユーザ発話プロファイル１５０Ａに一致しないと決定したことに応答して、話者２９２Ｃに関連付けられた登録バッファ２３４Ｃにオーディオ部分１５１Ｊを記憶する。プロファイルマネージャ１２６は、登録バッファ２３４Ｃに記憶されたオーディオ部分１５１Ｊが登録しきい値２６４を満たさないと決定したことに応答して、登録バッファ２３４Ｃに記憶されたオーディオ部分１５１Ｊに基づいてユーザ発話プロファイル１５０を生成することを控える。プロファイルマネージャ１２６は、オーディオ部分１５１Ｋがしきい値よりも大きい無音を示すと決定したことに応答して、登録バッファ２３４をリセットする（たとえば、空としてマークする）。オーディオ部分１５１Ｊは、したがって、話者２９２Ｃが発話することを停止したように見えるとき、登録バッファ２３４Ｃから除去される。

[0130] 図８を参照すると、ユーザ発話プロファイル管理に関連する動作８００の例示的な態様が示されている。特定の態様では、動作８００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0131] 図１のセグメンタ１２４は、８０４において、話者セグメンテーション３０２を実行する。たとえば、セグメンタ１２４は、図２Ａを参照しながら説明されたように、時間Ｔにおいて特徴量抽出器２２２からオーディオ特徴量データセット２５２を受信し、オーディオ部分１５１のオーディオ特徴量データセット２５２のセグメンテーションスコア２５４を生成する。

[0132] 図１のプロファイルマネージャ１２６は、８０６において、セグメンテーションスコア２５４のいずれかがセグメンテーションしきい値２５７を満たすかどうかを決定する。たとえば、プロファイルマネージャ１２６は、セグメンテーションスコア２５４のいずれもセグメンテーションしきい値２５７を満たさないと決定したことに応答して、オーディオ特徴量データセット２５２が無音（または非発話ノイズ）を表すと決定し、無音カウント２６２を（たとえば、１だけ）増加させる。プロファイルマネージャ１２６は、無音カウント２６２を増加させた後に、８０８において、無音カウント２６２が無音しきい値２９４よりも大きいかどうかを決定する。

[0133] プロファイルマネージャ１２６は、８０８において、無音カウント２６２が無音しきい値２９４よりも大きいと決定したことに応答して、８１０において、リセットを実行する。たとえば、プロファイルマネージャ１２６は、登録バッファ２３４をリセットし（たとえば、空としてマークし）、プローブバッファ２４０をリセットし（たとえば、空としてマークし）、無音カウント２６２をリセットし（たとえば、０にリセットし）、またはそれらの組合せをリセットすることによってリセットを実行し、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。代替的に、プロファイルマネージャ１２６は、８０８において、無音カウント２６２が無音しきい値２９４以下であると決定したことに応答して、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。

[0134] プロファイルマネージャ１２６は、８０６において、セグメンテーションスコア２５４のうちの少なくとも１つがセグメンテーションしきい値２５７を満たすと決定したことに応答して、８１２において、プローブバッファ２４０のうちの少なくとも１つにオーディオ特徴量データセット２５２を追加する。たとえば、プロファイルマネージャ１２６は、話者２９２Ａに関連付けられたセグメンテーションスコア２５４Ａがセグメンテーションしきい値２５７を満たすと決定したことに応答して、オーディオ特徴量データセット２５２が話者２９２Ａの発話を表すと決定し、話者２９２Ａに関連付けられたプローブバッファ２４０Ａにオーディオ特徴量データセット２５２を追加する。特定の実装形態では、複数の話者２９２の発話を表すオーディオ特徴量データセット２５２が、複数の話者２９２に対応する複数のプローブバッファ２４０に追加される。たとえば、プロファイルマネージャ１２６は、セグメンテーションスコア２５４Ａおよびセグメンテーションスコア２５４Ｂの各々がセグメンテーションしきい値２５７を満たすと決定したことに応答して、オーディオ特徴量データセット２５２をプローブバッファ１４０Ａおよびプローブバッファ１４０Ｂに追加する。代替の実装形態では、複数の話者２９２の発話を表すオーディオ特徴量データセット２５２は、無視され、プローブバッファ２４０に追加されない。

[0135] プロファイルマネージャ１２６は、８１６において、対応する話者（たとえば、話者２９２Ａ）が登録されているかどうかを決定する。たとえば、プロファイルマネージャ１２６は、対応するプローブバッファ２４０（たとえば、プローブバッファ２４０Ａ）のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２を含む）を、複数のユーザ発話プロファイル１５０と比較することによって、話者２９２（たとえば、話者２９２Ａ）が登録されているかどうかを決定する。

[0136] プロファイルマネージャ１２６は、８１６において、話者２９２（たとえば、話者２９２Ａ）が登録されていないと決定したことに応答して、８１８において、オーディオ特徴量データセット２５２が品質チェックに合格するかどうかを決定する。たとえば、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が複数の話者２９２に対応すると決定したことに応答して、オーディオ特徴量データセット２５２が品質チェックに不合格であると決定する。代替的に、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が単一の話者に対応すると決定したことに応答して、オーディオ特徴量データセット２５２が品質チェックに合格したと決定する。

[0137] プロファイルマネージャ１２６は、８１８において、オーディオ特徴量データセット２５２が品質チェックに合格しなかったと決定したことに応答して、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。代替的に、プロファイルマネージャ１２６は、８１８において、オーディオ特徴量データセット２５２が品質チェックに合格したと決定したことに応答して、８２０において、話者２９２（たとえば、話者２９２Ａ）の発話を表すオーディオ特徴量データセット２５２を、話者２９２に関連付けられた登録バッファ２３４（たとえば、登録バッファ２３４Ａ）に追加する。

[0138] プロファイルマネージャ１２６は、８２２において、登録バッファ２３４（たとえば、登録バッファ２３４Ａ）に記憶されたオーディオ特徴量データセットのカウントが登録しきい値２６４よりも大きいかどうかを決定する。プロファイルマネージャ１２６は、８２２において、登録バッファ２３４（たとえば、登録バッファ２３４）の各々に記憶されたオーディオ特徴量データセットのカウントが登録しきい値２６４以下であると決定したことに応答して、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。代替的に、プロファイルマネージャ１２６は、登録バッファ２３４（たとえば、登録バッファ２３４Ａ）のオーディオ特徴量データセットのカウントが登録しきい値２６４よりも大きいと決定したことに応答して、８２４において、ユーザ発話プロファイル１５０Ａを生成し、ユーザ発話プロファイル１５０Ａを複数のユーザ発話プロファイル１５０に追加し、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。

[0139] プロファイルマネージャ１２６は、８１６において、話者２９２Ａが登録されていると決定したことに応答して、８２６において、オーディオ特徴量データセット２５２（または、発話がオーディオ特徴量データセット２５２によって表される話者２９２に関連付けられたプローブバッファ２４０のオーディオ特徴量データセット）が品質チェックに合格するかどうかを決定する。プロファイルマネージャ１２６は、８２６において、オーディオ特徴量データセット２５２（またはプローブバッファ２４０のオーディオ特徴量データセット）が品質チェックに合格しなかったと決定したことに応答して、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。プロファイルマネージャ１２６は、８２６において、オーディオ特徴量データセット２５２（またはプローブバッファ２４０のオーディオ特徴量データセット）が品質チェックに合格したと決定したことに応答して、オーディオ特徴量データセット２５２（またはプローブバッファ２４０のオーディオ特徴量データセット）に基づいて（オーディオ特徴量データセット２５２に一致する）ユーザ発話プロファイル１５０Ａを更新し、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。代替の態様では、８２６における品質チェックは、オーディオ特徴量データセット２５２をプローブバッファ２４０に追加する前に実行される。たとえば、プロファイルマネージャ１２６は、オーディオ特徴量データセット２５２が品質チェックに合格しなかったと決定したことに応答して、オーディオ特徴量データセット２５２をプローブバッファ２４０に追加することを控え、オーディオストリーム１４１の後続のオーディオ特徴量データセットを処理するために８０４に戻る。

[0140] 図９を参照すると、ユーザ発話プロファイル管理に関連する動作９００の例示的な態様が示されている。特定の態様では、動作９００のうちの１つまたは複数は、セグメンタ１２４、図１のプロファイルマネージャ１２６、特徴量抽出器２２２、話者検出器２７８、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せによって実行される。

[0141] １つまたは複数のプロセッサ２２０は、電力モード２８２で、時間Ｔにおいてバッファ２６８にオーディオ特徴量（たとえば、オーディオ特徴量データセット２５２）を追加する。図２Ａの話者検出器２７８は、９０４において、オーディオストリーム１４１中で複数の話者が検出されたかどうかを決定する。たとえば、話者検出器２７８は、オーディオ特徴量（たとえば、オーディオ特徴量データセット２５２）が複数の話者の発話を表すと決定したことに応答して、複数の話者が検出されたと決定する。別の例では、話者検出器２７８は、オーディオ特徴量（たとえば、オーディオ特徴量データセット２５２）が、以前のオーディオ特徴量（たとえば、以前のオーディオ特徴量データセット）において検出された第１の話者の発話に続く第２の話者の発話を表すと決定したことに応答して、複数の話者が検出されたと決定する。

[0142] 話者検出器２７８は、９０４において、複数の話者がオーディオストリーム１４１中で検出されなかったと決定したことに応答して、オーディオストリーム１４１の後続のオーディオ特徴量を処理し続ける。代替的に、話者検出器２７８は、９０４において、オーディオストリーム１４１中で複数の話者が検出されたと決定したことに応答して、９０６において、１つまたは複数のプロセッサ２２０を電力モード２８２から電力モード２８４に遷移させ、１つまたは複数のアプリケーション９２０をアクティブ化する。特定の態様では、１つまたは複数のアプリケーション９２０は、特徴量抽出器２２２、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せを含む。特定の態様では、話者検出器２７８は、１つまたは複数のアプリケーション９２０をアクティブ化するために、１つまたは複数のプロセッサ２２０を電力モード２８２から電力モード２８４に遷移させるためのウェイクアップ信号または割込みのうちの少なくとも１つを生成する。

[0143] 話者検出器２７８は、９１０において、電力モード２８４で、複数の話者が検出されたかどうかを決定する。たとえば、話者検出器２７８は、複数の話者が検出されたかどうかの以前の決定からしきい値時間が満了した後に複数の話者が検出されたかどうかを決定する。話者検出器２７８は、複数の話者が検出されたと決定したことに応答して、電力モード２８２に遷移することを控える。代替的に、話者検出器２７８は、複数の話者がオーディオ特徴量データセットのしきい値カウント内で検出されなかったと決定したことに応答して、１つまたは複数のプロセッサ２２０を電力モード２８４から電力モード２８２に遷移させる。

[0144] １つまたは複数のプロセッサ２２０は、したがって、（電力モード２８４と比較して）電力モード２８２で動作することによってエネルギーを節約し、電力モード２８２で動作しない構成要素をアクティブ化するために、必要に応じて電力モード２８４に遷移する。電力モード２８４への選択的な遷移は、デバイス２０２の全体的な電力消費量を低減する。

[0145] 図１０を参照すると、ユーザ発話プロファイル管理の方法１０００の特定の実装形態が示されている。特定の態様では、方法１０００の１つまたは複数の動作は、セグメンタ１２４、図１のプロファイルマネージャ１２６、話者検出器２７８、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、またはそれらの組合せのうちの少なくとも１つによって実行される。

[0146] 方法１０００は、１００２において、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することを含む。たとえば、図２Ａの話者検出器２７８は、図２Ａを参照しながら説明されたように、電力モード２８２で、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応するかどうかを決定する。

[0147] 方法１０００は、１００４において、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析することを含む。たとえば、図２Ａの１つまたは複数のプロセッサ２２０は、図２Ａを参照しながら説明されたように、オーディオストリーム１４１が少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、電力モード２８４に遷移し、セグメンタ１２４をアクティブ化する。セグメンタ１２４は、図２Ａを参照しながら説明されたように、電力モード２８４で、セグメンテーション結果２３６を生成するためにオーディオストリーム１４１のオーディオ特徴量データセット２５２を分析する。セグメンテーション結果２３６は、図２Ａを参照しながら説明されたように、オーディオストリーム１４１の話者同質オーディオセグメント（たとえば、話者同質オーディオセグメント１１１Ａおよび話者同質オーディオセグメント１１１Ｂ）を示す。

[0148] 方法１０００はまた、１００６において、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することを含む。たとえば、図１のプロファイルマネージャ１２６は、図２Ｂを参照しながら説明されたように、オーディオ特徴量データセット２５２が複数のユーザ発話プロファイル１５０のいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイル１５０と、話者同質オーディオセグメント１１１Ａの１つまたは複数のオーディオ特徴量データセット２５２Ａのうちのオーディオ特徴量データセット２５２との比較を実行する。

[0149] 方法１０００は、１００８において、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとをさらに含む。たとえば、図１のプロファイルマネージャ１２６は、図２Ｂを参照しながら説明されたように、オーディオ特徴量データセット２５２が複数のユーザ発話プロファイル１５０のいずれにも一致しないと決定したことに基づき、１つまたは複数のオーディオ特徴量データセット２５２Ａの少なくともサブセットに基づいてユーザ発話プロファイル１５０Ｃを生成し、ユーザ発話プロファイル１５０Ｃを複数のユーザ発話プロファイル１５０に追加する。

[0150] 方法１０００は、話者同質オーディオセグメントのオーディオ特徴量データセットに基づいて、ユーザ発話プロファイルの生成を可能にする。同じ話者の発話に対応する複数のオーディオ特徴量データセットを使用することは、単一のオーディオ特徴量データに基づいてユーザ発話プロファイルを生成することと比較して、話者の発話を表す際のユーザ発話プロファイルの精度を改善する。受動的な登録は、ユーザが事前登録される必要なしに、またはユーザが所定の単語もしくは文を話す必要なしに、ユーザ発話プロファイルを生成するために使用され得る。

[0151] 図１０の方法１０００は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）、中央処理装置（ＣＰＵ）などの処理ユニット、ＤＳＰ、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図１０の方法１０００は、たとえば、図１９を参照しながら説明される、命令を実行するプロセッサによって実行され得る。

[0152] 図１１は、１つまたは複数のプロセッサ２２０を含む集積回路１１０２としてのデバイス２０２の実装形態１１００を示す。１つまたは複数のプロセッサ２２０は、複数のアプリケーション１１２２を含む。アプリケーション１１２２は、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せを含む。集積回路１１０２はまた、オーディオストリーム１４１が処理のために受信されることを可能にするために、１つまたは複数のバスインターフェースなどのオーディオ入力１１０４を含む。集積回路１１０２はまた、プロファイルＩＤ１５５などの出力信号１１４３の送信を可能にするために、バスインターフェースなどの信号出力１１０６を含む。集積回路１１０２は、図１２に示されるモバイルフォンもしくはタブレット、図１３に示されるヘッドセット、図１４に示されるウェアラブル電子デバイス、図１５に示される音声制御スピーカーシステム、図１６に示される仮想現実ヘッドセットもしくは拡張現実ヘッドセット、または図１７もしくは図１８に示されるビークルなどの、マイクロフォンを含むシステム中の構成要素としてのユーザ発話プロファイル管理の実装を可能にする。

[0153] 図１２は、例示的で非限定的な例として、デバイス２０２が電話またはタブレットなどのモバイルデバイス１２０２を含む実装形態１２００を示す。モバイルデバイス１２０２は、マイクロフォン２４６とディスプレイスクリーン１２０４とを含む。アプリケーション１１２２を含む１つまたは複数のプロセッサ２２０の構成要素は、モバイルデバイス１２０２に統合され、モバイルデバイス１２０２のユーザには通常見えない内部構成要素を示すために破線を使用して示されている。特定の例では、アプリケーション１１２２の特徴量抽出器２２２、セグメンタ１２４、およびプロファイルマネージャ１２６は、ユーザ発話プロファイルを管理するように動作し、次いで、グラフィカルユーザインターフェースを起動するか、または場合によっては（たとえば、統合「スマートアシスタント」アプリケーションを介して）ディスプレイスクリーン１２０４においてユーザの発話に関連付けられた他の情報（たとえば、会話トランスクリプト）を表示するなど、モバイルデバイス１２０２における１つまたは複数の動作を実行するために使用される。

[0154] 図１３は、デバイス２０２がヘッドセットデバイス１３０２を含む実装形態１３００を示す。ヘッドセットデバイス１３０２は、マイクロフォン２４６を含む。アプリケーション１１２２を含む１つまたは複数のプロセッサ２２０の構成要素は、ヘッドセットデバイス１３０２に統合される。特定の例では、アプリケーション１１２２の特徴量抽出器２２２、セグメンタ１２４、およびプロファイルマネージャ１２６は、ユーザ発話プロファイルを管理するように動作し、それにより、ヘッドセットデバイス１３０２に、さらなる処理のために、ユーザ発話に対応する情報（たとえば、図２Ｂのプロファイル更新データ２７２、ユーザ対話データ２７４、またはその両方）を第２のデバイス（図示せず）に送信するなど、ヘッドセットデバイス１３０２における１つまたは複数の動作、またはそれらの組合せを実行させ得る。

[0155] 図１４は、デバイス２０２が、「スマートウォッチ」として示されたウェアラブル電子デバイス１４０２を含む実装形態１４００を示す。アプリケーション１１２２およびマイクロフォン２４６は、ウェアラブル電子デバイス１４０２に統合される。特定の例では、アプリケーション１１２２の特徴量抽出器２２２、セグメンタ１２４、およびプロファイルマネージャ１２６は、ユーザ発話プロファイルを管理するように動作し、次いで、グラフィカルユーザインターフェースを起動するか、または場合によってはウェアラブル電子デバイス１４０２のディスプレイスクリーン１４０４においてユーザの発話に関連付けられた他の情報を表示するなど、ウェアラブル電子デバイス１４０２における１つまたは複数の動作を実行するために使用される。例示すると、ウェアラブル電子デバイス１４０２は、ウェアラブル電子デバイス１４０２によって検出されたユーザ発話に基づいて通知（たとえば、カレンダーイベントを追加するためのオプション）を表示するように構成されたディスプレイスクリーン１４０４を含み得る。特定の例では、ウェアラブル電子デバイス１４０２は、ユーザ発話の検出に応答して触覚通知を提供する（たとえば、振動する）触覚デバイスを含む。たとえば、触覚通知は、ユーザによって話されたキーワードの検出を示す表示された通知を見るために、ウェアラブル電子デバイス１４０２をユーザに見させることができる。したがって、ウェアラブル電子デバイス１４０２は、ユーザの発話が検出されたことを、聴覚障害を有するユーザまたはヘッドセットを装着しているユーザに警告することができる。特定の例では、ウェアラブル電子デバイス１４０２は、発話の検出に応答して会話のトランスクリプトを表示することができる。

[0156] 図１５は、デバイス２０２がワイヤレススピーカーと音声起動デバイス１５０２とを含む実装形態１５００である。ワイヤレススピーカーおよび音声起動デバイス１５０２は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。アプリケーション１１２２、マイクロフォン２４６、またはそれらの組合せを含む１つまたは複数のプロセッサ２２０は、ワイヤレススピーカーおよび音声起動デバイス１５０２に含まれる。ワイヤレススピーカーおよび音声起動デバイス１５０２はまた、スピーカー１５０４を含む。動作中、アプリケーション１１２２の特徴量抽出器２２２、セグメンタ１２４、およびプロファイルマネージャ１２６の動作を介して、ユーザ発話プロファイル１５０Ａに関連付けられたユーザのユーザ発話として識別される口頭コマンドを受信したことに応答して、ワイヤレススピーカーおよび音声起動デバイス１５０２は、音声起動システム（たとえば、統合アシスタントアプリケーション）の実行などを介して、アシスタント動作を実行することができる。アシスタント動作は、温度を調整すること、音楽を再生すること、照明をつけることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ（たとえば、「ハロー、アシスタント」）の後にコマンドを受信したことに応答して実行される。特定の態様では、アシスタント動作は、ユーザ発話プロファイル１５０Ａに関連付けられたユーザについて、ユーザ固有のコマンド（たとえば、「明日の午後２時に私のカレンダーにアポイントを設定する」または「私の部屋の暖房の温度を上げる」）を実行することを含む。

[0157] 図１６は、デバイス２０２が、仮想現実（virtual reality）ヘッドセット、拡張現実（augmented reality）ヘッドセット、または複合現実（mixed reality）ヘッドセット１６０２に対応するポータブル電子デバイスを含む実装形態１６００を示す。アプリケーション１１２２、マイクロフォン２４６、またはそれらの組合せは、ヘッドセット１６０２に統合される。視覚的インターフェースデバイス１６２０は、ヘッドセット１６０２が装着されている間、ユーザへの拡張現実または仮想現実の画像またはシーンの表示を可能にするために、ユーザの眼の前に配置される。特定の例では、視覚的インターフェースデバイスは、マイクロフォン２４６から受信されたオーディオ信号中で検出されたユーザ発話を示す通知を表示するように構成される。特定の態様では、視覚的インターフェースデバイスは、マイクロフォン２４６によってピックアップされた会話の会話トランスクリプトを表示するように構成される。

[0158] 図１７は、デバイス２０２が、有人または無人の航空デバイス（たとえば、パッケージ配達ドローン）として示されるビークル１７０２に対応するか、またはその中に統合される実装形態１７００を示す。アプリケーション１１２２、マイクロフォン２４６、またはそれらの組合せは、ビークル１７０２に統合される。発話分析は、マイクロフォン２４６によってキャプチャされた会話のトランスクリプトを生成するためなどに、ビークル１７０２のマイクロフォン２４６から受信されたオーディオ信号に基づいて実行され得る。

[0159] 図１８は、デバイス２０２が、自動車として示されるビークル１８０２に対応するか、またはその中に統合される別の実装形態１８００を示す。ビークル１８０２は、アプリケーション１１２２を含む１つまたは複数のプロセッサ２２０を含む。ビークル１８０２はまた、マイクロフォン２４６を含む。マイクロフォン２４６は、ビークル１８０２の１人または複数の乗員の発言をキャプチャするように配置される。ユーザ発話分析は、ビークル１８０２のマイクロフォン２４６から受信されたオーディオ信号に基づいて実行され得る。いくつかの実装形態では、ユーザ発話分析は、ビークル１８０２の乗員間の会話などの、内部マイクロフォン（たとえば、マイクロフォン２４６）から受信されたオーディオ信号に基づいて実行され得る。たとえば、ユーザ発話分析は、ビークル１８０２中で検出された会話（たとえば、「土曜日の午後にピクニックに行きましょう」および「もちろん。素晴らしいですね」）に基づいて、特定のユーザ発話プロファイル（particular user speech profile）に関連付けられたユーザのカレンダーイベントを設定するために使用され得る。いくつかの実装形態では、ユーザ発話分析は、ビークル１８０２の外部で話すユーザなどの、外部マイクロフォン（たとえば、マイクロフォン２４６）から受信されたオーディオ信号に基づいて実行され得る。特定の実装形態では、特定の発話プロファイルに関連付けられたユーザ間の特定の会話を検出したことに応答して、アプリケーション１１２２は、ディスプレイ１８２０または１つもしくは複数のスピーカー（たとえば、スピーカー１８３０）を介してフィードバックまたは情報（たとえば、「ユーザ１は土曜日の午後３時までに事前の約束を持っているので、ピクニックを午後４時にスケジュールしますか？」）を提供することなどによって、検出された会話、検出されたユーザ、またはその両方に基づいてビークル１８０２の１つまたは複数の動作を開始する。

[0160] 図１９を参照すると、デバイスの特定の例示的な実装形態のブロック図が示されており、全体的に１９００と称される。様々な実装形態では、デバイス１９００は、図１９に示されているものよりも多いまたは少ない構成要素を有し得る。例示的な実装形態では、デバイス１９００はデバイス２０２に対応し得る。例示的な実装形態では、デバイス１９００は、図１～図１８を参照して説明された１つまたは複数の動作を実行し得る。

[0161] 特定の実装形態では、デバイス１９００はプロセッサ１９０６（たとえば、中央処理装置（ＣＰＵ））を含む。デバイス１９００は、１つまたは複数の追加のプロセッサ１９１０（たとえば、１つまたは複数のＤＳＰ）を含み得る。特定の態様では、図２Ａの１つまたは複数のプロセッサ２２０は、プロセッサ１９０６、プロセッサ１９１０、またはそれらの組合せに対応する。プロセッサ１９１０は、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せを含み得る。

[0162] デバイス１９００は、メモリ１９８６とコーデック１９３４とを含み得る。特定の態様では、メモリ１９８６は、図２Ａのメモリ２３２に対応する。メモリ１９８６は、特徴量抽出器２２２、話者検出器２７８、セグメンタ１２４、プロファイルマネージャ１２６、１つもしくは複数のオーディオ分析アプリケーション１８０、またはそれらの組合せを参照しながら説明された機能を実装するために、１つまたは複数の追加のプロセッサ１９１０（またはプロセッサ１９０６）によって実行可能である命令１９５６を含み得る。デバイス１９００は、トランシーバ１９５０を介してアンテナ１９５２に結合されたワイヤレスコントローラ１９４０を含み得る。特定の態様では、デバイス１９００は、トランシーバ１９５０に結合されたモデムを含む。

[0163] デバイス１９００は、ディスプレイコントローラ１９２６に結合されたディスプレイ１９２８を含み得る。１つまたは複数のスピーカー１９９２、マイクロフォン２４６、またはそれらの組合せが、コーデック１９３４に結合され得る。コーデック１９３４は、デジタルアナログ変換器（ＤＡＣ）１９０２、アナログデジタル変換器（ＡＤＣ）１９０４、またはその両方を含み得る。特定の実装形態では、コーデック１９３４は、マイクロフォン２４６からアナログ信号を受信し、アナログデジタル変換器１９０４を使用してアナログ信号をデジタル信号に変換し、１つまたは複数のプロセッサ１９１０にデジタル信号を提供し得る。１つまたは複数のプロセッサ１９１０は、デジタル信号を処理し得る。特定の実装形態では、１つまたは複数のプロセッサ１９１０は、デジタル信号をコーデック１９３４に提供し得る。コーデック１９３４は、デジタルアナログ変換器１９０２を使用してデジタル信号をアナログ信号に変換することがあり、アナログ信号をスピーカー１９９２に提供することがある。

[0164] 特定の実装形態では、デバイス１９００は、システムインパッケージまたはシステムオンチップデバイス１９２２に含まれ得る。特定の実装形態では、メモリ１９８６、プロセッサ１９０６、プロセッサ１９１０、ディスプレイコントローラ１９２６、コーデック１９３４、ワイヤレスコントローラ１９４０、およびトランシーバ１９５０は、システムインパッケージまたはシステムオンチップデバイス１９２２に含まれる。特定の実装形態では、入力デバイス１９３０および電源１９４４は、システムオンチップデバイス１９２２に結合される。その上、特定の実装形態では、図１９に示されるように、ディスプレイ１９２８、入力デバイス１９３０、スピーカー１９９２、マイクロフォン２４６、アンテナ１９５２、および電源１９４４は、システムオンチップデバイス１９２２の外部にある。特定の実装形態では、ディスプレイ１９２８、入力デバイス１９３０、スピーカー１９９２、マイクロフォン２４６、アンテナ１９５２、および電源１９４４の各々は、インターフェースまたはコントローラなどの、システムオンチップデバイス１９２２の構成要素に結合され得る。

[0165] デバイス１９００は、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末、ディスプレイデバイス、テレビ、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク（ＤＶＤ）プレーヤ、チューナー、カメラ、ナビゲーションデバイス、ビークル、ヘッドセット、拡張現実ヘッドセット、仮想現実ヘッドセット、航空機、ホームオートメーションシステム、音声起動デバイス、ワイヤレススピーカーおよび音声起動デバイス、ポータブル電子デバイス、自動車、コンピューティングデバイス、通信デバイス、モノのインターネット（ＩｏＴ：internet-of-things）デバイス、仮想現実（ＶＲ）デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。

[0166] 説明された実装形態に関連して、装置は、複数のユーザの複数のユーザ発話プロファイルを記憶するための手段を含む。たとえば、記憶するための手段は、メモリ２３２、デバイス２０２、図２Ａのシステム２００、メモリ１９８６、デバイス１９００、複数のユーザ発話プロファイルを記憶するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。

[0167] 本装置は、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定するための手段をさらに含む。たとえば、決定するための手段は、話者検出器２７８、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、プロセッサ１９０６、１つもしくは複数のプロセッサ１９１０、デバイス１９００、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを第１の電力モードで決定するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。

[0168] 本装置はまた、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析するための手段を含む。たとえば、分析するための手段は、セグメンタ１２４、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、プロセッサ１９０６、１つもしくは複数のプロセッサ１９１０、デバイス１９００、オーディオ特徴量データを分析するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。セグメンテーション結果２３６は、オーディオストリーム１４１の話者同質オーディオセグメントを示す。

[0169] 本装置は、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行するための手段をさらに含む。たとえば、比較を実行するための手段は、プロファイルマネージャ１２６、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、プロセッサ１９０６、１つもしくは複数のプロセッサ１９１０、デバイス１９００、比較を実行するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。

[0170] 本装置はまた、第１の複数のオーディオ特徴量データセットに基づいて、第１のユーザ発話プロファイルを生成するための手段を含む。たとえば、第１のユーザ発話プロファイルを生成するための手段は、プロファイルマネージャ１２６、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、プロセッサ１９０６、１つもしくは複数のプロセッサ１９１０、デバイス１９００、第１のユーザ発話プロファイルを生成するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。ユーザ発話プロファイル１５０Ａは、オーディオ特徴量データセット２５２が複数のユーザ発話プロファイル１５０のいずれにも一致しないと決定したことに基づいて生成される。

[0171] 本装置は、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加するための手段をさらに含む。たとえば、第１のユーザ発話プロファイルを追加するための手段は、プロファイルマネージャ１２６、１つもしくは複数のプロセッサ２２０、デバイス２０２、図２Ａのシステム２００、プロセッサ１９０６、１つもしくは複数のプロセッサ１９１０、デバイス１９００、第１のユーザ発話プロファイルを追加するように構成された１つもしくは複数の他の回路もしくは構成要素、またはそれらの任意の組合せを含む。

[0172] いくつかの実装形態では、非一時的コンピュータ可読媒体（たとえば、メモリ１９８６などのコンピュータ可読記憶デバイス）は、１つまたは複数のプロセッサ（たとえば、１つもしくは複数のプロセッサ１９１０またはプロセッサ１９０６）によって実行されたとき、１つまたは複数のプロセッサに、第１の電力モード（たとえば、電力モード２８２）で、オーディオストリーム（たとえば、オーディオストリーム１４１）が少なくとも２人の異なる話者の発話に対応するかどうかを決定することを行わせる命令（たとえば、命令１９５６）を含む。命令はまた、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、セグメンテーション結果（たとえば、セグメンテーション結果２３６）を生成するためにオーディオストリームのオーディオ特徴量データ（たとえば、オーディオ特徴量データセット２５２）を分析することを行わせる。セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメント（たとえば、話者同質オーディオセグメント１１１Ａおよび話者同質オーディオセグメント１１１Ｂ）を示す。命令はまた、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、第１の話者同質オーディオセグメント（たとえば、話者同質オーディオセグメント１１１Ａ）の第１の複数のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２Ａ）のうちの第１のオーディオ特徴量データセット（たとえば、オーディオ特徴量データセット２５２）が複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイル（たとえば、複数のユーザ発話プロファイル１５０）と、第１のオーディオ特徴量データセットとの比較を実行することを行わせる。命令はさらに、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイル（たとえば、ユーザ発話プロファイル１５０Ａ）を生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行わせる。

[0173] 本開示の特定の態様が、相互に関係する条項の第１のセットにおいて以下で説明される。

[0174] 条項１によれば、オーディオ分析のためのデバイスは、複数のユーザの複数のユーザ発話プロファイルを記憶するように構成されたメモリと、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析することと、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することと、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行うように構成された１つまたは複数のプロセッサとを備える。

[0175] 条項２は、第１のオーディオ特徴量データセットが第１のオーディオ特徴量ベクトル（first audio feature vector）を含む、条項１に記載のデバイスを含む。

[0176] 条項３は、１つまたは複数のプロセッサが、話者セグメンテーションニューラルネットワークをオーディオ特徴量データに適用することによって、オーディオ特徴量データを分析するように構成される、条項１または条項２に記載のデバイスを含む。

[0177] 条項４は、第１のオーディオ特徴量データセットが第１の話者の発話に対応することと、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないこととをセグメンテーション結果が示すと決定したことに基づいて、１つまたは複数のプロセッサが、第１の話者に関連付けられた第１の登録バッファ（first enrollment buffer）に第１のオーディオ特徴量データセットを記憶することと、停止条件が満たされるまで、第１の話者の発話に対応する後続のオーディオ特徴量データセットを第１の登録バッファに記憶することを行うように構成され、ここにおいて、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットが、第１のオーディオ特徴量データセットと後続のオーディオ特徴量データセットとを含む、条項１から条項３のいずれかに記載のデバイスを含む。

[0178] 条項５は、１つまたは複数のプロセッサが、しきい値よりも長い無音がオーディオストリーム中で検出されたと決定したことに応答して、停止条件が満たされたと決定するように構成される、条項４に記載のデバイスを含む。

[0179] 条項６は、１つまたは複数のプロセッサが、特定のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づいて、特定のオーディオ特徴量データセット（particular audio feature data set）を第１の登録バッファに追加するように構成され、ここにおいて、単一の話者は第１の話者を含む、条項４または５に記載のデバイスを含む。

[0180] 条項７は、１つまたは複数のプロセッサが、第１の登録バッファに記憶された第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成するように構成される、条項１から６のいずれかに記載のデバイスを含む。

[0181] 条項８は、１つまたは複数のプロセッサが、第１のオーディオ特徴量データセットが特定のユーザ発話プロファイルに一致すると決定したことに基づき、第１のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新するように構成される、条項１から７のいずれかに記載のデバイスを含む。

[0182] 条項９は、１つまたは複数のプロセッサが、第１のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づき、第１のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新するように構成される、条項８に記載のデバイスを含む。

[0183] 条項１０は、１つまたは複数のプロセッサが、第２の話者同質オーディオセグメントの第２の複数のオーディオ特徴量データセットのうちの第２のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するように構成される、条項１から９のいずれかに記載のデバイスを含む。

[0184] 条項１１は、１つまたは複数のプロセッサが、第２のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第２の複数のオーディオ特徴量データセットに基づいて第２のユーザ発話プロファイル（second user speech profile）を生成することと、第２のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行うように構成される、条項１０に記載のデバイスを含む。

[0185] 条項１２は、１つまたは複数のプロセッサが、第２のオーディオ特徴量データセットが複数のユーザ発話プロファイルのうちの特定のユーザ発話プロファイルに一致すると決定したことに基づき、第２のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新するように構成される、条項１０に記載のデバイスを含む。

[0186] 条項１３は、メモリが、プロファイル更新データを記憶するように構成され、１つまたは複数のプロセッサが、第１のユーザ発話プロファイルを生成したことに応答して、第１のユーザ発話プロファイルが更新されたことを示すためにプロファイル更新データを更新することと、複数のユーザ発話プロファイルの第１のカウントが更新されたことをプロファイル更新データが示すと決定したことに基づいて、オーディオストリーム中で検出された話者のカウントとして第１のカウントを出力することとを行うように構成される、条項１から１２のいずれかに記載のデバイスを含む。

[0187] 条項１４は、メモリが、ユーザ対話データを記憶するように構成され、１つまたは複数のプロセッサが、第１のユーザ発話プロファイルを生成したことに応答して、第１のユーザ発話プロファイルに関連付けられた第１のユーザ（first user）が発話持続時間にわたって対話したことを示すために、第１の話者同質オーディオセグメントの発話持続時間に基づいてユーザ対話データを更新することと、少なくともユーザ対話データを出力することとを行うように構成される、条項１から１３のいずれかに記載のデバイスを含む。

[0188] 条項１５は、第１の電力モードが、第２の電力モードと比較してより低い電力モードである、条項１から１４のいずれかに記載のデバイスを含む。

[0189] 条項１６は、１つまたは複数のプロセッサが、第１の電力モードで、オーディオストリームのオーディオ情報を決定することと、オーディオ情報は、オーディオストリーム中で検出された話者のカウント、ボイスアクティビティ検出（ＶＡＤ）情報、またはその両方を含む、第２の電力モードで１つまたは複数のオーディオ分析アプリケーションをアクティブ化することと、１つまたは複数のオーディオ分析アプリケーションにオーディオ情報を提供することとを行うように構成される、条項１に記載のデバイスを含む。

[0190] 条項１７は、１つまたは複数のプロセッサが、セグメンテーション結果が、オーディオストリームの１つまたは複数の第２のオーディオセグメント（second audio segment）が複数の話者に対応することを示すと決定したことに応答して、１つまたは複数の第２のオーディオセグメントに基づいて複数のユーザ発話プロファイルを更新することを控えるように構成される、条項１から１６のいずれかに記載のデバイスを含む。

[0191] 本開示の特定の態様が、相互に関係する条項の第２のセットにおいて以下で説明される。

[0192] 第１８項によれば、オーディオ分析の方法は、デバイスにおいて、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析することと、セグメンテーション結果はオーディオストリームの話者同質オーディオセグメントを示す、デバイスにおいて、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することと、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、デバイスにおいて、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、デバイスにおいて、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを備える。

[0193] 条項１９は、条項１８に記載の方法を含み、話者セグメンテーションニューラルネットワークをオーディオ特徴量データに適用することをさらに備える。

[0194] 条項２０は、条項１８または１９に記載の方法を含み、第１のオーディオ特徴量データセットが第１の話者の発話に対応することと、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないこととをセグメンテーション結果が示すと決定したことに基づいて、第１の話者に関連付けられた第１の登録バッファ中に第１のオーディオ特徴量データセットを記憶することと、停止条件が満たされるまで、第１の話者の発話に対応する後続のオーディオ特徴量データセットを第１の登録バッファ中に記憶することとをさらに備え、ここにおいて、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットが、第１のオーディオ特徴量データセットと後続のオーディオ特徴量データセットとを含む。

[0195] 条項２１は、条項２０に記載の方法を含み、デバイスにおいて、しきい値よりも長い無音がオーディオストリーム中で検出されたと決定したことに応答して、停止条件が満たされたと決定することをさらに備える。

[0196] 条項２２は、条項２０または条項２１に記載の方法を含み、デバイスにおいて、特定のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づいて、特定のオーディオ特徴量データセットを第１の登録バッファに追加することをさらに備え、ここにおいて、単一の話者は第１の話者を含む。

[0197] 条項２３は、条項１８から２２のいずれかに記載の方法を含み、第１の登録バッファに記憶された第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することをさらに備える。

[0198] 条項２４は、条項１８から２３のいずれかに記載の方法を含み、第１のオーディオ特徴量データセットが特定のユーザ発話プロファイルに一致すると決定したことに基づき、第１のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新することをさらに備える。

[0199] 条項２５は、条項２４に記載の方法を含み、第１のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づき、第１のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新することをさらに備える。

[0200] 条項２６は、条項１８から２５のいずれかに記載の方法を含み、第２の話者同質オーディオセグメントの第２の複数のオーディオ特徴量データセットのうちの第２のオーディオ特徴量データセットが複数のユーザ発話プロファイルのうちの特定のユーザ発話プロファイルに一致すると決定したことに基づき、第２のオーディオ特徴量データセットに基づいて特定のユーザ発話プロファイルを更新することをさらに備える。

[0201] 本開示の特定の態様が、相互に関係する条項の第３のセットにおいて以下で説明される。

[0202] 条項２７によれば、非一時的コンピュータ可読記憶媒体（non-transitory computer-readable storage medium）は、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成するために、オーディオストリームのオーディオ特徴量データを分析することと、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行することと、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加することとを行わせる命令を記憶する。

[0203] 条項２８は、条項２７に記載の非一時的コンピュータ可読記憶媒体を含み、命令は、１つまたは複数のプロセッサによって実行されたとき、プロセッサに、第１の登録バッファに記憶された第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することを行わせる。

[0204] 本開示の特定の態様が、相互に関係する条項の第４のセットにおいて以下で説明される。

[0205] 条項２９によれば、装置は、複数のユーザの複数のユーザ発話プロファイルを記憶するための手段と、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定するための手段と、第２の電力モードで、セグメンテーション結果を生成するためにオーディオストリームのオーディオ特徴量データを分析するための手段と、オーディオ特徴量データは、オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて第２の電力モードで分析され、ここにおいて、セグメンテーション結果は、オーディオストリームの話者同質オーディオセグメントを示す、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、複数のユーザ発話プロファイルと、第１のオーディオ特徴量データセットとの比較を実行するための手段と、第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成するための手段と、第１のユーザ発話プロファイルは、第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づいて生成される、第１のユーザ発話プロファイルを複数のユーザ発話プロファイルに追加するための手段とを備える。

[0206] 条項３０は、記憶するための手段、決定するための手段、分析するための手段、実行するための手段、生成するための手段、および追加するための手段が、モバイル通信デバイス、スマートフォン、セルラーフォン、スマートスピーカー、スピーカーバー、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末、ディスプレイデバイス、テレビ、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク（ＤＶＤ）プレーヤ、チューナー、カメラ、ナビゲーションデバイス、ビークル、ヘッドセット、拡張現実ヘッドセット、仮想現実ヘッドセット、航空機、ホームオートメーションシステム、音声起動デバイス、ワイヤレススピーカーおよび音声起動デバイス、ポータブル電子デバイス、自動車、コンピューティングデバイス、通信デバイス、モノのインターネット（ＩｏＴ）デバイス、仮想現実（ＶＲ）デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せのうちの少なくとも１つに統合される、条項２９に記載の装置を含む。

[0207] さらに、本明細書で開示される実装形態に関して説明される様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることを当業者は理解するだろう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、上では全般に、それらの機能に関して説明された。そのような機能がハードウェアとして実装されるか、またはプロセッサ実行可能命令として実装されるかは、具体的な適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明された機能を、具体的な適用例ごとに様々な方法で実装することができるが、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

[0208] 本明細書で開示された実装形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで具現化されるか、プロセッサによって実行されるソフトウェアモジュールで具現化されるか、またはその２つの組合せで具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替的に、記憶媒体はプロセッサと一体であり得る。プロセッサと記憶媒体とは、特定用途向け集積回路（ＡＳＩＣ）中に存在し得る。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替的に、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内の個別の構成要素として存在し得る。

[0209] 開示される態様の上記の説明は、開示される態様を当業者が作成または使用することを可能にするために与えられた。これらの態様への様々な修正が当業者には容易に明らかになり、本明細書で定義された原理が、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されることを意図されておらず、以下の特許請求の範囲によって定義されるような原理および新規な特徴に一致する可能な最も広い範囲を与えられるべきである。

Claims

オーディオ分析のためのデバイスであって、
複数のユーザの複数のユーザ発話プロファイルを記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサは、
第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、
前記オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、前記オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成するために前記オーディオストリームのオーディオ特徴量データを分析することと、
第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、前記複数のユーザ発話プロファイルと、前記第１のオーディオ特徴量データセットとの比較を実行することと、
前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、
前記第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、
前記第１のユーザ発話プロファイルを前記複数のユーザ発話プロファイルに追加することと
を行うように構成される、デバイス。
前記第１のオーディオ特徴量データセットは、第１のオーディオ特徴量ベクトルを含む、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、話者セグメンテーションニューラルネットワークを前記オーディオ特徴量データに適用することによって、前記オーディオ特徴量データを分析するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のオーディオ特徴量データセットが第１の話者の発話に対応することと、前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないこととを前記セグメンテーション結果が示すと決定したことに基づいて、
前記第１の話者に関連付けられた第１の登録バッファに前記第１のオーディオ特徴量データセットを記憶することと、
停止条件が満たされるまで、前記第１の話者の発話に対応する後続のオーディオ特徴量データセットを前記第１の登録バッファに記憶することとを行うように構成され、ここにおいて、前記第１の話者同質オーディオセグメントの前記第１の複数のオーディオ特徴量データセットは、前記第１のオーディオ特徴量データセットと前記後続のオーディオ特徴量データセットとを含む、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、しきい値よりも長い無音が前記オーディオストリーム中で検出されたと決定したことに応答して、前記停止条件が満たされたと決定するように構成される、請求項４に記載のデバイス。
前記１つまたは複数のプロセッサは、特定のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づいて、前記特定のオーディオ特徴量データセットを前記第１の登録バッファに追加するように構成され、ここにおいて、前記単一の話者は前記第１の話者を含む、請求項４に記載のデバイス。
前記１つまたは複数のプロセッサは、第１の登録バッファに記憶された前記第１の話者同質オーディオセグメントの前記第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、前記第１の複数のオーディオ特徴量データセットに基づいて前記第１のユーザ発話プロファイルを生成するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のオーディオ特徴量データセットが特定のユーザ発話プロファイルに一致すると決定したことに基づき、前記第１のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第１のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づき、前記第１のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新するように構成される、請求項８に記載のデバイス。
前記１つまたは複数のプロセッサは、第２の話者同質オーディオセグメントの第２の複数のオーディオ特徴量データセットのうちの第２のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第２のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、
前記第２の複数のオーディオ特徴量データセットに基づいて第２のユーザ発話プロファイルを生成することと、
前記第２のユーザ発話プロファイルを前記複数のユーザ発話プロファイルに追加することと
を行うように構成される、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、前記第２のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのうちの特定のユーザ発話プロファイルに一致すると決定したことに基づき、前記第２のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新するように構成される、請求項１０に記載のデバイス。
前記メモリは、プロファイル更新データを記憶するように構成され、前記１つまたは複数のプロセッサは、
前記第１のユーザ発話プロファイルを生成したことに応答して、前記第１のユーザ発話プロファイルが更新されたことを示すために前記プロファイル更新データを更新することと、
前記複数のユーザ発話プロファイルの第１のカウントが更新されたことを前記プロファイル更新データが示すと決定したことに基づいて、前記オーディオストリーム中で検出された話者のカウントとして前記第１のカウントを出力することと
を行うように構成される、請求項１に記載のデバイス。
前記メモリは、ユーザ対話データを記憶するように構成され、前記１つまたは複数のプロセッサは、
前記第１のユーザ発話プロファイルを生成したことに応答して、前記第１のユーザ発話プロファイルに関連付けられた第１のユーザが発話持続時間にわたって対話したことを示すために、前記第１の話者同質オーディオセグメントの前記発話持続時間に基づいて前記ユーザ対話データを更新することと、
少なくとも前記ユーザ対話データを出力することと
を行うように構成される、請求項１に記載のデバイス。
前記第１の電力モードは、前記第２の電力モードと比較してより低い電力モードである、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記第１の電力モードで、前記オーディオストリームのオーディオ情報を決定することと、前記オーディオ情報は、前記オーディオストリーム中で検出された話者のカウント、ボイスアクティビティ検出（ＶＡＤ）情報、またはその両方を含む、
前記第２の電力モードで、１つまたは複数のオーディオ分析アプリケーションをアクティブ化することと、
前記オーディオ情報を１つまたは複数のオーディオ分析アプリケーションに提供することと
を行うように構成される、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記オーディオストリームの１つまたは複数の第２のオーディオセグメントが複数の話者に対応することを前記セグメンテーション結果が示すと決定したことに応答して、前記１つまたは複数の第２のオーディオセグメントに基づいて前記複数のユーザ発話プロファイルを更新することを控えるように構成される、請求項１に記載のデバイス。
オーディオ分析の方法であって、
デバイスにおいて、第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、
前記オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、前記オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成するために前記オーディオストリームのオーディオ特徴量データを分析することと、
前記デバイスにおいて、第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、前記複数のユーザ発話プロファイルと、前記第１のオーディオ特徴量データセットとの比較を実行することと、
前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、
前記デバイスにおいて、前記第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、
前記デバイスにおいて、前記第１のユーザ発話プロファイルを前記複数のユーザ発話プロファイルに追加することと
を備える、方法。
話者セグメンテーションニューラルネットワークを前記オーディオ特徴量データに適用することをさらに備える、請求項１８に記載の方法。
前記第１のオーディオ特徴量データセットが第１の話者の発話に対応することと、前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないこととを前記セグメンテーション結果が示すと決定したことに基づいて、
前記第１の話者に関連付けられた第１の登録バッファに前記第１のオーディオ特徴量データセットを記憶することと、
停止条件が満たされるまで、前記第１の話者の発話に対応する後続のオーディオ特徴量データセットを前記第１の登録バッファに記憶することと、ここにおいて、前記第１の話者同質オーディオセグメントの前記第１の複数のオーディオ特徴量データセットは、前記第１のオーディオ特徴量データセットと前記後続のオーディオ特徴量データセットとを含む、
をさらに備える、請求項１８に記載の方法。
前記デバイスにおいて、しきい値よりも長い無音が前記オーディオストリーム中で検出されたと決定したことに応答して、前記停止条件が満たされたと決定することをさらに備える、請求項２０に記載の方法。
前記デバイスにおいて、特定のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づいて、前記特定のオーディオ特徴量データセットを前記第１の登録バッファに追加することをさらに備え、ここにおいて、前記単一の話者は前記第１の話者を含む、請求項２０に記載の方法。
第１の登録バッファに記憶された前記第１の話者同質オーディオセグメントの前記第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、前記第１の複数のオーディオ特徴量データセットに基づいて前記第１のユーザ発話プロファイルを生成することをさらに備える、請求項１８に記載の方法。
前記第１のオーディオ特徴量データセットが特定のユーザ発話プロファイルに一致すると決定したことに基づき、前記第１のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新することをさらに備える、請求項１８に記載の方法。
前記第１のオーディオ特徴量データセットが単一の話者の発話に対応すると決定したことに少なくとも部分的に基づき、前記第１のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新することをさらに備える、請求項２４に記載の方法。
第２の話者同質オーディオセグメントの第２の複数のオーディオ特徴量データセットのうちの第２のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのうちの特定のユーザ発話プロファイルに一致すると決定したことに基づき、前記第２のオーディオ特徴量データセットに基づいて前記特定のユーザ発話プロファイルを更新することをさらに備える、請求項１８に記載の方法。
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記プロセッサに、
第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定することと、
前記オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて、第２の電力モードで、前記オーディオストリームの話者同質オーディオセグメントを示すセグメンテーション結果を生成するために前記オーディオストリームのオーディオ特徴量データを分析することと、
第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、前記複数のユーザ発話プロファイルと、前記第１のオーディオ特徴量データセットとの比較を実行することと、
前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づき、
前記第１の複数のオーディオ特徴量データセットに基づいて第１のユーザ発話プロファイルを生成することと、
前記第１のユーザ発話プロファイルを前記複数のユーザ発話プロファイルに追加することと
を行わせる、非一時的コンピュータ可読記憶媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されたとき、前記プロセッサに、第１の登録バッファに記憶された前記第１の話者同質オーディオセグメントの前記第１の複数のオーディオ特徴量データセットのカウントが登録しきい値よりも大きいと決定したことに基づき、前記第１の複数のオーディオ特徴量データセットに基づいて前記第１のユーザ発話プロファイルを生成することを行わせる、請求項２７に記載の非一時的コンピュータ可読記憶媒体。
装置であって、
複数のユーザの複数のユーザ発話プロファイルを記憶するための手段と、
第１の電力モードで、オーディオストリームが少なくとも２人の異なる話者の発話に対応するかどうかを決定するための手段と、
第２の電力モードで、セグメンテーション結果を生成するために前記オーディオストリームのオーディオ特徴量データを分析するための手段と、前記オーディオ特徴量データは、前記オーディオストリームが少なくとも２人の異なる話者の発話に対応すると決定したことに基づいて前記第２の電力モードで分析され、ここにおいて、前記セグメンテーション結果は、前記オーディオストリームの話者同質オーディオセグメントを示す、
第１の話者同質オーディオセグメントの第１の複数のオーディオ特徴量データセットのうちの第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれかに一致するかどうかを決定するために、前記複数のユーザ発話プロファイルと、前記第１のオーディオ特徴量データセットとの比較を実行するための手段と、
前記第１の複数のオーディオ特徴量データセットに基づいて、第１のユーザ発話プロファイルを生成するための手段と、前記第１のユーザ発話プロファイルは、前記第１のオーディオ特徴量データセットが前記複数のユーザ発話プロファイルのいずれにも一致しないと決定したことに基づいて生成される、
前記第１のユーザ発話プロファイルを前記複数のユーザ発話プロファイルに追加するための手段と
を備える、装置。
記憶するための前記手段、決定するための前記手段、分析するための前記手段、実行するための前記手段、生成するための前記手段、および追加するための前記手段は、モバイル通信デバイス、スマートフォン、セルラーフォン、スマートスピーカー、スピーカーバー、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末、ディスプレイデバイス、テレビ、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク（ＤＶＤ）プレーヤ、チューナー、カメラ、ナビゲーションデバイス、ビークル、ヘッドセット、拡張現実ヘッドセット、仮想現実ヘッドセット、航空機、ホームオートメーションシステム、音声起動デバイス、ワイヤレススピーカーおよび音声起動デバイス、ポータブル電子デバイス、自動車、コンピューティングデバイス、通信デバイス、モノのインターネット（ＩｏＴ）デバイス、仮想現実（ＶＲ）デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せのうちの少なくとも１つに統合される、請求項２９に記載の装置。