JP6812604B2 - オーディオアクティビティ追跡および要約 - Google Patents

オーディオアクティビティ追跡および要約 Download PDF

Info

Publication number
JP6812604B2
JP6812604B2 JP2020520512A JP2020520512A JP6812604B2 JP 6812604 B2 JP6812604 B2 JP 6812604B2 JP 2020520512 A JP2020520512 A JP 2020520512A JP 2020520512 A JP2020520512 A JP 2020520512A JP 6812604 B2 JP6812604 B2 JP 6812604B2
Authority
JP
Japan
Prior art keywords
audio
mode
activity
tracked
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020520512A
Other languages
English (en)
Other versions
JP2020537180A (ja
Inventor
ジャービス、マーレイ
タルウフ、ベンジャミン
グラウベ、ニコラス
ウッステンハルメ、クラーク・ドン
フィンチ、シモン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2020537180A publication Critical patent/JP2020537180A/ja
Application granted granted Critical
Publication of JP6812604B2 publication Critical patent/JP6812604B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Telephone Function (AREA)

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、2017年10月12日に出願された米国特許出願第15/782,287号の利益を主張する。
[0002] 本開示は、一般にオーディオ処理およびユーザインターフェースに関する。
[0003] 技術の進歩は、より多くの消費者によってその身体的アクティビティ(physical activity)を追跡する(track)ために使用されるようになっているフィットネスバンド(fitness band)またはアクティビティ追跡器(activity tracker)(たとえば、フィットビットデバイス(fitbit device)またはウェアラブルウォッチ(wearable watch))をもたらした。これらのフィットネスおよびアクティビティ追跡器は、典型的には装着され、人の心拍を測定するかまたは移動を測定するためのセンサーを含み、ウェアラブルデバイス(wearable device)内のトランシーバに結合される。多くの場合、ウェアラブルデバイスは、フィットネスまたはアクティビティ(たとえば、歩行、燃焼カロリー、または起立時間量)を、Bluetooth(登録商標)ワイヤレス通信を通してスマートフォンまたは他のモバイルデバイスにワイヤレス送信する。
[0004] 過去2、3年において、「ヒアラブル(hearable)」という用語が、ウェアラブルデバイスおよびヘッドフォンの使用を記述するために使用されている。ヒアラブルはまた、音を再生するためのラウドスピーカー(loudspeaker)と、音声コマンドをキャプチャするかまたは電話で話すためのマイクロフォン(microphone)とを含む。ヒアラブルは、心拍数、温度、酸素飽和度(oxygen saturation)、または歩調(cadence)を追跡するためのセンサーを含み得る。加えて、ヒアラブルは、スマートフォンまたはモバイルデバイスと通信するためのBluetooth集積回路を含み得る。いくつかのヒアラブルは、ユーザが電話にワイヤレスペアリングしないで通話を行うことを可能にするWi−Fi(登録商標)およびセルラー接続性が可能である。また、音声認識の進歩は、機械学習の進歩とともに高まっており、ヒアラブル中に含まれ得る追加の技術である。
[0005] ヒアラブルの技術が進歩し続けるにつれて、新しい課題および機会が発生し得る。
[0006] 様々な実施形態は、オーディオ信号(audio signal)を受信したことに基づいてオーディオイベント(audio event)を決定するための1つまたは複数のプロセッサ(processor)を含む、デバイス(device)のための方法を含む。1つまたは複数のプロセッサは、決定されたオーディオイベント(determined audio event)に基づいてオーディオアクティビティ(audio activity)を追跡し、要約モード(summary mode)に基づいて、追跡されたオーディオアクティビティ(tracked audio activity)を要約する(summarize)。その上、1つまたは複数のプロセッサは、フィードバックモード(feedback mode)に基づいて、要約された追跡されたオーディオアクティビティ(summarized tracked audio activity)のフィードバック(feedback)を提供する(provide)。加えて、1つまたは複数のプロセッサは、フィードバックモードを選択し、視覚フィードバックモード(visual feedback mode)に基づいて、要約された追跡されたオーディオアクティビティを表示し得る。同じまたは代替的実施形態では、要約された追跡されたオーディオアクティビティは、選択されたフィードバックモードが可聴フィードバックモード(audible feedback mode)であるとき、可聴(audible)であり得る。
[0007] オーディオ信号を受信したことに基づいてオーディオイベントを決定する方法を含む様々な実施形態がある。本方法は、決定されたオーディオイベントに基づいてアクティビティ(activity)を追跡することを含み、要約モードに基づいて、追跡されたオーディオアクティビティを要約する。その上、本方法は、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することを含む。加えて、一実施形態では、本方法は、フィードバックモードを選択することと、視覚フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティを表示することとを含む。同じまたは代替的実施形態では、本方法は、追跡されたオーディオアクティビティを要約することを含み、選択されたフィードバックモードが可聴フィードバックモードであるとき、可聴であり得る。
[0008] オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段とを含む装置を含む様々な実施形態がある。その上、本装置は、要約モードに基づいて、追跡されたオーディオアクティビティを要約するための手段と、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供する手段とを含む。
[0009] 実行されたとき、デバイスの1つまたは複数のプロセッサに、オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、オーディオ信号を受信したことに基づいてオーディオイベントを決定することとを行わせる命令(instruction)を記憶した非一時的コンピュータ可読記憶媒体(non-transitory computer-readable storage medium)を含む様々な実施形態がある。命令はまた、実行されたとき、1つまたは複数のプロセッサに、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、要約モードに基づいて、追跡されたオーディオアクティビティを要約することと、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行わせる。
[0010] 本明細書に組み込まれ、本明細書の一部をなす添付の図面は、特許請求の範囲の例示的な実施形態を示し、上記で与えられた概略的な説明および以下で与えられる詳細な説明とともに、特許請求の範囲の特徴について説明するように働く。
[0011] 本明細書で開示される様々な実施形態を実装するのに好適なデバイスの一例を示す構成要素ブロック図。 [0012] オーディオアクティビティユニット(audio activity unit)とオーディオアクティビティフィードバック提供器(audio activity feedback provider)とを含むブロック図。 [0013] オーディオイベント決定器(audio event determinator)の複数の実施形態を示す図。 [0014] オーディオアクティビティ追跡器(audio activity tracker)の例示的な一実装形態を示す図。 [0015] 追跡されたアクティビティ要約器(tracked activity summarizer)の例示的な実施形態を示す図。 [0016] パケット(packet)の一部であり得る様々なフィールド(field)を示す図。 [0017] 個人識別(personal identification)の様々なタイプ(type)を示す図。 [0018] オーディオイベントをバッチ処理する(batch process)ための一実施形態を示す図。 [0019] ディスプレイ(display)上の日々のオーディオアクティビティの要約(summary)の例示的なビュー(view)を示す図。 [0020] ディスプレイ上の要約された追跡されたオーディオアクティビティに関連付けられた感情(emotion)へのリンク(link)の別の例示的なビューを示す図。 [0021] 例示的な使用事例を示す図。
[0022] 様々な実施形態について、添付図面を参照しながら詳細に説明される。可能な場合はいつでも、同じまたは同様の部分を指すために図面全体にわたって同じ参照番号が使用される。特定の例および実装形態になされる言及は、説明のためであり、特許請求の範囲を限定するものではない。
[0023] 本開示の特定の実装形態について、図面を参照しながら以下で説明される。説明では、共通の特徴は、図面全体にわたって共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態について説明するために使用されるにすぎず、限定するものではない。たとえば、単数形「a」、「an」、および「the」は、文脈が別段に明確に示さない限り、複数形を同様に含むものとする。さらに、「備える(comprise)」、「備える(comprises)」、および「備える(comprising)」という用語は、「含む(include)」、「含む(includes)」、または「含む(including)」と互換的に使用され得ることが理解されよう。さらに、「ここにおいて(wherein)」という用語は、「ここで(where)」と互換的に使用され得ることが理解されよう。本明細書で使用される「例示的」は、例、実装形態、および/または態様を示すことがあり、限定的として、または選好もしくは好適な実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を修飾するために使用される序数語(たとえば、「第1の」、「第2の」、「第3の」など)は、別の要素に対するその要素の優先順位または順序をそれ自体によって示さず、(序数語の使用を別にすれば)むしろ同じ名前を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット」という用語は、1つまたは複数の要素のグループ化を指し、「複数」という用語は、複数の要素を指す。
[0024] 本明細書で使用される「結合される(coupled)」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含み得、また(あるいは代替的に)、それらの任意の組合せを含み得る。2つのデバイス(または構成要素)は、1つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク(たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ)などを介して、直接または間接的に結合(たとえば、通信可能に結合、電気的に結合、または物理的に結合)され得る。電気的に結合された2つのデバイス(または構成要素)は、同じデバイス中にまたは異なるデバイス中に含まれ得、例示的で非限定的な例として、電子回路、1つまたは複数のコネクタ、あるいは誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された2つのデバイス(または構成要素)は、1つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に電気信号(デジタル信号またはアナログ信号)を送信および受信し得る。本明細書で使用される「直接結合される(directly coupled)」は、介在する構成要素なしに結合(たとえば、通信可能に結合、電気的に結合、または、物理的に結合)された2つのデバイスを含み得る。
[0025] 本明細書で使用される「一体化される(integrated)」は、「とともに製造または販売される」を含み得る。ユーザが、パッケージの一部としてデバイスをバンドルするかまたは含むパッケージを買う場合、デバイスは一体化され得る。いくつかの説明では、2つのデバイスが結合されるが、必ずしも一体化されるとは限らないことがある(たとえば、異なる周辺デバイスはデバイスに一体化されないことがあるが、それでも「結合され」得る)。別の例は、プロセッサに「結合され」得るが、必ずしもデバイスを含むパッケージの一部であるとは限らない、本明細書で説明されるトランシーバまたはアンテナのいずれかであり得る。他の例は、「一体化される」という用語を使用しているとき、本段落を含めて、本明細書で開示される文脈から推論され得る。
[0026] 本明細書で使用される「提供する(provide)」は、「送る(sending)」を含むことがあり、たとえば、1つまたは複数のプロセッサが別の構成要素に1つまたは複数の出力信号を提供し得、等価的に、1つまたは複数のプロセッサが別の構成要素に1つまたは複数の出力信号を送り得ることを意味し得る。
[0027] 本明細書で使用されるデバイス間の「ワイヤレス接続」は、Bluetooth、ワイヤレスフィデリティ(Wi−Fi)またはWi−Fiの変形態(たとえば、Wi−Fiダイレクトなど、様々なワイヤレス技術に基づき得る。デバイスは、ロングタームエボリューション(LTE(登録商標))システム、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標))システム、ワイヤレスローカルエリアネットワーク(WLAN)システム、または何らかの他のワイヤレスシステムなど、様々なセルラー通信システムに基づいて「ワイヤレス接続され」得る。CDMAシステムは、広帯域CDMA(WCDMA(登録商標))、CDMA 1X、エボリューションデータオプティマイズド(EVDO)、時分割同期CDMA(TD−SCDMA)、またはCDMAの何らかの他のバージョンを実装し得る。加えて、2つのデバイスが見通し線内にあるとき、「ワイヤレス接続」は、超音波、赤外線、パルス無線周波数電磁エネルギー、構造光(structured light)、または信号処理(たとえば、オーディオ信号処理または無線周波数処理)において使用される到来の方向性など、他のワイヤレス技術にも基づき得る。
[0028] 「コンピューティングデバイス」という用語は、本明細書では、サーバ、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルデバイス、セルラー電話、スマートブック、ウルトラブック、パームトップコンピュータ、個人情報端末(PDA)、ワイヤレス電子メール受信機、マルチメディアインターネット対応セルラー電話、全地球測位システム(GPS)受信機、ワイヤレスゲームコントローラ、ならびに情報をワイヤレス送信および/または受信するためのプログラマブルプロセッサおよび回路を含む同様の電子デバイスのうちのいずれか1つまたはすべてを指すように概して使用される。
[0029] 「オーディオ信号(audio signal)」という用語は、1つまたは複数のマイクロフォンが、その1つまたは複数のマイクロフォンに当たる音波をキャプチャまたは記録した後の様々な段(stage)において互換的に使用され得る。加えて、オーディオ信号という用語は、別のデバイス(another device)からパケットを受信する様々な段においても互換的に使用され得る。
[0030] 「モバイルデバイス」、「接続されたデバイス」、「ワイヤレスデバイス」、および「ワイヤレスノード」という用語は、本明細書では、セルラー電話、パーソナルまたはモバイルマルチメディアプレーヤ、ウォッチ、リストディスプレイ、医療デバイス、ヘッドセット、ヘッドフォン、スピーカー、マイクロフォン、コンピューティングデバイス、および他の同様の電子回路のうちのいずれか1つまたはすべてを含む、情報をワイヤレス送信および/または受信するための回路を含む任意の電子デバイスを指すように互換的に使用される。
[0031] 本明細書で使用されるA「および/または」Bは、「AおよびB」または「AまたはB」のいずれか、あるいは「AおよびB」と「AまたはB」の両方が適用可能または許容可能であることを意味し得る。
[0032] 図1は、デバイス100の例示的な構成要素を示すブロック図である。デバイス100は、ヒアラブルデバイス(hearable device)であり得るか、あるいは必ずしも人の耳の中またはその周りにスピーカーを含むとは限らない別のデバイスであり得る。たとえば、別のデバイスは、マイクロフォンを含むホームスピーカー、またはスマートウォッチであり得る。デバイス100は、本明細書で開示される実施形態のいくつかを同じく組み込む、1つまたは複数のセンサー、1つまたは複数のカメラ、および/あるいはディスプレイデバイス(display device)などの例示的な構成要素をも含み得る。
[0033] 特定の実装形態では、デバイス100は、メモリ(memory)126に結合された、中央処理ユニット(CPU)、またはデジタルプロセッサ(DSP)、またはグラフィックス処理ユニット(GPU)を含むプロセッサ128を含む。メモリ126は、コンピュータ可読命令またはプロセッサ可読命令などの命令130(たとえば、実行可能命令)を含む。命令130は、プロセッサ128などのコンピュータによって実行可能な1つまたは複数の命令を含み得る。
[0034] 図1はまた、プロセッサ128に結合され、デバイス100中の1つまたは複数の構成要素に結合された1つまたは複数のコントローラ120を示している。たとえば、1つまたは複数のコントローラ120は、様々な周辺デバイス(たとえば、ディスプレイデバイス110、センサー108、カメラ106、およびマイクロフォン102)に結合され得る。本明細書で説明されるように、ディスプレイデバイス110は、デバイス100と一体化されないか、または、本説明に関連する実装形態では、本明細書で開示されるデバイス100と一体化されなくてよい。
[0035] オーディオ/スピーチ(audio/speech) コーダ/デコーダ(coder/decoder)(コーデック((CODEC))114も、プロセッサ128およびメモリ126に結合され得る。マイクロフォン102がオーディオ/スピーチコーデックに結合され得る。オーディオ/スピーチコーデック出力は、オーディオ/スピーチバッファ136であり得、マイクロフォン102によってキャプチャされたオーディオおよび/またはスピーチのサンプルを記憶し得る。サンプルはオーディオ波形(audio waveform)の一部であり得る。当業者は、オーディオ/スピーチサンプルをオーディオサンプルまたは音声サンプルのいずれかあるいは両方として指し得る。音声の時間周波数中にあるオーディオサンプルはスピーチサンプルと呼ばれることがある。ビデオコーダ/デコーダ(コーデック)(図示されず)もプロセッサ128およびメモリ126に結合され得る。カメラ106がビデオコーデックに結合され得る。ビデオコーデック出力は、ピクセルバッファ131であり得、カメラ106によってキャプチャされたビデオのピクセルを記憶し得る。カメラ106によってキャプチャされるビデオのピクセルは、デバイス100の近くの環境(environment)またはシーン(scene)の画像または画像の一部分を含み得る。代替または追加として、カメラ106によってキャプチャされるビデオのピクセルは、ユーザの画像または画像の一部分を含み得る。1つまたは複数のセンサー108がプロセッサ128およびメモリ126に結合され得る。センサー108の出力(output)は、センサーバッファ132であり得、センサー108によってキャプチャされた本明細書で説明されるロケーションデータのサンプルを記憶し得る。
[0036] デバイス100はトランシーバ122を含み得、トランシーバ122は、アンテナ112およびトランシーバ122を介して受信されたワイヤレスデータがプロセッサ128に提供され得るように、プロセッサ128に結合され、アンテナ112に結合され得る。デバイス100は、通信プロトコルを実装するネットワークインターフェース124をも含み得る。デバイス100のいくつかの実装形態では、ネットワークインターフェース124は、プロセッサ128中に直接一体化され得る。いくつかの実装形態では、プロセッサ128と、コントローラ120と、メモリ126と、トランシーバ122とは、システムインパッケージまたはシステムオンチップデバイス中に含まれ得る。いくつかの実装形態では、様々な周辺機器がデバイス100中に一体化され得る。
[0037] その上、特定の実装形態では、図1に示されているように、ディスプレイデバイス110、センサー108、カメラ106、およびマイクロフォン102)アンテナ112は、システムオンチップデバイスの外部にある。特定の実装形態では、ディスプレイデバイス110、センサー108、カメラ106、マイクロフォン102)、およびアンテナ112の各々は、1つまたは複数のコントローラ120、あるいはメモリ126など、システムオンチップデバイスの構成要素に結合され得る。
[0038] デバイス100は、例示的で非限定的な例として、ヘッドセット、スマートグラス、または拡張現実デバイス、仮想現実デバイス、複合現実デバイス、エクステンディッドリアリティ(extended reality)デバイス、ロボット、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、スマートグラス(smart glasses)、タブレット、携帯情報端末、テレビジョン、ゲーミングコンソール、車両中のオーディオシステムの一部としての、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、スタンドアロンカメラ、ナビゲーションデバイス、車両、車両の構成要素、あるいはそれらの任意の組合せを含み得る。
[0039] 例示的な実装形態では、メモリ126は、命令130を記憶する非一時的コンピュータ可読媒体(non-transitory computer readable medium)を含むかまたはそれに対応し得る。命令130は、プロセッサ128などのコンピュータによって実行可能な1つまたは複数の命令を含み得る。命令130は、限定はされないが、図1〜図10のいずれかに関連する説明の1つまたは複数の部分を含む、本明細書で説明される1つまたは複数の動作をプロセッサ128に実施させ得る。
[0040] デバイス100は、オーディオアクティビティユニット116と、オーディオアクティビティフィードバック提供器118と、オーディオイベントバッファ(audio event buffer)138と、要約された追跡されたオーディオアクティビティバッファ(summarized tracked audio activity buffer)144と、オーディオ/スピーチパケットバッファ142とを含み得る。バッファと、オーディオアクティビティユニット116と、オーディオアクティビティフィードバック提供器118とについて、本開示内で様々な配置されたものにおいてより詳細に説明される。
[0041] 図2は、オーディオアクティビティユニットとオーディオアクティビティフィードバック提供器とを含むブロック図を示す。プロセッサ技術がより小さいノードサイズにスケールダウンし続けるにつれて、アマゾンエコーまたはグーグルホームなどのデジタルアシスタントの機能もウェアラブルデバイス中に一体化され得ることが想定される。デバイスを装着する1つの利点(advantage)は、複数の環境にわたって(たとえば、車、自宅、オフィス中で)ユーザの社会的相互作用(social interaction)を追跡する能力である。
[0042] 例として、ヒアラブル、ウォッチ、またはスマートグラスなどのデバイスを装着する別の利点は、これらのデバイスのマイクロフォンが、スマートフォンではユーザの一日全体にわたって時々起こるように、ポケットまたは財布中になくてよいことである。いくつかの実施形態では、オーディオ信号を記録(recording)またはキャプチャすること(capturing)と、装着者の代表的エクスペリエンス(representative experience)との間のより良好な相関(correlation)があり得る。
[0043] たとえば、ウェアラブル(wearable)は、いくつかの場合には代替的配置におけるよりも安定していることがあり、実際の装着者エクスペリエンス(real wearer experience)とより相関されて局存化されることにつながり得る。加えて、ウェアラブル(たとえば、ウェアラブルセンサー)の場合、共通の身体的イベントについて異なるタイプの測定値を得るために、身体上の異なる点にセンサーを配置することに利点があり得る。異なる場所にセンサーを配置することは、異なる課題および制限をもたらし得るが、そのような配置の利点は、体の動き(たとえば足センサー、手首センサー、ベルトの周りのセンサー、またはヒアラブル)が、オーディオイベント検出の信頼性を高め得、および/またはオーディオイベント検出をもたらし得ることである。したがって、それらは、いくつかの実施形態では、たとえば、ユーザの動き、または少なくともユーザの動きの一部(たとえば、腕、足など)に関して潜在的に浮動しており、弱い流動性を伴い、未決定である電話(phone)に勝る利点(advantage)を有し得る。
[0044] 非ウェアラブルデバイス(Non-wearable device)も、本明細書で開示される実施形態のうちの1つまたは複数を組み込み得る。また、オーディオアクティビティユニット202および/またはオーディオアクティビティフィードバック提供器ユニット210を含むデバイスは、ワイヤレス接続されたデバイス間の情報の転送、より大きいメモリサイズ、および/または機械学習の進歩に起因して、より高められた技術的能力を有することが想定される。たとえば、ローカルキャプチャを可能にするが、分析のためにより多くの処理を必要とし得るセンサーは、接続およびリモート処理から恩恵を受け得る。したがって、社会的相互作用に加えて、他のオーディオアクティビティを追跡するための能力は、全体的なオーディオエクスペリエンス(overall audio experience)をキャプチャし、それをアクティビティに変換し、社会的相互作用以外のエクスペリエンスを要約することを目的とする。加えて、様々なタイプの要約モードに基づいてオーディオアクティビティを要約することを実現することが可能になる。要約モードについては図5で論じられる。
[0045] 社会的相互作用(すなわち、社会的相互作用は、堂々巡りの議論をしている少なくとも2人の人々を含む)以外のオーディオアクティビティの例は、テレビジョンまたは音楽を聴くことに費やされた時間を含み得る。他の例は、オーディオ信号レベル(たとえば、叫ぶこと(shouting)またはささやくこと(whispering))に基づいて感情(たとえば、怒った(angry)、幸せな(happy)、ニュートラルな(neutral)など)をカテゴリー分類すること、あるいはおしゃべり(または聴取)に費やされた時間をカテゴリー分類することに関係付けられ得る。また他の例は、異なるタイプの人々(たとえば、子供対大人、または男性対女性)を聴取することに費やされた時間を含む。オーディオアクティビティに基づいて、オーディオフィードバック提供器(audio feedback provider)210は、視覚または可聴フィードバック(visual or audible feedback)をユーザに提供し得る。
[0046] 一実施形態では、(デバイス100などの)デバイスは、オーディオ信号を受信したことに基づいてオーディオイベントを決定するように構成されたオーディオイベント決定器204(図3参照)を含むオーディオアクティビティユニット202を含む。オーディオイベントは、物体または人が音を生成することに基づいて起こる。オーディオイベントの例は、IEEE Transactions of Multimedia、第17巻、第10号、2015年10月における、Stowellらによる「Detection and Classification of Acoustic Scenes and Events」に開示されている。オーディオイベントの例は、ドアノック、ドアをバタンと閉めること、会話、笑い、咳払い、咳嗽、引き出し、プリンタ、キーボードクリック、マウスクリック、テーブル表面上のマーカー、テーブル上に鍵を置くこと、電話呼び出し音、短い警報音(たとえば、ビープ)、およびページめくりを含む。オーディオイベントはこれらの例のみに限定されない。オーディオイベントの他の非限定的な例は、椅子の移動、弦の調子を合わされている楽器(たとえば、ギター)、叩くこと(たとえば、ドラム)、テーブル上に置かれたボトル、ブレンダー音、ヘリコプター音などを含む。
[0047] 同じまたは代替的実施形態では、オーディオイベント決定器204は、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するように構成されたオーディオアクティビティ追跡器206(図4参照)に結合される。
[0048] 同じまたは代替的実施形態では、本デバイスは、要約モードに基づいて、追跡されたオーディオアクティビティを要約するように構成された、追跡されたオーディオアクティビティ要約器(tracked audio activity summarizer)208(図5参照)に結合されたオーディオアクティビティ追跡器206を含む。
[0049] 同じまたは代替的実施形態では、本デバイスは、フィードバックモード選択器(feedback mode selector)212を含むオーディオアクティビティフィードバック提供器210を含む。フィードバックモード選択器212は、フィードバックモード設定を通して構成可能であり得る。たとえば、デバイスのユーザは、要約されたオーディオ上で、可聴フィードバック(audible feedback)または視覚フィードバック(visual feedback)あるいは両方を提供するようにフィードバックモード選択器212を構成し得る。追跡されたオーディオアクティビティの例示的なフィードバックは図9および図10に示されている。
[0050] 図3は、オーディオイベント決定器(audio event determinator)302の複数の実施形態を示す。一実施形態では、イベント決定器304はオーディオ経路選択器(audio path selector)302に結合される。オーディオ経路選択器302は、1つまたは複数のマイクロフォン102からの出力に基づくオーディオ波形がオーディオイベント決定器304に提供されるかどうかを選択するように構成される。オーディオ波形はコーデック114から出力され得る。オーディオ波形は、イベント分類器バンク(event classifier bank)320に提供され得るか、あるいは同じまたは代替的実施形態では、音声メトリック決定器ユニット(voice metric determinator unit)314にも提供され得る。音声メトリック決定器ユニット314は、スピーチ処理および/または分類を助ける1つまたは複数の音声メトリック(voice metric)を計算し得る。例示的な音声メトリックは、図7に740A1〜740E1(音声アクティビティ検出フラグ(voice activity detection flag)、有声周波数(voiced frequency)、ハッシュされた有声フレーム(hashed voiced frame)、最近のスピーチの持続時間(duration of recent speech)、およびピッチ(pitch))として示されている。
[0051] 同じまたは代替的実施形態では、オーディオ経路選択器302は受信機301に結合される。受信機301は、異なるデバイスから信号を受け付けるように構成される。信号は、データパケット、オーディオパケットまたはスピーチパケットを含み得る。データパケットは、オーディオパケットまたはスピーチパケットをカプセル化し得る。説明しやすいように、パケットは、別段に明確に示されない限り、データパケット、オーディオパケットまたはスピーチパケットであり得る。オーディオパケットまたはスピーチパケットはオーディオ/スピーチパケットバッファ142(図1参照)に記憶され得る。データパケットはデータパケットバッファ(図示されず)に記憶され得る。オーディオ経路選択器302は、オーディオイベント決定器304にパケットが提供されるのかオーディオ波形が提供されるのかの選択を助け得るコントローラ120のうちの1つまたは複数からコントローラ入力(controller input)を受信し得る。
[0052] 同じまたは代替的実施形態では、オーディオイベント決定器304にパケットが提供され得る。パケットはペイロードデータ抽出器(payload data extractor)312によって受信され得る。ペイロードデータ抽出器312は、パケットから識別データタイプ(identification data type)(ID)630、および/または個人識別情報(personal identification information)640を抽出し得る(図6参照)。たとえば、ペイロードデータ抽出器312は、人識別(person identification)620、すなわち、人が誰であるかを示す1つまたは複数のビットを抽出し得る。2人の人々、たとえば、ゾーイ(Zoe)とマックス(Max)が話している場合、ゾーイのデバイスは、それが実際にゾーイのデバイスからマックスのデバイス宛てであることを表す1つまたは複数のビットを送り得る。マックスのデバイスはペイロードデータ抽出器312を含み得る。それがゾーイであるという人識別は、ゾーイのデバイス上にある、マックスのデバイスに対するリモートデバイス上にあるスピーチ認識、顔認識、または何らかの他の認識技術の結果に基づき得る。たとえば、マックスのデバイスはデバイス100であり得、ゾーイの音声または顔が別個のデバイス上でキャプチャされる。
[0053] 同じまたは代替的実施形態では、マックスのデバイスは、たとえば、説明されるフィールド(630、640もしくは620)のうちの1つに対する代替として含まれるか、またはそれらのフィールドのうちの1つに代わり得る、マックスのデバイスに関連付けられた識別をブロードキャストし得、たとえば、識別データタイプ630は、マックスのデバイスを識別するであり得る。一実施形態では、マックスのデバイスの識別は、追加のセキュリティおよび一意性を提供するために(使用事例に応じて固定であるかまたは変動する)乱数であり得る。識別データタイプ630は、ユーザ(すなわち、マックス)によって設定された構成の結果であり得る。
[0054] グループ構成または設定は、識別データタイプ630から人識別620または個人識別情報640を分離するためのパーミッションを可能にし得る。一実施形態では、デバイスは、ユーザ識別(たとえば、1234567)を含む識別データタイプ630の交換を(たとえば、バンピング(bumping)あるいはNFCを用いて)可能にするために近傍内にあり得る。その後、構成に応じて、1234567のブロードキャストユーザ識別(broadcast user identification)が、パケット中でデバイス100によって受信され得、パケットのフィールド(630、640、または620)中の情報が、デバイス100のオーディオアクティビティ追跡器206において使用され得る。
[0055] グループにサインアップすることを可能にし、特定の個人のためのパーミッションを可能にするために、インターネットまたはプライベートメッセージングを通して仲介されるパーミッションを交換するための他の実施形態が存在し得る。同じまたは代替的実施形態では、ペイロードデータ抽出器312が個人識別情報640を抽出し得る。個人識別情報の多数の例(740A1〜740E1、および740A2〜740E2)が図7に示されている。当業者は、リモートデバイスが、デバイス100に送られ得るそれ自体の音声メトリック決定器ユニットを有し得ることを諒解されよう。
[0056] 同じまたは代替的実施形態では、ペイロードデータ抽出器312からタイムスタンプ(timestamp)も抽出され得る。IDデータタイプ630、個人識別640、または人識別620に関連付けられた他のオーディオイベントとの(たとえば、共通の時間に基づき得る)時間相関を可能にするために、リモートデバイスからのタイムスタンプは、IDデータタイプ630、個人識別情報、または人識別と同時に、または時間的に比較的近接して到着し得る。到着するタイムスタンプ中で利用可能なペイロードデータ(payload data)は、デバイス100の物理的ロケーションおよび空間とは異なる物理的ロケーションおよび空間においてキャプチャされた。タイムスタンプ、および時間を割り当てられた関連する情報(すなわち、ペイロードデータフィールド(620、630、および640)は、ペイロードデータとタイムスタンプとを含んでいるパケットを提供した1つまたは複数の異なるリモートデバイスからデバイス100に転送され、それにより、今度は、オーディオアクティビティ追跡器206が時間ベース分析中に含めることが可能になる。
[0057] 同じまたは代替的実施形態では、パケットは、オーディオ/スピーチデコーダ310に直接提供され得る。オーディオ/スピーチデコーダ310がオーディオ/スピーチパケットを復元した後に、再構成されたオーディオおよび/またはスピーチ波形は、音声メトリック決定器ユニット314にも提供され得る。加えて、再構成されたオーディオおよび/またはスピーチ波形はイベント分類器バンク320に提供され得る。イベント分類器バンク320がパケットまたはオーディオ波形に基づく入力を受信し得るとき、一実施形態では、イベント分類器バンク320は、入力として、提供される入力がローカルデバイス(たとえば、デバイス100)からであるかリモートデバイスからであるかを示すデバイスモード(device mode)をも受信し得る。デバイスモードに応じて、イベント分類器バンク320は制御され得る。イベント分類器バンク320は、ローカルデバイス(たとえばデバイス100)からの入力に応答するメモリまたは分類器を選択的に使用するか、あるいは代替的に、リモートデバイスからの入力に応答するメモリまたは分類器を選択的に使用し得る。
[0058] イベント分類器バンク320への入力が、IDデータタイプ、ならびに/または個人識別情報、ならびに/または再構成されたオーディオおよび/もしくはスピーチ波形、ならびに/または再構成されたオーディオおよび/もしくはスピーチ波形に基づく音声メトリックである実施形態では、デバイスモードは、1つまたは複数のビットによって表される1つの値を有し得、デバイス100によって設定され得る。彼がイベント分類器バンク320中に入力し、オーディオ波形、および/またはオーディオ波形イベント分類器バンク320に基づく音声メトリックである実施形態では、デバイスモードは、1つまたは複数のビットによって表される(デバイス100に関連付けられた)異なる値を有し得、同じくデバイス100によって設定され得る。 加えて、イベント分類器バンク320の制御はまた、適用例に依存し得る。そのようなものとして、イベント分類器バンク320は、リモートデバイスIDと、リモートデバイス(remote device)のタイムスタンプと、人IDと、(デバイス100の)ローカルクロックと、ローカルデバイス識別値(local device identification value)(すなわち、デバイス100のID)とをもさらに出力し得る。
[0059] 図4は、オーディオアクティビティ追跡器の例示的な一実装形態を示す。例示的なオーディオアクティビティ追跡器402は、(ローカルクロックであるか、リモートタイムスタンプであるかを問わずに)タイムスタンプ、(ローカルデバイスIDであるか、リモートデバイスIDであるかを問わずに)デバイスID、人ID、および/またはオーディオイベントの入力を含み得る。オーディオイベントの非限定的な例は図2について説明するときに提供されたが、本明細書で説明される技法を用いて決定され得るオーディオイベントの数は、多数の状況環境(situational environment)、コンテキスト(context)、および適用例(application)にわたることを当業者なら諒解されよう。
[0060] 一実施形態では、オーディオアクティビティ追跡器402は比較ユニット(compare unit)404を含み得る。比較ユニット404は、現在のオーディオイベント(current audio event)と前のオーディオイベント(previous audio event)との間の比較を実施し、現在のオーディオイベントが前のオーディオイベントと同じオーディオイベント408であるか異なるオーディオイベント406であるかを決定し得る。比較は減算に基づき得る。しかしながら、比較は、同じまたは代替的実施形態では、現在のオーディオイベント値(または現在のオーディオイベントを表す値のセット)が、前のオーディオイベント値(または前のオーディオイベント値を表す値のセット)よりも大きいか小さいかを評価することに基づき得る。比較が、より大きい不等性(inequality)に基づくかより小さい不等性に基づくかは、適用例、または設計選好(design choice)に基づき得る。加えて、比較ユニットは、適用例、または設計選好に応じて、対数、絶対値、またはしきい値を使用することを含み得る。
[0061] オーディオイベントデータバッファ(audio event data buffer)410は、同じオーディオイベント408を表すか異なるオーディオイベント406を表すかを問わず、1つまたは複数の値を記憶し得る。オーディオイベントデータバッファ408はまた、現在のオーディオイベントを記憶し得る。加えて、同じまたは代替的実施形態では、オーディオイベントデータバッファ410は、図4に示されているように、タイムスタンプ、デバイスID、または人IDのうちの1つまたは複数を記憶し得る。同じまたは代替的実施形態では、オーディオバッファ138は、オーディオイベントを別々に記憶し得る。
[0062] オーディオイベントが表し得ることに基づいてテキストラベルが生成され得る。たとえば、オーディオイベントがキーボードクリックを表すことがある。テキストラベルは「キーボードキークリック(keyboard key click)」になり得る。当業者は、オーディオイベントはいくつかのキーボードクリックをも表し得、テキストラベルは「複数のキーボードキークリック」になり得ることを諒解されよう。頭上を飛んでいるジェット機がある場合、ソースセパレータは、頭上を飛んでいるジェット機の音を分離し得、テキストラベルは「頭上を飛んでいるジェット機」になり得る。キーボードキークリックと、頭上を飛んでいるジェット機は、2つの別個のオーディオイベントと見なされ得るか、またはいくつかの実施形態では、「頭上をジェット機が飛んでいる間のキーボードキークリック」の1つのオーディオイベントを表し得る。
[0063] 当業者は、一実施形態では、オーディオイベントのテキストラベルがオーディオイベントデータバッファ410に記憶されてもよいことを諒解されよう。
[0064] 本開示内で、オーディオイベントへの言及は、オーディオイベントのオーディオまたはスピーチサンプルを含み得るか、あるいは互換的に、オーディオイベントへの言及はテキストラベルを含み得る。加えて、オーディオイベントはオーディオイベントの集合であり得、たとえば、キーボードキークリックは、一連のキーボードキークリックの集合であり得る。
[0065] オーディオイベントのテキストラベルとしてか、オーディオまたはスピーチサンプルとしてかを問わずに、オーディオイベントは、オーディオアクティビティを決定するためにバッチ処理414され得る(図8参照)。決定されたオーディオイベントへの追加のコンテキストが、オーディオアクティビティを決定し得る。たとえば、オーディオイベント(またはテキストが息切れおよび/もしくは速足を表す場合、決定されたオーディオアクティビティは、走っていることであり得る。オーディオイベントが、それらがセメントまたは砂の上にあるような速足音を表す場合、それは、決定されたオーディオアクティビティが、セメントまたは砂の上で走っていることを表し得る。タイムスタンプ、デバイスID、および人IDはまた、より多くのコンテキストを提供し得る。たとえば、決定されたオーディオアクティビティは、(人IDによって示される)マックスが、(タイムスタンプによって示される)午後1時にセメントまたは砂の上を走っており、(デバイスIDによって示される)ウォッチを装着している、ということであり得る。
[0066] オーディオアクティビティ追跡器402が、1つまたは複数の決定されたオーディオイベントおよびコンテキストに基づいてオーディオアクティビティを決定した後に、決定されたオーディオアクティビティは、決定されたオーディオアクティビティをオーディオアクティビティデータバッファ(audio activity data buffer)144に記憶することによって追跡され得る。追跡された決定されたオーディオアクティビティの要約は、追跡されたオーディオアクティビティ要約器502(図5参照)中の要約モードに基づき得る。
[0067] 当業者は、一実施形態では、追跡された決定されたオーディオアクティビティのテキストラベルが、オーディオアクティビティデータバッファ144に記憶されてもよいことを諒解されよう。
[0068] 本開示内で、オーディオアクティビティまたは決定されたオーディオアクティビティへの言及は、オーディオアクティビティのオーディオまたはスピーチサンプルを含み得るか、あるいは互換的に、オーディオアクティビティまたは決定されたオーディオアクティビティへの言及は、テキストラベルを含み得る。加えて、オーディオアクティビティまたは決定されたオーディオアクティビティは、オーディオアクティビティの集合であり得、オーディオアクティビティの集合への言及もオーディオアクティビティと呼ばれることがある。たとえば、「マックスが午後にセメント上を走る」は、マックスが午後1時と午後5時との間に少なくとも数日にわたって走るという一連のオーディオアクティビティの集合であり得る。「マックスが午後にセメント上を走る」というオーディオアクティビティの集合もオーディオアクティビティと呼ばれることがある。センサー108のうちの1つまたは複数は、1つまたは複数のセンサー108のデータの相関に基づいて、オーディオアクティビティの収集を助け、オーディオイベント検出の信頼性を高めることが可能であり得る。
[0069] 同じまたは代替的実施形態では、「マックスがセメント上を走る」というオーディオアクティビティの収集は、マックスが歩みを取るときの呼吸と、心拍数と、セメントへの衝撃に基づく加速度応答(acceleration response)の形状とを検出する1つまたは複数のセンサー108によって助けられ得る。たとえば、検出器バンク(detector bank)804中のセンサー検出器(sensor detector)816は、これらの1つまたは複数のセンサー108(たとえば、慣性(inertial)およびフォトプレチスモグラム(PPG:photoplethysmogram)または心拍数(HR:heart rate)センサー)の出力を検出し得る(図8参照)。バッチ処理800は、呼吸と、歩みの音と、セメントへの歩みの衝撃の記録された音とに関連する音メトリックに加えて、センサー メトリックまたは視覚メトリックなどの他のセンサー入力を使用するであり得る。したがって、バッチ処理は、たとえば走ることのようなオーディオアクティビティが、検出器バンク804(図8参照)中の検出器のうちの1つまたは複数に加えて、他のセンサー入力に基づき得ることを含む。
[0070] 検出器バンク804は、いくつかの実施形態では、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、ビデオコンテンツをオーディオ信号と相関させるために使用され得る1つまたは複数のカメラ106からキャプチャされたローカルビデオコンテンツをキャプチャするための視覚コンテキスト検出器(visual context detector)814を含み得る。同様に、いくつかの実施形態では、検出器バンク804は、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、1つまたは複数のセンサー示度(sensor reading)をオーディオ信号と相関させるために使用され得るセンサー検出器816をいくつかの実施形態では含み得る。同じまたは代替的実施形態では、センサー検出器816は、1つまたは複数のセンサー108(たとえば、慣性およびフォトプレチスモグラム(PPG)または心拍数(HR)センサー)によって助けられ得る。
[0071] 代替的実施形態では、特定の日(たとえば、金曜日)に特定の人に会うこと、または特定の日(たとえば、金曜日)に異なるグループ会合に参加することの追跡が、オーディオアクティビティの集合として使用され得、オーディオアクティビティの集合(「金曜日会合」)への言及もオーディオアクティビティと呼ばれることがある。
[0072] 図5は、追跡されたアクティビティ要約器の例示的な実施形態を示す。追跡されたオーディオアクティビティ要約器502は、出力として、要約されたオーディオアクティビティを提供し得る。オーディオアクティビティの要約は要約モードに基づき得る。例示的な要約モードが要約モード選択器(summary mode selector)504中に示されている。たとえば、要約モードは、時間モード(time mode)506、感情モード(emotion mode)508、アクティビティモード()510、環境モード(environment mode)512、スピーチ状態モード(speech state mode)514、関連付けモード(association mode)516、重複モード(overlap mode)518、および/または推奨モード(recommendation mode)524であり得る。
[0073] 一実施形態では、時間モード要約モードは、持続時間に基づいてオーディオアクティビティの要約を提供し得る。たとえば、持続時間は、最近10分、60分、3時間、日、週、月、四半期、年などにわたり得る。加えて、時間モードは、デバイス100のユーザによって定義され得る。一例として、デバイス100のユーザは、持続時間を、午後1時および午後5時として定義される午後として定義し得る。このようにして、追跡されたオーディオアクティビティ要約器によって、マックスが昨年セメント上を何回の午後だけ走ったかの要約された追跡されたオーディオアクティビティが提供され得る。一実施形態では、時間モードは、15分以上持続した会話の統計値を要約し得る。たとえば、人A(たとえば、マックス)と人B(たとえば、ゾーイ)との間の会話において、追跡されたオーディオアクティビティ要約器は、彼らの20分間の会話中にゾーイが時間の50%だけ話し、マックスが時間の50%の間に話したと決定し得る。
[0074] 一実施形態では、感情モード要約モードは、感情検出器(emotion detector)(図8参照)によって検出された様々な感情に基づいてオーディオアクティビティの要約を提供し得る。たとえば、一実施形態では、感情検出器を用いて、笑うこと、泣くこと、叫ぶこと、および、わめくことのオーディオイベントを決定することに基づいて、追跡されたオーディオアクティビティ要約器502によって、幸せな、興奮した、怖い、怒った、穏やかな、または悲しいことに基づく、どのオーディオアクティビティが生じたかの要約が提供され得る。
[0075] 一実施形態では、アクティビティモード要約モードは、様々なタイプのアクティビティに基づいてオーディオアクティビティの要約を提供し得る。たとえば、スポーツは一種のアクティビティである。追跡されたオーディオアクティビティ要約器502は、特定のスポーツ中のオーディオアクティビティの要約を提供し得る。たとえば、デバイス100のユーザ(たとえば、マックス)がバスケットボールをプレイする場合、オーディオアクティビティは、マックスがショットを打つ前にボールを何回ドリブルしたか、または彼がゲーム中にどのくらいの時間ドリブルしたかを示し得る。
[0076] 一実施形態では、環境モード要約モードは、環境のタイプに基づいてオーディオアクティビティの要約を提供し得る。いくつかの環境では、音は、より大きくなる(たとえば、工事現場)か、静かである(たとえば、図書館)か、または(たとえば、いくつかのオフィスもしくは自宅内では)低レベルであり得る。環境は、オーディオアクティビティがどこで起こったのかを識別するのを助け得る他のタイプ、たとえば、クラウドノイズ(crowd-noise)を用いて分類され得る。追跡されたオーディオアクティビティ要約器502は、環境が静かであるか、うるさいか、低レベルであるか、クラウドノイズがあるか、または他の分類の環境タイプに基づいて、オーディオアクティビティの要約を提供し得る。
[0077] 一実施形態では、スピーチ状態モード要約モードは、人のスピーチ状態(speech state)に基づいてオーディオアクティビティの要約を提供し得る。異なるスピーチ状態の例は、(たとえば、テレビジョンもしくはラジオに対する)受動的聴取、(たとえば、会話中の)聴取、または(たとえば、会話中の)おしゃべりとして分類され得る。追跡されたオーディオアクティビティ要約器502は、環境が静かであるか、うるさいか、低レベルであるか、クラウドノイズがあるか、または他の分類のスピーチ状態に基づいて、オーディオアクティビティの要約を提供し得る。
[0078] 一実施形態では、関連付けモード要約モードは、関連付けモードに基づいてオーディオアクティビティの要約を提供し得る。関連付けモード(association mode)は、人または人々のグループ(group)の関連付け(association)に基づき得る。たとえば、要約は、人Aと人Bがオーディオアクティビティを一緒に実施しているときのオーディオアクティビティに基づいて所望されることがある。たとえば、彼らはテニスをプレイしており、プールをし、コーヒーを介してチャットしており、働くために車の中で運転している。
[0079] 代替的実施形態では、要約された追跡されたオーディオアクティビティがロケーション情報に基づくことを可能にし得るロケーションモード(図示されず)があってよい。ロケーション情報(location information)は、場合によっては、異なるソースからであるか、または(たとえば、ロギングされたWi−Fiパケットスニッフ(packet sniff)からの)オーディオイベントの後に決定され得、要約されたアクティビティがロケーションに基づいて表示または提供されることを可能にし得る。たとえば、ロケーションは、自宅、仕事場、運転中、テニスクラブ、コーヒーショップなどであり得る。
[0080] 同じまたは代替的実施形態では、要約は、2つ以上の要約モードを選択することによって提供され得る。一例として、重複モード518を選択した後に、時間モード506と感情モード508が両方とも選択され得る。別の例は、重複モードを選択した後に、アクティビティモード510とスピーチ状態モード514とを選択することである。このように、重複モードでは、要約は、2つ以上の要約モードに基づいて提供され得る。
[0081] 同じまたは代替的実施形態では、ユーザにフィードバックを提供するための推奨モード522があり得る。たとえば、人が「エムム」、「ウムム」と言っているか、またはいくつかの単語(たとえば、「みたいな」)を濫用している場合、悪い話し方の習慣を訂正するためのフィードバックがあってよい。フィードバックは、リアルタイムにおよび/または分析後フィードバック(post analysis feedback)で行われ得る。 同じまたは代替的実施形態では、要約モードは、追跡されたオーディオアクティビティ要約器502を含むデバイス100によって処理されるキーワードを話すことを通して選択され得る。ユーザは、1つまたは複数の要約モードを選択するために例示的な句、「時間モード」、「感情モード」、「環境モード」、スピーチ状態モード」、「関連付けモード」、「重複モード」、および/または「推奨モード」を話し得る。同じまたは代替的実施形態では、複数の実施形態の選択は、重複モード自体を用いないが、2つ以上の要約モードを選択することによって実施され得る。
[0082] 同じまたは代替的実施形態では、要約モードは、追跡されたオーディオアクティビティ要約器502を含むデバイス100によって処理されるキーワードを話すことを通して選択され得る。ユーザは、1つまたは複数の要約モードを選択するために例示的な句、「時間モード」、「感情モード」、「環境モード」、「スピーチ状態モード」、「関連付けモード」、「重複モード」、および/または「推奨モード」を話し得る。同じまたは代替的実施形態では、複数の実施形態の選択は、重複モード自体を用いないが、2つ以上の要約モードを選択することによって実施され得る。
[0083] 同じまたは代替的実施形態では、追跡されたオーディオアクティビティ要約器502はディスプレイデバイス100に一体化または結合されてよく、要約モードの選択は、要約モードがラジオボタン選定である場合、ディスプレイデバイス100にタッチすることに基づき得る。
[0084] ラジオボタンは、時間モード506、感情モード508、アクティビティモード510、環境モード512、スピーチ状態モード514、関連付けモード516、重複モード518、および/または推奨モード524を選択するためにスクリーン上でタッチされ得る。代替的実施形態では、ラジオボタン上に示される明示的な重複モード518はないが、説明される要約モードのうちの1つまたは複数にタッチすることによって2つ以上の要約モードを選択する能力により、追跡されたオーディオアクティビティ要約器502は、1つまたは複数の要約モードに基づいて1つまたは複数のオーディオアクティビティの要約(summary)を提供することが可能になり得る。
[0085] 一実施形態では、要約モード選択器504において要約モードを選択することは、追跡されたオーディオアクティビティ要約器502を含むデバイス100に一体化または結合された1つまたは複数のプッシュボタンを押すことによって行われ得る。たとえば、プッシュボタンを押すことにより、時間モード506を選択し得る。2回目にプッシュボタンを押すことにより、感情モード516を選択し得る。続くプッシュにより、アクティビティモード510を選択し得る。次のプッシュにより、環境モード512を選択し得る。その後のプッシュにより、スピーチ状態モード514を選択し得る。ボタンの別のプッシュにより、関連付けモード516を選択し得る。
[0086] 同じまたは代替的実施形態では、追跡されたオーディオアクティビティ要約器502を含むデバイス100に一体化または結合された追加のボタンがある場合、複数の要約モードに基づいて要約されたオーディオアクティビティを提供するために重複モード518が選択され得る。たとえば、重複モード518を選択した後に、時間モード506と感情モード508が両方とも選択され得、要約は、時間と感情の両方に基づいて提供され得る。
[0087] 要約された追跡されたオーディオアクティビティバッファ526中の要約されたオーディオ上のフィードバックモードは、可聴、または視覚、または可聴と視覚の両方であり得る。たとえば、図9および図10に示されている要約された追跡されたオーディオアクティビティについて、ラウドスピーカーを通して可聴的に説明され得る。加えて、要約された追跡されたオーディオアクティビティは、チャート形式で図9および図10に示されているようにグラフィカルユーザインターフェース(GUI)上に表示されるか、あるいは部分、割合、または異なるオーディオアクティビティ間のリンクを示す別の視覚表現を通して表示され得る。視覚フィードバックモードはテキストをも含み得る。たとえば、オーディオアクティビティのリストが表示されるかまたはメモリに記憶され得る。要約された追跡されたオーディオアクティビティバッファ526は、要約された追跡されたオーディオアクティビティバッファ144としても参照される。
[0088] 図6は、2つのデバイス間の通信中のパケット600の一部であり得る様々なフィールドを示す。通信がワイヤレス接続に基づくとき、パケット600はワイヤレスパケットと呼ばれることがある。(ワイヤレスであるか否かを問わず)パケット600は、プリアンブル608と、ヘッダ610と、ペイロードデータ612とを含み得る。プリアンブル608は、情報を交換する2つのデバイス間で送信および/または受信を同期させるために使用され得る。ヘッダ610は、パケット600内で搬送されるデータに関する命令、たとえばパケット600内での長さあるいはいくつのフィールドまたはサブフィールドが含まれているかを含み得る。
[0089] 一実施形態では、パケットのペイロードデータ612は、人識別620、すなわち、人が誰であるかを示す1つまたは複数のビットを含み得る。人識別620は、スピーチ認識、顔認識、または何らかの他の認識技術の結果に基づき得る。パケット600がデバイス100によって受信される場合、認識技術は別のデバイス上に配置され得る。一実施形態では、ローカルデバイス、すなわち、デバイス100が認識技術を一体化していてよく、パケット600はデバイス100の外部に送信され得る。
[0090] 同じまたは代替的実施形態では、パケット600はIDデータタイプ630を含み得る。たとえば、IDデータタイプ630は、認識がスピーチ認識の結果であったか、顔認識の結果であったか、またはリモートデバイス上に配置され、ローカルデバイス、すなわち、デバイス100に送られる何らかの他の認識技術の結果であったかを示し得る。
[0091] 同じまたは代替的実施形態では、ペイロードデータ612は個人識別情報640を含み得る。個人識別情報の多数の例(740A1〜740E1、および740A2〜740E2)が図7に示されている。
[0092] 図7は、個人識別の様々なタイプを示す。1つまたは複数のマイクロフォン102に基づいてキャプチャされ得る個人識別が、図7に740A1〜740E1として示されている。音声アクティビティ検出フラグ740A1は、有声または無声スピーチがあるときを表し得る。有声周波数740A2は、話している人の周波数プロファイル(振幅およびホルマントロケーション(formant location))のエンベロープの量子化線形予測係数(quantized linear predictive coefficients)または他の同様の表現であり得る。ハッシュされた音声フレーム740A3は、特定の人に一意である声紋(voice print)を表し得る。最近のスピーチの持続時間740A4は、誰かが話していた時間の長さ、たとえば5秒であり得る。ピッチ740A5は、話している人のピッチを表し得る。子供および女性はより高いピッチを有する傾向があるが、男性はより低いピッチを有する傾向がある。
[0093] 同じまたは代替的実施形態では、1つまたは複数のセンサー108に基づいてキャプチャされ得る追加または代替の個人識別が、図7に740A2〜740E2として示されている。人の頭部の温度740A2は、あまりに寒いかまたはあまりに暑い物理的環境中に彼らがいるかどうかを示すために使用され得る。温度があまりに暑いかまたはあまりに寒い場合、その人は、その人がストレスを受けているというインジケータであり得る。温度示度(temperature reading)を他のセンサー示度と相関させることにより、追跡されているオーディオアクティビティを決定するのを助けるためのより多くのコンテキストが提供され得る。人の心拍740B2も、追跡され要約されているオーディオアクティビティを決定するのを助けるための、ストレス、平穏、および/または運動に関係するより多くのコンテキストを提供し得得る。人の身体部位の移動740C2は、人が走っているか、歩いているか、立っているか、腕を上げているか、手首を回しているか、頭部移動かを示し得る。身体部位のこれらの移動は、追跡され要約されているオーディオアクティビティを助けるより多くのコンテキストを提供し得る。最も近いオブジェクトへの近接度(proximity)740D2は、追跡され要約されているオーディオアクティビティを助けるコンテキストを提供する別のインジケータであり得る。デバイスの配向(orientation)ID740E2は、追跡され要約されているオーディオアクティビティを助けるコンテキストを提供する別のインジケータであり得る。
[0094] 図8は、オーディオイベントをバッチ処理するための一実施形態を示す。図4に関して前に説明されたように、オーディオイベントは、オーディオアクティビティ追跡器402においてバッチ処理800され得る。決定されたオーディオイベントは、前の決定されたオーディオイベントとアグリゲート(aggregate)802され、検出器バンク804に提供され得る。たとえば、決定されたオーディオイベントは、キーボードキーがクリックされたことであり得る。いくつかのキーボードクリックがアグリゲートされた場合、決定されたオーディオイベントのアグリゲーション(aggregation)は、複数のキーボードキーがクリックしていることであり得る。別の例は、決定されたオーディオイベントが、足の歩みが砂の上で取られたことであり得るということであり得る。(足の歩みまたはキーボードクリックなどの)数オーディオイベントのアグリゲーションは検出器バンク84に送られ得る。
[0095] 検出器バンク804は、環境検出器806と、感情検出器808と、スピーチ状態検出器810と、可聴コンテキスト検出器(audible context detector)812とを含み得る。同じまたは代替的実施形態では、検出器バンク804によって追加の入力が処理され得る。たとえば、IDデータタイプ、音声メトリックなどの可聴メトリック、視覚メトリック、および/またはセンサーメトリックは、検出器バンク804への入力として働き、検出器バンク804中の検出器のうちの1つまたは複数によって使用され得る。センサーからの追加のコンテキストにより、より多くのコンテキストが提供され得る。たとえば、業務フレーズまたはコーヒーショップフレーズ(すなわち、仕事環境に関連するかまたはコーヒーショップ中のフレーズ)が誰かによって発せられ得、このフレーズは1つまたは複数のマイクロフォン102によってキャプチャされる。フレーズのコンテキストを決定することに基づく可聴コンテキスト検出器812は、検出器バンク804から出力されたオーディオアクティビティが、人がオフィス中で、ラップトップで作業していること、またはコーヒーショップにおいてタイピングしていることであるという決定を助け得る。別の例では、環境検出器806は、海洋の波を検出し、検出器バンク804から出力されたオーディオアクティビティが、人が海洋の近くの砂の上で走っていることであるという決定を助け得る。
[0096] 1つまたは複数のマイクロフォン102からの可聴入力に基づく検出器バンク804またはイベント分類器バンク320は、検出のために機械学習または他の適応もしくは分類技術に依拠し得る。たとえば、感情検出器808および可聴コンテキスト検出器812は、ディープニューラルネットワーク(deep neural network)を基づいた使用するであり得る。別の例として、大人対子供または男性対女性の間の違いを分類することなどのオーディオイベントは、トーン分類器(tone classifier)またはディープニューラルネットワークに基づき得る。イベント分類器バンク320における別の例は、音楽を再生しているテレビジョンまたはラウドスピーカーからのコンテンツを決定するためにフォーマット構造分類器(format structure classifiers)およびトーン分類器を使用することであり得る。検出器バンク804は、前に論じられた個人識別情報640(図8には図示されず)に基づいてオーディオアクティビティを決定し得る。
[0097] 検出器バンク804は、いくつかの実施形態では、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、ビデオコンテンツをオーディオ信号と相関させるために使用され得る1つまたは複数のカメラ106からキャプチャされたローカルビデオコンテンツをキャプチャするための視覚コンテキスト検出器814を含み得る。同様に、いくつかの実施形態では、検出器バンク804は、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、1つまたは複数のセンサー示度をオーディオ信号と相関させるために使用され得るセンサー検出器816をいくつかの実施形態では含み得る。同じまたは代替的実施形態では、センサー検出器816は、1つまたは複数のセンサー108(たとえば、慣性およびフォトプレチスモグラム(PPG)または心拍数(HR)センサー))によって助けられ得る。
[0098] 1つまたは複数のマイクロフォン102あるいはマイクロフォン102に結合されたプロセッサは、電力を節約するためにデューティサイクリングされ得る。これにより、オーディオアクティビティを連続的に監視するためのより長い時間期間が可能になり得る。いくつかのシステムにおける話された単語の検出は、プロセッサがアイドルモードから取り出させられ、追加のマイクロフォンをオンにすることを可能にする。デバイス100は、話している人の口により近いかまたはそれからより遠くに離れているマイクロフォン102を有し得る。1つまたは複数のマイクロフォン201はボリューム監視を可能にし得る。たとえば、ヒアラブルは、ボリューム監視を可能にする外部マイクロフォンを有し得る。1つまたは複数のマイクロフォン102は、叫ぶこと、おしゃべり、ささやくことなどの検出を可能にし得る。
[0099] 可聴入力に基づく検出器は、トレーニングされた音声テンプレートをも含み得る。デバイス100がアンテナ112とトランシーバ122とを含み得るとき、トレーニングされた音声テンプレートは2つのデバイス間で交換または共有され得、それにより、トレーニングされた音声テンプレートを有しないデバイス上でトレーニングをより少なくすることが容易になり得る。様々な信用できるグループはトレーニングデータを共有し得る。信用できるグループの一例は家族である。家族メンバーの間で、トレーニングされた音声テンプレートはデバイス間で交換または共有され得る。アンテナ112およびトランシーバ122は、追跡され要約されたオーディオアクティビティが別のデバイスに送信されることを可能にする。送信は、オーディオアクティビティ追跡器および要約器デバイス(たとえば、デバイス100)のユーザによる認証に基づき得る。たとえば、ある人が3時間泣き、誰とも話していないことが、愛しい人に送信され得る。別の例は、比較的年輩者が、ある時間期間の間社会的相互作用を有していなく、親類を呼び出すかまたは訪問に行かせるための推奨が行われ得ることであり得る。また別の例では、ある人が、一定のしきい値レベルを超える背景雑音の過大な量にさらされていることであり得る。
[00100] 図9は、ディスプレイデバイス110のGUI902上の日々のオーディオアクティビティの要約の例示的なビューを示す。図9の例示的なビューには、人が関与したオーディオアクティビティ904が示されている。要約モード906が、ディスプレイデバイス110上でユーザに示され得る。様々な要約モードが、たとえば、ドロップダウンメニュー矢印908によって選択され得る(か、あるいは例として、ラジオボタンによって、または要約モードの名前でタイピングすることによって選択され得る)。たとえば、要約モードが時間モードであり、人が特定の時間期間を指定した場合、アクティビティの要約は、人ドローバー車(a person drover a car)(A)、ジョーを聴取した(B)、音楽を聴取した(C)、メアリーと話した(D)、静寂な環境にいた(E)、およびテレビジョンを視聴した(F)、ということであり得る。円グラフにより、割合を表示することが可能になる。
[00101] 同じまたは代替的実施形態では、ユーザはまた、要約モードに関連するしきい値を選択し得る。たとえば、10分よりも短く持続したオーディオアクティビティは、必ずしも表示されると限られなくてよい。したがって、この特定の時間期間中に人が関与した他のオーディオアクティビティがあり得るが、ディスプレイデバイス110のGUI902上に示されない。
[00102] 図10は、ディスプレイ上の要約された追跡されたオーディオアクティビティに関連付けられた感情へのリンクの別の例示的なビューを示す。図10の例示的なビューでは、オーディオアクティビティ(A〜F)の割合が、要約された追跡されたオーディオアクティビティ1050に関連付けられた感情にリンクされ、ディスプレイデバイス110の異なるGUI1040上に表示され得る。例示的な感情は、限定はされないが、「退屈な」、「ニュートラルな」、「興奮した」、または「幸せな」を含み得る。
[00103] 図11は、例示的な使用事例1100を示す。図11では、人々が集会において交際している。集会では、発生するいくつかの異なるオーディオアクティビティがあり得る。例は、テレビジョンでスポーツゲームを見ること(A1)、ハッピーバースデーを歌うこと(B1)、乾杯すること(C1)、贈り物を開けること(D1)、ディナーを食べること(E1)、またはゲームをプレイすること(F1)を含む。人々が集まる部屋または空間には、オーディオアクティビティユニット202とオーディオアクティビティフィードバック提供器210とを含むデバイス1104があり得る。デバイス1104は、1つまたは複数のマイクロフォン102についての前の説明と同様の仕方で機能し得るマイクロフォンアレイ(microphone array)1106を含み得る。デバイス1104は、オーディオアクティビティ(たとえば、A1〜F1)の要約を表示し得る、GUI1108をもつディスプレイデバイスを含み得る。
[00104] 同じまたは代替的実施形態では、人々の一部は、本明細書で開示されるオーディオアクティビティユニット202とオーディオアクティビティフィードバック提供器210とを含むウェアラブルデバイスを装着していることがある。たとえば、ある人は、彼の手首の周りにウェアラブルデバイスを有する。ウェアラブルデバイスはリストバンド(wrist band)、またはウォッチであり得る(両方とも1102Aとして参照される)。別の人は、本明細書で開示されるオーディオアクティビティ追跡器を含むヒアラブル1102Bを装着している。別の人は、彼女の首の周りにウェアラブルデバイス1102Cを有する。ウェアラブルデバイスは、マイクロフォンアレイ(すなわち、1つまたは複数のマイクロフォン102)をもつネックレスであり得るか、あるいは将来には、首の周りに1つまたは複数のマイクロフォン102を含むデバイスを装着することが社会的に許容可能であろう。ウェアラブル1102A、1102B、および110Cは、視覚形態または可聴形態のいずれかでオーディオアクティビティの要約を提供し得る。たとえば、ヒアラブル1102Bおよび首の周りのウェアラブルデバイス1102Cは、要約されたオーディオアクティビティをディスプレイデバイスに転送し得る。ウェアラブルデバイス1102Aがウォッチである場合、ウォッチに一体化されたディスプレイデバイスがある。ウェアラブルデバイス1102Aがディスプレイデバイスなしのリストバンドである場合、要約されたオーディオアクティビティはディスプレイデバイスに転送され得る。ウェアラブル1102A、1102B、および1102Cはまた、オーディオアクティビティの要約をプレイアウトするための1つまたは複数のラウドスピーカーを含み得る。
[00105] 特定の実装形態では、本明細書で開示されるシステムおよびデバイスの1つまたは複数の構成要素は、復号システムまたは装置(たとえば、その中の電子デバイス、またはプロセッサ)中に、符号化システムまたは装置中に、あるいは両方の中に一体化され得る。他の実装形態では、本明細書で開示されるシステムおよびデバイスの1つまたは複数の構成要素は、ワイヤレス電話、スマートグラス、または将来のバージョンの拡張現実デバイス、仮想現実デバイス、複合現実デバイス、エクステンディッドリアリティデバイス、ロボット、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテインメントユニット、テレビジョン、ゲーム機、ナビゲーションデバイス、通信デバイス、携帯情報端末(PDA)、固定ロケーションデータユニット、パーソナルメディアプレーヤ、あるいは別のタイプのデバイス中に一体化され得る。
[00106] 説明される技法に関連して、デバイスは、オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、要約モードに基づいて、追跡されたオーディオアクティビティを要約するための手段と、要約された追跡されたオーディオイベントのフィードバックを提供するための手段とを含む。加えて、デバイスは、フィードバックモードを選択するための手段を含み得る。
[00107] 当業者は、いくつかの実施形態では、周辺機器(たとえば1つもしくは複数のセンサー、1つもしくは複数のカメラ、および/またはディスプレイデバイス)、あるいは構成要素(たとえば、コーデック、アンテナ、トランシーバ)のいくつかがない、デバイス100であって、ここで、デバイス100はサーバである、デバイス100は、それはまた、オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、要約モードに基づいて、追跡されたオーディオアクティビティを要約することと、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行うように構成され得ることを諒解されよう。
[00108] さらに、本明細書で開示される実装形態に関して説明される様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることを当業者は諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップについて、上記では概して、それらの機能に関して説明された。そのような機能がハードウェアとして実装されるか、プロセッサ実行可能命令として実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明される機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。
[00109] 本明細書の開示に関して説明される方法またはアルゴリズムのステップは、直接ハードウェアで実装されるか、プロセッサによって実行されるソフトウェアモジュールで実装されるか、またはその2つの組合せで実装され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD−ROM)、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。上記の組合せも非一時的コンピュータ可読媒体の範囲内に含まれるべきである。さらに、方法またはアルゴリズムの動作は、コンピュータプログラム製品に組み込まれ得る、非一時的プロセッサ可読媒体および/または非一時的コンピュータ可読媒体上のコードおよび/または命令の1つまたは任意の組合せ、あるいはそのセットとして存在し得る。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体は特定用途向け集積回路(ASIC)中に存在し得る。ASICはコンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。
[00110]上記の説明は、当業者が開示されている実装形態を製作または使用することを可能にするために提供される。これらの実装形態への様々な修正は当業者には容易に明らかになり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実装形態に適用され得る。したがって、本開示は、本明細書に示された実装形態に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を行うように構成された1つまたは複数のプロセッサ
を備えるデバイス。
[C2]
前記1つまたは複数のプロセッサに結合されたオーディオデコーダをさらに備え、前記オーディオデコーダが、別のデバイスからパケットを受信するように構成された、C1に記載のデバイス。
[C3]
前記オーディオデコーダがペイロードデータ抽出器に結合され、前記ペイロードデータ抽出器が、別のデバイスから受信された前記パケットから、人識別、識別タイプ、個人識別情報、リモートデバイスID、またはタイムスタンプのうちの少なくとも1つを抽出するように構成された、C2に記載のデバイス。
[C4]
1つまたは複数のマイクロフォンからの出力に基づくオーディオ波形がオーディオイベント決定器に提供されるか、または別のデバイスから受信された前記パケットが前記オーディオイベント決定器に提供されるかを選択するように構成されたオーディオ経路選択器をさらに備える、C2に記載のデバイス。
[C5]
前記オーディオ経路選択器が、コントローラ入力を受信し、デバイスモードを提供するように構成された、C4に記載のデバイス。
[C6]
オーディオ波形を出力するように構成され、前記オーディオ波形を前記1つまたは複数のプロセッサに提供するように構成されたオーディオコーデックに結合された、1つまたは複数のマイクロフォンをさらに備える、C1に記載のデバイス。
[C7]
前記決定されたオーディオイベントが、音声メトリック決定器ユニットから、1つの音声メトリックを少なくとも分類することに基づき、前記1つまたは複数のプロセッサが、ローカルクロックと、ローカルデバイス識別値と、前記オーディオイベントとのうちの少なくとも1つを提供するように構成されたオーディオイベント分類器バンクを含む、C6に記載のデバイス。
[C8]
前記イベント分類器バンクがデバイスモードによって制御される、C7に記載のデバイス。
[C9]
前記1つまたはプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを要約するように構成された要約モード選択器を含み、ここにおいて、前記要約モードが、時間モード、感情モード、前記追跡されたオーディオアクティビティ、環境モード、スピーチ状態、グループ関連付け、重複モード、または推奨モードのうちの1つまたは複数である、C1に記載のデバイス。
[C10]
要約された追跡されたオーディオアクティビティバッファを含むメモリをさらに備える、C9に記載のデバイス。
[C11]
前記1つまたは複数のプロセッサが、前記フィードバックモードを選択するように構成されたオーディオアクティビティフィードバック提供器を含む、C10に記載のデバイス。
[C12]
視覚フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの視覚フィードバックを表示するように構成されたディスプレイデバイスをさらに備える、C11に記載のデバイス。
[C13]
可聴フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの可聴フィードバックを発生するように構成された1つまたは複数のラウドスピーカーをさらに備える、C11に記載のデバイス。
[C14]
前記1つまたは複数のラウドスピーカーがヒアラブルデバイスに組み込まれた、C13に記載のデバイス。
[C15]
前記1つまたは複数のプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを提供するためのオーディオアクティビティ追跡器を含み、前記オーディオアクティビティ追跡器は、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することを備える、C1に記載のデバイス。
[C16]
前記オーディオアクティビティ追跡器が、前記決定されたオーディオイベントをアグリゲートすることに基づいて、およびタイムスタンプ、デバイス識別値、または人識別値のうちの少なくとも1つに基づいて、2つ以上のオーディオイベントをバッチ処理するように構成された、C15に記載のデバイス。
[C17]
前記追跡されたオーディオアクティビティが、環境、感情、スピーチ状態、可聴コンテキスト、視覚コンテキスト、またはセンサー示度のうちの少なくとも1つを検出することに基づく、C16に記載のデバイス。
[C18]
前記追跡されたオーディオアクティビティが、識別データタイプと、人識別と、個人識別情報とのうちの1つにさらに基づく、C17に記載のデバイス。
[C19]
前記要約された追跡されたオーディオアクティビティに関連付けられた感情のリンクを表すように構成されたディスプレイデバイスをさらに備える、C1に記載のデバイス。
[C20]
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を備える方法。
[C21]
前記要約モードに基づいて、追跡されたオーディオアクティビティを要約すること、ここにおいて、前記要約モードが、時間モード、感情モード、前記追跡されたオーディオアクティビティ、環境モード、スピーチ状態、グループ関連付け、重複モード、または推奨モードのうちの1つまたは複数である、C20に記載の方法。
[C22]
フィードバックモードを選択することをさらに備える、C20に記載の方法。
[C23]
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが視覚フィードバックモードであるとき、表示される、C22に記載の方法。
[C24]
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが可聴フィードバックモードであるとき、可聴である、C22に記載の方法。
[C25]
前記要約された追跡されたオーディオアクティビティは、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することに基づく、C20に記載の方法。
[C26]
前記要約された追跡されたオーディオアクティビティが、前記決定されたオーディオイベントをアグリゲートすることに基づいて2つ以上のオーディオイベントをバッチ処理する、C20に記載の方法。
[C27]
前記要約された追跡されたオーディオアクティビティが別のデバイスに送信される、C20に記載の方法。
[C28]
オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約するための手段と、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供するための手段と
を備える装置。
[C29]
前記フィードバックモードを選択するための手段をさらに備える、C28に記載の装置。
[C30]
実行されたとき、デバイスの1つまたは複数のプロセッサに、
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。

Claims (28)

  1. オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
    前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
    要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの1つまたは複数である、
    フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行うように構成された1つまたは複数のプロセッサを備えるデバイス。
  2. 前記1つまたは複数のプロセッサに結合されたオーディオデコーダをさらに備え、前記オーディオデコーダが、別のデバイスからパケットを受信するように構成された、請求項1に記載のデバイス。
  3. 前記オーディオデコーダがペイロードデータ抽出器に結合され、前記ペイロードデータ抽出器が、別のデバイスから受信された前記パケットから、人識別、識別タイプ、個人識別情報、リモートデバイスID、またはタイムスタンプのうちの少なくとも1つを抽出するように構成された、請求項2に記載のデバイス。
  4. 1つまたは複数のマイクロフォンからの出力に基づくオーディオ波形がオーディオイベント決定器に提供されるか、または別のデバイスから受信された前記パケットが前記オーディオイベント決定器に提供されるかを選択するように構成されたオーディオ経路選択器をさらに備える、請求項2に記載のデバイス。
  5. 前記オーディオ経路選択器が、コントローラ入力を受信し、デバイスモードを提供するように構成された、請求項4に記載のデバイス。
  6. オーディオ波形を出力するように構成され、前記オーディオ波形を前記1つまたは複数のプロセッサに提供するように構成されたオーディオコーデックに結合された、1つまたは複数のマイクロフォンをさらに備える、請求項1に記載のデバイス。
  7. 前記決定されたオーディオイベントが、音声メトリック決定器ユニットから、1つの音声メトリックを少なくとも分類することに基づき、前記1つまたは複数のプロセッサが、ローカルクロックと、ローカルデバイス識別値と、前記オーディオイベントとのうちの少なくとも1つを提供するように構成されたオーディオイベント分類器バンクを含む、請求項6に記載のデバイス。
  8. 前記イベント分類器バンクがデバイスモードによって制御される、請求項7に記載のデバイス。
  9. 要約された追跡されたオーディオアクティビティバッファを含むメモリをさらに備える、請求項1に記載のデバイス。
  10. 前記1つまたは複数のプロセッサが、前記フィードバックモードを選択するように構成されたオーディオアクティビティフィードバック提供器を含む、請求項9に記載のデバイス。
  11. 視覚フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの視覚フィードバックを表示するように構成されたディスプレイデバイスをさらに備える、請求項10に記載のデバイス。
  12. 可聴フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの可聴フィードバックを発生するように構成された1つまたは複数のラウドスピーカーをさらに備える、請求項10に記載のデバイス。
  13. 前記1つまたは複数のラウドスピーカーがヒアラブルデバイスに組み込まれた、請求項12に記載のデバイス。
  14. 前記1つまたは複数のプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを提供するためのオーディオアクティビティ追跡器を含み、前記オーディオアクティビティ追跡器は、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することを備える、請求項1に記載のデバイス。
  15. 前記オーディオアクティビティ追跡器が、前記決定されたオーディオイベントをアグリゲートすることに基づいて、およびタイムスタンプ、デバイス識別値、または人識別値のうちの少なくとも1つに基づいて、2つ以上のオーディオイベントをバッチ処理するように構成された、請求項14に記載のデバイス。
  16. 前記追跡されたオーディオアクティビティが、環境、感情、スピーチ状態、可聴コンテキスト、視覚コンテキスト、またはセンサー示度のうちの少なくとも1つを検出することに基づく、請求項15に記載のデバイス。
  17. 前記追跡されたオーディオアクティビティが、識別データタイプと、人識別と、個人識別情報とのうちの1つにさらに基づく、請求項16に記載のデバイス。
  18. 前記要約された追跡されたオーディオアクティビティに関連付けられた感情のリンクを表すように構成されたディスプレイデバイスをさらに備える、請求項1に記載のデバイス。
  19. オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
    前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
    要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの1つまたは複数である、
    フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを備える方法。
  20. フィードバックモードを選択することをさらに備える、請求項19に記載の方法。
  21. 前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが視覚フィードバックモードであるとき、表示される、請求項20に記載の方法。
  22. 前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが可聴フィードバックモードであるとき、可聴である、請求項20に記載の方法。
  23. 前記要約された追跡されたオーディオアクティビティは、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することに基づく、請求項19に記載の方法。
  24. 前記要約された追跡されたオーディオアクティビティが、前記決定されたオーディオイベントをアグリゲートすることに基づいて2つ以上のオーディオイベントをバッチ処理する、請求項19に記載の方法。
  25. 前記要約された追跡されたオーディオアクティビティが別のデバイスに送信される、請求項19に記載の方法。
  26. オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、
    前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、
    要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約するための手段と、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの1つまたは複数である、
    フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供するための手段とを備える装置。
  27. 前記フィードバックモードを選択するための手段をさらに備える、請求項26に記載の装置。
  28. 実行されたとき、デバイスの1つまたは複数のプロセッサに、
    オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
    前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
    要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの1つまたは複数である、
    フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
JP2020520512A 2017-10-12 2018-10-12 オーディオアクティビティ追跡および要約 Active JP6812604B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/782,287 US10614831B2 (en) 2017-10-12 2017-10-12 Audio activity tracking and summaries
US15/782,287 2017-10-12
PCT/US2018/055739 WO2019075423A1 (en) 2017-10-12 2018-10-12 MONITORING AND RECAPITULATIONS OF AUDIO ACTIVITY

Publications (2)

Publication Number Publication Date
JP2020537180A JP2020537180A (ja) 2020-12-17
JP6812604B2 true JP6812604B2 (ja) 2021-01-13

Family

ID=64110114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020520512A Active JP6812604B2 (ja) 2017-10-12 2018-10-12 オーディオアクティビティ追跡および要約

Country Status (9)

Country Link
US (1) US10614831B2 (ja)
EP (1) EP3695404B1 (ja)
JP (1) JP6812604B2 (ja)
KR (1) KR102229039B1 (ja)
CN (1) CN111194465B (ja)
BR (1) BR112020006904A2 (ja)
SG (1) SG11202001986RA (ja)
TW (1) TWI779113B (ja)
WO (1) WO2019075423A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190102509A (ko) * 2018-02-26 2019-09-04 삼성전자주식회사 음성 명령을 수행하는 방법 및 시스템
US10970040B2 (en) * 2019-03-01 2021-04-06 Bose Corporation Systems and methods for augmented reality content harvesting and information extraction
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、***、服务器及存储介质
CN111241336A (zh) * 2020-01-07 2020-06-05 厦门快商通科技股份有限公司 音频场景识别方法、装置、电子设备及介质
US11582554B1 (en) 2020-09-22 2023-02-14 Apple Inc. Home sound loacalization and identification
US11343612B2 (en) * 2020-10-14 2022-05-24 Google Llc Activity detection on devices with multi-modal sensing
DE102020129602A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129606A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
US12002455B2 (en) 2021-07-22 2024-06-04 Qualcomm Incorporated Semantically-augmented context representation generation
DE102022119188A1 (de) * 2021-08-11 2023-02-16 Sony Europe B.V. Informationsverarbeitungssystem und informationsverarbeitungsverfahren
KR102635981B1 (ko) * 2023-02-06 2024-02-13 김영숙 양육 지원 상담 및 코칭 어플리케이션 제공 장치

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
JP2014519071A (ja) * 2011-03-28 2014-08-07 アンビエンツ 音響コンテキストを使用する検索システム及び方法
US9848260B2 (en) * 2013-09-24 2017-12-19 Nuance Communications, Inc. Wearable communication enhancement device
US10585486B2 (en) * 2014-01-03 2020-03-10 Harman International Industries, Incorporated Gesture interactive wearable spatial audio system
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
GB201419396D0 (en) * 2014-10-31 2014-12-17 Univ Salford Entpr Ltd Assistive Mixing System And Method Of Assembling A Synchronised Spattial Sound Stage
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
WO2017088026A1 (en) * 2015-11-25 2017-06-01 Supered Pty Ltd Computer-implemented frameworks and methodologies configured to enable delivery of content and/or user interface functionality based on monitoring of activity in a user interface environment and/or control access to services delivered in an online environment responsive to operation of a risk assessment protocol
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
US20170199934A1 (en) * 2016-01-11 2017-07-13 Google Inc. Method and apparatus for audio summarization
US9661473B1 (en) * 2016-06-17 2017-05-23 Qualcomm Incorporated Methods and apparatus for determining locations of devices in confined spaces
EP3288035B1 (en) 2016-08-22 2022-10-12 Dolby Laboratories Licensing Corp. Personal audio analytics and behavior modification feedback

Also Published As

Publication number Publication date
EP3695404C0 (en) 2024-01-03
KR102229039B1 (ko) 2021-03-16
TWI779113B (zh) 2022-10-01
EP3695404A1 (en) 2020-08-19
BR112020006904A2 (pt) 2020-10-06
US10614831B2 (en) 2020-04-07
SG11202001986RA (en) 2020-04-29
TW201923758A (zh) 2019-06-16
CN111194465B (zh) 2021-07-06
KR20200062229A (ko) 2020-06-03
WO2019075423A1 (en) 2019-04-18
CN111194465A (zh) 2020-05-22
EP3695404B1 (en) 2024-01-03
JP2020537180A (ja) 2020-12-17
US20190115045A1 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
JP6812604B2 (ja) オーディオアクティビティ追跡および要約
US11418893B2 (en) Selective modification of background noises
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
CN1761265B (zh) 移动设备上的多传感语音增强方法和装置
JP7167910B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20170100007A (ko) 청취 로그 및 음악 라이브러리를 생성하기 위한 시스템 및 방법
US10171971B2 (en) Electrical systems and related methods for providing smart mobile electronic device features to a user of a wearable device
JP2015118185A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20210006419A (ko) 건강 관련 정보 생성 및 저장
CN108922224B (zh) 位置提示方法及相关产品
JP6884854B2 (ja) 音声提供装置、音声提供方法及びプログラム
US11397799B2 (en) User authentication by subvocalization of melody singing
US20220020387A1 (en) Interrupt for noise-cancelling audio devices
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
US20230386104A1 (en) Information display device and information display method
WO2020211467A1 (zh) 一种电子设备、控制方法及设备***

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200513

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200717

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200513

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200513

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201216

R150 Certificate of patent or registration of utility model

Ref document number: 6812604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250