CN111194465B

CN111194465B - 音频活动追踪及概括

Info

Publication number: CN111194465B
Application number: CN201880064773.2A
Authority: CN
Inventors: M·贾维斯; B·塔尔洛; N·格劳贝; C·D·伍尔斯滕胡尔姆; S·芬奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2021-07-06
Anticipated expiration: 2038-10-12
Also published as: EP3695404C0; KR102229039B1; TWI779113B; EP3695404A1; BR112020006904A2; US10614831B2; SG11202001986RA; TW201923758A; KR20200062229A; WO2019075423A1; JP6812604B2; CN111194465A; EP3695404B1; JP2020537180A; US20190115045A1

Abstract

各种实施例提供揭示一种装置的***及方法，所述装置可用于基于接收音频信号确定音频事件。基于所述经确定音频事件，可追踪音频活动。可基于概括模式概括所述经追踪音频活动。所述概括的经追踪音频活动的反馈可基于反馈模式。

Description

音频活动追踪及概括

技术领域

本申请案主张2017年10月12日申请的美国专利申请案第15/782,287号的权益，所述专利申请案的全部内容以引用的方式并入本文中。

本公开大体上涉及音频处理及用户接口。

背景技术

技术进步已导致健身带或活动追踪器正变得被更多消费者用来追踪其身体活动(例如，睡眠追踪器(fitbit)装置或可佩戴式手表)。这些健身及活动追踪器通常被佩戴且包含用以测量人的心跳或测量运动的传感器，且耦接至可佩戴式装置内的收发器。在许多情况下，可佩戴式装置经由蓝牙无线通信将健身或活动(例如，步数、燃烧的卡路里或站立的时间量)无线地发射至智能手机或其它移动装置。

在过去几年里，术语“可听设备(hearables)”已用于描述可佩戴式装置及头戴式耳机的使用。可听设备还包含用以播放声音的扬声器及用以捕获话音命令或在电话上通话的麦克风。可听设备可包含追踪心跳速率、温度、氧饱和度或步调的传感器。另外，可听设备可包含用以与智能手机或移动装置通信的蓝牙集成电路。一些可听设备能够提供允许用户拨打电话而无需与手机进行无线配对的Wi-Fi及蜂窝连接。语音识别的进步还随机器学习的进步在增加且为可包含于可听设备的额外技术。

随着可听设备的技术的持续发展，新的挑战及机遇可能出现。

发明内容

各种实施例包含用于包含一或多个处理器的装置基于接收音频信号确定音频事件的方法。所述一或多个处理器基于经确定音频事件追踪音频活动且基于概括模式概括经追踪音频活动。此外，所述一或多个处理器基于反馈模式提供概括的经追踪音频活动的反馈。另外，所述一或多个处理器可选择反馈模式，且基于视觉反馈模式显示概括的经追踪音频活动。在相同或替代实施例中，当所选择反馈模式为可听反馈模式时，概括的经追踪音频活动可为可听的。

存在各种实施例，所述实施例包含一种基于接收音频信号确定音频事件的方法。所述方法包含基于经确定音频事件追踪活动且基于概括模式概括经追踪音频活动。此外，所述方法包含基于反馈模式提供概括的经追踪音频活动的反馈。另外，在一实施例中，所述方法包含选择反馈模式及基于视觉反馈模式显示概括的经追踪音频活动。在相同或替代实施例中，所述方法包含概括经追踪音频活动，且当所选择反馈模式为可听反馈模式时，经追踪音频活动可为可听的。

存在包含一种设备的各种实施例，所述设备包含用于基于接收音频信号确定音频事件的装置及用于基于经确定音频事件追踪音频活动的装置。此外，所述设备包含用于基于概括模式概括经追踪音频活动的装置及用于基于反馈模式提供概括的经追踪音频活动的反馈的装置。

存在各种实施例，所述实施例包含一种其上存储有指令的非暂时性计算机可读存储媒体，所述指令在经执行时使得装置的一或多个处理器基于接收音频信号确定音频事件且基于接收音频信号确定音频事件。所述指令在经执行时还使得所述一或多个处理器基于经确定音频事件追踪音频活动，基于概括模式概括经追踪音频活动且基于反馈模式提供概括的经追踪音频活动的反馈。

附图说明

并入本文中且构成本说明书的一部分的随附图式说明权利要求书的示范性实施例，且与上文给出的一般描述及下文给出的详细描述一起用来解释权利要求书的特征。

图1为说明适合于实施本文中所揭示的各种实施例的装置的实例的组件框图。

图2说明包含音频活动单元及音频活动反馈提供器的框图。

图3说明音频事件确定器的多个实施例。

图4说明音频活动追踪器的示范性实施。

图5说明追踪活动概括器的示范性实施例。

图6说明可为包的部分的不同字段。

图7说明不同类型的个人识别。

图8说明分批处理音频事件的一实施例。

图9说明显示器上每日音频活动的概括的示范性视图。

图10说明与显示器上的概括的经追踪音频活动相关联的情绪的链接的另一示范性视图。

图11说明示范性使用案例。

将参考随附图式详细地描述各种实施例。在任何可能之处，将贯穿图式使用相同附图标号来指代相同或相似部件。对特定实例及实施的参考为出于说明的目的，且并不意欲限制权利要求书的范围。

具体实施方式

下文参考图式描述本公开的特定实施。在描述中，贯穿图式通过共同附图标号指示共同特征。如本文中所使用，仅出于描述特定实施的目的而使用各种术语，且所述术语并不意欲为限制性的。举例来说，除非上下文另外明确指示，否则单数形式“一(a/an)”及“所述”意欲同样包含复数形式。可进一步理解，术语“包括(comprise/comprises/comprising)”可与“包含(include/includes/including)”互换地使用。另外，应理解，术语“其中(wherein)”可与“在…的情况下(where)”互换地使用。如本文中所使用，“示范性”可指示实例、实施及/或方面，且不应被视作限制或视为指示偏好或优选实施。如本文中所使用，用以修饰组件(例如，结构、组件、操作等)的序数术语(例如，“第一”、“第二”、“第三”等)本身不指示组件关于另一组件的任何优先权或次序，而是仅将组件与具有相同名称的另一组件区别开(除非使用序数术语)。如本文中所使用，术语“集合”是指一或多个组件的群，且术语“多个”是指多个组件。

如本文中所使用，“耦接”可包含“通信耦接”、“电性耦接”或“实体耦接”，且还可(或替代地)包含其任何组合。两个装置(或组件)可经由一或多个其它装置、组件、线、总线、网络(例如，有线网络、无线网络或其组合)等直接地或间接地耦接(例如，通信耦接、电性耦接或实体耦接)。作为说明性非限制性实例，电性耦接的两个装置(或组件)可包含于相同装置或不同装置中，且可经由电子件、一或多个连接器或电感性耦接连接。在一些实施中，例如在电子通信中通信耦接的两个装置(或组件)可例如经由一或多个导线、总线、网络等直接地或间接地发送及接收电信号(数字信号或模拟信号)。如本文中所使用，“直接耦接”可包含在无介入组件的情况下耦接(例如，通信耦接、电性耦接或实体耦接)两个装置。

如本文中所使用，“集成”可包含“与…一起制造或出售”。如果用户购买捆绑或包含作为封装的部分的装置的封装，则所述装置可为集成式的。在一些描述中，两个装置可耦接，但未必是集成式的(例如，不同***装置可不集成至一装置中，但仍可“耦接”)。另一实例可为本文中所描述的可“耦接”至处理器的收发器或天线中的任一者，但未必为包含装置的封装的部分。当使用术语“集成”时，可自本文中所揭示的上下文(包含此段)推断出其它实例。

如本文中所使用，“提供”可包含“发送”，例如一或多个处理器可将输出信号或信号提供至另一组件，可等效地意指，所述一或多个处理器可将所述输出信号或信号发送至另一组件。

如本文中所使用，装置之间的“无线连接”可基于各种无线技术，例如蓝牙、无线保真(Wi-Fi)或Wi-Fi的变体(例如，Wi-Fi直接)。装置可基于不同蜂窝通信***“无线连接”，例如长期演进(LTE)***、分码多重存取(CDMA)***、全球移动通信***(GSM)***、无线局域网络(WLAN)***或某一其它无线***。CDMA***可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA)或某一其它版本的CDMA。另外，当两个装置在视线内时，“无线连接”还可基于例如超音波、红外线、脉冲射频电磁能量、结构化光或信号处理中所使用的到达定向技术(例如，音频信号处理或射频处理)的其它无线技术。

术语“计算装置”在本文中一般用以指代服务器、个人计算机、笔记本计算机、平板计算机、移动装置、蜂窝式电话、智能笔记本计算机、超级本、掌上计算机、个人数据助理(PDA)、无线电子邮件接收器、具多媒体因特网功能的蜂窝式电话、全球定位***(GPS)接收器、无线游戏控制器及包含用于无线发送及/或接收信息的可编程处理器及电路中的任一者或所有。

在一或多个麦克风已捕获或记录撞击在一或多个麦克风上的声波之后，术语“音频信号”可在不同阶段处互换地使用。另外，术语音频信号还可在自另一装置接收包的不同阶段处互换地使用。

术语“移动装置”、“连接装置”、“无线装置”及“无线节点”在本文中可互换地用以指代包含用于无线发送及/或接收信息的电路的任何电子装置，包含蜂窝式电话、个人或移动多媒体播放器、手表、腕部显示器、医学装置、耳机、头戴式耳机、扬声器、麦克风、计算装置及其它类似电子件。

如本文中所使用，A“及/或”B可意指“A及B”或“A或B”，或所述两者“A及B”及“A或B”均为可适用或可接受的。

图1为说明装置100的示范性组件的框图。装置100可为可听装置或可为不必包含人耳内或周围的扬声器的另一装置。举例来说，另一装置可为包含麦克风的家用扬声器，或智能手表。装置100还可包含例如一或多个传感器、一或多个摄像机及/或还并入本文中所揭示的实施例中的一些的显示装置的示范性组件。

在特定实施中，装置100包含处理器128，所述处理器包含：中央处理单元(CPU)；或数字处理器(DSP)；或耦接至存储器126的图形处理单元(GPU)。存储器126包含指令130(例如，可执行指令)，例如计算机可读指令或处理器可读指令。指令130可包含可由例如处理器128的计算机执行的一或多个指令。

图1还说明耦接至处理器128且耦接至装置100中的一或多个组件的一或多个控制器120。举例来说，一或多个控制器120可耦接至各种***装置(例如，显示装置110、传感器108、摄像机106及麦克风102)。如本文中所描述，显示装置110可不与装置100集成，或在与描述相关联的实施中，与本文中所揭示的装置100集成。

音频/语音编码器/解码器(CODEC)114还可耦接至处理器128及存储器126。麦克风102可耦接至音频/语音编解码器。音频/语音编解码器输出端可为音频/语音缓冲器136，且可存储由麦克风102捕获的音频及/或语音的样本。样本可为音频波形的部分。一般所属领域的技术人员可将音频/语音样本称作音频或语音样本或两者。呈语音的时间频率的音频样本可被称作语音样本。视频编码器/解码器(CODEC)(未绘示)还可耦接至处理器128及存储器126。摄像机106可耦接至视频编解码器。视频编解码器输出端可为像素缓冲器131，且可存储由摄像机106捕获的视频的像素。由摄像机106捕获的视频的像素可包含靠近装置100的环境或场景的图像或图像的一部分。可替代地或另外，由摄像机106捕获的视频的像素可包含用户的图像或图像的部分。一或多个传感器108可耦接至处理器128及存储器126。传感器108的输出端可为传感器缓冲器132，且可存储本文中所描述的由传感器108捕获的位置数据的样本。

装置100可包含收发器122，且收发器122可耦接至处理器128且耦接至天线112，以使得可将经由天线112及收发器122接收的无线数据提供至处理器128。装置100还可包含实施通信协议的网络接口124。在装置100的一些实施中，网络接口124可直接集成至处理器128中。在一些实施中，处理器128、控制器120、存储器126及收发器122可包含于***封装或***单芯片装置中。在一些实施中，各种***装置可集成至装置100中。

此外，在特定实施中，如图1中所说明，显示装置110、传感器108、摄像机106及麦克风102、天线112在***单芯片装置外部。在特定实施中，显示装置110、传感器108、摄像机106、麦克风102及天线112中的每一者可耦接至例如一或多个控制器120或存储器126的***单芯片装置的组件。

作为说明性非限制性实例，装置100可包含耳机、智能眼镜或扩增实境装置、虚拟现实装置、混合实境装置、扩展实境装置、机器人、移动通信装置、智能手机、蜂窝式电话、笔记本计算机、计算机、智能眼镜、平板计算机、个人数字助理、电视、游戏控制面板、音乐播放器、无线电台、数字视频播放器、作为车辆中的音频***的部分、数字视频光盘(DVD)播放器、独立摄像机、导航装置、车辆、车辆的组件或其任何组合。

在说明性实施方案中，存储器126可包含或对应于存储指令130的非暂时性计算机可读媒体。指令130可包含可由例如处理器128的计算机执行的一或多个指令。指令130可使处理器128执行本文中所描述的一或多个操作，包含(但不限于)与图1至10中的任一者相关联的描述的一或多个部分。

装置100可包含音频活动单元116、音频活动反馈提供器118、音频事件缓冲器138、概括经追踪音频活动缓冲器144、音频/语音包缓冲器142。缓冲器、音频活动单元116及音频活动反馈提供器118在本公开内以各种更详细的方式描述。

图2说明包含音频活动单元及音频活动反馈提供器的框图。随着处理器技术持续按比例缩小至较小节点大小，设想例如Amazon Echo或Google Home的数字助理的功能还可并入至可佩戴式装置中。佩戴装置的一个优点为能够跨多个环境(例如，汽车、家、办公室)追踪用户的社交互动。

作为实例，佩戴装置(例如可听设备、手表或智能眼镜)的另一优点为这些装置的麦克风可不像有时智能手机在用户的一天里在口袋或钱包中一样。在一些实施例中，在记录或捕获音频信号与佩戴者的代表性体验之间可存在较好相关性。

举例来说，在一些情况下，可佩戴设备可比在交替放置中更稳定，且可导致与真实佩戴者体验更局部相关。另外，对于可佩戴设备(例如，可佩戴式传感器)，将传感器放置于身体的不同点处可存在优点，以便获得对公共实体事件的不同类型的测量。将传感器放置于不同位置处可导致不同挑战及限制，然而，此类放置的优点在于身体运动(例如，足部传感器、腕部传感器、皮带周围的传感器或可听设备)可增加音频事件检测的信赖度及/或可导致音频事件检测。因此，在一些实施例中，其可具有优于手机的优点，例如，其可潜在地漂浮且相对于用户的运动或用户的运动的至少部分(例如，手臂、足部等)微弱、流动且未确定的。

非可佩戴式装置还可并入本文中所揭示的实施例中的一或多者。还设想包含音频活动单元202及/或音频活动反馈提供器单元210的装置将具有由无线连接装置之间的信息传送、较大存储器大小及/或机器学习进步而引起的提高的技术能力。举例来说，允许本地捕获但可能需要较多分析处理的传感器可获益于连接及远程处理。因此，除了社交互动之外，追踪其它音频活动的能力旨在捕获整体音频体验且将其转换为活动，且概括除社交互动之外的体验。另外，可基于不同类型的概括模式提供对音频活动的概括。在图5中论述概括模式。

除社交互动(即，社交互动涉及来回讨论的至少两个人)之外的音频活动的实例可包含收听电视或音乐所花费的时间。其它实例可与对情绪(例如，愤怒、高兴、中性等)进行分类或基于音频信号电平(例如，喊叫或私语)对交谈(或收听)所花费的时间进行分类相关。又，其它实例包含收听不同类型的人(例如，儿童对比成人、或男性对比女性)所花费的时间。基于音频活动，音频反馈提供器210可将视觉或可听反馈提供至用户。

在实施例中，装置(例如装置100)包含音频活动单元202，所述音频活动单元包含配置成基于接收音频信号确定音频事件的音频事件确定器204(参见图3)。音频事件基于发出声音的物体或人而产生。音频事件的实例已揭示于2015年10月多媒体的IEEE汇刊(IEEETransactions of Multimedia)，第17卷，第10号，斯托厄尔(Stowell)等人的“声学场景及事件的检测及分类(Detection and Classification of Acoustic Scenes and Events)”中。音频事件实例包含敲门、关门、说话、欢笑、清喉、咳嗽、拉抽屉、打印、键盘单击、鼠标单击、在桌面上作标记、在桌上放置钥匙、手机振铃、短警报(例如，蜂鸣声)及翻页。音频事件不限于仅这些实例。音频事件的其它非限制性实例包含椅子移动、乐器上弦(例如，吉他)、敲击(例如，转鼓)、将瓶子放置于桌上、掺合机声音、直升机声音等等。

在相同或替代实施例中，音频事件确定器204耦接至配置成基于经确定音频事件追踪音频活动的音频活动追踪器206(参见图4)。

在相同或替代实施例中，装置包含耦接至经追踪音频活动概括器208(参见图5)的音频活动追踪器206，所述经追踪音频活动概括器配置成基于概括模式概括经追踪音频活动。

在相同或替代实施例中，装置包含音频活动反馈提供器210，所述音频活动反馈提供器包含反馈模式选择器212。反馈模式选择器212可经由反馈模式设定进行配置。举例来说，装置的用户可配置反馈模式选择器212以在概括的音频上提供可听或视觉反馈或两者。在图9及图10中说明经追踪音频活动的示范性反馈。

图3说明音频事件确定器302的多个实施例。在实施例中，事件确定器304耦接至音频路径选择器302。音频路径选择器302配置成基于来自一或多个麦克风102的输出选择是否将音频波形提供至音频事件确定器304。音频波形可自编解码器114输出。音频波形可经提供至事件分类器组320，或在相同或替代实施例中，还可经提供至话音度量确定器单元314。话音度量确定器单元314可计算辅助语音处理及/或分类的一或多个话音度量值。示范性话音度量值在图7中说明为740A1至740E1(话音活动检测旗标、话音频率、哈希话音频框、最近语音的持续时间及音调)。

在相同或替代实施例中，音频路径选择器302耦接至接收器301。接收器301配置成自不同装置接收信号。信号可包含数据包、音频包或语音包。数据包可能囊封音频包或语音包。为了易于描述，除非另外明确指示，否则包可为数据包、音频包或语音包。音频包或语音包可存储于音频/语音包缓冲器142(参见图1)中。数据包可存储于数据包缓冲器(未展示)中。音频路径选择器302可自控制器120中的一或多者接收控制器输入，所述控制器可辅助是否将包或音频波形提供至音频事件确定器304的选择。

在相同或替代实施例中，可将包提供至音频事件确定器304。可通过有效负载数据提取器312接收包。有效负载数据提取器312可自包提取识别数据类型(ID)630及/或个人识别信息640(参见图6)。举例来说，有效负载数据提取器312可提取个人识别620，即指示此人是谁的一或多个位。如果两个人说话，例如佐伊(Zoe)及马克斯(Max)，则佐伊的装置可将表示实际上为佐伊的一或多个位发送至马克斯的装置。马克斯的装置可包含有效负载数据提取器312。作为佐伊的个人识别可基于语音识别、面部辨识或定位于佐伊的装置(马克斯的装置的远程装置)上的某一其它辨识技术的结果。举例来说，马克斯的装置可为装置100，且在独立装置上捕获佐伊的话音或面部。

在相同或替代实施例中，马克斯的装置可广播与马克斯的装置相关联的识别，其可例如作为所描述字段(630、640或620)中的一者的替代经包含，或代替字段中的一者，例如识别数据类型630可识别马克斯的装置。在实施例中，马克斯的装置的识别可为随机数字(取决于使用案例而固定或变化)以提供额外的安全及唯一性。识别数据类型630可为由用户(即，马克斯)设定的配置的结果。

群配置或设定可允许将个人识别620或个人识别信息640与识别数据类型630分离。在实施例中，装置可在接近(例如，碰撞或使用NFC)内以允许交换包含用户识别(例如，1234567)的识别数据类型630。随后，视配置而定，包中的1234567的广播用户识别可由装置100接收，且包的字段(630、640或620)中的信息可用于装置100的音频活动追踪器206中。

其它实施例可存在以交换经由因特网或私人消息介导的权限以允许注册为群且允许特定个体的权限。在相同或替代实施例中，有效负载数据提取器312可提取个人识别信息640。在图7中说明个人识别信息的大量实例(740A1至740E1及740A2至740E2)。一般所属领域的技术人员将了解，远程装置可具有其自身话音度量确定器单元，其可经发送至装置100。

在相同或替代实施例中，还可自有效负载数据提取器312提取时间戳。来自远程装置的时间戳可与ID数据类型630、个人识别信息或个人识别在相同时间或相对接近的时间到达，以允许与ID数据类型630、个人识别640或个人识别620相关联的其它音频事件的时间相关性(例如，可基于共同时间)。到达的时间戳中可用的有效负载数据是在与装置100不同的实***置及空间处捕获。时间戳及相关联信息(即，时间指派的有效负载数据字段(620、630及640))自提供含有有效负载数据及时间戳的包的一或多个不同远程装置传送至装置100，所述有效负载数据及时间戳又允许音频活动追踪器206包含于基于时间的分析中。

在相同或替代实施例中，包可直接经提供至音频/语音解码器310。在音频/语音解码器310减压音频/语音包之后，还可将经重建音频及/或语音波形提供至话音度量确定器单元314。另外，可将经重建音频及/或语音波形提供至事件分类器组320。由于事件分类器组320可基于包或音频波形接收输入，因此在实施例中，事件分类器组320还可接收指示所提供输入是否来自本地装置(例如，装置100)或远程装置的装置模式作为输入。视装置模式而定，可控制事件分类器组320。事件分类器组320可选择性地使用响应于来自本地装置(例如，装置100)的输入的存储器或分类器，或替代地，选择性地使用响应于来自远程装置的输入的存储器或分类器。

在对事件分类器组320的输入为ID数据类型及/或个人识别信息及/或经重建音频及/或语音波形及/或基于经重建音频及/或语音波形的话音度量的实施例中，装置模式可具有由一或多个位表示的一个值且可由装置100设定。在对事件分类器组320的输入为音频波形及/或基于音频波形的话音度量的实施例中，装置模式可具有由一或多个位表示的不同值(与装置100相关联)且还可由装置100设定。

另外，对事件分类器组320的控制还视应用而定。因此，事件分类器组320还可另外输出远程装置ID、远程装置的时间戳、个人ID、(装置100的)本地时钟及本地装置识别值(即，装置100的ID)。

图4说明音频活动追踪器的示范性实施。示范性音频活动追踪器402可包含时间戳(本地时钟或远程时间戳)、装置ID(本地装置ID或远程装置ID)、个人ID及/或音频事件的输入。虽然在描述图2时提供音频事件的非限制性实例，但所属领域的技术人员将了解，可跨多个情形环境、上下文及应用利用本文中所描述的技术确定音频事件的数目。

在实施例中，音频活动追踪器402可包含比较单元404。比较单元404可在当前音频事件与先前音频事件之间执行比较，且确定当前音频事件与先前音频事件是否是相同音频事件408或不同音频事件406。比较可基于减法。然而，在相同或替代实施例中，所述比较可基于评估当前音频事件值(或表示当前音频事件的值的集合)大于或小于先前音频事件值(或表示先前音频事件值的值的集合)。所述比较是基于大于或小于不等式可基于应用或设计选择。另外，比较单元可包含取决于应用或设计选择而使用对数、绝对值或阈值。

音频事件数据缓冲器410可存储表示相同音频事件408或不同音频事件406的一或多个值。音频事件数据缓冲器408还可存储当前音频事件。另外，在相同或替代实施例中，音频事件数据缓冲器410可存储时间戳、装置ID或个人ID中的一或多者，如图4中所说明。在相同或替代实施例中，音频缓冲器138可单独存储音频事件。

文字标签可基于音频事件可表示的来生成。举例来说，音频事件可表示键盘单击。文字标签可为“键盘按键单击”。所属领域的技术人员将了解，音频事件还可表示若干次键盘单击，且文字标签可为“键盘按键单击”。如果喷气飞行器飞过头顶，则源分离器可分离出飞过头顶的喷气飞行器且文字标签可为“喷气飞行器飞过头顶”。键盘按键单击及喷气飞行器飞过头顶可视为两个单独的音频事件，或在一些实施例中，可表示“键盘按键单击而喷气飞行器飞过头顶”的一个音频事件。

一般所属领域的技术人员将了解，在实施例中，音频事件的文字标签还可存储于音频事件数据缓冲器410中。

在本公开内，对音频事件的引用可包含音频事件的音频或语音样本，或对音频事件的可互换地引用可包含文字标签。另外，音频事件可为音频事件的集合，例如键盘按键单击可为一系列键盘按键单击的集合。

作为文字标签或作为音频事件的音频或语音样本，音频事件可经分批处理414(参见图8)以确定音频活动。经确定音频事件的其它情境可确定音频活动。举例来说，如果音频事件(或文字)表示呼吸短促及/或快速的脚步声，则经确定音频活动可能正在进行。如果音频事件表示快速的脚步声像在水泥或沙石上，则此可表示经确定音频活动正在水泥或沙石上进行。时间戳、装置ID及个人ID还可提供更多情境。举例来说，经确定音频活动可为马克斯(由个人ID指示)在1pm(由时间戳指示)在水泥或沙石上跑步且佩戴手表(由装置ID指示)。

在音频活动追踪器402基于一或多个经确定音频事件及情境确定音频活动之后，通过将经确定音频活动存储在音频活动数据缓冲器144中，可保持追踪经确定音频活动。经追踪确定的音频活动的概括可基于经追踪音频活动概括器502(参见图5)中的概括模式。

一般所属领域的技术人员将了解，在实施例中，经追踪确定的音频活动的文字标签还可存储于音频活动数据缓冲器144中。

在本公开内，对音频活动或经确定音频活动的引用可包含音频活动的音频或语音样本，或对音频活动或经确定音频活动的互换地引用可包含文字标签。另外，音频活动或经确定音频活动可为音频活动的集合，且对音频活动的集合的引用还可称作音频活动。举例来说，“马克斯下午在水泥上跑步”可为马克斯在1pm与5pm之间跑步至少几天的一系列音频活动的集合。音频活动“马克斯下午在水泥上跑步”的集合还可称作音频活动。基于一或多个传感器108数据的相关性，所述传感器108中的一或多者可辅助音频活动的集合且增加音频事件检测的信赖度。

在相同或替代实施例中，音频活动“马克斯在水泥上跑步”的集合可由一或多个传感器108辅助，所述一或多个传感器在马克斯增加步数时基于对水泥的影响检测呼吸、心跳速率、加速度响应的形状。举例来说，检测器组804中的传感器检测器816可检测这些一或多个传感器108的输出(例如，惯性及光电血管容积图(PPG)或心跳速率(HR)传感器)(参见图8)。除了与呼吸、脚步声及脚步对水泥的影响的所记录声音相关联的声音度量之外，分批处理800可使用例如感测度量或视觉度量的其它传感器输入。因此，分批处理除了具有检测器组804中的检测器中的一或多者(参见图8)之外，包含可基于其它传感器输入的音频活动(例如跑步)。

在一些实施例中，检测器组804可包含用以捕获自一或多个摄像机106捕获的本地视频内容的视觉情境检测器814，所述视觉情境检测器可用于使视频内容与音频信号相关联以增加音频事件确定的信赖度，或在一些实施例中，辅助音频事件的确定。类似地，在一些实施例中，检测器组804可在一些实施例中包含传感器检测器816，所述传感器检测器可用于使一或多个传感器读数与音频信号相关联以增加音频事件确定的信赖度，或在一些实施例中，有助于音频事件的确定。在相同或替代实施例中，传感器检测器816可由一或多个传感器108(例如，惯性及光电血管容积图(PPG)或心跳速率(HR)传感器)辅助。

在替代实施例中，对在特定日(例如，星期五)与特定人会见或在特定日(例如，星期五)参加不同小组会议的追踪可用作音频活动的集合，且对音频活动(“星期五会议”)的集合的引用还可被称作音频活动。

图5说明追踪活动概括器的示范性实施例。经追踪音频活动概括器502可提供概括的音频活动作为输出。音频活动的概括可基于概括模式。在概括模式选择器504中说明示范性概括模式。举例来说，概括模式可为时间模式506、情绪模式508、活动模式510、环境模式512、语音状态模式514、关联模式516、重叠模式518及/或建议模式524。

在实施例中，时间模式概括模式可基于持续时间提供对音频活动的概括。举例来说，持续时间可为历经持续10分钟、60分钟、3小时、一日、一周、一月、一季度、数年等。另外，时间模式可由装置100的用户定义。作为实例，装置100的用户可定义持续时间，如将下午定义为1pm及5pm。因此，马克斯过去一年在水泥上跑步多少个下午的概括的经追踪音频活动可由经追踪音频活动概括器提供。在实施例中，时间模式可概括持续15分钟或大于15分钟的会话的统计数据。举例来说，在人员A(例如，马克斯)与人员B(例如，佐伊)之间的会话中，经追踪音频活动概括器可确定在其二十分钟的会话期间佐伊讲话50％的时间且马克斯讲话在50％的时间之间。

在实施例中，情绪模式概括模式可基于由情绪检测器(参见图8)检测的各种情绪提供音频活动的概括。举例来说，在实施例中，基于利用情绪检测器确定笑、哭、尖叫及叫喊的音频事件，基于高兴、兴奋、恐惧、愤怒、温柔或悲伤所导致的音频活动的概括可由经追踪音频活动概括器502提供。

在实施例中，活动模式概括模式可基于各种类型的活动提供音频活动的概括。举例来说，运动是一种类型的活动。经追踪音频活动概括器502可提供特定运动期间的音频活动的概括。举例来说，如果装置100的用户(例如，马克斯)打篮球，则音频活动可指示马克斯在投篮之前运球多少次或其在比赛中运球多长时间。

在实施例中，环境模式概括模式可基于环境的类型提供音频活动的概括。在某些环境中，声音可较大(例如，建筑场地)、安静(例如，图书馆)或低水平(例如，在一些办公室或家里)。可利用例如人群噪声的其它类型对环境进行分类，所述类型可有助于识别音频活动发生的位置。经追踪音频活动概括器502可基于环境是否安静、喧闹、低水平、存在人群噪声或环境类型的其它分类提供音频活动的概括。

在实施例中，语音状态模式概括模式可基于个人的语音状态提供音频活动的概括。不同语音状态的实例可分类为被动收听(例如，收听电视或收音机)、收听(例如，在会话中)或交谈(例如，在会话中)。经追踪音频活动概括器502可基于环境是否安静、喧闹、低水平、存在人群噪声或语音状态的其它分类提供音频活动的概括。

在实施例中，关联模式概括模式可基于关联模式提供音频活动的概括。关联模式可基于个人或一群人的关联。举例来说，当人员A及人员B一起执行音频活动时，概括可期望基于音频活动。举例来说，其正在打网球、游泳、喝咖啡聊天、开车去上班等。

在替代实施例中，可存在可允许概括的经追踪音频活动基于位置信息的位置模式(未展示)。位置信息可能可来自不同源，或在音频事件(例如，自记录的Wi-Fi包监听)之后经确定，且可允许基于位置显示或提供概括的活动。举例来说，位置可为在家、工作、驾驶、网球俱乐部、咖啡馆等等。

在相同或替代实施例中，可通过选择两个或大于两个概括模式提供概括。作为实例，在选择重叠模式518之后，可选择时间模式506及情绪模式508两者。另一实例是在选择重叠模式之后，选择活动模式510及语音状态模式514。因此，在重叠模式中，可基于两个或大于两个概括模式提供概括。

在相同或替代实施例中，可存在将反馈提供至用户的建议模式522。举例来说，可存在校正个人说出“emm”、“umm”或过使用某些字语(例如，“如”)的不良说话习惯的反馈。可实时进行反馈及/或事后分析反馈。

在相同或替代实施例中，可经由由包含经追踪音频活动概括器502的装置100处理的说话关键词来选择概括模式。用户可说出示范性词组“时间模式”、“情绪模式”、“环境模式”、“语音状态模式”、“关联模式”、“重叠模式”及/或“建议模式”来选择一或多个概括模式。在相同或替代实施例中，可在不具有重叠模式本身的情况下，但通过选择两个或大于两个概括模式执行多个实施例的选择。

在相同或替代实施例中，经追踪音频活动概括器502可集成或耦接至显示装置100，且概括模式的选择可基于触摸显示装置100，其中概括模式为单选按钮选择。

可在屏幕上触摸单选按钮以选择时间模式506、情绪模式508、活动模式510、环境模式512、语音状态模式514、关联模式516、重叠模式518及/或建议模式524。在替代实施例中，在单选按钮上未展示快速重叠模式518，但通过触摸所描述的概括模式中的一或多者来选择大于一个概括模式的能力可允许经追踪音频活动概括器502基于一或多个概括模式提供一或多个音频活动的概括。

在实施例中，为在概括模式选择器504中选择概括模式可经由按压集成或耦接至包含经追踪音频活动概括器502的装置100的一或多个推按按钮。举例来说，按压推按按钮可选择时间模式506。第二次按压推按按钮可选择情绪模式516。后续按压可选择活动模式510。接着按压可选择环境模式512。此后的按压可选择语音状态模式514。按钮的另一按压可选择关联模式516。

在相同或替代实施例中，如果存在集成或耦接至包含经追踪音频活动概括器502的装置100的额外按钮，则可选择重叠模式518以基于多个概括模式提供概括的音频活动。举例来说，在选择重叠模式518之后，可选择时间模式506及情绪模式508两者，且可基于时间及情绪提供概括。

对概括的经追踪音频活动缓冲器526中的概括的音频的反馈模式可为可听或视觉的，或为可听及视觉的。举例来说，可经由扬声器有声地描述图9及图10中所说明的概括的经追踪音频活动。另外，概括的经追踪音频活动可显示于如图9中所说明的图形用户接口(GUI)上，且在图10以图表形式或经由说明不同音频活动之间的部分、百分比或链接的另一视觉表示显示。视觉反馈模式还可包含文字。举例来说，音频活动的列表可经显示或存储于存储器中。概括的经追踪音频活动缓冲器526还被称作概括的经追踪音频活动缓冲器144。

图6说明可为两个装置之间通信期间的包600的部分的不同字段。当通信基于无线连接时，包600可被称作无线包。包(不论无线与否)600可包含前置码608、标头610及有效负载数据612。前置码608可用于使在交换信息的两个装置之间的发射及/或接收同步。标头610可包含关于包600内携带的数据的指令，例如包600内所含有的字段或子字段的长度或数量。

在实施例中，包的有效负载数据612可包含个人识别620，即指示此人是谁的一或多个位。个人识别620可基于语音识别、面部辨识或某一其它辨识技术的结果。如果包600由装置100接收，则辨识技术可定位于另一装置上。在实施例中，本地装置(即，装置100)可集成辨识技术，且包600可经发射至装置100外部。

在相同或替代实施例中，包600可包含ID数据类型630。举例来说，ID数据类型630可指示辨识是否为定位于远程装置上且经发送至本地装置(即，装置100)的语音识别或面部辨识或某一其它辨识技术的结果。

在相同或替代实施例中，有效负载数据612可包含个人识别信息640。在图7中说明个人识别信息的大量实例(740A1至740E1及740A2至740E2)。

图7说明不同类型的个人识别。可基于一或多个麦克风102捕获的个人识别在图7中说明为740A1至740E1。话音活动检测旗标740A1可表示何时存在有声或无声语音。有声频率740A2可为经量化线性预测是数或人说话的频率分布(振幅及共振峰位置)的包封的其它类似表示。哈希话音频框740A3可表示对于特定人而言特有的声纹。最近语音的持续时间740A4可为某人说话的时间长度，例如5秒。音调740A5可表示人说话的音调。儿童及女性倾向于具有较高音调，而男性倾向于具有较低音调。

在相同或替代实施例中，可基于一或多个传感器108捕获的额外或替代性个人识别在图7中说明为740A2至740E2。人头部的温度740A2可用于指示其处于过冷或过热的实体环境中。如果温度过热或过冷，则人可为所述人处于压力下的指示符。使温度读数与其它传感器读数相关联可提供较多情境以辅助确定所追踪的音频活动。人的心跳740B2还可提供与压力、平静及/或锻炼相关的较多情境以辅助确定所追踪及概括的音频活动。人的身体部位运动740C2可指示此人是否正在跑步、行走、站立、抬高手臂、转动腕部、头部运动。身体部位的这些运动可提供辅助所追踪及概括的音频活动的较多情境。与最接近物体的接近度740D2可为提供有助于追踪及概括音频活动的内容的另一指示符。装置ID的定向740E2可为提供有助于追踪及概括音频活动的内容的另一指示符。

图8说明分批处理音频事件的一实施例。如先前参考图4所描述，可在音频活动追踪器402中分批处理800音频事件。经确定音频事件可与先前经确定音频事件聚集802且经提供至检测器组804。举例来说，经确定音频事件可为键盘按键单击。如果聚集多个键盘单击，则经确定音频事件的聚集可为单击键盘按键。另一实例可为经确定音频事件可为脚踏在沙石上。多个音频事件(例如脚步或按键单击)的聚集可经发送至检测器组84。

检测器组804可包含环境检测器806、情绪检测器808、语音状态检测器810及可听情境检测器812。在相同或替代实施例中，其它输入可由检测器组804处理。举例来说，ID数据类型、可听度量(例如话音度量、视觉度量及/或感测度量)可充当检测器组804的输入且供检测器组804中的检测器中的一或多者使用。来自传感器的其它情境可提供较多情境。举例来说，可由某人说出的工作词组或咖啡馆词组(即，与工作环境相关联的词组或在咖啡馆中)由一或多个麦克风102捕获。基于确定词组的情境的可听情境检测器812可辅助自检测器组804输出的音频活动是在办公室的笔记本计算机上工作或在咖啡馆处打字的人。在另一实例中，环境检测器806可检测海浪且辅助确定自检测器组804输出的音频活动是在大海附近的沙滩上跑步的人。

基于来自一或多个麦克风102的可听输入的检测器组804或事件分类器组320可依赖于机器学习或用于检测的其它自适应或分类技术。举例来说，情绪检测器808及可听情境检测器812可基于使用深度神经网络。作为另一实例，例如对成年人与儿童、或男性与女性之间的差异进行分类的音频事件可基于分类器或深度神经网络。另一实例在事件分类器组320中可使用格式结构分类器及音调分类器以确定来自正在播放音乐的电视或扬声器的内容。检测器组804可基于早先所论述的个人识别信息640(图8中未绘示)来确定音频活动。

在一些实施例中，检测器组804可包含用以捕获自一或多个摄像机106捕获的本地视频内容的视觉情境检测器814，所述一或多个摄像机可用于使视频内容与音频信号相关联以增加确定音频事件的信赖度，或在一些实施例中，辅助音频事件的确定。类似地，在一些实施例中，检测器组804可在一些实施例中包含传感器检测器816，所述传感器检测器可用于使一或多个传感器读数与音频信号相关联以增加确定音频事件的信赖度，或在一些实施例中，有助于音频事件的确定。在相同或替代实施例中，传感器检测器816可由一或多个传感器108(例如，惯性及光电血管容积图(PPG)或心跳速率(HR)传感器)辅助。

一或多个麦克风102或耦接至麦克风102的处理器可进行工作循环以节省能量。此可允许较长时间段持续监视音频活动。在一些***中，口头字语的检测允许处理器离开闲置模式且接通额外的麦克风。装置100可具有较接近或远离人说话的麦克风102。一或多个麦克风201可允许音量监视。举例来说，可听设备可具有允许音量监视之外部麦克风。一或多个麦克风102可允许喊叫、交谈、私语等等的检测。

基于可听输入的检测器还可包含经过训练的话音模板。当装置100可包含天线112及收发器122时，可在两个装置之间交换或共享经过训练的话音范本，此可有助于减少对不具有经过训练的话音模板的装置的训练。不同可信群可共享训练数据。可信群的实例为一家庭。在家庭成员当中，可在装置之间交换或共享经过训练的话音范本。天线112及收发器122允许追踪及概括待发射至另一装置的音频活动。发射可基于音频活动追踪器及概括器装置(例如，装置100)的用户的授权。举例来说，一人哭了三个小时且未对任何人说话，此可经发射至亲人。另一实例可为老年亲属在一段时间内尚未进行社交互动，且可对亲属建议打电话或去拜访。在又一实例中，可为一个在某个阈值水平上已暴露于过量背景噪声中。

图9说明显示装置110上的GUI 902上每日音频活动的概括的示范性视图。在图9的示范性视图中，说明人参与的音频活动904。可在显示装置110上向用户展示906概括模式。不同概括模式可由例如下拉菜单箭头908选择(或可由单选按钮或通过在概括模式的名称中输入来选择，作为实例)。举例来说，如果概括模式为时间模式，则指明特定时间段活动的概括的人可为进行以下的人：驾驶汽车(A)、倾听乔(Joe)(B)、听音乐(C)、与玛丽(Mary)说话(D)、在安静环境中(E)及收听电视(F)。饼图图表允许显示比例。

在相同或替代实施例中，用户还可选择与概括模式相关联的阈值。举例来说，可不必显示持续小于10分钟的音频活动。因此，可存在人在特定时间段期间参与的但未在显示装置110的GUI 902上说明的其它音频活动。

图10说明与显示器上的概括的经追踪音频活动相关联的情绪的链接的另一示范性视图。在图10的示范性视图中，音频活动(A-F)的百分比可链接至与概括的经追踪音频活动1050相关联的情绪且显示于显示装置110的不同GUI 1040上。示范性情绪可包含(但不限于)“无聊”、“中性”、“激动”或“高兴”。

图11说明示范性使用案例1100。在图11中，人在聚会上进行社交活动。在聚会上，可发生多个不同的音频活动。实例包含：在电视上观看体育比赛(A1)、唱生日歌(B1)、祝酒(C1)、打开礼品(D1)、吃晚餐(E1)或玩游戏(F1)。在人聚会的房间或空间内，可存在包含音频活动单元202及音频活动反馈提供器210的装置1104。装置1104可包含可以类似于一或多个麦克风102的先前描述的方式运作的麦克风阵列1106。装置1104可包含具有可显示音频活动(例如，A1至F1)的概括的GUI 1108的显示装置。

在相同或替代实施例中，一些人可佩戴包含如本文中所揭示的音频活动单元202及音频活动反馈提供器210的可佩戴式装置。举例来说，人具有环绕其腕部的可佩戴式装置。可佩戴式装置可为腕带或手表(两者引用为1102A)。另一人佩戴包含如本文中所揭示的音频活动追踪器的可听设备1102B。另一人具有环绕其颈部的可佩戴式装置1102C。可佩戴式装置可为具有麦克风阵列(即，一或多个麦克风102)的项链，或将来可在社交上可接受佩戴的包含环绕颈部的一或多个麦克风102的装置。可佩戴物1102A、1102B及110C可以视觉或可听形式提供音频活动的概括。举例来说，可听设备1102B及环绕颈部的可佩戴式装置1102C可将概括的音频活动传送至显示装置。如果可佩戴式装置1102A为手表，则存在集成至手表的显示装置。如果可佩戴式装置1102A为不具有显示装置的腕带，则概括的音频活动可经传送至显示装置。可佩戴物1102A、1102B及1102C还可包含播放音频活动的概括的一或多个扬声器。

在特定实施中本文中所揭示的***及装置的一或多个组件可集成至译码***或设备(例如，电子装置或其中的处理器)中，集成至编码***或设备中，或两者中。在其它实施中，本文中所揭示的***及装置的一或多个组件可集成至无线电话，智能眼镜，或扩增实境装置、虚拟现实装置、混合实境装置、扩展实境装置的将来版本，机器人，平板计算机，桌面计算机，笔记本计算机，机顶盒，音乐播放器，视频播放器，娱乐单元，电视，游戏控制面板，导航装置，通信装置，个人数字助理(PDA)，固定位置数据单元，个人媒体播放器或另一种类型的装置中。

结合所描述的技术，一种装置包含用于基于接收音频信号确定音频事件的装置、用于基于经确定音频事件追踪音频活动的装置、用于基于概括模式概括经追踪音频活动的装置及用于提供概括的经追踪音频事件的反馈的装置。另外，所述装置可包含用于选择反馈模式的装置。

所属领域的技术人员将了解，在一些实施例中，装置100不具有***装置(例如，一或多个传感器、一或多个摄像机及/或显示装置)或组件(例如，编解码器、天线、收发器)中的一些，其中装置100为服务器，其还可配置成基于接收音频信号确定音频事件，基于经确定音频事件追踪音频活动，基于概括模式概括经追踪音频活动及基于反馈模式提供概括的经追踪音频活动的反馈。

所属领域的技术人员将进一步了解，结合本文中所揭示的实施描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由处理器执行的计算机软件或两者的组合。上文已大体上就其功能性而言描述各种说明性组件、块、配置、模块、电路及步骤。此功能性被实施为硬件或处理器可执行指令取决于特定应用及强加于整个***的设计约束。所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性，但不应将此类实施决策解释为致使脱离本公开的范围。

结合本文中的揭示内容描述的方法或算法的步骤可直接以硬件、由处理器执行的软件模块或两者的组合来实施。软件模块可驻存于随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、缓存器、硬盘、可移除式磁盘、紧密光盘只读存储器(CD-ROM)或所属领域中已知的任何其它形式的非暂时性存储媒体中。示范性存储媒体耦接至处理器，使得处理器可自存储媒体读取信息且将信息写入至存储媒体。以上各者的组合还应包含于非暂时性计算机可读媒体的范围内。另外，方法或算法的操作可作为程序代码及/或指令中的一者或任何组合或集合而驻存于可并入至计算机程序产品中的非暂时性处理器可读媒体及/或非暂时性计算机可读媒体上。在替代例中，存储媒体可集成至处理器中。处理器及存储媒体可驻存于特殊应用集成电路(ASIC)中。ASIC可驻存于计算装置或用户终端机中。在替代例中，处理器及存储媒体可作为离散组件驻存于计算装置或用户终端机中。

先前描述经提供以使所属领域的技术人员能够进行或使用所揭示的实施。所属领域的技术人员将容易地显而易见对这些实施的各种修改，且在不脱离本公开的范围的情况下，本文中所定义的原理可应用于其它实施。因此，本公开并非意欲限制于本文中所展示的实施，而应符合可能与如随附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims

1.一种用于音频处理的装置，其包括：

一或多个处理器，其配置成：

基于接收音频信号确定音频事件；

基于经确定音频事件追踪音频活动；

基于概括模式的用户选择概括经追踪音频活动，其中所述概括模式为以下中的一或多者：时间模式、情绪模式、活动模式、环境模式、语音状态模式、关联模式、重叠模式或建议模式；及

基于反馈模式提供概括的经追踪音频活动的反馈。

2.根据权利要求l所述的装置，其进一步包括耦接至所述一或多个处理器的音频解码器，且所述音频解码器配置成从另一装置接收包。

3.根据权利要求2所述的装置，其中所述音频解码器耦接至有效负载数据提取器，且所述有效负载数据提取器配置成从从另一装置接收的所述包提取个人识别、识别类型、个人识别信息、远程装置ID或时间戳中的至少一者。

4.根据权利要求2所述的装置，其进一步包括音频路径选择器，所述音频路径选择器配置成选择是否将基于来自一或多个麦克风的输出的音频波形提供至音频事件确定器，或将从另一装置接收的所述包提供至所述音频事件确定器。

5.根据权利要求4所述的装置，其中所述音频路径选择器配置成接收控制器输入及提供装置模式。

6.根据权利要求l所述的装置，其进一步包括耦接至音频编解码器的一或多个麦克风，所述音频编解码器配置成输出音频波形且配置成将所述音频波形提供至所述一或多个处理器。

7.根据权利要求6所述的装置，其中所述经确定音频事件基于至少对来自话音度量确定器单元的一个话音度量进行分类，且所述一或多个处理器包含配置成提供本地时钟、本地装置识别值及所述音频事件中的至少一者的音频事件分类器组。

8.根据权利要求7所述的装置，其中所述事件分类器组由装置模式控制。

9.根据权利要求l所述的装置，其进一步包括存储器，所述存储器包含概括的经追踪音频活动缓冲器。

10.根据权利要求9所述的装置，其中所述一或多个处理器包含配置成选择所述反馈模式的音频活动反馈提供器。

11.根据权利要求10所述的装置，其进一步包括显示装置，所述显示装置配置成在选择视觉反馈模式时显示概括的经追踪音频活动的视觉反馈。

12.根据权利要求10所述的装置，其进一步包括一或多个扬声器，所述一或多个扬声器配置成在选择可听反馈模式时产生概括的经追踪音频活动的可听反馈。

13.根据权利要求12所述的装置，其中所述一或多个扬声器集成至可听装置中。

14.根据权利要求l所述的装置，其中所述一或多个处理器包含用于基于所述概括模式提供所述经追踪音频活动的音频活动追踪器，且其中所述音频活动追踪器包括比较先前音频事件以确定所述经确定音频事件为相同音频事件还是不同音频事件。

15.根据权利要求14所述的装置，其中所述音频活动追踪器配置成基于聚集所述经确定音频事件且基于时间戳、装置识别值或个人识别值中的至少一者分批处理大于一个音频事件。

16.根据权利要求15所述的装置，其中所述经追踪音频活动为基于检测环境、情绪、语音状态、可听情境、视觉情境或传感器读数中的至少一者。

17.根据权利要求16所述的装置，其中所述经追踪音频活动另外基于识别数据类型、个人识别及个人识别信息中的一者。

18.根据权利要求1所述的装置，其进一步包括显示装置，所述显示装置配置成表示与所述概括的经追踪音频活动相关联的情绪的链接。

19.一种用于音频处理的方法，其包括：

基于接收音频信号确定音频事件；

基于经确定音频事件追踪音频活动；

基于反馈模式提供概括的经追踪音频活动的反馈。

20.根据权利要求19所述的方法，其进一步包括选择反馈模式。

21.根据权利要求20所述的方法，其中当所述反馈模式为视觉反馈模式时，显示所述概括的经追踪音频活动的所述反馈。

22.根据权利要求20所述的方法，其中当所述反馈模式为可听反馈模式时，所述概括的经追踪音频活动的所述反馈为可听的。

23.根据权利要求19所述的方法，其中所述概括的经追踪音频活动是基于比较先前音频事件以确定所述经确定音频事件为相同音频事件还是不同音频事件。

24.根据权利要求19所述的方法，其中所述概括的经追踪音频活动基于聚集所述经确定音频事件分批处理大于一个音频事件。

25.根据权利要求19所述的方法，其中所述概括的经追踪音频活动被发射至另一装置。

26.一种用于音频处理的设备，其包括：

用于基于接收音频信号确定音频事件的装置；

用于基于经确定音频事件追踪音频活动的装置；

用于基于概括模式的用户选择概括经追踪音频活动的装置，其中所述概括模式为以下中的一或多者：时间模式、情绪模式、活动模式、环境模式、语音状态模式、关联模式、重叠模式或建议模式；及

用于基于反馈模式提供概括的经追踪音频活动的反馈的装置。

27.根据权利要求26所述的设备，其进一步包括用于选择所述反馈模式的装置。

28.一种非暂时性计算机可读存储媒体，其上存储有指令，所述指令在执行时使得装置的一或多个处理器：

基于接收音频信号确定音频事件；

基于经确定音频事件追踪音频活动；

基于反馈模式提供概括的经追踪音频活动的反馈。