CN112753227A

CN112753227A - 用于在体育事件电视节目中检测人群噪声的发生的音频处理

Info

Publication number: CN112753227A
Application number: CN201980041775.4A
Authority: CN
Inventors: M·斯托扬契奇; W·帕卡德
Original assignee: Thuuz Inc
Current assignee: Stez Ltd
Priority date: 2018-06-05
Filing date: 2019-06-04
Publication date: 2021-05-04
Anticipated expiration: 2039-06-04
Also published as: US20190373310A1; JP2024069189A; AU2024203113A1; AU2019282559A1; AU2019282559B2; JP2021526238A; EP3811629A4; US11025985B2; EP3811629A1; CA3101857A1; WO2019236556A1; JP7485864B2

Abstract

从视听内容提取描绘体育事件或其它事件的视听内容的精彩片段的元数据。所述精彩片段可以是特别感兴趣的内容片段，例如体育事件的广播。存储所述视听内容的音频数据，并且通过分析联合时域和频域中的音频信号来自动地标识所述音频数据的指示人群兴奋(噪声)的部分。导出多个指示符且随后对其进行处理以检测、验证和渲染人群噪声的发生。自动地生成元数据，所述元数据包括发生时间、噪声(兴奋)水平和欢呼持续时间。可以存储元数据，所述元数据至少包含指示每个所述部分发生的在所述视听内容内的时间的时间索引。可以使用强烈的人群噪声的时段来标识精彩片段和/或指示观看精彩片段期间的人群兴奋。

Description

用于在体育事件电视节目中检测人群噪声的发生的音频处理

相关申请的交叉引用

本申请要求2018年6月5日提交的题为“用于在体育事件电视节目中检测人群噪声的发生的音频处理(Audio Processing for Detecting Occurrences of Crowd Noise inSporting Event Television Programming)”的第62/680,955号美国临时申请(代理人案号THU007-PROV)的优先权，所述美国临时申请以全文引用的方式并入本文中。

本申请要求2018年7月30日提交的题为“用于从电视信号提取可变长度不相交片段的音频处理(Audio Processing for Extraction of Variable Length DisjointSegments from Television Signal)”的第62/712,041号美国临时申请(代理人案号THU006-PROV)的优先权，所述美国临时申请以全文引用的方式并入本文中。

本申请要求2018年10月16日提交的题为“用于检测以短时能量突发为特征的响亮声音的发生的音频处理(Audio Processing for Detecting Occurrences of Loud SoundCharacterized by Short-Time Energy Bursts)”的第62/746,454号美国临时申请(代理人案号THU016-PROV)的优先权，所述美国临时申请以全文引用的方式并入本文中。

本申请要求2019年5月23日提交的题为“用于在体育事件电视节目中检测人群噪声的发生的音频处理(Audio Processing for Detecting Occurrences of Crowd Noisein Sporting Event Television Programming)”的第16,421,391号美国实用申请(代理人案号THU007)的优先权，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2012年8月31日提交的并于2015年6月16日作为第9,060,210号美国专利颁发的题为“生成现场表演的兴奋水平(Generating Excitement Levels for LivePerformances)”的第13/601,915号美国实用申请，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2012年8月31日提交并于2014年9月23日作为第8,842,007号美国专利颁发的题为“生成现场表演的提醒(Generating Alerts for Live Performances)”的第13/601,927号美国实用申请，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2012年8月31日提交的并于2013年11月26日作为第8,595,763号美国专利颁发的题为“生成用于现场表演的前导广告(Generating Teasers for LivePerformances)”的第13/601,933号美国实用申请，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2014年10月9日提交的题为“生成描绘事件的定制精彩片段序列(Generating a Customized Highlight Sequence Depicting an Event)”的第14/510,481号美国实用申请(代理人案号THU001)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2015年5月12日提交的题为“生成描绘多个事件的定制精彩片段序列(Generating a Customized Highlight Sequence Depicting Multiple Events)”的第14/710,438号美国实用申请(代理人案号THU002)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2015年10月7日提交的题为“具有叙述成分的精彩片段展现的定制生成(Customized Generation of Highlight Show with Narrative Component)”的第14/877,691号美国实用申请(代理人案号THU004)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2016年9月14日提交的题为“用于与定制精彩片段展现交互的用户界面(User Interface for Interaction with Customized Highlight Shows)”的第15/264,928号美国实用申请(代理人案号THU005)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2019年5月14日提交的题为“用于实现体育运动精彩片段生成的视频处理(Video Processing for Enabling Sports Highlights Generation)”的第16/411,704号美国实用申请(代理人案号THU009)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2019年5月14日提交的题为“用于识别和解释嵌入式信息卡内容的机器学习(Machine Learning for Recognizing and Interpreting Embedded InformationCard Content)”的第16/411,710号美国实用申请(代理人案号THU010)，所述美国实用申请以全文引用的方式并入本文中。

本申请涉及2019年5月14日提交的题为“用于嵌入式信息卡本地化和内容提取的视频处理(Video Processing for Embedded Information Card Localization andContent Extraction)”的第16/411,713号美国实用申请(代理人案号THU012)，所述美国实用申请以全文引用的方式并入本文中。

技术领域

本文档涉及用于在递送多媒体内容的电视装置或视频服务器上标识多媒体内容和相关联的信息，并使嵌入式软件应用程序能够利用多媒体内容来提供与所述多媒体内容同步的内容和服务的技术。各种实施例涉及用于提供自动化音频分析以从描绘体育事件的电视节目内容标识和提取信息，以便创建与用于比赛中和比赛后观看的视频精彩片段相关联的元数据的方法和***。

背景技术

长期以来，已经设想例如交互式广告的增强型电视应用程序以及具有比赛前、比赛中和比赛后交互式应用程序的增强型节目指南。正在要求原先为广播电视而设计的现有电缆***支持许多新应用程序和服务，包括交互式电视服务和增强型(交互式)节目指南。

用于实现增强型电视应用程序的一些框架已经标准化。示例包括OpenCable^TM增强型电视应用程序消息传递规范以及Tru2way规范，它们是指通过有线视频网络递送的交互式数字电缆服务，并包括例如交互式节目指南、交互式广告、比赛等的特征。另外，有线电视运营商“OCAP”程序提供了例如电子商务购物、在线银行、电子节目指南和数字视频录制的交互式服务。这些努力已实现了第一代视频同步应用程序，与编程者/广播公司递送的视频内容同步，并为电视节目提供了额外的数据和交互性。

视频/音频内容分析技术和功能强大的移动装置的最新发展为开发与实况电视节目事件同步地运行的复杂应用程序开辟了一系列新的可能性。在音频信号处理和计算机视觉方面的这些新技术和进步，以及现代处理器计算能力的提高，使得能够实时生成伴有当前在电视和其它媒体环境中缺乏的元数据的复杂的节目内容精彩片段。

发明内容

呈现了一种***和方法以实现音频数据的自动实时处理，例如从体育事件电视节目内容提取的音频流，以用于检测、选择和跟踪明显的人群噪声(例如观众欢呼)。

在至少一个实施例中，构建音频数据的频谱图，并且在滑动二维时频区域窗口的每个位置处标识频谱幅度峰值的任何明显集合。针对分析窗口的每个位置生成频谱指示符，并且形成具有相关联的时间位置的频谱指示符向量。在后续处理步骤中，将具有窄时间间隔的选定指示符-位置对的游程标识为潜在的感兴趣的事件。对于每个游程，对内部指示符值进行排序，以便获得具有相关联的时间位置的最大幅度指示符值。另外，针对每个游程提取时间位置(开始/中间)和持续时间(指示符-位置对的计数)。形成初步事件向量，其含有表示每个事件的最大指示符值、开始/中间时间位置和游程持续时间的参数三元组(M,P,D)。随后处理此初步事件向量以生成对应于期望的事件间隔、事件响度和事件持续时间的最终人群噪声事件向量。

在至少一个实施例中，一旦已经提取了人群噪声事件信息，就将其自动地附加到与体育事件视频精彩片段相关联的体育事件元数据，并且随后可以与精彩片段的自动生成结合而使用。

在至少一个实施例中，一种用于从事件的视听流提取元数据的方法可以包括：在数据存储区处存储从视听流提取的音频数据；使用处理器来自动地标识音频数据的指示事件发生时的人群兴奋的一个或多个部分；以及在数据存储区中存储元数据，元数据至少包括指示每个部分发生的在视听流内的时间的时间索引。替代地，音频数据可以从音频流或从先前存储的视听内容或音频内容被提取。

视听流可以是事件的广播。事件可以是体育事件或任何其它类型的事件。元数据可以与被认为是一个或多个用户特别感兴趣的精彩片段有关。

所述方法可以进一步包括在一个或多个用户中的一个观看精彩片段期间使用输出装置来呈现元数据以指示与精彩片段有关的人群兴奋水平。

所述方法可以进一步包括使用时间索引来标识精彩片段的开始和/或结束。如下文所描述，精彩片段的开始和/或结束可以基于偏移量被调整。

所述方法可以进一步包括在自动地标识一个或多个部分期间使用输出装置以将精彩片段呈现给一个或多个用户中的一个。

所述方法可以进一步包括：在自动地标识一个或多个部分之前，通过将音频数据重新采样到期望的采样速率来预处理音频数据。

所述方法可以进一步包括：在自动地标识一个或多个部分之前，通过对音频数据进行滤波以减少或去除噪声来预处理音频数据。

所述方法可以进一步包括：在自动地标识一个或多个部分之前，预处理音频数据以针对音频数据的至少一部分生成频谱图(二维时频表示)。

自动地标识一个或多个部分可以包括标识频谱图的滑动二维时频分析窗口的每个位置中的频谱幅度峰值。

自动地标识一个或多个部分可以进一步包括：针对分析窗口的每个位置生成频谱指示符；以及使用频谱指示符来形成具有相关联的时间部分的频谱指示符向量。

所述方法可以进一步包括：标识频谱指示符和分析窗口位置的选定对的游程；在一组R向量中捕获所标识的游程；以及使用一组R向量来获得一个或多个最大幅度指示符。

所述方法可以进一步包括从每个R向量提取时间索引。

所述方法可以进一步包括通过用表示最大幅度指示符、时间索引和一个游程的游程长度的参数三元组替换每个R向量来生成初步事件向量。

所述方法可以进一步包括处理初步事件向量以生成包括时间索引的人群噪声事件信息。

本文中描述了其它细节和变化。

附图说明

附图与具体实施方式一起说明了若干实施例。所属领域的技术人员将认识到，附图中所说明的特定实施例仅仅是示例性的，且并不希望限制范围。

图1A是描绘根据客户端/服务器实施例的硬件架构的框图，其中事件内容是经由网络连接的内容提供商提供的。

图1B是描绘根据另一客户端/服务器实施例的硬件架构的框图，其中事件内容存储在基于客户端的存储装置处。

图1C是描绘根据独立实施例的硬件架构的框图。

图1D是描绘根据一个实施例的***架构的概观的框图。

图2是描绘根据一个实施例的可以并入图1A、图1B和图1C的音频数据、用户数据和精彩片段数据中的数据结构的示例的示意性框图。

图3A描绘根据一个实施例的音频波形图的示例，其展示了在时域中从体育事件电视节目内容提取的音频流中人群噪声事件(例如人群欢呼)的发生。

图3B描绘根据一个实施例的在时频域中对应于图3A的音频波形图的频谱图的示例。

图4是描绘根据一个实施例的对音频数据执行即时处理以提取元数据的方法的流程图。

图5是描绘根据一个实施例的用于分析时频域中的音频数据以检测与长时间人群欢呼有关的频谱幅度峰值的聚类的方法。

图6是描绘根据一个实施例的用于生成人群噪声事件向量的方法的流程图。

图7是描绘根据一个实施例的用于每个R向量的内部处理的方法的流程图。

图8是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法的流程图。

图9是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法的流程图。

图10是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法的流程图。

具体实施方式

定义

以下定义是仅出于阐释性目的而呈现，且并不希望限制范围。

·事件：出于本文中的论述的目的，术语“事件”是指游戏、会话、比赛、系列节目、表演、节目、音乐会等，或其部分(例如动作、时段、四分之一、二分之一、一局、场景、章节等)。事件可以是体育事件、娱乐事件、事件中的参与者的较大群体内的单个个体或个体子集的特定表演等。非体育事件的示例包括电视节目、突发新闻、社会政治事件、自然灾害、电影、演出、广播节目、播客、有声读物、在线内容、音乐表演等。事件可以具有任何长度。出于说明性目的，本文中常常在体育事件的方面描述技术；然而，所属领域的技术人员将认识到，也可以在其它背景下使用所述技术，所述背景包括用于任何视听、视觉、基于图形的、交互式、非交互式或基于文本的内容的精彩片段展现。因此，描述内容中的术语“体育事件”和任何其它体育特定术语的使用旨在说明一个可能的实施例，但并不希望将所描述技术的范围限制于所述一个实施例。更确切地，此类术语应被视为在适于技术时扩展到任何合适非体育背景。为易于描述，术语“事件”也用于是指事件的报道或表示，例如事件的视听记录，或包括事件的报道、描述或描绘的任何其它内容项目。

·精彩片段：事件的摘录或部分，或被认为是一个或多个用户特别感兴趣的与事件相关联的内容的摘录或部分。精彩片段可以具有任何长度。一般来说，本文中所描述的技术提供了用于针对任何合适事件标识和呈现一组定制精彩片段(其可以基于用户的特定特性和/或偏好被选择)的机制。“精彩片段”还可以用于是指精彩片段的报道或表示，例如精彩片段的视听记录，或包括精彩片段的报道、描述或描绘的任何其它内容项目。精彩片段无需限于事件自身的描绘，而是可以包括与事件相关联的其它内容。举例来说，对于体育事件，精彩片段可以包括比赛中音频/视频，以及例如比赛前、比赛中和比赛后采访、分析、解说等的其它内容。此类内容可以从线性电视被记录(例如作为描绘事件自身的视听流的部分)，或从任何数量的其它来源被检索。可以提供不同类型的精彩片段，包括例如发生的事(比赛中的表现)、字符串、控制权和序列，其全部定义于下文中。精彩片段无需具有固定持续时间，而是可以并入有开始偏移量和/或结束偏移量，如下文所描述。

·剪辑：事件的音频、视觉或视听表示的一部分。剪辑可以对应于或表示精彩片段。在本文中的许多背景下，术语“片段”可与“剪辑”互换地使用。剪辑可以是音频流、视频流或视听流的一部分，或它可以是所存储的音频、视频或视听内容的一部分。

·内容轮廓标：指示精彩片段的开始或结束的一个或多个视频帧。

·发生的事：事件期间发生的某事。示例包括：进球、比赛中的表现、进攻机会、命中、救球、射门、进篮、抢断、捕捉或尝试捕捉、侥幸逃脱、对抗、比赛的开始或结束、四分之一、二分之一、时段、或一局、投球、罚分、受伤、娱乐事件中的戏剧性事情、歌曲、独奏等。发生的事也可以是异常的，例如电力中断、球迷不守规矩的意外事件等。可以将此类发生的事的检测用作确定是否将视听流的特定部分指定为精彩片段的基础。为易于命名，在本文中也将发生的事称作“比赛中的表现”，但此类用法不应被认作限制范围。发生的事可以具有任何长度，并且发生的事的表示可以具有变化的长度。举例来说，如上文所提及，发生的事的延长表示可以包括描绘恰在发生的事之前和恰在发生的事之后的时间段的连续镜头，而短暂表示可以仅包括发生的事自身。也可以提供任何中间表示。在至少一个实施例中，发生的事的表示的持续时间的选择可以取决于用户偏好、可用时间、所确定的发生的事的兴奋水平、发生的事的重要性和/或任何其它因素。

·偏移量：精彩片段长度被调整的量。在至少一个实施例中，可以提供开始偏移量和/或结束偏移量，以用于分别调整精彩片段的开始时间和/或结束时间。举例来说，如果精彩片段描绘进球，则可以将精彩片段延长(经由结束偏移量)几秒以便包括在进球之后的庆祝和/或球迷反应。偏移量可以被配置成例如基于可用于精彩片段的时间量、精彩片段的重要性和/或兴奋水平和/或任何其它合适因素而自动地或手动地变化。

·字符串：在某种程度上彼此联系或相关的一系列发生的事。发生的事可以发生于一个控制权(下文所定义)内，或可以跨越多个控制权。发生的事可以发生于一个序列(下文所定义)内，或可以跨越多个序列。发生的事可以由于彼此的某种主题性或叙述性连接或者因为一者导致另一者、或者出于任何其它原因而联系或相关。字符串的一个示例是导致进球或进篮的一组传球。这不应与“文本字符串”混淆，“文本字符串”具有计算机编程领域中通常赋予的含义。

·控制权：事件的任何时间分隔部分。控制权的开始时间/结束时间的分界可以取决于事件类型。对于一个团队可以处于进攻而另一团队处于防守(例如篮球或足球)的某些体育事件，控制权可以被定义为一个团队有球的时间段。在例如曲棍球或英式足球的体育运动中，其中球块或球控制权更为易变，控制权可以视为扩展到一个团队具有对球块或球的实质控制而忽略另一团队的瞬时接触(例如被阻挡的射门或救球)的时间段。对于棒球，控制权被定义为半局。对于足球，控制权可以包括同一团队有球的数个序列。对于其它类型的体育事件以及非体育事件，术语“控制权”可能稍微用词不当，但在本文中仍用于说明性目的。非体育背景下的示例可以包括章节、场景、动作等。举例来说，在音乐演唱会的背景下，控制权可能等同于演奏单首歌曲。控制权可以包括任何数量的发生的事。

·序列：事件的包括动作的一个连续时间段的时间分隔部分。举例来说，在体育事件中，序列可以在动作开始(例如开球、跳球等)时开始，且可以在哨子吹响以表示动作中止时结束。在例如棒球或足球的体育运动中，序列可以等效于为发生的事的形式的比赛中的表现。序列可以包括任何数量的控制权，或可以是控制权的一部分。

·精彩片段展现：被布置成呈现给用户的一组精彩片段。精彩片段展现可以被线性地呈现(例如视听流)，或以允许用户选择观看哪一精彩片段以及观看次序(例如通过在链接或缩略图上点击)的方式被呈现。精彩片段展现的呈现可以是非交互式或交互式，例如允许用户暂停、快退、跳过、快进、传达偏好或厌恶等。精彩片段展现可以例如为浓缩的比赛。精彩片段展现可以包括来自单个事件或多个事件的任何数量的邻接或非邻接精彩片段，且可以甚至包括来自不同类型的事件的精彩片段(例如不同体育运动，和/或来自体育和非体育事件的精彩片段的组合)。

·用户/观看者：术语“用户”或“观看者”可互换地是指观看、收听或以其它方式经历事件、事件的一个或多个精彩片段或精彩片段展现的个体、群组或其他实体。术语“用户”或“观看者”还可以是指可以在某个未来时间观看、收听或以其它方式经历事件、事件的一个或多个精彩片段或精彩片段展现的个体、群组或其他实体。术语“观看者”可以用于描述性目的，但事件无需具有视频分量，使得“观看者”可以代替地是内容的收听者或任何其它消费者。

·兴奋水平：事件或精彩片段被预期为对于特定用户或一般来说为用户的兴奋或感兴趣程度的度量。也可以相对于特定发生的事或运动员确定兴奋水平。上文所引用的相关申请中论述了用于测量或评估兴奋水平的各种技术。如所论述，兴奋水平可以取决于事件内的发生的事，以及例如事件的总体背景或重要性的其它因素(季后赛、角旗暗示、争夺等)。在至少一个实施例中，兴奋水平可以与事件内的每个发生的事、字符串、控制权或序列相关联。举例来说，可以基于发生于控制权内的发生的事而确定所述控制权的兴奋水平。对于不同用户(例如一个团队的球迷对中立的球迷)可以不同地测得兴奋水平，并且其可以取决于每个用户的个人特性。

·元数据：与其它数据有关并与其它数据相关联地存储的数据。主要数据可以是例如体育节目或精彩片段的媒体。

·视频数据。视频的长度，其可以呈数字形式或模拟形式。视频数据可以存储在本地存储装置上，或可以从例如电视广播天线、有线电视网络或计算机服务器的来源被实时接收，在此情况下，视频数据也可以被称为“视频流”。视频数据可能或可能不包括音频分量；如果其包括音频分量，则其可以被称为“视听数据”或“视听流”。

·音频数据。音频的长度，其可以呈数字形式或模拟形式。音频数据可以是视听数据或视听流的音频分量，且可以通过从视听数据提取音频数据被隔离。音频数据可以存储在本地存储装置中，或可以从例如电视广播天线、有线电视网络或计算机服务器的来源被实时接收，在此情况下，音频数据也可以被称作“音频流”。

·流。音频流、视频流或视听流。

·时间索引。事件发生的或以其它方式与例如精彩片段的指定片段有关的在音频数据、视频数据或视听数据内的时间的指示符。

·频谱图。例如音频流的信号的频率频谱随时间变化的视觉表示。

·分析窗口。视频数据、音频数据、视听数据、频谱图、流或者流或数据的以其它方式处理的版本的指定子集，在所述指定子集处将聚焦一个分析步骤。可以例如在使用覆盖数据或频谱图的不同片段的移动分析窗口和/或一系列分析窗口的片段中分析音频数据、视频数据、视听数据或频谱图。

概观

根据各种实施例，提供了用于自动地创建与体育事件等的电视节目的精彩片段相关联的基于时间的元数据的方法和***，其中此类视频精彩片段和相关联的元数据是与体育事件等的电视广播同步地生成的，或是在体育事件视频内容在体育事件的电视广播之后经由视频服务器从存储装置被流式传输的同时生成的。

在至少一个实施例中，自动化视频精彩片段和相关联的元数据生成应用程序可以接收实况广播视听流或经由计算机服务器接收的数字视听流。所述应用程序可以接着例如使用数字信号处理技术来处理音频数据，例如从视听流提取的音频流，以检测例如人群欢呼的人群噪声。

在替代实施例中，本文中所描述的技术可以应用于其它类型的来源内容。举例来说，不需要从视听流提取音频数据；更确切地，其可以是体育事件或其它事件的无线电广播或其它音频描绘。替代地，本文中所描述的技术可以应用于描绘事件的所存储的音频数据；此类数据可能或可能不从所存储的视听数据被提取。

交互式电视应用程序使能够在主电视显示器上或在例如平板电脑、笔记本电脑或智能手机的辅助显示器上向观看电视节目的用户及时地、相关地呈现有精彩片段的电视节目内容。在至少一个实施例中，表示电视广播内容精彩片段的一组剪辑连同含有基于时间的元数据的数据库一起被实时生成和/或存储，所述基于时间的元数据更详细地描述了由精彩片段剪辑呈现的事件。如本文中更详细地所描述，可以至少部分地基于对所提取的音频数据的分析来确定此类剪辑的开始时间和/或结束时间。

在各种实施例中，伴随剪辑的元数据可以是任何信息，例如文本信息、图像和/或任何类型的视听数据。与比赛中和比赛后视频内容相关联的一种类型的元数据突出显示了通过实时处理从体育事件电视节目提取的音频数据而检测的当前事件。在各种实施例中，本文中所描述的***和方法实现了自动元数据生成和视频精彩片段处理，其中可以通过分析例如音频流的数字音频数据来检测和确定精彩片段的开始时间和/或结束时间。举例来说，可以通过分析此类音频数据来提取事件信息以在某些令人兴奋的事件、音频公告、音乐等之后检测欢呼人群噪声，并且此类信息可以用于确定精彩片段的开始时间和/或结束时间。

在至少一个实施例中，对例如从体育事件电视节目内容提取的音频流的音频数据执行实时处理，以便检测、选择和跟踪明显的人群噪声(例如观众欢呼)。

在至少一个实施例中，所述***和方法接收压缩的音频数据，并将压缩的音频数据读取、解码和重新采样到期望的采样速率。可以执行预滤波以减少噪声、去除咔嗒声并选择感兴趣的频带；可以使用数个可互换的数字滤波级中的任一个。

可以针对音频数据构建频谱图；可以在滑动二维时频区域窗口的每个位置处标识频谱幅度峰值的明显集合。

可以针对每个分析窗口位置生成频谱指示符，并且可以形成具有相关联的时间位置的频谱指示符向量。

可以标识具有窄时间间隔的选定指示符-位置对的游程并将其捕获到一组向量R€{R0,R1,…,Rn}中。可以形成向量E＝{R0,R1,…,Rn}，其中一组R作为其元素。由于每个R含有可变计数的不等大小的指示符，故可以在内部按指示符值对所述指示符进行排序，以获得最大幅度指示符。

可以从每个R向量提取时间位置(开始/中间)和游程长度(持续时间)(指示符-位置对的计数)。

可以形成初步事件向量，其用参数三元组(M,P,D)替换每个R向量，所述参数三元组分别表示最大指示符值、开始/中间时间位置和游程长度(持续时间)。

可以根据期望的事件间隔、事件响度和事件持续时间来处理初步事件向量以生成最终人群噪声事件向量。

可以将所提取的人群噪声事件信息自动地附加到与体育事件视频精彩片段相关联的体育事件元数据。

在另一实施例中，一种***和方法对从体育事件电视节目提取的音频流进行实时处理，以检测、选择和跟踪明显的人群噪声。所述***和方法可以包括：捕获电视节目内容；提取和处理例如数字音频流的数字音频数据以检测明显的人群噪声事件；生成时频音频频谱图；对音频数据执行联合时频分析以检测高频谱活动区域；针对重叠频谱图区域生成频谱指示符；形成选定指示符-位置对的向量；标识具有窄时间间隔的选定指示符-位置对的游程；形成具有所标识的游程的一组向量；形成至少一个初步事件向量，其具有从选定指示符-位置对的每个游程导出的参数三元组(M,P,D)；以及修改至少一个初步事件向量以生成具有期望的事件间隔、事件响度和事件持续时间的至少一个最终人群噪声事件向量。

可以对已解码的音频数据执行初始预处理以实现以下各项中的至少一项：减少噪声、去除咔嗒声和其它杂散声音，以及通过选择可互换的数字滤波级来选择感兴趣的频带。

可以构建频谱图以在频谱域中分析音频数据。在至少一个实施例中，选择分析窗口的大小，以及分析窗口重叠区的大小。在至少一个实施例中，使分析窗口沿着频谱图滑动；在每个分析窗口位置处，计算分析窗口的归一化平均幅度。在至少一个实施例中，在每个分析窗口位置处将平均幅度确定为频谱指示符。在至少一个实施例中，用计算出的分析窗口指示符和相关联的位置的对填充初始事件向量。在至少一个实施例中，对初始事件向量指示符进行阈值处理以仅保留指示符高于阈值的指示符-位置对。

每个游程可以含有可变计数的不等大小的指示符。在至少一个实施例中，对于每个游程，在内部按指示符值对指示符进行排序以获得最大幅度指示符。

对于每个游程，可以提取开始/中间时间位置和游程持续时间。

可以用参数三元组(M,P,D)形成初步事件向量。在至少一个实施例中，三元组(M,P,D)分别表示最大指示符值、开始/中间时间位置和游程持续时间。

可以根据期望的事件间隔、事件响度和事件持续时间来修改初步事件向量以生成最终人群噪声事件向量。在各种实施例中，通过可接受的事件距离选择、可接受的事件持续时间选择和/或可接受的事件响度选择来修改初步事件向量。

人群噪声事件信息可以被进一步处理并自动地附加到与体育事件电视节目精彩片段相关联的元数据。

***架构

根据各种实施例，***可以实施于任何电子装置或一组电子装置上，所述电子装置经装备以接收、存储和呈现信息。此类电子装置可以是例如台式计算机、膝上型计算机、电视、智能手机、平板电脑、音乐播放器、音频装置、公用信息机(kiosk)、机顶盒(set-topbox；STB)、游戏***、可穿戴式装置、消费者电子装置等。

虽然本文中结合特定类型的计算装置中的实施方案描述了***，但所属领域的技术人员将认识到，本文中所描述的技术可以在其它背景下实施，且实际上在能够接收和/或处理用户输入并将输出呈现给用户的任何合适装置中实施。因此，以下描述旨在借助于示例说明各种实施例，而不是限制范围。

现在参看图1A，展示了描绘根据客户端/服务器实施例的用于基于事件的音频数据自动地提取元数据的***100的硬件架构的框图。可以经由网络连接的内容提供商124提供事件内容，例如包括音频内容的视听流。此类客户端/服务器实施例的示例是基于网络的实施方案，其中一个或多个客户端装置106中的每一个运行浏览器或应用程序，所述浏览器或应用程序提供用于经由通信网络104与来自包括数据提供商服务器122和/或内容提供商服务器124的各种服务器102、114、116的内容交互的用户界面。响应于来自客户端装置106的请求而传输内容和/或数据可以使用任何已知协议和语言进行，例如超文本标记语言(Hypertext Markup Language；HTML)、Java、Objective C、Python、JavaScript等。

客户端装置106可以是任何电子装置，例如台式计算机、膝上型计算机、电视、智能手机、平板电脑、音乐播放器、音频装置、公用信息机、机顶盒、游戏***、可穿戴式装置、消费者电子装置等。在至少一个实施例中，客户端装置106具有所属领域的技术人员众所周知的数个硬件组件。输入装置151可以是从用户150接收输入的任何组件，包括例如手持式遥控器、键盘、鼠标、触笔、触敏屏(触摸屏)、触摸垫、姿势感受器、轨迹球、加速度计、五路开关、麦克风等。可以经由任何合适模式提供输入，所述模式包括例如以下中的一种或多种：指向、轻触、打字、拖动、做姿势、倾斜、摇动和/或语音。显示屏幕152可以是以图形方式显示信息、视频、内容等的任何组件，包括事件、精彩片段等的描绘。此类输出还可以包括例如视听内容、数据可视化、导览元素、图形元素、请求用于内容选择的信息和/或参数的查询等。在每次仅呈现期望输出中的一些的至少一个实施例中，例如滚动机制的动态控制可以经由输入装置151而可用于选择当前显示哪些信息，和/或更改信息被显示的方式。

处理器157可以是用于根据众所周知的技术在软件的指导下对数据执行操作的常规微处理器。存储器156可以是具有所属领域中已知的结构和架构的随机存取存储器，其供处理器157在运行软件以执行本文中所描绘的操作的过程中使用。客户端装置106还可以包括本地存储装置(未展示)，其可以是硬盘驱动器、快闪驱动器、光学或磁性存储装置、基于网络(基于云)的存储装置等。

任何合适类型的通信网络104，例如因特网、电视网络、有线电视网络、蜂窝网络等，可以用作用于根据任何合适协议和技术在客户端装置106和各种服务器102、114、116和/或内容提供商124和/或数据提供商122之间传输数据的机制。除了因特网之外，其它示例还包括蜂窝电话网络、EDGE、3G、4G、长期演进(long term evolution；LTE)、会话起始协议(Session Initiation Protocol；SIP)、短消息点对点协议(Short Message Peer-to-Peer protocol；SMPP)、SS7、Wi-Fi、蓝牙、ZigBee、超文本传输协议(Hypertext TransferProtocol；HTTP)、安全超文本传输协议(Secure Hypertext Transfer Protocol；SHTTP)、传输控制协议/因特网协议(Transmission Control Protocol/Internet Protocol；TCP/IP)等，和/或其任何组合。在至少一个实施例中，客户端装置106经由通信网络104传输对数据和/或内容的请求，并从服务器102、114、116接收含有所请求的数据和/或内容的响应。

在至少一个实施例中，图1A的***结合体育事件而操作；然而，本文中的教示还适用于非体育事件，并且应了解，本文中所描述的技术不限于对体育事件的应用。举例来说，本文中所描述的技术可以用于结合电视节目、电影、新闻事件、游戏节目、政治性动作、商业节目、戏剧和/或其它片断式内容而操作，或可以用于多于一个此类事件。

在至少一个实施例中，***100通过分析表示广播事件的音频内容来标识所述事件的精彩片段。此分析可以实时进行。在至少一个实施例中，***100包括经由通信网络104耦合到一个或多个客户端装置106的一个或多个网络服务器102。通信网络104可以是公共网络、专用网络，或公共网络和专用网络的组合，例如因特网。通信网络104可以是LAN、WAN、有线、无线和/或以上的组合。在至少一个实施例中，客户端装置106能够经由有线或无线连接而连接到通信网络104。在至少一个实施例中，客户端装置还可以包括能够接收和记录事件的记录装置，例如DVR、PVR或其它媒体记录装置。此类记录装置可以是客户端装置106的部分，或可以在外部；在其它实施例中，此类记录装置可以被省略。虽然图1A展示一个客户端装置106，但***100可以用任何数量的单个类型或多个类型的客户端装置106进行实施。

网络服务器102可以包括一个或多个物理计算装置和/或软件，其可以从客户端装置106接收请求并以数据对那些请求做出响应，以及发送出未经请求的提醒和其它消息。网络服务器102可以采用针对容错性和可缩放性的各种策略，例如负载平衡、高速缓冲存储和聚类。在至少一个实施例中，网络服务器102可以包括如所属领域中已知的高速缓冲存储技术以用于存储与事件相关的客户端请求和信息。

网络服务器102可以维持或以其它方式指定一个或多个应用程序服务器114以对从客户端装置106接收的请求做出响应。在至少一个实施例中，应用程序服务器114提供对业务逻辑的访问以供客户端装置106中的客户端应用程序使用。应用程序服务器114可以与网络服务器102共同定位、共同拥有或共同管理。应用程序服务器114也可以远离网络服务器102。在至少一个实施例中，应用程序服务器114与一个或多个分析服务器116和一个或多个数据服务器118交互以执行所公开技术的一个或多个操作。

一个或多个存储装置153可以通过存储与***100的操作有关的数据来充当“数据存储区”。此数据可以包括例如但不限于表示一个或多个音频信号的音频数据154。音频数据154可以例如从表示体育事件和/或其它事件的视听流或所存储的视听内容被提取。

音频数据154可以包括与嵌入在视听流中的音频相关的任何信息，例如伴随视频图像的音频流、视听流的已处理版本，以及与音频数据154相关的度量和/或向量，例如事件的时间索引、持续时间、幅度和/或其它参数。用户数据155可以包括描述一个或多个用户150的任何信息，包括例如人口统计数据、购买行为、视听流观看行为、兴趣、偏好等。精彩片段数据164可以包括精彩片段、精彩片段标识符、时间指示符、类别、兴奋水平，以及与精彩片段有关的其它数据。随后将详细地描述音频数据154、用户数据155和精彩片段数据164。

值得注意的是，***100的许多组件可以是或可以包括计算装置。此类计算装置可以各自具有与客户端装置106的架构类似的架构，如上文所展示和描述。因此，通信网络104、网络服务器102、应用程序服务器114、分析服务器116、数据供应商122、内容供应商124、数据服务器118和存储装置153中的任一个可以包括一个或多个计算装置，所述计算装置中的每一个可以任选地具有输入装置151、显示屏幕152、存储器156和/或处理器157，如上文结合客户端装置106所描述。

在***100的示例性操作中，客户端装置106的一个或多个用户150观看呈视听流的形式的来自内容提供商124的内容。视听流可以展示例如体育事件的事件。视听流可以是可以容易地用已知计算机视觉技术处理的数字视听流。

随着显示视听流，***100的一个或多个组件，例如客户端装置106、网络服务器102、应用程序服务器114和/或分析服务器116，可以分析视听流，标识视听流内的精彩片段，及/或从视听流，例如从所述流的音频分量提取元数据。可以响应于接收到对标识视听流的精彩片段和/或元数据的请求而进行此分析。替代地，在另一实施例中，可以在用户150没有做出特定请求的情况下标识精彩片段和/或元数据。在又一实施例中，可以在不显示视听流的情况下进行视听流的分析。

在至少一个实施例中，用户150可以经由客户端装置106处的输入装置151指定用于分析音频数据154的某些参数(例如要包括什么事件/比赛/团队、用户150有多少时间可用于观看精彩片段、需要什么元数据，及/或任何其它参数)。还可以从存储装置，例如从存储在一个或多个存储装置153中的用户数据155提取用户偏好，以便定制对音频数据154的分析，而未必要求用户150指定偏好。在至少一个实施例中，可以基于观测到的用户150的行为和动作来确定用户偏好，例如通过观测网站访问模式、电视观看模式、音乐收听模式、在线购买、先前精彩片段标识参数、由用户150实际上观看的精彩片段和/或元数据等。

另外或替代地，可以从由用户150明确地提供的先前存储的偏好检索用户偏好。此类用户偏好可以指示用户150感兴趣的是哪些团队、体育运动、运动员和/或事件类型，及/或它们可以指示用户150感兴趣的将是哪种类型的元数据或与精彩片段相关的其它信息。因此，此类偏好可以用于导引对视听流的分析以标识精彩片段和/或提取精彩片段的元数据。

可以包括如上文所描述的一个或多个计算装置的分析服务器116可以分析与来自数据提供商122的一个或多个事件相关的体育比赛现场解说统计数据的实况和/或所录制的馈送。数据提供商122的示例可以包括但不限于例如STATSTM、Perform(购自英国伦敦的Opta Sports)以及瑞士圣加仑州的SportRadar的实时体育运动信息的提供商。在至少一个实施例中，分析服务器116针对事件生成不同组兴奋水平；此类兴奋水平可以接着根据本文中所描述的技术而结合由***100标识或接收的精彩片段被存储。

应用程序服务器114可以分析视听流以标识精彩片段和/或提取元数据。另外或替代地，此类分析可以由客户端装置106执行。所标识的精彩片段和/或提取的元数据可以特定于用户150；在此情况下，在客户端装置106中标识与特定用户150有关的精彩片段可能是有利的。如上文所描述，客户端装置106可以接收、保留和/或检索适用的用户偏好以用于精彩片段标识和/或元数据提取。另外或替代地，精彩片段生成和/或元数据提取可以在全局范围内执行(即，使用适用于一般用户群体的客观标准，而不考虑特定用户150的偏好)。在此情况下，在应用程序服务器114中标识精彩片段和/或提取元数据可能是有利的。

有助于精彩片段标识、音频分析和/或元数据提取的内容可以来自任何合适来源，包括来自内容提供商124，所述内容提供商可以包括例如YouTube、MLB.com等网站；体育运动数据提供商；电视台；基于客户端或服务器的DVR；及/或类似者。替代地，内容可以来自例如DVR的本地来源或与客户端装置106相关联(或内置于客户端装置中)的其它记录装置。在至少一个实施例中，应用程序服务器114生成定制的具有精彩片段和元数据的精彩片段展示，用户150可以下载、流式传输内容，或点播内容或以某一其它方式来使用所述精彩片段展示。

如上文所提及，在与特定用户150相关联的特定客户端装置106处执行特定于用户的精彩片段标识、音频分析和/或元数据提取可能是有利的。此实施例可以避免对不必要地经由通信网络104传输视频内容或其它高带宽内容的需求，特别是如果此类内容在客户端装置106处已经可用的情况下。

例如，现在参看图1B，展示了根据实施例的***160的示例，其中音频数据154和精彩片段数据164中的至少一些存储在基于客户端的存储装置158处，所述基于客户端的存储装置可以是客户端装置106可用的任何形式的本地存储装置。示例可以是记录事件的DVR，例如用于完整体育事件的视频内容。替代地，基于客户端的存储装置158可以是用于数字形式的数据的任何磁性、光学或电子存储装置；示例包括快闪存储器、磁性硬盘驱动器、CD-ROM、DVD-ROM或与客户端装置106整合的其它装置或以通信方式与客户端装置106耦合的其它装置。基于由应用程序服务器114提供的信息，客户端装置106可以从存储在基于客户端的存储装置158处的音频数据154提取元数据，并将所述元数据存储为精彩片段数据164，而不必从内容提供商124或其它远程来源检索其它内容。此布置可节省带宽，且可有效地利用可能已经可用于客户端装置106的现有硬件。

返回到图1A，在至少一个实施例中，应用程序服务器114可以根据个别用户偏好和/或其它参数来标识不同的精彩片段和/或提取不同用户150的不同元数据。可以经由例如客户端装置106处的显示屏幕152的任何合适输出装置将所标识的精彩片段和/或提取的元数据呈现给用户150。视需要，可以标识多个精彩片段，并将其与相关联的元数据一起编译为精彩片段展示。可以经由菜单来访问此类精彩片段展示，及/或将其拼接成“精彩片段集锦”或一组精彩片段，所述“精彩片段集锦”或一组精彩片段根据预定序列为用户150播放。在至少一个实施例中，用户150可以经由输入装置151控制相关联的元数据的精彩片段回放和/或递送，例如以：

·选择要显示的特定精彩片段和/或元数据；

·暂停、快退、快进；

·向前跳到下一精彩片段；

·返回到精彩片段展现内的前一精彩片段的开始；及/或

·执行其它动作。

在上文所引用的相关美国专利申请中提供了关于此类功能性的额外细节。

在至少一个实施例中，提供了一个或多个数据服务器118。数据服务器118可以响应来自服务器102、114、116中的任一个的对数据的请求，例如以获得或提供音频数据154、用户数据155和/或精彩片段数据164。在至少一个实施例中，此类信息可以存储在可以由数据服务器118访问的任何合适存储装置153处，并且可以来自任何合适来源，例如来自客户端装置106自身、内容提供商124、数据提供商122等。

现在参看图1C，展示了根据替代实施例的***180，其中在单独环境中实施***180。与图1B所示的实施例一样，音频数据154、用户数据155和精彩片段数据164中的至少一些可以存储在例如DVR等的基于客户端的存储装置158处。替代地，基于客户端的存储装置158可以是快闪存储器或硬盘驱动器，或与客户端装置106整合的其它装置或与以通信方式与客户端装置106耦合的其它装置。

用户数据155可以包括用户150的偏好和兴趣。基于此用户数据155，***180可以提取音频数据154内的元数据以便以本文中所描述的方式呈现给用户150。另外或替代地，可以基于不基于特定于用户150的信息的客观标准来提取元数据。

现在参看图1D，展示了根据替代实施例的具有架构的***190的概观。在图1D中，***190包括广播服务，例如内容提供商124；呈客户端装置106形式的内容接收器，例如具有STB的电视；能够摄取和流式传输电视节目内容的视频服务器，例如分析服务器116；及/或能够接收和处理电视节目内容的其它客户端装置106，例如移动装置和笔记本电脑，全部经由例如通信网络104等网络进行连接。例如DVR的基于客户端的存储装置158可以连接到客户端装置106和/或其它组件中的任一个，并且可以存储视听流、精彩片段、精彩片段标识符和/或元数据，以有助于经由客户端装置106中的任一个标识和呈现精彩片段和/或所提取的元数据。

图1A、图1B、图1C和图1D中描绘的特定硬件架构仅是示例性的。所属领域的技术人员将认识到可以使用其它架构实施本文中所描述的技术。其中描绘的许多组件是任选的且可以省略、与其它组件合并和/或用其它组件替换。

在至少一个实施例中，***可以被实施为以任何合适计算机编程语言编写的软件，无论是在独立还是客户端/服务器架构中。替代地，其可以硬件实施和/或嵌入。

数据结构

图2是描绘根据一个实施例的可以并入音频数据154、用户数据155和精彩片段数据164的数据结构的示例的示意性框图。

如所展示，音频数据154可以包括多个音频流200中的每一个的记录。出于说明性目的，描绘了音频流200，但本文中所描述的技术可应用于任何类型的音频数据154或内容，无论流式传输还是存储。除了音频流200之外，音频数据154的记录还可以包括根据音频流200的分析生成的或有助于音频流200分析的其它数据。举例来说，对于每个音频流200，音频数据154可以包括频谱图202、一个或多个分析窗口204、向量206和时间索引208。

每个音频流200可以驻留在时域中。可以在时频域中为对应的音频流200计算每个频谱图202。可以分析频谱图202以更容易地定位期望频率的音频事件，例如人群噪声。

分析窗口204可以是频谱图202的预定时间和/或频率间隔的指定。计算上，可以使用单个移动(即“滑动”)分析窗口204来分析频谱图202，或者可以使用一系列位移(任选地可重叠)分析窗口204。

向量206可以是含有来自音频流200和/或对应的频谱图202的分析的临时结果和/或最终结果的数据集。

时间索引208可以指示在音频流200(和/或从提取的音频流200中的视听流)内发生关键事件的时间。举例来说，时间索引208可以是广播中人群噪声增加或减少的时间。因此，时间索引208可以指示视听流的特别感兴趣的部分的开始或结束，例如在体育事件的背景下，重要的或令人印象深刻的比赛中的表现。

如进一步所示，用户数据155可以包括与用户150有关的记录，所述记录中的每一个可以包括特定用户150的人口统计数据212、偏好214、观看历史记录216和购买历史记录218。

人口统计数据212可以包括任何类型的人口统计数据，包括但不限于年龄、性别、位置、国籍、宗教信仰、教育程度等。

偏好214可以包括用户150考虑到他或她的偏好做出的选择。偏好214可直接涉及精彩片段和元数据的收集和/或观看，或者本质上可以更普遍。在任一情况下，偏好214可以用于促进将精彩片段和元数据标识和/或呈现给用户150。

观看历史记录216可以列出由用户150所检索和/或观看的电视节目、视听流、精彩片段、网页、搜索查询、体育事件和/或其它内容。

购买历史记录218可以列出由用户150所购买或请求的产品或服务。

如进一步所示，精彩片段数据164可以包括j个精彩片段220的记录，所述记录中的每一个可以包括针对特定精彩片段220的视听流222和/或元数据224。

视听流222可以包括描绘精彩片段220的视频，所述视频可以从一个或多个事件的一个或多个视听流中获得(例如，通过剪切视听流以仅包括与精彩片段220有关的视听流222)。在元数据224内，标识符223可以包括时间索引(例如音频数据154的时间索引208)和/或从中获取精彩片段220的事件的视听流中指示所获取的精彩片段驻留于何处的其它标志。

在一些实施例中，精彩片段220中的每一个的记录可含有视听流222和标识符223中的仅一个。可以通过为用户150播放视听流222来执行精彩片段回放，或通过使用标识符223针对从中获取精彩片段220的事件仅播放视听流的有精彩片段的部分来执行精彩片段回放。标识符223的存储装置是任选的；在一些实施例中，标识符223可以仅用于提取精彩片段220的视听流222，其可以接着代替标识符223而存储。在任一情况下，可以从音频数据154提取精彩片段220的时间索引208，并且将其至少临时存储为元数据224，所述元数据被附加到精彩片段220，或者被附加到从中获取音频数据154和精彩片段220的视听流。

除了标识符223之外或替代标识符223，元数据224还可以包括关于精彩片段220的信息，例如事件日期、季节、事件中涉及的群组或个体或从中获取精彩片段220的视听流，例如团队、运动员、教练、主播、广播员和球迷等。在其它信息中，每个精彩片段220的元数据224可以包括阶段226、时钟227、得分228、帧号229、兴奋水平230和/或人群兴奋水平232。

阶段226可以是与精彩片段220有关的事件的阶段。更具体地说，阶段226可以是体育事件的阶段，其中存在精彩片段220的开始、中间和/或结束。举例来说，阶段226可以是“第三局”、“第二局”、“下半场”等。

时钟227可以是与精彩片段220有关的比赛时钟。更具体地说，时钟227可以是在精彩片段220的开始、中间和/或结束处的比赛时钟的状态。举例来说，对于精彩片段220而言，时钟227可以是“15:47”，其在比赛时钟上显示体育事件的开始、结束或横跨时段内十五分四十七秒处的场景演出比赛中的表现。

得分228可以是与精彩片段220有关的比赛得分。更具体地说，得分228可以是在精彩片段220的开始、结束和/或中间的得分。举例来说，得分228可以是“45-38”、“7-0”、“30-love”等。

帧号229可以是从中获取精彩片段220的视听流中的视频帧的编号，也可以是与精彩片段220有关的视听流222，所述视听流与精彩片段220的开始、中间和/或结束有关。

兴奋水平230可以是预测事件或精彩片段对特定用户150或一般用户的兴奋或感兴趣程度的度量。在至少一个实施例中，可如上文所引用的相关申请中所指示的来计算兴奋水平230。另外或替代地，可以至少部分地通过音频数据154的分析来确定兴奋水平230，所述音频数据可以是从视听流222和/或音频流200提取的分量。举例来说，含有较高水平的人群噪声、公告和/或节奏快的音乐的音频数据154可指示用于相关联的精彩片段220的高兴奋水平230。精彩片段220的兴奋水平230不一定是静态的，而替代地在精彩片段220的过程中变化。因此，***100可能够进一步优化精彩片段220以仅向用户展示高于阈值兴奋水平230的部分。

人群兴奋水平232可以衡量参加事件的人群看起来有多兴奋。在至少一个实施例中，可以基于音频数据154的分析而确定人群兴奋水平232。在其它实施例中，视觉分析可以用于评估人群兴奋水平，或补充音频数据分析的结果。

举例来说，如果通过针对精彩片段220的音频流200的分析检测到强烈的人群噪声，则可认为针对精彩片段220的人群兴奋水平232相对高。类似于兴奋水平230，人群兴奋水平232可以在精彩片段220的过程中变化；因此，人群兴奋水平232可以包括例如对应于精彩片段220中的特定时间的多个指示符。

图2中阐述的数据结构仅是示例性的。所述领域的技术人员将认识到，在精彩片段标识和/或元数据提取的执行中，可以省略或用其它数据替换图2的一些数据。另外或替代地，未在图2中具体展示或在本申请中描述的数据可以在精彩片段标识和/或元数据提取的执行中使用。

音频数据154

在至少一个实施例中，***在时频域中执行例如音频流的音频数据154的若干分析阶段，以便在描绘体育事件或另一事件期间检测例如人群欢呼、高呼和球迷支持的人群噪声。描绘可以是电视广播、视听流、音频流、所存储的文件等。

首先，将压缩的音频数据154读取、解码并重新采样到期望的采样速率。接下来，使用多个可互换的数字滤波级中的任一个对所得的PCM流进行预滤波，以减少噪声、去除咔嗒声和/或选择期望的频带。随后，针对音频数据154构建频谱图。在滑动二维时频区域窗口的每个位置处标识频谱幅度峰值的明显集合。针对每个分析窗口位置生成频谱指示符，并且形成具有相关联的时间位置的频谱指示符向量。

接下来，标识具有窄时间间隔的选定指示符-位置对的游程并将其捕获到一组向量R€{R0,R1,…,Rn}中。形成向量E＝{R0,R1,…,Rn}，其中一组R作为其元素。由于每个R含有可变计数的不等大小的指示符，故进一步按指示符值对所述指示符进行排序，以获得每个R的最大幅度指示符。另外，从每个R向量提取时间位置(开始/中间)和游程时间长度(持续时间)(指示符-位置对的计数)。形成初步事件向量，其用参数三元组(M,P,D)替换每个R向量，其中M＝最大指示符值，P＝开始/中间时间位置，D＝运行长度(持续时间)。然后，根据期望的事件间隔、事件响度和事件持续时间来处理初步事件向量以生成最终人群噪声事件向量。接着将所提取的人群噪声事件信息自动地附加到与体育事件视频精彩片段相关联的体育事件元数据。

图3A描绘根据一个实施例的在时域中从体育事件电视节目内容提取的音频流310中的音频波形图300的示例。有精彩片段的区域320展示示例性噪声事件，例如人群欢呼。所捕获的音频的幅值在有精彩片段的区域320中可能相对高，表示音频流310的相对响的部分。

图3B描绘根据一个实施例的在时频域中与图3A的音频波形图300相对应的频谱图350的示例。在至少一个实施例中，在时频域中执行感兴趣的事件的发生的检测和标记，并且将事件的时序边界实时呈现给视频精彩片段和元数据生成应用程序。这可使得生成对应的元数据224、标识精彩片段220的开始和/或结束的此类标识符223、在精彩片段220期间发生的人群兴奋水平等。

音频数据分析和元数据提取

图4是描绘根据一个实施例的由应用程序(例如在客户端装置106和/或分析服务器116中的一个上运行)执行的方法400的流程图，所述应用程序接收视听流222并执行音频数据154的即时处理以用于提取例如对应于精彩片段220的元数据224。根据方法400，可处理例如音频流310的音频数据154以检测人群噪声音频事件、音乐事件、公告事件和/或其它与电视节目内容精彩片段生成相关的可听事件。

在至少一个实施例中，对已经从视听流或其它视听内容提取的音频数据154执行方法400(和/或本文中所描述的其它方法)。替代地，本文中所描述的技术可以应用于其它类型的来源内容。举例来说，不需要从视听流提取音频数据154；更确切地，其可以是体育事件或其它事件的无线电广播或其它音频描绘。

在至少一个实施例中，方法400(和/或本文中所描述的其它方法)可以由例如图1A的***100等***执行；然而，可以使用替代***，包括但不限于图1B的***160、图1C的***180和图1D的***190，来代替图1A的***100。此外，以下描述假定将要标识的人群噪声事件；然而，应理解，可以根据与本文中所阐述的那些方法类似的方法来标识不同类型的可听事件并将其用于提取元数据。

图4的方法400可以从步骤410开始，在步骤410中，读取例如音频流200的音频数据154；如果音频数据154呈压缩格式，则可以任选地对其进行解码。在步骤420中，音频数据154可以被重新采样到期望的采样速率。在步骤430中，可以使用多个可互换的数字滤波级中的任一个来对音频数据154进行滤波。接下来，在步骤440中，可以任选地为滤波后的音频数据154生成频谱图202，例如通过在滤波后的音频数据154的一秒块上计算短时傅立叶变换(STFT)。可以将频谱图202的时频系数保存在二维阵列中以用于进一步处理。

值得注意的是，在一些实施例中，可以省略步骤440。代替执行频谱图202的分析，可以直接在音频数据154上执行进一步的分析。下文的图5至图10假定已经执行了步骤440，并且剩余的分析步骤是在对应于音频数据154的频谱图202上执行的(例如，如上文所描述，在对音频数据154进行解码、重新采样和/或滤波之后)。

图5是描绘根据一个实施例的用于在时频域中分析例如音频流200的音频数据154的方法500的流程图，例如通过分析频谱图202以检测与长时间人群欢呼(人群噪声)相关的频谱幅度峰值的聚类。首先，在步骤510中，选择大小为(F x T)的二维矩形时频分析窗口204，其中T是多秒值(通常为

)，且F是频率范围被认为(通常为500Hz-3KHz)。接下来，在步骤520中，在相邻分析窗口204之间选择窗口重叠区N，并且计算窗口滑动步长S＝(T-N)(通常

秒)。方法进行到步骤530，在所述步骤中，分析窗口204沿着频谱时间轴滑动。在步骤540中，在分析窗口204的每个位置处，计算归一化幅度，随后计算分析窗口204的平均峰值幅度。计算的平均频谱峰值幅度表示与分析窗口204的每个位置相关联的事件指示符。在步骤550中，将阈值应用于每个指示符值，并且生成向量206的初始事件向量，其含有指示符-位置对作为其元素。

如上文所建立，初始事件向量可以包括在步骤550中通过阈值处理选择的一组指示符-位置对。可以接着分析此向量以标识具有相邻元素的窄位置间隔的密集的指示符群组。此过程如图6中所示。

图6是描绘根据一个实施例的用于生成人群噪声事件向量的方法600的流程图。在步骤610中，可以利用一组指示符/位置对来读取选定事件的初始向量。在步骤620中，可以将所有选定指示符-位置游程与相邻向量元素的S-秒位置间隔一起收集到一组向量R€{R0,R1,…,Rn}中。在步骤630中，可以形成向量E＝{R0,R1,…,Rn}，其中R向量作为其元素。随后，可以进一步分析向量E的每个元素R以提取事件、事件时间位置和/或事件持续时间的最大指示符。

图7是描绘根据一个实施例的用于每个R向量的内部处理的方法700的流程图。在步骤710中，可以按指示符值以降序对R的元素进行排序。可以将最大指示符值提取为事件的M个参数。在步骤720中，可以针对向量R中的每一个将开始时间/中间时间记录为参数P。在步骤730中，针对每个向量R，可以计算元素的计数并记录为针对每个向量的持续时间参数D。可以针对每个事件形成三元组(M,P,D)，其描述事件强度(响度)、开始/中间位置和/或持续时间。这些三元组可以将R向量替换为新导出的元素，从而充分传达关于人群噪声事件的寻求信息。如图7的流程图中所示，后续处理可以包括：在步骤740中，组合针对每个R的M、P和D参数，并形成新向量，其中(M,P,D)三元组作为其元素。事件向量可以被传递到用于事件间隔选择、事件持续时间选择和事件响度(幅度指示符)选择的过程，以形成检测到的人群噪声事件的最终时间线。

图8是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法800的流程图。根据一个实施例，方法800可以去除间隔在相邻事件之间的最小时间距离以下的事件向量元素。方法800可以从步骤810开始，在步骤810中，***100一次一个地逐步通过事件向量元素。在查询820中，可以测试到先前事件位置的时间距离。根据查询820，如果此时间距离低于阈值，则可以在步骤830中跳过所述位置。如果时间距离不低于阈值，则在步骤840中可以接受所述位置。在任一情况下，方法800可以进行到查询850。根据查询850，如果已经到达事件向量的结尾，则可以生成修改后的事件向量，其中去除了被认为彼此间隔太近的向量元素。如果尚未到达事件向量的结尾，则可以继续步骤810并且可以根据需要去除额外的向量元素。

图9是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法900的流程图。方法900可以去除具有低于期望水平的人群噪声持续时间的事件向量元素。方法900可以从步骤910开始，在步骤910中，***100逐步通过事件向量的持续时间分量。在查询920中，可以测试事件向量元素的持续时间分量。根据查询920，如果此持续时间低于阈值，则可以在步骤940中跳过所述事件向量元素。如果持续时间不低于阈值，则在步骤930中可以接受所述事件向量元素。在任一情况下，方法900可以进行到查询950。根据查询950，如果已经达到事件向量的结束，则可以生成修改后的事件向量，其中去除了被认为表示持续时间不足的人群噪声的向量元素。如果尚未到达事件向量的结尾，则可以继续步骤910并且可以根据需要去除额外的向量元素。

图10是描绘根据一个实施例的用于进一步选择期望的人群噪声事件的方法1000的流程图。方法1000可以去除具有低于期望水平的人群幅度指示符的事件向量元素。方法1000可以从步骤1010开始，在步骤1010中，***100逐步通过事件向量和后续选择。在查询1020中，可以测试人群噪声事件的幅度。根据查询1020，如果此幅度低于阈值，则可以在步骤1040中跳过此事件向量元素。如果幅度不低于阈值，则在步骤1030中可以接受所述位置。在任一情况下，方法1000可以进行到查询1050。根据查询1050，如果已经达到事件向量的结尾，则可以生成修改后的事件向量，其中去除了被认为表示人群噪声幅度不足的向量元素。如果尚未到达事件向量的结尾，则可以继续步骤1010并且可以根据需要去除额外的向量元素。

可以任何期望的顺序执行如图8、图9和图10中所描述的事件向量后处理步骤。所描绘的步骤可彼此以任意组合执行，且可以省略一些步骤。在事件向量处理的结尾，可以生成新的最终事件向量，其含有针对体育事件的期望的事件时间线。

在至少一个实施例中，自动化视频精彩片段和相关联的元数据生成应用程序接收包含音频分量和视频分量的实况广播视听流，或者接收经由计算机服务器接收的数字视听流，并使用数字信号处理技术处理从视听流提取的音频数据154，以便检测明显的人群噪声(例如观众欢呼)，如上文所描述。可以使用本文中所描述的技术对这些事件进行排序和选择。可以接着将所提取的信息附加到与体育事件电视节目视频和/或视频精彩片段220相关联的体育事件元数据224。此类元数据224可以例如用于确定用于生成精彩片段的开始时间/结束时间。如本文中所述以及在上文所引用的相关申请中，可以基于偏移量来调整精彩片段的开始时间和/或结束时间，所述偏移量又可以基于可用于精彩片段的时间量、精彩片段的重要性和/或兴奋水平，及/或任何其它合适因素。另外或替代地，元数据224可以用于在视听流或精彩片段220的观看期间将信息提供给用户150，例如对应的兴奋水平230或人群兴奋水平232。

已经关于可能的实施例以特定细节描述了本发明***和方法。所属领域的技术人员应了解，可以在其它实施例中实践所述***和方法。首先，组件的特定命名、术语的大写、属性、数据结构或任何其它编程或结构方面不是强制的或重要的，且所述机制和/或特征可以具有不同的名称、格式或协议。此外，所述***可以经由硬件与软件的组合或完全以硬件元件或完全以软件元件进行实施。此外，本文中所描述的各种***组件之间的功能性的特定划分仅是示例性的，且不是强制的；由单个***组件执行的功能可以实际上由多个组件执行，且由多个组件执行的功能可以实际上由单个组件执行。

在本说明书中提到“一个实施例”或“一实施例”意味着与实施例结合描述的特定特征、结构或特性包括在至少一个实施例中。短语“在一个实施例中”或“在至少一个实施例中”在说明书中各种地方的出现不一定全部参考同一实施例。

各种实施例可以包括用于单独或以任何组合执行上述技术的任何数量的***和/或方法。另一实施例包括计算机程序产品，其包含非暂时性计算机可读存储介质和经编码于介质上的计算机程序代码，用于致使计算装置或其它电子装置中的处理器执行上述技术。

上文的一些部分是在对计算装置的存储器内的数据位的操作的算法和符号表示方面来呈现。这些算法描述和表示是数据处理领域的技术人员用以将其工作的主旨最有效地传达给所属领域的其它技术人员的方法。算法此处且大体上构想为产生期望结果的步骤(指令)的自一致序列。步骤是要求对物理量进行物理操控的步骤。通常但不一定，这些量采取能够被存储、传送、组合、比较和另外操纵的电、磁或光学信号的形式。主要出于常用的原因，将这些信号称为位、值、元件、符号、字符、术语、编号等有时是便利的。此外，在不失一般性的情况下将需要对物理量的物理操纵的步骤的某些布置称为模块或代码装置有时也是便利的。

然而，应牢记，所有这些和类似术语应与适当物理量相关联，且仅仅是应用于这些量的方便标签。除非从以下论述显而易见确切地陈述是其它情况，否则应了解贯穿所述描述，利用例如“处理”或“计算”或“运算”或“显示”或“确定”或类似术语的论述都指代计算机***或类似电子计算模块和/或装置的动作和过程，所述动作和过程操纵且变换计算机***存储器或寄存器或其它此类信息存储装置、发射或显示装置内的表示为物理(电子)量的数据。

某些方面包括本文中所描述的呈算法形式的过程步骤和指令。应注意所述过程步骤和指令可以软件、固件和/或硬件实施，且当以软件实施时可以经下载以驻留于不同平台上和从不同平台操作以供多种操作***使用。

本文档还涉及用于执行本文中的操作的设备。此设备可以出于所需目的而专门构建，或其可以包含通过存储在计算装置中的计算机程序选择性激活或重新配置的通用计算装置。此计算机程序可以存储在计算机可读存储介质中，例如但不限于包括软盘的任何类型的磁盘、光盘、CD-ROM、DVD-ROM、磁光盘、只读存储器(read-only memorie；ROM)、随机存取存储器(random access memories；RAM)、EPROM、EEPROM、快闪存储器、固态驱动器、磁卡或光卡、专用集成电路(application specific integrated circuit；ASIC)，或适合于存储电子指令且各自耦合到计算机***总线的任何类型的介质。所述程序及其相关联的数据也可以在例如服务器上远程地托管和运行。此外，本文中所提到的计算装置可以包括单个处理器或可以是采用多处理器设计以用于增加计算能力的架构。

本文中所呈现的算法和显示本身不与任何特定计算装置、虚拟化***或其它设备相关。各种通用***也可以与根据本文中的教示的程序一起使用，或其可以是更便于构建用以执行所需方法步骤的专用设备。用于多种这些***的期望结构将从本文中所提供的描述中变得显而易见。另外，不参考任何特定编程语言描述所述***和方法。应了解，可以使用多种编程语言来实施本文中所描述的教示，并且提供上文对特定语言的任何引用以公开实现和最佳模式。

因此，各种实施例包括用于控制计算机***、计算装置或其它电子装置的软件、硬件和/或其它元件，或者其任何组合或多个组合。根据所属领域中众所周知的技术，此类电子装置可以包括例如处理器、输入装置(例如键盘、鼠标、触摸垫、轨迹垫、操纵杆、轨迹球、麦克风和/或其任何组合)、输出装置(例如屏幕、扬声器等)、存储器、长期存储装置(例如磁性存储装置、光学存储装置等)，及/或网络连接性。此电子装置可以为便携式或非便携式的。可以用于实施所描述***和方法的电子装置的示例包括：台式计算机、膝上型计算机、电视、智能手机、平板电脑、音乐播放器、音频装置、公用信息机、机顶盒、游戏***、可穿戴式装置、消费者电子装置、服务器计算机等。电子装置可以使用任何操作***，例如且不限于：Linux；购自华盛顿雷德蒙德市的微软公司的Microsoft Windows；购自加利福尼亚库比蒂诺市的苹果公司的Mac OS X；购自加利福尼亚库比蒂诺市的苹果公司的iOS；购自加利福尼亚山景城的谷歌公司的Android；和/或适合于在所述装置上使用的任何其它操作***。

虽然本文中已经描述有限数量的实施例，但得益于以上描述的所属领域的技术人员应了解，可以设计其它实施例。另外，应注意，已主要为便于阅读和指导性目的而选择在说明书中使用的语言，且可能并不是为了划定或包含本发明主题而选择。因此，本公开希望说明范围但不限制范围。

Claims

1.一种用于从事件的描绘提取元数据的方法，所述方法包含：

在数据存储区处存储描绘所述事件的至少一部分的音频数据；

在处理器处自动地标识所述音频数据的指示所述事件发生时的人群兴奋的一个或多个部分；以及

在所述数据存储区处存储元数据，所述元数据至少包含指示每个所述部分发生的在所述事件的所述描绘内的时间的时间索引。

2.根据权利要求1所述的方法，其中所述事件的所述描绘包含视听流，并且其中所述方法进一步包含：在存储描绘所述事件的至少一部分的音频数据之前，从所述视听流提取所述音频数据。

3.根据权利要求1所述的方法，其中所述事件的所述描绘包含所存储的视听内容，并且其中所述方法进一步包含：在存储描绘所述事件的至少一部分的音频数据之前，从所述所存储的视听内容提取所述音频数据。

4.根据权利要求1所述的方法，其中：

所述事件的所述描绘包含所述事件的广播；

所述事件包含体育事件；并且

所述元数据与被认为是一个或多个用户特别感兴趣的精彩片段有关。

5.根据权利要求4所述的方法，其进一步包含：在输出装置处，在所述一个或多个用户中的一个观看所述精彩片段期间呈现所述元数据以指示与所述精彩片段有关的人群兴奋水平。

6.根据权利要求4所述的方法，其进一步包含使用所述时间索引来标识所述精彩片段的开始和/或结束。

7.根据权利要求4所述的方法，其进一步包含：在输出装置处，将所述精彩片段呈现给所述一个或多个用户中的一个。

8.根据权利要求1所述的方法，其进一步包含：在自动地标识所述一个或多个部分之前，通过将所述音频数据重新采样到期望的采样速率来预处理所述音频数据。

9.根据权利要求1所述的方法，其进一步包含：在自动地标识所述一个或多个部分之前，通过对所述音频数据进行滤波以减少或去除噪声来预处理所述音频数据。

10.根据权利要求1所述的方法，其进一步包含：在自动地标识所述一个或多个部分之前，预处理所述音频数据以在频谱域中针对所述音频数据的至少一部分生成频谱图。

11.根据权利要求10所述的方法，其中自动地标识所述一个或多个部分包含标识所述频谱图的滑动二维时频分析窗口的每个位置中的频谱幅度峰值。

12.根据权利要求11所述的方法，其中自动地标识所述一个或多个部分进一步包含：

针对所述分析窗口的每个位置生成频谱指示符；以及

使用所述频谱指示符来形成具有相关联的时间部分的频谱指示符向量。

13.根据权利要求12所述的方法，其进一步包含：

在邻接时间间隔低于阈值的情况下标识频谱指示符和相关联的分析窗口时间位置的对的游程；

在一组R向量中捕获所标识的游程；以及

形成向量E，其中R向量作为其元素。

14.根据权利要求13所述的方法，其进一步包含通过对每个R向量的元素进行计数来提取每个所述R向量的游程长度。

15.根据权利要求13所述的方法，其进一步包含处理所述R向量的元素以获得每个R向量的最大幅度指示符。

16.根据权利要求15所述的方法，其进一步包含提取每个所述R向量的所述时间索引。

17.根据权利要求16所述的方法，其进一步包含通过用表示所述最大幅度指示符、所述时间索引和游程长度的参数三元组替换所述向量E中的每个所述R向量来生成初步事件向量。

18.根据权利要求17所述的方法，其进一步包含处理所述初步事件向量以生成包含所述时间索引的人群噪声事件信息。

19.一种用于从事件的描绘提取元数据的非暂时性计算机可读介质，其包含存储在其上的指令，所述指令在由处理器执行时执行以下步骤：

使数据存储区存储描绘所述事件的至少一部分的音频数据；

自动地标识所述音频数据的指示所述事件发生时的人群兴奋的一个或多个部分；以及

使所述数据存储区存储元数据，所述元数据至少包含指示每个所述部分发生的在所述事件的所述描绘内的时间的时间索引。

20.根据权利要求19所述的非暂时性计算机可读介质，其中：

所述事件的所述描绘包含所述事件的广播；

所述事件包含体育事件；并且

21.根据权利要求20所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时执行以下各项中的至少一项：

使输出装置在所述一个或多个用户中的一个观看所述精彩片段期间呈现所述元数据以指示与所述精彩片段有关的人群兴奋水平；

使用所述时间索引来标识所述精彩片段的开始和/或结束；以及

使输出装置将所述精彩片段呈现给所述一个或多个用户中的一个。

22.根据权利要求19所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时通过在自动地标识所述一个或多个部分之前将所述音频数据重新采样到期望的采样速率来预处理所述音频数据。

23.根据权利要求19所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时通过在自动地标识所述一个或多个部分之前对所述音频数据进行滤波以减少或去除噪声来预处理所述音频数据。

24.根据权利要求19所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时在自动地标识所述一个或多个部分之前预处理所述音频数据以在频谱域中针对所述音频数据的至少一部分生成频谱图。

25.根据权利要求24所述的非暂时性计算机可读介质，其中自动地标识所述一个或多个部分包含标识所述频谱图的滑动二维时频分析窗口的每个位置中的频谱幅度峰值。

26.根据权利要求25所述的非暂时性计算机可读介质，其中自动地标识所述一个或多个部分进一步包含：

针对所述分析窗口的每个位置生成频谱指示符；以及

27.根据权利要求26所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时执行以下步骤：

在一组R向量中捕获所标识的游程；以及

形成向量E，其中R向量作为其元素。

28.根据权利要求27所述的非暂时性计算机可读介质，其进一步包含存储在其上的指令，所述指令在由处理器执行时执行以下步骤：

通过对每个R向量的元素进行计数来提取每个所述R向量的游程长度；

处理所述R向量的元素以获得每个R向量的最大幅度指示符；

提取每个所述R向量的所述时间索引；

通过用表示所述最大幅度指示符、所述时间索引和游程长度的参数三元组替换所述向量E中的每个所述R向量来生成初步事件向量；以及

处理所述初步事件向量以生成包含所述时间索引的人群噪声事件信息。

29.一种用于从事件的描绘提取元数据的***，所述***包含：

数据存储区，其被配置成存储描绘所述事件的至少一部分的音频数据；以及

处理器，其被配置成自动地标识所述音频数据的指示所述事件发生时的人群兴奋的一个或多个部分；

其中所述数据存储区被进一步配置成存储元数据，所述元数据至少包含指示每个所述部分发生的在所述事件的所述描绘内的时间的时间索引。

30.根据权利要求29所述的***，其中：

所述事件的所述描绘包含所述事件的广播；

所述事件包含体育事件；并且

31.根据权利要求30所述的***，其进一步包含在输出装置处；其中以下至少一项是成立的：

所述输出装置被配置成在所述一个或多个用户中的一个观看所述精彩片段期间呈现所述元数据以指示与所述精彩片段有关的人群兴奋水平；

所述处理器被进一步配置成使用所述时间索引来标识所述精彩片段的开始和/或结束；以及

所述输出装置被配置成将所述精彩片段呈现给所述一个或多个用户中的一个。

32.根据权利要求29所述的***，其中所述处理器被进一步配置成：在自动地标识所述一个或多个部分之前，通过将所述音频数据重新采样到期望的采样速率来预处理所述音频数据。

33.根据权利要求29所述的***，其中所述处理器被进一步配置成：在自动地标识所述一个或多个部分之前，通过对所述音频数据进行滤波以减少或去除噪声来预处理所述音频数据。

34.根据权利要求29所述的***，其中所述处理器被进一步配置成：在自动地标识所述一个或多个部分之前，预处理所述音频数据以在频谱域中针对所述音频数据的至少一部分生成频谱图。

35.根据权利要求34所述的***，其中所述处理器被进一步配置成通过标识所述频谱图的滑动二维时频分析窗口的每个位置中的频谱幅度峰值来自动地标识所述一个或多个部分。

36.根据权利要求35所述的***，其中所述处理器被进一步配置成通过以下操作来自动地标识所述一个或多个部分：

针对所述分析窗口的每个位置生成频谱指示符；以及

37.根据权利要求36所述的***，其中所述处理器被进一步配置成：

在一组R向量中捕获所标识的游程；以及

形成向量E，其中R向量作为其元素。

38.根据权利要求37所述的***，其中所述处理器被进一步配置成：

处理所述R向量的元素以获得每个R向量的最大幅度指示符；

提取每个所述R向量的所述时间索引；

通过用表示所述最大幅度指示符、所述时间索引和所述游程长度的参数三元组替换所述向量E中的每个所述R向量来生成初步事件向量；以及