CN105912560A

CN105912560A - 基于语音识别检测体育视频精彩部分

Info

Publication number: CN105912560A
Application number: CN201610100199.4A
Authority: CN
Inventors: 韩铮; 戴晓伟; 刘江宇
Original assignee: Zepp Labs Inc
Current assignee: Anhui Huami Health Technology Co Ltd
Priority date: 2015-02-24
Filing date: 2016-02-23
Publication date: 2016-08-31
Anticipated expiration: 2036-02-23
Also published as: US20160247328A1; US10129608B2; WO2016137728A1; CN105912560B

Abstract

提供了用于检测体育视频中的视频精彩部分的计算机实现的方法和存储有用于检测体育视频中的精彩部分的可执行计算机程序指令的非瞬态计算机可读存储介质。体育视频的视频精彩部分是体育视频的一部分并且表示体育视频中捕获的语义上重要的事件。评估与体育视频相关联的音频流，例如，音频流各部分的响度以及响度的长度。基于对音频流的评估来选择体育视频的视频片段。每个选择的视频片段表示体育视频的视频精彩部分候选。经训练的音频分类模型被用于识别与每个选择的视频片段相关联的音频流中的语音模式。基于识别的视频模式与期望的语音模式的集合的比较，选择一个或多个视频片段作为体育视频的视频精彩部分。

Description

基于语音识别检测体育视频精彩部分

技术领域

本发明总体上涉及数字内容处理，具体地涉及使用与体育视频相关联的音频数据的语音识别来检测体育视频中的精彩部分。

背景技术

智能手持设备(诸如智能电话和平板计算机)已经日益普遍。增长的网络访问(针对有线和无线网络)的可用性和带宽使得更多计算平台用于数字内容消费和共享，诸如由智能电话录制体育视频并且在社交联网平台上共享体育视频的视频精彩部分。体育视频的视频精彩部分是体育视频的一部分并且表示体育视频中捕获的语义上重要的事件，例如，捕获足球比赛视频片段中进球或射门的短视频剪辑(clip)。考虑到体育视频的复杂时空性质，从长视频剪辑中高效定位并选择视频精彩部分是耗时的并且在技术上具有挑战的。例如，足球比赛的90分钟长视频剪辑可以包含捕获三个进球事件的三个精彩部分，其中每个精彩部分可能仅持续10-20秒。

视频精彩部分检测的某些传统解决方案依靠某些领域知识，其仅适用于特定类型的体育运动，例如，在精彩部分检测之前将体育视频分类成足球或篮球。备选地，某些现有解决方案使用图像分析技术来检测体育视频中捕获的精彩部分，例如，使用体育视频中基于颜色的视觉特征来追踪网球视频中的选手和网球。然而，考虑到体育视频的复杂时空性质和由与体育视频相关联的音频数据承载的丰富语义信息，基于视觉线索而不有效利用音频数据的精彩部分检测难于高效和有效。

发明内容

本发明的各实施例提供了一种用于基于与体育视频相关联的音频流中识别的语音模式来检测体育视频的视频精彩部分的解决方案。体育视频的视频精彩部分是体育视频的一部分并且表示体育视频中捕获的语义上重要的事件。

一种用于检测体育视频的一个或多个视频精彩部分的计算机实现的方法包括如下步骤：评估与体育视频相关联的音频流，例如，音频流各部分的响度和响度长度，以及基于对音频流的评估来选择体育视频的视频片段。每个选择的视频片段表示视频精彩部分候选。所述步骤进一步包括使用经训练的音频分离模型来识别与每个选择的视频片段相关联的音频流中的语音模式，并且基于所识别的语音模式与期望的语音模式集的比较来选择一个或多个视频片段作为体育视频的视频精彩部分。选择的视频精彩部分可以被排名并且通过用户友好方式呈现以用于在社交联网平台上共享。

另一方面提供了存储有可执行计算机程序指令的非瞬态计算机可读存储介质，如上文所述用于基于与体育视频相关联的音频流中识别的语音模式来检测体育视频的一个或多个视频精彩部分。在本说明书中的特征和优点并非是包括一切的，并且特别是鉴于附图、说明书和权利要求，许多附加的特征和优点对于本领域技术人员将是明显的。此外，应当注意，在说明书中使用的语言已经主要为了可读性和教导的目的而被选择，并且可能未被选择为描绘或限制所公开的主题。

附图说明

图1是根据一个实施例的用于检测体育视频中的视频精彩部分的计算环境的框图。

图2是图示了根据一个实施例的用于作为客户端设备和/或计算机服务器以提供基于音频的视频精彩部分检测服务的计算机示例的框图。

图3是根据一个实施例的视频精彩部分检测模块的框图。

图4是根据一个实施例的检测模块的框图。

图5是根据一个实施例的具有两个视频片段的体育视频的示例。

图6是根据一个实施例的包含基于音频数据分析选择的四个视频片段的桌球(也被称为“乒乓球”)视频的示例。

图7示出了根据一个实施例的从图6所示乒乓球视频的视频片段中选择的示例性视频精彩部分。

图8是图示了根据一个实施例的用于检测体育视频中的视频精彩部分的过程的示例性流程图。

图9是根据一个实施例的用于呈现从体育视频中选择的视频精彩部分的示例性图形用户接口。

图10是根据一个实施例的用于提供呈现体育视频的视频精彩部分的用户控制的示例性图形用户接口。

图11是根据一个实施例的用于在各社交联网平台上共享体育视频的视频精彩部分的示例性用户接口。

附图仅为了说明的目的描绘本发明的各种实施例。本领域技术人员从以下讨论中将容易认识到，在不背离本文所描述的本发明的原理的情况下，本文所图示的结构和方法的备选实施例可以被采用。

具体实施方式

***概述

一种解决方案被提供用于使用与体育视频相关联的音频数据的语音识别来检测体育视频中的视频精彩部分(highlight)。该解决方案的基于音频的视频精彩部分检测服务分析与体育视频相关联的音频数据，基于音频数据的分析来标识体育视频的视频片段并且检测所标识视频片段中的视频精彩部分。经检测的视频精彩部分通过用户友好方式被提供给用户用于在各社交联网平台(例如，FACEBOOK^TM、TWITTER^TM、YOUTUBE^TM和INSTAGRAM^TM)上共享。

图1是根据一个实施例的用于检测体育视频中视频精彩部分的计算环境100的框图。图1中所示的实施例包括多个客户端设备110(例如，110A、110B和110C)和基于音频的视频精彩部分检测服务130，彼此通过网络120连接。计算环境100的实施例可以具有连接到网络120的许多客户端设备110和视频精彩部分检测服务130。同样，在不同实施例中，由图1的各实体执行的功能可以不同。

客户端设备110是用户用于执行如下功能的电子设备，诸如录制体育视频、消费数字内容、执行软件应用、浏览由web服务器在网络120上主控的网站、下载文件等。例如，客户端设备110可以是智能电话、或平板、笔记本、或者台式计算机。客户端设备110包括其上用户可以观看视频和其他内容的显示器设备和/或与所述显示器设备对接。另外，客户端设备110提供了用户接口(UI)，诸如物理和/或屏幕上按钮，通过该用户接口用户可以与客户端设备110交互以执行如下功能，诸如观看、选择和消费诸如体育视频的视频精彩部分的数字内容。

图1的实施例中所示的基于音频的视频精彩部分检测服务130包括用于存储各体育类型(例如，美式足球、足球、桌球/乒乓球、网球和篮球)的体育视频的大型视频语料库的离线数据库132，用于存储由客户端设备110捕获的视频的视频数据库134、音频分类模块136和视频精彩部分检测模块138。基于音频的视频精彩部分检测服务130的其他实施例可以具有附加和/或不同模块。

音频分类模块136使用离线数据库132中存储的体育视频来训练音频分类模块。经训练的音频分类模块将体育视频的音频数据(例如，声轨)分类成精彩部分音频数据或非精彩部分音频数据。与体育视频相关联的音频数据承载指示体育视频中捕获的整个体育比赛的情境中特定进程(play)的重要性的有用语义信息。例如，人群大声欢呼、评论员的兴奋大声喝彩可能是体育比赛期间令人兴奋的事件(例如，足球比赛中的进球)的指示符。

在一个实施例中，离线数据库132中存储的体育视频为音频分类模块136提供了训练集。该训练集中的每个体育视频具有预定义声音模式中的至少一个，诸如针对词语“Yeah(耶)”、“Whoa(哇)”、“Yes(好)”的声音和针对大声鼓掌的声音。训练集中的体育视频被用作地面实况(ground truth)以了解一个或多个参数用于供视频精彩部分检测模块138检测体育视频中的视频精彩部分。

在一个实施例中，音频分类模块136从离线数据库132中存储的体育视频的声轨中提取一个或多个音频特征。从声轨中提取的音频特征示例包括频域中的音频特征，诸如声轨的振幅谱上计算的谱特征、声轨的美尔倒谱系数(MFCC)、声轨的谱带宽和谱平坦度测量、谱波动、极值频率和声轨的安静频率。

从体育视频的声轨中提取的音频特征还可以包括时域中的音频特征，诸如声轨的纹理窗口上特征向量的协方差矩阵和平均标准差。音频分类模块136的其他实施例可以包括从体育视频的声轨中提取的附加和/或不同音频特征，诸如一段时间之后声轨的音量变化以及如果声轨被压缩该声轨的压缩格式。

音频分类模块136使用体育视频的声轨中提取的音频特征来使用一个或多个机器学习技术训练音频分类模型。机器学习技术包括但不限于神经网络、朴素贝叶斯、支持向量机和Hive框架中使用的机器学习。在一个实施例中，从提取的音频特征，音频分类模块136了解到针对每个预定声音模式的区别特征，诸如体育比赛的情境中词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音。音频分类模块136向视频精彩部分检测模块138提供经训练的模型以将与客户端设备110实时捕获的体育视频相关联的所述音频数据分类。

视频精彩部分检测模块138使用经训练的音频分类模型分析体育视频的声轨。在一个实施例中，体育视频具有与该体育视频相关联的声轨和多个视频帧；视频片段对应于体育视频的一部分。与体育视频相关联的声轨包含来自体育比赛本身的声音，诸如乒乓球比赛中乒乓球击在乒乓球台表面上的声音、由运动员发出的声音、来自评论员的激动表现和来自观众的大声欢呼。视频精彩部分检测模块138使用经训练的音频分类模型将体育视频的声轨的声音分类成精彩部分声音和非精彩部分声音。体育视频的声轨的精彩部分声音应当对应于匹配一个或多个预定义声音模式的声音，诸如体育比赛的情境中词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音。体育视频的声轨的非精彩部分声音表示不匹配任意预定义声音模式的声音，并且因此对视频精彩部分检测具有最小意义，例如，体育视频的背景噪声。

视频精彩部分检测模块138基于与体育视频相关联的声轨的分析从体育视频选择一个或多个视频片段。与所标识的精彩部分声音相关联的视频片段表示体育视频的潜在视频精彩部分。例如，选择的视频片段具有指示选择的视频片段对应于整个体育视频的情境中视频精彩部分的期望的音频特征中的至少一个。视频精彩部分检测模块138对体育视频的多个视频精彩部分进行排名并且向客户端110呈现视频精彩部分以用于在各社交联网平台上共享。视频精彩部分检测模块138的细节参考图3至图11的描述进一步来提供。

网络120支持客户端设备110与基于音频的视频精彩部分检测服务130之间的通信。在一个实施例中，网络120包括因特网并且使用标准通信技术和/或协议。在另一实施例中，实体可以使用定制和/或专用数据通信技术。

计算***架构

使用一个或多个计算机来实现图1中所示的实体。图2是根据一个实施例用于作为基于音频的视频精彩部分检测服务130和/或客户端设备110的计算机200的高级框图。图示的是耦合至芯片组204的至少一个处理器202。还耦合至芯片组204的是存储器206、存储设备208、键盘210、图形适配器212、指向设备214和网络适配器216。显示器218被耦合至图形适配器212。在一个实施例中，芯片组204的功能由存储器控制器集线器220和I/O控制器集线器222提供。在另一实施例中，存储器206被直接地耦合至处理器202而非芯片组204。

存储设备208是任意非瞬态计算机可读存储介质，诸如硬盘驱动器、紧凑磁盘只读存储器(CD-ROM)、DVD或者固态存储器设备。存储器206持有由处理器202使用的指令和数据。指向设备214可以是鼠标、轨迹球或其他类型的指向设备，并且与键盘210一起用于将数据输入到计算机***200中。图形适配器212在显示器218上显示图像和其他信息。网络适配器216将计算机***200耦合至网络150。

如现有技术中公知的，计算机200可以具有与图2中所示的那些部件不同的和/或其他的部件。此外，计算机200可以缺少某些图示的部件。例如，充当推荐服务140的计算机可以由链接在一起成为一个或多个分布式***的多个刀片服务器组成，并且缺少诸如键盘和显示器等的部件。此外，存储设备208可以是计算机200本地的和/或远离计算机200(诸如体现在存储区域网络(SAN)内)。

如现有技术中公知的，计算机200被适配为执行用于提供在此描述的功能的计算机程序模块。如在此使用的，术语“模块”指代用于提供指定的功能的计算机程序逻辑。因此，模块可以被实现在硬件、固件和/或软件中。在一个实施例中，程序模块被存储在存储设备208上、被加载到存储器206中以及由处理器202执行。

基于音频的视频精彩部分检测

视频精彩部分检测模块138使用经训练的音频分类模型来分析体育视频的声轨并且基于体育视频的声轨的分析从体育视频选择一个或多个视频精彩部分。图3是根据一个实施例的视频精彩部分检测模块138的框图。在图3所示的实施例中，视频精彩部分检测模块138具有声轨模块310、检测模块320、排名模块330和呈现模块340。视频精彩部分检测模块138的其他实施例可以包括附加和/或其他实体。同样，由图3的各实体执行的功能可以在不同实施例中不同。

声轨模块310分析体育视频的声轨并且选择其音频数据具有期望的音频特征(例如，响度和响度长度)的一个或多个视频片段。在一个实施例中，声轨模块310根据声轨的平均功率和声轨的有效连续功率长度测量体育视频的声轨的响度。注意，人类听觉***在600-1000ms间隔上对声压级的影响平均化，其中声压级指示声音的功率。例如，随着持续时间20、50、100和200ms的采样被听到，恒定声压级的声音被感知为在响度上增加，直到大约1秒的持续时间在某点对响度的感知稳定化。

在一个实施例中，声轨模块310从体育视频提取音频流，其中音频流对应于体育视频的声轨。声轨模块310对声轨的音频信号下采样，并且向音频信号的每个处理单位(例如，1秒)应用快速傅里叶变换(FFT)以每1秒生成包含FFT系数的量级的频谱矢量。生成的频谱可以由声轨模块310使用基于美尔标度分发的滤波器组进行滤波。以下等式定义了音频信号在时域中的快速傅里叶变换：

X (k) = Σ_{j = 1}^{N} x (j) e^{\frac{- 2 π i}{N} (j - 1) (k - 1)}

其中k＝0，…，N-1；x(j)是处理单位内(例如，1秒)时间索引j处的采样并且i是虚数X(k)是在与从信号的分解产生的正弦波的振幅对应的频率索引k的N值的向量。处理单位内信号的功率频谱(其被用作响度的测量)被定义为：

P = Σ_{k = 0}^{N - 1} {| X (k) |}^{2}

声轨模块310计算针对声轨的音频信号的每个处理单位(例如，1秒)的声轨的平均功率。声轨模块310将声轨的平均功率与预定义声音功率阈值N进行比较。响应于对应声轨的平均功率大于阈值N，声轨模块310监测声轨的持续时间。响应于对应声轨的平均功率的持续时间持续得比长度阈值T_len更长，声轨模块310选择对应于所标识的声轨的视频帧。选择的视频帧形成视频片段，其表示体育视频的潜在视频精彩部分。

现在转向图5，图5是根据一个实施例基于体育视频的声轨的分析具有两个视频片段的体育视频的示例。图5中图示的体育视频具有总数n个帧，即，f(t₁)至f(t_n)；每个视频帧具有对应的声轨(图5中未示出)和时间戳t_i，i＝1,2,3，…n。声轨模块310提取与视频帧相关联的音频流并且将音频流分成多个处理单位，例如，1秒。针对音频流的音频信号的每秒，声轨模块310执行快速傅里叶变换(FFT)并且计算功率作为响度测量。响应于音频信号的响度大于阈值N并且其持续时间长于长度阈值T_len，声轨模块310选择对应视频帧以形成表示潜在视频精彩部分的视频片段。在图5中图示的示例中，声轨模块310选择两个视频片段502和504作为视频精彩部分候选。视频片段502包括帧f(t₂)的一部分以及整个帧f(t₃)；视频片段502包括部分帧f(t_n-1)以及整个帧f(t_n)。

基于对应音频数据而分析选择的视频片段表示体育视频的潜在视频精彩部分。假设与体育视频相关联的声轨包含来自体育比赛本身的声音，诸如乒乓球比赛中乒乓球击在乒乓球台表面上的声音和由体育员发出的声音，视频精彩部分检测模块138进一步分析选择的视频片段以检测选择的视频片段中的视频精彩部分。每个检测的视频精彩部分具有由经训练的音频分类模型识别为针对视频精彩部分的声音的语音模式中的至少一个，诸如针对体育比赛的情境中词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音。

返回参考图3，视频精彩部分检测模块138的检测模块320接收由声轨模块310选择的视频片段，向与选择的视频片段相关联的音频数据应用经训练的音频分类模型，并且基于音频数据的分析来检测视频精彩部分。在一个实施例中，检测模块320向每个选择的视频片段的音频数据应用经训练的音频分类模型以识别一个或多个语音模式并且将音频数据与一系列预定义语音模式进行比较。基于与每个预定义语音模式的比较，检测模块320生成针对每个视频片段的三个精彩部分参数：相似度得分、有效声音长度和最大声功率。检测模块320分析所生成的参数并且基于参数的分析选择一个或多个视频片段作为视频精彩部分。

图4是根据一个实施例的检测模块320的框图。在图4中图示的实施例中，检测模块320具有相似度模块410、定时模块420、声功率模块430和选择模块440。相似度模块410计算预定义语音模式集中每个语音模式和与视频片段相关联的音频数据之间的相似度得分。在一个实施例中，预定义语音模式集包括针对体育比赛的情境中词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音的语音模式，并且每个语音模式具有描述声音的一个或多个音频特征。相似度得分由感兴趣的音频特征与(由音频分类模块136)了解到的每个预定义语音模式的区别特征之间的距离来测量。距离越大指示相似度得分越大。因此，与视频片段相关联的音频数据与预定义语音模式之间的相似度得分表示体育视频的音频数据的音频特征与预定义语音模式的音频特征之间相似度的测量。

检测模块320的定时模块420确定与视频片段相关联的音频数据中识别的每个预定义语音模式的有效长度。在一个实施例中，定时模块420使用定时窗口来测量与视频片段相关联的音频数据中识别的预定义语音模式的长度，并且定时窗口的大小由数字时钟的秒数表示，例如，10秒。定时模块420的其他实施例可以使用其他备选方式测量音频数据的长度。注意，在体育比赛期间观察的短的大声可能没有长的大声可靠用于指示视频片段作为体育视频的视频精彩部分的可能性。与视频片段相关联的音频数据中识别的预定义语音模式的有效长度可以由视频精彩部分检测模块138用于对体育视频的视频精彩部分进行排名。

视频片段可以持续某段时间(例如，多个定时窗口)，并且与视频片段相关联的音频数据中识别的每个预定义语音模式的响度可以在不同定时窗口中变化。声功率模块430选择向视频片段的音频数据应用的任意定时窗口内识别的语音模式的最大响度。在一个实施例中，声功率模块430计算向视频片段的音频数据应用的每个定时窗口内每个识别的语音模式的平均功率，并且选择向视频片段的音频数据应用的多个定时窗口中具有最大平均功率的所识别的语音模式。与视频片段相关联的所识别语音模式的最大响度可以由视频精彩部分检测模块138用于对体育视频的视频精彩部分进行排名。

选择模块440分析与每个视频片段相关联的精彩部分参数(例如，与视频片段相关联的相似度得分、有效声音长度和声功率的最大值)，并且响应于精彩部分参数满足一个或多个预定义的条件而选择视频片段作为视频精彩部分。在一个实施例中，针对每个视频片段，选择模块440将针对语音模式的相似度得分与相似度阈值进行比较。相似度阈值表示与针对有资格作为视频精彩部分的视频片段的所识别语音模式相关联的最小相似度程度。响应于针对每个所识别语音模式的相似度得分均没有超过相似度阈值，视频片段不被选择为体育视频的视频精彩部分。例如，如果与视频片段相关联的音频数据与词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音中的任何声音不相似，则视频片段不被选择为体育视频的视频精彩部分。在另一方面，响应于针对语音模式的至少一个相似度得分超过相似度阈值，视频片段被选择为体育视频的视频精彩部分。

为了进一步图示检测模块320的各模块的操作，预定义语音模式的集合由参数集{S_j}表示，其中j∈[0，N)，并且N表示预定义语音模式的总数。针对每个视频片段V_i，相似度模块410针对每个预定义语音模式j计算相似度得分定时模块420测量每个视频片段V_i的每个识别语音模式的有效长度，并且选择具有最长持续时间的所识别语音模式的有效长度用于由参数表示视频片段的有效声音长度。在向视频片段V_i的音频数据应用的每个定时窗口内，声功率模块430计算平均声功率P(V_i)，并且在与视频片段V_i的音频数据中识别的预定义语音模式相关联的平均声功率P(V_i)中选择最大声功率max(P(V_i))以用于表示视频片段的声功率。选择模块440将每个相似度得分与相似度阈值θ_s进行比较，该相似度阈值θ_s表示视频片段有资格作为视频精彩部分所需的最小相似度。响应于每个相似度得分没有超过相似度阈值，即，视频片段没有被选择为体育视频的视频精彩部分。由选择模块440选择作为视频精彩部分的视频片段被分组成新的集合θ{V_i}。

图6是根据一个实施例包含基于音频数据分析选择的四个视频片段的乒乓球视频的示例。出于图示的目的，图6中图示的乒乓球视频的视频帧被呈现在三个行(610V、620V和630V)中，其中每行具有多个视频帧。乒乓球视频的每个视频帧具有对应的音频数据。例如，针对行610V中的视频帧，在行610A中根据音频频率示出了相关联的音频数据。类似地，行620A中示出了与行620V中的视频帧相关联的对应的音频数据；行630A中示出了与行630V中的视频帧相关联的对应的音频数据。

声轨模块310分析与视频帧(610V、620V和630V中所示)相关联的音频数据，并且基于音频数据分析选择四个视频片段602、604、606和608。每个选择的视频片段具有一个或多个视频帧，并且每个选择的视频片段的音频数据的评估功率大于预定义声功率阈值N并且选择的视频片段的音频数据的长度大于阈值T_len。四个选择的视频片段602、604、606和608中的每个视频片段表示乒乓球比赛视频的潜在视频精彩部分。

检测模块320进一步分析由声轨模块310选择的视频片段并且确定哪个视频片段有视频精彩部分的资格。在一个实施例中，检测模块320生成预定义语音模式和与视频片段相关联的音频数据之间的相似度得分。例如，预定义语音模式集包括词语“Yeah”、“Whoa”、“Yes”的声音以及大声鼓掌的声音。检测模块320生成针对视频片段的四个相似度得分，每个相似度得分与预定义语音模式集中的预定义语音模式相关联。响应于针对视频片段的相似度得分中的至少一个超过相似度阈值，检测模块320选择该视频片段作为视频精彩部分。检测模块320还计算音频数据的长度以及针对有资格作为用于进一步处理的视频精彩部分的视频片段的音频数据的最大声功率。

图7示出了根据一个实施例的从图6所示乒乓球视频的视频片段中选择的示例性视频精彩部分。在由声轨模块310选择的四个视频片段中，检测模块320基于与每个选择的视频片段相关联的相似度得分来选择视频片段702、视频片段704和视频片段708作为乒乓球视频的视频精彩部分。每个选择的视频精彩部分具有一个或多个视频帧和对应的视频数据。以视频精彩部分702为例，视频精彩部分702具有一个或多个视频帧702V和对应的视频数据702A。视频片段706不被选择，因为与视频片段706相关联的音频数据不具有与体育比赛的情境中的特定事件相关联的预定义语音模式中的至少一个相似的声音，例如，使用词语“Yeah”、“Whoa”、“Yes”或大声鼓掌的大声欢呼。

体育视频可以包含不止一个视频精彩部分。为了以用户友好的方式呈现视频精彩部分，视频精彩部分检测模块138可以对体育视频的多个视频精彩部分进行排名并且以根据视频精彩部分的排名的顺序呈现视频精彩部分。返回参考图3，视频精彩部分检测模块138具有排名模块330，其用于对与体育视频相关联的多个视频精彩部分进行排名。在一个实施例中，排名模块330通过正规化(normalize)与视频精彩部分相关联的精彩部分参数并且基于与每个视频精彩部分相关联的正规化的精彩部分参数的总和将视频精彩部分排序来对视频精彩部分进行排名。

在一个实施例中，排名模块330正规化与体育视频的视频精彩部分相关联的相似度得分。假设体育视频的视频精彩部分由θ{V_i}表示并且针对预定义语音模式的集合{S_i}的体育视频的视频精彩部分V_i的相似度得分由表示，排名模块330针对集合{S_i}中的所有预定义语音模式正规化相似度得分以生成正规化的相似度得分在针对视频精彩部分的正规化的相似度得分中，排名模块330选择最大值作为最终相似度得分其中排名模块330如下文等式(1)中向最终相似度得分应用预定义加权因子μ₁以生成针对体育视频的视频精彩部分θ{V_i}的剩余部分的正规化的相似度得分：

排名模块330正规化与体育视频的视频精彩部分相关联的有效声音长度。假设视频精彩部分V_i的有效声音长度由参数表示，排名模块330如下文等式(2)中向与视频精彩部分V_i相关联的有效声音长度应用预定义的加权因子μ₂以生成针对体育视频的视频精彩部分θ{V_i}的剩余部分的正规化的有效声音长度：

η_{2} (V_{i}) = μ_{2} * \frac{τ_{i}^{j}}{\max (τ_{i}^{j})} - - - (2)

排名模块330进一步正规化与体育视频的视频精彩部分相关联的声功率。假设视频精彩部分V_i的声功率由参数P(V_i)表示，排名模块330如下文等式(3)中向与视频精彩部分V_i相关联的声功率P(V_i)应用预定义的加权因子μ₃以生成针对体育视频的视频精彩部分θ{V_i}的剩余部分的正规化的声功率：

η_{3} (V_{i}) = μ_{3} * \frac{P (V_{i})}{\max (P (V_{i})),} - - - (3)

排名模块330如下文等式(4)中计算与体育视频的每个视频精彩部分相关联的正规化的精彩部分参数的总和：

S u m (V_{i}) = Σ_{k = 1}^{k = 3} η_{k} (V_{i}) - - - (4)

其中V_i∈θ{V_i}.。排名模块330基于与每个视频精彩部分相关联的正规化的精彩部分参数的总和将视频精彩部分排序。

返回参考图7中图示的示例，声轨模块310基于与四个视频片段相关联的音频数据的平均声功率和声音长度选择四个视频片段V1(702)、V2(704)、V3(706)和V4(708)。检测模块320将视频片段V1、V2和V4选择作为乒乓球视频的视频精彩部分。排名模块330根据基于上文所述的正规化的精彩部分参数的排序对视频精彩部分进行排名，例如，根据该排名顺序而为V2、V4和V1。

视频精彩部分检测模块138的呈现模块340以用户友好的方式向基于音频的视频精彩部分检测服务130的用户呈现体育视频的视频精彩部分。在一个示例中，呈现模块340在用户的客户端110的显示器上的图形用户接口中呈现体育视频的视频精彩部分。图形用户接口具有显示器区域以用于示出选择的视频精彩部分、手动选择工具用于选择视频精彩部分、显示器区域用于显示体育视频的多个部分的缩略图像。用户能够预览视频精彩部分，选择针对视频精彩部分的主题(theme)和标志(logo)并且在各社交联网平台上与其他用户共享所述视频精彩部分。

图9是根据一个实施例用于呈现从体育视频中选择的视频精彩部分的示例性图形用户接口900。体育视频920被呈现有表示体育视频920的各部分的多个缩略图像920a-920h。体育视频920的定时信息由定时线930示出。用户可以通过点击缩略图像(例如，920a)来手动选择用于回放的体育视频的一部分。在图9中图示的示例中，体育视频920具有三个视频精彩部分902、904和906，其中每个视频精彩部分持续10秒。用户可以在选择一个视频精彩部分以用于显示之前预览该视频精彩部分。视频精彩部分902当前被选择并且显示在显示器区域910中。

除了友好地呈现体育视频的视频精彩部分之外，呈现模块340还为用户提供工具用于定制视频精彩部分的外观感觉(look-and-feel)。图10是根据一个实施例的用于提供呈现体育视频的视频精彩部分的用户控制的示例性图形用户接口。例如，视频精彩部分1010可以以慢动作模式1012呈现。用户可以通过从可用主题1004列表选择主题来控制视频精彩部分的外观感觉。针对不同类型的体育运动(例如，篮球、足球、滑雪等)，用户可以从体育运动符号的列表1006中选择符号(例如，符号1008)以用于呈现足球比赛。针对将要在用户客户端(例如，智能电话)的显示器上呈现的视频精彩部分，用户可以从呈现模块340提供的对应工具1002调整文本格式、音量、视觉焦点和感兴趣的运动员。

视频精彩部分检测模块138的呈现模块340还为用户呈现去往各社交联网平台的链接以用于共享体育视频的视频精彩部分。图11是根据一个实施例的用于在各社交联网平台上共享体育视频的视频精彩部分的示例性用户接口。将要共享的视频精彩部分1102当前被显示在显示器区域。用户可以选择添加某些语音评论1104以及选择与视频精彩部分1102相关联的哪些细节进行共享，例如，队1106或事件1108。呈现模块340提供去往由基于音频的视频精彩部分检测服务130支持的每个社交联网平台(例如，FACEBOOK^TM、INSTAGRAM^TM、TWITTER^TM和YOUTUBE^TM)的连接。一旦用户准备好在选择的社交平台上共享视频精彩部分1102，用户就点击“张贴(post)”按钮1114以张贴视频精彩部分1102及其相关联的信息；用户还具有用于返回到先前配置阶段的选项(例如，按钮1112)，例如图10和图11中图示的示例用于调整呈现细节。

图8是图示了根据一个实施例的用于检测体育视频中的视频精彩部分的过程的示例性流程图。最初，如图1中图示的基于音频的视频精彩部分检测服务130的视频精彩部分检测模块138提取体育视频的声轨并且基于具有期望的声功率的声轨的长度和声轨的平均声功率来评估810声轨。基于声轨评估，视频精彩部分检测模块138选择820一个或多个视频片段作为体育视频的潜在视频精彩部分。

针对每个选择的视频片段，视频精彩部分检测模块138向与视频片段相关联的音频数据应用830经训练的音频分类模型。经训练的音频分类模型的应用使得视频精彩部分检测模块138能够识别840一个或多个预定义语音模式，诸如体育视频中针对词语“Yeah”、“Whoa”、“Yes”的声音和针对大声鼓掌的声音。针对每个视频片段，视频精彩部分检测模块138针对每个识别的语音模式生成850多个视频精彩部分参数，例如，相似度得分、有效声音长度和声功率。

视频精彩部分检测模块138基于对与视频片段相关联的视频精彩部分参数的分析来选择860一个或多个视频片段作为体育视频的视频精彩部分。例如，响应于针对至少一个识别的语音模式的视频片段的相似度得分超过预定义相似度阈值，视频精彩部分检测模块138选择该视频片段作为体育视频的视频精彩部分。视频精彩部分检测模块138进一步通过例如正规化针对所有识别语音模式的相似度得分、有效声音长度和声功率对体育视频的视频精彩部分进行排名870。视频精彩部分检测模块138以(诸如图9至图11所示的)用户友好的方式呈现880视频精彩部分。

综述

为了说明的目的，已经呈现了本发明的实施例的前述描述，其不旨在于是穷尽的或者将本发明限制于所公开的精确形式。相关领域的技术人员能够理解，鉴于以上公开许多修改和变化是可能的。

该描述的一些部分根据对信息操作的算法和符号表示来描述本发明的实施例。这些算法描述和表示由数据处理领域的技术人员普遍用来向该领域其他技术人员有效地传达其工作的实质。当这些操作被功能性地、计算性地或者逻辑性地描述时，被理解为由计算机程序或者等效的电路、微代码等实现。此外，也已经证明在不失一般性的情况下有时将这些操作的布置称为模块是方便的。描述的操作及其相关联的模块可以被体现在软件、固件、硬件或它们的组合中。

在此描述的任何步骤、操作或过程可以利用一个或多个硬件或软件模块单独或联合其他设备来被执行或被实现。在一个实施例中，软件模块利用包括含有计算机程序代码的计算机可读介质的计算机程序产品而被实现，该计算机程序代码可以由计算机处理器执行，以用于执行描述的任意或全部的步骤、操作或过程。

本发明的实施例还可以与用于执行在此的操作的设备有关。该设备可以为了要求的目的而具体地构造，和/或其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非瞬态有形计算机可读存储介质、或者适合于存储电子指令的任意类型的介质中，其可以被耦合至计算机***总线。此外，在本说明书中提及的任何计算***可以包括单个处理器或者可以是采用用于增加的计算能力的多处理器设计的架构。

本发明的实施例还可以涉及由在此描述的计算过程生产的产品。这样的产品可以包括从计算过程产生的信息，其中该信息被存储在非瞬态有形计算机可读存储介质上并且可以包括本文描述的计算机程序产品的任何实施例或者其他数据组合。

最后，在本说明书中使用的语言已经主要为了可读性和教导的目的而选择，并且其可能未被选择为描绘或限制所公开的主题。因此，其意图为本发明的范围不由该详细的描述来限定，而由针对基于在此的应用的任何权利要求来限定。因此，本发明的实施例的公开内容旨在于是说明性的而非对本发明的范围的限制，本发明的范围在所附的权利要求中被阐述。

Claims

1.一种用于检测体育视频中的精彩部分的计算机实现的方法，包括：

评估与所述体育视频相关联的音频流；

基于所述音频流评估来选择所述体育视频的一个或多个视频片段；

识别每个选择的视频片段中的多个语音模式；以及

基于选择的所述视频片段的所述语音模式识别来检测所述体育视频中的一个或多个精彩部分。

2.根据权利要求1所述的方法，其中评估与所述体育视频相关联的所述音频流包括：

确定在预定时间段上的所述音频流的响度；以及

确定所述音频流的所述响度的有效声功率长度。

3.根据权利要求2所述的方法，其中确定所述音频流的所述响度包括：

计算在所述预定时间段上的所述音频流的平均功率。

4.根据权利要求2所述的方法，进一步包括：

将所述音频流的所述响度与预定义响度阈值进行比较；以及

将所述响度的所述有效声功率长度与预定义长度阈值进行比较。

5.根据权利要求1所述的方法，其中视频片段对应于所述体育视频的一部分，并且其中基于所述音频流评估来选择一个或多个视频片段包括：

响应于与所述视频片段相关联的所述音频流的所述部分具有期望的音频特征而选择所述视频片段；

其中具有所述期望的音频特征的所述音频流的一部分具有比预定于响度阈值更大的平均声功率并且所述平均声功率的长度持续得比预定义长度阈值更长。

6.根据权利要求5所述的方法，其中选择的视频片段表示针对所述体育视频的精彩部分候选。

7.根据权利要求1所述的方法，其中识别每个选择的视频片段中的多个语音模式包括：

向与所述视频片段相关联的所述音频流的所述部分应用经训练的声音分类模型；

基于所述经训练的声音分类模型的所述应用生成针对预定义语音模式的集合的多个精彩部分参数，所述预定义语音模式中的每个预定义语音模式表示与所述体育视频的精彩部分相关联的期望的音频特征；以及

分析所生成的精彩部分参数。

8.根据权利要求7所述的方法，其中所述预定义语音模式集包括以下各项中的至少一项：

针对词语“Yeah”的声音的语音模式；

针对词语“Whoa”的声音的语音模式；

针对词语“Yes”的声音的语音模式；以及

针对体育视频的情境中的大声鼓掌的语音模式。

9.根据权利要求7所述的方法，其中生成所述多个精彩部分参数包括：

生成与所述视频片段的音频特征相关联的所述音频流的所述部分的音频特征与所述预定义语音模式的集合中的每个语音模式之间的相似度得分；

生成所述视频片段的有效声音长度；以及

生成所述视频片段的最大声功率。

10.根据权利要求9所述的方法，进一步包括：

响应于与所述视频片段相关联的相似度得分超过相似度得分阈值而选择所述视频片段，所述相似度得分阈值表示针对有资格作为所述体育视频的精彩部分的所述视频片段的最小相似度程度。

11.根据权利要求1所述的方法，其中基于选择的所述视频片段的所述语音模式识别来检测所述体育视频中的一个或多个精彩部分包括：

选择具有与期望的语音模式中的至少一个期望的语音模式相似的音频特征的视频片段，其中所述视频片段的所述音频特征与所述期望的语音模式的所述音频特征之间的所述相似度由所述视频片段的所述音频特征与所述期望的语音模式中的每个期望的语音模式之间的相似度得分被呈现。

12.根据权利要求1所述的方法，进一步包括：

对所检测到的所述体育视频的精彩部分进行排名；以及

在图形用户接口中呈现所检测到的所述体育视频的精彩部分以用于在社交联网平台中共享所检测到的所述体育视频的精彩部分。

13.根据权利要求12所述的方法，其中对所检测到的所述体育视频的精彩部分进行排名包括：

正规化与所检测到的精彩部分相关联的精彩部分参数，所述精彩部分参数基于在所检测到的精彩部分中识别的所述语音模式被生成；以及

基于与所检测到的所述体育视频的精彩部分相关联的正规化的所述精彩部分参数对所检测到的精彩部分排序。

14.一种存储有用于检测体育视频中的精彩部分的可执行计算机程序指令的非瞬态计算机可读存储介质，所述指令在由计算机处理器执行时使得所述计算机处理器：

评估与所述体育视频相关联的音频流；

识别每个选择的视频片段中的多个语音模式；以及

基于所述选择的所述视频片段的所述语音模式来识别检测所述体育视频中的一个或多个精彩部分。

15.根据权利要求14所述的计算机可读存储介质，其中用于评估与所述体育视频相关联的所述音频流的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

确定在预定时间段上的所述音频流的响度；以及

确定所述音频流的所述响度的有效声功率长度。

16.根据权利要求15所述的计算机可读存储介质，其中用于确定所述音频流的所述响度的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

计算在所述预定时间段上的所述音频流的平均功率。

17.根据权利要求15所述的计算机可读存储介质，进一步包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

将所述音频流的所述响度与预定义响度阈值进行比较；以及

18.根据权利要求14所述的计算机可读存储介质，其中视频片段对应于所述体育视频的一部分，并且其中用于基于所述音频流评估来选择一个或多个视频片段的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

其中具有所述期望的音频特征的所述音频流的一部分具有比预定义响度阈值更大的平均声功率并且所述平均声功率的长度持续得比预定义长度阈值更长。

19.根据权利要求18所述的计算机可读存储介质，其中选择的视频片段表示针对所述体育视频的精彩部分候选。

20.根据权利要求14所述的计算机可读存储介质，其中用于识别每个选择的视频片段中的多个语音模式的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

分析所生成的精彩部分参数。

21.根据权利要求20所述的计算机可读存储介质，其中所述预定义语音模式集包括以下各项中的至少一项：

针对词语“Yeah”的声音的语音模式；

针对词语“Whoa”的声音的语音模式；

针对词语“Yes”的声音的语音模式；以及

针对体育视频的情境中的大声鼓掌的语音模式。

22.根据权利要求20所述的计算机可读存储介质，其中用于生成所述多个精彩部分参数的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

生成所述视频片段的有效声音长度；以及

生成所述视频片段的最大声功率。

23.根据权利要求22所述的计算机可读存储介质，进一步包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

24.根据权利要求14所述的计算机可读存储介质，其中用于基于选择的所述视频片段的所述语音模式识别来检测所述体育视频中的一个或多个精彩部分的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

选择具有与期望的语音模式中的至少一个期望的语音模式相似的音频特征的视频片段，其中所述视频片段的所述音频特征与所述期望的语音模式的所述音频特征之间的所述相似度由所述视频片段的所述音频特征与所期望的语音模式中的每个期望的语音模式之间的相似度得分被呈现。

25.根据权利要求14所述的计算机可读存储介质，进一步包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

对所检测到的所述体育视频的精彩部分进行排名；以及

26.根据权利要求25所述的计算机可读存储介质，其中用于对所检测到的所述体育视频的精彩部分进行排名的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：