CN109155136B

CN109155136B - 从视频自动检测和渲染精彩场面的计算机化***和方法

Info

Publication number: CN109155136B
Application number: CN201780022124.1A
Authority: CN
Inventors: 宋雅乐; 乔迪·瓦利弥贾纳
Original assignee: Oath Inc
Current assignee: Yahoo Assets LLC; Yahoo AD Tech LLC
Priority date: 2016-04-01
Filing date: 2017-02-28
Publication date: 2020-12-11
Anticipated expiration: 2037-02-28
Also published as: EP3437095A4; US10390082B2; CN109155136A; WO2017172175A1; US20210168442A1; EP3437095A1; US20190373315A1; US11290775B2; US10924800B2; US20170289617A1

Abstract

本公开涉及从视频自动检测和渲染精彩场面的计算机化***和方法。公开了用于改进与由个人计算设备、服务器和/或平台支持或配置的内容生成、搜索、托管和/或提供***中的计算机的交互或这些计算机之间的交互的***和方法。这些***交互以识别和撷取平台内或跨平台的数据，这可用于提高处理这些***中的处理器之间的交互所使用的数据的质量。精彩场面当流传输视频正通过因特网广播时，所公开的***和方法从流传输视频确定每种类型的场景并自动对精彩场面场景进行评分。然后被评分的精彩场面场景作为编译的视频片段被传达给用户，这可通过用户的使能内容渲染和用户交互的设备和网络可访问的任何类型的频道或平台来进行。

Description

从视频自动检测和渲染精彩场面的计算机化***和方法

技术领域

本公开一般涉及通过修改内容生成、搜索、提供和/或托管计算机***和/或平台的能力并向这样的***和/或平台提供非本地功能以实时地从流传输游戏视频自动检测和渲染精彩场面，来改善这些***和/或平台的性能。

背景技术

目前，从流传输视频自动检测精彩场面是一项极具挑战性且成本低效的任务。传统的***、服务和平台无法从流传输媒体中识别和编译(或甚至提取)精彩场面(或者感兴趣的场景)，因为它们无法在视频正在被广播时实时地(例如，没有用户输入)执行必要的计算步骤。实际上，现有***仅能够在游戏结束后(例如，在流结束之后)由人类编辑者生成视频内容的精彩场面。并没有现有的用于在流传输媒体到达时确定并输出该媒体的“即时”片段的在线***和机制。

发明内容

本公开提供了用于从流传输视频自动、实时地识别和创建视频剪辑的新颖***和方法。根据一些实施例，所公开的***和方法采用了新颖的级联预测模型(为了本公开的目的，将其称为具有场景分类器子部分和精彩场面分类器子部分的场景-精彩场面分类器)。场景分类器通过分析流传输视频(或片段)的帧来工作，以便确定正在接收的场景的类型。精彩场面分类器将分类为“游戏”场景的帧作为输入，并确定游戏场景的每个帧序列的得分。根据一些实施例，流传输视频中满足精彩场面阈值的游戏场景被识别以供传送给用户或通过因特网广播给多个用户。

本公开通过提供一种自动***和方法来解决本领域中存在的缺点，该自动***和方法标记来自流传输媒体的场景并且实时地对被分类为“精彩场面”的场景进行评分，然后这些场景可被用于生成游戏精彩场面和/或概要的短形式视频。

根据一个或多个实施例，公开了一种方法，该方法自动分析在线流传输媒体以便从流传输视频中自动识别、评价和创建视频剪辑(或片段)。从流传输媒体自动创建视频剪辑实时地基于所公开的级联预测建模发生，所述级联预测建模解释输入的流传输媒体的属性并确定正被流传输的内容的类型。基于该分析，可以创建短形式的视频文件，其仅包括来自流传输媒体中与流的精彩场面对应的内容。

根据一个或多个实施例，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质有形地存储或者有形地编码有计算机可读指令，计算机可读指令在被执行时使得至少一个处理器执行一种实时地从流传输游戏视频自动检测和渲染精彩场面的方法。

根据一个或多个实施例，提供了一种***，其包括被配置为根据这样的实施例提供功能的一个或多个计算设备。根据一个或多个实施例，功能体现在由至少一个计算设备执行的方法的步骤中。根据一个或多个实施例，由计算设备的处理器执行以实现根据一个或多个这样的实施例的功能的程序代码(或程序逻辑)体现在非暂态计算机可读介质中或非暂态计算机可读介质上或通过非暂态计算机可读介质来体现。

附图说明

本发明的上述和其他目的、特征和优点将从以下对附图所示实施例的描述中变得显而易见，其中附图标记在各个视图中指代相同的部分。附图不一定按比例绘制，而是将重点放在说明本公开的原理上：

图1是示出根据本公开的一些实施例的可以实施本文公开的***和方法的网络的示例的示意图；

图2描绘示出根据本公开的一些实施例的客户端设备的示例的示意图；

图3是示出根据本公开实施例的示例性***的组件的示意框图；

图4A-4B是示出根据本公开的一些实施例所执行的步骤的流程图；

图5是示出根据本公开的一些实施例所执行的步骤的流程图；

图6是根据本公开的一些实施例中的非限制性实施例的示例性示例的图示；

图7是示出根据本公开的一些实施例所执行的步骤的流程图；和

图8是示出根据本公开的一个或多个实施例的示例性硬件设备的架构的框图。

具体实施方式

现在将在下文中参考形成本发明的一部分并通过图示的方式示出了某些示例实施例的附图更全面地描述本公开。然而，主题可以以各种不同的形式体现，因此，所涵盖或要求保护的主题旨在被解释为不限于本文所述的任何示例实施例；示例实施例被提供以仅用于说明。同样，要求保护或涵盖的主题的范围旨在合理广泛。例如，主题可以体现为方法、设备、组件或***等。因此，实施例可以例如采用硬件、软件、固件或其任何组合的形式(除软件本身之外)。因此，以下详细描述不应被视为具有限制意义。

在整个说明书和权利要求书中，术语可以具有超出明确陈述含义的上下文中揭示或暗示的细微差别意思。同样地，这里使用的短语“在一个实施例中”不一定是指相同的实施例，并且这里使用的短语“在另一个实施例中”不一定是指不同的实施例。例如，旨在要求保护的主题包括示例实施例的全部或部分的组合。

通常，术语可以至少部分地从上下文中的使用来理解。例如，如本文所使用的诸如“和”、“或”或“和/或”的术语可包括多种含义，这些含义可至少部分地取决于使用这些术语的上下文。通常，“或”如果用于关联列表(例如A，B或C)，则意指A、B和C(此处使用的是包含性意义)以及A、B或C(此处用于排他性意义)。另外，如本文所使用的术语“一个或多个”，至少部分地取决于上下文，可以用于以单数意义描述任何特征、结构或特征，或者可以用于以复数意义描述特征、结构或特征的组合。类似地，诸如“一”、“一个”或“该”之类的术语可以被理解为传达单数用法或传达复数用法，这至少部分地取决于上下文。另外，术语“基于”可以被理解为不一定旨在传达一组排他性的因素，而是可以替代地，至少部分地取决于上下文，允许存在不一定明确描述的其他因素。

下面参考方法和设备的框图和操作图示来描述本公开。应当理解，框图或操作图示的每个框以及框图或操作图示中的框的组合可以借助于模拟或数字硬件和计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机的处理器以改变其在此详述的功能，可以提供给专用计算机、 ASIC或其他可编程数据处理装置，使得通过计算机的处理器或其他可编程数据处理装置执行的指令实现框图或一个或多个操作框中指定的功能/动作。在一些替代实现方式中，框中提到的功能/动作可以不按照操作图示中指出的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能/动作。

这些计算机程序指令可以提供给以下装置的处理器：通用计算机，以将其功能改变为特殊用途；专用计算机；ASIC；或者其他可编程数字数据处理装置，使得通过计算机或其他可编程数据处理装置的处理器执行的指令实现在框图或一个或多个操作框中指定的功能/动作，从而根据本文的实施例转换它们的功能。

为了本公开的目的，计算机可读介质(或计算机可读存储介质/介质) 存储计算机数据，该数据可以包括机器可读形式的可由计算机执行的计算机程序代码(或计算机可执行指令)。作为示例而非限制，计算机可读介质可包括用于有形或固定存储数据的计算机可读存储介质，或用于对包含代码的信号进行瞬时解释的通信介质。这里使用的计算机可读存储介质是指物理或有形存储(与信号相反)，并且包括但不限于以用于有形存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储器技术、CD-ROM、DVD或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁存储设备、或可用于有形地存储所需信息或数据或指令并且可由计算机或处理器访问的任何其他物理或材料介质。

出于本公开的目的，术语“服务器”应该被理解为指代提供处理、数据库和通信设施的服务点。作为示例而非限制，术语“服务器”可以指具有相关联通信和数据存储以及数据库设施的单个物理处理器，或者它可以指代处理器和相关联网络和存储设备以及支持服务器提供的服务的操作软件和一个或多个数据库***和应用软件的联网或集群复合体。服务器的配置或功能可以有很大不同，但通常服务器可以包括一个或多个中央处理单元和存储器。服务器还可以包括一个或多个大容量存储设备、一个或多个电源、一个或多个有线或无线网络接口、一个或多个输入/输出接口、或一个或多个操作***，例如Windows Server、Mac OS X、Unix、Linux、 FreeBSD等。

出于本公开的目的，“网络”应该被理解为指代可以耦合设备以便可以例如在服务器和客户端设备之间或者其他类型的设备之间(例如包括在通过无线网络耦合的无线设备之间)交换通信的网络。网络还可以包括大容量存储装置，例如网络附属存储装置(NAS)、存储区域网络(SAN) 或其他形式的计算机或机器可读介质。网络可以包括因特网、一个或多个局域网(LAN)、一个或多个广域网(WAN)、有线类型连接、无线类型连接、蜂窝或其任何组合。同样地，可以采用不同体系结构或者可以与不同协议兼容或兼容的子网可以在更大的网络内互操作。例如，可以使各种类型的设备可用于为不同的体系结构或协议提供可互操作的能力。作为一个说明性示例，路由器可以在其他分开并且独立的LAN之间提供链路。

通信链路或信道可包括例如模拟电话线，例如双绞线、同轴电缆、包括T1、T2、T3或T4类型线的全数字或分数数字线、综合业务数字网 (ISDN)、数字订户线(DSL)、包括卫星链路的无线链路、或其他通信链路或信道，例如本领域技术人员可能已知的。此外，计算设备或其他相关电子设备可以远程耦合到网络，例如通过有线或无线线路或链路。

出于本公开的目的，“无线网络”应被理解为将客户端设备与网络耦合。无线网络可以采用独立的ad-hoc网络、网状网络、无线LAN (WLAN)网络、蜂窝网络等。无线网络还可以包括通过无线电链路等耦合的终端、网关、路由器等的***，其可以自由地、随机地移动或任意地组织自身，使得网络拓扑可以改变，有时甚至快速地改变。

无线网络还可以采用多种网络接入技术，包括Wi-Fi、长期演进 (LTE)、WLAN、无线路由器(WR)网、或者第2代，第3代或第4代 (2G，3G或4G)蜂窝技术等。网络接入技术可以实现设备(例如具有不同移动性的客户端设备)的广域覆盖。

例如，网络可以通过一种或多种网络接入技术实现RF或无线类型通信，例如全球移动通信***(GSM)、通用移动电信***(UMTS)、通用分组无线电服务(GPRS)、增强型数据GSM环境(EDGE)、3GPP长期演进(LTE)、LTE高级、宽带码分多址(WCDMA)、蓝牙、802.11b /g/n等。无线网络实际上可以包括任何类型的无线通信机制，通过该机制，信号可以在诸如客户端设备或计算设备之类的设备之间、在网络之间或之内等进行通信。

计算设备可以能够发送或接收信号(例如经由有线或无线网络)或者能够处理或存储信号(例如在存储器中存储为物理存储器状态)并且因此可以作为服务器操作。因此，能够作为服务器操作的设备可以包括例如专用的机架式服务器、台式计算机、膝上型计算机、机顶盒、组合各种特征 (例如前述设备的两个或更多个特征)的集成设备，等等。服务器的配置或功能可以有很大不同，但通常服务器可以包括一个或多个中央处理单元和存储器。服务器还可以包括一个或多个大容量存储设备、一个或多个电源、一个或多个有线或无线网络接口、一个或多个输入/输出接口、或一个或多个操作***，例如Windows Server、Mac OS X、Unix、Linux、 FreeBSD等。

出于本公开的目的，客户端(或消费者或用户)设备可以包括能够发送或接收信号(例如经由有线或无线网络)的计算设备。客户端设备可以例如包括台式计算机或便携式设备，诸如蜂窝电话、智能电话、显示寻呼机、射频(RF)设备、红外(IR)设备和近场通信(NFC)设备、个人数字助理(PDA)、手持式计算机、平板电脑、平板手机、膝上型计算机、机顶盒、可穿戴计算机、智能手表、结合各种功能(如上述设备的特征) 的集成或分布式设备，等等。

客户端设备可能在能力或特征方面有所不同。要求保护的主题旨在涵盖广泛的潜在变化。例如，简单的智能电话，平板手机或平板电脑可以包括数字小键盘或有限功能的显示器，例如用于显示文本的单色液晶显示器 (LCD)。然而，相比之下，作为另一示例，支持web的客户端设备可以包括高分辨率屏幕、一个或多个物理或虚拟键盘、大容量存储装置、一个或多个加速度计、一个或多个陀螺仪、全球定位***(GPS)或其他位置识别类型能力、或具有高度功能的显示器，例如触敏彩色2D或3D显示器。

客户端设备可以包括或可以执行各种操作***，包括个人计算机操作***，诸如Windows、iOS或Linux，或移动操作***，诸如iOS、 Android或Windows Mobile等。

客户端设备可以包括或可以执行各种可能的应用，例如能够与其他设备通信(例如传达一个或多个消息)的客户端软件应用，例如通过电子邮件(例如

邮件)、短消息服务(SMS)或多媒体消息服务(MMS)(例如Yahoo！

)，包括通过网络，例如社交网络 (包括例如

或

Instagram^TM)，在此仅提供一些可能的示例。客户端设备还可以包括或执行应用以传送内容，例如文本内容、多媒体内容等。客户端设备还可以包括或执行应用以执行各种可能的任务，诸如浏览、搜索、播放或显示各种形式的内容，包括本地存储或流传输的视频或游戏(诸如幻想体育联盟)。提供前述内容是为了说明所要求保护的主题旨在包括各种可能的特征或能力。

这里描述的原理可以以许多不同的形式体现。本公开提供了用于从流传输视频自动、实时地识别和/或创建视频剪辑(或片段)的新颖***和方法。

所公开的***和方法采用新颖的级联预测模型，如上所述，称为场景- 精彩场面分类器。如下面关于图4A-4B详细讨论的那样，基于任何已知的或将要知道的机器学习建模技术或算法训练和/或建模场景-精彩场面分类器，机器学习建模技术或算法通过所应用的机器在环(machine-in-loop) 视频注释***来利用所分析的视频训练集内的视觉场景属性/特征。场景精彩场面分类器的训练使得所公开的***和方法(例如，场景精彩场面分类器引擎300)能够从流传输视频中丢弃某些部分(例如，帧)以便集中于从流传输视频的其余帧中检测精彩场面。

场景-精彩场面分类器包括两个层：场景分类器层和精彩场面分类器层。如下面详细讨论的，场景-精彩场面分类器具有条件级联建模基础结构，其基于如下前提：仅将由场景分类器确定的特定类型的场景传递到精彩场面分类器层。

如本领域技术人员所理解的，流传输媒体包括对应于特定类型的内容的不同场景。这样的内容类型包括但不限于播音员正在讲话的场景、描绘游戏的场景、描绘游戏玩家或他/她的化身或数字肖像的图像的场景、描绘观众的场景等。

如本文所讨论的，场景分类器分析输入的(和所存储的)流传输视频的帧(或片段)，以便确定在流内接收的场景的类型。场景分类器旨在将游戏场景(例如，描绘游戏的场景)与非游戏场景(例如，包括与播音员、游戏玩家、观众等相关联的内容的场景)区分开来。精彩场面分类器将分类为“游戏”场景的帧序列作为输入，并确定得分。根据一些实施例，流传输视频中的满足精彩场面阈值(或落在范围内，如下所述)的游戏场景被确定为“精彩场面”并且被识别用于传送给用户或通过因特网被广播给多个用户。

根据一些实施例，精彩场面阈值(或范围)确保游戏场景包括与一组独特的预定视觉参数相关联的内容。这样的视觉参数可以包括但不限于满足在片段期间发生的活动量的阈值、满足像素属性的变化的阈值(例如，由片段中的活动触发的许多亮光)、显示的游戏状态(例如，表明敌人已经被杀或一个人已经得分)等。

作为非限制性示例，图6示出了本公开的非限制性实施例。在该示例中，视频流600被接收。流600包括8个帧-编号为1-8。帧1-3，即条目 602，包括示出播音员欢迎观众观看直播的内容。帧4，即条目608，包括视频流600内的场景转换或镜头边界，例如，视频帧3和5之间的切换、帧3和5之间的淡入/淡出、一个或多个溶解或擦除效果和/或在视频文件的场景之间转换的任何其他类型的已知或将已知的效果。帧5-7，即条目604，包括示出游戏的内容-例如，两个玩家玩在线游戏并且一个玩家“杀死”另一个玩家的实况流传输连续镜头。并且，帧8，即条目610，包括指示流的结束的内容-例如，淡出到黑色的过渡。

所公开的***和方法可以实时分析输入流600以便确定流的哪个帧 (或场景)序列对应于游戏场景。如下面关于图3-5详细描述的那样，当流600的帧被接收(和/或存储在存储器或数据库/数据存储库中)时，场景-精彩场面分类器的场景分类器分析帧以确定每个帧或帧序列正在中继哪种类型的内容。如果场景分类器确定(一个或多个)场景与玩游戏相关，则将(一个或多个)场景传递到精彩场面分类器，精彩场面分类器对场景进行评分以确定玩游戏是否是实际精彩场面。

如同图6的示例，条目602对应于播音员发言的场景。条目604对应于一个玩家相对于另一个玩家而得分的场景(例如，在游戏构造内“杀死”另一个玩家)。因此，根据本公开的一些实施例，仅场景604被传递到精彩场面分类器。

在一些实施例中，基于场景分类器的分析，场景602和604被标签标记。在一些实施例中，这样的标签不仅提供关于在渲染场景的帧时描绘的内容的类型的指示，还提供关于场景的长度(和/或开始和结束)的指示。在一些实施例中，条目608和610，即分别为帧4和8，可以由场景-精彩场面器分类器确定，该场景-精彩场面器分类器实施用于确定相邻帧之间的差异的任何已知或将已知的媒体帧分析算法或方案技术。在这样的实施例中，这些标记的帧可以用作用于启动和/或停止流600内的特定场景的指示符。

继续上述示例，精彩场面分类器分析场景并对场景604的内容进行评分。例如，如下面更详细讨论的，精彩场面分类器可以执行任何已知或将已知的类型的图像或内容识别模型或算法，其可以识别场景604的每个帧 (帧5-7)的所描绘的内容并计算在5-7帧期间和/或之间发生的活动的得分。例如，由于帧5-7描绘了一个玩家相对于另一个玩家得分，所以这样的活动将导致满足精彩场面阈值的得分，因此，场景604将被标签标记为“精彩场面”。

在一些实施例中，如下面更详细地讨论的，可以提取、识别或以其他方式利用与所确定的“精彩场面”场景相对应的所识别的帧来创建短形式视频剪辑或片段。在一些实施例中，这种精彩场面视频片段的创建可以涉及但不限于使用任何已知或将已知的帧/片段转换技术(例如但不限于 imagemagick和gifsicle库，仅举几个例子)从流600的帧生成(或创建或提取)精彩场面视频片段。例如，场景604可以被转换为精彩场面视频片段，其被格式化为图形交换格式(GIF)文件。然后可以将这样的GIF文件传送给请求用户和/或在在线平台上提供，该在线平台使用户能够查看正在进行或过去的游戏的精彩场面。

所公开的***和方法可以针对任何类型的内容项或流传输媒体实现，包括但不限于视频、音频、图像、文本和/或任何其他类型的多媒体内容。虽然这里的讨论将集中于流传输视频和这种流内的视频帧/片段/剪辑的识别，但是不应该将其解释为限制性的，因为在不脱离本公开的范围的情况下可以使用任何类型的内容或多媒体内容，无论是已知的还是将已知的。

如下面至少关于图7更详细地讨论的那样，根据一些实施例，如本文所讨论的，与所识别和/或创建的精彩场面视频片段相关联或从其中导出的信息可用于在提供、递送、共享或启用对流传输媒体和/或所创建的精彩场面视频片段(例如，在Yahoo！的

平台)的访问时的盈利目的和定向广告。向与这些发现的内容相关联的用户提供有定向广告可以导致这种广告的点击率(CTR)增加和/或广告商服务第三方提供的这种内容(例如，由广告商提供的数字广告内容，其中广告商可以是第三方广告商，或直接与本文讨论的***和方法相关联或托管这种***或方法的实体)的投资回报率(ROI)的增加。

现在将参考附图更详细地描述某些实施例。通常，参考图1，示出了根据本公开的实施例的***100。图1示出了可以实践本文所讨论的***和方法的一般环境的组件。实施本公开并非要求所有组件，并且可以在不脱离本公开的精神或范围的情况下进行组件的布置和类型的变化。如图所示，图1的***100包括：局域网(“LAN”)/广域网(“WAN”)-网络105、无线网络110、移动设备(客户端设备)102-104和客户端设备 101。图1还包括各种服务器，例如内容服务器106、应用(或“App”) 服务器108、搜索服务器120和广告(“ad”)服务器130。

下面更详细地描述移动设备102-104的一个实施例。然而，通常，移动设备102-104实际上可以包括能够通过网络(例如网络105、无线网络 110等)接收和发送消息的任何便携式计算设备。移动设备102-104通常还可以被描述为被配置为便携式的客户端设备。因此，移动设备102-104 实际上可以包括能够连接到另一计算设备并接收信息的任何便携式计算设备。这些设备包括多点触摸便携式设备，例如蜂窝电话、智能电话、显示寻呼机、射频(RF)设备、红外(IR)设备、个人数字助理(PDA)、手持式计算机、膝上型计算机、可穿戴计算机、智能手表、平板电脑、平板手机、组合一个或多个前述设备的集成装置等。这样，移动设备102-104 通常在能力和特征方面范围很广。例如，蜂窝电话可以具有数字小键盘和几行单色LCD显示器(其上只能显示文本)。在另一示例中，支持web 的移动设备可以具有触敏屏幕，触控笔和HD显示器(其中可以显示文本和图形)。

支持web的移动设备可以包括浏览器应用，其被配置为接收和发送网页，基于web的消息等。浏览器应用可以被配置为接收和显示图形、文本、多媒体等，采用几乎任何基于web的语言，包括无线应用协议消息 (WAP)等。在一个实施例中，浏览器应用能够采用手持设备标记语言 (HDML)、无线标记语言(WML)、WMLScript、JavaScript、标准通用标记语言(SMGL)、超文本标记语言(HTML)、可扩展标记语言 (XML)等，以显示和发送消息。

移动设备102-104还可以包括至少一个客户端应用，其被配置为从另一计算设备接收内容。客户端应用可以包括提供和接收文本内容、图形内容、音频内容等的能力。客户端应用还可以提供标识自身的信息，包括类型、能力、名称等。在一个实施例中，移动设备102-104可以通过各种机制中的任何一种来唯一地标识它们自己，包括电话号码、移动识别码 (MIN)、电子序列号(ESN)或其他移动设备标识符。

在一些实施例中，移动设备102-104还可以与非移动客户端设备(例如客户端设备101等)通信。在一个实施例中，这样的通信可以包括发送和/或接收消息、搜索、查看和/或共享照片、音频剪辑、视频剪辑或任何其他形式的通信。客户端设备101实际上可以包括能够通过网络进行通信以发送和接收信息的任何计算设备。这组设备可以包括通常使用有线或无线通信介质连接的设备，例如个人计算机、多处理器***、基于微处理器的或可编程的消费电子产品、网络PC等。因此，客户端设备101还可以具有用于显示可导航信息视图的不同能力。

客户端设备101-104计算设备能够发送或接收信号，例如经由有线或无线网络，或者能够处理或存储信号，例如在存储器中存储为物理存储器状态，并且因此可以作为服务器操作。因此，能够作为服务器操作的设备可以包括例如专用机架式服务器、台式计算机、膝上型计算机、机顶盒、组合各种特征(例如前述设备的两个或更多个特征)的集成设备，等等。

无线网络110被配置为将移动设备102-104及其组件与网络105耦合。无线网络110可以包括各种无线子网中的任何一个，子网可以进一步覆盖独立的ad-hoc网络等，以为移动设备102-104提供面向基础设施的连接。这种子网可以包括网状网络、无线LAN(WLAN)网络、蜂窝网络等。

网络105被配置为将内容服务器106、应用服务器108等与其他计算设备(包括客户端设备101)连接以及通过无线网络110耦合到移动设备 102-104。网络105能够使用任何形式的计算机可读介质来将信息从一个电子设备传送到另一个电子设备。此外，网络105除了可以包括局域网 (LAN)、广域网(WAN)以外，还可以包括因特网、直接连接(例如通过通用串行总线(USB)端口)、其他形式的计算机可读介质或其任何组合。在一组互连的LAN上，包括基于不同体系结构和协议的LAN，路由器充当LAN之间的链路，使消息能够从一个LAN发送到另一个LAN 和/或其他计算设备。

在本公开所利用的或理解为适用于本公开的通信网络内，这种网络将采用用于通过网络进行通信的各种协议。经由网络(例如由参与的数字通信网络构成的网络)传送的信号分组可以与一种或多种协议兼容。所采用的信令格式或协议可以包括例如TCP/IP、UDP、QUIC(快速UDP因特网连接)、DECnet、NetBEUI、IPX、APPLETALK^TM等。因特网协议(IP) 的版本可以包括IPv4或IPv6。因特网是指由网络构成的分散的全球网络。因特网包括局域网(LAN)、广域网(WAN)、无线网络或长途公用网(例如，允许信号分组在LAN之间通信)。信号分组可以在网络的节点之间传送，例如，被传送到采用本地网络地址的一个或多个站点。例如，信号分组可以通过因特网从用户站点经由耦合到因特网的接入节点传送。同样地，例如，信号分组可以经由网络节点转发到经由网络接入节点耦合到网络的目标站点。经由因特网传送的信号分组可以例如经由(可以根据目标地址和到目标地址的网络路径的可用性来路由信号分组的)网关、服务器等的路径路由。

根据一些实施例，本公开还可以在电子社交网站内使用或可访问。社交网络通常指通过通信网络或通过各种子网耦合的个体(例如熟人、朋友、家人、同事、或合作者)的电子网络。潜在地，由于通过通信网络或子网的社交互动，随后可以形成附加关系。在一些实施例中，多模式通信可以在社交网络的成员之间发生。一个或多个社交网络内的个体可以经由各种设备与社交网络的其他成员交互或通信。多模式通信技术是指允许跨多个设备或平台(例如手机、智能电话、平板计算设备、平板手机、个人计算机、电视、机顶盒、SMS/MMS、电子邮件，即时消息客户端、论坛、社交网站等)进行可互操作通信的一组技术。

在一些实施例中，所公开的网络110和/或105可以包括(一个或多个)内容分发网络。“内容递送网络”或“内容分发网络”(CDN)通常是指分布式内容递送***，其包括由一个或多个网络链接的计算机或计算设备的集合。CDN可以采用软件、***、协议或技术来促进各种服务，例如存储、缓存、内容通信、或流传输媒体或应用。CDN还可以使实体全部或部分地操作或管理另一个站点的基础设施。

内容服务器106可以包括设备，该设备包括用于经由网络向另一设备提供内容的配置。内容服务器106可以例如托管站点或服务，例如流传输媒体站点/服务(例如，Yahoo！

)、游戏网站、电子邮件平台或社交站点、或个人用户站点(如博客、视频博客、在线约会站点等)。内容服务器106还可以托管各种其他站点，包括但不限于商业站点、教育站点、词典站点、百科全书站点、维基站点、金融站点、政府站点等。可以作为内容服务器106操作的设备包括个人计算机台式计算机、多处理器***、基于微处理器或可编程的消费电子产品、网络PC、服务器等。

内容服务器106还可以提供各种服务，包括但不限于流传输和/或下载媒体服务、搜索服务、电子邮件服务、照片服务、网络服务、社交网络服务、新闻服务、第三方服务、音频服务、视频服务、即时消息(IM)服务、SMS服务、MMS服务、FTP服务、IP语音(VOIP)服务等。可以经由应用服务器108提供这样的服务，例如视频应用和/或视频平台，由此用户能够在用户被服务认证、验证或识别时利用这种服务。内容的示例可以包括图像、文本、音频、视频等，其可以以物理信号的形式(例如电信号)处理，或者可以作为物理状态存储在存储器中。

广告服务器130包括存储用于呈现给用户的在线广告的服务器。“广告服务”是指用于在网站、应用或用户更可能看到广告的其他地方投放在线广告的方法，例如在在线会话期间或在计算平台使用期间。可以结合赞助广告(包括与用户相关联的广告)使用各种货币化技术或模型。这种赞助广告包括货币化技术，包括赞助搜索广告、非赞助搜索广告、保证和非保证递送广告、广告网络/交换、广告定向、广告服务和广告分析。这样的***可以在网页创建过程中包含近乎即时的广告投放机会的拍卖(在某些情况下，在不到500毫秒内)，提供更高质量的广告投放机会，从而提高每个广告的收益。也就是说，当广告商认为他们的广告正被投放在正在呈现给用户的高度相关内容中或与此高度相关内容有关时，他们将支付更高的广告费率。减少量化高质量广告投放所需的时间可为广告平台带来竞争性优势。因此，更高的速度和更相关的情境检测改善了这些技术领域。

例如，购买或销售在线广告的过程可能涉及许多不同的实体，包括广告商、发布商、代理商、网络或开发者。为了简化该过程，称为“广告交换”的组织***可以关联广告商或发布商，例如通过平台来促进从多个广告网络购买或销售在线广告库存。“广告网络”是指来自发布商的广告空间供应的聚合，例如集体供应给广告商。对于像Yahoo！这样的门户网站，可以至少部分地基于一个或多个搜索项，在由用户定义的搜索产生的网页或应用中显示广告。如果显示的广告与一个或多个用户的兴趣相关，则广告可能对用户、广告商或门户网站有益。因此，已经开发了各种技术来推断用户兴趣、用户意图或随后将相关广告定向到用户。呈现定向广告的一种方法包括采用人口统计特征(例如，年龄，收入，性别，职业等)来预测用户行为，例如通过分组。可以至少部分地基于预测的(一个或多个) 用户行为向目标观众中的用户呈现广告。

另一种方法包括简档类型广告定位。在该方法中，可以例如通过跟踪用户通过web站点或站点网络的路径并至少部分地基于最终传送的页面或广告来编辑简档来生成特定于用户的用户简档，从而建模用户行为。例如，可以识别相关性，例如针对用户购买。所识别的相关性可被用来通过定位针对特定用户的内容或广告来定位潜在购买者。在呈现广告期间，呈现***可以收集关于呈现给用户的广告类型的描述性内容。可以收集广泛的描述性内容，包括特定于广告呈现***的内容。收集的广告分析可以被发送到远离广告呈现***的位置以便存储或用于进一步评估。在广告分析传输不能立即进行的情况下，收集的广告分析可以由广告呈现***存储，直到那些广告分析的传输变得可进行。

服务器106、108、120和130能够发送或接收信号，例如通过有线或无线网络，或者能够处理或存储信号，例如在存储器中存储作为物理存储器状态。能够作为服务器操作的设备可以包括例如专用的机架式服务器、台式计算机、膝上型计算机、机顶盒、组合各种特征(例如前述设备的两个或更多个特征)的集成设备，等等。服务器在配置或能力方面可以变化很大，但是通常，服务器可以包括一个或多个中央处理单元和存储器。服务器还可以包括一个或多个大容量存储设备、一个或多个电源、一个或多个有线或无线网络接口、一个或多个输入/输出接口、或一个或多个操作***，例如Windows Server、Mac OS X、Unix、Linux、FreeBSD等。

在一些实施例中，用户能够访问由服务器106、108、120和/或130提供的服务。在非限制性示例中，这可以包括游戏服务器、认证服务器、搜索服务器、电子邮件服务器、社交网络服务服务器、SMS服务器、IM服务器、MMS服务器、交换服务器、照片共享服务服务器和旅行服务服务器，通过网络105使用它们的各种设备101-104。

在一些实施例中，诸如游戏应用、流传输视频应用、博客、照片存储/ 共享应用或社交网络应用之类的应用可由应用服务器108(或内容服务器 106、搜索服务器120等)托管。因此，应用服务器108可以存储各种类型的应用和应用相关信息，包括应用数据和用户简档信息(例如，与用户相关联的识别和行为信息)。还应该理解，内容服务器106还可以存储与内容服务器106在相关联的内容数据库107中提供的内容和服务有关的各种类型的数据，如下面更详细地讨论的。存在这样的实施例，其中网络 105还与可信搜索服务器(TSS)耦合/连接，可信搜索服务器(TSS)可用于根据本文所讨论的实施例来渲染内容。存在这样的实施例，其中TSS 功能可以体现在服务器106、108、120和/或130内。

而且，尽管图1分别将服务器106、108、120和130示为单个计算设备，本公开不限于此。例如，服务器106、108、120和/或130的一个或多个功能可以分布在一个或多个不同的计算设备上。此外，在一个实施例中，服务器106、108、120和/或130可以集成到单个计算设备中，而不脱离本公开的范围。

图2是示出客户端设备的示意图，该客户端设备示出了可以在本公开内使用的客户端设备的示例实施例。客户端设备200可以包括比图2中所示的组件更多或更少的组件。然而，所示组件足以公开用于实现本公开的说明性实施例。客户端设备200可以表示例如以上关于图1所讨论的客户端设备。

如图所示，客户端设备200包括经由总线224与大容量存储器230通信的处理单元(CPU)222。客户端设备200还包括电源226、一个或多个网络接口250、音频接口252、显示器254、键区256、照明器258、输入/ 输出接口260、触觉接口262、可选的全球定位***(GPS)接收器264和 (一个或多个)相机或其他光学、热学或电磁传感器266。如本领域技术人员所理解的，设备200可包括一个相机/传感器266或多个相机/传感器 266。设备200上的相机/传感器266的位置可以按设备200模型、设备200 能力等或其某种组合进行改变。

电源226向客户端设备200提供电力。可充电或不可充电电池可用于提供电力。电力还可以由外部电源提供，例如AC适配器或对电池进行补充和/或对电池进行再充电的带电对接支架。

客户端设备200可以可选地与基站(未示出)通信，或者直接与另一计算设备通信。网络接口250包括用于将客户端设备200耦合到一个或多个网络的电路，并且被构造为结合如上所述的一个或多个通信协议和技术使用。网络接口250有时被称为收发器、收发设备或网络接口卡 (NIC)。

音频接口252被布置成产生和接收音频信号，例如人声的声音。例如，音频接口252可以耦合到扬声器和麦克风(未示出)以实现与其他人的通信和/或生成对于某些动作的音频确认。显示器254可以是液晶显示器 (LCD)、气体等离子体显示器、发光二极管(LED)显示器或与计算设备结合使用的任何其他类型的显示器。显示器254还可以包括触敏屏幕，该触敏屏幕被布置成接收来自诸如手写笔的对象或来自人手的手指的输入。

键区256可以包括被布置为从用户接收输入的任何输入设备。例如，键盘256可以包括按钮数字拨号盘或键盘。键盘256还可以包括与选择和发送图像相关联的命令按钮。照明器258可以提供状态指示和/或提供光。照明器258可以在特定时间段内或响应于事件而保持活动。例如，当照明器258处于活动状态时，它可以对键区256上的按钮进行背光照射并在客户端设备通电时保持接通。而且，当特定动作(例如拨打另一客户端设备)被执行时，照明器258可以以各种模式对这些按钮进行背光照射。照明器258还可以使位于客户端设备的透明或半透明壳体内的光源响应于动作而发光。

客户端设备200还包括输入/输出接口260，用于与外部设备(例如耳机)或图2中未示出的其他输入或输出设备通信。输入/输出接口260可以利用一种或多种通信技术，例如USB、红外、蓝牙^TM等。触觉接口262 被布置为向客户端设备的用户提供触觉反馈。例如，当客户端设备200从另一用户接收通信时，触觉接口可被用来以特定方式振动客户端设备 200。

可选的GPS收发器264可以确定客户端设备200在地球表面上的物理坐标，其通常输出位置为纬度和经度值。GPS收发器264还可以采用其他地理定位机制，包括但不限于三角测量、辅助GPS(AGPS)、E-OTD、 CI、SAI、ETA、BSS等，以进一步确定客户端设备200在地球表面上的物理位置。可以理解，在不同条件下，GPS收发器264可以确定客户端设备200的毫米内的物理位置；在其他情况下，所确定的物理位置可能不太精确，例如在一米内或明显更大的距离内。然而，在一个实施例中，客户端设备可以通过其他组件提供可以用于确定设备的物理位置的其他信息，包括例如MAC地址、因特网协议(IP)地址等。

大容量存储器230包括RAM 232、ROM 234和其他存储装置。大容量存储器230示出了用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的计算机存储介质的另一示例。大容量存储器230 存储用于控制客户端设备200的低级操作的基本输入/输出*** (“BIOS”)240。大容量存储器还存储用于控制客户端设备200的操作的操作***241。应当理解，该组件可以包括通用操作***，例如UNIX 版本或LINUX ^TM，或专用客户端通信操作***，例如Windows Client ^TM或Symbian操作***。操作***可以包括Java虚拟机模块，或者与Java 虚拟机模块接口，该Java虚拟机模块能够通过Java应用程序控制硬件组件和/或操作***操作。

存储器230还包括一个或多个数据存储，客户端设备200可利用该数据存储来存储应用242和/或其他数据等。例如，可以采用该数据存储来存储描述客户端设备200的各种能力的信息。然后该信息可基于各种事件中的任何一个被提供给另一个设备，包括在通信期间作为报头的一部分发送，根据请求发送等。至少一部分能力信息也可以存储在客户端设备200 内的磁盘驱动器或其他存储介质(未示出)上。

应用242可以包括计算机可执行指令，当计算机可执行指令由客户端设备200执行时，客户端设备200发送、接收和/或以其他方式处理音频、视频、图像，并且使得能够与服务器和/或另一客户端设备的另一用户进行通信。在一些实施例中，应用程序或“app”的其他示例包括浏览器、日历、联系人管理器、任务管理器、代码转换器、照片管理、数据库程序、字处理程序、安全应用、电子表格程序、游戏、搜索程序等。应用242还可以包括搜索客户端245，其被配置为使用任何已知或已知的通信协议来发送、接收和/或以其他方式处理搜索查询和/或搜索结果。尽管示出了单个搜索客户端245，但是应该清楚可以采用多个搜索客户端。例如，一个搜索客户端可以被配置为输入搜索查询消息，另一个搜索客户端管理搜索结果，而另一个搜索客户端被配置为管理服务广告、IM、电子邮件和其他类型的已知消息等。

已经描述了在所公开的***和方法中采用的一般体系结构的组件，现在将在下面描述组件关于所公开的***和方法的一般操作。

图3是示出用于执行本文所讨论的***和方法的组件的框图。图3包括场景-精彩场面分类器引擎300、网络315和数据库320。场景-精彩场面分类器引擎300可以是专用机器或处理器，并且可以由应用服务器、游戏服务器、内容服务器、社交网络服务器、网络服务器、搜索服务器、内容提供商、电子邮件服务提供商、广告服务器、用户的计算设备等或其任何组合来托管。

根据一些实施例，场景-精彩场面分类器引擎300可以体现为在用户设备上执行的独立应用。在一些实施例中，场景-精彩场面分类器引擎300可以用作安装在用户设备上的应用，并且在一些实施例中，这样的应用可以是用户设备通过网络访问的基于web的应用。在一些实施例中，场景-精彩场面分类器引擎300可以作为增强脚本、程序或应用安装到另一个媒体应用(例如，Yahoo！

Yahoo！

等)。

数据库320可以是任何类型的数据库或存储器，并且可以与网络上的内容服务器(例如，图1中的内容服务器106、搜索服务器120或应用服务器108)或用户的设备(例如，设备101-104或图1-2中的设备200)相关联。数据库320包括与有关用户、服务、应用、内容(例如，视频)等的本地和/或网络信息相关联的数据和元数据的数据集。这些信息可以独立地存储和索引在数据库320中和/或作为链接或关联的数据集。如上所述，应当理解，数据库320中的数据(和元数据)可以是任何类型的信息和类型，无论是已知的还是将来已知的，而没有脱离本公开的范围。

根据一些实施例，数据库320可以存储用户的数据，例如用户数据。根据一些实施例，存储的用户数据可以包括但不限于与用户的简档相关联的信息、用户兴趣、用户行为信息、用户属性、用户偏好或设置、用户人口统计信息、用户位置信息、用户传记等或其某种组合。在一些实施例中，为了创建、流传输、推荐、渲染和/或递送视频，用户数据还可以包括用户设备信息，包括但不限于设备识别信息、设备能力信息、语音/数据载体信息、因特网协议(IP)地址、在这样的设备上安装或能够安装或执行的应用、和/或其任何组合或某种组合。应当理解，数据库320中的数据 (和元数据)可以是与用户、内容、设备、应用、服务提供商、内容提供商有关的任何类型的信息，无论是已知的还是将来已知的，而没有脱离本公开的范围。

根据一些实施例，数据库320可以存储与来自各种媒体和/或服务提供商和/或平台(例如，游戏内容和/或游戏控制台或平台内容/信息)的视频内容相关联的数据和元数据。例如，该信息可以涉及但不限于视频的内容类型、与视频相关联的类别、与视频的像素和帧相关联的信息、与视频的提供者相关联的信息、与视频中涉及的参与者相关联的信息、以及与视频文件相关联的任何其他类型的已知或将来已知的属性或特征。另外，数据库320中的每个视频的视频信息可以包括但不限于属性，包括但不限于视频的流行度，视频的质量，视频的新近度(该视频何时被发布、共享、编辑)。这些因素可以从用户、服务提供商(即

或

)提供的信息中导出、由提供视频内容的内容/服务提供商(例如，Yahoo！

)或其他第三方服务(例如rottentomatoes.com，IMDB^TM，

等)或其某些组合提供的信息中导出。

根据一些实施例，当接收到这样的视频信息时，它可以作为每个视频和/或视频的每个帧的n维向量(或特征向量)表示存储在数据库320中，其中与视频相关联的信息可以被翻译为n维向量上的节点。数据库320可以将视频信息作为链接的视频数据和元数据集存储在数据库320中并索引，其中数据和元数据关系可以存储为n维向量。这种存储可以通过任何已知的或将来已知的向量或阵列存储来实现，包括但不限于散列树、队列、堆栈、VList、或任何其他类型的已知或将来已知的动态存储器分配技术。虽然上面的存储讨论涉及流传输视频的矢量分析和与其相关联的视频信息，但是可以根据任何已知的或将来已知的计算分析技术或算法来分析、存储和索引所存储的视频信息，例如但不限于，聚类分析、数据挖掘、贝叶斯网络分析、隐马尔可夫模型、人工神经网络分析、逻辑模型和/ 或树分析等。

出于本公开的目的，如上所述，在一些实施例中讨论了作为整体的视频(其存储和位于数据库320中)；然而，不应将其解释为限制本文所讨论的***和方法的应用。也就是说，虽然在整个本公开内容中参考视频 (例如，与实时在线游戏相关联的流传输和/或可下载视频)，但是在不脱离本申请的范围的情况下可以使用其他形式的用户生成的内容和相关信息，包括例如文本、音频、多媒体、RSS种子信息，由此可以由场景-精彩场面分类器引擎300根据这里讨论的***和方法来传送和/或访问以及处理这些信息。

如上所述，参考图1，网络315可以是任何类型的网络，例如但不限于无线网络，局域网(LAN)，广域网(WAN)，因特网或其组合。网络315促进场景-精彩场面分类器引擎300和存储资源320的数据库的连接。实际上，如图3所示，场景-精彩场面分类器引擎300和数据库320可以通过任何已知的或叫来已知的连接和/或启用这些设备和资源之间的通信的方法直接连接。

包括根据本文的专用功能编程的硬件的主处理器、服务器或设备组合为方便起见称为场景-精彩场面分类器引擎300，并包括场景学习模块 302、精彩场面学习模块304、场景分类器模块306、精彩场面分类器模块 308和生成模块310。应当理解，这里讨论的(一个或多个)引擎和模块是非穷举的，因为附加的或更少的引擎和/或模块(或子模块)可适用于所公开的***和方法的实施例。将参考图4A-5讨论每个模块的操作、配置和功能以及它们在本公开的实施例中的作用。

如下面更详细讨论的，由场景-精彩场面分类器引擎300处理的信息可被提供给数据库320，以便确保容纳在数据库320中的信息是最新的，因为所公开的***和方法利用与所接收的流传输视频文件相关联的实时信息和/或行为，如下面更详细地讨论的。

转到图4A-4B和图5，所公开的过程提供用于训练对来自流传输媒体的游戏场景的精彩场面进行评分的预测模型(例如，场景-精彩场面器分类器引擎300)(图4A-4B的过程400)以及在直播流传输视频上实时所训练的模型来从直播流中识别和/或创建精彩场面视频片段(图5的过程 500)的***和方法。

在图4A-4B中，公开了过程400，其详细描述了根据本公开的示例性实施例执行的用于构建场景-精彩场面分类器引擎300将在实时接收(例如，读取)流传输媒体时实施的级联建模技术的步骤。在图4A中，公开了过程400的步骤402-418，其由场景学习模块302执行，而在图4B中，公开了过程400的步骤420-428，其由精彩场面学习模块304执行。

如本文所讨论的，由场景-精彩场面分类器引擎300实施的所学习的级联建模使得能够分析实况流传输视频，并且因此，可以在评估过程的早期丢弃来自视频的非游戏部分，这使得场景-精彩场面分类器引擎300的计算资源能够集中于检测来自仅游戏场景的精彩场面。场景-精彩场面器分类器引擎300的这种架构设置和实现使得能够高效、实时地处理流传输环境中的视频。

为了训练由场景-精彩场面分类器引擎300实现的级联预测模型，将开发用于两层预测的训练数据：一个数据集具有场景类型标签，另一个数据集具有用于标记用于游戏的场景的精彩场面标签。如本文所讨论的，为场景类型标签构建数据集有助于为精彩场面标签创建数据集。

在一些实施例中，如本文所讨论的，所训练/学习的场景-精彩场面分类器引擎300应用引导方法，其启用场景类型的递归注释，其在每次迭代之后逐渐最小化人为干预。在一些实施例中，可以执行迭代直到注释器仅需要复查注释是否正确并且可能执行微小调整的点。一旦场景类型数据集准备就绪，就会提取已识别的“游戏”部分并将其传递给注释器以创建精彩场面数据集。在这方面，注释器复查游戏视频片段/场景并确定哪些片段是精彩场面。在一些实施例中，关于场景是否是精彩场面的注释器输入/反馈可以由注释器在他们观看到游戏场景时按下箭头(例如，向上为“是，精彩场面”或向下为“否，不是精彩场面”)来提供，无需标记场景类型。

过程400开始于步骤402，其中接收第一组输入训练视频。该组输入训练视频可以包括单个视频或多个视频。每个训练视频包括训练帧。例如，给定一组100个训练视频，步骤402可以涉及将100个训练视频中的 20个(例如，视频1-20)提供给场景学习模块302。

在步骤404中，分析来自步骤402的每个接收的训练视频，并识别每个视频内的一组训练帧。在一些实施例中，仅识别来自每个接收的视频内的一组特定帧，并且在一些实施例中，该组训练帧包括所接收的视频的所有帧。

在步骤406中，确定每组识别的帧的标签。在一些实施例中，这种标签可以由人类编辑器(称为注释器)确定。在一些实施例中，注释器将复查在步骤404中识别的那组帧，并且基于每个帧描绘的内容，可以将标签分配给该组帧。所确定/应用的标签提供关于该组帧内描绘的内容类型的指示。例如，如果该组帧描绘了游戏，则该标签将指示该组帧描绘的场景是“游戏”-游戏标签。

在步骤408中，基于所应用的标签编译一组指令。该组指令与场景分类器有关地被存储(在数据库320中)，使得当场景分类器分析与步骤 404-406中的帧的内容相似类型的内容时，场景分类器可以应用相同的标签。

现在，具有与场景分类器相关联地存储的初始指令集，场景分类器被视为已经训练(至少对于初始迭代)。因此，在步骤410中，接收另一组视频。如上所述，在步骤410中接收的视频集可以包括例如另一组20个未标记的视频(例如，视频21-40)。

在步骤412中，将现在训练的场景分类器应用于新的视频集，这导致自动确定新视频的帧的标签。

在步骤414中，如果需要，则复查并校正来自步骤412的自动应用的场景标签。在一些实施例中，步骤414可以由注释器执行。例如，如果标签沿着视频的帧序列放置在错误的位置或者不正确标记(例如，当演播员讲话时标记为游戏)，则注释器可以相应地调整/修改标签。在一些实施例中，由于标签已经被自动应用并且注释器在此仅复查注释准确性，因此因为可能已经应用了正确的标签，所以可增加正被复查的视频场景的回放 (例如，2X)(如下所述，执行步骤410-416的更多迭代的概率增加)。

在步骤416中，基于来自步骤414的注释器的复查/分析来编译新的指令集。类似于步骤408，这些指令与场景分类器有关地被存储，并且将应用于随后接收的(一个或多个)视频。在一些实施例中，指令的存储包括用步骤414的结果更新先前存储的指令。

步骤410-416被递归地执行，直到步骤412-414的自动标签应用和复查过程满足准确性阈值。因此，步骤414还涉及将由注释器做出的对自动应用标签的编辑/修改与准确性阈值进行比较，并且如果比较显示准确性低于准确性阈值，则再次执行步骤410-416。例如，如果注释器将自动学习和应用的场景标签校正了预定次数，则这不能达到准确性阈值，并且必须分析另一组视频以便进一步用精炼的指令训练场景分类器(例如，步骤416)。然而，如果准确性等于或高于准确性阈值，则过程400前进到步骤420。

在步骤420中，从训练视频提取被标有“游戏”标签的片段。这种提取可以通过任何已知的或将来已知的能够基于所应用的标签来提取要提取的视频文件的一部分的提取算法来执行。

在步骤422中，确定每个提取的游戏片段的精彩场面得分。在一些实施例中，精彩场面得分可以由注释器确定。在一些实施例中，执行精彩场面评分注释器的注释器是与上面讨论的场景注释器不同的注释器，并且在一些实施例中，它们可以是相同的注释器。

例如，如果游戏片段在精彩场面阈值处或高于精彩场面阈值描绘精彩场面质量内容(如上所述)，则注释器可以将游戏片段评分为“1”。如果游戏片段没有描绘精彩场面，则注释器可以将游戏片段评分为“0”。在另一个示例中，精彩场面注释器可以在0到100的范围内对游戏片段进行评分，其中超过75的得分描绘精彩场面。

这样，在一些实施例中，基于在步骤422中由精彩场面注释器施加的得分，可以确定精彩场面阈值/范围。例如，如果注释器在0到1的范围对视频进行评分，如上所述，则可以建立用于基于其他游戏片段是否得分为“0”或“1”来确定其他游戏片段是否是精彩场面的精彩场面范围。在另一个示例中，从上面对游戏片段在0到100进行评分的示例中，可以将得分75设置为精彩场面阈值，使得得分在75或高于75的任何游戏片段被标记为精彩场面。

在步骤426中，然后相对于建立的精彩场面阈值/范围对每个提取的游戏片段进行评分，并且基于这样的评分，如在步骤428中，与精彩场面分类器有关地存储指令。以与上面关于步骤408和416讨论的类似方式，针对精彩场面分类器所存储的指令使得将来的游戏片段能够被标记为精彩场面或不被标记为精彩场面，如关于图5的过程500更详细地讨论的。

转到图5，过程500详细描述了根据本公开的示例性实施例执行的用于以完全自动的方式实时检测和呈现流传输游戏视频的精彩场面视频集锦片段步骤。步骤502-508由场景分类器模块306执行，该场景分类器模块 306基于来自过程400的存储的场景指令进行训练，如上所述。步骤510- 514由精彩场面分类器模块308执行，该精彩场面分类器模块308基于来自过程400的存储的精彩场面指令进行训练，如上所述。步骤516-518由生成模块310执行。

过程500开始于步骤502，其中接收新的流传输视频。如上所述，流传输视频可以例如与游戏的直播相关联。因此，步骤502可以例如涉及用户访问网页或打开应用查看由Yahoo！

提供的流传输事件。应该理解，流传输视频的内容可以与任何类型的内容相关联，本申请的功能仍然适用。

步骤502中接收直播流传输的视频广播包括在接收到视频的每个帧时将接收的视频帧读取(或存储)到存储器(例如，数据库320)中。在流传输媒体环境中，视频作为连续的短视频片段流(例如，8秒)而被递送。根据一些实施例，步骤502中接收视频流涉及以预定帧率(例如，每秒5帧)对帧进行子采样。因此，例如，对于8秒长的视频片段，仅要处理40帧。

在步骤504中，自动分析所接收的流传输视频的帧集，以便确定帧的场景类型。步骤504对帧的分析涉及顺序地访问存储的流传输视频的帧。在一些实施例中，帧集可以包括一次一帧、在整个流传输视频的帧内的子帧或预定帧序列(流的帧中的一部分)、或者流传输视频的所有帧。

因此，在一些实施例中，可以一次一帧地从存储器读取帧，并且在一些实施例中，可以根据预定的短帧序列来读取帧。在一次一个地读取帧的实施例中，可以仅基于每个帧的空间布局(例如，帧的顺序，例如，如图 6中所示)来确定场景类型。在读取设定的帧序列的实施例中，基于视频流的空间布局和视频流的时间布局确定场景类型。在一些实施例中，读取设定的帧序列可以导致比通过逐帧分析的分析更高的性能；然而，可能实现增加的计算过程。在任一种情况下，帧集的读取都充当场景分类器模块 306的输入，如本文所讨论的。

在一些实施例中，场景分类器模块306可以实现图像识别软件以确定 (或预测)场景类型。根据一些实施例，由场景分类器模块306实现的图像识别软件可以涉及任何已知的或将来已知的深度学习架构或算法，例如但不限于深度神经网络、人工神经网络(ANN)、卷积神经网络 (CNN)、深度信念网络等。根据一些实施例，场景分类器模块306采用 CNN(然而，不应将其解释为将本公开仅限于CNN的使用，因为任何已知或将来已知的深度学习架构或算法适用于所公开的***和本文讨论的方法)。CNN由多个层组成，其可包括：卷积层、ReLU(修正线性单元) 层、池化层、丢弃层和损失层，如本领域技术人员所理解的。当用于图像识别时，CNN通过分析输入图像的小部分来产生多层深度特征集合。

出于本公开的目的，这些特征/描述符可以包括但不限于由颜色特征、纹理特征、类型特征、边缘特征和/或形状特征等表征(或分类和标记)的图像的视觉特性。这些集合的结果然后被铺开，使它们重叠以获得对原始图像的更好表示；每个CNN层重复一次。CNN可以包括局部或全局池化层，其组合了特征簇的输出。CNN的一个优点是在卷积层中使用共享权重；也就是说，对每层中的每个像素使用相同的滤波器(权重)，从而减少所需的存储器大小并提高性能。与其他图像分类算法相比，CNN使用相对较少的预处理，这避免了对先验知识的依赖以及难以设计的手工制作的特征的存在。

实际上，本领域技术人员应该理解，视频流的特征/属性(或描述符或深度描述符)可以包括视频流中包含的或与其相关联的任何类型的信息、图像数据、视频数据、音频数据、多媒体数据、元数据、或流传输视频文件包含的、从其导出或与其相关联的任何其他已知的或将来已知的内容。例如，在一些实施例中，这样的特征数据可以是与在视频被观看时播放的视频流的图像帧相关联的音频数据。

因此，鉴于上述讨论，步骤504中通过图像识别软件对流传输视频的帧集进行分析(使用CNN进行图像分类)涉及场景分类器模块306按顺序对帧的图像进行一系列变换以返回分类标签作为输出。这种变换可以包括但不限于图像(或单帧)的2D卷积的数值变换、图像序列(或设定的帧序列)的3D卷积、在空间和时间上对局部区域的平均/最大池化、本地响应标准化等。如上所述，CNN图像分类实施例的实现涉及多个层，这些多个层以细到粗的方式表示逐渐增加的抽象级别的输入。例如，低级别层可以将输入图像(来自帧)表示为对若干3×3边缘过滤器的激活，而高级别过滤器可以将输入图像表示为对若干32×32类对象形状过滤器的激活。 CNN分类然后可以包括产生分类标签的最后一层。这种层可以包括任何类型的分类技术或算法，例如softmax函数，然后是argmax操作。

因此，作为在步骤504中执行的分析的结果，如上所述，标签可以应用于流传输视频的每个场景。步骤506。如上所述，例如，这样的标签可以涉及将场景分类为例如“游戏”、“玩游戏”、“游戏角色选择”、“游戏统计”、“游戏玩家”、“解说员”、“观众、“游戏统计”等，或对游戏的视频流内的场景的任何其他类型的分类概括。如上所述，这样的场景标签类型可以最初从场景学习模块302确定并且由场景分类器模块 306应用。

在一些实施例中，一旦确定了流传输视频的视频片段的场景标签，场景分类器模块306可以执行时间平滑软件以便减少场景类型结果的噪声。这种时间平滑软件可以涉及执行任何类型的已知或将来已知的时间平滑技术或算法，包括但不限于加法平滑、卷积、曲线拟合、边缘保持平滑、指数平滑等，在此仅举一些示例。

在步骤508中，确定标记的场景是否是“游戏”场景。也就是说，一旦将标签应用于流传输视频的一个或多个场景，就确定场景是否描绘出现在视频流中的玩游戏或其他类型的场景(例如，描绘解说员、观众、游戏统计的场景)或来自未直接显示玩游戏或活动的游戏的任何其他类型的场景。

如果场景是“游戏”场景-它从步骤506标记为“游戏”场景-那么，过程500前进到步骤510，其中确定游戏场景的得分。

在步骤510中，在一些实施例中，仅对游戏场景进行评分，因为场景- 精彩场面器分类器引擎300被实现为确定玩游戏场景的“精彩场面”。在一些实施例中，对游戏场景的评分由精彩场面分类器模块308执行，该精彩场面分类器模块308实现任何已知或将来已知的图像识别模型来确定精彩场面得分。

以与上述类似的方式，标记为“游戏”场景的场景的帧以逐帧的方式或者以设定帧序列的方式从存储器中被读出(参见上面的步骤504)。类似于步骤506，在一些实施例中，精彩场面分类器模块308实施CNN图像分类模型以分析游戏场景的内容(例如，场景的一个或多个帧)；然而，步骤506和步骤510分析之间的差异在于CNN模型的最后一层产生实值的标量范围，其表示精彩场面得分(而不是标签)。在一些实施例中，例如，步骤510可以涉及最后一层的softmax函数之后是max操作(与 argmax操作相反)。在一些实施例中，在另一示例中，由精彩场面分类器模块308实施的CNN模型的最后一层可以使用任何已知的或将来已知的回归或回归类型技术或算法来实现回归类型函数以产生游戏场景的内容的得分。在一些实施例中，标量范围(或阈值)可以由精彩场面学习模块 304初始确定并由精彩场面分类器模块308应用，如上所述。

在步骤512中，一旦确定了得分，它们与标量范围/阈值进行比较，以便确定游戏场景是否是精彩场面。在步骤514中，如果游戏场景的得分落在标量范围内(例如，[0,1])或者满足精彩场面阈值，则场景被标记为“精彩场面”。过程500然后进行到步骤516。

在一些实施例中，一旦确定了流传输视频中被标记为游戏场景的视频片段的精彩场面标签，精彩场面分类器模块308就可以以与上述类似的方式执行时间平滑软件以降低噪声。

回到步骤508，如果确定游戏场景是另一种类型的场景-即不是“游戏”场景-则将零精彩场面得分分配给这样的场景，并且过程500前进到步骤516。

在步骤516中，输出文件被生成(或创建)并被存储在存储器(例如，数据库320)中。所生成的流传输视频的输出文件包括与所确定并分配的场景标签和精彩场面标签相关联的时间戳信息。这样的信息可以包括但不限于帧索引、场景类型标签、场景标签准确性(或置信度)、精彩场面得分等。

作为步骤502-516的非限制性示例，如上所述使用来自图6的视频流 600，流600的输出文件被生成，并包括以下信息，如下表所示：

帧索引	场景类型	精彩场面得分
			1-3	解说员	0
4	过渡	0
			5-7	游戏	1
8	过渡	0

应当理解，这样的表是所生成的流600的输出文件的非限制性示例，并且不应该被解释为限制可以存储在输出文件中的输出文件或信息的范围。

在步骤518中，被标记为精彩场面游戏片段的游戏片段(例如，来自上述示例的流600的帧5-7)可以被转换成它们自己的独立短形式文件。例如，生成模块310可以使用任何已知的或将来已知的帧/片段变换技术 (例如但不限于imagemagick和gifsicle库，在此仅举一些)从精彩场面游戏片段创建动画GIF。如本文所讨论的，短形式视频的生成可以包括从存储器中提取帧，从存储器复制帧和/或基于所存储的帧的内容创建新帧等。

在一些实施例中，在执行精彩场面视频片段的短形式生成之后，可以将所生成的视频文件传送给用户以在用户的设备上显示。在一些实施例中，这种通信可以涉及在用户的设备上显示时自动渲染精彩场面视频片段，这对于已经请求精彩场面视频片段的用户是理想的。在一些实施例中，这种通信可以涉及用户与另一用户共享精彩场面视频片段。在一些实施例中，可以在精彩场面视频片段生成时自动执行与所识别的一组用户共享精彩场面视频片段，其中不仅请求用户接收到精彩场面视频片段，而且关注该用户或者该用户所识别的其他用户可被提供有所生成的精彩场面视频片段(例如，将精彩场面视频片段转载到

上该用户的关注者页面)。如本领域技术人员将理解的，以这种方式共享从流传输视频中提取的精彩场面视频片段可以改善用户对创建了精彩场面视频片段的视频内容的参与度以及增加了用户在站点/平台(例如，Yahoo！

)上的与流传输媒体视频/精彩场面视频片段相关联的活动。

根据本公开的一些实施例，如上面关于过程500(和/或过程400)所讨论的，与所提取/创建的精彩场面视频片段相关联的信息可以被反馈到场景-精彩场面器分类器引擎300以通过迭代或递归引导或聚合功能对存储在数据库320中的信息进行建模(或训练)。如上所述，这可以提高精彩场面视频片段的得分的准确性。本公开的实施例涉及场景-精彩场面分类器引擎300利用任何已知的或将来已知的开源和/或商业软件机器学习算法、技术来应用这种递归/引导功能。

图7是用于基于与(如上面关于图3-5所讨论的)所识别和/或创建的精彩场面视频片段相关联的信息来提供包括广告(例如，广告内容)的相关数字内容的工作流程示例700。这种信息(为了引用的目的，被称为“精彩场面视频片段信息”)可包括但不限于流传输媒体内的视频片段的标识(例如，帧和标签)、视频片段的属性、视频片段的内容等、和/或它们的一些组合。

如本文所讨论的，对“广告”的提及应被理解为包括但不限于提供另一用户、服务、第三方、实体等所提供的信息的数字内容。这样的数字广告内容可以包括可由计算设备渲染的任何类型的媒体，包括但不限于视频、文本、音频、图像和/或任何其他类型的已知或将来已知的多媒体。在一些实施例中，数字广告内容可以被格式化为提供深度链接特征和/或能力的超链接多媒体内容。

作为非限制性示例，工作流程700包括用户被提供来自最近在Yahoo！

平台上的星际争霸比赛的精彩场面视频片段，如上所述。例如，基于与确定精彩场面视频片段是从星际争霸比赛导出有关的信息，可以向用户提供与从玩星际争霸游戏购买配件相关的数字广告内容。在另一示例中，数字广告内容可以与针对销售星际争霸或其他类似游戏的位置的票券相关。在又一个非限制性示例中，数字广告内容可以与Yahoo！

提供以供用户在

平台内设置或升级其帐户状态的促销相关。

在步骤702中，识别与所创建的精彩场面视频片段文件相关联的精彩场面视频片段信息。如上所述，精彩场面视频片段信息可以基于以上关于图3-5概述的精彩场面视频片段创建过程。出于本公开的目的，过程700 将单个精彩场面视频片段文件称为服务(一个或多个)广告的基础；然而，它不应被解释为限制，因为任何数量的精彩场面视频片段、和/或与用户以及用户与所创建的精彩场面视频片段或流传输媒体的交互相关的信息量可以形成这样的基础，而不脱离本发明的范围。

在步骤704中，基于所识别的精彩场面视频片段信息确定上下文。该上下文形成用于服务与精彩场面视频片段信息相关的广告的基础。在一些实施例中，可以通过确定步骤702的精彩场面视频片段信息所表示的类别来确定上下文。例如，类别可以与创建了精彩场面视频片段的流传输视频的类型相关，和/或可以与精彩场面视频片段文件的内容类型相关。在一些实施例中，来自步骤704的对上下文的识别可以在上文关于方法400-500 或其某些组合详述的分析之前、分析期间和/或分析之后发生。

在步骤706中，利用包括广告服务器130和广告数据库的广告平台传送(或共享)上下文(例如，内容/上下文数据)。在接收到上下文时，广告服务器130在广告数据库中针对相关广告执行搜索。对广告的搜索至少基于所识别的上下文。

在步骤708中，广告服务器130在广告数据库中搜索与所识别的上下文匹配的广告。在步骤710中，基于步骤708的结果选择(或撷取)广告。在一些实施例中，可以修改所选择的广告以符合将要显示广告的页面、消息或方法的属性和/或符合将要显示广告的应用和/或设备。在一些实施例中，通过用户正在利用的应用共享或传送所选择的广告以渲染精彩场面视频片段。步骤712。在一些实施例中，所选择的广告被直接发送到每个用户的计算设备。在一些实施例中，所选择的广告与用户设备上和/或正用于识别、选择和/或渲染精彩场面视频片段文件的应用内所显示的精彩场面视频片段一起显示。

如图8所示，(一个或多个)计算设备、计算***、计算平台、用户设备、机顶盒、智能电视等的内部架构800包括一个或多个处理单元、处理器或处理核(在本文中也称为作为CPU)812，其与至少一个计算机总线802相接口。还与计算机总线802接口的是计算机可读介质或介质 806、网络接口814、存储器804(例如，随机存取存储器(RAM)、运行时瞬态存储器、只读存储器(ROM))、介质盘驱动器接口820(作为可以从介质读取和/或向介质进行写入的驱动器的接口，其中介质包括可移除介质，例如软盘、CD-ROM、DVD、介质)、作为监视器或其他显示设备的接口的显示接口810、作为键盘的接口的键盘接口816、作为鼠标或其他点选设备的接口的点选设备接口818、以及未单独示出的各种其他接口，例如并行和串行端口接口以及通用串行总线(USB)接口。

存储器804与计算机总线802接口，以便在诸如操作***、应用程序、设备驱动程序和包括程序代码和/或计算机可执行进程步骤(结合了本文描述的功能，例如，本文描述的一个或多个处理流程)的软件模块运行期间，将存储在存储器804中的信息提供给CPU 812。CPU 812首先从存储装置(例如存储器804、计算机可读存储介质/介质806、可移除介质驱动器和/或其他存储设备)记载计算机可执行处理步骤。然后，CPU 812可以执行所存储的处理步骤，以便执行加载的计算机可执行处理步骤。在计算机可执行处理步骤的执行期间，CPU812可以访问所存储的数据，例如由存储设备存储的数据。

持久存储装置(例如，一个或多个介质806)可用于存储操作***和一个或多个应用程序。持久存储装置还可以用于存储设备驱动程序，例如数码相机驱动程序、监视器驱动程序、打印机驱动程序、扫描仪驱动程序或其他设备驱动程序中的一个或多个、网页、内容文件、播放列表和其他文件。持久存储装置还可以包括用于实现本公开的一个或多个实施例的程序模块和数据文件，例如(一个或多个)列表选择模块、(一个或多个) 定向信息收集模块、以及(一个或多个)列表通知模块，它们在本公开的实现中的功能和用途在此详细论述。

网络链路828通常使用传输介质通过一个或多个网络向使用或处理该信息的其他设备提供信息通信。例如，网络链路828可以提供通过局域网 824到主计算机826或由网络或因特网服务提供商(ISP)830操作的设备的连接。ISP设备又通过网络中现在通常称为因特网832的公共全球分组交换通信网络提供数据通信服务。

连接到因特网832的称为服务器主机834的计算机托管响应于通过因特网832接收的信息提供服务的过程。例如，服务器主机834托管提供表示用于在显示器810处呈现的视频数据的信息的过程。预期到***800的组件可以以其他计算机***(例如，主机和服务器)内的各种配置来部署。

本公开的至少一些实施例涉及计算机***800用于实现本文描述的一些或所有技术的用途。根据一个实施例，响应于处理单元812执行包含在存储器804中的一个或多个处理器指令的一个或多个序列，由计算机*** 800执行那些技术。这种指令，也称为计算机指令、软件和程序代码，可以从诸如存储设备或网络链路的另一计算机可读介质806读入存储器 804。包含在存储器804中的指令序列的执行使处理单元812执行这里描述的一个或多个方法步骤。在替代实施例中，可以使用诸如ASIC的硬件来代替软件或与软件组合。因此，除非本文另有明确说明，否则本公开的实施例不限于硬件和软件的任何特定组合。

通过网络链路和其他网络传输通信接口传输的信号将信息携带到计算机***800以及从计算机***800携带出信息。计算机***800可以通过网络、通过网络链路和通信接口等发送和接收包括程序代码的信息。在使用因特网的示例中，服务器主机通过因特网、ISP设备、局域网和通信接口传送从计算机发出的请求所请求的针对特征应用的程序代码。所接收的代码可以在处理器802中在接收时被执行，或者可以存储在存储器804中或存储在存储设备或其他非易失性存储器中以供稍后执行，或者两者都有。

出于本公开的目的，模块是软件、硬件或固件(或其组合)***、过程或功能或其组件，其执行或促进本文描述的过程、特征和/或功能(有或没有人类互动或增强)。模块可以包括子模块。模块的软件组件可以存储在计算机可读介质上以供处理器执行。模块可以是一个或多个服务器的组成部分，或者由一个或多个服务器加载和执行。可以将一个或多个模块分组为引擎或应用程序。

出于本公开的目的，术语“用户”、“订户”、“消费者”或“客户”应该被理解为指代如本文所述的一个或多个应用的用户和/或是对于由数据提供商提供的数据的消费者。作为示例而非限制，术语“用户”或“订户”可以指在浏览器会话中通过因特网接收由数据或服务提供商提供的数据的人，或者可以指代接收数据并存储或处理数据的自动软件应用。

本领域技术人员将认识到，本公开的方法和***可以以许多方式实现，并且因此不受前述示例性实施例和示例的限制。换句话说，由硬件和软件或固件的各种组合中的单个或多个组件执行的功能元件以及各个功能可以分布在客户端级别或服务器级别或二者的软件应用中。在这方面，本文描述的不同实施例的任何数量的特征可以组合成单个或多个实施例，并且具有少于或多于本文描述的所有特征的替代实施例是可能的。

功能也可以全部或部分地以现在已知或将来已知的方式分布在多个组件中。因此，万千软件/硬件/固件组合可用于实现本文所述的功能、特征、接口和偏好。此外，本公开的范围涵盖用于执行所描述的特征和功能和接口的常规已知方式以及对这里描述的硬件或软件或固件组件进行的那些变化和修改，正如本领域技术人员现在和将来所理解的那样。

此外，借助于示例提供了如本公开中的流程图所呈现和描述的方法的实施例，以便提供对该技术的更全面的理解。所公开的方法不限于这里给出的操作和逻辑流程。可以预到替代实施例，其中各种操作的顺序被改变了，并且其中被描述为作为较大操作的一部分的子操作是独立执行的。

虽然已经出于本公开的目的描述了各种实施例，但是不应认为这些实施例将本公开的教导限制于那些实施例。可以对上述元件和操作进行各种改变和修改，以获得保持在本公开中描述的***和过程的范围内的结果。

Claims

1.一种用于从流传输视频自动检测和渲染精彩场面的方法，包括步骤：

在计算设备处接收包括多个内容帧的视频流，所述视频流包括通过网络广播的当前发生的直播事件；

当所述流正在被接收时，通过所述计算设备经由第一图像识别软件来分析来自所述视频流的多个帧中的帧集，所述分析包括经由所述第一图像识别软件对所述帧集内的帧内容执行转换，从而识别所述帧内容的属性；

通过所述计算设备训练深度学习算法，所述训练包括：

基于第一组训练视频的帧的属性确定并存储所述帧的标签，所述标签包括关于由所述训练视频的帧的内容描绘的场景类型，并且所述标签与预定的机器学习属性集相关联；

通过所述第一图像识别软件自动将所述标签应用于第二组训练视频；

对自动应用的标签进行分析并调整被识别为不正确的自动应用的标签；

基于所述分析更新与所述标签相关联的指示；

通过所述计算设备藉由基于帧内容转换确定所述帧集中描绘的场景类型是游戏场景还是非游戏场景来对所述场景类型进行分类，所述分类包括向所述帧集中的帧应用所述深度学习算法，所述深度学习算法包括多层，每层产生针对给定帧的特征集合，并且所述深度学习算法对于每个帧将与每层相关联的特征集重叠，对重叠的特征集进行池化并基于池化的特征集为所述帧集分配标签；

通过所述计算设备基于所分配的标签来确定所述场景类型是游戏场景，所述游戏场景包括与在所述直播事件中发生的游戏相关联的内容；

当确定所述场景类型是非游戏场景时，通过所述计算设备丢弃所述帧集；

当确定所述场景类型是游戏场景时，通过所述计算设备确定所述游戏场景内的内容是精彩场面，并基于该确定来将所述游戏场景指定为精彩场面，所述确定包括通过经由第二图像识别软件分析所述游戏场景的帧来计算所述游戏场景的精彩场面得分并确定来自所述第二图像识别软件的输出满足阈值，所述输出基于由所述第二图像识别软件执行的所述游戏场景中的帧内容的属性与预定机器学习精彩场面属性集的比较；

通过所述计算设备生成对应于所述视频流的输出文件，所述输出文件包括与至少所述场景标签和精彩场面得分相关联的带时间戳信息；并且

通过所述计算设备基于所述输出文件来自动创建来自所述视频流的精彩场面视频片段，所述精彩场面视频片段从所述输出文件中标识的所述视频流的帧创建并将所述视频流的帧包括作为所述游戏场景和精彩场面。

2.如权利要求1所述的方法，还包括：

通过所述网络将所述精彩场面视频片段传送给用户，所述传送在所述精彩场面视频片段被创建了时自动发生。

3.如权利要求1所述的方法，还包括：

确定所述场景类型是与所述游戏场景不同的场景类型；

为所述帧集指定零精彩场面得分，这指示场景不是精彩场面；并且

将与所述不同场景类型和零精彩场面得分相关联的信息存储在所述输出文件中。

4.如权利要求1所述的方法，还包括：

接收第一组输入训练视频；

基于所述训练视频中的帧的属性来确定所述训练视频的帧的标签，其中所述标签包括关于由所述训练视频的帧的内容描绘的场景类型的指示；

将所述标签存储在数据库中以供所述第一图像识别软件使用，其中所述标签与所述预定机器学习属性集相关联。

5.如权利要求1所述的方法，还包括：检测所述自动应用的标签的准确性。

6.如权利要求5所述的方法，其中，当所述准确性不满足准确性阈值时，重复所述训练直到所述准确性满足准确性阈值。

7.如权利要求5所述的方法，其中，当所述准确性满足所述准确性阈值时，所述方法还包括：

确定所述训练视频中被标记为游戏场景的每个场景的精彩场面得分；

基于所述精彩场面得分来将每个游戏场景标记为精彩场面；

将所标记的游戏场景存储在数据库中以供所述第二图像识别软件使用，其中所标记的游戏场景与所述预定机器学习精彩场面属性集相关联。

8.如权利要求1所述的方法，其中所述帧集包括所述视频流的单个帧，其中对所述帧集的分析基于所接收的所述视频流的帧的空间布局。

9.如权利要求1所述的方法，其中所述帧集包括所述视频流的帧序列，其中对所述帧集的分析基于所接收的帧的空间布局和所接收的帧的时间布局。

10.如权利要求1所述的方法，其中由所述第一图像识别软件执行的所述转换包括卷积神经网络CNN图像分类，其中所述CNN图像分类包括具有softmax函数和argmax运算的最后一层。

11.如权利要求1所述的方法，其中，所述第二图像识别软件包括卷积神经网络CNN图像分类，其中，所述CNN图像分类包括自以下各项组成的组中选择的功能的最后一层：softmax函数、max运算、以及回归型函数。

12.如权利要求1所述的方法，还包括：

将接收到的所述视频流的每个帧按接收时的原样存储在存储器中；并且

从所存储的接收的帧中识别所述帧集。

13.如权利要求1所述的方法，还包括：

确定所述精彩场面视频片段的上下文；

使得通过所述网络将所述上下文传送到广告平台以获得与所述上下文相关联的数字广告内容；

将包括所识别的数字广告内容的数字内容对象与所述精彩场面视频片段一起传送给用户。

14.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质被有形地编码有计算机可执行指令，所述计算机可执行指令当由与计算设备相关联的处理器执行时，执行一种方法，所述方法包括：

接收包括多个内容帧的视频流，所述视频流包括通过网络广播的当前发生的直播事件；

当所述流正在被接收时，经由第一图像识别软件来分析来自所述视频流的多个帧中的帧集，所述分析包括经由所述第一图像识别软件对所述帧集内的帧内容执行转换，从而识别所述帧内容的属性；

通过所述计算设备训练深度学习算法，所述训练包括：

基于所述分析更新与所述标签相关联的指示；

藉由基于帧内容转换来确定所述帧集中描绘的场景类型是游戏场景还是非游戏场景来对所述帧集中描绘的场景类型进行分类，所述分类包括向所述帧集中的帧应用所述深度学习算法，所述深度学习算法包括多层，每层产生针对给定帧的特征集合，并且所述深度学习算法对于每个帧将与每层相关联的特征集重叠，对重叠的特征集进行池化并基于池化的特征集为所述帧集分配标签；

基于所分配的标签来确定所述场景类型是游戏场景，所述游戏场景包括与在所述直播事件中发生的游戏相关联的内容；

当确定所述场景类型是游戏场景时，确定所述游戏场景内的内容是精彩场面，并基于该确定来将所述游戏场景指定为精彩场面，所述确定包括通过经由第二图像识别软件分析所述游戏场景的帧来计算所述游戏场景的精彩场面得分并确定来自所述第二图像识别软件的输出满足阈值，所述输出基于由所述第二图像识别软件执行的所述游戏场景中的帧内容的属性与预定机器学习精彩场面属性集的比较；并且

通过所述计算设备生成对应于所述视频流的输出文件，所述输出文件包括与至少所述场景标签和精彩场面得分相关联的带时间戳信息；

基于所述输出文件来自动创建来自所述视频流的精彩场面视频片段，所述精彩场面视频片段从所述输出文件中标识的所述视频流的帧创建并将所述视频流的帧包括作为所述游戏场景和精彩场面。

15.如权利要求14所述的非暂态计算机可读存储介质，其中所述方法还包括：

16.如权利要求14所述的非暂态计算机可读存储介质，其中所述方法还包括：

确定所述场景类型是与所述游戏场景不同的场景类型；

为所述帧集指定为零的精彩场面得分，这指示场景不是精彩场面；并且

17.如权利要求14所述的非暂态计算机可读存储介质，其中所述方法还包括：确定所述自动应用的标签的准确性。

18.如权利要求17所述的非暂态计算机可读存储介质，其中当所述准确性不满足准确性阈值时，重复所述训练直到所述准确性满足准确性阈值；

其中当所述准确性满足所述准确性阈值时，所述方法还包括：

基于所述精彩场面得分来将每个游戏场景标记为精彩场面；

将所标记的游戏场景存储在数据库中以供所述第二图像识别软件使用。

19.如权利要求14所述的非暂态计算机可读存储介质，其中所述方法还包括：

从所存储的接收的帧中识别所述帧集。

20.一种用于从流传输视频自动检测和渲染精彩场面的计算设备，包括：

处理器；

非暂态计算机可读存储介质，所述非暂态计算机可读存储介质有形地存储供所述处理器执行的程序逻辑，所述程序逻辑包括：

供所述处理器执行以在计算设备处接收包括多个内容帧的视频流的逻辑，所述视频流包括通过网络广播的当前发生的直播事件；

供所述处理器执行以当所述流正在被接收时通过所述计算设备经由第一图像识别软件来分析来自所述视频流的多个帧中的帧集的逻辑，所述分析包括经由所述第一图像识别软件对所述帧集内的帧内容执行转换，从而识别所述帧内容的属性；

供所述处理器执行以通过所述计算设备训练深度学习算法的逻辑，所述训练包括：

基于所述分析更新与所述标签相关联的指示；

供所述处理器执行以通过所述计算设备藉由基于帧内容转换确定所述帧集中描绘的场景类型是游戏场景还是非游戏场景来对所述帧集中描绘的场景类型进行分类的逻辑，所述分类包括向所述帧集中的帧应用所述深度学习算法，所述深度学习算法包括多层，每层产生针对给定帧的特征集合，并且所述深度学习算法对于每个帧将与每层相关联的特征集重叠，对重叠的特征集进行池化并基于池化的特征集为所述帧集分配标签；

供所述处理器执行以通过所述计算设备基于所分配的标签来确定所述场景类型是游戏场景的逻辑，所述游戏场景包括与在所述直播事件中发生的游戏相关联的内容；

供所述处理器执行当确定所述场景类型是非游戏场景时通过所述计算设备丢弃所述帧集的逻辑；

供所述处理器执行以当确定所述场景类型是游戏场景时通过所述计算设备确定所述游戏场景内的内容是精彩场面并基于该确定来将所述游戏场景指定为精彩场面的逻辑，所述确定包括通过经由第二图像识别软件分析所述游戏场景的帧来计算所述游戏场景的精彩场面得分并确定来自所述第二图像识别软件的输出满足阈值，所述输出基于由所述第二图像识别软件执行的所述游戏场景中的帧内容的属性与预定机器学习精彩场面属性集的比较；

供所述处理器执行以通过所述计算设备生成对应于所述视频流的输出文件的逻辑，所述输出文件包括与至少所述场景标签和精彩场面得分相关联的带时间戳信息；并且

供所述处理器执行以通过所述计算设备基于所述输出文件来自动创建来自所述视频流的精彩场面视频片段的逻辑，所述精彩场面视频片段从所述输出文件中标识的所述视频流的帧创建并将所述视频流的帧包括作为所述游戏场景和精彩场面。