CN108632640A

CN108632640A - 预测未来***区域元数据

Info

Publication number: CN108632640A
Application number: CN201810251148.0A
Authority: CN
Inventors: 提姆·哈里斯; 菲利普·麦克劳克伦; 戴维·奥克
Original assignee: Riyadh Advertising Public Ltd By Share Ltd
Current assignee: Riyadh Advertising Public Ltd By Share Ltd; Mirriad Advertising PLC
Priority date: 2017-03-24
Filing date: 2018-03-26
Publication date: 2018-10-09
Anticipated expiration: 2038-03-26
Also published as: US20200210713A1; US10909383B2; US20180276479A1; CN108632640B; EP3379837B1; EP3379837A1; US10592752B2; BR102018005942A2

Abstract

本公开的各方面旨在改进用于将额外材料包含到源视频数据内的方法和***。特别地，本公开的方法可以使用预先存在的源视频数据的语料库来产生、测试和改善预测模型，以使得能够预测置入机会的特征。可以使用获得关于置入机会的元数据的视频分析技术并且还通过识别与源视频相关的分类特征来创建该模型，可以作为具有源视频的元数据来提供或者通过下面描述的图像处理技术来获得所述源视频。使用该模型，然后，该方法和***可以用于为项目创建***区域特征的预测，对于这些项目，源视频尚不可用，但是对应于所识别的分类特征的信息是已知的。

Description

预测未来***区域元数据

技术领域

本公开涉及一种用于预测视频置入机会的存在和特征的方法和***。

背景技术

随着数字文件处理的出现，可以以数字方式将对象***到视频中。为了以数字方式将对象***到视频中，首先必须识别数字对象***的机会。然后，必须评估这个机会，以确定以数字方式***对象的价值或益处。如果确定在将数字对象***视频中时具有足够的益处或价值，则可以开始数字对象***的过程。

以数字方式将对象***到视频中可能有很多益处，例如，增强视频的视觉效果，或者提高视频的真实感，或者在视频拍摄后为视频提供更大的灵活性，这意味着需要对在拍摄场景的阶段包含在场景中的对象做出更少的决定。因此，数字对象***变得日益普遍并被视频制作者用于各种目的。

然而，识别数字对象***的潜在机会，然后对其进行评估，通常是耗时且劳动密集的过程。在由人工进行识别和评估的情况下，可能非常耗时且是人力资源密集型的。在由软件执行识别和评估的情况下，计算开销可能很大并且需要大量计算资源。一些视频可能只有极少数(如果有的话)机会来进行充分有益或有价值的数字对象***，但这只能在执行耗时的识别和评估过程之后才能确定。随着数字对象***越来越普遍，现有的分析和评估技术对资源效率的不利影响越来越大，特别是对于长度很大的视频，例如，电影或电视节目的剧集/节目。

为了解释分析和评估的阶段，首先有助于定义可以帮助理解该过程的某个术语。视频可能包括一系列‘镜头’。可以通过剪辑来划定镜头，其中，相机停止录制，或者其中，编辑视频材料，以给出这种印象。在第一步骤中，可以识别数字对象***的机会。这通常称为预分析过程，最好通过识别视频内的场景来进行，特别是从相同的相机位置拍摄的场景。多年来，众所周知如何使用镜头变化检测来自动将视频分割成场景。该预分析可能包括许多其他过程，并可能导致排序过程，在该排序过程中，所有相似镜头或同一场所的镜头一起呈现。***机会相关并一起呈现的相似镜头或来自同一场所的镜头有时称为‘嵌入序列’。人类通常善于通过手动分析来识别数字对象***的‘良好’机会。例如，一罐速溶咖啡可能适合厨房场景，但咖啡罐在浴室场景或户外沙漠场景中看起来不合适。举例来说，可以确定场景中的厨房台面有利于数字***杂货产品。然而，以这种方式分析视频(特别是长视频)可能非常耗时，并且如果识别出很少或没有识别出对象***机会，则该时间可能会浪费资源。

为了评估已识别的机会，重要的是，注意相机花费多长时间查看数字对象***的已识别位置，例如，厨房台面。例如，如果只是一个短暂的镜头，则该场景不太可能表示数字对象***的好机会。另一方面，如果厨房中的场景很长，并且在这个持续时间内看到适合于对象***的区域，则在那里以数字方式***对象可能具有显着的益处。同样，作为评估的一部分，确定在视频中出现该场景的次数也很重要。出于显而易见的原因，保持时间一致性是重要的，即，每次在视频中出现该场景时都在相同的位置具有相同的物品。

可能需要通过呈现预览图像(通常低于最终分辨率)来创建数字对象机会的模型，在该图像中具有蓝色方框或圆柱体，以表示(尚未指定的)要置入的对象。这可以帮助通过允许可视化以数字方式***的对象的定位来进一步评估数字对象***的机会的价值。也可能需要创建关于潜在机会的评估报告，列出可以在多少场景上看到以数字方式***的对象的总时间。重要的是要认识到，该视频可能是一系列视频的一部分(例如，视频可能是电视节目的连续剧或电视季中的一个剧集或者节目)，这意味着相同的场景、场所、人物可能会在每个剧集或节目中重新出现。在这种情况下，评估可能会跨越连续剧/电视季中的部分或全部剧集/节目，因为在多个剧集/节目中，数字对象***的真实价值可能是最佳的。

以数字方式将对象***到视频以及可能需要其的许多背景中，可能有很多原因。在某些情况下，可能需要增强视觉效果。在其他情况下，可能需要在视频中包括录制视频时未考虑的额外物品。在其他情况下，可以***特定产品，以便用作广告形式。无论背景或目的如何，以数字方式将对象***到视频中时，都可能具有价值和/或许多益处，但识别和评估过程在技术上是复杂且苛刻的，并且如果没有识别足够数量的有价值/有利的数字对象***机会，则可以无效使用资源。

发明内容

本公开的各方面旨在改进用于视频处理的方法和***，从而导致将额外材料包含到视频内(包括在***额外材料之前和/或之后评估视频)。特别地，在本公开的一个方面中，使用预先存在的源视频数据的语料库来产生、测试和改善预测模型，以使得能够预测置入机会的特征。使用获得关于置入机会的元数据(在本公开中，称为“***区域”)的视频分析技术并且通过额外识别与源视频相关的分类特征来创建该预测模型，可以作为具有源视频的元数据来提供或者通过下面描述的图像处理技术来获得所述源视频。使用该预测模型，然后，该方法和***可以用于为项目创建***区域特征的预测，对于这些项目，源视频尚不可用，但是对应于所识别的分类特征的信息是已知的。一旦未来***区域的特征的预测(即，关于定义其特性的***区域元数据)是已知的，则可以为视频的各个部分或者甚至视频的新系列的置入机会生成质量分数，并且这可以根据与预测的未来***区域特征相匹配的客户端用户简档的特征，提供给客户端用户平台。

根据本公开的第一方面，提供了一种用于确定新视频的***区域元数据的计算机实现的方法，所述方法包括：获得与所述新视频相关的分类元数据，所述分类元数据包括至少一个分类变量；为所述至少一个分类变量中的每一个获得相关联的***值；并且至少部分地基于所述至少一个***值来确定所述新视频的***区域元数据，其中，所述新视频的***区域元数据包括所述新视频的至少一个对应***区域特征的至少一个预测值。

例如，***值可以是量、数量或度量，或者可以指示量、数量或度量(例如，可以是与特定数值相关的量，例如，指向特定数值的指示器)，该量可以用于确定至少一个对应***区域特征的至少一个预测值。例如，可以定义所述至少一个分类变量与和源视频相关的一个或多个***区域特征之间的相关性，使得可以根据***值来确定一个或多个***区域特征的预测值。

至少一个对应的***区域特征的预测值可以是可以描述或定义***区域特征的大小或重要性或规模的任何合适的量值、量或数量。例如，预测值可以是***区域特征(例如，***区域的持续时间)的时间度量(例如，秒数)，或者可以是图像帧等的尺寸度量，例如，以mm²或cm²为单位的尺寸或者帧大小的百分比等。

获得***值可以包括以数字方式分析源视频，以获得源视频***区域元数据，所述源视频***区域元数据包括源视频的对应***区域特征的至少一个值。

优选地，以数字方式分析源视频包括分析源视频的多个实例，源视频的每个实例共同具有至少一个分类变量。两个或更多个源视频都共同具有的分类变量可以是新视频的一个或多个分类变量。例如，新视频可用于由特定导演(导演X)执导的节目(节目A)的新系列剧集。新视频的分类元数据因此可以包括分类变量“节目：节目A”和“导演：导演X”。因此，两个或更多个源视频可能均具有分类变量“节目：节目A”和/或“导演：导演X”。

该方法还可以包括为分类变量创建预测函数，所述预测函数取决于为源视频获得的***区域特征的至少一个值，并且所述预测函数为分类变量提供一个或多个***值。

该方法还可以包括基于新视频的至少一个对应***区域特征的至少一个预测值来确定视频影响分数。

可以使用高斯过程回归技术来评估***区域特征的值。

分类变量可以涉及以下的一个或多个：视频内容类型；视频内容长度；视频内容制作人；视频内容人员；视频内容的年龄；目标受众；地理分布；预期分销渠道(例如，电视广播和/或数字在线)；广告资料(例如，赞助、产品置入和广告休息、前贴片广告、插播广告、后贴片广告)；第三方分析(例如，社交网络响应)；和/或视频内容制作时间。

所述一个或多个***区域特征可以涉及以下特征中的至少一个：***区域位置；***区域大小；***区域持续时间；***区域场所；***区域字符交互；***区域注意值；***区域邻近；***区域定向；***区域模糊；***区域男主角状态；和/或***区域重复。

获得***值可以包括应用机器学习，例如，应用高斯过程回归技术或贝叶斯混合模型或这两者的组合。

确定***区域元数据还可以以客户端用户偏好数据为基础；

获得与分类变量相关联的***值可以包括利用以下特征中的一个或多个识别源视频中存在的分类变量：面部识别技术、光学字符识别、卷积神经网络处理、计算机视觉技术、从源视频或外部数据库中读取媒体元数据、或人工注释。

该方法还可以包括确定***区域元数据的预测值与一个或多个客户端用户简档之间的相关性，所述客户端用户简档包括用于***区域特征的优选值，并且将预测***区域元数据信息传送给具有与***区域特征的预测值相关的***区域特征的优选值的客户端用户。

在本公开的另一方面中，提供了一种其上存储有计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在由计算装置执行时促使所述计算装置执行上述方法。

在本公开的另一方面中，提供了一种电子装置(例如，台式计算机、或服务器、或移动电子装置，例如，智能手机、平板电脑或膝上型电脑)，其被配置为执行上述方法。

在另一方面中，提供了一种用于确定新视频的***区域元数据的***(例如，可以共同定位或位于不同地理位置的多个互连实体、模块或装置)，所述***包括：一个或多个处理器；以及一个或多个存储器模块，其中，所述存储器模块被配置为存储计算机可执行指令，所述计算机可执行指令在所述一个或多个处理器上执行时促使所述***：获得与所述新视频相关的分类元数据，所述分类元数据包括至少一个分类变量；为所述至少一个分类变量中的每一个获得相关联的***值；并且至少部分地基于所述至少一个***值来确定所述新视频的***区域元数据，其中，所述新视频的***区域元数据包括所述新视频的至少一个对应***区域特征的至少一个预测值。

附图说明

通过仅通过示例呈现的实施例的以下描述并且通过参考附图，本公开的其他特征和优点将变得显而易见，其中，相同的附图标记表示相同的部分，并且其中：

图1是示出根据本公开的各方面的***的示意图；

图2是示出根据本公开的过程的概述的流程图；

图3是示出根据本公开的源视频分析的过程的流程图；以及

图4是概述根据本公开的创建预测模型和产生***值的流程图。

具体实施方式

本公开涉及使用与新视频相关的分类元数据(包括至少一个分类变量，例如，视频内容制作者、视频内容长度等)来确定新视频的***区域元数据。以这种方式，甚至在新视频尚不可用于详细分析(例如，因为仅仅具有剧本的形式并且还没有拍摄)的情况下，可以针对新视频进行***区域元数据的预测。因此，***区域元数据可以提供在新视频中***对象的可能性的快速度量(例如，可以确定新视频中可能存在多少潜在的数字对象***区域机会和/或***区域机会的长度和/或***区域机会的质量等)。因此，对用于数字对象***机会的视频的详细评估/分析可能被限制为具有充分的潜力以证明详细评估/分析的计算资源合理化的视频，从而提高计算效率。

在属于本申请人的授权美国专利9294822B2中，描述了“远程访问在线目录，其包含可用于自动计算数字广告部件的置入的货币价值的一个或多个度量，其中，在数字广告置入之前，确定度量和货币值”。该文件还继续描述“与视频材料相关的一个或多个度量包括视频材料的适合置入数字广告部件的选定部分的长度、置入区域的大小、视频材料的持续时间、预测的观众大小、预测的观众人口统计、置入区域的数量、视频材料内的置入区域的总时间、平均置入区域长度以及平均剧集置入区域长度”。描述的技术可以用于NativeIn Video Advertising(NIVA)考虑中的材料上，以通过依次检查每个场景或场所来评估或确定机会数量。

本公开使用视频分析技术来预测不可用于分析的材料的广告置入的特性。有几种情况会引起对此的需求，这将在下面进一步解释。

本公开的一个方面涉及还没有拍摄连续剧的后期剧集的情况。因为没有拍摄，所以不能分析。另一种情况可能是开通一个流行节目的新电视季。例如，这可能是流行的‘生活大***理论’连续剧的又一季。第三种情况可能是材料无法分析。无法将物理载体材料(磁盘组、磁带等)发送到进行评估的地点，或者材料之所以无法送去评估是因为存在安全或合同原因。

图1是示出根据本公开的各方面的示例视频处理***100的示意图。视频处理***的子***可以经由一个或多个数据通信网络(未示出)耦合。在一些方面，子***可以经由互联网彼此耦合。

除了其他以外，在本文中称为“源”集线器的子***102还在视频处理***100中执行视频数据分析。源集线器102可以检索源视频数据，作为一个或多个数字文件，例如，在数字或模拟视频或数据磁带上、在数字多功能光盘(DVD)上、通过高速计算机网络、经由互联网、在一个或多个可移动磁盘驱动器上或以其他方式，提供所述源视频数据。在一个示例中，由分发者提供源视频数据。在另一示例中，由内容所有者104提供源视频数据。

源视频数据包括视频材料的帧。将在一个位置内设置的视频材料的连续帧称为镜头。源集线器102可以包括视频数据分析模块，该模块相对于源视频数据执行预分析。可以使用适当的软件来执行这种分析，该软件允许将对象以数字方式放置到现有视频材料中。预分析可以完全自动化，因为不涉及任何人为干预。

视频数据分析模块可以用于相对于源视频数据执行预分析过程，以识别源视频数据中的一个或多个镜头。这可能涉及使用现在将更详细地描述的镜头检测和/或连续性检测。

如下面将要描述的，预分析可以包括镜头检测功能、连续性检测功能和/或跟踪功能中的一个或多个。

镜头检测功能用于识别视频数据中的不同镜头之间的边界。例如，视频数据分析模块自动检测不同镜头之间的“硬”和“软”剪辑，其分别对应于硬转换和软转换。硬剪辑对应于视频数据中两个连续帧之间的视觉相似性的突变。软剪辑对应于软转换的开始或结束(例如，擦除和交叉衰落转换)，其特征在于多个帧上的视觉外观的显着但逐渐变化。

连续性检测功能用于识别视频数据中的相似镜头(一旦检测到)。如上所述，这可以用来增加识别在给定场景中的每个(相似)镜头的可能性，这可能是数字对象置入背景下的益处。例如，如所讨论的，应该保持要***的对象与已经识别的镜头的背景之间的联系。对于每个检测到的镜头，镜头相似性算法自动检测在源视频数据中的视觉上相似的镜头。相似性检测可以基于帧之间的匹配，其捕捉背景和照明的总体全局相似性。可以用来识别作为给定场景的一部分的镜头，以便加速选择镜头的过程，这些镜头应该基于其彼此相似来聚集在一起。

跟踪(例如，2D点跟踪)功能检测并跟踪视频数据中的多个点特征。这涉及使用跟踪算法来检测和跟踪连续帧之间的特征点。特征点对应于图像内的作为视觉外观的特征的位置；换言之，显示强烈的对比度(例如，明亮背景上的黑暗角落)。通过比较其相邻像素的相似性，在下一帧中找到其位置，来跟踪特征。

源集线器102可以分析源视频数据，以找到适合于接收一个或多个额外视频元件的源视频数据内的区域。适合于接收额外视频数据的源视频数据内的区域称为***区域。前述段落中提到的预分析允许创建与所识别的***区域的质量相关的***区域元数据。***区域元数据包括但不限于***区域的位置、大小和持续时间中的至少一个，并且在下面更全面地描述。

源集线器102可以设置有一个或多个模块，用于确定要***到视频中的对象的特性。

跟踪模块可用于确定在添加到视频材料中时以数字方式置入的对象的位置应该如何变化，例如，考虑录制视频材料的相机的任何运动。跟踪可以是自动的和/或可能涉及人为干预。

考虑到可能已经存在于视频材料中的其他对象，掩蔽模块可用于评估如何处理要以数字方式置入视频材料中的对象的遮挡(如果有的话)。掩蔽评估可以是自动的和/或可能涉及人为干预。

外观建模模块可用于确定与以数字方式置入的对象有关的期望外观，例如，使用模糊、纹理、高光、3D照明和其他效果。外观建模可以是自动的和/或可能涉及人为干预。

这些模块都提供了进一步的***区域元数据，这些元数据可以定义***区域的质量，可以记录，例如，***区域是否经受运动模糊、移动对象的遮挡、对象***到***区域的成本/难度等，以便将置入机会分级为例如希望将其产品或服务放置在视频中的潜在品牌或广告商或多或少可期望的。

***100中的机器学习模块106接收来自源集线器102的视频内容，并且从元数据导出在源视频内容中找到的***区域的特征的模型及其与视频内容本身的特征的关系，下面进一步详细描述。

新视频数据存储器108包括数据存储器，在其中存储与新视频相关的分类元数据以及可选的新视频内容本身。例如，可以由诸如Netflix等外部实体或由拥有和/或操作***100的一些或所有其余部分的实体拥有和/或操作。新视频数据存储器108(该存储器是用于新视频的数据存储器)向预测模块110提供包括与新视频内容相关的分类变量和连续变量的元数据。预测模块110使用与分类变量和可选地从由机器学习模块106分析的源视频内容获得的连续变量相关联的***值，并将这些与和从新视频数据存储器108提供的新视频内容有关的分类元数据组合，以获得对可能存在于新视频内容中的***区域的预期特征的预测，而不呈现新视频内容本身。这在下面进一步详细描述。

在一些方面中，根据下面描述的分析技术，已经获得新视频内容的***机会的预期特征的预测，预测模块110可以可选地执行客户偏好数据库112的搜索，在该数据库中存储与可能希望有机会以数字方式将对象放置到新视频内容的一个或多个场景中的现有或潜在的客户相关的偏好数据。偏好数据可以包括但不限于以下中的至少一个：***区域的最小尺寸、***区域的最小/最大持续时间、***区域的最小/最大频率、遮挡容限值、与由客户端用户提供的产品或品牌相关的语义信息等。预测模块110可以确定在新视频中的***机会的预测预期特征与所存储的偏好数据之间是否存在匹配或相关性。以这种方式，如上所述，可以基于获得的分类变量和为新视频确定的对应***区域特征，使第三方知道与其存储在偏好数据库112中的偏好标准相匹配的置入机会。

对新视频中的***机会的预期特征的预测可以传送到预测存储模块130，该预测存储模块130例如可以包括数据库或任何其他合适的数据存储装置。

图2示出了根据本公开的过程的高级概述。下面将更详细地描述该过程的每个步骤，但总的来说：

在步骤200中，由预测模块110获得与新视频相关的分类元数据；

在步骤202中，预测模块110分别获取与分类元数据中的每个分类变量相关联的***值；

在步骤204中，至少部分地基于所述至少一个***值来确定与新视频相关的***区域元数据。所确定的***区域元数据是基于在步骤200中获得的新视频的分类变量的特定组合预测可能存在于新视频中的***区域的性质。

步骤200：获得与新视频相关的分类元数据

在步骤200中，预测模块110获取与新视频相关的分类元数据。分类元数据包括至少一个分类变量。分类变量的示例是：视频内容类型；视频内容长度；视频内容制作人；视频内容人员；视频内容的年龄；目标受众；地理分布；预期分销渠道(例如，电视广播和/或数字在线)；广告资料(例如，赞助、产品置入和广告休息、前贴片广告、插播广告、后贴片广告)；第三方分析(例如，社交网络响应)；和/或视频内容制作时间。

预测模块110可以例如通过从新视频数据存储器108中检索(‘拉’操作)或者从新视频数据存储器108中接收分类元数据，来从新视频数据存储器108中获得该分类元数据(‘推’操作)。

可能已经以任何适当的方式获得或确定与新视频相关的元数据。例如，在一些实现方式中，尚未拍摄的连续剧或剧集存在剧本(即，用于‘新视频’的剧本)。在这种情况下，可以以数字方式分析剧本，以确定至少一个分类变量、和/或其关联的制作信息(例如，制作组和/或演员表和/或位置)可以用作至少一个分类变量。数字分析可以包含计算机辅助定性数据分析、光学字符识别或其他计算语言学技术中的一个或多个。

步骤202：获取关联的***值

在步骤202中，预测模块110获得与和新视频相关的分类元数据中的至少一个分类变量中的每一个相关联的***值。如参考图3和4所描述的，可以通过使用源视频分析开发模型或预测函数来获得***值。然而，将理解的是，在图3和4中描述的过程是可以确定***值的方式的非限制性示例。虽然预测模块110可以执行图3和4的步骤(或者可选地仅执行图4的步骤，其中，源视频的分类变量和***区域元数据已经由某个其他实体在更早的时间确定，并且仅仅由预测模块110查找或检索，以便执行图4的过程)，但将理解的是，作为替代，例如，如果以前由某个其他实体确定，则预测模块可以简单地查找、检索或接收***值。

图3示出了根据本公开的一个方面的示例过程，其中，分析源视频，以开发包括分析模型中的分类和连续变量的源视频的***区域元数据。在该过程中生成的元数据实际上是源视频的***区域特征的列表，该源视频然后可以使源视频内容中存在的分类变量的特定组合与对象置入机会相关。然后，可以开发模型或预测函数，来建立与每个分类变量相关联的***值。相关联的***值可以定义源视频中的至少一个分类变量与源视频的一个或多个***区域特征之间的相关性(参考图4更详细地解释)。

在步骤300中，由源集线器102接收源视频，并且在步骤302中，由源集线器102执行预分析，包括上面描述的一些或全部预分析步骤。一旦执行了预分析并且识别了***区域，则可以生成***区域元数据(步骤304)。

***区域元数据包括一个或多个***区域特征中的每一个的一个或多个值。***区域特征可能主要涉及连续变量，包括但不限于***区域的长度、***区域的大小、***区域的持续时间、***的频率、遮挡等。

用于源视频的***区域的***区域元数据的一个特定非限制性示例是：

***区域特征	值
		***区域大小	20％的图像帧
***区域持续时间	13秒
		场景现场	厨房
***区域重复	3

将理解的是，可以在源视频中识别多个***区域，使得对于每个识别的***区域，在***区域元数据中可以存在一个或多个上述***特征的多个实例。

也可以从预分析过程自动提取源视频的分类变量。可以从预分析中识别的场所中提取语义数据；面部检测算法可以识别在视频中作为主角的演员。从视频的音轨的分析中，可以识别与类型相关的信息。例如，如果可能通过音频中存在的笑声音轨来识别美国喜剧连续剧，或者可能通过存在枪声来识别惊悚片。此外，源视频中可能存在元数据，包括节目名称、导演、演员和其他人员信息、视频的来源、制作日期等，在开发分析模型时，可以提取其中的一部分或全部，以用作分类变量。

源视频的一个或多个分类变量可以包括以下中的一个或多个：视频内容类型；视频内容长度；视频内容制作人；视频内容人员；以及视频内容制作时间。

图4示出了开发模型或预测函数的示例过程，使用该过程可以获得一个或多个***值。

为了生成模型，可能优选的是将***区域元数据用于具有共同的一个或多个分类变量的源视频的多个示例。源视频的示例全部共同具有的分类变量可以是新视频的一个或多个分类变量。因此，在步骤400中，使用新视频的分类元数据来获得源视频的相关***区域元数据。

例如，新视频可用于由特定导演(导演X)执导的节目(节目A)的新系列剧集。新视频的分类元数据因此可以包括分类变量“节目：节目A”和“导演：导演X”。在步骤400中，可以向预测模块110提供该特定导演执导的该特定节目的所有先前剧集的***区域元数据，用于开发该模型。

因此，可以说，在步骤400中获得的源视频的***区域元数据与新视频的分类元数据匹配。

该预测函数创建元数据，包括与预测模块尚未看到的用于视频的***区域有关的连续变量的预测值。然后，预测模块可以自动地查看存储在客户端偏好数据库112中的元数据，用于已经存储了与从预测函数获得的预测值一致的偏好数据的客户端用户。在连续变量的预测值和用户偏好数据之间发现相关性或匹配的情况下，可以引起通信，包括关于即将到来的***区域机会的信息并传送给用户。

在步骤402中，基于在步骤402中获得的源视频的***区域元数据创建预测函数。预测函数针对新视频的每个分类变量以及在步骤400中获得的源视频***区域元数据的一个或多个***区域特征，生成***值。

举例来说，分析可用于识别‘电视季’或剧集连续剧内的模式。出于讲故事和经济的原因，有限数量的场所用于拍摄。这可能是男主角的公寓、其厨房、其公寓外的街景及其工作地点。通过仔细分析连续剧的剧集中的至少一些剧集，可以确定连续剧上的模式。通常，发现连续剧开场和连续剧结尾(通常是双倍长度的剧集)并不是其他剧集的典型特征。但是在倒数第二个剧集内，模式出现了语言环境的使用情况，因此出现了潜在的置入机会。

在对此的进一步扩展中，某个节目的电视季之间可能会有很大的相似之处。此外，使用本公开，可以生成典型类型的娱乐的简档。例如，关于两个家庭的情景喜剧。我们已经找到了这些情景喜剧之间的分析模式，并且根据任何进一步的信息，假设这种类型的一个情景喜剧具有与其他情景喜剧类似数量的NIVA机会，并且在一个电视季的剧集内具有类似的简档。

其他相关联的分析可涉及机器学习(例如，使用机器学习模块106)。通过分析大量源视频，可以确定***机会的分布及其与分类元数据的相关性(并因此预测新视频的***区域特征的值，如在步骤204中更详细描述的)。举例来说，可能需要分析大量被认为是‘喜剧’的节目。一方面，可能值得将喜剧类别细分为诸如‘情景喜剧’或‘家庭喜剧’等子类别，并且分析***机会。这可以使得能够为每个分类变量确定***值，以定义分类变量(例如，‘情景喜剧’)和一个或多个***区域特征(例如，***区域长度)之间的相关性。因此，如果要制作新连续剧，并且将成为情景喜剧，则可以开发具有‘情景喜剧’分类变量的源视频的模型，这可以用于获得定义分类变量‘情景喜剧’和***区域特征(例如，‘***区域大小’)之间的相关性的***值，并且可选地获得定义分类变量‘情景喜剧’和另一***区域特征(例如，‘***区域位置’)之间的相关性的进一步***值等。***值可用于确定新连续剧的至少一个***区域特征的至少一个预测值(如参考步骤204更详细地解释的)，因此，可以获得潜在***机会的质量分数。

步骤204：确定新视频的***区域元数据

在步骤204中，使用在步骤202中获得的***值来确定新视频的***区域元数据。新视频的***区域元数据包括新视频的至少一个对应***区域特征的至少一个预测值。

例如，***值可以定义新视频的分类变量与***区域特征‘***区域位置’之间的相关性。然后，在步骤204中，使用该***值来确定新视频的***区域特征‘***区域位置’的预测值。同样，对于一个或多个其他***区域特征中的每一个，可能在步骤202中已经获得了相关联的***值，使得还可以在步骤204中确定针对那些***区域特征中的每个的新视频的预测值。

要理解的是，作为步骤202和/或步骤204的一部分，可以通过将预测模块110的输出与存在的与分类和连续变量以及相关联的视频相关的实际数据进行比较的过程来改进模型的各方面。

可选地，预测模块110然后可以自动地查看存储在客户端偏好数据库112中的元数据，用于已经存储了与从预测函数获得的新视频的***区域元数据的预测值一致的偏好数据的客户端用户。在(即，***区域特征的)连续变量的预测值和用户偏好数据之间发现相关性或匹配的情况下，可以引起通信，用于传送给预测存储模块130，包括关于即将到来的***区域机会的信息。

另外地或可替换地，所确定的***区域元数据可以用于确定新视频中潜在的***区域机会的数量(例如，每个剧集或每个连续剧的平均潜在机会等)。例如，只有具有满足特定标准(例如，超过t秒的***区域持续时间和/或超过s％的图像帧的***区域尺寸等)的值的***区域元数据可以被分类为潜在的***区域机会。标准可以基于存储在客户端偏好数据库112中的客户端标准，或者基于任何其他标准，例如，预测模块110总是应用的设定标准。

在本公开的另一方面中，分析可以跟踪生产参数和信用。可以从已经制作的摄制中推断出情景喜剧中平均包含的例如7.2次***机会。也可以推断出，Alec Berg(‘硅谷’连续剧的作家)编写的情景喜剧平均包含例如8.2次机会。因此，如果将会制作由Alec Berg编写的新情景喜剧连续剧，则该模型可能被用来预测8.2的可能机会数量和价值的更好评估。

基于来自源视频的历史制作数据的组合，可以预测尚不存在的新视频的***机会。例如，如果来自源视频的历史数据是诸如‘硅谷’等特定情景喜剧的每集平均有4.8次机会，但新导演正在担任未来的连续剧的工作，并且该导演以前的节目(或许不是情景喜剧)与大量的机会相关联。例如，如果他使用有利于对象***的长时间镜头，则将更好地评估机会的数量以及关于潜在对象***的更多信息(例如，其特征)超过历史数据提供的数量。

可以进行分析的参数可以包括但不限于以下中的一个或多个：节目类型、子类型、长度、制作者、导演、作家、演员、配角、摄影师、制作团队。

通过执行分析以跟踪参数，通过历史表现，可以通过算法确定可能存在于尚未制作的对象***机会的可能数量和特征。一种简单的算法可能是将上述每个分析参数与确定的权重进行权衡，然后求和并产生总体可能的‘分数’。其他更复杂的算法可以利用功率项和/或非线性系数来重新调整一些特定参数。

例如，在仅开发一个模型或预测函数的情况下，可能只有一个***值与每个***区域特征相关联。然而，在开发两个或更多个模型的情况下，对于每个***区域特征可以获得两个或更多个***值，在这种情况下，确定新视频的***区域特征的预测值可以基于两个或更多个***值。例如，新视频可能有两个分类变量(例如，“节目B”和“制作人Y”)。可以基于均共享一个分类变量(例如，“节目B”)的源视频开发一个模型。这个模型可以用来生成一个或多个***值，每个***值对应不同的***区域特征。可以基于均共享另一分类变量(“制作人Y”)的源视频来开发第二个模型。这个模型可以用于生成第二组一个或多个***值，其中每一个***值对应于不同的***区域特征。这样，每个***区域特征可具有两个相关联的***值，基于这两个***值可以确定新视频的***区域元数据。

可选地，可以使用新视频的***区域元数据的预测值来确定预测***区域机会的视觉影响分数。视觉影响分数然后可以使得能够评估或排列新视频中的预测***区域机会的潜在视觉影响，使得可以确定实现期望视觉影响的预测***区域机会的数量，由此给出关于新视频中的对象***机会的可能性的进一步信息。这在后面更详细地解释。

因此，可以看出，基于对相关源视频的分析，图2中表示的过程使得能够确定新视频的***区域元数据。通过执行该过程，当新视频可用于详细分析时(例如，当已经拍摄新视频并且录制可用时)，可以仅详细分析具有***机会的合理承诺的新视频。因此，可以更高效且有效地利用时间和计算资源。例如，要作为本公开的一部分执行的关联分析可以以很多不同的方式进行。在某些实现方式中，尚未拍摄的连续剧或剧集存在剧本。在这种情况下，可以以数字方式分析剧本，并且要使用其关联的制作信息(例如，制作组或演员表或位置)。在一个示例中，整个30分钟的剧集可能位于男主角的公寓内。与另一摄制相比，这限制了***机会，并因此限制了详细的对象***分析的潜在价值，其中，在其具有室内、室外、城市和农村场景的剧本中显示30分钟的剧集。可以看出，从这个示例中，后面的连续剧可以具有比前面的连续剧更广泛的物品的机会。例如，不可能将汽车放置在客厅中，但在户外拍摄时可能很容易放置。因此，当该视频可用时，本公开的过程可以容易地识别出，对后面的连续剧的详细对象***分析可能是有价值的，但是对于前面的连续剧可能不值得。这提高了详细分析的效率，因为时间和计算资源不会浪费在前面的连续剧中。

在上述过程的一个实现方式中，可以将机器学习应用于我们所具有的整个或一部分历史数据上(例如，使用机器学习模块106)。一旦在这个部分上完成了训练阶段，就会要求产生对没有看到的参数组合的评估，但是存在于历史数据的剩余部分中。然后这可以‘校准’学习，就好像不在培训中的材料的计算的评估值与该材料的实际值之间具有良好的相关性，则培训已经成功。

让我们考虑一下‘机器学习’可以应用于我们的问题的方法：

首先让我们定义我们将使用的术语。

镜头是连续的一段视频。我们可以将其视为视频中的时间间隔【a、b】；

场景是视频镜头的集合；

‘有用’镜头是适合对象***机会的镜头；

海报帧是最佳总结‘有用’镜头的视频帧；

蓝色方框是将包含***对象的海报帧中的特定图像区域。

给定对象***机会的评估函数f取决于几个变量。这些变量可以是分类的或连续的。分类变量是存在价值的但在一组离散结果中有所不同的分类变量。例如，变量“类型”可以是“情景喜剧”、“戏剧”、“娱乐”等。不会是在这些离散值之间的某个数值。同样，类别“演员”的分类变量将被定义为“Peter Dinklage”或“Julia Louis-Dreyfus”。一般而言，连续变量涉及与***区域自身相关生成的元数据，下面进一步描述。

考虑分类变量：f取决于的分类变量的示例是：

·媒体簇，例如，由m＝1，...，M索引的‘Hannibal’；

·由b＝1，...，B索引的品牌类别；

·媒体簇t年龄(即，某个给定机会的预测函数f可能取决于媒体簇的日期和年龄)。

具有离散值的分类变量的存在可能使得难以评估唯一的预测函数f。相反，评估由m、b索引的一组预测函数f_m,b可能更容易。每个评估函数f_m,b是一个时间序列，这取决于下一段列举的几个连续变量。

考虑到连续变量，f所依赖的最显着变量与执行给定视频镜头的特定对象***机会(即，媒体簇的剧集的视频间隔)的预测有关。

可能包括以下中的至少一个，但不限于：

·***区域的位置和大小(x、y、h、w)：蓝色方框越大并且越靠近中心，***对象的影响就越大；

·场景长度，即，d，视频中特定***对象的持续时间(以秒为单位)；

·整合度量m，包含以下中的至少一个：

ο交互性值：通常我们想要在场景中用另一对象替换现有对象，例如，智能手机。字符与广告产品互动的越多，观众的注意力就越有可能吸引到***的产品中，因此***产品的价值更高。

ο男主角状态值：如果将对象放置在与混合到背景中的图像区域中，则观众可能不会注意***的对象。然而，如果情况正好相反，听众就越有可能注意到。

ο***区域相对于活动的接近度。更接近该活动的对象可能会有更高的影响。

ο对象的重复。重复对象的数量越高，影响就越大。

ο方向，对象越位于前面，影响就越大。

正如本领域技术人员将会理解的，可以使用更多或更少的分类变量。

也可以开发与当前镜头的亲和度分数s，即，该分数量化视频镜头中的对象类别与场所和现有相关表面之间的亲和度。

我们现在可以进行统计建模。重要的是，注意，测量的质量分数可能会很嘈杂。

为了使用这些变量进行预测，我们可以做出以下假设。

·这些变量都遵循可以经由随机过程建模的每集的稳定分布，特别是高斯过程(比较Gaussian Processes for Machine Learning,Rassmussen and Wiliams,2006)。在这种情况下，这些变量现在是随机变量，可以用大写字母X、Y、H、W、Δ、M、S表示，小写字母表示已识别的样本数据点。如前所述，由于采样点是有噪声的，所以X＝X'+σ，其中，X'是我们想要观察的真随机变量，σ是建模测量噪声的随机变量。·或者这些变量在剧集中缓慢变化，我们可以通过随机过程对其进行建模。然后，X_t＝X'_t+σ_t等。

我们也可以定义地面真相验证数据。对于给定媒体簇m和特定年份t，我们还可以存储以下数据：

·每集O的机会数量。

·每集A的***的对象质量分数：量化给定对象***机会的质量。

上述变量随时间存储，我们可能想要从不同的角度评估或预测该预测函数。在下文中，我们假设数据足够大，并且***对象的行为是非线性的，否则可能足以进行线性回归。可以将变量标准化，以确保评估问题中的数值稳定性。让我们考虑第一个示例：

对于给定媒体簇m、给定品牌类别b以及给定时间t，我们可以从历史A_m,b,1、A_m,b,2、...、A_m,b,t-1中预测每集A_m,b,t的***的对象质量分数。注意，我们不试图对上面列出的变量依赖性建模。这是时间序列预测问题。

如果我们仍然没有足够的数据，则可用于根据类型聚合媒体簇，以增加数据，以在时间序列中的预测不够精确为代价。

现在让我们考虑第二个示例。我们是否可以学习通常在***的对象质量分数和上面提到的其他变量之间的变量依赖性？特别地，我们是否可以学习函数f，使得A_m,b＝f(X,Y,H,W,Δ,M,S)？

我们可以根据类型假设变量依赖性是相对不变的。如果我们确实想要建模时间依赖性。让我们先忘记变量是随机变量这一事实。然后，我们可以概述以下模型：

其中，条形符号表示给定时间段(例如，一个月)的时间平均质量分数。例如，对于每周播出的媒体簇，然后，变量x的每月平均质量分数为：

然后，目标是在每个时间评估以下条件概率分布的argmax：

p(A_m，b，t|x_t，y_t，h_t，w_t，δ_t，m_t，s_t)

其可以通常被建模为贝叶斯混合模型(例如，GMM)并且经由MCMC评估。

变量A_m,b,t取决于由高斯过程建模的随机变量x_t、y_t、h_t、w_t、m_t、s_t：

p(m_t+1|m_1：t)

p(δ_t+1)|δ_1：t)

p(s_t+1|s_1：t）

可选地，如果媒体簇非常流行或者具有某个其他外部度量，则我们可以增加***的对象质量分数。例如，我们可以通过以下方式来测量媒体的人气值Pt：

·YouTube中的观看次数(例如，每日)，作为人气指示。

·社交媒体中每日评论的数量。

·在特定时间帧内在Facebook中的粉丝数量。

·提及与媒体簇相关的任何事情的推文速度。

·Instagram中的标签数量。

高斯过程是一种强健的机器学习回归技术，该技术不仅评估最佳值x_t+1、y_t+1、h_t+1、w_t+1、m_t+1、s_t+1，还评估每个评估的不确定性，即，误差条：var((x_t+1、y_t+1、h_t+1、w_t+1))、var(m_t+1)、var(_t+1)。宽误差条表示预测中可能存在大误差，而窄误差条可能表示小误差。可以由分析确定误差的大小。对于基于作品参数(例如，类型、演员表和制作人)的预测分数与实际分数或值类似的情况，误差较低，并显示由实际和预测的分数或值之间的差异确定的一个小条。对于误差较大的情况，会显示由实际和预测分数之间的差异再次确定的一个大误差条。举例来说，如果我们都知道尚未制作的摄制是‘喜剧’，则我们预计质量分数的误差预测会很大。相比之下，如果我们知道作品是‘硅谷’的新连续剧，具有与我们已经进行了详细分析的先前新连续剧相同的演职表、导演和制作人员，则我们预计具有小误差。

我们已经在上面描述了一个过程，该过程能够以连续剧或电视季剧集的形式评估剧集材料，这能够预测出于某种原因看不见或不可用的视频材料中的置入机会的质量。上述技术可以组合使用，以进行更精确的分析。例如，可能会宣布给定类型的节目的连续剧，即，侦探惊悚片连续剧。纯粹基于此，可以从‘其他’侦探惊悚片连续剧中确定对象***的机会数量的最初评估。虽然我们认为试点剧集‘不如’其他剧集典型，但可以通过即将到来的(还没有制作或者看不见的)剧集更新对象***机会的数量的预测。这可能是比最初评估更准确的评估。在稍后阶段，第2至5集可能可用于分析。这可能导致对该连续剧的剩余剧集的对象***机会具有更准确的评估。最终，在第一电视季结束时，可能会宣布第二季正在开通。根据第一季以及对象***机会在场所和剧集中的分布，可以预测第二季中的机会数量。

在内容交付平台的背景下，也重要的是，能够预测放置的特征，以能够向客户端用户展示机会。

在某些方面，开发视频影响分数，以评估***区域对视频的观看者的潜在影响。视频影响分数(VIS)是对象***机会值的质量分数的乘数，用于说明品牌嵌入视频内容内的高度可变性。VIS是一个数字，具有例如在0到约2之间的规模(尽管规模可以具有任何大小和粒度)。实际上，可能不允许VIS小于1并且通常在1和2之间。可以基于新视频的***区域元数据的预测值来计算VIS，例如，通过将曝光分数和背景分数组合(尽管可以使用任何其他合适的函数，用于使用新视频的***区域元数据的一个或多个预测值来确定VIS)。这两个分数是许多参数的加权组合，包括如下定义的品牌相关性、持续时间、男主角状态、邻近、放大。

考虑以下内容：

计算视频影响分数BETA

VIS＝ES+CS

ES＝ExposureScore

计算曝光分数

ES＝W_Df(D)+W_Sf(S)+W_AA

D＝Quailfying Exposure Duration

S＝Average Exposure Size

f(D)＝Duration valuation function

f(S)＝Size valuation function

W＝Weight

背景分数是将品牌嵌入视频内容内所特有的度量的加权组合，侧重于根据品牌与内容之间的拟合来提供评估。

背景分数可以在0和约2之间(尽管规模可以具有任何大小和粒度)。在活动执行中，通过选择内容和广告位置，不允许低于1的值。

主要术语是品牌相关性，用于确定品牌是否适合背景(例如，酒吧中的伏特加酒)。如果没有品牌相关性，则分数为0，并且CS将为0。当我们有品牌相关性时，背景分数为1或以上，其余术语提供增值。

背景分数可以如下进行：

因此，要理解的是，可以基于该预测***区域机会的***区域元数据的至少一些预测值，为新视频中的预测***区域机会确定VIS。预测***区域机会的VIS可能是用于将预测***区域机会排序或过滤较差预测***区域机会的有用技术，使得可以容易地识别满足特定视频影响要求的新视频的预测***区域机会(例如，具有大于阈值的VIS)的数量，并且直接理解新视频的对象***机会的潜在适合性。

本领域技术人员将容易理解，在不脱离本公开的范围的情况下，可以对本公开的上述方面进行各种变更或修改。例如，***100表示为一组互连的模块/实体。然而，任何两个或更多个模块/实体的功能可以由单个模块执行，例如，预测模块110、机器学习模块106和源集线器102的功能可以由单个实体或模块实现。同样，图1中表示的任何一个或多个模块/实体可以由两个或更多个互连模块或实体实现。例如，可以实现预测模块110的功能，作为被配置为共同执行预测模块110的功能的互连实体的***。

要理解的是，图1中表示的***100仅仅是适于执行参考图2描述的过程的硬件配置的一个非限制性示例。例如，***100可替换地可以不包括机器学习模块106，并且预测模块110可以反而执行参考图2描述的过程，而不使用机器学习。

上面描述的本公开的各方面可以通过软件、硬件或软件和硬件的组合来实现。例如，预测模块110的功能可以由包括计算机可读代码的软件来实现，该计算机可读代码在任何电子装置的处理器上执行时执行上述功能。软件可以存储在任何合适的计算机可读介质上，例如，非暂时性计算机可读介质，例如，只读存储器、随机存取存储器、CD-ROM、DVD、蓝光光盘、磁带、硬盘驱动器、固态驱动器和光驱。计算机可读介质可以分布在网络耦合的计算机***上，使得以分布式方式存储和执行计算机可读指令。可替换地，预测模块110的功能可以由电子装置实现，该电子装置被配置为例如借助于可编程逻辑(例如，FPGA)来执行该功能。

Claims

1.一种用于确定新视频的***区域元数据的计算机实现的方法，所述方法包括：

获得与所述新视频相关的分类元数据，所述分类元数据包括至少一个分类变量；

为所述至少一个分类变量中的每一个获得相关联的***值；并且

至少部分地基于所述至少一个***值来确定所述新视频的***区域元数据，其中，所述新视频的***区域元数据包括所述新视频的至少一个对应***区域特征的至少一个预测值。

2.根据权利要求1所述的方法，其中，所述***值定义所述至少一个分类变量与和源视频相关的一个或多个***区域特征之间的相关性。

3.根据权利要求1或2所述的方法，其中，获得所述***值包括：以数字方式分析源视频，以获得源视频***区域元数据，所述源视频***区域元数据包括所述源视频的对应***区域特征的至少一个值。

4.根据权利要求3所述的方法，其中，以数字方式分析源视频包括分析源视频的多个实例，源视频的每个实例共同具有至少一个分类变量。

5.根据权利要求4所述的方法，还包括为分类变量创建预测函数，所述预测函数取决于为所述源视频获得的***区域特征的至少一个值，并且所述预测函数为分类变量提供一个或多个***值。

6.根据权利要求5所述的方法，其中，所述预测函数是取决于为所述源视频获得的***区域特征的至少一个值的时间序列。

7.根据权利要求4所述的方法，其中，使用高斯过程和/或贝叶斯混合模型来评估***区域特征的值。

8.根据前述权利要求中任一项所述的方法，还包括基于所述新视频的至少一个对应***区域特征的至少一个预测值来确定视频影响分数。

9.根据前述权利要求中任一项所述的方法，其中，分类变量涉及以下一个或多个：

视频内容类型；

视频内容长度；

视频内容制作人；

视频内容人员；

视频内容的年龄；

目标受众；

地理分布；

预期分销渠道；

广告资料；

第三方分析；以及

视频内容制作时间。

10.根据前述权利要求中任一项所述的方法，其中，***区域特征涉及以下中的至少一个：

***区域位置；

***区域大小；

***区域持续时间；

场景现场；

***区域字符交互；

***区域注意值；

***区域邻近；

***区域定向；

***区域模糊；

***区域男主角状态；以及

***区域重复。

11.根据前述权利要求中任一项所述的方法，其中，获得***值包括应用机器学习。

12.根据前述权利要求中任一项所述的方法，其中，应用以下手段中的至少一个：

(a)确定***区域元数据还以客户端用户偏好数据为基础；

(b)获得与分类变量相关联的***值包括利用以下中的一个或多个识别源视频中存在的分类变量：面部识别技术、光学字符识别、计算机视觉技术、人工注释、卷积神经网络处理。

13.根据前述权利要求中任一项所述的方法，还包括：

确定***区域元数据的预测值与一个或多个客户端用户简档之间的相关性，所述客户端用户简档包括用于***区域特征的优选值，并且

将预测***区域元数据信息传送给具有与***区域特征的预测值相关的***区域特征的优选值的客户端用户。

14.一种其上存储有计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令在由计算装置执行时促使所述计算装置执行根据前述权利要求中任一项所述的方法。

15.一种电子装置，其被配置为执行根据权利要求1至13中任一项所述的方法。

16.一种用于确定新视频的***区域元数据的***，所述***包括：、

一个或多个处理器；以及

一个或多个存储器模块，其中，所述存储器模块被配置为存储计算机可执行指令，所述计算机可执行指令在所述一个或多个处理器上执行时促使所述***：