CN107888974A

CN107888974A - 一种基于场景或特定对象的即时视频合成方法与***

Info

Publication number: CN107888974A
Application number: CN201610864770.XA
Authority: CN
Inventors: 宋松; 许怡洋; 张岳; 马超杰; 闫军
Original assignee: Beijing Vision Communication Technology Co Ltd
Current assignee: Beijing Vision Communication Technology Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2018-04-06

Abstract

本发明，“一种基于场景或特定对象的即时视频合成方法与***”，提供了一种在视频播放过程中根据当前视频的内容进行视频合成或切换的***及方法，通过对视频节目的内容包括对象、场景、行为等进行分析，根据分析结果及播放要求在播放过程中***或叠加与原视频内容相似或相关的其它内容，达到在播放过程中对视频内容进行修改或增加的***及方法。对于离线或在线视频，均能实现视频内容的修改，同时所修改的部分能够以与原视频画面在风格、表现形式及内容近似或相关的形式表现出来，避免对原视频内容、表现形式及情节产生过大的破坏或干扰。

Description

一种基于场景或特定对象的即时视频合成方法与***

技术领域

本发明总体上涉及一种在视频播放过程中根据当前视频的内容进行视频合成或切换的***及方法，特别的，本发明涉及一种对视频节目的内容进行分析，根据分析结果及播放要求在播放过程中***或叠加相关内容与当前视频进行合成，从而在播放过程中对视频内容进行修改或增加的***及方法。

背景技术

信息技术的发展，特别是网络技术的进步使得视频节目的内容及其呈现形式日益多样、灵活。在视频节目的播放过程中穿插或叠加其它音视频或图片及文字是目前所有视频播放平台获取广告收入的主要手段。由于视频内容的非结构化特性，目前普遍的做法仅限于在指定的时间段(或视频帧)进行内容的切换或叠加。所切换或叠加的内容通常与正在播放的内容无关，很难做到根据正在播放的节目内容有选择性的切换或叠加相关内容。这种生硬的内容切换或叠加在很大程度上破坏了所播放节目的完整性，不仅严重影响观众观看体验，造成观众流失，也无法达到精准的广告或宣传效果。

近年来，人工智能、机器学习特别是深度学习的技术有了长足的进步，使得对非结构化的数据如声音、图像甚至视频内容进行更加深入的分析、处理成为可能，由此可以产生出一系列新型的应用形态和商业模式。本发明所提供的技术将最新的深度学习理论和技术应用到视频内容的自动化分析中，通过对视频内容中所包含的音视频场景及对象的属性进行分析，根据分析出的场景或属性选择内容和/或形式相关的其它音视频或图片资源与正在播放的视频进行合成或切换。同时，本发明还提供了基于上述技术所构建的视频应用***，用于对视频内容进行分析并将分析结果应用于播放时相关内容的插播。比如，从视频分析中发现一个演员抬腕看手表的镜头，当视频播放到这一画面时，***自动***一小段原视频中并没有的某一手表的特写镜头，既可以达到较好的广告效果又不至于对原视频的内容、表现形式及情节产生过大的破坏或干扰造成观众的反感。特别地，利用这一技术更有可能为观众带来新的观影体验及新型的视频应用。

发明内容

为了便于理解，下面首先对本发明涉及的一些术语进行解释。

在本发明中，所谓“内容”指视频中所包含的画面及声音等物理元素以及情节、场景等人为描述。“对象”是指视频画面中用户所关心的任何物体或其组合，如人物，车辆，花园，或人物的服装、饰品等。所谓“场景”是指视频画面所表现的环境或氛围，如海边，会议，婚礼等或视频所表现的故事情节。所谓“行为”是指视频画面中上述“对象”的动作或行为，如汽车移动，人抬腕看表等。“深度学习”技术是指机器学习的一个分支，通过建立包含多个层次及特定连接方式的人工神经网络结构，以及适合于多层次结构的网络训练算法，实现对人脑特定功能的模拟，用于对图像、声音、文字等进行识别的技术。“目标”是指上述“内容”、“对象”、“场景”、“行为”的组合，亦即用于视频叠加、覆盖或替换的数据。“帧”或“视频帧”是指某一时刻的视频画面。

本发明所提供的对视频节目的内容进行分析，根据分析结果及播放要求在播放过程中***或叠加其它音、视频或图片及文字与当前视频进行合成，从而对正在播放的视频内容进行修改或增加的方法使得视频节目播放过程中可以***、叠加或覆盖与正在播放的视频在内容或/及形式上高度相关的音、视频及图文。基于此方法所构建的视频应用***可以提供与视频内容密切相关的广告及信息服务，新型的游戏应用，全新的观影体验等，同时将由此带来的对原视频节目的干扰降低到观众易于接受的程度。

对视频节目内容进行分析的***和方法。本发明利用深度学习技术对来自视频节目源的实时或非实时视频画面进行分析，从中提取出每一帧/时刻或每一组/时间段的音、视频内容属性，包括但不限于其场景、情节、人物、物品、行为等存入“播放数据库”。

具体而言，本发明提供了一种对视频画面进行内容分析并将分析结果进行分类并与特定内容进行匹配后存入数据库供视频播放时进行内容***、叠加或覆盖的***和方法。

将视频节目中某一内容与其它指定内容进行匹配。本发明将分析出的音、视频节目某一帧/时刻或某一组/时间段的音、视频内容属性与数据库中或互联网上已有的节目内容信息进行匹配，从而确定与当前节目画面具有关联信息的特定对象，在播放过程中通过***、覆盖或叠加与当前视频进行合成。

本发明还提供了一种将视频节目中具有关联信息的特定对象加以呈现的***和方法，将与当前视频相关的对象以与当前视频画面在风格、表现形式及内容近似或相关的形式表现出来，避免对原视频内容、表现形式及情节产生过大的破坏或干扰造成观众的反感。

附图说明

本说明书中所参考的附图只用于示例本发明的典型实施例，不应该认为是对本发明范围的限制。

图1示出了本发明中对视频节目内容进行分析的方法的一个实施例的操作示意图。

图2示出了本发明中对视频节目内容进行分析的一个实施例的***框图。

图3示出了本发明中将视频节目中具有关联信息的特定对象加以呈现的方法。

图4示出了本发明中将视频节目中具有关联信息的特定对象加以呈现的***框图。

图5示出了本发明中另一个实施例，对实时视频节目内容进行分析及内容叠加/替换的方法的操作示意图。

具体实施方式

下列讨论中，提供大量具体的细节以帮助彻底了解本发明。然而，很显然对于本领域技术人员来说，即使没有这些具体细节，并不影响对本发明的理解。并且应该认识到，使用如下的任何具体术语仅仅是为了方便描述，因此，本发明不应当局限于只用在这样的术语所标识和/或暗示的任何特定应用中。

图1示出了按照本发明的一个实施例的操作示意图。用户首先根据需要设定视频播放时欲***/覆盖或叠加的一个或多个目标(步骤101)，亦即代表需要与原视频进行混合的对象、场景等的数据。此等对象、场景等可来自于已有数据库、互联网或临时生成，且根据应用及表现形式的需要，其形式可以为图片、文字、声音等。同时还可以设定与所设目标相关或相似的目标以扩大应用的适用范围(步骤102)。

目标设置完成后即可开始所选择需要的视频源逐帧或定时进行解码(步骤103、104)。采集当前位置的图像(步骤105)，并根据“深度学习网络”的要求对其进行滤波、色彩/灰度变换、亮度/对比度增强、尺寸/分辨率归一化等预处理(步骤106)。经过预处理的图像送入带有“已训练模型”的“深度学习网络”进行检测、识别、跟踪、分类，获得与所设目标的相似度(步骤107)并判断其是否为所设目标(步骤108)或相关目标(步骤109)。如果是所设目标或相关目标，则将其相关信息包括所在视频源、位置以及来自内容数据库或其它来源的需要与原视频进行混合的对象、场景等等索引信息存入播放数据库供播放时使用(步骤111)。如果未找到所设目标或相关目标则重复以上步骤105至111(步骤113)，直至视频结束(步骤112)。

特别地，还可通过对帧与帧之间上下文关系的分析(步骤110)，例如同一目标在不同帧帧中位置的变化情况，对所设定的目标进行修改以提高检测的准确度，同时亦可作为目标检测的判断标准。

图2示出了按照本发明的一个实施例的***框图。其中201为目标设置单元，用于上述步骤101中根据对象/场景数据库(202)设置视频播放时欲***、覆盖或叠加的一个或多个目标(203)，并送入深度学习网络(209)作为欲检测、识别、跟踪、分类的目标。来自视频源(205)的视频经视频选择器(204)和帧选择器(206)逐帧或选择到指定帧，经过图像采集单元(207)获取到当前画面的数字图像并由图像预处理单元(208)对其尺寸、分辨率、亮度、色度、噪音等进行处理，转换为深度学习网络(209)所要求的格式。转换后的图像经深度学习网络进行检测、识别、跟踪、分类等过程，由目标判定单元(210)及上下文分析单元(211)确定当前画面是否包含事先设定的目标(203)。对于包含设定目标的画面，由目标索引单元(212)将其信息(位置，属性，来源等)以及来自内容数据库(214)的需要在播放时与原视频进行混合的对象、场景等数据一起存入播放数据库(213)，供播放时使用。

图3示出了本发明中利用前述对视频节目内容的分析，根据分析结果及播放要求在播放过程中***或叠加其它内容与当前视频进行合成，从而对正在播放的视频内容进行修改或增加的方法。开始播放视频时(步骤301)从前述播放数据库中获取视频中欲***其它内容的位置信息(步骤302)，在播放中始终对播放过程进行监控(步骤303)，判断是否到达***点(步骤304)。未到达***点时，继续播放视频(步骤308)，否则暂停原视频(步骤305)，并从播放数据库中获取欲***内容或/和其场景属性(步骤306)，此步骤亦可在上述步骤302中一并完成。如果此步骤中获取的是场景属性，则需要根据该场景属性从互联网或其它数据库获取相应内容。然后根据需要以***、覆盖、叠加等方式对指定内容进行播放(步骤309)，直至达到***结束点(步骤310)后恢复原视频正常播放(步骤311)。

图4示出了按照本发明中根据分析结果及播放要求在播放过程中***或叠加其它内容与当前视频进行合成，从而对正在播放的视频内容进行修改或增加的一个实施例的***框图。其中401为用于播放视频的播放器，播放过程中由目标内容/属性获取单元(402)从播放数据库(407)中获取播放中欲***目标的位置、内容或其属性信息。该单元还可根据目标属性从其它数据库或互联网上获取播放过程中由目标内容。播放监控单元(403)及位置/时间匹配单元(404)用于播放过程中监控***点并由混合方式选择单元(405)及视频混合单元将相应的目标内容以指定的方式***正在播放的视频。

图5示出了本发明中另一个实施例，对实时视频节目内容进行分析及内容叠加/替换的方法。在该实施例中，针对实时视频，将视频分析与播放合二为一，设定目标及相关目标后(步骤501及502)，抓取实时图像(步骤503)，经过同样预处理(步骤504)的视频画面被送入深度学习网络进行检测、识别、跟踪及分类(步骤505)，由于是实时视频，深度学习网络应当具有较高的性能。由深度学习网络获得与所设目标的相似度并结合帧与帧之间上下文关系的分析(步骤508)判断其为所设目标(步骤506)或相关目标(步骤507)后即开始根据指定的播放形式(覆盖、叠加、替换等)播放目标指定内容(步骤509)。

Claims

1.一种基于场景或特定对象的即时视频合成***，亦即通过分析视频画面中特定的“对象”、“场景”、“行为”等，在播放过程中***或叠加相关内容与当前视频进行合成，从而实现在播放过程中对视频内容进行修改或增加。其中所述“对象”是指视频画面中用户所关心的任何部分或其组合，如人物，车辆，花园，或人物的服饰等，“场景”是指视频画面所表现的环境或氛围，如海边，会议，婚礼等或视频所表现的故事情节，“行为”是指视频画面中上述“对象”的动作，如汽车移动，人抬腕看表等。

2.一种权利要求1所述***，根据预设的目标(“对象”、“场景”、“行为”等)，非实时(离线)分析的***，其中包括目标设定、图像采集、深度学习网络、帧与帧上下文分析等模块。

3.一种权利要求1所述***，在播放时根据设定的目标(“对象”、“场景”、“行为”等)以及呈现方式进行视频合成的***。

4.一种权利要求1所述***，根据预设的目标(“对象”、“场景”、“行为”等)，实时(在线)分析的***，并根据设定的目标(“对象”、“场景”、“行为”等)以及呈现方式实时进行视频合成的***。

5.一种权利要求2所述***，根据帧与帧之间的上下文关系对预设目标进行修正的装置。

6.一种基于场景或特定对象的即时视频合成方法，亦即通过分析视频画面中特定的“对象”、“场景”、“行为”等，在播放过程中***或叠加相关内容与当前视频进行合成，从而对正在播放的视频内容进行修改或增加的方法。

7.根据权利要求6所述方法，根据预设的目标(“对象”、“场景”、“行为”等)，对非实时(离线)视频进行分析的方法。其步骤包括：

·设定包含“对象”、“场景”、“行为”等作为目标，及具有一定相关度的相关(相似)目标；

·通过深度学习网络在视频图像中对上述目标进行检测、识别、跟踪及分类；

·并通过分析上诉目标在帧与帧之间的上下文关系对上述目标及相关度进行修改；

·将获取的与设定目标相关的视频信息及对应的目标信息记入数据库，包括：位置、内容、呈现方式等。

8.根据权利要求6所述方法，在播放时实时进行视频合成的方法，包括：

·由权利要求7所述方法生成的数据库中获取视频信息及对应的目标信息，

·在视频播放过程中对所播视频进行监控，满足上述视频信息的条件时，根据上述目标信息对所播视频进行相应处理(切换、覆盖、叠加等)。

9.基于权利要求6所述方法，根据预设的目标(“对象”、“场景”、“行为”等)，对实时(在线)视频进行分析的方法，包括：

·设定包含“对象”、“场景”、“行为”等信息的目标信息，

·利用深度学习网络在视频播放过程中对所播视频进行分析，满足上述目标信息的条件时，根据上述目标信息对所播视频进行相应处理(切换、覆盖、叠加等)。

10.基于权利要求7所述方法，根据帧与帧之间的上下文关系对预设目标进行修正的方法。