CN113312516B

CN113312516B - 一种视频处理方法及相关装置

Info

Publication number: CN113312516B
Application number: CN202110558410.8A
Authority: CN
Inventors: 漆跃昕; 高帆; 叶小瑜; 梅晓茸; 刘旭东; 张梦馨; 陈铁军; 徐智伟; 赵媛媛; 李�杰; 曲贺; 袁肇豪; 唐小辉; 郭勇; 王妍; 李德智; 王昊; 张玕; 赵士强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-11-21
Anticipated expiration: 2041-05-21
Also published as: CN113312516A

Abstract

本申请实施例提供一种视频处理方法及相关装置，从具有展示对象的直播回放视频段中解析出包含展示对象的关键帧，并从展示视频的音视频资源中获取该展示视频的广告素材，以此减少广告素材的获取时间周期。进一步的，对所提取到的广告素材进行特效处理后，将广告素材合成到展示视频中。以此尽可能的解决相关技术中缺少一种能够批量化的智能产出优质创意展示视频素材的方案的问题。

Description

一种视频处理方法及相关装置

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频处理方法及相关装置。

背景技术

随着互联网技术的迅猛发展，浏览视频已成为人们日常生活中的常见行为。展示视频应运而生，这种广告形式与传统广告形式相比，在表现形式上更加多样化，具备更佳的情景展示功能。展示视频的制作需要依赖于设计人员对广告元素的选取和样式排版的设计，这对创意的生产效率和生产成本具有很高的要求。展示视频的设计需要相关人员查阅大量资料寻找制作展示视频的广告素材，即广告素材的获取时间周期较长。通过分析发现，目前广告素材的需求量较大，相关技术中缺少一种能够批量化的智能产出优质创意广告素材的方案。

发明内容

本申请的目的是提供一种视频处理方法及相关装置。用于解决相关技术中缺少一种能够批量化的智能产出优质创意展示视频素材的方案的问题。

第一方面，本申请实施例提供了一种视频处理方法，所述方法包括：

获取含有多个展示对象的视频内容的目标视频；

对所述视频进行分片处理，得到不同展示对象的视频段；

针对所述不同展示对象中的目标展示对象，从所述目标展示对象的视频段中解析出所述目标展示对象的关键帧，基于所述关键帧生成所述目标展示对象的展示视频。

在一些可能的实施例中，所述对所述视频进行分片处理，得到不同展示对象的视频段，包括：

对所述目标视频进行内容检测，识别出不同展示对象的视频段。

在一些可能的实施例中，若所述目标视频中包含展示对象标签，所述对所述目标视频进行分片处理，得到不同展示对象的视频段，包括：

识别所述目标视频中的所述展示对象标签，基于所述展示对象标签对所述目标视频进行分片处理，得到所述不同展示对象的视频段；其中，所述展示对象标签用于表示所述展示对象的视频内容在所述目标视频中的位置。

在一些可能的实施例中，所述基于所述关键帧生成所述目标展示对象的展示视频之后，所述方法还包括：

从所述关键帧关联的音视频资源中获取广告素材；

对所述广告素材进行特效处理，并将处理后的所述广告素材合成到所述展示视频中。

在一些可能的实施例中，所述从所述关键帧关联的音视频资源中获取广告素材，包括：

识别所述音视频资源中的关键文本、关键文本的文本类型以及普通文本作为所述广告素材；

所述对所述广告素材进行特效处理，包括：

对所述关键文本按照所述关键文本的文本类型进行特效处理，对所述普通字幕以字幕的方式与所述展示视频的图像内容同步展示。

在一些可能的实施例中，所述识别所述音视频资源中的关键文本、关键文本的文本类型，包括：

从所述展示视频的语音信息中提取文本信息；

将所述文本信息与预设重点词集合进行匹配操作，将所述文本信息中与所述预设重点词集合匹配的文本内容作为所述关键文本；

并将匹配的预设重点词对应的文本类型作为所述关键文本的文本类型。

对所述展示视频的语音信息进行识别操作，得到所述语音信号中的强调词作为所述关键文本；

并基于所述强调词的语调类型确定所述关键文本的文本类型。

从所述语音信息中提取文本信息；

将所述文本信息与预设重点词集合进行匹配操作，将所述文本信息中与所述预设重点词集合匹配的文本内容作为关键文本；

采用语音信号识别技术对所述展示视频的语音信息进行识别操作，得到所述关键文本的语调类型作为所述关键文本的文本类型。

在一些可能的实施例中，所述将处理后的所述广告素材合成到所述展示视频中之后，所述方法还包括：

识别所述展示视频中的目标人像的表情；

基于所述目标对象的表情为所述目标人像添加表情特效。

基于所述展示视频的音视频资源，识别出所述展示视频中讲解所述目标展示对象的起始位置；

为所述起始位置对应的视频帧图像添加所述目标展示对象的关键信息，所述关键信息包括所述目标展示对象的外观图片和/或所述目标展示对象的文字描述信息。

在一些可能的实施例中，将处理后的所述广告素材合成到所述展示视频之后，所述方法还包括：

展示对所述展示视频的编辑界面；

响应于所述编辑界面中的编辑操作，对所述展示视频进行编辑处理。

第二方面，本申请实施例提供了一种视频处理装置，所述装置包括：

展示视频解析模块，被配置为执行获取含有多个展示对象的视频内容的目标视频；

素材获取模块，被配置为执行对所述视频进行分片处理，得到不同展示对象的视频段；

展示视频合成模块，被配置为执行针对所述不同展示对象中的目标展示对象，从所述目标展示对象的视频段中解析出所述目标展示对象的关键帧，基于所述关键帧生成所述目标展示对象的展示视频。

在一些可能的实施例中，执行所述对所述视频进行分片处理，得到不同展示对象的视频段，所述素材获取模块被配置为：

在一些可能的实施例中，若所述目标视频中包含展示对象标签，执行所述对所述目标视频进行分片处理，得到不同展示对象的视频段，所述素材获取模块被配置为：

在一些可能的实施例中，执行所述基于所述关键帧生成所述目标展示对象的展示视频之后，所述展示视频合成模块还包括：

特效处理单元，被配置为执行从所述关键帧关联的音视频资源中获取广告素材；

在一些可能的实施例中，执行所述从所述关键帧关联的音视频资源中获取广告素材，所述特效处理单元被配置为：

执行所述对所述广告素材进行特效处理，所述特效处理单元被配置为：

在一些可能的实施例中，执行所述识别所述音视频资源中的关键文本、关键文本的文本类型，所述特效处理单元被配置为：

从所述展示视频的语音信息中提取文本信息；

从所述语音信息中提取文本信息；

在一些可能的实施例中，所述展示视频合成模块还包括：

表情特效单元，被配置为执行识别所述展示视频中的目标人像的表情；

基于所述目标对象的表情为所述目标人像添加表情特效。

在一些可能的实施例中，所述展示视频合成模块还包括：

信息添加单元，被配置为执行基于所述展示视频的音视频资源，识别出所述展示视频中讲解所述目标展示对象的起始位置；

在一些可能的实施例中，所述装置还包括：

视频编辑模块，被配置为执行展示对所述展示视频的编辑界面；

第三方面，本申请另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的第一方面的方法。

第四方面，本申请另一实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例提供的第一方面的方法。

第五方面。本申请另一实施例还提供了一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令用于使计算机执行本申请实施例提供的第一方面的方法。

本申请实施例，从具有展示对象的直播回放视频段中解析出包含展示对象的关键帧，以此得到展示对象的展示视频。然后从展示视频的音视频资源中获取该展示视频的广告素材，对所提取到的广告素材进行特效处理之后，将广告素材合成到展示视频中。通过上述方法，尽可能的解决相关技术中缺少一种能够批量化的智能产出优质创意展示视频素材的方案的问题。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请一个实施例的应用环境的示意图；

图2a为根据本申请一个实施例的视频处理方法整体流程图；

图2b为根据本申请一个实施例的视频节点标签示意图；

图2c为根据本申请一个实施例的关键文本举牌特效示意图；

图2d为根据本申请一个实施例的关键文本的特殊场景效果图；

图2e为根据本申请一个实施例的关键文本的另一特殊场景效果图；

图2f为根据本申请一个实施例的关键文本的***贴纸效果图；

图2g为根据本申请一个实施例的关键文本的气泡贴纸效果图；

图2h为根据本申请一个实施例的从嘴部逐字飞出关键文本的特效图；

图2i为根据本申请一个实施例的从人物上方飘过关键文本的特效图；

图2j为根据本申请一个实施例的关键文本从视频画面中飘过的特效图；

图2k为根据本申请一个实施例的关键文本字幕墙特效示意图；

图2l为根据本申请一个实施例的表情特效示意图；

图2m为根据本申请一个实施例的另一表情特效示意图；

图2n为根据本申请一个实施例的商品介绍特效示意图；

图2o为根据本申请一个实施例的普通字幕文本展示效果示意图；

图3a为根据本申请一个实施例的普通字幕文本的编辑界面图；

图3b为根据本申请一个实施例的关键文本的编辑界面图；

图4为根据本申请一个实施例的视频处理装置示意图；

图5为根据本申请一个实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

在本申请实施例的描述中，除非另有说明，术语“多个”是指两个或两个以上，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

本申请所涉及的数据(如用于制作展示视频的素材等)可以为经用户授权或者经过各方充分授权的数据。

相关技术中展示视频的制作需要设计人员基于用户的需求查找大量素材以完成展示视频的制作。这种制作方式在获取广告素材时耗费的时间周期较长，且用于制作广告的广告素材存在被多次使用的可能。为解决上述问题，本申请的发明构思为：从具有展示对象的直播回放视频段中解析出展示对象的关键帧，得到包含展示对象的展示视频。以此得到的展示视频中包含有展示对象的视频内容。提取展示视频的音视频资源，并从音视频资源中获取广告素材进一步的，对广告素材进行特效处理，将处理后的广告素材合成到展示视频中。通过上述方法能够大幅降低获取广告素材的时间周期，并且可采用上述方法针对大量直播回放视频段并行处理，以此批量化制作大量优质的展示视频。以此尽可能的解决相关技术中缺少一种能够批量化的智能产出优质创意展示视频素材的方案的问题。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面结合附图对本申请实施例所提供的一种视频处理方法进行详细说明。

参见图1，为根据本申请一个实施例的应用环境的示意图。

如图1所示，该应用环境中例如可以包括存储***10、服务器20以及终端设备30。终端设备30可用来进行网络访问的任何合适的电子设备，包括但不限于计算机、笔记本电脑、智能手机、平板电脑、智能手表、智能手环或是其它类型的终端。存储***10能够存储被访问的媒体资源，例如网页、电子书、音视频文件等。服务器20用于实现与终端设备30的交互，从存储***中获取媒体资源返回给终端设备30。

实施时，服务器20针对存储在存储***10中的直播回放视频段执行解析操作，从直播回放视频段中解析出展示对象的视频帧画面，并对视频帧画面进行整合处理得到包含展示对象的展示视频。

服务器20从展示视频中获取到该展示视频的音视频资源，并采用语音信号识别技术获取音视频资源对应的广告素材。服务器20对广告素材进行特效处理，并将特效处理后的广告素材合成到展示视频中。服务器20将合成后的展示视频通过网络40发送给终端设备30。

在一些可能的实施例中，终端设备30可以基于用户操作为用户切换短视频或为用户展示短视频的评论内容。

在一些可能的实施例中，终端设备30在接收到服务器20发送的展示视频后，能够将展示视频中针对广告素材的特效处理进行重新编辑。

本申请的终端设备30之间(例如，30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络，可以包括一个或多个通信网络，诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。

本申请中的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的单个服务器20、终端设备30和存储***10旨在表示本申请的技术方案涉及终端设备、服务器以及存储***的操作。对单个终端设备以及单个服务器和存储***加以详述至少为了说明方便，而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从存储***10到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

服务器20可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为了便于理解本申请所提供的视频处理方法，下面以商品推荐类的直播回放视频为例进行说明。应理解的是，此处选用商品推荐类的直播回放视频举例仅是为了便于理解本申请所提供的方案，并非对直播回放视频的视频内容进行限定，如游戏类直播回放视频、科普类直播回放视频以及美妆类直播回放视频等均适用于本方案。

图2a示出了本申请一个实施例提供的视频处理方法的流程示意图，包括：

步骤201：从展示对象的直播回放视频段中解析出所述展示对象的关键帧，基于所述关键帧生成所述展示对象的展示视频。

商品推荐类的直播回放视频大致可概括为，视频内容中包含多个商品推荐的长视频以及用户在直播时针对某一商品所录制的短视频片段。无论是包含多个商品推荐的长视频还是针对某一商品录制的短视频片段，直播回放视频中均包含直播时对商品推荐介绍的内容。故此可将包含商品推荐介绍的视频内容作为展示视频使用。

在基于直播回放视频获取展示视频时，需要确定直播回放视频中所包含的展示对象数量。在商品推荐类的直播回放视频中，展示对象即为直播回放视频中所推荐介绍的商品。在执行步骤201时，可基于直播回放视频的视频画面逐帧进行特征识别，得到视频中所包含的每一商品在直播回放视频中所在的视频段。进一步的，将每一商品所对应的视频段从直播回放视频中裁剪出来，裁剪后的每一视频段即为展示视频。

在一些可能的实施例中，针对直播回放视频的音视频资源进行解析识别，获取该视频中商品推荐介绍的语音在直播回放视频中的时间段。基于商品推荐介绍的语音所对应的时间段对直播回放视频进行裁剪，从直播回放视频中按照该时间段裁剪得到视频即为展示视频。

发明人发现，相关技术中直播回放视频中大多具有节点标签，节点标签包含对节点内的视频内容的简介。根据直播回放视频中每一节点标签包含的简介内容能够快速了解到该直播回放视频在各节点内所播放的视频内容，具体可如图2b所示。基于此，在确定直播回放视频中所包含的商品时，可根据直播回放视频中的节点标签，确定该直播回放视频中所包含的商品，以及每一商品在该直播回放视频中对应的视频段。进一步的，通过对直播回放视频进行裁剪，以此得到展示视频。

展示视频可以是一种视听兼备的广告形式，其视频时长不宜过长，便于观看者记忆。基于此，考虑通过上述方式所获取的展示视频具有一些如需展示的商品不在画面内等不适合作为展示视频内容的无效内容，需将展示视频中的无效内容剔除，以保证展示视频具有较短的视频时长和良好的展示效果。实施时，可针对展示视频的视频画面逐帧进行特征识别，将识别到的无效内容进行剔除，并针对无效内容前后的视频片段进行拼接处理，使拼接后的视频内容完整流畅，且展示视频的视频时长控制在预设时长，如：1分钟以内。

需要说明的是，上述剔除展示视频中的无效内容这一操作可在根据直播回放视频获取到展示视频之后执行，也可以针对直播回放视频执行剔除无效内容的操作之后再从直播回放视频中解析出展示视频。本申请对剔除视频中的无效内容这一操作的执行时机不作限定，仅需要保证展示视频中没有无效内容即可。

鉴于相关技术中，展示视频的设计需要设计人员查阅大量广告素材，且存在所使用的广告素材被其他展示视频使用过的情况。本申请基于展示视频本身的视频内容提取广告素材，以此减少查找广告素材所消耗的时间成本，并且基于展示视频本身的视频内容所提取的广告素材能够有效避免广告素材被其他展示视频使用过的问题。展示视频的本质是为了更好的介绍商品，优质的广告素材能够吸引更多观看者对商品进行关注购买。在基于展示视频本身的视频内容提取广告素材时，执行步骤202：从所述展示视频的音视频资源中获取广告素材。

在执行步骤202时，包括步骤A₁：基于所述展示视频的语音信号对应的文本信息确定所述展示视频中所包含的各关键文本以及所述各关键文本分别对应的文本类型，和步骤A₂：基于所述展示视频的语音信号确定所述展示视频中所包含的各关键文本以及所述各关键文本分别对应的文本类型。

在执行步骤A₁时，可采用语音信号识别技术获取到展示视频的语音信号所对应的文字内容(即，文本信息)。文本信息中包含用于介绍商品、烘托氛围以及与观众互动的词语。这些词语在展示视频中起到了帮助观众了解商品、调动观众兴趣等重要作用，针对这些词语进行特效处理能够更好的吸引观众。故此，可将这些词语作为关键文本从文本信息中筛选出来。

本申请对大量直播回放视频进行分析处理，获取直播回放视频中常见的关键文本。基于上述关键文本在直播视频中所起到的作用对关键文本进行分类，以此得到直播回放视频中常见的关键文本和该关键文本所对应的文本类型。并将实验数据(即，上述直播回放视频中常见的关键文本和该关键文本所对应的文本类型)进行神经网络模型训练，构建出能够自动从文本信息中提取关键文本和该关键文本所对应的文本类型的预设重点词集合。

针对关键文本进行分类时，可将用于表示商品信息的“好评”、“秒杀”等词归纳为信息点类；将用于表示直播时与观众互动的“上架”、“谢谢支持”等词归纳为互动类；将用于表示商品属性的，如适用于服务行业的“百搭”、“新款”等词以及适用于美妆行业的“补水”、“滋润”等词归纳为商品介绍类；将用于表示商品数据的特殊数字，如“3斤”、“1升”等词归纳为特殊数字类；将用于表示行动号召的，如“关注我”、“关注直播”等词归纳为行动号召类，以及将用于渲染气氛的语气词，如“哇哦”等归纳为语气词类。

在一些可能的实施例中，将展示视频的文本信息与预设重点词集合进行匹配操作，识别出该文本信息中与重点词集合相匹配的关键文本，并将该关键文本在预设重点词集合中的类型确定为该关键文本的文本类型。

在执行步骤A₂之前，本申请对大量直播回放视频进行分析处理，从大量直播回放视频的音视频资源中获取语音信号，并针对语音信号进行特征提取，识别出语音信号中表示主播强调语气的强调词。该强调词即为关键文本。

此外，考虑到主播在不同场景下说出的强调词有所区别。例如主播常用着重强调的语气强调商品优点(如“真的很好用！”)、用重复强调的语气来调动观众兴趣(如“最后50件！最后50件！”)。基于此，可将强调词划分为着重强调和重复强调两类，针对这两类强调词进行不同的特效处理能使展示视频具有更好的展示效果。

在一些可能的实施例中，从大量直播回放视频中获取表示强调语气的语音信号，并将实验数据(即，上述大量直播回放视频的语音信号)进行神经网络模型训练，构建出能够自动从语音信号中提取出用作关键文本的强调词以及强调词的类型的强调词识别网络。

在一些可能的实施例中，采用强调词识别网络对展示视频的语音信号进行识别操作，获取语音信号中的强调词和强调词对应的类型。将强调词作为关键文本，并将该强调词对应的类型作为该关键文本的文本类型。

进一步的，考虑到上述A₁、A₂两种方式所获取的关键文本中应具有重合部分，例如“买买买”的文本类型可为行动号召类，也可为重复强调类。故此基于所述展示视频的语音信号和所述语音信号对应的文本信息确定所述展示视频中所包含的各关键文本以及所述各关键文本分别对应的文本类型。

实施时，可采用语音信号识别技术获取展示视频的语音信号所对应的文本信息。并将该文本信息与预设重点词集合进行匹配操作，得到文本信息中的关键文本。获取从文本信息中获取的关键文本所对应的语音信号，采用强调词识别网络识别该语音信号中的强调词和强调词对应的类型。将该强调词对应的类型作为该关键文本的文本类型。

此外，通过上述方式获取关键文本时，需要确定关键文本在展示视频中出现的时间点，实施时，可基于关键文本所对应的语音内容对展示视频进行逐帧筛查，记录出现过该关键文本的视频帧画面。以便基于关键文本对应的时间点查找到展示视频在该时间点的视频帧画面，并将特效处理后的关键文本添加到该视频帧画面中。

通过步骤202获取到广告素材后，执行步骤203：对所述广告素材进行特效处理后合成到所述展示视频中。实施时，需要对关键文本的文本类型进行针对性的特效处理，以保证展示视频的展示效果。

当针对文本类型为行动号召类的关键文本(如“关注我”、“求关注”等)进行特效处理时，可对该类关键文本设置如“举牌特效”、“卡通文字特效”等特效。并根据该关键文本所对应的视频时间点，查找到主播讲述该关键文本对应的语音时的视频帧画面，根据实际需求将特效处理后的关键文本放置在该视频帧画面内的显著位置。以便和普通的字幕进行区分，吸引观众的注意力，举牌特效的具体效果可如图2c所示。

此外，针对行动号召类的文本进行特效处理时，还可以在该关键文本对应的视频帧画面中添加例如“烟花特效”、“进场特效”等特殊场景特效。图2d中针对该类关键文本“关注我”所对应的视频帧画面进行了“烟花特效”的特殊场景效果处理，图2e中针对该类关键文本“求关注”所对应的视频帧画面进行了“马车进场特效”的特殊场景效果处理，通过上述特效处理能够达到渲染气氛的作用。

当针对文本类型为着重强调的关键文本进行特效处理时，可针对语音信号识别技术识别该类关键词的语音语调类别，将语音语调表述为“短、重、快”的关键文本(如“天呐”)、语音语调表述为“一字一顿”的关键文本(如“真好吃”)以及语音语调表述为“拖长音”的关键文本(如“你没有听错”)进行划分，并分别为上述关键文本添加特效。

当语音语调表述为“短、重、快”的关键文本，在特效处理时，可对关键文本添加如***贴纸、气泡贴纸、闪亮贴纸等贴纸特效，并根据该关键文本所对应的视频时间点，查找到主播讲述该关键文本时的视频帧画面。

可将含有上述关键文本的特效贴纸放置在该视频帧画面的显著位置，以达到吸引观众注意力的目的。***贴纸的特效可如图2f所示，气泡贴纸的特效可如图2g所示。

语音语调表述为“一字一顿”的关键文本，在特效处理时，可根据关键文本的长度来设置相应的特效处理方式。当关键文本的长度较短时，如“是的”、“真好吃”等，可根据该关键文本所对应的视频时间点，查找到主播讲述该关键文本时的视频帧画面。通过人体识别技术识别到该画面内主播的人***置，并采用人脸关键点搜索技术识别到主播的嘴部，将关键文本进行加粗等处理后，设置从主播的嘴部逐字飞出该关键文本，具体效果可如图2h所示。当关键文本的长度较长时，如“最后再送一包”等，在获取到主播讲述该关键文本时的视频帧画面后，通过人体识别技术获取主播的人体轮廓，将关键文本进行加粗等处理后，设置从主播人物的轮廓上方环绕飘过的特效，具体效果可如图2i所示。

当语音语调表述为“拖长音”的关键文本(如“是的，没有听错”)，在特效处理时，可对该类关键文本设置如特殊字体、加粗加大等特效，并为该关键文本设置展示方向，根据该关键文本所对应的视频时间点查找到主播讲述该关键文本时的视频帧画面。设置当主播讲到该关键文本所对应的语音时，该关键文本按照指定的展示方向从直播帧画面中横向飘过，具体效果可如图2j所示。

当针对文本类型为重复强调的关键文本(如“最后50个！最后50个”)进行特效处理时，可针对该类关键文本添加字幕墙特效。实施时，可根据该关键文本所对应的视频时间点，查找到主播讲述该关键文本时的视频帧画面。由于语音分割技术能够针对视频帧画面中的每一像素进行语义理解，将相同语义的像素分割为同一个部分。故此，可针对该视频帧画面进行语义分割处理，分割出该视频帧画面中的主播人像。在分割出主播人像后，设置将添加字幕墙特效后的关键文本从该视频帧画面中横向飘过，并将主播人像作为前景添加到该视频帧画面中。以保证视频播放时，字幕墙不会遮挡到主播人像。

应理解的是，本申请上述针对关键文本的特效处理仅为一种示例，实施时可根据实际情况对不同文本类型的关键文本设置相应的特效处理方式，本申请对此不作限定。

在一些可能的实施例中，字幕墙特效可根据关键文本的长度和重复次数进行设置，将关键文本的内容形成n排以上的字幕墙，n的取值可基于实际效果设置，例如重复n次即设置n排。具体实施效果可如图2k所示。

为适用于更多的应用场景，还可以根据展示视频的视频内容添加特效。实施时，可通过人脸特征识别技术逐帧识别展示视频中的人脸面部表情。并根据实际需求，基于人物的面部表情为视频帧画面中的人物添加如“笑、哭、害羞”等特效表情。图2l中根据视频帧画面主播当前的大笑表情，为主播人脸智能调节“笑”的特效表情。图2m中根据视频帧画面主播当前的哭泣表情，为主播人脸智能调节“哭”的特效表情。

在一些可能的实施例中，根据展示视频的音视频资源，识别到主播针对商品进行详细介绍时的时间点，并基于该时间点确定主播在针对商品进行详细介绍时的视频帧。在视频帧画面中添加与讲解商品相对应的商品详情图片。其中，商品详情图片中可包含商品的外形，以及商品的关键文字介绍。具体效果可如图2n所示。

此外，针对展示视频的文本信息中，除关键文本以外的内容，可作为普通的字幕文本进行处理。在进行特效处理时，可根据普通字幕文本所对应的视频时间点，将普通字幕文本以字幕的方式显示到该普通字幕文本对应的视频帧画面中。并自适应设置每行字幕的预设长度，当普通字幕文本的长度达到预设长度时，需要换行展示。通过上述方法能够实现字幕跟随字幕所对应的语音进行同步展示，并自适应换行。具体可如图2o所示，当图2o中的普通字幕文本超过预设长度时，会自动换行展示。

在一些可能的实施例中，将文本信息中的全部内容均以字幕的方式显示到该文本信息对应的视频帧画面中，并自适应设置每行字幕的预设长度，当文本信息当前的展示长度达到预设长度时，需要换行展示。

需要说明的是，在执行步骤203：对所述广告素材进行特效处理后合成到所述展示视频中时，需要基于语义分割技术逐帧确定每一视频帧画面中的人像和商品在画面中的位置。并对人像和商品的位置进行特征标注。在合成时，需在特征标注以外的地方添加特效。当特效能够移动时(如“字幕墙”、“横线飘过”等)，需要采用语音分割技术将该视频帧画面中的人像和商品分割出来，并作为前景使用。通过上述处理能够避免特效处理后的广告素材在展示时遮挡视频画面中的人像和商品。

考虑到通过上述方法智能处理后的展示视频的展示效果可能与用户期望有所偏差，为提升用户的满意度，可设置在执行步骤203：对所述广告素材进行特效处理后合成到所述展示视频中之后，为用户提供展示视频的编辑界面。该编辑页面能够为用户提供自定义编辑功能，并基于用户在编辑页面内的编辑操作对展示视频进行编辑处理。

在一些可能的实施例中，将步骤203中针对关键文本和普通字幕文本的特效处理方式整合为特效素材库。将基于展示视频的文本信息所确定的关键文本和普通字幕文本分别展示在关键文本的编辑界面和普通字幕文本的编辑界面，关键文本的编辑界面和普通字幕文本的编辑界面均能够调用特效素材库中的特效处理方式，以便用户能够针对每一关键文本和普通字幕文本进行特效处理。

在一些可能的实施例中，提供给用户针对普通字幕文本进行编辑的界面具体可如图3a所示，界面中包含字幕文本选择区域、内容编辑区域、第一特效添加区域以及字幕展示区域。字幕文本选择区域中包含展示视频中的每一普通字幕文本，用户可通过点击该区域的任一普通字幕文本，来针对该普通字幕文本进行自定义编辑。例如用户在点击字幕文本选择区域中的普通字幕文本“味道很好”后，内容编辑区域内会显示该普通字幕文本的文本内容。用户可针对该区域的文本内容进行编辑，即，对普通字幕文本进行自定义修改。

并且，用户可以在第一特效添加区域内，调整普通字幕文本的字体大小、字号类型以及字体颜色。若用户在字幕文本选择区域内选定了一条普通字幕文本，则用户在第一特效添加区域内所设置的特效仅针对被选定的普通字幕文本进行修改。若用户未在字幕文本选择区域内选定普通字幕文本，则用户在第一特效添加区域内所设置的特效会针对所有普通字幕文本进行修改。用户在选定针对普通字幕文本的特效设置后，字幕展示区域会自动展示特效处理后的普通字幕文本。

在一些可能的实施例中，提供给用户针对关键文本进行编辑的界面具体可如图3b所示，界面中包含关键文本选择区域、第二特效添加区域以及特效展示区域。关键文本选择区域中包含展示视频中的每一关键文本，用户可通过点击该区域的一条关键文本，来针对该关键文本进行自定义编辑。用户在点击关键文本选择区域中的一条关键文本后，第二特效添加区域内会显示该关键文本在特效编辑库中所对应的特效处理。例如用户在关键文本选择区域内选定关键文本“关注我”之后，用户可为该关键文本添加“举牌效果”、“烟花特效”等特效。当用户在第二特效添加区域选定特效时，特效展示区域内会自动展示对关键文本进行所选定的特效处理后的显示效果。

通过上述方法，能够将广告素材的特效处理方法提供给用户使用。便于用户能够根据自己的喜好制作展示视频，提高用户的满意度。

基于相同的发明构思，本申请还提供一种视频处理装置400，如图4所示，该装置包括：

展示视频解析模块401，被配置为执行获取含有多个展示对象的视频内容的目标视频；

素材获取模块402，被配置为执行对所述视频进行分片处理，得到不同展示对象的视频段；

展示视频合成模块403，被配置为执行针对所述不同展示对象中的目标展示对象，从所述目标展示对象的视频段中解析出所述目标展示对象的关键帧，基于所述关键帧生成所述目标展示对象的展示视频。

从所述展示视频的语音信息中提取文本信息；

从所述语音信息中提取文本信息；

在一些可能的实施例中，所述展示视频合成模块还包括：

基于所述目标对象的表情为所述目标人像添加表情特效。

在一些可能的实施例中，所述展示视频合成模块还包括：

在一些可能的实施例中，所述装置还包括：

在介绍完本申请所提供的装置后，下面参照图5来描述根据本申请的这种实施方式的电子设备130。图5显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同***组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。

这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

在一些可能的实施方式中，本申请提供的一种视频处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种视频处理方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于视频处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取含有多个展示对象的视频内容的目标视频；

对所述视频进行分片处理，得到不同展示对象的视频段；

针对所述不同展示对象中的目标展示对象，从所述目标展示对象的视频段中解析出所述目标展示对象的关键帧，基于所述关键帧生成所述目标展示对象的展示视频；

对所述展示视频的语音信息进行识别操作，将所述语音信息中的强调词作为关键文本，并将不作为关键文本的语音信息作为普通文本；

基于所述强调词的语调类型确定所述关键文本的文本类型；对广告素材进行特效处理，并将处理后的所述广告素材合成到所述展示视频中；其中，所述广告素材包括所述关键文本、所述关键文本的文本类型和所述普通文本；

所述对所述广告素材进行特效处理，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述视频进行分片处理，得到不同展示对象的视频段，包括：

3.根据权利要求1所述的方法，其特征在于，若所述目标视频中包含展示对象标签，所述对所述目标视频进行分片处理，得到不同展示对象的视频段，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述关键帧生成所述目标展示对象的展示视频之后，所述方法还包括：

从所述展示视频的语音信息中提取文本信息；

5.根据权利要求1所述的方法，其特征在于，所述基于所述关键帧生成所述目标展示对象的展示视频之后，所述方法还包括：

从所述语音信息中提取文本信息；

6.根据权利要求1所述的方法，其特征在于，所述将处理后的所述广告素材合成到所述展示视频中之后，所述方法还包括：

识别所述展示视频中的目标人像的表情；

基于所述目标对象的表情为所述目标人像添加表情特效。

7.根据权利要求1所述的方法，其特征在于，所述将处理后的所述广告素材合成到所述展示视频中之后，所述方法还包括：

8.根据权利要求1-7中任一所述的方法，其特征在于，将处理后的所述广告素材合成到所述展示视频之后，所述方法还包括：

展示对所述展示视频的编辑界面；

9.一种视频处理装置，其特征在于，所述装置包括：

展示视频合成模块，被配置为执行针对所述不同展示对象中的目标展示对象，从所述目标展示对象的视频段中解析出所述目标展示对象的关键帧，基于所述关键帧生成所述目标展示对象的展示视频；

所述视频合成模块还包括，特效处理单元，被配置为对所述展示视频的语音信息进行识别操作，将所述语音信息中的强调词作为关键文本，并将不作为关键文本的语音信息作为普通文本；

10.根据权利要求9所述的装置，其特征在于，执行所述对所述视频进行分片处理，得到不同展示对象的视频段，所述素材获取模块被配置为：

11.根据权利要求9所述的装置，其特征在于，若所述目标视频中包含展示对象标签，执行所述对所述目标视频进行分片处理，得到不同展示对象的视频段，所述素材获取模块被配置为：

12.根据权利要求9所述的装置，其特征在于，所述特效处理单元还被配置为：

从所述展示视频的语音信息中提取文本信息；

13.根据权利要求9所述的装置，其特征在于，所述特效处理单元还被配置为：

从所述语音信息中提取文本信息；

14.根据权利要求9所述的装置，其特征在于，所述展示视频合成模块还包括：

基于所述目标对象的表情为所述目标人像添加表情特效。

15.根据权利要求9所述的装置，其特征在于，所述展示视频合成模块还包括：

16.根据权利要求9-15中任一所述的装置，其特征在于，所述装置还包括：

17.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行如权利要求1-8中任一项所述的方法。