CN114007064A

CN114007064A - 特效同步评估方法、装置、设备及存储介质、程序产品

Info

Publication number: CN114007064A
Application number: CN202111282835.7A
Authority: CN
Inventors: 张鹏; 严明; 肖央; 程文昕; 王泽尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-01
Anticipated expiration: 2041-11-01
Also published as: CN114007064B

Abstract

本申请提供了一种特效同步评估方法、装置、设备及计算机可读存储介质、程序产品；本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景，涉及自动化测试技术和云计算技术；该方法包括：响应于针对评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频；基于从特效视频解析出的图像序列和音频信号，确定出待评估特效的特效动画对应的动画时间信息，以及待评估特效的特效音频对应的音频时间信息；依据动画时间信息和所述音频时间信息之间的差异，确定出评估结果；评估结果表征特效动画和特效音频的同步情况；在评估界面的结果展示区域中，展示评估结果。通过本申请，能够提高特效同步评估的智能程度。

Description

特效同步评估方法、装置、设备及存储介质、程序产品

技术领域

本申请涉及自动化测试技术，尤其涉及一种特性同步评估方法、装置、设备及存储介质、程序产品。

背景技术

针对视频、游戏等动态内容适当添加特效，可以提高用户在视觉和听觉上的感受，进一步给用户带来乐趣。为了不影响用户体验，同一动态内容的特效画面和特效音频通常是需要同步出现的，因此，添加的特效需要先经过特效同步评估，才能够继续发行给用户。

相关技术中，大多是通过测试人员的主观感受来实现特效同步评估。例如，测试人员操作游戏释放某技能，从主观的视觉和听觉上判定该技能是否有明显的特效画面和特效音频不同步的问题。然而，这种方式存在特效同步评估的精度和效率均较低的问题，从而使得特效同步评估的智能程度较低。

发明内容

本申请实施例提供一种特效同步评估方法、装置、设备及计算机可读存储介质、程序产品，能够提高特效同步评估的智能程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种特效同步评估方法，包括：

响应于针对评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频；

基于从所述特效视频解析出的视频帧序列和音频信号，确定出所述待评估特效的特效动画对应的动画时间信息，以及所述待评估特效的特效音频对应的音频时间信息；

其中，所述动画时间信息是精度为视频帧时长的时间信息，所述音频时间信息是精度为音频帧时长的时间信息；

依据所述动画时间信息和所述音频时间信息之间的差异，确定出评估结果；所述评估结果表征所述特效动画和所述特效音频的同步情况；

在所述测试界面的结果展示区域中，展示所述评估结果。

本申请实施例提供一种特效同步评估装置，包括：

视频获取模块，用于响应于针对评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频；

时间确定模块，用于基于从所述特效视频解析出的视频帧序列和音频信号，确定出所述待评估特效的特效动画对应的动画时间信息，以及所述待评估特效的特效音频对应的音频时间信息；其中，所述动画时间信息是精度为视频帧时长的时间信息，所述音频时间信息是精度为音频帧时长的时间信息；

结果生成模块，用于依据所述动画时间信息和所述音频时间信息之间的差异，确定出评估结果；所述评估结果表征所述特效动画和所述特效音频的同步情况；

结果展示模块，用于在所述评估界面的结果展示区域中，展示所述评估结果。

在本申请的一些实施例中，所述待评估特效包括：多个技能特效；所述视频获取模块，还用于对上传至所述评估界面的技能视频区域的多个视频进行获取，得到多个所述技能特效各自的所述特效视频；或者，通过在所述评估界面的虚拟互动区域所展示的虚拟场景中释放多个所述技能特效对应的技能，展示多个所述技能特效，并对所述虚拟场景进行视频录制，得到多个所述技能特效各自的所述特效视频。

在本申请的一些实施例中，所述评估结果包括：多个所述技能特效各自的特效视频对应的多个子评估结果；所述特效同步评估装置还包括：结果比对模块；

所述结果比对模块，用于基于对多个所述子评估结果进行对比，从多个所述技能特效中查找出待修复特效；

所述结果展示模块，还用于将所述待修复特效对应的标识信息展示在所述评估界面的修复提示区域中。

在本申请的一些实施例中，所述动画时间信息包括：所述特效动画的动画起始时间和动画结束时间，所述音频时间信息包括：所述特效音频的音频起始时间和音频结束时间；

所述结果生成模块，还用于计算所述动画起始时间和所述音频起始时间之间的第一时间差，以及所述动画结束时间和所述音频结束时间之间的第二时间差；依据所述第一时间差和所述第二时间差中的至少一个，确定出所述评估结果。

在本申请的一些实施例中，所述结果生成模块，还用于当所述第一时间差小于等于第一时间阈值，且所述第二时间差小于等于第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频同步；当所述第一时间差大于所述第一时间阈值，或所述第二时间差大于所述第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频不同步。

在本申请的一些实施例中，所述时间确定模块，还用于基于对所述音频信号中的每个音频帧进行幅度特征和频域特征的确定，检测出所述特效音频的起点音频帧和终点音频帧；依据所述起点音频帧的编号和所述音频帧时长，计算出所述音频起始时间，以及依据所述终点音频帧的编号和所述音频帧时长，计算出所述音频结束时间；基于对所述视频帧序列中的每个视频帧进行动态区域的确定，检测出所述特效动画的起点视频帧和终点视频帧；依据所述起点视频帧的编号和所述视频帧时长，计算出所述动画起始时间，以及依据所述终点视频帧的编号和所述视频帧时长，计算出所述动画结束时间。

在本申请的一些实施例中，所述幅度特征包括：短时能量，所述频域特征包括：短时过零率；所述时间确定模块，还用于针对所述音频信号中的每个所述音频帧，确定出所述短时能量和所述短时过零率；从所述音频信号中，筛选出所述短时能量大于能量阈值，且所述短时过零率大于过零率阈值的多个有效音频帧；将多个所述有效音频帧中的首个有效音频帧，确定为所述起点音频帧，以及将多个所述有效音频帧中的最后一个有效音频帧，确定为所述终点音频帧。

在本申请的一些实施例中，所述时间确定模块，还用于针对所述视频帧序列中的每个所述视频帧，确定出第一动态区域；将所述视频帧序列中首个满足动画起始条件的视频帧，确定为所述特效动画的所述起点视频帧；其中，所述动画起始条件为所述第一动态区域的区域面积大于第一面积阈值，且所述第一动态区域与预设区域的重叠面积大于第二面积阈值的视频帧；针对所述视频帧序列中位于所述起点视频帧之后的多个其他视频帧，分别确定出第二动态区域；当基于所述第二动态区域，从多个所述其他视频帧中提取出连续的N个静止视频帧时，将第N个所述静止视频帧，确定为所述终点视频帧；其中，N为大于1的正整数，所述静止视频帧为所述第二动态区域的区域面积小于等于所述第一面积阈值，且所述第二动态区域与所述预设区域的重叠面积小于等于所述第二面积阈值的视频帧。

在本申请的一些实施例中，所述时间确定模块，还用于对所述视频帧序列中的每个所述视频帧，以及每个所述视频帧的第一相邻视频帧进行帧差计算，得到第一帧差图像；对所述第一帧差图像进行降维处理，得到第一降维图像；针对所述第一降维图像中亮度大于亮度阈值的图像区域进行膨胀，得到膨胀区域；针对所述膨胀区域进行连通域计算，得到所述第一动态区域。

在本申请的一些实施例中，所述时间确定模块，还用于对每个所述其他视频帧，以及每个所述其他视频帧的第二相邻视频帧进行帧差计算，得到第二帧差图像；对所述第二帧差图像进行降维处理，得到第二降维图像；针对所述第二降维图像中亮度大于亮度阈值的图像区域进行腐蚀，得到腐蚀区域；针对所述腐蚀区域进行连通域计算，得到所述第二动态区域。

在本申请的一些实施例中，所述音频帧中包括：N个音频信号点，所述音频帧时长为N与音频采样率的比值。

在本申请的一些实施例中，所述动画时间信息包括：所述特效动画的动画持续时间和所述特效音频的音频持续时间；所述结果生成模块，还用于计算所述动画持续时间和所述音频持续时间之间的第三时间差；依据所述第三时间差和第三时间阈值的大小关系，确定出所述评估结果。

本申请实施例提供一种用于特效同步评估的电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的特效同步评估方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的特效同步评估方法。

本申请实施例具有以下有益效果：电子设备对从特效视频的图像序列和音频信号进行分析，得到特效动画的精度为视频帧时长的时间信息，以及特效音频的精度为音频帧时长的时间信息，即将特效动画和特效音频各自所对应的时间信息直接确定到了帧时长级别，达到了较高的精度，然后再利用高精度的时间信息进行精确的比较，使得不易被感知到的帧时长级别的不同步问题也能够被发现，即能够发现各种严重程度的特效不同步问题，大幅提高特效同步评估的精度，且整个过程是自动化实现的，无需进行多次操作，加快了特效同步评估的效率。综上所述，本申请实施例提供的特效同步评估的方法提高了特效同步评估的精度，加快了特效同步评估的效率，最终提高了特效同步评估的智能程度。

附图说明

图1是本申请实施例提供的特效同步评估***的架构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3是本申请实施例提供的特效同步评估方法的流程示意图一；

图4是本申请实施例提供的评估界面的示意图；

图5是本申请实施例提供的评估结果的示意图；

图6是本申请实施例提供的获取特效视频的示意图一；

图7是本申请实施例提供的获取特效视频的示意图二；

图8是本申请实施例提供的展示待修复特效的标识信息的示意图；

图9是本申请实施例提供的特效同步评估方法的流程示意图二；

图10是本申请实施例提供的特效同步评估方法的流程示意图三；

图11是本申请实施例提供的每个音频帧的短时能量的示意图；

图12是本申请实施例提供的生成第一帧差图像的示意图；

图13是本申请实施例提供的降维处理的示意图；

图14是本申请实施例提供的中值滤波的过程示意图；

图15是本申请实施例提供的中值滤波前后的效果对比图；

图16是本申请实施例提供的膨胀处理的效果示意图；

图17是本申请实施例提供的膨胀区域的连通域的示意图；

图18是本申请实施例提供的进行特效同步评估的***架构示意图；

图19是本申请实施例提供的一致性计算的过程示意图；

图20是本申请实施例提供的依据短时能量初步检测技能音频信号的起点和终点的过程示意图；

图21是本申请实施例提供的确定技能释放帧和结束帧的过程示意图；

图22是本申请实施例提供的技能按钮区的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)云计算(Cloud Computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可以是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

2)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

3)计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸设备、指纹识别等生物特征识别技术。

4)特效画面，是指特效的显示效果，是人类所能看到的效果，例如，在游戏画面中的技能释放特效，视频画面中的人物出场特效等。

5)特效音频，是指在特效的播放声音，是人类所能听到的效果，例如，游戏技能释放时所出现的特殊声音，或者是视频人物出场的配乐等。

6)特效同步评估，用于分析特效画面和特效音频的是否同步出现的过程。为了用户针对游戏、视频等拥有较高的体验，一般是要求特效画面和特效音频同步出现的。例如，在大型多人在线角色扮演(Multiplayer Online Role-Playing Game，MMORPG)游戏、多人在线战术竞技(Multiplayer Online Battle Arena，MOBA)游戏中，游戏角色点击释放技能时，技能的特效画面和特效音频应当同时开始播放，一直持续到技能结束。

7)虚拟场景，是应用程序在运行时显示(或提供)的场景。该虚拟场景可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。虚拟场景可以是二维虚拟场景、三维虚拟场景等。虚拟场景可以包括如天空、陆地、海洋等，还可以包括虚拟角色，用户可以操控虚拟角色在虚拟场景中进行移动。

针对视频、游戏等动态内容适当添加特效，可以提高用户在视觉和听觉上的感受，进一步给用户带来乐趣。为了不影响用户体验，同一动态内容的特效画面和特效音频通常是需要同步出现的，例如，技能释放时的特效画面和特效音频通常要求同时开始和同时结束，否则，会给用户的体验带来影响。因此，针对动态内容添加特效之后，需要先针对特效音频和特效画面经过特效同步评估，才能够继续发行给用户。

相关技术中，大多是通过评估人员的主观感受来实现特效同步评估。例如，评估人员操作游戏释放某技能，从主观的视觉和听觉上判定该技能是否有明显的特效画面和特效音频不同步的问题。然而，通过评估人员进行特效同步评估时，只能够发现较为严重的不同步问题，使得特效同步评估的精度较低；同时，评估人员可能需要多次手动操作以进行判断，从而特效同步评估的效率较为低下。

综上可见，相关技术中存在特效同步评估的精度和效率均较低的问题，从而使得特效同步评估的智能程度较低。

本申请实施例提供一种特效同步评估方法、装置、设备和计算机可读存储介质、程序产品，能够提高特效同步评估的智能程度。下面说明本申请实施例提供的用于特效同步评估的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为由终端和服务器组成的设备集群。下面，将说明电子设备实施为由终端和服务器组成的设备集群时的示例性应用。

参见图1，图1是本申请实施例提供的特效同步评估***的架构示意图。为实现支撑一个特效同步评估应用，在图1示出的特性同步评估***100中，终端400通过网络300连接服务器200，以作为服务器200的前端，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于响应于测试人员针对图形界面400-1所展示的评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频，并通过网络300将特效视频发送给服务器200。

服务器200用于接收终端400发送的特效视频；基于从特效视频解析出的视频帧序列和音频信号，确定出待评估特效的特效动画对应的动画时间信息，以及待评估特效的特效音频对应的音频时间信息；其中，动画时间信息是精度为视频帧时长的时间信息，音频时间信息是精度为音频帧时长的时间信息；依据动画时间信息和音频时间信息之间的差异，确定出评估结果；其中，评估结果表征特效动画和特效音频的同步情况。

服务器200还用于将评估结果通过网络300发送给终端400，终端400用于在评估界面的结果展示区域中，展示评估结果。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的特效同步评估装置可以采用软件方式实现，图2示出了存储在存储器550中的特效同步评估装置555，其可以是程序和插件等形式的软件，包括以下软件模块：视频获取模块5551、时间确定模块5552、结果生成模块5553、结果展示模块5554和结果比对模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的特效同步评估装置可以采用硬件方式实现，作为示例，本申请实施例提供的特效同步评估装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的特效同步评估方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Comple x Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programma ble Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的特效同步评估方法。举例来说，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序，如特效同步评估APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以应用于云技术、人工智能、智慧交通、车载等各种场景。下面，将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的特效同步评估方法。

参见图3，图3是本申请实施例提供的特效同步评估方法的流程示意图一，将结合图3示出的步骤进行说明。

S101、响应于针对评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频。

本申请实施例是在对特效进行音频和画面的同步性评估的场景下实现的，例如评估游戏中的技能特效是音频和画面是否同步，评估电影中的科幻特效是音频和画面是否同步等。本申请实施例中，电子设备会监测是否具有针对展示的评估界面上的评估触发标识的触发操作。当电子设备监测到针对评估触发标识的触发操作是，就会响应该触发操作，对待评估特效的特效视频进行获取，以便于后续基于特效视频来分析待评估特效的画面和音频是否同步。

评估界面可以是电子设备响应于评估人员的操作所展示的，例如响应评估人员在命令行输入的命令，或者是评估人员的“开始进行特效测试”的声音所展示的，也可以是由电子设备自动触发展示的，例如定时触发展示的，或者待评估特效生成完成之后立即展示的。

可以理解的是，评估触发标识可以根据设置在评估界面的任意区域中，且评估触发标识的大小可以根据实际情况进行调整，本申请在此不作限定。触发操作可以是单击、双击、长按、滑动等操作，本申请在此不作限定。

需要说明的是，在评估界面中还包括结果展示区域，结果展示区域用于显示待评估特效在特效同步评估所得到的评估结果。

示例性的，图4是本申请实施例提供的评估界面的示意图。在评估界面4-1中，设置有评估触发标识4-11和结果展示区域4-12。当评估人员点击评估触发标识4-11时，电子设备就会开始特效同步评估，获取特效视频。

待评估特效可以是游戏技能释放的特效，也可以是视频中的人物的动作的特效、场景的特效等等，本申请在此不作限定。特效视频可以是上传的人工录制的视频，也可以是由电子设备调用自动化脚本对待评估特效进行录制所得到的视频。

S102、基于从特效视频解析出的视频帧序列和音频信号，确定出待评估特效的特效动画对应的动画时间信息，以及待评估特效的特效音频对应的音频时间信息。

电子设备对特效视频在图像维度和音频维度进行分离，得到视频帧序列和音频信号，其中，视频帧序列中包含了待评估特效的特效动画，音频信号中包括了待评估特效的特效音频。电子设备针对视频帧序列和音频信号进行分析，以明确特效动画在时间维度上的出现情况，以及特效音频在时间维度上的出现情况，得到动画时间信息和音频时间信息。

需要说明的是，动画时间信息是精度为视频帧时长的时间信息，音频时间信息是精度为音频帧时长的是将信息。也即，本申请实施例中，电子设备是直接确定出特效动画在帧时长级别上的时间信息，以及特效音频在帧时长级别上的时间信息。帧时长一般都在毫秒级别，从而，电子设备所确定出的动画时间信息和音频时间信息更为精确。

可以理解的是，特效动画是指待评估特效在视觉上的表现，例如，电影中人物的动作，游戏中虚拟角色的外观变化等，特效音频是指待评估特效在听觉上的表现，例如，电影中人物的配乐、游戏中的***声音等等。

在本申请实施例中，动画时间信息可以包括指特效动画所对应的动画起始时间、动画结束时间、动画持续时间中的一种或多种，音频时间信息中可以包括特效音频所对应的音频起始时间、音频结束时间、音频持续时间中的一种或多种。

在一些实施例中，电子设备可以针对视频帧序列中的各个视频帧确定出动态区域，然后基于对动态区域的分析，确定出特效动画所涉及的视频帧，基于该视频帧确定出动画时间信息。在另一些实施例中，电子设备还可以依据特效动画所对应的图像模板，从视频帧序列中匹配出出现了特效动画视频帧，基于该视频帧确定出动画时间信息。

在一些实施例中，电子设备可以从音频信号中提取出有效音频，基于涉及到有效音频的音频帧，确定出特效音频所对应的音频时间信息。在另一些实施例中，电子设备还可以利用特效音频所对应的预设音频特征，与音频信号的各个音频帧的特征进行匹配，基于匹配上的音频帧，确定出特效音频所对应的音频时间信息，本申请在此不作限定。

S103、依据动画时间信息和音频时间信息之间的差异，确定出评估结果。

特效的同步性电子设备将动画时间信息和音频时间信息进行比对，就能够确定出特效动画和特效音频是否同步出现的，从而得到评估结果。也就是说，评估结果表征特效动画和特效音频的同步情况。

在一些实施例中，电子设备可以直接将动画时间信息和音频时间信息作为评估结果，也可以是将动画时间信息和音频时间信息的时间差值作为评估结果，例如，0.5s，1s等。

在另一些实施例中，评估结果还可以包括自动将动画时间信息和音频时间信息的时间差值与对应的时间阈值进行比较所给出待评估特效是否通过特效同步性评估的提示信息，例如，通过、未通过等。其中，时间阈值可以是预设好的，也可以是根据待评估特效的类别进行调整的，例如，在待评估特效为游戏的技能特效时，将时间阈值调至最小值，为电影特效时将时间阈值调整为中间值等。

S104、在评估界面的结果展示区域中，展示评估结果。

电子设备在得到评估结果之后，就可以将评估结果展示到结果展示区域中，以便于评估人员或者开发人员了解待评估特效的音频和画面的同步结果，以进行下一步的处理。可以理解的是，结果展示区域的大小和位置均可以根据实际情况设置。

示例性的，基于图4，参见图5，图5是本申请实施例提供的评估结果的示意图。电子设备在评估界面4-1的结果展示区域4-12中展示评估结果5-1，其中评估结果5-1包括了动画时间信息5-11(动画起始时间：0.2；动画结束时间1.3)，音频时间信息5-12(音频起始时间：0.1；音频结束时间：0.89)，以及提示信息5-13：未通过。据此，评估人员就可以了解待评估特效的特效同步情况了。

可以理解的是，相比于相关技术中基于评估人员的主观感受来实现特效同步评估，本申请实施例是电子设备对从特效视频的图像序列和音频信号进行分析，得到了特效动画的精度为视频帧时长的时间信息，以及特效音频的精度为音频帧时长的时间信息，即将特效动画和特效音频各自所对应的时间信息直接确定到了帧时长级别，达到了较高的精度，然后再利用高精度的时间信息进行精确的比较，使得不易被感知到的帧时长级别不同步问题也能够被发现，即能够发现各种严重程度的特效不同步问题，大幅提高特效同步评估的精度，且整个过程是自动化实现的，无需进行多次操作，加快了特效同步评估的效率。综上所述，本申请实施例提供的特效同步评估的方法提高了特效同步评估的精度，加快了特效同步评估的效率，最终提高了特效同步评估的智能程度。

需要说明的是，在一些实施例中，电子设备可以实施为终端，此时，可以由终端独立地完成S101-S104，以实现特效同步评估。在另一些实施例中，电子设备还可以实施为由终端和服务器组成的设备集群，这时，可由终端完成S101和S104的过程，由服务器完成S102至S103的过程，服务器和终端可以基于云技术，来实现数据交互，例如，终端上传特效视频给服务器，服务器下发评估结果给终端等等。

在本申请的一些实施例中，待评估特效包括：多个技能特效，例如游戏中的状态值回复特效、攻击特效等。此时，获取待评估特效的特效视频，即S101的具体实现过程，可以包括：S1011或S1012，如下：

S1011、对上传至评估界面的技能视频区域的多个视频进行获取，得到多个技能特效各自的特效视频。

本申请实施例中，评估界面中还设置有技能视频区域，用于评估人员通过上传特效同步评估时所需要的视频。进一步的，在评估界面中，可以设置有视频上传标识，评估人员可以通过触发视频上传标识，一次性上传多个视频至技能视频区域。当然，电子设备还可以支持通过拖拽操作来将视频上传技能视频区域，例如，评估人员依次将主菜单上的多个视频拖拽到评估界面的技能视频区域，以上传这些视频至技能视频区域。

示例性的，基于图4，参见图6，图6是本申请实施例提供的获取特效视频的示意图一。在评估界面4-1中，还设置有视频上传标识6-1和技能视频区域6-2，电子设备在检测到评估人员针对视频上传标识6-1的操作之后，将评估人员通过界面化的路径选择所选中视频6-A和视频6-B，上传到技能视频区域6-2，然后在评估人员点击评估触发标识4-11时，就会将技能视频区域6-2中的两个视频作为特效视频，以进行特效同步性评估。

S1012、通过在评估界面的虚拟互动区域所展示的虚拟场景中释放多个技能特效对应的技能，展示多个技能特效，并对虚拟场景进行视频录制，得到多个技能特效各自的特效视频。

本申请实施例中，评估界面中还可以设置有虚拟互动区域，虚拟互动区域用于提供与虚拟场景的交互入口。此时，电子设备可以响应于评估人员在虚拟互动区域所展示的虚拟场景的技能释放操作，或者是技能控制脚本虚拟场景中的技能释放指令，来依次释放多个技能特效各自所对应的技能，从而会在虚拟场景中展示多个技能特效，此时，调用视频录制组件对虚拟场景进行视频录制，就得到多个技能特效各自所对应的特效视频。

示例性的，基于图4，参见图7，图7是本申请实施例提供的获取特效视频的示意图二。在评估界面4-1中，还设置有虚拟互动区域7-1，电子设备可以在虚拟互动区域7-1中调用并展示虚拟场景7-2，例如游戏对战场景，然后在虚拟场景7-2中依次释放状态值回复技能和加强防御技能，以展示这两个技能的技能特效，同时调用视频录制脚本对虚拟场景7-2进行视频录制，在录制结束时就能够得到上述两个技能对应的特效视频。最后在评估人员点击评估触发标识4-11时，就会将利用这些特效视频进行特效同步性评估。

本申请实施例中，电子设备不仅可以批量获取特效视频，还可以通过直接获取上传的录制好的视频，或者是通过实时录制技能特效的展示过程的方式获取到特效视频，提高了获取特效视频的方式的多样性。

在本申请的一些实施例中，评估结果包括：多个技能特效各自的特效视频对应的多个子评估结果，此时，在评估界面的结果展示区域中，展示评估结果之后，即在S104之后，该方法还可以包括：S105-S106，如下：

S105、基于对多个子评估结果进行对比，从多个技能特效中查找出待修复特效。

S106、将待修复特效对应的标识信息展示在评估界面的修复提示区域中。

本申请实施例中，电子设备还可以将多个子评估结果中的动画时间信息和音频时间信息的时间差值进行横向对比，以从多个技能特效中挑选出子评估结果最差的技能特效，或者是子评估结果低于平均水平的技能特效，作为需要进行修复的待修复特效，并获取待修复特效所对应的标识信息，将对应的标识信息展示在修复提示区域中，以提示评估人员哪些技能特效需要进行修复工作。

可以理解的是，待修复特效的标识信息，可以是待修复特效的名称，也可以是待修复特效的编号，本申请在此不作限定。

示例性的，图8是本申请实施例提供的展示待修复特效的标识信息的示意图。电子设备在评估界面8-1的结果展示区域8-11中，展示了2个技能特效各自的子评估结果，即状态恢复技能8-111的动画时间信息和音频时间信息的时间差值：0.1，以及防御加成技能8-112的动画时间信息和音频时间信息的时间差值0.5，并将防御加成技能8-112展示在评估界面8-1的修复提示区域8-12中。

本申请实施例中，电子设备还可以直接对子评估结果进行对比，确定出需要修复的技能特效，并展示相关的标识信息，进一步提升特效同步评估的智能程度。

基于图3，参见图9，图9是本申请实施例提供的特效同步评估方法的流程示意图二。在本申请的一些实施例中，动画时间信息包括：特效动画的动画起始时间和动画结束时间，音频时间信息包括：特效音频的音频起始时间和音频结束时间。在此情况下，依据动画时间信息和音频时间信息之间的差异，确定出评估结果，即S103的具体实现过程，可以包括：S1031-S1032，如下：

S1031、计算动画起始时间和音频起始时间之间的第一时间差，以及动画结束时间和音频结束时间之间的第二时间差。

在一些实施例中，电子设备可以直接将动画起始时间和音频起始时间相减，得到第一时间差，以及直接将动画结束时间和音频结束时间相减，得到第二时间差。在另一些实施例中，电子设备还可以将动画起始时间和音频起始时间的差值的绝对值结果作为第一时间差，将动画结束时间和音频结束时间的差值的绝对值作为第二时间差。

示例性的，本申请实施例提供了第一时间差和第二时间差的计算方式，分别如式(1)和式(2)所示：

Diff_start＝abs(T_{A_start}-T_{V_start}) (1)

Diff_end＝abs(T_{A_end}-T_{V_end}) (2)

其中，T_{A_start}是音频起始时间，T_{V_start}是动画起始时间，T_{A_end}是音频结束时间，T_{V_end}是动画结束时间，Diff_start是第一时间差，Diff_end是第二时间差，abs是绝对值计算。

可以理解的是，本申请实施例中，动画起始时间可由起点视频帧的编号和视频帧时长计算得到，动画结束时间可由终点视频帧的编号与视频帧时长计算得到。其中，视频帧时长(基于视频帧率计算得到)是指每个视频帧的显示时长，利用其与起点视频帧的编号进行计算，就能够明确在经过了多少了个视频帧时长之后，开始显示特效动画，从而能够将动画起始时间的精度限定在视频帧时长，使得动画起始时间达到了人类无法感知的精度程度，以便于后续进行更加精确地时间对比。同理，电子设备按照相类似的方式所确定出动画结束时间，也是以视频帧时长为精度。

音频起始时间可由起点音频帧的编号和音频帧时长计算得到，音频结束时间可由终点音频帧的编号和音频帧时长计算得到。其中，音频帧时长(基于音频帧包含的采样点的数量和音频采样率得到)是指音频信号在播放时每个音频帧所占据的时间长度。电子设备将音频帧时长，与起点视频帧的编号和终点视频帧结合，就会明确在经过了多少个音频帧时长之后，开始播放特效音频，以及结束特效音频，从而所计算出的音频起始时间和音频结束时间的精度就限定在了音频帧时长，精度较高，以便于更加精确地进行时间比对。

S1032、依据第一时间差和第二时间差中的至少一个，确定出评估结果。

电子设备对动画起始时间和音频起始时间做差，就能得到第一时间差，将动画结束时间和音频结束时间做差，就能得到第二时间差。接着，电子设备可以从第一时间差和第二时间差中任选一个来生成评估结果，也可以同时利用第一时间差和第二时间差来生成评估结果。

可以理解的是，只要特效动画和特效音频的开始时间，以及特效动画和特效音频的结束时间中的任意一个不满足同步条件时，电子设备都会认定特效动画和特效音频不同步。基于此，本申请实施例中，电子设备可以从第一时间差和第二时间差中的任意一个作为判断依据，只要在确定选择出的时间差不满足其所对应的判定条件时，就直接会生成特效动画和特效音频不同步的评估结果，从而仅通过一次计算就可以粗略地确定出评估结果，使得生成评估结果所需的计算量较少。

还可以理解的是，电子设备还可以同时利用第一时间差和第二时间差确定评估结果，以同时将特效动画和特效音频的开始时间，以及特效动画和特效音频的结束时间作为判断依据，从而生成更加精确的评估结果。

在一些实施例中，电子设备可以将第一时间差和第二时间差中的一个或多个直接作为评估结果。在另一些实施例中，电子设备还可以将第一时间差和第二时间差中的一个与多个与对应的时间差阈值进行比较，以确定出评估结果。

本申请实施例中，电子设备可以基于特效动画的开始和结束时间，以及特效音频的开始和结束时间，来精准地判断特效动画和特效音频之间是否同步值，提高特效同步评估的精准度。

在本申请的一些实施例中，依据第一时间差和第二时间差中的至少一个，确定出评估结果，即S1032的具体实现过程，可以包括：S1032a或S1032b，如下：

S1032a、当第一时间差小于等于第一时间阈值，且第二时间差小于等于第二时间阈值时，确定评估结果为特效动画与特效音频同步。

S1032b、当第一时间差大于第一时间阈值，或第二时间差大于第二时间阈值时，确定评估结果为特效动画与特效音频不同步。

电子设备将第一时间差与第一时间阈值进行比较，将第二时间差与第二时间阈值进行大小比较，若是第一时间差大于第一时间阈值，或者第二时间差大于第二时间阈值时，电子设备就会将评估结果确定为特效动画与特性音频不同步。若是第一时间差小于等于第一时间阈值，且第二时间差也小于等于第二时间阈值时，电子设备则会将评估结果确定为特效动画与特效音频同步。

需要说明的是，本申请实施例中，第一时间阈值和第二时间阈值可以是相同的，也可以是不同的。第一时间阈值和第二时间阈值的具体数值，均可以是根据实际情况设置好的，也可以是由电子设备根据待评估特效的种类，或者是特效视频的总时长自行确定的。例如，当特效视频的总时长较长时，设置第一时间阈值和第二时间阈值均为0.1s，当待评估特效为游戏的技能特效时，设置第一实际阈值为0.05是、，设置第二时间阈值为0.08s等，本申请在此不作限定。

本申请实施例中，电子设备通过将第一时间差和第二时间差与其各自对应的时间阈值相比较，就能够确定出评估结果，无需评估人员人工分析，提高了特效同步评估的效率。

基于图9，参见图10，图10是本申请实施例提供的特效同步评估方法的流程示意图三。在本申请的一些实施例中，基于从特效视频解析出的视频帧序列和音频信号，确定出待评估特效的特效动画对应的动画时间信息，以及待评估特效的特效音频对应的音频时间信息，即S102的具体实现过程，可以包括：S1021-S1024，如下：

S1021、基于对音频信号中每个音频帧进行幅度特征和频域特征的确定，检测出特效音频的起点音频帧和终点音频帧。

电子设备将音频信号解析多个音频帧，针对每个音频帧进行幅度特征和频域特效的抽取，然后再依据每个音频帧的幅度特征和频域特征，从音频信号中确定出有效音频所在的音频帧区间，然后依据该音频帧区间的起始帧和末尾帧，确定为特效音频的起点音频帧和终点音频帧。

可以理解的是，有效音频是指除噪声之外的音频，从而，有效音频就是音频信号所包含的特效音频。在一些实施例中，电子设备可以将幅度特征和频域特征均大于对应的阈值的音频帧，确定为有效音频的音频帧；在另一些实施例中，电子设备还可以将幅度特征和频域特征最大音频帧，以及该音频帧之后的预设时长的音频，确定为有效音频。

还可以理解的是，幅度特征表征了音频帧中的音频信号点在能量上的特性，例如人耳所能感知的声音强度等的特性。幅度特征可以为幅度值，或者是短时能量等。频域特征表征了音频帧中的音频信号点在频率上的特性，例如，音频信号点是由哪些单一频率的信号合成的。频域特征可以是频率值，也可以是短时过零率等，本申请在此不作限定。

S1022、依据起点音频帧的编号和音频帧时长，计算出音频起始时间，以及依据终点音频帧的编号和音频帧时长，计算出音频结束时间。

电子设备将起点音频帧的编号和音频帧时长相乘，就能够明确经过了多少了音频帧时长之后才开始播放特效音频，从而得到音频起始时间。同理，电子设备将终点音频帧的编号和音频帧时长相乘，就明确了经过了多少个音频帧时长之后结束播放特效音频，得到音频结束时间。

本申请实施例中，音频帧时长是利用音频帧中所包含的音频信号点的数量，和音频采样率相比所得到的。其中，音频信号点的数量表明了利用多少个音频信号点组成一个音频帧，音频采样率表征1秒所采集的音频信号点的个数。将1和音频采样率相比，能够确定出每个音频信号点所对应的时长，再在该时长上乘以音频信号点的数量，就得到了音频帧时长。也就是说，在音频帧中包括：N个音频信号点时，音频帧时长为N与音频采样率的比值。

基于此，本申请实施例提供了计算音频起始时间的和音频结束时间的公式，如式(3)和式(4)所示：

其中，A_start是起点音频帧的编号，A_{sample_ratio}是音频采样率，是终点音频帧的编号，N是音频帧的长度，即包含的音频信号点的数量。

S1023、基于对视频帧序列中的每个视频帧进行动态区域的确定，检测出特效动画的起点视频帧和终点视频帧。

电子设备对每个视频帧进行图像特征的抽取和分析，以针对每个视频帧确定出在时间维度上图像内容发生变化的动态区域。当视频帧序列中不存在特效动画时，视频帧序列中的各个视频帧的画面并没有发生变化，也就不会存在动态区域，基于此，电子设备可以将首个出现动态区域的视频帧确定为终点视频帧，将最后一个出现动态区域的视频帧确定为终点视频帧，这样，电子设备就能够确定出特效动画是何时开始，何时结束的。

可以理解的是，前景区域是指出现了动态内容的区域，从而，电子设备确定动态区域的过程，就是确定前景区域。动态设备可以利用常用的前景区域确定方法，来针对每个视频帧确定出前景区域，例如，电子设备可以通过帧差法确定出每个视频帧的前景区域，即通过将每个视频帧，与其所对应的参考视频帧(可以是上一帧，也可以是首帧)相减，得到前景区域，或者是通过高斯背景建模确定出每个视频帧的前景区域，即通过高斯函数对每个视频帧中的像素点进行状态表示，利用像素点状态的不同将每个视频帧分割为前景区域和背景区域。

S1024、依据起点视频帧的编号和视频帧时长，计算出动画起始时间，以及依据终点视频帧的编号和视频帧时长，计算出动画结束时间。

电子设备在确定出起点视频帧和终点视频帧之后，可以直接利用起点视频帧的编号和视频帧时长相乘，以明确在经过了多少个视频帧时长之后开始播放特效动画，得到动画起始时间，同时将终点视频帧的编号和视频帧时长相乘，以明确在经过了多少个视频帧时长之后结束播放特效动画，得到动画结束时间。

可以理解的是，视频帧时长可以由1与视频帧率相比得到，其中，视频帧率是指每秒显示的视频帧的数量。

基于此，本申请实施例提供了起动画起始时间和动画结束时间的公式，参见式(5)和式(6)：

其中，V_start是起点视频帧的编号，V_end是终点视频帧的编号，V_{frame_ratio}是视频帧率。

进一步的，基于式(3)、式(4)、式(5)和式(6)，式(1)和式(2)可以变为：

本申请实施例中，电子设备分别对音频信号和图像序列进行处理，以从音频信号中确定出起点音频帧和终点音频帧，从视频帧序列中确定出起点视频帧和终点视频帧，然后依据音频帧的时间信息的对应关系，以及视频帧的时间信息，就能够自动得到精度为帧时长级别的音频起始时间、音频结束时间、动画起点时间和动画结束时间，以便于后续进行更为精确的时间信息的判断，得到评估结果。

在本申请的一些实施例中，幅度特征包括：短时能量，频域特征包括：短时过零率。其中，短时能量是基于每个音频信号点的幅度加权平方和所确定出的特征，其可以用来区分音频信号中是否出现了声音；短时过零率是指每个音频帧内的音频信号点的幅度值经过0的次数，反映了音频信号的波形的变化。此时，基于对音频信号中的每个音频帧进行幅度特征和频域特征的确定，检测出特效音频的起点音频帧和终点音频帧，即S1021a-S1021c，如下：

S1021a、针对音频信号中的每个音频帧，确定出短时能量和短时过零率。

每个音频帧都具有多个音频信号点，电子设备将统计出多个音频信号点各自的幅度值，然后基于对多个音频信号点各自的幅度值进行叠加，计算出每个音频帧的短时能量，基于对每个音频信号点各自的幅度值，以及对应的上一个音频信号点的幅度值进行符号函数的运算，确定出每个音频帧的短时过零率。

示例性的，式(9)是本申请实施例提供的计算短时能量的过程：

其中，n表示第n帧，E_n表示第n帧的短时能量，f(x)表示每个音频信号点的幅度值，N表示每个音频帧的中的音频信号点的数量。

示例性的，式(10)是本申请实施例提供的计算短时过零率的过程：

其中，n表示第n帧，Z_n表示第n帧的短时过零率，N表示每个音频帧的中的音频信号点的数量，f(x)表示每个音频信号点的幅度值，sgn[]为符号函数，其定义为式(11)所示：

S1021b、从音频信号中，筛选出短时能量大于能量阈值，且短时过零率大于过零率阈值的多个有效音频帧。

电子设备在得到每个音频帧的短时能量和短时过零率之后，将短时能量和能力阈值进行比较，将短时过零率与过零率阈值进行比较，以从音频信号的各个音频帧中，筛选出短时能量大于对应的能量阈值，且短时过零率大于对应的过零率阈值的音频帧，这些音频帧即为有效的音频帧，而短时能量或短时过零率中的任意一个小于对应的阈值的音频帧，即为噪点。如此，电子设备就能够得到多个有效音频帧。

示例性的，图11是本申请实施例提供的每个音频帧的短时能量的示意图，其中，横轴为音频帧的帧号11-1(取值范围为0-350+)，纵轴为音频帧的短时能量11-2(取值范围为0-200+)，在此情况下，电子设备就将短时能量大于能量阈值的多个有效音频帧11-3中的首个音频帧11-31，确定为起点音频帧，将短时能量大于能量阈值的多个有效音频帧11-3中的最后一个音频帧11-32，确定为终点音频帧。

S1021c、将多个有效音频帧中的首个有效音频帧，确定为起点音频帧，以及将多个有效音频帧中的最后一个有效音频帧，确定为终点音频帧。

电子设备将多个有效音频帧中，帧号最靠前的音频帧，即多个有效音频帧的首个有效音频帧，作为起点音频帧，而将多个有效音频帧中，帧号最靠后的音频帧，即多个有效音频帧中的最后一个有效音频帧，作为终点音频帧，如此，电子设备就完成了起点音频帧和终点音频帧的确定过程。

本申请实施例中，电子设备能够通过计算每个音频帧的短时能量和短时过零率，先筛选出多个有效音频帧，即确定出音频信号中的有效音频部分，然后再从多个有效音频帧确定出起点音频帧和终点音频帧，以便于将特效音频的起始和结束精确到音频帧对应的时间单位上，即音频帧时长上，提升了特效同步测试的精准度。

在本申请的一些实施例中，基于对视频帧序列中的每个视频帧进行动态区域的确定，检测出特效动画的起点视频帧和终点视频帧，即S1023的具体实现过程，可以包括：S1023a-S1023d，如下：

S1023a、针对视频帧序列中的每个视频帧，确定出第一动态区域。

电子设备针对每个视频帧，与其对应的第一相邻视频帧进行逐像素点的相减，使得像素值发生变化的像素点被保留，像素值没有发生变化的像素点，即背景像素点被剔除，确定出每个视频帧的候选动态区域。然后，针对候选动态区域进行降维、膨胀、连通域等操作中的一个或多个操作，得到每个视频帧的第一动态区域。

可以理解的是，降维操作可以是指二值化，也可以是指下采样，膨胀操作是对降维后的动态区域进行范围扩张，连通域操作是指将分散的动态区域进行合并，得到一个完整的动态区域。

S1023b、将视频帧序列中首个满足动画起始条件的视频帧，确定为特效动画的起点视频帧。

其中，动画起始条件为第一动态区域的区域面积大于第一面积阈值，且第一动态区域与预设区域的重叠面积大于第二面积阈值的视频帧。

电子设备计算出每个视频帧的第一动态区域的区域面积与第一面积阈值进行比较，从而判断出每个视频帧的第一动态区域是否达到了一定的面积(排除噪点)，同时，将针对每个视频帧的第一动态区域，与预设区域计算重叠部分的面积，将计算出的重叠面积与第二面积阈值进行比较，从而判断出每个视频帧的第一动态区域是否落入到了预设区域中。接着，电子设备将第一动态区域达到了一定的面积，且第一动态区域落入到了预设区域中的视频帧，确定为候选起视频帧，然后将候选起点视频帧中的最靠前的视频帧，即首个视频帧，确定为起点视频帧。

需要说明的是，预设区域是指特效动画在播放之后，画面内容会发生明显变化的区域，例如，技能特效在释放之后，技能图标处会开始出现倒计时等画面。从而，电子设备需要通过第一动态区域与预设区域的重叠面积，来辅助判断是否为特效动画开始播放，从而避免针对起点视频帧的误判(例如避免在游戏中的其他虚拟对象的其他动作开始出现变化的视频帧，误判为技能特效的特性动画的起点视频帧)。

S1023c、针对视频帧序列中位于起点视频帧之后的多个其他视频帧，确定出第二动态区域。

电子设备在确定出起点视频帧之后，将排在起点视频帧之后的所有视频帧，确定为其他视频帧，从而得到多个其他视频帧。然后，电子设备将每个其他视频帧，和与其对应的第二相邻视频帧进行相减、确定出其他视频帧的候选动态区域，针对候选动态区域进行降维、腐蚀、连通域计算等处理中的一个或多个，从而得到第二动态区域。

降维操作可以是指二值化，也可以是指下采样，腐蚀操作是对降维后的动态区域进行范围缩小，连通域操作是指将分散的动态区域进行合并，得到一个完整的动态区域。

可以理解的是，第一相邻视频帧和第二相邻视频帧可以是相同类型的视频帧，例如，第一相邻视频帧为每个视频帧的上一个视频帧，第二相邻视频帧为每个其他视频帧的上一个视频帧；第一相邻视频帧和第二相邻视频帧还可以是不同类型的视频帧，例如，第一相邻视频帧为每个视频帧的上一个视频帧，第二相邻视频帧为在每个其他视频帧之前，且与每个其他视频帧相差3帧的视频帧等等，本申请在此不作限定。

S1023d、当基于第二动态区域，从多个其他视频帧中提取出连续的N个静止视频帧时，将第N个静止视频帧，确定为终点视频帧。

电子设备基于多个其他视频帧各自的第二动态区域，判断多个其他视频帧中是否存在有连续的静止视频帧，即存在一个画面内容无变化的视频帧序列。当多个其他视频帧中存在连续的N个静止视频帧时，电子设备会将第N个静止视频帧，即最后一个静止视频帧，确定为终点视频帧。至此，电子设备就得到了起点视频帧和终点视频帧，以便于后续确定评估结果。可以理解的是，N为大于1的正整数。

需要说明的是，本申请实施例中，静止视频帧为第二动态区域的区域面积小于等于第一面积阈值，且第二动态区域与预设区域的重叠面积小于等于第二面积阈值的视频帧。也就是说，当第二动态区域的区域面积大于第一面积阈值，或者第二动态区域与预设区域的重叠面积大于第二面积阈值时，视频帧就不能算作静止视频帧。

本申请实施例中，电子设备会将首个区域面积足够大，且动态区域大部分落入预设区域的视频帧，确定为特效动画开始的视频帧，然后再在该视频帧之后继续查找连续的静止视频帧，从而依据特效动画开始的视频帧和连续的静止视频帧的最后一个视频帧，就能够在视频帧的粒度上定位出来特效动画的起始和结束，即将特效动画的定位精度提高到了视频帧对应的时间单位上，即视频帧时长上，也就提高了特效同步评估的精准度。

在本申请的一些实施例中，针对图像序列中的每个视频帧，确定出第一动态区域，即S1023a的具体实现过程，可以包括：S201-S204，如下：

S201、对图像序列中的每个视频帧，以及每个视频帧的第一相邻视频帧进行帧差计算，得到第一帧差图像。

电子设备针对每个视频帧，均获取对应的第一相邻视频帧，然后将每个视频帧和所对应的第一相邻视频帧进行做差，就能够得到第一帧差图像。

可以理解的是，第一相邻视频帧可以是每个视频帧的上一个视频帧，也可以是在每个视频帧之前，且与每个视频帧间隔为m的视频帧，本申请在此不作具体限定。进一步的，由于特性动画在开始时的前后两帧具有明显的差异，从而电子设备可以针对每个视频帧和第一相邻视频帧设置较小的帧间隔，例如只间隔1帧或2帧。

示例性的，式(6)提供了计算第一帧差图像的计算公式：

D_n(x,y)＝|f_n(x,y)-f_n-1(x,y)| (12)

其中，f_n(x,y)是每个视频帧的各个像素点的像素值，f_n-1(x,y)为上一个视频帧的各个像素点的像素值，D_n(x,y)为第一帧差图像。

示例性的，图12是本申请实施例提供的生成第一帧差图像的示意图。电子设备将图像序列中的视频帧12-1，以及该视频帧的上一个视频帧，即视频帧12-2进行做差，就能够得到第一帧差图像12-3。在第一帧差图像12-3展示了视频帧12-1和视频帧12-2之间的差异。

S202、对第一帧差图像进行降维处理，得到第一降维图像。

电子设备通过对第一帧差图像进行二值化处理，实现对第一帧差图像的降维处理，即将第一帧差图像中大于像素阈值的像素点的像素值，设置为极大值，例如设置为255，将小于等于该像素阈值的像素点的像素值，设置为极小值，例如设置为0，从而将第一帧差图像的前景和背景区分出来，所得到的图像就是第一降维图像。

示例性的，图13是本申请实施例提供的降维处理的示意图。电子设备针对视频帧13-1生成第一帧差图像为13-2，然后对第一帧差图像13-2进行二值化处理，就得到了第一降维图像13-3。

可以理解的是，像素阈值可以使用固定阈值，也可以由电子设备根据第一降维图像的情况，例如中值等，自行进行设置，本申请在此不作限定。

在一些实施例中，为了消除噪点使得第一降维图像的质量更好，电子设备还可以在二值化处理所得到的二值化图像进行滤波处理，从而得到第一降维图像。可以理解的是，电子设备可以针对二值化图像进行中值滤波，或者是高斯滤波等，以得到第一降维图像。

其中，中值滤波是指将像素点的所有邻域内的像素进行排序，然后将序列的中间位置的像素值作为当前点的像素值。示例性的，图14是本申请实施例提供的中值滤波的过程示意图。参见图14，像素点14-1为像素值为200，其8个相邻的像素点的像素值分别为200、100、50、195、190、200、198、200。电子设备对这些像素点的像素值进行排序，排序结果为50、100、190、195、198、200、200、200、200，从而，电子设备将198作为像素点14-1的像素值，就完成了针对该像素值的中值滤波。

图15是本申请实施例提供的中值滤波前后的效果对比图。以图13中的第一帧差图像13-2为例，可以看出，中值滤波前的第一帧差图像13-2中的前景区域15-1并不平滑，而对于第一帧差图像13-2进行中值滤波所得到的滤波图像15-2中的前景区域15-21则较为平滑，噪点较少。

S203、针对第一降维图像中亮度大于亮度阈值的图像区域进行膨胀，得到膨胀区域。

电子设备先将第一降维图像中的各个像素点的亮度，与亮度阈值进行比较，以查找出亮度大于亮度阈值的图像区域，该图像区域就是第一降维图像中的高亮区域。接着，电子设备针对高亮区域进行扩张，以增大高亮区域的面积，从而实现对亮度大于亮度阈值图像区域的膨胀处理，就能够得到膨胀区域，以便于通过膨胀区域及时发现特效动画已经开始(例如有些特效动画播放初期画面变化并不大)。

可以理解的是，针对亮度大于亮度阈值的图像进行膨胀处理的计算过程可以如式(13)所示：

其中，A为第一降维图像，B为卷积模板，x为每个像素值。

示例性的，图16是本申请实施例提供的膨胀处理的效果示意图。电子设备针对第一降维图像16-1进行膨胀处理，就会使得高亮区域16-11的面积得到扩大，变为图像16-2中的高亮区域16-21，该高亮区域16-21，就膨胀区域。

S204、针对膨胀区域进行连通域计算，得到第一动态区域。

电子设备可以直接将膨胀区域的连通域作为第一动态区域，也可以将膨胀区域的连通域所在的区域进行扩大若干倍，得到第一动态区域。

需要说明的是，连通域一般是由图像中具有相同像素值，且像素点的位置相邻的前景像素点所组成的图像区域。本申请实施例中，电子设备可以基于种子填充算法，计算膨胀区域的连通域。此时，电子设备可以先从膨胀区域中任意选取一个前景像素点作为种子，然后将与种子具有相同像素值，且与种子相邻的前景像素点，合并到同一个像素点集合中，最终这些像素点集合就是膨胀区域的连通域。

示例性的，图17是本申请实施例提供的膨胀区域的连通域的示意图。电子设备针对第一降维图像17-1中的膨胀区域17-11进行连通域计算，就能够得到第一降维图像17-1中的连通域17-12。

本申请实施例中，电子设备可以先通过计算帧差，初步确定出每个视频帧中发生了变化的区域，得到第一帧差图像，然后再基于对第一帧差图像进行降维处理、膨胀、连通域计算等图像处理，以排除噪点，将由帧差计算所分割出的离散区域进行合并，从而得到更加精准的第一动态区域。

在本申请的一些实施例中，针对图像序列中位于起点视频帧之后的多个其他视频帧，分别确定出第二动态区域，即S1023c的具体实现过程，可以包括：S205-S208，如下：

S205、对每个其他视频帧，以及每个其他视频帧的第二相邻视频帧进行帧差计算，得到第二帧差图像。

第二相邻视频帧可以是在其他视频帧之前，且与其他视频帧具有一定的间隔的视频帧。进一步的，其他视频帧与第二相邻视频帧之间的间隔，大于每个视频帧与第一相邻视频帧之间的间隔。例如，第一相邻视频帧为每个视频帧的上一个视频帧时，第二相邻视频帧就为从其他视频帧开始，向前数的第3个视频帧。这是由于，特效动画的末尾一般变化都十分的缓慢，在与较小间隔的第二相邻视频帧在进行帧差计算时，在变化还未结束时，就将该视频帧确定为静止视频帧，从而需要选择较大间隔的视频帧作为进行帧差计算的第二相邻视频帧，以减少误报的发生。

S206、对第二帧差图像进行降维处理，得到第二降维图像。

可以理解的是，该过程与S202的处理过程类似，在此不在进行赘述。

S207、针对第二降维图像中亮度大于亮度阈值的图像区域进行腐蚀，得到腐蚀区域。

由于本申请实施例中是要寻找静止视频帧，而静止视频帧则要求与之前的视频帧的变化足够小，从而，本申请实施例中，电子设备是需要对第二降维图像中的高亮区域进行腐蚀，以尽可能地在确定静态视频帧序列时排除噪点的干扰。

腐蚀是指将模板元素在整个第二降维图像上移动，只有在模板元素与第二降维图像上的像素点的像素值全部相等时，保留这些像素点的像素值，针对其他像素点的像素值进行清零。

S208、针对腐蚀区域进行连通域计算，得到第二动态区域。

可以理解的是，该过程与S204的处理过程较为类似，在此不再赘述。

本申请实施例中，电子设备可以先通过计算帧差，初步确定出每个视频帧中发生了变化的区域，得到第二帧差图像，然后再基于对第二帧差图像进行降维处理、腐蚀、连通域计算等图像处理，以排除噪点干扰，从而得到更加精准的第二动态区域。

在本申请的一些实施例中，动画时间信息包括：特效动画的动画持续时间和特效音频的音频持续时间，此时，依据动画时间信息和音频时间信息之间的差异，确定出评估结果，即S103的具体实现过程，可以包括：S1033-S1034，如下：

S1033、计算动画持续时间和音频持续时间之间的第三时间差。

S1034、依据第三时间差和第三时间阈值的大小关系，确定出评估结果。

电子设备可以将动画持续时间和音频持续时间做差，得到第三时间差，在第三时间差小于等于第三时间阈值时，确定评估结果为特效动画和特效音频同步，在第三时间差大于第三时间阈值时，确定评估结果为特效动画和特效音频不同步。

其中，第三时间阈值可以根据实际情况进行设置，本申请在此不作限定。

本申请实施例中，电子设备还可以直接根据特效动画的动画持续时间与特效音频的音频持续时间是否相同，从而不必考虑起始时间和结束时间，判断更为简便。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在对游戏的技能特效(待评估特效)进行特效同步的测试的场景下实现的，即判断技能特效的画面(特效动画)，和技能特效的声音(特效音频)是否是同步的。

参见图18，图18是本申请实施例提供的进行特效同步测试的***架构示意图。在本***中，测试人员可以向Web平台18-A(终端)上传18-1录制的技能视频18-2(待评估特效的特性视频)，在测试人员在Web平台18-A上进行操作以触发开始测试(响应于针对评估界面中的评估触发标识的触发操作)时，Web平台18-A将技能视频18-2发送给后台18-B(服务器)，后台18-B通过一致性计算18-3，自动化分析音频和画面的开始时间和结束时间之间的时间差，时间差越大，表明技能的音频和画面越不同步，一致性越差。然后，后台18-B将一致性结果进行数据存储18-4，并反馈给Web平台18-A，以展示一致性结果18-5(在评估界面的结果展示区域中，展示测试结果)。

参见图19，是本申请实施例提供的一致性计算的过程示意图。参见图19，该过程包括：

S301、读入技能视频(获取待评估特效的特性视频)。

S302、分离画面与音频(解析出图像序列和音频信号)。

S303、计算短时过零率。

S304、初步计算音频起点t1和终点t2。

S305、计算短时能量。

S306、精确计算音频起点t1和终点t2(起点音频帧和终点音频帧)。

S307、图像帧差计算。

S308、帧差图像二值化。

S309、二值图像膨胀/腐蚀。

S310、连通域检测。

S311、连通域位置判定。

S312、检测技能释放帧t3和结束帧t4(起点视频帧和终点视频帧)。

S313、一致性判定。一致性判定的过程可以通过式(1)和式(2)实现。当技能的音频和画面的起点时间差(第一时间差)，和技能的音频和画面的终点的时间差(第二时间差)中的任意一个大于给定的时间阈值(时间差阈值)时，后台认定技能的音频和画面并不同步，需要对技能特效进行调整。

其中，S303-S306与S307-S312是同步进行的。

下面，对于一致性检测的各个处理步骤进行说明。

针对音频的起点和终点的检测，后台使用的是基于短时能量和短时过零率的双门限法，即当音频帧的短时能量和短时过零率均大于指定的阈值时，才判定该音频帧为有效的技能音频信号(筛选出短时能量大于能量阈值，且短时过零率大于过零率阈值的多个有效音频帧)，双门限之外的信号，基本为噪点。

示例性的，参见图20，图20是本申请实施例提供的依据短时能量初步检测技能音频信号的起点和终点的过程示意图，该过程包括：

S401、针对音频序列Xn，计算短时能量En。

需要说明的是，短时能量体现了是每个音频帧具有的能量，体现了音频信号在不同时间点的强弱信息，因此，有效的技能音频信号的短时能量需要大于阈值T。短时能量可以通过式(3)来进行计算。

S402、判断En是否大于阈值T。是，则分别执行S403，S404和S405。

S403、判断S是否等于0。是，则执行S406。

其中，S用来记录有效音频的起点。

S404、判断E是否等于N。是，则执行S408，否，则执行S407。

其中，E用来记录有效音频的终点。N为音频信号的音频帧总数量。

S405、判断n是否小于N。是，则执行S408。

S406、更新起点S＝n。

S407、判断n是否大于E。是，则执行S408。

S408、更新终点E为n。

从图20可以看出，后台是对于每一个音频帧，计算短时能量，从而查找出音频信号中第一个短时能量大于阈值T的音频帧作为基于短时能量所得到音频起点E1，最后一个能量大于阈值T的音频帧作为基于短时能量所得到音频终点E2。

接着，后台使用同样的方法得到基于短时过零率记检测得到的音频起点S2和音频终点E2。通常情况下，S1、S2或E1、E2都比较接近，但是为了避免噪声干扰，后台取两者的交集(多个有效音频帧)的最终的起点S和终点E(首个有效音频帧确定为起点音频帧，最后一个有效音频帧确定为终点音频帧)，即同时满足短时过零率的阈值和短时能量的阈值的区间，作为真实的技能释放区间，从而就能得到技能特效的音频开始播放的时间(音频起始时间)和结束播放的时间(音频结束时间)。

短时过零率表示的是信号在短时间内幅度值回到0点的次数，体现的是音频信号的频域特性。短时过零率可以通过式(4)来计算。

图21是本申请实施例提供的确定技能释放帧和结束帧的过程示意图。参见图21，该过程包括：

S501、判断在视频帧之前是否存在技能释放开始标识。在否时，执行S502，在是时，执行S510。

S502、计算帧差图像diff1(第一帧差图像)。

通过计算视频帧与上一个视频帧的帧差图像diff1，可以获得两张图像之间的差异变化。后台在检测技能特效开始帧(起点视频帧)和特效结束帧(终点视频帧)时，使用了不同的帧间隔，原因在于检测特效开始帧时，检测的是技能释放按钮按下时的特性，该特效在按钮按下的前后两帧有明显的编号，所以使用较小的帧间隔。计算帧差图像diff1的过程可以通过式(12)实现。

S503、帧差图像diff1中值滤波。

中值滤波的目的在于去除帧差图像diff1中的噪点信息。

S504、滤波后的图像二值化(对第一帧差图像进行降维处理，得到第一降维图像)。

S505、二值图像膨胀。

对二值图像进行膨胀操作的目的是为了寻找二值化图像中的高亮区域的极大区域(对亮度大于亮度阈值的图像区域进行膨胀，得到膨胀区域)，即对二值图像的高亮区域进行“领土扩张”，从而将帧差图像所分割的多个离散区域进行合并。

S506、二值图像连通域计算(对膨胀区域进行连通域计算，得到第一动态区域)。

本步骤中可以包括以下处理过程：

1)后台遍历二值图像的像素点，找到像素点A(x,y)＝＝1。具体的，该过程又可包括：a、后台将A(x,y)作为种子，记录其位置，将与该种子相邻的且像素值相同的点压入占栈中；b、弹出栈顶像素，然后将与该像素点相邻的且像素值相同的的像素点压入栈中；c、重复b，直至栈为空。

2)重复1)，直至扫描结束。

扫描结束后，就可以得到视频帧中的所有连通域。

S507、判定连通域位置是否位于技能按钮区(预设区域)。是则执行S508，否则结束运算。

从游戏界面中，截取出技能按钮，记录其中心及半径，得到技能按钮区。示例性的，图22是本申请实施例提供的技能按钮区的示意图，其中，技能按钮区22-11位于游戏界面22-1的右下角。

然后，后台判断连通域中的像素点落入技能按钮区的比例，在比例大于阈值，例如80％时，判定为技能图标特效。

S508、判断连通域面积是否大于阈值。是则执行S509，否则结束运算。

本步骤的目的是为了排除细微干扰，使得结果更加精确。

S509、标记技能是否开始标识(将首个第一动态区域的区域面积大于第一面积阈值，且第一动态区域与预设区域的重叠面积大于第二面积阈值的视频帧，确定为起点视频帧)。

S510、计算帧差图像diff2(第二帧差图像)。

S511、帧差图像diff2中值滤波。

S512、滤波后的图像二值化(得到第二降维图像)。

S513、二值图像腐蚀(得到腐蚀区域)。

S514、二值图像连通域计算(得到第二动态区域)。

S515、判断连通域位置是否位于技能按钮区。是则执行S516，否则执行S517。

S516、连续静止帧清零。

S517、判断连通域面积是否大于阈值。是则执行S516，否则执行S518。

S518、连续静止帧数量自增1。

S519、判断连续静止帧数量是否达到阈值(连续的N个静止视频帧)。是则执行S520。

S520、标记技能释放结束标识。

通过上述方式，能够自动化地确定出技能特效的音频和画面之间是否同步，不仅提高了特效同步的测试效率，且时间差精确到了帧级别，提升了特效同步的测试精度，使得特效同步测试的智能程度得以增加。

下面继续说明本申请实施例提供的特效同步评估装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的特效同步评估装置555中的软件模块可以包括：

视频获取模块5551，用于响应于针对评估界面中的评估触发标识的触发操作，获取待评估特效的特效视频；

时间确定模块5552，用于基于从所述特效视频解析出的视频帧序列和音频信号，确定出所述待评估特效的特效动画对应的动画时间信息，以及所述待评估特效的特效音频对应的音频时间信息；其中，所述动画时间信息是精度为视频帧时长的时间信息，所述音频时间信息是精度为音频帧时长的时间信息；

结果生成模块5553，用于依据所述动画时间信息和所述音频时间信息之间的差异，确定出评估结果；所述评估结果表征所述特效动画和所述特效音频的同步情况；

结果展示模块5554，用于在所述评估界面的结果展示区域中，展示所述评估结果。

在本申请的一些实施例中，所述待评估特效包括：多个技能特效；所述视频获取模块5551，还用于对上传至所述评估界面的技能视频区域的多个视频进行获取，得到多个所述技能特效各自的所述特效视频；或者，通过在所述评估界面的虚拟互动区域所展示的虚拟场景中释放多个所述技能特效对应的技能，展示多个所述技能特效，并对所述虚拟场景进行视频录制，得到多个所述技能特效各自的所述特效视频。

在本申请的一些实施例中，所述评估结果包括：多个所述技能特效各自的特效视频对应的多个子评估结果；所述特效同步评估装置555还包括：结果比对模块5555；

所述结果比对模块5555，用于基于对多个所述子评估结果进行对比，从多个所述技能特效中查找出待修复特效；

所述结果展示模块5554，还用于将所述待修复特效对应的标识信息展示在所述评估界面的修复提示区域中。

所述结果生成模块5553，还用于计算所述动画起始时间和所述音频起始时间之间的第一时间差，以及所述动画结束时间和所述音频结束时间之间的第二时间差；依据所述第一时间差和所述第二时间差中的至少一个，确定出所述评估结果。

在本申请的一些实施例中，所述结果生成模块5553，还用于当所述第一时间差小于等于第一时间阈值，且所述第二时间差小于等于第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频同步；当所述第一时间差大于所述第一时间阈值，或所述第二时间差大于所述第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频不同步。

在本申请的一些实施例中，所述时间确定模块5552，还用于基于对所述音频信号中的每个音频帧进行幅度特征和频域特征的确定，检测出所述特效音频的起点音频帧和终点音频帧；依据所述起点音频帧的编号和所述音频帧时长，计算出所述音频起始时间，以及依据所述终点音频帧的编号和所述音频帧时长，计算出所述音频结束时间；基于对所述视频帧序列中的每个视频帧进行动态区域的确定，检测出所述特效动画的起点视频帧和终点视频帧；依据所述起点视频帧的编号和所述视频帧时长，计算出所述动画起始时间，以及依据所述终点视频帧的编号和所述视频帧时长，计算出所述动画结束时间。

在本申请的一些实施例中，所述幅度特征包括：短时能量，所述频域特征包括：短时过零率；所述时间确定模块5552，还用于针对所述音频信号中的每个所述音频帧，确定出所述短时能量和所述短时过零率；从所述音频信号中，筛选出所述短时能量大于能量阈值，且所述短时过零率大于过零率阈值的多个有效音频帧；将多个所述有效音频帧中的首个有效音频帧，确定为所述起点音频帧，以及将多个所述有效音频帧中的最后一个有效音频帧，确定为所述终点音频帧。

在本申请的一些实施例中，所述时间确定模块5552，还用于针对所述视频帧序列中的每个所述视频帧，确定出第一动态区域；将所述视频帧序列中首个满足动画起始条件的视频帧，确定为所述特效动画的所述起点视频帧，其中，所述动画起始条件为所述第一动态区域的区域面积大于第一面积阈值，且所述第一动态区域与预设区域的重叠面积大于第二面积阈值的视频帧；针对所述视频帧序列中位于所述起点视频帧之后的多个其他视频帧，分别确定出第二动态区域；当基于所述第二动态区域，从多个所述其他视频帧中提取出连续的N个静止视频帧时，将第N个所述静止视频帧，确定为所述终点视频帧；其中，N为大于1的正整数，所述静止视频帧为所述第二动态区域的区域面积小于等于所述第一面积阈值，且所述第二动态区域与所述预设区域的重叠面积小于等于所述第二面积阈值的视频帧。

在本申请的一些实施例中，所述时间确定模块5552，还用于对所述视频帧序列中的每个所述视频帧，以及每个所述视频帧的第一相邻视频帧进行帧差计算，得到第一帧差图像；对所述第一帧差图像进行降维处理，得到第一降维图像；针对所述第一降维图像中亮度大于亮度阈值的图像区域进行膨胀，得到膨胀区域；针对所述膨胀区域进行连通域计算，得到所述第一动态区域。

在本申请的一些实施例中，所述时间确定模块5552，还用于对每个所述其他视频帧，以及每个所述其他视频帧的第二相邻视频帧进行帧差计算，得到第二帧差图像；对所述第二帧差图像进行降维处理，得到第二降维图像；针对所述第二降维图像中亮度大于亮度阈值的图像区域进行腐蚀，得到腐蚀区域；针对所述腐蚀区域进行连通域计算，得到所述第二动态区域。

在本申请的一些实施例中，所述动画时间信息包括：所述特效动画的动画持续时间和所述特效音频的音频持续时间；所述结果生成模块5553，还用于计算所述动画持续时间和所述音频持续时间之间的第三时间差；依据所述第三时间差和第三时间阈值的大小关系，确定出所述评估结果。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的特效同步评估方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的特效同步评估方法，例如，如图3示出的特效同步评估方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(电子设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，电子设备对从特效视频的图像序列和音频信号进行分析，得到了特效动画的精度为视频帧时长的时间信息，以及特效音频的精度为音频帧时长的时间信息，即将特效动画和特效音频各自所对应的时间信息直接确定到了帧时长级别，达到了较高的精度，然后再利用高精度的时间信息进行精确的比较，使得不易被感知到的帧时长级别不同步问题也能够被发现，即能够发现各种严重程度的特效不同步问题，大幅提高特效同步评估的精度，且整个过程是自动化实现的，无需进行多次操作，加快了特效同步评估的效率。综上所述，本申请实施例提供的特效同步评估的方法提高了特效同步评估的精度，加快了特效同步评估的效率，最终提高了特效同步评估的智能程度。进一步的，通过本申请实施例的特效同步评估方法，可以降低特效同步问题被玩家感知的可能性，同时还能够横向对比出哪些特效需要修改，进一步提升特效同步评估的智能程度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种特效同步评估方法，其特征在于，所述特效同步评估方法包括：

在所述评估界面的结果展示区域中，展示所述评估结果。

2.根据权利要求1所述的方法，其特征在于，所述动画时间信息包括：所述特效动画的动画起始时间和动画结束时间，所述音频时间信息包括：所述特效音频的音频起始时间和音频结束时间；

所述依据所述动画时间信息和所述音频时间信息之间的差异，确定出评估结果，包括：

计算所述动画起始时间和所述音频起始时间之间的第一时间差，以及所述动画结束时间和所述音频结束时间之间的第二时间差；

依据所述第一时间差和所述第二时间差中的至少一个，确定出所述评估结果。

3.根据权利要求2所述的方法，其特征在于，所述依据所述第一时间差和所述第二时间差中的至少一个，确定出所述评估结果，包括：

当所述第一时间差小于等于第一时间阈值，且所述第二时间差小于等于第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频同步；

当所述第一时间差大于所述第一时间阈值，或所述第二时间差大于所述第二时间阈值时，确定所述评估结果为所述特效动画与所述特效音频不同步。

4.根据权利要求2或3所述的方法，其特征在于，所述基于从所述特效视频解析出的视频帧序列和音频信号，确定出所述待评估特效的特效动画对应的动画时间信息，以及所述待评估特效的特效音频对应的音频时间信息，包括：

基于对所述音频信号中的每个音频帧进行幅度特征和频域特征的确定，检测出所述特效音频的起点音频帧和终点音频帧；

依据所述起点音频帧的编号和所述音频帧时长，计算出所述音频起始时间，以及依据所述终点音频帧的编号和所述音频帧时长，计算出所述音频结束时间；

基于对所述视频帧序列中的每个视频帧进行动态区域的确定，检测出所述特效动画的起点视频帧和终点视频帧；

依据所述起点视频帧的编号和所述视频帧时长，计算出所述动画起始时间，以及依据所述终点视频帧的编号和所述视频帧时长，计算出所述动画结束时间。

5.根据权利要求4所述的方法，其特征在于，所述幅度特征包括：短时能量，所述频域特征包括：短时过零率；

所述基于对所述音频信号中的每个音频帧进行幅度特征和频域特征的确定，检测出所述特效音频的起点音频帧和终点音频帧，包括：

针对所述音频信号中的每个所述音频帧，确定出所述短时能量和所述短时过零率；

从所述音频信号中，筛选出所述短时能量大于能量阈值，且所述短时过零率大于过零率阈值的多个有效音频帧；

将多个所述有效音频帧中的首个有效音频帧，确定为所述起点音频帧，以及将多个所述有效音频帧中的最后一个有效音频帧，确定为所述终点音频帧。

6.根据权利要求4所述的方法，其特征在于，所述基于对所述视频帧序列中的每个视频帧进行动态区域的确定，检测出所述特效动画的起点视频帧和终点视频帧，包括：

针对所述视频帧序列中的每个所述视频帧，确定出第一动态区域；

将所述视频帧序列中首个满足动画起始条件的视频帧，确定为所述特效动画的所述起点视频帧；其中，所述动画起始条件为所述第一动态区域的区域面积大于第一面积阈值，且所述第一动态区域与预设区域的重叠面积大于第二面积阈值的视频帧；

针对所述视频帧序列中位于所述起点视频帧之后的多个其他视频帧，分别确定出第二动态区域；

当基于所述第二动态区域，从多个所述其他视频帧中提取出连续的N个静止视频帧时，将第N个所述静止视频帧，确定为所述终点视频帧；

其中，N为大于1的正整数，所述静止视频帧为所述第二动态区域的区域面积小于等于所述第一面积阈值，且所述第二动态区域与所述预设区域的重叠面积小于等于所述第二面积阈值的视频帧。

7.根据权利要求6所述的方法，其特征在于，所述针对所述视频帧序列中的每个所述视频帧，确定出第一动态区域，包括：

对所述视频帧序列中的每个所述视频帧，以及每个所述视频帧的第一相邻视频帧进行帧差计算，得到第一帧差图像；

对所述第一帧差图像进行降维处理，得到第一降维图像；

针对所述第一降维图像中亮度大于亮度阈值的图像区域进行膨胀，得到膨胀区域；

针对所述膨胀区域进行连通域计算，得到所述第一动态区域。

8.根据权利要求6所述的方法，其特征在于，所述针对所述视频帧序列中位于所述起点视频帧之后的多个其他视频帧，分别确定出第二动态区域，包括：

对每个所述其他视频帧，以及每个所述其他视频帧的第二相邻视频帧进行帧差计算，得到第二帧差图像；

对所述第二帧差图像进行降维处理，得到第二降维图像；

针对所述第二降维图像中亮度大于亮度阈值的图像区域进行腐蚀，得到腐蚀区域；

针对所述腐蚀区域进行连通域计算，得到所述第二动态区域。

9.根据权利要求4所述的方法，其特征在于，所述音频帧中包括：N个音频信号点，所述音频帧时长为N与音频采样率的比值。

10.根据权利要求1所述的方法，其特征在于，所述动画时间信息包括：所述特效动画的动画持续时间和所述特效音频的音频持续时间；

计算所述动画持续时间和所述音频持续时间之间的第三时间差；

依据所述第三时间差和第三时间阈值的大小关系，确定出所述评估结果。

11.一种特效同步评估装置，其特征在于，所述特效同步评估装置包括：

12.一种用于特效同步评估的电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的特效同步评估方法。

13.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的特效同步评估方法。

14.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至10任一项所述的特效同步评估方法。