CN113392690A

CN113392690A - 视频语义标注方法、装置、设备及存储介质

Info

Publication number: CN113392690A
Application number: CN202110002075.3A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-09-14

Abstract

本申请公开了一种视频语义标注方法、装置、设备及存储介质，属于视频语义理解领域。该方法包括：获取视频中的视频帧序列；从视频帧序列中的视频帧中提取至少两个维度的多模态信息；基于所述至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为视频帧的剧情事件；根据视频帧的剧情事件对视频帧序列进行语义标注，得到视频的语义信息。无需训练相关的语义理解模型，提高了语义信息的标注效率和准确率，通过将经过语义标注后的视频推送给用户，使得用户可以观看更多高质量的视频内容，提升用户的视频浏览体验。

Description

视频语义标注方法、装置、设备及存储介质

技术领域

本申请涉及视频语义理解领域，特别涉及一种视频语义标注方法、装置、设备及存储介质。

背景技术

用户在观看视频时，在视频播放界面中显示有与该视频有关的信息，如视频名称、视频标签(类型)、精彩片段等。

视频生产者将视频上传至视频平台，视频平台对上传的视频进行信息标注后存储，当用户通过标注信息进行视频搜索时，视频平台将与标注信息对应的视频发送至用户对应的客户端。以游戏视频为例，游戏主播(视频生产者)将游戏视频上传至视频平台后，通过机器学习模型对游戏视频中可能存在的精彩片段进行语义标注，输出游戏视频的语义信息。如时间轴在1分30秒至2分之间，游戏对战双方进行团战，则对该视频片段进行标注。

上述技术方案中，机器学习模型在训练过程中需要大量的语义标注样本视频，语义标注样本视频需要通过人工的方式进行标定，这为获得大量的语义标注样本视频增加了难度，在缺少语义标注样本视频时，采用较少的语义标注样本视频训练得到的机器学习模型对语义标注的准确性较差。

发明内容

本申请实施例提供了一种视频语义标注方法、装置、设备及存储介质，通过确定视频帧中提取到的虚拟元素信息和对局信息组合后所匹配的对局事件，根据对局事件对视频进行语义标注，无需通过样本视频训练得到的机器学习模型也可得到视频的语义信息，提高了语义信息的标注效率和准确率。所述技术方案如下：

根据本申请的一个方面，提供了一种视频语义标注方法，所述方法包括：

获取视频中的视频帧序列；

从所述视频帧序列中的视频帧中提取至少两个维度的多模态信息；

基于所述至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为所述视频帧的剧情事件；

根据所述视频帧的剧情事件对所述视频帧序列进行语义标注，得到所述视频的语义信息。

根据本申请的另一方面，提供了一种视频语义标注装置，所述装置包括：

获取模块，用于获取视频中的视频帧序列；

提取模块，用于从所述视频帧序列中的视频帧中提取至少两个维度的多模态信息；

处理模块，用于基于所述至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为所述视频帧的剧情事件；

标注模块，用于根据所述视频帧的剧情事件对所述视频帧序列进行语义标注，得到所述视频的语义信息。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频语义标注方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上方面所述的视频语义标注方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的视频语义标注方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将视频帧中提取到的多模态信息组合所匹配的目标剧情事件确定为视频帧的剧情事件，从而利用视频帧对应的剧情事件对视频帧进行语义标注，无需通过样本视频训练得到的机器学习模型也可对视频帧进行语义信息的标注，提高了对视频帧进行语义标注的效率和准确率，使得用户能够根据标注语义信息的视频帧快速捕获视频帧中的精彩片段。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机***的框图；

图2是本申请一个示例性实施例提供的视频平台的***框架图；

图3是本申请一个示例性实施例提供的视频语义标注方法的流程图；

图4是本申请一个示例性实施例提供的视频语义信息的标注示意图；

图5是本申请另一个示例性实施例提供的视频语义标注方法的流程图；

图6是本申请一个示例性实施例提供的预设对局事件的示意图；

图7是本申请另一个示例性实施例提供的含有语义标注信息视频播放界面的示意图；

图8是本申请一个示例性实施例提供的第一虚拟角色的角色标识的识别方法的框架图；

图9是本申请一个示例性实施例提供的虚拟元素信息和对局信息的提取方式的示意图；

图10是本申请一个示例性实施例提供的视频帧类型的示意图；

图11是本申请一个示例性实施例提供的包含对局结果的视频帧的示意图；

图12是本申请一个示例性实施例提供的包含对局状态信息的视频帧的示意图；

图13是本申请一个示例性实施例提供的视频语义标注方法的流程框架图；

图14是本申请一个示例性实施例提供的直播用户界面的界面示意图；

图15是本申请一个示例性实施例提供的虚拟环境画面的示意图；

图16是本申请另一个示例性实施例提供的视频平台的***框架图；

图17是本申请一个示例性实施例提供的视频语义标注装置的框图；

图18是本申请一个示例性实施例提供的计算机设备的装置结构示意图；

图19是本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

消息来源(Feeds，Web Feed，News Feed，Syndicated Feed)：又被命名为源料，或馈送，或资讯提供，或供稿，或摘要，或源，或新闻订阅，或网源(英文：web feed、news feed、syndicated feed)是一种资料格式。信息发布平台将最新资讯传播给用户，通常以时间轴(Timeline)方式排列，时间轴是消息来源最原始、最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将Feeds汇流于一处称为聚合(Aggregation)，而用于聚合的软体称为聚合器(Aggregator)。对最终用户而言，聚合器是专门用来订阅网站的软件，通常包括简易信息聚合(RSS，Really Simple Syndication)阅读器、Feed阅读器、新闻阅读器等。

虚拟环境：是应用程序在终端上运行时显示(或提供)的虚拟环境。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的环境，还可以是纯虚构的环境。虚拟环境可以是二维虚拟环境、2.5维虚拟环境和三维虚拟环境中的任意一种，本申请对此不加以限定。下述实施例以虚拟环境是三维虚拟环境来举例说明。在一些实施例中，虚拟环境用于为至少两个主控虚拟角色提供作战环境。该虚拟环境包括对称的左下角区域和右上角区域，属于两个敌对阵营的主控虚拟角色分别占据其中一个区域，并以摧毁对方区域深处的目标建筑，或据点，或基地，或水晶来作为胜利目标。

虚拟角色：是指虚拟环境中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物等，比如：在三维虚拟环境中显示的人物或动物等。可选地，虚拟角色是基于动画骨骼技术创建的三维立体模型。每个虚拟角色在三维虚拟环境中具有自身的形状和体积，占据三维虚拟环境中的一部分空间。本申请实施例以第一虚拟角色为用户控制的虚拟角色为例，第一虚拟角色泛指虚拟环境中的一个或多个第一虚拟角色。

多人在线战术竞技游戏(Multiplayer Online Battle Arena Games，MOBA)：是指在虚拟环境中，分属至少两个敌对阵营的不同虚拟队伍分别占据各自的地图区域，以某一种胜利条件作为目标进行竞技。该胜利条件包括但不限于：占领据点或摧毁敌对阵营据点、击杀敌对阵营的虚拟角色、在指定场景和时间内保证自身的存活、抢夺到某种资源、在指定时间内比分超过对方中的至少一种。战术竞技可以以局为单位来进行，每局战术竞技的地图可以相同，也可以不同。每个虚拟队伍包括一个或多个虚拟角色，比如1个、2个、3个或5个。一局MOBA游戏的持续时间是从游戏开始的时刻至达成胜利条件的时刻。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

云计算(Cloud Computing)：指互联网技术(Internet Technology，IT)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供了一种视频语义的标注方法，可结合云计算技术将标注后的视频进行存储，并根据用户的需求将标注后的视频准确推送至用户对应的客户端。

本申请实施例提供的基于虚拟环境的视频语义标注方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中，本申请实施例提供的基于虚拟环境的视频语义标注方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器识别视频中的语义信息，便于理解视频内容。示意性的，基于虚拟环境的视频语义标注方法应用于应用程序的后台服务器中，以便安装有应用程序的终端借助后台服务器能够接收到含有语义信息的视频内容。

图1示出了本申请一个示例性实施例提供的计算机***的示意图。该计算机***100包括第一终端110、第二终端111和服务器120，其中，第一终端110和第二终端111分别与服务器120之间通过通信网络进行数据通信。示意性的，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

第一终端110中安装和运行有应用程序，该应用程序是具有视频播放功能的应用程序。该应用程序可以是视频应用程序(包括短视频应用程序)、直播应用程序、音乐应用程序、社交类应用程序、虚拟现实应用程序(Virtual Reality，VR)、增强现实应用程序(Augmented Reality，AR)、游戏应用程序、购物应用程序、支付应用程序、团购应用程序等。示意性的，第一终端110上安装有视频应用程序，第一终端110是第一用户使用的终端，第一用户(视频生产者)录制游戏视频并在视频应用程序中发布该游戏视频。

第二终端111中安装和运行应用程序，该应用程序与第一终端110中的应用程序是相同的应用程序，或相同类型中的不同应用程序。该应用程序可以是视频应用程序(包括短视频应用程序)、直播应用程序、音乐应用程序、社交类应用程序、虚拟现实应用程序(Virtual Reality，VR)、增强现实应用程序(Augmented Reality，AR)、游戏应用程序、购物应用程序、支付应用程序、团购应用程序等。示意性的，第二终端111上安装有视频应用程序，第二终端是第二用户使用的终端，第二用户(视频消费者)在视频应用程序中观看游戏视频，该游戏视频可以是第一用户发布的视频。

在一些实施例中，第一终端110和第二终端111可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对终端的类型不加以限定。可以理解的是，第一终端110和第二终端111可以为同一台终端，如视频生产者使用第一终端110发布视频，使用第一终端110观看视频，视频生产者也是视频消费者。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能的实施方式中，服务器120是终端中安装的应用程序的后台服务器。

如图1所示，在本实施例中，第一终端110将视频发送至服务器120，以该视频为含有MOBA游戏画面的视频，服务器120获取视频11，从该视频11中进行多模态信息提取12。示意性的，多模态信息包括虚拟元素信息和对局信息，虚拟元素信息包括虚拟环境中的活动元素和静止元素对应的元素信息，对局信息包括控件中与第一虚拟角色对应的信息。基于至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为视频帧的剧情事件13，根据该视频帧的剧情事件13对视频帧进行标注，得到视频帧对应的语义标注信息14。

服务器120将标注后的视频发送至第二终端111，第二终端111中安装的视频应用程序显示有游戏视频的视频播放界面。该视频播放界面包括游戏视频的视频内容、游戏名称、游戏标签、视频中的精彩片段以及与该游戏视频对应的相关专题的视频，精彩片段和相关专题的视频是根据获取到的视频对应的语义标注信息14得到的。通过服务器120对游戏视频的语义信息进行标注，帮助观看视频的用户快速捕捉到游戏视频的精彩瞬间，提升用户的观看体验。

可以理解的是，上述实施例仅以终端中的视频应用程序对应的服务器为例，在实际应用中，上述视频语义标注方法还可以应用于直播应用程序对应的服务器中，本申请实施例对此不加以限定。

为了方便表述，下述各个实施例以视频语义标注方法由应用程序对应的服务器执行为例进行说明。

图2示出了本申请一个示例性实施例提供的视频平台的***框架图。以视频生产者录制游戏视频为例进行说明。视频生产者将录制好的游戏视频上传至视频应用程序(即视频内容生产端21)对应的后台服务器，示意性的，视频应用程序的后台服务器包括上行内容接口服务器22、视频内容存储服务器23、内容数据库服务器24、调度中心服务器25、统计接口和分析服务器28、下行内容接口服务器38。

视频生产者将游戏视频上传至上行内容接口内容服务器22，上行内容接口服务器22将游戏视频存储在视频内容存储服务器23中；上行内容接口服务器22将游戏视频的元信息存储在内容数据库服务器24中，元信息包括视频文件的大小、封面图、视频链接、转码率、文件格式、视频标题、发布时间、作者中的至少一种信息；上行内容接口服务器22将游戏视频发送至调度中心服务器25。

调度中心服务器25调用视频排重服务26对游戏视频进行去重处理，去重处理包括对游戏视频的标题去重处理、封面图去重处理、文案去重处理、视频指纹去重处理和音频指纹去重处理中的至少一种。视频排重服务26对游戏视频进行去重处理后向调度中心服务器25反馈去重结果。

调度中心服务器25调用人工审核***27对去重后的游戏视频进行审核，向调度中心服务器25反馈审核结果，人工审核***27将审核后的结果反馈给调度中心服务器25，或者，视频排重服务26将去重处理后的游戏视频直接发送至人工审核***27，人工审核***27对游戏视频进行审核，并向调度中心服务反馈审核结果。人工审核是对视频内容是否涉及色情、赌博、政治敏感的特性进行初步审核，然后由审核人员需要对视频的分类以标签进行标记或确认视频内容的标签是否正确。

人工审核***27将审核游戏视频过程中的审核信息发送至统计接口和分析服务器28，统计接口和分析服务器28还用于接收调度中心服务器25在进行任务调度时的调度信息。在一些实施例中，统计接口和分析服务器28用于将标记后的样本视频进行初步统计和分析，将统计和分析的结果保存在视频内容样本数据库33中，可从该视频内容样本数据库33中获取样本视频。

调度中心服务器25调用视频内容理解主服务29对游戏视频的视频内容进行语义标注，视频内容理解主服务29包括视频预处理服务30、视频信息提取服务31、视频理解服务32。这三种服务是基于视频内容处理模型34构建的，通过调用各个服务对应的视频内容处理模型34对视频帧进行处理，从视频帧中提取至少两个维度的多模态信息，使得基于多模态信息能够构建多种剧情事件。视频预处理服务30用于对游戏视频进行预处理，如对游戏视频帧进行视频帧分类以及增强游戏视频帧的分辨率；视频信息提取服务31用于从游戏视频帧中提取多模态信息；视频理解服务32用于根据提取到的多模态信息得到虚拟环境中产生的剧情事件，并将剧情事件与目标剧情事件进行匹配，若两者匹配，根据目标剧情事件对游戏视频进行语义信息标注。

视频内容处理模型34是从视频内容样本数据库33中获得的样本视频训练得到的。

视频内容理解主服务29将标注有语义信息的游戏视频反馈至调度中心服务器25，调度中心服务器25将标注好语义信息的游戏视频对应的视频地址发送至下行内容接口服务器38。

当用户观看游戏视频时(即视频内容消费端39)，从下行内容接口服务器38中获取视频地址，用户对应的客户端在获取到视频地址后，根据视频地址从视频内容存储服务器23中获取游戏视频。可以理解的是，下行内容接口服务器38中的视频地址均为标注有语义信息的游戏视频，从而使得用户能够确定游戏视频中的精彩片段以及与该游戏视频的相关视频。

通过上述***框架，使得用户能够快速获取到视频中的精彩片段，用户可选择性观看视频，帮助用户快速理解视频内容所表达的思想。

图3示出了本申请一个示例性实施例提供的视频语义标注方法的流程图，该方法应用于如图1所示的服务器120中。该方法包括如下步骤：

步骤301，获取视频中的视频帧序列。

示意性的，服务器接收终端发送的视频，该终端中安装有应用程序，用户通过该应用程序采集视频，或者，用户使用终端***中的相机应用采集视频，由该应用程序调用相机应用获取视频，并通过该应用程序将录制的视频发送至服务器中。该应用程序包括视频应用程序(包括短视频应用程序)和直播应用程序等支持视频采集功能的应用程序。

示意性的，服务器中预先存储有视频，或，服务器从公开的视频数据集中获取视频。

视频包括多帧视频帧，该多帧视频帧形成视频帧序列。本申请实施例以视频包括游戏视频为例进行说明，服务器获取到的视频为对游戏应用程序运行时的画面进行采集的视频。

游戏应用程序在运行时包括如下两种画面：在游戏进行过程中的虚拟环境画面(第一画面)和非游戏过程中的画面(第二画面)。

第一画面包括但不限于如下画面：第一虚拟角色以参与者的身份在虚拟环境中进行对局时的画面、第一虚拟角色以观战者的身份观看其他虚拟角色进行对局时的画面、根据博弈策略出示卡牌的画面、用户控制虚拟载具(如虚拟车辆、虚拟船只等)在虚拟环境中行驶的画面、抵御非用户类扮演角色(Non Player Character，NPC)进攻的画面、消除预设数量的相同元素对应的画面。

第二画面包括但不限于如下画面：用户在选择参与对局的第一虚拟角色时的角色选择画面、进入虚拟环境前的游戏加载画面、选择第一虚拟角色携带的技能(或虚拟道具)的技能选择画面、接收通知消息的消息接收画面、购买虚拟道具的道具购买画面、模拟第一虚拟角色参与对局的角色训练画面等。

上述画面是视频中的视频帧含有的画面，即在视频帧序列中对应有上述画面的一帧画面帧或多帧画面帧。

步骤302，从视频帧序列中的视频帧中提取至少两个维度的多模态信息。

多模态信息是指具有多种来源或形式的信息。多模态信息包括但不限于如下类型的信息：

当视频帧序列是关于MOBA游戏的视频帧序列时，多模态信息包括虚拟角色对应的信息和对局信息；

当视频帧序列是关于第一人称射击游戏(First Person Shooting Game，FPS)的视频帧序列时，多模态信息包括虚拟角色对应的信息和对局信息；

当视频帧序列是关于竞速类游戏的视频帧序列时，多模态信息包括虚拟载具对应的信息、时间信息、排序信息；

当视频帧序列是关于模拟养成类游戏的视频帧序列时，多模态信息包括养成对象对应的信息和养成(或经营)结果信息；

当视频帧序列是关于卡牌游戏的视频帧序列时，多模态信息包括卡牌信息和博弈结果信息；

当视频帧序列是关于炮塔防御类游戏的视频帧序列时，多模态信息包括保护对象对应的信息和NPC对应的信息；

当视频帧序列是关于音乐类游戏的视频帧序列时，多模态信息包括虚拟音乐元素(如代表音符的块状元素)对应的信息、得分信息、连击信息(连续命中多个虚拟音乐元素产生的信息)。

示意性的，以视频帧序列为MOBA游戏的视频帧序列为例进行说明。

服务器对视频帧序列中的每帧视频帧进行信息提取，如图4所示，从视频帧序列中的视频帧311中提取信息312，该信息312包括虚拟元素信息和对局信息。虚拟元素信息是指虚拟环境中的虚拟元素对应的信息，包括显示在虚拟环境画面中的活动元素和静止元素对应的信息，对局信息是指与第一虚拟角色的对局有关的信息，如播报信息控件中显示有第一虚拟角色a击杀第二虚拟角色b。

对局信息包括对局状态信息和对局结果信息，对局状态信息从显示在用户界面上的控件中获得，对局状态包括第一虚拟角色攻击另一虚拟角色时使用的技能信息或道具信息。比如，在用户界面上显示有播报信息控件，播报第一虚拟角色a击杀第二虚拟角色b。对局结果信息是指一局对局结束后产生的对局结果对应的信息。

示意性的，服务器调用信息提取模型从视频帧序列中提取至少两个维度的多模态信息，该信息提取模型是具有信息提取能力的机器学习模型。信息提取模型可基于无监督的学习方式进行训练，使得信息提取模型基于较少的样本进行训练也可得到训练后的信息提取模型。

示意性的，服务器中存储有多模态信息的特征模板，通过将视频帧中的多模态信息进行匹配，若匹配结果一致，则确定提取到的多模态信息为视频帧对应的多模态信息。

步骤303，基于至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为视频帧的剧情事件。

其中，目标剧情事件包括但不限于如下事件：

第一类型对局事件，第一类型对局事件用于表征第一虚拟角色在虚拟环境中进行对战的事件；

第二类型对局事件，第二类型对局事件用于表征虚拟载具在虚拟环境中行驶的事件；

第三类型对局事件，第三类型对局事件用于表征根据博弈策略出示卡牌的事件；

防御伤害事件，防御伤害事件用于表征(使用虚拟道具或技能)抵御非用户扮演类角色NPC对被保护对象的伤害对应的事件；

元素消除事件，所述元素消除事件用于表征通过拖拽操作将满足预设数量的相同元素拖至同一处，并将相同元素进行消除的事件。

服务器根据从视频帧序列中提取到的多模态信息组合成一些剧情事件，将该剧情事件与目标剧情事件进行比较，若两者相符则确定视频帧的剧情事件。

示意性的，以视频帧序列是关于MOBA游戏的视频帧序列。服务器从视频帧序列中提取第一虚拟角色对应的生命值信息以及播报信息控件对应的播报信息，生命值信息是该第一虚拟角色在一段时间内的生命值低于预设生命值，该播放信息是第一虚拟角色在该段时间内完成预设次数的击杀敌方虚拟角色的信息，则该剧情事件被命名为“丝血多杀”。

步骤304，根据视频帧的剧情事件对视频帧序列进行语义标注，得到视频的语义信息。

语义标注是指将视频帧中的每个像素点所属的类别进行标注。通过对视频进行语义标注，可对视频内容包含的信息进行提取，便于视频观看者理解视频内容。语义信息用于表征视频内容对应的描述性信息。

如图4所示，根据虚拟元素信息和对局信息组合后所匹配的目标剧情事件对视频帧序列进行语义标注，得到视频语义信息313。在一些实施例中，语义信息还包括视频内容所属的类型、发布视频对应的用户帐号、第一虚拟角色中的至少一种信息，如发布游戏视频的用户A(用户帐号为帐号a)，该游戏视频是关于多MOBA的游戏类型，视频中第一虚拟角色进行对局时产生的剧情事件为游戏剧情对应的事件，用户使用的第一虚拟角色为角色K。

综上所述，本实施例提供的方法，通过将视频帧中提取到的多模态信息组合所匹配的目标剧情事件确定为视频帧的剧情事件，从而利用视频帧对应的剧情事件对视频帧进行语义标注，无需通过样本视频训练得到的机器学习模型也可对视频帧进行语义信息的标注，提高了对视频帧进行语义标注的效率和准确率，使得用户能够根据标注语义信息的视频帧快速捕获视频帧中的精彩片段。

图5示出了本申请另一个示例性实施例提供的视频语义标注方法的流程图。该方法应用于如图1所示的服务器120中。该方法包括如下步骤：

步骤501，获取视频中的视频帧序列。

示意性的，以视频是游戏视频为例，该游戏视频是游戏主播在直播过程中录制的视频，该游戏视频是关于MOBA游戏的视频。服务器从游戏视频中获取视频帧序列以进行语义标注，该视频帧序列中的视频帧包括的画面是游戏画面，该游戏画面包括游戏主播控制第一虚拟角色(第一虚拟角色是参与对局的身份)进行对局时的画面、游戏主播控制第一虚拟角色观看其他虚拟角色对局时的画面、游戏主播选择参与对局的第一虚拟角色的画面、游戏主播选择第一虚拟角色携带的虚拟道具(或技能)的画面、进入虚拟环境前的游戏加载画面、购买虚拟道具的画面、模拟第一虚拟角色参与对局的画面等。

其中，第一虚拟角色进行对局时的画面还包括第一虚拟角色之间互相攻击的画面、对对局状况进行播报或提示的画面、属于同一队伍的第一虚拟角色之间相互发送消息的画面。示意性的，在对对局状况进行播报或提示的画面中显示有至少一个控件，该控件可以是播报信息控件，或分数控件(用于统计对局分数)。

示意性的，该游戏视频是关于竞速类游戏的视频，用户控制如虚拟车辆、虚拟船只的虚拟载具进行速度对局，该对局设置有固定路线，第一个冲过终点的虚拟载具是获胜者。该游戏视频包括如下画面中的至少一种：为虚拟载具在虚拟环境中行驶的画面、虚拟载具冲过终点时的画面、用户选择虚拟载具时的画面、显示对局结束后的排名对应的画面、在对局过程中动态变化的排名对应的画面、显示虚拟载具的速度的画面。

示意性的，该游戏视频是关于炮塔防御类的视频，用户通过使用虚拟道具或虚拟元素抵御NPC对被保护对象的伤害，或，使用虚拟道具或虚拟元素攻击NPC。

步骤502，从视频帧序列中的视频帧中提取至少两个维度的多模态信息。

示意性的，服务器通过调用信息提取模型从视频帧序列中提取多模态信息，本实施例以多模态信息包括虚拟元素信息和对局信息为例进行说明。该视频帧序列中的视频帧包括虚拟环境画面和至少一个控件，虚拟环境画面包括以第一虚拟角色活动时所在的虚拟环境的画面。

调用第一信息提取模型从虚拟环境画面中提取虚拟元素信息，虚拟元素信息包括虚拟环境画面中的活动元素和静止元素中至少一种元素对应的信息；调用第二信息提取模型从控件中提取对局信息，对局信息包括控件中与第一虚拟角色对应的信息。第一信息提取模型是用于从虚拟环境画面中提取虚拟元素信息的机器学习模型，第一信息提取模型可以是分类模型，如卷积神经网络构建的分类模型；第二信息提取模型是用于从控件中提取对局信息的机器学习模型，第二信息提取模型也可以是分类模型。

按照虚拟元素的运动状态进行划分，包括活动元素和静止元素，活动元素包括第一虚拟角色、中立虚拟角色和非用户扮演类虚拟角色(Non Player Character，NPC)。静止元素包括虚拟环境中的建筑物元素(如防御塔)、与环境有关的元素(如植物元素、天气元素等)。中立虚拟角色是指不属于对局双方任意一方的虚拟角色，中立虚拟角色对应有生命值，对局的第一虚拟角色可攻击中立虚拟角色，在第一虚拟角色的攻击下，中立虚拟角色的生命值不断降低至零。在一些实施例中，当中立虚拟角色的生命值降低至零时，将转换为奖励供第一虚拟角色收取。该奖励可以是用于购买虚拟道具的货币、用于提升第一虚拟角色的技能值、虚拟道具等。NPC是指与第一虚拟角色属于同一队伍，且非用户控制的虚拟角色，NPC对应有生命值，可根据预设的游戏逻辑进行对应攻击动作。

在一个示例中，服务器调用第一信息提取模型从虚拟环境画面中提取第一虚拟角色的角色标识，服务器调用第二信息提取模型从控件中提取第一虚拟角色之间的对局信息，如第一虚拟角色a击杀其他虚拟角色的数量。

步骤503，基于至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为视频帧的剧情事件。

示意性的，服务器中预先存储有目标剧情事件，将虚多模态信息组合后的事件与目标剧情事件进行匹配，确定视频帧对应的剧情事件。

步骤503可替换为如下步骤：

步骤5031，获取对应关系，对应关系用于表征多模态信息组合后的事件与目标剧情事件之间的对应关系。

示意性的，服务器中存储有多模态信息组合后的事件和目标剧情事件之间的对应关系。该对应关系可以是函数关系和查表关系中的至少一种关系。

步骤5032，根据对应关系和多模态信息组合后的事件获取目标剧情事件，将目标剧情事件确定为视频帧的剧情事件。

示意性的，在MOBA游戏类型的游戏视频中，目标剧情事件(第一类型对局事件)包括但不限于如下事件：

第一对局事件，第一对局事件用于表征第一虚拟角色在预设时间段内将第二虚拟角色的生命值降低至零，第一虚拟角色的生命值低于预设生命值，第二虚拟角色的数量为预设数量；

第二对局事件，第二对局事件用于表征第一虚拟角色在虚拟环境中处于隐蔽状态的持续时长超过预设时长，且第一虚拟角将第二虚拟角色的生命值降低至零；

第三对局事件，第三对局事件用于表征第一虚拟角色降低虚拟环境中的建筑物元素的生命值，且建筑物元素的周围范围不包括第二虚拟角色，建筑物元素是第二虚拟角色所在的队伍对应的建筑物元素。

如图6所示，从视频帧中提取出虚拟元素信息314和对局信息315，虚拟元素信息包括野怪信息(中立虚拟角色信息)、防御塔信息(建筑物元素信息)、生命值信息和英雄信息(第一虚拟角色的信息)、小地图信息(虚拟环境的地图预览)、草丛信息(景物信息)。其中，野怪是虚拟环境中的中立虚拟角色，不属于进行对局的任意一方的成员，对局的双方可通过击杀野怪来获得奖励；防御塔是进行对局的双方拥有的建筑物元素，每队拥有至少一座防御塔。草丛是指虚拟环境中的草丛，用于供第一虚拟角色藏身，第一虚拟角色可蹲守在草丛中“偷袭”敌方虚拟角色。对局信息315包括击打状态信息、对局结果信息、播报信息。

根据虚拟元素信息314和对局信息315组合后的事件与剧本信息流316(预设对局事件)的对应关系，确定虚拟元素信息314和对局信息315符合的剧本信息流316，将符合的剧本信息流316确定为视频帧对应的对局事件。

示意性的，将虚拟元素信息314和对局信息315进行组合后的事件，符合第一对局事件317，该第一对局事件317是：一段时间内，英雄(虚拟角色)a的生命值(血条)低于预设生命值，在该一段时间内英雄a完成预设次数的击杀，该第一对局事件317又被命名为丝血多杀。

示意性的，将虚拟元素信息314和对局信息315进行组合后的事件，符合第二对局事件318，该第二对局事件318是：一段时间内，英雄a在草丛中的停留时间超过预设时长，英雄a完成击杀，该第二对局事件318又被命名为草丛蹲人。

示意性的，将虚拟元素信息314和对局信息315进行组合后的事件，符合第三对局事件319，该第三对局事件319是：一段时间内，A阵营的英雄a独自击打B阵营的水晶(建筑物元素)，且B阵营的水晶周围范围内无B阵营的英雄，该第三对局事件319又被命名为偷水晶。对局双方各自拥有一个水晶，在敌方某一路上的防御塔被摧毁后，通过摧毁敌方的水晶可获得游戏的胜利。

步骤504，确定具有相同的剧情事件的多个连续视频帧所属的视频片段在视频帧序列中的开始时间戳和结束时间戳。

对视频帧序列中的每个视频帧进行信息提取，当多个连续的视频帧表示相同的剧情事件时，该多个连续的视频帧形成视频片段，获取该剧情事件开始时刻对应的视频帧的时间戳，该时间戳为开始时间戳，然后获取该剧情事件结束时刻对应的视频帧的时间戳，该时间戳为结束时间戳。

步骤505，根据剧情事件、开始时间戳和结束时间戳对视频片段进行语义标注，得到视频中视频片段对应的语义信息。

结合开始时间戳和结束时间戳，可对视频帧序列中发生的剧情事件的视频片段进行语义标注，如游戏视频的语义信息为在视频第2分22秒至第3分03秒发生的对局事件为第二对局事件。在一些实施例中，服务器还调用视频分类模型对视频进行识别，得到视频类型，如游戏视频、美食视频、科普视频、搞笑视频、鬼畜视频等。通过视频类型与标注的对局事件综合得到视频的语义信息。

如图7所示，标注后的视频语义信息400可显示在视频播放界面中。视频语义信息400包括游戏名称、游戏标签、游戏主题、游戏中的对局事件。游戏标签可通过视频生产者在上传视频时输入的信息获得，或，通过对视频帧进行检测获得；游戏主题也可通过视频生产者在上传视频时输入的信息获得，或，通过对视频帧进行检测获得。示意性的，在视频播放界面还显示有剧情事件和剧情事件的时间轴，用户通过点击剧情事件可直接将播放视频的播放进度跳转至该剧情事件。

本实施例提供的方法，还通过结合剧情事件对应的开始时间戳和结束时间戳，将视频中发生的剧情事件和时间一一对应，方便用户根据时间戳对视频帧中的剧情事件进行快速定位。

本实施例提供的方法，还通过对多模态信息进行细化以及关联目标剧情事件与多模态信息组合后的事件，针对不同类型的视频通过对应的方式提取视频画面中对应的多模态信息，使得提取到的信息更符合视频类型，从而匹配出更符合视频的目标剧情事件，提高了对视频进行语义标注的效率和准确率。

以游戏视频为MOBA游戏视频为例，对如何提取视频帧中的虚拟元素信息和对局信息进行说明。

一、提取虚拟元素信息。

1、虚拟元素信息包括第一虚拟角色对应的角色标识。

步骤511，获取参与对局的第一虚拟角色的第一角色标识。

如图8所示，服务器通过游戏加载页面获取参与对局的第一虚拟角色的第一角色标识71。当对局双方参与对局时，服务器将获取每个用户选择的第一虚拟角色的第一角色标识(即英雄名称)，如用户1选择英雄a，用户2选择英雄b，用户3选择英雄c，英雄a和英雄b具有队友关系，英雄a和英雄c是敌对关系。示意性的，服务器调用第一信息提取模型从游戏加载页面中提取各个第一虚拟角色的第一角色标识；示意性的，当用户选择第一虚拟角色后，客户端向服务器发送已选择的第一虚拟角色的角色标识，服务器获取到第一虚拟角色的第一角色标识71。在一些实施例中，客户端将游戏加载页面发送至服务器，服务器通过对游戏加载页面中的文字进行文字识别，从而确定参与对局的第一虚拟角色的第一角色标识。

步骤512，调用元素分类模型对虚拟环境画面中的第一虚拟角色对应的生命值区域进行识别，得到生命值区域对应的第一虚拟角色的第二角色标识。

示意性的，在对局进行的过程中，第一虚拟角色的角色标识与第一虚拟角色的生命值区域在同一区域显示，通常生命值区域位于第一虚拟角色的头部上方，在生命值区域的上方显示有第一虚拟角色的角色标识(第二角色标识73)。

服务器调用元素分类模型从对局画面帧中识别出第一虚拟角色的第二角色标识。该元素分类模型是基于预先标注有角色标识的样本视频训练得到的。示意性的，元素分类模型先对视频帧中的生命值区域进行定位，从生命值区域中识别出第一虚拟角色的第二角色标识。

步骤513，响应于第一角色标识与第二角色标识匹配，得到第二角色标识对应的第一置信度。

将该第二角色标识73与步骤512得到的第一角色标识71进行特征匹配，计算第二角色标识73与每个第一角色标识之间的第一置信度75。置信度是指第一角色标识与第二角色标识之间相匹配的程度，如第一角色标识71和第二角色标识73之间的第一置信度75为0.9，则第一角色标识71和第二角色标识73之间有0.9的匹配概率，即第一角色标识71与第二角色标识73接近。

步骤514，调用定位跟踪模型根据第一角色标识对虚拟环境画面中的第一虚拟角色进行识别，得到显示在虚拟环境画面中的第一虚拟角色的第三角色标识，第三角色标识对应有第二置信度，定位跟踪模型参与对局的第一虚拟角色一一对应。

服务器根据获取到的第一角色标识71对视频帧中的每个第一虚拟角色初始化定位跟踪模型，定位跟踪模型将一直对第一虚拟角色进行定位跟踪，对视频帧中的第一虚拟角色进行框选，提取被框选的第一虚拟角色，根据该被框选的第一虚拟角色提取到第三角色标识72，计算该第三角色标识72与第一角色标识71之间的第二置信度74。

示意性的，定位跟踪模型为具有判别预测能力的跟踪模型(DiscriminativeModel Prediction，Dimp模型)。Dimp模型具有对跟踪目标的判别预测能力，从而锁定视频帧画面中的跟踪目标，避免跟踪目标丢失。提高对跟踪目标的定位准确度和定位效率，方便后续对第一虚拟角色的角色标识进行识别。

定位跟踪模型在初始化的虚拟环境画面中对每个第一虚拟角色初始化***，即为每个第一虚拟角色配置***，该***根据角色标识对第一虚拟角色进行跟踪，当第一虚拟角色离开虚拟环境画面(如第一虚拟角色退出当前对局，或第一虚拟角色被击杀)，判断是否对新目标进行跟踪，若跟踪新目标，需要确定新目标是否对应有匹配的***，若该新目标无匹配的***，则重新对新目标初始化***，若该新目标对应有***，则将新目标与其对应的***进行重新匹配，并对该新目标进行跟踪。

步骤515，根据第一置信度和第二置信度获得第一虚拟角色的角色标识。

将步骤513得到的第一置信度75与步骤514得到的第二置信度74进行比较，选择置信度较大的角色标识作为服务器从视频帧中提取到的角色标识。

需要说明的是，步骤513和步骤514可以同时执行，或步骤514先于步骤513执行。

综上所述，本实施例提供的方法，通过定位跟踪模型和分类模型的双重提取方式对视频帧中的第一虚拟角色进行角色标识的识别，从而使得服务器能够从视频帧中准确提取第一虚拟角色的角色标识，使得后续利用第一虚拟角色的角色标识对视频帧进行语义标注的结果更加准确。

2、虚拟元素信息包括虚拟环境中的建筑物元素对应的位置信息。

步骤521，从虚拟环境画面中提取建筑物元素对应的建筑物元素特征。

示意性的，服务器调用特征提取模型从视频帧中提取建筑物元素特征。以建筑物元素为防御塔为例，提取到的建筑物元素特征可以是防御塔的外观形状、防御塔的位置、防御塔的生命值。该特征提取模型是根据样本视频训练后得到的，该样本视频包括对应的建筑物元素特征。

步骤522，将建筑物元素特征与预设建筑物元素特征进行匹配，得到第一匹配特征。

示意性的，服务器中预先存储有预设建筑物元素特征，或服务器包括特征匹配库，该特征匹配库包括预设建筑物元素特征。将步骤521中提取到的建筑物元素特征与预设建筑物元素特征进行特征匹配，确定第一匹配特征，该第一匹配特征是与建筑物元素的位置信息对应的特征。

步骤523，调用第一卷积神经网络对第一匹配特征进行分类，得到建筑物元素对应的位置信息。

通过服务器调用第一卷积神经网络(Convolutional Neural Networks，CNN)对第一匹配特征进行分类，得到建筑物元素对应的位置信息。示意性的，第一卷积神经网络是根据含有预设建筑物元素特征的样本视频训练得到的，该预设建筑物元素特征包括与建筑物元素的位置信息对应的特征，训练后的第一卷积神经网络能够基于第一匹配特征提取到建筑物元素对应的位置信息。

如图9所示，以建筑物元素为防御塔，服务器从视频帧中提取防御塔信息41，该防御塔信息41包括防御塔位置和防御塔生命值。通过防御塔位置确定虚拟环境中的防御塔所在的位置，当存在第一虚拟角色靠近防御塔时，可间接获得第一虚拟角色的位置；通过防御塔生命值可确定第一虚拟角色是否与防御塔发生交互，从而确定对局事件，如第一虚拟角色击打防御塔。

综上所述，本实施例提供的方法，通过对虚拟环境中的建筑物元素对应的位置信息进行提取，根据建筑物元素对应的位置信息确定建筑物元素在虚拟环境中的位置，当建筑物元素与第一虚拟角色发生交互时，能够产生更多的对局事件，使得语义标注具有更丰富的对局事件(视频剧本)，提高了对视频帧进行语义标注的效率和准确率。

3、虚拟元素信息包括虚拟环境中的中立虚拟角色对应的位置信息。

步骤531，从虚拟环境画面中提取中立虚拟角色对应的角色元素特征。

类比于服务器从视频帧中提取虚拟元素信息，服务器还从视频帧中提取中立虚拟角色信息，中立虚拟角色是不属于对局双方任何一方的NPC角色。示意性的，服务器调用特征提取模型从视频帧中提取中立虚拟角色对应的角色元素特征，该特征提取模型是根据含有角色元素特征的样本视频训练得到的。

步骤532，将角色元素特征与预设角色元素特征进行匹配，得到第二匹配特征。

示意性的，服务器预先存储有预设角色元素特征，或，服务器包括特征匹配库，该特征匹配库包括预设角色元素特征。将步骤531中的角色元素特征与预设角色元素特征进行特征匹配，确定第二匹配特征，该第二匹配特征是与中立虚拟角色的位置信息对应的特征。

步骤533，调用第二卷积神经网络对第二匹配特征进行分类，得到中立虚拟角色对应的位置信息。

示意性的，该第二卷积神经网络是根据含有预设角色元素特征的样本视频训练得到的，该预设角色元素特征包括与中立虚拟角色的位置信息对应的特征，训练后的第二卷积神经网络能够基于第二匹配特征提取到建筑物元素对应的位置信息。

如图9所示，以中立虚拟角色为野怪，服务器从视频帧中提取野怪信息42，该野怪信息42包括野怪位置和野怪生命值，通过野怪位置确定虚拟环境中的野怪所在的位置，当存在第一虚拟角色靠近中立虚拟角色时，可间接获得第一虚拟角色的位置；通过野怪生命值可确定第一虚拟角色是否与野怪发生交互，从而确定对局事件，如第一虚拟角色击杀野怪，获得奖励对应的对局事件。

综上所述，本实施例提供的方法，通过对虚拟环境中的中立虚拟角色对应的位置信息进行提取，根据中立虚拟角色对应的位置信息间接确定第一虚拟角色在虚拟环境中的位置，当第一虚拟角色与中立虚拟角色发生交互时，能够产生更多的对局事件，使得语义标注具有更丰富的对局事件(视频剧本)，提高了对视频帧进行语义标注的效率和准确率。

二、提取对局信息。

1、对局信息包括对局结束信息。

步骤541，调用视频帧分类模型对视频帧序列进行分类，得到对局结束状态对应的视频帧，对局结束状态对应的视频帧包括控件。

以游戏类型为MOBA游戏为例，则视频帧的类型包括如下类型中的至少一种：

a、对局画面帧，对局画面帧包括第一虚拟角色进行对局时的画面对应的视频帧。

如图10的(a)所示，在虚拟环境中，第一虚拟角色44与另一虚拟角色45在虚拟环境中进行对局，第一虚拟角色44与另一虚拟角色45可以是队友关系，也可以是敌对关系，对局过程对应的视频帧为对局画面视频帧。

b、角色选择画面帧，角色选择画面帧用于选择参与对局的第一虚拟角色对应的视频帧。

如图10的(b)所示，位于左侧一列矩形47表示属于A阵营的用户帐号，位于右侧一列矩形48表示属于B阵营的用户帐号，位于下方一行矩形46表示用户可选择的第一虚拟角色。用户可在该画面中选择参与对局的第一虚拟角色，该画面对应的视频帧为角色选择画面帧。

c、对局结束画面帧，对局结束画面帧用于表征一局对局结束后对应的视频帧。

如图10的(c)所示，在一局对局结束后，在画面中显示有对局结果49，如对局结果49为对局胜利，则将该画面对应的视频帧为对局结束画面帧。

d、加载画面帧，加载画面帧用于提示参与对局的第一虚拟角色对应的视频帧。

如图10的(d)所示，在对局开始前，即第一虚拟角色进入虚拟环境之前，显示有游戏加载画面，该游戏加载画面中显示有参与对局的对战阵营，以及每个对战阵营中的第一虚拟角色的角色海报50。在一些实施例中，该角色海报50显示有该第一虚拟角色穿戴的皮肤(或服装)。该游戏加载画面对应的视频帧为加载画面帧。

e、非目标视频帧，非目标视频帧用于表征非对局画面的画面区域对应的视频帧。

如图10的(e)所示，游戏视频是游戏主播直播时采集到的视频，当游戏主播未进行游戏时，或，游戏主播进入非游戏界面时，在直播画面中显示非目标画面。比如，游戏主播暂停游戏，在直播画面中显示广告51，广告51所在的直播画面对应的视频帧为非目标视频帧。可以理解的是，非目标视频帧也可以是加载画面帧、角色选择画面帧。

视频帧分类模型是根据不同类型的样本视频训练后的得到的机器学习模型。对局结束状态对应的视频帧是指一局对局结束后显示的画面。在对局结束状态对应的视频帧中通过控件表示本轮对局结束，如显示对局结果对应的控件，或显示对局排行榜对应的控件。

步骤542，对控件进行文字识别，得到文字识别结果。

如图11的左图所示，对局结束后显示的画面52中包括对局结束控件，该对局结束控件包括文字，对画面52中的文字进行识别，得到文字识别结果53为胜利。示意性的，通过训练分类模型对图像中的文字进行分类识别，得到文字识别结果，分类模型包基于样本视频帧进行训练得到的，该样本视频帧包括已标注有文字识别结果的样本视频帧，如标注有“胜利”、“失败”、“平局”字样的样本视频帧。

步骤543，响应于文字识别结果包括对局结果，根据对局结果从对局结束状态对应的视频帧中提取对局结束信息。

在一些实施例中，对局结束状态对应的视频帧中还显示有“点击屏幕继续”，当识别到“点击屏幕继续”也可表示一局对局结束，将该视频帧作为本局对局的结束标注，后续视频帧将作为下一局对局进行分析和理解。

综上所述，本实施例的方法，通过从对局结束状态对应的视频帧中提取对局结束信息，将该对局结束信息作为本次对局对应的结束信息，也可作为下一次对局对应的开始信息，对相邻两次对局之间起到分割作用，使得服务器能够准确确定一局对局的开始时间和结束时间。

2、对局信息包括第一虚拟角色之间的对局状态信息。

步骤551，调用视频分类模型对视频帧序列进行分类，得到对局画面帧，对局画面帧包括控件。

同样，服务器调用视频帧分类模型对视频序列帧进行识别，从视频帧序列中确定对局画面帧。视频帧分类模型是根据不同类型的样本视频训练后的得到的机器学习模型。对局画面帧包括第一虚拟角色进行对局时的画面对应的视频帧。

示意性的，在该对局画面帧中含有对对局状态的信息播报控件，如播报第一虚拟角色击杀两名虚拟角色，或对局得分，或增益得分。

步骤552，对控件中的击打状态进行识别，得到击打状态结果，击打状态结果是第一虚拟角色之间产生击打事件时对应的事件结果。

示意性的，服务器调用分类模型对对局画面帧中产生击打状态的区域进行识别，即对第一虚拟角色进行识别。该分类模型是根据含有击打事件的样本视频训练得到的。如图12所示，框定第一虚拟角色54和中立虚拟角色55，则第一虚拟角色54击打中立虚拟角色55。

在第一虚拟角色之间产生击打事件时，在用户界面中通常显示有播报信息控件，通过对播报信息控件进行识别，得到对局状态信息。

击打是指第一虚拟角色击打其他虚拟角色，或第一虚拟角色击打中立虚拟角色，击打可降低被攻击对象的生命值。分类模型是根据含有击打状态标注的样本视频训练后得到的，用于对视频帧中产生击打事件的虚拟角色进行框定。

步骤553，根据击打状态结果从对局画面帧中提取对局状态信息。

如图9所示，对局状态信息可通过播报信息控件43获得，如分类模型识别出A阵营中的第一虚拟角色a击杀B阵营的第一虚拟角色b，则服务器获得对局状态信息为第一虚拟角色a击杀第一虚拟角色b。

综上所述，本实施例提供的方法，通过对第一虚拟角色之间产生击打事件的事件结果进行识别，得到击打状态结果，从而根据击打状态结果从对局画面帧中提取到第一虚拟角色之间的对局信息，通过第一虚拟角色之间的对局信息，使得服务器能够结合更全面的信息对视频帧进行语义标注，提高了对视频帧进行语义标注的效率和准确率。

图13示出了本申请一个示例性实施例提供的视频语义标注方法的流程框架图。该方法可应用于如图1所示的服务器120中。该流程包括如下三个部分：视频预处理56、视频信息提取57和视频语义标注58。

一、视频预处理。

视频预处理56是指将用户(视频生产者)发布的视频进行边框裁切处理561、游戏帧分类处理562和分辨率增强处理563。

1、边框裁切处理561：

示意性的，以游戏主播直播的过程采集的游戏视频为例，如图14所示。一些游戏主播在直播过程中会以画中画的形式录制直播视频，即在虚拟环境画面(游戏界面)上添加边框。在这种情况下，若直接进行后续识别任务，对识别结果的干扰较大，因此需要先识别游戏视频区域，以提高对游戏视频进行语义标注时的标注正确率和识别效率。

视频帧序列中的视频帧包括虚拟环境画面区域和直播画面区域，直播画面区域用于表征对主播的直播过程进行拍摄的画面区域，且该直播画面区域不包括虚拟环境画面区域。首先，确定虚拟环境画面区域与直播画面区域之间的边界；然后，根据边界对直播画面区域进行裁剪，得到含有虚拟环境画面区域对应的视频帧。

通过如下方式确定出虚拟环境画面和直播画面区域之间的边界：

S1、获取经过二值化处理后的视频帧序列。

二值化处理是指将视频帧中的像素点的灰度值设置为0或255，也即整个视频帧转换为黑白色。对该游戏视频进行二值化处理，得到二值化处理后的视频帧序列。

S2、根据霍夫曼算法将二值化处理后的视频帧序列中的视频帧包含的像素点转换霍夫曼空间。

二值化处理后的视频帧包含的各个像素点根据霍夫曼算法转换至霍夫曼空间，其中各个像素点在霍夫曼空间对应有一条曲线，当条曲线相交在一起时，表示与该多条曲线对应的像素点在视频帧中的同一曲线上。由此，根据霍夫曼空间中相交的曲线可以确定出二值化处理后的视频帧中的各个像素点形成的曲线。

S3、响应于在霍夫曼空间中相交于同一像素点的曲线数量大于或等于数量阈值，确定视频帧中存在与像素点对应的直线。

理论上一个像素点对应无数条曲线或任意方向曲线，在实际应用中，通过限定曲线的数量(即有限数量的方向)进行计算，因此，当在霍夫曼空间中通过某一交点的曲线的数量超过数量阈值，即该交点在视频帧中对应有一条曲线(或直线)。

S4、根据像素点对应的直线确定虚拟环境画面区域与直播画面区域之间的边界。

如图14所示，边界61是通过霍夫曼算法确定的直线，根据该直线将虚拟环境画面62与第一直播画面区域63和第二直播画面区域64进行划分，从而确定出视频帧中的虚拟环境画面区域。第一直播画面区域63是主播的头像对应的画面区域，第二直播画面区域64是对主播进行实时拍摄的画面区域。

2、游戏帧分类处理562：

由于视频生产者发布的***有多种渠道，质量良莠不齐，在游戏视频中，通常会包含大量的非目标帧。如图10所示，在游戏运行的过程中，游戏视频包括虚拟环境画面帧、主播聊天画面帧、游戏非对局画面帧(如商店界面、大厅界面，交易界面对应的视频帧等)，不同的画面帧包含不同的信息，如角色选择画面帧和加载画面帧包含参与对局的第一虚拟角色的角色标识、对局结束画面帧包含对局结果信息、对局画面帧包含对局过程中的击打状态信息等。通过预先过滤掉非目标视频帧，对特定类别游戏帧采用对应的识别方式，将提升视频的处理效率以及节省计算资源。

示意性的，采用基于ImageNet数据库中的样本图像训练得到卷积神经网络构建的分类模型，通过将标注视频类型来训练该分类模型，以实现对游戏视频中的目标视频帧进行识别。ImageNet数据库是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像的统一资源定位符(Uniform Resource Locator，URL)被ImageNet数据库手动注释，以指示图片中的对象，一些图像还包括边界框。

3、分辨率增强处理363：

首先，调用主干网络Backbone对所述视频帧序列中的视频帧进行特征提取，得到所述视频帧对应的视频特征；然后，调用增强型超分辨生成对抗网络ESRGAN对所述视频特征进行处理，得到分辨率增强的所述视频帧。

由于视频传输过程中的编码、解码操作，视频生产者发布的游戏视频清晰度不是很高，一般分辨率在720p左右，对于提取小地图等尺寸较小的控件信息，将会产生较大误差。本申请实施例通过Backbone网络从视频帧中提取视频特征，通过增强型超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks，ESRGAN)对视频特征进行处理，由于ESRGAN网络可以增强视频的分辨率，从而得到分辨率增强的视频帧，在后续提取多模态信息的过程中，可基于清晰度较高的视频帧进行提取，使得信息提取更加准确。通过ESRGAN网络和Backbone网络是本领域中较为成熟的增强画面分辨率的方法，此处不再赘述。

超分辨率成像(Super-Resolution Imaging，SR或SRI)，是一种提高图像分辨率的技术，超分辨率成像技术用于图像处理和超高分辨率显微镜。

生成对抗网络(英语：Generative Adversarial Network，简称GAN)是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。生成对抗网络由一个生成网络与一个判别网络组成。生成网络从潜在空间(Latent Space)中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能地分辨出来。而生成网络则要尽可能地“欺骗”判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

图15的(a)为视频发布者上传的视频中的小地图画面，图15的(b)为采用本申请实施例提供的方式对小地图的分辨率进行增强后的效果，图15(b)的小地图的清晰度优于图15的(a)的小地图的清晰度。

二、视频信息提取。

视频信息提取57是指从视频中提取出虚拟元素信息和对局信息。本申请实施例通过如图2所示的是视频信息提取服务31来提取视频中的虚拟元素信息和对局信息。信息提取方式在上述是实施例中已经详细描述，此处不再赘述。

将提取得到信息写入分布式文件存储数据库(mongodb数据库)中，利用mongodb数据库支持多语言查询、地理位置查询，具有灵活的数据结构的特性，实现后续对提取到的信息进行高效利用。以游戏视频为例，视频信息提取服务31提取到信息包括生命值信息(包括第一虚拟角色、中立虚拟角色、防御塔对应的生命值)、播报控件对应的播报信息、防御塔信息、野怪信息、草丛信息、小地图信息、第一虚拟角色的角色标识、对局结果信息、对局状态信息等。

针对提取不同的信息，对应有不同的信息提取服务，该不同的信息提取服务是根据视频内容处理模型进行标准化得到的，标准化是指将视频内容处理模型构建在服务框架中，即将视频内容处理模型对应的权重参数添加至服务框架中，在使用信息提取服务时，需要向该服务器提供实际输入参数(如视频或从视频中的提取到的元素特征)，从而得到关于视频的虚拟元素信息和对局信息。

如图16所示，视频内容处理模型34是通过视频抽帧服务35和视频内容样本库33中的样本视频得到的。在视频应用程序的后台服务器还包括下载文件***36，下载文件***36用于从视频内容存储服务器23下载和获取原始的视频内容，控制下载的速度和进度，通常是一组并行的服务器，由相关的任务调度和分发集群构成；下载完成的视频文件调用抽取抽帧服务35从视频源文件当中获取必要的视频信息，即提取虚拟元素信息和对局信息，作为后续构建视频内容处理模型34的信息。

三、视频语义标注。

视频语义标注58是指对视频进行语义标注，得到语义标注信息，该语义标注信息用于描述视频内容。

视频语义标注58通过调用如图2所示的视频理解服务32对视频进行语义标注，视频理解服务融合视频信息提取服务31中提取出的视频多模态信息(包括虚拟元素信息和对局信息)，通过事先编辑好的剧本逻辑(预设对局事件)，分析游戏视频中出现的剧情，当满足预设的剧本条件时，召回相应的对局事件，从而标记出精彩片段。

示意性的，当直接用视频信息提取服务31中提取出来的信息，游戏视频中存在有特效、遮挡等问题，无法避免遇到漏检和误检的问题，这就导致剧本逻辑的泛化性很低，精度很低，因此首先对视频信息提取服务31中提取的信息进行后处理。后处理包括平滑和取闭包处理，结合相邻两帧提取到的信息进行相互验证，可以实现进一步降低检测算法因遮挡和特效等问题导致的误检和漏检影响。

平滑处理是指对解码后的视频***丢失的帧，以此来形成流畅的视频，提高视频的质量。

闭包是指能够读取到其他函数内部变量的函数，即在函数内容定义的变量在函数本身的内部作用域内可被访问，函数外部无法访问，闭包是函数外部读取函数内部变量的一个桥梁，使私有的局部能够被多个函数共享。取闭包处理将联合多个视频帧来提取视频信息。

将视频中提取到的信息存储到mongdb数据库中，这些信息可作为基本元素，通过不断编辑新剧本的形式，配置处理流程，得到大量复杂的视频剧本(预设对局事件)。

综上所述，通过从视频中提取虚拟元素信息和对局信息完成大量的语义标注，无需人工方式标注；通过视频边框裁切、游戏帧分类、分辨率增强，对视频进行预处理提升了信息提取的效率和精度；通过采用基于计算机视觉的方法进行视频基础信息提取，并通过平滑和取闭包处理降低误差；大部分算法技术采用了无需标注数据的非监督学习方法，对于部分非监督学习方法难以解决的场景，采用合成样本数据的方式，使得无需通过机器学习模型也能够实现对视频进行语义标注。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图17示出了本申请的一个示例性实施例提供的视频语义标注装置的结构图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置包括：

获取模块1710，用于获取视频中的视频帧序列；

提取模块1720，用于从视频帧序列中的视频帧中提取至少两个维度的多模态信息；

处理模块1730，用于基于至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为视频帧的剧情事件；

标注模块1740，用于根据视频帧的剧情事件对视频帧序列进行语义标注，得到视频的语义信息。

在一个可选的实施例中，所述标注模块1740，用于确定具有相同的剧情事件的多个连续视频帧所属的视频片段在视频帧序列中的开始时间戳和结束时间戳；根据剧情事件、开始时间戳和结束时间戳对视频片段进行语义标注，得到视频中视频片段对应的语义信息。

在一个可选的实施例中，所述获取模块1710，用于获取对应关系，对应关系用于表征多模态信息组合后的事件与目标剧情事件之间的对应关系；根据对应关系和多模态信息组合后的事件获取目标剧情事件，将目标剧情事件确定为视频帧的剧情事件。

在一个可选的实施例中，视频帧序列中的视频帧包括虚拟环境画面和至少一个控件，虚拟环境画面包括以第一虚拟角色活动时所在的虚拟环境的画面；

所述提取模块1720，用于调用第一信息提取模型从虚拟环境画面提取虚拟元素信息，虚拟元素信息包括虚拟环境画面中的活动元素和静止元素中至少一种元素对应的信息；调用第二信息提取模型从控件中提取对局信息，对局信息包括控件中与第一虚拟角色对应的信息。

在一个可选的实施例中，虚拟元素信息包括第一虚拟角色对应的角色标识，第一信息提取模型包括元素分类模型和定位跟踪模型；

所述获取模块1710，用于获取参与对局的第一虚拟角色的第一角色标识；

所述提取模块1720，用于调用元素分类模型对虚拟环境画面中的第一虚拟角色对应的生命值区域进行识别，得到生命值区域对应的第一虚拟角色的第二角色标识；

所述处理模块1730，用于响应于第一角色标识与第二角色标识匹配，得到第二角色标识对应的第一置信度；

所述提取模块1720，用于调用定位跟踪模型根据第一角色标识对虚拟环境画面中的第一虚拟角色进行识别，得到显示在虚拟环境画面中的第一虚拟角色的第三角色标识，第三角色标识对应有第二置信度，定位跟踪模型与参与对局的第一虚拟角色一一对应；根据第一置信度和第二置信度获得第一虚拟角色的角色标识。

在一个可选的实施例中，虚拟元素信息包括虚拟环境中的建筑物元素对应的位置信息，第一信息提取模型包括第一卷积神经网络；

所述提取模块1720，用于从虚拟环境画面中提取建筑物元素对应的建筑物元素特征；所述处理模块1730，用于将建筑物元素特征与预设建筑物元素特征进行匹配，得到第一匹配特征；所述提取模块1720，用于调用第一卷积神经网络对第一匹配特征进行分类，得到建筑物元素对应的位置信息。

在一个可选的实施例中，虚拟元素信息包括虚拟环境中的中立虚拟角色对应的位置信息，第一信息提取模型包括第二卷积神经网络；

所述提取模块1720，用于从虚拟环境画面中提取中立虚拟角色对应的角色元素特征；所述处理模块1730，用于将角色元素特征与预设角色元素特征进行匹配，得到第二匹配特征；所述提取模块1720，用于调用第二卷积神经网络对第二匹配特征进行分类，得到中立虚拟角色对应的位置信息。

在一个可选的实施例中，对局信息包括对局结束信息，第二信息提取模型包括视频帧分类模型；

所述提取模块1720，用于调用视频帧分类模型对视频帧序列进行分类，得到对局结束状态对应的视频帧，对局结束状态对应的视频帧包括控件；对控件进行文字识别，得到文字识别结果；响应于文字识别结果包括对局结果，根据对局结果获得对局结束信息。

在一个可选的实施例中，对局信息包括第一虚拟角色之间的对局状态信息，第二信息提取模型包括视频帧分类模型；

所述提取模块1720，用于调用视频分类模型对视频帧序列进行分类，得到对局画面帧，对局画面帧包括控件；对控件中的击打状态进行识别，得到击打状态结果，击打状态结果是第一虚拟角色之间产生击打事件时对应的事件结果；根据击打状态结果获得对局状态信息。

在一个可选的实施例中，视频帧序列中的视频帧包括虚拟环境画面区域和直播画面区域，直播画面区域用于表征对主播的直播过程进行拍摄的画面区域，且直播画面区域不包括虚拟环境画面区域；

所述处理模块1730，用于确定虚拟环境画面区域与直播画面区域之间的边界；根据边界对直播画面区域进行裁剪，得到含有虚拟环境画面区域对应的视频帧。

在一个可选的实施例中，所述获取模块1710，用于获取经过二值化处理后的视频帧序列；所述处理模块1730，用于根据霍夫曼算法将二值化处理后的视频帧序列中的视频帧包含的像素点转换至霍夫曼空间；响应于在霍夫曼空间中相交于同一像素点的曲线数量大于或等于数量阈值，确定视频帧中存在与像素点对应的直线；根据像素点对应的直线确定虚拟环境画面区域与直播画面区域之间的边界。

在一个可选的实施例中，所述提取模块1720，用于调用主干网络Backbone对视频帧序列中的视频帧进行特征提取，得到视频帧对应的视频特征；所述处理模块1730，用于调用增强型超分辨生成对抗网络ESRGAN对视频特征进行处理，得到分辨率增强的视频帧。

综上所述，本实施例提供的装置，通过将视频帧中提取到的多模态信息组合所匹配的目标剧情事件确定为视频帧的剧情事件，从而利用视频帧对应的剧情事件对视频帧进行语义标注，无需通过样本视频训练得到的机器学习模型也可对视频帧进行语义信息的标注，提高了对视频帧进行语义标注的效率和准确率，使得用户能够根据标注语义信息的视频帧快速捕获视频帧中的精彩片段。

本实施例提供的装置，还通过结合剧情事件对应的开始时间戳和结束时间戳，将视频中发生的剧情事件和时间一一对应，方便用户根据时间戳对视频帧中的剧情事件进行快速定位。

本实施例提供的装置，还通过对多模态信息进行细化以及关联目标剧情事件与多模态信息组合后的事件，针对不同类型的视频通过对应的方式提取视频画面中对应的多模态信息，使得提取到的信息更符合视频类型，从而匹配出更符合视频的目标剧情事件，提高了对视频进行语义标注的效率和准确率。

本实施例提供的装置，还通过定位跟踪模型和分类模型的双重提取方式对视频帧中的第一虚拟角色进行角色标识的识别，从而使得服务器能够从视频帧中准确提取第一虚拟角色的角色标识，使得后续利用第一虚拟角色的角色标识对视频帧进行语义标注的结果更加准确。

本实施例提供的装置，还通过对虚拟环境中的建筑物元素对应的位置信息进行提取，根据建筑物元素对应的位置信息确定建筑物元素在虚拟环境中的位置，当建筑物元素与第一虚拟角色发生交互时，能够产生更多的对局事件，使得语义标注具有更丰富的对局事件(视频剧本)，提高了对视频帧进行语义标注的效率和准确率。

本实施例提供的装置，还通过对虚拟环境中的中立虚拟角色对应的位置信息进行提取，根据中立虚拟角色对应的位置信息间接确定第一虚拟角色在虚拟环境中的位置，当第一虚拟角色与中立虚拟角色发生交互时，能够产生更多的对局事件，使得语义标注具有更丰富的对局事件(视频剧本)，提高了对视频帧进行语义标注的效率和准确率。

本实施例提供的装置，还通过从对局结束状态对应的视频帧中提取对局结束信息，将该对局结束信息作为本次对局对应的结束信息，也可作为下一次对局对应的开始信息，对相邻两次对局之间起到分割作用，使得服务器能够准确确定一局对局的开始时间和结束时间。

本实施例提供的装置，还通过对第一虚拟角色之间产生击打事件的事件结果进行识别，得到击打状态结果，从而根据击打状态结果从对局画面帧中提取到第一虚拟角色之间的对局信息，通过第一虚拟角色之间的对局信息，使得服务器能够结合更全面的信息对视频帧进行语义标注，提高了对视频帧进行语义标注的效率和准确率。

本实施例提供的装置，还通过霍夫曼算法对视频帧中的虚拟环境画面区域和直播画面区域之间的边界进行确定，使得服务器能够对视频帧中直播画面区域进行裁剪，保留虚拟环境画面区域，专注于对虚拟环境画面中的内容进行识别，提高了服务器对视频帧的信息提取速度以及对语义信息进行标注的标注效率。

本实施例提供的装置，还通过ESRGAN网络和Backbone网络提高视频的分辨率，从而基于清晰度更高的视频进行信息提取，使得提取到的多模态信息更加准确。

需要说明的是：上述实施例提供的视频语义标注装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频语义标注装置与视频语义标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图18示出了本申请一个示例性实施例提供的计算机设备1800的结构框图。该计算机设备1800可以是上述实施例中安装有直播客户端的终端，该计算机设备可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备1800还可能被称为用户设备、便携式终端、智能手表、智能机器人、智能音箱等其他名称。

通常，计算机设备1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1801所执行以实现本申请中提供的视频语义标注方法。

在一些实施例中，计算机设备1800还可选包括有：***设备接口1803和至少一个***设备。具体地，***设备包括：射频电路1804、触摸显示屏1805、摄像头组件1806、音频电路1807、定位组件1808和电源1809中的至少一种。

***设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和***设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和***设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1805还具有采集在触摸显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。触摸显示屏1805用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1805可以为一个，设置计算机设备1800的前面板；在另一些实施例中，触摸显示屏1805可以为至少两个，分别设置在计算机设备1800的不同表面或呈折叠设计；在另一些实施例中，触摸显示屏1805可以是柔性显示屏，设置在计算机设备1800的弯曲表面上或折叠面上。甚至，触摸显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807用于提供用户和计算机设备1800之间的音频接口。音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位计算机设备1800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1808可以是基于美国的GPS(Global Positioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1809用于为计算机设备1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811以检测以计算机设备1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811集的重力加速度信号，控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测计算机设备1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811同采集用户对计算机设备1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在计算机设备1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在计算机设备1800的侧边框时，可以检测用户对计算机设备1800的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时，可以根据用户对触摸显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置计算机设备1800的正面、背面或侧面。当计算机设备1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制触摸显示屏1805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1805的显示亮度；当环境光强度较低时，调低触摸显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在计算机设备1800的正面。接近传感器1816用于采集用户与计算机设备1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与计算机设备1800的正面之间的距离逐渐变小时，由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与计算机设备1800的正面之间的距离逐渐变大时，由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对计算机设备1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图19示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图1所示的计算机***100中的服务器120。

服务器1900包括中央处理单元(CPU，Central Processing Unit)1901、包括随机存取存储器(RAM，Random Access Memory)1902和只读存储器(ROM，Read Only Memory)1903的***存储器1904，以及连接***存储器1904和中央处理单元1901的***总线1905。服务器1900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***，Input Output System)1906，和用于存储操作***1913、应用程序1914和其他程序模块1915的大容量存储设备1907。

基本输入/输出***1906包括有用于显示信息的显示器1908和用于用户输入信息的诸如鼠标、键盘之类的输入设备1909。其中显示器1908和输入设备1909都通过连接到***总线1905的输入输出控制器1910连接到中央处理单元1901。基本输入/输出***1906还可以包括输入输出控制器1910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1910还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1907通过连接到***总线1905的大容量存储控制器(未示出)连接到中央处理单元1901。大容量存储设备1907及其相关联的计算机可读介质为服务器1900提供非易失性存储。也就是说，大容量存储设备1907可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1904和大容量存储设备1907可以统称为存储器。

根据本申请的各种实施例，服务器1900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1900可以通过连接在***总线1905上的网络接口单元1911连接到网络1912或者说，也可以使用网络接口单元1911来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频语义标注方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频语义标注方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本申请实施例还提供一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述各方法实施例提供的视频语义标注方法。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频语义标注方法。

本申请实施例还提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的视频语义标注方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频语义标注方法，其特征在于，所述方法包括：

获取视频中的视频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频帧的剧情事件对所述视频帧序列进行语义标注，得到所述视频的语义信息，包括：

确定具有相同的所述剧情事件的多个连续视频帧所属的视频片段在所述视频帧序列中的开始时间戳和结束时间戳；

根据所述剧情事件、所述开始时间戳和所述结束时间戳对所述视频片段进行语义标注，得到所述视频中所述视频片段对应的语义信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少两个维度的多模态信息的组合在至少两个剧情事件中匹配出的目标剧情事件，确定为所述视频帧的剧情事件，包括：

获取对应关系，所述对应关系用于表征所述多模态信息组合后的事件与目标剧情事件之间的对应关系；

根据所述对应关系和所述多模态信息组合后的事件获取所述目标剧情事件，将所述目标剧情事件确定为所述视频帧的剧情事件。

4.根据权利要求1至3任一所述的方法，其特征在于，所述视频帧序列中的视频帧包括虚拟环境画面和至少一个控件，所述虚拟环境画面包括以第一虚拟角色活动时所在的虚拟环境的画面；

所述从所述视频帧序列中的视频帧中提取至少两个维度的多模态信息，包括：

调用第一信息提取模型从所述虚拟环境画面中提取虚拟元素信息，所述虚拟元素信息包括所述虚拟环境画面中的活动元素和静止元素中至少一种元素对应的信息；

调用第二信息提取模型从所述控件中提取对局信息，所述对局信息包括所述控件中与所述第一虚拟角色对应的信息。

5.根据权利要求4所述的方法，其特征在于，所述虚拟元素信息包括所述第一虚拟角色对应的角色标识，所述第一信息提取模型包括元素分类模型和定位跟踪模型；

所述调用第一信息提取模型从所述虚拟环境画面中提取虚拟元素信息，包括：

获取参与对局的所述第一虚拟角色的第一角色标识；

调用所述元素分类模型对所述虚拟环境画面中的所述第一虚拟角色对应的生命值区域进行识别，得到所述生命值区域对应的所述第一虚拟角色的第二角色标识；

响应于所述第一角色标识与所述第二角色标识匹配，得到所述第二角色标识对应的第一置信度；

调用所述定位跟踪模型根据所述第一角色标识对所述虚拟环境画面中的第一虚拟角色进行识别，得到显示在所述虚拟环境画面中的所述第一虚拟角色的第三角色标识，所述第三角色标识对应有第二置信度，所述定位跟踪模型与参与对局的所述第一虚拟角色一一对应；

根据所述第一置信度和所述第二置信度获得所述第一虚拟角色的角色标识。

6.根据权利要求4所述的方法，其特征在于，所述虚拟元素信息包括所述虚拟环境中的建筑物元素对应的位置信息，所述第一信息提取模型包括第一卷积神经网络；

从所述虚拟环境画面中提取所述建筑物元素对应的建筑物元素特征；

将所述建筑物元素特征与预设建筑物元素特征进行匹配，得到第一匹配特征；

调用所述第一卷积神经网络对所述第一匹配特征进行分类，得到所述建筑物元素对应的位置信息。

7.根据权利要求4所述的方法，其特征在于，所述虚拟元素信息包括所述虚拟环境中的中立虚拟角色对应的位置信息，所述第一信息提取模型包括第二卷积神经网络；

从所述虚拟环境画面中提取所述中立虚拟角色对应的角色元素特征；

将所述角色元素特征与预设角色元素特征进行匹配，得到第二匹配特征；

调用所述第二卷积神经网络对所述第二匹配特征进行分类，得到所述中立虚拟角色对应的位置信息。

8.根据权利要求4所述的方法，其特征在于，所述对局信息包括对局结束信息，所述第二信息提取模型包括视频帧分类模型；

所述调用第二信息提取模型从所述控件中提取所述对局信息，包括：

调用所述视频帧分类模型对所述视频帧序列进行分类，得到对局结束状态对应的视频帧，所述对局结束状态对应的视频帧包括所述控件；

对所述控件进行文字识别，得到文字识别结果；

响应于所述文字识别结果包括对局结果，根据所述对局结果获得所述对局结束信息。

9.根据权利要求4所述的方法，其特征在于，所述对局信息包括所述第一虚拟角色之间的对局状态信息，所述第二信息提取模型包括视频帧分类模型；

调用所述视频分类模型对所述视频帧序列进行分类，得到对局画面帧，所述对局画面帧包括所述控件；

对所述控件中的击打状态进行识别，得到击打状态结果，所述击打状态结果是所述第一虚拟角色之间产生击打事件时对应的事件结果；

根据所述击打状态结果获得所述对局状态信息。

10.根据权利要求1至3任一所述的方法，其特征在于，所述视频帧序列中的视频帧包括虚拟环境画面区域和直播画面区域，所述直播画面区域用于表征对主播的直播过程进行拍摄的画面区域，且所述直播画面区域不包括所述虚拟环境画面区域；

所述从所述视频帧序列中的视频帧中提取至少两个维度的多模态信息之前，包括：

确定所述虚拟环境画面区域与所述直播画面区域之间的边界；

根据所述边界对所述直播画面区域进行裁剪，得到含有所述虚拟环境画面区域对应的视频帧。

11.根据权利要求10所述的方法，其特征在于，所述确定所述虚拟环境画面区域与所述直播画面区域之间的边界，包括：

获取经过二值化处理后的视频帧序列；

根据霍夫曼算法将所述二值化处理后的视频帧序列中的视频帧包含的像素点转换至霍夫曼空间；

响应于在所述霍夫曼空间中相交于同一像素点的曲线数量大于或等于数量阈值，确定所述视频帧中存在与所述像素点对应的直线；

根据所述像素点对应的直线确定所述虚拟环境画面区域与所述直播画面区域之间的边界。

12.根据权利要求1至3任一所述的方法，其特征在于，所述从所述视频帧序列中的视频帧中提取至少两个维度的多模态信息之前，还包括：

调用主干网络Backbone对所述视频帧序列中的视频帧进行特征提取，得到所述视频帧对应的视频特征；

调用增强型超分辨生成对抗网络ESRGAN对所述视频特征进行处理，得到分辨率增强的所述视频帧。

13.一种视频语义标注装置，其特征在于，所述装置包括：

获取模块，用于获取视频中的视频帧序列；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至12任一项所述的视频语义标注方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行，以实现如权利要求1至12任一项所述的视频语义标注方法。