CN111953910A

CN111953910A - 基于人工智能的视频处理方法、装置及电子设备

Info

Publication number: CN111953910A
Application number: CN202010800282.9A
Authority: CN
Inventors: 林少彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-11-17
Anticipated expiration: 2040-08-11
Also published as: CN111953910B

Abstract

本申请公开一种基于人工智能的视频处理方法，包括：获取游戏记录数据及对应的游戏视频；从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；根据所述至少一个游戏特征获取匹配的解说策略模型；基于所述解说策略模型生成对应的解说语音；以及根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。上述方法可以精准、动态、自动地生成针对游戏的专业解说内容，为在线游戏提供快速智能的自动解说服务，实现AI游戏解说，使得可以自动生成解说视频，极大提升了解说视频的处理效率此外，本申请还公开一种基于人工智能的视频处理方法、电子设备及存储介质。

Description

基于人工智能的视频处理方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及基于人工智能的视频处理方法、装置及电子设备。

背景技术

随着科学技术的飞速发展，视频直播已经成为一种日常化的生活娱乐和交流方式，直播时展示给用户的视频，因融合了图像、文字、主播的讲解等丰富元素，声形并茂，效果极佳，逐渐在互联网上流行。目前比较热门的视频直播之一，是MOBA(MultiplayerOnline Battle Arena，多人在线战术竞技)类的游戏直播。

然而，目前的游戏直播过程中，存在无法智能化针对游戏对局提供相应的游戏解说的问题，只能由主播来根据游戏对局情况进行游戏解说，其缺点是视频合成过程全程需要人工参与，一段精彩回顾视频的生成需要经过：片段选取、台词编写、视频编辑、语音生成，视频合成等复杂的全人工流程，制作流程的冗长及投入人力之多决定了精彩回顾技术不能批量广泛地推广应用。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

发明内容

本申请实施例提出了一种基于人工智能的游戏视频处理方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供一种基于人工智能的游戏视频处理方法，其包括：

获取游戏记录数据及对应的游戏视频；

从游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；

根据至少一个游戏特征获取匹配的解说策略模型；

基于解说策略模型生成对应的解说语音；以及

根据解说语音及所述游戏视频合成解说视频，使解说语音的时间线起点与所述游戏指令时间匹配。

第二方面，本申请实施例提供了一种基于人工智能的电子设备，包括：

数据获取模块，用于获取游戏记录数据及对应的游戏视频；

游戏指令获取模块，用于从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；

解说策略获取模块，用于根据所述至少一个游戏特征获取匹配的解说策略模型；

解说语音生成模块，用于基于所述解说策略模型生成对应的解说语音；以及

视频合成模块，用于根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。

第三方面，本申请实施例提供了一种电子设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的基于人工智能的游戏视频处理方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的基于人工智能的视频处理方法。

本申请实施例提供的基于人工智能的视频处理***，可以精准、动态、自动地生成针对MOBA类别游戏的专业解说内容，为在线游戏提供快速智能的自动解说服务，实现AI游戏解说，使得可以自动生成解说视频，极大提升了解说视频的处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种基于人工智能的视频处理***的架构示意图。

图2示出了本申请实施例提供的一种基于人工智能的视频处理***中解说策略模型的示意图。

图3示出了本申请实施例提供的一种基于人工智能的视频处理***中识别游戏视频游戏时间的示意图。

图4示出了本申请实施例提供的一种基于人工智能的视频处理***中游戏指令帧与视频图像帧的对齐的示意图。

图5示出了本申请实施例提供的一种基于人工智能的视频处理***生成解说视频的截图。

图6示出了本申请实施例提供的一种基于人工智能的视频处理方法的流程图。

图7示出了图6所示的方法中生成解说语音的流程图。

图8示出了本申请实施例提供的一种基于人工智能的视频处理方法的流程图。

图9示出了本申请实施例提供的另一种基于人工智能的视频处理方法的流程图。

图10示出了本申请实施例提供的另一种基于人工智能的视频处理方法的流程图。

图11示出了本申请实施例提供的另一种基于人工智能的视频处理方法的流程图。

图12示出了从第三方解说视频中提取游戏特征及解说策略的示意图。

图13示出了本申请实施例提供的另一种基于人工智能的视频处理方法的流程图。

图14示出了本申请实施例提供的一种基于人工智能的视频处理处理装置的结构框图。

图15示出了本申请实施例提供的一种基于人工智能的视频处理电子设备的硬件结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

术语定义

MOBA(Multiplayer Online Battle Arena)，多人在线战术竞技游戏。这类游戏的玩法是：在战斗中一般需要购买装备，玩家通常被分为两队，两队在分散的游戏地图中互相竞争，每个玩家都通过一个界面控制所选的角色。

参阅图1，本申请揭示了一种基于人工智能的视频处理***的架构示意图。如图1所示，该视频处理***中，输入数据是游戏记录数据及游戏视频，输出数据为解说视频。

游戏记录数据可包括：游戏指令数据、及游戏统计数据等。

游戏指令数据是游戏进行时用于操控游戏内玩家角色、非玩家角色等游戏内元素的移动、技能、动作等行为的命令，游戏指令数据一般以指令帧的形式存在，每个指令帧包含多个游戏操作指令。一般来说，游戏指令帧的帧率会略高于人类的反应极限即可。

解说视频是指带有解说字幕的视频、带有解说语音的视频、以及同时带有解说字幕及解说语音的视频。

如图1所示，该视频处理***处理视频时主要包括以下步骤：

步骤S1，游戏帧处理得到解说策略。

具体地，步骤S1可包括以下步骤：

步骤S11，从游戏指令数据中提取游戏特征；以及

步骤S12，根据游戏特征进行解说策略挖掘得到解说策略。

游戏特征是指游戏对局内由玩家控制的角色或者非玩家角色(Non-PlayerCharacter,NPC)的行为以及这些行为相互作用，或者与游戏地图环境相互作用而产生的某种特定游戏状态。这里的NPC可包括可移动的野怪、小兵、超级兵，也可包括不可移动的防御塔、水晶等。

此处的行为是指角色的移动、攻击、释放技能、及其他交互如发出警告信号、发出集合信号、发出进攻信号、发出撤退信号等。

此处的游戏状态是指玩家或者NPC的状态如血量、等级、位置、装备、技能冷却时间、战绩、复活、死亡、刷新、比分、塔数、胜率、金钱数、蓝量、能量条数值、团灭、技能施放失败如闪现撞墙、技能放空等等。

基于游戏指令，可以通过实时的游戏内元素属性计算(如玩家移动后位于地图的新坐标位置、玩家英雄的技能施放后技能冷却剩余时间)从而得到上述的游戏特征。

图2揭示一种如何从游戏特征挖掘出解说策略的示意图。首先，可将游戏基本元素进行归纳总结后可以得到四个类别：英雄、NPC、团战、统计。针对每个类别的基本属性及特点，逐步补充扩展二级甚至更多级类别，比如针对英雄技能类别，可以扩展出英雄一技能、二技能、大招等子类别，针对每个技能子类别，可以扩展出英雄是否有大招、英雄大招打到谁(敌方英雄或者野怪)身上、英雄大招使用技巧等子类别，通过每个子类别逐级扩展。通过这种方式，可以得到一个解说策略模型。

对于解说策略模型来说，其输入是游戏特征，而输出是解说策略。

每一个解说策略与一个或多个游戏特征相匹配，例如，牛魔闪现开大，大中对方5位英雄。另一方面，每一个解说策略有对应的解说词生成策略，可根据游戏特征生成对应的解说词。

步骤S2，视频帧处理得到采样视频。

可以理解，要将解说字幕或者解说语音***到游戏视频中，要将字幕及音频的时间线与视频的时间线对齐。若游戏指令数据与视频数据的时间是同步状态，则无须额外的对齐操作。然而大多数情形下，对局视频可能录取的时间与游戏指令数据并不同步，又或者游戏视频经过了剪辑，此时游戏视频的时间线可能与游戏指令数据并不同步，而且游戏视频的时间线还可能中断。

具体地，第一步是将游戏视频解码抽出图像帧。可以理解，视频一般都采用某种标准进行压缩存储，按照对应的规范即可实现视频解码，获取每个视频帧图像。当然，也可以直接利用第三方的解码器库来进行视频图像的解帧。例如，FFmpeg是一个开放源代码的自由软件，可以运行音频和视频多种格式的录影、转换、流功能，其包含了libavcodec，这是一个用于多个项目中音频和视频的解码器库，以及libavformat——一个音频与视频格式转换库。

参阅图3，其为某个游戏视频的一个图像帧的示意图，在图像帧顶部中间位置显示有游戏的当前时间。在一个具体的实施方式中，可以截取该时间区域的截图，然后采用图像识别技术来识别对应的游戏时间。例如，可采用类MNIST(MNIST数据库是一个手写数字的大型数据库，通常用于训练各种图像处理***)手写数字识别处理，从而获得每一帧图像帧里面，对应的游戏时间。经过上述步骤，可以获取每一帧图像所对应的游戏时间。

如图3所示，边框101为时间区域裁剪边界，通过微调得到的数字识别模型，可以识别出当前游戏时间数字为：4-3-5，对应游戏时间：4分35秒。

步骤S3，将游戏指令帧与视频图像帧对齐。

如步骤S1中所述，解说词或者音频是与某个游戏时间的游戏特征所对应的，要精准的将字幕或者音频嵌入视频，则需要将游戏指令帧与视频图像帧进行对齐。

在一个具体的实施方式中，只要游戏指令时间与视频内的游戏时间在一个允许的误差范围内，例如不超过1秒内即可。如步骤S2中所述，通过游戏视频图像帧的识别，可以识别出游戏时间，而游戏指令帧中一般直接包括了对应的游戏时间，根据两个时间的匹配即可实现。

在一个具体的实施方式中，为了提升解说字幕或者音频与游戏时间之间匹配的精准度，需要精准的将解说字幕或者音频定位到某个准确的视频帧上，也就是将每个游戏指令帧映射到某个具体的视频帧上。例如，游戏指令帧的帧率记为fps1，游戏视频的帧率记为fps2。

在一个具体的实施方式中，fps1与fps2相等，不需要进行额外的处理即可将游戏指令帧与游戏视频图像帧一一对应。

在一个具体的实施方式中，fps1小于fps2，此时可对游戏视频图像帧进行采样处理，使得采样后的游戏视频的帧率等于fps1，此时即可将游戏指令帧与游戏视频图像帧一一对应。

在一个具体的实施方式中，fps1大于fps2，此时可对游戏视频图像帧进行插值处理，即根据前后图像帧智能生成中间帧，使得游戏视频的帧率等于fps1，此时即可将游戏指令帧与游戏视频图像帧一一对应。

通过前面帧率对齐处理，游戏指令帧与图像采样帧帧率已经一致，每一秒内两者的数据帧数是相同的，同时通过前面游戏时间识别流程，可以得到图像采样帧对应的游戏时间，这样就可以与游戏指令帧进行时间对齐了。比如游戏指令帧第1～20帧对应第1秒，那么这20帧首先需要对应到图像采样帧识别到游戏时间为第1秒的那20张图像，其次游戏指令帧按帧号、视频图像帧按视频时间顺序逐一对应，即可完成数据帧对齐。

参阅图4，其示出了上述的游戏指令帧与视频图像帧的对齐过程，通过游戏时间识别，游戏视频图像的采样，将原来为40FPS的游戏视频采样为20FPS，从面与游戏指令帧一一对齐。通过上述的方式，可将解说字幕或者音频精准的映射到某个具体的视频帧上。

步骤S4，生成解说语音。

确定了游戏指令帧和游戏视频的对齐关系后，接下来需要把生成的解说词或者解说语音嵌入视频对应位置。在一个具体的实施方式中，可使用从文本到语音(Text-To-Speech,TTS)技术把解说词文本生成解说语音。

TTS技术同时运用语言学和心理学，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。

在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术采用真人普通话为标准发音，可实现120-150个汉字/分钟的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。

步骤S5，合成解说视频。

视频的合并与视频的解码是反向操作，即将多帧视频图像按照预定的视频标准进行编码压缩并存储，同时此步骤还会将上述的解说词及语音一并合成到游戏视频里，从而最终得到了解说视频。

参阅图5，其示出了合成后的解说视频的示意图。在对应的游戏时间，视频中自动***了解说词字幕102及语音。

通过上述的基于人工智能的视频处理方法，可以精准、动态、自动地生成针对MOBA类别游戏的专业解说内容，为在线游戏提供快速智能的自动解说服务，实现AI游戏解说，使得可以自动生成解说视频，极大提升了解说视频的处理效率。

参阅图6，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法包括：

步骤S101，获取游戏记录数据及对应的游戏视频。

游戏记录数据可包括：游戏指令数据、及游戏统计数据等。

游戏指令数据是游戏进行时用于操控游戏内玩家角色、非玩家角色等游戏内元素的移动、技能、动作等行为的命令，游戏指令数据一般以指令帧的形式存在，每个指令帧包含多个游戏操作指令。

游戏视频可以是由第三方视频录制的，其也有可能经过了剪辑。游戏视频还可以是根据上述的游戏记录数据采用回放技能动态渲染生成的。

步骤S102，从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间。

基于游戏指令，可以通过实时的游戏内元素属性计算(如玩家移动后位于地图的新坐标位置、玩家英雄的技能施放后技能冷却剩余时间)从而得到上述的游戏特征。例如，玩家被小兵击杀，玩家被野怪击杀，玩家被防御塔击杀。

步骤S103，根据所述至少一个游戏特征获取匹配的解说策略模型。

此处的解说策略模型可以是一个依据经验的规则匹配模型，也可以是一个神经网络模型。当采用规则匹配模型时，每一个解说策略与一个或多个游戏特征相匹配，例如，牛魔闪现开大，大中对方5位英雄。而当采用，神经网络模型时，会采用现有的人工的解说数据以及游戏记录数据对该神经网络模型进行训练，该神经网络模型的输入数据是游戏特征，而输入数据是解说策略。

步骤S104，基于所述解说策略模型生成对应的解说语音。

如上所述，每一个解说策略有对应的解说词生成策略，可根据游戏特征生成对应的解说词。在这里会运用到自然语言处理技术，自然语言处理(Nature Languageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本实施例中，视频处理***要针对不同的游戏特征给出最合适的解说词。

如图7所示，在一个具体的实施方式中，步骤S104可包括：

步骤S1041，从预定义解说语料库中获取与所述解说策略匹配的语料。

此处的语料是指各种经过人工标引解说词生成模板。

此处的语料还可以是固定表达，例如某个关键野怪刷新时，就可以有一段固定的解说词。

步骤S1042，根据所述语料生成解说词。

在要生成解说词时，动态的替换该模板中的内容使其符合当前情景即可。当然，若语料是固定的解说词，直接输入即可。

步骤S1043，根据所述解说词采用文本到语音技术生成所述解说语音。

在一个具体的实施方式中，可使用从文本到语音(Text-To-Speech,TTS)技术把解说词文本生成解说语音。

此外，可以理解的是，图7所示的解说词的生成方法，仅为示例，也可以同样运用神经网络来生成解说词。

步骤S105，根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。

解说视频的合成涉及语音的处理及字幕的处理。一般来说，解说语音与视频会存储在不同的流里，其要处理的是时间线的对齐，也就是使某段解说词对应的语音的时间线起点要与视频帧同步。

参阅图8，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法与图6所示的方法相似，其不同之处在于，在步骤S103之后，还包括：

步骤S106，根据所述解说策略模型生成对应的解说字幕。

字幕的处理一般有两种方式，一种是采用单独的字幕文件，此时，针对字幕要处理的也是时间线的对齐，完成时间线对齐后，视频播放软件会自动处理字幕的显示。这种方便的地方在于不用额外的处理视频。另一种方式是，直接将字幕作为视频的一个图层，与原始的视频数据直接合并处理。此时，需要精准的将字幕图层叠加在对应的视频帧。

根据本实施例提供的基于人工智能视频处理方法，除了自动嵌入解说语音外，还自动添加字幕，提升了视频处理效率。

参阅图9，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法与图8所示的方法相似，其不同之在于，还包括：

步骤S107，获取游戏视频。

步骤S108，对所述游戏进行视频解码得到视频帧。

视频编码方式就是指通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准。

视频是连续的图像序列，由连续的帧构成，一帧即为一幅图像。由于人眼的视觉暂留效应，当帧序列以一定的速率播放时，我们看到的就是动作连续的视频。由于连续的帧之间相似性极高，为便于储存传输，我们需要对原始的视频进行编码压缩，以去除空间、时间维度的冗余。

而视频解码即为上述过程的逆过程，即根据对应的视频编码标准进行解码操作，得到视频帧的过程。假设视频的帧率为40FPS，则意味着解码后一秒的视频会有40张图像。

步骤S109，识别所述视频帧对的游戏时间。

根据本实施例的基于人工智能的视频处理方法，通过对游戏视频的游戏时间进行识别，可以方便在合成解说视频时对齐时间线。

参阅图10，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法与图9所示的方法相似，其不同之在于，在步骤S110还包括：

步骤S110，将游戏指令帧与视频帧对齐。

步骤S110可以与步骤S104是并行进行。也就是，基于TTS技术生成解说语音的同时在完成游戏指令帧与视频帧对齐操作，当两者完成后，即可进行视频的合成。这种方式可以减少TTS生成解说语音的等待时间，可以极大的提升视频处理效率。

参阅图11，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法与图10所示的方法相似，其不同之在于，还包括：

步骤S201，获取第三方解说视频。

此处的第三方解说视频是指由第三方主播制作的游戏解说视频，其可以通各视频直播平台获取。

步骤S202，从所述第三方解说视频中提取第三方解说词。

参阅图12，其示出了一个第三方解说视频的截图，该解说视频中包括“这沈梦溪丢了一个混合炸弹伤害真心高，佩服佩服”的解说词，此处的解说词可以通过语音识别技术，或者图像识别技术从视频截图中识别得到。

步骤S203，从所述第三方解说词中提取出对应的第三方解说策略及游戏特征。

以“这沈梦溪丢了一个混合炸弹伤害真心高，佩服佩服”为例，可以提取出来的游戏特征包括：沈梦溪(英雄)、混合炸弹(大招)。

步骤S204，采用所述第三方解说策略及游戏特征训练及更新所述解说策略模型。

根据本实施例的基于人工智能视频处理方法，可以采用第三方主播的解说视频来训练解说策略模型，使得本解说策略模型的输出更加的多样化，能够挖掘出更多的解说点，输出更国更品质的解说词。

参阅图13，其示出了本申请一个实施例提供的游戏视频处理方法的流程，该方法与图11所示的方法相似，其不同之在于，还包括：

步骤S301，获取所述解说视频播放时用户输入的弹幕信息。

弹幕，指的是在网络上观看视频时弹出的评论性字幕。该评论性字幕里往往包括了用户对于该视频以及解说的各处评论或者兴趣点信息。

步骤S302，从所述弹幕信息中提取用户兴趣特征。

步骤S303，根据所述用户兴趣特征训练及更新所述解说策略模型。

根据本实施例的基于人工智能视频处理方法，可以采用解说视频播放时的弹幕来训练解说策略模型，使得本解说策略模型的输出更加的多样化，能够挖掘出更多的解说点，输出更国更品质的解说词。

参阅图14，其示出了本申请一个实施例提供的基于人工智能的游戏视频处理装置的框图，该装置包括：

数据获取模块31，用于获取游戏记录数据及对应的游戏视频；

游戏指令获取模块32，用于从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；

解说策略获取模块33，用于根据所述至少一个游戏特征获取匹配的解说策略模型；

解说语音生成模块34，用于基于所述解说策略模型生成对应的解说语音；以及

视频合成模块35，用于根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。

根据本申请实施例提供的基于人工智能的视频处理装置，可以精准、动态、自动地生成针对MOBA类别游戏的专业解说内容，为在线游戏提供快速智能的自动解说服务，实现AI游戏解说，使得可以自动生成解说视频，极大提升了解说视频的处理效率。

参阅图15，示出了本申请一个示例性实施例提供的计算机设备，该计算机设备1包括处理器10、主存储器11、非易失性存储器12、以及无线模块13。处理器10与主存储器11之间通过第一总线16相连，可以理解，这里的第一总线16仅为示意，并不限于只是一条物理意义上总线，任何可以将主存储器11与处理器10连接的硬件架构及技术均可使用。

主存储器11一般为易失性存储器，例如动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)。

非易失性存储器12及无线模块13均通过输入/输出(IO)总线17与第一总线16相连，进而可与处理器10进行交互。IO总线例如可以为外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或者高速串行计算机扩展总线(PeripheralComponent Interconnect Express，PCI-E)。

非易失性存储器12可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质200包括非易失性计算机可读取存储介质(Non-Transitory Computer-Readable Storage Medium)。

网络模块13可通过无线信号与云端服务器20相连。

非易失性存储器12内存储有视频处理程序120。当视频处理程序120被启动后，其可以执行上述的视频处理方法，从而可以精准、动态、自动地生成针对MOBA类别游戏的专业解说内容，为在线游戏提供快速智能的自动解说服务，实现AI游戏解说。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的视频处理方法，其特征在于，包括：

获取游戏记录数据及对应的游戏视频；

从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；

根据所述至少一个游戏特征获取匹配的解说策略模型；

基于所述解说策略模型对应的解说语音；以及

根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。

2.如权利要求1所述的基于人工智能的视频处理方法，其特征在于，所述根据所述解说策略生成对应的解说语音包括：

从预定义解说语料库中获取与所述解说策略匹配的语料；

根据所述语料生成所述解说词；以及

基于文本到语音技术，根据所述解说词生成所述解说语音。

3.如权利要求2所述的基于人工智能的视频处理方法，其特征在于，所述方法还包括：

根据所述解说词生成字幕；

所述根据所述解说语音及所述游戏视频合成解说视频还包括:将所述字幕***所述解说视频。

4.如权利要求1所述的基于人工智能的视频处理方法，其特征在于，所述方法还包括：

对所述游戏视频进行解码得到视频帧；以及

截取所述视频帧的至少部分区域进行图像识别得到与所述视频帧对应的游戏时间。

5.如权利要求4所述的基于人工智能的视频处理方法，其特征在于，所述游戏记录数据包括多个游戏指令帧，所述游戏指令帧的帧率为第一帧率，所述方法还包括：

对所述视频帧进行处理使其帧率与所述第一帧率相同。

6.如权利要求1所述的基于人工智能的视频处理方法，其特征在于，所述方法还包括：

获取第三方解说视频；

从所述第三方解说视频中提取第三方解说词；

从所述第三方解说词中提取出对应的第三方解说策略及游戏特征；以及

采用所述第三方解说策略及游戏特征训练及更新所述解说策略模型。

7.如权利要求1所述的基于人工智能的视频处理方法，其特征在于，所述方法还包括：

获取所述解说视频播放时用户输入的弹幕信息；

从所述弹幕信息中提取用户兴趣特征；以及

根据所述用户兴趣特征训练及更新所述解说策略模型。

8.一种基于人工智能的视频处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取游戏记录数据及对应的游戏视频；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。