CN114449295A

CN114449295A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114449295A
Application number: CN202210113746.8A
Authority: CN
Inventors: 高艳
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-06

Abstract

本申请实施例提供了一种视频处理方法、装置、电子设备及存储介质。该视频处理方法，包括：采用ffmpeg框架对待处理视频进行解码处理，得到解码数据；通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据；对处理数据进行编码处理，得到待播放视频。本申请实施例在ffmpeg框架的基础上加入人工智能处理模型，避免了直接采用人工智能框架带来的需要复杂且耗算力的问题，使得视频处理过程简单化且提高了视频处理效率，适用于直播场景，尤其适用于超高清画质增强服务的场景。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理的技术领域，具体而言，本申请涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

现在小视频属于火热行业，实际应用中，直播场景一般要求低延时和流畅度，这其中需要视频编解码技术。传统图像处理算法或低成本的AI(Artificial Intelligence，人工智能)技术和流媒体服务技术，在超高清画质增强服务的场景下，需要复杂且耗算力的AI框架，需要深度模型部署和加速技术，而且视频处理过程复杂且效率较低。因此，需要一种新的视频处理方法。

发明内容

本申请针对现有方式的缺点，提出一种视频处理方法、装置、电子设备及存储介质，用以解决现有技术存在视频处理过程复杂或效率较低的技术问题。

第一方面，本申请实施例提供一种视频处理方法，包括：

采用ffmpeg框架对待处理视频进行解码处理，得到解码数据；

通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据；

对处理数据进行编码处理，得到待播放视频。

在一个可能的实现方式中，采用ffmpeg框架对待处理视频进行解码处理，得到解码数据，包括：

采用ffmpeg框架的应用程序接口对待处理视频进行解封装，并解码出每一帧数据，形成解码数据；待处理视频包括视频文件或媒体流数据。

在一个可能的实现方式中，后置滤波处理，包括以下至少一项：

压缩修复处理、超分辨率处理、插帧处理、高动态范围处理、降噪处理、色彩增强处理。

在一个可能的实现方式中，通过至少一个人工智能处理模型对解码数据进行后置滤波处理，包括：

调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理；其中，

人工智能框架包括以下至少一项：

TensorFlow、PyTorch、TensorRT、OpenVINO、MNN、rknn。

在一个可能的实现方式中，通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据，包括：

采用ffmpeg框架中预设的调用插件，调用各人工智能处理模型对解码数据进行后置滤波处理。

确定选用的人工智能处理模型、输入节点、输出节点和对应的图像处理资源；

调用图像处理资源，将解码数据输入选用的人工智能处理模型的输入节点，由选用的工智能处理模型对解码数据进行后置滤波处理，从输出节点输出数据。

在一个可能的实现方式中，调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理，包括：

调用一个人工智能框架下的至少两个人工智能处理模型的文件，对解码数据依次级联进行后置滤波处理。

调用人工智能框架的TensorFlow的至少一种人工智能处理模型的文件，对解码数据进行第一后置滤波处理，得到第一后置滤波数据；

调用人工智能框架的TensorRT的至少一种人工智能处理模型的文件，对第一后置滤波数据进行第二后置滤波处理，得到第二后置滤波数据；

调用至少一个人工智能框架的至少一种人工智能处理模型的文件对第二后置滤波数据进行超分辨率处理，得到处理数据。

在一个可能的实现方式中，对处理数据进行编码处理，得到待播放视频，包括：

获取编码参数信息，采用ffmpeg框架基于编码参数信息对处理数据进行编码处理，得到待播放视频；编码参数信息包括视频码率信息、编码器信息。

第二方面，本申请实施例提供一种视频处理装置，包括：

解码模块，用于采用ffmpeg框架对待处理视频进行解码处理，得到解码数据；

处理模块，用于通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据；

编码模块，用于对处理数据进行编码处理，得到待播放视频。

第三方面，本申请实施例提供一种电子设备，包括：

处理器；

存储器，与处理器通信连接；

至少一个程序，被存储在存储器中并被配置为由处理器执行，至少一个程序被配置用于：实现如第一方面的视频处理方法。

第四方面，本申请实施例提供一种非瞬态计算机可读存储介质，其上存储有计算机程序，该计算机程序被电子设备执行时实现第一方面的视频处理方法。

本申请实施例提供的技术方案带来的有益技术效果包括：

本申请实施例是将至少一个人工智能处理模型作为ffmpeg框架的后置滤波的方式，可以快速便捷地对待处理视频进行处理，得到待播放视频。本申请实施例是在ffmpeg框架的基础上加入人工智能处理模型，避免了直接采用人工智能框架带来的需要复杂且耗算力的问题，使得视频处理过程简单化且提高了视频处理效率，适用于直播场景，尤其适用于超高清画质增强服务的场景。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种视频处理方法的流程图；

图2为本申请实施例提供的另一种视频处理方法的流程图；

图3为本申请实施例提供的通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据的流程图；

图4为本申请实施例提供的调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理的流程图；

图5为本申请实施例提供的将人工智能框架的至少两个处理模型作为ffmpeg框架的后置滤波处理形成的视频处理架构的示意图。

图6为本申请实施例提供的一种视频处理方法的算法流程的框架示意图。

图7为本申请实施例提供的一种视频处理装置的框架示意图。

图8为本申请实施例提供的一种电子设备的结构的框架示意图。

具体实施方式

下面详细描述本申请，本申请的实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外，如果已知技术的详细描述对于示出的本申请的特征是不必要的，则将其省略。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

首先对本申请涉及的几个名词进行介绍和解释：

ffmpeg框架：Fast Forward Mpeg，ffmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多编码code都是从头开发的。ffmpeg视频采集功能非常强大，不仅可以采集视频采集卡或USB(Universal Serial Bus，通用串行总线)摄像头的图像，还可以进行屏幕录制，同时还支持以RTP方式将视频流传送给支持RTSP的流媒体服务器，支持直播应用。

AI：人工智能，Artificial Intelligence，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。基于AI算法，具有图像处理等功能，可以用于音视频处理。

TensorFlow：是一个基于数据流编程(dataflow programming)的符号数学***，被广泛应用于各类机器学习(machine learning)算法的编程实现。Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于产品开发和各领域的科学研究。

PyTorch：专门针对GPU加速的深度神经网络(DNN)编程，是一个经典的对多维矩阵数据进行操作的张量(tensor)库，可以内置的神经网络库，提供模型训练功能，在机器学习和其他数学密集型应用有广泛应用。

TensorRT：是第一款可编程推理加速器，能加速现有和未来的网络架构，需要CUDA的支持。TensorRT包含一个为优化生产环境中部署的深度学习模型而创建的库，可获取经过训练的神经网络(通常使用32位或16位数据)，并针对降低精度的INT8运算来优化这些网络。

OpenVINO：是一个Pipeline工具集，同时可以兼容各种开源框架训练好的模型，拥有算法模型上线部署的各种能力，提供了深度学习推理套件(DLDT)，该套件可以将各种开源框架训练好的模型进行线上部署，除此之外，还包含了图片处理工具包OpenCV，视频处理工具包Media SDK，用于处理图像视频解码，前处理和推理结果后处理等。

Libavfilter：是FFmpeg提供的滤波器类，可以用其做一些音视频处理，如音视频倍速、水平翻转、裁剪、加方框、叠加文字等功能，可以进行音频重采样，视频的像素格式转换，这些滤波处理，所以libavfilter也可以实现libswresample、libswscale提供的对音视频格式变换的功能。

DNN interface：是深度学习的插件，可以作为AI的后置滤波，也可以作为ffmpeg框架自身的滤波插件。

OpenCV：是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，提供的视觉处理算法非常丰富，并且它部分以C语言编写，加上其开源的特性，处理得当，不需要添加新的外部支持也可以完整的编译链接生成执行程序。

Nvidia codec：用于视频编解码，可以支持各种格式的视频编解码及格式转换，解码使用NVDEC芯片，编码使用NVENC芯片。

Cpu codec：用于视频编解码，可以对AD(数模)变换后的音视频数字信号的传输进行编码、压缩，在接收端对信号解码。

GPU：Graphics Processing Unit，图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。

NVIDIA GPU：是指英伟达公司设计的GPU，包括独立的GPU芯片，以及集成在芯片组等芯片中的GPU单元等。

Intel GPU：是英特尔公司设计的GPU，包括集成在CPU等芯片中的GPU(俗称核显)单元，以及独立的GPU芯片等。

CPU：Central Processing Unit,中央处理器,程序是由指令构成的序列，执行程序就是按指令序列逐条执行指令,由CPU自动地完成从主存取指令和执行指令的任务

NPU：network process units，网络处理单元，可以采用“数据驱动并行计算”的架构，应用于处理视频、图像类的海量多媒体数据。

H.264：是一种视频编码标准，各主要部分有Access Unit delimiter(访问单元分割符)，SEI(附加增强信息)，primary coded picture(基本图像编码等，H.264的码流结构网络适应性强，增加了差错恢复能力，能够很好地适应IP和无线网络的应用。

H.265：是一种视频编码标准，围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进，用以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。

AAC：Advanced Audio Coding，高级音频编码，是一种专为声音数据设计的文件压缩格式，基于MPEG-2的音频编码技术。

AVS：Audio Video coding Standard，音视频编码标准，包括***、视频、音频、数字版权管理等四个主要技术标准和符合性测试等支撑标准。

MPEG-4：Moving Pictures Experts Group，动态图象专家组，利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图像质量。是针对一定比特率下的视频、音频编码，更加注重多媒体***的交互性和灵活性。

MPEG-2：Moving Picture Experts Group，活动图像专家组，与MPEG-1标准相比，MPEG-2标准具有更高的图像质量、更多的图像格式和传输码率的图像压缩标准。

MP3：Moving Picture Experts Group Audio Layer-3，是一种音频编码方式。

MP4：Moving Picture Experts Group Audio Layer-4，是一种音频编码方式。

WMA：Windows Media Audio，是微软公司推出的与MP3格式齐名的一种新的音频格式，一般使用Windows Media Audio编码格式的文件以WMA作为扩展名，一些使用WindowsMedia Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。

WMA-HD：一种音频格式。

OGG：OGGVobis(oggVorbis)是一种新的音频压缩格式，类似于MP3等的音乐格式。

APE：是流行的数字音乐无损压缩格式之一，是一种无损压缩音频格式，通过Monkey's Audio这个软件可以将庞大的WAV音频文件压缩为APE

WAV：WAV为微软公司(Microsoft)开发的一种声音文件格式，数据本身的格式为PCM或压缩型，属于无损音乐格式的一种。

MOV：QuickTime封装格式(也叫影片格式)，它是Apple公司开发的一种音频、视频文件封装，用于存储常用数字媒体类型。

MKV：是一种多媒体封装格式，能够在一个文件中容纳无限数量的视频、音频、图片或字幕轨道

FLV：FLASH VIDEO的简称，FLV流媒体格式是随着Flash MX的推出发展而来的视频格式。

AVI：Audio Video Interleaved，即音频视频交错格式。是将语音和影像同步组合在一起的文件格式。

WebM：以Matroska(即MKV)容器格式为基础开发的新容器格式，里面包括了VP8视频和Ogg Vorbis音轨。

RMVB：是一种视频文件格式，VB指VBR,Variable Bit Rate(可改变之比特率)，可以用多种播放软件来播放。

TS：一种视频文件格式。

RTSP：Real Time Streaming Protocol，RFC2326，实时流传输协议，是TCP/IP协议体系中的一个应用层协议。

RTMP：是Real Time Messaging Protocol，实时消息传输协议，该协议基于TCP，是一个协议族，包括RTMP基本协议及RTMPT/RTMPS/RTMPE等多种变种，用来进行实时数据通信的网络协议。

RTP：一种流媒体协议。

HTTP：HyperText Transfer Protocol，超文本传输协议，是浏览网页、看在线视频、听在线音乐等必须遵循的规则。

Webrtc：Web Real-Time Communication，网页实时通信，可以支持网页浏览器进行实时语音对话或视频对话的技术。

UDP：User Datagram Protocol，用户数据报协议，在网络中它与TCP协议一样用于处理数据包，是一种无连接的协议。

经研究发现，ffmpeg是强大的音视频编解码服务框架，同时已经集成了非常多的传统算法。因此，如果将TensorRT和PyTorch等AI框架以avfilter的形式添加到ffmpeg的后置滤波中，便可以令使用者既能使用ffmpeg的现有功能，又能使用神经网络推理功能，高便捷的满足以上需求。

本申请提供的一种视频处理方法、装置、电子设备及存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。

本申请实施例提供一种视频处理方法，参见图1所示，本申请实施例的视频处理方法包括：步骤S101至步骤S103。

S101、采用ffmpeg框架对待处理视频进行解码处理，得到解码数据。

可选地，ffmpeg框架是一款开源的多媒体框架，能够解码、编码、转码、流媒体和播放等视频服务功能。ffmpeg框架在音视频服务行业应用非常广泛，业内很多企业都将ffmpeg作为编解码的基础框架，进行自定义的开发。

可选地，待处理视频可以为音频和视频。

可选地，本申请实施例采用的ffmpeg框架是一种强大的音视频编解码服务框架，已经集成了非常多的传统算法。

在一些实施例中，采用ffmpeg框架对待处理视频进行解码处理，得到解码数据，包括：

可选地，ffmpeg框架提供应用程序接口api可以直接对视频文件或流媒体协议进行解封装，进而解码出每一帧数据进行处理，便于AI框架根据每帧数据进行处理。

S102、通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据。

在一些实施例中，后置滤波处理，包括以下至少一项：

在一些实施例中，通过至少一个人工智能处理模型对解码数据进行后置滤波处理，包括：

调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理。

可选地，人工智能框架包括以下至少一项：

TensorFlow、PyTorch、TensorRT、OpenVINO、MNN、rknn。

可选地，每个人工智能框架均可以实现压缩修复处理、超分辨率处理、插帧处理、高动态范围处理、降噪处理或色彩增强处理等其他后置滤波的图像处理功能。

可选地，各个人工智能框架作为ffmpeg的后置滤波，编译成为ffmpeg的一个过滤器filter插件。

在一些实施例中，调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理，包括：

可选地，在后的人工智能处理模型基于前一个人工智能处理模型输出的数据，继续进行对应后置滤波处理再输出数据给下一个人工智能处理模型，直到最后一个人工智能处理模型输出数据，作为处理数据。

可选地，调用人工智能框架下的至少一种人工智能处理模型的文件，可以是调用同一个人工智能框架下的至少两个人工智能处理模型的文件，也可以是不同人工智能框架下的不同的工智能处理模型的文件。

可选地，不同的人工智能框架也是依次级联进行后置滤波处理。在后的人工智能框架基于前一个人工智能框架输出的数据，继续进行对应后置滤波处理再输出数据给下一个人工智能框架，直到最后一个人工智能框架输出数据，作为处理数据。同一个人工智能框架内，调用至少两个人工智能处理模型的文件进行后置滤波处理的，各人工智能处理模型之间也是依次级联进行后置滤波处理。

可选地，本申请实施例也可以采用人工智能框架对解码数据进行处理，一个人工智能框架可以实现多种预设的后置滤波处理。

S103、对处理数据进行编码处理，得到待播放视频。

在一些实施例中，对处理数据进行编码处理，得到待播放视频，包括：

可选地，编码参数信息还可以根据具体需求增加更多的编解码参数。

可选地，ffmpeg框架提供应用程序接口api(Application Program Interface)可以直接对视频文件或流媒体协议进行解封装，进而解码出每一帧数据进行处理，便于AI框架的处理模型根据每帧数据进行后置滤波处理后再经由ffmpeg提供的api，编码为视频流，封装为各种格式的视频文件或者媒体流数据，作为待播放数据输出，根据获取的输出路径输出。

本申请实施例是将AI框架的至少一个人工智能处理模型作为ffmpeg框架的后置滤波的方式，可以快速便捷地对待处理视频进行处理，得到待播放视频。本申请实施例是在ffmpeg框架的基础上加入AI框架的人工智能处理模型，避免了直接采用AI框架带来的需要复杂且耗算力的问题，使得视频处理过程简单化且提高了视频处理效率，适用于直播场景，尤其适用于超高清画质增强服务的场景。

本申请实施例将AI框架的人工智能处理模型与视频编解码和流媒体服务进行融合，可以应用在AI平台、超高清解决方案等既需要编解码技术又需AI处理的领域内。

可选地，参见图2所示，本申请实施例提供一种视频处理方法，包括：步骤S201至步骤S203。

S201、采用ffmpeg框架的应用程序接口对待处理视频进行解封装，并解码出每一帧数据，形成解码数据；待处理视频包括视频文件或媒体流数据。

可选地，参见图5所示，视频文件包括MP4、MOV、MKV、FLV、AVI、WebM、RMVB或TS等文件格式的视频文件，媒体流数据包括RTSP、RTMP、RTP、HTTP、webrtc或UDP等协议的媒体流数据，不限于图5所列举的文件格式或协议，其他视频文件或媒体流数据也可以适用。

S202、采用ffmpeg框架中预设的调用插件，调用各人工智能框架对解码数据依次级联进行后置滤波处理，得到处理数据。

可选地，调用各人工智能框架对解码数据依次级联进行后置滤波处理，得到处理数据，包括：

调用一个人工智能框架下的至少两个人工智能处理模型的文件，对所述解码数据依次级联进行后置滤波处理。

可选地，也可以调用至少两个人工智能框架，调用每个人工智能框架下的至少两个人工智能处理模型的文件。

可选地，每个人工智能处理模型可以实现一种后置滤波处理的效果，一个人工智能框架可以实现多种后置滤波处理的功能。

可选地，不同的人工智能框架对解码数据也是依次级联进行后置滤波处理。同一个人工智能框架内，调用至少两个人工智能处理模型的文件进行后置滤波处理的，各人工智能处理模型之间也是依次级联进行后置滤波处理。

可选地，结合图6所示，作为一种示例，ffmpeg框架中的DNN interface作为本申请实施例的调用插件，是针对AI框架研发设计，可以支持AI框架的TensorFlow、PyTorch、TensorRT和OpenVINO等，在单帧输入单帧输出的情况下可以很方便的调用各种人工智能框架下的人工智能处理模型，Intel也提供了基于Intel GPU的，支持该模块的插件。

可选地，在后的人工智能处理模型基于前一个人工智能处理模型输出的数据，继续进行对应后置滤波处理再输出数据给下一个人工智能处理模型，直到最后输出需要的处理数据，一个人工智能框架的两个人工智能处理模型的文件可以实现至少两个的后置滤波处理的功能。

S203、获取编码参数信息，采用ffmpeg框架基于编码参数信息对处理数据进行编码处理，得到待播放视频；编码参数信息包括视频码率信息、编码器信息。

可选地，参见图5所示，视频文件和/或媒体流数据输入ffmpeg框架进行解码处理，经过后置滤波处理后得到的处理数据，再进行编码后以与解码数据对应的格式的视频文件和/或协议的媒体流数据输出。

可选地，参见图5所示，作为一种示例，ffmpeg框架包括音视频解码和音视频编码，同时将AI interface的各后置滤波处理功能和人工智能处理模型加入ffmpeg框架，作为ffmpeg框架的后置滤波。视频编解码格式包括：H.264、H.265、AVS、MPEG-4、MPEG-2、WMA-HD等。音频编解码格式包括：MP3、WMA、AAC、OGG、APE、WAV等。

可选地，参见图5所示，作为一种示例，根据不同的后置滤波处理可以实现：压缩修复、超分辨率、FRC、HDR等功能。任何一种后置滤波处理可以采用人工智能框架的TensorFlow、PyTorch、TensorRT、OpenVINO、MNN、rknn中的任一种模型。

可选地，参见图5所示，作为一种示例，ffmpeg框架中的各人工智能处理模型需要调用对应的硬件加速引擎，硬件加速引擎包括GPU、CPU和NPU，GPU、CPU和NPU的调用基于与各人工智能处理模型预设的对应关系调用。

可选地，参见图5所示，本申请实施例是将音视频编解码，流媒体服务和AI框架结合的方法，将AI框架以avfilter的形式添加到ffmpeg的后置滤波中，便可以令使用者既能使用ffmpeg的现有功能，又能使用神经网络推理功能，高便捷的满足视频处理的需求，可在各种硬件平台上进行部署。

可选地，参见图3所示，本申请实施例提供一种步骤S102中的，通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据，包括：步骤S301至步骤S302。

S301、确定选用的人工智能处理模型、输入节点、输出节点和对应的图像处理资源。

S302、调用图像处理资源，将解码数据输入选用的人工智能处理模型的输入节点，由选用的人工智能处理模型对解码数据进行后置滤波处理，从输出节点输出数据。

可选地，通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据，包括：

确定选用的人工智能框架；

调用选用的人工智能框架下的至少两个人工智能处理模型的文件，对所述解码数据依次级联进行后置滤波处理。

可选地，每个选用的人工智能处理模型均按照步骤S301至S302的方法进行数据处理，在后的人工智能处理模型基于前一个人工智能处理模型的输出节点的输出数据，继续进行对应后置滤波处理再输出数据给下一个人工智能处理模型处理，直到最后一个选用的人工智能处理模型的输出节点的输出数据，作为处理数据。

在一些实施例中，参见图4所示，调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理，包括：步骤S401至步骤S403。

S401、调用人工智能框架的TensorFlow的至少一种人工智能处理模型的文件，对解码数据进行第一后置滤波处理，得到第一后置滤波数据。

可选地，本申请实施例的视频处理方法的落地方式包括底层的算法库、第三方库和打包整体镜像，调用方式：命令行驱动、API集成。

可选地，采用TensorFlow进行第一后置滤波处理，得到第一后置滤波数据的方法，可以采用步骤S301至步骤S302的方法。

可选地，在命令行驱动中，可以采用-vf后输入选用的人工智能框架的人工智能处理模型，format后所跟的为解码后的像素格式，可根据人工智能框架的所要求的进行选取对应的配置参数，如RGB24/BGR24/YUV等，命令行驱动中采用dnn_processing＝model＝AI1.pb表示为人工智能处理模型的文件所在的目录位置，input和output所输入为人工智能处理模型的输入节点名字和输出节点名字，dnn_backend赋值为tensorflow表示调用ffmpeg的dnn_interface里的TensorFlow模式，这里将调度nvidia GPU资源。

S402、调用人工智能框架的TensorRT的至少一种人工智能处理模型的文件，对第一后置滤波数进行第二后置滤波处理，得到第二后置滤波数据。

可选地，采用TensorRT进行第二后置滤波处理，得到第二后置滤波数据的方法，可以采用步骤S301至步骤S302的方法。

可选地，在命令行驱动中，第二个-vf，后面所设置的参数和第一个-vf所设置的参数含义基本一致，除了最后的dnn_backend赋值为TensorRT，代表将调用本专利自定义的后置滤波层TensorRT，这里将调度nvidia GPU资源，并用TensorRT加速技术进行加速。

S403调用至少一个人工智能框架的至少一种人工智能处理模型的文件对第二后置滤波数据进行超分辨率处理，得到处理数据。

可选地，在命令行驱动中，第三-vf scale代表ffmpeg官方内置的其他后置滤波层，例如：设置scale＝720:576的分辨率调整，可与步骤402中的-vf进行级联。本申请实施例的三个-vf代表三个后置滤波，可以根据需求调整顺序，或者增加vf的数量，ffmpeg框架提供了自适应算法进行适配。

可选地，可以在命令行驱动中，写入其他设置信息，例如：-b:v代码码率设置，-c:v后跟不同的编码器，-f后跟输出视频文件路径。

可选地，参见图6所示，本申请实施例提供了一种视频处理方法的算法流程的框架。视频流Video audio streams传过来后，经H.265/H.264/AAC的解码标准解码，再输出到Libavcodec，Libavcodec采用Nvidia codec或Cpu codec的方式进行解码，再经由ffmpeg框架的libavfilter进行解码，libavfilter集成了各种主流的音视频解码器如H.265/H.264/AAC，解码后的后处理主要由libavfilter完成，libavfilter已经集成了opencv的相关功能，可以采用opencv中的以及其他图像处理算法如模糊、增强、logo检测等，DNN interface可以支持TensorFlow、PyTorch、TensorRT和OpenVINO，在单帧输入单帧输出的情况下可以很方便的调用各种人工智能处理模型。DNN interface也可以作为ffmpeg框架自身的滤波功能模块进行滤波处理。如图6所示，虚线框为ffmpeg框架的结构，在ffmpeg框架的结构的基础上加入人工智能框架，可以形成新的ffmpeg框架。

可选地，参见图6所示，TensorFlow、PyTorch和TensorRT调用NVIDIA GPU，OpenVINO调用Intel GPU。

可选地，参见图6所示，TensorRT可以作为libavfilter的其中一个模块，可以针对一些高成本高复杂度的模型，利用TensorRT的并行加速能力，提高对GPU的使用，而且定制化的开发可以满足内部的一些定制化需求，比如视频增强的实时处理，以及多帧输入多帧输出等情况。

基于同一发明构思，本申请实施例提供一种视频处理装置，参见图7所示，该视频处理装置700包括：解码模块710、处理模块720和编码模块730。

解码模块710用于采用ffmpeg框架对待处理视频进行解码处理，得到解码数据。

处理模块720用于通过至少一个人工智能处理模型对解码数据进行后置滤波处理，得到处理数据。

编码模块730用于对处理数据进行编码处理，得到待播放视频。

可选地，解码模块710用于采用ffmpeg框架的应用程序接口对待处理视频进行解封装，并解码出每一帧数据，形成解码数据；待处理视频包括视频文件或媒体流数据。

可选地，处理模块720用于采用ffmpeg框架中预设的调用插件，调用各人工智能处理模型对解码数据进行后置滤波处理。

可选地，处理模块720用于调用人工智能框架下的至少一种人工智能处理模型的文件，对解码数据进行后置滤波处理。

可选地，处理模块720用于确定选用的人工智能处理模型、输入节点、输出节点和对应的图像处理资源；

可选地，处理模块720用于调用一个人工智能框架下的至少两个人工智能处理模型的文件，对解码数据依次级联进行后置滤波处理。

可选地，处理模块720用于调用人工智能框架的TensorFlow的至少一种人工智能处理模型的文件，对解码数据进行第一后置滤波处理，得到第一后置滤波数据；调用人工智能框架的TensorRT的至少一种人工智能处理模型的文件，对第一后置滤波数据进行第二后置滤波处理，得到第二后置滤波数据；调用至少一个人工智能框架的至少一种人工智能处理模型的文件对第二后置滤波数据进行超分辨率处理，得到处理数据

可选地，编码模块730用于获取编码参数信息，采用ffmpeg框架基于编码参数信息对处理数据进行编码处理，得到待播放视频；编码参数信息包括视频码率信息、编码器信息。

基于同一发明构思，本申请实施例提供一种电子设备，包括：

处理器；

存储器，与处理器通信连接；

至少一个程序，被存储在存储器中并被配置为由处理器执行，至少一个程序被配置用于：实现本申请任一实施例的视频处理方法。

本申请在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相通信连接，如通过总线2002相连。

处理器2001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM(Read-Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(random access memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead-Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选地，电子设备2000还可以包括收发器2004。收发器2004可用于信号的接收和发送。收发器2004可以允许电子设备2000与其他设备进行无线或有线通信以交换数据。需要说明的是，实际应用中收发器2004不限于一个。

可选地，电子设备2000还可以包括输入单元2005。输入单元2005可用于接收输入的数字、字符、图像和/或声音信息，或者产生与电子设备2000的用户设置以及功能控制有关的键信号输入。输入单元2005可以包括但不限于触摸屏、物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、拍摄装置、拾音器等中的一种或多种。

可选地，电子设备2000还可以包括输出单元2006。输出单元2006可用于输出或展示经过处理器2001处理的信息。输出单元2006可以包括但不限于显示装置、扬声器、振动装置等中的一种或多种。

虽然图8示出了具有各种装置的电子设备2000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

可选的，存储器2003用于存储执行本申请方案的应用程序代码，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码，以实现本申请实施例提供的任一种视频处理方法。

基于同一发明构思，本申请实施例提供一种非瞬态计算机可读存储介质，其上存储有计算机程序，该计算机程序被电子设备执行时实现如本申请任一实施例的视频处理方法。

本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本说明书的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

采用ffmpeg框架对待处理视频进行解码处理，得到解码数据；

通过至少一个人工智能处理模型对所述解码数据进行后置滤波处理，得到处理数据；

对所述处理数据进行编码处理，得到待播放视频。

2.根据权利要求1所述的视频处理方法，其特征在于，所述采用ffmpeg框架对待处理视频进行解码处理，得到解码数据，包括：

采用ffmpeg框架的应用程序接口对待处理视频进行解封装，并解码出每一帧数据，形成解码数据；所述待处理视频包括视频文件或媒体流数据。

3.根据权利要求1所述的视频处理方法，其特征在于，所述后置滤波处理，包括以下至少一项：

4.根据权利要求1所述的视频处理方法，其特征在于，所述通过至少一个人工智能处理模型对所述解码数据进行后置滤波处理，包括：

调用人工智能框架下的至少一种人工智能处理模型的文件，对所述解码数据进行后置滤波处理；其中，

所述人工智能框架包括以下至少一项：

TensorFlow、PyTorch、TensorRT、OpenVINO、MNN、rknn。

5.根据权利要求1所述的视频处理方法，其特征在于，所述通过至少一个人工智能处理模型对所述解码数据进行后置滤波处理，包括：

采用所述ffmpeg框架中预设的调用插件，调用各所述人工智能处理模型对所述解码数据进行后置滤波处理。

6.根据权利要求1所述的视频处理方法，其特征在于，所述通过至少一个人工智能处理模型对所述解码数据进行后置滤波处理，得到处理数据，包括：

调用所述图像处理资源，将所述解码数据输入所述选用的人工智能处理模型的输入节点，由所述选用的人工智能处理模型对所述解码数据进行后置滤波处理，从所述输出节点输出数据。

7.根据权利要求4所述的视频处理方法，其特征在于，所述调用人工智能框架下的至少一种人工智能处理模型的文件，对所述解码数据进行后置滤波处理，包括：

8.根据权利要求4所述的视频处理方法，其特征在于，所述调用人工智能框架下的至少一种人工智能处理模型的文件，对所述解码数据进行后置滤波处理，包括：

调用人工智能框架的TensorFlow的至少一种人工智能处理模型的文件，对所述解码数据进行第一后置滤波处理，得到第一后置滤波数据；

调用人工智能框架的TensorRT的至少一种人工智能处理模型的文件，对所述第一后置滤波数据进行第二后置滤波处理，得到第二后置滤波数据；

调用至少一个人工智能框架的至少一种人工智能处理模型的文件对所述第二后置滤波数据进行超分辨率处理，得到所述处理数据。

9.根据权利要求1所述的视频处理方法，其特征在于，对所述处理数据进行编码处理，得到待播放视频，包括：

获取编码参数信息，采用ffmpeg框架基于所述编码参数信息对所述处理数据进行编码处理，得到待播放视频；所述编码参数信息包括视频码率信息、编码器信息。

10.一种视频处理装置，其特征在于，包括：

处理模块，用于通过至少一个人工智能处理模型对所述解码数据进行后置滤波处理，得到处理数据；

编码模块，用于对所述处理数据进行编码处理，得到待播放视频。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，与所述处理器通信连接；

至少一个程序，被存储在所述存储器中并被配置为由所述处理器执行，所述至少一个程序被配置用于：实现如权利要求1-9中任一项所述的视频处理方法。

12.一种非瞬态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被电子设备执行时实现如权利要求1-9中任一项所述的视频处理方法。