CN113011254A

CN113011254A - 一种视频数据处理方法、计算机设备及可读存储介质

Info

Publication number: CN113011254A
Application number: CN202110159590.2A
Authority: CN
Inventors: 尚焱; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-22
Anticipated expiration: 2041-02-04
Also published as: CN113011254B

Abstract

本申请实施例公开了一种视频数据处理方法、计算机设备及可读存储介质，涉及区块链技术及人工智能中视频处理技术，其中，方法包括：从视频数据中获取关键帧图像；基于字符检测模型识别关键帧图像的关键图像特征，对关键图像特征进行字符区域特征匹配，确定关键帧图像中的字符区域；基于图像识别模型对字符区域进行特征提取，根据提取的特征从字符区域中识别关键帧图像的字符数据，将字符数据与字符数据库进行匹配，得到字符区域的字符检测结果；若字符检测结果为字符数据与字符数据库匹配的结果，则获取与字符数据匹配的目标字符串，将目标字符串的数据类别确定为视频数据的视频类别。采用本申请实施例，可以提高数据检测的效率及准确性。

Description

一种视频数据处理方法、计算机设备及可读存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频数据处理方法、计算机设备及可读存储介质。

背景技术

用户可以录制视频数据并将视频数据上传至社交平台，以便于其他用户查看互动。一些社交平台为保护原创用户的版权，通过在用户上传的视频数据中添加水印，以避免非法用户恶意盗取他人原创视频进行上传。因此，通过对用户上传的视频数据进行检测，从而确定视频数据中是否包括水印，以此判断上传该视频数据是否侵犯他人版权是亟待解决的问题。

现有视频数据检测的方法一般是只针对视频数据中的特定位置，例如左上角、左下角、右上角以及右下角位置进行检测确定视频数据中是否包含水印，由于该种方式只针对视频数据的特定位置进行了检测，导致数据检测的准确性较低。

发明内容

本申请实施例提供一种视频数据处理方法、计算机设备及可读存储介质，可以提高数据检测的准确性及效率。

本申请实施例一方面提供一种视频数据处理方法，包括：

从组成视频数据的至少两个视频帧图像中获取关键帧图像；

基于字符检测模型识别该关键帧图像的关键图像特征，对该关键图像特征进行字符区域特征匹配，确定该关键帧图像中的字符区域；

基于图像识别模型对该字符区域进行特征提取，根据提取到的特征从该字符区域中识别该关键帧图像的字符数据，将该关键帧图像的字符数据与字符数据库进行字符匹配，得到该关键帧图像中的字符区域的字符检测结果；

若该字符检测结果为该字符数据与该字符数据库匹配的结果，则从该字符数据库中获取与该字符数据匹配的目标字符串，将该目标字符串对应的数据类别确定为该视频数据所属的视频类别。

本申请实施例另一方面提供一种视频数据处理方法，包括：

从组成样本视频数据的至少两个样本视频帧图像中获取样本关键帧图像，获取该样本关键帧图像中的样本区域标签；

基于初始字符检测模型识别该样本关键帧图像的样本关键图像特征，对该样本关键图像特征进行字符区域特征匹配，确定该样本关键帧图像中的样本字符区域；

基于该样本字符区域与该样本区域标签生成第一损失函数，基于该第一损失函数对该初始字符检测模型进行训练，生成字符检测模型。

本申请实施例一方面提供一种视频数据处理装置，包括：

图像获取模块，用于从组成视频数据的至少两个视频帧图像中获取关键帧图像；

字符识别模块，用于基于字符检测模型识别该关键帧图像的关键图像特征，对该关键图像特征进行字符区域特征匹配，确定该关键帧图像中的字符区域；

字符匹配模块，用于基于图像识别模型对该字符区域进行特征提取，根据提取到的特征从该字符区域中识别该关键帧图像的字符数据，将该关键帧图像的字符数据与字符数据库进行字符匹配，得到该关键帧图像中的字符区域的字符检测结果；

类别确定模块，用于若该字符检测结果为该字符数据与该字符数据库匹配的结果，则从该字符数据库中获取与该字符数据匹配的目标字符串，将该目标字符串对应的数据类别确定为该视频数据所属的视频类别。

可选的，该图像获取模块，包括：

图像匹配单元，用于将该至少两个视频帧图像中的第i个视频帧图像与第(i+1)个视频帧图像进行图像特征匹配，得到该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度；i为正整数；

第一图像确定单元，用于若该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度小于该视频相似阈值，则将该第(i+1)个视频帧图像确定为该视频数据的关键帧图像，将该第(i+1)个视频帧图像与第(i+2)个视频帧图像进行图像特征匹配，得到该第(i+1)个视频帧图像与该第(i+2)个视频帧图像之间的相似度；

第二图像确定单元，用于若该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度大于或等于视频相似阈值，则将该第(i+1)个视频帧图像与该第(i+2)个视频帧图像进行图像特征匹配，得到该第(i+1)个视频帧图像与该第(i+2)个视频帧图像之间的相似度；直至该第(i+2)个视频帧图像为该至少两个视频帧图像的最后一个视频帧图像时，得到该视频数据的关键帧图像。

该字符识别模块，包括：

特征提取单元，用于基于该字符检测模型中的卷积层对该关键帧图像进行特征提取，得到该关键帧图像的关键图像特征；

特征拼接单元，用于对该关键图像特征进行特征拼接，得到该关键帧图像对应的拼接特征图像；该拼接特征图像中的像素点的像素值用于表示对应关键帧图像中的像素点为字符的概率；

图像确定单元，用于获取该拼接特征图像中每个像素值所属的概率范围，根据该每个像素值所属的概率范围生成概率图像及字符边框图像；

区域确定单元，用于对该概率图像及该字符边框图像进行特征融合，生成融合字符图像，基于该融合字符图像确定该关键帧图像中的字符区域。

该字符匹配模块，包括：

序列获取单元，用于基于该图像识别模型中的卷积层对该字符区域进行特征提取，得到该字符区域对应的卷积特征，对该字符区域对应的卷积特征进行序列化处理，得到该字符区域对应的特征序列；

循环处理单元，用于基于该图像识别模型中的循环层对该特征序列进行识别处理，确定该特征序列对应的序列字符特征；

特征转换单元，用于基于该图像识别模型中的转录层对该序列字符特征进行特征转换，得到该关键帧图像的字符数据。

可选的，该视频数据中关键帧图像的数量为N个；N为正整数；该字符匹配模块，包括：

字符组合单元，用于对该视频数据中的N个关键帧图像的字符数据进行组合，得到组合字符数据；

分词确定单元，用于对该组合字符数据进行分词处理，确定该视频数据对应的M个分词字符数据；M为正整数；

字符匹配单元，用于将该视频数据对应的M个分词字符数据分别与该字符数据库进行字符匹配，得到k个匹配字符串及该k个匹配字符串分别对应的匹配数量；该匹配数量用于表示该M个分词字符数据中与匹配字符串相匹配的字符数据的数量；k为正整数；

结果确定单元，用于若存在该匹配数量大于匹配阈值的匹配字符串，则确定该字符检测结果为该字符数据与该字符数据库匹配的结果；

字符确定单元，用于将该匹配数量大于匹配阈值的匹配字符串确定为与该字符数据匹配的目标字符串。

可选的，该装置还包括：

数据响应模块，用于响应用户终端针对该视频数据的上传请求；

数据提示模块，用于若该视频数据所属的视频类别属于标记视频类别，则向该用户终端发送数据上传异常提示；该数据上传异常提示包括视频数据所属的视频类别；

数据上传模块，用于若该视频数据所属的视频类别不属于该标记视频类别，则将该视频数据上传至应用程序中。

本申请实施例一方面提供另一种视频数据处理装置，包括：

区域标签获取模块，用于从组成样本视频数据的至少两个样本视频帧图像中获取样本关键帧图像，获取该样本关键帧图像中的样本区域标签；

样本区域确定模块，用于基于初始字符检测模型识别该样本关键帧图像的样本关键图像特征，对该样本关键图像特征进行字符区域特征匹配，确定该样本关键帧图像中的样本字符区域；

检测模型生成模块，用于基于该样本字符区域与该样本区域标签生成第一损失函数，基于该第一损失函数对该初始字符检测模型进行训练，生成字符检测模型。

可选的，该装置还包括：

字符标签获取模块，用于获取该样本关键帧图像中的样本字符标签；

样本字符获取模块，用于基于初始图像识别模型对该样本字符区域进行特征提取，根据提取到的样本特征从该样本字符区域中识别该样本关键帧图像的样本字符数据；

识别模型生成模块，用于基于该样本字符数据与该样本字符标签生成第二损失函数，基于该第二损失函数对该初始图像识别模型进行训练，生成图像识别模型。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述方法。

本申请实施例一方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。

本申请实施例中，从组成视频数据的至少两个视频帧图像中获取关键帧图像，由于关键帧图像可以是视频数据包含的至少两个视频帧图像中的代表性图像，因此通过从视频数据中获取关键帧图像进行识别处理，可以提高数据检测的效率。通过对关键帧图像中的图像特征进行识别确定关键帧图像中的字符区域，进而在识别字符区域中的字符数据时，只需要识别关键帧图像中的字符区域，无需对整个关键帧图像进行识别，可以提高数据识别效率。进一步的，由于对视频帧图像进行首次检测识别，确定关键帧图像中的字符区域，再对该字符区域进行识别，确定字符区域中的字符数据，相当于对关键帧图像进行了两次识别，进而可以提高数据检测的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频数据处理***的架构示意图；

图2是本申请实施例提供的一种视频数据处理方法的应用场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种基于字符检测模型确定关键帧图像中的字符区域的场景示意图；

图5是本申请实施例提供的一种基于图像识别模型确定关键帧图像的字符数据的场景示意图；

图6是本申请实施例提供的一种确定关键帧图像的方法流程示意图；

图7是本申请实施例提供的一种抽取关键帧序列的场景示意图；

图8是本申请实施例提供的另一种视频数据处理方法的流程示意图；

图9是本申请实施例提供的一种视频数据处理装置的组成结构示意图；

图10是本申请实施例提供的另一种视频数据处理装置的组成结构示意图；

图11是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

区块链是一种分布式数据存储、点对点传输(P2P传输)、共识机制、加密算法等计算机技术的新型应用模式，其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层；区块链可由多个借由密码学串接并保护内容的串连交易记录(又称区块)构成，用区块链所串接的分布式账本能让多方有效纪录交易，且可永久查验此交易(不可篡改)。其中，共识机制是指区块链网络中实现不同节点之间建立信任、获取权益的数学算法；也就是说，共识机制是区块链各网络节点共同认可的一种数学算法。

本申请涉及区块链技术以及人工智能中的视频处理技术，可以利用区块链技术将视频数据存储在区块链网络中，利用视频处理技术对视频数据进行图像检测，确定图像中的字符区域，对字符区域进行特征提取，确定图像的字符数据，进而基于识别得到的字符数据与字符数据库进行字符匹配，基于字符匹配结果确定视频数据所属的视频类别。本申请还可以利用区块链技术将字符数据库中的字符数据，以及视频数据所属的视频类别存储在区块链网络中，等等。通过对关键帧图像进行检测，确定关键帧图像中的字符区域，以及对关键帧图像中的字符区域进行识别，得到字符检测结果，从而确定视频数据所属的视频类别，可以提高数据检测的效率和准确性。

请参见图1，图1是本申请实施例提供的一种视频数据处理***的网络架构图，如图1所示，计算机设备101可以与用户终端进行数据交互，用户终端的数量可以为一个或者多个，例如，当用户终端的数量为多个时，用户终端可以包括图1中的用户终端102a、用户终端102b及用户终端102c等。其中，以用户终端102a为例，计算机设备101可以响应用户终端102a针对视频数据的上传请求，基于该上传请求从组成视频数据的至少两个视频帧图像中获取关键帧图像。进一步地，计算机设备101可以基于字符检测模型识别关键帧图像的关键图像特征，对关键图像特征进行字符区域特征匹配，确定关键帧图像中的字符区域；基于图像识别模型对字符区域进行特征提取，根据提取到的特征从字符区域中识别关键帧图像的字符数据，将关键帧图像的字符数据与字符数据库进行字符匹配，得到关键帧图像中的字符区域的字符检测结果。进一步地，若字符检测结果为字符数据与字符数据库匹配的结果，则计算机设备101可以从字符数据库中获取与字符数据匹配的目标字符串，将目标字符串对应的数据类别确定为视频数据所属的视频类别。

通过对关键帧图像中的图像特征进行识别确定关键帧图像中的字符区域，进而在识别字符区域中的字符数据时，只需要识别关键帧图像中的字符区域，无需对整个关键帧图像进行识别，可以提高数据识别效率。进一步的，由于对视频帧图像进行首次检测识别，确定关键帧图像中的字符区域，再对该字符区域进行识别，确定字符区域中的字符数据，相当于对关键帧图像进行了两次识别，进而可以提高数据检测的准确率。

可以理解的是，本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说，计算机设备或用户终端可以是服务器或终端设备，也可以是服务器和终端设备组成的***。其中，以上所提及的终端设备可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(AugmentedReality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)等。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

进一步地，请参见图2，图2是本申请实施例提供的一种视频数据处理方法的应用场景示意图。如图2所示，用户终端20发送针对视频数据的上传请求至计算机设备22，上传请求中携带视频数据，计算机设备22从组成该视频数据的至少两个视频帧图像中获取关键帧图像21，基于字符检测模型识别关键帧图像21的关键图像特征，对关键图像特征进行字符区域特征匹配，确定关键帧图像21中的字符区域23；计算机设备22再基于图像识别模型对字符区域23进行特征提取，根据提取到的特征从字符区域23中识别关键帧图像的字符数据24。例如，识别的关键帧图像的字符数据24为“腾讯视频”，则将字符数据“腾讯视频”与字符数据库进行字符匹配，得到关键帧图像21中的字符区域的字符检测结果。若字符检测结果为字符数据与字符数据库匹配的结果，则从字符数据库中获取与字符数据匹配的目标字符串，将目标字符串对应的数据类别确定为视频数据所属的视频类别。可选的，若该视频类别属于标记视频类别，则计算机设备22还可以向用户终端20发送数据上传异常提示，例如，数据上传异常提示可以包括“因上传视频包含腾讯视频标志，为避免风险禁止上传”，从而使得用户可以通过用户终端查看到该数据上传异常提示，从而进行相应的修改。

进一步地，请参见图3，图3是本申请实施例提供的一种视频数据处理方法的流程示意图；如图3所示，该方法包括：

S101，从组成视频数据的至少两个视频帧图像中获取关键帧图像。

本申请实施例中，计算机设备可以从本地数据库中获取视频数据；或者，也可以从其他存储介质中获取视频数据；或者，计算机设备还可以从用户终端中获取视频数据。计算机设备通过对获取到的视频数据进行拆分处理，得到至少两个视频帧图像，对至少两个视频帧图像进行抽帧处理，得到关键帧图像。以计算机设备从用户终端中获取视频数据为例，当用户通过用户终端发送针对视频数据的上传请求时，计算机设备基于该上传请求获取视频数据，若视频数据是由一个视频帧图像组成的数据，则将该视频帧图像确定为关键帧图像。若视频数据是由至少两个视频帧图像组成的数据，则计算机设备可以对视频数据进行拆分，得到组成该视频数据的至少两个视频帧图像，对该至少两个视频帧图像进行抽帧处理，得到关键帧图像。关键帧图像可以反映视频数据中的大量图像信息。计算机设备通过对关键帧图像进行处理，由于关键帧图像是视频数据包含的至少两个视频帧图像中的代表性图像，且关键帧图像的数量少于视频数据中视频帧图像的总数，因此通过对关键帧图像进行处理可以提高数据处理的效率，且数据检测结果可以准确反映视频数据的内容。在本申请实施例中，若视频数据包含一个关键帧图像，则针对该关键帧图像进行步骤S102～S104的处理。若视频数据包含多个关键帧图像，则针对该多个关键帧图像中的每个关键帧图像进行步骤S102～S104的处理。

可选的，计算机设备可以基于至少两个视频帧图像中的相邻视频帧图像之间的相似度，确定关键帧图像；或者，可以基于视频数据中视频帧图像的数量，确定关键帧图像，例如，基于视频数据中视频帧图像的数量确定关键帧数量，基于关键帧数量从至少两个视频帧图像中抽取关键帧图像；或者，基于视频数据的时长，确定关键帧图像，例如，基于视频数据的时长确定关键帧数量，基于关键帧数量确定关键帧位置，将组成视频数据的至少两个视频帧图像中位于关键帧位置处的视频帧图像，确定为关键帧图像等，在此不做限制。

S102，基于字符检测模型识别关键帧图像的关键图像特征，对关键图像特征进行字符区域特征匹配，确定关键帧图像中的字符区域。

本申请实施例中，计算机设备基于字符检测模型识别关键帧图像的关键图像特征，对关键图像特征进行字符区域特征匹配，确定关键帧图像中的字符区域。其中，关键图像特征可以是指上述步骤S101中的图像特征。计算机设备可以提取关键帧图像中的特征作为关键图像特征，关键图像特征用于反映关键帧图像中的图像信息，例如关键帧图像中所包括的对象，如字符以及除字符以外的对象信息。计算机设备通过对关键图像特征进行字符区域特征匹配，从而确定关键帧图像中的字符区域。

其中，该字符区域特征匹配用于确定关键图像特征中指示字符的概率，基于该关键图像特征中指示字符的概率确定关键帧图像中可能显示字符的区域，即，该字符区域特征匹配的过程具体是指进行特征匹配以确定字符区域的过程。具体的，计算机设备可以基于字符检测模型中的卷积层对关键帧图像进行特征提取，得到关键帧图像的关键图像特征。进一步，对关键图像特征进行字符区域特征匹配，确定关键帧图像中的字符区域，具体的，可以对关键图像特征进行特征拼接，得到关键帧图像对应的拼接特征图像；其中，拼接特征图像中的像素点的像素值用于表示对应关键帧图像中的像素点为字符的概率；获取拼接特征图像中每个像素值所属的概率范围，根据每个像素值所属的概率范围生成概率图像及字符边框图像；对概率图像及字符边框图像进行特征融合，生成融合字符图像，基于融合字符图像确定关键帧图像中的字符区域。

其中，字符检测模型中的卷积层的数量可以为多个，且每个卷积层的卷积核不同，卷积核的物理意义为一个a*a(如1*1、3*3等)的矩阵。具体实现中，可以将关键帧图像量化，得到关键帧图像对应的像素矩阵，该像素矩阵为一个m*n的矩阵，m*n等于关键帧图像的像素，该像素矩阵中的值为该关键帧图像中的亮度、色度等进行综合量化得到的量化值。例如，关键帧图像为1920*2040的图片，则关键帧图像对应的像素矩阵为一个1920*2040的矩阵，矩阵中的值为该值对应的像素的量化值。然后将关键帧图像的像素矩阵与卷积核对应的矩阵相乘，则得到关键帧图像对应的像素矩阵，也就得到关键图像特征。由于每个卷积层的卷积核不同，因此，使用不同卷积层对关键帧图像进行特征提取后，得到的关键图像特征不同，对应的关键图像特征的数量也不同，通过对得到的关键图像特征进行特征拼接，可以使得拼接后得到的特征能更完整的反映关键帧图像中的图像信息。

请参考图4，图4是本申请实施例提供的一种基于字符检测模型确定关键帧图像中的字符区域的场景示意图，计算机设备将关键帧图像41输入字符检测模型，基于字符检测模型中的卷积层42对关键帧图像进行特征提取，得到关键帧图像的关键图像特征，其中，该卷积层42可以包括h个卷积层，h为正整数。举例来说，h为5，则该卷积层42中包括第一卷积层f1、第二卷积层f2、第三卷积层f3、第四卷积层f4以及第五卷积层f5，5种卷积层提取到的关键图像特征不同。第一卷积层f1对关键帧图像41进行特征提取，得到第一关键图像特征；第二卷积层f2对第一关键图像特征进行特征提取，得到第二关键图像特征；第三卷积层f3对第二关键图像特征进行特征提取，得到第三关键图像特征；第四卷积层f4对第三关键图像特征进行特征提取，得到第四关键图像特征；第五卷积层f5对第四关键图像特征进行特征提取，得到第五关键图像特征。通过对第五关键图像特征进行两倍上采样(up*2)得到采样后的第五关键图像特征，对采样后的第五关键图像特征与第四关键图像特征进行融合，得到融合后的第四关键图像特征。通过对第四关键图像特征进行两倍上采样(up*2)得到采样后的第四关键图像特征，对采样后的第四关键图像特征与第三关键图像特征进行融合，得到融合后的第三关键图像特征。通过对第三关键图像特征进行两倍上采样(up*2)得到采样后的第三关键图像特征，对采样后的第三关键图像特征与第二关键图像特征进行融合，得到融合后的第二关键图像特征。对第五关键图像特征进行八倍上采样(up*8)和卷积处理，得到第一采样图像；对融合后的第四关键图像特征进行四倍上采样(up*4)和卷积处理，得到第二采样图像；对融合后的第三关键图像特征进行二倍上采样(up*2)和卷积处理，得到第三采样图像。对融合后的第二关键图像特征进行卷积处理，得到第四采样图像。对第一采样图像、第二采样图像、第三采样图像以及第四采样图像进行特征拼接，得到关键帧图像41对应的拼接特征图像43。其中，拼接特征图像中的像素点的像素值用于表示对应关键帧图像中的像素点为字符的概率。计算机设备获取拼接特征图像43中每个像素值所属的概率范围，根据每个像素值所属的概率范围生成概率图像44及字符边框图像45。其中，可以基于不同的颜色表示不同的概率范围，计算机设备可以基于拼接特征图像43中每个像素值所属的概率范围，确定每个像素值对应的颜色，根据每个像素值对应的颜色生成概率图像44。例如，该概率图像可以基于热力图进行表示，热力图是指以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示，在本申请实施例中，基于该热力图，以不同高亮的形式(即不同颜色)显示字符区域和字符区域在关键帧图像中的位置。对概率图像44及字符边框图像45进行特征融合，生成融合字符图像46，融合字符图像46可以表示关键帧图像中字符所在的位置，基于融合字符图像46确定关键帧图像中的字符区域47。

通过使用字符检测模型中的卷积层对关键帧图像进行特征提取，可以提取到关键帧图像对应的多个关键图像特征；通过对关键帧图像对应的多个关键图像特征进行拼接，可以使得拼接后的特征更完整的反映关键帧图像中的图像信息；通过生成关键帧图像对应的概率图像及字符边框图像，概率图可以表示关键帧图像中的像素点为字符的概率，而字符边框图像可以表示关键帧图像中的字符边框位置，从而根据字符以及字符边框位置确定关键帧图像中的字符区域，可以更准确的反映视频帧图像中的字符区域，便于后续对字符区域进行识别，确定视频数据所属的视频类别的准确性。

可选的，在使用字符检测模型对关键帧图像进行识别时，计算机设备会检测出多个包含字符特征的候选区域及候选区域的置信度，但最终确定的字符区域的数量是确定的，例如计算机设备会检测出多个候选区域，其中，候选区域可以包括“月”、“腾”、“腾讯视”、“腾讯视频”以及“讯视频”等等。具体的，计算机设备获取多个候选区域中置信度最大的候选区域，使用非极大值抑制算法(Non-Maximum Suppression，NMS)计算置信度最大的候选区域与各个候选区域之间的区域重叠度(intersection over union，IoU)，根据区域重叠度与重叠度阈值进行比较，从而确定出最终的字符区域“腾讯视频”。重叠度阈值可以设置为0.7、0.8、0.9或者其他数值，本申请实施例不做限定。通过使用非极大值抑制算法可以去除关键帧图像中重复的候选区域，从而确定出最终的字符区域。

S103，基于图像识别模型对字符区域进行特征提取，根据提取到的特征从字符区域中识别关键帧图像的字符数据，将关键帧图像的字符数据与字符数据库进行字符匹配，得到关键帧图像中的字符区域的字符检测结果。

本申请实施例中，计算机设备基于图像识别模型对字符区域进行特征提取，根据提取到的特征从字符区域中识别关键帧图像的字符数据，通过将关键帧图像的字符数据与字符数据库进行字符匹配，可以得到关键帧图像中的字符区域的字符检测结果。其中，字符数据可以是指具体的字符，例如“腾讯视频”，计算机设备将“腾讯视频”与字符数据库进行字符匹配，得到关键帧图像中的字符区域的字符检测结果。若字符数据库中包含“腾讯视频”，则确定字符检测结果为字符数据与字符数据库匹配的结果。若字符数据库中不包含“腾讯视频”，则确定字符检测结果为字符数据与字符数据库不匹配的结果，计算机设备可以输出视频数据为合法数据的信息，合法数据可以是指该视频数据不包括水印，则不侵犯他人版权，可以将该视频数据上传至应用程序中，以便于其他用户查看互动。

可选的，计算机设备基于图像识别模型对字符区域进行特征提取，根据提取到的特征从字符区域中识别关键帧图像的字符数据的方法可以包括：计算机设备基于图像识别模型中的卷积层对字符区域进行特征提取，得到字符区域对应的卷积特征，对字符区域对应的卷积特征进行序列化处理，得到字符区域对应的特征序列；基于图像识别模型中的循环层对特征序列进行识别处理，确定特征序列对应的序列字符特征；基于图像识别模型中的转录层对序列字符特征进行特征转换，得到关键帧图像的字符数据。

具体实现中，图像识别模型中可以包括特征提取网络，特征提取网络中包括卷积层，则计算机设备可以基于特征提取网络中的卷积层对字符区域进行特征提取，得到字符区域对应的多个卷积特征，特征提取网络可以包括不限于卷积神经网网络(ConvolutionalNeural Networks，CNN)、回归目标检测(You Only Look Once，YOLO)、单点多盒检测器(Single Shot MultiBox Detector，SSD)等深度学习网络。计算机设备通过对字符区域对应的多个卷积特征进行序列化处理，可以得到字符区域对应的特征序列，基于图像识别模型中的循环层对特征序列进行识别处理，可以确定特征序列对应的序列字符特征，其中，循环层用于将卷积特征对应的特征序列进行识别，确定每个特征序列对应的字符特征。计算机设备再基于图像识别模型中的转录层对序列字符特征进行特征转换，将特征转换后得到的字符特征中的空字符、重复字符进行整合得到关键帧图像的字符数据。其中，循环层可以包括不限于长短期记忆模型循环神经网络(Long-Short Term Memory RNN，LSTM)或者其他深度学习网络，转录层可以包括不限于联结主义时间分类算法(Connectionist TemporalClassification，CTC)或者其他算法。

请参考图5，图5是本申请实施例提供的一种基于图像识别模型确定关键帧图像的字符数据的场景示意图，计算机设备将字符区域51输入图像识别模型，基于图像识别模型中的卷积层对字符区域51进行特征提取，提取字符区域中的字符对应的特征，得到字符区域51对应的卷积特征52，卷积特征52用于指示字符区域的字符信息，计算机设备通过对字符区域对应的卷积特征52进行序列化处理，卷积特征52包括多组数据特征，计算机设备将每组数据特征进行组合，得到一个序列子特征，将每组数据特征对应的序列子特征进行组合，生成特征序列53。进一步，计算机设备基于图像识别模型中的循环层对特征序列53进行识别处理，将特征序列转换为字符的形式，确定特征序列53对应的序列字符特征54。例如，计算机设备得到图5中所示的字符区域51对应的特征序列53，可以基于循环层对特征序列53进行特征融合，对不同序列子特征之间进行特征迁移，生成序列字符特征54，该序列字符特征54为“-S-T-AATTE”。计算机设备基于图像识别模型中的转录层对序列字符特征54进行特征转换，将字符特征54中的空字符、重复字符进行整合，得到关键帧图像的字符数据55，如图5中，将空字符“-”及重复字符“AA”及“TT”等进行整合，得到关键帧图像的字符数据55，该字符数据55为“STATE”。

可选的，若视频数据中关键帧图像的数量为1个，且该关键帧图像的字符数据的数量为1个，计算机设备可以对该关键帧图像的字符数据进行分词处理，确定视频数据对应的一个或多个分词字符数据，将该一个或多个分词字符数据分别与字符数据库进行字符匹配，得到一个或多个匹配字符串及每个匹配字符串分别对应的匹配数量；若存在匹配数量大于匹配阈值的匹配字符串，则确定字符检测结果为字符数据与字符数据库匹配的结果。或者，若视频数据中关键帧图像的数量为1个，且该关键帧图像的字符数据的数量为多个，计算机设备可以对该关键帧图像的多个字符数据进行组合，得到组合字符数据；对组合字符数据进行分词处理，确定视频数据对应的一个或多个分词字符数据，将该一个或多个分词字符数据分别与字符数据库进行字符匹配，得到一个或多个匹配字符串及每个匹配字符串分别对应的匹配数量；若存在匹配数量大于匹配阈值的匹配字符串，则确定字符检测结果为字符数据与字符数据库匹配的结果。

可选的，若视频数据中关键帧图像的数量为N个，N为正整数；计算机设备可以将关键帧图像的字符数据与字符数据库进行字符匹配，得到关键帧图像中的字符区域的字符检测结果。具体的，计算机设备对视频数据中的N个关键帧图像的字符数据进行组合，得到组合字符数据；对组合字符数据进行分词处理，确定视频数据对应的M个分词字符数据；将视频数据对应的M个分词字符数据分别与字符数据库进行字符匹配，得到k个匹配字符串及k个匹配字符串分别对应的匹配数量；若存在匹配数量大于匹配阈值的匹配字符串，则确定字符检测结果为字符数据与字符数据库匹配的结果。其中，匹配数量用于表示M个分词字符数据中与匹配字符串相匹配的字符数据的数量，M为正整数，k为正整数。组合字符数据中包括一个或多个字符数据，分词字符数据是指对组合字符数据进行分词处理后得到的数据。字符数据库中可以包括多个字符串，字符串可以是指企业名称、企业对应的产品名称或者企业对应的网站名称等，用于表示携带该字符串的多媒体数据可能会出现侵权等问题。如字符串可以包括“腾讯视频”或“XX网站”等。

具体实现中，由于视频数据中关键帧图像的数量为N个，计算机设备可以对视频数据中的N个关键帧图像的字符数据进行组合，得到组合字符数据。例如，N为3，第1个关键帧图像的字符数据为“腾讯”、第2个关键帧图像的字符数据为“视频”、以及第3个关键帧图像的字符数据为“腾讯视频”，通过对3个关键帧图像的字符数据进行组合，得到的组合字符数据可以为“腾讯视频腾讯视频”。进一步的，计算机设备可以使用分词工具，例如结巴分词工具或者其他分词工具对组合字符数据进行分词处理，确定视频数据对应的M个分词字符数据。例如对组合字符数据“腾讯视频腾讯视频”进行分词处理后，得到2个分词字符数据分别为“腾讯视频”和“腾讯视频”。通过对视频数据中确定出的字符数据进行组合，再对组合后的字符数据进行分词处理，可以避免由于关键帧图像中的水印不完整而影响最终检测结果的准确性，从而提高数据检验的准确性。

进一步的，计算机设备将2个分词字符数据分别与字符数据库进行字符匹配，得到k个匹配字符串及k个匹配字符串分别对应的匹配数量。例如，若分词字符数据的数量为2个，2个分词字符数据分别为“腾讯视频”和“腾讯视频”，字符数据库中包括字符串“腾讯视频”，则匹配后得到的匹配字符串为“腾讯视频”，且匹配字符串对应的数量为2个。若分词字符数据的数量为3个，3个分词字符数据分别为“腾讯视频”、“腾讯新闻”以及“腾讯视频”，字符数据库中包括字符串“腾讯视频”和“腾讯新闻”，则匹配后得到的匹配字符串为“腾讯视频”和“腾讯新闻”，且匹配字符串为“腾讯视频”对应的匹配数量为2，匹配字符串为“腾讯新闻”对应的匹配数量为1。

再进一步的，若存在匹配数量大于匹配阈值的匹配字符串，则计算机设备确定字符检测结果为字符数据与字符数据库匹配的结果。匹配阈值可以是默认匹配阈值，例如可以为1、2、3或者其他数值，或者，该匹配阈值可以根据经验确定，或者，该匹配阈值可以根据历史匹配的结果确定等，本申请实施例不做限定。例如匹配阈值为1，则匹配字符串为“腾讯视频”对应的匹配数量大于匹配阈值，计算机设备可以将匹配数量大于匹配阈值的匹配字符串确定为与字符数据匹配的目标字符串，即目标字符串为“腾讯视频”。可以理解的是，若不存在匹配数量大于匹配阈值的匹配字符串，则计算机设备确定字符检测结果为字符数据与字符数据库不匹配的结果。

S104，若字符检测结果为字符数据与字符数据库匹配的结果，则从字符数据库中获取与字符数据匹配的目标字符串，将目标字符串对应的数据类别确定为视频数据所属的视频类别。

本申请实施例中，计算机设备通过获取字符检测结果，若字符检测结果为字符数据与字符数据库匹配的结果，则计算机设备可以从字符数据库中获取与字符数据匹配的目标字符串，将目标字符串对应的数据类别确定为视频数据所属的视频类别。例如，计算机设备从字符数据库中获取与字符数据匹配的目标字符串为“腾讯视频”，则将“腾讯视频”对应的数据类别确定为视频数据所属的视频类别，即确定出视频数据所属的视频类别为“腾讯视频”。由于视频数据中的水印具有时域稳定性和类别不变性，因此可以通过设置匹配阈值的方式来确定视频数据中是否包含水印，以及确定具体的水印类别。当视频数据中的水印与字符数据库中的水印类别匹配，且视频数据中的该类别水印的数量大于匹配阈值时，确定视频数据中包含水印，并且确定视频数据中的水印的类别，从而确定视频数据所属的视频类别，可以减少水印误判的概率，从而提高数据检测的准确性。

可选的，计算机设备在接收到用户终端发送针对视频数据的上传请求时，通过识别视频数据所属的视频类别，在确定出视频数据所属的视频类别后，计算机设备还可以响应用户终端针对视频数据的上传请求；若视频数据所属的视频类别属于标记视频类别，则计算机设备可以向用户终端发送数据上传异常提示。其中，数据上传异常提示包括视频数据所属的视频类别；标记视频类别可以用于指示各个企业对应的数据类别，例如，腾讯对应的数据类别可以为“腾讯视频”。数据上传异常提示可以包括“因上传视频包含腾讯视频标志，为避免风险禁止上传”，等等。计算机设备通过向用户终端发送包括数据上传异常提示，上传该视频数据的用户可以通过用户终端查看到该数据上传异常提示，从而可以实现对视频数据的快速更改，并且避免自己侵犯他人的版权。

可选的，若视频数据所属的视频类别不属于标记视频类别，则计算机设备将视频数据上传至应用程序中。其中，视频数据所属的视频类别不属于标记视频类别可以是指该视频数据中包含水印，但该水印不属于标记视频类别，因此可以认为该用户上传的视频数据不存在侵犯他人版权的问题，则计算机设备可以将该视频数据上传至该视频数据对应的应用程序中，例如该应用程序可以为社交应用程序、教育应用程序、体育应用程序或者其他应用程序。例如该应用程序为社交应用程序，则用户可以向该社交应用程序发送针对视频数据的上传请求，计算机设备通过确定该视频数据所属的类别，在确定不属于标记视频类别时，将该视频数据上传至该社交应用程序，其他用户可以查看该视频数据并且与该用户进行互动。

其中，在步骤S101中，计算机设备基于至少两个视频帧图像中的相邻视频帧图像之间的相似度，确定关键帧图像的过程可以参见图6，图6是本申请实施例提供的一种确定关键帧图像的方法流程示意图；如图6所示，该方法包括：

S201，将至少两个视频帧图像中的第i个视频帧图像与第(i+1)个视频帧图像进行图像特征匹配，得到第i个视频帧图像与第(i+1)个视频帧图像之间的相似度。

本申请实施例中，计算机设备可以对视频数据中的至少两个视频帧图像中的每个视频帧图像进行图像特征提取，得到每个视频帧图像对应的图像特征，图像特征用于反映视频帧图像中的图像信息以及图像细节等，其中，至少两个视频帧图像中包括第i个视频帧图像，i为正整数，则计算机设备可以基于至少两个视频帧图像中的每个视频帧图像对应的图像特征，计算得到第i个视频帧图像与第(i+1)个视频帧图像之间的相似度。可选的，计算机设备可以通过计算第i个视频帧图像的图像特征与第(i+1)个视频帧图像的图像特征之间的欧几里得距离得到第i个视频帧图像与第(i+1)个视频帧图像之间的相似度，相似度的计算方法还可以包括不限于皮尔逊相关系数法、Cosine相似度法等。

S202，确定第i个视频帧图像与第(i+1)个视频帧图像之间的相似度是否小于视频相似阈值。

本申请实施例中，若是，即第i个视频帧图像与第(i+1)个视频帧图像之间的相似度小于视频相似阈值，则计算机设备执行步骤S203，将第(i+1)个视频帧图像确定为视频数据的关键帧图像；若否，即若第i个视频帧图像与第(i+1)个视频帧图像之间的相似度大于或等于视频相似阈值，则计算机设备执行步骤S204。其中，视频相似阈值可以为0.7、0.8、0.9或者其他数值，本申请实施例中不做限定。

S203，将第(i+1)个视频帧图像确定为视频数据的关键帧图像。

S204，将第(i+1)个视频帧图像与第(i+2)个视频帧图像进行图像特征匹配，得到第(i+1)个视频帧图像与第(i+2)个视频帧图像之间的相似度，直至第(i+2)个视频帧图像为至少两个视频帧图像的最后一个视频帧图像时，得到视频数据的关键帧图像。

本申请实施例中，若第i个视频帧图像与第(i+1)个视频帧图像之间的相似度大于或等于视频相似阈值，则计算机设备将第(i+1)个视频帧图像与第(i+2)个视频帧图像进行图像特征匹配，得到第(i+1)个视频帧图像与第(i+2)个视频帧图像之间的相似度，直至第(i+2)个视频帧图像为至少两个视频帧图像的最后一个视频帧图像时，得到视频数据的关键帧图像。也就是说，计算机设备通过分别计算至少两个视频帧图像中的该视频帧图像与前一个视频帧图像之间的相似度，若相似度小于视频相似阈值，则将该视频帧图像确定为关键帧图像。若相似度大于或等于视频相似阈值，则继续计算该视频帧图像与后一个视频帧图像之间的相似度，在相似度小于视频相似阈值时，将后一个视频帧图像确定为关键帧图像，得到视频数据的关键帧图像。

由于两个视频帧图像的相似度越高，表示两个视频帧图像中的图像信息以及图像细节越相似，因此，当两个视频帧图像之间的相似度大于视频相似阈值时，可以认为两个视频帧图像属于同一个图像组(Group of Picture，GOP)中的两个视频帧图像，一个GOP包含多个连续的视频帧图像，通过相似度计算方法可以计算得到视频数据中的任意两个视频帧图像之间的相似度，从而确定出视频数据包含的一个或者多个GOP，并将每个GOP中的第一个视频帧图像、第j/2个视频帧图像以及第j个视频帧图像确定为关键帧图像，其中，j为正整数，j为图像组中视频帧图像的数量，关键帧图像包含GOP内的完整视频信息，且关键帧图像的画面质量高于该GOP中其他视频帧图像的画面质量。

可选的，如图7所示，图7是本申请实施例提供的一种抽取关键帧序列的场景示意图；计算机设备通过视频处理工具对视频数据进行解码，得到视频数据包含的视频帧数据流；计算机设备从视频帧数据流中包含的多个GOP中分别抽取关键帧图像，例如可以抽取每个GOP中的第一个视频帧图像、第j/2个视频帧图像以及第j个视频帧图像，得到关键帧图像序列，其中，关键帧图像序列中包括多个关键帧图像。由于在视频数据中水印位置一般来说是固定不变的，例如固定存在于视频数据的左上角位置、左下角位置、右上角位置、右下角位置，等等，而关键帧图像具有画面质量高、画面信息完整等特点，因此通过抽取视频数据中关键帧图像的方式进行后续检测，可以减少数据检测冗余，提升数据检测效率，提高数据检测结果的准确性。

本申请实施例中，从组成视频数据的至少两个视频帧图像中获取关键帧图像，由于关键帧图像可以表示视频数据包含的图像数据，因此通过从视频数据中获取关键帧图像进行识别处理，可以提高数据检测的效率。通过对关键帧图像中的图像特征进行识别确定关键帧图像中的字符区域，进而在识别字符区域中的字符数据时，只需要识别关键帧图像中的字符区域，无需对整个关键帧图像进行识别，可以提高数据识别效率。进一步的，由于对视频帧图像进行首次检测识别，确定关键帧图像中的字符区域，再对该字符区域进行识别，确定字符区域中的字符数据，相当于对关键帧图像进行了两次识别，进而可以提高数据检测的准确率。

可选的，为了提高字符检测模型识别关键图像特征的准确性，以及提高图像识别模型对字符区域进行特征提取的准确性，从而提高确定视频数据所属的视频类别的准确性，在使用字符检测模型识别关键图像特征以及使用图像识别模型对字符区域进行特征提取之前，计算机设备可以使用大量的样本视频数据对模型进行训练以及调整，使得训练得到的模型可以实现更准确的识别关键图像特征，以及对字符区域进行特征提取，从而提高确定视频数据所属的视频类别的准确性。请参见图8，图8是本申请实施例提供的另一种视频数据处理方法的流程示意图。该方法可以应用于计算机设备；如图8所示，该方法包括：

S301，从组成样本视频数据的至少两个样本视频帧图像中获取样本关键帧图像，获取样本关键帧图像中的样本区域标签。

本申请实施例中，计算机设备可以从本地数据库中获取样本视频数据；或者，也可以从其他存储介质中获取样本视频数据。计算机设备通过对获取到的样本视频数据进行拆分处理，得到至少两个样本视频帧图像，对至少两个样本视频帧图像进行抽帧处理，得到样本关键帧图像。具体从样本视频数据中获取样本关键帧图像的方法可以参考步骤S101中从视频数据中获取关键帧图像的方法，此处不再赘述。样本视频数据是指用于训练初始字符检测模型所准备的视频数据。若样本视频数据是由一个样本视频帧图像组成的数据，则将该样本视频帧图像确定为样本关键帧图像。若样本视频数据是由至少两个样本视频帧图像组成的数据，则计算机设备可以对样本视频数据进行拆分，得到组成该样本视频数据的至少两个样本视频帧图像，对该至少两个样本视频帧图像进行抽帧处理，得到样本关键帧图像。样本区域标签是指预先设定的标签，训练字符检测模型的目的在于使得使用字符检测模型识别样本关键帧图像得到的样本字符区域和预先设定的样本区域标签之间尽可能的相同，则对应的字符检测模型的准确度越高。

S302，基于初始字符检测模型识别样本关键帧图像的样本关键图像特征，对样本关键图像特征进行字符区域特征匹配，确定样本关键帧图像中的样本字符区域。

本申请实施例中，计算机设备基于初始字符检测模型识别样本关键帧图像的样本关键图像特征，对样本关键图像特征进行字符区域特征匹配，确定样本关键图像特征中指示样本字符的概率，基于该样本关键图像特征中指示样本字符的概率确定样本关键帧图像中可能显示样本字符的区域，从而确定样本关键帧图像中的样本字符区域，具体确定样本字符区域的方法可以参考步骤S102中确定关键帧图像中的字符区域的方法，此处不做过多描述。

S303，基于样本字符区域与样本区域标签生成第一损失函数，基于第一损失函数对初始字符检测模型进行训练，生成字符检测模型。

本申请实施例中，通过使用初始字符检测模型确定出样本关键帧图像中的样本字符区域，根据样本字符区域与预先设定的样本区域标签之间的重合度可以确定第一损失函数，在第一损失函数对应的损失值大于第一损失阈值时，继续对初始字符检测模型进行训练，调整初始字符检测模型中的参数，使得第一损失函数对应的损失值小于或等于第一损失阈值，当第一损失函数对应的损失值小于或等于第一损失阈值时，对训练得到的初始字符检测模型进行保存，得到字符检测模型。通过使用大量样本视频数据对字符检测模型进行训练，可以提高字符检测模型的准确度，从而根据字符检测模型确定的样本字符区域可以更准确的反映关键帧图像的信息。

S304，获取样本关键帧图像中的样本字符标签。

本申请实施例中，样本字符标签是指预先设定的标签，训练图像识别模型的目的在于使得图像识别使用模型识别得到的样本字符数据和预先设定的样本字符标签之间尽可能的相同，则对应的图像识别模型的准确度越高。

S305，基于初始图像识别模型对样本字符区域进行特征提取，根据提取到的样本特征从样本字符区域中识别样本关键帧图像的样本字符数据。

本申请实施例中，计算机设备基于初始图像识别模型对样本字符区域进行特征提取，根据提取到的样本特征从样本字符区域中识别样本关键帧图像的样本字符数据的方法可参考步骤S103中基于图像识别模型识别关键帧图像的字符数据的方法，此处不做过多描述。

S306，基于样本字符数据与样本字符标签生成第二损失函数，基于第二损失函数对初始图像识别模型进行训练，生成图像识别模型。

本申请实施例中，通过使用初始图像识别模型确定出样本关键帧图像的样本字符数据，根据样本字符数据与预先设定的样本字符标签之间的重合度可以确定第二损失函数，在第二损失函数对应的损失值大于第二损失阈值时，继续对初始图像识别模型进行训练，调整初始图像识别模型中的参数，使得第二损失函数对应的损失值小于或等于第二损失阈值，当第二损失函数对应的损失值小于或等于第二损失阈值时，对训练得到的初始图像识别模型进行保存，得到图像识别模型。通过使用大量样本视频数据对图像识别模型进行训练，可以提高图像识别模型的准确度，从而根据图像识别模型确定的样本字符数据可以更准确的反映视频数据中的字符信息。

本申请实施例中，计算机设备通过使用大量的样本视频数据对模型进行训练以及调整，使得训练得到的字符检测模型可以实现更准确的识别关键图像特征，以及图像识别模型可以实现更准确的对字符区域进行特征提取，从而提高确定视频数据所属的视频类别的准确性。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图9，图9是本申请实施例提供的一种视频数据处理装置的组成结构示意图，上述一种视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该一种视频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置90包括：

图像获取模块91，用于从组成视频数据的至少两个视频帧图像中获取关键帧图像；

字符识别模块92，用于基于字符检测模型识别该关键帧图像的关键图像特征，对该关键图像特征进行字符区域特征匹配，确定该关键帧图像中的字符区域；

字符匹配模块93，用于基于图像识别模型对该字符区域进行特征提取，根据提取到的特征从该字符区域中识别该关键帧图像的字符数据，将该关键帧图像的字符数据与字符数据库进行字符匹配，得到该关键帧图像中的字符区域的字符检测结果；

类别确定模块94，用于若该字符检测结果为该字符数据与该字符数据库匹配的结果，则从该字符数据库中获取与该字符数据匹配的目标字符串，将该目标字符串对应的数据类别确定为该视频数据所属的视频类别。

可选的，该图像获取模块91，包括：

图像匹配单元911，用于将该至少两个视频帧图像中的第i个视频帧图像与第(i+1)个视频帧图像进行图像特征匹配，得到该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度；i为正整数；

第一图像确定单元912，用于若该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度小于该视频相似阈值，则将该第(i+1)个视频帧图像确定为该视频数据的关键帧图像，将该第(i+1)个视频帧图像与第(i+2)个视频帧图像进行图像特征匹配，得到该第(i+1)个视频帧图像与该第(i+2)个视频帧图像之间的相似度；

第二图像确定单元913，用于若该第i个视频帧图像与该第(i+1)个视频帧图像之间的相似度大于或等于视频相似阈值，则将该第(i+1)个视频帧图像与该第(i+2)个视频帧图像进行图像特征匹配，得到该第(i+1)个视频帧图像与该第(i+2)个视频帧图像之间的相似度；直至该第(i+2)个视频帧图像为该至少两个视频帧图像的最后一个视频帧图像时，得到该视频数据的关键帧图像。

该字符识别模块92，包括：

特征提取单元921，用于基于该字符检测模型中的卷积层对该关键帧图像进行特征提取，得到该关键帧图像的关键图像特征；

特征拼接单元922，用于对该关键图像特征进行特征拼接，得到该关键帧图像对应的拼接特征图像；该拼接特征图像中的像素点的像素值用于表示对应关键帧图像中的像素点为字符的概率；

图像确定单元923，用于获取该拼接特征图像中每个像素值所属的概率范围，根据该每个像素值所属的概率范围生成概率图像及字符边框图像；

区域确定单元924，用于对该概率图像及该字符边框图像进行特征融合，生成融合字符图像，基于该融合字符图像确定该关键帧图像中的字符区域。

该字符匹配模块93，包括：

序列获取单元931，用于基于该图像识别模型中的卷积层对该字符区域进行特征提取，得到该字符区域对应的卷积特征，对该字符区域对应的卷积特征进行序列化处理，得到该字符区域对应的特征序列；

循环处理单元932，用于基于该图像识别模型中的循环层对该特征序列进行识别处理，确定该特征序列对应的序列字符特征；

特征转换单元933，用于基于该图像识别模型中的转录层对该序列字符特征进行特征转换，得到该关键帧图像的字符数据。

可选的，该视频数据中关键帧图像的数量为N个；N为正整数；该字符匹配模块93，包括：

字符组合单元934，用于对该视频数据中的N个关键帧图像的字符数据进行组合，得到组合字符数据；

分词确定单元935，用于对该组合字符数据进行分词处理，确定该视频数据对应的M个分词字符数据；M为正整数；

字符匹配单元936，用于将该视频数据对应的M个分词字符数据分别与该字符数据库进行字符匹配，得到k个匹配字符串及该k个匹配字符串分别对应的匹配数量；该匹配数量用于表示该M个分词字符数据中与匹配字符串相匹配的字符数据的数量；k为正整数；

结果确定单元937，用于若存在该匹配数量大于匹配阈值的匹配字符串，则确定该字符检测结果为该字符数据与该字符数据库匹配的结果；

字符确定单元938，用于将该匹配数量大于匹配阈值的匹配字符串确定为与该字符数据匹配的目标字符串。

可选的，该装置90还包括：

数据响应模块95，用于响应用户终端针对该视频数据的上传请求；

数据提示模块96，用于若该视频数据所属的视频类别属于标记视频类别，则向该用户终端发送数据上传异常提示；该数据上传异常提示包括视频数据所属的视频类别；

数据上传模块97，用于若该视频数据所属的视频类别不属于该标记视频类别，则将该视频数据上传至应用程序中。

需要说明的是，图9对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图10，图10是本申请实施例提供的另一种视频数据处理装置的组成结构示意图，上述一种视频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该一种视频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置100包括：

区域标签获取模块1001，用于从组成样本视频数据的至少两个样本视频帧图像中获取样本关键帧图像，获取该样本关键帧图像中的样本区域标签；

样本区域确定模块1002，用于基于初始字符检测模型识别该样本关键帧图像的样本关键图像特征，对该样本关键图像特征进行字符区域特征匹配，确定该样本关键帧图像中的样本字符区域；

检测模型生成模块1003，用于基于该样本字符区域与该样本区域标签生成第一损失函数，基于该第一损失函数对该初始字符检测模型进行训练，生成字符检测模型。

可选的，该装置100还包括：

字符标签获取模块1004，用于获取该样本关键帧图像中的样本字符标签；

样本字符获取模块1005，用于基于初始图像识别模型对该样本字符区域进行特征提取，根据提取到的样本特征从该样本字符区域中识别该样本关键帧图像的样本字符数据；

识别模型生成模块1006，用于基于该样本字符数据与该样本字符标签生成第二损失函数，基于该第二损失函数对该初始图像识别模型进行训练，生成图像识别模型。

需要说明的是，图10对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图11，图11是本申请实施例提供的一种计算机设备的组成结构示意图。如图11所示，上述计算机设备110可以包括：处理器1101，网络接口1104和存储器1105，此外，上述计算机设备110还可以包括：用户接口1103，和至少一个通信总线1102。其中，通信总线1102用于实现这些组件之间的连接通信。其中，用户接口1103可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1103还可以包括标准的有线接口、无线接口。网络接口1104可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1105可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1105可选的还可以是至少一个位于远离前述处理器1101的存储装置。如图11所示，作为一种计算机可读存储介质的存储器1105中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备110中，网络接口1104可提供网络通讯功能；而用户接口1103主要用于为用户提供输入的接口；而处理器1101可以用于调用存储器1105中存储的设备控制应用程序，以实现：

从组成视频数据的至少两个视频帧图像中获取关键帧图像；

应当理解，本申请实施例中所描述的计算机设备110可执行前文图3、图6以及图8所对应实施例中对上述一种视频数据处理方法的描述，也可执行前文图9和图10所对应实施例中对上述一种视频数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器1101。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

从组成视频数据的至少两个视频帧图像中获取关键帧图像；

基于字符检测模型识别所述关键帧图像的关键图像特征，对所述关键图像特征进行字符区域特征匹配，确定所述关键帧图像中的字符区域；

基于图像识别模型对所述字符区域进行特征提取，根据提取到的特征从所述字符区域中识别所述关键帧图像的字符数据，将所述关键帧图像的字符数据与字符数据库进行字符匹配，得到所述关键帧图像中的字符区域的字符检测结果；

若所述字符检测结果为所述字符数据与所述字符数据库匹配的结果，则从所述字符数据库中获取与所述字符数据匹配的目标字符串，将所述目标字符串对应的数据类别确定为所述视频数据所属的视频类别。

2.根据权利要求1所述的方法，其特征在于，所述从组成视频数据的至少两个视频帧图像中获取关键帧图像，包括：

将所述至少两个视频帧图像中的第i个视频帧图像与第(i+1)个视频帧图像进行图像特征匹配，得到所述第i个视频帧图像与所述第(i+1)个视频帧图像之间的相似度；i为正整数；

若所述第i个视频帧图像与所述第(i+1)个视频帧图像之间的相似度小于所述视频相似阈值，则将所述第(i+1)个视频帧图像确定为所述视频数据的关键帧图像，将所述第(i+1)个视频帧图像与第(i+2)个视频帧图像进行图像特征匹配，得到所述第(i+1)个视频帧图像与所述第(i+2)个视频帧图像之间的相似度；

若所述第i个视频帧图像与所述第(i+1)个视频帧图像之间的相似度大于或等于视频相似阈值，则将所述第(i+1)个视频帧图像与所述第(i+2)个视频帧图像进行图像特征匹配，得到所述第(i+1)个视频帧图像与所述第(i+2)个视频帧图像之间的相似度；

直至所述第(i+2)个视频帧图像为所述至少两个视频帧图像的最后一个视频帧图像时，得到所述视频数据的关键帧图像。

3.根据权利要求1所述的方法，其特征在于，所述基于字符检测模型识别所述关键帧图像的关键图像特征，对所述关键图像特征进行字符区域特征匹配，确定所述关键帧图像中的字符区域，包括：

基于所述字符检测模型中的卷积层对所述关键帧图像进行特征提取，得到所述关键帧图像的关键图像特征；

对所述关键图像特征进行特征拼接，得到所述关键帧图像对应的拼接特征图像；所述拼接特征图像中的像素点的像素值用于表示对应关键帧图像中的像素点为字符的概率；

获取所述拼接特征图像中每个像素值所属的概率范围，根据所述每个像素值所属的概率范围生成概率图像及字符边框图像；

对所述概率图像及所述字符边框图像进行特征融合，生成融合字符图像，基于所述融合字符图像确定所述关键帧图像中的字符区域。

4.根据权利要求1所述的方法，其特征在于，所述基于图像识别模型对所述字符区域进行特征提取，根据提取到的特征从所述字符区域中识别所述关键帧图像的字符数据，包括：

基于所述图像识别模型中的卷积层对所述字符区域进行特征提取，得到所述字符区域对应的卷积特征，对所述字符区域对应的卷积特征进行序列化处理，得到所述字符区域对应的特征序列；

基于所述图像识别模型中的循环层对所述特征序列进行识别处理，确定所述特征序列对应的序列字符特征；

基于所述图像识别模型中的转录层对所述序列字符特征进行特征转换，得到所述关键帧图像的字符数据。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述视频数据中关键帧图像的数量为N个；N为正整数；

所述将所述关键帧图像的字符数据与字符数据库进行字符匹配，得到所述关键帧图像中的字符区域的字符检测结果，包括：

对所述视频数据中的N个关键帧图像的字符数据进行组合，得到组合字符数据；

对所述组合字符数据进行分词处理，确定所述视频数据对应的M个分词字符数据；M为正整数；

将所述视频数据对应的M个分词字符数据分别与所述字符数据库进行字符匹配，得到k个匹配字符串及所述k个匹配字符串分别对应的匹配数量；所述匹配数量用于表示所述M个分词字符数据中与匹配字符串相匹配的字符数据的数量；k为正整数；

若存在所述匹配数量大于匹配阈值的匹配字符串，则确定所述字符检测结果为所述字符数据与所述字符数据库匹配的结果；

所述从所述字符数据库中获取与所述字符数据匹配的目标字符串，包括：

将所述匹配数量大于匹配阈值的匹配字符串确定为与所述字符数据匹配的目标字符串。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应用户终端针对所述视频数据的上传请求；

若所述视频数据所属的视频类别属于标记视频类别，则向所述用户终端发送数据上传异常提示；所述数据上传异常提示包括视频数据所属的视频类别；

若所述视频数据所属的视频类别不属于所述标记视频类别，则将所述视频数据上传至应用程序中。

7.一种视频数据处理方法，其特征在于，包括：

从组成样本视频数据的至少两个样本视频帧图像中获取样本关键帧图像，获取所述样本关键帧图像中的样本区域标签；

基于初始字符检测模型识别所述样本关键帧图像的样本关键图像特征，对所述样本关键图像特征进行字符区域特征匹配，确定所述样本关键帧图像中的样本字符区域；

基于所述样本字符区域与所述样本区域标签生成第一损失函数，基于所述第一损失函数对所述初始字符检测模型进行训练，生成字符检测模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取所述样本关键帧图像中的样本字符标签；

基于初始图像识别模型对所述样本字符区域进行特征提取，根据提取到的样本特征从所述样本字符区域中识别所述样本关键帧图像的样本字符数据；

基于所述样本字符数据与所述样本字符标签生成第二损失函数，基于所述第二损失函数对所述初始图像识别模型进行训练，生成图像识别模型。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-6任一项所述的方法，或者执行权利要求7-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-6任一项所述的方法，或者执行权利要求7-8任一项所述的方法。