CN114387653A

CN114387653A - 视频数据处理方法、装置、设备及存储介质

Info

Publication number: CN114387653A
Application number: CN202210035376.0A
Authority: CN
Inventors: 梁嘉豪
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22

Abstract

本发明涉及人工智能领域，公开了视频数据处理方法、装置、设备及存储介质，用于提高视频数据处理的准确率。所述视频数据处理方法包括：将多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；将视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；根据每个候选人脸信息对应的交互信息将视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算唇语文本和音频文本的相似度，得到目标相似度；根据目标相似度从多个候选人脸信息中确定目标人脸信息。本发明还涉及区块链技术，目标人脸信息可存储于区块链节点中。

Description

视频数据处理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种视频数据处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，多模态语音交互方式显得越来越重要，由于现在的多模态交互技术，无法将声音与图像建立关联，从而锁定交互对象，导致现在大多数语音交互设备，在复杂的多人交互场景，无法准确的判断输入的对象，导致无法根据当前交互逻辑来确定继续当前的业务流程还是退出当前业务流程。

现在大部分智能语音设备，在复杂的公共场合，如果多人用户同时进行问询，由于交互设备无法知道当前所接受到的输入到底来自哪一个用户，导致当前用户交互逻辑被打断，导致当前服务客户业务流程被打断，严重影响当前服务用户的整体交互体验。

发明内容

本发明提供了一种视频数据处理方法、装置、设备及存储介质，用于提高视频数据处理的准确率。

本发明第一方面提供了一种视频数据处理方法，所述视频数据处理方法包括：获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧；将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度；根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息。

可选的，在本发明第一方面的第一种实现方式中，所述获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧，包括：从预置的视频数据库中查询待识别的视频流；按照预设目标值对所述视频流进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个视频帧。

可选的，在本发明第一方面的第二种实现方式中，所述将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息，包括：将所述多个视频帧输入预置的人脸识别模型，其中，所述人脸识别模型包括多任务卷积神经网络；通过所述多任务卷积神经网络对所述多个视频帧进行人脸检测，若检测到所述多个视频帧中包括人脸图像，则将所述多个视频帧确定为多个候选人脸信息；分别提取所述多个候选人脸信息的交互信息，得到每个候选人脸信息对应的交互信息。

可选的，在本发明第一方面的第三种实现方式中，所述将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本，包括：调用预置的唇语识别模型分别对每个所述视频帧进行信息提取，得到每一视频帧对应的文字信息；对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到唇语文本。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度，包括：提取所述视频流的音频数据，得到目标音频数据；基于所述每个候选人脸信息对应的交互信息并通过预置的自然语言处理模型对所述目标音频数据进行文本转换，得到音频文本；通过预置的相似度函数计算所述唇语文本和所述音频文本的相似度，得到目标相似度。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息，包括：从所述多个候选人脸信息中查找所述目标相似度最大时对应的候选人脸信息；将目标相似度最大时对应的候选人脸信息确定为目标人脸信息。

可选的，在本发明第一方面的第六种实现方式中，在所述根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息之后，所述视频数据处理方法还包括：基于所述目标人脸信息和预置的交互规则生成目标操作；对所述目标人脸信息执行所述目标操作并返回执行结果。

本发明第二方面提供了一种视频数据处理装置，所述视频数据处理装置包括：获取模块，用于获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧；处理模块，用于将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；识别模块，用于将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；计算模块，用于根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度；生成模块，用于根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：从预置的视频数据库中查询待识别的视频流；按照预设目标值对所述视频流进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个视频帧。

可选的，在本发明第二方面的第二种实现方式中，所述处理模块具体用于：将所述多个视频帧输入预置的人脸识别模型，其中，所述人脸识别模型包括多任务卷积神经网络；通过所述多任务卷积神经网络对所述多个视频帧进行人脸检测，若检测到所述多个视频帧中包括人脸图像，则将所述多个视频帧确定为多个候选人脸信息；分别提取所述多个候选人脸信息的交互信息，得到每个候选人脸信息对应的交互信息。

可选的，在本发明第二方面的第三种实现方式中，所述识别模块具体用于：调用预置的唇语识别模型分别对每个所述视频帧进行信息提取，得到每一视频帧对应的文字信息；对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到唇语文本。

可选的，在本发明第二方面的第四种实现方式中，所述计算模块具体用于：提取所述视频流的音频数据，得到目标音频数据；基于所述每个候选人脸信息对应的交互信息并通过预置的自然语言处理模型对所述目标音频数据进行文本转换，得到音频文本；通过预置的相似度函数计算所述唇语文本和所述音频文本的相似度，得到目标相似度。

可选的，在本发明第二方面的第五种实现方式中，所述生成模块具体用于：从所述多个候选人脸信息中查找所述目标相似度最大时对应的候选人脸信息；将目标相似度最大时对应的候选人脸信息确定为目标人脸信息。

可选的，在本发明第二方面的第六种实现方式中，所述视频数据处理装置还包括：执行模块，用于基于所述目标人脸信息和预置的交互规则生成目标操作；对所述目标人脸信息执行所述目标操作并返回执行结果。

本发明第三方面提供了一种视频数据处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频数据处理设备执行上述的视频数据处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的视频数据处理方法。

本发明提供的技术方案中，获取待识别的视频流，并对视频流进行分帧，得到视频流对应的多个视频帧；将多个视频帧输入预置的人脸识别模型进行人脸识别，得到多个候选人脸信息，并分别对多个人脸信息进行上下文交互处理，得到每个人脸信息对应的交互信息；将视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；将视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并根据交互信息计算唇语文本和音频文本的相似度，得到目标相似度；根据目标相似度从多个候选人脸信息中确定目标人脸信息，本发明通过对动态的视频流进行实时识别，对识别得到的视频帧进行上下文交互处理，有效提高了视频帧中的人脸的信息关联度，再通过对视频流中的唇语数据进行识别，加强了人脸数据和音频数据的关联度，进而提高了视频数据中人脸识别的准确率。

附图说明

图1为本发明实施例中视频数据处理方法的一个实施例示意图；

图2为本发明实施例中视频数据处理方法的另一个实施例示意图；

图3为本发明实施例中视频数据处理装置的一个实施例示意图；

图4为本发明实施例中视频数据处理装置的另一个实施例示意图；

图5为本发明实施例中视频数据处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种视频数据处理方法、装置、设备及存储介质，用于提高视频数据处理的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中视频数据处理方法的第一个实施例包括：

101、获取待识别的视频流，并对视频流进行分帧，得到视频流对应的多个视频帧；

可以理解的是，本发明的执行主体可以为视频数据处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学***台等基础云计算服务的云服务器。

具体的，服务器从预置的视频数据库中查找待处理的视频流，预置的数据库中包括多个未识别的视频流。服务器进行预处理的具体过程包括：服务器对视频流进行分帧处理，得到视频流对应的多个视频帧。

102、将多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；

具体的，服务器将基于现有多模态交互方案中通过预置的人脸识别模型进行人脸信息提取，通过摄像头获取的视频流，进行人脸识别，并且通过人脸识别技术，为识别到的每一个客户，建立该客户的交互上下文，所有来自该客户的交互产生的信息，都保存在该客户的交互上下文中。

103、将视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；

具体的，服务器引入唇语识别，通过唇语识别，通过计算机视觉的方式，识别出视频流中各个对象所说的话语的文本内容。需要说明的是，预置的唇语识别模型可以为光学字符识别模型，光学字符识别模型是对文本内容进行识别，对视频帧进行信息提取，得到每一视频帧对应的文字信息，此外，文字信息还需要进行再次核验并将核验通过的文字信息作为每一视频帧对应的文字信息。

104、根据每个候选人脸信息对应的交互信息将视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算唇语文本和音频文本的相似度，得到目标相似度；

具体的，服务器通过唇语识别到的文本内容与通过自然语言处理识别到文本内容进行对比，通过以下方式公式计算相似度：

F(相似度)＝F(音节相似度)+F(拼音相似度)+F(时间相似度)；

服务器如果计算出来对象A的相似度超过设定的阈值，并且改相似度在所有交互对象中排名最高，则认为当前MIC所接收到的输入内容来自候选人脸中的某一个。

105、根据目标相似度从多个候选人脸信息中确定目标人脸信息。

具体的，服务器设备将选择MIC识别出来的文本与唇语识别的文本相似度最高的对象，为目标人脸信息。具体的，服务器进行比较时，首先根据每个候选人脸信息的目标相似度大小对多个候选人脸信息进行排序，服务器将目标相似度中最大值对应的候选人脸信息作为目标人脸信息。

进一步地，服务器将目标人脸信息存储于区块链数据库中，具体此处不做限定。

本发明实施例中，获取待识别的视频流，并对视频流进行分帧，得到视频流对应的多个视频帧；将多个视频帧输入预置的人脸识别模型进行人脸识别，得到多个候选人脸信息，并分别对多个人脸信息进行上下文交互处理，得到每个人脸信息对应的交互信息；将视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；将视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并根据交互信息计算唇语文本和音频文本的相似度，得到目标相似度；根据目标相似度从多个候选人脸信息中确定目标人脸信息，本发明通过对动态的视频流进行实时识别，对识别得到的视频帧进行上下文交互处理，有效提高了视频帧中的人脸的信息关联度，再通过对视频流中的唇语数据进行识别，加强了人脸数据和音频数据的关联度，进而提高了视频数据中人脸识别的准确率。

请参阅图2，本发明实施例中视频数据处理方法的第二个实施例包括：

201、获取待识别的视频流，并对视频流进行分帧，得到视频流对应的多个视频帧；

可选的，服务器从预置的视频数据库中查询待识别的视频流；按照预设目标值对视频流进行分帧，得到多个原始视频帧；基于预置变化率函数对多个原始视频帧进行变化率计算，得到目标变化率；根据目标变化率对多个原始视频帧进行动态调整，得到多个视频帧。

需要说明的是，服务器计算目标变化率，目标变换率用u表示，首先服务器分别计算当前原始视频帧的处理条目m和上一原始视频帧的条目n，服务器计算余弦相似度、词向量值及杰卡德相似度，服务器对余弦相似度，词向量值，杰卡德相似度进行平均计算，得到计算结果，服务器将计算结果作为目标变换率u。服务器进行动态调整具体过程包括：当连续两个目标变化率u均大于0.9时，则服务器设置预设目标值为v为2v；当出现连续两个u<0.9，则服务器设置预设目标值v为v/2，若出现其他情况，服务器保持预设目标值v不变。

202、将多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；

可选的，服务器将多个视频帧输入预置的人脸识别模型，其中，人脸识别模型包括多任务卷积神经网络；通过多任务卷积神经网络对多个视频帧进行人脸检测，若检测到多个视频帧中包括人脸图像，则将多个视频帧确定为多个候选人脸信息；分别提取多个候选人脸信息的交互信息，得到每个候选人脸信息对应的交互信息。

需要说明的是，多个视频帧不一定包含有人脸图像，因而，在本步骤中，可以进一步通过预设的多任务卷积神经网络(Multi-Task ConvolutionalNeural Network，MTCNN)对上述多个视频帧进行筛选，以将不包含人脸图像的多个视频帧筛除出去，避免后续进行无谓的人脸识别操作。若通过上述多任务卷积神经网络检测发现上述多个视频帧中包含一个以上人脸图像，则可以将该多个视频帧确定为需要进行人脸识别操作的多个候选人脸信息。若通过上述多任务卷积神经网络检测发现上述多个视频帧中不包含人脸图像，则服务器在筛除该不包含人脸图像的多个视频帧后，还可以在电子设备中输出提醒消息，以提醒用户当前未能通过上述多个视频帧获取到有效的多个候选人脸信息。

203、调用预置的唇语识别模型分别对每个视频帧进行信息提取，得到每一视频帧对应的文字信息；

可选的，服务器调用预置的唇语识别模型分别对每个视频帧进行信息提取，得到每一视频帧对应的文字信息；对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到唇语文本。

其中，预置的唇语识别模型可以为光学字符识别模型，光学字符识别是在文本检测的基础上，对文本内容进行识别，光学字符识别模型首先定位多个视频帧中的文字区域，然后通过文本框标注出文字区域。服务器进行拼接时是服务器依次将相邻视频帧对应的文字信息拼接为一个整体文本，得到初始文本数据。例如：当相邻两个视频帧对应的文本信息分别为“乘车去A市”和“参加比赛”，服务器对相邻两个视频帧对应的文本信息进行拼接，得到初始文本数据为“乘车去A市参加比赛”。服务器进行标准化处理主要是对初始文本数据中的重复内容进行去除。

204、对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到唇语文本；

具体的，服务器进行去除重复内容具体过程包括：服务器首先计算重复数据，通过计算每一视频帧对应的文本框出现的页数，服务器对于在85％的视频帧中出现的文本信息，则默认是页眉页脚，服务器对页面页脚直接进行删除。然后服务器还对连续重复数据进行去重：对于每个内容，寻找其最大连续上升序列，获取每个内容连续出现的片段，服务器计算连续片段的最大覆盖，服务器求一个时间点，覆盖了尽可能多的连续片段，在覆盖的端点出计算连续出现的内容，服务器删除除了该覆盖点，在当前连续片段中其他地方出现的内容。最后服务器对字幕进行计算具体包括：分别计算文本框的位置、距离页面尾端距离及和其他文本的距离，服务器进行去除重复内容，得到唇语文本。服务器通过多个样本音频对预置的初始自动语音识别模型进行训练，得到训练好的自动语音识别模型。服务器通过自动语音识别模型对目标音频进行处理，得到目标音频对应的音素信息，服务器将音素信息与预置的字和/或词进行对应匹配，得到目标音频数据。服务器提取目标音频数据中的多个短句文本然后拼接得到音频文本。

205、根据每个候选人脸信息对应的交互信息将视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算唇语文本和音频文本的相似度，得到目标相似度；

具体的，服务器从多个候选人脸信息中查找目标相似度最大时对应的候选人脸信息；服务器将目标相似度最大时对应的候选人脸信息确定为目标人脸信息。服务器将多个候选人脸信息进行数据离散化，服务器对候选人脸信息的数据进行预测评估，对不同的要素设置不同的权值进行预测，使得目标候选人脸信息的评估更加准确。

206、根据目标相似度从多个候选人脸信息中确定目标人脸信息。

可选的，服务器基于目标人脸信息和预置的交互规则生成目标操作；对目标人脸信息执行目标操作并返回执行结果。

具体的，服务器基于目标人脸信息和预置的交互规则生成目标操作；服务器对目标人脸信息执行目标操作并返回执行结果根据目标人脸信息与当前业务流程以及开发人员预先设定的交互规则，服务器执行当前业务流程如何流向下一处理节点的目标操作。

上面对本发明实施例中视频数据处理方法进行了描述，下面对本发明实施例中视频数据处理装置进行描述，请参阅图3，本发明实施例中视频数据处理装置第一个实施例包括：

获取模块301，用于获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧；

处理模块302，用于将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；

识别模块303，用于将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；

计算模块304，用于根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度；

生成模块305，用于根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息。

请参阅图4，本发明实施例中视频数据处理装置第二个实施例包括：

可选的，获取模块301具体用于：

从预置的视频数据库中查询待识别的视频流；按照预设目标值对所述视频流进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个视频帧。

可选的，处理模块302具体用于：

将所述多个视频帧输入预置的人脸识别模型，其中，所述人脸识别模型包括多任务卷积神经网络；通过所述多任务卷积神经网络对所述多个视频帧进行人脸检测，若检测到所述多个视频帧中包括人脸图像，则将所述多个视频帧确定为多个候选人脸信息；分别提取所述多个候选人脸信息的交互信息，得到每个候选人脸信息对应的交互信息。

可选的，识别模块303具体用于：

调用预置的唇语识别模型分别对每个所述视频帧进行信息提取，得到每一视频帧对应的文字信息；对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到唇语文本。

可选的，计算模块304具体用于：

提取所述视频流的音频数据，得到目标音频数据；基于所述每个候选人脸信息对应的交互信息并通过预置的自然语言处理模型对所述目标音频数据进行文本转换，得到音频文本；通过预置的相似度函数计算所述唇语文本和所述音频文本的相似度，得到目标相似度。

可选的，生成模块305具体用于：

从所述多个候选人脸信息中查找所述目标相似度最大时对应的候选人脸信息；将目标相似度最大时对应的候选人脸信息确定为目标人脸信息。

可选的，视频数据处理装置还包括：

执行模块306，用于基于所述目标人脸信息和预置的交互规则生成目标操作；对所述目标人脸信息执行所述目标操作并返回执行结果。

上面图3和图4从模块化功能实体的角度对本发明实施例中的视频数据处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中视频数据处理设备进行详细描述。

图5是本发明实施例提供的一种视频数据处理设备的结构示意图，该视频数据处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视频数据处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在视频数据处理设备500上执行存储介质530中的一系列指令操作。

视频数据处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的视频数据处理设备结构并不构成对视频数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种视频数据处理设备，所述视频数据处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述视频数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述视频数据处理方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频数据处理方法，其特征在于，所述视频数据处理方法包括：

获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧；

将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；

将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；

根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度；

根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息。

2.根据权利要求1所述的视频数据处理方法，其特征在于，所述获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧，包括：

从预置的视频数据库中查询待识别的视频流；

按照预设目标值对所述视频流进行分帧，得到多个原始视频帧；

基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；

根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个视频帧。

3.根据权利要求1所述的视频数据处理方法，其特征在于，所述将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息，包括：

将所述多个视频帧输入预置的人脸识别模型，其中，所述人脸识别模型包括多任务卷积神经网络；

通过所述多任务卷积神经网络对所述多个视频帧进行人脸检测，若检测到所述多个视频帧中包括人脸图像，则将所述多个视频帧确定为多个候选人脸信息；

分别提取所述多个候选人脸信息的交互信息，得到每个候选人脸信息对应的交互信息。

4.根据权利要求1所述的视频数据处理方法，其特征在于，所述将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本，包括：

调用预置的唇语识别模型分别对每个所述视频帧进行信息提取，得到每一视频帧对应的文字信息；

对每一视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到唇语文本。

5.根据权利要求1所述的视频数据处理方法，其特征在于，所述根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度，包括：

提取所述视频流的音频数据，得到目标音频数据；

基于所述每个候选人脸信息对应的交互信息并通过预置的自然语言处理模型对所述目标音频数据进行文本转换，得到音频文本；

通过预置的相似度函数计算所述唇语文本和所述音频文本的相似度，得到目标相似度。

6.根据权利要求1所述的视频数据处理方法，其特征在于，所述根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息，包括：

从所述多个候选人脸信息中查找所述目标相似度最大时对应的候选人脸信息；

将目标相似度最大时对应的候选人脸信息确定为目标人脸信息。

7.根据权利要求1-6中任一项所述的视频数据处理方法，其特征在于，在所述根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息之后，所述视频数据处理方法还包括：

基于所述目标人脸信息和预置的交互规则生成目标操作；

对所述目标人脸信息执行所述目标操作并返回执行结果。

8.一种视频数据处理装置，其特征在于，所述视频数据处理装置包括：

获取模块，用于获取待识别的视频流，并对所述视频流进行分帧，得到所述视频流对应的多个视频帧；

处理模块，用于将所述多个视频帧输入预置的人脸识别模型进行人脸信息提取，得到多个候选人脸信息，并分别对所述多个候选人脸信息进行上下文交互处理，得到每个候选人脸信息对应的交互信息；

识别模块，用于将所述视频流输入预置的唇语识别模型进行唇语识别，得到唇语文本；

计算模块，用于根据所述每个候选人脸信息对应的交互信息将所述视频流输入预置的自然语言处理模型中进行音频识别，得到音频文本，并计算所述唇语文本和所述音频文本的相似度，得到目标相似度；

生成模块，用于根据所述目标相似度从所述多个候选人脸信息中确定目标人脸信息。

9.一种视频数据处理设备，其特征在于，所述视频数据处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频数据处理设备执行如权利要求1-7中任一项所述的视频数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的视频数据处理方法。