CN115484508A

CN115484508A - 水印生成方法、装置、设备及存储介质

Info

Publication number: CN115484508A
Application number: CN202211100880.0A
Authority: CN
Inventors: 余世龙; 张亮
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-16

Abstract

本发明涉及数据处理技术领域，尤其涉及一种水印生成方法、装置、设备及存储介质。该方法通过采集视频数据和音频数据；获取外部信息并进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

Description

水印生成方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种水印生成方法、装置、设备及存储介质。

背景技术

随着移动通信技术的迅速发展，以智能手机为首的智能终端以成为人们生活中不可或缺的一部分，只能终端上的各种应用程序也逐渐增多，并且很多应用程序的内部功能较为完善，给用户提供了很多便捷。目前，很多应用程序可显示其水印，比如在iOS***和安卓***中，通常使用贴图的方式实现水印，即在应用程序的窗口上叠加一层接近透明的图片作为水印。

在现有的音视频文件的水印生成方案中，水印通常采用预先设定的图片或文本，无法基于位置信息、用户信息和时间信息等外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印。

综上，现有技术中存在无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

发明内容

本申请的主要目的是提供一种水印生成方法、装置、设备及存储介质，以解决现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

本发明第一方面提供了一种水印生成方法，所述水印生成方法包括：采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据所述采样周期对所述视频数据和所述音频数据进行采样，得到样本数据；根据所述视频类型，确定对应的识别方式，并根据所述识别方式对所述样本数据进行识别，得到识别结果；基于所述比对结果和所述识别结果生成水印信息；基于所述水印信息在所述视频数据中生成对应的水印，得到带水印的视频数据，并基于所述带水印的视频数据和所述音频数据生成带水印的音视频文件。

可选地，在本发明第一方面的第一种实现方式中，所述水印生成方法基于智能终端，其中，所述智能终端具有预设的交互界面；所述获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果，包括：从预设的交互界面读取目标位置、目标用户和目标时间，并从智能终端获取位置信息、用户信息和时间信息；将所述位置信息与所述目标位置进行比对，得到第一比对结果；将所述用户信息与所述目标用户进行比对，得到第二比对结果；将所述时间信息与所述目标时间进行比对，得到第三比对结果，并基于所述第一比对结果、所述第二比对结果、所述第三比对结果生成所述比对结果。

可选地，在本发明第一方面的第二种实现方式中，所述样本数据包括视频截图；所述根据所述识别方式对所述样本数据进行识别，得到识别结果，包括：根据预设的文本识别模型，对所述视频截图进行文本识别，得到文本识别结果；判断所述文本识别结果是否满足预设的文本形式要求；若满足，则基于所述文本识别结果生成所述识别结果；若不满足，则输出判断结果为不满足文本形式要求，并基于所述判断结果生成所述识别结果。

可选地，在本发明第一方面的第三种实现方式中，所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：根据所述视频类型确定对应的目标文本；根据最小编辑距离算法，将所述文本识别结果与所述目标文本进行比对，得到文本相似度；根据所述视频类型确定对应的文本相似度要求，并判断所述文本相似度是否满足预设的文本相似度要求；若满足，则基于所述文本识别结果和所述目标文本生成所述识别结果；若不满足，则输出第二判断结果为不满足文本相似度要求，并基于所述第二判断结果生成所述识别结果。

可选地，在本发明第一方面的第四种实现方式中，所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：根据所述视频类型确定对应的目标图形；根据预设的图形对比识别模型，基于所述目标图形对所述视频截图进行识别，得到图形相似度；根据所述视频类型确定对应的图形相似度要求，并判断所述图形相似度是否满足预设的图形相似度要求；若满足，则基于所述图形识别结果和所述目标图形生成所述识别结果；若不满足，则输出第三判断结果为不满足图形相似度要求，并基于所述第三判断结果生成所述识别结果。

可选地，在本发明第一方面的第五种实现方式中，所述样本数据还包括音频流；所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：从预设的交互界面读取对于用户的人脸识别特征和用户的声纹特征的合法采集权限，并基于所述合法采集权限采集所述人脸识别特征和所述声纹特征，其中，所述对于用户的人脸识别特征和用户的声纹特征的合法采集权限由所述用户上传至所述交互界面；根据预设的人脸识别模型，基于所述人脸识别特征进行人脸识别，得到人脸识别结果；根据预设的声纹识别模型，基于所述声纹特征进行声纹识别，得到声纹识别结果；基于所述人脸识别结果和所述声纹识别结果生成所述识别结果。

可选地，在本发明第一方面的第六种实现方式中，所述水印生成方法基于预设的采样指定界面；在所述根据预设的视频类型确定对应的采样周期之后，还包括：从所述采样指定界面读取用户指定的时间区间和采样对象，其中，所述采样对象包括所述视频数据和所述音频数据；根据所述时间区间和预设的采样间隔时间，生成所述采样对象对应的第二采样周期，并基于所述第二采样周期对所述采样周期进行修改。

本发明第二方面提供了一种水印生成装置，所述水印生成装置包括：采集模块，用于采集视频数据和音频数据；比对模块，用于获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；采样模块，用于根据预设的视频类型确定对应的采样周期，并根据所述采样周期对所述视频数据和所述音频数据进行采样，得到样本数据；识别模块，用于根据所述视频类型，确定对应的识别方式，并根据所述识别方式对所述样本数据进行识别，得到识别结果；第一生成模块，用于基于所述比对结果和所述识别结果生成水印信息；第二生成模块，用于基于所述水印信息在所述视频数据中生成对应的水印，得到带水印的视频数据，并基于所述带水印的视频数据和所述音频数据生成带水印的音视频文件。

可选地，在本发明第二方面的第一种实现方式中，所述比对模块包括：获取单元，用于从预设的交互界面读取目标位置、目标用户和目标时间，并从智能终端获取位置信息、用户信息和时间信息；第一比对单元，用于将所述位置信息与所述目标位置进行比对，得到第一比对结果；第二比对单元，用于将所述用户信息与所述目标用户进行比对，得到第二比对结果；第三比对单元，用于将所述时间信息与所述目标时间进行比对，得到第三比对结果，并基于所述第一比对结果、所述第二比对结果、所述第三比对结果生成所述比对结果。

可选地，在本发明第二方面的第二种实现方式中，所述识别模块包括第一识别单元，用于根据预设的文本识别模型，对所述视频截图进行文本识别，得到文本识别结果；判断所述文本识别结果是否满足预设的文本形式要求；若满足，则基于所述文本识别结果生成所述识别结果；若不满足，则输出判断结果为不满足文本形式要求，并基于所述判断结果生成所述识别结果。

可选地，在本发明第二方面的第三种实现方式中，所述识别模块还包括第二识别单元，用于根据所述视频类型确定对应的目标文本；根据最小编辑距离算法，将所述文本识别结果与所述目标文本进行比对，得到文本相似度；根据所述视频类型确定对应的文本相似度要求，并判断所述文本相似度是否满足预设的文本相似度要求；若满足，则基于所述文本识别结果和所述目标文本生成所述识别结果；若不满足，则输出第二判断结果为不满足文本相似度要求，并基于所述第二判断结果生成所述识别结果。

可选地，在本发明第二方面的第四种实现方式中，所述识别模块还包括第三识别单元，用于根据所述视频类型确定对应的目标图形；根据预设的图形对比识别模型，基于所述目标图形对所述视频截图进行识别，得到图形相似度；根据所述视频类型确定对应的图形相似度要求，并判断所述图形相似度是否满足预设的图形相似度要求；若满足，则基于所述图形识别结果和所述目标图形生成所述识别结果；若不满足，则输出第三判断结果为不满足图形相似度要求，并基于所述第三判断结果生成所述识别结果。

可选地，在本发明第二方面的第五种实现方式中，所述识别模块还包括第四识别单元，用于从预设的交互界面读取对于用户的人脸识别特征和用户的声纹特征的合法采集权限，并基于所述合法采集权限采集所述人脸识别特征和所述声纹特征，其中，所述对于用户的人脸识别特征和用户的声纹特征的合法采集权限由所述用户上传至所述交互界面；根据预设的人脸识别模型，基于所述人脸识别特征进行人脸识别，得到人脸识别结果；根据预设的声纹识别模型，基于所述声纹特征进行声纹识别，得到声纹识别结果；基于所述人脸识别结果和所述声纹识别结果生成所述识别结果。

可选地，在本发明第二方面的第六种实现方式中，所述水印生成装置还包括修改模块，用于从所述采样指定界面读取用户指定的时间区间和采样对象，其中，所述采样对象包括所述视频数据和所述音频数据；根据所述时间区间和预设的采样间隔时间，生成所述采样对象对应的第二采样周期，并基于所述第二采样周期对所述采样周期进行修改。

本发明第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行上述的水印生成方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的水印生成方法的各个步骤。

本发明的技术方案中，该方法具体是通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过预设的识别模型和识别算法对视频数据对应的样本数据进行识别，基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

附图说明

图1为本发明实施例中水印生成方法的第一个实施例示意图；

图2为本发明实施例中水印生成方法的第二个实施例示意图；

图3为本发明实施例中水印生成方法的第三个实施例示意图；

图4为本发明实施例中水印生成装置的一个实施例示意图；

图5为本发明实施例中水印生成装置的另一个实施例示意图；

图6为本发明实施例中计算机设备的一个实施例示意图。

具体实施方式

为了解决现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。本申请提供了一种水印生成方法、装置、设备及存储介质。该方法通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过预设的识别模型和识别算法对视频数据对应的样本数据进行识别，基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中水印生成方法的第一个实施例，该方法的实现步骤如下：

101、采集视频数据和音频数据；

该步骤可以基于智能终端实现，其中，所述智能终端具有Android(安卓)***；

对于该步骤，具体可以通过以下方式实现：

通过采集Android的Camera视频流，得到视频数据，例如，开启子线程VideoEncoderThread利用MediaCodec实现视频流的编码，其中，编码为h264格式；

通过Android的AudioRecord实现录制音频流，得到音频数据，例如，开启子线程AudioEncoderThread利用MediaCodec实现音频流的编码；

在实际应用中，所述MediaCodec类Android提供的用于访问低层多媒体编/解码器接口，它是Android低层多媒体架构的一部分，通常与MediaExtractor、MediaMuxer、AudioTrack结合使用，能够编解码诸如H.264、H.265、AAC、3gp等常见的音视频格式。广义而言，MediaCodec的工作原理就是处理输入数据以产生输出数据。具体来说，MediaCodec在编解码的过程中使用了一组输入/输出缓存区来同步或异步处理数据：首先，客户端向获取到的编解码器输入缓存区写入要编解码的数据并将其提交给编解码器，待编解码器处理完毕后将其转存到编码器的输出缓存区，同时收回客户端对输入缓存区的所有权；然后，客户端从获取到编解码输出缓存区读取编码好的数据进行处理，待处理完毕后编解码器收回客户端对输出缓存区的所有权；不断重复整个过程，直至编码器停止工作或者异常退出。

102、获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

该步骤中，所述获取位置信息、用户信息和时间信息，包括：

从所述智能终端读取获取权限；

根据所述获取权限获取所述位置信息、用户信息和时间信息。

进一步地，所述位置信息可以通过所述智能终端采集卫星定位信号得到；所述用户信息可以通过所述智能终端采集用户输入的用户标识和验证信息得到。

103、根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；

该步骤中，所述样本数据包括视频截图、视频帧和音频帧中的至少一种；

在实际应用中，可以通过视频截图的方式对所述视频数据进行采样，得到视频截图。

104、根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；

对于该步骤，具体可以通过以下方式实现：

在所述样本数据为视频截图时，根据预设的文本识别模型，对所述视频截图进行文本识别，得到文本识别结果，例如，根据所述文本识别模型对视频截图中的车牌号进行识别，得到文本识别结果；

判断所述文本识别结果是否满足预设的文本形式要求，例如，所述文本形式要求可以设为车牌号的文本形式要求；

若满足，则基于所述文本识别结果生成所述识别结果；

若不满足，则输出判断结果为不满足文本形式要求，并基于所述判断结果生成所述识别结果。

进一步地，所述文本识别模型通过预设的文本训练数据集对神经网络模型进行训练得到。

105、基于比对结果和识别结果生成水印信息；

对于该步骤，具体可以通过以下方式实现：

将所述比对结果和所述识别结果转换成字符串，得到所述水印信息。

106、基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件。

该步骤中，所述音视频文件包括MP4文件，即满足MPEG-4协议的文件，其中，MP4是一套用于音频、视频信息的压缩编码标准，由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group，即MPEG)制定；

对于该步骤，具体可以通过以下方式实现：

通过Open Gl将所述水印信息添加至所述视频数据中，得到带水印的视频数据；

通过MediaMuxerThread音视频混合线程为音视频流分别添加音视频轨道，并基于音视频轨道将所述带水印的视频数据和所述音频数据写入MP4文件，其中，所述Open Gl是一个跨编程语言、跨平台的编程图形程序接口，用来渲染2D、3D矢量图形；添加水印的原理主要是利用Open GL绘制多次，把不同的纹理如图片、文本等绘制到纹理或窗口上，达到添加水印的效果。

通过对上述方法的实施，通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过预设的识别模型和识别算法对视频数据对应的样本数据进行识别，基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

请参阅图2，本发明实施例中水印生成方法的第二个实施例，该方法的实现步骤如下：

201、采集视频数据和音频数据；

202、获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

本实施例中，该步骤基于智能终端，其中，所述智能终端具有预设的交互界面；

对于该步骤，具体可以通过以下方式实现：

从预设的交互界面读取目标位置、目标用户和目标时间，并从智能终端获取位置信息、用户信息和时间信息；

将所述位置信息与所述目标位置进行比对，得到第一比对结果，例如，若所述位置信息与所述目标位置一致，则生成第一比对结果为位置一致；若所述位置信息与所述目标位置不一致，则生成第一比对结果为位置一致；

将所述用户信息与所述目标用户进行比对，得到第二比对结果，例如，若所述用户信息与所述目标用户一致，则生成第二比对结果为用户一致；若所述用户信息与所述目标用户不一致，则生成第二比对结果为用户一致；

将所述时间信息与所述目标时间进行比对，得到第三比对结果，例如，若所述时间信息与所述目标时间一致，则生成第三比对结果为时间一致；若所述时间信息与所述目标时间不一致，则生成第三比对结果为时间一致；

基于所述第一比对结果、所述第二比对结果、所述第三比对结果生成所述比对结果。

203、根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；

该步骤中，所述根据采样周期对视频数据和音频数据进行采样，得到样本数据，包括：

根据采样周期抽取视频数据中的视频帧；

根据采样周期抽取音频数据中的音频帧。

204、根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；

对于该步骤，具体可以通过以下方式实现：

根据所述视频类型确定对应的目标文本，例如，所述目标文本包括目标车牌号；

根据最小编辑距离算法，将所述文本识别结果与所述目标文本进行比对，得到文本相似度，其中，编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大；

根据所述视频类型确定对应的文本相似度要求，并判断所述文本相似度是否满足预设的文本相似度要求；

若满足，则基于所述文本识别结果和所述目标文本生成所述识别结果；

若不满足，则输出第二判断结果为不满足文本相似度要求，并基于所述第二判断结果生成所述识别结果。

205、基于比对结果和识别结果生成水印信息；

对于该步骤，具体可以通过以下方式实现：

基于所述第一比对结果、所述第二比对结果和所述第三比对结果生成比对标识符，例如，若所述第一比对结果为位置一致，所述第二比对结果为用户一致，所述第三比对结果为时间一致，则生成比对标识符为字符串“111”。

从所述识别结果中提取所述文本相似度，并基于所述比对标识符和所述文本相似度生成水印信息，例如，当所述文本相似度为100％时，则生成水印信息表示为“1111”。

206、基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件。

对于该步骤，具体可以通过以下方式实现：

通过MediaMuxerThread音视频混合线程为音视频流分别添加音视频轨道，并基于音视频轨道将所述视频数据和所述音频数据写入MP4文件；

通过Open GL将所述水印信息添加至所述MP4文件中，得到带水印的MP4文件，例如，提取所述MP4文件对应的显示参数，根据所述显示参数，通过Open GL将所述水印信息输出至所述MP4文件对应的视图层。

通过对上述方法的实施，通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过对视频数据对应的样本数据进行文字识别，得到文字识别结果，通过最小编辑距离算法将文字识别结果与目标文字进行比对，得到识别结果，基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

请参阅图3，本发明实施例中水印生成方法的第三个实施例，该方法的实现步骤如下：

301、采集视频数据和音频数据；

该步骤可以通过预设的数据同步平台实现，其中，所述数据同步平台具有数据接口，用户可以通过所述数据接口上传数据至所述数据同步平台；

对于该步骤，具体可以通过以下方式实现：

从所述数据同步平台读取视频数据和音频数据。

302、获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

303、根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；

该步骤中，所述数据同步平台具有采样指定界面；

根据所述视频类型，在预设的采样周期表中确定对应的采样周期，其中，所述视频类型可以由用户通过所述数据接口上传至所述数据同步平台；

从所述采样指定界面读取用户指定的时间区间和采样对象，其中，所述采样对象包括所述视频数据和所述音频数据；

根据所述时间区间和预设的采样间隔时间，生成所述采样对象对应的第二采样周期，例如，所述采样间隔时间可以设为1秒；

基于所述第二采样周期对所述采样周期进行修改。

304、根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；

该步骤中，所述数据同步平台具有交互界面；

该步骤中，所述样本数据包括视频截图。

对于该步骤，具体可以通过以下方式实现：

根据所述视频类型确定对应的目标图形；

根据预设的图形对比识别模型，基于所述目标图形对所述视频截图进行识别，得到图形相似度，所述目标图形包括地点标识图形，基于预设的地点标识图形对所述视频截图进行识别；

根据所述视频类型确定对应的图形相似度要求，并判断所述图形相似度是否满足预设的图形相似度要求，例如，所述图形相似度要求可以设为相似度大于百分之七十；

若满足，则基于所述图形识别结果和所述目标图形生成所述识别结果；

若不满足，则输出第三判断结果为不满足图形相似度要求，并基于所述第三判断结果生成所述识别结果。

进一步地，所述图形对比识别模型可以通过预设的图形对比数据集对神经网络模型进行训练得到。

在实际应用中，该步骤还包括：

从预设的交互界面读取对于用户的人脸识别特征和用户的声纹特征的合法采集权限，并基于所述合法采集权限采集所述人脸识别特征和所述声纹特征，其中，所述对于用户的人脸识别特征和用户的声纹特征的合法采集权限由所述用户上传至所述交互界面；

根据预设的人脸识别模型，基于所述人脸识别特征进行人脸识别，得到人脸识别结果；

根据预设的声纹识别模型，基于所述声纹特征进行声纹识别，得到声纹识别结果；

基于所述人脸识别结果和所述声纹识别结果生成所述识别结果。

进一步地，所述人脸识别特征包括人脸数据和人脸立体模型，所述根据预设的人脸识别模型，基于所述人脸识别特征进行人脸识别，得到人脸识别结果的过程，包括：

对人脸立体模型中的各骨骼点位进行识别和标记

接收目标人物的具有深度数据的人脸图像，识别出人脸图像中的至少三个骨骼点位，将其中三个骨骼点位标记为基准点，结合三个基准点的深度数据在三维空间中构建第一基准面模型；

在人脸立体模型中选中三个基准点所对应的骨骼点位，根据人脸立体模型中的三个基准点构建出第二基准面，将第一基准面和第二基准面的面积进行比对，若相同，则目标人物识别成功；

具体地，所述人脸图像直接由激光雷达摄像设备正面拍摄人脸所生成，借由摄像设备检测人脸各位置与摄像设备之间的距离以获取人脸的深度数据；所述人脸图像由具有激光雷达摄像功能和具有设备倾斜角度检测功能的手机终端倾斜拍摄人脸生成，利用激光雷达摄像功能测量终端到各骨骼点位之间的距离，利用设备倾斜角度检测功能获知终端与水平线之间的倾斜角度，根据距离和角度计算各骨骼点位的深度数据。

进一步地，所述声纹识别模型可以通过以下方式训练得到：

将第一声纹数据分别输入至待训练模型包括的教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；

计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量；

在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络；

具体地，所述教师网络和所述学生网络均为ResNet-FPN网络模型，且所述学生网络的网络层数量小于所述教师网络的网络层数量。

305、基于比对结果和识别结果生成水印信息；

306、基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件。

在实际应用中，所述带水印的音视频文件可以通过以下方式生成：

该步骤可以基于所述数据同步平台，其中，所述数据同步平台具有水印生成模块；

对于该步骤，具体可以通过以下方式实现：

响应用户的水印生成指令，并根据所述水印生成指令从所述数据同步平台提取对应的音视频文件；

根据所述水印信息生成水印，例如，提取所述水印信息对应的字符串，并基于所述字符串生成水印；

对所述音视频文件进行解析，选取所述音视频文件对应的视图层，并将所述水印输出至所述视图层，得到所述带水印的音视频文件。

通过对上述方法的实施，通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过预设的识别模型和识别算法对视频数据对应的样本数据进行识别，并采集人脸识别特征和声纹特征，基于预设的模型对人脸识别特征和声纹特征进行识别，并基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

上面对本发明实施例中的水印生成方法进行了描述，下面对本发明实施例中的水印生成装置进行描述，请参照图4，本发明实施例中的水印生成装置的一个实施例，该装置包括：

采集模块401，用于采集视频数据和音频数据；

比对模块402，用于获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

采样模块403，用于根据预设的视频类型确定对应的采样周期，并根据所述采样周期对所述视频数据和所述音频数据进行采样，得到样本数据；

识别模块404，用于根据所述视频类型，确定对应的识别方式，并根据所述识别方式对所述样本数据进行识别，得到识别结果；

第一生成模块405，用于基于所述比对结果和所述识别结果生成水印信息；

第二生成模块406，用于基于所述水印信息在所述视频数据中生成对应的水印，得到带水印的视频数据，并基于所述带水印的视频数据和所述音频数据生成带水印的音视频文件。

通过对上述装置的实施，通过采集视频数据和音频数据；获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；根据预设的视频类型确定对应的采样周期，并根据采样周期对视频数据和音频数据进行采样，得到样本数据；根据视频类型，确定对应的识别方式，并根据识别方式对样本数据进行识别，得到识别结果；基于比对结果和识别结果生成水印信息；基于水印信息在视频数据中生成对应的水印，得到带水印的视频数据，并基于带水印的视频数据和音频数据生成带水印的音视频文件；以上，通过获取位置信息、用户信息和时间信息采集外部信息，并通过预设的识别模型和识别算法对视频数据对应的样本数据进行识别，基于外部信息和识别结果生成水印信息，并基于水印信息在视频数据中生成对应的水印；从而解决了现有技术中存在的无法基于外部信息和视频数据和音频数据的识别结果在音视频文件中生成水印的问题。

请参阅图5，本发明实施例中的水印生成装置的另一个实施例包括：

采集模块401，用于采集视频数据和音频数据；

修改模块407，用于从所述采样指定界面读取用户指定的时间区间和采样对象，其中，所述采样对象包括所述视频数据和所述音频数据；根据所述时间区间和预设的采样间隔时间，生成所述采样对象对应的第二采样周期，并基于所述第二采样周期对所述采样周期进行修改；

在本实施例中，所述比对模块402包括：

获取单元4021，用于从预设的交互界面读取目标位置、目标用户和目标时间，并从智能终端获取位置信息、用户信息和时间信息；

第一比对单元4022，用于将所述位置信息与所述目标位置进行比对，得到第一比对结果；

第二比对单元4023，用于将所述用户信息与所述目标用户进行比对，得到第二比对结果；

第三比对单元4024，用于将所述时间信息与所述目标时间进行比对，得到第三比对结果，并基于所述第一比对结果、所述第二比对结果、所述第三比对结果生成所述比对结果。

在本实施例中，所述识别模块404包括：

第一识别单元4041，用于根据预设的文本识别模型，对所述视频截图进行文本识别，得到文本识别结果；判断所述文本识别结果是否满足预设的文本形式要求；若满足，则基于所述文本识别结果生成所述识别结果；若不满足，则输出判断结果为不满足文本形式要求，并基于所述判断结果生成所述识别结果；

第二识别单元4042，用于根据所述视频类型确定对应的目标文本；根据最小编辑距离算法，将所述文本识别结果与所述目标文本进行比对，得到文本相似度；根据所述视频类型确定对应的文本相似度要求，并判断所述文本相似度是否满足预设的文本相似度要求；若满足，则基于所述文本识别结果和所述目标文本生成所述识别结果；若不满足，则输出第二判断结果为不满足文本相似度要求，并基于所述第二判断结果生成所述识别结果；

第三识别单元4043，用于根据所述视频类型确定对应的目标图形；根据预设的图形对比识别模型，基于所述目标图形对所述视频截图进行识别，得到图形相似度；根据所述视频类型确定对应的图形相似度要求，并判断所述图形相似度是否满足预设的图形相似度要求；若满足，则基于所述图形识别结果和所述目标图形生成所述识别结果；若不满足，则输出第三判断结果为不满足图形相似度要求，并基于所述第三判断结果生成所述识别结果；

第四识别单元4044，用于从预设的交互界面读取对于用户的人脸识别特征和用户的声纹特征的合法采集权限，并基于所述合法采集权限采集所述人脸识别特征和所述声纹特征，其中，所述对于用户的人脸识别特征和用户的声纹特征的合法采集权限由所述用户上传至所述交互界面；根据预设的人脸识别模型，基于所述人脸识别特征进行人脸识别，得到人脸识别结果；根据预设的声纹识别模型，基于所述声纹特征进行声纹识别，得到声纹识别结果；基于所述人脸识别结果和所述声纹识别结果生成所述识别结果。

请参阅图6，下面从硬件处理的角度对本发明实施例中的计算机设备的一个实施例进行详细描述。

图6是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在计算机设备600上执行存储介质630中的一系列指令操作。

计算机设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作***631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的计算机设备结构并不构成对本申请提供的计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述水印生成方法的步骤。

在实际应用中，上述提供的方法可以基于人工智能技术来实现，其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。其具体可以是基于服务器来执行，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音视频文件的水印生成方法，其特征在于，所述水印生成方法包括：

采集视频数据和音频数据；

获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

根据预设的视频类型确定对应的采样周期，并根据所述采样周期对所述视频数据和所述音频数据进行采样，得到样本数据；

根据所述视频类型，确定对应的识别方式，并根据所述识别方式对所述样本数据进行识别，得到识别结果；

基于所述比对结果和所述识别结果生成水印信息；

基于所述水印信息在所述视频数据中生成对应的水印，得到带水印的视频数据，并基于所述带水印的视频数据和所述音频数据生成带水印的音视频文件。

2.根据权利要求1所述的水印生成方法，其特征在于，所述水印生成方法基于智能终端，其中，所述智能终端具有预设的交互界面；

所述获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果，包括：

将所述位置信息与所述目标位置进行比对，得到第一比对结果；

将所述用户信息与所述目标用户进行比对，得到第二比对结果；

将所述时间信息与所述目标时间进行比对，得到第三比对结果，并基于所述第一比对结果、所述第二比对结果、所述第三比对结果生成所述比对结果。

3.根据权利要求2所述的水印生成方法，其特征在于，所述样本数据包括视频截图；

所述根据所述识别方式对所述样本数据进行识别，得到识别结果，包括：

根据预设的文本识别模型，对所述视频截图进行文本识别，得到文本识别结果；

判断所述文本识别结果是否满足预设的文本形式要求；

若满足，则基于所述文本识别结果生成所述识别结果；

4.根据权利要求3所述的水印生成方法，其特征在于，所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：

根据所述视频类型确定对应的目标文本；

根据最小编辑距离算法，将所述文本识别结果与所述目标文本进行比对，得到文本相似度；

5.根据权利要求4所述的水印生成方法，其特征在于，所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：

根据所述视频类型确定对应的目标图形；

根据预设的图形对比识别模型，基于所述目标图形对所述视频截图进行识别，得到图形相似度；

根据所述视频类型确定对应的图形相似度要求，并判断所述图形相似度是否满足预设的图形相似度要求；

6.根据权利要求5所述的水印生成方法，其特征在于，所述样本数据还包括音频流；

所述根据所述识别方式对所述样本数据进行识别，得到识别结果，还包括：

7.根据权利要求1-6中任一项所述的水印生成方法，其特征在于，所述水印生成方法基于预设的采样指定界面；

在所述根据预设的视频类型确定对应的采样周期之后，还包括：

根据所述时间区间和预设的采样间隔时间，生成所述采样对象对应的第二采样周期，并基于所述第二采样周期对所述采样周期进行修改。

8.一种水印生成装置，其特征在于，所述装置包括：

采集模块，用于采集视频数据和音频数据；

比对模块，用于获取位置信息、用户信息和时间信息，并与预设的目标位置、目标用户和目标时间进行比对，得到比对结果；

采样模块，用于根据预设的视频类型确定对应的采样周期，并根据所述采样周期对所述视频数据和所述音频数据进行采样，得到样本数据；

识别模块，用于根据所述视频类型，确定对应的识别方式，并根据所述识别方式对所述样本数据进行识别，得到识别结果；

第一生成模块，用于基于所述比对结果和所述识别结果生成水印信息；

第二生成模块，用于基于所述水印信息在所述视频数据中生成对应的水印，得到带水印的视频数据，并基于所述带水印的视频数据和所述音频数据生成带水印的音视频文件。

9.一种计算机设备，其特征在于，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行如权利要求1-7中任一项所述的水印生成方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项的所述水印生成方法的各个步骤。