CN112347272A

CN112347272A - 一种基于音视频动态特征的流式匹配方法和装置

Info

Publication number: CN112347272A
Application number: CN202010987148.4A
Authority: CN
Inventors: 云晓春; 张冬明; 张成伟; 李舒; 张中一; 杨威; 杜梅婕; 李钊
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-02-09
Anticipated expiration: 2040-09-18
Also published as: CN112347272B

Abstract

本发明涉及一种基于音视频动态特征的流式匹配方法和装置。该方法通过区间索引树和两级哈希表，实现了快速判断每个任意偏移位置的数据是否有匹配的指纹，并输出匹配的状态，解决了音视频匹配速度慢、数据包随机到来并且长度不确定的问题，实现了实时匹配，提高了检测速度；该方法通过建立区间索引树的方式，实现了指纹特征的动态管理，用户可以根据需要动态增删指纹特征，解决了现有的技术方案中指纹特征固定不变，无法随用户需求发生变化的问题。本发明能够快速的检测音视频数据是否与指纹匹配，极大地提高了指纹匹配效率，能够适应高速大流量网络数据的环境，可以根据用户的需要改变指纹特征，满足了指纹特征可能发生变化的需求。

Description

一种基于音视频动态特征的流式匹配方法和装置

技术领域

本发明属于高速网络流量深度分析、音视频识别、动态指纹匹配技术领域，具体涉及一种基于音视频动态特征的流式匹配方法和装置。

背景技术

音视频识别的技术在信息化时代中有广泛的需求。一些安全性要求较高的企业或组织，对互联网传输的音视频内容有较强的监测需求。通过对出入互联网的音视频流量进行监测审计，以发现其中的不良内容。例如，一些娱乐音视频网站供应商，需要对用户上传的音视频内容进行审查，以发现其中的色情、反动、暴力等有害音视频节目。同时企业或者组织通过识别音视频，打击盗版音视频，保护正版音视频权益的需求。通过对音视频流量的检测审计，发现是否有侵犯版权的音视频内容，保护版权方的收益或者规避因盗版带来的法律风险。除此以外，企业或者组织有检测音视频相似性的需求，以便发现相似的音视频，除去重复的音视频，提高网络使用效率或者分析音视频的能力。为了能够及时对在网络传输的音视频进行识别，需要实时地对音视频传输过程每个数据包进行指纹匹配。

现在的音视频特征匹配是针对完整的音视频文件进行的。专利CN107633078A提出了一种音频特征提取和检测方法，它通过提取整个音频的能量极大值点作为指纹，然后与数据库里其他音频的指纹特征做比对，检测音频是否一致。专利CN111368143A提出将整个视频片段输入到多个3D卷积层里得到第一特征向量，然后与视频特征库的数据做比对，检测视频的相似性。现有技术的缺点如下：

1、网络流量的随机性。监测***通过旁路方式获取音视频流量，由于流量镜像、分光、传输等原因，***捕获到的网络流量存在丢包、乱序、不全等现象，导致通过获取固定片段计算摘要不可行。

2、由于现在的音视频识别方法都是通过整个音视频文件或者片段来提取指纹后与指纹数据库里数据进行比对，所以匹配识别缓慢，无法在高速流量中及时识别音视频。

3、音视频的指纹特征可能根据要识别的音视频的类型发生改变，因为用户要识别的音视频类型可能变化。目前的技术方案里都是将能够把音视频区别开来的指纹提取出来进行比对。无法满足添加，删除指纹特征，以便识别特定类型、内容的视频。

发明内容

为了能够满足审查含有暴力、反动、色情的音视频内容，限制不良视频传播、保护原创歌曲和视频版权、减少网络流量中相似音视频的需求，本发明提出了一种流式音视频动态指纹匹配方法。它基于区间索引树和动态哈希表，解决在高速流量中快速识别音视频的问题，满足了企业或者组织音视频快速匹配需求。在检测不良内容、打击盗版音视频、去除重复音视频流等方面都有作用。

本发明采用的技术方案如下：

一种基于音视频动态特征的流式匹配方法，包括以下步骤：

以偏移位置为标准对所有指纹区间建立区间索引树，利用区间索引树存储音视频的指纹信息；

对于待匹配的音视频内容的数据块，通过检索区间索引树找到匹配的指纹并输出指纹匹配结果，从而实现音视频识别。

进一步地，所述区间索引树将不同偏移位置的指纹分配到不同区间，将偏移位置相同的指纹放到同一区间；所述区间索引树包含多个区间节点，每个区间节点包含长度为1的区间和区间附属信息；所述区间附属信息包含最长指纹的长度和第一级哈希表；所述第一级哈希表为长度哈希表，其key为指纹长度，value为第二级哈希表；所述第二级哈希表为指纹哈希表，其key为指纹二进制内容，value为指纹的配置信息。

进一步地，采用以下步骤将指纹添加到所述区间索引树：

步骤1021：根据指纹的偏移位置检索区间索引树，如果没有偏移位置相同的区间节点，则新建一个区间节点，创建一个两级哈希表，并将当前的指纹信息添加到哈希表中；如果有偏移位置相同的区间节点，则进入步骤1022；

步骤1022：通过检索两级哈希表，查询当前节点是否有长度相同的指纹；如果没有，则进入步骤1024；如果有长度相同并且二进制内容不同的指纹，则进入步骤1023；如果有长度和指纹二进制内容相同的指纹，则禁止加入该指纹，结束指纹添加；

步骤1023：向指纹哈希表***数据，在指纹哈希表中加入指纹二进制内容和指纹配置信息，结束指纹添加；

步骤1024：创建一个指纹哈希表，将指纹二进制内容和指纹配置信息添加到指纹哈希表中，同时在长度哈希表中***指纹长度和刚刚创建的指纹哈希表句柄；同时更新区间最长指纹的长度，结束指纹添加。

进一步地，采用以下步骤将所述区间索引树中的指定指纹删除：

步骤1031：查找偏移位置相同的区间节点，如果没有，则没有需要删除的指纹，返回删除无效，结束删除；如果有，进入步骤1032；

步骤1032：查找当前节点的二级哈希表中的长度哈希表，如果没有对应长度的指纹哈希表句柄，则表明没有该长度的指纹存在，删除无效，结束删除；如果有，则进入步骤1033；

步骤1033：以指纹二进制内容检索指纹哈希表，如果没有对应的指纹配置信息，则没有对应指纹存在，删除无效，结束删除；如果有，则进入步骤1034；

步骤1034：删除指纹哈希表中对应的指纹二进制指纹和指纹配置信息，检查指纹哈希表是否为空；如果不为空，则结束删除；如果为空，则进入步骤1035；

步骤1035：删除长度哈希表中对应的指纹长度和指纹哈希表句柄，并更新最长指纹的长度，检查长度哈希表是否为空；如果不为空，结束删除；如果为空，则表明区间节点没有指纹存在，删除该节点，结束删除。

进一步地，所述的对于待匹配的音视频内容的数据块，通过检索区间索引树找到匹配的指纹并输出指纹匹配结果，包括：

步骤2001：流式输入音视频内容，若输入结束，则结束匹配过程；否则，若上一次匹配残留缓存区不为空，则将其与当前输入数据进行合并，作为待匹配的数据块，该数据块偏移位置为缓存区的偏移位置；若上一次匹配残留缓存区为空，则直接将当前输入作为待匹配的数据块；

步骤2002：检索区间索引树，查看是否有区间节点中长度为1的区间包含于输入数据；如果没有，则舍弃数据；如果有，则进入步骤2003；

步骤2003：通过包含的区间节点的最长指纹长度，判断区间节点中最长的指纹是否包含在数据中，即输入数据完全包含指纹区间；如果否，则将数据存储到匹配残留缓存区中，进入步骤2001，等待数据输入；如果是，则进入步骤2004；

步骤2004：遍历长度哈希表的key，通过长度哈希表找到区间节点中所有指纹的指纹哈希表，将数据中偏移位置和长度与指纹相同的一段数据作为指纹哈希表的key，得到对应的value；如果value不存在，则数据与指纹不匹配，结束匹配；如果value存在，则数据与指纹匹配成功，并将成功状态和指纹配置信息输出。

进一步地，步骤2001在进行数据合并时输入数据与指纹区间的重叠情况包括4种：情况1是输入数据完全包含指纹区间；情况2是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据起始偏移位置之前；情况3是指纹区间完全包含输入数据；情况4是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据末尾偏移位置之后。

进一步地，采用下面两种方式将数据合并成为情况1：

1)情况4+n*情况3+情况2：是指依次输入的数据分别为情况4、情况3、情况2时逐步进行数据合并，合并后的数据与指纹的关系为情况1，n表示多个；

2)情况4+情况2：是指依次输入的数据分别为情况4、情况2时合并数据，合并后的数据与指纹的关系为情况1。

一种采用上述方法的一种基于音视频动态特征的流式匹配装置，其包括：

指纹管理模块，以偏移位置为标准对所有指纹区间建立区间索引树，利用区间索引树存储音视频的指纹信息；

指纹识别模块，对于待匹配的音视频内容的数据块，通过检索区间索引树找到匹配的指纹并输出指纹匹配结果，从而实现音视频识别。

本发明的关键点是：

1、音视频数据报文检测。通过区间索引树和两级哈希表，实现了快速判断每个任意偏移位置的数据是否有匹配的指纹，并输出匹配的状态。解决了音视频匹配速度慢、数据包随机到来并且长度不确定的问题，实现了实时匹配，提高了检测速度。

2、动态指纹特征。通过建立区间索引树的方式，实现了指纹特征的动态管理，用户可以根据需要动态增删指纹特征。解决了现有的技术方案中指纹特征固定不变，无法随用户需求发生变化的问题。

本发明的有益效果如下：

1、通过对每个数据报文的检测，取消了对音视频片段长度固定的要求，提高了使用范围。同时避免了对整个音视频进行特征提取，提高检测速度。

2、通过使用两级哈希表，能够快速的检测音视频数据是否与指纹匹配，极大地提高了指纹匹配效率，能够适应高速大流量网络数据的环境。

3、通过区间索引树，实现了指纹特征的动态管理。可以根据用户的需要改变指纹特征，满足了指纹特征可能发生变化的需求。

附图说明

图1是指纹管理模块的工作流程图。

图2是指纹识别模块的工作流程图。

图3是数据合并时输入数据与指纹区间重叠情况示意图。

图4是区间索引树中区间节点结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

流式音视频动态指纹检测框架如图1、图2所示，主要可以分为两个模块：一是指纹管理模块(图1)，该模块以偏移位置为标准对所有指纹区间建立区间索引树，再实现所有指纹信息存储和快速检索。同时包含两个子模块，分别处理指纹信息的添加与删除，实现指纹的动态管理。二是指纹识别模块(图2)，将输入的数据合并成合适大小，检索区间索引树，找到匹配的指纹，输出指纹匹配结果，实现了音视频识别。

下面对每个子模块的详细步骤进行说明。

1.指纹管理模块

(1)区间索引树构建

步骤1011：确定区间索引树节点的数据结构，如图4所示。以长度为1的区间(即音视频中某一个偏移位置构成的区间)作为节点的一部分，将不同偏移位置的指纹分配到不同区间，将偏移位置相同的指纹放到同一区间。为了区别偏移位置相同的指纹，并能快速地根据指纹内容找到指纹配置信息，建立一个两级哈希表。两级哈希表的第一级为长度哈希表，作为区间的附属信息。该哈希表的key为指纹长度，value为第二级哈希表(即指纹哈希表)。第二级为指纹哈希表，key为指纹二进制内容，value为指纹的配置信息。为了能够让输入数据一次尽可能多的找到匹配的指纹，需要知道同一偏移位置指纹中最长指纹的长度，因此在节点添加一个最长指纹长度。这样就形成区间索引树的节点的数据结构。

步骤1012：建立一个区间索引空树，如果初始化有指纹需要添加，则引用指纹添加子模块，进行指纹添加。

(2)指纹添加子模块

指纹添加子模块负责将指纹添加到区间索引树，其主要步骤如下：

步骤1021：根据指纹的偏移位置检索区间索引树，如果没有偏移位置相同的区间节点，则按照步骤1011新建一个区间节点，创建一个两级哈希表，并将当前的指纹信息添加到哈希表中。如果有，则进入步骤1022。

步骤1022：通过检索两级哈希表，查询当前节点是否有长度相同的指纹。如果没有，则进入步骤1024。如果有长度相同并且二进制内容不同的指纹，则进入步骤1023。如果有长度和指纹二进制内容相同的指纹，则禁止加入该指纹，结束指纹添加。

步骤1023：向指纹哈希表***数据。在指纹哈希表中，加入指纹二进制内容和指纹配置信息。结束指纹添加。本发明中的指纹可以是指利用机器学习、神经网络等提取出的音视频特征，指纹配置信息是指由对应的指纹所标识的音视频信息，如是否为盗版，是否涉黄涉暴。

步骤1024：创建一个指纹哈希表，将指纹二进制内容和指纹配置信息添加到指纹哈希表中，同时在长度哈希表中***指纹长度和刚刚创建的指纹哈希表句柄。同时更新区间最长指纹的长度，结束指纹添加。

(3)指纹删除子模块

指纹删除子模块负责将区间索引树中指定指纹删除，其主要步骤如下：

步骤1031：查找偏移位置相同的区间节点，如果没有，则没有需要删除的指纹，返回删除无效，结束删除。如果有，进入步骤1032。

步骤1032：查找当前节点的二级哈希表中的长度哈希表，如果没有对应长度的指纹哈希表句柄，则表明没有该长度的指纹存在，删除无效，结束删除。如果有，则进入步骤1033。

步骤1033：以指纹二进制内容检索指纹哈希表，如果没有对应的指纹配置信息，则没有对应指纹存在，删除无效，结束删除。如果有，则进入步骤1034。

步骤1034：删除指纹哈希表中对应的指纹二进制指纹和指纹配置信息。检查指纹哈希表是否为空。如果不为空，则结束删除。如果为空，则进入步骤1035。

步骤1035：删除长度哈希表中对应的指纹长度和指纹哈希表句柄，并更新最长指纹的长度。检查长度哈希表是否为空。如果不为空，结束删除。如果为空，则表明区间节点没有指纹存在，删除该节点，结束删除。

2.指纹识别模块

步骤2001：流式输入音视频内容，若输入结束，则结束匹配过程。否则，若上一次匹配残留缓存区不为空，则将其与当前输入数据进行合并，作为待匹配的数据块，该数据块偏移位置为缓存区的偏移位置；否则(上一次匹配残留缓存区为空)，直接将当前输入作为待匹配的数据块。

步骤2002：为了能用两级哈希表查询对应的指纹配置信息，数据需要完全包含指纹(如图3情况1)。所以首先检索区间索引树，查看是否有区间节点中长度为一的区间包含于输入数据(由于区间长度为1，所以不会有部分重合的情况)。如果没有，则舍弃数据。如果有，则进入步骤2003。

步骤2003：通过包含的区间的最长指纹长度，判断该区间节点中最长的指纹是否包含在数据中，即图3的情况1。如果不是图3的情况1，而是图3的情况2-4，则将数据存储到匹配残留缓存区中，进入步骤2001，等待数据输入。如果是图3的情况1，则进入步骤2004。

步骤2004：遍历长度哈希表的key，通过长度哈希表找到区间节点中所有指纹的指纹哈希表。将数据中偏移位置和长度与指纹相同的一段数据作为指纹哈希表的key，得到对应的value。如果value不存在，则数据与该指纹不匹配，结束匹配。如果value存在，则数据与指纹匹配成功，并将成功状态和指纹配置信息输出。

图3中，情况1是输入数据完全包含指纹区间；情况2是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据起始偏移位置之前；情况3是指纹区间完全包含输入数据；情况4是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据末尾偏移位置之后。

如图2所示，对于情况2、3、4，需进行数据合并，数据合并的过程包括：

1.将每次输入的数据与匹配残留缓存区中的数据合并；

2.检索区间索引树，查看是否有某一偏移位置的最长指纹完全包含于合并后的数据；

3.如果没有，则将合并后的数据放入匹配残留缓存区中，等待下次数据输入。

这里对数据合并做一些说明，因为数据是从头到尾按序输入的，所以在输入数据与指纹的关系中，最先出现的一定是图3的情况1和情况4。然后才会出现情况2和情况3。

下面是数据合并成为图3情况1的两种方法。

1)图3情况4+n*图3情况3+图3情况2：是指依次输入的数据分别如图3情况4，图3情况3，图3情况2时逐步进行数据合并，合并后的数据与指纹的关系如图3情况1，n表示多个。

2)图3情况4+图3情况2：是指依次输入的数据分别如图3情况4，图3情况2时合并数据，合并后的数据与指纹的关系如图3情况1。

实验数据：数据为某公司网关24小时的真实流量，共收集音视频文件7655个，同时提取了提取音视频特征，建立了音视频特征和音视频文件的映射关系。通过向***输入音视频文件内容，根据音视频特征进行匹配识别，匹配准确率92.3％，召回率90.1％，总体满足实际的应用需求。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于音视频动态特征的流式匹配方法，其特征在于，包括以下步骤：

2.根据权利要求2所述的方法，其特征在于，所述区间索引树将不同偏移位置的指纹分配到不同区间，将偏移位置相同的指纹放到同一区间；所述区间索引树包含多个区间节点，每个区间节点包含长度为1的区间和区间附属信息，所述区间附属信息包含最长指纹的长度和第一级哈希表；所述第一级哈希表为长度哈希表，其key为指纹长度，value为第二级哈希表；所述第二级哈希表为指纹哈希表，其key为指纹二进制内容，value为指纹的配置信息。

3.根据权利要求2所述的方法，其特征在于，采用以下步骤将指纹添加到所述区间索引树：

4.根据权利要求2所述的方法，其特征在于，采用以下步骤将所述区间索引树中的指定指纹删除：

5.根据权利要求2所述的方法，其特征在于，所述的对于待匹配的音视频内容的数据块，通过检索区间索引树找到匹配的指纹并输出指纹匹配结果，包括：

6.根据权利要求5所述的方法，其特征在于，步骤2001在进行数据合并时输入数据与指纹区间的重叠情况包括4种：情况1是输入数据完全包含指纹区间；情况2是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据起始偏移位置之前；情况3是指纹区间完全包含输入数据；情况4是输入数据与指纹区间部分重合，且指纹区间有一部分在输入数据末尾偏移位置之后。

7.根据权利要求6所述的方法，其特征在于，采用下面两种方式将数据合并成为情况1：

8.一种采用权利要求1～7中任一权利要求所述方法的一种基于音视频动态特征的流式匹配装置，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。