CN112685580A

CN112685580A - 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质

Info

Publication number: CN112685580A
Application number: CN202011561246.8A
Authority: CN
Inventors: 姚伟; 王永剑; 王婷; 李超
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-20

Abstract

本发明涉及一种基于深度学习的社交网络头像比对的分布式检测***，其中，该***包括头像采集存储功能模块，用于采集社交网络中用户的头像图片和基本信息；头像相似度训练功能模块，用于对采集到的图片进行特征值提取并构建分布式头像特征向量索引库；头像实时搜索功能模块，用于针对输入的图片进行特征值提取，计算出最相似的若干张头像图片和社交网络用户ID。本发明还涉及一种基于上述***的方法、装置、处理器及计算机可读存储介质。采用了本发明相应的***、方法、装置、处理器及计算机可读存储介质，能够快速实时地对社交网络头像进行比对，且自适应图像的遮挡、旋转、缩放、扭曲等各种变换，也能对同类图像进行准确分类和精准检索。

Description

基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及多媒体图像检索、图像侦察技术领域，具体是指一种基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算机可读存储介质。

背景技术

随着社交媒体网络的兴起，人们越来越倾向于在社交网络媒体上发布自己的最新动态、表达自己的意愿等。人们比以前更多地使用图片等多媒体进行信息分享，图片在传递信息中发挥着更加重要的作用。社交媒体网络中的头像则是标明个人身份及立场的显著标记。通过头像检索比对能够发现对某一话题感兴趣的同类人群甚至马甲用户，也能帮助对特定事件进行追踪溯源。如何高效地从海量头像中检索出符合用户需求地图片，已经成为信息检索和计算机视觉领域重要的研究课题。

基于深度学习卷积神经网络的特征学习在图像分类、目标检测等领域取得了广泛的成功，成为新的研究重点和热点。卷积神经网络可以基于大量的图像数据自动学习图像特征，并且由于卷积神经网络的深度结构，这些特征通过网络逐层进行传导，从而可以获取图像的低层简单特征到高层抽象特征的表达，相比于传统的特征具有更强的判别和泛化性能。

基于特征向量表征的头像比对需要在高维向量空间中计算特征向量之间的相似度，按照相似度的大小返回检索结果。传统的相似性图像检索算法大多是最近邻搜索方法，其查询的时间复杂度与样本数量呈线性关系。随着社交网络头像规模的增加，检索速度势必成为瓶颈。在实际工程实践中，近似近邻算法被提出，可以在查询时间和精度之间进行折衷。因此，如何设计一个快速有效的特征向量索引和近似近邻算法，也成为海量图像检索中的迫切需要。

基于树形索引结构近似近邻查询方法能够将时间复杂度降低到对数级别，但是随着特征维度不断升高，基于树形结构的查询算法产生的开销呈现指数级增长。为了更有效处理高维图像查询问题，局部敏感哈希算法将高维数据投影到低维数据，从而可以利用复杂度极低的距离计算公式进行有效的相似性度量。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够准确分类和精准检索的基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算机可读存储介质如下：

该基于深度学习的社交网络头像比对的分布式检测***，其主要特点是，所述的***包括：

头像采集存储功能模块，用于从互联网上采集社交网络中特定用户的头像图片和基本信息，并将相应的信息进行存储；

头像相似度训练功能模块，与所述的头像采集存储功能模块相连接，用于对采集到的所述的头像图片进行基于深度学习的特征向量提取和基于局部敏感哈希算法的从高维向量到低维向量的转换，并构建头像图片的分布式特征向量索引库；以及

头像实时搜索功能模块，与所述的头像相似度训练功能模块相连接，用于对从所述的头像采集功能模块输入的头像进行特征值计算，并利用近似近邻算法在所述的分布式特征向量索引库中计算最相似的各个头像图片，并将所有的计算结果进行合并得到整体的相似头像图片和社交网络用户ID。

较佳地，所述的头像采集存储功能模块，具体包括：

头像采集单元，用于采用网络数据爬虫从互联网对社交网络中特定用户的头像图片和基本信息进行数据采集；

头像存储单元，用于将所述的头像采集单元采集到的头像图片存储在本地，并使用所述的头像图片的MD5哈希码作为头像图片的唯一标识码，将采集到的所述的特定用户的基本信息存储到键值对应的头像图片数据库中；以及

所述的头像图片数据库，用于存储所述的特定用户的社交网络用户ID、头像图片的本地存储位置及头像图片的唯一标识码等信息。

较佳地，所述的头像相似度训练功能模块，具体包括：

头像预处理单元，与所述的头像存储单元相连接，用于对采集到的所述的特定用户的头像图片进行归一化处理；

深度学习特征向量提取单元，与所述的头像预处理单元相连接，用于对输入至所述的头像预处理单元处理的所述的头像图片使用VGG16神经网络模型进行特征向量的提取；

局部敏感哈希处理单元，与所述的深度学习特征向量提取单元相连接，用于对所述的深度学习特征向量提取单元提取到的所述的头像图片的特征向量进行局部敏感特征哈希值处理，得到所述的头像图片的二进制哈希码；以及

分布式头像特征向量索引库，与所述的二进制哈希码处理单元相连接，通过随机选择任意一台节点，用于将所述的头像图片的唯一标识码和二进制哈希码进行存储。

较佳地，所述的头像实时搜索功能模块，具体包括：

头像输入单元，与所述的头像预处理单元相连接，用于将待检测的头像图片依序输入至所述的头像相似度训练功能模块中的头像预处理模型单元、深度学习特征向量提取单元及局部敏感哈希处理单元进行相应的所述的头像图片的特征值计算处理，得到所述的待检测的头像图片的二进制哈希码；

头像特征表示单元，用于将所述的头像输入单元处理后得到的所述的头像图片进行特征值表示；

相似头像图片计算单元，分别与所述的分布式头像特征向量索引库和头像特征表示单元相连接，基于所述的头像特征表示单元获取的头像图片的特征值，用于采用近似近邻算法计算所述的分布式特征向量索引库中最相似的各个头像图片的特征值；以及

相似用户检测单元，分别与所述的头像图片数据库和相似头像图片计算单元相连接，用于将所述的相似头像图片计算单元计算所得的所有结果进行归并排序，从而得到整体最相似的若干张头像图片，并根据各个头像图片的唯一标识码从所述的头像图片数据库查询对应的社交网络用户ID。

该实现基于深度学习的社交网络头像比对的分布式检测方法，其主要特点是，所述的方法具体包括以下步骤：

(1)所述的头像采集功能模块使用多线程或者多进程的并发方式对社交网络中特定用户的头像图片进行持续采集，并记录下社交网络用户ID、头像图片的存储位置和头像图片数据的唯一标识码之间的对应关系；

(2)所述的头像相似度训练功能模块使用基于ImageNet图像库训练的VGG16神经网络模型，对所述的头像采集功能模块的采集到的头像图片进行特征值提取得到512维的特征向量，利用所述的局部敏感哈希算法将该特征向量映射得到二进制哈希码，并连同该头像图片的唯一标识码，随机存储到任意一台分布式节点上；

(3)所述的头像相似度训练功能模块还使用多个节点构建分布式社交网络中的用户头像图片的分布式头像特征向量索引库，以负载均衡的方式分担头像检索的压力；

(4)所述的头像实时搜索功能模块对输入的头像图片使用所述的步骤(2)中所述的 VGG16神经网络模型计算得到该输入头像图片的特征向量，并使用所述的局部哈希敏感算法将该特征向量转换成二进制哈希码；并在分布式的每台节点上利用所述的近似近邻算法进行各个头像图片的近似值查询，得到最相似的若干张头像图片；

(5)将所述的步骤(4)中获取的每个节点上的若干张最相似的头像图片进行合并，按照相似度度量进行排序，计算得到整体最相似的若干张头像；并通过所述的头像图片的唯一标识码在所述的头像采集功能模块中查找相应的对应关系，得到与该输入的头像图片相对应的社交网络用户和图片文件。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)头像相似度训练模块采用基于卷积神经网络的VGG16网络模型，对采集得到的头像图片进行归一化处理，按照224×224的大小进行缩放处理，并输入到所述的卷积神经网络的VGG16网络模型进行深度学习，提取出512维的特征向量V，所述的512维的特征向量 V具体用以下公式表示：

V＝F(I)；

其中，I为224×224大小的图像，F为VGG16网络模型，V为512维的特征向量；

(2.2)通过局部哈希算法对所述的过程a中获取的512维的特征向量V进行特征值转换，得到所述的头像图片的64位二进制特征码v，该头像图片的64位二进制特征码v具体用以下公式表示：

v＝LSH(V)；

其中，V为512维的特征向量，LSH为局部敏感哈希函数，v为64位二进制特征码。

较佳地，所述的步骤(3)具体为：

(3.1)随机选择任意一台节点，将所述的64位二进制码特征v和头像图片的唯一标识码MD5进行存储，从而构建所述的分布式头像特征向量索引库。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)对于输入查询的头像图片，对其按照224×224的大小进行归一化处理，并依次使用所述的VGG网络模型和局部敏感哈希算法将输入头像转换成所述的64位二进制特征码 v；

(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检索出与所述的64位二进制特征码v最为相似的m张头像，最终得到m*N个最相似头像；具体用以下公式表示：

其中，v为64位二进制特征码，DB_i为分布式头像特征向量索引库中的第i个节点上的向量库，ANN为进行近似近邻算法计算，i为选取的节点数，k为按照相似度从大到小的顺序排列序号，式子ANN(v，DB_i)表示根据输入的所述的64位二进制特征码v为计算得到该特征库中最相似的m个特征向量，

为计算得到的各个头像图片的相似度度量，

为各个头像图片的唯一标识码。

较佳地，所述的步骤(5)具体为：

(5.1)汇总所述的m×N个最相似头像，并按照相似度度量对所有的

进行排序，从而得到最相似的m张头像，将各个相似头像图片的唯一标识码

从所述的头像采集模块中的头像图片数据库中查询得到对应的社交网络用户ID。

该用于实现基于深度学习的社交网络头像比对的分布式检测装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现上述检测方法的各个步骤。

该用于实现基于深度学习的社交网络头像比对的分布式检测处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述检测方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述检测方法的各个步骤。

采用了本发明的基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算机可读存储介质，能够精准的对输入的头像图片在构建好的分布式头像特征向量索引库中展开匹配搜索，对于产生缩放、扭曲、局部涂改等各种形变的头像的也同样能够自适应图像的遮挡、旋转、缩放、扭曲等各种变换，对同类图像进行准确分类和精准检索，实现高效地从海量头像中检索出符合用户需求的图片。

附图说明

图1为本发明的基于深度学习的社交网络头像比对的分布式检测***的总体流程图。

图2为本发明的分布式特征向量索引库搜索最相似头像的比对过程示意图。

图3为本发明的基于形变的头像图片进行相似度特征检索的搜索结果示意图。

图4为本发明的基于同一类型的头像图片进行相似度特征检索的搜索结果示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含” 或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1所示，该基于深度学习的社交网络头像比对的分布式检测***，其中，所述的***包括：

作为本发明的优选实施方式，所述的头像采集存储功能模块，具体包括：

所述的头像图片数据库，用于存储所述的特定用户的社交网络用户ID、头像图片的本地存储位置及头像图片的唯一标识码MD5的信息。

作为本发明的优选实施方式，所述的头像相似度训练功能模块，具体包括：

局部敏感哈希处理单元，与所述的深度学习特征向量提取单元相连接，用于对所述的深度特征向量提取单元提取到的所述的头像图片的特征向量进行局部敏感特征哈希值处理，得到所述的头像图片的二进制哈希码；以及

分布式头像特征向量索引库，与所述的二进制哈希码处理单元相连接，通过随机选择任意一台节点，用于将所述的头像图片的MD5哈希码和二进制哈希码进行存储。

作为本发明的优选实施方式，所述的头像实时搜索功能模块，具体包括：

头像输入单元，与所述的头像预处理单元相连接，用于将待检测的头像图片依序输入至所述的头像相似度训练功能模块中的头像预处理单元、深度学习特征向量提取单元及局部敏感哈希处理单元进行相应的所述的头像图片的特征值计算处理，得到所述的待检测的头像图片的二进制哈希码；

相似用户检测单元，分别与所述的头像图片数据库和相似头像图片计算单元相连接，用于将所述的相似头像图片计算单元计算所得的所有结果进行归并排序，从而得到整体最相似的若干张头像图片，并根据各个头像图片的唯一标示码从所述的头像图片数据库查询对应的社交网络用户ID。

该实现基于深度学习的社交网络头像比对的分布式检测方法，其中，所述的方法具体包括以下步骤：

(2)所述的头像相似度训练功能模块使用基于ImageNet图像库训练的VGG16神经网络模型，对所述的头像采集功能模块的采集到的头像图片进行特征值提取得到512维的特征向量，利用所述的局部敏感哈希算法将该特征向量映射得到二进制哈希码，并结合该头像图片的唯一标识码，随机存储到任意一台分布式节点上；

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

V＝F(I)；

v＝LSH(V)；

作为本发明的优选实施方式，所述的步骤(3)具体为：

请参阅图2所示，作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检索出与所述的64位二进制特征码v最为相似的m张头像，最终得到m*N个最相似头像；具体用以下公式表示头像图片的相似度度量与唯一标识码之间的关系：

为计算得到的各个头像图片的相似度度量，

为各个头像图片的唯一标识码。

作为本发明的优选实施方式，所述的步骤(5)具体为：

该用于实现基于深度学习的实现社交网络头像比对的分布式检测装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

该用于实现基于深度学习的社交网络头像比对的分布式检测处理器，其中，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述检测方法的各个步骤。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述检测方法的各个步骤。

请参阅图3所示，在本发明的一具体实施方式中，图3为对某卡通人物头像基于缩放、扭曲、局部涂改等各种形变的头像图片进行相似图像检索的示例，可以看出，即使对原始图像进行了缩放、扭曲、局部涂改等各种形变，经由本技术方案的检测***进行整体处理后仍然可以将经过形变后最相似的头像图片搜索出来，能够有效的实现对同类图像进行准确分类和精准检索。

请参阅图4所示，在本发明的一具体实施方式中，图4为基于同一类型头像图片进行相似图像检索的示例，可以看出本发明采用的技术方案能够自适应图像的遮挡、旋转、缩放、扭曲等各种变换，同时也能对同类图像进行准确分类和精准检索。

在本发明的一具体实施方式中，本技术方案使用了10台处理器为Intel Xeon E5-2660、主频2GHZ，内存为64G的服务器构建分布式头像特征向量索引库，每台节点大约存储1000 万张头像的向量。表1为本发明整个检测***所需的运行时间，其中，每张头像的处理时间大约为26毫秒。

表1***运行时间复杂度

本发明针对海量社交网络头像的检索问题，提出了基于深度学习模型的分布式头像比对方法：在训练阶段使用基于深度神经网络模型对采集的头像数据进行深度迁移学习得到其特征向量，进而使用局部敏感哈希算法将该高维特征向量投影到低维，然后将该低维特征向量存储到分布式节点中任意一台，构建完成分布式头像低维特征索引库；实时检索时通过深度迁移学习提取出图像特征，然后在每一台的分布式节点上，使用最近邻匹配算法从低维特征索引库中利用复杂度极低的相似度度量找到当前节点上最相似的头像，最后将每台节点上的结果进行归并排序得到最为相似的头像。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或 “实施例”、“实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于深度学习的社交网络头像比对的分布式检测***，其特征在于，所述的***包括：

2.根据权利要求1所述的基于深度学习的社交网络头像比对的分布式检测***，其特征在于，所述的头像采集存储功能模块，具体包括：

所述的头像图片数据库，用于存储所述的特定用户的社交网络用户ID、头像图片的本地存储位置及头像图片的唯一标识码的信息。

3.根据权利要求2所述的基于深度学习的社交网络头像比对的分布式检测***，其特征在于，所述的头像相似度训练功能模块，具体包括：

分布式头像特征向量索引库，与所述的局部敏感哈希处理单元单元相连接，通过随机选择任意一台节点，用于将所述的头像图片的唯一标识码和二进制哈希码进行存储。

4.根据权利要求3所述的基于深度学习的社交网络头像比对的分布式检测***，其特征在于，所述的头像实时搜索功能模块，具体包括：

5.一种利用权利要求1所述的***实现基于深度学习的社交网络头像比对的分布式检测方法，其特征在于，所述的方法具体包括以下步骤：

(4)所述的头像实时搜索功能模块对输入的头像图片使用所述的步骤(2)中所述的VGG16神经网络模型计算得到该输入头像图片的特征向量，并使用所述的局部哈希敏感算法将该特征向量转换成二进制哈希码；并在分布式的每台节点上利用所述的近似近邻算法进行各个头像图片的近似值查询，得到最相似的若干张头像图片；

6.根据权利要求5所述的实现基于深度学习的社交网络头像比对的分布式检测方法，其特征在于，所述的步骤(2)具体包括以下步骤：

(2.1)头像相似度训练模块采用基于卷积神经网络的VGG16网络模型，对采集得到的头像图片进行归一化处理，按照224×224的大小进行缩放处理，并输入到所述的卷积神经网络的VGG16网络模型进行深度学习，提取出512维的特征向量V，所述的512维的特征向量V具体用以下公式表示：

V＝F(I)；

v＝LSH(V)；

7.根据权利要求6所述的实现基于深度学习的社交网络头像比对的分布式检测方法，其特征在于，所述的步骤(3)具体为：

8.根据权利要求7所述的实现基于深度学习的社交网络头像比对的分布式检测方法，其特征在于，所述的步骤(4)具体包括以下步骤：

(4.1)对于输入查询的头像图片，对其按照224×224的大小进行归一化处理，并依次使用所述的VGG网络模型和局部敏感哈希算法将输入头像转换成所述的64位二进制特征码v；

(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检索出与所述的64位二进制特征码v最为相似的m张头像，最终得到m×N个最相似头像；具体用以下公式表示头像图片的相似度度量与唯一标识码之间的关系：

为计算得到的各个头像图片的相似度度量，

为各个头像图片的唯一标识码。

9.根据权利要求8所述的实现基于深度学习的社交网络头像比对的分布式检测方法，其特征在于，所述的步骤(5)具体为：

10.一种用于实现基于深度学习的社交网络头像比对的分布式检测装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现权利要求5～9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。

11.一种用于实现基于深度学习的社交网络头像比对的分布式检测处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求5～9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求5～9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。