CN112685580A - 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质 - Google Patents

基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质 Download PDF

Info

Publication number
CN112685580A
CN112685580A CN202011561246.8A CN202011561246A CN112685580A CN 112685580 A CN112685580 A CN 112685580A CN 202011561246 A CN202011561246 A CN 202011561246A CN 112685580 A CN112685580 A CN 112685580A
Authority
CN
China
Prior art keywords
head portrait
picture
social network
deep learning
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011561246.8A
Other languages
English (en)
Inventor
姚伟
王永剑
王婷
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Research Institute of the Ministry of Public Security
Original Assignee
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Research Institute of the Ministry of Public Security filed Critical Third Research Institute of the Ministry of Public Security
Priority to CN202011561246.8A priority Critical patent/CN112685580A/zh
Publication of CN112685580A publication Critical patent/CN112685580A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度学习的社交网络头像比对的分布式检测***,其中,该***包括头像采集存储功能模块,用于采集社交网络中用户的头像图片和基本信息;头像相似度训练功能模块,用于对采集到的图片进行特征值提取并构建分布式头像特征向量索引库;头像实时搜索功能模块,用于针对输入的图片进行特征值提取,计算出最相似的若干张头像图片和社交网络用户ID。本发明还涉及一种基于上述***的方法、装置、处理器及计算机可读存储介质。采用了本发明相应的***、方法、装置、处理器及计算机可读存储介质,能够快速实时地对社交网络头像进行比对,且自适应图像的遮挡、旋转、缩放、扭曲等各种变换,也能对同类图像进行准确分类和精准检索。

Description

基于深度学习的社交网络头像比对的分布式检测***、方法、 装置、处理器及其存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及多媒体图像检索、图像侦察技术领域,具体是 指一种基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算 机可读存储介质。
背景技术
随着社交媒体网络的兴起,人们越来越倾向于在社交网络媒体上发布自己的最新动态、 表达自己的意愿等。人们比以前更多地使用图片等多媒体进行信息分享,图片在传递信息中 发挥着更加重要的作用。社交媒体网络中的头像则是标明个人身份及立场的显著标记。通过 头像检索比对能够发现对某一话题感兴趣的同类人群甚至马甲用户,也能帮助对特定事件进 行追踪溯源。如何高效地从海量头像中检索出符合用户需求地图片,已经成为信息检索和计 算机视觉领域重要的研究课题。
基于深度学习卷积神经网络的特征学习在图像分类、目标检测等领域取得了广泛的成功, 成为新的研究重点和热点。卷积神经网络可以基于大量的图像数据自动学习图像特征,并且 由于卷积神经网络的深度结构,这些特征通过网络逐层进行传导,从而可以获取图像的低层 简单特征到高层抽象特征的表达,相比于传统的特征具有更强的判别和泛化性能。
基于特征向量表征的头像比对需要在高维向量空间中计算特征向量之间的相似度,按照 相似度的大小返回检索结果。传统的相似性图像检索算法大多是最近邻搜索方法,其查询的 时间复杂度与样本数量呈线性关系。随着社交网络头像规模的增加,检索速度势必成为瓶颈。 在实际工程实践中,近似近邻算法被提出,可以在查询时间和精度之间进行折衷。因此,如 何设计一个快速有效的特征向量索引和近似近邻算法,也成为海量图像检索中的迫切需要。
基于树形索引结构近似近邻查询方法能够将时间复杂度降低到对数级别,但是随着特征 维度不断升高,基于树形结构的查询算法产生的开销呈现指数级增长。为了更有效处理高维 图像查询问题,局部敏感哈希算法将高维数据投影到低维数据,从而可以利用复杂度极低的 距离计算公式进行有效的相似性度量。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够准确分类和精准检索的基 于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其计算机可读存 储介质。
为了实现上述目的,本发明的基于深度学习的社交网络头像比对的分布式检测***、方 法、装置、处理器及其计算机可读存储介质如下:
该基于深度学习的社交网络头像比对的分布式检测***,其主要特点是,所述的***包 括:
头像采集存储功能模块,用于从互联网上采集社交网络中特定用户的头像图片和基本信 息,并将相应的信息进行存储;
头像相似度训练功能模块,与所述的头像采集存储功能模块相连接,用于对采集到的所 述的头像图片进行基于深度学习的特征向量提取和基于局部敏感哈希算法的从高维向量到低 维向量的转换,并构建头像图片的分布式特征向量索引库;以及
头像实时搜索功能模块,与所述的头像相似度训练功能模块相连接,用于对从所述的头 像采集功能模块输入的头像进行特征值计算,并利用近似近邻算法在所述的分布式特征向量 索引库中计算最相似的各个头像图片,并将所有的计算结果进行合并得到整体的相似头像图 片和社交网络用户ID。
较佳地,所述的头像采集存储功能模块,具体包括:
头像采集单元,用于采用网络数据爬虫从互联网对社交网络中特定用户的头像图片和基 本信息进行数据采集;
头像存储单元,用于将所述的头像采集单元采集到的头像图片存储在本地,并使用所述 的头像图片的MD5哈希码作为头像图片的唯一标识码,将采集到的所述的特定用户的基本信 息存储到键值对应的头像图片数据库中;以及
所述的头像图片数据库,用于存储所述的特定用户的社交网络用户ID、头像图片的本地 存储位置及头像图片的唯一标识码等信息。
较佳地,所述的头像相似度训练功能模块,具体包括:
头像预处理单元,与所述的头像存储单元相连接,用于对采集到的所述的特定用户的头 像图片进行归一化处理;
深度学习特征向量提取单元,与所述的头像预处理单元相连接,用于对输入至所述的头 像预处理单元处理的所述的头像图片使用VGG16神经网络模型进行特征向量的提取;
局部敏感哈希处理单元,与所述的深度学习特征向量提取单元相连接,用于对所述的深 度学习特征向量提取单元提取到的所述的头像图片的特征向量进行局部敏感特征哈希值处理, 得到所述的头像图片的二进制哈希码;以及
分布式头像特征向量索引库,与所述的二进制哈希码处理单元相连接,通过随机选择任 意一台节点,用于将所述的头像图片的唯一标识码和二进制哈希码进行存储。
较佳地,所述的头像实时搜索功能模块,具体包括:
头像输入单元,与所述的头像预处理单元相连接,用于将待检测的头像图片依序输入至 所述的头像相似度训练功能模块中的头像预处理模型单元、深度学习特征向量提取单元及局 部敏感哈希处理单元进行相应的所述的头像图片的特征值计算处理,得到所述的待检测的头 像图片的二进制哈希码;
头像特征表示单元,用于将所述的头像输入单元处理后得到的所述的头像图片进行特征 值表示;
相似头像图片计算单元,分别与所述的分布式头像特征向量索引库和头像特征表示单元 相连接,基于所述的头像特征表示单元获取的头像图片的特征值,用于采用近似近邻算法计 算所述的分布式特征向量索引库中最相似的各个头像图片的特征值;以及
相似用户检测单元,分别与所述的头像图片数据库和相似头像图片计算单元相连接,用 于将所述的相似头像图片计算单元计算所得的所有结果进行归并排序,从而得到整体最相似 的若干张头像图片,并根据各个头像图片的唯一标识码从所述的头像图片数据库查询对应的 社交网络用户ID。
该实现基于深度学习的社交网络头像比对的分布式检测方法,其主要特点是,所述的方 法具体包括以下步骤:
(1)所述的头像采集功能模块使用多线程或者多进程的并发方式对社交网络中特定用户 的头像图片进行持续采集,并记录下社交网络用户ID、头像图片的存储位置和头像图片数据 的唯一标识码之间的对应关系;
(2)所述的头像相似度训练功能模块使用基于ImageNet图像库训练的VGG16神经网络 模型,对所述的头像采集功能模块的采集到的头像图片进行特征值提取得到512维的特征向 量,利用所述的局部敏感哈希算法将该特征向量映射得到二进制哈希码,并连同该头像图片 的唯一标识码,随机存储到任意一台分布式节点上;
(3)所述的头像相似度训练功能模块还使用多个节点构建分布式社交网络中的用户头像 图片的分布式头像特征向量索引库,以负载均衡的方式分担头像检索的压力;
(4)所述的头像实时搜索功能模块对输入的头像图片使用所述的步骤(2)中所述的 VGG16神经网络模型计算得到该输入头像图片的特征向量,并使用所述的局部哈希敏感算法 将该特征向量转换成二进制哈希码;并在分布式的每台节点上利用所述的近似近邻算法进行 各个头像图片的近似值查询,得到最相似的若干张头像图片;
(5)将所述的步骤(4)中获取的每个节点上的若干张最相似的头像图片进行合并,按 照相似度度量进行排序,计算得到整体最相似的若干张头像;并通过所述的头像图片的唯一 标识码在所述的头像采集功能模块中查找相应的对应关系,得到与该输入的头像图片相对应 的社交网络用户和图片文件。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)头像相似度训练模块采用基于卷积神经网络的VGG16网络模型,对采集得到的 头像图片进行归一化处理,按照224×224的大小进行缩放处理,并输入到所述的卷积神经网 络的VGG16网络模型进行深度学习,提取出512维的特征向量V,所述的512维的特征向量 V具体用以下公式表示:
V=F(I);
其中,I为224×224大小的图像,F为VGG16网络模型,V为512维的特征向量;
(2.2)通过局部哈希算法对所述的过程a中获取的512维的特征向量V进行特征值转换, 得到所述的头像图片的64位二进制特征码v,该头像图片的64位二进制特征码v具体用以下 公式表示:
v=LSH(V);
其中,V为512维的特征向量,LSH为局部敏感哈希函数,v为64位二进制特征码。
较佳地,所述的步骤(3)具体为:
(3.1)随机选择任意一台节点,将所述的64位二进制码特征v和头像图片的唯一标识 码MD5进行存储,从而构建所述的分布式头像特征向量索引库。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)对于输入查询的头像图片,对其按照224×224的大小进行归一化处理,并依次 使用所述的VGG网络模型和局部敏感哈希算法将输入头像转换成所述的64位二进制特征码 v;
(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检 索出与所述的64位二进制特征码v最为相似的m张头像,最终得到m*N个最相似头像;具 体用以下公式表示:
Figure BDA0002859447890000051
其中,v为64位二进制特征码,DBi为分布式头像特征向量索引库中的第i个节点上的向 量库,ANN为进行近似近邻算法计算,i为选取的节点数,k为按照相似度从大到小的顺序排 列序号,式子ANN(v,DBi)表示根据输入的所述的64位二进制特征码v为计算得到该特征库 中最相似的m个特征向量,
Figure BDA0002859447890000052
为计算得到的各个头像图片的相似度度量,
Figure BDA0002859447890000053
为各个头 像图片的唯一标识码。
较佳地,所述的步骤(5)具体为:
(5.1)汇总所述的m×N个最相似头像,并按照相似度度量对所有的
Figure BDA0002859447890000054
进行排序,从 而得到最相似的m张头像,将各个相似头像图片的唯一标识码
Figure BDA0002859447890000055
从所述的头像采集模块 中的头像图片数据库中查询得到对应的社交网络用户ID。
该用于实现基于深度学习的社交网络头像比对的分布式检测装置,其主要特点是,所述 的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行 时,实现上述检测方法的各个步骤。
该用于实现基于深度学习的社交网络头像比对的分布式检测处理器,其主要特点是,所 述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行 时,实现上述检测方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可 被处理器执行以实现上述检测方法的各个步骤。
采用了本发明的基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处 理器及其计算机可读存储介质,能够精准的对输入的头像图片在构建好的分布式头像特征向 量索引库中展开匹配搜索,对于产生缩放、扭曲、局部涂改等各种形变的头像的也同样能够 自适应图像的遮挡、旋转、缩放、扭曲等各种变换,对同类图像进行准确分类和精准检索, 实现高效地从海量头像中检索出符合用户需求的图片。
附图说明
图1为本发明的基于深度学习的社交网络头像比对的分布式检测***的总体流程图。
图2为本发明的分布式特征向量索引库搜索最相似头像的比对过程示意图。
图3为本发明的基于形变的头像图片进行相似度特征检索的搜索结果示意图。
图4为本发明的基于同一类型的头像图片进行相似度特征检索的搜索结果示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含” 或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或 者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、 物品或者设备所固有的要素。
请参阅图1所示,该基于深度学习的社交网络头像比对的分布式检测***,其中,所述 的***包括:
头像采集存储功能模块,用于从互联网上采集社交网络中特定用户的头像图片和基本信 息,并将相应的信息进行存储;
头像相似度训练功能模块,与所述的头像采集存储功能模块相连接,用于对采集到的所 述的头像图片进行基于深度学习的特征向量提取和基于局部敏感哈希算法的从高维向量到低 维向量的转换,并构建头像图片的分布式特征向量索引库;以及
头像实时搜索功能模块,与所述的头像相似度训练功能模块相连接,用于对从所述的头 像采集功能模块输入的头像进行特征值计算,并利用近似近邻算法在所述的分布式特征向量 索引库中计算最相似的各个头像图片,并将所有的计算结果进行合并得到整体的相似头像图 片和社交网络用户ID。
作为本发明的优选实施方式,所述的头像采集存储功能模块,具体包括:
头像采集单元,用于采用网络数据爬虫从互联网对社交网络中特定用户的头像图片和基 本信息进行数据采集;
头像存储单元,用于将所述的头像采集单元采集到的头像图片存储在本地,并使用所述 的头像图片的MD5哈希码作为头像图片的唯一标识码,将采集到的所述的特定用户的基本信 息存储到键值对应的头像图片数据库中;以及
所述的头像图片数据库,用于存储所述的特定用户的社交网络用户ID、头像图片的本地 存储位置及头像图片的唯一标识码MD5的信息。
作为本发明的优选实施方式,所述的头像相似度训练功能模块,具体包括:
头像预处理单元,与所述的头像存储单元相连接,用于对采集到的所述的特定用户的头 像图片进行归一化处理;
深度学习特征向量提取单元,与所述的头像预处理单元相连接,用于对输入至所述的头 像预处理单元处理的所述的头像图片使用VGG16神经网络模型进行特征向量的提取;
局部敏感哈希处理单元,与所述的深度学习特征向量提取单元相连接,用于对所述的深 度特征向量提取单元提取到的所述的头像图片的特征向量进行局部敏感特征哈希值处理,得 到所述的头像图片的二进制哈希码;以及
分布式头像特征向量索引库,与所述的二进制哈希码处理单元相连接,通过随机选择任 意一台节点,用于将所述的头像图片的MD5哈希码和二进制哈希码进行存储。
作为本发明的优选实施方式,所述的头像实时搜索功能模块,具体包括:
头像输入单元,与所述的头像预处理单元相连接,用于将待检测的头像图片依序输入至 所述的头像相似度训练功能模块中的头像预处理单元、深度学习特征向量提取单元及局部敏 感哈希处理单元进行相应的所述的头像图片的特征值计算处理,得到所述的待检测的头像图 片的二进制哈希码;
头像特征表示单元,用于将所述的头像输入单元处理后得到的所述的头像图片进行特征 值表示;
相似头像图片计算单元,分别与所述的分布式头像特征向量索引库和头像特征表示单元 相连接,基于所述的头像特征表示单元获取的头像图片的特征值,用于采用近似近邻算法计 算所述的分布式特征向量索引库中最相似的各个头像图片的特征值;以及
相似用户检测单元,分别与所述的头像图片数据库和相似头像图片计算单元相连接,用 于将所述的相似头像图片计算单元计算所得的所有结果进行归并排序,从而得到整体最相似 的若干张头像图片,并根据各个头像图片的唯一标示码从所述的头像图片数据库查询对应的 社交网络用户ID。
该实现基于深度学习的社交网络头像比对的分布式检测方法,其中,所述的方法具体包 括以下步骤:
(1)所述的头像采集功能模块使用多线程或者多进程的并发方式对社交网络中特定用户 的头像图片进行持续采集,并记录下社交网络用户ID、头像图片的存储位置和头像图片数据 的唯一标识码之间的对应关系;
(2)所述的头像相似度训练功能模块使用基于ImageNet图像库训练的VGG16神经网络 模型,对所述的头像采集功能模块的采集到的头像图片进行特征值提取得到512维的特征向 量,利用所述的局部敏感哈希算法将该特征向量映射得到二进制哈希码,并结合该头像图片 的唯一标识码,随机存储到任意一台分布式节点上;
(3)所述的头像相似度训练功能模块还使用多个节点构建分布式社交网络中的用户头像 图片的分布式头像特征向量索引库,以负载均衡的方式分担头像检索的压力;
(4)所述的头像实时搜索功能模块对输入的头像图片使用所述的步骤(2)中所述的 VGG16神经网络模型计算得到该输入头像图片的特征向量,并使用所述的局部哈希敏感算法 将该特征向量转换成二进制哈希码;并在分布式的每台节点上利用所述的近似近邻算法进行 各个头像图片的近似值查询,得到最相似的若干张头像图片;
(5)将所述的步骤(4)中获取的每个节点上的若干张最相似的头像图片进行合并,按 照相似度度量进行排序,计算得到整体最相似的若干张头像;并通过所述的头像图片的唯一 标识码在所述的头像采集功能模块中查找相应的对应关系,得到与该输入的头像图片相对应 的社交网络用户和图片文件。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
(2.1)头像相似度训练模块采用基于卷积神经网络的VGG16网络模型,对采集得到的 头像图片进行归一化处理,按照224×224的大小进行缩放处理,并输入到所述的卷积神经网 络的VGG16网络模型进行深度学习,提取出512维的特征向量V,所述的512维的特征向量 V具体用以下公式表示:
V=F(I);
其中,I为224×224大小的图像,F为VGG16网络模型,V为512维的特征向量;
(2.2)通过局部哈希算法对所述的过程a中获取的512维的特征向量V进行特征值转换, 得到所述的头像图片的64位二进制特征码v,该头像图片的64位二进制特征码v具体用以下 公式表示:
v=LSH(V);
其中,V为512维的特征向量,LSH为局部敏感哈希函数,v为64位二进制特征码。
作为本发明的优选实施方式,所述的步骤(3)具体为:
(3.1)随机选择任意一台节点,将所述的64位二进制码特征v和头像图片的唯一标识 码MD5进行存储,从而构建所述的分布式头像特征向量索引库。
请参阅图2所示,作为本发明的优选实施方式,所述的步骤(4)具体包括以下步骤:
(4.1)对于输入查询的头像图片,对其按照224×224的大小进行归一化处理,并依次 使用所述的VGG网络模型和局部敏感哈希算法将输入头像转换成所述的64位二进制特征码 v;
(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检 索出与所述的64位二进制特征码v最为相似的m张头像,最终得到m*N个最相似头像;具 体用以下公式表示头像图片的相似度度量与唯一标识码之间的关系:
Figure BDA0002859447890000091
其中,v为64位二进制特征码,DBi为分布式头像特征向量索引库中的第i个节点上的向 量库,ANN为进行近似近邻算法计算,i为选取的节点数,k为按照相似度从大到小的顺序排 列序号,式子ANN(v,DBi)表示根据输入的所述的64位二进制特征码v为计算得到该特征库 中最相似的m个特征向量,
Figure BDA0002859447890000092
为计算得到的各个头像图片的相似度度量,
Figure BDA0002859447890000093
为各个头 像图片的唯一标识码。
作为本发明的优选实施方式,所述的步骤(5)具体为:
(5.1)汇总所述的m×N个最相似头像,并按照相似度度量对所有的
Figure BDA0002859447890000094
进行排序,从 而得到最相似的m张头像,将各个相似头像图片的唯一标识码
Figure BDA0002859447890000095
从所述的头像采集模块 中的头像图片数据库中查询得到对应的社交网络用户ID。
该用于实现基于深度学习的实现社交网络头像比对的分布式检测装置,其中,所述的装 置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行 时,实现上述检测方法的各个步骤。
该用于实现基于深度学习的社交网络头像比对的分布式检测处理器,其中,所述的处理 器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现 上述检测方法的各个步骤。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器 执行以实现上述检测方法的各个步骤。
请参阅图3所示,在本发明的一具体实施方式中,图3为对某卡通人物头像基于缩放、 扭曲、局部涂改等各种形变的头像图片进行相似图像检索的示例,可以看出,即使对原始图 像进行了缩放、扭曲、局部涂改等各种形变,经由本技术方案的检测***进行整体处理后仍 然可以将经过形变后最相似的头像图片搜索出来,能够有效的实现对同类图像进行准确分类 和精准检索。
请参阅图4所示,在本发明的一具体实施方式中,图4为基于同一类型头像图片进行相 似图像检索的示例,可以看出本发明采用的技术方案能够自适应图像的遮挡、旋转、缩放、 扭曲等各种变换,同时也能对同类图像进行准确分类和精准检索。
在本发明的一具体实施方式中,本技术方案使用了10台处理器为Intel Xeon E5-2660、 主频2GHZ,内存为64G的服务器构建分布式头像特征向量索引库,每台节点大约存储1000 万张头像的向量。表1为本发明整个检测***所需的运行时间,其中,每张头像的处理时间 大约为26毫秒。
表1***运行时间复杂度
Figure BDA0002859447890000101
本发明针对海量社交网络头像的检索问题,提出了基于深度学习模型的分布式头像比对 方法:在训练阶段使用基于深度神经网络模型对采集的头像数据进行深度迁移学习得到其特 征向量,进而使用局部敏感哈希算法将该高维特征向量投影到低维,然后将该低维特征向量 存储到分布式节点中任意一台,构建完成分布式头像低维特征索引库;实时检索时通过深度 迁移学习提取出图像特征,然后在每一台的分布式节点上,使用最近邻匹配算法从低维特征 索引库中利用复杂度极低的相似度度量找到当前节点上最相似的头像,最后将每台节点上的 结果进行归并排序得到最为相似的头像。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施 方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件 来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以 通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在 执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以 采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模 块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或 “实施例”、“实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述 不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任 何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的, 不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进 行变化、修改、替换和变型。
采用了本发明的基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处 理器及其计算机可读存储介质,能够精准的对输入的头像图片在构建好的分布式头像特征向 量索引库中展开匹配搜索,对于产生缩放、扭曲、局部涂改等各种形变的头像的也同样能够 自适应图像的遮挡、旋转、缩放、扭曲等各种变换,对同类图像进行准确分类和精准检索, 实现高效地从海量头像中检索出符合用户需求的图片。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种 修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限 制性的。

Claims (12)

1.一种基于深度学习的社交网络头像比对的分布式检测***,其特征在于,所述的***包括:
头像采集存储功能模块,用于从互联网上采集社交网络中特定用户的头像图片和基本信息,并将相应的信息进行存储;
头像相似度训练功能模块,与所述的头像采集存储功能模块相连接,用于对采集到的所述的头像图片进行基于深度学习的特征向量提取和基于局部敏感哈希算法的从高维向量到低维向量的转换,并构建头像图片的分布式特征向量索引库;以及
头像实时搜索功能模块,与所述的头像相似度训练功能模块相连接,用于对从所述的头像采集功能模块输入的头像进行特征值计算,并利用近似近邻算法在所述的分布式特征向量索引库中计算最相似的各个头像图片,并将所有的计算结果进行合并得到整体的相似头像图片和社交网络用户ID。
2.根据权利要求1所述的基于深度学习的社交网络头像比对的分布式检测***,其特征在于,所述的头像采集存储功能模块,具体包括:
头像采集单元,用于采用网络数据爬虫从互联网对社交网络中特定用户的头像图片和基本信息进行数据采集;
头像存储单元,用于将所述的头像采集单元采集到的头像图片存储在本地,并使用所述的头像图片的MD5哈希码作为头像图片的唯一标识码,将采集到的所述的特定用户的基本信息存储到键值对应的头像图片数据库中;以及
所述的头像图片数据库,用于存储所述的特定用户的社交网络用户ID、头像图片的本地存储位置及头像图片的唯一标识码的信息。
3.根据权利要求2所述的基于深度学习的社交网络头像比对的分布式检测***,其特征在于,所述的头像相似度训练功能模块,具体包括:
头像预处理单元,与所述的头像存储单元相连接,用于对采集到的所述的特定用户的头像图片进行归一化处理;
深度学习特征向量提取单元,与所述的头像预处理单元相连接,用于对输入至所述的头像预处理单元处理的所述的头像图片使用VGG16神经网络模型进行特征向量的提取;
局部敏感哈希处理单元,与所述的深度学习特征向量提取单元相连接,用于对所述的深度学习特征向量提取单元提取到的所述的头像图片的特征向量进行局部敏感特征哈希值处理,得到所述的头像图片的二进制哈希码;以及
分布式头像特征向量索引库,与所述的局部敏感哈希处理单元单元相连接,通过随机选择任意一台节点,用于将所述的头像图片的唯一标识码和二进制哈希码进行存储。
4.根据权利要求3所述的基于深度学习的社交网络头像比对的分布式检测***,其特征在于,所述的头像实时搜索功能模块,具体包括:
头像输入单元,与所述的头像预处理单元相连接,用于将待检测的头像图片依序输入至所述的头像相似度训练功能模块中的头像预处理单元、深度学习特征向量提取单元及局部敏感哈希处理单元进行相应的所述的头像图片的特征值计算处理,得到所述的待检测的头像图片的二进制哈希码;
头像特征表示单元,用于将所述的头像输入单元处理后得到的所述的头像图片进行特征值表示;
相似头像图片计算单元,分别与所述的分布式头像特征向量索引库和头像特征表示单元相连接,基于所述的头像特征表示单元获取的头像图片的特征值,用于采用近似近邻算法计算所述的分布式特征向量索引库中最相似的各个头像图片的特征值;以及
相似用户检测单元,分别与所述的头像图片数据库和相似头像图片计算单元相连接,用于将所述的相似头像图片计算单元计算所得的所有结果进行归并排序,从而得到整体最相似的若干张头像图片,并根据各个头像图片的唯一标识码从所述的头像图片数据库查询对应的社交网络用户ID。
5.一种利用权利要求1所述的***实现基于深度学习的社交网络头像比对的分布式检测方法,其特征在于,所述的方法具体包括以下步骤:
(1)所述的头像采集功能模块使用多线程或者多进程的并发方式对社交网络中特定用户的头像图片进行持续采集,并记录下社交网络用户ID、头像图片的存储位置和头像图片数据的唯一标识码之间的对应关系;
(2)所述的头像相似度训练功能模块使用基于ImageNet图像库训练的VGG16神经网络模型,对所述的头像采集功能模块的采集到的头像图片进行特征值提取得到512维的特征向量,利用所述的局部敏感哈希算法将该特征向量映射得到二进制哈希码,并连同该头像图片的唯一标识码,随机存储到任意一台分布式节点上;
(3)所述的头像相似度训练功能模块还使用多个节点构建分布式社交网络中的用户头像图片的分布式头像特征向量索引库,以负载均衡的方式分担头像检索的压力;
(4)所述的头像实时搜索功能模块对输入的头像图片使用所述的步骤(2)中所述的VGG16神经网络模型计算得到该输入头像图片的特征向量,并使用所述的局部哈希敏感算法将该特征向量转换成二进制哈希码;并在分布式的每台节点上利用所述的近似近邻算法进行各个头像图片的近似值查询,得到最相似的若干张头像图片;
(5)将所述的步骤(4)中获取的每个节点上的若干张最相似的头像图片进行合并,按照相似度度量进行排序,计算得到整体最相似的若干张头像;并通过所述的头像图片的唯一标识码在所述的头像采集功能模块中查找相应的对应关系,得到与该输入的头像图片相对应的社交网络用户和图片文件。
6.根据权利要求5所述的实现基于深度学习的社交网络头像比对的分布式检测方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)头像相似度训练模块采用基于卷积神经网络的VGG16网络模型,对采集得到的头像图片进行归一化处理,按照224×224的大小进行缩放处理,并输入到所述的卷积神经网络的VGG16网络模型进行深度学习,提取出512维的特征向量V,所述的512维的特征向量V具体用以下公式表示:
V=F(I);
其中,I为224×224大小的图像,F为VGG16网络模型,V为512维的特征向量;
(2.2)通过局部哈希算法对所述的过程a中获取的512维的特征向量V进行特征值转换,得到所述的头像图片的64位二进制特征码v,该头像图片的64位二进制特征码v具体用以下公式表示:
v=LSH(V);
其中,V为512维的特征向量,LSH为局部敏感哈希函数,v为64位二进制特征码。
7.根据权利要求6所述的实现基于深度学习的社交网络头像比对的分布式检测方法,其特征在于,所述的步骤(3)具体为:
(3.1)随机选择任意一台节点,将所述的64位二进制码特征v和头像图片的唯一标识码MD5进行存储,从而构建所述的分布式头像特征向量索引库。
8.根据权利要求7所述的实现基于深度学习的社交网络头像比对的分布式检测方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)对于输入查询的头像图片,对其按照224×224的大小进行归一化处理,并依次使用所述的VGG网络模型和局部敏感哈希算法将输入头像转换成所述的64位二进制特征码v;
(4.2)使用所述的近似近邻算法从所述的分布式头像特征向量索引库中的每个节点上检索出与所述的64位二进制特征码v最为相似的m张头像,最终得到m×N个最相似头像;具体用以下公式表示头像图片的相似度度量与唯一标识码之间的关系:
Figure FDA0002859447880000041
其中,v为64位二进制特征码,DBi为分布式头像特征向量索引库中的第i个节点上的向量库,ANN为进行近似近邻算法计算,i为选取的节点数,k为按照相似度从大到小的顺序排列序号,式子ANN(v,DBi)表示根据输入的所述的64位二进制特征码v为计算得到该特征库中最相似的m个特征向量,
Figure FDA0002859447880000042
为计算得到的各个头像图片的相似度度量,
Figure FDA0002859447880000043
为各个头像图片的唯一标识码。
9.根据权利要求8所述的实现基于深度学习的社交网络头像比对的分布式检测方法,其特征在于,所述的步骤(5)具体为:
(5.1)汇总所述的m×N个最相似头像,并按照相似度度量对所有的
Figure FDA0002859447880000044
进行排序,从而得到最相似的m张头像,将各个相似头像图片的唯一标识码
Figure FDA0002859447880000045
从所述的头像采集模块中的头像图片数据库中查询得到对应的社交网络用户ID。
10.一种用于实现基于深度学习的社交网络头像比对的分布式检测装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现权利要求5~9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。
11.一种用于实现基于深度学习的社交网络头像比对的分布式检测处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求5~9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求5~9中任一项所述的实现基于深度学习的社交网络头像比对的分布式检测方法的各个步骤。
CN202011561246.8A 2020-12-25 2020-12-25 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质 Pending CN112685580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011561246.8A CN112685580A (zh) 2020-12-25 2020-12-25 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011561246.8A CN112685580A (zh) 2020-12-25 2020-12-25 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质

Publications (1)

Publication Number Publication Date
CN112685580A true CN112685580A (zh) 2021-04-20

Family

ID=75451659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011561246.8A Pending CN112685580A (zh) 2020-12-25 2020-12-25 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质

Country Status (1)

Country Link
CN (1) CN112685580A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880407A (zh) * 2022-05-30 2022-08-09 上海九方云智能科技有限公司 基于强弱关系网络的用户智能识别方法和***
CN117710700A (zh) * 2024-02-05 2024-03-15 厦门她趣信息技术有限公司 一种基于深度学习的相似图像检测方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207898A (zh) * 2013-03-19 2013-07-17 天格科技(杭州)有限公司 一种基于局部敏感哈希的相似人脸快速检索方法
CN106169067A (zh) * 2016-07-01 2016-11-30 恒东信息科技无锡有限公司 一种高通量警用动态人脸采集比对方法及***
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
CN106570141A (zh) * 2016-11-04 2017-04-19 中国科学院自动化研究所 近似重复图像检测方法
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107577990A (zh) * 2017-08-09 2018-01-12 武汉世纪金桥安全技术有限公司 一种基于gpu加速检索的大规模人脸识别方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207898A (zh) * 2013-03-19 2013-07-17 天格科技(杭州)有限公司 一种基于局部敏感哈希的相似人脸快速检索方法
CN106169067A (zh) * 2016-07-01 2016-11-30 恒东信息科技无锡有限公司 一种高通量警用动态人脸采集比对方法及***
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
CN106570141A (zh) * 2016-11-04 2017-04-19 中国科学院自动化研究所 近似重复图像检测方法
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107577990A (zh) * 2017-08-09 2018-01-12 武汉世纪金桥安全技术有限公司 一种基于gpu加速检索的大规模人脸识别方法
CN109947963A (zh) * 2019-03-27 2019-06-28 山东大学 一种基于深度学习的多尺度哈希检索方法
CN111198959A (zh) * 2019-12-30 2020-05-26 郑州轻工业大学 一种基于卷积神经网络的两阶段图像检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880407A (zh) * 2022-05-30 2022-08-09 上海九方云智能科技有限公司 基于强弱关系网络的用户智能识别方法和***
CN117710700A (zh) * 2024-02-05 2024-03-15 厦门她趣信息技术有限公司 一种基于深度学习的相似图像检测方法及***

Similar Documents

Publication Publication Date Title
Chou et al. Pattern-based near-duplicate video retrieval and localization on web-scale videos
US11074434B2 (en) Detection of near-duplicate images in profiles for detection of fake-profile accounts
CN107256262B (zh) 一种基于物体检测的图像检索方法
CN106095829B (zh) 基于深度学习与一致性表达空间学习的跨媒体检索方法
Wu et al. Scalable face image retrieval with identity-based quantization and multireference reranking
Feng et al. Attention-driven salient edge (s) and region (s) extraction with application to CBIR
JP5774985B2 (ja) 画像の類似検索システム及び方法
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
US20060251338A1 (en) System and method for providing objectified image renderings using recognition information from images
US20090196510A1 (en) System and method for enabling the use of captured images through recognition
CN112348117A (zh) 场景识别方法、装置、计算机设备和存储介质
Nanni et al. Combining face and eye detectors in a high-performance face-detection system
JP2014197412A (ja) 画像の類似検索システム及び方法
CN113963303A (zh) 图像处理方法、视频识别方法、装置、设备及存储介质
Belhaouari et al. Optimized K‐Means Algorithm
Jeya Christy et al. Content-based image recognition and tagging by deep learning methods
Hu et al. Unsupervised defect detection algorithm for printed fabrics using content-based image retrieval techniques
Pu et al. Learning recurrent memory activation networks for visual tracking
Wu et al. Is visual saliency useful for content-based image retrieval?
CN112685580A (zh) 基于深度学习的社交网络头像比对的分布式检测***、方法、装置、处理器及其存储介质
CN117351334A (zh) 图像审核方法和相关设备
Chou et al. Multimodal video-to-near-scene annotation
Elakkiya et al. Interactive real time fuzzy class level gesture similarity measure based sign language recognition using artificial neural networks
Rao et al. Texture classification using Minkowski distance measure-based clustering for feature selection
CN111178409B (zh) 基于大数据矩阵稳定性分析的图像匹配与识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination