CN104298713B - 一种基于模糊聚类的图片检索方法 - Google Patents

一种基于模糊聚类的图片检索方法 Download PDF

Info

Publication number
CN104298713B
CN104298713B CN201410472785.2A CN201410472785A CN104298713B CN 104298713 B CN104298713 B CN 104298713B CN 201410472785 A CN201410472785 A CN 201410472785A CN 104298713 B CN104298713 B CN 104298713B
Authority
CN
China
Prior art keywords
picture
pictures
point
similarity
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410472785.2A
Other languages
English (en)
Other versions
CN104298713A (zh
Inventor
刘瑞
左源
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410472785.2A priority Critical patent/CN104298713B/zh
Publication of CN104298713A publication Critical patent/CN104298713A/zh
Application granted granted Critical
Publication of CN104298713B publication Critical patent/CN104298713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模糊聚类的图片检索方法,包括如下步骤:S11,为图片库中图片构建特征值库,并为每张图片进行编号;S12,从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,对其余图片进行第一次归类,形成N类图片集;S13,对N类图片集中所含图片数量大于数量阙值的类执行步骤S12,直到所有的类均小于数量阙值为止,得到M个代表点;S14,对图片库中的所有图片根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集中;S15,对于待检索的输入图片,对其特征值化,分别计算其与所有代表点之间的相似度,选取相似度距离最近的若干个代表点进行检索。本发明在保证检索效率的基础上缩小了检索范围,降低了检索的工作量。

Description

一种基于模糊聚类的图片检索方法
技术领域
本发明涉及一种图片检索方法,尤其涉及一种基于模糊聚类的图片检索方法,属于信息检索技术领域。
背景技术
图片作为多媒体信息的重要呈现形式之一,它通过颜色、纹理、形状等丰富的视觉特征,直观、生动地使抽象数据形象化、真实化地呈现给大众。随着互联网信息传播的愈发便捷和移动终端功能的不断完善,图像信息将成为继文字之后的又一种主要的信息载体被广泛应用于信息检索、数据挖掘、人机交互等计算机重点领域。但由于图片本身存在蕴含信息复杂、环境相关性强、高层语义抽象困难、检索模式计算量大和面向海量图片的组织架构不完善等问题,与图片信息处理相关,尤其是与互联网中海量图片的检索、分析、组织管理相关的研究成为计算机领域的一个研究难点。
现有的图片检索的基本模型是根据检索图片与被检索库图片进行相似度一一比较,经过排序后选出最接近的若干张图片作为返回值,这种模型需要在每次检索时对整个图片库进行一次遍历操作,当检索访问过多时会对后来的访问者带来较长时间的等待,而且这种等待时间会随着访问者的不断增多而进一步增长。图片检索的结果来源于收集的图片库,如果要满足不同访问者的需要,或适用于不同类型图片的检索输入,图片库的规模就需要足够大,这样才能保证检索的准确度,但过大的图片库使检索的负载和响应时间呈倍增长,无法到达实时检索的要求。
为了解决上述问题,在申请号为:201010195710.6的中国发明专利中,公开了一种图像检索方法,包括训练和检索两个部分;训练部分包括以下步骤:特征点的提取;特征点的补充和匹配关系的确定;同类点集的生成;特征点集聚类;图像数据库中每幅图像特征矢量的生成;检索部分包括以下步骤:提取待检索图片的特征点,生成特征点集;计算各个特征点描述子向量到各个聚类中心的距离,以最小距离确定当前特征点所属聚类;计算待检索图片的特征点所属各个聚类的频数;基于待检索图片的特征点所属聚类的频数和所述的各聚类的概率对数生成一个特征矢量并单位化;计算待检索图片的特征矢量到图片库各图像特征矢量的欧拉距离,选取距离最小的图像输出为检索结果。
发明内容
本发明所要解决的技术问题在于提供一种基于模糊聚类的图片检索方法。
为实现上述目的,本发明采用下述的技术方案:
一种基于模糊聚类的图片检索方法,包括如下步骤:
S11,为图片库中图片构建特征值库,并为每张图片进行编号;
S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,对其余图片进行第一次归类,形成N类图片集;其中,所述从图片库中选取N张图片的过程包括如下步骤:S121, 在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找相似度距离最大的图片Q1;S 122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离阙值A1的部分SH1,并得到相似度距离最大的图片Q2;S123,循环执行步骤S122,每次的检索图片为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHN,直到SHN为空为止,所得到的Q1……QNN张图片即为需要选出的N个代表点;
S13,对N类图片集中所含图片数量大于数量阙值的类执行步骤 S12,选取的图片间相互距离均大于距离阙值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量阙值的子类别中执行步骤S12,直到所有的类均小于数量阙值为止,得到M个代表点;
S14,对图片库中的所有图片,根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集去,完成整个图片库类别的划分过程;
S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排列,选取相似度距离最近的若干个代表点,在选取的代表点所代表的图片集中进行检索,将检索结果合并后返回给用户。
一种基于模糊聚类的图片检索方法,包括如下步骤:
S21,对图片库中的图片进行编号,并将图片映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件***中;
S22,从分布式文件***中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处进行合并,挑选出整个图片库与其相似度距离最远的点Q1
S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离阙值A1的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的 SHN,多次循环直到SHN为空为止,得到N个代表点。
S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行;
S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与QN的相似度距离大于距离阙值A2的图片集SHN作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点;
S26,收集所有代表点,为每个代表点分配一个map函数,每个 map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件;
S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在选取的代表点所代表的文件中查找最后结果并返回。
其中较优地,在选取的代表点所代表的图片集中进行检索过程包括如下步骤:
S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上。
S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce 函数。
S153,reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
其中较优地,在对图片进行处理时,均只对其对应的所述编号进行操作,而不对图片进行提取,只有在所述检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
其中较优地,在计算图片之间的相似度距离时,使用两种特征值的组合对图片进行表示,采用几何平均数作为两种特征值的组合公式,计算图片间的相似度距离。
其中较优地,所述距离阙值A2为小于距离阙值A1的任意数。
本发明提供的基于模糊聚类的图片检索方法,通过选取代表点,将图片库中的图片按照代表点进行分类处理,检索时,只需计算输入的图片与代表点的相似度距离,选取相似度距离较小的若干个代表点所在的类别进行图片进一步检索,在保证检索效率的基础上,缩小了检索的范围,降低了检索的工作量,有效地满足了用户实时检索的需求。
附图说明
图1为本发明所提供的基于模糊聚类的图片检索方法的流程图;
图2为本发明提供的实施例中实现从图片库中选取N张图片的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
一种基于模糊聚类的图片检索方法,包括如下步骤:首先根据图片库所依赖的相似度计算模型和高维特征空间中图片分布的疏密程度来选取适当数量的代表点,这些代表点本身也可以是图片,保证图片聚集程度越高的区域代表点的数量越多,反之,图片聚集程度越低的区域代表点的数量越少,代表点的相对距离按照密度的高低尽量分开,保证其他图片在归类时可以体现足够的趋向性;在选定代表点后将剩余图片按照与这些代表点的远近划分到不同的区域中去,形成一个个高维子空间,即各类图片集;最后在检索时将输入图片划分到若干个高维子空间中,在高维子空间中进行检索,并将检索结果合并返还给用户。如图1所示,下面对这一过程做详细具体的说明。
S11,为图片库中图片构建特征值库,并为每张图片进行编号。
在为图片库中图片构建特征值库时,使用两种特征值的组合对图片进行表示,以保证所涵盖的信息量足以明显表示图片内容,在本发明所提供的实施例中,使用CEDD和边缘直方图两种特征值进行构建,特征值组合CEDD和边缘直方图不仅涵盖了图片的颜色、纹理和轮廓三种属性,对辨别图片的主体对象有较好的效果,而且单位特征值所占内存空间小,易于存储。以特征值组合CEDD和边缘直方图为基准为图片库中的图片构建特征值库,并对每张图片进行编号。在本发明所提供的实施例中,对图片进行处理时,均只对其对应的编号进行操作,不对图片进行提取,只有最后检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。例如:进行图片间的相似度距离计算时,只提取图片编号对应的特征值,进行相似度距离的计算,并不对图片进行提取,降低了操作了复杂性,提高了检索的效率。
S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,对其余图片进行第一次归类,形成N类图片集。
根据征值库中存储的图片的特征值,采用几何平均数作为两种特征值的组合公式,计算图片间的相互距离,几何平均数的优势在于避免了对特征值的归一化,且和单纯乘法计算相比保证了组合与单一特征值的值域接近,更有利于距离值大小的比较。从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,作为N个代表点,以选取的N张图片为基准,按照其余图片与N张图片的相似度距离大小,对其余图片进行第一次归类,形成N类图片集。在N类图片集的选取过程中,图片均用对应的编号代替,不去图片库中提取图片,降低了操作了复杂性,提高了处理效率。
如图2所示,从图片库中选取N张图片的过程包括如下步骤:
S121,在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找最不相似(相似度距离最大)的图片Q1
在寻找与图片P最不相似的图片Q1时,根据征值库中存储的图片的特征值,采用几何平均数作为两种特征值的组合公式,计算图片间的相互距离,找出与图片P距离最大的图片,即为图片Q1
S122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离阙值A1的部分SH1,并得到最不相似的图片Q2
S123,循环执行步骤S1 22,每次的检索图片为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHN,直到SHN为空为止,所得到的Q1……QNN张图片即为需要选出的N个代表点。
S13,对N类图片中所含图片数量大于数量阙值H的类执行步骤 S12,此次选取的相互距离均大于距离阙值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量阙值H的类中执行步骤 S12,直到所有的类均小于数量阙值H为止,形成M类图片集,即存在 M个代表点。其中,距离阙值A2为小于距离阙值A1的任意数,而A1 和A2根据图片库的分布情况和***在检索时准确度与响应时间的不同需要进行设定。通过设置A1和A2可以适当的调节图片类的大小和相对密度,提高了检索的灵活性。
S14,对图片库中的所有图片,根据与M个代表点的相似度程度,划分到相似程度最高的代表点所代表的图片集去,完成整个类别的划分过程。
对选取的M个代表点,将图片库中其余的图片分别计算其与这M 个代表点的相似度距离,根据相似度距离的大小将其划分到不同的图片集中,完成整个图片库类别的最终划分。
S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在这些代表点所代表的图片集中查找最后结果并返回。
当用户输入待检索的图片后,使用两种特征值的组合对图片进行表示,然后采用几何平均数作为两种特征值的组合公式,计算图片与代表点之间的相似度距离,并按照其取值的大小对其进行排序。根据需求选取距离最近的几个代表点,将图片分别划分到这几个代表点所代表的图片集中对图片进行检索。在本发明所提供的实施例中,将待检索的图片分别划分到这几个代表点所代表的图片集中对图片进行检索时,并不提取图片库中的图片,只提取图片编号所对应的特征值,进行相似度距离的计算,按照大小顺序排,并将结果进行合并,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
在本发明所提供的实施例中,在不同类别的图片集中进行检索的过程采用分布式的集群处理,类与类之间存在一定的独立性,在集群中合理分配类的存储节点可以保证检索请求分发到少数的几个节点上,加强了***的可扩展性。而且,划分的类别代表点在位置上也存在远近的差异,差异小的在检索时被同时计算的可能性大,可以放在同一个节点上进行处理。
MapReduce是当前主流的分布式计算模型之一,将计算分解为映射(Map)和化简(Reduce)两种处理阶段,可以极大地方便用户在不了解分布式计算原理和实现方法时将程序部署到分布式集群中并进行计算。MapReduce模型的基本流程是首先对数据的单个元素进行操作,这一步称之为映射(Map),即将待处理的原始数据转化为初步处理过的数据,由于这一步的操作中数据之间不存在依赖关系,所以可以将数据分配给不同节点并行计算,在Hadoop中Map的输出数据是按照键值对的形式组织的,再对键值对中的key值进行哈希操作后将其分配到对应节点上去,通过整合排序数据将进入化简(Reduce)阶段。化简阶段对同一键值的数据进行合并或其他处理得到单一数据结果,进而完成整个操作。这个处理流程可以保证处理的每个阶段不存在必经的处理节点而造成计算瓶颈。
MapReduce模型通过对每一个任务的反馈来保证计算的可靠性,每个节点会按照一定的时间间隔发送运行的状态,***当与某一节点失去联系时就会将分配给该节点的任务分配给其他节点。根据数据本地化原则,***一般尽量将处理程序传递给存储对应数据的节点上来避免网络的负载过重,提升效率。
在本发明所提供的实施例中,将基于模糊聚类的图形检索方法中在不同类图片集中对图片进行检索的过程转化为MapReduce模型的处理方法,MapReduce模型是一种由映射和化简组成的基于分治思想的计算模型,在不同类图片集中对图片进行检索时的独立性适用于该模型,可以根据选取的图片集的类别将其转化为若干个MapReduce任务,转化后,在每类图片集中对图片进行检索的过程包括如下步骤:
S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上。
在为每类图片集分配map函数时,可以为每类图片集分配一个map 函数,当划分的类别代表点在位置上存在远近的差异小时,也可以为多类图片集分配一个map函数。在本发明所提供的实施例中,为每类图片集分配一个map函数。
S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce 函数。
S153,reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
在本发明所提供的基于模糊聚类的图片检索方法中,代表点选择的过程是在每类内部完成的,完全独立于其他类的运算,适合于分布式计算。整个检索过程除了最后一个步骤将每幅图片划分到具体类别中进行相似度计算时需要有图片数和类别数乘积的计算量以外,其余部分计算量较小,不会造成时间复杂度随图片库变大而呈指数型增长的情况,可适用于在图片库的规模较大时进行检索,能有效地满足不同访问者的需要,适用于不同类型图片的检索输入。
除此之外,本发明所提供基于模糊聚类的图形检索方法并不依据类别中心点作为聚类标准,而是通过空间中差异较大的几张基准图片判别其余图片的趋向性,而选取基准图片的迭代次数与选取的距离阈值以及图片库的稀疏度的相对程度有关,而与图片库的大小无关,而且每次类别划分并不存在迭代过程。图片的最终类别划分是在所有基准图片都选取结束后才确定的,而基准图片与其所代表的类的大小和空间稀疏度有紧密关系,图片相对密集的区域,基准图片也相对较多,这样可以保证类别的大小相对均匀且按照稀疏度划分。第一次聚类后的其余聚类过程均在类内进行,符合分布式计算中分治算法的基本要求。
在本发明所提供的另一实施例中,将基于模糊聚类的图形检索方法中在不同类图片集中选取代表点的过程转化为MapReduce模型的处理方法,MapReduce模型是一种由映射和化简组成的基于分治思想的计算模型,在代表点选择时的独立性适用于该模型,可以转化为若干个MapReduce任务,具体包括如下步骤:
S21,对图片库中的图片进行编号,并将其映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件***中。
S22,从分布式文件***中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处对其进行合并,挑选出整个图片库与其相似度距离最远的点Q1
S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离阙值A1的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的 SHN,多次循环直到SHN为空为止,得到N个代表点。
S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行。
在本发明所提供的实施例中,根据类别中图片数量的大小判断是否可以单节点运行是判断类别中图片数量是否大于设定的数量阙值,当类别中图片数量大于设定的数量阙值时,该类别不可以单节点执行,转向步骤S25,当类别中图片数量不大于设定的数量阙值时,该类别可以单节点执行,不进行下一步的划分。
S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与QN的相似度距离大于距离阙值A2的图片集SHN作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点。
S26,收集所有代表点,为每个代表点分配一个map函数,每个 map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件。
S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在这些代表点所代表的文件中查找最后结果并返回。
在本发明所提供的实施例中,在选取的代表点所代表的图片集中进行检索过程与上述步骤S151—S153相同,在此便不再赘述。
综上所述,本发明所提供的基于模糊聚类的图片检索方法,根据图片库所依赖的相似度计算模型和高维特征空间中图片分布的疏密程度来选取适当数量的代表点,不仅涵盖了图片的颜色、纹理和轮廓三种属性,对辨别图片的主体对象有较好的效果,而且单位特征值所占内存空间小,易于存储。在选定代表点后将剩余图片按照与这些代表点的远近划分到不同的区域中去,形成一个个高维子空间,即不同类别的图片集;最后在检索时将输入图片划分到若干个高维子空间中,在高维子空间中进行检索,并将检索结果合并返还给用户。其中,在高维子空间中进行检索的过程采用分布式的集群处理,能有效的提高检索的效率,满足用户实时检索的要求。
以上对本发明所提供的一种基于模糊聚类的图片检索方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (6)

1.一种基于模糊聚类的图片检索方法,其特征在于包括如下步骤:
S11,为图片库中图片构建特征值库,并为每张图片进行编号;
S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,对其余图片进行第一次归类,形成N类图片集;其中,所述从图片库中选取N张图片的过程包括如下步骤:S121,在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找相似度距离最大的图片Q1;S 122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离阙值A1的部分SH1,并得到相似度距离最大的图片Q2;S123,循环执行步骤S122,每次的检索图片为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHN,直到SHN为空为止,所得到的Q1……QNN张图片即为需要选出的N个代表点;
S13,对N类图片集中所含图片数量大于数量阙值的类执行步骤S12,选取的图片间相互距离均大于距离阙值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量阙值的子类别中执行步骤S12,直到所有的类均小于数量阙值为止,得到M个代表点;
S14,对图片库中的所有图片,根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集去,完成整个图片库类别的划分过程;
S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排列,选取相似度距离最近的若干个代表点,在选取的代表点所代表的图片集中进行检索,将检索结果合并后返回给用户。
2.一种基于模糊聚类的图片检索方法,其特征在于包括如下步骤:
S21,对图片库中的图片进行编号,并将图片映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件***中;
S22,从分布式文件***中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处进行合并,挑选出整个图片库与其相似度距离最远的点Q1
S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离阙值A1的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHN,多次循环直到SHN为空为止,得到N个代表点;
S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行;
S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与QN的相似度距离大于距离阙值A2的图片集SHN作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点;
S26,收集所有代表点,为每个代表点分配一个map函数,每个map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件;
S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在选取的代表点所代表的文件中查找最后结果并返回。
3.如权利要求1或2所述的基于模糊聚类的图片检索方法,其特征在于在选取的代表点所代表的图片集中进行检索过程包括如下步骤:
S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上;
S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce函数;
S153,reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
4.如权利要求1或2所述的基于模糊聚类的图片检索方法,其特征在于:
在对图片进行处理时,均只对其对应的所述编号进行操作,而不对图片进行提取,只有在所述检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
5.如权利要求1或2所述的基于模糊聚类的图片检索方法,其特征在于:
在计算图片之间的相似度距离时,使用两种特征值的组合对图片进行表示,采用几何平均数作为两种特征值的组合公式,计算图片间的相似度距离。
6.如权利要求1或2所述的基于模糊聚类的图片检索方法,其特征在于:
所述距离阙值A2为小于距离阙值A1的任意数。
CN201410472785.2A 2014-09-16 2014-09-16 一种基于模糊聚类的图片检索方法 Active CN104298713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410472785.2A CN104298713B (zh) 2014-09-16 2014-09-16 一种基于模糊聚类的图片检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410472785.2A CN104298713B (zh) 2014-09-16 2014-09-16 一种基于模糊聚类的图片检索方法

Publications (2)

Publication Number Publication Date
CN104298713A CN104298713A (zh) 2015-01-21
CN104298713B true CN104298713B (zh) 2017-12-08

Family

ID=52318438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410472785.2A Active CN104298713B (zh) 2014-09-16 2014-09-16 一种基于模糊聚类的图片检索方法

Country Status (1)

Country Link
CN (1) CN104298713B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557523B (zh) * 2015-09-30 2020-05-12 佳能株式会社 代表性图像选择方法和设备以及对象图像检索方法和设备
CN107122785B (zh) * 2016-02-25 2022-09-27 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN107423309A (zh) * 2016-06-01 2017-12-01 国家计算机网络与信息安全管理中心 基于模糊哈希算法的海量互联网相似图片检测***及方法
CN106528629B (zh) * 2016-10-09 2018-04-03 深圳云天励飞技术有限公司 一种基于几何空间划分的向量模糊搜索方法及***
CN110502953A (zh) * 2018-05-16 2019-11-26 杭州海康威视数字技术股份有限公司 一种图像模型比对方法和装置
CN108830217B (zh) * 2018-06-15 2021-10-26 辽宁工程技术大学 一种基于模糊均值哈希学习的签名自动判别方法
CN109783678B (zh) * 2018-12-29 2021-07-20 深圳云天励飞技术有限公司 一种图像搜索的方法及装置
CN109766470A (zh) * 2019-01-15 2019-05-17 北京旷视科技有限公司 图像检索方法、装置及处理设备
CN110083732B (zh) * 2019-03-12 2021-08-31 浙江大华技术股份有限公司 图片检索方法、装置及计算机存储介质
CN109948734B (zh) * 2019-04-02 2022-03-29 北京旷视科技有限公司 图像聚类方法、装置及电子设备
CN110069645A (zh) * 2019-04-22 2019-07-30 北京迈格威科技有限公司 图像推荐方法、装置、电子设备及计算机可读存储介质
CN110377781A (zh) * 2019-06-06 2019-10-25 福建讯网网络科技股份有限公司 一种应用鞋底搜索匹配的改进算法
CN110942046B (zh) * 2019-12-05 2023-04-07 腾讯云计算(北京)有限责任公司 图像检索方法、装置、设备及存储介质
CN112328819B (zh) * 2020-11-07 2023-08-18 嘉兴智设信息科技有限公司 一种基于图片集推荐相似图片的方法
CN113360698A (zh) * 2021-06-30 2021-09-07 北京海纳数聚科技有限公司 一种基于图文语义转移技术的照片检索方法
CN115129921B (zh) * 2022-06-30 2023-05-26 重庆紫光华山智安科技有限公司 图片检索方法、装置、电子设备和计算机可读存储介质
CN116028657B (zh) * 2022-12-30 2024-06-14 翱瑞(深圳)科技有限公司 基于运动检测技术的智能云相框的分析***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111931A2 (en) * 2003-06-10 2004-12-23 California Institute Of Technology A system and method for attentional selection
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN103617217A (zh) * 2013-11-20 2014-03-05 中国科学院信息工程研究所 一种基于层次索引的图像检索方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004111931A2 (en) * 2003-06-10 2004-12-23 California Institute Of Technology A system and method for attentional selection
CN101211355A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于聚类的图像查询方法
CN101859326A (zh) * 2010-06-09 2010-10-13 南京大学 一种图像检索方法
CN103617217A (zh) * 2013-11-20 2014-03-05 中国科学院信息工程研究所 一种基于层次索引的图像检索方法及***

Also Published As

Publication number Publication date
CN104298713A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104298713B (zh) 一种基于模糊聚类的图片检索方法
Wu et al. Scheduling-guided automatic processing of massive hyperspectral image classification on cloud computing architectures
Kapoor et al. Active learning with gaussian processes for object categorization
US9454580B2 (en) Recommendation system with metric transformation
Hore et al. A scalable framework for cluster ensembles
Chen et al. Parallel spectral clustering in distributed systems
Jinyin et al. A novel cluster center fast determination clustering algorithm
US20220058222A1 (en) Method and apparatus of processing information, method and apparatus of recommending information, electronic device, and storage medium
CN109242002A (zh) 高维数据分类方法、装置及终端设备
CN110147455A (zh) 一种人脸匹配检索装置及方法
CN110119477A (zh) 一种信息推送方法、装置和存储介质
CN109598250A (zh) 特征提取方法、装置、电子设备和计算机可读介质
WO2019120007A1 (zh) 用户性别预测方法、装置及电子设备
Tsapanos et al. Efficient mapreduce kernel k-means for big data clustering
WO2015001416A1 (en) Multi-dimensional data clustering
Alam et al. A hybrid approach for web document clustering using K-means and artificial bee colony algorithm
Yang et al. An effective detection of satellite image via K-means clustering on Hadoop system
An et al. A K-means-based multi-prototype high-speed learning system with FPGA-implemented coprocessor for 1-NN searching
Kumar et al. Automatic unsupervised feature selection using gravitational search algorithm
CN110209895B (zh) 向量检索方法、装置和设备
Hu et al. Multi-view content-context information bottleneck for image clustering
Bayasi et al. Continual-GEN: Continual Group ensembling for domain-agnostic skin lesion classification
CN111709473A (zh) 对象特征的聚类方法及装置
CN108268478A (zh) 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
Kamdar et al. A survey: classification of huge cloud datasets with efficient map-reduce policy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant