CN107562742A

CN107562742A - 一种图像数据处理方法及装置

Info

Publication number: CN107562742A
Application number: CN201610504477.2A
Authority: CN
Inventors: 杨现; 陈雪峰
Original assignee: Suning Commerce Group Co Ltd
Current assignee: Shenzhen yunwangwandian Technology Co.,Ltd.
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09
Anticipated expiration: 2036-06-30
Also published as: CN107562742B

Abstract

本发明实施例公开了一种图像数据处理方法及装置，涉及大数据技术领域，能够降低海量图像数据标注过程中所耗费的人力成本。本发明包括：根据所获取的关键词得到图像数据；对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心；筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。本发明适用于图像识别引擎或者图像处理应用的训练数据的自动标识。

Description

一种图像数据处理方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及一种图像数据处理方法及装置。

背景技术

目前，大数据技术被广泛应用在了各项国防和民用工程中，尤其是应用在了各大电商平台的运维优化中。近几年，随着各大电商平台的数据规模和复杂程度都呈几何***式增长，如何对海量的用户数据、交易数据、商户数据等进行有效利用，成为了各大电商平台的研究重点。

这其中，尤其是利用深度学习模型在图像识别方面，设计并研发了大量成功方案。这些方案的大致思路包括：将大量准确标注过的图像数据作为基础样本，并结合海量样本数据对模型进行训练计算，从而有针对性的优化模型使之适应当前的具体业务环境。这些方案对于基础样本的标注准确率要求很高，基于高质量的标注数据支撑训练计算，才能得到最优的模型。因此，训练计算所使用的海量样本数据可以从数据库中自动提取并处理，但是由于基础样本对于准确性的要求，依然需要进行人工标注；或者是在少量的人工标注的数据基础上寻找近邻相似数据再做成基础样本。

由此可见，在目前的方案中，虽然已经能够实现对于海量样本数据的处理，但是仍需要人工先标注一些样本数据，而由于数据量每年都在不断飙升，因此人工标注的工作量越来越大，人工成本在快速上涨。并且，人工标注的样本数据还是会受到人为主观影响，使得一部分预先标注的数据基础质量不高，或者泛化能力不强，使得在人工标注的数据基础上寻找近邻相似数据再做成的基础样本质量较差，最终导致所优化的模型在实际业务环境中执行效果低。

发明内容

本发明的实施例提供一种图像数据处理方法及装置，能够降低海量图像数据标注过程中所耗费的人力成本。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供的方法，包括：

根据所获取的关键词得到图像数据；对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心；筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据所获取的关键词得到图像数据，包括：获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据；并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：获取用户在指定时间段内的检索记录；从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息；获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息；从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

结合第一方面，在第一方面的第四种可能的实现方式中，在对所述图像数据进行聚类处理之前，还包括：

获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离；并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。

和/或，从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本；利用所述负样本和所述正样本的特征向量训练线性SVM分类器；通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。

结合第一方面或第一方面的第四种可能的实现方式,在第五种可能的实现方式中，所述对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心，包括：提取各图像数据的特征向量其中x_i表示一份图像数据的特征向量，并获取特征向量之间的局部密度的集合ρ和聚类参数δ，其中：局部密度特征距离d_ij＝||x_i-x_j||²表示图像数据i和图像数据j之间的距离，其中，聚类参数q_i表示ρ_i的一个降序排列下标序；根据所述特征向量之间的局部密度的集合ρ和聚类参数δ，得到各聚类中心的决策图，并利用所述决策图筛选出对应所述关键词的聚类中心。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述筛选出匹配所述聚类中心的图像数据，包括：根据特征向量之间的局部密度的集合ρ，筛选出属于同一个聚类中心的图像数据；对于属于同一个聚类中心的图像数据，按照特征距离从小至大的顺序排序，并按照排序顺序获取指定比例数量的图像数据作为匹配所述聚类中心的图像数据。

结合第一方面的第五种可能的实现方式，在第七种可能的实现方式中，还包括：根据所述用户操作数据，从所述图像数据中获取验证图像；获取所述验证图像的特征向量与所述筛选出的对应所述关键词的聚类中心的距离，并去除距离大于最大门限值的聚类中心。

第二方面，本发明的实施例提供的装置，包括：图像提取模块，用于根据所获取的关键词得到图像数据；图像聚类模块，用于对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心；图像筛选模块，用于筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库；样本库管理模块，用于将所标注的图像数据导入样本库。

结合第二方面，在第二方面的第一种可能的实现方式中，所述图像提取模块，具体用于获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据；并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据；其中，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的检索记录；从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息；并获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据；或者，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息；并从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中，还包括：重复图像去除模块，用于在对所述图像数据进行聚类处理之前，获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离；并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。和/或，噪声图像去除模块，用于从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本；并利用所述负样本和所述正样本的特征向量训练线性SVM分类器；再通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。

本发明实施例提供的图像数据处理方法及装置，具体通过提取基于深度学习的图像特征向量，并基于密度峰值快速搜索聚类图像数据进行聚类，并根据聚类结果确认与关键词最为接近的图片内容，确认聚类中心，并根据特征向量的聚类，取得与关键词匹配的图像数据，并在图像数据标注上相匹配的关键字标签，从而完成图像的图像数据处理。相对于现有技术中人工标注样本库中的样本图像的方案，本发明方案降低了海量图像数据标注过程中所耗费的人力成本，以便于快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的扩充。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1、图2为本发明实施例提供的***架构示意图；

图3为本发明实施例提供的图像数据处理方法的流程示意图；

图4、图5为本发明实施例提供的图像数据处理装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本实施例中的方法流程，具体可以在一种如图1所示的数据处理***上执行，其中包括数据处理平台和数据库。本实施例中所揭示的数据处理平台，具体可以是服务器、工作站、超级计算机等设备，或者是由多个服务器组成的一种用于数据处理的服务器集群***。在数据处理平台可以存储用于聚类处理的算法模型和程序。并在对匹配所述聚类中心的图像数据完成图像数据处理后，将完成标注的图像数据存储至数据库。数据库具体可以是一种由多个服务器设备和存储设备等硬件设备组成的设备集群，用于存储海量的图像数据，以及与图像数据对应的关键词。需要说明的是，数据处理平台还可以通过运行网络爬虫、图片抓取程序等数据提取工具，从互联网抓取图像数据以及与图像数据对应的关键词。

在本实施例中，在如图1所示的数据处理***的基础上，还可以包括，搜索服务器和/或用户设备等设备，具体图2所示。其中，搜索服务器具体可以是服务器、工作站、超级计算机等设备，或者是由多个服务器组成的一种用于数据处理的服务器集群***，用于接收用户设备发送的搜索请求，并向用户设备返回搜索结果，用户设备通过搜索服务器进行搜索行为的用户操作数据或历史数据，可以存储至数据库中，或者也可以存储在搜索服务器的存储设备中。

用户设备具体可以实做成单独一台装置，或整合于各种不同的媒体数据播放装置中，诸如机顶盒、移动电话、平板电脑(Tablet Personal Computer)、膝上型电脑(LaptopComputer)、多媒体播放器、数字摄影机、个人数字助理(personal digital assistant，简称PDA)、导航装置、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)等。

本发明实施例提供一种图像数据处理方法，如图3所示，包括：

S1、根据所获取的关键词得到图像数据。

其中，数据处理平台可以提取相应的关键词，并根据所获取的关键词查询得到图像数据。图像数据可以是从互联网中抓取并存储在数据库中，比如：通过网路爬虫，从互联网抓取商品图片，并记录商品图片对应的名称信息作为关键词；或者数据处理平台直接从业务***，比如在线购物***中提取，比如：从在线购物***中存储商铺数据的服务器获取商铺中展示的商品图片，并记录商品图片对应的商品名称作为关键词。被数据处理平台收集的图像数据可以导入样本库，并作为本实施例中海量待标注的图像数据，并在数据处理平台或者数据库中建立所收集的图像数据的关键词标签集合。也可以是数据处理平台先建立图像数据的关键词标签集合，再利用关键词在通过搜索引擎，在门户网站、电商网站获取包括图像数据的搜索结果，并利用网络爬虫将搜索结果抓取并构建对应同一关键词标签集合的图像数据的集合。

S2、对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心。

在本实施例中，数据处理平台可以提取各图像数据的特征向量具体的，各图像数据的特征向量可以由数据处理平台利用所训练的深度学习网络对样本库中经过过滤后的图像数据提取特征向量。其中，x_i表示一份图像数据的特征向量，其中：

局部密度

特征距离d_ij＝||x_i-x_j||²表示图像数据i和图像数据j之间的距离，

其中，

聚类参数q_i表示ρ_i的一个降序排列下标序。

并获取特征向量之间的局部密度的集合ρ和聚类参数δ，并根据所述特征向量之间的局部密度的集合ρ和聚类参数δ，得到各聚类中心的决策图。例如：根据其聚类参数δ与局部密度参数ρ得到样本聚类中心决策图，并根据一定的规则以及决策图的分布情况从聚类结果并筛选出若干聚类中心，再根据得到的聚类中心，将基于同一关键词标签集合的搜索结果的前20张图像作为验证图像，通过判断这些验证图像对应的特征向量与聚类中心的距离，去除掉聚类中心附近没有验证图像伪聚类中心。

再利用所述决策图筛选出对应所述关键词的聚类中心。例如：通过过滤伪聚类中心后的聚类中心，对非聚类中心图像进行归类，按照ρ值从大到小顺序遍历，并将属于其聚类中心的样本根据特征距离排序，取距离最近的前30％图像作为最终符合该关键词对应内容的图像，标注上该关键词从而完成图像的图像数据处理。

在本实施例中，还可以根据所述用户操作数据，从所述图像数据中获取验证图像。并获取所述验证图像的特征向量与所述筛选出的对应所述关键词的聚类中心的距离，并去除距离大于最大门限值的聚类中心。

S3、筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。

其中，图像数据导入的所述样本库具体可以是用于图像识别引擎或者图像处理应用的模型训练、业务***进行算法优化或者其他需要基于样本进行训练的应用方面，所述样本库在这些方面中起到训练作用，在本实施例中可以称为训练样本库。从而快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的快速更新和扩充。例如：数据处理平台根据特征向量之间的局部密度的集合ρ，筛选出属于同一个聚类中心的图像数据。对于属于同一个聚类中心的图像数据，按照特征距离从小至大的顺序排序，并按照排序顺序获取指定比例数量的图像数据作为匹配所述聚类中心的图像数据。

本发明实施例提供的图像数据处理方法置，具体通过提取基于深度学习的图像特征向量，并基于密度峰值快速搜索聚类图像数据进行聚类，并根据聚类结果确认与关键词最为接近的图片内容，确认聚类中心，并根据特征向量的聚类，取得与关键词匹配的图像数据，并在图像数据标注上相匹配的关键字标签，从而完成图像的图像数据处理。降低了海量图像数据标注过程中所耗费的人力成本，以便于快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的扩充。

在本实施例中，所述根据所获取的关键词得到图像数据的具体方式，包括：

获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据。并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据。

其中，获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，的具体方式包括：

获取用户在指定时间段内的检索记录。并从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息。再获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据。例如：在数据库中图像数据，以及与图像数据对应的关键词，具体可以包括在用户通过搜索器进行搜索记录或者操作历史记录中，搜索记录和操作历史记录都可以包括用于表示用户操作数据的内容，用户操作数据具体可以包括：用户在进行搜索操作时输入的字符(比如通过关键字进行搜索时，用户输入用户设备并向搜索服务器上报的关键字)或上传的本地图片信息(比如通过图片进行搜索时，用户输入用户设备并向搜索服务器上报的图片数据)，以及搜索结果，搜索结果具体包括在搜索过程中向用户设备返回的文本信息和对应所述文本信息的图像数据。

或者：获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息。并从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。例如：用户在进行搜索操作时输入的字符(比如通过关键字进行搜索时，用户输入用户设备并向搜索服务器上报的关键字)或上传的本地图片信息(比如通过图片进行搜索时，用户输入用户设备并向搜索服务器上报的图片数据)，以及搜索结果，搜索结果具体包括在搜索过程中向用户设备返回的文本信息和对应所述文本信息的图像数据。

进一步的，数据处理平台可以对被收集的图像数据进行过滤，从而去除重复图像以及去除噪声图像数据，比如：对于导入样本库中的图像数据，数据处理平台可以被收集的图像数据的直方图特征向量，并计算同一关键词下直方图特征向量之间距离，再在将具有相同和相近特征向量的图像数据只保留其中一张。具体的，过滤并去除重复图像的方式可以理解为：将由于重复采集的相同图像只保留一张；过滤并去除噪声图像的方式可以理解为：提取图像的底层特征构建采集图片数据的特征向量，输入预先训练好的噪声图像分类器过滤掉采集图像中与关键词无关的噪声图像。因此在本实施例中，在对所述图像数据进行聚类处理之前，还包括：

过滤并去除重复图像的方式：获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离。并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。

过滤并去除噪声图像的方式：从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本。利用所述负样本和所述正样本的特征向量(比如HOG特征向量(HOG(Histogram of OrientedGradient,方向梯度直方图))训练线性SVM(Support Vector Machine，支持向量机)分类器。再通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。例如：数据处理平台构建噪声样本库，其中包括5000张或者更多的噪声图片；提取候选图像的特征向量；将通过搜索引擎用同一关键词得到的前60张图像作为正样本，从得到的噪声样本库中随机选择60张图像作为负样本；提取特征向量，训练一个线性SVM分类器；将得到的特征向量输入训练得到的线性SVM分类器，将判别为负样本，同时置信度>0.75的特征向量对应的图像作为噪声图像丢弃。

在本实施例的实际应用中，传统的人工标注方法标注速度平均每人每天可以标注5000张图片，通过本实施例中的数据处理平台对于相同的待标注图片，数据处理平台中的单台节点设备每天可以标注50万张，从而相对于人工标注方法其效率提高了100倍，降低标注的成本，减少了误标注出现的次数。

现有技术中人工标注样本数据成本高且受到人为主观影响，使得一部分预先标注的数据基础质量不高，导致所优化的模型在实际业务环境中执行效果低。本实施例的方案无需人工干预，完整实现了图像的自动采集、整理、过滤、标注等一系列操作，具体通过提取基于深度学习的图像特征向量，并基于密度峰值快速搜索聚类图像数据进行聚类，并根据聚类结果确认与关键词最为接近的图片内容，确认聚类中心，并根据特征向量的聚类，取得与关键词匹配的图像数据，并在图像数据标注上相匹配的关键字标签，从而完成图像的图像数据处理。而解决海量图像数据标注过程中所耗费的人力成本过高的问题，从而实现快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的扩充。

本发明实施例提供一种图像数据处理装置，如图4所示，包括：

图像提取模块，用于根据所获取的关键词得到图像数据。

图像聚类模块，用于对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心。

图像筛选模块，用于筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据；

样本库管理模块，用于将所标注的图像数据导入样本库。

其中，图像数据导入的所述样本库具体可以是用于图像识别引擎或者图像处理应用的模型训练、业务***进行算法优化或者其他需要基于样本进行训练的应用方面，所述样本库在这些方面中起到训练作用，在本实施例中可以称为训练样本库。从而快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的快速更新和扩充。

在本实施例中，所述图像提取模块，具体用于获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据。并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据。

其中，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的检索记录。从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息。并获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据。或者，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息。并从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

本实施例所提供的图像数据处理装置，如图5所示，还包括：

重复图像去除模块，用于在对所述图像数据进行聚类处理之前，获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离。并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。

和/或，噪声图像去除模块，用于从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本。并利用所述负样本和所述正样本的特征向量训练线性SVM分类器。再通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。

本发明实施例提供的图像数据处理装置，具体通过提取基于深度学习的图像特征向量，并基于密度峰值快速搜索聚类图像数据进行聚类，并根据聚类结果确认与关键词最为接近的图片内容，确认聚类中心，并根据特征向量的聚类，取得与关键词匹配的图像数据，并在图像数据标注上相匹配的关键字标签，从而完成图像的图像数据处理。降低了海量图像数据标注过程中所耗费的人力成本，以便于快捷高效地为图像识别引擎或者图像处理应用提供有效的训练数据，也方便训练样本中的图像数据的扩充。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种图像数据处理方法，其特征在于，包括：

根据所获取的关键词得到图像数据；

对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心；

筛选出匹配所述聚类中心的图像数据，并通过所述关键词标注所述匹配所述聚类中心的图像数据,并将所标注的图像数据导入样本库。

2.根据权利要求1所述的图像数据处理方法，其特征在于，所述根据所获取的关键词得到图像数据，包括：

获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据；

并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据。

3.根据权利要求2所述的图像数据处理方法，其特征在于，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：

获取用户在指定时间段内的检索记录；

从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息；

获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据。

4.根据权利要求2所述的图像数据处理方法，其特征在于，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：

获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息；

从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

5.根据权利要求1所述的图像数据处理方法，其特征在于，在对所述图像数据进行聚类处理之前，还包括：

获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离；

并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。

和/或，

从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本；

利用所述负样本和所述正样本的特征向量训练线性SVM分类器；

通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。

6.根据权利要求1或5所述的图像数据处理方法，其特征在于，所述对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心，包括：

提取各图像数据的特征向量其中x_i表示一份图像数据的特征向量，并获取特征向量之间的局部密度的集合ρ和聚类参数δ，其中：局部密度特征距离d_ij＝||x_i-x_j||²表示图像数据i和图像数据j之间的距离，其中，聚类参数q_i表示ρ_i的一个降序排列下标序；

根据所述特征向量之间的局部密度的集合ρ和聚类参数δ，得到各聚类中心的决策图，并利用所述决策图筛选出对应所述关键词的聚类中心。

7.根据权利要求6所述的图像数据处理方法，其特征在于，所述筛选出匹配所述聚类中心的图像数据，包括：

根据特征向量之间的局部密度的集合ρ，筛选出属于同一个聚类中心的图像数据；

对于属于同一个聚类中心的图像数据，按照特征距离从小至大的顺序排序，并按照排序顺序获取指定比例数量的图像数据作为匹配所述聚类中心的图像数据。

8.根据权利要求6所述的图像数据处理方法，其特征在于，还包括：

根据所述用户操作数据，从所述图像数据中获取验证图像；

获取所述验证图像的特征向量与所述筛选出的对应所述关键词的聚类中心的距离，并去除距离大于最大门限值的聚类中心。

9.一种图像数据处理装置，其特征在于，包括：

图像提取模块，用于根据所获取的关键词得到图像数据；

图像聚类模块，用于对所述图像数据进行聚类处理，并得到对应所述关键词的聚类中心；

样本库管理模块，用于将所标注的图像数据导入样本库。

10.根据权利要求9所述的图像数据处理装置，其特征在于，所述图像提取模块，具体用于获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据；并所述文本信息中提取关键词，并将所述文本信息对应的图像数据作为对应所提取关键词的图像数据；

其中，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的检索记录；从所述检索记录中提取检索词作为所述关键词，并获取具有点击操作的检索项信息；并获取所述检索项信息对应的图像数据作为对应所提取关键词的图像数据；

或者，所述获取用户操作数据，并从所述用户操作数据中获取文本信息和对应所述文本信息的图像数据，包括：由所述图像提取模块获取用户在指定时间段内的上传数据，并确定显示所述上传数据的界面的属性信息；并从所述属性信息中提取所述关键字，并从所述上传数据中提取图像数据作为对应所提取关键词的图像数据。

11.根据权利要求9或10所述的图像数据处理装置，其特征在于，还包括：

重复图像去除模块，用于在对所述图像数据进行聚类处理之前，获取对应所提取关键词的各图像数据的直方图的特征向量，并计算得到各直方图的特征向量之间距离；并依据特征向量相同的和特征向量之间距离的接近程度在指定范围内的直方图，筛选并保留一份图像数据。

和/或，噪声图像去除模块，用于从噪声样本库获取指定数量的图像数据作为负样本，并从对应所提取关键词的各图像数据中获取所述指定数量的图像数据作为正样本；并利用所述负样本和所述正样本的特征向量训练线性SVM分类器；再通过将所述线性SVM分类器，根据所述对应所提取关键词的各图像数据的特征向量，获取所述对应所提取关键词的各图像数据的置信度，丢弃置信度>0.75的图像数据。