CN108734184B - 一种对敏感图像进行分析的方法及装置 - Google Patents

一种对敏感图像进行分析的方法及装置 Download PDF

Info

Publication number
CN108734184B
CN108734184B CN201710248908.8A CN201710248908A CN108734184B CN 108734184 B CN108734184 B CN 108734184B CN 201710248908 A CN201710248908 A CN 201710248908A CN 108734184 B CN108734184 B CN 108734184B
Authority
CN
China
Prior art keywords
sample
sensitive
training
images
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710248908.8A
Other languages
English (en)
Other versions
CN108734184A (zh
Inventor
杨现
常江龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SuningCom Co ltd
Original Assignee
SuningCom Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SuningCom Co ltd filed Critical SuningCom Co ltd
Priority to CN201710248908.8A priority Critical patent/CN108734184B/zh
Publication of CN108734184A publication Critical patent/CN108734184A/zh
Application granted granted Critical
Publication of CN108734184B publication Critical patent/CN108734184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种对敏感图像进行分析的方法及装置,涉及图像识别技术领域,能够提升对于广告图片识别检测的自动化水平,降低人工审核成本。本发明包括:通过对所述训练样本集合中的样本图像进行聚类,再根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型,之后利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片。本发明适用于对于在线平台上的敏感图片识别。

Description

一种对敏感图像进行分析的方法及装置
技术领域
本发明涉及图像识别技术领域,尤其涉及一种对敏感图像进行分析的方法及装置。
背景技术
随着互联网技术的发展和各类在线交易平台、在线营销平台等网络平台的建设,各大运营商和大小商铺每时每刻都会在网络平台上投放海量的互联网广告。为了规范互联网广告的发布行为,保护消费者合法权益,在2015年颁布的新广告法中,明确规定了互联网广告活动也必须遵守广告法各项规定。
在当前的实际应用中,各网络平台监控互联网广告活动的手段,主要是通过检测敏感图像来判别并预警可能违法的广告。现有的敏感图像识别方法大多特指色情图像,相应的检测手段和分析方法主要发展自依据《治安管理处罚法》和《刑法》对淫秽色情信息的监控识别领域,检测方式主要以检测敏感器官为主。比如:手工设计具有固定的颜色、形状和纹理的图像特征,并根据人工设定的图像特征匹配得到疑似的敏感图像。
但现有方式的识别精度较低,经常会将正常情况下的禽肉制品、内衣、运动用品、计生用品等类别商品的广告、宣传图像误报成敏感图像,以往主要通过被举报方申诉或者监控人员人工处理的方式来解决误报问题,这已经难以满足目前对网络平台上投放的海量互联网广告进行实时监控的需求,尤其是不能适应电商平台对于海量商品宣传图像过滤监控的要求,因此需要发展出自动化程度较高的检测手段,以便控制人工成本。
发明内容
本发明的实施例提供一种对敏感图像进行分析的方法,能够提升对于广告图片识别检测的自动化水平,降低人工审核成本。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供的方法,包括:
在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类;
根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型;
利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片。
结合第一方面,在第一方面的第一种可能的实现方式中,所述按照各样本对应的敏感类型对所述训练样本集合中的样本图像进行聚类,包括:
通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征,其中,所述预设的神经网络模型通过imagenet训练;
通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,还包括:
在一个样本子集合中:
按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本;
利用所得到的正样本训练模型分类器;
通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,还包括:
利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50;
通过训练得到的深度残差网络,校正所述样本子集合。
结合第一方面,在第一方面的第四种可能的实现方式中,还包括:
在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,从所述识别结果中提取难例样本;
根据所述难例样本更新对应各类的识别模型的参数。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述从所述识别结果中提取难例样本,包括:
获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到;
按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序;
获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为所述难例样本。。
结合第一方面,在第一方面的第六种可能的实现方式中,还包括:
按照预设的业务规则,从电商服务平台采集候选图像,利用所采集的候选图像更新所述图片库;
和/或,按照预设的测试规则,从所述测试规则所指向的样本库中提取所述训练样本集合。
第二方面,本发明的实施例提供的装置,包括:
聚类模块,用于在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类;
训练模块,用于根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型;
分析模块,用于利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片。
结合第二方面,在第二方面的第一种可能的实现方式中,所述聚类模块,具体用于通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征;并通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合;其中,所述预设的神经网络模型通过imagenet训练。
结合第二方面,在第二方面的第二种可能的实现方式中,还包括:过滤模块,用于在一个样本子集合中:按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本;再利用所得到的正样本训练模型分类器;之后通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除;
还包括:校正模块,用于利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50;并通过训练得到的深度残差网络,校正所述样本子集合。
结合第二方面,在第二方面的第三种可能的实现方式中,还包括:
更新模块,用于在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到;并按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序;
获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为所述难例样本。;并根据所述难例样本更新对应各类的识别模型的参数。
本发明实施例提供的对敏感图像进行分析的方法及装置,通过对所述训练样本集合中的样本图像进行聚类,再根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型,之后利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片,从而识别出电商服务平台的商户所上传的图片是否属于对应各类的敏感图片。实现了对于商户上传电商服务平台的图片的自动检测、扫描,提升了对于广告图片识别检测的自动化水平,降低人工审核成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种可能的***架构示意图;
图2为本发明实施例提供的方法流程示意图;
图3、4为本发明实施例提供的具体实例的示意图;
图5、6、7为本发明实施例提供的装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明实施例具体可以实现在一种如图1所示的***环境中,具体包括了:电商服务平台、监控服务器和数据库;
其中,可以由监控服务器按照预设的业务规则,从电商服务平台采集候选图像,并利用所采集的候选图像更新所述数据库中的图片库。具体的,图片库包括了发布在电商服务平台上的广告图片,或者是在商品详情页、浏览页等用于向消费者展示的页面上发布的图片。可以通过监控服务器实时(比如按照一定的更新周期,如10分钟、1小时等)从电商服务平台上采集各类图片作为所述候选图像,并导入所述数据库中的图片库。
监控服务器具体可以是单独作成的服务器设备,比如:机架式、刀片、塔式或者机柜式的服务器设备,也可以采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是由多个服务器设备组成的服务器集群。
数据库主要用于存储图片库,具体可以是一种Redis数据库或者其他类型的分布式数据库、关系型数据库等,具体可以是包括存储设备的数据服务器以及与数据服务器相连的存储设备,或者是由多个数据服务器和存储服务器组成的一种用于数据库的服务器集群***。
电商服务平台具体可以是目前在线运行的,包括了各类业务子***的,用于在线交易、商品销售的平台***。在硬件层面上,电商服务平台具体也是由一系列相互之间建立通信连接的服务器集群组成,电商服务平台具体的具体建设方式和所采用的架构标准,可以参照目前国内的几大大型网购平台所使用的常用技术,在本实施例中不再赘述。
本发明实施例提供一种对敏感图像进行分析的方法,如图2所示,包括:
S1、在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类。
其中,可以预先在监控服务器中还建立了测试规则库,测试规则库中包括了预设的测试规则,所述测试规则具体可以由技术人员设定且输入监控服务器,比如:由技术人员设计一些测试模板,其中,一套测试模板包括了针对特定应用场景所设定的测试规则、对应的训练样本集合和测试所需的算法模型,以便于监控服务器按照预设的测试规则,从所述测试规则所指向的样本库中提取所述训练样本集合,具体可以根据当前的具体测试环境自动调取(或者由技术人员操作)测试规则。
在本实施例中,敏感类型可以理解为:针对不同的业务方向的图片,所表示的商品或者物品的种类有所差别,针对这些图片中有所差别的商品或者物品,可以预先设置不同种类的敏感类型,比如:对于禽肉类商品、内衣类商品和计生用品这3种不同的业务方向的商品,经销这些商品的商品所投放的广告图片所表示的商品种类是不同的,可以设置敏感类型1、2、3,并将禽肉类商品的广告图片聚类至敏感类型1、将内衣类商品的广告图片聚类至敏感类型2、将计生用品的广告图片聚类至敏感类型3。从而使得由监控服务器从电商服务平台中采集到的广告图片按照敏感类型进行分类区分,例如:监控服务器在敏感图识别过滤的过程中,敏感图片的识别模型的输入为待处理图像url(Uniform Resoure Locator,统一资源***),输出为待处理图像的属性分类结果。
S2、根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型。
其中,通过卷积神经网络训练对应各类的识别模型可以理解为:训练基于卷积神经网络的识别分类模型,具体可以采用目前常用的卷积神经网络技术,根据具体的实际业务场景来用于构建敏感图片识别的识别模型,且可以针对不同的敏感类型分别构建对应各敏感类型的识别模型。
在本实施例中,在具体训练对应各敏感类型的识别模型时,针对不同种类的敏感类型可以配置不同的识别算法和用于识别匹配的参考数据,例如:可以从电商服务平台中的各业务子***中提取相应的业务知识规则,业务知识规则用于表示该业务方向的商品或者物品的一些独有特征,比如:禽肉类商品的业务知识规则包括了动物肢体、内脏的种类,以及动物肢体、内脏的典型图例信息、颜色信息和轮廓信息,则对于敏感类型1的商品,用于识别匹配的参考数据可以包括动物肢体、内脏的典型图例信息和轮廓信息,并在识别判定的过程中,将符合这些参考数据的图像判定为非敏感图片;再比如:内衣类商品的业务知识规则包括了常见的内衣的形状、颜色和表面材质(比如通过色泽和光泽度可以简单判定图片中哪些区域为布料,哪些区域为模特的皮肤),则对于敏感类型2的商品,用于识别匹配的参考数据可以包括形状、颜色、表面材质,并在识别判定的过程中,并将符合这些参考数据并且其中不存在敏感器官(敏感器官的判定可以采用传统的判别方式,比如公安机关采用的淫秽图片识别手段)的图像判定为非敏感图片
S3、利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片。
其中,待检测的图片库中包括了电商服务平台的商户所上传的图片,由监控服务器执行本实施例的流程,从而识别出电商服务平台的商户所上传的图片是否属于对应各类的敏感图片。
依据新广告法的规定,需要加强电商服务平台上所发布的广告图片的监控和管理。但目前通过用户反馈和人工肉眼进行检查处理,存在效率低、风险大,以及工作量大等问题,因此,需要通过本实施例中的监控服务器进行自动识别,以便于能够及时向电商服务平台的运营商和商家发出警示。
提供了一种在针对电商业务下的敏感图片进行识别过滤的过程中,识别过滤的算法的训练样本和过滤的具体方法。不同于传统方法手工设计颜色形状纹理图像特征的方法,本发明采用了卷积神经网络,减少了手工设计特征的人工成本。本发明实施例提供的对敏感图像进行分析的方法,通过对所述训练样本集合中的样本图像进行聚类,再根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型,之后利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片,从而识别出电商服务平台的商户所上传的图片是否属于对应各类的敏感图片。实现了对于商户上传电商服务平台的图片的自动检测、扫描,提升了对于广告图片识别检测的自动化水平,降低人工审核成本。
具体的,所述按照各样本对应的敏感类型对所述训练样本集合中的样本图像进行聚类,包括:
通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征。再通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合。
其中,所述预设的神经网络模型通过imagenet(一种计算机视觉***识别项目中的用于图像识别训练的数据库)进行训练。例如:采用imagenet训练的神经网络模型,再利用所训练的神经网络模型提取候选图像的敏感特征。之后采用预设的聚类算法将具有相似敏感特征的提取合并为一个子集合。
进一步还包括对于分别对于各个样本子集合的进行过滤、筛选、整理的具体方式,以其中一个样本子集合为例,在一个样本子集合中:
按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本。在利用所得到的正样本训练模型分类器。之后通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除。例如:每个子集合内候选集合,利用距离聚类中心最近的100样本作为正样本,训练模型分类器(比如可以采用基于one class svm的分类器);对子集合中的每张图都用分类器分类计算,根据分类结果,将得分较低的非本类图像剔除掉。
可选的,本实施例中还提供一种对于样本子集进行校正的具体方式,包括:
利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50。之后通过训练得到的深度残差网络,校正所述样本子集合。例如:利用ImageNet所举办的公开比赛中所使用的1000类分类识别数据集作为预训练数据集训练50层的深度残差网络,将预训练得到的模型的参数,使用上面通过过滤、筛选、整理处理的样本子集合进行微调,从而避免由于敏感图训练数据过少导致的过拟合,也避免了传统识别算法中复杂的特征提取步骤。
举例来说:如图4所示的,对于深度残差网络的具体单元结构的设计,设深度网络中某隐含层为H(x)-x→F(x),如果可以假设多个非线性层组合可以近似于一个复杂函数,那么也同样可以假设隐含层的残差近似于某个复杂函数。即那么可以将隐含层表示为H(x)=F(x)+x。这样一来得到一种全新的残差结构单元,残差单元的输出由多个卷积层级联的输出和输入元素间相加(从而保证卷积层输出和输入元素维度相同),再经过ReLU激活后得到。将这种结构级联起来,就得到了深度残差网络。
进一步的,本实施例还提供了一种进一步优化监督识别结果的方式,具体包括:
在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,从所述识别结果中提取难例样本。并根据所述难例样本更新对应各类的识别模型的参数。从而利用难例优化卷积神经网络参数,增强算法模型的识别能力。
其中,所述从所述识别结果中提取难例样本,包括:
获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到。
按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序。其中,敏感图片的属性可以理解为:与敏感图片的图像数据相关联的信息,比如:名称、源网站地址、日期、分辨率、尺寸、分类标签等信息,这些关联的信息通常作为图像数据的属性信息添加在图像数据中。
获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为所述难例样本。例如:一份敏感图片的属性包括了名称、源网站地址、日期、分辨率、尺寸、分类标签…等10种属性,通过所述识别模型计算这10种属性,得到得分值最大的前3种属性为:源网站地址(得分值0.4),名称(得分值0.3)和分类标签(得分值0.1),而置信度阈值为0.7,则源网站地址+名称+分类标签的得分值0.8大于0.7,判定这一份敏感图片为难例样本。
其中,可以通过Progressive CNN增强算法识别能力,具体根据检测难例的结果,将其加入到卷积神经网络训练数据中,增强这些难例在样本中的作用,从而提升识别模型对于这些难以区分的违规图片的识别能力。
通过本实施例,实现了对于商户上传电商服务平台的主图、详情图及晒单图出现的淫秽违规图片进行自动检测扫描,尤其是提升了对于广告图片管理的智能化水平,降低人工审核成本,最终也降低管理平台风险。
且不同于以往只分为敏感图和非敏感图的简单二分法,本发明针对电商的可能场景将违规图像分为若干类(敏感类型),增加对于特殊类别图片识别的针对性,同时提高了识别准确率。例如:在实际的测试中,电商服务平台中的商户管理平台目前每天新增上传200万张图像,通过人工审核成本巨大,需要100人天工时。采用本实施例后,每天需要人工进一步校验的图片数量降低到500张以内,降低人工成本4000倍,同时减少人工参与,降低误操作带来的风险。
本发明实施例还提供一种如图5所示的对敏感图像进行分析的装置,该装置具体可以运行在如图1所示的监控服务器上,该装置包括:
聚类模块,用于在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类;
训练模块,用于根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型;
分析模块,用于利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片。
其中,所述聚类模块,具体用于通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征;并通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合;其中,所述预设的神经网络模型通过imagenet训练。
进一步的,如图6所示,还包括:过滤模块,用于在一个样本子集合中:按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本;再利用所得到的正样本训练模型分类器;之后通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除;
还包括:校正模块,用于利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50;并通过训练得到的深度残差网络,校正所述样本子集合。
进一步的,如图7所示,更新模块,用于在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到;并按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序;
获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为所述难例样本。;并根据所述难例样本更新对应各类的识别模型的参数。
本发明实施例提供的对敏感图像进行分析的装置,通过对所述训练样本集合中的样本图像进行聚类,再根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型,之后利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片,从而识别出电商服务平台的商户所上传的图片是否属于对应各类的敏感图片。实现了对于商户上传电商服务平台的图片的自动检测、扫描,提升了对于广告图片识别检测的自动化水平,降低人工审核成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种对敏感图像进行分析的方法,其特征在于,包括:
在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类;
根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型;
利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片;
所述按照各样本对应的敏感类型对所述训练样本集合中的样本图像进行聚类,包括:通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征,其中,所述预设的神经网络模型通过imagenet训练;通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合;
还包括:利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50;通过训练得到的深度残差网络,校正所述样本子集合;
其中,深度网络中某隐含层为H(x)-x→F(x),并将隐含层表示为H(x)=F(x)+x,残差单元的输出由多个卷积层级联的输出和输入元素间相加,再经过ReLU激活,之后将得到的结构级联从而获取深度残差网络。
2.根据权利要求1所述的方法,其特征在于,还包括:
在一个样本子集合中:
按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本;
利用所得到的正样本训练模型分类器;
通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除。
3.根据权利要求1所述的方法,其特征在于,还包括:
在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,从所述识别结果中提取难例样本;
根据所述难例样本更新对应各类的识别模型的参数。
4.根据权利要求3所述的方法,其特征在于,所述从所述识别结果中提取难例样本,包括:
获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到;按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序;
获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为所述难例样本。
5.根据权利要求1所述的方法,其特征在于,还包括:
按照预设的业务规则,从电商服务平台采集候选图像,利用所采集的候选图像更新所述图片库;
和/或,按照预设的测试规则,从所述测试规则所指向的样本库中提取所述训练样本集合。
6.一种对敏感图像进行分析的装置,其特征在于,包括:
聚类模块,用于在所提取训练样本集合中,按照各样本对应的敏感类型,对所述训练样本集合中的样本图像进行聚类;
训练模块,用于根据经过聚类的样本图像,通过卷积神经网络训练对应各类的识别模型;
分析模块,用于利用训练得到的识别模型,从待检测的图片库中识别对应各类的敏感图片;
所述聚类模块,具体用于通过预设的神经网络模型,从所述训练样本集合中提取各样本图像的敏感特征;并通过预设的聚类算法,将敏感特征的相似程度满足测试规则的样本图像聚类至同一个样本子集合;其中,所述预设的神经网络模型通过imagenet训练;
还包括:过滤模块,用于在一个样本子集合中:按照与聚类中心的距离,将所述子集合中的样本图像由近至远排序,并选取排序在前指定位数的样本图像作为正样本;再利用所得到的正样本训练模型分类器;之后通过经过训练的所述模型分类器,对所述样本子集合中的样本图像进行分类计算,并将计算得到的分值低于预设门限的样本图像剔除;还包括:校正模块,用于利用所提取的预训练数据集,训练指定层数的深度残差网络,所述指定层数≥50;并通过训练得到的深度残差网络,校正所述样本子集合;
其中,深度网络中某隐含层为H(x)-x→F(x),并将隐含层表示为H(x)=F(x)+x,残差单元的输出由多个卷积层级联的输出和输入元素间相加,再经过ReLU激活,之后将得到的结构级联从而获取深度残差网络。
7.根据权利要求6所述的装置,其特征在于,还包括:
更新模块,用于在对所述待检测的图片库中对应各类的敏感图片进行识别,且得到识别结果后,获取敏感图片中各属性的得分值,其中,所述敏感图片中各属性的得分值通过所述识别模型计算得到;并按照得分值由大至小的顺序,对所获取的敏感图片的各属性排序;并获取排序在前指定位数的属性的得分值的相加值,当所述相加值大于预设的置信度阈值时,判定作为难例样本;再根据所述难例样本更新对应各类的识别模型的参数。
CN201710248908.8A 2017-04-17 2017-04-17 一种对敏感图像进行分析的方法及装置 Active CN108734184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710248908.8A CN108734184B (zh) 2017-04-17 2017-04-17 一种对敏感图像进行分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710248908.8A CN108734184B (zh) 2017-04-17 2017-04-17 一种对敏感图像进行分析的方法及装置

Publications (2)

Publication Number Publication Date
CN108734184A CN108734184A (zh) 2018-11-02
CN108734184B true CN108734184B (zh) 2022-06-07

Family

ID=63923944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710248908.8A Active CN108734184B (zh) 2017-04-17 2017-04-17 一种对敏感图像进行分析的方法及装置

Country Status (1)

Country Link
CN (1) CN108734184B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144399B (zh) * 2018-11-06 2024-03-05 富士通株式会社 处理图像的装置和方法
CN109919170B (zh) * 2018-11-29 2023-12-05 创新先进技术有限公司 变更评估方法、装置、电子设备及计算机可读存储介质
CN109831699B (zh) * 2018-12-28 2021-07-20 广州华多网络科技有限公司 图像审核处理方法、装置、电子设备及存储介质
CN109829069B (zh) * 2018-12-28 2021-03-12 广州华多网络科技有限公司 图像审核处理方法、装置、电子设备及存储介质
CN110110982A (zh) * 2019-04-26 2019-08-09 特赞(上海)信息科技有限公司 创意素材的审查方法及装置
CN110222846B (zh) * 2019-05-13 2021-07-20 中国科学院计算技术研究所 一种面向互联网终端的信息安防方法及信息安防***
CN110210356A (zh) * 2019-05-24 2019-09-06 厦门美柚信息科技有限公司 一种图片鉴别方法、装置及***
CN110456955B (zh) * 2019-08-01 2022-03-29 腾讯科技(深圳)有限公司 暴露服饰检测方法、装置、***、设备及存储介质
CN111311316B (zh) * 2020-02-03 2023-05-23 支付宝(杭州)信息技术有限公司 商户画像的刻画方法、装置、电子设备、验证方法及***
CN111626778A (zh) * 2020-05-25 2020-09-04 陶乐仪 一种广告推送***及方法
CN111726648A (zh) * 2020-06-28 2020-09-29 百度在线网络技术(北京)有限公司 图像数据检测的方法、装置、设备及计算机可读存储介质
CN114004645A (zh) * 2021-10-29 2022-02-01 浙江省民营经济发展中心(浙江省广告监测中心) 融媒体广告智慧监测平台和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095202A1 (en) * 2004-11-01 2006-05-04 Hitachi, Ltd. Method of delivering difference map data
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及***
CN106228185A (zh) * 2016-07-20 2016-12-14 武汉盈力科技有限公司 一种基于神经网络的通用图像分类识别***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095202A1 (en) * 2004-11-01 2006-05-04 Hitachi, Ltd. Method of delivering difference map data
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及***
CN106228185A (zh) * 2016-07-20 2016-12-14 武汉盈力科技有限公司 一种基于神经网络的通用图像分类识别***及方法

Also Published As

Publication number Publication date
CN108734184A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
CN105426356B (zh) 一种目标信息识别方法和装置
CN107239891B (zh) 一种基于大数据的招投标审核方法
US8190621B2 (en) Method, system, and computer readable recording medium for filtering obscene contents
CN107862022B (zh) 文化资源推荐***
CN110866799B (zh) 使用人工智能监视在线零售平台的***和方法
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及***
KR20180052489A (ko) 사용자 경험분석 및 환경요인에 기초한 크로스보더 전자상거래 상품 추천 방법
CN108241867B (zh) 一种分类方法及装置
CN112818218B (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
Trappey et al. An intelligent content-based image retrieval methodology using transfer learning for digital IP protection
CN116188475A (zh) 一种外观缺陷自动光学检测的智慧控制方法、***及介质
CN110457992A (zh) 基于贝叶斯优化技术的行人重识别方法、装置和***
CN111200607B (zh) 一种基于多层lstm的线上用户行为分析方法
CN114692593A (zh) 一种网络信息安全监测预警方法
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN112445985A (zh) 一种基于浏览行为优化的相似人群获取方法
CN111353803B (zh) 广告主分类方法及装置、计算设备
CN113220970A (zh) 一种基于区块链的电商大数据平台
CN113642329A (zh) 术语识别模型的建立方法及装置、术语识别方法及装置
CN111125351A (zh) 商情简报生成方法及装置、电子设备及存储介质
Liu Fruit Traceability and Quality Inspection System Based on Blockchain and Computer Vision
CN108564422A (zh) 一种基于枸杞数据分析的***
Meizenty et al. Rice Quality Detection Based on Digital Image Using Classification Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000, 1-5 story, Jinshan building, 8 Shanxi Road, Nanjing, Jiangsu.

Applicant after: SUNING.COM Co.,Ltd.

Address before: 210042 Suning Headquarters, No. 1 Suning Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Applicant before: SUNING COMMERCE GROUP Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant