CN113095342A - 基于误判样本图片的审核模型优化方法、装置及服务器 - Google Patents

基于误判样本图片的审核模型优化方法、装置及服务器 Download PDF

Info

Publication number
CN113095342A
CN113095342A CN201911340682.XA CN201911340682A CN113095342A CN 113095342 A CN113095342 A CN 113095342A CN 201911340682 A CN201911340682 A CN 201911340682A CN 113095342 A CN113095342 A CN 113095342A
Authority
CN
China
Prior art keywords
feature vector
category
feature
misjudgment
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911340682.XA
Other languages
English (en)
Other versions
CN113095342B (zh
Inventor
王森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911340682.XA priority Critical patent/CN113095342B/zh
Priority claimed from CN201911340682.XA external-priority patent/CN113095342B/zh
Publication of CN113095342A publication Critical patent/CN113095342A/zh
Application granted granted Critical
Publication of CN113095342B publication Critical patent/CN113095342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于误判样本图片的审核模型优化方法、装置及服务器。该方法包括:获取误判样本图片的特征向量;对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;利用所述N组训练数据集对待优化审核模型进行并行训练;从训练后的所述待优化审核模型中确定最优的审核模型。根据本发明实施例,可以实现基于误判样本图片的审核模型的自动优化训练,从而及时响应线上内容审核的突发情况,缩减人力成本和时间成本。

Description

基于误判样本图片的审核模型优化方法、装置及服务器
技术领域
本发明涉及计算机视觉识别技术领域,更具体地,涉及一种基于误判样本(badcase)图片的审核模型优化方法方法、一种基于误判样本图片的审核模型优化装置、一种服务器以及一种计算机可读存储介质。
背景技术
随着互联网技术的快速发展,网络上的视频资源也越来越多。大量的视频鱼龙混杂,例如一些视频片段含有色情、严重暴力等内容,或者一些视频涉及版权等问题。为了能够过滤这些包含不良内容的视频,需要对视频的内容进行审核。
在内容审核时,通常使用审核模型对图片进行审核,来判断是否存在违规违法的内容,但审核模型会存在误判或漏判的情况,这时就会收到用户反馈的误判样本的图片数据。如何对误判样本的图片数据进行分析以对审核模型进行针对性的优化显得尤为重要。
目前,对于误判样本分析主要依赖于运营人员的人工审查,运营人员需要总结误判样本的图片类别,然后线下手机特定类别的图片,并人工对图片进行标注,产生训练集,从而实现对审核模型的针对性训练。
但这种基于误判样本的分析对审核模型进行优化的方法还处于强人工处理阶段,会消耗高额的人力成本和时间成本,且开发周期长,不能及时响应线上内容审核的突发情况。因此,有必要提供一种新的基于误判样本的审核模型的自动优化训练的方法。
发明内容
本发明实施例的一个目的是提供一种用于基于误判样本图片的审核模型优化的新的技术方案。
根据本发明的第一方面,提供了一种基于误判样本图片的审核模型优化方法,所述方法包括:
获取误判样本图片的特征向量;
对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;
根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;
利用所述N组训练数据集对待优化审核模型进行并行训练;
从训练后的所述待优化审核模型中确定最优的审核模型。
可选地,所述获取误判样本图片的特征向量,包括:
对每个所述误判样本图片的特征进行提取,得到每个所述误判样本图片对应的特征向量。
可选地,采用层次聚类法对所述误判样本图片的特征向量进行聚类。
可选地,所述对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据,包括:
对所述误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果;
计算每个类别中所述误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;
将每个类别中标记数量最多的标签确定为各类别对应的类别标签;
将N个所述类别特征向量及对应的类别标签分别确定为所述类别的特征向量数据。
可选地,所述根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集,包括:
对于每个所述类别的特征向量数据,将所述类别的特征向量数据中的特征向量与所述特征数据库中的特征向量进行匹配,得到符合预设相似度阈值的多个图片数据;
使每个所述图片数据分别与所述类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与所述类别的特征向量数据对应的训练数据集。
可选地,所述从训练后的所述待优化审核模型中确定最优的审核模型,包括:
并行运行N个所述训练后的待优化审核模型;
获取每个所述训练后的待优化审核模型的评价指标值;所述评价指标值包括召回率、准确率和F1值的平均值;所述F1值是所述召回率和所述准确率的调和平均值;
选择最优的所述评价指标值对应的所述训练后的待优化审核模型确定为所述最优的审核模型。
可选地,所述获取误判样本图片的特征向量之前,所述方法还包括:
根据每个所述误判样本图片的RGB值,过滤重复的误判样本图片。
根据本发明实施例的第二方面,提供了一种基于误判样本图片的审核模型优化装置,所述装置包括:
获取模块,用于获取误判样本图片的特征向量;
聚类模块,用于对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;
匹配模块,用于根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;
训练模块,用于利用所述N组训练数据集对待优化审核模型进行并行训练;
确定模块,用于从训练后的所述待优化审核模型中确定最优的审核模型。
可选地,所述获取获取模块具体用于:
对每个所述误判样本图片的特征进行提取,得到每个所述误判样本图片对应的特征向量。
可选地,所述聚类模块具体用于:采用层次聚类法对所述误判样本图片的特征向量进行聚类。
可选地,所述聚类模块具体用于:
对所述误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果;
计算每个类别中所述误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;
将每个类别中标记数量最多的标签确定为各类别对应的类别标签;
将N个所述类别特征向量及对应的类别标签分别确定为所述类别的特征向量数据。
可选地,所述匹配模块具体用于:
对于每个所述类别的特征向量数据,将所述类别的特征向量数据中的特征向量与所述特征数据库中的特征向量进行匹配,得到符合预设相似度阈值的多个图片数据;
使每个所述图片数据分别与所述类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与所述类别的特征向量数据对应的训练数据集。
可选地,所述确定模块具体用于:
并行运行N个所述训练后的待优化审核模型;
获取每个所述训练后的待优化审核模型的评价指标值;所述评价指标值包括召回率、准确率和F1值的平均值;所述F1值是所述召回率和所述准确率的调和平均值;
选择最优的所述评价指标值对应的所述训练后的待优化审核模型确定为所述最优的审核模型。
可选地,所述装置还包括过滤模块,用于根据每个所述误判样本图片的RGB值,过滤重复的误判样本图片。
根据本发明的第三方面,提供了一种服务器,包括如本发明的第二方面所述的基于误判样本图片的审核模型优化装置,或者,所述服务器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如本发明的第一方面中任一项所述的基于误判样本图片的审核模型优化方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时如本发明的第一方面中任一项所述的基于误判样本图片的审核模型优化方法。
根据本发明的一个实施例,可以实现基于误判样本图片的审核模型的自动优化训练,从而及时响应线上内容审核的突发情况,缩减人力成本和时间成本。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为可以应用根据本发明实施例的基于误判样本图片的审核模型优化方法的一种服务器的结构示意图;
图2是根据本发明实施例的基于误判样本图片的审核模型优化方法的流程图;
图3示出了根据本发明实施例的层次聚类法的示意图;
图4示出了根据本发明实施例的一个例子的流程示意图;
图5是根据本发明实施例的基于误判样本图片的审核模型优化装置的结构示意图;
图6根据本发明实施例的服务器的原理框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人物已知的技术、方法和设备可能不作详细讨论,但在适当情况下,该技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的服务器1000的硬件配置的框图。
服务器1000例如可以是刀片服务器等。
在一个例子中,服务器1000可以是一台计算机。
在另一个例子中,服务器1000可以如图1所示,包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600。尽管服务器也可以包括扬声器、麦克风等等,但是,这些部件与本发明无关,故在此省略。
其中,处理器1100例如可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏。输入装置1600例如可以包括触摸屏、键盘等。
图1所示的服务器仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,服务器1000的的该存储器1200用于存储指令,该指令用于控制该处理器1100进行操作以执行本发明实施例提供的任意一项基于误判样本图片的审核模型优化方法。
本领域技术人员应当理解,尽管在图1中对服务器1000的示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,服务器1000的只涉及处理器1100和存储装置1200。
技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
本实施例提供了一种基于误判样本图片的审核模型优化方法,该方法例如可以由服务器实施,该服务器可以是如图1所示的服务器1000。
如图2所示,该方法包括以下步骤2100~2500:
步骤2100,获取误判样本图片的特征向量。
其中,该误判样本图片是指,在使用审核模型对图片进行审核时出现了误判或漏判的情况下,用户反馈的badcase的图片数据。
在本步骤之前,该服务器1000会获取用户反馈的误判样本图片,并存入数据仓库。由于在内容审核场景下,例如直播场景中,大多数图片存在大量重复的情况,因此,为减少计算负载,在获取误判样本图片的特征向量之前,该服务器1000会对数据仓库中的误判样本图片进行清洗,对重复的误判样本图片进行过滤。在一个例子中,该服务器1000可以根据每个该误判样本图片的RGB(Red、Green、Blue,红绿蓝)值,对重复的误判样本图片进行过滤。
过滤掉重复的误判样本图片后,该服务器1000对每个该误判样本图片的特征进行提取,得到每个该误判样本图片对应的特征向量。例如,可以通过神经网络算法等人工智能技术从该误判样本图片中提取对应的特征向量。
步骤2200,该误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据。
本步骤中,为减少人工预先对数据分布了解的过程,采用了不需要输入聚类数量、距离阈值等超参数的层次聚类法对该误判样本图片的特征向量进行聚类。实际应用中,层次聚类法包括自底向上合并法和自顶向下***法两种方法,本实施例中,可以采用自底向上合并法,如DBSCAN聚类算法对误判样本图片的特征向量进行聚类。
具体的,该服务器1000采用层次聚类法对该误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果,如图3所示,误判样本图片的特征向量经过聚类分析,得到层次1(n个类别)、层次2(m个类别)、…、层次T(k个类别)的聚类结果,其中,n>m>k>2。
在得到聚类结果后,该服务器1000对每个层次的聚类结果进行并行计算,计算每个类别中该误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;同时将每个类别中标记数量最多的标签确定为各类别对应的类别标签;将N个该类别特征向量及对应的类别标签分别确定为该类别的特征向量数据。需要说明的是,标签是用户在反馈误判样本图片时添加的。
步骤2300,根据该N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集。
具体的,对于每个该类别的特征向量数据,该服务器1000将该类别的特征向量数据中的特征向量与该特征数据库中的特征向量进行匹配,例如,匹配特征向量的距离相似性,得到符合预设相似度阈值的多个图片数据;使每个该图片数据分别与该类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与该类别的特征向量数据对应的训练数据集。即,每个层次聚类结果输出一组对应的训练数据集,等待审核模型训练。
步骤2400,利用该N组训练数据集对待优化审核模型进行并行训练。
具体的,将上述步骤得到的N组训练数据集,分别输入待优化审核模型中,并行训练待优化审核模型,得到训练后的待优化审核模型1、2、…、N。
步骤2500,从训练后的该待优化审核模型中确定最优的审核模型。
在本步骤中,该服务器1000并行运行N个该训练后的待优化审核模型;获取每个该训练后的待优化审核模型的评价指标值;该评价指标值包括召回率、准确率和F1值的平均值;所述F1值是所述召回率和所述准确率的调和平均值;并选择最优的该评价指标值对应的该训练后的待优化审核模型确定为该最优的审核模型,部署上线。
<例子>
图4示出了根据本发明实施例的一个例子的流程示意图。
如图4所示,本例的基于误判样本图片的审核模型优化方法可以包括如下步骤:
步骤4100,获取用户反馈的误判样本图片,并存入数据仓库。
步骤4200,过滤重复的误判样本图片。
例如,可以根据每个该误判样本图片的RGB值,对重复的误判样本图片进行过滤。
步骤4300,对每个误判样本图片的特征进行提取,得到每个该误判样本图片对应的特征向量。
步骤4400,采用层次聚类法对误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果。
步骤4500,计算每个类别中该误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;并将每个类别中标记数量最多的标签确定为各类别对应的类别标签;得到N个类别的特征向量数据。
步骤4600,将该类别的特征向量数据中的特征向量与该特征数据库中的特征向量进行匹配,得到符合预设相似度阈值的多个图片数据。
步骤4700,使每个该图片数据分别与该类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与该类别的特征向量数据对应的训练数据集。
步骤4800,利用该N组训练数据集对待优化审核模型进行并行训练。
步骤4900,并行运行N个该训练后的待优化审核模型,得到N个训练后的待优化审核模型对应的评价指标值,并基于该评价指标值确定最优的审核模型部署上线。
以上已结合附图和例子对本实施例的基于误判样本图片的审核模型优化方法进行了说明。本实施例的方法通过获取误判样本图片的特征向量;对该误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;根据该N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;利用该N组训练数据集对待优化审核模型进行并行训练;从训练后的该待优化审核模型中确定最优的审核模型。根据本发明实施例,可以实现基于误判样本图片的审核模型的自动优化训练,从而及时响应线上内容审核的突发情况,缩减人力成本和时间成本。
<装置实施例>
本实施例提供一种基于误判样本图片的审核模型优化装置,该装置例如是图5所示的基于误判样本图片的审核模型优化装置5000。
如图5所示,该基于误判样本图片的审核模型优化装置5000可以包括:获取模块5100,聚类模块5200,匹配模块5300,训练模块5400和确定模块5500。
其中,该获取模块5100用于获取误判样本图片的特征向量。
该聚类模块5200用于对该误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据。
该匹配模块5300用于根据该N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集。
该训练模块5400用于利用该N组训练数据集对待优化审核模型进行并行训练。
该确定模块5500用于从训练后的该待优化审核模型中确定最优的审核模型。
具体的,该获取模块5100可以用于对每个该误判样本图片的特征进行提取,得到每个该误判样本图片对应的特征向量。
可选地,该聚类模块5200采用层次聚类法对该误判样本图片的特征向量进行聚类。具体的,该聚类模块5200可以对该误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果;计算每个类别中该误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;将每个类别中标记数量最多的标签确定为各类别对应的类别标签;将N个该类别特征向量及对应的类别标签分别确定为该类别的特征向量数据。
在一个例子中,该匹配模块5300具体可以用于对于每个该类别的特征向量数据,将该类别的特征向量数据中的特征向量与该特征数据库中的特征向量进行匹配,得到符合预设相似度阈值的多个图片数据;使每个该图片数据分别与该类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与该类别的特征向量数据对应的训练数据集。
在一个例子中,该确定模块5500具体用于并行运行N个该训练后的待优化审核模型;获取每个该训练后的待优化审核模型的评价指标值;该评价指标值包括召回率、准确率和F1值的平均值;选择最优的该评价指标值对应的该训练后的待优化审核模型确定为该最优的审核模型。
可选地,该基于误判样本图片的审核模型优化装置5000还可以包括过滤模块,用于根据每个该误判样本图片的RGB(Red、Green、Blue,红绿蓝)值,过滤重复的误判样本图片。
本实施例的基于误判样本图片的审核模型优化装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
<设备实施例>
本实施例中,还提供一种服务器,该服务器可以包括本发明装置实施例中描述的基于误判样本图片的审核模型优化装置5000;或者,该服务器为图6所示的服务器6000,包括:
存储器6100,用于存储可执行命令。
处理器6200,用于在存储器6100存储的可执行命令的控制下,执行本发明任意方法实施例中描述的方法。
<计算机可读存储介质实施例>
本实施例提供一种计算机可读存储介质,该存储介质中存储有可执行命令,该可执行命令被处理器执行时,执行本发明任意方法实施例中描述的方法。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种基于误判样本图片的审核模型优化方法,其特征在于,所述方法包括:
获取误判样本图片的特征向量;
对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;
根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;
利用所述N组训练数据集对待优化审核模型进行并行训练;
从训练后的所述待优化审核模型中确定最优的审核模型。
2.根据权利要求1所述的方法,其特征在于,所述获取误判样本图片的特征向量,包括:
对每个所述误判样本图片的特征进行提取,得到每个所述误判样本图片对应的特征向量。
3.根据权利要求1所述的方法,其特征在于,采用层次聚类法对所述误判样本图片的特征向量进行聚类。
4.根据权利要求3所述的方法,其特征在于,所述对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据,包括:
对所述误判样本图片的特征向量进行聚类,得到不同层次的N个类别的聚类结果;
计算每个类别中所述误判样本图片的特征向量的中值,得到各类别对应的类别特征向量;
将每个类别中标记数量最多的标签确定为各类别对应的类别标签;
将N个所述类别特征向量及对应的类别标签分别确定为所述类别的特征向量数据。
5.根据权利要求1所述的方法,其特征在于,所述根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集,包括:
对于每个所述类别的特征向量数据,将所述类别的特征向量数据中的特征向量与所述特征数据库中的特征向量进行匹配,得到符合预设相似度阈值的多个图片数据;
使每个所述图片数据分别与所述类别的特征向量数据中的类别构成图片-类别格式的训练数据,得到与所述类别的特征向量数据对应的训练数据集。
6.根据权利要求1所述的方法,其特征在于,所述从训练后的所述待优化审核模型中确定最优的审核模型,包括:
并行运行N个所述训练后的待优化审核模型;
获取每个所述训练后的待优化审核模型的评价指标值;所述评价指标值包括召回率、准确率和F1值的平均值;所述F1值是所述召回率和所述准确率的调和平均值;
选择最优的所述评价指标值对应的所述训练后的待优化审核模型确定为所述最优的审核模型。
7.根据权利要求1所述的方法,其特征在于,所述获取误判样本图片的特征向量之前,所述方法还包括:
根据每个所述误判样本图片的RGB值,过滤重复的误判样本图片。
8.一种基于误判样本图片的审核模型优化装置,其特征在于,所述装置包括:
获取模块,用于获取误判样本图片的特征向量;
聚类模块,用于对所述误判样本图片的特征向量进行聚类,得到N个类别的特征向量数据;
匹配模块,用于根据所述N个类别的特征向量数据,从特征数据库中获取对应的N组训练数据集;
训练模块,用于利用所述N组训练数据集对待优化审核模型进行并行训练;
确定模块,用于从训练后的所述待优化审核模型中确定最优的审核模型。
9.一种服务器,包括如权利要求8所述的基于误判样本图片的审核模型优化装置,或者,所述服务器包括:
存储器,用于存储可执行命令;
处理器,用于在所述可执行命令的控制下,执行如权利要求1-7中任一项所述的基于误判样本图片的审核模型优化方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被处理器执行时如权利要求1-7中任一项所述的基于误判样本图片的审核模型优化方法。
CN201911340682.XA 2019-12-23 基于误判样本图片的审核模型优化方法、装置及服务器 Active CN113095342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340682.XA CN113095342B (zh) 2019-12-23 基于误判样本图片的审核模型优化方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340682.XA CN113095342B (zh) 2019-12-23 基于误判样本图片的审核模型优化方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN113095342A true CN113095342A (zh) 2021-07-09
CN113095342B CN113095342B (zh) 2024-07-05

Family

ID=

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140003708A1 (en) * 2012-06-28 2014-01-02 International Business Machines Corporation Object retrieval in video data using complementary detectors
CN105912500A (zh) * 2016-03-30 2016-08-31 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN107194430A (zh) * 2017-05-27 2017-09-22 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN107562742A (zh) * 2016-06-30 2018-01-09 苏宁云商集团股份有限公司 一种图像数据处理方法及装置
CN108460427A (zh) * 2018-03-29 2018-08-28 国信优易数据有限公司 一种分类模型训练方法、装置以及分类方法及装置
US20180308234A1 (en) * 2017-04-24 2018-10-25 Taihao Medical Inc. System and method for cloud medical image analysis
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
US20180340729A1 (en) * 2016-10-19 2018-11-29 Emanate Wireless, Inc. Cold storage health monitoring system
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN108959567A (zh) * 2018-07-04 2018-12-07 武汉大学 一种云环境下适用于大规模图像的安全检索方法
CN109034076A (zh) * 2018-08-01 2018-12-18 天津工业大学 一种机械故障信号的自动聚类方法及自动聚类***
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN109495783A (zh) * 2018-11-02 2019-03-19 平安科技(深圳)有限公司 视频审核方法、装置、电子设备及介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109726120A (zh) * 2018-12-05 2019-05-07 北京计算机技术及应用研究所 一种基于机器学习的软件缺陷确认方法
WO2019196130A1 (zh) * 2018-04-12 2019-10-17 广州飒特红外股份有限公司 面向车载热成像行人检测的分类器训练方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140003708A1 (en) * 2012-06-28 2014-01-02 International Business Machines Corporation Object retrieval in video data using complementary detectors
CN105912500A (zh) * 2016-03-30 2016-08-31 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN107562742A (zh) * 2016-06-30 2018-01-09 苏宁云商集团股份有限公司 一种图像数据处理方法及装置
US20180340729A1 (en) * 2016-10-19 2018-11-29 Emanate Wireless, Inc. Cold storage health monitoring system
US20180308234A1 (en) * 2017-04-24 2018-10-25 Taihao Medical Inc. System and method for cloud medical image analysis
CN107194430A (zh) * 2017-05-27 2017-09-22 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN108460427A (zh) * 2018-03-29 2018-08-28 国信优易数据有限公司 一种分类模型训练方法、装置以及分类方法及装置
WO2019196130A1 (zh) * 2018-04-12 2019-10-17 广州飒特红外股份有限公司 面向车载热成像行人检测的分类器训练方法和装置
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN108959567A (zh) * 2018-07-04 2018-12-07 武汉大学 一种云环境下适用于大规模图像的安全检索方法
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN109034076A (zh) * 2018-08-01 2018-12-18 天津工业大学 一种机械故障信号的自动聚类方法及自动聚类***
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109495783A (zh) * 2018-11-02 2019-03-19 平安科技(深圳)有限公司 视频审核方法、装置、电子设备及介质
CN109726120A (zh) * 2018-12-05 2019-05-07 北京计算机技术及应用研究所 一种基于机器学习的软件缺陷确认方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUE Y , SHEN J , LIU R: "An Improved Adaptive Weighted Gaussian Nearest Neighbor Classification Method", 2019 CHINESE CONTROL AND DECISION CONFERENCE (CCDC), 12 September 2019 (2019-09-12), pages 2712 - 2715 *
张晓明: "基于SIFT特征的人脸表情识别研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 May 2015 (2015-05-15), pages 138 - 1123 *
朱亚奇;邓维斌;: "一种基于不平衡数据的聚类抽样方法", 南京大学学报(自然科学), no. 02, 30 March 2015 (2015-03-30), pages 211 - 219 *

Similar Documents

Publication Publication Date Title
US11188789B2 (en) Detecting poisoning attacks on neural networks by activation clustering
CN110852231A (zh) 违规视频检测方法、装置以及存储介质
CN111753701B (zh) 应用程序的违规检测方法、装置、设备和可读存储介质
US20220172476A1 (en) Video similarity detection method, apparatus, and device
CN113382279B (zh) 直播推荐方法、装置、设备、存储介质以及计算机程序产品
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
CN105518712A (zh) 基于字符识别的关键词通知方法及设备、计算机程序产品
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN111931859A (zh) 一种多标签图像识别方法和装置
CN111783812B (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN110895811B (zh) 一种图像篡改检测方法和装置
CN112016521A (zh) 视频处理的方法及装置
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN109446324B (zh) 样本数据的处理方法、装置、存储介质及电子设备
CN113963186A (zh) 目标检测模型的训练方法、目标检测方法及相关装置
CN111444364B (zh) 一种图像检测方法和装置
CN113095342B (zh) 基于误判样本图片的审核模型优化方法、装置及服务器
CN116010545A (zh) 一种数据处理方法、装置及设备
CN113095342A (zh) 基于误判样本图片的审核模型优化方法、装置及服务器
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备
CN114842411A (zh) 一种基于互补时空信息建模的群体行为识别方法
CN113807436A (zh) 用户挖掘方法、装置、计算机设备及可读存储介质
US10832407B2 (en) Training a neural network adapter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant