CN109214411A

CN109214411A - 一种基于训练模型识别典型图片对新增实体的验证方法及***

Info

Publication number: CN109214411A
Application number: CN201810762081.7A
Authority: CN
Inventors: 李春雅
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Hangzhou Jiji Intellectual Property Operation Co., Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-15

Abstract

本发明公开了一种基于训练模型识别典型图片对新增实体的验证方法及***，该方法包括步骤：S11.获取新增实体典型图片集；S12.通过现有训练模型对所述新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；S13.根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。本发明在现有训练模型的基础上，通过对新增实体的典型图片进行识别，得到top1和top5的置信度，然后根据一定的算法，从而判断该新增实体是否已经存在现有训练模型中，有效的解决了单纯使用名字匹配或者语义分析进行判断产生误判，漏判断，或者错判的情况，大大提高对新增实体判断的准确性。

Description

一种基于训练模型识别典型图片对新增实体的验证方法及 ***

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于训练模型识别典型图片对新增实体的验证方法及***。

背景技术

图像识别技术是人工智能的一个重要领域，其原理是基于深度学习及大规模图像训练，通过提取大量图片的特征来训练模型，准确识别图片中的物体类别、置信度等综合信息，随着现在识别模型健全，新增种类也越来越多，怎么判断新增的事物是否在已经存在该模型中，以及判断的标准，对于模型增广和扩大有很重要的意义。

但是现有的典型判断新增实体是否存在现有模型中的方法主要是通过字符的匹配或者字符语义的分析，即新增实体的名字与现有模型中的label进行判断，会产生对应的true和false结果，虽然现有的新增实体的判断方法对于特征分明或者名字唯一的实体进行判断不存在问题，但是在实际生活中，不同的实体在不同的国家、区域有不同的名字，这时就会出现一个实体对应多个名字的情况，甚至同样名字对应不同的实体，这样对于新增实体的判断，就会出现偏差甚至是错误，所以对于一个实体对应多个名字，或者一个名字对应多个实体这种情况，仅仅通过关键字的判断或者语义判断的方式就不足以解决新增实体的验证。

公开号为CN 107688822A的专利公开了一种基于深度学习的新增类别识别方法，包括以下步骤：将预测样本输入到深度网络获得预测样本的输出向量；计算所述预测样本的输出向量，与训练样本中每种类别的代表向量之间的相似度值，从而识别所述预测样本的类别；其中，所述训练样本中每种类别的代表向量是通过将所述训练样本集输入到深度网络获得输出向量集，并根据所述训练样本的输出向量集计算得出的。该方法是通过将新增实体与训练样本中的每种类别进行相似度比较，从而来判断该新增实体是否在训练样本中，该方法通过计算相似度的方式实质就是通过语义判断的方式来验证新增实体，还是无法保证验证新增实体的准确性。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于训练模型识别典型图片对新增实体的验证方法及***，判断该新增实体是否已经存在已有的模型，有效的解决了单纯使用名字匹配或者语义分析进行判断产生误判，漏判断，或者错判的情况。

为了实现以上目的，本发明采用以下技术方案：

一种基于训练模型识别典型图片对新增实体的验证方法，包括步骤：

S1.获取新增实体典型图片集；

S2.通过现有训练模型对所述新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

S3.根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

进一步的，所述现有训练模型对当前种类的识别top1的置信度大于75％、top 5的置信度大于90％。

进一步的，所述预设的算法具体为：

A1.计算新增实体典型图片集中所有典型图片的top5的置信度之和M＝P1+P2+P3+…+Pn以及top1的置信度之和T_n＝P₁+P₂+P₃+…+P_n；

A2.若M＞0.9*n或T＞0.75*n，则说明所述新增实体已经在现有训练模型中并结束判断，若否则跳到步骤A3；

A3.去掉所有典型图片中top1的置信度最小的进行重新计算top1的置信度之和T_n-1＝P₁+P₂+P₃+…P_n-1，若T_n-1＞0.75*(n-1)并且T＜0.75*n，则说明所述新增实体已经在现有训练模型中并结束判断，若否跳到步骤A4；

A4.去掉剩余典型图片中top1的置信度最小的进行重新计算top1的置信度之和T_x＝P₁+P₂+P₃+…+P_x；

A5.若并且T_x＞0.75*x以及T_x+1＜0.75*(x+1)，则说明该新增实体已经在现有训练模型中并结束判断；若且T_x＜0.75*x，则跳到步骤A4；若则说明该新增实体不存在现有训练模型中并结束判断。

进一步的，若判断结果为所述新增实体不存在现有训练模型中则将所述新增实体加入到现有训练模型中。

进一步的，所述步骤S1之后步骤S2之前还包括步骤：

对所述新增实体典型图片集中的所有典型图片进行图像预处理。

相应的，还提供一种基于训练模型识别典型图片对新增实体的验证***，包括：

获取模块，用于获取新增实体典型图片集；

计算模块，用于通过现有训练模型对所述新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

判断模块，用于根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

进一步的，所述预设的算法具体为：

进一步的，还包括：

预处理模块，用于对所述新增实体典型图片集中的所有典型图片进行图像预处理。

与现有技术相比，本发明在现有训练模型的基础上，通过对新增实体的典型图片进行识别，得到top1和top5的置信度，然后根据一定的算法，从而判断该新增实体是否已经存在现有训练模型中，有效的解决了单纯使用名字匹配或者语义分析进行判断产生误判，漏判断，或者错判的情况，大大提高对新增实体判断的准确性。

附图说明

图1是实施例一提供的一种基于训练模型识别典型图片对新增实体的验证方法流程图；

图2是本发明提供的利用现有训练模型对3张新增典型图片的识别结果示意图；

图3是实施例一提供的一种基于训练模型识别典型图片对新增实体的验证***结构图；

图4是实施例二提供的一种基于训练模型识别典型图片对新增实体的验证方法流程图；

图5是实施例二提供的一种基于训练模型识别典型图片对新增实体的验证***结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明是以图像识别技术为研究对象，主要的着力点在于改善验证新增实体的方法，提供了一种基于训练模型识别典型图片对新增实体的验证方法及***，判断该新增实体是否已经存在已有的模型，有效的解决了单纯使用名字匹配或者语义分析进行判断产生误判，漏判断，或者错判的情况。

实施例一

本实施例提供一种基于训练模型识别典型图片对新增实体的验证方法，如图1所示，包括步骤：

S11.获取新增实体典型图片集；

S12.通过现有训练模型对所述新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

S13.根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

本实施例的基于训练模型识别典型图片对新增实体的验证方法的执行主体为计算机，所述步骤S11至步骤S13都是计算机中的算法实现软件来完成。所述的算法实现软件为MATLAB。

首先获取新增实体典型图片集。当然所述新增实体典型图片集中的图片特征分明、分布广泛并且来源于现实生活，通常是3到5张最佳。

获取到新增实体典型图片集后，将所述新增实体典型图片集输入到现有训练模型中，通过现有训练模型对所述新增实体典型图片集进行识别计算新增实体典型图片集中每一张典型图片的top1和top5的置信度。如图2所示，为本发明提供的利用现有训练模型对3张新增典型图片的识别结果，图中典型图片A被识别的概率分别为P_Ai，被识别的实体为Ai，典型图片B被识别的概率依次为P_Bi，被识别为的实体分别为Bi，同理该新增实体其他的典型图片依次识别的概率为P_Xi，被识别的是被为Xi。所有典型图片被识别的概率分别为P₁-P₁₅的结果，相对应的实体分别为R₁-R₁₅，其中角标1-5分别表示为识别的top1和top5的实体。

具体的，所述现有训练模型中的实体种类可以是1000种也可以是5000种，数量尽可能在这个范围之内，所述现有训练模型对当前种类的识别top1的置信度大于75％、top 5的置信度大于90％，以确保现有训练模型可以充分识别已包含的实体种类。

需要说明的是，top1表示预测出来最大概率的那个分类是正确的概率；top5表示预测出来最大概率的5个分类里有正确的概率。

得到所述新增实体典型图片集中每一张典型图片的top1和top5的置信度后结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

具体的，所述预设的算法具体为：

这样根据上述算法就能准确判断出新增实体是否存在现有模型中。

进一步的，若果判断结果为所述新增实体不存在现有训练模型中就将所述新增实体加入到所述现有训练模型中。

相应的，本实施例还提供一种基于训练模型识别典型图片对新增实体的验证***，如图3所示，包括：

获取模块11，用于获取新增实体典型图片集；

计算模块12，用于通过现有训练模型对所述新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

判断模块13，用于根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

具体的，所述现有训练模型对当前种类的识别top1的置信度大于75％、top 5的置信度大于90％。

具体的，所述预设的算法具体为：

具体的，若判断结果为所述新增实体不存在现有训练模型中则将所述新增实体加入到现有训练模型中。

实施例二

本实施例提供一种基于训练模型识别典型图片对新增实体的验证方法，如图4所示，包括步骤：

S21.获取新增实体典型图片集；

S22.对所述新增实体典型图片集中的所有典型图片进行图像预处理；

S23.通过现有训练模型对预处理后的新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

S24.根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

本实施例与实施例一相比，增加了步骤S22对所述新增实体典型图片集中的所有典型图片进行了图片预处理。

获取到新增实体典型图片集后对所述新增实体典型图片集中的所有典型图片进行图像预处理。本实施例中的图像预处理步骤主要是对典型图像的尺寸进行调整和归一化，这两个步骤的具体设置和后续使用的现有训练模型图像输入的尺寸相关，主要是将新增实体典型图片的尺寸归一化成现有训练模型图像输入的尺寸，这样就可以减小现有训练模型的计算量，提高验证新增实体的效率。

对新增实体典型图片进行预处理后将其输入到现有训练模型中，通过现有训练模型对所述新增实体典型图片集进行识别计算新增实体典型图片集中每一张典型图片的top1和top5的置信度。

具体的，所述预设的算法具体为：

相应的，本实施例还提供一种基于训练模型识别典型图片对新增实体的验证***，如图5所示，包括：

获取模块21，用于获取新增实体典型图片集；

预处理模块22，用于对所述新增实体典型图片集中的所有典型图片进行图像预处理；

计算模块23，用于通过现有训练模型对预处理后的新增实体典型图片集进行识别计算所述新增实体典型图片集中每一张典型图片的top1和top5的置信度；

判断模块24，用于根据所述top1和top5的置信度结合预设的算法判断出所述新增实体是否已经存在于所述现有训练模型中。

具体的，所述预设的算法具体为：

本实施例在现有训练模型的基础上，通过对预处理后的新增实体的典型图片进行识别，得到top1和top5的置信度，然后根据一定的算法，从而判断该新增实体是否已经存在现有训练模型中，有效的解决了单纯使用名字匹配或者语义分析进行判断产生误判，漏判断，或者错判的情况，大大提高对新增实体判断的准确性和效率。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于训练模型识别典型图片对新增实体的验证方法，其特征在于，包括步骤：

S1.获取新增实体典型图片集；

2.根据权利要求1所述的一种基于训练模型识别典型图片对新增实体的验证方法，其特征在于，所述现有训练模型对当前种类的识别top1的置信度大于75％、top 5的置信度大于90％。

3.根据权利要求1所述的一种基于训练模型识别典型图片对新增实体的验证方法，其特征在于，所述预设的算法具体为：

A1.计算新增实体典型图片集中所有典型图片的top5的置信度之和M＝P1+P2+P3+3+Pn以及top1的置信度之和T_n＝P₁+P₂+P₃+…+P_n；

A2.若M>0.9*n或T>0.75*n，则说明所述新增实体已经在现有训练模型中并结束判断，若否则跳到步骤A3；

A3.去掉所有典型图片中top1的置信度最小的进行重新计算top1的置信度之和T_n-1＝P₁+P₂+P₃+…P_n-1，若T_n-1>0.75*(n-1)并且T<0.75*n，则说明所述新增实体已经在现有训练模型中并结束判断，若否跳到步骤A4；

A5.若并且T_x>0.75*x以及T_x+1<0.75*(x+1)，则说明该新增实体已经在现有训练模型中并结束判断；若且T_x<0.75*x，则跳到步骤A4；若则说明该新增实体不存在现有训练模型中并结束判断。

4.根据权利要求1所述的一种基于训练模型识别典型图片对新增实体的验证方法，其特征在于，若判断结果为所述新增实体不存在现有训练模型中则将所述新增实体加入到现有训练模型中。

5.根据权利要求1所述的一种基于训练模型识别典型图片对新增实体的验证方法，其特征在于，所述步骤S1之后步骤S2之前还包括步骤：对所述新增实体典型图片集中的所有典型图片进行图像预处理。

6.一种基于训练模型识别典型图片对新增实体的验证***，其特征在于，包括：

获取模块，用于获取新增实体典型图片集；

7.根据权利要求6所述的一种基于训练模型识别典型图片对新增实体的验证***，其特征在于，所述现有训练模型对当前种类的识别top1的置信度大于75％、top 5的置信度大于90％。

8.根据权利要求6所述的一种基于训练模型识别典型图片对新增实体的验证***，其特征在于，所述预设的算法具体为：

9.根据权利要求6所述的一种基于训练模型识别典型图片对新增实体的验证***，其特征在于，若判断结果为所述新增实体不存在现有训练模型中则将所述新增实体加入到现有训练模型中。

10.根据权利要求6所述的一种基于训练模型识别典型图片对新增实体的验证***，其特征在于，还包括：