CN108388833A - 一种图像识别方法、装置及设备 - Google Patents

一种图像识别方法、装置及设备 Download PDF

Info

Publication number
CN108388833A
CN108388833A CN201810036011.3A CN201810036011A CN108388833A CN 108388833 A CN108388833 A CN 108388833A CN 201810036011 A CN201810036011 A CN 201810036011A CN 108388833 A CN108388833 A CN 108388833A
Authority
CN
China
Prior art keywords
image
target image
image content
content
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810036011.3A
Other languages
English (en)
Inventor
周明才
张宇
王楠
杜志军
何强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810036011.3A priority Critical patent/CN108388833A/zh
Publication of CN108388833A publication Critical patent/CN108388833A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置及设备,为了能够在实际应用中有效识别出纹理、结构、样式较为简易的logo、图形或图案等目标图像内容,服务器可获取包含目标图像内容的原始图像。考虑到用户在实际扫描/拍摄目标图像内容时,可能会受到拍摄角度、对焦、光照等多种条件的影响,故在本说明书实施例中可以针对目标图像内容进行倍增处理,倍增处理能够针对目标图像内容进行不同方式的变换处理,并得到大量的变换图像,从而扩充了训练样本的数量。

Description

一种图像识别方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置及设备。
背景技术
目前,针对图像的识别技术应用日益广泛,特别是应用于一些运行在移动端上的应用(Application,App)上。具体而言,上述应用通常会提供相应的拍摄功能,如:增强现实(Augmented Reality,AR)拍摄,该AR拍摄功能能够在识别出拍摄对象(如:商品外包装、宣传海报等)的基础上,通过移动终端展示AR内容(如:广告、动画、互动游戏、优惠券等)。这就需要较为精准地识别出上述的拍摄对象,并在此基础上展示相应的AR内容。
上述的拍摄对象往往具有较为丰富的纹理,现有技术中,常采用特征点检测匹配的方式对拍摄对象进行较为精确地识别。对于纹理较为简单的图像(如:logo),难以实现较为精准地识别。
基于现有技术,我们需要一种更为有效的针对纹理较为简单的图像进行识别的方式。
发明内容
本说明书实施例提供一种图像识别方法、装置及设备,用以提供一种针对纹理较为简单的图像进行有效识别的方式。
本说明书实施例提供的一种图像识别方法,包括:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
本说明书实施例提供的一种图像识别装置,包括:
获取模块,获取原始图像;其中,所述原始图像中包含目标图像内容;
图像处理模块,根据所述目标图像内容进行倍增处理,生成多个变换图像;
训练模块,将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
本说明书实施例提供的一种图像识别设备,所述设备包括:
处理器、存储器,其中:
所述存储器,存储图像识别程序;
所述处理器,调用存储器中存储的图像识别程序,并执行:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
本说明书的实施例还提供一种非易失性计算机存储介质,用于针对简单图像进行识别,其中,所述的非易失性计算机存储介质存储有计算机可执行指令,所述计算机可执行指令设置为:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
为了能够在实际应用中有效识别出纹理、结构、样式较为简易的logo、图形或图案等目标图像内容,服务器可获取包含目标图像内容的原始图像。考虑到用户在实际扫描/拍摄目标图像内容时,可能会受到拍摄角度、对焦、光照等多种条件的影响,故在本说明书实施例中可以针对目标图像内容进行倍增处理,倍增处理能够针对目标图像内容进行不同方式的变换处理,并得到大量的变换图像,从而扩充了训练样本的数量。进一步可以提升图像识别模型的识别准确度。
对于本说明书实施例中的上述方法而言,其训练得到的图像识别模型对简易的目标图像内容的识别率较高,特别对于大量用户使用客户端进行扫描/拍摄的情况下,可以针对大量的简易的目标图像内容进行准确识别。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的图像识别方法所基于的架构示意图;
图2为本说明书实施例提供的图像识别过程;
图3为本说明书实施例提供的图像识别方法在实际应用中的执行架构示意图;
图4为本说明书实施例提供的针对logo进行标注的示意图;
图5为本说明书实施例提供的针对logo进行投影变换的示意图;
图6为本说明书实施例提供的针对logo进行显示效果变换的示意图
图7为本说明书实施例提供的图像识别装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本说明书的一个或多个实施例中,需要进行识别处理的目标图像内容,可认为是一种纹理、结构、样式较为简易的logo、图形或图案。为了更加有效地针对上述的目标图像内容进行识别,故在本说明书实施例中提出一种图像识别方法。
如图1所示为本说明书实施例中的图像识别方法所应用于的架构。在图1中:
服务器可认为是业务提供方后台的业务服务器,为了便于说明和理解,图1中仅以一台服务器表示,但其具体的架构可以采用分布式、集群式架构,或者仅是单一的大型服务器等,至于采用何种架构,通常将根据实际应用的需要所确定。在实际应用中,业务提供方通过该业务服务器,为大量用户所使用的业务客户端(以下简称为:客户端)提供业务服务。在本说明书实施例中,服务器可以使用简易图像训练得到相应的图像识别模型。该图像识别模型上线(通常可嵌入至客户端中)后,可以针对客户端所扫描/拍摄的对象(特别是简易图像)进行较为精确地识别。
客户端运行在用户所使用的终端设备上,在一种惯常实施例中,该客户端中内置有上述训练得到的图像识别模型。那么,当用户通过该客户端进行扫描/拍摄时,该客户端便能够针对扫描或拍摄的对象(特别是简易图像)进行图像识别。当然,这里需要说明的是,在本说明书实施例中所描述的客户端进行扫描/拍摄,应理解为是客户端调用终端设备上的摄像器件(如:摄像头)进行扫描/拍摄。后续出现类似描述则不再过多进行赘述。
基于图1所示的架构,下面对本说明书实施例中的图像识别方法进行详细阐述。具体如图2所示,为本说明书实施例中图像识别方法,包括以下步骤:
步骤S201:获取原始图像,其中,所述原始图像中包含目标图像内容。
在实际应用中,需要针对图像识别模型进行训练,该图像识别模型是否能够较为准确地对用户所扫描/拍摄的对象进行识别,往往受其训练样本的影响。因此,为了保证后续训练得到的图像识别模型的准确性,在本说明书实施例中,所述的原始图像中包含有标准的目标图像内容,例如:一幅包含标准logo的渲染图,其中该渲染图便可认为是原始图像,logo便可认为是目标图像内容。
在本说明书实施例中,所述的原始图像可以是通过图像处理软件所生成的渲染图,也可以是经过拍摄所得到的照片,对此不进行限定。一般来说,在包含目标图像内容的原始图像中,目标图像内容的角度、色度、清晰度等均保持较优值,且图像噪声保持较低值,以便后续作为样本进行训练。
步骤S203:根据所述目标图像内容进行倍增处理,生成多个变换图像。
在实际应用中,用户使用客户端所扫描/拍摄的图像可能受到角度、对焦、光照等多种条件的影响,这无疑增加了对用户所拍摄的图像进行识别的难度。那么,为了保证针对用户所拍摄图像进行识别的准确性,故在本说明书实施例中,可以针对目标图像内容进行倍增处理。
在本说明书实施例中,所述的倍增处理可以包括投影变换的倍增、显示效果的倍增和/或背景替换的倍增。经过倍增处理后,能够得到大量变换后的图像,也就增加了后续训练样本的数量。
需要说明的是,对目标图像内容进行倍增处理,能够模拟在实际扫描/拍摄时所得到的图像。可以理解,倍增处理能够扩充训练样本的数量,倍增出的变换图像的数量越多(即,训练样本数量越大),也就越贴近实际扫描/拍摄的图像,相应地,训练结果也就越准确。
步骤S205:将所述背景替换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
考虑到在实际应用中,用户所拍摄的logo可能只占整个图像的一部分,那么,可以采用基于深度学习的目标检测算法模型,作为本说明书实施例中的图像识别模型。具体如:Faster-RCNN、YOLO、SSD等识别模型。当然,这里并不进行具体限定。
在实际应用场景下,经过训练得到的图像识别模型可以应用于相应的客户端中,那么,用户在使用客户端进行扫描/拍摄时,该图像识别模型便可以针对扫描/拍摄到的简易图像进行识别。
通过上述步骤,为了能够在实际应用中有效识别出纹理、结构、样式较为简易的logo、图形或图案等目标图像内容,服务器可获取包含目标图像内容的原始图像。考虑到用户在实际扫描/拍摄目标图像内容时,可能会受到拍摄角度、对焦、光照等多种条件的影响,故在本说明书实施例中可以针对目标图像内容进行倍增处理,倍增处理能够针对目标图像内容进行不同方式的变换处理,并得到大量的变换图像,从而扩充了训练样本的数量。进一步可以提升图像识别模型的识别准确度。
对于本说明书实施例中的上述方法而言,其训练得到的图像识别模型对简易的目标图像内容的识别率较高,特别对于大量用户使用客户端进行扫描/拍摄的情况下,可以针对大量的简易的目标图像内容进行准确识别。
针对于上述如图2所示的图像识别方法,在本说明书的一个或多个实施例中,有更为具体的执行过程。下面将进一步阐述(在下述实施例中,以目标图像内容以logo为例)。
具体而言,上述图像识别方法在实际应用中的执行架构可如图3所示。在图3中:
一、针对logo进行标注
在实际应用中,对于包含logo的原始图像而言,logo只占该图像中的一部分,图像的其余部分可能是空白的,为了准确确定logo及其类型,在本实施例中,可针对logo进行标注。作为本实施例的一种方式,在标注阶段,服务器可以接收相应的业务人员针对logo所输入的标注区域以及标注信息。其中,所述的标注区域可以是框选的区域,如:矩形框、圆形框等,通常来说,标注区域中包含logo,而标注区域以外的图像可认为是无用的图像区域。所述的标注信息,可以包括logo的类别信息、名称信息等。例如:如图4所示,针对某一logo,服务器接收到业务人员的输入,在包含该logo的图片上显示矩形框,框内的区域就是标注区域。
对于标注后的logo,其标注信息可以记录在该logo图像的文件名中,当然,也可以记录在与该logo图像相匹配的配置文件中。对于标注信息的记录,这里不作具体限定。应理解的是,logo的标注信息将跟随logo图像一并作为训练样本进行模型训练。
二、背景图片库
在实际应用中,对于背景图片的来源,可以由用户所拍摄/扫描的图片,或者基于网络爬虫技术针对图片素材网站进行爬取等,进一步可建立背景图片库。
三、图像倍增处理
在本实施例中,可在以下方面对图像进行变换倍增处理。
1、几何投影变换:标准logo图像通常是正投影图像。但用户在实际扫描/拍摄时较为随意,往往都带有一定的拍摄角度。故为了模拟用户在一定角度下的拍摄效果,针对标准logo的正投影图像进行投影变换处理。
在本实施例的一种方式中,可以采用单应投影变换,也即,采用如下公式:
可见,单应矩阵可分解成为内参矩阵乘以外参矩阵,故可以调节内参矩阵和/或外参矩阵中的参数值,生成相应的单应矩阵,而不同的单应矩阵对应着不同的投影角度,从而可进一步得到不同角度的投影图像。如图5所示,正投影的logo经过投影变换后,可以变为相应角度的投影。
在本实施例的另一种方式中,可以采用放射变换,也即,采用如下公式:
与上述方式类似,同样可以调节相应的矩阵参数进行投影变换,这里便不再过多赘述。
基于此,在本说明书实施例中,根据所述目标图像内容进行倍增处理,生成多个变换图像,具体可包括:针对所述目标图像内容进行几何投影变换处理,生成多个几何投影变换图片。
进一步地,针对所述目标图像内容进行几何投影变换处理,具体可包括:针对所述目标图像内容进行单应投影变换或仿射投影变换。
2、显示效果变换
除了上述的拍摄角度外,在不同的光学对焦、光照等条件下,同一个logo所拍摄得到的图片的显示效果也有较大差异。为此,需要模拟常见的显示效果,例如:虚焦、低光照下拍照导致的噪声、光线太强导致的过曝、感光特性不同导致的色调偏差等等。
那么,在本实施例中,可以采用不同的方法针对logo的显示效果进行变换。其中,虚焦效果可以简单地对图像进行平滑滤波得到。低光照噪声则可以通过添加椒盐噪声来模拟。色调变化可以通过将图像从RGB颜色空间转换的HIS/YUV/Lab等颜色空间,对颜色分量进行修改后再转换回RGB空间得到。例如,如图6所示,针对某一logo(图6中左一)进行显示效果变换后分别得到的虚焦图(图6中左二)、噪声图(图6中右二)以及色调变换图(图6中右一)。
基于此,在本说明书实施例中,根据所述目标图像内容进行倍增处理,生成多个变换图像,具体可包括:针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像。
进一步地,针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像,具体可包括:
针对所述目标图像内容进行平滑滤波处理,生成带有虚焦显示效果的变换图像;
针对所述目标图像内容添加椒盐噪声,生成带有噪声显示效果的变换图像;
针对所述目标图像内容进行颜色空间转换处理,生成带有色调变换效果的变换图像。
3、背景替换
考虑到在实际应用中,用户可能会在不同的场合下针对目标图像内容进行扫描/拍摄,且用户的扫描/拍摄通常较为随意,那么,所采集得到的图像中往往有不同的背景。图像中的背景有较大可能会影响对目标图像内容的识别。故在本说明书实施例中,为了后续图像识别模型能够在具有不同背景的图像中识别出相应的目标图像内容,故可以将标准的目标图像内容和已经获得的大量图像背景结合,生成背景替换图像,用于模型的训练。
作为本说明书实施例中的一种可行方式,可以预先获取不同的背景图片并形成相应的背景图片库。该背景图片库可以存储于图1中所示的服务器中或者作为独立数据库与该服务器关联,以便于服务器训练相应的图像识别模型。其中,背景图片能够以人物、物体、自然场景、建筑物等作为背景,这里并不进行具体限定。
当然,在进行背景替换的过程中,某些logo内部的颜色固定不变,而某些logo内部是镂空的,故可以针对此设置不同的变换方式(如:通过Alpha通道自动选择背景替换方式)。
四、模型训练
实际应用时,对于纹理复杂的logo,采用点匹配的方式进行匹配识别就能得到较好的效果;而对于纹理简单的logo,传统的点匹配方式由于能提取的特征点太少导致识别率偏低。因此,在本说明书实施例中采用深度学习的识别模型进行训练。
如前述内容,具体地,本说明书实施例中通常可采用目标检测的识别模型针对简易logo进行识别。同时考虑到训练完成的图像识别模型可以应用在客户端中,那么,可以选择检测精度高、检测速度快的SSD(Single Shot Multibox Detector)作为图像识别模型的算法框架。
更为具体地,可以选择神经网络结构相对较小、部署时占用空间更小的MobileNet网络作为SSD的基础网络模型。
当然,这里并不应构成对本申请的限定,实际应用中还可以根据需要选择不同的神经网络模型。
五、误识别图片
尽管采用了上述的倍增处理,图像识别模型在实际应用中仍然有可能会误识别。那么,在本说明书实施例中,便可以使用误识别的图片,重新参与对图像识别模型的迭代训练。
具体而言,针对误识别的图片,可以采用以下处理方式。
1、将误识别图片作为背景图片,添加至背景图片库中。那么,在进行倍增处理时,误识别图片可以参与logo的背景替换。
2、将误识别的logo直接贴在误识别图片上,形成一张新的logo图片,和其他logo图片一并进行倍增处理。
3、建立误检图片集,具体而言,在训练时,将误检图片集中的误识别图片,和其他经过倍增处理后的训练样本(即,变换图片)一并作为最终的训练样本。
六、线上服务反馈
利用线上服务反馈,能够确定误识别图片,这些误识别图片可以添加至上述的误检图片集中,以便对图像识别模型进行迭代更新。另外,通过线上服务反馈,还可以获得一些漏检的logo图片,将这些图片进行标注后重新加到训练集中参与训练,以便提升识别率。此外,还可以添加一些和现有背景图片中的任何一张差异都很大的背景图到背景图集中,丰富背景图片集,预防以后添加新的logo图片后产生误检。
结合前述内容,作为一种较为常见的应用场景,用户使用相应的客户端,可启动该应用中的图像扫描/拍摄功能,如前所述的AR扫描功能,对扫描对象进行扫描,客户端可以在上述图像识别模型的基础上,识别出扫描对象(logo),并可以在扫描对象上展示不同的AR内容。
当然,除了识别简单logo外,本发明也可以用于识别其他的简单图形。
以上为本说明书实施例提供的图像识别方法,基于同样的思路,在测试端侧,本说明书实施例还提供一种图像识别装置,如图7所示。所述装置包括:
获取模块701,获取原始图像;其中,所述原始图像中包含目标图像内容;
图像处理模块702,根据所述目标图像内容进行倍增处理,生成多个变换图像;
训练模块703,将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
进一步地,所述获取模块701,获取所述原始图像,并接收针对所述原始图像中包含的目标图像内容的标注操作,生成对应于所述目标图像内容的标注信息。
所述图像处理模块702,针对所述目标图像内容进行几何投影变换处理,生成多个几何投影变换图片。
所述图像处理模块702,针对所述目标图像内容进行单应投影变换或仿射投影变换。
所述图像处理模块702,针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像。
所述图像处理模块702,针对所述目标图像内容进行平滑滤波处理,生成带有虚焦显示效果的变换图像;
针对所述目标图像内容添加椒盐噪声,生成带有噪声显示效果的变换图像;
针对所述目标图像内容进行颜色空间转换处理,生成带有色调变换效果的变换图像。
所述图像处理模块702,基于预先建立的背景图片库以及所述目标图像内容,生成背景替换图像。
所述装置还包括:误检模块704,接收用户反馈的图像报错消息,根据所述图像报错消息,确定误识别图像,根据所述误识别图像进行迭代训练。
所述误检模块704,将所述误识别图像作为背景图片,与所述目标图像内容进行倍增处理,生成变换图片,或,根据误识别的目标图像内容以及误识别图像,生成原始图像,以进行迭代训练,或,建立误识别图像集合,并将该误识别图像集合中的误识别图像作为待训练样本进行迭代训练。
所述目标图像内容包括:简易logo、图形或图案。
基于图7所示的装置,在实际应用中可由实体的设备(如:服务器和/或终端)所实现,具体而言,该设备包括:处理器、存储器,其中,
所述存储器,存储图像识别程序;
所述处理器,调用存储器中存储的图像识别程序,并执行:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可,这里就不再一一赘述。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (21)

1.一种图像识别方法,包括:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
2.如权利要求1所述的方法,获取原始图像,具体包括:
获取所述原始图像,并接收针对所述原始图像中包含的目标图像内容的标注操作,生成对应于所述目标图像内容的标注信息;
其中,所述标注信息包括:标注区域信息、名称信息、类型信息中的至少一种。
3.如权利要求1所述的方法,根据所述目标图像内容进行倍增处理,生成多个变换图像,具体包括:
针对所述目标图像内容进行几何投影变换处理,生成多个几何投影变换图片。
4.如权利要求3所述的方法,针对所述目标图像内容进行几何投影变换处理,具体包括:
针对所述目标图像内容进行单应投影变换或仿射投影变换。
5.如权利要求1所述的方法,根据所述目标图像内容进行倍增处理,生成多个变换图像,具体包括:
针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像。
6.如权利要求5所述的方法,针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像,具体包括:
针对所述目标图像内容进行平滑滤波处理,生成带有虚焦显示效果的变换图像;
针对所述目标图像内容添加椒盐噪声,生成带有噪声显示效果的变换图像;
针对所述目标图像内容进行颜色空间转换处理,生成带有色调变换效果的变换图像。
7.如权利要求1所述的方法,根据所述目标图像内容进行倍增处理,生成多个变换图像,具体包括:
基于预先建立的背景图片库以及所述目标图像内容,生成背景替换图像。
8.如权利要求1所述的方法,所述方法还包括:
接收用户反馈的图像报错消息;
根据所述图像报错消息,确定误识别图像;
根据所述误识别图像进行迭代训练。
9.如权利要求8所述的方法,根据所述误识别图像进行迭代训练,具体包括:
将所述误识别图像作为背景图片,与所述目标图像内容进行倍增处理,生成变换图片,以进行迭代训练,或
根据误识别的目标图像内容以及误识别图像,生成原始图像,以进行迭代训练,或
建立误识别图像集合,并将该误识别图像集合中的误识别图像作为待训练样本进行迭代训练。
10.如权利要求1~9中任一所述的方法,所述目标图像内容包括:简易的logo、图形或图案。
11.一种图像识别装置,所述装置包括:
获取模块,获取原始图像;其中,所述原始图像中包含目标图像内容;
图像处理模块,根据所述目标图像内容进行倍增处理,生成多个变换图像;
训练模块,将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
12.如权利要求11所述的装置,所述获取模块,获取所述原始图像,并接收针对所述原始图像中包含的目标图像内容的标注操作,生成对应于所述目标图像内容的标注信息;
其中,所述标注信息包括:标注区域信息、名称信息、类型信息中的至少一种。
13.如权利要求11所述的装置,所述图像处理模块,针对所述目标图像内容进行几何投影变换处理,生成多个几何投影变换图片。
14.如权利要求13所述的装置,所述图像处理模块,针对所述目标图像内容进行单应投影变换或仿射投影变换。
15.如权利要求11所述的装置,所述图像处理模块,针对所述目标图像内容进行显示效果变换处理,生成多个显示效果不同的变换图像。
16.如权利要求15所述的装置,所述图像处理模块,针对所述目标图像内容进行平滑滤波处理,生成带有虚焦显示效果的变换图像;
针对所述目标图像内容添加椒盐噪声,生成带有噪声显示效果的变换图像;
针对所述目标图像内容进行颜色空间转换处理,生成带有色调变换效果的变换图像。
17.如权利要求11所述的装置,所述图像处理模块,基于预先建立的背景图片库以及所述目标图像内容,生成背景替换图像。
18.如权利要求11所述的装置,所述装置还包括:误检模块,接收用户反馈的图像报错消息,根据所述图像报错消息,确定误识别图像,根据所述误识别图像进行迭代训练。
19.如权利要求18所述的装置,所述误检模块,将所述误识别图像作为背景图片,与所述目标图像内容进行倍增处理,生成变换图片,以进行迭代训练,或,根据误识别的目标图像内容以及误识别图像,生成原始图像,以进行迭代训练,或,建立误识别图像集合,并将该误识别图像集合中的误识别图像作为待训练样本进行迭代训练。
20.如权利要求11~19中任一所述的装置,所述目标图像内容包括:简易logo、图形或图案。
21.一种图像识别设备,包括:处理器、存储器,其中:
所述存储器,存储图像识别程序;
所述处理器,调用存储器中存储的图像识别程序,并执行:
获取原始图像;其中,所述原始图像中包含目标图像内容;
根据所述目标图像内容进行倍增处理,生成多个变换图像;
将所述变换图像作为训练样本进行模型训练,得到图像识别模型,以针对包含目标图像内容的待识别图像进行识别。
CN201810036011.3A 2018-01-15 2018-01-15 一种图像识别方法、装置及设备 Pending CN108388833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810036011.3A CN108388833A (zh) 2018-01-15 2018-01-15 一种图像识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810036011.3A CN108388833A (zh) 2018-01-15 2018-01-15 一种图像识别方法、装置及设备

Publications (1)

Publication Number Publication Date
CN108388833A true CN108388833A (zh) 2018-08-10

Family

ID=63076316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810036011.3A Pending CN108388833A (zh) 2018-01-15 2018-01-15 一种图像识别方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108388833A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614983A (zh) * 2018-10-26 2019-04-12 阿里巴巴集团控股有限公司 训练数据的生成方法、装置及***
CN110189299A (zh) * 2019-04-22 2019-08-30 华中科技大学 一种基于MoileNet的脑血管事件自动识别方法及***
CN110895691A (zh) * 2018-09-12 2020-03-20 阿里巴巴集团控股有限公司 图像处理方法、装置及电子设备
CN111292396A (zh) * 2020-01-16 2020-06-16 武汉轻工大学 图像样本集生成方法、设备、装置及存储介质
WO2020192262A1 (zh) * 2019-03-25 2020-10-01 ***股份有限公司 一种实物图像生成方法及装置、设备
CN111915642A (zh) * 2020-09-14 2020-11-10 北京百度网讯科技有限公司 图像样本的生成方法、装置、设备和可读存储介质
WO2020228171A1 (zh) * 2019-05-16 2020-11-19 平安科技(深圳)有限公司 数据增强方法、装置及计算机可读存储介质
CN113114941A (zh) * 2019-08-12 2021-07-13 创新先进技术有限公司 摄像头拍摄图像的处理方法、装置及设备
CN113223041A (zh) * 2021-06-25 2021-08-06 上海添音生物科技有限公司 用于自动提取图像中目标区域的方法、***及存储介质
CN114332543A (zh) * 2022-01-10 2022-04-12 成都智元汇信息技术股份有限公司 一种多模板的安检图像识别方法、设备及介质
CN117975044A (zh) * 2024-02-20 2024-05-03 蚂蚁云创数字科技(北京)有限公司 基于特征空间的图像处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753851A (zh) * 2008-12-17 2010-06-23 华为终端有限公司 背景更换的方法、虚拟场景合成的方法及相关***和设备
CN102980535A (zh) * 2012-12-12 2013-03-20 华为终端有限公司 角度测量方法和装置
CN105095857A (zh) * 2015-06-26 2015-11-25 上海交通大学 基于关键点扰动技术的人脸数据增强方法
CN106709486A (zh) * 2016-11-11 2017-05-24 南京理工大学 基于深度卷积神经网络的自动车牌识别方法
CN106778852A (zh) * 2016-12-07 2017-05-31 中国科学院信息工程研究所 一种修正误判的图像内容识别方法
CN107145846A (zh) * 2017-04-26 2017-09-08 贵州电网有限责任公司输电运行检修分公司 一种基于深度学习的绝缘子识别方法
CN107316295A (zh) * 2017-07-02 2017-11-03 苏州大学 一种基于深度神经网络的织物瑕疵检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753851A (zh) * 2008-12-17 2010-06-23 华为终端有限公司 背景更换的方法、虚拟场景合成的方法及相关***和设备
CN102980535A (zh) * 2012-12-12 2013-03-20 华为终端有限公司 角度测量方法和装置
CN105095857A (zh) * 2015-06-26 2015-11-25 上海交通大学 基于关键点扰动技术的人脸数据增强方法
CN106709486A (zh) * 2016-11-11 2017-05-24 南京理工大学 基于深度卷积神经网络的自动车牌识别方法
CN106778852A (zh) * 2016-12-07 2017-05-31 中国科学院信息工程研究所 一种修正误判的图像内容识别方法
CN107145846A (zh) * 2017-04-26 2017-09-08 贵州电网有限责任公司输电运行检修分公司 一种基于深度学习的绝缘子识别方法
CN107316295A (zh) * 2017-07-02 2017-11-03 苏州大学 一种基于深度神经网络的织物瑕疵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曹春海: "《玩转单反——摄影构图实用手册》", 31 August 2012, 辽宁科学技术出版社 *
赵雅英等: "基于样本扩充和改进2DPCA 的单样本人脸识别", 《计算机应用》 *
黄飞: "一种基于Haar-like特征和Adaboost树形分类器的实时车辆识别方法研究", 《宿州学院学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895691B (zh) * 2018-09-12 2023-06-23 阿里巴巴集团控股有限公司 图像处理方法、装置及电子设备
CN110895691A (zh) * 2018-09-12 2020-03-20 阿里巴巴集团控股有限公司 图像处理方法、装置及电子设备
CN109614983A (zh) * 2018-10-26 2019-04-12 阿里巴巴集团控股有限公司 训练数据的生成方法、装置及***
TWI801717B (zh) * 2019-03-25 2023-05-11 大陸商中國銀聯股份有限公司 一種實物圖像生成方法及裝置、設備、非暫態電腦可讀存儲介質及電腦程式產品
WO2020192262A1 (zh) * 2019-03-25 2020-10-01 ***股份有限公司 一种实物图像生成方法及装置、设备
CN110189299A (zh) * 2019-04-22 2019-08-30 华中科技大学 一种基于MoileNet的脑血管事件自动识别方法及***
CN110189299B (zh) * 2019-04-22 2020-12-08 华中科技大学 一种基于MobileNet的脑血管事件自动识别方法及***
WO2020228171A1 (zh) * 2019-05-16 2020-11-19 平安科技(深圳)有限公司 数据增强方法、装置及计算机可读存储介质
CN113114941B (zh) * 2019-08-12 2023-05-12 创新先进技术有限公司 摄像头拍摄图像的处理方法、装置及设备
CN113114941A (zh) * 2019-08-12 2021-07-13 创新先进技术有限公司 摄像头拍摄图像的处理方法、装置及设备
CN111292396A (zh) * 2020-01-16 2020-06-16 武汉轻工大学 图像样本集生成方法、设备、装置及存储介质
CN111292396B (zh) * 2020-01-16 2023-08-29 武汉轻工大学 图像样本集生成方法、设备、装置及存储介质
CN111915642A (zh) * 2020-09-14 2020-11-10 北京百度网讯科技有限公司 图像样本的生成方法、装置、设备和可读存储介质
CN111915642B (zh) * 2020-09-14 2024-05-14 北京百度网讯科技有限公司 图像样本的生成方法、装置、设备和可读存储介质
CN113223041A (zh) * 2021-06-25 2021-08-06 上海添音生物科技有限公司 用于自动提取图像中目标区域的方法、***及存储介质
CN113223041B (zh) * 2021-06-25 2024-01-12 上海添音生物科技有限公司 用于自动提取图像中目标区域的方法、***及存储介质
CN114332543A (zh) * 2022-01-10 2022-04-12 成都智元汇信息技术股份有限公司 一种多模板的安检图像识别方法、设备及介质
CN114332543B (zh) * 2022-01-10 2023-02-14 成都智元汇信息技术股份有限公司 一种多模板的安检图像识别方法、设备及介质
CN117975044A (zh) * 2024-02-20 2024-05-03 蚂蚁云创数字科技(北京)有限公司 基于特征空间的图像处理方法及装置

Similar Documents

Publication Publication Date Title
CN108388833A (zh) 一种图像识别方法、装置及设备
US10846556B2 (en) Vehicle insurance image processing method, apparatus, server, and system
CN108848301A (zh) 一种票据拍摄交互方法、装置、处理设备及客户端
CN108629220A (zh) 一种二维码识读方法、装置及设备
Li et al. Unsupervised domain adaptation for monocular 3d object detection via self-training
CN110009556A (zh) 图像背景虚化方法、装置、存储介质及电子设备
CN106982387A (zh) 弹幕的显示、推送方法及装置及弹幕应用***
TWI713965B (zh) 一種影視作品的製作方法、裝置及設備
Joshi et al. OpenCV by example
CN109614983A (zh) 训练数据的生成方法、装置及***
CN108320296A (zh) 一种视频中目标对象的检测跟踪方法、装置及设备
CN107480587A (zh) 一种模型配置以及图像识别的方法及装置
CN108491897A (zh) 一种信息识别方法、服务器、客户端及***
CN111160261A (zh) 用于自动售货柜的样本图像标注方法、装置及存储介质
CN107784339A (zh) 应用于客户端、服务端的业务执行方法、装置以及设备
CN110533643A (zh) 证件鉴定方法及装置
Dai et al. Tan: Temporal aggregation network for dense multi-label action recognition
CN110490200A (zh) 一种证件扫描方法、装置及设备
He et al. Discovering triangles in portraits for supporting photographic creation
CN114998962A (zh) 一种活体检测以及模型训练方法及装置
CN107403216A (zh) 一种识别码生成及验证方法及装置
Kowalczuk et al. Training of deep learning models using synthetic datasets
Merino‐Gracia et al. Real‐time text tracking in natural scenes
Zhang Algorithmic photography: A case study of the Huawei Moon Mode controversy
CN108875037A (zh) 多类型图片分类排序方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1258547

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201020

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201020

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180810