CN110136198B - 图像处理方法及其装置、设备和存储介质 - Google Patents

图像处理方法及其装置、设备和存储介质 Download PDF

Info

Publication number
CN110136198B
CN110136198B CN201810134949.9A CN201810134949A CN110136198B CN 110136198 B CN110136198 B CN 110136198B CN 201810134949 A CN201810134949 A CN 201810134949A CN 110136198 B CN110136198 B CN 110136198B
Authority
CN
China
Prior art keywords
image
target
position detection
processed
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810134949.9A
Other languages
English (en)
Other versions
CN110136198A (zh
Inventor
余志伟
孙子荀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810134949.9A priority Critical patent/CN110136198B/zh
Publication of CN110136198A publication Critical patent/CN110136198A/zh
Application granted granted Critical
Publication of CN110136198B publication Critical patent/CN110136198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图像处理方法及其装置、设备和存储介质,其中,所述方法包括:根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。

Description

图像处理方法及其装置、设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像处理方法及其装置、设备和存储介质。
背景技术
视频库中的视频由于各种原因存在一个或者多个例如标识(logo)等目标对象,影响用户的观看体验。相关技术中去水印的方法无非就是暴力的覆盖,或者是基于度不变特征变换匹配(Scale Invariant Feature Transform,SIFT)和方向梯度直方图(Histogramof Oriented Gradient,HOG)这种特征匹配的算法。直接采取暴力覆盖的方式,如图1所示,当新标注标识13时,会看到原来的标识:标识11和标识12,产品体验不佳;基于SIFT算法特征匹配到的点,如图2所示,当目标对象为图2中所示的对象21,匹配到很多的特征点,但是很分散,不好确定准确位置,因此采用特征匹配再模糊的方案存在不能准确确定目标对象的位置的风险。
发明内容
有鉴于此,本发明实施例期望提供一种图像处理方法及其装置、设备和存储介质,解决了现有技术方案中存在不能准确确定目标对象的位置的风险,能够方便且精确的检测出图像中目标对象的位置。
本发明实施例的技术方案是这样实现的:
一方面,本发明实施例提供一种图像处理方法,所述方法包括:
根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
另一方面,本发明实施例提供一种图像处理装置,所述装置包括:获取单元、提取单元、计算单元、目标区域单元和修正单元;其中,
所述获取单元,用于根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
所述提取单元,用于基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
所述计算单元,用于基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
所述目标区域单元,用于基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
所述修正单元,用于基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
又一方面,本发明实施例提供一种图像处理设备,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储图像处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的图像处理程序,以实现以下步骤:
根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
再一方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。
本发明实施例提供一种图像处理方法及其装置、设备和计算机可读存储介质,首先将根据位置检测请求获取的包括目标对象的待处理图像输入位置检测模型,基于位置检测模型对输入的待处理图像对提取的候选区域进行图像特征的提取,基于提取的图像特征确定各候选区域中针对各类型的对象的置信度以及各类型对应的修正值,根据各类型的对象的置信度确定目标类型对应的目标区域,根据目标区域中目标类型对应的修正值得到目标对象在待处理图像中的目标位置。如此,不需要对目标对象的先验特征的匹配,解决了现有技术方案中存在不能准确确定目标对象的位置的风险,准确的检测出目标对象的目标位置,进而提高了位置检测的准确率。
附图说明
图1是本发明实施例相关技术中去水印方法的实现方式示意图一;
图2是本发明实施例相关技术中去水印方法的实现方式示意图二;
图3是本发明实施例网络架构的示意图;
图4是本发明实施例图像处理方法的实现流程示意图一;
图5是本发明实施例图像处理方法的实现流程示意图二;
图6是本发明实施例图像处理方法的实现流程示意图三;
图7是本发明实施例训练样本示意图;
图8是本发明实施例位置检测模型采用的多种算法的性能效果示意图;
图9是本发明实施例Fast R-CNN的实现架构示意图;
图10是本发明实施例SSD的实现架构示意图;
图11是本发明实施例图像处理装置的组成结构示意图;
图12是本发明实施例图像处理设备的组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的技术方案做详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明实施例可提供为图像处理方法以及装置,实际应用中,图像处理装置中的各功能模块可以由设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。
当然,本发明实施例不局限于提供为方法和硬件,还可有多种实现方式,例如提供为存储介质(存储有用于执行本发明实施例提供的强变量提取方法的指令),以下再对不同的实现方式举例说明。
一、移动端应用程序及模块
本发明实施例可提供为使用C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等***的各种移动端Apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的数据挖掘任务,并且定期或不定期地通过各种网络通信方式将数据、中间结果或最终结果传送给远程的服务器,或者在移动端本地保存。
二、服务器应用程序及平台
本发明实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件***中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种,与服务器上已有的某些数据或结果综合起来计算得到更新的结果,然后实时或非实时地输出给其他应用程序或模块使用,也可以写入服务器端数据库或文件进行存储。
本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或企业使用的图像处理平台等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果,也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。
三、服务器端应用程序接口(API,Application Program Interface)及插件
本发明实施例可提供为实现服务器端的API、软件开发套件(SDK,SoftwareDevelopment Toolkit)或插件,供其他的服务器端应用程序开发人员调用,并嵌入到各类应用程序中。
四、移动设备客户端API及插件
本发明实施例还可提供为移动设备端的API、SDK或插件,供其他的移动端应用程序开发人员调用,并嵌入到各类应用程序中。
五、云端开放服务
本发明实施例可提供为图像位置检测平台,本发明实施例还可提供为图像处理平台的API、SDK及插件等,打包封装成可供企业内外人员开放使用的云服务,或者将各种结果(目标对象以及目标对象在待处理图像中的目标位置)以适当形式展示在各种终端显示设备上,供个人、群体或企事业单位查询。
图3为本发明实施例网络架构的示意图,如图3所示,该网络架构包括客户端31和服务器32,其中,客户端31中安装有图像处理App,可以通过图像处理App来触发对待处理图像中目标对象对应的图像区域的位置进行检测的位置检测请求,并将位置检测请求发送至服务器,以请求服务器32作为图像处理设备来检测待处理图像中目标对象对应的图像区域的位置。服务器32可以为图像处理App对应的服务器。
首先,客户端31通过图像处理App选择一包括目标对象比如logo的图像,并接收到针对该图像中的logo的位置检测求,以请求检测图像中的logo的位置信息。然后,客户端31向服务器32发送位置检测请求以请求服务器来检测图像中的logo的位置。服务器32接收到位置检测请求后,基于位置检测模型检测图像中logo所在区域的目标位置,并将得到的目标位置信息发送至客户端31,则完成了对图像中的logo的位置的检测;其中,位置检测模型为基于深度学习的卷积神经网络的目标检测模型,采用的算法可包括卷积神经网络(convolutional neural network,CNN)、区域卷积神经网络(Region convolutionalneural network,R-CNN),快速R-CNN(Fast R-CNN)、更快R-CNN(Faster R-CNN)、单探测检测(Single Shot Detector,SSD)等目标检测算法。客户端31接收到位置信息后,可根据目标位置对logo所在的区域进行模糊化、覆盖等去水印处理。
客户端31在通过图像处理App来触发对待处理图像中目标对象对应的图像区域的位置进行检测的位置检测请求后,也可将客户端31作为图像处理设备,由图像处理App基于位置检测请求在本地通过位置检测模型对待处理图像中目标对象对应的图像区域的位置进行检测,得到待处理图像中目标对象所在区域的目标位置;其中,位置检测模型为基于深度学习的卷积神经网络的目标检测模型,采用的算法可包括CNN、R-CNN、Fast R-CNN、Faster R-CNN、SSD等目标检测算法。
结合图3所示的网络架构示意图,以下对图像处理方法及其装置、设备的各实施例进行说明。
本实施例提供一种图像处理方法,应用于图像处理设备。图4为本发明实施例图像处理方法的实现流程示意图,如图4所示,所述方法包括以下步骤:
S401、根据位置检测请求获取待处理图像;
所述图像处理设备可以是任何具有信息处理能力的电子设备,在一种实施例中,图像处理设备可以是智能终端,例如可以是移动电话(手机)、iPad、笔记本等具有无线通信能力的移动终端。在另一种实施例中,图像处理设备还可以是不便移动的具有计算功能的终端设备,比如台式计算机、桌面电脑等。
图像处理设备中安装有图像处理App,用户可基于图像处理App进行图像下载、图像的预览、图像的处理、图像的删除等与图像相关的处理。用户可通过对图像处理App的操作来选取待处理图像。图像处理App可将图像处理设备本地存储的图像呈现在图像处理设备的显示界面上,也可通过无线网络在线获取内容提供服务器提供的图像,将内容提供服务器提供的图像呈现在图像处理设备的显示界面上。用户可通过对显示界面中的呈现的图像的选取操作来确定待处理图像。图像处理设备接收到用户的选取操作时,将选取操作对应的图像作为待处理图像。图像处理设备的显示界面上可提供进行位置检测的位置检测控件,当位置检测控件接收到用户操作时,触发对待处理对象中的目标对象进行检测的位置检测请求,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测。
当图像处理设备从图像发送设备接收到一图像时,可将该图像作为待处理图像,自动触发请求对待处理图像中的目标对象进行检测的位置检测请求。这里,图像发送设备可为服务器、客户端等图像处理设备以外的终端设备。
在实现过程中,位置检测请求可携带待处理图像的图像信息,所述图像信息包括:图像标识、图像存储路径、图像格式、图像大小等信息。待处理图像可包括多个待处理图像,对应的,位置检测请求中携带各待处理图像的图像信息。待处理图像中可包括为第一标识logo1、人脸、猫、汽车等不同的对象。目标对象为logo1。
在触发位置检测请求或接收到位置检测请求后,根据位置检测请求携带的图像信息获取待处理图像。
S402、基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
当根据位置检测请求获取待处理图像后,调用位置检测模型,将待处理图像输入位置检测模型,位置检测模型具有检测输入的图像中的目标对象的特性。其中,位置检测模型可为基于深度学习的卷积网络的目标检测模型,其采用的算法可包括CNN、R-CNN、FastR-CNN、Faster R-CNN、SSD等目标检测算法。
当待处理图像输入位置检测模型,位置检测模型将待处理图像分割成N个区域,每个区域对应的图像区域为候选区域,对每个候选区域的图像进行图像分析,获取候选区域的图像特征。其中,图像特征包括:颜色、纹理、形状、空间关系等特征信息,N为根据用户需求设置的正整数。在一些实施例中,在对候选区域对应的图像进行图像分析之前,可对通过尺度变换将大小不同的候选区域的大小调整为相同的大小。
在实际应用中,所述步骤S402可以通过至少四种方式实现:
第一种,当位置检测模型采用CNN算法,采用滑窗的方式将待处理图像进行分解提取候选区域,并从每个滑窗中提取每个滑窗对应的候选区域的图像特征。
采用滑窗方式将待处理图像进行分解提取候选区域时,按照子块的大小在待处理图像上滑动,以穷举所有子图像块,所穷举的子图块为分割后的候选区域。
第二种,当位置检测模型采用R-CNN算法,使用选择性搜索在待处理图像中确定第一提取数量的候选框,确定每个候选框对应候选区域,即确定第一提取数量的候选区域,将提取的候选区域经过尺寸变化缩放至相同大小,并提取缩放后的各候选区域的图像特征。其中,第一提取数量的大小可为1000-2000,可将提取的候选框缩放成227*227的大小。
第三种,当位置检测模型采用Fast R-CNN算法,使用选择性搜索在待处理图像中确定第二提取数量的候选框,对待处理图像进行特征提取得到待处理图像的图像特征,根据各候选框确定各候选框对应的候选区域的图像特征。其中,第二提取数量的大小可为1000-2000。
其中,在第二种方式和第三种方式中的“使用选择性搜索在待处理图像中确定第一提取数量的候选框”,包括:
S1,通过过分割将待处理图像分割成子区域,得到子区域集R;其中,过分割为根据图像的颜色、纹理等图像特征将图像分割成多个部分;
比如:当待处理图像为一朵花,通过过分割得到的子区域包括:花瓣、叶子、茎对应的区域。
S2,对子区域集R中的子区域进行分析,计算子区域集R中每个子区域和相邻子区域之间的相似度;
其中,可根据子区域的颜色、纹理、尺寸和空间交叠等参数来计算每个子区域和相邻子区域之间的相似度。
S3,确定相似度最高的两个或多个子区域,并将相似度最高的两个或多个子区域进行合并得到合并区域,将合并区域作为新的子区域添加到子区域集R中;
S4,重复计算添加了合并区域的子区域集R中每个子区域和相邻子区域的相似度,直到整张图像合并成一个区域,此时,子区域集R中所有子区域对应的边框为候选框。
第四种,当位置检测模型采用Faster R-CNN算法,通过提取图像特征的卷积神经网络模型得到待处理图像的图像特征,将得到的图像特征输入区域建议网络(RegionProposal Network,RPN)得到候选框,从而确定各候选框对应的候选区域的图像特征。
其中,RPN包括一个卷积层、区域层reg-layer和分类层cls-layer,在reg-layer和cls-layer后连接有损失函数。
相应地,将得到的图像特征输入RPN得到候选框,包括:
由卷积层将确定的一个n*n的滑窗在卷积层上的滑动,得到多个滑窗区域,然后将滑窗区域对应的图像特征生成一个256维或512维的全连接特征,并对每一个滑窗区域进行预测,得到多个建议框;其中,滑窗区域的中心处为锚点;
由reg-layer确定各建议框的锚点的位置;
由cls-layer判定各建议框是背景还是前景的概率;
由损失函数根据各建议框对应的全连接特征、锚点的位置以及是背景还是前景的概率计算,得到各建议框对应的损失函数值;根据损失函数值来判定该建议框对应的图像区域是否包括目标对象;当一建议框对应的图像区域包括目标对象时,该建议框为候选框。
需要说明的是,各候选框的位置可通过位置信息(x',y',w',h')来表示,其中,x'表示候选框的中心的横坐标,'y表示候选框的中心的纵坐标,w'表示候选框的宽,h'表示候选框的高,从而(x',y',w',h')唯一性地确定候选框对应的候选区域。各候选框的位置也可通过位置坐标((x'A,y'A),(x'B,y'B))来表示,其中,(x'A,y'A)为A'点的坐标,(x'B,y'B)为B'点的坐标,A'点和B'点为能够唯一性的确定候选区域的两个坐标点,例如:左下角的坐标点和右上角的坐标点,又或者左上角的坐标点和右下角的坐标点。
S403、基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
在确定各候选区域的图像特征后,由位置检测模型根据各候选区域包括的颜色、纹理、形状、空间关系等图像特征计算各候选区域针对不同类型的对象的置信度,其中,置信度可表征候选区域中包括一类型的对象的概率大小。位置检测模型在确定各候选区域中各类型的对象的置信度的同时,计算各候选区域针对不同的类型的对象的修正值,修正值为对候选区域的候选框进行回归修正的参数。
在一实施例中,不同的类型可通过不同的类型索引来表示,比如:类型索引1表示汽车,类型索引2表示桌子,类型索引3表示猫,类型索引4表示狗,类型索引5表示logo1,类型索引6表示第二标识logo2,其中,logo1和log2表示不同的logo。其中,当候选区域包括1000个,类型包括6类时,计算的置信度的数量包括1000*6个,分别为该候选区域中对应每个类型的置信度。
根据候选框的位置的表示方式不同,修正值的表示方式也可不同。当各候选框的位置可通过位置信息(x',y',w',h')来表示,对应的修正值可表示为(dx,dy,dw,dh),其中,dx、dy、dw、dh分别表示候选框的中心的横坐标、中点的纵坐标、宽、高的调整值。当各候选框的位置可通过位置信息((x'A,y'A),(x'B,y'B))来表示,对应的修正值可表示为((dxA,dyA),(dxB,dyB)),dxA、dyA、dxB、dyB分别表示A'点的横坐标、A'点的纵坐标、B'的横坐标、B'点的纵坐标的调整值。
S404、基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;
其中,所述目标类型对应的对象为所述目标对象。
根据各候选区域针对各类型的对象对应的置信度确定各候选区域对应目标类型的置信度,并将目标类型的置信度满足置信条件的候选区域作为目标区域。其中,置信条件可为置信度大于设定的置信阈值。此时,确定的目标区域为包括目标对象的图像区域。
候选区域包括区域1和区域2,各候选区域的类型同上述例子。区域1中,类型索引1的置信度为0.2,类型索引2的置信度为0.12,类型索引3的置信度为0.08,类型索引4的置信度为0.01,类型索引5的置信度为0.8,类型索引6的置信度为0.3;区域2中,类型索引1的置信度为0.2,类型索引2的置信度为0.22,类型索引3的置信度为0.18,类型索引4的置信度为0.06,类型索引5的置信度为0.02,类型索引6的置信度为0.03。此时,设定的置信度阈值为0.5,则目标类型的置信度满足阈值条件的目标区域为区域1。
S405、基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
获取目标区域中目标类型对应的修正值,根据获取的修正值对目标区域的候选框进行调整,以调整目标区域对应的区域,得到调整后目标位置。
当候选区域的位置为(x',y',w',h')时,目标位置(x,y,w,h)则表示为(x'+dx,y'+dy,w'+dw,h'+dh)。当候选区域的位置为((x'A,y'A),(x'B,y'B))时,目标位置((xA,yA),(xB,yB))=((x'A+dxA,y'A+dyA),(x'B+dxB,y'B+dyB)),其中,A'点(x'A,y'A)、B'点(x'B,y'B)调整后分别A点(xA,yA)、B点(xB,yB),即根据A点、B点确定目标对象在待处理图像中的目标位置。
在实际应用中,待处理图像中可包括多个目标对象,此时,输出的目标位置为多个位置,分别表征各目标对象所在区域。
需要说明的是,S403、S404、S405的执行可不分先后顺序,可将S402确定的各候选区域的候选框和各候选区域的图像特征直接输入检测模型中的分类器模型,分类器模型的输出为目标位置。
在本发明实施例提供的图像处理方法中,首先将根据位置检测请求获取的包括目标对象的待处理图像输入位置检测模型,基于位置检测模型对输入的待处理图像对提取的候选区域进行图像特征的提取,基于提取的图像特征确定各候选区域中针对各类型的对象的置信度以及各类型对应的修正值,根据各类型的对象的置信度确定目标类型对应的目标区域,根据目标区域中目标类型对应的修正值得到目标对象在待处理图像中的目标位置。如此,不需要对目标对象的先验特征的匹配,解决了现有技术方案中存在不能准确确定目标对象的位置的风险,准确的检测出目标对象的目标位置,进而提高了位置检测的准确率。
本发明实施例再提供一种图像处理方法,图5为本发明实施例图像处理方法的实现流程示意图,如图5所示,所述方法包括以下步骤:
S501、获取训练样本集;
示例性的,当需要对位置检测模型进行训练时,触发训练请求,基于训练请求确定训练的位置检测模型需检测的目标对象的目标对象信息,确定目标对象信息对应的训练样本集。训练样本集中训练样本的数量可为1000至40000,这里,训练集中训练样本的数量可根据用户需求进行设置,本发明实施例对此不进行限定。
针对目标对象的训练集中的训练样本中都包括目标对象,不同的训练样本中目标对象对应的区域的大小、清晰度等参数等可不同。从而实现训练样本的多样化。
S502、获取所述目标对象在所述训练样本集的各训练样本的训练位置;
根据训练样本和训练位置的关系获取各训练样本对应的训练位置,其中,训练位置为目标对象在训练样本中所在的区域的位置信息。位置信息可通过(x,y,w,h)的方式表示,也可通过两个坐标点A点、B点的位置坐标来表示。
训练样本的训练位置可通过人工选取的方式来确定,通过用户的选择操作确定目标对象在训练样本中所在的区域,将选择的区域的位置作为该训练样本的训练位置。训练样本的训练位置也可通过对不包括目标对象的样本图像的自动标注来得到,例如,将目标对象标注在样本图像的训练位置处,得到包括目标对象的训练样本和该训练样本对应的训练位置。
需要说明的是,本发明实施例中训练位置的获取方式可不限定上述方式,可以根据实际情况灵活处理。
S503、以所述训练样本集中的训练样本作为所述位置检测模型的输入,以各训练样本的训练位置作为所述位置检测模型的输出,对所述位置检测模型进行训练;
以训练样本集中的各训练样本作为训练样本对位置检测模型进行训练,使位置检测模型基于目标对象进行学习而具有识别目标对象的特性,从而使得位置检测模型能够识别出输入的图像中是否包括有目标对象,以及包括有目标对象时检测出目标对象所在的区域的位置。
S504、根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
S505、基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
S506、基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
S507、基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
S508、基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
需要说明的是,位置检测模型可为基于深度学习的卷积神经网络的目标检测模型,是以样本图像为输入以目标对象在所述样本图像中的位置作为输出进行训练而得到,所述位置检测模型能够通过对输入图像进行边界区域识别确定候选区域,基于对各候选区域进行特征提取确定所述目标对象的位置,基于回归器对所述目标候选区域的位置确定所述目标对象在所述样本图像中的位置,并输出所述目标对象在所述输入图像中的位置。
在其他实施例中,所述位置检测模型包括候选区域模型、卷积神经网络模型和分类器模型,其中,基于所述候选区域模型从所述待处理图像中提取候选区域,将所提取的候选区域输入所述卷积神经网络模型,基于所述特征获取模型获取所述候选区域的图像特征;将所提取的图像特征输入所述分类器模型,基于所述分类器模型计算所述候选区域针对不同类型的对象的置信度,以及,基于所述分类器模型计算所述候选区域针对不同类型的对象的修正值;基于所述分类器模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;基于所述分类器模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置,输出所述目标位置。
在其他实施例中,获取所述目标对象对应的图像区域的大小;根据所述目标对象对应的图像区域的大小设置所述分类器模型的模型参数;其中,所述模型参数至少包括以下之一:卷积核的大小、卷积核移动步长和卷积核的个数,其中,卷积核的个数可包括每一层的卷积核的个数。
比如:当位置检测模型采用的算法为SSD时,获取目标对象的图像区域的大小为:200*100,此时,将位置检测模型中的分类器的卷积核设置为1*2,也可将分类器的卷积核设置为1*3、2*4等,其中*表示乘号。这里,当目标对象对应的区域为正方形时,设置分类器的卷积核为正方形,当目标对象对应的区域为长方形时,设置分类器的卷积核为长方形。
当位置检测模型采用的算法为Faster R-CNN时,可根据目标对象对应的图像区域的尺寸信息设置分类器的卷积核大小、卷积核的数量以及卷积核的步长等模型参数。在其他实施例中,还可以设置纵横比(aspect ratio)等模型参数。根据目标对象对应的图像区域的尺寸信息设置分类器的模型参数,能够调整特征对象映射回原图的大小。例如:当目标对象为文本框时,文本框为长方形,可根据文本框的大小调整卷积核为长方形。需要说明的是,aspect ratio也可为方形。
在一些实施例中,当训练样本确定后,各训练样本中目标对象对应的区域也确定,根据训练位置可确定目标对象对应的图像区域的大小。
这里,对本发明实施例中一个可选的训练样本集合的构造方法进行描述,所述方法包括以下步骤:
S11、获取样本图像集中的样本图像;
所述样本图像中不包括所述目标对象。
样本图像集为未标注目标对象的图像的集合,将未标注目标对象的图像称为样本图像。这里,可根据样本图像集的存储路径来获取样本图像,在获取样本图像时,可在样本图像集中随机的确定当前样本图像,也可按存储顺序确定当前的样本图像。
S12、确定所述样本对象对应的训练位置,根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本;
在确定样本图像后,可确定当前样本图像的训练位置,其中,训练位置指示在样本图像中标注目标对象的位置。可由图像处理设备随机生成训练位置。
确定训练位置后,将目标对象标注在样本图像的训练位置处,实现目标对象的自动标注,生成训练样本。
这里,在实际应用中,所述步骤S12中根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本可以通过以下步骤实现:
S121、获取携带所述目标对象的特征图像;
特征图像为值包括目标对象的图像。基于目标对象为不规则的形状,而特征图像为规则的多边形,在特征图像中除目标对象之外的区域为透明的区域。这里,特征图像可为携带alpha通道的图像,alpha通道用于携带特征图像的透明度信息。
S122、将所述特征图像进行泛化处理,得到标注图像;其中,所述泛化处理至少包括以下之一:格式转换、尺寸缩放和模糊处理;
当获取特征图像后,对特征图像进行格式转换、尺寸缩放、模糊处理等泛化处理中的一种或多种处理得到标注图像,实现标注在样本图像上的目标对象的多样化。其中,格式转换为将特征图像转换为便携式网络图形(Portable Network Graphics,PNG)格式的图像。尺寸缩放为根据随机的比例关系将特征图像进行比例缩放。模糊处理为调整特征图像的清晰度。这里,对于不同的样本图像,特征图像的泛化处理可相同,也可不同。
S123、根据所述训练位置将所述标注图像标注在所述样本图像上,得到所述训练样本。
S13、将所述训练样本并入所述训练样本集。
将训练样本并入训练样本集中时,可同时存储该训练样本中目标对象标识和训练位置。其中,目标对象标识用于表征该训练样本中标注的目标对象。
在本发明实施例提供的图像处理方法中,通过样本训练集中的训练样本作为位置检测模型的输入,以各训练样本中目标对象对应的训练位置作为输出对位置检测模型进行训练,以使位置检测模型具有从输入的图像中检测目标对象的特性。通过将泛化处理后的标注图像标注在样本图像上得到对位置检测模型进行训练的训练样本,从而不需要人工的来制作训练样本,提高了训练样本的制作效率,且基于用于训练的输出为***预先确定的训练位置,能够提高位置检测模型检测目标对象的目标位置的精确度。在其他的实施例中,训练样本中的对象为经过泛化处理,其大小、清晰度存在不同,使得训练样本实现多样化,位置检测模型更加地泛化。
本发明实施例再提供一种图像处理方法,图6为本发明实施例图像处理方法的实现流程示意图,如图6所示,所述方法包括以下步骤:
S601、根据位置检测请求获取待处理图像;
其中,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
示例性地,待处理图像可包括至少两张目标对象的位置相同的第二图像。这里,目标对象在各第二图像中所在的区域的位置完全相同。
示例性地,当需要检测的待处理图像为源视频中的帧图像时,接收到用户发送的携带源视频的视频信息的位置检测请求,此时,根据位置检测请求获取待处理图像包括:根据所述位置检测请求获取源视频;对所述源视频的帧图像进行采样,得到预设数量的待处理图像。在其他的实施例中,根据位置检测请求携带的视频信息获取源视频,对所述源视频的帧图像进行采样,采集源视频中的预设数量的帧图像,则得到预设数量的待处理图像。这里,预设数量的数量可根据实际需求进行设置。
这里,也可将输入的预设数量的源图像称为第二图像。
S602、基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
将多张待处理图像分别输入位置检测模型,使得位置检测模型依次对输入的预设数量的待处理图像的进行目标对象的位置的检测。
S603、基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
S604、基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
S605、基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置;
当输入的待处理图像包括多个第二图像时,对于输入的每一个第二图像,得到各第二图像中目标对象所在的目标位置。
S606、如果所述待处理图像包括多个第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果待处理图像包括至少两张目标对象的位置相同的第二图像,对于各第二图像,位置检测模型输出的目标位置存在不同,此时,可根据各待处理图像(第二图像)对应的目标位置来计算目标位置的波动值。这里,可将各目标位置的方差作为目标位置的波动值,其中,可计算各目标位置中针对同一位置信息(中心的横坐标、中心的纵坐标、宽、高)的方差,根据各位置信息的方差来计算目标位置的波动值,其中,可通过各位置信息的权值和各位置信息的方差来计算目标位置的波动值。
例如:输入位置检测模型的第二图像的数量为4,第二图像1的目标位置为(x1,y1,w1,h1),第二图像2的目标位置为(x2,y2,w2,h2),第二图像3的目标位置为(x3,y3,w3,h3),第二图像4的目标位置为(x4,y4,w4,h4)。根据第二图像的目标位置分别计算位置信息中心横坐标的方差D(x)、中心纵坐标的方差D(y)、宽的方差D(w)以及高的方差D(h),其中,
位置信息中心横坐标的方差D(x)为:
公式(1)中,为四张第二图像的目标位置中高的平均值;
位置信息中心纵坐标的方差D(y)为:
公式(2)中,y为四张第二图像的目标位置中高的平均值;
位置信息宽的方差D(w)为:
公式(3)中,为四张第二图像的目标位置中高的平均值;
位置信息高的方差D(h)为:
公式(4)中,为四张第二图像的目标位置中高的平均值;
通过上述公式计算得到位置信息中心横坐标的方差D(x)、中心纵坐标的方差D(y)、宽的方差D(w)以及高的方差D(h)后,根据中心横坐标的方差D(x)、中心纵坐标的方差D(y)、宽的方差D(w)以及高的方差D(h)计算波动值T,其中,波动值T的计算公式可为:
公式(5)中,分别为中心的横坐标、中心的纵坐标、宽、高的权值。
在本发明实施例中,对波动值的计算方式可灵活设置,不限定在上述计算方式。
根据各位置信息的权值和各位置信息的方差来计算得到目标位置的波动值后,将波动值和波动阈值进行比较,如果比较结果为波动值小于波动阈值,执行S607,如果比较结果为波动值大于波动阈值,执行S608。
S607、如果所述波动值小于设定的波动阈值,根据各第二图像的目标位置确定所述目标对象对应所述第二图像的检测位置;
如果波动值小于波动阈值,则表征多个待处理图像的检测的目标位置稳定,可根据检测的多个待处理图像的目标位置确定最终的检测位置。这里,可对各目标位置进行平均值的计算,将计算得到的平均值作为最终的检测位置。这里,可认为检测位置为确定的多个目标对象的位置相同的第二图像中目标对象的位置。
S608、如果所述波动值大于设定的波动阈值,接收对所述第二图像的目标位置的调整操作;
当波动值大于波动阈值时,则确定多个待处理图像的检测的目标位置不稳定,确定此次检测为坏实例bad case,检测的目标位置不精确。此时,可通过弹出窗口提示当前的检测不精确,以提示用户对第二图像进行调整操作。这里,可将位置检测模型输入的多个第二图像进行显示,并接收用户针对各第二图像中的目标对象的选择。
这里,接收第二操作的第二图像可为输入位置检测模型中所有的第二图像,也可为输入位置检测模型中的第二图像中的部分第二图像。
在实际应用中,当确定第二图像的检测为bad case时,将确定为bad case的第二图像记录在坏实例文件夹中,当坏实例文件夹中记录的第二图像的数量达到一定的记录数量时,将所记录的第二图像展示给用户,以使得用户对记录的第二图像中的目标对象的位置进行调整。
S609、根据所述调整操作确定所述目标对象在所述第二图像中的校正位置;
根据接收的用户的调整操作来确定调整操作对应的位置信息,将调整操作对应的位置信息作为校正位置,校正位置为目标对象在第二图像中所在的区域的位置。
S610、以所述第二图像作为所述位置检测模型的输入,以所述第二图像对应的校正位置作为所述位置检测模型的输出,对所述位置检测模型进行训练,训练所述位置检测模型检测所述目标位置的性能。
当对bad case对应的第二图像中的目标对象的位置进行调整得到校正位置后,将bad case对应的第二图像作为训练样本输入位置检测模型,并将校正位置作为位置检测模型的输出,对位置检测模型进行训练,改善位置检测模型的性能,提高位置检测模型的平均准确率(mean Average Precision,mAP)
在其他实施例中,基于所述位置检测请求确定处理类型;根据所述处理类型对所述待处理图像中的目标对象进行处理,得到处理后的图像;输出所述处理后的图像。在其他的实施例中,位置检测请求中可携带对目标对象进行处理的处理类型,其中,处理类型可包括:删除处理、模糊处理、覆盖处理、元素添加处理等,当处理类型为删除处理,直接将目标位置对应的区域的图像即目标对象删除;当处理类型为模糊处理时,可将目标位置对应的区域的图像即目标对象模糊化。当处理类型为覆盖处理时,请求消息中可携带用于覆盖的覆盖对象的信息,从而将覆盖对象标注在目标位置对应的区域,实现对目标对象的覆盖;当处理类型为元素添加处理时,请求消息中可携带待添加的元素,根据位置区域将待添加的元素标注在目标位置对应的区域,即在目标对象的基础上添加待添加的元素,对待处理图像中的目标对象进行处理后得到处理后的图像,将处理后的图像输出进行显示或发送至图像处理设备以外的其它设备。
需要说明的是,当输入位置检测模型多个待处理图像时,检测位置为确定的目标对象在各待处理图像中的位置。对目标对象进行处理时,根据检测位置确定目标对象所在的区域。
在本发明实施例提供的图像处理方法中,当输入位置检测模型的待处理图像为多张待处理图像时,将各待处理检测模型的目标位置的波动值与波动阈值进行比较,从而确定当前的检测是否稳定,如果波动值小于波动阈值时,根据检测的各待处理图像的目标位置确定最终的检测位置,如果波动值大于波动阈值时,确定当前检测为bad case,并通过bad case对应的待处理图像对位置检测模型进行训练,以提高位置检测模型的mAP。
基于前述实施例,以logo为目标对象对本发明实施例提供的图像处理方法中的训练样本的构造方法进行说明。
相关技术中,在物体检测方向上存在许多的样本标注工具,例如在面向开源及私有软件项目的托管平台(例如github)上可以搜到的标注工具,例如labelimg,labelimg的标注相对方便,但是需要用户控制鼠标框住一个边界框bbox,labelimg通过bbox自动的生成了左上角和右下角的位置。但是相关技术中的这种方式比较低端且需要消耗人力。
本发明实施例中,直接对logo素材进行了处理,得到了一个带alpha通道的特征图像,可以是PNG图片。将特征图像自动的标注在样本图像集中的样本图像上,从而在样本图像集中的4万多张图片里面模拟出来很多正式的带logo的训练样本。其中,可随机的把logo标注在样本图像上。这里,可将标注logo的训练位置控制在样本图像的3个角落的概率大一点,并且对标注的logo进行了缩放scale和模糊blur。最后我们把标注后得到的几万张图片作为训练样本集中的训练样本。这里,对logo进行的泛化处理包括随机的放大和模糊,能够提高训练样本的多样性,有助于位置检测模型更加的泛化,防止位置检测模型出现过拟合的想象。
需要说明的是,基于能够准确地确定训练样本中的logo在训练样本中的位置,因此,可通过训练样本测试位置检测模型的准确度。
当待处理图像为视频的帧图像时,视频中的logo样式比较固定,在最存储训练样本时,可同时存储各训练样本对应的训练信息,其中,训练信息包括class_index、x_min、y_min、x_max、y_max,其中,class_index为训练样本的分类索引,表征所标注的目标对象的类型,x_min、y_min分别为A点的横坐标和纵坐标,x_max、y_max分别为B点的横坐标和纵坐标。
这里,通过如图7所示的训练样本对标注图像的标注方法进行说明,其中,目标对象为图7中虚线所示的logo 71。在将虚线所示的logo对应的特征图像标注在样本图像上之前,将特征图像转换为PNG格式的图片,且图片中携带alpha通道,之后进行模糊,放大,缩小等处理得到标注图像,将标注图像标注在图片的训练位置处,得到图7所示的训练样本。其中,该处理过程的代码可为:
通过上述处理过程得到一个携带有透明通道的标注图像。
这里,将标注图像标注在样本图像上的代码可为:
Mimage.paste(logo_image,box,logo_image)
其中,mimage表示样本图像,logo_image表示标注图像,box表示训练位置。
通过标注图像的标注得到训练样本后,可将训练样本和box信息保存起来就得到了一个训练样本的训练信息。可将训练样本并入训练样本集中,以用于位置检测模型的训练。
基于前述实施例,对本发明实施例中的位置检测模型所采用的算法进行说明。
相关技术中,在进行目标对象的检测时,通过如SIFT,HOG等方法,在给定logo的情况下,提取logo的特征作为先验特征,然后将先验特征与视频的某几帧的图像进行匹配,以检测图片中有没有该logo,以及匹配最可能的位置。通过实验发现,上述方法存在很多的图像中的logo检测不出来,或匹配的位置bbox也不能满足我们的要求。
本发明实施例中的位置检测模型采用耳朵算法可包括一瞥(You Only LookOnce,YOLO)、一瞥(You Only Look Once,YOLO)2、R-CNN、Fast R-CNN、Faster R-CNN和SSD等基于深度学习的目标检测算法。采用上述算法的位置检测模型以样本图像为输入以目标对象在所述样本图像中的位置作为输出进行训练而得到,所述位置检测模型能够通过对输入图像进行边界区域识别确定候选区域,基于对各候选区域进行特征提取确定所述目标对象的位置,基于回归器对所述目标候选区域的位置确定所述目标对象在所述样本图像中的位置,并输出所述目标对象在所述输入图像中的位置。其中,通过mAP和处理上剫对上述几种算法的处理性能的比较,比较结果如图8所示,R-CNN的mAP为66%,速度为0.02fps;FastR-CNN的mAP为70%,速度为0.4fps;Faster R-CNN的mAP为73%,速度为7fps,YOLO的mAP为66%,速度为21fps;SDD512的mAP为77%,速度为19fps;SDD300的mAP为74%mAP/46fps;其中,SDD512相对于YOLO的处理速度相同,但mAP相对于高11%。
这里,针对Faster R-CNN和SSD进行说明。
(1)Faster R-CNN
Faster R-CNN可以简单地看作“区域生成网络+Fast R-CNN“的***,用区域生成网络代替Faster R-CNN中的选择性搜索方法。Fast R-CNN是一种选择性的搜索,找出所有的候选框,非常的耗时,而Faster R-CNN加入一个提取边缘的神经网络候选区域模型,也就说找到候选框的工作也交给神经网络来做了,这种网络称为RPN,Faster R-CNN的整体的架构如图9所示,将图像通过提取图像特征的卷积神经网络模型得到待处理图像的图像特征(特征图featuremap),将得到的图像特征输入RPN得到候选框,结合各候选框和待处理图像的图像特征确定各候选框对应的候选区域的图像特征,通过候选区域池化层rolpoolinglayer对每个候选区域的图像特征进行卷积,以确定各候选区域对应每个类型的目标的置信度,根据各类型的置信度确定每个候选区域的分类以实现分类器,同时确定目标区域的修正值,通过修正值对目标区域的边框进行调整得到目标位置。
(2)SSD
SSD和Faster R-CNN的不同之处在于SSD在多个feature map上进行处理,且每一层feature map的感受野不同。另外,Faster R-CNN是先提取边框以确定候选区域,然后再分类,而SSD值利用锚点直接进行分类和BBox回归。SSD在vgg16上实现流程如图10所示,最靠左边的矩形框表示待处理图像,300*300表示待处理图像的大小,3表示待处理红绿蓝(Red Green Blue,RGB)图像的R通道、G通道、B通道这3个通道。中间的几个矩形框分别表示不同的feature map,用来表示抽取的特征,各矩形框对应的卷积步长能够控制对输入图像的遍历,抽取到输入图像上丰富的特征,以进行分类和回归。其中,越靠后面的特征表示的特征越抽象,例如可以抽象出待处理图像中的人的鼻子、猫的眼睛等特征。其中,featuremap的厚度表示对应多少个不同卷积个数、以用来发现例如形状、颜色等图像特征。如图10所示,SSD在进行目标对象的位置检测时,并不是最后一层特征图才有全连接的,从全连接层(Fully Connected layers,FC))6到FC10以及最后一层池(pool)都连接到了全连接层,不突出某一层次的特征,而是综合考虑高度抽象的特征和局部抽象的特征,之后通过训练样本的训练这个过程确定全连接层的参数,也就是来选择局部和全局特征的权重,提高位置检测模型的鲁棒性。
需要说明的是,当目标对象为logo时,logo在一个图片的位置和大小都是比较固定的,大小一般在200*100个像素以下,因此,目标位置检测模型的最后一层的卷积核的核大小(kernel size)采用了长方形的kernel size,比如:1*2,1*3,2*4等。
这里,基于位置检测模型检测待处理图像中的logo的目标位置时,当通过v4的中央处理器(Central Processing Unit,CPU)处理时,对每一个待处理图像的处理时间需要大概4秒的时间。当待处理图像为视频中的帧图像时,可每一个视频截取4张图片作为待处理图像,将4张图片的目标位置的平均值作为最后的检测位置。对于每一张图片,得到的目标位置包括四个坐标值,分别对应左上角和右下角两个点的坐标值,基于logo在一个视频的位置不变性的常识,可以取这几张图片的平均值作为最后检测位置的坐标值。这里,可计算几张图片的目标位置的波动值,波动值可以为这几个图片检测出来logo的目标位置的方差。当波动值大于设定的波动阈值时,确定检测的目标位置的波动比较大,这很可能是模型没有覆盖住的一个检测,该次检测为bad case,当观察的bad case累计数达到一定的数目的时候,把数据提取(dump)出来,经过一道人工的审核选取流程增加模型没有用覆盖(hold)住的图片,这样形成了一个非常好的循环,过一段时间可以更换线上的位置检测模型,使得位置检测模型的mAP越来越高,位置检测模型可以得到改善。
基于上述实施例,本发明实施例还提供一种图像处理装置1100,如图11所示,所述图像处理装置包括:获取单元1101、提取单元1102、计算单元1103、目标区域单元1104和修正单元1105;其中,
获取单元1101,用于根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
提取单元1102,用于基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
计算单元1103,用于基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
目标区域单元1104,用于基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
修正单元1105,用于基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
其中,所述位置检测模型包括候选区域模型、卷积神经网络模型和分类器模型,其中:
获取单元1101,用于基于所述候选区域模型从所述待处理图像中提取候选区域;
提取单元1102,用于将所提取的候选区域输入所述卷积神经网络模型,基于所述卷积神经网络模型获取所述候选区域的图像特征;
计算单元1103,用于将所提取的图像特征输入所述分类器模型,基于所述分类器模型计算所述候选区域针对不同类型的对象的置信度,以及,基于所述分类器模型计算所述候选区域针对不同类型的对象的修正值;
目标区域单元1104,用于基于所述分类器模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
修正单元1105,用于基于所述分类器模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置,输出所述目标位置。
在其他实施例中,所述图像处理装置还包括:训练单元,用于:
获取训练样本集;
获取所述目标对象在所述训练样本集的各训练样本的训练位置;
以所述训练样本集中的训练样本作为所述位置检测模型的输入,以各训练样本的训练位置作为所述位置检测模型的输出,对所述位置检测模型进行训练。
在其他实施例中,所述图像处理装置还包括:标注单元,用于:
获取样本图像集中的样本图像;其中,所述样本图像中不包括所述目标对象;
确定所述样本对象对应的训练位置,根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本;
将所述训练样本并入所述训练样本集。
在其他实施例中,标注单元根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本包括:
获取携带所述目标对象的特征图像;
将所述特征图像进行泛化处理,得到标注图像;其中,所述泛化处理至少包括以下之一:格式转换、尺寸缩放和模糊处理;
根据所述训练位置将所述标注图像标注在所述样本图像上,得到所述训练样本。
在其他实施例中,所述位置检测模型采用的算法为SSD时,所述装置还包括:设置单元,用于:
获取所述目标对象对应的图像区域的大小;
根据所述目标对象对应的图像区域的大小设置所述分类器模型的模型参数;其中,所述模型参数至少包括以下之一:卷积核的大小、卷积核移动步长和以及卷积核的个数。
在其他实施例中,获取单元,用于:
根据所述位置检测请求获取源视频;
对所述源视频的帧图像进行采样,得到预设数量的待处理图像。
在其他实施例中,所述图像处理装置还包括:检测位置确定单元,用于:
如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果所述波动值小于设定的波动阈值,根据各第二图像的目标位置确定所述目标对象对应所述第二图像的检测位置。
在其他实施例中,所述图像处理装置还包括:校正单元,用于:
如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果所述波动值大于设定的波动阈值,接收对所述第二图像的目标位置的调整操作;
根据所述调整操作确定所述目标对象在所述第二图像中的校正位置;
以所述第二图像作为所述位置检测模型的输入,以所述第二图像对应的校正位置作为所述位置检测模型的输出,对所述位置检测模型进行训练,训练所述位置检测模型检测所述目标位置的性能。
在其他实施例中,所述图像处理装置还包括:处理单元,用于:
基于所述位置检测请求确定处理类型;
根据所述处理类型对所述待处理图像中的目标对象进行处理,得到处理后的图像;
输出所述处理后的图像。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例提供一种图像处理设备,图12为本发明实施例图像处理设备的组成结构示意图,如图12所示,所述设备1200包括:一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1204和存储器1205。其中,通信总线1202配置为实现这些组件之间的连接通信。其中,用户接口1203可以包括显示屏,外部通信接口1204可以包括标准的有线接口和无线接口。其中所述处理器1201,配置为执行存储器中存储的图像处理程序,以实现以下步骤:
根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
基于所述位置检测模型计算所述候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值;
基于所述位置检测模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置。
相应地,本发明实施例再提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现上述的图像处理方法的步骤。
以上图像处理装置、图像处理设备和计算机可读存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明图像处理装置、图像处理设备和计算机可读存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例中,如果以软件功能模块的形式实现上述的即时通讯方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种图像处理方法,其特征在于,所述方法包括:
根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征,其中,所述候选区域为所述待处理图像分割成N个区域后,每个区域对应的图像区域,N为正整数;
基于所述位置检测模型,根据每一候选区域的图像特征计算相应候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值,其中,所述修正值是对候选区域的候选框进行回归修正的参数;
根据每一候选区域针对不同类型的对象对应的置信度,对应确定每一候选区域对应目标类型的置信度,并基于所述位置检测模型从N个候选区域中确定出所述目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象,所述目标区域为包括所述目标对象的图像区域;
基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置;
如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果所述波动值小于设定的波动阈值,根据各第二图像的目标位置确定所述目标对象对应所述第二图像的检测位置,其中,所述波动值小于设定的波动阈值用于表征多个所述待处理图像的检测的目标位置稳定。
2.根据权利要求1所述的方法,其特征在于,所述位置检测模型包括候选区域模型、卷积神经网络模型和分类器模型,其中:
基于所述候选区域模型从所述待处理图像中提取候选区域;
将所提取的候选区域输入所述卷积神经网络模型,基于所述卷积神经网络模型获取所述候选区域的图像特征;
将所提取的图像特征输入所述分类器模型,基于所述分类器模型计算所述候选区域针对不同类型的对象的置信度,以及,基于所述分类器模型计算所述候选区域针对不同类型的对象的修正值;
基于所述分类器模型确定目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象;
基于所述分类器模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置,输出所述目标位置。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本集;
获取所述目标对象在所述训练样本集的各训练样本的训练位置;
以所述训练样本集中的训练样本作为所述位置检测模型的输入,以各训练样本的训练位置作为所述位置检测模型的输出,对所述位置检测模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取样本图像集中的样本图像;其中,所述样本图像中不包括所述目标对象;
确定所述样本对象对应的训练位置,根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本;
将所述训练样本并入所述训练样本集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练位置将所述目标对象标注在所述样本图像上,得到所述训练样本包括:
获取携带所述目标对象的特征图像;
将所述特征图像进行泛化处理,得到标注图像;其中,所述泛化处理至少包括以下之一:格式转换、尺寸缩放和模糊处理;
根据所述训练位置将所述标注图像标注在所述样本图像上,得到所述训练样本。
6.根据权利要求2述的方法,其特征在于,所述方法还包括:
获取所述目标对象对应的图像区域的大小;
根据所述目标对象对应的图像区域的大小设置所述分类器模型的模型参数;其中,所述模型参数至少包括以下之一:卷积核的大小、卷积核移动步长和以及卷积核的个数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据位置检测请求获取待处理图像包括:
根据所述位置检测请求获取源视频;
对所述源视频的帧图像进行采样,得到预设数量的待处理图像。
8.根据权利要求1至6任一项述的方法,其特征在于,所述方法还包括:
如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果所述波动值大于设定的波动阈值,接收对所述第二图像的目标位置的调整操作;
根据所述调整操作确定所述目标对象在所述第二图像中的校正位置;
以所述第二图像作为所述位置检测模型的输入,以所述第二图像对应的校正位置作为所述位置检测模型的输出,对所述位置检测模型进行训练,训练所述位置检测模型检测所述目标位置的性能。
9.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
基于所述位置检测请求确定处理类型;
根据所述处理类型对所述待处理图像中的目标对象进行处理,得到处理后的图像;
输出所述处理后的图像。
10.一种图像处理装置,其特征在于,所述装置包括:获取单元、提取单元、计算单元、目标区域单元、修正单元和检测位置确定单元;其中,
所述获取单元,用于根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
所述提取单元,用于基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征,其中,所述候选区域为所述待处理图像分割成N个区域后,每个区域对应的图像区域,N为正整数;
所述计算单元,用于基于所述位置检测模型,根据每一候选区域的图像特征计算相应候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值,其中,所述修正值是对候选区域的候选框进行回归修正的参数;
所述目标区域单元,用于根据每一候选区域针对不同类型的对象对应的置信度,对应确定每一候选区域对应目标类型的置信度,并基于所述位置检测模型从N个候选区域中确定出所述目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象,所述目标区域为包括所述目标对象的图像区域;
所述修正单元,用于基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置;
所述检测位置确定单元,用于如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;如果所述波动值小于设定的波动阈值,根据各第二图像的目标位置确定所述目标对象对应所述第二图像的检测位置,其中,所述波动值小于设定的波动阈值用于表征多个所述待处理图像的检测的目标位置稳定。
11.一种图像处理设备,其特征在于,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储图像处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的图像处理程序,以实现以下步骤:
根据位置检测请求获取待处理图像,所述位置检测请求用于请求对所述待处理图像中的目标对象进行检测;
基于位置检测模型从所述待处理图像中提取候选区域,获取所述候选区域的图像特征;
基于所述位置检测模型,根据每一候选区域的图像特征计算相应候选区域针对不同类型的对象的置信度,以及,计算所述候选区域针对不同类型的对象的修正值,其中,所述修正值是对候选区域的候选框进行回归修正的参数;
根据每一候选区域针对不同类型的对象对应的置信度,对应确定每一候选区域对应目标类型的置信度,并基于所述位置检测模型从N个候选区域中确定出所述目标类型的置信度满足置信度条件的目标区域;其中,所述目标类型对应的对象为所述目标对象,所述目标区域为包括所述目标对象的图像区域;
基于所述位置检测模型根据所述目标区域中目标类型对应的修正值对所述目标区域的边框位置进行调整得到目标位置;
如果所述待处理图像包括至少两张目标对象的位置相同的第二图像,根据各第二图像的目标位置确定目标位置的波动值;
如果所述波动值小于设定的波动阈值,根据各第二图像的目标位置确定所述目标对象对应所述第二图像的检测位置,其中,所述波动值小于设定的波动阈值用于表征多个所述待处理图像的检测的目标位置稳定。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像处理程序,所述图像处理程序被处理器执行时实现1至9任一项中所述的图像处理方法的步骤。
CN201810134949.9A 2018-02-09 2018-02-09 图像处理方法及其装置、设备和存储介质 Active CN110136198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810134949.9A CN110136198B (zh) 2018-02-09 2018-02-09 图像处理方法及其装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810134949.9A CN110136198B (zh) 2018-02-09 2018-02-09 图像处理方法及其装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110136198A CN110136198A (zh) 2019-08-16
CN110136198B true CN110136198B (zh) 2023-10-03

Family

ID=67567802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810134949.9A Active CN110136198B (zh) 2018-02-09 2018-02-09 图像处理方法及其装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110136198B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516606A (zh) * 2019-08-28 2019-11-29 北京观微科技有限公司 高分辨率卫星影像任意方向舰船目标检测方法
CN110807381A (zh) * 2019-10-23 2020-02-18 北京精英***科技有限公司 一种检测容器内装满程度的装置和方法
CN111461182B (zh) * 2020-03-18 2023-04-18 北京小米松果电子有限公司 图像处理方法、图像处理装置及存储介质
CN111724442B (zh) * 2020-05-28 2022-04-22 上海商汤智能科技有限公司 图像处理方法及装置、电子设备及存储介质
CN111767867B (zh) * 2020-06-30 2022-12-09 创新奇智(北京)科技有限公司 文本检测方法、模型训练方法及对应装置
CN112966730A (zh) * 2021-03-01 2021-06-15 创新奇智(上海)科技有限公司 车辆伤损识别方法、装置、设备及存储介质
CN113344812A (zh) * 2021-05-31 2021-09-03 维沃移动通信(杭州)有限公司 图像处理方法、装置和电子设备
KR20220168950A (ko) * 2021-06-14 2022-12-26 센스타임 인터내셔널 피티이. 리미티드. 객체 분류를 결정하기 위한 방법들 및 장치들
CN115529475B (zh) * 2021-12-29 2024-07-16 北京国瑞数智技术有限公司 视频流量内容检测与风控的方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200210A (zh) * 2014-08-12 2014-12-10 合肥工业大学 一种基于部件的车牌字符分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107316007B (zh) * 2017-06-07 2020-04-03 浙江捷尚视觉科技股份有限公司 一种基于深度学习的监控图像多类物体检测与识别方法
CN107665333A (zh) * 2017-08-28 2018-02-06 平安科技(深圳)有限公司 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200210A (zh) * 2014-08-12 2014-12-10 合肥工业大学 一种基于部件的车牌字符分割方法

Also Published As

Publication number Publication date
CN110136198A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110136198B (zh) 图像处理方法及其装置、设备和存储介质
US10803554B2 (en) Image processing method and device
CN109961009B (zh) 基于深度学习的行人检测方法、***、装置及存储介质
US9697416B2 (en) Object detection using cascaded convolutional neural networks
US12019675B2 (en) Recognizing text in image data
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN110163076B (zh) 一种图像数据处理方法和相关装置
CN110689037A (zh) 用于使用深度网络的自动对象注释的方法和***
US20160094774A1 (en) Mobile device image acquisition using objects of interest recognition
WO2021012382A1 (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN111325271B (zh) 图像分类方法及装置
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN110019912A (zh) 基于形状的图形搜索
CN111476271B (zh) 图标识别的方法、装置、***、计算机设备和存储介质
CN111104813A (zh) 二维码图像关键点检测方法、装置、电子设备及存储介质
CN110751146A (zh) 文本区域检测方法、装置、电子终端和计算机可读存储介质
JP2019075130A (ja) 情報処理装置、制御方法、プログラム
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN114298902A (zh) 一种图像对齐方法、装置、电子设备和存储介质
WO2022206534A1 (zh) 文本内容识别方法、装置、计算机设备和存储介质
CN108921792B (zh) 用于处理图片的方法和装置
US20170344820A1 (en) Method and system of identifying fillable fields of an electronic form
WO2024021321A1 (zh) 模型生成的方法、装置、电子设备和存储介质
CN111274447A (zh) 基于视频的目标表情生成方法、装置、介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant