CN109377508A - 图像处理方法和装置 - Google Patents

图像处理方法和装置 Download PDF

Info

Publication number
CN109377508A
CN109377508A CN201811126084.8A CN201811126084A CN109377508A CN 109377508 A CN109377508 A CN 109377508A CN 201811126084 A CN201811126084 A CN 201811126084A CN 109377508 A CN109377508 A CN 109377508A
Authority
CN
China
Prior art keywords
frame
processing step
target
candidate frame
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811126084.8A
Other languages
English (en)
Other versions
CN109377508B (zh
Inventor
胡耀全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811126084.8A priority Critical patent/CN109377508B/zh
Publication of CN109377508A publication Critical patent/CN109377508A/zh
Application granted granted Critical
Publication of CN109377508B publication Critical patent/CN109377508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了图像处理方法和装置。该方法的一具体实施方式包括:获取已标注的图像,得到特征图像,确定候选框;执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取所述目标候选框在所述特征图像中所对应的特征;将所述特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;所述方法还包括:响应于确定所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,重新执行所述处理步骤,其中,所述预设次数阈值为至少两次。本申请实施例能够通过执行多次处理步骤,多次对候选框进行筛选和确定目标框,以得到更加准确的目标框。

Description

图像处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及图像处理方法和装置。
背景技术
卷积神经网络是多层神经网络,擅长处理图像,得到了越来越广泛的应用。通过卷积神经网络能够生成指示图像中目标位置的候选框(proposal),并利用候选框最终得到目标框。
发明内容
本申请实施例提出了图像处理方法和装置。
第一方面,本申请实施例提供了一种图像处理方法,包括:获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框;执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取目标候选框在特征图像中所对应的特征;将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;方法还包括:响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。
在一些实施例中,响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,包括:响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行处理步骤。
在一些实施例中,在重新执行处理步骤之后,方法还包括:基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与标注框的损失值;利用损失值进行反向传播,以调整卷积神经网络的参数。
在一些实施例中,方法还包括:响应于确定处理步骤的执行次数大于或等于预设次数阈值,对目标框进行非极大值抑制,得到处理后的目标框。
在一些实施例中,获取目标候选框在特征图像中所对应的特征,包括:确定目标候选框在特征图像中所对应的区域,获取区域内的特征,将区域内的特征转换为定长向量。
第二方面,本申请实施例提供了一种图像处理装置,包括:获取单元,被配置成获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框;处理单元,被配置成执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取目标候选框在特征图像中所对应的特征;将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;判断单元,被配置成响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。
在一些实施例中,判断单元进一步被配置成:响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行处理步骤。
在一些实施例中,装置还包括:损失确定单元,被配置成基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与标注框的损失值;调整单元,被配置成利用损失值进行反向传播,以调整卷积神经网络的参数。
在一些实施例中,装置还包括:目标框获取单元,被配置成响应于确定处理步骤的执行次数大于或等于预设次数阈值,对目标框进行非极大值抑制,得到处理后的目标框。
在一些实施例中,处理单元,进一步被配置成:确定目标候选框在特征图像中所对应的区域,获取区域内的特征,将区域内的特征转换为定长向量。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如图像处理方法中任一实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图像处理方法中任一实施例的方法。
本申请实施例提供的图像处理方案,首先,获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框;执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取目标候选框在特征图像中所对应的特征;将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;方法还包括:响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。本申请实施例能够通过执行多次处理步骤,多次对候选框进行筛选和确定目标框,以得到更加准确的目标框。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的图像处理方法的一个实施例的流程图;
图3是根据本申请的图像处理方法的一个应用场景的示意图;
图4是根据本申请的图像处理方法的又一个实施例的流程图;
图5是根据本申请的图像处理装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的图像处理方法或图像处理装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图像处理应用、视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的图像等数据进行分析等处理,并将处理结果(例如目标框)反馈给终端设备。
需要说明的是,本申请实施例所提供的图像处理方法可以由服务器105或者终端设备101、102、103执行,相应地,图像处理装置可以设置于服务器105或者终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的图像处理方法的一个实施例的流程200。该图像处理方法,包括以下步骤:
步骤201,获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框。
在本实施例中,图像处理方法的执行主体(例如图1所示的服务器或终端设备)可以获取已标注的图像,将图像输入卷积神经网络,以得到特征图像(feature map)。并且利用卷积神经网络确定候选框。已标注的图像指该图像所包含的目标的位置已经被标注出来。比如,可以采用确定目标的框的坐标和尺寸进行标注。
具体地,卷积神经网络的卷积层(Convolutional layer)可以生成特征图像。执行主体可以利用卷积神经网络中的区域候选网络(Region Proposal Network,RPN)生成候选框。此外,还可以采用选择性搜索(Selective Search)确定候选框。
上述执行主体可以执行以下处理步骤,具体地,处理步骤包括步骤202、步骤203和步骤204:
步骤202,确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框。
在本实施例中,上述执行主体可以确定各个候选框与所对应的标注框(GroundTruth)的重合度(Intersection over Union,IoU)。并从所确定的各个重合度中,选取重合度大于或等于预设重合度阈值的候选框。之后,将所选取的候选框作为目标候选框。标注框为图像中所标注的目标的包围框,用以指示所标注的目标的位置和尺寸。相对应的候选框与标注框指示相同目标的位置和尺寸。具体地,重合度可以是候选框与标注框的交集所覆盖的图像区域的面积(例如,所包含的像素数)和候选框与标注框的并集所覆盖的图像区域的面积的比值。
步骤203,获取目标候选框在特征图像中所对应的特征。
在本实施例中,上述执行主体可以获取目标候选框在特征图像中所对应的特征。目标候选框所包围的区域的特征存在于特征图像中,上述执行主体可以从特征图像中获取到上述特征。具体地,上述执行主体可以从特征图像所对应的特征矩阵中,确定目标候选框所包围的区域所对应的局部的特征矩阵,并提取出来。
在本实施例的一些可选的实现方式中,步骤203可以包括:
确定目标候选框在特征图像中所对应的区域,获取区域内的特征,将区域内的特征转换为定长向量。
在本实施例中,上述执行主体可以确定目标候选框在特征图像中所对应的区域,获取区域内的特征。之后将特征区域内的特征转换为定长向量,以备后续将该定长向量输入全连接层。比如,可以将特征转换为一行九列的向量。这样,可以在形式上对特征进行简化,使其更有利于进行后续的处理步骤。
在实践中,上述步骤202和步骤203可以由卷积神经网络中的特定池化层(ROIpooling)执行。
步骤204,将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框。
在本实施例中,上述执行主体可以将所获取的特征输入全连接层,并对从全连接层输出的结果进行分类和边框回归(Bounding Box Regression),以得到目标框。具体地,分类可以采用softmax分类器或者logistic分类器等等。各个候选框经过全连接层、分类和边框回归,生成的框可以更准确地指示目标的位置和尺寸。
步骤205,响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为不小于2的正整数。
在本实施例中,上述执行主体可以确定处理步骤的执行次数,并在执行次数小于预设次数阈值的情况下,将本次进行边框回归所得到的目标框确定为候选框,并且重新执行处理步骤。
需要说明的是,重新执行处理步骤时,所输入的全连接层的参数、分类所采用的参数和边框回归所采用的参数,与在先执行处理步骤时所采用的参数不同。
在本实施例的一些可选的实现方式中,该图像处理方法还可以包括以下步骤:
响应于确定处理步骤的执行次数大于或等于预设次数阈值,对目标框进行非极大值抑制,得到处理后的目标框。
在这些可选的实现方式中,上述执行主体可以响应于确定处理步骤的执行次数已经达到预设次数阈值,对最后一次执行处理步骤所得到的目标框进行非极大值抑制(Non-Maximum Suppression,NMS)。上述执行主体可以通过非极大值抑制从各个目标框中筛选出与标注框重合度更高的目标框,得到处理后的目标框。
通过非极大值抑制所得到的目标框能够更加准确地指示目标所在的位置。
继续参见图3,图3是根据本实施例的图像处理方法的应用场景的一个示意图。在图3的应用场景中,执行主体301可以获取已标注的图像302,将图像302输入卷积神经网络,得到特征图像303,确定候选框304:候选框1、候选框2…候选框N。执行以下处理步骤:确定各个候选框与所对应的标注框的重合度305,候选框1的重合度0.5,候选框2的重合度0.2…候选框N的重合度0.8,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框306。获取目标候选框在特征图像中所对应的特征307。将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框308:目标框A、目标框B…目标框M。方法还包括:响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。
本申请的上述实施例提供的方法能够通过执行多次处理步骤,多次对候选框进行筛选和确定目标框,以得到更加准确的目标框。
进一步参考图4,其示出了图像处理方法的又一个实施例的流程400。该图像处理方法的流程400,包括以下步骤:
步骤401,获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框。
在本实施例中,图像处理方法的执行主体(例如图1所示的服务器或终端设备)可以获取已标注的图像,将图像输入卷积神经网络,以得到特征图像。并且利用卷积神经网络确定候选框。已标注的图像指图像所包含的目标的位置已经被标注出来。比如,可以采用划定目标的框的坐标和尺寸进行标注。
执行以下处理步骤,具体地,处理步骤包括步骤402、步骤403和步骤404:
步骤402,确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框。
在本实施例中,上述执行主体可以确定各个候选框与所对应的标注框的重合度。并从所确定的各个重合度中,选取重合度大于或等于预设重合度阈值的候选框。之后,将所选取的候选框作为目标候选框。标注框为图像中所标注的目标所包含于的框,用以指示所标注的目标的位置和尺寸。相对应的候选框与标注框指示了相同目标的位置和尺寸。
步骤403,获取目标候选框在特征图像中所对应的特征。
在本实施例中,上述执行主体可以获取目标候选框在特征图像中所对应的特征。目标候选框所包围的区域的特征存在于特征图像中,上述执行主体可以从特征图像中获取到上述特征。具体地,上述执行主体可以从特征图像所对应的特征矩阵中,确定目标候选框所包围的区域所对应的局部的特征矩阵,并提取出来。
在实践中,上述步骤402和步骤403可以由卷积神经网络中的特定池化层(ROIpooling)执行。
步骤404,将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框。
在本实施例中,上述执行主体可以将所获取的特征输入全连接层,并对从全连接层输出的结果进行分类和边框回归,以得到目标框。具体地,分类可以采用softmax分类器或者logistic分类器等等。
步骤405,响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行处理步骤。
在本实施例中,上述执行主体可以确定处理步骤的执行次数,并在执行次数小于预设次数阈值的情况下,将本次进行边框回归所得到的目标框确定为候选框,并且采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行处理步骤。在卷积神经网络中可以包括多个上述特定池化层,对不同特定池化层可以设定不同的预设重合度阈值。在这里,对于各次执行的处理步骤,在先执行的处理步骤所采用的预设重合度阈值小于在后执行的处理步骤所采用的预设重合度阈值。
举例来说,上述执行主体可以利用三个不同的特定池化层,分别执行三次处理步骤,这三个特定池化层的预设重合度阈值分别为0.4、0.5和0.6。在这三次执行过程中,可以依次使用预设重合度阈值分别为0.4、0.5和0.6的特定池化层。
在本实施例一些可选的实现方式中,在重新执行处理步骤之后,方法还可以包括:
基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与标注框的损失值;利用损失值进行反向传播,以调整卷积神经网络的参数。
在这些可选的实现方式中,上述执行主体可以基于预先设置的损失函数,确定最后一次执行的处理步骤所得到的目标框与上述标注框之间的损失值。并利用损失值进行训练,这里采用的训练方式是反向传播。在实践中,上述目标框中的至少一个可以采用多种方式确定,以确定损失值,比如,可以随机确定,也可以是所有的目标框。此外,上述执行主体也可以将进行非极大值抑制所得到的处理后的目标框作为上述目标框中的至少一个。
首次利用卷积神经网络确定的候选框,往往与标注框的重合度较低,因而,所得到的高重合度的候选框较少。如果直接采用较大的重合度阈值过滤候选框,会导致重合度高于重合度阈值的候选框数量较少。基于由这些候选框所生成的目标框进行训练,则会造成过拟合。上述这些实现方式在执行至少两次处理步骤时,所采用的预设重合度阈值逐渐增大,继而,可以逐步增加高质量的候选框,也即会增加与标注框有高重合度的候选框。这样,训练得到的卷积神经网络的速度更快,也更准确。
本实施例能够通过在不同轮次的处理步骤中,逐步增大预设重合度,以增加与标注框有高重合度的候选框。这样,所得到的目标框能够更加准确地指示目标的位置,从而提高了利用卷积神经网络处理图像的准确度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种图像处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的图像处理装置500包括:获取单元501、处理单元502和判断单元503。其中,获取单元501,被配置成获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框;处理单元502,被配置成执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取目标候选框在特征图像中所对应的特征;将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;判断单元503,被配置成响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。
在一些实施例中,获取单元501可以获取已标注的图像,将图像输入卷积神经网络,以得到特征图像。并且利用卷积神经网络确定候选框。已标注的图像指该图像所包含的目标的位置已经被标注出来。比如,可以采用确定目标的框的坐标和尺寸进行标注。
在一些实施例中,处理单元502可以确定各个候选框与所对应的标注框的重合度。并从所确定的各个重合度中,选取重合度大于或等于预设重合度阈值的候选框。之后,将所选取的候选框作为目标候选框。标注框为图像中包括所标注的目标的框,用以指示所标注的目标的位置和尺寸。处理单元502可以获取目标候选框在特征图像中所对应的特征。目标候选框所包围的区域的特征存在于特征图像中,上述执行主体可以从特征图像中获取到上述特征。具体地,上述执行主体可以从特征图像所对应的特征矩阵中,确定目标候选框所包围的区域所对应的局部的特征矩阵,并提取出来。处理单元502可以将所获取的特征输入全连接层,并对从全连接层输出的结果进行分类和边框回归,以得到目标框。
在一些实施例中,判断单元503可以确定处理步骤的执行次数,并在执行次数小于预设次数阈值的情况下,将本次进行边框回归所得到的目标框确定为候选框,并且重新执行处理步骤。
在本实施例的一些可选的实现方式中,判断单元进一步被配置成:响应于处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行处理步骤。
在本实施例的一些可选的实现方式中,装置还包括:损失确定单元,被配置成基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与标注框的损失值;调整单元,被配置成利用损失值进行反向传播,以调整卷积神经网络的参数。
在本实施例的一些可选的实现方式中,装置还包括:目标框获取单元,被配置成响应于确定处理步骤的执行次数大于或等于预设次数阈值,对目标框进行非极大值抑制,得到处理后的目标框。
在本实施例的一些可选的实现方式中,处理单元,进一步被配置成:确定目标候选框在特征图像中所对应的区域,获取区域内的特征,将区域内的特征转换为定长向量。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU和/或GPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。中央处理单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示屏(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、处理单元和判断单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取已标注的图像,将图像输入卷积神经网络,得到特征图像,确定候选框;执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取目标候选框在特征图像中所对应的特征;将特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;方法还包括:响应于确定处理步骤的执行次数小于预设次数阈值,将目标框确定为候选框,重新执行处理步骤,其中,预设次数阈值为至少两次。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种图像处理方法,包括:
获取已标注的图像,将所述图像输入卷积神经网络,得到特征图像,确定候选框;
执行以下处理步骤:
确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取所述目标候选框在所述特征图像中所对应的特征;
将所述特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;
所述方法还包括:
响应于确定所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,重新执行所述处理步骤,其中,所述预设次数阈值为至少两次。
2.根据权利要求1所述的方法,其中,所述响应于所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,重新执行所述处理步骤,包括:
响应于所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行所述处理步骤。
3.根据权利要求2所述的方法,其中,在所述重新执行所述处理步骤之后,所述方法还包括:
基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与所述标注框的损失值;
利用所述损失值进行反向传播,以调整所述卷积神经网络的参数。
4.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述处理步骤的执行次数大于或等于预设次数阈值,对所述目标框进行非极大值抑制,得到处理后的目标框。
5.根据权利要求1所述的方法,其中,所述获取所述目标候选框在所述特征图像中所对应的特征,包括:
确定所述目标候选框在所述特征图像中所对应的区域,获取所述区域内的特征,将所述区域内的特征转换为定长向量。
6.一种图像处理装置,包括:
获取单元,被配置成获取已标注的图像,将所述图像输入卷积神经网络,得到特征图像,确定候选框;
处理单元,被配置成执行以下处理步骤:确定各个候选框与所对应的标注框的重合度,确定重合度大于或等于预设重合度阈值的候选框作为目标候选框;获取所述目标候选框在所述特征图像中所对应的特征;将所述特征输入全连接层,对全连接层的结果进行分类和边框回归,得到目标框;
判断单元,被配置成响应于确定所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,重新执行所述处理步骤,其中,所述预设次数阈值为至少两次。
7.根据权利要求6所述的装置,其中,所述判断单元进一步被配置成:
响应于所述处理步骤的执行次数小于预设次数阈值,将所述目标框确定为候选框,采用大于本次处理步骤中的预设重合度阈值的预设重合度阈值,重新执行所述处理步骤。
8.根据权利要求7所述的装置,其中,所述装置还包括:
损失确定单元,被配置成基于预设损失函数,确定最后一次执行的处理步骤所得到的目标框中的至少一个与所述标注框的损失值;
调整单元,被配置成利用所述损失值进行反向传播,以调整所述卷积神经网络的参数。
9.根据权利要求6所述的装置,其中,所述装置还包括:
目标框获取单元,被配置成响应于确定所述处理步骤的执行次数大于或等于预设次数阈值,对所述目标框进行非极大值抑制,得到处理后的目标框。
10.根据权利要求6所述的装置,其中,所述处理单元,进一步被配置成:
确定所述目标候选框在所述特征图像中所对应的区域,获取所述区域内的特征,将所述区域内的特征转换为定长向量。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201811126084.8A 2018-09-26 2018-09-26 图像处理方法和装置 Active CN109377508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811126084.8A CN109377508B (zh) 2018-09-26 2018-09-26 图像处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811126084.8A CN109377508B (zh) 2018-09-26 2018-09-26 图像处理方法和装置

Publications (2)

Publication Number Publication Date
CN109377508A true CN109377508A (zh) 2019-02-22
CN109377508B CN109377508B (zh) 2020-12-18

Family

ID=65402683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811126084.8A Active CN109377508B (zh) 2018-09-26 2018-09-26 图像处理方法和装置

Country Status (1)

Country Link
CN (1) CN109377508B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062249A (zh) * 2019-11-11 2020-04-24 北京百度网讯科技有限公司 车辆信息获取方法、装置、电子设备及存储介质
CN111695540A (zh) * 2020-06-17 2020-09-22 北京字节跳动网络技术有限公司 视频边框识别方法及裁剪方法、装置、电子设备及介质
WO2020228370A1 (zh) * 2019-05-10 2020-11-19 创新先进技术有限公司 计算机执行的从图片中识别损伤的方法及装置
US10885625B2 (en) 2019-05-10 2021-01-05 Advanced New Technologies Co., Ltd. Recognizing damage through image analysis
CN112348778A (zh) * 2020-10-21 2021-02-09 深圳市优必选科技股份有限公司 一种物体识别方法、装置、终端设备及存储介质
CN112580409A (zh) * 2019-09-30 2021-03-30 Oppo广东移动通信有限公司 目标物体选择方法及相关产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286774A1 (en) * 2016-04-04 2017-10-05 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286774A1 (en) * 2016-04-04 2017-10-05 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228370A1 (zh) * 2019-05-10 2020-11-19 创新先进技术有限公司 计算机执行的从图片中识别损伤的方法及装置
US10885625B2 (en) 2019-05-10 2021-01-05 Advanced New Technologies Co., Ltd. Recognizing damage through image analysis
CN112580409A (zh) * 2019-09-30 2021-03-30 Oppo广东移动通信有限公司 目标物体选择方法及相关产品
CN112580409B (zh) * 2019-09-30 2024-06-07 Oppo广东移动通信有限公司 目标物体选择方法及相关产品
CN111062249A (zh) * 2019-11-11 2020-04-24 北京百度网讯科技有限公司 车辆信息获取方法、装置、电子设备及存储介质
CN111695540A (zh) * 2020-06-17 2020-09-22 北京字节跳动网络技术有限公司 视频边框识别方法及裁剪方法、装置、电子设备及介质
CN112348778A (zh) * 2020-10-21 2021-02-09 深圳市优必选科技股份有限公司 一种物体识别方法、装置、终端设备及存储介质
CN112348778B (zh) * 2020-10-21 2023-10-27 深圳市优必选科技股份有限公司 一种物体识别方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN109377508B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN109377508A (zh) 图像处理方法和装置
CN108830235A (zh) 用于生成信息的方法和装置
CN109308681A (zh) 图像处理方法和装置
CN108898185A (zh) 用于生成图像识别模型的方法和装置
CN110288049A (zh) 用于生成图像识别模型的方法和装置
CN109829432B (zh) 用于生成信息的方法和装置
CN108595628A (zh) 用于推送信息的方法和装置
CN108345387A (zh) 用于输出信息的方法和装置
CN109410253B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
CN109344762A (zh) 图像处理方法和装置
CN109118456A (zh) 图像处理方法和装置
CN109308490A (zh) 用于生成信息的方法和装置
CN109272050B (zh) 图像处理方法和装置
CN109344752A (zh) 用于处理嘴部图像的方法和装置
CN111861867B (zh) 图像背景虚化方法和装置
CN109242801A (zh) 图像处理方法和装置
CN108510454A (zh) 用于生成深度图像的方法和装置
CN109389072A (zh) 数据处理方法和装置
CN109255337A (zh) 人脸关键点检测方法和装置
CN108960110A (zh) 用于生成信息的方法和装置
CN109255767A (zh) 图像处理方法和装置
CN109871791A (zh) 图像处理方法和装置
CN108364029A (zh) 用于生成模型的方法和装置
CN109145783A (zh) 用于生成信息的方法和装置
CN108882025A (zh) 视频帧处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.