CN111753766A

CN111753766A - 一种图像处理方法、装置、设备及介质

Info

Publication number: CN111753766A
Application number: CN202010602123.8A
Authority: CN
Inventors: 林春伟; 刘莉红; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-09

Abstract

本申请实施例公开了一种图像处理方法、装置、设备及介质，涉及人工智能中的图像识别技术，且可应用于区块链网络，其中，方法包括：获取目标视频数据；对目标视频数据中的图像进行属性识别处理，得到目标对象的第一属性信息；对目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域；从至少一个第一图像区域中确定参考图像区域，根据参考图像区域分别对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域；对每个第一图像区域对应的第二图像区域进行类型识别处理，得到目标对象的对象类型。本申请中的属性信息、目标对象的对象类型可以存储在区块链中。采用本申请实施例，可以提高图像识别的准确度。

Description

一种图像处理方法、装置、设备及介质

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理方法、装置、设备及介质。

背景技术

目前的图像处理技术已较为成熟并广泛应用于各个领域，然而，在图像中包含多个小目标的情况下，会存在较多的漏检情况。例如，在商场中针对行人进行广告图片的推荐的场景中，可以对拍摄到的包含行人服装图像进行检测从而确定行人的着装喜好，从而推荐对应的广告图片时，由于行人的数量较大且是运动的，导致拍摄到的图像中的服装在图像中面积较小，不够清楚，导致无法准确确定行人的着装喜好。

又例如，在交通领域中，随着道路上车辆的数量增多，道路车辆检测越来越困难，道路上车辆越多，摄像装置拍摄到的道路交通图像中车辆数量越多。由于车辆离摄像设备的距离较远等问题会导致拍摄到的车辆图像中车辆的面积较小，从而导致图像中车辆不够清楚，因此在后续对图像进行检测和识别时，容易导致车辆检测结果不准确，出现较多的车辆漏检情况。

发明内容

本申请实施例提供一种图像处理方法、装置、设备及介质，可以减少图像识别中车辆的漏检率，从而提高图像识别的准确度。

本申请实施例一方面提供一种图像处理方法，包括：

获取目标视频数据，该目标视频数据中的图像包括目标对象；

对该目标视频数据中的图像进行属性识别处理，得到该目标对象的第一属性信息，该第一属性信息包括该目标对象在二维坐标系下的第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息；

根据该第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息，对该目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，每个第一图像区域均包括该目标对象；

从该至少一个第一图像区域中确定参考图像区域，根据该参考图像区域分别对该至少一个第一图像区域进行缩放处理，得到该每个第一图像区域对应的第二图像区域；

对该每个第一图像区域对应的第二图像区域进行类型识别处理，得到该目标对象的对象类型。

本申请实施例一方面提供一种图像处理装置，包括：

视频获取模块，用于获取目标视频数据，该目标视频数据中的图像包括目标对象；

属性获取模块，用于对该目标视频数据中的图像进行属性识别处理，得到该目标对象的第一属性信息，该第一属性信息包括该目标对象在二维坐标系下的第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息；

图像剪切模块，用于根据该第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息，对该目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，每个第一图像区域均包括该目标对象；

图像缩放模块，用于从该至少一个第一图像区域中确定参考图像区域，根据该参考图像区域分别对该至少一个第一图像区域进行缩放处理，得到该每个第一图像区域对应的第二图像区域；

类型获取模块，用于对该每个第一图像区域对应的第二图像区域进行类型识别处理，得到该目标对象的对象类型。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面的基于区块链的数据处理方法。

本申请实施例中，由于第一属性信息包括目标对象在二维坐标系下的第一尺寸信息和目标对象在目标视频数据所包括的图像中的位置信息，因此根据第一属性信息对图像进行剪切后得到的第一图像区域中包含目标对象。参考图像区域的尺寸例如可以为便于识别出图像中的对象的尺寸，因此将第一图像区域缩放成与参考图像区域大小相等的第二图像区域，通过将图像统一到相同的尺度再次进行识别，可以提高图像识别的准确度；可以减少图像识别中对目标对象的漏检率，从而使得图像识别的结果更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的流程示意图；

图2是本申请实施例提供的一种图像中目标对象的第一属性信息示意图；

图3是本申请实施例提供的一种透视关系图的示意图；

图4是本申请实施例提供的一种根据参考尺寸信息对图像进行剪切的示意图；

图5是本申请实施例提供的一种图像处理方法的流程示意图；

图6为本申请实施例提供的一种检测模型的结构示意图；

图7是本申请实施例提供的一种图像处理装置的组成结构示意图；

图8是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请涉及人工智能中的图像识别技术，利用图像识别技术可以减少图像识别中对目标对象的漏检率，从而使得图像识别的结果更准确；本申请可适用于智慧政务、智慧教育等领域，有利于推动智慧城市的建设。

本申请实施例适用于对目标视频数据中的图像进行识别，根据第一次识别结果对图像进行裁剪和缩放处理后，二次识别处理后的图像，从而确定图像中对象类型的场景中。本申请实施例中根据图像的第一次识别结果对图像进行了裁剪和缩放等处理后，对处理后的图像进行二次识别，可以减少图像识别中对目标对象的漏检率，从而使得图像识别的结果更准确。

请参见图1，图1是本申请实施例提供的一种图像处理方法的流程示意图，本申请实施例可以通过计算机设备来执行，如图1所示，该方法包括：

S101，获取目标视频数据。

这里，目标视频数据中的图像包括目标对象。目标视频数据可以为摄像装置拍摄到的视频数据，摄像装置例如可以为安装在各个路段的交通监控摄像头，或者其他可以实现拍摄视频数据的设备，例如手机、平板电脑、笔记本电脑、掌上电脑等等。目标视频数据包括至少一帧图像，目标对象可以为图像中的任意对象，例如车辆、树木、行人、障碍物或者其他可能出现在图片中的对象。

S102，对目标视频数据中的图像进行属性识别处理，得到目标对象的第一属性信息。

其中，第一属性信息包括目标对象在二维坐标系下的第一尺寸信息和目标对象在目标视频数据所包括的图像中的位置信息。这里，目标对象在二维坐标系下的第一尺寸信息即目标对象在图像中的宽。例如，目标对象在图像中的宽为3厘米(cm，长度单位)，则目标对象在二维坐标系下的第一尺寸信息为3cm。可选的，目标对象在二维坐标系下的第一尺寸信息还可以包括目标对象的长度。

二维坐标系即以该图像的任意一个位置为坐标原点建立的二维坐标系。例如可以为以图像的左上角为坐标原点建立的二维坐标系，或者以图像的左下角、图像的中点或者图像的其他位置为坐标原点建立的二维坐标系。目标对象在目标视频数据所包括的图像中的位置信息即目标对象在图像中的位置坐标。这里，目标对象在目标视频数据所包括的图像中的位置信息可以包括4个坐标，即用该4个坐标表示目标对象在图像中的位置。如图2所示，图2是本申请实施例提供的一种图像中目标对象的第一属性信息示意图，其中，a为目标对象，目标对象在二维坐标系下的第一尺寸信息为3cm，目标对象在目标视频数据所包括的图像中的位置信息为(0,0)、(0,3)、(3,3)、(3,0)，即可以用4个坐标(0,0)、(0,3)、(3,3)、(3,0)表示目标对象在图像中的位置。本申请中，第一属性信息可以存储在区块链中。

S103，根据第一尺寸信息和目标对象在目标视频数据所包括的图像中的位置信息，对目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域。

其中，每个第一图像区域均包括目标对象。对目标视频数据所包括的图像进行剪切即对目标视频数据包括的每一帧图像都进行剪切，本申请实施例中，以目标视频数据中的任意一帧图像为例，对该图像进行剪切，得到至少一个第一图像区域。对于目标视频数据中的其他帧图像进行剪切的方法可以参考该方法。

本申请实施例中，具体的对图像进行剪切，得到至少一个第一图像区域的方法如下：

首先，根据摄像装置在三维坐标系下的位置信息、目标对象在三维坐标系下的位置信息、第一尺寸信息、以及目标对象在目标视频数据所包括的图像中的位置信息，构建透视关系图。

其中，摄像装置在三维坐标系下的位置信息用于表示摄像装置拍摄目标视频数据时的位置，例如安装该摄像装置的路段的位置信息，为了便于理解，称为摄像装置的实际位置。目标对象在三维坐标系下的位置信息为目标对象在道路上的位置信息，为了便于理解，称为目标对象的实际位置。例如，目标对象为车辆，则目标对象在三维坐标系下的位置信息为摄像装置拍摄时该车辆在道路上的位置信息。

具体实现中，构建的透视关系图中摄像装置的位置与目标对象的位置之间的距离、摄像装置的实际位置与目标对象的实际位置之间的距离两者之间具有比例关系，即透视关系图与实际位置之间具有比例关系，例如可以为1:1、1:10、1:50、1:100等。例如透视关系图与实际位置之间的比例为1:50，即透视关系图中摄像装置与车辆之间的距离为1cm，则摄像装置的实际位置与目标对象的实际位置之间的距离为50cm。

如图3所示，图3是本申请实施例提供的一种透视关系图的示意图，包括摄像装置101，目标对象102，图3中，摄像装置为摄像头，目标对象为车辆，BD表示目标视频数据中的图像在透视关系图中的位置，目标视频数据中图像的宽为BD的长度，透视关系图中目标对象102的尺寸为h(第一尺寸信息)，即CD的长度，y_h为BC的长度，y₀为透视关系图中y轴的起始位置，摄像装置101的高度为c，即EG的高度，目标对象的实际车辆尺寸为H，即FG的长度。

其次，采用透视关系图确定第一尺寸信息与目标视频数据所包括的图像在透视关系图中的位置信息之间的线性关系。

如图3所示，图3中包含三对相似三角形，分别为：三角形ACD与三角形AFG、三角形ABC与三角形AEF、三角形ABD～三角形AEG。根据三对相似三角形可以得到公式(1-1)：

对公式(1-1)进行转换可得到公式(1-2)：

h＝ky+b (1-2)

其中，

b＝-ky₀，

H为目标对象的实际车辆尺寸，H可以根据实际情况设置，摄像装置c的高度也可以通过测量摄像装置与道路之间的水平距离得到。h₀为图像中最小可检测目标对象的大小，即图像中目标对象的尺寸小于h₀时，则无法检测到图像中的该目标对象，h₀的数值具体可以根据摄像装置的像素、摄像装置的实际位置与目标对象的实际位置之间的距离设定。通过公式(1-2)可以得到y_h与y₀之间的线性关系，即得到第一尺寸信息与目标视频数据所包括的图像在透视关系图中的位置信息之间的线性关系。

接着，对第一尺寸信息和线性关系进行计算，得到至少一个参考尺寸信息。

这里，可以根据公式(1-3)对第一尺寸信息和线性关系进行计算：

其中，y等于y_h，A为交通容量，可以根据具体情况设置交通容量A的数值，例如，A可以为8，或者其他数值。

最后，根据至少一个参考尺寸信息对目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，一个第一图像区域对应一个参考尺寸信息。

通过公式(1-3)可以计算得到y1的值，并将y1代入公式(1-3)中，即代入后的公式为(1-4)：

通过公式(1-4)可以计算得到y2的值，将y2代入公式(1-4)中可计算得到y3的值，依次可计算得到y_n的值，即可根据y1、y2、y3～y_n的值计算得到参考尺寸信息，其中，n为大于1的正整数，n的数量等于第一图像区域的数量。即参考尺寸信息包括y1-y0的值、y2-y1的值、y3-y2的值，y_n-Y_n-1的值等等。

这里，参考尺寸信息的数量等于第一图像区域的数量，参考尺寸信息即第一图像区域的宽。可选的，第一图像区域1为参考尺寸信息最大的区域，第一图像区域2的尺寸小于第一图像区域1，第一图像区域3的尺寸小于第一图像区域2，等等。如图4所示，图4是本申请实施例提供的一种根据参考尺寸信息对图像进行剪切的示意图，其中，a1、a2、a3分别为3个目标对象，例如参考尺寸有3个分别为10、5、2.5，则根据参考尺寸对目标视频数据所包括的图像进行剪切，得到3个第一图像区域，即图4中的区域1、区域2、区域3，其中，区域1的参考尺寸信息为10，区域2的参考尺寸信息为5，区域3的参考尺寸信息为2.5，由此可得到图像中的所有第一图像区域。

S104，从至少一个第一图像区域中确定参考图像区域，根据参考图像区域分别对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域。

这里，缩放处理是指对第一图像区域进行缩小处理或者放大处理，使得缩放处理后的第一图像区域的尺寸等于参考图像区域的尺寸。具体处理方法可以根据第一图像区域与参考图像区域之间的比值确定。若第一图像区域大于参考图像区域，则对第一图像区域进行缩小处理，使得缩小处理后的第一图像区域的尺寸等于参考图像区域的尺寸；若第一图像区域小于参考图像区域，则对第一图像区域进行放大处理，使得放大处理后的第一图像区域的尺寸等于参考图像区域的尺寸；若第一图像区域等于参考图像区域，则可不对第一图像区域进行缩放处理。这里，第一图像区域的尺寸主要指第一图像区域的宽。可选的，第一图像区域的尺寸也可以指第一图像区域的长度。

本申请实施例中，具体的对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域的方法如下：

首先，将至少一个第一图像区域中区域尺寸最大的图像区域，作为参考图像区域。

例如，有三个第一图像区域分别为区域1～区域3，对应的尺寸分别为10、5、2.5，则区域尺寸最大的图像区域为区域1，将区域1作为参考图像区域。

其次，获取至少一个第一图像区域中每个第一图像区域与参考图像区域之间的比例。

这里，例如上述步骤确定出区域1为参考图像区域后，参考图像区域与区域1之间的比例为1:1，参考图像区域与区域2之间的比例为2:1(即区域1与区域2之间的比例为2:1)，以及参考图像区域与区域3之间的比例为4:1(即区域1与区域3之间的比例为4:1)。

最后，根据比例对每个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域。

如上述步骤所示，参考图像区域与区域1之间的比例为1:1、参考图像区域与区域2之间的比例为2:1、参考图像区域与区域3之间的比例为4:1，由于参考图像区域与区域1相等，则不对区域1进行缩放处理；对区域2进行放大处理，使得区域2的尺寸等于参考区域的尺寸；对区域3进行放大处理，使得区域3的尺寸等于参考区域的尺寸。可知，第二图像区域包括区域1、放大后的区域2以及放大后的区域3。可知，各个第二图像区域的尺寸均相等。由于第一次识别时可能存在某些目标对象较小，不便于识别，通过放大目标对象后再进行识别，可尽量使得需要进行二次识别的图像中的目标对象的尺寸相等，从而降低对目标对象的漏检率。

在一个实施例中，可以将目标视频数据中的第一帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域，作为参考图像区域。

这里，目标视频数据中每帧图像对应一个时间，例如可以为拍摄到该帧图像的时间，目标视频数据中的第一帧图像即拍摄到该帧图像的时间早于拍摄到目标视频数据中其他帧图像的时间。可以以第一帧图像为例，将第一帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域，作为参考图像区域。

可选的，可以计算第一帧图像对应的至少一个第一图像区域的平均尺寸，根据该平均尺寸对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域。

例如，第一帧图像对应3个第一图像区域分别为区域1、区域2、区域3，对应的尺寸分别为12、9、3，则平均尺寸为(12+9+3)/3＝8，则对区域1缩小2/3倍得到第二图像区域，对区域2缩小8/9倍得到第二图像区域，对区域3缩小8/3倍得到第二图像区域，缩放处理后得到的第二图像区域的尺寸均为8。

可选的，还可以获取目标视频数据中的前z帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域的平均尺寸，根据该平均尺寸对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域。

例如，z为3，第一帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域的尺寸为10，第二帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域的尺寸为9，第三帧图像对应的至少一个第一图像区域中区域尺寸最大的图像区域的尺寸为8，则平均尺寸为9，则根据该平均尺寸对每帧图像对应的至少一个第一图像区域进行缩放处理，使得得到的第二图像区域的尺寸均为9。

S105，对每个第一图像区域对应的第二图像区域进行类型识别处理，得到目标对象的对象类型。

这里，可以使用目标检测模型对第二图像区域进行类型识别处理，目标检测模型可以包括残差神经网络(如ResNet50网络)和深度与交叉神经网络(如DCN网络)。

具体实现中，可以将每个第一图像区域对应的第二图像区域输入目标检测模型进行类型识别处理，得到第二图像区域中目标对象的多个第一候选对象类型，以及每个第一候选对象类型对应的匹配概率；将多个第一候选对象类型中匹配概率最大的对象类型，作为第二图像区域中目标对象的对象类型。

其中，第一候选对象类型例如可以包括车辆类型、树木类型、行人类型或者障碍物类型等。通过将第二图像区域输入目标检测模型进行类型识别处理，可以得到第二图像区域中目标对象与多个第一候选对象类型中每个第一候选对象类型的匹配概率。例如，第二图像区域中目标对象与车辆类型的匹配概率为0.8，第二图像区域中目标对象与树木类型的匹配概率为0.3，第二图像区域中目标对象与障碍物类型的匹配概率为0.1，则将车辆类型作为第二图像区域中目标对象的对象类型。本申请中，目标对象的对象类型可以存储在区块链中。

可选的，本申请中的计算机设备可以是指区块链中的任一节点设备，所谓区块链是一种分布式数据存储、点对点传输(P2P传输)、共识机制、加密算法等计算机技术的新型应用模式，其本质上是一个去中心化的数据库；区块链可由多个借由密码学串接并保护内容的串连交易记录(又称区块)构成，用区块链所串接的分布式账本能让多方有效纪录交易，且可永久查验此交易(不可篡改)。其中，共识机制是指区块链网络中实现不同节点之间建立信任、获取权益的数学算法；也就是说，共识机制是区块链各网络节点共同认可的一种数学算法。本申请可利用区块链的共识机制，来实现将图像统一到相同的尺度再次进行识别，可以提高图像识别的准确度，减少图像识别中对目标对象的漏检率。

例如，区块链中的各个节点设备对上述步骤S101～S105的执行结果进行共识验证，每个步骤的执行结果均被共识验证通过，则可以确定图像识别的准确度比较高；如果存在步骤的执行结果未被共识验证通过，则可以确定图像识别的准确度比较低，则节点设备可以再次执行上述步骤S101～S105，重新对图像进行识别。或者，区块链中的各个节点设备可以对图像(即仅对步骤S105的执行结果)进行共识验证，如果共识验证通过，则确定图像识别的准确度比较高；如果共识验证未通过，则确定图像识别的准确度比较低，节点设备可再次执行上述步骤S101～S105，重新对图像进行识别。

可选的，请参见图5，图5是本申请实施例提供的一种图像处理方法的流程示意图，本申请实施例可以通过计算机设备来执行，如图5所示，该方法包括：

S201，获取目标视频数据。

S202，对目标视频数据中的图像进行属性识别处理，得到目标对象的第一属性信息。

这里，可以使用目标检测模型对目标视频数据中的图像进行属性识别处理，目标检测模型可以包括ResNet50网络和DCN网络。

可选的，在使用目标检测模型对目标视频数据中的图像进行属性识别处理之前，可以先训练检测模型，使得检测模型的准确度达到一定条件的情况下再使用该检测模型，具体的检测模型训练方法如下：

一、获取样本图像以及样本图像中的标注对象的对象类型。

这里，在训练模型时，样本图像中的标注对象的对象类型是已知的，因此可以获取样本图像中的标注对象的对象类型。

二、对样本图像进行属性识别处理，得到样本对象的第一属性信息。

其中，第一属性信息包括样本对象在二维坐标系下的第一样本尺寸信息和样本对象在样本图像中的位置信息。样本对象在二维坐标系下的第一尺寸信息即样本对象在样本图像中的宽。例如，样本对象在样本图像中的宽为3cm，则样本对象在二维坐标系下的第一样本尺寸信息为3cm。可选的，样本对象在二维坐标系下的第一样本尺寸信息还可以包括样本对象的长度。样本对象在样本图像中的位置信息即样本对象在样本图像中的位置坐标。这里，样本对象在样本图像中的位置信息可以包括4个坐标，即用该4个坐标表示样本对象在样本图像中的位置。

三、根据第一样本尺寸信息和样本对象在样本图像中的位置信息，对样本图像进行剪切，得到至少一个第一样本图像区域。

这里，每个第一样本图像区域均包括样本对象，可以根据透视关系图确定第一样本尺寸信息和样本对象在样本图像中的位置信息之间的线性关系，并根据第一样本尺寸信息与该线性关系计算得到至少一个样本参考尺寸信息，根据至少一个样本参考尺寸信息对样本图像进行剪切，得到至少一个第一样本图像区域。

四、从至少一个第一样本图像区域中确定样本参考图像区域，根据样本参考图像区域分别对至少一个第一样本图像区域进行缩放处理，得到每个第一样本图像区域对应的第二样本图像区域。

这里，缩放处理是指对第一样本图像区域进行缩小处理或者放大处理，使得缩放处理后的第一样本图像区域的尺寸等于样本参考图像区域的尺寸。具体处理方法可以根据第一样本图像区域与样本参考图像区域之间的比值确定。若第一样本图像区域大于样本参考图像区域，则对第一样本图像区域进行缩小处理，使得缩小处理后的第一样本图像区域的尺寸等于样本参考图像区域的尺寸；若第一样本图像区域小于样本参考图像区域，则对第一样本图像区域进行放大处理，使得放大处理后的第一样本图像区域的尺寸等于样本参考图像区域的尺寸；若第一样本图像区域等于样本参考图像区域，则可不对第一样本图像区域进行缩放处理。这里，第一样本图像区域的尺寸主要指第一样本图像区域的宽。可选的，第一样本图像区域的尺寸也可以指第一样本图像区域的长。

五、采用检测模型对每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到样本对象的对象类型。

具体实现中，可以将每个第一样本图像区域对应的第二样本图像区域输入检测模型进行类型识别处理，得到第二样本图像区域中样本对象的多个第一候选样本对象类型，以及每个第一候选样本对象类型对应的匹配概率；将多个第一候选样本对象类型中匹配概率最大的样本对象类型，作为第二样本图像区域中样本对象的对象类型。

可选的，检测模型可以包括第一特征提取层、第二特征提取层以及特征分类层，因此训练得到的目标检测模型也可以包括第一特征提取层、第二特征提取层以及特征分类层。

具体实现中，采用检测模型对每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到样本对象的对象类型包括：

采用检测模型中的第一特征提取层对样本图像进行特征提取，得到第一特征；采用检测模型中的第二特征提取层对第一特征进行特征提取，得到第二特征；对第一特征和第二特征进行拼接处理，得到拼接处理后的特征；采用检测模型中的特征分类层对拼接处理后的特征进行识别，得到样本对象的对象类型。

其中，第一特征用于指示样本图像的边缘信息，第二特征用于指示样本图像的语义信息。第一特征中包含的样本图像信息少于第二特征包含的样本图像信息。例如第一特征用于表示图像的轮廓、尺寸等信息，第二特征用于表示图像的类别等信息。如图6所示，图6为本申请实施例提供的一种检测模型的结构示意图，图6中，l1为第一特征提取层，l2为第二特征提取层，l3为特征分类层，则F为样本对象的对象类型。通过l1对样本图像进行特征提取，得到第一特征；通过l2对第一特征进行特征提取，得到第二特征；对第一特征和第二特征进行拼接处理，得到拼接处理后的特征，即拼接处理后的特征包括了第一特征和第二特征；通过l3对拼接处理后的特征进行识别，得到样本对象的对象类型F。

六、根据样本对象的对象类型和标注对象的对象类型，确定检测模型对图像识别的准确度。

这里，若样本对象的对象类型和标注对象的对象类型相同，则认为检测模型对图像识别的准确度较高；若样本对象的对象类型和标注对象的对象类型不相同，则认为模检测模型对图像识别的准确度较高。本申请中，标注对象的对象类型和样本对象的对象类型可存储在区块链中。

七、根据准确度对检测模型进行调整，将调整后的检测模型确定为目标检测模型。

这里，若准确度较低，例如为小于80％，可根据准确度对检测模型进行调整；若准确度较高，例如大于或者等于80％，可认为检测模型识别结果较准确，则检测模型训练完成，将训练完成的检测模型确定为目标检测模型。

例如，对100个样本图像进行上述处理，若其中50个样本图像中样本对象的对象类型和标注对象的对象类型不相同，则可以认为检测模型的准确度较低，则继续对检测模型进行调整；若其中90个样本图像中样本对象的对象类型和标注对象的对象类型相同，则可以认为检测模型的准确度较高，则检测模型训练完成，将训练完成的检测模型确定为目标检测模型。

通过上述方法可以得到准确度较高的目标检测模型，使用该目标检测模型对图像进行识别的方法可参考训练检测模型的方法，此处不再赘述。使用该训练得到的目标检测模型对图像进行识别，可以使得图像识别的结果更准确。

S203，根据第一尺寸信息和目标对象在目标视频数据所包括的图像中的位置信息，对目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域。

S204，从至少一个第一图像区域中确定参考图像区域，根据参考图像区域分别对至少一个第一图像区域进行缩放处理，得到每个第一图像区域对应的第二图像区域。

S205，对每个第一图像区域对应的第二图像区域进行类型识别处理，得到目标对象的对象类型。

这里，步骤S201～S205的具体实现方式可参考图1对应的实施例中步骤S101～S105的描述，此处不再赘述。

S206，获取摄像装置在三维坐标系下的位置信息。

这里，通过上述步骤识别出目标对象是否为车辆，在确定出目标对象为车辆的情况下，则可将目标对象的识别结果用于后续的车辆数量统计或者车辆标识识别等过程中。车辆标识例如可以为车牌号或者其他用于唯一指示该车辆的标识。

例如，在识别出目标对象为车辆后，可以使用分类模型对目标对象对应的区域进行识别，识别出车辆的车牌号等车辆标识。这里，分类模型可以包括残差神经网络或者其他可以识别出车辆标识的卷积神经网络。在识别出车辆的车辆标识后，可以获取摄像装置在三维坐标系下的位置信息，即摄像装置的实际位置，例如可以为深圳市南山区科发路XX号XX路口。

S207，根据摄像装置在三维坐标系下的位置信息确定目标对象的三维坐标信息，对目标对象进行定位。

可选的，还可以获取摄像装置拍摄该目标视频数据的时间，根据摄像装置拍摄该目标视频数据的时间、摄像装置在三维坐标系下的位置信息确定目标对象的三维坐标信息，对目标对象进行定位。

具体的，由于上述步骤确定出该摄像装置在三维坐标系下的位置信息和拍摄该目标视频数据的时间，因此可以确定在该时间时，目标对象(车辆)行驶到摄像装置得实际位置对应的目标范围内，因此可以搜索目标范围内的摄像装置或者距离目标范围一定距离内的摄像装置，并对搜索到的摄像装置中的视频数据进行识别，从而确定出车辆在下一时间的位置信息，实现对车辆的定位。

本申请实施例中，通过对检测模型进行训练，在检测模型训练到一定准确度时保存检测模型，在后续使用检测模型进行识别时，识别结果更为准确；由于提取了图像的第一特征(浅层特征)和第二特征(深层特征)，因此提取到的图像特征更完整，从而提高了图像识别的准确度；在识别出目标对象为车辆的情况下，通过获取拍摄车辆的摄像装置的位置，从而确定车辆的位置，进而实现对车辆的定位。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图7，图7是本申请实施例提供的一种图像处理装置的组成结构示意图，上述图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该图像处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置70包括：

视频获取模块701，用于获取目标视频数据，该目标视频数据中的图像包括目标对象；

属性获取模块702，用于对该目标视频数据中的图像进行属性识别处理，得到该目标对象的第一属性信息，该第一属性信息包括该目标对象在二维坐标系下的第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息；

图像剪切模块703，用于根据该第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息，对该目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，每个第一图像区域均包括该目标对象；

图像缩放模块704，用于从该至少一个第一图像区域中确定参考图像区域，根据该参考图像区域分别对该至少一个第一图像区域进行缩放处理，得到该每个第一图像区域对应的第二图像区域；

类型获取模块705，用于对该每个第一图像区域对应的第二图像区域进行类型识别处理，得到该目标对象的对象类型。

可选的，该图像剪切模块703，具体用于：

根据摄像装置在三维坐标系下的位置信息、该目标对象在三维坐标系下的位置信息、该第一尺寸信息、以及该目标对象在该目标视频数据所包括的图像中的位置信息，构建透视关系图，该摄像装置用于拍摄该目标视频数据；

采用该透视关系图确定该第一尺寸信息与该目标视频数据所包括的图像在该透视关系图中的位置信息之间的线性关系；

对该第一尺寸信息和该线性关系进行计算，得到该至少一个参考尺寸信息；

根据该至少一个参考尺寸信息对该目标视频数据所包括的图像进行剪切，得到该至少一个第一图像区域，一个第一图像区域对应一个参考尺寸信息。

可选的，该图像缩放模块704，具体用于：

将该至少一个第一图像区域中区域尺寸最大的图像区域，作为该参考图像区域；

获取该至少一个第一图像区域中每个第一图像区域与该参考图像区域之间的比例；

根据该比例对该每个第一图像区域进行缩放处理，得到该每个第一图像区域对应的第二图像区域。

可选的，该类型获取模块705，具体用于：

将该每个第一图像区域对应的第二图像区域输入目标检测模型进行类型识别处理，得到该第二图像区域中目标对象的多个第一候选对象类型，以及每个第一候选对象类型对应的匹配概率；

将该多个第一候选对象类型中匹配概率最大的对象类型，作为该第二图像区域中目标对象的对象类型。

可选的，该装置70还包括：模型训练模块706，用于：

获取样本图像以及该样本图像中的标注对象的对象类型；

对该样本图像进行属性识别处理，得到该样本对象的第一属性信息，该第一属性信息包括该样本对象在二维坐标系下的第一样本尺寸信息和该样本对象在该样本图像中的位置信息；

根据该第一样本尺寸信息和该样本对象在该样本图像中的位置信息，对该样本图像进行剪切，得到至少一个第一样本图像区域，每个第一样本图像区域均包括该样本对象；

从该至少一个第一样本图像区域中确定样本参考图像区域，根据该样本参考图像区域分别对该至少一个第一样本图像区域进行缩放处理，得到该每个第一样本图像区域对应的第二样本图像区域；

采用检测模型对该每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到该样本对象的对象类型；

根据该样本对象的对象类型和该标注对象的对象类型，确定该检测模型对图像识别的准确度；

根据该准确度对该检测模型进行调整，将调整后的检测模型确定为该目标检测模型。

可选的，该检测模型包括第一特征提取层、第二特征提取层以及特征分类层；该模型训练模块706，具体用于：

采用该检测模型中的该第一特征提取层对该样本图像进行特征提取，得到第一特征，该第一特征用于指示该样本图像的边缘信息；

采用该检测模型中的该第二特征提取层对该第一特征进行特征提取，得到第二特征，该第二特征用于指示该样本图像的语义信息；

对该第一特征和该第二特征进行拼接处理，得到拼接处理后的特征；

采用该检测模型中的该特征分类层对该拼接处理后的特征进行识别，得到该样本对象的对象类型。

可选的，该装置70还包括：目标定位模块707，用于：

获取该摄像装置在三维坐标系下的位置信息；

根据该摄像装置在三维坐标系下的位置信息确定该目标对象的三维坐标信息，对该目标对象进行定位。

需要说明的是，图7对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

根据本申请的一个实施例，图1所示的一种图像处理方法所涉及的步骤可由图7所示的一种图像处理装置中的各个模块来执行。例如，图1中所示的步骤S101可由图7中的视频获取模块701来执行，图1中所示的步骤S102可由图7中的属性获取模块702来执行；图1中所示的步骤S103可由图7中的图像剪切模块703来执行；图1中所示的步骤S104可由图7中的图像缩放模块704来执行；图1中所示的步骤S105可由图7中的类型获取模块705来执行，等等。根据本申请的一个实施例，图7所示的图像处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图1中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的一种图像处理装置，以及来实现本申请实施例的图像处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

参见图8，图8是本申请实施例提供的一种计算机设备的组成结构示意图。如图8所示，上述计算机设备80可以包括：处理器801，网络接口804和存储器805，此外，上述计算机设备80还可以包括：用户接口803，和至少一个通信总线802。其中，通信总线802用于实现这些组件之间的连接通信。其中，用户接口803可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口803还可以包括标准的有线接口、无线接口。网络接口804可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器805可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。如图8所示，作为一种计算机可读存储介质的存储器805中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图8所示的计算机设备80中，网络接口804可提供网络通讯功能；而用户接口803主要用于为用户提供输入的接口；而处理器801可以用于调用存储器805中存储的设备控制应用程序，以实现：

在一个实施例中，该处理器801执行该根据该第一尺寸信息和该目标对象在该目标视频数据所包括的图像中的位置信息，对该目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，包括：

在一个实施例中，该处理器801执行从该至少一个第一图像区域中确定参考图像区域，根据该参考图像区域分别对该至少一个第一图像区域进行缩放处理，得到该每个第一图像区域对应的第二图像区域，包括：

在一个实施例中，该处理器801执行对该每个第一图像区域对应的第二图像区域进行类型识别处理，得到该目标对象的对象类型，包括：

在一个实施例中，该处理器801可以调用该程序代码以执行以下操作：

获取样本图像以及该样本图像中的标注对象的对象类型；

在一个实施例中，该检测模型包括第一特征提取层、第二特征提取层以及特征分类层；该处理器801执行采用检测模型对该每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到该样本对象的对象类型，包括：

获取该摄像装置在三维坐标系下的位置信息；

应当理解，本申请实施例中所描述的计算机设备80可执行前文图1以及图5所对应实施例中对上述一种图像处理装置方法的描述，也可执行前文图7所对应实施例中对上述一种图像处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器801。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取目标视频数据，所述目标视频数据中的图像包括目标对象；

对所述目标视频数据中的图像进行属性识别处理，得到所述目标对象的第一属性信息，所述第一属性信息包括所述目标对象在二维坐标系下的第一尺寸信息和所述目标对象在所述目标视频数据所包括的图像中的位置信息；

根据所述第一尺寸信息和所述目标对象在所述目标视频数据所包括的图像中的位置信息，对所述目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，每个第一图像区域均包括所述目标对象；

从所述至少一个第一图像区域中确定参考图像区域，根据所述参考图像区域分别对所述至少一个第一图像区域进行缩放处理，得到所述每个第一图像区域对应的第二图像区域；

对所述每个第一图像区域对应的第二图像区域进行类型识别处理，得到所述目标对象的对象类型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一尺寸信息和所述目标对象在所述目标视频数据所包括的图像中的位置信息，对所述目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，包括：

根据摄像装置在三维坐标系下的位置信息、所述目标对象在三维坐标系下的位置信息、所述第一尺寸信息、以及所述目标对象在所述目标视频数据所包括的图像中的位置信息，构建透视关系图，所述摄像装置用于拍摄所述目标视频数据；

采用所述透视关系图确定所述第一尺寸信息与所述目标视频数据所包括的图像在所述透视关系图中的位置信息之间的线性关系；

对所述第一尺寸信息和所述线性关系进行计算，得到所述至少一个参考尺寸信息；

根据所述至少一个参考尺寸信息对所述目标视频数据所包括的图像进行剪切，得到所述至少一个第一图像区域，一个第一图像区域对应一个参考尺寸信息。

3.根据权利要求2所述的方法，其特征在于，所述从所述至少一个第一图像区域中确定参考图像区域，根据所述参考图像区域分别对所述至少一个第一图像区域进行缩放处理，得到所述每个第一图像区域对应的第二图像区域，包括：

将所述至少一个第一图像区域中区域尺寸最大的图像区域，作为所述参考图像区域；

获取所述至少一个第一图像区域中每个第一图像区域与所述参考图像区域之间的比例；

根据所述比例对所述每个第一图像区域进行缩放处理，得到所述每个第一图像区域对应的第二图像区域。

4.根据权利要求1所述的方法，其特征在于，所述对所述每个第一图像区域对应的第二图像区域进行类型识别处理，得到所述目标对象的对象类型，包括：

将所述每个第一图像区域对应的第二图像区域输入目标检测模型进行类型识别处理，得到所述第二图像区域中目标对象的多个第一候选对象类型，以及每个第一候选对象类型对应的匹配概率；

将所述多个第一候选对象类型中匹配概率最大的对象类型，作为所述第二图像区域中目标对象的对象类型。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标视频数据中的图像进行属性识别处理，得到所述目标对象的第一属性信息之前，还包括：

获取样本图像以及所述样本图像中的标注对象的对象类型；

对所述样本图像进行属性识别处理，得到所述样本对象的第一属性信息，所述第一属性信息包括所述样本对象在二维坐标系下的第一样本尺寸信息和所述样本对象在所述样本图像中的位置信息；

根据所述第一样本尺寸信息和所述样本对象在所述样本图像中的位置信息，对所述样本图像进行剪切，得到至少一个第一样本图像区域，每个第一样本图像区域均包括所述样本对象；

从所述至少一个第一样本图像区域中确定样本参考图像区域，根据所述样本参考图像区域分别对所述至少一个第一样本图像区域进行缩放处理，得到所述每个第一样本图像区域对应的第二样本图像区域；

采用检测模型对所述每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到所述样本对象的对象类型；

根据所述样本对象的对象类型和所述标注对象的对象类型，确定所述检测模型对图像识别的准确度；

根据所述准确度对所述检测模型进行调整，将调整后的检测模型确定为所述目标检测模型。

6.根据权利要求5所述的方法，其特征在于，所述检测模型包括第一特征提取层、第二特征提取层以及特征分类层；

所述采用检测模型对所述每个第一样本图像区域对应的第二样本图像区域进行类型识别处理，得到所述样本对象的对象类型，包括：

采用所述检测模型中的所述第一特征提取层对所述样本图像进行特征提取，得到第一特征，所述第一特征用于指示所述样本图像的边缘信息；

采用所述检测模型中的所述第二特征提取层对所述第一特征进行特征提取，得到第二特征，所述第二特征用于指示所述样本图像的语义信息；

对所述第一特征和所述第二特征进行拼接处理，得到拼接处理后的特征；

采用所述检测模型中的所述特征分类层对所述拼接处理后的特征进行识别，得到所述样本对象的对象类型。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述摄像装置在三维坐标系下的位置信息；

根据所述摄像装置在三维坐标系下的位置信息确定所述目标对象的三维坐标信息，对所述目标对象进行定位。

8.一种图像处理装置，其特征在于，包括：

视频获取模块，用于获取目标视频数据，所述目标视频数据中的图像包括目标对象；

属性获取模块，用于对所述目标视频数据中的图像进行属性识别处理，得到所述目标对象的第一属性信息，所述第一属性信息包括所述目标对象在二维坐标系下的第一尺寸信息和所述目标对象在所述目标视频数据所包括的图像中的位置信息；

图像剪切模块，用于根据所述第一尺寸信息和所述目标对象在所述目标视频数据所包括的图像中的位置信息，对所述目标视频数据所包括的图像进行剪切，得到至少一个第一图像区域，每个第一图像区域均包括所述目标对象；

图像缩放模块，用于从所述至少一个第一图像区域中确定参考图像区域，根据所述参考图像区域分别对所述至少一个第一图像区域进行缩放处理，得到所述每个第一图像区域对应的第二图像区域；

类型获取模块，用于对所述每个第一图像区域对应的第二图像区域进行类型识别处理，得到所述目标对象的对象类型。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。