CN117422855B - 面向机器视觉的图像预处理方法、装置、设备及存储介质 - Google Patents

面向机器视觉的图像预处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117422855B
CN117422855B CN202311750184.9A CN202311750184A CN117422855B CN 117422855 B CN117422855 B CN 117422855B CN 202311750184 A CN202311750184 A CN 202311750184A CN 117422855 B CN117422855 B CN 117422855B
Authority
CN
China
Prior art keywords
image
network
feature
enhancement
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311750184.9A
Other languages
English (en)
Other versions
CN117422855A (zh
Inventor
马思伟
蒋云
滕波
黄志勐
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Advanced Institute of Information Technology AIIT of Peking University
Original Assignee
Peking University
Advanced Institute of Information Technology AIIT of Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Advanced Institute of Information Technology AIIT of Peking University filed Critical Peking University
Priority to CN202311750184.9A priority Critical patent/CN117422855B/zh
Publication of CN117422855A publication Critical patent/CN117422855A/zh
Application granted granted Critical
Publication of CN117422855B publication Critical patent/CN117422855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种面向机器视觉的图像预处理方法、装置、设备及存储介质,该方法包括:对原始图像进行模糊处理生成待增强图像,待增强图像的清晰度低于原始图像的清晰度;对待增强图像的语义特征进行增强处理生成目标图像;将目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务。本申请实施例提供的图像预处理技术,能够在降低码率的情况下,将图像处理神经网络的分析性维持在较佳的水平。

Description

面向机器视觉的图像预处理方法、装置、设备及存储介质
技术领域
本申请属于图像处理技术领域,具体涉及一种面向机器视觉的图像预处理方法、装置、设备及存储介质。
背景技术
面向机器视觉(也称计算机视觉)的图像分析任务,可以包括基于神经网络的图像分割、图像匹配等任务。其中,原始图像的数据量一般较大,且包含一些与图像分析任务关联不大的图像数据。那么,一些实施例中,为降低数据处理量,节省资源,应当将原始图像进行预处理,将预处理后的图像输入神经网络,使神经网络执行相应的图像分析任务。可见,预处理后图像的质量对神经网络的分析性能有着决定性影响。
然而,目前已有的图像预处理技术,大多从图像像素的颜色、亮度等进行处理,并不适用于面向机器视觉的图像分析任务场景,另一些图像处理技术在应用于面向机器视觉的图像分析任务后,导致分析性能较低等问题。基于此,一种适用于面向机器视觉的图像分析任务,且预处理后的图像能够提升分析性能的预处理方法,是本领域亟需的技术。
发明内容
本申请提出一种面向机器视觉的图像预处理方法、装置、设备及存储介质,适用于面向机器视觉的图像分析任务的图像预处理,且使得预处理后的图像有利于提升分析性能。
本申请第一方面实施例提出了一种面向机器视觉的图像预处理方法,包括:
对原始图像进行模糊处理生成待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;
对所述待增强图像的语义特征进行增强处理生成目标图像;
将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务。
本申请第二方面的实施例提供了一种图像预处理装置,包括:
模糊处理模块,用于对原始图像进行模糊处理生成待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;
增强模块,用于对所述待增强图像的语义特征进行增强处理生成目标图像;
输入模块,用于将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务。
本申请第三方面的实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
在本申请实施例中,可以首先对原始图像进行模糊处理生成待增强图像,待增强图像的清晰度低于原始图像的清晰度。这样一来,通过降低原始图像的清晰度,降低了原始图像的码率。进一步的,对待增强图像的语义特征进行增强处理生成目标图像,以及将目标图像输入图像处理神经网络,以触发图像处理神经网络基于目标图像的语义特征执行图像分析任务。其中,语义特征可以是图像处理神经网络执行图像分析任务的特征数据。可见,与传统从图像各像素的颜色和亮度角度进行图像预处理相比,本申请实施例的技术方案,通过全面降低原始图像的清晰度,之后,再针对性增强图像中语义特征的部分,达到了在不降低原始图像语义特征的强度的基础上,降低原始图像码率的效果,有利于降低计算量,节约成本。且与传统从图像各像素的颜色和亮度角度进行图像预处理相比,本申请实施例的技术方案,面向图像的语义特征方面执行预处理,使得目标图像可以用作图像处理神经网络的输入图像,且有利于将图像处理神经网络的分析性能维持在较佳的水平。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一实施例所提供的面向CV的分析***的示意性框图;
图2示出了本申请一实施例所提供的一种面向机器视觉的图像预处理方法的场景示意图;
图3示出了本申请一实施例所提供的一种面向机器视觉的图像预处理方法的方法流程图;
图4A示出了本申请一实施例所提供的一种面向机器视觉的图像预处理方法的数据流向示意图;
图4B示出了本申请一实施例所提供的另一种面向机器视觉的图像预处理方法的数据流向示意图;
图5示出了本申请一实施例所提供的图像预处理网络训练***的架构示意图;
图6a和图6b示出了本申请一实施例所提供的图像预处理的效果对比示意图;
图7示出了本申请一实施例所提供的一种计算机设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例的技术方案进行描述。
本申请以下实施例中所使用的术语是为了描述特定实施例的目的,而并非旨在作为对本申请技术方案的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,尽管在以下实施例中可能采用术语第一、第二等来描述某一类对象,但所述对象不应限于这些术语。这些术语用来将该类对象的具体实现对象进行区分。例如,以下实施例中采用术语第一、第二等来描述语义特征,但语义特征不限于这些术语。这些术语仅用来区分不同图像的语义特征。以下实施例中可能采用术语第一、第二等来描述的其他类对象同理,此处不再赘述。
下面对本申请实施例涉及的相关技术进行介绍。
本申请实施例涉及图像处理技术领域,公开了一种基于人工智能(ArtificialIntelligence,AI)对图像进行预处理,使得预处理后的图像支持面向计算机视觉(Computer Vision,CV)的图像分析任务的方法。
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。AI软件技术主要包括计算机视觉(Computer Vision,CV)技术、语音处理(Speech Technology)技术、自然语言处理(Nature Language processing,NLP)技术以及机器学习(Machine Learning,ML)/深度学习等几大方向。
本申请技术方案主要涉及CV技术,CV技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。CV技术通常包括图像处理(包括图像加密等)、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别等生物特征识别技术。本申请实施例涉及的基于CV的图像分析任务例如包括以下至少一项:图像匹配、图像识别、图像分隔、图像内容提取和人脸识别等。
以基于CV的图像分析任务是图像内容提取为例,CV网络可以通过对图像进行编码、特征提取等一系列处理,提取出输入图像中包含的目标对象(例如,目标人脸、目标病变部位、目标车辆等),进而可以根据所提取的目标对象进行其他应用等。以目标车辆提取为例,CV网络对输入图像中包含的全部目标车辆的提取比例,所提取出的车辆为目标车辆的准确程度等,表征该CV网络的分析性能。示例性,CV网络对全部目标车辆的提取比例越高,且所提取出的车辆为目标车辆的准确程度越高,可以表征CV网络的分析性能越好;反之,可以表征CV网络的分析性能相对较差。
应理解,基于CV的图像分析任务为其他图像分析任务的情况下,CV网络分析性能的表征,可以由CV网络的分析结果对待分析目标对象的表达程度来体现,此处不予展开。
现有CV处理过程中,对原始图像编码后,才便于对图像数据进行传输、分析等。而原始图像一般为无损图像等码率较高图像,大部分CV处理设备的计算能力可能有限,导致编码后的图像清晰度降低甚至失真,从而降低CV分析网络的分析性能。为降低CV网络的数据处理量,可以将原始图像进行预处理,将预处理后的图像输入CV网络。然而,传统图像预处理是基于图像像素红绿蓝(red green blue,RGB)三分量信息,将进行图像灰度化,及几何变换处理得到预处理后的图像。即,传统图像预处理从图像中像素的灰度、亮度等角度进行处理,不涉及图像包含的语义特征的处理和理解,而CV技术作为深度学习技术,对图像的处理面向的是图像像素分布所表征的语义特征的角度,因此,传统图像预处理无法适用于面向CV的图像分析任务。
有鉴于此,本申请实施例提供了一种面向CV的图像预处理技术,首先对原始图像进行模糊处理,从而通过降低原始图像的清晰度,来降低原始图像的码率。进而,对模糊处理后得到的待增强图像的语义特征进行增强处理,以使增强处理后的图像语义特征的强度大于或者等于原始图像的语义特征的强度。这样一来,在不降低原始图像语义特征的强度的基础上,通过降低原始图像中与图像分析任务相关性较弱的内容的码率,达到降低码率的效果。且以上处理过程并未限制在图像中像素的灰度这一较小的方面,而是面向图像的语义特征方面执行,使得增强处理后的图像可以用作图像处理神经网络的输入图像,使得图像处理神经网络基于语义特征执行图像分析任务,有利于将图像处理神经网络的分析性能维持在较佳的水平。
下面对本申请实施例涉及的技术场景和***架构进行介绍。
参见图1,图1示出了本申请一实施例提供的面向CV的分析***的示意性框图。如图1所示,面向CV的分析***可以包括图像源11、图像预处理网络12、编码网络13以及分析网络14。具体实现形态中,图像源11、图像预处理网络12、编码网络13以及分析网络14,可以实现为硬件部件、软件部件或者软硬结合等部件。其中,图像预处理网络12、编码网络13以及分析网络14可以是基于深度学习的算法网络。编码网络13和分析网络14可以用于组成上述CV网络。分别描述如下:
图像源11可以用于为面向CV的分析***提供原始图像,可以包括或可以为任何类别的图像捕获设备,用于例如捕获现实世界图像、现实对象图像,和/或任何类别的图像。图像源11可以为用于捕获图像的相机或者用于存储图像的存储器。当图像源11为相机时,图像源11可例如为本地的或集成在源设备中的集成相机;当图像源11为存储器时,图像源11可为本地的或例如集成在源设备中的集成存储器。
图像预处理网络12可以用于对来自图像源11的原始图像进行预处理,以在有效维持对待分析内容分析性能的情况下,尽量降低图像的码率。本申请实施例中,图像预处理网络12可以,降低原始图像中待分析内容关联度较小的数据量,并且维持或增强原始图像中表征待分析内容的部分。例如,图像预处理网络12执行的预处理可以包括模糊处理、对模糊处理后的图像定向增强处理。
一种实施例中,图像预处理网络12可以包括算法模块、基于深度学习的图像处理网络或者模型。这些算法模块、基于深度学习的图像处理网络或者模型,可以通过不同的组合方式,实现本申请实施例的面向机器视觉的图像预处理方法。例如,退化算法、U形跳层连接(U-net)网络等。
这样一来,图像预处理网络12对图像预处理的方式和原理,与CV技术相匹配,使得图像预处理网络12能够应用与CV分析***。并且,图像预处理网络12输出的预处理后的图像,能够直接用于CV网络的图像分析任务。
编码网络13可以用于接收图像预处理网络12预处理后的图像,采用编码网络13预设的运算模块对经预处理的图像进行处理,从而提供包含原始图像语义特征的图像数据。一些实施例中,编码网络13可以实现为全神经网络。
分析网络14可以用于对编码后的数据图像执行图像分析任务,以及输出分析结果。分析网络14可以是用于执行图像匹配、图像识别、图像分隔、图像内容提取和人脸识别等至少一项图像分析任务的神经网络。分析网络14输出的分析结果可以实现为概率分布、置信度参数等预测结果,这些预测结果可以表征分析网络14对原始图像中语义特征的理解程度。
应理解,虽然图1中将图像预处理网络12集成在面向CV的分析***中,但设备实施例中,图像预处理网络12可以部署在一个示例性面向CV的分析***内,并与面向CV的分析***内的其他功能器件耦合;图像预处理网络12的功能也可以集成在一***立的计算机设备中,使该计算机设备具备本申请实施例的图像预处理功能,以及在不同的CV分析应用场景中,使用该计算机设备。
这样,使得本申请实施例的面向机器视觉的图像预处理方法,能够灵活适用于不同用于场景的CV图像分析任务,且,可以无需改变任意应用场景下的CV基础网络结构,可扩展性较好。
下面结合前述实施例对本申请实施例的面向机器视觉的图像预处理方法、装置、设备及存储介质进行介绍。
首先,本申请实施例中提供一种面向机器视觉的图像预处理方法,该面向机器视觉的图像预处理方法可以用于图1示意的面向CV的分析***中,该面向机器视觉的图像预处理方法的执行主体可以为图1中的图像预处理网络12。该图1中的图像预处理网络12可以包括:
对原始图像进行模糊处理生成待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;
对所述待增强图像的语义特征进行增强处理生成目标图像;
将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务。
其中,所述目标图像的语义特征的强度可以大于或者等于所述原始图像的语义特征的强度。该图像处理神经网络可以实现为图1中的分析网络14。
一些实施例中,如图2所示,为了使目标图像的语义特征的强度不小于原始图像的语义特征的强度,在得到待增强图像之后,图像预处理网络12可以根据原始图像和待增强图像生成增强参数,进而,按照增强参数对待增强图像进行增强处理生成目标图像。
以下结合示例,对面向机器视觉的图像预处理方法中相关的具体处理过程,进行说明。
如图3所示,图3示意了本申请实施例的一种示例性面向机器视觉的图像预处理方法。该面向机器视觉的图像预处理方法具体包括以下步骤:
步骤S101,对所述原始图像按照预设采样倍率进行下采样。
一些实施例中,所述原始图像可以是来自图1中图像源11的图像。所述原始图像中可以包含图1中分析网络14待分析的目标对象,该目标对象例如可以为待分析的目标对象的图像,待分析的目标对象例如可以包括目标物品、目标人脸、目标建筑等,此处不予限制。
示例性的,预设采样倍率可以与原始图像的分辨率相关,例如,若原始图像宽和高的至少一个方向的分辨率大于或者等于预设值,确定所述预设采样倍率为第一预设采样倍率;若所述原始图像宽和高方向的分辨率均小于所述预设值,确定所述预设采样倍率为第二预设采样倍率。这里,所述第一预设采样倍率大于所述第二预设采样倍率。
例如,若原始图像宽和高的至少一个方向的分辨率大于或者等于1080像素(pixel,P),可以确定预设采样倍率为8;若原始图像宽和高的分辨率均小于1080P,可以确定预设采样倍率为4。
步骤S102,按照所述预设采样倍率对所述下采样之后的图像进行上采样生成待增强图像。
其中,待增强图像的分辨率可以与原始图像的分辨率相同。
需要指出的是,步骤S101和步骤S102为对所述原始图像进行退化处理的示例性实现过程。步骤S102中,该上采样之后的图像为也可以称为退化处理得到的图像,也即,所述模糊图像。
应理解,退化处理只是将原始图像进行模糊处理的一种示例性处理方式,对本申请实施例的模糊处理不构成限制。本申请实施例中,还可以通过以下任一方式对所述原始图像进行模糊处理:在所述原始图像中添加噪点、采用图像模糊算法对所述原始图像进行模糊处理。
一些实施例中,若采用图像模糊算法对所述原始图像进行模糊处理,可以采用以下任一模糊算法:高斯模糊(Gaussian Blur)、方框模糊(Box Blur)、Kawase模糊(KawaseBlur)、双重模糊(Dual Blur)、散景模糊(Bokeh Blur)、移轴模糊(Tilt Shift Blur)、光圈模糊(Iris Blur)、粒状模糊(Grainy Blur)、径向模糊(Radial Blur)、方向模糊(Directional Blur)等。
可见,采用本实现方式,对原始图像的模糊处理,不局限于图像中像素的灰度的角度,而是面向图像的整体分布进行无差别的模糊处理。这样一来,在降低原始图像码率的基础上,有利于维持原始图像中语义特征的完整性,从而有利于提升CV网络的分析性能。
步骤S103,生成所述原始图像与所述待增强图像之间的残差图像。
步骤S104,提取所述原始图像的语义特征得到第一语义特征,以及提取所述残差图像的特征。
步骤S105,通过将所述第一语义特征与所述残差图像的特征进行特征融合,得到所述增强参数。
其中,所述增强参数用于表征对所述待增强图像的增强程度。特别是用于表征对所述待增强图像中语义特征部分的增强程度。
步骤S106,按照所述增强参数对所述待增强图像的语义特征进行增强处理生成所述目标图像。
需要说明的是,目标图像的语义特征可以是指,图像处理神经网络待分析的目标对象的特征。语义特征的强度可以包括目标对象的特征的维度、每个维度的特征所包含特征值的数量、每个维度的特征对应的感受野大小等。
其中,语义特征的维度可以包括视觉维度、对象维度和概念维度。视觉维度的特征可以包括目标对象的颜色、纹理和形状等特征;对象维度可以包含目标对象属性特征(例如,动物、植物、风景)等;概念维度可以表征目标对象所表达的含义。例如,目标对象包括有沙滩、蓝天和海水等,视觉维度的特征可以包括沙滩、蓝天和海水每一部分的轮廓、颜色、纹理和形状等特征,对象维度的特征包括沙子、蓝天和海水每一部分的属性特征;概念维度的特征可以表征海滩。
一些实施例中,语义特征所包含的特征维度越多、每个维度的特征所包含特征值的数量越多、每个维度的特征对应的感受野越小,可以认为该语义特征的强度越大;反之,则可以认为该语义特征的强度越小。
结合前述对原始图像的模糊处理过程可知,待增强图像是原始图像整体无差别模糊化处理所得到,即,待增强图像中包含的目标对象和目标对象之外的其他内容,清晰度均被降低。为了在降低图像处理神经网络数据处理量的情况下,能够提升图像处理神经网络的分析性能,本申请一实施例中,图像预处理阶段可以对待增强图像中的目标对象进行定向增强,以增加语义特征的强度。
步骤S107,将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务。
进一步的,图像处理神经网络可以基于目标图像的语义特征,对目标图像执行图像分析任务。例如,图像分析任务是图像分割,图像处理神经网络可以通过对语义特征进行处理,确定目标图像中待分割的目标对象,之后,将目标对象从目标图像中分离出。
综上可见,本申请实施例的技术方案,通过全面降低原始图像的清晰度,来降低原始图像的码率。之后,再针对性增强图像中语义特征的部分,从而可以达到不降低原始图像语义特征的强度的基础上,降低原始图像码率的效果,有利于降低计算量,节约成本。且,面向图像的语义特征方面执行预处理,从而有利于将图像处理神经网络的分析性能维持在较佳的水平。
需要指出的是,步骤S101和步骤S102为对所述原始图像进行退化处理的示例性实现过程。步骤S102中,该上采样之后的图像为也可以称为退化处理得到的图像,也即,所述模糊图像。
应理解,步骤S103至和步骤S105只是计算增强参数的一种示例性处理方式,对本申请实施例的增强处理不构成限制。本申请的另一些实施例中,图像预处理网络还可以根据其他方法计算增强参数。例如,可以根据原始图像的语义特征与待增强图像的语义特征,确定所述增强参数。
示例性的,图像预处理网络可以提取所述原始图像的语义特征得到第一语义特征,以及提取所述待增强图像的语义特征得到第二语义特征。结合前述对语义特征的描述可知,所述第一语义特征和所述第二语义特征均包含至少两个维度的特征,任一语义特征例如可以包括视觉维度的特征、对象维度的特征和概念维度的特征。进一步的,针对任一维度的特征,图像预处理网络可以计算第一语义特征中该维度的特征与第二语义特征中该维度的特征的差值,以得到至少两个差值,之后,根据至少两个差值计算所述增强参数(如图4B示意的实施例所示)。
需要指出的是,任一维度的特征可以包含多个特征值,该维度的特征所包含特征值的数量,可以根据增强算法的设置来确定。
进一步的,一些实施例中,该维度的特征对应的差值,可以是第一语义特征对应的平均值与第二语义特征对应的平均值的差值。第一语义特征对应的平均值是值是指第一语义特征中该维度特征值的平均值,第二语义特征对应的平均值是值是指第二语义特征中该维度特征值的平均值。
另一些实施例中,该维度的特征对应的差值,可以是第一语义特征中该维度特征值,与第二语义特征中该维度特征值的方差。
在获得至少两个差值之后,针对任一差值,图像预处理网络可以将所述差值与所述差值的权重相乘,相乘结果为所述差值对应的增强因子,以得到至少两个增强因子,之后,计算所述至少两个增强因子的加和结果,所述加和结果为所述增强参数。
一些实施例中,权重可以是预先设置的。权重用于表征对相应差值对应维度的特征的增强程度。以语义特征包括视觉维度的特征、对象维度的特征和概念维度的特征为例,视觉维度的特征对应的权重例如是0.15,对象维度的特征对应的权重例如是0.35,概念维度的特征对应的权重例如是0.5。可以表征,对视觉维度的特征的增强程度相对最弱,对对象维度的特征的增强程度相对中等,对概念维度的特征的增强程度相对最强。
需要指出的是,图像预处理网络可以采用U-net模型,提取原始图像的第一语义特征,以及按照增强参数对待增强图像的第二语义特征进行增强。
一些实施例中,图像预处理网络可以提取所述原始图像的全局语义特征。该全局特征包括原始图像中目标对象的图像特征和非目标对象的图像特征。进而,图像预处理网络可以对所述全局语义特征进行至少一次降维处理,以得到目标对象的初始图像特征。对所述初始图像特征进行所述至少一次升维处理,得到所述第一语义特征。
其中,任意一次降维处理可以是对特征进行下采样。示例性的,可以通过卷积运算和池化进行下采样。
一些实施例中,全局语义特征包括原始图像中目标对象的图像特征和非目标对象的图像特征,且全局语义特征中目标对象的图像特征,重要性相对并不突出。经过逐步降维,可以得到原始图像中更紧凑的语义信息,从而有利于强化目标对象的图像特征的重要程度。
示例性的,升维处理的次数和降维处理的次数可以相同。任意一次升维处理可以是对特征进行上采样。
具体的,图像预处理网络可以对所述初始图像特征进行上采样,将上采样后的特征与同尺寸的降维特征进行拼接,所述同尺寸的降维特征是指所述至少一次降维处理过程中得到的与所述上采样后的特征相同尺寸的特征。若拼接后的特征的尺寸与所述全局语义特征的尺寸相同,将所述拼接后的特征作为所述第一语义特征。若拼接后的特征的尺寸小于所述全局语义特征的尺寸,将所述拼接后的特征作为新的初始图像特征,以及对所述新的初始图像特征进行上采样。
例如,原始图像的全局语义特征尺寸为224*224。U-net模型可以对全局语义特征执行三次卷积运算和池化运算,第一次卷积运算和池化运算后,例如得到的降维后的特征,尺寸为112*112;第二次卷积运算和池化运算后,例如得到的降维后的特征,尺寸为56*56;第三次卷积运算和池化运算后,例如得到的降维后的特征,尺寸为28*28。尺寸为28*28的特征例如可以视为目标对象的初始图像特征。进一步的,对尺寸为28*28的特征进行上采样,得到尺寸为56*56的升维特征。将该升维特征与降维后得到的56*56的特征进行拼接。对拼接后的特征进行卷积运算后再次进行上采样,得到尺寸为112*112的升维特征。将该升维特征与降维后得到的112*112的特征进行拼接。对拼接后的特征进行卷积运算后第三次进行上采样,得到尺寸为224*224的升维特征。将该升维特征与降维后得到的224*224的特征进行拼接,对拼接后的特征进行卷积运算,得到的尺寸为224*224的特征为原始图像的第一语义特征。
这样一来,对突出目标对象的图像特征重要性的特征逐步进行升维,有利于逐渐完善目标对象的细节特征,使得得到的第一语义特征可以准确且完善的表征目标图像的语义。进一步的,基于第一语义特征得到的增强参数,具备较强的可靠性。
以下以图像预处理网络包括退化模块和U-net模型为例,结合示例对本申请实施例的面向机器视觉的图像预处理方法进行介绍。
示例性的,如图4A和图4B中所示,原始图像例如包括圆形区域的图像和房子的图像,该圆形区域的图像例如可以是草地(图中未示出),该圆形区域的图像的显示效果均与图中圆环的相似效果相同,附图中不再示意。该圆形区域的图像为房子的图像的背景,房子的图像遮住圆形区域的部分图像,且在原始图像的最前端显示。该房子的图像例如是图像处理神经网络待分析的目标对像。
参见图4A,图4A示出了面向机器视觉的图像预处理方法的一种示例性数据流向图。本示例中,在接收到原始图像后,图像预处理网络可以调用预部署的退化模块,通过对该原始图像进行退化来进行模糊处理,得到退化图像(即前述待增强图像)。
例如,该原始图像的宽度大于1080p,退化模块可以选择8倍率的采样倍率,首先对该原始图像进行8倍率的下采样,之后,对下采样的图像进行8倍率的上采样。上采样之后的图像的分辨率与原始图像的分辨率例如相同。
再次参见图4A,原始图像中的圆形区域的图像和房子的图像清晰度均较高,具体可以呈现为,圆形区域的图像和房子的图像的轮廓的线条较为细腻。退化图像中圆形区域的图像和房子的图像清晰度相对较低,具体可以呈现为,圆形区域的图像和房子的图像的轮廓均呈现出像素的颗粒感。
进一步的,退化模块可以生成原始图像和退化图像之间的残差图像,以及将原始图像、残差图像和退化图像均输入到U-net模型。图像预处理网络可以调用U-net模型对退化图像进行增强,以得到预处理后的图像(即前述目标图像)。
示例性的,U-net模型可以从原始图像中提取第一语义特征。本示例中,第一语义特征可以指表征原始图像中房子的图像的特征。
例如,U-net模型首先可以提取原始图像的全局语义特征,该全局语义特征中可以包括圆形区域的特征和房子的特征。之后,U-net模型例如可以对全局语义特征逐次进行三次降维处理,每次降维处理通过卷积运算和池化达到下采样的效果。具体可以参见前述对降维的示例性描述,此处不赘述。三次降维处理后得到的特征中,房子特征的强度相较圆形区域特征的强度更大,房子特征的权重相较圆形区域特征的权重也可以更大,这里的权重可以用于表征特征的重要程度。那么,可以将三次降维处理后得到的特征作为房子的初始图像特征。进一步的,对房子的初始图像特征逐次进行三次升维处理,三次升维处理后得到的特征即原始图像的第一语义特征。
如前所述,房子的初始图像特征中,房子特征的强度和重要程度均较大,那么,在升维过程中,丰富化和细节化的大部分特征同样是房子的特征,可以认为第一语义特征是房子最终的图像特征。
残差图像可以表征退化图像与原始图像之间的差别程度。那么,U-net模型可以提取残差图像的特征,将第一语义特征与残差图像的特征进行特征融合,融合后的结果可以为增强参数,该增强参数表征对退化图像的增强程度。
U-net模型可以提取退化图像的第二语义特征,该第二语义特征可以指退化图像中房子的特征。之后,U-net模型可以根据增强参数对第二语义特征进行增强,以得到目标图像。示例性的,U-net模型可以通过对增强参数和第二语义特征进行一系列卷积运算,可以输出增强后的语义特征,这些语义特征可以呈现为0至1之间的特征值,特征值越大,可以表征语义强度越大。
再次参见图4A,目标图像中房子的图像清晰度较高,而圆形区域图像的轮廓仍呈现出像素的颗粒感。可见,相较于原始图像,经预处理得到的目标图像中,与图像分析任务关联性较小的区域,码率被降低,而与图像分析任务关联性较大的区域,语义特征的强度不变。这样一来,将目标图像输入CV网络后,在有效维持CV网络分析性能的基础上,有利于降低计算量。
应理解,图4A是本申请图像预处理的一种示例性实现方式,对本申请实施例的面向机器视觉的图像预处理方法不构成限制。在另一些实现方式中,图像预处理网络也可以采用其他的方式,对房子的语义特征进行增强。示例性的,参见图4B所示的另一种示例性面向机器视觉的图像预处理方法。
如图4B所示,本示例中,在接收到原始图像后,图像预处理网络同样调用退化模块,通过对该原始图像进行退化来进行模糊处理,得到退化图像。该实现过程,可以参见图4A中示意的实施例的描述,此处不予赘述。
与图4A中不同的,本示例中,退化模块在获得退化图像后,不再生成残差图像,而是将原始图像和退化图像均输入U-net模型。
参见图4B,本示例中,U-net模型可以分别提取原始图像和退化图像的语义特征,得到原始图像的第一语义特征和退化图像的第二语义特征。结合前述对U-net模型的处理过程可知,第一语义特征可以表征原始图像中房子最终的图像特征,第二语义特征可以表征退化图像中房子最终的图像特征。那么,U-net模型可以通过计算第一语义特征和第二语义特征的差值,获得增强参数。
例如,本示例中,U-net模型可以将第一语义特征分离,得到视觉维度的特征、对象维度的特征和概念维度的特征;以及将第二语义特征分离,得到视觉维度的特征、对象维度的特征和概念维度的特征。针对每个维度的特征,计算第一语义特征中该维度的特征值,与相应第一语义特征中的特征值的方差,例如分别得到视觉维度特征方差、对象维度特征方差和概念维度特征方差。进一步的,将每个维度对应的特征方差与该维度对应的权重值相乘,分别得到视觉维度的增强因子、对象维度的增强因子和概念维度的增强因子。本示例中,视觉维度的增强因子、对象维度的增强因子和概念维度的增强因子的加和结果,即为增强参数。
之后,U-net模型可以根据增强参数对第二语义特征进行增强,以得到目标图像,此处不赘述。
应理解,图4A和图4B示意的实施例,是以退化算法和U-net模型为例进行的介绍,并不构成对本申请图像预处理网络的限定。在本申请另一些实施例中,图像预处理网络可以包括其他具备相同或相似功能的算法模型,或者组合网络等,且图像预处理网络还可以包括比图示更多的算法模型等。对于本领域的普通技术人员而言将显而易见的是,根据上述教导内容,许多修改和变型是可能的。
综上,本申请实施例的技术方案,通过全面降低原始图像的清晰度,之后,再针对性增强图像中语义特征的部分,达到了在不降低原始图像语义特征的强度的基础上,降低原始图像码率的效果。如图6a和图6b示意的效果对比图,其中,图6a为原始图像,图6a中草地和球拍的均较清晰,说明草地和球拍的码率均较高,而图6b是对图6a经本技术方案处理后的图像,图6b中的球拍依然较清晰,而草地相对较为模糊,即,降低了草地部分的码率。可见,这样一来,有利于降低计算量,节约成本。且面向图像的语义特征方面执行预处理,使得目标图像可以用作图像处理神经网络的输入图像,且有利于将图像处理神经网络的分析性能维持在较佳的水平。
结合前述描述,用于执行本申请实施例面向机器视觉的图像预处理方法的图像预处理网络,可以采用代理神经网络训练待训练网络来得到,进而,可以与图像处理神经网络建立连接,以得到如图1所示的面向CV的分析***。该代理神经网络是用于执行前述CV网络的图像分析任务的神经网络。
一些实施例中,图像预处理网络中用于执行模糊处理的通常为预设置的算法,而执行增强功能的通常为深度学习网络。本示例中,待训练网络可以是用于执行增强功能的网络模型。例如,待训练网络为图4A和图4B中的待训练U-net模型。
此外,需要指出的是,由于图像预处理网络可以独立于图像处理神经网络,那么,一些实施例中,待训练网络可以为预构建的初始网络;另一些实施例中,待训练网络可以为待训练预处理网络,该待训练预处理网络是指适用于另一图像分析任务,而另一图像分析任务与图像分析任务不同。若该待训练网络为所述待训练预处理网络,在采用代理神经网络训练待训练网络得到图像预处理网络之前,还可以断开待训练网络与原图像处理神经网络的连接。这里的原图像处理神经网络是执行所述另一图像分析任务的图像处理神经网络。
其中,采用代理神经网络训练待训练网络得到图像预处理网络,可以包括:调用所述待训练网络对样本图像进行预处理,预处理后的图像为待分析图像,之后,调用所述代理神经网络对所述待分析图像执行所述图像分析任务,得到预测分析结果。计算损失值以及判断所述损失值是否收敛,该损失值包括预处理损失、分析损失和代理损失。若所述损失值收敛,将所述待训练网络作为所述图像预处理网络;若所述图像预处理网络未收敛,调整所述待训练网络的参数,以及将调整参数后的模型作为新的待训练网络,再次执行调用所述待训练网络对样本图像进行预处理的操作。
示例性的,调整待训练网络的参数,可以是调整待训练增强模型的参数,例如调整待训练U-net模型的参数。
一些实施例中,预处理损失用于表征所述待分析图像与所述样本图像的损失,例如,可以实现为待分析图像与样本图像的均方误差(Mean Square Error, MSE),以约束增强偏差。所述分析损失用于表征所述预测分析结果与所述样本图像标注结果的损失。所述代理损失用于表征所述代理神经网络对所述样本图像处理过程的损失。
需要指出的是,该代理损失包含的算数函数可以与代理神经网络的处理过程相关,例如,若代理神经网络包括代理编码网络和图像分析任务的执行网络,代理损失可以包括编码损失和离散余弦变换(Discrete Cosine Transform,DCT)损失。编码损失用于表征编码后数据与编码前数据的码率损失,DCT损失用于表征编码复杂度损失。
以代理神经网络包括代理编码网络和图像分析任务的执行网络为例,一种图像预处理网络训练***如图5所示。参见图5,该图像预处理网络训练***包括待训练网络、代理编码网络和图像分析任务的执行网络。
在训练过程中,将样本图像输入待训练网络,经待训练网络处理后,得到待分析图像。进一步的,可以计算待分析图像与样本图像之间的MSE,用作待训练网络的预处理损失,以及将待分析图像输入代理编码网络。之后,调用代理编码网络估算待分析图像的DCT损失和编码损失,以及调用代理编码网络对待分析图像进行编码,以得到编码后的图像数据。进而,将图像数据输入图像分析任务执行网络,以调用图像分析任务的执行网络对图像数据执行图像分析任务,以及在得到分析结果后,计算分析损失。
进一步的,将MSE、DCT损失、编码损失和分析损失的加和作为本轮训练的损失值,若损失值收敛,则待训练网络可以用作该图像分析任务对应的图像预处理网络;否则,调整待训练网络的参数,继续执行上述训练过程,直到损失值收敛。
可见,由于本申请实施例中的图像预处理网络是基于深度学习的神经网络,不但能够用作面向CV网络的图像图像分析任务,并且,可以采用基于深度学习的代理神经网络进行训练,使得本申请技术方案的图像预处理网络能够灵活、广泛的适用于多种场景的图像分析任务。
对应上述面向机器视觉的图像预处理方法,本申请实施例还提供一种面向机器视觉的图像预处理装置,图像预处理装置可以部署在图1示意的面向CV的分析***的图像预处理网络中。该面向CV的图像预处理装置可以通过软件、硬件或者软硬结合的方式,将上述图像预处理网络中的算法和增强模型的功能模块化,可以用于执行上述任一实施例提供的面向机器视觉的图像预处理方法。
该装置可以包括:模糊处理模块和增强模块。其中,模糊处理模块,用于对原始图像进行模糊处理,处理后的图像为待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;增强模块,用于对所述待增强图像进行增强处理,所述增强处理后的图像为目标图像,所述目标图像的语义特征的强度大于或者等于所述原始图像的语义特征的强度,所述目标图像用作神经网络基于所述语义特征执行图像分析任务的输入图像。
本申请实施例提供的图像预处理装置与本申请实施例提供的面向机器视觉的图像预处理方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种计算机设备,应用于面向CV的分析***中,以执行上述面向机器视觉的图像预处理方法。请参考图7其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图7所示,计算机设备7包括:处理器700,存储器701,总线702和通信接口703,所述处理器700、通信接口703和存储器701通过总线702连接;所述存储器701中存储有可在所述处理器700上运行的计算机程序,所述处理器700运行所述计算机程序时执行本申请前述任一实施方式所提供的面向机器视觉的图像预处理方法。
其中,存储器701可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口703(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线702可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器701用于存储程序,所述处理器700在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述面向机器视觉的图像预处理方法可以应用于处理器700中,或者由处理器700实现。
处理器700可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器700可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701,处理器700读取存储器701中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的计算机设备与本申请实施例提供的面向机器视觉的图像预处理方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的面向机器视觉的图像预处理方法对应的计算机可读存储介质,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的面向机器视觉的图像预处理方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的面向机器视觉的图像预处理方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些示例中,并未详细示出公知的结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下示意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种面向机器视觉的图像预处理方法,其特征在于,包括:
对原始图像进行模糊处理生成待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;
对所述待增强图像的语义特征进行增强处理生成目标图像;
将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务;
所述对所述待增强图像的语义特征进行增强处理生成目标图像,包括:
根据所述原始图像和所述待增强图像生成增强参数,所述增强参数用于表征对所述待增强图像的增强程度;
按照所述增强参数对所述待增强图像的语义特征进行增强处理生成所述目标图像;
所述根据所述原始图像和所述待增强图像生成增强参数,包括:
生成所述原始图像与所述待增强图像之间的残差图像;
提取所述原始图像的语义特征得到第一语义特征,以及提取所述残差图像的特征;
通过将所述第一语义特征与所述残差图像的特征进行特征融合,得到所述增强参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始图像和所述待增强图像生成增强参数,还包括:
提取所述原始图像的语义特征得到第一语义特征,以及提取所述待增强图像的语义特征作为第二语义特征,所述第一语义特征和所述第二语义特征均包含至少两个维度的特征;
针对任一维度的特征,计算所述第一语义特征中所述维度的特征与所述第二语义特征中所述维度的特征的差值,以得到至少两个差值;
根据所述至少两个差值计算所述增强参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少两个差值计算所述增强参数,包括:
针对任一差值,将所述差值与所述差值的权重相乘,相乘结果为所述差值对应的增强因子,以得到至少两个增强因子;其中,所述权重用于表征对所述差值对应维度的特征的增强程度;
计算所述至少两个增强因子的加和结果,所述加和结果为所述增强参数。
4.根据权利要求1或2所述的方法,其特征在于,所述提取所述原始图像的语义特征得到第一语义特征,包括:
提取所述原始图像的全局语义特征;
对所述全局语义特征进行至少一次降维处理,以得到目标对象的初始图像特征,所述目标对象是指与所述图像处理神经网络的图像分析任务相关的对象;
对所述初始图像特征进行至少一次升维处理,以得到所述第一语义特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述初始图像特征进行所述至少一次升维处理,包括:
对所述初始图像特征进行上采样;
将上采样后的特征与同尺寸的降维特征进行拼接,所述同尺寸的降维特征是指所述至少一次降维处理过程中得到的与所述上采样后的特征相同尺寸的特征;
若拼接后的特征的尺寸与所述全局语义特征的尺寸相同,将所述拼接后的特征作为所述第一语义特征;
若拼接后的特征的尺寸小于所述全局语义特征的尺寸,将所述拼接后的特征作为新的初始图像特征,以及对所述新的初始图像特征进行上采样。
6.根据权利要求1所述的方法,其特征在于,所述对原始图像进行模糊处理,包括:
通过以下任一方式对所述原始图像进行模糊处理:
在所述原始图像中添加噪点、对所述原始图像进行退化处理、采用图像模糊算法对所述原始图像进行模糊处理。
7.根据权利要求6所述的方法,其特征在于,所述对所述原始图像进行退化处理,包括:
对所述原始图像按照预设采样倍率进行下采样;
按照所述预设采样倍率对所述下采样之后的图像进行上采样,所述上采样之后的图像为退化处理得到的图像。
8.根据权利要求7所述的方法,其特征在于,
若所述原始图像宽和高的至少一个方向的分辨率大于或者等于预设值,确定所述预设采样倍率为第一预设采样倍率;
若所述原始图像宽和高方向的分辨率均小于所述预设值,确定所述预设采样倍率为第二预设采样倍率;
其中,所述第一预设采样倍率大于所述第二预设采样倍率。
9.根据权利要求1所述的方法,其特征在于,还包括:
采用代理神经网络训练待训练网络得到图像预处理网络,所述代理神经网络用于执行所述图像分析任务;所述图像预处理网络用于执行所述面向机器视觉的图像预处理方法,所述图像预处理网络为深度学习网络;
将所述图像预处理网络与所述图像处理神经网络建立连接。
10.根据权利要求9所述的方法,其特征在于,所述采用代理神经网络训练待训练网络得到图像预处理网络,包括:
调用所述待训练网络对样本图像进行预处理,所述预处理后的图像为待分析图像;
调用所述代理神经网络对所述待分析图像执行所述图像分析任务,得到预测分析结果;
计算损失值,所述损失值包括预处理损失、分析损失和代理损失;所述预处理损失用于表征所述待分析图像与所述样本图像的损失,所述分析损失用于表征所述预测分析结果与所述样本图像标注结果的损失,所述代理损失用于表征所述代理神经网络对所述样本图像处理过程的损失;
判断所述损失值是否收敛;
若所述损失值收敛,将所述待训练网络作为所述图像预处理网络;
若所述图像预处理网络未收敛,调整所述待训练网络的参数,以及将调整参数后的模型作为新的待训练网络,再次执行调用所述待训练网络对样本图像进行预处理的操作。
11.根据权利要求10所述的方法,其特征在于,所述代理神经网络包括代理编码网络和图像分析任务的执行网络,所述调用所述代理神经网络对所述待分析图像执行所述图像分析任务,得到预测分析结果,包括:
调用所述代理编码网络对所述待分析图像进行编码,以及得到编码损失和离散余弦变换DCT损失,所述代理损失包括所述编码损失和所述DCT损失,所述编码损失用于表征编码后数据与编码前数据的码率损失,所述DCT损失用于表征编码复杂度损失;
调用所述执行网络对编码后的图像数据执行所述图像分析任务,以及得到所述分析损失。
12.根据权利要求10或11所述的方法,其特征在于,所述待训练网络包括模糊算法模块和待训练增强模型,所述调整所述待训练网络的参数,包括:
调整所述待训练增强模型的参数。
13.根据权利要求1所述的方法,其特征在于,在所述将所述目标图像输入所述图像处理神经网络之后,还包括:
调用所述图像处理神经网络对所述目标图像进行编码,以得到编码数据;
调用所述图像处理神经网络的分析模块对所述编码数据执行所述图像分析任务,以通过分析所述目标图像的语义特征输出分析结果。
14.根据权利要求9所述的方法,其特征在于,所述待训练网络为预构建的初始网络或者待训练预处理网络,所述待训练预处理网络是指适用于另一图像分析任务,所述另一图像分析任务与所述图像分析任务不同;
若所述待训练网络为所述待训练预处理网络,在所述采用代理神经网络训练待训练网络得到图像预处理网络之前,还包括:
断开所述待训练网络与原图像处理神经网络的连接,所述原图像处理神经网络是执行所述另一图像分析任务的图像处理神经网络。
15.根据权利要求14所述的方法,其特征在于,所述图像分析任务包括以下至少一项:图像匹配、图像识别、图像分割、图像内容提取和人脸识别。
16.一种面向机器视觉的图像预处理装置,其特征在于,包括:
模糊处理模块,用于对原始图像进行模糊处理生成待增强图像,所述待增强图像的清晰度低于所述原始图像的清晰度;
增强模块,用于对所述待增强图像的语义特征进行增强处理生成目标图像;
输入模块,用于将所述目标图像输入图像处理神经网络,以触发所述图像处理神经网络基于所述目标图像的语义特征执行图像分析任务;
所述增强模块,具体用于根据所述原始图像和所述待增强图像生成增强参数,所述增强参数用于表征对所述待增强图像的增强程度;以及按照所述增强参数对所述待增强图像的语义特征进行增强处理生成所述目标图像;
所述增强模块,还用于生成所述原始图像与所述待增强图像之间的残差图像;提取所述原始图像的语义特征得到第一语义特征,以及提取所述残差图像的特征;通过将所述第一语义特征与所述残差图像的特征进行特征融合,得到所述增强参数。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-15任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-15中任一项所述的方法。
CN202311750184.9A 2023-12-19 2023-12-19 面向机器视觉的图像预处理方法、装置、设备及存储介质 Active CN117422855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311750184.9A CN117422855B (zh) 2023-12-19 2023-12-19 面向机器视觉的图像预处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311750184.9A CN117422855B (zh) 2023-12-19 2023-12-19 面向机器视觉的图像预处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117422855A CN117422855A (zh) 2024-01-19
CN117422855B true CN117422855B (zh) 2024-05-03

Family

ID=89530682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311750184.9A Active CN117422855B (zh) 2023-12-19 2023-12-19 面向机器视觉的图像预处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117422855B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583161A (zh) * 2020-06-17 2020-08-25 上海眼控科技股份有限公司 模糊图像的增强方法、计算机设备和存储介质
WO2021000906A1 (zh) * 2019-07-02 2021-01-07 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置
CN112419219A (zh) * 2020-11-25 2021-02-26 广州虎牙科技有限公司 图像增强模型训练方法、图像增强方法以及相关装置
CN112446834A (zh) * 2019-09-04 2021-03-05 华为技术有限公司 图像增强方法和装置
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN114359289A (zh) * 2020-09-28 2022-04-15 华为技术有限公司 一种图像处理方法及相关装置
CN114915783A (zh) * 2021-02-07 2022-08-16 华为技术有限公司 编码方法和装置
CN115205150A (zh) * 2022-07-19 2022-10-18 腾讯科技(北京)有限公司 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN116894801A (zh) * 2023-07-19 2023-10-17 广州虎牙科技有限公司 图像画质增强方法、装置、电子设备及存储介质
CN116939226A (zh) * 2023-06-14 2023-10-24 南京大学 一种面向低码率图像压缩的生成式残差修复方法及装置
CN117151987A (zh) * 2022-05-23 2023-12-01 海信集团控股股份有限公司 一种图像增强方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378381B (zh) * 2019-06-17 2024-01-19 华为技术有限公司 物体检测方法、装置和计算机存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000906A1 (zh) * 2019-07-02 2021-01-07 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置
CN112446834A (zh) * 2019-09-04 2021-03-05 华为技术有限公司 图像增强方法和装置
WO2021043273A1 (zh) * 2019-09-04 2021-03-11 华为技术有限公司 图像增强方法和装置
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN111583161A (zh) * 2020-06-17 2020-08-25 上海眼控科技股份有限公司 模糊图像的增强方法、计算机设备和存储介质
CN114359289A (zh) * 2020-09-28 2022-04-15 华为技术有限公司 一种图像处理方法及相关装置
CN112419219A (zh) * 2020-11-25 2021-02-26 广州虎牙科技有限公司 图像增强模型训练方法、图像增强方法以及相关装置
CN114915783A (zh) * 2021-02-07 2022-08-16 华为技术有限公司 编码方法和装置
CN117151987A (zh) * 2022-05-23 2023-12-01 海信集团控股股份有限公司 一种图像增强方法、装置及电子设备
CN115205150A (zh) * 2022-07-19 2022-10-18 腾讯科技(北京)有限公司 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN116939226A (zh) * 2023-06-14 2023-10-24 南京大学 一种面向低码率图像压缩的生成式残差修复方法及装置
CN116894801A (zh) * 2023-07-19 2023-10-17 广州虎牙科技有限公司 图像画质增强方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ExFuse: Enhancing Feature Fusion for Semantic Segmentation;Zhenli Zhang et al.;《Proceedings of the European Conference on Computer Vision (ECCV)》;20180930;第269-284页 *
基于编解码和局部增强的光电图像分割算法;李承珊;蒋平;崔雄文;马震环;雷涛;;半导体光电;20181215(06);第133-138页 *

Also Published As

Publication number Publication date
CN117422855A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
CN113284054B (zh) 图像增强方法以及图像增强装置
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及***
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114764868A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112598579A (zh) 面向监控场景的图像超分辨率方法、装置及存储介质
CN113674159A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN112184585A (zh) 一种基于语义边缘融合的图像补全方法及***
CN112508989B (zh) 一种图像处理方法、装置、服务器以及介质
KR102628115B1 (ko) 영상 처리 방법, 장치, 기록 매체 및 전자 장치
CN114037640A (zh) 图像生成方法及装置
CN114549369A (zh) 数据修复方法、装置、计算机及可读存储介质
Cui et al. Exploring resolution and degradation clues as self-supervised signal for low quality object detection
CN117036895B (zh) 基于相机与激光雷达点云融合的多任务环境感知方法
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN117422855B (zh) 面向机器视觉的图像预处理方法、装置、设备及存储介质
CN116823908A (zh) 一种基于多尺度特征相关性增强的单目图像深度估计方法
Zhao et al. End‐to‐End Retinex‐Based Illumination Attention Low‐Light Enhancement Network for Autonomous Driving at Night
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN115311152A (zh) 图像处理方法、装置、电子设备以及存储介质
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
CN114119428A (zh) 一种图像去模糊方法和装置
CN113505650A (zh) 地形特征线提取方法及装置、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant