CN114926480A - 一种训练图像分割模型的方法、装置、设备及存储介质 - Google Patents

一种训练图像分割模型的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114926480A
CN114926480A CN202210596637.6A CN202210596637A CN114926480A CN 114926480 A CN114926480 A CN 114926480A CN 202210596637 A CN202210596637 A CN 202210596637A CN 114926480 A CN114926480 A CN 114926480A
Authority
CN
China
Prior art keywords
image
popularization
target
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210596637.6A
Other languages
English (en)
Other versions
CN114926480B (zh
Inventor
蔡焕洽
龚丽君
李志鋒
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210596637.6A priority Critical patent/CN114926480B/zh
Publication of CN114926480A publication Critical patent/CN114926480A/zh
Application granted granted Critical
Publication of CN114926480B publication Critical patent/CN114926480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种训练图像分割模型的方法、装置、设备及存储介质,可以应用于人工智能领域或智能交通领域等,用于解决针对与音乐、视频或语音相关的推广图像的图像分割准确性和可靠性较低的问题。该方法至少包括:对获得的样本推广图像进行特征提取,获得初始全局特征;从所述初始全局特征中,提取边缘子特征和位置子特征,其中,所述边缘子特征表征所述至少一个推广目标的边缘界限,所述位置子特征表征所述至少一个推广目标与所述样本推广图像之间的相对位置;基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标的预测分割区域。从三个不同角度限定推广目标所在区域,提高了图像分割准确性和可靠性。

Description

一种训练图像分割模型的方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种训练图像分割模型的方法、装置、设备及存储介质。
背景技术
随着科技的不断发展,越来越多的设备可以提供图像分割服务,图像分割服务可以用于获取图像中包含目标的前景区域。
设备可以采用多轮迭代训练得到的目标图像分割模型对图像进行处理,获得目标在图像中的前景区域,以提供图像分割服务。
传统的训练图像分割模型的方法中,由于样本图像的图像场景较为单一,或样本目标的组成较为单一等,因此,训练图像分割模型的过程较为简单。例如,设备可以采用图像分割模型对样本图像进行特征提取,并基于提取出的图像特征,预测样本目标在样本图像中的前景区域,最后基于预测出的前景区域,与样本图像的标注区域之间的误差,对图像分割模型进行训练。
然而,在推广视频的封面图像中,为了充分的展示推广目标的性能或优点等信息,封面图像的图像场景可能较为复杂,推广目标也可能由较多的人或物组成。因此,通过传统的训练图像分割模型的方法,获得的目标图像分割模型,在用于对推广视频的封面图像进行处理时,可能会出现由于图像场景较为复杂,而将推广目标以外的物体所在的区域,与推广目标所在的区域一同确定为前景区域的情况;也可能会出现由于推广目标的组成部分较多,而仅将其中一个组成部分所在的区域确定为前景区域的情况等,使得通过已训练的目标图像分割模型,获得的前景区域不准确,可靠性较低。
可见,相关技术下,针对推广视频的封面图像的图像分割准确性和可靠性较低。
发明内容
本申请实施例提供了一种训练图像分割模型的方法、装置、计算机设备及存储介质,用于解决针对推广视频的封面图像的图像分割准确性和可靠性较低的问题。
第一方面,提供一种训练图像分割模型的方法,包括:
获得样本推广图像集合,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注;
基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,在每轮迭代训练过程中,至少执行以下操作:
对获得的样本推广图像进行特征提取,获得初始全局特征;
从所述初始全局特征中,提取边缘子特征和位置子特征,其中,所述边缘子特征表征所述至少一个推广目标的边缘界限,所述位置子特征表征所述至少一个推广目标与所述样本推广图像之间的相对位置;
基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域,并基于所述预测分割区域,与所述至少一个推广目标对应的分割标注之间的误差,调整所述待训练的图像分割模型的模型参数。
第二方面,提供一种训练图像分割模型的装置,包括:
获取模块:用于获得样本推广图像集合,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注;
处理模块:用于基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,在每轮迭代训练过程中,至少执行以下操作:
所述处理模块具体用于:对获得的样本推广图像进行特征提取,获得初始全局特征;
所述处理模块具体用于:从所述初始全局特征中,提取边缘子特征和位置子特征,其中,所述边缘子特征表征所述至少一个推广目标的边缘界限,所述位置子特征表征所述至少一个推广目标与所述样本推广图像之间的相对位置;
所述处理模块具体用于:基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域,并基于所述预测分割区域,与所述至少一个推广目标对应的分割标注之间的误差,调整所述待训练的图像分割模型的模型参数。
可选的,所述获取模块具体用于:
获取各个推广视频;
分别将所述各个推广视频的封面图像,作为所述样本推广图像;
基于预设的分割策略,对每个样本推广图像包含的至少一个推广目标进行分割,获得相应的分割标注;
基于各个样本推广图像及其对应的分割标注,建立样本推广图像集合。
可选的,所述处理模块具体用于:
对获得的样本推广图像进行多尺度特征提取,获得多个中间全局特征,其中,每个中间全局特征对应不同的分辨率,各分辨率中的最大分辨率与所述样本推广图像的分辨率相同;
基于所述最大分辨率,对所述多个中间全局特征进行多尺度融合处理,获得所述初始全局特征,其中,所述初始全局特征对应的分辨率为所述最大分辨率。
可选的,所述处理模块具体用于:
基于所述初始全局特征,对所述样本推广图像进行图像分割,获得针对所述至少一个推广目标的初始分割区域;
从所述初始全局特征中,提取与所述初始分割区域相关联的区域局部特征;
基于所述区域局部特征,对所述初始全局特征进行局部特征调整,获得整合全局特征;
对所述整合全局特征、所述边缘子特征和所述位置子特征进行特征融合,获得所述融合全局特征,并基于所述融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域。
可选的,所述处理模块具体用于:
从所述初始全局特征中,分别提取所述样本推广图像包含的各个像素各自对应的像素特征;
分别确定各个像素特征,与所述区域局部特征之间的关联度;
基于获得的各个关联度,对所述各个像素特征进行像素特征调整,获得所述整合全局特征。
可选的,所述处理模块具体用于:
将所述各个关联度分别作为相应的像素特征的权重,分别对所述区域局部特征,与所述初始分割区域包含的各像素特征进行加权融合,获得相应的区域像素融合特征;
对获得的各区域像素融合特征和所述各个像素特征进行特征融合,获得所述整合全局特征。
可选的,每个分割标注包括区域标注、边缘标注和位置标注;所述处理模块具体用于:
基于所述边缘子特征,获得所述至少一个推广目标在所述样本推广图像中的预测边缘界限;
基于所述位置子特征,获得所述至少一个推广目标与所述样本推广图像之间的相对位置;
基于所述预测边缘界限与所述至少一个推广目标对应的边缘标注之间的边缘误差,以及所述相对位置与所述至少一个推广目标对应的位置标注之间的位置误差,以及所述预测分割区域与所述至少一个推广目标对应的区域标注之间的区域误差,调整所述待训练的图像分割模型的模型参数。
可选的,所述处理模块还用于:
在基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型之后,获取无标注推广图像集合,其中,每个无标注推广图像包含至少一个无标注推广目标;
采用所述目标图像分割模型,分别对各无标注推广图像包含的至少一个无标注推广目标进行图像分割,获得相应的目标分割区域;
基于所述无标注推广图像集合,以及获得的各个目标分割区域,对所述目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型。
可选的,所述处理模块具体用于:
基于预设的置信度评估策略,确定获得的每个目标分割区域的置信度,其中,所述置信度用于表征相应的目标分割区域的分割准确度;
将各个目标分割区域中,置信度大于预设置信度阈值的目标分割区域,作为相应的无标注推广图像的分割标注;
基于获得的各个具有分割标注的无标注推广图像,对所述目标图像分割模型进行多轮迭代训练,获得所述终极图像分割模型。
第三方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
第四方面,提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面所述的方法。
第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的方法。
本申请实施例中,采用图像分割模型对样本推广图像进行特征提取,获得初始全局特征之后,从初始全局特征中,提取出边缘子特征和位置子特征,从而,基于初始全局特征、边缘子特征和位置子特征的融合全局特征,对图像分割模型进行训练。边缘子特征表征至少一个推广目标在样本推广图像中的边缘界限,从而通过边缘子特征,可以从边缘界限的角度预测至少一个推广目标在样本推广图像中的区域。位置子特征表征至少一个推广目标与样本推广图像之间的相对位置,从而通过位置子特征,可以从相对位置角度预测至少一个推广目标在样本推广图像中的区域。通过初始全局特征,可以从至少一个推广目标的语义信息的角度,预测至少一个推广目标在样本推广图像中的区域。从而,通过初始全局特征、边缘子特征和位置子特征的融合全局特征,可以从三个不同角度,对至少一个推广目标在样本推广图像中的区域进行限定,增强至少一个推广目标之间的关联性。同时,通过三个不同角度获得的特征的融合全局特征,增强初始全局特征包含的语义信息,可以对至少一个推广目标在样本推广图像中的区域进行细节修正,使得获得的预测分割区域不存在遗漏推广目标,或将推广目标以外的物体误识别为推广目标的情况,提高了训练出的目标图像分割模型的准确性和可靠性。
附图说明
图1A为相关技术下的训练图像分割模型的方法的一种原理示意图一;
图1B为相关技术下的训练图像分割模型的方法的一种原理示意图二;
图1C为本申请实施例提供的训练图像分割模型的方法的一种应用场景;
图2为本申请实施例提供的训练图像分割模型的方法的一种流程示意图;
图3为本申请实施例提供的训练图像分割模型的方法的一种原理示意图一;
图4A为本申请实施例提供的训练图像分割模型的方法的一种原理示意图二;
图4B为本申请实施例提供的训练图像分割模型的方法的一种原理示意图三;
图4C为本申请实施例提供的训练图像分割模型的方法的一种原理示意图四;
图4D为本申请实施例提供的训练图像分割模型的方法的一种原理示意图五;
图5A为本申请实施例提供的训练图像分割模型的方法的一种原理示意图六;
图5B为本申请实施例提供的训练图像分割模型的方法的一种原理示意图七;
图6A为本申请实施例提供的训练图像分割模型的方法的一种原理示意图八;
图6B为本申请实施例提供的训练图像分割模型的方法的一种原理示意图九;
图7A为本申请实施例提供的训练图像分割模型的方法的一种原理示意图十;
图7B为本申请实施例提供的训练图像分割模型的方法的一种原理示意图十一;
图8为本申请实施例提供的训练图像分割模型的装置的一种结构示意图一;
图9为本申请实施例提供的训练图像分割模型的装置的一种结构示意图二。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)多尺度(multi-scale)和多尺度融合:
不同分辨率构成不同的尺度,特征的不同层可以对应不同的尺度。
多尺度融合是将不同尺度的特征转化为统一尺度后进行融合。
(2)深度可分离卷积(depthwise separable convolution,DWConv):
深度可分离卷积是对卷积神经网络中标准的卷积计算进行改进得到的算法。通过拆分空间维度和通道维度的相关性,减少了卷积计算所需要的参数个数。深度可分卷积的原型可认为是卷积神经网络中的Inception模块,其卷积计算分为两部分,首先对通道分别进行空间卷积,并对输出进行拼接,随后使用单位卷积核进行通道卷积以得到特征图。
本申请实施例涉及人工智能(Artificial Intelligence,AI)领域,是基于计算机视觉(Computer Vision,CV)技术和机器学习(Machine Learning,ML)技术设计的,可以应用与云计算、智慧交通、辅助驾驶或地图等领域。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它研究各种机器的设计原理与实现方法,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,使机器具有感知、推理和决策的功能。
人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互***、机电一体化等技术。人工智能的软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能的发展与进步,人工智能得以在多个领域中展开研究和应用,例如,常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、智能穿戴设备、无人驾驶、自动驾驶、无人机、机器人、智能医疗、车联网、自动驾驶、智慧交通等领域,相信随着未来技术的进一步发展,人工智能将在更多的领域中得到应用,发挥出越来越重要的价值。本申请实施例提供的方案,涉及人工智能的深度学习、增强现实等技术,具体通过如下实施例进一步说明。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机通过模拟人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使计算机不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域;而机器学习的核心则是深度学习,是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习、人工神经网络、式教学习等技术,深度学习则包括卷积神经网络(Convolutional Neural Networks,CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。
应当说明的是,本申请实施例中,涉及到推广图像或推广视频等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面对本申请实施例提供的训练图像分割模型的方法的应用领域进行简单介绍。
随着科技的不断发展,越来越多的设备可以提供图像分割服务,图像分割服务可以用于获取图像中包含目标的前景区域。
设备可以采用多轮迭代训练得到的目标图像分割模型对图像进行处理,获得目标在图像中的前景区域,以提供图像分割服务。
传统的训练图像分割模型的方法中,由于样本图像的图像场景较为单一,或样本目标的组成较为单一等,因此,训练图像分割模型的过程较为简单。例如,设备可以采用图像分割模型对样本图像进行特征提取,并基于提取出的图像特征,预测样本目标在样本图像中的前景区域,最后基于预测出的前景区域,与样本图像的标注区域之间的误差,对图像分割模型进行训练。
然而,在推广视频的封面图像中,为了充分的展示推广目标的性能或优点等信息,或为了呈现有助于推广的背景,封面图像的图像场景可能较为复杂,推广目标也可能由较多的人或物组成。请参考图1A,为一种推广视频的封面图像,在该封面图像中,包括推广手机的主播、被推广的物品,即主播手里的手机、背景桌面、桌面上的物品,以及背景墙等。在该封面图像中,包含较多的物品,其中推广目标包括手机和主播,其余物品均是与本次推广无关的物品,或者是主播为本次推广布置的背景等。
因此,通过传统的训练图像分割模型的方法,获得的目标图像分割模型,在用于对推广视频的封面图像进行处理时,可能会出现由于图像场景较为复杂,而将推广目标以外的物体所在的区域,与推广目标所在的区域一同确定为前景区域的情况;也可能会出现由于推广目标的组成部分较多,而仅将其中一个组成部分所在的区域确定为前景区域的情况等,使得通过已训练的目标图像分割模型,获得的前景区域不准确,可靠性较低。
通过传统的训练图像分割模型的方法,获得的目标图像分割模型,在用于对图1A所示的推广视频的封面图像进行处理时,请参考图1B,可能会出现仅将推广手机的主播所在的区域确定为前景区域的情况;也可能出现将推广手机的主播、被推广的物品,即手机、背景桌面,以及桌面上的物品一同确定为前景区域的情况等。
可见,相关技术下,针对推广视频的封面图像的图像分割准确性和可靠性较低。
为了解决针对推广视频的封面图像的图像分割准确性和可靠性较低的问题,本申请提出一种训练图像分割模型的方法。该方法中,在获得样本推广图像集合之后,基于样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注。
在每轮迭代训练过程中,至少执行以下操作:在对获得的样本推广图像进行特征提取,获得初始全局特征之后,从初始全局特征中,提取边缘子特征和位置子特征,其中,边缘子特征表征至少一个推广目标的边缘界限,位置子特征表征至少一个推广目标与样本推广图像之间的相对位置。基于初始全局特征、边缘子特征和位置子特征的融合全局特征,获得至少一个推广目标在样本推广图像中的预测分割区域,并基于预测分割区域,与至少一个推广目标对应的分割标注之间的误差,调整待训练的图像分割模型的模型参数。
本申请实施例中,采用图像分割模型对样本推广图像进行特征提取,获得初始全局特征之后,从初始全局特征中,提取出边缘子特征和位置子特征,从而,基于初始全局特征、边缘子特征和位置子特征的融合全局特征,对图像分割模型进行训练。边缘子特征表征至少一个推广目标在样本推广图像中的边缘界限,从而通过边缘子特征,可以从边缘界限的角度预测至少一个推广目标在样本推广图像中的区域。位置子特征表征至少一个推广目标与样本推广图像之间的相对位置,从而通过位置子特征,可以从相对位置角度预测至少一个推广目标在样本推广图像中的区域。通过初始全局特征,可以从至少一个推广目标的语义信息的角度,预测至少一个推广目标在样本推广图像中的区域。从而,通过初始全局特征、边缘子特征和位置子特征的融合全局特征,可以从三个不同角度,对至少一个推广目标在样本推广图像中的区域进行限定,增强至少一个推广目标之间的关联性。同时,通过三个不同角度获得的特征的融合全局特征,增强初始全局特征包含的语义信息,可以对至少一个推广目标在样本推广图像中的区域进行细节修正,使得获得的预测分割区域不存在遗漏推广目标,或将推广目标以外的物体误识别为推广目标的情况,提高了训练出的目标图像分割模型的准确性和可靠性。
下面对本申请提供的训练图像分割模型的方法的应用场景进行说明。
请参考图1C,为本申请提供的训练图像分割模型的方法的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信,例如,通过连接网线或串口线进行通信;也可以是采用无线通信技术进行通信,例如,通过蓝牙或无线保真(wireless fidelity,WIFI)等技术进行通信,具体不做限制。
客户端101泛指可以向服务端102提供样本推广图像集合或可以使用已训练的目标图像分割模型的设备,例如,终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端或飞行器等。服务端102泛指可以训练图像分割模型的设备,例如,终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算,以减少本地计算资源的占用;同样也可以采用云存储,以减少本地存储资源的占用。
作为一种实施例,客户端101和服务端102可以是同一个设备,具体不做限制。本申请实施例中,以客户端101和服务端102分别为不同的设备为例进行介绍。
下面基于图1C,以服务端102为服务器,以服务器为主体,对本申请实施例提供的训练图像分割模型的方法进行具体介绍。请参考图2,为本申请实施例提供的训练图像分割模型的方法的一种流程示意图。
S201,获得样本推广图像集合。
在对图像分割模型进行训练之前,服务器可以先获取样本推广图像集合。服务器可以接收客户端发送的各个样本推广图像,建立样本推广图像集合;也可以从存储单元中读取各个样本推广图像,建立样本推广图像集合;也可以从网络资源中下载各个样本推广图像,建立样本推广图像集合等,具体不做限制。
样本推广图像集合中的每个样本推广图像包含至少一个推广目标及其对应的分割标注。每个样本推广图像包含的所有推广目标可以对应一个分割标注,或者,样本推广图像包含的每个推广目标可以分别对应一个分割标注等,具体不做限制。样本推广图像可以是广告图像,推广目标可以包括广告所推广的物体、广告中的介绍该物体的人,或代言人,以及有助于介绍该物体的其他物体等,具体不做限制。
作为一种实施例,为了丰富样本推广图像集合,增加用于训练图像分割模型的样本推广图像的数据量,提高训练出的目标图像分割模型的鲁棒性,服务器在获得各个样本推广图像之后,可以分别对每个样本推广图像进行随机旋转处理、增加噪声处理、随机翻转处理等预处理,使得获得的样本推广图像的数量翻倍,增加样本推广图像集合的数据量。
作为一种实施例,样本推广图像可以是从推广视频中获得的,服务器可以通过获取各个推广视频,并分别将各个推广视频的封面图像,作为样本推广图像,从而可以基于获得的各个样本推广图像,建立样本推广图像集合。
在获得样本推广图像集合之后,服务器可以基于预设的分割策略,对每个样本推广图像包含的至少一个推广目标进行分割,获得相应的分割标注。服务器可以采用预设的分割程序,对各个样本推广图像各自包含的至少一个推广目标进行分割,获得相应的至少一个推广目标所在的区域,即分割标注。服务器也可以通过人工标注,获得各个样本推广图像各自包含的至少一个推广目标所在的区域,即分割标注。服务器也可以在预设的分割程序分割完成后,由人工进行细节调整,获得各个样本推广图像各自对应的分割标注。分割标注用于作为样本标签,对图像分割模型进行有监督的模型训练。
作为一种实施例,服务器可以在获得各个样本推广图像及其对应的分割标注之后,基于各个样本推广图像及其对应的分割标注,建立样本推广图像集合。服务器也可以在获得各个样本推广图像之后,建立样本推广图像集合,并在获得各个样本推广图像各自对应的分割标注之后,为样本推广图像集合包含的各个样本推广图像关联各自对应的分割标注等,具体不做限制。
S202,基于样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型。
在获得样本推广图像集合之后,服务器可以基于样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型。例如,在每轮迭代训练之后,如果确定图像分割模型不满足预设训练目标,那么调整图像分割模型的模型参数,并继续进行迭代训练,如果确定图像分割模型满足预设训练目标,那么获得已训练的目标图像分割模型。
下面以针对一个样本推广图像进行的一轮迭代训练过程为例进行介绍,请参考S203~S206,每轮迭代训练过程类似,在此不再赘述。
S203,对获得的样本推广图像进行特征提取,获得初始全局特征。
服务器可以采用图像分割模型,对获得的样本推广图像进行特征提取,获得初始全局特征。初始全局特征表征的是样本推广图像包含的语义信息,包括样本推广图像包含的至少一个推广目标的语义信息,以及除了至少一个推广目标以外的语义信息等。
作为一种实施例,服务器在进行特征提取时,对样本推广图像进行的可以是多尺度特征提取,获得多个中间全局特征,每个中间全局特征对应不同的分辨率,各分辨率中的最大分辨率与样本推广图像的分辨率相同。服务器可以基于最大分辨率,对多个中间全局特征进行多尺度融合处理,获得初始全局特征,初始全局特征对应的分辨率为最大分辨率。从而,服务器在特征提取过程中,不需要进行恢复分辨率处理,减少了特征信息的丢失,并将不同分辨率的中间全局特征进行多尺度融合处理,使得获得的初始全局特征可以融合更多的特征信息,从而表征更加准确地语义信息。
请参考图3,为一种特征提取的原理示意图,以特征提取过程由9层网络层实现为例。样本推广图像在输入第一层网络层之后,由第一层网络层对样本推广图像进行第一尺度的特征提取,获得第一中间全局特征,第一中间全局特征与样本推广图像具有相同的分辨率。将第一中间全局特征输入第二层网络层,由第二层网络层对第一中间全局特征进行第一尺度的特征提取,基于特征提取的结果,更新第一中间全局特征。
将更新后的第一中间全局特征输入第三层网络层,由第三层网络层,分别对第一中间全局特征进行第一尺度和第二尺度的特征提取,基于特征提取的结果更新第一尺度的第一中间全局特征,以及获得第二尺度的第二中间全局特征。第二尺度的分辨率小于第一尺度的分辨率,对第一中间全局特征进行第二尺度的特征提取,可以是对第一中间全局特征进行降采样处理。
将更新后的第一中间全局特征输入第四层网络层,由第四层网络层,对第一中间全局特征进行第一尺度的特征提取,继续更新第一中间全局特征。同时,将第二中间全局特征输入第四层网络层,由第四层网络层,对第二中间全局特征进行第二尺度的特征提取,基于特征提取的结果,更新第二中间全局特征。
将更新后的第一中间全局特征输入第五层网络层,由第五层网络层,分别对第一中间全局特征进行第一尺度和第二尺度的特征提取,同时将更新后的第二中间全局特征输入第五层网络层,由第五层网络层,分别对第二中间全局特征进行第一尺度和第二尺度的特征提取,融合第一尺度的特征提取结果,更新第一中间全局特征,同时融合第二尺度的特征提取结果,更新第二中间全局特征。对第二中间全局特征进行第二尺度的特征提取,可以是对第二中间全局特征进行上采样处理,更新后的第一中间全局特征融合了原本的第一尺度的特征,以及第二尺度的特征,而不是直接由第二尺度的特征恢复分辨率得到的,减少了特征信息的损失。
将第一中间全局特征输出,作为样本推广图像的初始全局特征。在特征提取的过程中,第一尺度的特征提取的网络层,与第二尺度的特征提取的网络层并行连接,使得第一中间全局特征全称保持与样本推广图像相同的分辨率,提高第一中间全局特征的语义表征的准确性。
作为一种实施例,图像分割模型中可以包括特征提取网络,由特征提取网络对样本推广图像进行特征提取,特征提取网络可以是基于HRNet网络获得的,特征提取网络包括的网络层数量具体不做限制,在进行多尺度特征提取时,不同尺度的数量具体不做限制。
S204,从初始全局特征中,提取边缘子特征和位置子特征。
在获得初始全局特征之后,服务器可以从初始全局特征中,提取边缘子特征,边缘子特征表征至少一个推广目标的边缘界限。
服务器可以直接从初始全局特征中提取边缘子特征,也可以对初始全局特征进行变换,以获得边缘子特征等,具体不做限制。例如,服务器可以采用卷积层和上采样层等,对初始全局特征进行变换,请参考图4A,为一种提取边缘子特征的网络结构。
第一层网络层可以由卷积层(Conv)、批标准化层(Batch Normalization,BN)和激活层(Rectified Linear Unit,ReLU)组成,卷积核的大小可以是3*3。第二层网络层包括上采样层(Upsample),上采样层可以将分辨率提升到原分辨率的2倍。第三层网络层包括卷积层,卷积核的大小可以是3*3。第四层网络层可以包括上采样层,上采样层可以将分辨率提升到原分辨率的2倍。
通过该提取边缘子特征的网络结构,可以输出单通道的边缘子特征,单通道的边缘子特征可以通过黑白图像进行可视化表征,边缘子特征与样本推广图像的分辨率相同,能够直观的表征至少一个推广目标的边缘界限,继续以图1A所示的图像为例,请参考图4B,以黑色曲线表征至少一个推广目标的边缘界限,白色表示黑色曲线所围成的区域。
在获得初始全局特征之后,服务器可以从初始全局特征中,提取位置子特征,位置子特征表征至少一个推广目标与样本推广图像之间的相对位置。
服务器可以直接从初始全局特征中提取位置子特征,也可以对初始全局特征进行变换,以获得位置子特征等,具体不做限制。例如,服务器可以采用卷积层等,对初始全局特征进行变换,请参考图4C,为一种提取位置子特征的网络结构。
前三层网络层可以均是由卷积层(Conv)、批标准化层(Batch Normalization,BN)和激活层(Rectified Linear Unit,ReLU)组成,卷积核的大小可以是3*3。第四层网络层可以包括上卷积层,卷积核的大小可以是3*3。
通过提取位置子特征的网络结构,可以对至少一个推广目标在样本推广图像中的相对位置进行回归估计,输出5个通道的位置子特征,5个通道分别表征以样本推广图像形成的坐标系中,至少一个推广目标所在的矩形区域的一个顶点坐标,矩形区域的长和宽,以及矩形区域内是否存在至少一个推广目标的分类结果,如存在至少一个推广目标时为1,不存在至少一个推广目标时为0等。继续以图1A所示的图像为例,请参考图4D,以黑色虚线矩形框表征至少一个推广目标与样本推广图像之间的相对位置。
例如,服务器可以采用边缘解码网络(Edge Decoder)从初始全局特征中,提取边缘子特征。服务器可以采用盒子网络(BoxNet)从初始全局特征中,提取位置子特征。
S205,基于初始全局特征、边缘子特征和位置子特征的融合全局特征,获得至少一个推广目标在样本推广图像中的预测分割区域。
在获得边缘子特征和位置子特征之后,服务器可以对初始全局特征、边缘子特征和位置子特征进行特征融合,获得融合全局特征。基于初始全局特征、边缘子特征和位置子特征的融合全局特征,对样本推广图像进行图像分割,获得至少一个推广目标在样本推广图像中的预测分割区域。通过融合多种特征,使得服务器在采用图像分割模型对样本推广图像进行图像分割时,可以基于更多的语义信息预测至少一个推广目标在样本推广图像中的预测分割区域,使得获得的预测分割区域更加准确,不仅可以提高训练效率,还使得训练得到的目标图像分割模型的图像分割准确性更高。
作为一种实施例,服务器还可以先基于粗略估计的至少一个推广目标所在的区域,对初始全局特征进行调整,获得整合全局特征,再基于整合全局特征、边缘子特征和位置子特征进行特征融合,获得融合全局特征。
服务器可以基于初始全局特征,对样本推广图像进行图像分割,获得针对至少一个推广目标的初始分割区域,初始分割区域是基于初始全局特征对至少一个推广目标在样本推广图像中的区域的一个粗略估计。服务器可以从初始全局特征中,提取与初始分割区域相关联的区域局部特征,该区域局部特征可以仅表征初始分割区域的语义信息。服务器基于区域局部特征,对初始全局特征进行局部特征调整,获得整合全局特征。在获得整合全局特征之后,服务器可以对整合全局特征、边缘子特征和位置子特征进行特征融合,获得融合全局特征,并基于融合全局特征,获得至少一个推广目标在样本推广图像中的预测分割区域。
作为一种实施例,在基于区域局部特征,对初始全局特征进行局部特征调整,获得整合全局特征时,服务器可以先从初始全局特征中,分别提取样本推广图像包含的各个像素各自对应的像素特征。分别确定各个像素特征,与区域局部特征之间的关联度,关联度可以表征相应的像素属于至少一个推广目标的可能性,关联度越大表征该像素属于至少一个推广目标的可能性越大,关联度越小表征属于至少一个推广目标的可能性越小。基于获得的各个关联度,对各个像素特征进行像素特征调整,获得整合全局特征,增强了整合全局特征的语义表征能力,从而,基于整合全局特征,可以更加准确地获得至少一个推广目标在样本推广图像中的预测分割区域。
作为一种实施例,在基于获得的各个关联度,对各个像素特征进行像素特征调整,获得整合全局特征时,服务器可以将各个关联度分别作为相应的像素特征的权重,分别对区域局部特征,与初始分割区域包含的各像素特征进行加权融合,获得相应的区域像素融合特征。通过加权融合,使得每个像素特征中可以适当的包含区域局部特征,将像素所属的推广目标的目标特征,融合的像素中,增强了像素的语义表征能力。本申请实施例利用至少一个推广目标所在的区域的特征,对各个像素的特征进行调整,相较于基于相邻像素的特征对某一像素的特征进行调整的方法来说,本申请实施例是以推广目标为一个整体,对推广目标相关的像素的特征进行调整,避免将推广目标割裂开,而丧失语义信息的情况,提高调整像素特征的准确性。
在获得各个像素对应的区域像素融合特征之后,服务器可以对获得的各区域像素融合特征和各个像素特征进行特征融合,获得整合全局特征。在对获得的各区域像素融合特征和各个像素特征进行特征融合时,服务器可以将每个像素对应的区域像素融合特征和像素特征对应拼接,并按照各个像素的位置进行拼接,获得整合全局特征。
请参考图5A,为一种对初始全局特征进行调整,获得整合全局特征的一种网络结构,包括像素表示模块、粗略区域表征模块、物体区域表征模块、关联度计算模块和特征融合模块。像素表示模块用于从初始全局特征中,分别提取样本推广图像包含的各个像素各自对应的像素特征。粗略区域表征模块用于基于初始全局特征,对样本推广图像进行图像分割,获得针对至少一个推广目标的初始分割区域。物体区域表征模块从初始全局特征中,提取与初始分割区域相关联的区域局部特征。关联度计算模块用于确定各个像素特征,与区域局部特征之间的关联度。特征融合模块用于对获得的各区域像素融合特征和各个像素特征进行特征融合,获得整合全局特征。
粗略区域表征模块在获得初始全局特征之后,可以基于初始全局特征,对样本推广图像进行图像分割,获得针对至少一个推广目标的初始分割区域。粗略区域表征模块可以基于完整的初始全局特征进行图像分割,也可以基于初始全局特征中的浅层特征或中间层特征进行图像分割等,具体不做限制。例如,初始分割区域以b*c*h*w的矩阵进行表示,b表示每次运算时所处理的数据的批次,c表示矩阵的通道数,h表示矩阵的行数,w表示矩阵的列数。
像素表示模块可以从完整的初始全局特征中,分别提取样本推广图像包含的各个像素各自对应的像素特征,也可以从初始全局特征的深层特征中,分别提取样本推广图像包含的各个像素各自对应的像素特征等,具体不做限制。例如,各个像素特征形成的矩阵以b*k*h*w的矩阵进行表示。
物体区域表征模块根据粗略区域表征模块的输出,以及像素表示模块的输出,从初始全局特征中,提取与初始分割区域相关联的区域局部特征。粗略区域表征模块的输出,与像素表示模块的输出通过相乘进行特征融合,获得区域局部特征。例如,区域局部特征以b*c*k*1的向量进行表示,每个向量对应一个区域类别,即前景区域或背景区域等。
关联度计算模块将像素表示模块的输出作为查找对象,区域局部特征作为被查找对象,两个矩阵通过相乘,获得各个像素特征,与区域局部特征之间的相似度,即关联度。
特征融合模块将获得的各个关联度形成的矩阵,即b*(h*w)*k,与区域局部特征对应的矩阵通过相乘,并将相乘的结果,即b*k*h*w,与像素表示模块的输出,即b*k*h*w,进行拼接,实现各区域像素融合特征和各个像素特征的特征融合,获得整合全局特征,即b*2k*h*w。
作为一种实施例,在获得融合全局特征时,可以采用特征融合网络实现,特征融合网络可以进行多任务的特征融合处理,可以减少噪声点,以使得预测分割区域更加完整和准确。以对初始全局特征、边缘子特征和位置子特征进行特征融合,获得融合全局特征为例,请参考图5B,特征融合网络可以包括5层网络层,前三层网络层均由深度可分离卷积层(DWConv)、批标准化层和激活层组成,卷积核的大小可以是3*3。第四层网络层包括深度可分离卷积层,第五层网络层包括上采样层,通过上采样层,可以将输出提升为原分辨率的4倍。通过特征融合网络可以输出两个通道的融合全局特征,一个通道表征前景区域,另一个通道表征背景区域。
作为一种实施例,服务器可以采用光学字符识别网络(OCRNet)获得整合全局特征。服务器可以采用多分辨率特征融合网络(RefineNet)获得初始全局特征、边缘子特征和位置子特征的融合全局特征。
S206,基于预测分割区域,与至少一个推广目标对应的分割标注之间的误差,调整待训练的图像分割模型的模型参数。
在获得预测分割区域之后,服务器可以基于预测分割区域,与至少一个推广目标对应的分割标注之间的误差,确定图像分割模型的训练损失,在训练损失未达到训练目标时,调整图像分割模型的模型参数,并继续对图像分割模型进行训练;在训练损失达到训练目标时,将图像分割模型输出,获得已训练的目标图像分割模型。
训练目标可以有多种,例如,训练损失表现为收敛时,确定训练损失达到训练目标;又例如,在样本推广图像集合包含的所有样本推广图像全部训练完时,确定训练损失达到训练目标等,具体不做限制。
作为一种实施例,如果每个分割标注包括区域标注、边缘标注和位置标注,那么服务器可以基于边缘子特征,获得至少一个推广目标在样本推广图像中的预测边缘界限。基于位置子特征,获得至少一个推广目标与样本推广图像之间的相对位置。
从而,基于预测边缘界限与至少一个推广目标对应的边缘标注之间的边缘误差,以及相对位置与至少一个推广目标对应的位置标注之间的位置误差,以及预测分割区域与至少一个推广目标对应的区域标注之间的区域误差,确定图像分割模型的训练损失,在训练损失未达到训练目标时,调整待训练的图像分割模型的模型参数,并继续进行训练;在训练损失达到训练目标时,将图像分割模型输出,获得已训练的目标图像分割模型。
作为一种实施例,由于图像的分割标注的标注过程困难,标注成本高,通过有限的样本推广图像训练得到的目标图像分割模型的模型泛化性能差,为了有效提高训练出的模型的鲁棒性,提高泛化能力,服务器可以获取无标注推广图像集合,其中,每个无标注推广图像包含至少一个无标注推广目标。采用目标图像分割模型,分别对各无标注推广图像包含的至少一个无标注推广目标进行图像分割,获得相应的目标分割区域。基于无标注推广图像集合,以及获得的各个目标分割区域,对目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型。终极图像分割模型经过各无标注推广图像的训练,避免了终极图像分割模型出现过拟合的问题,提高了终极图像分割模型的泛化能力,使得训练出的终极图像分割模型的图像分割准确性和可靠性更高。
作为一种实施例,在基于无标注推广图像集合,以及获得的各个目标分割区域,对目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型时,服务器可以基于预设的置信度评估策略,确定获得的每个目标分割区域的置信度,其中,置信度用于表征相应的目标分割区域的分割准确度。将各个目标分割区域中,置信度大于预设置信度阈值的目标分割区域,作为相应的无标注推广图像的分割标注。基于获得的各个具有分割标注的无标注推广图像,对目标图像分割模型进行多轮迭代训练,获得终极图像分割模型,多轮迭代训练与前文介绍的一轮迭代过程类似,在此不再赘述。
预设置信度阈值可以设置为95%,因此置信度大于预设置信度阈值的目标分割区域,可以认为是较为准确的目标分割区域,因此可以将置信度大于95%的目标分割区域,作为相应的无标注推广图像的分割标注,对目标图像分割模型进行进一步的训练,实现半监督的训练过程。
在基于获得的各个具有分割标注的无标注推广图像,对目标图像分割模型进行多轮迭代训练,获得终极图像分割模型时,服务器可以基于各个具有分割标注的无标注推广图像,以及样本推广图像集合,一同对目标图像分割模型进行多轮迭代训练,获得终极图像分割模型。
例如,在获得目标图像分割模型之后,可以获取多个无标注推广图像,采用目标图像分割模型分别对该多个无标注推广图像进行图像分割,获得相应的目标分割区域。服务器确定置信度大于预设置信度阈值的目标分割区域,作为相应的无标注推广图像的分割标注。基于样本推广图像集合,以及具有分割标注的无标注推广图像对目标图像分割模型进行多轮迭代训练,直到目标图像分割模型的训练损失收敛,或训练次数达到预设次数,或训练时长达到预设时长等为止,获得终极图像分割模型。
作为一种实施例,在进行多轮迭代训练过程中,可以采用梯度下降法(StochasticGradient Descent,SGD)求解图像分割模型中的模型参数和偏置参数。初始学习率可以设置为0.01,在每次迭代过程中,在计算误差之后,反向传播,计算梯度并更新所有模型参数。学习率的下降根据训练损失的下降决定,如果训练损失连续5轮没有下降,那么学习率可以乘以0.5。
作为一种实施例,在获得目标图像分割模型或终极图像分割模型之后,服务器可以采用目标图像分割模型或终极图像分割模型对待分割图像进行图像分割处理。目标图像分割模型或终极图像分割模型可以向对待分割图像进行特征提取,并基于提取出的图像特征进行图像分割,以获得初始分割结果。服务器可以对初始分割结果进行腐蚀膨胀操作,例如,先对初始分割结果进行开运算,即先腐蚀后膨胀,去掉初始分割结果中的分割噪声点;再对开运算处理后的初始分割结果进行闭运算,即先膨胀后腐蚀,填充上至少一个推广目标中存在的细小空洞。最后还可以使用滤波组件,对腐蚀膨胀操作后的初始分割结果进行滤波处理,使得边缘更加平滑,从而可以获得更加符合真实边缘的,更加准确的图像分割结果,如包含所有推广目标的前景区域。
下面以样本推广图像为广告视频的封面图像为例,对本申请实施例提供的图像分割模型的训练方法进行介绍。
请参考图6A,为一种广告封面图像,该广告封面图像中的广告主体为汽车,汽车前方有两个成人和一个小孩,汽车的上方有一个房子,汽车所在场景包括草坪、山川和天空等。广告封面图像可以表征汽车的容量大、安全系数高、受众群是喜欢旅游或有孩子的家庭等宣传元素。因此,该广告封面图像中的推广目标包括汽车、人物和房子。采用图像分割模型对该广告封面图像进行图像分割时,可以获得汽车、人物和房子在该广告封面图像中的目标分割区域。通过获取目标分割区域,可以对汽车与除了汽车以外的推广目标之间的关联关系等进行分析,以进一步提高广告的表征能力,达到最优的推广效果等。
请参考图6B,图像分割模型可以由多个网络组成,包括特征提取网络、特征整合网络、边缘特征提取网络、位置特征提取网络和特征融合网络等。服务器在基于一个具有分割标注的广告封面图像,即样本推广图像,对图像分割模型进行训练时,可以先将广告封面图像输入特征提取网络,以获得广告封面图像的初始全局特征。由于广告封面图像包含的元素较多,场景较为复杂,因此提取出的初始全局特征准确性较低,那么直接基于初始全局特征训练得到的图像分割模型,在对目标广告的封面图像进行分割时,请参考图7A,容易出现将部分推广目标分割为背景区域等情况,如将汽车左侧的两个人物和汽车上方的房子分割为背景区域,造成分割不准确的问题。
因此,在获得初始全局特征之后,采用特征整合网络对初始全局特征进行特征整合,获得整合全局特征;采用边缘特征提取网络从初始全局特征中提取出边缘子特征;采用位置特征提取网络从初始全局特征中提取出位置子特征;采用特征融合网络融合整合全局特征、边缘子特征和位置子特征,获得融合全局特征。
分别基于边缘子特征,获得至少一个推广目标在广告封面图像中的预测边缘界限;基于位置子特征,获得至少一个推广目标与广告封面图像之间的相对位置;基于融合全局特征,获得至少一个推广目标在广告封面图像中的预测分割区域。
如果分割标注可以包括边缘标注、位置标注和区域标注,那么可以分别基于预测边缘界限与至少一个推广目标对应的边缘标注之间的边缘误差,以及相对位置与至少一个推广目标对应的位置标注之间的位置误差,以及预测分割区域与至少一个推广目标对应的区域标注之间的区域误差,确定图像分割模型的训练损失。在训练损失未达到训练目标时,调整待训练的图像分割模型的模型参数,并基于下一个广告封面图像,继续对图像分割模型进行训练;在训练损失达到训练目标时,将图像分割模型输出,获得已训练的目标图像分割模型。
通过多种特征的融合,使得在使用训练得到的目标图像分割模型,对目标广告的封面图像进行图像分割时,可以准确地获得封面图像中包含的各推广目标的所在区域,请参考图7B,目标图像分割模型将封面图像分割为两个区域,包括前景区域和背景区域,其中,前景区域中包括汽车,汽车前方的两个成人和一个小孩,汽车上方的一个房子。从而,可以对汽车与除了汽车以外的推广目标之间的关联关系等进行分析,以进一步提高广告的表征能力,达到最优的推广效果等。
基于同一发明构思,本申请实施例提供一种训练图像分割模型的装置,能够实现前述的训练图像分割模型的方法对应的功能。请参考图8,该装置包括获取模块801和处理模块802,其中:
获取模块801:用于获得样本推广图像集合,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注;
处理模块802:用于基于样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,在每轮迭代训练过程中,至少执行以下操作:
处理模块802具体用于:对获得的样本推广图像进行特征提取,获得初始全局特征;
处理模块802具体用于:从初始全局特征中,提取边缘子特征和位置子特征,其中,边缘子特征表征至少一个推广目标的边缘界限,位置子特征表征至少一个推广目标与样本推广图像之间的相对位置;
处理模块802具体用于:基于初始全局特征、边缘子特征和位置子特征的融合全局特征,获得至少一个推广目标在样本推广图像中的预测分割区域,并基于预测分割区域,与至少一个推广目标对应的分割标注之间的误差,调整待训练的图像分割模型的模型参数。
在一种可能的实施例中,获取模块801具体用于:
获取各个推广视频;
分别将各个推广视频的封面图像,作为样本推广图像;
基于预设的分割策略,对每个样本推广图像包含的至少一个推广目标进行分割,获得相应的分割标注;
基于各个样本推广图像及其对应的分割标注,建立样本推广图像集合。
在一种可能的实施例中,处理模块802具体用于:
对获得的样本推广图像进行多尺度特征提取,获得多个中间全局特征,其中,每个中间全局特征对应不同的分辨率,各分辨率中的最大分辨率与样本推广图像的分辨率相同;
基于最大分辨率,对多个中间全局特征进行多尺度融合处理,获得初始全局特征,其中,初始全局特征对应的分辨率为最大分辨率。
在一种可能的实施例中,处理模块802具体用于:
基于初始全局特征,对样本推广图像进行图像分割,获得针对至少一个推广目标的初始分割区域;
从初始全局特征中,提取与初始分割区域相关联的区域局部特征;
基于区域局部特征,对初始全局特征进行局部特征调整,获得整合全局特征;
对整合全局特征、边缘子特征和位置子特征进行特征融合,获得融合全局特征,并基于融合全局特征,获得至少一个推广目标在样本推广图像中的预测分割区域。
在一种可能的实施例中,处理模块802具体用于:
从初始全局特征中,分别提取样本推广图像包含的各个像素各自对应的像素特征;
分别确定各个像素特征,与区域局部特征之间的关联度;
基于获得的各个关联度,对各个像素特征进行像素特征调整,获得整合全局特征。
在一种可能的实施例中,处理模块802具体用于:
将各个关联度分别作为相应的像素特征的权重,分别对区域局部特征,与初始分割区域包含的各像素特征进行加权融合,获得相应的区域像素融合特征;
对获得的各区域像素融合特征和各个像素特征进行特征融合,获得整合全局特征。
在一种可能的实施例中,每个分割标注包括区域标注、边缘标注和位置标注;处理模块802具体用于:
基于边缘子特征,获得至少一个推广目标在样本推广图像中的预测边缘界限;
基于位置子特征,获得至少一个推广目标与样本推广图像之间的相对位置;
基于预测边缘界限与至少一个推广目标对应的边缘标注之间的边缘误差,以及相对位置与至少一个推广目标对应的位置标注之间的位置误差,以及预测分割区域与至少一个推广目标对应的区域标注之间的区域误差,调整待训练的图像分割模型的模型参数。
在一种可能的实施例中,处理模块802还用于:
在基于样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型之后,获取无标注推广图像集合,其中,每个无标注推广图像包含至少一个无标注推广目标;
采用目标图像分割模型,分别对各无标注推广图像包含的至少一个无标注推广目标进行图像分割,获得相应的目标分割区域;
基于无标注推广图像集合,以及获得的各个目标分割区域,对目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型。
在一种可能的实施例中,处理模块802具体用于:
基于预设的置信度评估策略,确定获得的每个目标分割区域的置信度,其中,置信度用于表征相应的目标分割区域的分割准确度;
将各个目标分割区域中,置信度大于预设置信度阈值的目标分割区域,作为相应的无标注推广图像的分割标注;
基于获得的各个具有分割标注的无标注推广图像,对目标图像分割模型进行多轮迭代训练,获得终极图像分割模型。
请参照图9,上述训练图像分割模型的装置可以运行在计算机设备900上,数据存储程序的当前版本和历史版本以及数据存储程序对应的应用软件可以安装在计算机设备900上,该计算机设备900包括处理器980以及存储器920。在一些实施例中,该计算机设备900可以包括显示单元940,显示单元940包括显示面板941,用于显示由用户交互操作界面等。
在一种可能的实施例中,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板941。
处理器980用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器980读取数据存储程序或文件等,从而在该计算机设备900上运行数据存储程序,在显示单元940上显示对应的界面。处理器980可以包括一个或多个通用处理器,还可包括一个或多个DSP(Digital Signal Processor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器920一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器920用于存储计算机程序和其他数据,该计算机程序包括各客户端对应的应用程序等,其他数据可包括操作***或应用程序被运行后产生的数据,该数据包括***数据(例如操作***的配置参数)和用户数据。本申请实施例中程序指令存储在存储器920中,处理器980执行存储器920中的程序指令,实现前文图论述的任意的一种方法。
上述显示单元940用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与计算机设备900的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元940可以包括显示面板941。显示面板941例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板941上或在显示面板941的操作),并根据预先设定的程式驱动相应的连接装置。
在一种可能的实施例中,显示面板941可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测玩家的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。
其中,显示面板941可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元940,在一些实施例中,计算机设备900还可以包括输入单元930,输入单元930可以包括图像输入设备931和其他输入设备932,其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
除以上之外,计算机设备900还可以包括用于给其他模块供电的电源990、音频电路960、近场通信模块970和RF电路910。计算机设备900还可以包括一个或多个传感器950,例如加速度传感器、光传感器、压力传感器等。音频电路960具体包括扬声器961和麦克风962等,例如计算机设备900可以通过麦克风962采集用户的声音,进行相应的操作等。
作为一种实施例,处理器980的数量可以是一个或多个,处理器980和存储器920可以是耦合设置,也可以是相对独立设置。
作为一种实施例,图9中的处理器980可以用于实现如图8中的获取模块801和处理模块802的功能。
作为一种实施例,图9中的处理器980可以用于实现前文论述的服务器或终端设备对应的功能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,例如,通过计算机程序产品体现,该计算机程序产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (13)

1.一种训练图像分割模型的方法,其特征在于,包括:
获得样本推广图像集合,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注;
基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,在每轮迭代训练过程中,至少执行以下操作:
对获得的样本推广图像进行特征提取,获得初始全局特征;
从所述初始全局特征中,提取边缘子特征和位置子特征,其中,所述边缘子特征表征所述至少一个推广目标的边缘界限,所述位置子特征表征所述至少一个推广目标与所述样本推广图像之间的相对位置;
基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域,并基于所述预测分割区域,与所述至少一个推广目标对应的分割标注之间的误差,调整所述待训练的图像分割模型的模型参数。
2.根据权利要求1所述的方法,其特征在于,所述获得样本推广图像集合,包括:
获取各个推广视频;
分别将所述各个推广视频的封面图像,作为所述样本推广图像;
基于预设的分割策略,对每个样本推广图像包含的至少一个推广目标进行分割,获得相应的分割标注;
基于各个样本推广图像及其对应的分割标注,建立样本推广图像集合。
3.根据权利要求1所述的方法,其特征在于,所述对获得的样本推广图像进行特征提取,获得初始全局特征,包括:
对获得的样本推广图像进行多尺度特征提取,获得多个中间全局特征,其中,每个中间全局特征对应不同的分辨率,各分辨率中的最大分辨率与所述样本推广图像的分辨率相同;
基于所述最大分辨率,对所述多个中间全局特征进行多尺度融合处理,获得所述初始全局特征,其中,所述初始全局特征对应的分辨率为所述最大分辨率。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域,包括:
基于所述初始全局特征,对所述样本推广图像进行图像分割,获得针对所述至少一个推广目标的初始分割区域;
从所述初始全局特征中,提取与所述初始分割区域相关联的区域局部特征;
基于所述区域局部特征,对所述初始全局特征进行局部特征调整,获得整合全局特征;
对所述整合全局特征、所述边缘子特征和所述位置子特征进行特征融合,获得所述融合全局特征,并基于所述融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域。
5.根据权利要求4所述的方法,其特征在于,所述基于所述区域局部特征,对所述初始全局特征进行局部特征调整,获得整合全局特征,包括:
从所述初始全局特征中,分别提取所述样本推广图像包含的各个像素各自对应的像素特征;
分别确定各个像素特征,与所述区域局部特征之间的关联度;
基于获得的各个关联度,对所述各个像素特征进行像素特征调整,获得所述整合全局特征。
6.根据权利要求5所述的方法,其特征在于,所述基于获得的各个关联度,对所述各个像素特征进行像素特征调整,获得所述整合全局特征,包括:
将所述各个关联度分别作为相应的像素特征的权重,分别对所述区域局部特征,与所述初始分割区域包含的各像素特征进行加权融合,获得相应的区域像素融合特征;
对获得的各区域像素融合特征和所述各个像素特征进行特征融合,获得所述整合全局特征。
7.根据权利要求1~3任一项所述的方法,其特征在于,每个分割标注包括区域标注、边缘标注和位置标注;
所述基于所述预测分割区域,与所述至少一个推广目标对应的分割标注之间的误差,调整所述待训练的图像分割模型的模型参数,包括:
基于所述边缘子特征,获得所述至少一个推广目标在所述样本推广图像中的预测边缘界限;
基于所述位置子特征,获得所述至少一个推广目标与所述样本推广图像之间的相对位置;
基于所述预测边缘界限与所述至少一个推广目标对应的边缘标注之间的边缘误差,以及所述相对位置与所述至少一个推广目标对应的位置标注之间的位置误差,以及所述预测分割区域与所述至少一个推广目标对应的区域标注之间的区域误差,调整所述待训练的图像分割模型的模型参数。
8.根据权利要求1~3任一项所述的方法,其特征在于,在基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型之后,还包括:
获取无标注推广图像集合,其中,每个无标注推广图像包含至少一个无标注推广目标;
采用所述目标图像分割模型,分别对各无标注推广图像包含的至少一个无标注推广目标进行图像分割,获得相应的目标分割区域;
基于所述无标注推广图像集合,以及获得的各个目标分割区域,对所述目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型。
9.根据权利要求8所述的方法,其特征在于,所述基于所述无标注推广图像集合,以及获得的各个目标分割区域,对所述目标图像分割模型进行多轮迭代训练,获得已训练的终极图像分割模型,包括:
基于预设的置信度评估策略,确定获得的每个目标分割区域的置信度,其中,所述置信度用于表征相应的目标分割区域的分割准确度;
将各个目标分割区域中,置信度大于预设置信度阈值的目标分割区域,作为相应的无标注推广图像的分割标注;
基于获得的各个具有分割标注的无标注推广图像,对所述目标图像分割模型进行多轮迭代训练,获得所述终极图像分割模型。
10.一种训练图像分割模型的装置,其特征在于,包括:
获取模块:用于获得样本推广图像集合,其中,每个样本推广图像包含至少一个推广目标及其对应的分割标注;
处理模块:用于基于所述样本推广图像集合,对待训练的图像分割模型进行多轮迭代训练,获得已训练的目标图像分割模型,在每轮迭代训练过程中,至少执行以下操作:
所述处理模块具体用于:对获得的样本推广图像进行特征提取,获得初始全局特征;
所述处理模块具体用于:从所述初始全局特征中,提取边缘子特征和位置子特征,其中,所述边缘子特征表征所述至少一个推广目标的边缘界限,所述位置子特征表征所述至少一个推广目标与所述样本推广图像之间的相对位置;
所述处理模块具体用于:基于所述初始全局特征、所述边缘子特征和所述位置子特征的融合全局特征,获得所述至少一个推广目标在所述样本推广图像中的预测分割区域,并基于所述预测分割区域,与所述至少一个推广目标对应的分割标注之间的误差,调整所述待训练的图像分割模型的模型参数。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
12.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~9中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1~9中任一项所述的方法。
CN202210596637.6A 2022-05-30 2022-05-30 一种训练图像分割模型的方法、装置、设备及存储介质 Active CN114926480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210596637.6A CN114926480B (zh) 2022-05-30 2022-05-30 一种训练图像分割模型的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210596637.6A CN114926480B (zh) 2022-05-30 2022-05-30 一种训练图像分割模型的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114926480A true CN114926480A (zh) 2022-08-19
CN114926480B CN114926480B (zh) 2024-07-23

Family

ID=82812560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210596637.6A Active CN114926480B (zh) 2022-05-30 2022-05-30 一种训练图像分割模型的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114926480B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN110752028A (zh) * 2019-10-21 2020-02-04 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及存储介质
CN111191662A (zh) * 2019-12-31 2020-05-22 网易(杭州)网络有限公司 图像特征提取方法、装置、设备、介质及对象匹配方法
CN111414958A (zh) * 2020-03-18 2020-07-14 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及***
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN112102477A (zh) * 2020-09-15 2020-12-18 腾讯科技(深圳)有限公司 三维模型重建方法、装置、计算机设备和存储介质
CN113538480A (zh) * 2020-12-15 2021-10-22 腾讯科技(深圳)有限公司 图像分割处理方法、装置、计算机设备和存储介质
US20220036124A1 (en) * 2020-07-31 2022-02-03 Sensetime Group Limited Image processing method and device, and computer-readable storage medium
CN114187311A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN110752028A (zh) * 2019-10-21 2020-02-04 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及存储介质
CN111191662A (zh) * 2019-12-31 2020-05-22 网易(杭州)网络有限公司 图像特征提取方法、装置、设备、介质及对象匹配方法
CN111414958A (zh) * 2020-03-18 2020-07-14 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及***
US20220036124A1 (en) * 2020-07-31 2022-02-03 Sensetime Group Limited Image processing method and device, and computer-readable storage medium
CN112102477A (zh) * 2020-09-15 2020-12-18 腾讯科技(深圳)有限公司 三维模型重建方法、装置、计算机设备和存储介质
CN113538480A (zh) * 2020-12-15 2021-10-22 腾讯科技(深圳)有限公司 图像分割处理方法、装置、计算机设备和存储介质
CN114187311A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种图像语义分割方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宗民;徐希云;刘玉杰;李华;: "条件随机场像素建模与深度特征融合的目标区域分割算法", 计算机辅助设计与图形学学报, no. 06, 15 June 2018 (2018-06-15) *

Also Published As

Publication number Publication date
CN114926480B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111078940B (zh) 图像处理方法、装置、计算机存储介质及电子设备
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN114495916B (zh) 背景音乐的***时间点确定方法、装置、设备和存储介质
CN111126515A (zh) 基于人工智能的模型训练方法和相关装置
CN117058723B (zh) 掌纹识别方法、装置及存储介质
CN114332484A (zh) 关键点检测方法、装置、计算机设备和存储介质
CN117079276B (zh) 一种基于知识蒸馏的语义分割方法、***、设备及介质
CN111008622B (zh) 一种图像对象检测方法、装置以及计算机可读存储介质
CN116434173A (zh) 道路图像检测方法、装置、电子设备及存储介质
CN114926480B (zh) 一种训练图像分割模型的方法、装置、设备及存储介质
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
CN114373098A (zh) 一种图像分类方法、装置、计算机设备及存储介质
CN113011919A (zh) 识别兴趣对象的方法及装置、推荐方法、介质、电子设备
Hei et al. Detecting dynamic visual attention in augmented reality aided navigation environment based on a multi-feature integration fully convolutional network
CN113516735A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN118097521B (zh) 对象识别方法、装置、设备、介质及程序产品
CN118015525B (zh) 图像中道路积水的识别方法、装置、终端和存储介质
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
CN117011567A (zh) 一种训练图像分类模型的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant