CN116883765A - 图像分类方法、装置、电子设备及存储介质 - Google Patents

图像分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116883765A
CN116883765A CN202311151897.3A CN202311151897A CN116883765A CN 116883765 A CN116883765 A CN 116883765A CN 202311151897 A CN202311151897 A CN 202311151897A CN 116883765 A CN116883765 A CN 116883765A
Authority
CN
China
Prior art keywords
scene type
service scene
information corresponding
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311151897.3A
Other languages
English (en)
Other versions
CN116883765B (zh
Inventor
杜俊珑
鄢科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311151897.3A priority Critical patent/CN116883765B/zh
Publication of CN116883765A publication Critical patent/CN116883765A/zh
Application granted granted Critical
Publication of CN116883765B publication Critical patent/CN116883765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种图像分类方法、装置、电子设备及存储介质,涉及人工智能技术领域,包括:获取待分类图像;将待分类图像输入至目标图像分类模型中多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;目标图像分类模型为基于互斥损失信息对样本场景适配模块训练得到,互斥损失信息表征目标适配特征信息的相似程度,目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;基于目标图像特征信息和每个业务场景类型对应的目标分类子模型,确定待分类图像对应的目标图像类别信息。利用本公开实施例可以更好的应对复杂多变的应用场景,提升模型效果。

Description

图像分类方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种图像分类方法、装置、电子设备及存储介质。
背景技术
图像分类,可以是指根据图像信息中所反映出来的不同特征,把不同类别的图像区分开来的一种图像处理方法,是计算机视觉领域的核心问题之一。图像分类有大量不同的实际应用;例如,可以包括敏感图像识别、人脸识别以及自动汽车驾驶等。示例性的,在敏感图像识别的应用场景中,可以通过对图像进行分类,判断该图像是否属于敏感类别;其中,敏感图像可以是指存在违规或非法内容的图像。针对敏感图像识别,现有的图像分类模型基本以深度学习分类的方法为主,辅助人工进行二次审核。目前,在内容审核应用场景,敏感图像分类任务多,标签数多,业务场景复杂,运营时效性要求高。直接使用单模型进行分类,效果难以应对复杂多变的应用场景,同时难以达到快速优化迭代的运营要求,故可以通过集成学习实现敏感图像分类。
具体的,集成学习是指使用多种兼容的学习算法或学习模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类:堆叠法、提升算法和装袋法。其中,堆叠法是首先构建多个不同类型的一级学习器,并使用他们来得到一级预测结果,然后基于这些一级预测结果,构建一个二级学习器,来得到最终的预测结果。但是,堆叠法需要多个异质模型才能得到比较好的集成结果,同时训练集数据数量要求较高,训练复杂度高,调参难度大,同时如果不同类型学习器如何有没有很好的差异性,堆叠法的效果也很难保证。
发明内容
有鉴于上述存在的技术问题,本公开提出了一种图像分类方法、装置、电子设备及存储介质。
根据本公开实施例的一方面,提供一种图像分类方法,包括:
获取待分类图像;
将所述待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;所述目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,所述互斥损失信息表征目标适配特征信息的相似程度,所述目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;
基于所述每个业务场景类型对应的目标图像特征信息和所述每个业务场景类型对应的目标分类子模型,确定所述待分类图像对应的目标图像类别信息。
根据本公开实施例的另一方面,提供一种图像分类装置,包括:
图像获取模块,用于获取待分类图像;
第一特征提取模块,用于将所述待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;所述目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,所述互斥损失信息表征目标适配特征信息的相似程度,所述目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;
图像类别确定模块,用于基于所述每个业务场景类型对应的目标图像特征信息和所述每个业务场景类型对应的目标分类子模型,确定所述待分类图像对应的目标图像类别信息。
根据本公开实施例的另一方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述图像分类方法。
根据本公开实施例的另一方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述图像分类方法。
根据本公开实施例的另一方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述图像分类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取待分类图像,将待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息,其中,目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,互斥损失信息表征多个业务场景类型中的任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息之间的相似程度,通过互斥损失信息训练可以让不同业务场景类型对应的目标提取子模型之间的相似冗余性减少,互补性增加,可以尽可能的减少不同目标提取子模型输出特征信息的相关性,提高不同目标提取子模型输出特征信息的正交性,进而可以有助于提升多个子模型间的集成效果,且通过训练样本场景适配模块得到目标图像分类模型,训练参数量少,可以极大地减少训练代价,再结合每个业务场景类型对应的目标图像特征信息和目标图像分类模型中的多个业务场景类型各自对应的目标分类子模型,确定待分类图像对应的目标图像类别信息,可以提升目标图像分类模型对于存在多种业务场景类型的图像的分类准确性,进而可以更好的应对复杂多变的应用场景,提升模型效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用***的示意图;
图2是根据一示例性实施例示出的一种图像分类方法的流程图;
图3是根据一示例性实施例示出的一种样本提取子模型的框图;
图4是根据一示例性实施例示出的另一种样本提取子模型的框图;
图5是根据一示例性实施例示出的一种目标图像分类模型的训练过程示意图;
图6是根据一示例性实施例示出的一种图像分类装置的框图;
图7是根据一示例性实施例示出的一种用于对待分类图像进行分类的电子设备的框图;
图8是根据一示例性实施例示出的另一种用于对待分类图像进行分类的电子设备的框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及计算机视觉技术等技术,具体通过如下实施例进行说明:
请参阅图1,图1是根据一示例性实施例示出的一种应用***的示意图。上述应用***可以用于本申请的图像分类方法。如图1所示,该应用***至少可以包括服务器01和终端02。
本申请实施例中,服务器01可以用于对待分类图像进行分类。具体地,上述服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例中,终端02可以用于生成待分类图像。上述终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、车载终端、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中上述终端02上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境,例如,对于待分类图像的分类过程,也可以在终端02上实现。
本说明书实施例中,上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不作限定。
需要说明的是,图中示出的是一种可能的步骤顺序,实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。
具体地,图2是根据一示例性实施例示出的一种图像分类方法的流程图。如图2所示,该图像分类方法可以用于终端或服务器等电子设备中,具体可以包括以下步骤:
S201:获取待分类图像。
在一个具体的实施例中,待分类图像可以是指需要识别所属的图像类别信息的图像。示例性的,以针对敏感图像识别的应用场景为例,图像类别信息可以包括敏感类别信息或非敏感类别信息。
在一个具体的实施例中,以敏感图像识别的应用场景为例,用户终端可以通过触发资源上传操作,将待处理的多媒体资源上传至业务平台,以使业务平台对上述多媒体资源进行相应的业务处理。进一步的,业务平台在接收到上述多媒体资源后,在需要对上述待处理图像进行敏感类别分类的情况下,可以按照资源类型对上述多媒体资源进行处理;在上述多媒体资源的资源类型为视频类型或动图类型的情况下,可以依次进行抽帧和长图切分处理,得到待分类图像序列,相应的,可以将上述待分类图像序列依次输入至目标图像分类模型进行分类;在上述多媒体资源的资源类型为图像类型的情况下,可以将上述多媒体资源作为待分类图像,以对上述待分类图像进行分类处理。
S203:将待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,目标图像分类模型可以用于对待分类图像进行分类。目标图像分类模型可以为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到。其中,互斥损失信息可以表征目标适配特征信息的相似程度;目标适配特征信息可以是多个业务场景类型中的任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息。可以理解的是,任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息之间的相似程度越高,相应的,上述互斥损失信息越高。示例性的,以敏感图像识别的应用场景为例,业务场景类型可以包括彩画类型和简笔画类型等。
在一个具体的实施例中,目标图像分类模型可以包括多个业务场景类型各自对应的目标提取子模型和多个业务场景类型各自对应的目标分类子模型。其中,任一业务场景类型对应的目标提取子模型可以用于对待分类图像进行针对上述任一业务场景类型的特征提取处理。任一业务场景类型对应的目标分类子模型可以用于在上述任一业务场景类型对应的目标图像特征信息的基础上,对待分类图像进行分类处理。
在一个具体的实施例中,上述目标图像分类模型可以包括以下方式获取:
获取第一样本图像集;
将第一样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的样本适配特征信息;
基于目标场景类型对对应的样本适配特征信息,确定目标场景类型对对应的互斥损失信息;
基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,第一样本图像集可以用于训练预设机器学习模型。第一样本图像集可以包括至少一个第一样本图像。
在一个具体的实施例中,预设机器学习模型可以是指待训练的图像分类模型。预设机器学习模型可以包括多个业务场景类型各自对应的样本提取子模型和多个业务场景类型各自对应的样本提取子模型。
在一个具体的实施例中,任一业务场景类型对应的样本适配特征信息可以是指预设机器学习模型中上述任一业务场景类型对应的样本场景适配模块输出的特征信息。具体的,样本适配特征信息的表现形式可以包括向量或矩阵等。
在一个具体的实施例中,可以根据不同的业务特征或者最终效果,可以选择不同结构的样本提取子模型;具体可以包括嵌入到层间的串行结构或混合串并行结构。
在一个具体的实施例中,图3是根据一示例性实施例示出的一种样本提取子模型的框图。如图3所示,每个业务场景类型对应的样本提取子模型可以包括样本编码模块和样本特征提取模块;其中,样本特征提取模块可以包括第一注意力模块、第一非线性模块、样本场景适配模块和第一融合模块。
在一个具体的实施例中,在样本特征提取模块包括第一注意力模块、第一非线性模块、样本场景适配模块和第一融合模块的情况下,将第一样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的样本适配特征信息,可以包括:
将第一样本图像集输入至每个业务场景类型对应的样本编码模块进行编码处理,得到每个业务场景类型对应的样本图像编码信息;
将每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一注意力模块进行注意力加权处理,得到每个业务场景类型对应的第一加权特征信息;
将每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一非线性模块进行非线性变换处理,得到每个业务场景类型对应的第一样本特征信息;
将每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的样本场景适配模块进行特征适配处理,得到每个业务场景类型对应的第一适配特征信息;
将每个业务场景类型对应的第一样本特征信息、每个业务场景类型对应的第一适配特征信息、每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一融合模块进行特征融合处理,得到每个业务场景类型对应的第二样本特征信息。
在一个具体的实施例中,样本编码模块可以用于对第一样本图像集中的每个第一样本图像进行编码处理。样本编码模块可以包括样本线性投影模块。
在一个具体的实施例中,任一业务场景类型对应的样本图像编码信息可以是指第一样本图像集中的每个第一样本图像在任一业务场景类型下的图像编码信息。任一业务场景类型对应的样本图像编码信息的表现形式可以包括向量或矩阵等。
在一个具体的实施例中,可以先对上述任一第一样本图像进行分割处理,得到多个第一分割图像,再将上述多个第一分割图像输入至任一业务场景类型对应的样本线性投影模块进行线性投影处理,可以得到在上述任一业务场景类型下多个第一分割图像各自对应的编码信息,相应的,可以将上述多个第一分割图像各自对应的编码信息,作为上述任一第一样本图像在任一业务场景类型下对应的样本图像编码信息。
在一个具体的实施例中,任一业务场景类型对应的第一注意力模块可以包括第一注意力层和第一归一化层。
在一个具体的实施例中,任一业务场景类型对应的第一加权特征信息可以是指任一业务场景类型对应的第一注意力模块输出的第一样本图像集中的每个第一样本图像的特征信息。任一业务场景类型对应的第一加权特征信息可以包括第一样本图像集中多个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,将任一第一样本图像对应的在任一业务场景类型下的样本图像编码信息输入至上述任一业务场景类型对应的第一归一化层进行归一化处理,可以得到上述任一第一样本图像对应的在任一业务场景类型下的第一标准特征信息,相应的,将上述第一标准特征信息输入至上述任一业务场景类型对应的第一注意力层进行加权处理,可以得到任一第一样本图像对应的在任一业务场景类型下的第一加权特征信息。
在一个具体的实施例中,任一业务场景类型对应的第一样本特征信息可以是指任一业务场景类型对应的第一非线性模块输出的第一样本图像集中的每个第一样本图像的特征信息。任一业务场景类型对应的第一样本特征信息可以包括第一样本图像集中多个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,任一业务场景类型对应的第一非线性模块可以包括第二归一化层和第一特征处理层。其中,第一特征处理层可以包括MLP(MultilayerPerceptron,多层感知机)。
在一个具体的实施例中,将任一第一样本图像对应的在任一业务场景类型下的第一加权特征信息输入至上述任一业务场景类型对应的第二归一化层进行归一化处理,可以得到上述任一第一样本图像对应的在任一业务场景类型下的第二标准特征信息,相应的,将上述第二标准特征信息输入至上述任一业务场景类型对应的第一特征处理层进行非线性变换处理,可以得到任一第一样本图像对应的在任一业务场景类型下的第一样本特征信息。
在一个具体的实施例中,任一业务场景类型对应的第一适配特征信息可以是指任一业务场景类型对应的样本场景适配模块输出的第一样本图像集中的每个第一样本图像在任一业务场景类型下的特征信息。任一业务场景类型对应的第一适配特征信息可以包括第一样本图像集中的每个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,任一业务场景类型对应的样本场景适配模块可以用于提取出适配上述任一业务场景类型对应的特征信息。任一业务场景类型对应的样本场景适配模块可以包括两个全连接层和线性整流层。
在一个具体的实施例中,任一业务场景类型对应的第一适配特征信息可以通过以下公式得到:
其中,out为任一第一样本图像对应的在任一业务场景类型下的第一适配特征信息;Wup和Wdown为全连接层的权重;为激活响应函数;x为任一业务场景类型对应的第一加权特征信息和任一业务场景类型对应的样本图像编码信息叠加得到的特征信息;T为转置操作。具体的,上述激活响应函数可以包括ReLU(Linear rectification function,线性整流函数)。
在一个具体的实施例中,任一业务场景类型对应的第二样本特征信息可以是指任一业务场景类型对应的样本提取子模型中第一融合模块输出的第一样本图像集中的每个第一样本图像在任一业务场景类型下的特征信息。任一业务场景类型对应的第二样本特征信息可以包括第一样本图像集中的每个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二样本特征信息可以通过以下公式得到:
其中,V2为任一业务场景类型对应的第二样本特征信息;VA为任一业务场景类型对应的第一适配特征信息;V1为任一业务场景类型对应的第一样本特征信息;VW为任一业务场景类型对应的第一加权特征信息;VC为任一业务场景类型对应的样本图像编码信息。
在一个具体的实施例中,目标场景类型对可以是多个业务场景类型中的任意两个。
在一个具体的实施例中,目标场景类型对对应的样本适配特征信息可以是指目标场景类型对中两个业务场景类型对应的样本场景适配模块输出的适配特征信息。目标场景类型对可以包括第一业务场景类型和第二业务场景类型。目标场景类型对对应的样本适配特征信息可以包括第一业务场景类型对应的适配特征信息和第二业务场景类型对应的适配特征信息。
在一个具体的实施例中,目标场景类型对对应的互斥损失信息可以表征上述目标场景类型对对应的样本场景适配模块输出的适配特征信息之间的相似程度。具体的,目标场景类型对对应的互斥损失信息可以通过以下公式得到:
其中,Repulsive Loss为目标场景类型对对应的互斥损失信息;A和B为目标场景类型对对应的样本适配特征信息;n为适配特征信息中的元素数量;Ai为适配特征信息A中的第i个元素;Bi为适配特征信息B中的第i个元素。具体的,适配特征信息A和适配特征信息B中的元素个数可以是相同的。
在一个具体的实施例中,基于每两个业务场景类型对应的互斥损失信息,可以对上述每两个业务场景类型对应的样本场景适配模块进行训练,得到目标图像分类模型。具体的,可以基于目标场景类型对对应的互斥损失信息,确定两个不同的更新梯度,再基于上述两个不同的更新梯度,分别对目标场景类型对对应的样本场景适配模块进行训练。进一步的,可以按照随机梯度下降来更新样本场景适配模块中的模块参数。
在一个具体的实施例中,在训练得到目标图像分类模型的过程中,可以是仅对预设机器学习模型中的样本场景适配模块进行训练,其他的模块参数不更新,在对样本场景适配模块训练完成后,可以将训练得到的预设机器学习模型作为目标图像分类模型。
在上述实施例中,通过互斥损失信息训练可以让不同业务场景类型对应的目标提取子模型之间的相似冗余性减少,互补性增加,可以尽可能的减少不同目标提取子模型输出特征信息的相关性,提高不同目标提取子模型输出特征信息的正交性,进而可以有助于提升多个子模型间的集成效果,且通过训练样本场景适配模块得到目标图像分类模型,训练参数量少,可以极大地减少训练代价。
在一个具体的实施例中,上述方法还可以包括:
获取第一样本图像集中每个样本图像对应的第一标签类别信息;
将每个业务场景类型对应的第二样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第三类别预测信息;
将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息;
基于样本权重信息,对多个业务场景类型各自对应的第三类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第四类别预测信息;
基于第四类别预测信息和第一标签类别信息,确定第一权重损失信息;
相应的,上述基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,得到目标图像分类模型,可以包括:
基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于第一权重损失信息,对样本权重学习模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,任一第一样本图像对应的第一标签类别信息可以用于为预设机器学习模型的训练提供参考。示例性的,以针对敏感图像识别的应用场景为例,第一标签类别信息可以包括敏感类别信息或非敏感类别信息。
在一个具体的实施例中,任一业务场景类型对应的样本分类子模型可以用于基于上述任一业务场景类型对应的样本特征信息对样本图像进行类别预测。任一业务场景类型对应的样本分类子模型可以包括用于分类的MLP。
在一个具体的实施例中,任一业务场景类型对应的第三类别预测信息可以表征在上述任一业务场景类型下第一样本图像集中每个第一样本图像属于多个图像类别信息的概率。任一业务场景类型对应的第三类别预测信息可以包括上述任一业务场景类型下多个第一样本图像各自对应的第三预测概率。示例性的,以敏感图像识别的应用场景为例,上述任一业务场景类型下的任一第一样本图像对应的第三预测概率可以表征上述任一第一样本图像在上述任一业务场景类型下属于敏感类别信息的概率。
在一个具体的实施例中,将任一第一样本图像在任一业务场景类型对应的第二样本特征信息输入至预设机器学习模型中的上述任一业务场景类型对应的样本分类子模型进行分类处理,可以得到上述任一第一样本图像在上述任一业务场景类型对应的第三类别预测信息。
在一个具体的实施例中,样本权重学习模块可以用于自适应地学习配置多个不同的样本分类子模型输出的预测信息各自的权重。样本权重学习模块可以包括依次连接的样本卷积模块、样本多层感知机和样本逻辑回归模块。
在一个具体的实施例中,样本权重信息可以表征多个业务场景类型对应的多个第三类别预测信息各自的重要程度。
在一个具体的实施例中,将第一样本图像集中的任一第一样本图像输入至样本权重学习模块中的样本卷积模块进行特征提取处理,可以得到上述任一第一样本图像对应的卷积特征信息,再将上述任一第一样本图像对应的卷积特征信息输入至上述样本权重学习模块中的样本多层感知机进行非线性变换处理,可以得到任一第一样本图像对应的变换后的特征信息,接着,将上述任一第一样本图像对应的变换后的特征信息输入至上述样本权重学习模块中的样本逻辑回归模块进行映射处理,可以得到上述任一第一样本图像对应的样本权重信息。
在一个具体的实施例中,任一样本图像对应的第四类别预测信息可以用于表征上述任一样本图像属于多个图像类别信息的概率。示例性的,以敏感图像识别的应用场景为例,任一样本图像对应的第四类别预测信息可以包括上述任一样本图像对应的第四预测概率;上述第四预测概率可以表征上述任一样本图像属于敏感类别信息的概率。
在一个具体的实施例中,任一样本图像对应的第四类别预测信息可以通过以下公式得到:
其中,Z为任一样本图像对应的第四类别预测信息;α i为上述任一样本图像对应的样本权重信息中第i个业务场景类型对应的权重信息;Y i为上述任一样本图像在第i个业务场景类型下对应的第三类别预测信息;N为业务场景类型的数量。
在一个具体的实施例中,第一权重损失信息可以表征第四类别预测信息对应的预测类别结果和第一标签类别信息之间的差异程度。
在一个具体的实施例中,第一权重损失信息可以通过以下公式得到:
其中,L W为第一权重损失信息;qx i)为第一样本图像集中第i个样本图像的第一标签类别信息对应的预测概率;n为第一样本图像集中包含的样本图像的数量。示例性的,以敏感图像识别的应用场景为例,在第i个样本图像的第一标签类别信息为敏感类别信息的情况下,第一标签类别信息对应的预测概率可以是指第i个样本图像属于敏感图像的概率;在第i个样本图像的第一标签类别信息为非敏感类别信息的情况下,第一标签类别信息对应的预测概率可以是指第i个样本图像属于非敏感图像的概率。
在一个具体的实施例中,可以基于目标场景类型对对应的互斥损失信息,对预设机器学习模型中的目标场景类型对对应的样本场景适配模块进行训练,并可以基于第一权重损失信息,对预设机器学习模型中的样本权重学习模块进行训练,相应的,可以将训练后得到的预设机器学习模型,作为目标图像分类模型。其中,可以按照随机梯度下降来更新样本权重学习模块中的模块参数。
在上述实施例中,将每个业务场景类型对应的第二样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第三类别预测信息,将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息,基于样本权重信息,对多个业务场景类型各自对应的第三类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第四类别预测信息,可以通过样本权重学习模块可以让权重信息不再是人为手工设计的次优解,通过学习权重去更加逼近全局最优近解。
在一个具体的实施例中,图4是根据一示例性实施例示出的另一种样本提取子模型的框图。如图4所示,每个业务场景类型对应的样本提取子模型可以包括样本编码模块和样本特征提取模块;其中,样本特征提取模块可以包括第二注意力模块、第二非线性模块、样本场景适配模块和第二融合模块;样本场景适配模块可以包括第一样本适配模块和第二样本适配模块。
在一个具体的实施例中,上述将第一样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的样本适配特征信息,可以包括:
将第一样本图像集输入至每个业务场景类型对应的样本编码模块进行编码处理,得到每个业务场景类型对应的样本图像编码信息;
将每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二注意力模块进行注意力加权处理,得到每个业务场景类型对应的第二加权特征信息;
将每个业务场景类型对应的第二加权特征信息输入至每个业务场景类型对应的第一样本适配模块进行特征适配处理,得到每个业务场景类型对应的第二适配特征信息;
将每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二非线性模块进行非线性变换处理,得到每个业务场景类型对应的第三样本特征信息;
将每个业务场景类型对应的第三样本特征信息输入至每个业务场景类型对应的第二样本适配模块进行特征适配处理,得到每个业务场景类型对应的第三适配特征信息;
将每个业务场景类型对应的第三适配特征信息、每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二融合模块进行特征融合处理,得到每个业务场景类型对应的第四样本特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二加权特征信息可以是指任一业务场景类型对应的第二注意力模块输出的第一样本图像集中的每个第一样本图像的特征信息。任一业务场景类型对应的第二加权特征信息可以包括第一样本图像集中多个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二加权特征信息可以是指任一业务场景类型对应的第二注意力模块输出的第一样本图像集中的每个第一样本图像的特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二注意力模块可以包括第三注意力层和第一前馈层。具体的,可以将任一业务场景类型对应的样本图像编码信息输入至任一业务场景类型对应的第三注意力层进行加权处理,得到上述任一第一样本图像对应的在任一业务场景类型下的第五加权特征信息;相应的,将上述第五加权特征信息输入至上述任一业务场景类型对应的第一前馈层进行特征处理,可以得到上述任一第一样本图像对应的在任一业务场景类型下的第二加权特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二适配特征信息可以包括第一样本图像集中多个第一样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,任一业务场景类型对应的第一样本适配模块可以包括两个全连接层和线性整流层。具体的,任一业务场景类型对应的第二适配特征信息的获取方式可以参照上述任一业务场景类型对应的第一适配特征信息的获取方式,在此不再赘述。
在一个具体的实施例中,每个业务场景类型对应的样本特征提取模块可以还包括第三归一化层。具体的,可以将每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第三归一化层进行归一化处理,得到上述任一业务场景类型对应的第三标准特征信息。相应的,可以将上述每个业务场景类型对应的第三标准特征信息输入至每个业务场景类型对应的第二非线性模块进行非线性变换处理,得到每个业务场景类型对应的第三样本特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二非线性模块可以包括第二前馈层和第三前馈层。具体的,将每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二前馈层进行特征处理,可以得到每个业务场景类型对应的第一前馈特征信息;相应的,可以将每个业务场景类型对应的第一前馈特征信息输入至每个业务场景类型对应的第三前馈层进行特征处理,得到每个业务场景类型对应的第三样本特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二样本适配模块可以包括两个全连接层和线性整流层。具体的,任一业务场景类型对应的第三适配特征信息的获取方式可以参照上述任一业务场景类型对应的第一适配特征信息的获取方式,在此不再赘述。
在一个具体的实施例中,可以将任一业务场景类型对应的第三标准特征信息和上述任一业务场景类型对应的第三适配特征信息输入至上述任一业务场景类型对应的第二融合模块进行特征融合处理,得到上述任一业务场景类型对应的第四样本特征信息。
在一个具体的实施例中,每个业务场景类型对应的样本特征提取模块可以还包括第四归一化层。具体的,可以将任一业务场景类型对应的第四样本特征信息输入至上述任一业务场景类型对应的第四归一化层进行归一化处理,得到第四标准特征信息。相应的,可以将每个业务场景类型对应的第四标准特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第五类别预测信息。
在一个具体的实施例中,目标场景类型对对应的互斥损失信息可以通过以下公式得到:
其中,Repulsive Loss为目标场景类型对对应的互斥损失信息;A和B为目标场景类型对对应的第二适配特征信息;C和D为目标场景类型对对应的第三适配特征信息;n为适配特征信息中的元素数量;Ai为第二适配特征信息A中的第i个元素;Bi为第二适配特征信息B中的第i个元素;为第三适配特征信息C中的第i个元素;/>为第三适配特征信息D中的第i个元素。具体的,第二适配特征信息A、第二适配特征信息B中的元素个数可以是相同的,相应的,第三适配特征信息C和第三适配特征信息D中的元素个数可以是相同的。
在一个具体的实施例中,上述方法还可以包括:
获取第一样本图像集中每个样本图像对应的第一标签类别信息;
将每个业务场景类型对应的第四样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第五类别预测信息;
将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息;
基于样本权重信息,对多个业务场景类型各自对应的第五类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第六类别预测信息;
基于第六类别预测信息和第一标签类别信息,确定第二权重损失信息;
相应的,上述基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,得到目标图像分类模型,可以包括:
基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于第二权重损失信息,对样本权重学习模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,任一业务场景类型对应的第五类别预测信息可以表征在上述任一业务场景类型下第一样本图像集中每个第一样本图像属于多个图像类别信息的概率。任一业务场景类型对应的第五类别预测信息可以包括上述任一业务场景类型下多个第一样本图像各自对应的第五预测概率。示例性的,以敏感图像识别的应用场景为例,上述任一业务场景类型下的任一第一样本图像对应的第五预测概率可以表征上述任一第一样本图像在上述任一业务场景类型下属于敏感类别信息的概率。
在一个具体的实施例中,通过任一业务场景类型对应的样本分类子模型进行分类处理得到第五类别预测信息的处理过程可以参照上述通过任一业务场景类型对应的样本分类子模型进行分类处理得到第三类别预测信息的处理过程,在此不再赘述。
在一个具体的实施例中,任一样本图像对应的第六类别预测信息可以用于表征上述任一样本图像属于多个图像类别信息的概率。示例性的,以敏感图像识别的应用场景为例,任一样本图像对应的第六类别预测信息可以包括上述任一样本图像对应的第六预测概率;上述第六预测概率可以表征上述任一样本图像属于敏感类别信息的概率。
在一个具体的实施例中,上述通过融合处理得到任一样本图像对应的第六类别预测信息的处理过程可以参照上述通过融合处理得到任一样本图像对应的第四类别预测信息的处理过程,在此不再赘述。
在一个具体的实施例中,第二权重损失信息可以表征第六类别预测信息对应的预测类别结和第一标签类别信息之间的差异程度。具体的,第二权重损失信息的确定过程可以参照上述第一权重损失信息的确定过程,在此不再赘述。
在一个具体的实施例中,可以基于目标场景类型对对应的互斥损失信息,对预设机器学习模型中的目标场景类型对对应的样本场景适配模块进行训练,并可以基于第二权重损失信息,对预设机器学习模型中的样本权重学习模块进行训练,相应的,可以将训练后得到的预设机器学习模型,作为目标图像分类模型。其中,可以按照随机梯度下降来更新样本权重学习模块中的模块参数。
在一个具体的实施例中,上述方法还可以包括:
获取第二样本图像集和第二样本图像集中每个样本图像对应的第二标签类别信息;
将第二样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的第五样本特征信息;
将每个业务场景类型对应的第五样本特征信息输入至每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第七类别预测信息;
基于每个业务场景类型对应的第七类别预测信息和第二标签类别信息,确定每个业务场景类型对应的业务损失信息;
相应的,上述基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,得到目标图像分类模型,可以包括:
基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于每个业务场景类型对应的业务损失信息,对预设机器学习模型中的每个业务场景类型对应的样本基础模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,第二样本图像集可以用于训练预设机器学习模型。第二样本图像集可以包括至少一个第二样本图像。具体的,第二样本图像集可以用于训练预设机器学习模型中每个业务场景类型对应的样本基础模块。其中,任一业务场景类型对应的样本基础模块可以是指上述任一业务场景类型对应的样本提取子模型中除上述任一业务场景类型对应的样本场景适配模块之外的模块。
在一个具体的实施例中,任一第二样本图像对应的第二标签类别信息可以用于为预设机器学习模型的训练提供参考。示例性的,以针对敏感图像识别的应用场景为例,第二标签类别信息可以包括敏感类别信息或非敏感类别信息。
在一个具体的实施例中,任一业务场景类型对应的第五样本特征信息可以是指任一业务场景类型对应的样本提取子模型输出的第二样本图像集中的每个第二样本图像在任一业务场景类型下的特征信息。任一业务场景类型对应的第五样本特征信息可以包括第二样本特征集中的每个第二样本图像在上述任一业务场景类型下对应的特征信息。
在一个具体的实施例中,样本提取子模型的特征提取处理过程可以参照上述的特征提取处理过程,在此不再赘述。
在一个具体的实施例中,任一业务场景类型对应的第七类别预测信息可以表征在上述任一业务场景类型下第二样本图像集中每个第二样本图像属于多个图像类别信息的概率。任一业务场景类型对应的第七类别预测信息可以包括上述任一业务场景类型下多个第二样本图像各自对应的第七预测概率。示例性的,以敏感图像识别的应用场景为例,上述任一业务场景类型下的任一第二样本图像对应的第七预测概率可以表征上述任一第二样本图像在上述任一业务场景类型下属于敏感类别信息的概率。
在一个具体的实施例中,通过任一业务场景类型对应的样本分类子模型进行分类处理得到第七类别预测信息的处理过程可以参照上述任一业务场景类型对应的样本分类子模型进行分类处理得到的第三类别预测信息的处理过程,在此不再赘述。
在一个具体的实施例中,任一业务场景类型对应的业务损失信息可以表征任一业务场景类型对应的第七类别预测信息对应的预测类别结果和第二标签类别信息之间的差异程度。
在一个具体的实施例中,任一业务场景类型对应的业务损失信息可以通过以下公式得到:
其中,L m为多个业务场景类型中第m个业务场景类型对应的业务损失信息;q mx i)为在第m个业务场景类型下第i个第二样本图像的第二标签类别信息对应的预测概率;n为第二样本图像集中包含的样本图像的数量。示例性的,以敏感图像识别的应用场景为例,在第i个第二样本图像对应的第二标签类别信息为敏感类别信息的情况下,q mx i)可以为基于第m个业务场景类型对应的第七类别预测信息确定的上述第i个第二样本图像属于敏感图像的概率;在第i个第二样本图像的第二标签类别信息为非敏感类别信息的情况下,q mx i)可以为基于第m个业务场景类型对应的第七类别预测信息确定的上述第i个第二样本图像属于非敏感图像的概率。
在一个具体的实施例中,可以基于目标场景类型对对应的互斥损失信息,对预设机器学习模型中的目标场景类型对对应的样本场景适配模块进行训练,并可以基于每个业务场景类型对应的业务损失信息,对预设机器学习模型中的每个业务场景类型对应的样本基础模块进行训练,得到目标图像分类模型。其中,可以按照随机梯度下降来更新样本基础模块中的模块参数。
在一个具体的实施例中,可以先基于每个业务场景类型对应的业务损失信息,对预设机器学习模型中的每个业务场景类型对应的样本基础模块进行训练,再基于目标场景类型对对应的互斥损失信息,可以对预设机器学习模型中的目标场景类型对对应的样本场景适配模块进行训练,并基于权重损失信息,对预设机器学习模型中的样本权重学习模块进行训练,可以得到目标图像分类模型。
在一个具体的实施例中,目标图像特征信息可以是指上述待分类图像的特征信息。进一步的,任一业务场景类型对应的目标图像特征信息可以是指基于上述任一业务场景类型对应的目标提取子模型进行特征提取处理得到的特征信息。目标图像特征信息的表现形式可以包括向量或矩阵等。
在一个具体的实施例中,上述步骤S203可以包括:
将待分类图像输入至每个业务场景类型对应的目标提取子模型中的目标编码模块进行编码处理,得到每个业务场景类型对应的目标图像编码信息;
将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,任一业务场景类型对应的目标图像编码信息可以是指待分类图像在上述任一业务场景类型下的图像编码信息。任一业务场景类型对应的目标图像编码信息的表现形式可以包括向量或矩阵等。
在一个具体的实施例中,目标编码模块可以是训练后的样本编码模块。任一业务场景类型对应的目标编码模块可以包括目标线性投影模块。
在一个具体的实施例中,可以先对待分类图像进行分割处理,得到多个第二分割图像;再将上述多个第二分割图像输入至任一业务场景类型对应的目标线性投影模块进行线性投影处理,可以得到多个第二分割图像各自对应的编码信息;接着,可以基于上述多个第二分割图像各自对应的编码信息,生成任一业务场景类型对应的目标图像编码信息。
在一个具体的实施例中,每个业务场景类型对应的目标特征提取模块可以包括第三注意力模块、第三非线性模块、目标场景适配模块和第三融合模块。
在一个具体的实施例中,上述将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到每个业务场景类型对应的目标图像特征信息,可以包括:
将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第三注意力模块进行注意力加权处理,得到每个业务场景类型对应的第三加权特征信息;
将每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的第三非线性模块进行非线性变换处理,得到每个业务场景类型对应的第一目标特征信息;
将每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的目标场景适配模块进行特征适配处理,得到每个业务场景类型对应的第四适配特征信息;
将每个业务场景类型对应的第四适配特征信息、每个业务场景类型对应的第一目标特征信息、每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的第三融合模块进行特征融合处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,每个业务场景类型对应的第三注意力模块可以包括第四注意力层和第五归一化层。
在一个具体的实施例中,将上述目标图像编码信息输入至上述任一业务场景类型对应的第五归一化层进行归一化处理,可以得到待分类图像在上述任一业务场景类型对应的第五标准特征信息;再将上述任一业务场景类型对应的第五标准特征信息输入至上述任一业务场景类型对应的第四注意力层进行加权处理,可以得到任一业务场景类型对应的第三加权特征信息。
在一个具体的实施例中,任一业务场景类型对应的第三非线性模块可以包括第六归一化层和第二特征处理层。其中,第二特征处理层可以包括MLP。
在一个具体的实施例中,将任一业务场景类型对应的目标图像编码信息和任一业务场景类型对应的第三加权特征信息输入至任一业务场景类型对应的第六归一化层进行归一化处理,可以得到待分类图像在上述任一业务场景类型对应的第六标准特征信息;接着,将上述任一业务场景类型对应的第六标准特征信息输入至上述任一业务场景类型对应的第二特征处理层,可以得到上述任一业务场景类型对应的第一目标特征信息。
在一个具体的实施例中,可以先对每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息进行融合处理,得到每个业务场景类型对应的第一融合特征信息;再将上述每个业务场景类型对应的第一融合特征信息输入至每个业务场景类型对应的目标场景适配模块进行特征适配处理,得到每个业务场景类型对应的第四适配特征信息。具体的,通过任一业务场景类型对应的目标场景适配模块进行特征适配处理得到第四适配特征信息的过程,可以参照上述任一业务场景类型对应的第一适配特征信息的获取过程,在此不再赘述。
在一个具体的实施例中,每个业务场景类型对应的目标特征提取模块可以包括第四注意力模块、第四非线性模块、目标场景适配模块和第四融合模块。其中,每个业务场景类型对应的目标场景适配模块可以包括第一目标适配模块和第二目标适配模块。
在一个具体的实施例中,上述将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到每个业务场景类型对应的目标图像特征信息,可以包括:
将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四注意力模块进行注意力加权处理,得到每个业务场景类型对应的第四加权特征信息;
将每个业务场景类型对应的第四加权特征信息输入至每个业务场景类型对应的第一目标适配模块进行特征适配处理,得到每个业务场景类型对应的第五适配特征信息;
将每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四非线性模块进行非线性变换处理,得到每个业务场景类型对应的第二目标特征信息;
将每个业务场景类型对应的第二目标特征信息输入至每个业务场景类型对应的第二目标适配模块进行特征适配处理,得到每个业务场景类型对应的第六适配特征信息;
将每个业务场景类型对应的第六适配特征信息、每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四融合模块进行特征融合处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,任一业务场景类型对应的第四注意力模块可以包括第五注意力层和第四前馈层。具体的,可以将任一业务场景类型对应的目标图像编码信息输入至上述任一业务场景类型对应的第五注意力层进行加权处理,得到上述任一业务场景类型对应的第六加权特征信息;再将上述任一业务场景类型对应的第六加权特征信息输入至上述任一业务场景类型对应的第四前馈层进行特征处理,可以得到上述任一业务场景类型对应的第四加权特征信息。
在一个具体的实施例中,任一业务场景类型对应的第一目标适配模块可以包括两个全连接层和线性整流层。具体的,通过任一业务场景类型对应的第一目标适配模块进行特征适配处理得到第五适配特征信息的过程,可以参照上述任一业务场景类型对应的第一适配特征信息的获取方式,在此不再赘述。
在一个具体的实施例中,任一业务场景类型对应的目标特征提取模块可以还包括第七归一化层。具体的,可以将每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第七归一化层进行归一化处理,得到每个业务场景类型对应的第七标准特征信息。相应的,可以将每个业务场景类型对应的第七标准特征信息输入至每个业务场景类型对应的第四非线性模块进行非线性变换处理,得到每个业务场景类型对应的第二目标特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二目标适配模块可以包括两个全连接层和线性整流层。具体的,通过任一业务场景类型对应的第二目标适配模块进行特征适配处理得到第六适配特征信息的过程,可以参照上述任一业务场景类型对应的第一适配特征信息的获取方式,在此不再赘述。
在一个具体的实施例中,任一业务场景类型对应的第四非线性模块可以包括第五前馈层和第六前馈层。具体的,将每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第五前馈层进行特征处理,可以得到每个业务场景类型对应的第二前馈特征信息;相应的,可以将每个业务场景类型对应的第二前馈特征信息输入至每个业务场景类型对应的第六前馈层进行特征处理,得到每个业务场景类型对应的第二目标特征信息。
在一个具体的实施例中,任一业务场景类型对应的第二目标适配模块可以包括两个全连接层和线性整流层。具体的,任一业务场景类型对应的第六适配特征信息的获取方式可以参照上述任一业务场景类型对应的第一适配特征信息的获取方式,在此不再赘述。
在一个具体的实施例中,可以将任一业务场景类型对应的第七标准特征信息和任一业务场景类型对应的第六适配特征信息输入至上述任一业务场景类型对应的第四融合模块进行特征融合处理,得到上述任一业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,任一业务场景类型对应的目标特征提取模块可以还包括第八归一化层。具体的,可以将任一业务场景类型对应的第七标准特征信息和任一业务场景类型对应的第六适配特征信息输入至上述任一业务场景类型对应的第四融合模块进行特征融合处理,得到上述任一业务场景类型对应的第二融合特征信息;再将上述任一业务场景类型对应的第二融合特征信息输入至任一业务场景类型对应的第八归一化层进行归一化处理,可以得到上述任一业务场景类型对应的目标图像特征信息。
S205:基于每个业务场景类型对应的目标图像特征信息和每个业务场景类型对应的目标分类子模型,确定待分类图像对应的目标图像类别信息。
在一个具体的实施例中,目标图像类别信息可以表征待分类图像所属的类别。目标图像类别信息可以是多个图像类别信息中的一个。
在一个具体的实施例中,上述步骤S205可以包括:
将每个业务场景类型对应的目标图像特征信息输入至每个业务场景类型对应的目标分类子模型进行分类处理,得到每个业务场景类型对应的第一类别预测信息;
基于多个业务场景类型各自对应的第一类别预测信息,确定待分类图像对应的目标图像类别信息。
在一个具体的实施例中,任一业务场景类型对应的第一类别预测信息可以表征在上述任一业务场景类型下待分类图像属于多个图像类别信息的概率。任一业务场景类型对应的第一类别预测信息可以包括上述任一业务场景类型对应的第一预测概率。示例性的,以敏感图像识别的应用场景为例,上述任一业务场景类型对应的第一预测概率可以表征上述待分类图像在上述任一业务场景类型下属于敏感类别信息的概率。
在一个具体的实施例中,上述方法还可以包括:
将待分类图像输入至目标图像分类模型中的目标权重学习模块进行权重分析处理,得到目标权重信息;
相应的,上述基于多个业务场景类型各自对应的第一类别预测信息,确定待分类图像对应的目标图像类别信息,可以包括:
基于目标权重信息,对多个业务场景类型各自对应的第一类别预测信息进行融合处理,得到待分类图像对应的第二类别预测信息;
基于第二类别预测信息,确定目标图像类别信息。
在一个具体的实施例中,目标权重学习模块可以是指训练后的权重学习模块。目标权重学习模块可以包括依次连接的目标卷积模块、目标多层感知机和目标逻辑回归模块。
在一个具体的实施例中,目标权重信息可以表征多个业务场景类型对应的多个第一类别预测信息各自的重要程度。
在一个具体的实施例中,目标权重学习模块的权重分析处理过程,可以参照上述样本权重学习模块的权重分析处理过程,在此不再赘述。
在一个具体的实施例中,第二类别预测信息可以表征待分类图像属于多个图像类别信息的概率。具体的,第一类别预测信息的融合处理过程可以参照上述第三类别预测信息的融合处理过程,在此不再赘述。
在一个具体的实施例中,可以将第二类别预测信息中最大的预测概率对应的图像类别信息,作为目标图像类别信息。
在上述实施例中,通过获取待分类图像,将待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息,其中,目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,互斥损失信息表征多个业务场景类型中的任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息之间的相似程度,通过互斥损失信息训练可以让不同业务场景类型对应的目标提取子模型之间的相似冗余性减少,互补性增加,可以尽可能的减少不同目标提取子模型输出特征信息的相关性,提高不同目标提取子模型输出特征信息的正交性,进而可以有助于提升多个子模型间的集成效果,且通过训练样本场景适配模块得到目标图像分类模型,训练参数量少,可以极大地减少训练代价,再结合每个业务场景类型对应的目标图像特征信息和目标图像分类模型中的多个业务场景类型各自对应的目标分类子模型,确定待分类图像对应的目标图像类别信息,可以提升目标图像分类模型对于存在多种业务场景类型的图像的分类准确性,进而可以更好的应对复杂多变的应用场景,提升模型效果。
图5是根据一示例性实施例示出的一种目标图像分类模型的训练过程示意图。如图5所示,可以先获取第二样本图像集和第二样本图像集中每个样本图像对应的第二标签类别信息;将第二样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,可以得到每个业务场景类型对应的第五样本特征信息;将每个业务场景类型对应的第五样本特征信息输入至每个业务场景类型对应的样本分类子模型进行分类处理,可以得到每个业务场景类型对应的第七类别预测信息;基于每个业务场景类型对应的第七类别预测信息和第二标签类别信息,可以确定每个业务场景类型对应的业务损失信息;可以基于每个业务场景类型对应的业务损失信息,对预设机器学习模型中的每个业务场景类型对应的样本基础模块进行训练,得到训练后的样本基础模块。
接着,可以在上述训练后的样本基础模块的基础上,将第一样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,可以得到每个业务场景类型对应的第二样本特征信息;将每个业务场景类型对应的第二样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第三类别预测信息;将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息;基于样本权重信息,对多个业务场景类型各自对应的第三类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第四类别预测信息;基于第四类别预测信息和第一标签类别信息,确定第一权重损失信息;基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于第一权重损失信息,对样本权重学习模块进行训练,可以得到目标图像分类模型。
图6是根据一示例性实施例示出的一种图像分类装置的框图。如图6所示,该装置可以包括:
图像获取模块610,可以用于获取待分类图像;
第一特征提取模块620,可以用于将待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,互斥损失信息表征目标适配特征信息的相似程度,目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;
图像类别确定模块630,可以用于基于每个业务场景类型对应的目标图像特征信息和每个业务场景类型对应的目标分类子模型,确定待分类图像对应的目标图像类别信息。
在一个具体的实施例中,上述装置还可以包括:
第一样本获取模块,可以用于获取第一样本图像集;
第二特征提取模块,可以用于将第一样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的样本适配特征信息;
第一损失确定模块,可以用于基于目标场景类型对对应的样本适配特征信息,确定目标场景类型对对应的互斥损失信息;目标场景类型对为多个业务场景类型中的任意两个;
第一训练模块,可以用于基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,上述第二特征提取模块可以包括:
第一编码模块,可以用于将第一样本图像集输入至每个业务场景类型对应的样本编码模块进行编码处理,得到每个业务场景类型对应的样本图像编码信息;
第一加权处理模块,可以用于将每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一注意力模块进行注意力加权处理,得到每个业务场景类型对应的第一加权特征信息;
第一变换模块,可以用于将每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一非线性模块进行非线性变换处理,得到每个业务场景类型对应的第一样本特征信息;
第一适配模块,可以用于将每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的样本场景适配模块进行特征适配处理,得到每个业务场景类型对应的第一适配特征信息;
第一特征融合模块,可以用于将每个业务场景类型对应的第一样本特征信息、每个业务场景类型对应的第一适配特征信息、每个业务场景类型对应的第一加权特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第一融合模块进行特征融合处理,得到每个业务场景类型对应的第二样本特征信息。
在一个具体的实施例中,上述装置还可以包括:
第一标签获取模块,可以用于获取第一样本图像集中每个样本图像对应的第一标签类别信息;
第一分类模块,可以用于将每个业务场景类型对应的第二样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第三类别预测信息;
第一权重分析模块,可以用于将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息;
第一融合处理模块,可以用于基于样本权重信息,对多个业务场景类型各自对应的第三类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第四类别预测信息;
第二损失确定模块,可以用于基于第四类别预测信息和第一标签类别信息,确定第一权重损失信息;
相应的,上述第一训练模块可以包括:
第二训练模块,可以用于基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于第一权重损失信息,对样本权重学习模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,上述第二特征提取模块可以包括:
第二编码模块,可以用于将第一样本图像集输入至每个业务场景类型对应的样本编码模块进行编码处理,得到每个业务场景类型对应的样本图像编码信息;
第二加权处理模块,可以用于将每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二注意力模块进行注意力加权处理,得到每个业务场景类型对应的第二加权特征信息;
第二适配模块,可以用于将每个业务场景类型对应的第二加权特征信息输入至每个业务场景类型对应的第一样本适配模块进行特征适配处理,得到每个业务场景类型对应的第二适配特征信息;
第二变换模块,可以用于将每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二非线性模块进行非线性变换处理,得到每个业务场景类型对应的第三样本特征信息;
第三适配模块,可以用于将每个业务场景类型对应的第三样本特征信息输入至每个业务场景类型对应的第二样本适配模块进行特征适配处理,得到每个业务场景类型对应的第三适配特征信息;
第二特征融合模块,可以用于将每个业务场景类型对应的第三适配特征信息、每个业务场景类型对应的第二适配特征信息和每个业务场景类型对应的样本图像编码信息输入至每个业务场景类型对应的第二融合模块进行特征融合处理,得到每个业务场景类型对应的第四样本特征信息。
在一个具体的实施例中,上述装置还可以包括:
第二标签获取模块,可以用于获取第一样本图像集中每个样本图像对应的第一标签类别信息;
第二分类模块,可以用于将每个业务场景类型对应的第四样本特征信息输入至预设机器学习模型中的每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第五类别预测信息;
第二权重分析模块,可以用于将第一样本图像集输入至预设机器学习模型中的样本权重学习模块进行权重分析处理,得到第一样本图像集中每个样本图像对应的样本权重信息;
第二融合处理模块,可以用于基于样本权重信息,对多个业务场景类型各自对应的第五类别预测信息进行融合处理,得到第一样本图像集中每个样本图像对应的第六类别预测信息;
第三损失确定模块,可以用于基于第六类别预测信息和第一标签类别信息,确定第二权重损失信息;
相应的,上述第一训练模块可以包括:
第三训练模块,可以用于基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于第二权重损失信息,对样本权重学习模块进行训练,得到目标图像分类模型。
在一个具体的实施例中,上述装置还可以包括:
第三标签获取模块,可以用于获取第二样本图像集和第二样本图像集中每个样本图像对应的第二标签类别信息;
第三特征提取模块,可以用于将第二样本图像集输入至预设机器学习模型中的多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到每个业务场景类型对应的第五样本特征信息;
第三分类模块,可以用于将每个业务场景类型对应的第五样本特征信息输入至每个业务场景类型对应的样本分类子模型进行分类处理,得到每个业务场景类型对应的第七类别预测信息;
第四损失确定模块,可以用于基于每个业务场景类型对应的第七类别预测信息和第二标签类别信息,确定每个业务场景类型对应的业务损失信息;
相应的,上述第一训练模块可以包括:
第四训练模块,可以用于基于目标场景类型对对应的互斥损失信息,对目标场景类型对对应的样本场景适配模块进行训练,并基于每个业务场景类型对应的业务损失信息,对预设机器学习模型中的每个业务场景类型对应的样本基础模块进行训练,得到目标图像分类模型;每个业务场景类型对应的样本基础模块为每个业务场景类型对应的样本提取子模型中除每个业务场景类型对应的样本场景适配模块之外的模块。
在一个具体的实施例中,上述图像类别确定模块630可以包括:
第四分类模块,可以用于将每个业务场景类型对应的目标图像特征信息输入至每个业务场景类型对应的目标分类子模型进行分类处理,得到每个业务场景类型对应的第一类别预测信息;
第一类别确定模块,可以用于基于多个业务场景类型各自对应的第一类别预测信息,确定待分类图像对应的目标图像类别信息。
在一个具体的实施例中,上述装置还可以包括:
第三权重分析模块,可以用于将待分类图像输入至目标图像分类模型中的目标权重学习模块进行权重分析处理,得到目标权重信息;
相应的,上述第一类别确定模块可以包括:
第三融合处理模块,可以用于基于目标权重信息,对多个业务场景类型各自对应的第一类别预测信息进行融合处理,得到待分类图像对应的第二类别预测信息;
第二类别确定模块,可以用于基于第二类别预测信息,确定目标图像类别信息。
在一个具体的实施例中,上述第一特征提取模块620可以包括:
第三编码模块,可以用于将待分类图像输入至每个业务场景类型对应的目标提取子模型中的目标编码模块进行编码处理,得到每个业务场景类型对应的目标图像编码信息;
第四特征提取模块,可以用于将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,上述第四特征提取模块可以包括:
第三加权处理模块,可以用于将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第三注意力模块进行注意力加权处理,得到每个业务场景类型对应的第三加权特征信息;
第三变换模块,可以用于将每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的第三非线性模块进行非线性变换处理,得到每个业务场景类型对应的第一目标特征信息;
第四适配模块,可以用于将每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的目标场景适配模块进行特征适配处理,得到每个业务场景类型对应的第四适配特征信息;
第三特征融合模块,可以用于将每个业务场景类型对应的第四适配特征信息、每个业务场景类型对应的第一目标特征信息、每个业务场景类型对应的目标图像编码信息和每个业务场景类型对应的第三加权特征信息输入至每个业务场景类型对应的第三融合模块进行特征融合处理,得到每个业务场景类型对应的目标图像特征信息。
在一个具体的实施例中,上述第四特征提取模块可以包括:
第四加权处理模块,可以用于将每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四注意力模块进行注意力加权处理,得到每个业务场景类型对应的第四加权特征信息;
第五适配模块,可以用于将每个业务场景类型对应的第四加权特征信息输入至每个业务场景类型对应的第一目标适配模块进行特征适配处理,得到每个业务场景类型对应的第五适配特征信息;
第四变换模块,可以用于将每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四非线性模块进行非线性变换处理,得到每个业务场景类型对应的第二目标特征信息;
第六适配模块,可以用于将每个业务场景类型对应的第二目标特征信息输入至每个业务场景类型对应的第二目标适配模块进行特征适配处理,得到每个业务场景类型对应的第六适配特征信息;
第四特征融合模块,可以用于将每个业务场景类型对应的第六适配特征信息、每个业务场景类型对应的第五适配特征信息和每个业务场景类型对应的目标图像编码信息输入至每个业务场景类型对应的第四融合模块进行特征融合处理,得到每个业务场景类型对应的目标图像特征信息。
关于上述实施例中的装置,其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于对待分类图像进行分类的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图7所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分类方法。
图8是根据一示例性实施例示出的另一种用于对待分类图像进行分类的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图8所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分类方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7或图8中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的图像分类方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的图像分类方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的图像分类方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种图像分类方法,其特征在于,所述方法包括:
获取待分类图像;
将所述待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;所述目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,所述互斥损失信息表征目标适配特征信息的相似程度,所述目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;
基于所述每个业务场景类型对应的目标图像特征信息和所述每个业务场景类型对应的目标分类子模型,确定所述待分类图像对应的目标图像类别信息。
2.根据权利要求1所述的方法,其特征在于,所述目标图像分类模型包括以下方式获取:
获取第一样本图像集;
将所述第一样本图像集输入至预设机器学习模型中的所述多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到所述每个业务场景类型对应的样本适配特征信息;
基于目标场景类型对对应的样本适配特征信息,确定所述目标场景类型对对应的互斥损失信息;所述目标场景类型对为所述多个业务场景类型中的任意两个;
基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,得到所述目标图像分类模型。
3.根据权利要求2所述的方法,其特征在于,所述每个业务场景类型对应的样本提取子模型包括样本编码模块和样本特征提取模块,所述样本特征提取模块包括第一注意力模块、第一非线性模块、样本场景适配模块和第一融合模块;所述将所述第一样本图像集输入至预设机器学习模型中的所述多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到所述每个业务场景类型对应的样本适配特征信息,包括:
将所述第一样本图像集输入至所述每个业务场景类型对应的样本编码模块进行编码处理,得到所述每个业务场景类型对应的样本图像编码信息;
将所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第一注意力模块进行注意力加权处理,得到所述每个业务场景类型对应的第一加权特征信息;
将所述每个业务场景类型对应的第一加权特征信息和所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第一非线性模块进行非线性变换处理,得到所述每个业务场景类型对应的第一样本特征信息;
将所述每个业务场景类型对应的第一加权特征信息和所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的样本场景适配模块进行特征适配处理,得到所述每个业务场景类型对应的第一适配特征信息;
将所述每个业务场景类型对应的第一样本特征信息、所述每个业务场景类型对应的第一适配特征信息、所述每个业务场景类型对应的第一加权特征信息和所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第一融合模块进行特征融合处理,得到所述每个业务场景类型对应的第二样本特征信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第一样本图像集中每个样本图像对应的第一标签类别信息;
将所述每个业务场景类型对应的第二样本特征信息输入至所述预设机器学习模型中的所述每个业务场景类型对应的样本分类子模型进行分类处理,得到所述每个业务场景类型对应的第三类别预测信息;
将所述第一样本图像集输入至所述预设机器学习模型中的样本权重学习模块进行权重分析处理,得到所述第一样本图像集中每个样本图像对应的样本权重信息;
基于所述样本权重信息,对所述多个业务场景类型各自对应的第三类别预测信息进行融合处理,得到所述第一样本图像集中每个样本图像对应的第四类别预测信息;
基于所述第四类别预测信息和所述第一标签类别信息,确定第一权重损失信息;
所述基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,得到所述目标图像分类模型,包括:
基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,并基于所述第一权重损失信息,对所述样本权重学习模块进行训练,得到所述目标图像分类模型。
5.根据权利要求2所述的方法,其特征在于,所述每个业务场景类型对应的样本提取子模型包括样本编码模块和样本特征提取模块,所述样本特征提取模块包括第二注意力模块、第二非线性模块、样本场景适配模块和第二融合模块,所述样本场景适配模块包括第一样本适配模块和第二样本适配模块;所述将所述第一样本图像集输入至预设机器学习模型中的所述多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到所述每个业务场景类型对应的样本适配特征信息,包括:
将所述第一样本图像集输入至所述每个业务场景类型对应的样本编码模块进行编码处理,得到所述每个业务场景类型对应的样本图像编码信息;
将所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第二注意力模块进行注意力加权处理,得到所述每个业务场景类型对应的第二加权特征信息;
将所述每个业务场景类型对应的第二加权特征信息输入至所述每个业务场景类型对应的第一样本适配模块进行特征适配处理,得到所述每个业务场景类型对应的第二适配特征信息;
将所述每个业务场景类型对应的第二适配特征信息和所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第二非线性模块进行非线性变换处理,得到所述每个业务场景类型对应的第三样本特征信息;
将所述每个业务场景类型对应的第三样本特征信息输入至所述每个业务场景类型对应的第二样本适配模块进行特征适配处理,得到所述每个业务场景类型对应的第三适配特征信息;
将所述每个业务场景类型对应的第三适配特征信息、所述每个业务场景类型对应的第二适配特征信息和所述每个业务场景类型对应的样本图像编码信息输入至所述每个业务场景类型对应的第二融合模块进行特征融合处理,得到所述每个业务场景类型对应的第四样本特征信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述第一样本图像集中每个样本图像对应的第一标签类别信息;
将所述每个业务场景类型对应的第四样本特征信息输入至所述预设机器学习模型中的所述每个业务场景类型对应的样本分类子模型进行分类处理,得到所述每个业务场景类型对应的第五类别预测信息;
将所述第一样本图像集输入至所述预设机器学习模型中的样本权重学习模块进行权重分析处理,得到所述第一样本图像集中每个样本图像对应的样本权重信息;
基于所述样本权重信息,对所述多个业务场景类型各自对应的第五类别预测信息进行融合处理,得到所述第一样本图像集中每个样本图像对应的第六类别预测信息;
基于所述第六类别预测信息和所述第一标签类别信息,确定第二权重损失信息;
所述基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,得到所述目标图像分类模型,包括:
基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,并基于所述第二权重损失信息,对所述样本权重学习模块进行训练,得到所述目标图像分类模型。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第二样本图像集和所述第二样本图像集中每个样本图像对应的第二标签类别信息;
将所述第二样本图像集输入至所述预设机器学习模型中的所述多个业务场景类型各自对应的样本提取子模型进行特征提取处理,得到所述每个业务场景类型对应的第五样本特征信息;
将所述每个业务场景类型对应的第五样本特征信息输入至所述每个业务场景类型对应的样本分类子模型进行分类处理,得到所述每个业务场景类型对应的第七类别预测信息;
基于所述每个业务场景类型对应的第七类别预测信息和所述第二标签类别信息,确定所述每个业务场景类型对应的业务损失信息;
所述基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,得到所述目标图像分类模型,包括:
基于所述目标场景类型对对应的互斥损失信息,对所述目标场景类型对对应的样本场景适配模块进行训练,并基于所述每个业务场景类型对应的业务损失信息,对所述预设机器学习模型中的所述每个业务场景类型对应的样本基础模块进行训练,得到所述目标图像分类模型;所述每个业务场景类型对应的样本基础模块为所述每个业务场景类型对应的样本提取子模型中除所述每个业务场景类型对应的样本场景适配模块之外的模块。
8.根据权利要求1所述的方法,其特征在于,所述基于所述每个业务场景类型对应的目标图像特征信息和所述每个业务场景类型对应的目标分类子模型,确定所述待分类图像对应的目标图像类别信息,包括:
将所述每个业务场景类型对应的目标图像特征信息输入至所述每个业务场景类型对应的目标分类子模型进行分类处理,得到所述每个业务场景类型对应的第一类别预测信息;
基于所述多个业务场景类型各自对应的第一类别预测信息,确定所述待分类图像对应的目标图像类别信息。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
将所述待分类图像输入至所述目标图像分类模型中的目标权重学习模块进行权重分析处理,得到目标权重信息;
所述基于所述多个业务场景类型各自对应的第一类别预测信息,确定所述待分类图像对应的目标图像类别信息,包括:
基于所述目标权重信息,对所述多个业务场景类型各自对应的第一类别预测信息进行融合处理,得到所述待分类图像对应的第二类别预测信息;
基于所述第二类别预测信息,确定所述目标图像类别信息。
10.根据权利要求1所述的方法,其特征在于,所述将所述待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息,包括:
将所述待分类图像输入至所述每个业务场景类型对应的目标提取子模型中的目标编码模块进行编码处理,得到所述每个业务场景类型对应的目标图像编码信息;
将所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到所述每个业务场景类型对应的目标图像特征信息。
11.根据权利要求10所述的方法,其特征在于,所述每个业务场景类型对应的目标特征提取模块包括第三注意力模块、第三非线性模块、目标场景适配模块和第三融合模块;所述将所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到所述每个业务场景类型对应的目标图像特征信息,包括:
将所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的第三注意力模块进行注意力加权处理,得到所述每个业务场景类型对应的第三加权特征信息;
将所述每个业务场景类型对应的目标图像编码信息和所述每个业务场景类型对应的第三加权特征信息输入至所述每个业务场景类型对应的第三非线性模块进行非线性变换处理,得到所述每个业务场景类型对应的第一目标特征信息;
将所述每个业务场景类型对应的目标图像编码信息和所述每个业务场景类型对应的第三加权特征信息输入至所述每个业务场景类型对应的目标场景适配模块进行特征适配处理,得到所述每个业务场景类型对应的第四适配特征信息;
将所述每个业务场景类型对应的第四适配特征信息、所述每个业务场景类型对应的第一目标特征信息、所述每个业务场景类型对应的目标图像编码信息和所述每个业务场景类型对应的第三加权特征信息输入至所述每个业务场景类型对应的第三融合模块进行特征融合处理,得到所述每个业务场景类型对应的目标图像特征信息。
12.根据权利要求10所述的方法,其特征在于,所述每个业务场景类型对应的目标特征提取模块包括第四注意力模块、第四非线性模块、目标场景适配模块和第四融合模块,所述每个业务场景类型对应的目标场景适配模块包括第一目标适配模块和第二目标适配模块;所述将所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的目标提取子模型中的目标特征提取模块进行提取处理,得到所述每个业务场景类型对应的目标图像特征信息,包括:
将所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的第四注意力模块进行注意力加权处理,得到所述每个业务场景类型对应的第四加权特征信息;
将所述每个业务场景类型对应的第四加权特征信息输入至所述每个业务场景类型对应的第一目标适配模块进行特征适配处理,得到所述每个业务场景类型对应的第五适配特征信息;
将所述每个业务场景类型对应的第五适配特征信息和所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的第四非线性模块进行非线性变换处理,得到所述每个业务场景类型对应的第二目标特征信息;
将所述每个业务场景类型对应的第二目标特征信息输入至所述每个业务场景类型对应的第二目标适配模块进行特征适配处理,得到所述每个业务场景类型对应的第六适配特征信息;
将所述每个业务场景类型对应的第六适配特征信息、所述每个业务场景类型对应的第五适配特征信息和所述每个业务场景类型对应的目标图像编码信息输入至所述每个业务场景类型对应的第四融合模块进行特征融合处理,得到所述每个业务场景类型对应的目标图像特征信息。
13.一种图像分类装置,其特征在于,所述装置包括:
图像获取模块,用于获取待分类图像;
第一特征提取模块,用于将所述待分类图像输入至目标图像分类模型中的多个业务场景类型各自对应的目标提取子模型进行特征提取处理,得到每个业务场景类型对应的目标图像特征信息;所述目标图像分类模型为基于互斥损失信息对样本提取子模型中的样本场景适配模块训练得到,所述互斥损失信息表征目标适配特征信息的相似程度,所述目标适配特征信息为任意两个业务场景类型对应的样本场景适配模块输出的适配特征信息;
图像类别确定模块,用于基于所述每个业务场景类型对应的目标图像特征信息和所述每个业务场景类型对应的目标分类子模型,确定所述待分类图像对应的目标图像类别信息。
14.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令以实现权利要求1至12中任意一项所述的图像分类方法。
15.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的图像分类方法。
CN202311151897.3A 2023-09-07 2023-09-07 图像分类方法、装置、电子设备及存储介质 Active CN116883765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311151897.3A CN116883765B (zh) 2023-09-07 2023-09-07 图像分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311151897.3A CN116883765B (zh) 2023-09-07 2023-09-07 图像分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116883765A true CN116883765A (zh) 2023-10-13
CN116883765B CN116883765B (zh) 2024-01-09

Family

ID=88272188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311151897.3A Active CN116883765B (zh) 2023-09-07 2023-09-07 图像分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116883765B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及***
CN110866530A (zh) * 2019-11-13 2020-03-06 云南大学 一种字符图像识别方法、装置及电子设备
CN111325291A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 选择性集成异质模型的实体对象分类方法及相关设备
CN112767431A (zh) * 2021-01-12 2021-05-07 云南电网有限责任公司电力科学研究院 一种用于电力***的电网目标检测方法及装置
CN112949620A (zh) * 2021-05-17 2021-06-11 腾讯科技(深圳)有限公司 基于人工智能的场景分类方法、装置及电子设备
CN114491115A (zh) * 2022-02-17 2022-05-13 重庆邮电大学 一种基于深度哈希的多模型融合的集成图像检索方法
CN114882372A (zh) * 2022-07-11 2022-08-09 浙江大华技术股份有限公司 一种目标检测的方法及设备
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
WO2023107753A1 (en) * 2022-12-28 2023-06-15 Innopeak Technology, Inc. Pseudo-negative and mutual exclusive loss sampling for multi-label learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及***
CN110866530A (zh) * 2019-11-13 2020-03-06 云南大学 一种字符图像识别方法、装置及电子设备
CN111325291A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 选择性集成异质模型的实体对象分类方法及相关设备
CN112767431A (zh) * 2021-01-12 2021-05-07 云南电网有限责任公司电力科学研究院 一种用于电力***的电网目标检测方法及装置
CN112949620A (zh) * 2021-05-17 2021-06-11 腾讯科技(深圳)有限公司 基于人工智能的场景分类方法、装置及电子设备
CN114491115A (zh) * 2022-02-17 2022-05-13 重庆邮电大学 一种基于深度哈希的多模型融合的集成图像检索方法
CN114882372A (zh) * 2022-07-11 2022-08-09 浙江大华技术股份有限公司 一种目标检测的方法及设备
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
WO2023107753A1 (en) * 2022-12-28 2023-06-15 Innopeak Technology, Inc. Pseudo-negative and mutual exclusive loss sampling for multi-label learning

Also Published As

Publication number Publication date
CN116883765B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113204660B (zh) 多媒体数据处理方法、标签识别方法、装置及电子设备
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN114580794B (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114611672A (zh) 模型训练方法、人脸识别方法及装置
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN114359582A (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN113128526A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN115292439A (zh) 一种数据处理方法及相关设备
CN116883765B (zh) 图像分类方法、装置、电子设备及存储介质
CN116955797A (zh) 资源推荐方法、装置、电子设备及存储介质
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN115115910A (zh) 图像处理模型的训练方法、使用方法、装置、设备及介质
CN114692715A (zh) 一种样本标注方法及装置
CN116645700B (zh) 特征提取模型处理方法、装置和特征提取方法、装置
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN117688233A (zh) 资源推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant