CN117315617B - 基于师徒模式的网络优化方法、***、电子设备及介质 - Google Patents

基于师徒模式的网络优化方法、***、电子设备及介质 Download PDF

Info

Publication number
CN117315617B
CN117315617B CN202311148158.9A CN202311148158A CN117315617B CN 117315617 B CN117315617 B CN 117315617B CN 202311148158 A CN202311148158 A CN 202311148158A CN 117315617 B CN117315617 B CN 117315617B
Authority
CN
China
Prior art keywords
mode
network model
initial
teacher
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311148158.9A
Other languages
English (en)
Other versions
CN117315617A (zh
Inventor
胡钊政
肖汉彪
孟杰
王书恒
谭娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202311148158.9A priority Critical patent/CN117315617B/zh
Publication of CN117315617A publication Critical patent/CN117315617A/zh
Application granted granted Critical
Publication of CN117315617B publication Critical patent/CN117315617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于师徒模式的网络优化方法、***、电子设备及介质,该方法通过构建基于师徒模式的多模态自注意力机制的网络模型,将初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型联系在一起,并由互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,以实现获取初始教师网络模型和初始学生网络模型之间的参数差异,进而通过多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。

Description

基于师徒模式的网络优化方法、***、电子设备及介质
技术领域
本申请涉及车辆技术领域,尤其涉及一种基于师徒模式的网络优化方法、***、电子设备及介质。
背景技术
作为自动驾驶和智能交通技术的前提条件,驾驶场景提取具有巨大的研究价值和应用潜力。目前的驾驶场景提取技术通常在数量有限的典型案例中进行测试或评估,但准确的提取技术在现实世界中不断测试和验证,以提高其安全性、便利性和智能性。然而,自动驾驶测试提供的有限数据集与真实环境有很大不同,例如,真实环境中的驾驶场景显示出极不平衡的分布,普通的驾驶场景占据了大部分数据,而一些极其罕见的边缘场景,由于采集成本很高,数量少,很难以一种稳定且高效的手段完成采集工作。此外,许多危害车辆安全驾驶的场景,如极端天气条件、道路上的不常见物体和周围车辆的异常行为,都隐藏在边缘场景中。
目前,为了保证神经网络在边缘驾驶场景中的感知性能,主要是通过大量的驾驶场景来训练神经网络,但是由于边缘驾驶场景的训练样本的数据量有限,导致神经网络在边缘驾驶场景中仍不能达到理想的感知效果。
因此,现有技术中在通过神经网络对车辆进行驾驶场景感知的过程中,存在由于神经网络性能差导致驾驶场景感知结果差的问题。
发明内容
有鉴于此,有必要提供一种基于师徒模式的网络优化方法、***、电子设备及介质,用以现有技术中在通过神经网络对车辆进行驾驶场景感知的过程中,存在的由于神经网络性能差导致驾驶场景感知结果差的问题。
为了解决上述问题,本申请提供一种基于师徒模式的网络优化方法,应用于智能车辆技术领域,该方法包括:
获取教师数据样本和学生数据样本;
构建基于师徒模式的多模态自注意力机制的网络模型,其中,基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签;
将学生数据样本输入至初始学生网络模型,通过数据迭代得到单模态标签;
根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,并根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
进一步地,获取教师数据样本和学生数据样本,包括:
获取环视相机采集的车辆的图像数据;
获取激光雷达和红外相机采集的车辆的点云数据;
对图像数据和点云数据进行关联融合处理,得到教师数据样本,并确定图像数据为学生数据样本。
进一步地,教师数据样本包括图像数据和点云数据;对图像数据和点云数据进行关联融合处理,得到教师数据样本,包括:
根据基于透视投影的多模态数据融合方法将点云数据投影至图像数据对应的相机坐标系中,得到融合后的教师数据样本。
进一步地,初始教师网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制;将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签,包括:
将教师数据样本输入至初始教师网络模型,获取教师数据样本的第一特征维度;
通过第一线性转化层将第一特征维度的张量投影到任意维度C,得到C维度线性转化层;
将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,并根据多个模块对应的多模态子标签确定多模态标签。
进一步地,自注意力机制包括局部注意力机制和分层注意力机制;将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,包括:
将C维度线性转化层分为预设数量的多个窗口,其中,每个窗口内包括多个图像块;
基于局部注意力机制,分别计算每个窗口对应的图像块的局部注意力,得到多个局部注意力;
基于分层注意力机制对多个局部注意力进行分层处理,并通过残差连接,得到对应的多个分层注意力;
基于多个分层注意力,得到多模态子标签。
进一步地,根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,包括:
设置关联Loss函数;
获取多模态标签对应的多模态Softmax层,及单模态标签对应的单模态Softmax层;
基于关联Loss函数,对多模态Softmax层和单模态Softmax层进行关联,得到多模态关联信息。
进一步地,根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型,包括:
对多模态关联信息和单模态标签进行比较,确定初始学生网络模型对应的更新单模态标签;
根据更新单模态标签对应优化初始学生网络模型的参数,得到目标学生网络模型。
为了解决上述问题,本申请还提供一种基于师徒模式的网络优化***,包括:
样本获取模块,用于获取教师数据样本和学生数据样本;
基于师徒模式的多模态自注意力机制的网络模型构建模块,用于构建基于师徒模式的多模态自注意力机制的网络模型,其中,基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
多模态标签模块,用于将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签;
单模态标签模块,用于将学生数据样本输入至初始学生网络模型,通过数据迭代得到单模态标签;
目标学生网络模型确定模块,用于根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,并根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
为了解决上述问题,本申请还提供一种电子设备,包括处理器以及存储器,存储器上存储有计算机程序,当计算机程序被处理器执行时,实现如上述任一技术方案所述的基于师徒模式的网络优化方法。
为了解决上述问题,本申请还提供一种存储介质,存储介质中存储有计算机程序指令,当计算机程序指令被计算机执行时,使计算机执行如上述任一技术方案所述的基于师徒模式的网络优化方法。
采用上述实施例的有益效果是:本申请提供一种基于师徒模式的网络优化方法、***、电子设备及介质,该方法通过构建基于师徒模式的多模态自注意力机制的网络模型,将初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型联系在一起,并由互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,以实现获取初始教师网络模型和初始学生网络模型之间的参数差异,进而通过多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
附图说明
图1为本申请提供的基于师徒模式的网络优化方法一实施例的流程示意图;
图2为本申请提供的获取教师数据样本和学生数据样本一实施例的流程示意图;
图3为本申请提供的共体异构传感器***一实施例的结构示意图;
图4为本申请提供的根据教师数据样本得到多模态标签一实施例的流程示意图;
图5为本申请提供的得到每个模块的多模态子标签一实施例的流程示意图;
图6为本申请提供的基于师徒模式的多模态自注意力机制的网络模型一实施例的结构示意图;
图7为本申请提供的得到多模态关联信息一实施例的流程示意图;
图8为本申请提供的得到目标学生网络模型一实施例的流程示意图;
图9为本申请提供的基于师徒模式的网络优化***一实施例的结构框图;
图10为本申请提供的电子设备一实施例的结构框图。
具体实施方式
下面结合附图来具体描述本申请的优选实施例,其中,附图构运行成本申请一部分,并与本申请的实施例一起用于阐释本申请的原理,并非用于限定本申请的范围。
作为自动驾驶和智能交通技术的前提条件,驾驶场景提取具有巨大的研究价值和应用潜力。目前的驾驶场景提取技术通常在数量有限的典型案例中进行测试或评估,但准确的提取技术在现实世界中不断测试和验证,以提高其安全性、便利性和智能性。然而,自动驾驶测试提供的有限数据集与真实环境有很大不同,例如,真实环境中的驾驶场景显示出极不平衡的分布,普通的驾驶场景占据了大部分数据,而一些极其罕见的边缘场景,由于采集成本很高,数量少,很难以一种稳定且高效的手段完成采集工作。此外,许多危害车辆安全驾驶的场景,如极端天气条件、道路上的不常见物体和周围车辆的异常行为,都隐藏在边缘场景中。
目前,为了保证神经网络在边缘驾驶场景中的感知性能,主要是通过大量的驾驶场景来训练神经网络,但是由于边缘驾驶场景的训练样本的数据量有限,导致神经网络在边缘驾驶场景中仍不能达到理想的感知效果。
因此,现有技术中在通过神经网络对车辆进行驾驶场景感知的过程中,存在由于神经网络性能差导致驾驶场景感知结果差的问题。
需要说明的是,高精度稳定的融合感知算法是自动驾驶发展的重要一环,然而信息利用的不充分、数据或模型的复杂度以及各个传感器的同步问题,都导致融合性能一直受限。然而,对于自动驾驶***中的感知模型来说,它需要训练、验证和提高感知模型的泛化性能。目前主要包含以下技术问题:
(1)在训练过程中,我们需要使用复杂的模型,大量的计算资源,以便从非常大、高度冗余的数据集中提取出足够的信息。在实验中,效果最好的模型往往规模很大,甚至由多个模型集成得到,而大模型不方便部署到边缘端,严重受其推理速度、内存,显存等资源的限制。
(2)大规模的感知算法训练会用到大量的云计算资源,该资源间如何通信、协作,如使用同步或异步的更新策略,对模型局部变量进行更新等针对训练服务器架构的设置是目前急需解决的问题。
(3)在多模态表征学习中,有效的单模态表征和互补的跨模态表征融合都至关重要。目前的通用方法是直接将一个模态特征调制到另一个模态特征,因此,未充分利用单模态和多模态之前的参数互补性,这导致了网络性能改进的瓶颈。
因此,本申请主要是从对单模态和多模态之前的参数互补关系出发,通过迁移运算,实现模型参数的优化,以提高神经网络模型的性能,保证驾驶场景感知结果的可靠度。
为了解决上述问题,本申请提供了一种基于师徒模式的网络优化方法、***、电子设备及介质,以下分别进行详细说明。
图1为本申请提供的基于师徒模式的网络优化方法一实施例的流程示意图,如图1所示,基于师徒模式的网络优化方法包括:
步骤S101:获取教师数据样本和学生数据样本;
步骤S102:构建基于师徒模式的多模态自注意力机制的网络模型,其中,基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
步骤S103:将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签;
步骤S104:将学生数据样本输入至初始学生网络模型,通过数据迭代得到单模态标签;
步骤S105:根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,并根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
本实施例中,首先,获取教师数据样本和学生数据样本;其次,构建基于师徒模式的多模态自注意力机制的网络模型,其中,基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;接下来,将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签;然后,将学生数据样本输入至初始学生网络模型,通过数据迭代得到单模态标签;最后,根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,并根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
本实施例中,通过构建基于师徒模式的多模态自注意力机制的网络模型,将初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型联系在一起,并由互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,以实现获取初始教师网络模型和初始学生网络模型之间的参数差异,进而通过多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
需要说明的是,为了保证初始教师网络模型和初始学生网络模型之间的可迁移性,即,为了保证能够根据初始教师网络模型中的参数对初始学生网络模型中的参数进行优化,从而在后续对车辆进行驾驶场景感知的过程中,能够仅通过学生网络模型获取驾驶场景感知结果。一方面,初始教师网络模型和初始学生网络模型拥有相同数量的模块,且每个模块的作用相同;另一方面,初始教师网络模型和初始学生网络模型中的每个模块的网络层数不同,例如:教师网络的A模块有10个卷积层,而学生网络的A模块只有4个卷积层,并且两个A模块输出的参数是一样的。
作为优选的实施例,在步骤S101中,为了获取教师数据样本和学生数据样本,如图2所示,图2为本申请提供的获取教师数据样本和学生数据样本一实施例的流程示意图,获取教师数据样本和学生数据样本包括:
步骤S111:获取环视相机采集的车辆的图像数据;
步骤S112:获取激光雷达和红外相机采集的车辆的点云数据;
步骤S113:对图像数据和点云数据进行关联融合处理,得到教师数据样本,并确定图像数据为学生数据样本。
本实施例中,首先,获取环视相机采集的车辆的图像数据;然后,获取激光雷达和红外相机采集的车辆的点云数据;最后,对图像数据和点云数据进行关联融合处理,得到教师数据样本,并确定图像数据为学生数据样本。
在一具体实施例中,基于一组激光雷达、环视相机和红外相机获取到车辆的图像数据和点云数据,根据需要对图像数据和点云数据进行分类获取,并通过对图像数据和点云数据进行关联融合处理得到可靠度更高的教师数据样本,实现同时获取到两个***所需的教师数据样本和学生数据样本。
需要说明的是,为了保证初始教师网络模型和初始学生网络模型处理的数据的一致性,通过融合得到教师数据样本的过程中用到的图像数据与学生数据样本中的图像数据完全一致。
另外,通过对样本进行分类,能够实现在通过由学生数据样本训练好的学生网络模型进行数据处理的过程中,能够仅以图像数据作为输入。
显而易见地,在步骤S114中,教师数据样本包括图像数据和点云数据两个部分,为了对图像数据和点云数据进行关联融合处理,根据基于透视投影的多模态数据融合方法将点云数据投影至图像数据对应的相机坐标系中,从而得到融合后的教师数据样本。
在一具体实施例中,在某一具体智能车上构建多传感器***,其中的多传感器融合架构包括激光雷达、环视***与红外相机,利用该***完成驾驶场景提取。
首先,智能车传感器布局;传感器包含高线数旋转式激光雷达、4路环视摄像头和1个红外摄像头,提供360度传感器冗余覆盖,多模态的激光雷达和相机共享相同的时间戳源。
其中,共体异构智能车多传感器的高线数旋转式激光雷达放置于车顶,4路环视摄像头分别置于智能车的前、后、左和右端,红外摄像头置于智能车的前端。
进一步地,多传感器坐标***一,驾驶场景数据包含激光雷达,相机所在的传感器坐标系以及车身坐标系。我们使用车身作为全局坐标系,并为提供了6自由度的自我车辆姿态。用于定义场景目标的参考坐标系称为车身坐标系,原点是车身高度下后轴线中心下方的投影地平面点。
最后,共体异构智能车感知体设置;为实现智能车精确环境感知,专利构建了两套传感器***,采用师徒模式完成场景感知任务,其中,高配版精英车包含激光雷达、环视相机与红外相机全传感器为组合,构成场景感知的教师端;另一套低配版量产车***仅含视觉环视相机,为学生端,两套传感器组合均集成在同一辆智能车***中。
本实施例中,通过设置不同的传感器,实现对应获取到车辆的数据信息,以便于后续进行数据处理。如图3所示,图3为本申请提供的共体异构传感器***一实施例的结构示意图。
在其他实施例中,还可以仅在一辆车上设置激光雷达、环视相机与红外相机全传感器组合,通过设置两套数据处理装置,第一套数据处理装置与教师端对应,获取到所有的数据,第二套数据处理装置与学生端对应,仅仅获取其中的图像数据,显而易见地,可以根据实际需要对获取到的数据情况进行适应性调整。
在一具体应用场景中,还可以根据目标低端车辆上的设备配置,根据实际需要反向调整学生端的初始数据,从而更好地适应学生网络模型的需要。
作为优选的实施例,在步骤S103中,初始教师网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制,为了根据教师数据样本得到多模态标签,如图4所示,图4为本申请提供的根据教师数据样本得到多模态标签一实施例的流程示意图,根据教师数据样本得到多模态标签的步骤包括:
步骤S131:将教师数据样本输入至初始教师网络模型,获取教师数据样本的第一特征维度;
步骤S132:通过第一线性转化层将第一特征维度的张量投影到任意维度C,得到C维度线性转化层;
步骤S133:将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,并根据多个模块对应的多模态子标签确定多模态标签。
本实施例中,首先,将教师数据样本输入至初始教师网络模型,获取教师数据样本的第一特征维度;然后,通过第一线性转化层将第一特征维度的张量投影到任意维度C,得到C维度线性转化层;最后,将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,并根据多个模块对应的多模态子标签确定多模态标签。
本实施例中,通过对教师数据样本进行等尺寸拆分,得到了各图像块以及对应的第一特征维度,以有效表示教师数据样本的特征;通过将第一特征维度的张量投影到任意维度C,能够得到教师数据样本在多个维度上的特征,即C维度线性转化层,进而提高对教师数据样本的数据分析完整度,最后,通过将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,又因为初始教师网络模型包括多个模块,进而在获取到每一个模块对应输出的多模态子标签后,能够根据多个模块对应的多模态子标签确定多模态标签。
需要说明的是,本实施例中,初始教师网络模型中的模块数量以及每个模块对应输出的数据类型和数量,和初始学生网络模型是完全一致的,因此,对应于初始教师网络模型中的每一个模块的输入和输出,初始学生网络模型都能与其进行对应。
作为优选的实施例,在步骤S133中,自注意力机制包括局部注意力机制和分层注意力机制;为了将C维度线性转化层馈入自注意力机制,得到每个模块的多模态子标签,如图5所示,图5为本申请提供的得到每个模块的多模态子标签一实施例的流程示意图,得到多模态子标签包括:
步骤S1331:将C维度线性转化层分为预设数量的多个窗口,其中,每个窗口内包括多个图像块;
步骤S1332:基于局部注意力机制,分别计算每个窗口对应的图像块的局部注意力,得到多个局部注意力;
步骤S1333:基于分层注意力机制对多个局部注意力进行分层处理,并通过残差连接,得到对应的多个分层注意力;
步骤S1334:基于多个分层注意力,得到多模态子标签。
本实施例中,首先,将C维度线性转化层分为预设数量的多个窗口,其中,每个窗口内包括多个图像块;然后,基于局部注意力机制,分别计算每个窗口对应的图像块的局部注意力,得到多个局部注意力;接下来,基于分层注意力机制对多个局部注意力进行分层处理,并通过残差连接,得到对应的多个分层注意力;最后,基于多个分层注意力,得到多模态子标签。
本实施例中,通过局部注意力机制捕获C维度线性转化层中的局部数据特征,以突出教师数据样本的局部特征,通过分层注意力机制对多个局部注意力进行分层处理和残差连接,能够将教师数据样本之间的特征进行关联,从而得到关联度较高的多模态子标签。
作为优选的实施例,在步骤S104中,为了根据初始学生网络模型得到单模态标签,与初始教师网络模型类似,初始学生网络模型也包括多个模块,且每个模块均包括线性转化层和自注意力机制,并且自注意力机制中包括局部注意力机制和分层注意力机制。
与步骤S103类似,将学生数据样本输入至初始学生网络模型后,通过各个模块的处理,能够得到对应的单模态标签。
显而易见地,学生数据样本仅包括图像数据,因而单模态标签的可靠度是低于多模态标签的。
在一具体实施例中,如图6所示,图6为本申请提供的基于师徒模式的多模态自注意力机制的网络模型一实施例的结构示意图。
针对多模态传感器***,构建以多源融合数据作为输入的教师网络模型;针对单模态学生网络模型,输入仅含图像信息。
教师网络模型包含以下几个部分:
多模态数据输入与关联:为完成多传感器数据的空间关联,相机图像在选择传统RGB色彩模式和灰度图作为输入外,进一步融合激光雷达点云信息,包含距离和强度的二维数据。为避免球面投影将图像投影到激光雷达坐标系造成的图像信息丢失问题,根据基于透视投影的多模态数据融合方法,其将稀疏的点云投影到相机坐标系中,即,把4通道图像信息和5通道激光雷达点云信息(X坐标、Y坐标、Z坐标、距离和强度值)融合到具有9通道图像上,形成驾驶场景下的教师网络的多模态高维输入信息。
针对教师网络模型,首先通过图像分割模块将输入的多模态特征图拆分为非重叠等尺寸的图像块,各图像块展平后的特征维度为P2×6=96。线性转化层则将此时维度为H/4×W/4×96的张量投影到任意维度C,得到维度为H/4×W/4×C的线性转化层。随后,这些线性转化层被馈入若干具有改进的多层级与滑窗的自注意力机制结构。首个区块保持输入输出图像块数恒为不变,且与线性转化层共同被称为模块1,而后续的模块2到模块4与之相似。
针对改进的多层级与滑窗的自注意力机制结构,主要分为以下三个部分:
(1)局部注意力与分层注意力的融合。首先将线性转化层分为4×4个窗口,每个窗口内含有2×2个图像块,对每个独立的窗口中的图像块计算局部注意力,合计得到16个局部注意力,通过网络层标准化即拼接后,经过残差连接后得到第一层的注意力A0。对A0分别进行最大池化和平均池化,并将两者结果相加,得到第二层的输入,将其分为2×2个窗口,每个窗口内含有2×2个图像块,计算局部注意力,拼接并经过残差连接得到第二层注意力A1。重复上述操作后分别得到3个分层注意力A0、A1、A2,最后对A1和A2进行上采样并相加,实现多层注意力的融合输出;
(2)使用极广范围的Depth-wise卷积,减少参数数量同时提高了特征获取能力;
(3)下采样使用二分枝结构,其中一路采用最大池化进行下采样,再由1×1的Point-wise卷积融合通道间的特征信息;另一路由3×3的卷积通过设置步长为2,实现空间信息融合的同时完成下采样,最后经过SiLU激活函数融合输入到多层感知器。
滑窗自注意力结构通过窗口的位移增加不同区块的交互,提升网络的归纳偏置能力,最后的交互信息传递给下一个模块。
针对只包含图像输入的学生网络模型,采用更加轻量级的单模态网络,网络的骨干与教师网络类似,但输入只包含四路环视图像。
学生网络部署在驾驶端的边缘计算单元上,教师网络部署在云服务器上以实现网络参数的快速迭代。
作为优选的实施例,在步骤S105中,在获取到多模态标签和单模态标签后,为了实现将二者进行关联,需要根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,如图7所示,图7为本申请提供的得到多模态关联信息一实施例的流程示意图,得到多模态关联信息包括:
步骤S151:设置关联Loss函数;
步骤S152:获取多模态标签对应的多模态Softmax层,及单模态标签对应的单模态Softmax层;
步骤S153:基于关联Loss函数,对多模态Softmax层和单模态Softmax层进行关联,得到多模态关联信息。
本实施例中,首先,设置关联Loss函数;然后,获取多模态标签对应的多模态Softmax层,及单模态标签对应的单模态Softmax层;最后,基于关联Loss函数,对多模态Softmax层和单模态Softmax层进行关联,得到多模态关联信息。
本实施例中,通过关联Loss函数将多模态Softmax层和单模态Softmax层进行关联,从而得到多模态标签和单模态标签之间的一一对应关系。
进一步地,在得到多模态关联信息后,为了对初始学生网络模型进行参数优化,得到目标学生网络模型,如图8所示,图8为本申请提供的得到目标学生网络模型一实施例的流程示意图,得到目标学生网络模型包括:
步骤S251:对多模态关联信息和单模态标签进行比较,确定初始学生网络模型对应的更新单模态标签;
步骤S252:根据更新单模态标签对应优化初始学生网络模型的参数,得到目标学生网络模型。
本实施例中,通过对多模态关联信息和单模态标签进行比较,确定单模态标签的可靠度,进而确定初始学生网络模型对应的更新单模态标签;通过更新单模态标签对应反向优化初始学生网络模型的参数,进而得到目标学生网络模型。
在一具体实施例中,基于互补式跨模态表征融合优化模型,实现教师网络与学生网络的参数互通。具体来说,为了改进单模态的数据表征结果,首先设计了一个多模态到单模态的关联Loss,来改进特定模态的特征学习;然后通过单模态网络的多层Softmax输出传递参数。
关联Loss是能实现一个轻量级学生网络从一个网络集合或多模态教师网络中学习特征参数。学生网络向教师网络的学习过程是通过他们的输出Softmax层之间添加一个损失项完成的,旨在通过从训练数据和拥有多模态信息的教师模型中学习来提高学生网络模型的性能。
具体地,教师网络和学生网络拥有相同数量的参数,但是教师可以从多个模态数据中学习,而学生网络只能从一个模态中学习。提出的框架是基于两个编码器-解码器网络实现的,每个编码器都将其输入空间总结为一个潜在的特征表示,以捕获分割的重要信息。由于教师和学生网络处理不同的输入,但目的是提取相同的目标信息,专利假设他们的特征层是不同的,而最后的Softmax层,特别是感知的类别应该是相似的。
在一具体实施例中,为通过迫使学生网络的特征空间模仿教师网络,使得学生网络从教师的最后的特征层中学习,定义Softmax函数为:
其中,T代表多模态,当softmax输出的概率分布熵相对较小时,负标签的值都很接近0,对损失函数的贡献非常小,可以忽略不计,T=1代表单模态,T越高,softmax的输出概率分布越趋于平滑,其分布的熵越大,负标签携带的信息会被相对地放大,模型训练将更加关注负标签。
多模态参数传递。教师网络和学生网络的参数关联为:
其中,分别为教师网络和学生网路在T下的softmax输出,具体表现为第i类别上的值,vi是教师网路的逻辑回归,zi是学生网络的逻辑回归,N为总标签数量,在T=1的条件下的softmax的输出为传递给学生网络的真值和交叉熵,真值的加入用于应对教师网络可能错误的情况。
在一具体实施场景中,基于上述方式建立基于参数服务器模式的云上大模型训练的集群架构。针对教师网络所使用的云服务器,首先利用参数服务器模式将计算资源分为两个部分,参数服务器节点和工作节点。随后,融合数据并行、模型并行与流水线并行,采用混合并行分布式策略,集中多维并行的各种优势。具体地:
1)将参数服务器模式计算节点分为server与worker,其中worker用于执行教师网络模型的前向与反向计算。server则对各个worker发回的梯度进行合并更新模型参数,实现对深度学习模型参数中心化管理,以存储的大规模的多模态网络模型参数。但GPU在提升集群的计算性能的同时,模型规模会受到机器显存和内存的制约。具体的,为解决该问题本申请采用分布式通信架构,具体表现为:
(1)将教师网络的训练数据均匀的分配给不同的Worker;将模型参数分片,存储在不同的Server上。
(2)Worker端读取一个最小样本训练数据,从Server端拉取最新的参数,计算梯度,并根据分片上传给不同的Server。
(3)Server端接收Worker端上传的梯度,根据优化算法更新参数。根据Server端每次参数更新是否需要等待所有Worker端的梯度,分为同步训练和异步训练两种机制。
其中,同步训练是指Worker在训练一个样本的数据后,会合并所有线程的梯度发给Server,Server在收到所有节点的梯度后,会统一进行梯度合并及参数更新;
异步训练是指在训练一个样本的数据后,Worker的每个线程会发送梯度给Server。而Server不会等待接收所有节点的梯度,而是直接基于已收到的梯度进行参数更新。
基于上述通信架构,本申请通过异步流水线执行机制,隐蔽了IO带来的额外性能开销,在保证教师网络训练速度的同时,使训练的模型大小不再受制于显存和内存,极大提升模型的规模。进一步的本申请使用混合通信策略,将部分稀疏参数采用远程过程调度协议跨节点通信,其余参数采用卡间多GPU协作通信方式完成,充分利用带宽资源。
需要说明的是,本申请还使用了混合并行的分布式训练策略,以实现融合数据并行与模型并行策略,采用混合并行分布式策略,集中了多维并行的各种优势。具体表现为:
(1)在单机内使用模型并行和分组参数切片组合的策略,获取较大的通信量,以适用使用机器内的卡间通信。
(2)为了承载千亿规模的教师网络模型,叠加流水线并行策略,使用多台机器共同分担计算。
(3)为获取高效的计算和通讯效率,在外层叠加了教师网络输入数据并行来增加并发数量,提升整体训练速度。
作为优选的实施例,本申请中基于参数云服务器架构,完成自注意力机制网络在多模态和单模态并轨训练与对比校验,对比网络训练与测试结果,完成学生网络的自进化。具体包括:
在混合并行的分布式训练策略的基础上,进一步实现云平台内存与计算优化,主要包括内存复用优化和混合精度训练,具体地:
1)使用面向数据压缩,发掘训练模式以及教师网络各个层数据的特征,对特定数据进行不同方案的压缩,降低神经网络训练时显存使用量。进一步,由于在常见深度网络架构中,与中间特征映射的大小相比,参数的大小相对较小,本申请关注于减少存储中间结果(特征映射)和梯度的内存成本,使用计算图分析来实现内存共享优化。
2)在优化内存地基础上,本申请采用半精度浮点数(FP16)和单精度浮点数(FP32)的混合精度训练方法,FP16进行乘法运算和存储,FP32进行加法操作,避免精度溢出和舍入误差。混合精度训练过程中包含引入权重备份、损失放大与精度累加。权重备份主要用于解决舍入误差的问题,把教师网络训练过程中产生的激活函数、梯度gradient、中间变量等数据,在训练中都利用FP16来存储,同时复制一份FP32的权重参数weight,用于训练时候的更新。权重更新为:
weight=weight+α*gradient→weight32=weight32+α*gradient16
3)进一步,为了解决梯度过小数据下溢的问题,本申请对前向计算获取的Loss值进行放大操作,将FP32的参数乘以某个因子系数,把可能溢出的小数位数据往前移,平移到FP16能表示的数据范围内。具体地,根据链式求导法则,放大Loss后会作用在反向传播的每一层梯度,这样比在每一层梯度上进行放大更加高效。
4)在混合精度的模型训练过程中,使用FP16进行矩阵乘法运算,利用FP32来进行矩阵乘法中间的累加,最后将FP32的值转化为FP16进行存储,以减少计算过程中的舍入误差,减缓精度损失。
进一步地,连通车载边缘计算单元与云平台,通过参数的并轨校验,实现学生网络自进化。具体地,包括以下步骤:
①利用多重正态分布对学生网络训练得到的每一组参数Y添加正比于高斯分布的噪声ei~N(0,I),得到参数空间Yi′=Y+σei,在初始化参数Y周围生成符合分布的多个样本,并计算每一个参数样本Yi的目标函数适宜度值f(Yi)的参数Y为权重weight与关联参数L的集合
②计算将被用于更新的个体Y参数序列的对数导数以及被用于更新多重正态分布范围Σ的对数导数/>其数学计算公式分别如下所示:/>
③获取被用于更新的个体Y参数序列的自然梯度向量以及被用于更新多重正态分布范围Σ的自然梯度向量/>其数学计算公式分别如下所示:
④用和/>分别以同样的学习速率λ更新的个体Y参数序列和多重正态分布范围Σ:
⑤引入自适应因子τ,其数值由f(Yi)的方差σ决定,当方差σ过大时,令τ<1,缩小多重正态分布范围Σ;反之,当方差σ过小时,令τ≥1扩大多重正态分布范围Σ。
⑥重复上述①-⑤过程直至达到设定好的收敛条件或者循环上限。此时的集合Y为学生网络的最优化参数。
在一具体场景中,当生产一批高要求的低端车辆时,为了减少低端车辆上的传感器配置数量,同时还能保证低端车辆能够根据图像数据实现环境捕获,通过在某一低端车辆上配置基于师徒模式的多模态自注意力机制的网络模型,从而通过实际情况训练实现对低端车辆上的学生网络模型进行参数优化,以提高后续配置有学生网络模型的低端车辆的性能。
通过上述方式,通过构建基于师徒模式的多模态自注意力机制的网络模型,将初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型联系在一起,并由互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,以实现获取初始教师网络模型和初始学生网络模型之间的参数差异,进而通过多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
本申请还提供了一种基于师徒模式的网络优化***,如图9所示,图9为本申请提供的基于师徒模式的网络优化***一实施例的结构框图,基于师徒模式的网络优化***900包括:
样本获取模块901,用于获取教师数据样本和学生数据样本;
基于师徒模式的多模态自注意力机制的网络模型构建模块902,用于构建基于师徒模式的多模态自注意力机制的网络模型,其中,基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
多模态标签模块903,用于将教师数据样本输入至初始教师网络模型,通过数据迭代得到多模态标签;
单模态标签模块904,用于将学生数据样本输入至初始学生网络模型,通过数据迭代得到单模态标签;
目标学生网络模型确定模块905,用于根据互补式跨模态表征融合优化模型对多模态标签和单模态标签进行感知预测,得到多模态关联信息,并根据多模态关联信息和单模态标签对初始学生网络模型进行参数优化,得到目标学生网络模型。
本申请还相应提供了一种电子设备,如图10所示,图10为本申请提供的电子设备一实施例的结构框图。电子设备1000包括处理器1001以及存储器1002,其中,存储器1002上存储有基于师徒模式的网络优化程序1003。
处理器1001用于运行存储器1002中存储的程序代码或处理数据,例如执行基于师徒模式的网络优化程序等。
存储器1002用于存储安装于计算机设备的应用软件及各类数据,例如安装计算机设备的程序代码等。存储器1002还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,基于师徒模式的网络优化程序1003可被处理器1001所执行,从而实现本申请各实施例的基于师徒模式的网络优化方法。
本实施例还提供了一种计算机可读存储介质,其上存储有基于师徒模式的网络优化程序,计算机该程序被处理器执行时,实现如上述任一技术方案所述的基于师徒模式的网络优化方法。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。

Claims (5)

1.一种基于师徒模式的网络优化方法,应用于智能车辆技术领域,其特征在于,包括:
获取环视相机采集的车辆的图像数据;获取激光雷达和红外相机采集的所述车辆的点云数据;对所述图像数据和所述点云数据进行关联融合处理,得到教师数据样本,并确定所述图像数据为学生数据样本;
构建基于师徒模式的多模态自注意力机制的网络模型,其中,所述基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
将所述教师数据样本输入至所述初始教师网络模型,通过数据迭代得到多模态标签;
将所述学生数据样本输入至所述初始学生网络模型,通过数据迭代得到单模态标签;
根据所述互补式跨模态表征融合优化模型对所述多模态标签和所述单模态标签进行感知预测,得到多模态关联信息,并根据所述多模态关联信息和所述单模态标签对所述初始学生网络模型进行参数优化,得到目标学生网络模型;
所述初始教师网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制,所述自注意力机制包括局部注意力机制和分层注意力机制;所述将所述教师数据样本输入至所述初始教师网络模型,通过数据迭代得到多模态标签,包括:
将所述教师数据样本输入至所述初始教师网络模型,获取所述教师数据样本的第一特征维度;
通过第一线性转化层将所述第一特征维度的张量投影到任意维度C,得到C维度线性转化层;
将所述C维度线性转化层分为预设数量的多个窗口,其中,每个所述窗口内包括多个图像块;
基于所述局部注意力机制,分别计算每个所述窗口对应的所述图像块的局部注意力,得到多个所述局部注意力;
基于所述分层注意力机制对多个所述局部注意力进行分层处理,并通过残差连接,得到对应的多个分层注意力;
基于所述多个分层注意力,得到多模态子标签,并根据所述多个模块对应的所述多模态子标签确定多模态标签;
初始学生网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制,并且自注意力机制中包括局部注意力机制和分层注意力机制,将学生数据样本输入至初始学生网络模型后,通过各个模块的处理,得到对应的单模态标签;
所述根据所述互补式跨模态表征融合优化模型对所述多模态标签和所述单模态标签进行感知预测,得到多模态关联信息,包括:
设置关联Loss函数;
获取所述多模态标签对应的多模态Softmax层,及所述单模态标签对应的单模态Softmax层;
基于所述关联Loss函数,对所述多模态Softmax层和所述单模态Softmax层进行关联,得到多模态关联信息;
所述根据所述多模态关联信息和所述单模态标签对所述初始学生网络模型进行参数优化,得到目标学生网络模型,包括:
对所述多模态关联信息和所述单模态标签进行比较,确定所述初始学生网络模型对应的更新单模态标签;
根据所述更新单模态标签对应优化所述初始学生网络模型的参数,得到目标学生网络模型。
2.根据权利要求1的基于师徒模式的网络优化方法,其特征在于,所述教师数据样本包括图像数据和点云数据;所述对所述图像数据和所述点云数据进行关联融合处理,得到所述教师数据样本,包括:
根据基于透视投影的多模态数据融合方法将所述点云数据投影至所述图像数据对应的相机坐标系中,得到融合后的所述教师数据样本。
3.一种基于师徒模式的网络优化***,其特征在于,包括:
样本获取模块,用于获取环视相机采集的车辆的图像数据;获取激光雷达和红外相机采集的所述车辆的点云数据;对所述图像数据和所述点云数据进行关联融合处理,得到教师数据样本,并确定所述图像数据为学生数据样本;
基于师徒模式的多模态自注意力机制的网络模型构建模块,用于构建基于师徒模式的多模态自注意力机制的网络模型,其中,所述基于师徒模式的多模态自注意力机制的网络模型包括初始教师网络模型、初始学生网络模型和互补式跨模态表征融合优化模型;
多模态标签模块,用于将所述教师数据样本输入至所述初始教师网络模型,通过数据迭代得到多模态标签;
单模态标签模块,用于将所述学生数据样本输入至所述初始学生网络模型,通过数据迭代得到单模态标签;
目标学生网络模型确定模块,用于根据所述互补式跨模态表征融合优化模型对所述多模态标签和所述单模态标签进行感知预测,得到多模态关联信息,并根据所述多模态关联信息和所述单模态标签对所述初始学生网络模型进行参数优化,得到目标学生网络模型;
所述初始教师网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制,所述自注意力机制包括局部注意力机制和分层注意力机制;所述将所述教师数据样本输入至所述初始教师网络模型,通过数据迭代得到多模态标签,包括:
将所述教师数据样本输入至所述初始教师网络模型,获取所述教师数据样本的第一特征维度;
通过第一线性转化层将所述第一特征维度的张量投影到任意维度C,得到C维度线性转化层;
将所述C维度线性转化层分为预设数量的多个窗口,其中,每个所述窗口内包括多个图像块;
基于所述局部注意力机制,分别计算每个所述窗口对应的所述图像块的局部注意力,得到多个所述局部注意力;
基于所述分层注意力机制对多个所述局部注意力进行分层处理,并通过残差连接,得到对应的多个分层注意力;
基于所述多个分层注意力,得到多模态子标签,并根据所述多个模块对应的所述多模态子标签确定多模态标签;
初始学生网络模型包括多个模块,且每个模块均包括线性转化层和自注意力机制,并且自注意力机制中包括局部注意力机制和分层注意力机制,将学生数据样本输入至初始学生网络模型后,通过各个模块的处理,得到对应的单模态标签;
所述根据所述互补式跨模态表征融合优化模型对所述多模态标签和所述单模态标签进行感知预测,得到多模态关联信息,包括:
设置关联Loss函数;
获取所述多模态标签对应的多模态Softmax层,及所述单模态标签对应的单模态Softmax层;
基于所述关联Loss函数,对所述多模态Softmax层和所述单模态Softmax层进行关联,得到多模态关联信息;
所述根据所述多模态关联信息和所述单模态标签对所述初始学生网络模型进行参数优化,得到目标学生网络模型,包括:
对所述多模态关联信息和所述单模态标签进行比较,确定所述初始学生网络模型对应的更新单模态标签;
根据所述更新单模态标签对应优化所述初始学生网络模型的参数,得到目标学生网络模型。
4.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-2任一项所述的基于师徒模式的网络优化方法。
5.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如权利要求1至2中任一项所述的基于师徒模式的网络优化方法。
CN202311148158.9A 2023-09-06 2023-09-06 基于师徒模式的网络优化方法、***、电子设备及介质 Active CN117315617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311148158.9A CN117315617B (zh) 2023-09-06 2023-09-06 基于师徒模式的网络优化方法、***、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311148158.9A CN117315617B (zh) 2023-09-06 2023-09-06 基于师徒模式的网络优化方法、***、电子设备及介质

Publications (2)

Publication Number Publication Date
CN117315617A CN117315617A (zh) 2023-12-29
CN117315617B true CN117315617B (zh) 2024-06-07

Family

ID=89280255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311148158.9A Active CN117315617B (zh) 2023-09-06 2023-09-06 基于师徒模式的网络优化方法、***、电子设备及介质

Country Status (1)

Country Link
CN (1) CN117315617B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN115451964A (zh) * 2022-08-18 2022-12-09 武汉理工大学 基于多模态混合特征的船舶场景同时建图与定位方法
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353076B (zh) * 2020-02-21 2023-10-10 华为云计算技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN113361396B (zh) * 2021-06-04 2023-12-26 思必驰科技股份有限公司 多模态的知识蒸馏方法及***
CN113610126B (zh) * 2021-07-23 2023-12-05 武汉工程大学 基于多目标检测模型无标签的知识蒸馏方法及存储介质
CN114463237B (zh) * 2022-01-30 2024-04-19 武汉大学 基于全局运动补偿和帧间时域关联性的实时视频去雨方法
CN114841318A (zh) * 2022-04-29 2022-08-02 哈尔滨工程大学 基于跨模态知识蒸馏的智能合约漏洞检测方法
CN116595222A (zh) * 2023-05-16 2023-08-15 天津大学 基于多模态知识蒸馏的短视频多标签分类方法及装置
CN116563687A (zh) * 2023-06-07 2023-08-08 厦门大学 一种面向半监督指向性目标检测的教师-学生网络方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN115451964A (zh) * 2022-08-18 2022-12-09 武汉理工大学 基于多模态混合特征的船舶场景同时建图与定位方法
CN116186317A (zh) * 2023-04-23 2023-05-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CEKD: Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images;Zhen Feng等;《IEEE ROBOTICS AND AUTOMATION LETTERS》;20230222;第8卷(第4期);第2205-2212页 *
红外—可见光跨模态的行人检测综述;别倩 等;《中国图象图形学报》;20230512;第28卷(第5期);第1287-1307页 *

Also Published As

Publication number Publication date
CN117315617A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Alonso et al. 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
CN111709410B (zh) 一种强动态视频的行为识别方法
CN113627093A (zh) 一种基于改进Unet网络的水下机构跨尺度流场特征预测方法
CN115659275A (zh) 非结构化人机交互环境中的实时准确轨迹预测方法及***
CN111353988A (zh) Knn动态自适应的双图卷积图像分割方法和***
WO2020102772A1 (en) Coordinate estimation on n-spheres with spherical regression
CN116403174A (zh) 一种端到端自动驾驶方法、***、仿真***及存储介质
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN116258865A (zh) 使用机器学习的图像量化
Kou et al. Communication resources constrained hierarchical federated learning for end-to-end autonomous driving
Du et al. Improved 3d semantic segmentation model based on rgb image and lidar point cloud fusion for automantic driving
CN117315617B (zh) 基于师徒模式的网络优化方法、***、电子设备及介质
CN110647917B (zh) 一种模型复用方法与***
CN116729433A (zh) 一种结合元学习多任务优化的端到端自动驾驶决策规划方法及设备
Lu et al. Monocular semantic occupancy grid mapping with convolutional variational auto-encoders
CN116824433A (zh) 基于自监督神经网络的视觉-惯导-雷达融合自定位方法
US20230033466A1 (en) Information processing method and storage medium for estimating camera pose using machine learning model
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
CN115719478A (zh) 一种独立于无关信息的加速强化学习的端到端自动驾驶方法
CN111768493B (zh) 一种基于分布参数编码的点云处理方法
CN116580084B (zh) 一种基于深度学习和点云的工业零件快速位姿估计方法
Won et al. Multi-task deep learning design and training tool for unified visual driving scene understanding
CN116680656B (zh) 基于生成型预训练变换器的自动驾驶运动规划方法及***
CN116902003B (zh) 基于激光雷达与摄像头混合模态的无人驾驶方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant