CN115565161A - 一种基于统一融合特征的多模态车辆驾驶风格识别方法 - Google Patents

一种基于统一融合特征的多模态车辆驾驶风格识别方法 Download PDF

Info

Publication number
CN115565161A
CN115565161A CN202211299132.XA CN202211299132A CN115565161A CN 115565161 A CN115565161 A CN 115565161A CN 202211299132 A CN202211299132 A CN 202211299132A CN 115565161 A CN115565161 A CN 115565161A
Authority
CN
China
Prior art keywords
driving style
network
data
features
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211299132.XA
Other languages
English (en)
Inventor
宋梁
刘靖
刘洋
张冠华
倪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202211299132.XA priority Critical patent/CN115565161A/zh
Publication of CN115565161A publication Critical patent/CN115565161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于统一融合特征的多模态车辆驾驶风格识别方法;其包括以下步骤:(1)对多模态数据进行预处理操作,以便于下一步的特征提取阶段;预处理操作包括加入随机噪声、归一化处理、小波去噪和滑动窗口切分;(2)将数据集分为训练集和测试集,通过三个特征提取子网提取统一的统计、时间、空间和特征,再采用注意力对三种特征进行高效融合;(3)计算分类的联合损失并通过反向传播优化网络参数,得到最优驾驶风格识别模型。本发明仅需使用智能手机即可实现车辆的驾驶风格检测,具备低成本、高灵活性和可交互性;本发明可以同时提取基于时空和统计信息的关键特征并且对模块中的参数具备低敏感度。

Description

一种基于统一融合特征的多模态车辆驾驶风格识别方法
技术领域
本发明属于人工智能和智能交通技术领域,具体的说,涉及一种基于统一融合特征的多模态车辆驾驶风格识别方法。
背景技术
智能传感技术和无线通信技术的进步增强了各种嵌入设备收集车辆驾驶数据的能力。相比于使用固定式的汽车内部传感器(如CAN-Bus)或专用设备(如高清摄像头)进行采集的方式,以智能手机内嵌的多传感器及其他便携性嵌入式设备为主的采集设备,兼具便利性、通信可交互性、应用可升级性、数据类型丰富性、数据处理高效性等优势,受到了广泛的研究。驾驶风格反映了驾驶员在车辆运动时细粒度的驾驶习惯,这项研究使诸多智能应用受益,如驾驶评估和辅助、车辆交互及汽车保险评估等。相比于以往基于车辆GPS时空轨迹数据的驾驶风格识别方法,以多传感器形成的多模态驾驶数据更能准确刻画车辆的驾驶行为。多模态驾驶风格检测方法主要分为两类:基于特征工程的方法和基于深度学习的方法。基于特征工程的方法主要是针对数据的内在模式设计有意义的特征,如均值、方差、最大最小值等,存在领域知识限制,且耗时耗力,并且基于此方法设计的方法容易忽略高阶的统计特征。对应地,基于深度学习的方法通常考虑数据的时间或空间关系以设计神经网络,能够实现自动地从数据中提取时空特征,但并不能探索统计特征。
以往驾驶风格识别方法的特征提取方法(如LSTM和CNN)擅长提取时空特征,而忽略统计特征,并且传统的统计特征提取方法(如k-means,模糊推理***,随机森林等)需要人工挑选特征,费时费力。
发明内容
针对现有技术的不足,本发明的目的在于提出一种利用统一融合特征进行驾驶风格识别的方法;本发明自动学习一种鲁棒的特征来表征多模态感知上驾驶风格的复杂分布和时空模式,特征通过三个精心设计的网络以端到端方式提取,其采用3类不同表征数据特性的特征被整合成统一融合特征,具备强鲁棒性;此外,本发明将核嵌入概念引入自动编码器使得统计子网在映射的希尔比特空间内提取高阶的统计特征,同时精心设计空间和时间子网分别对数据中的时空关系,提取的特征使得所提模型能够学习超越其数据本身特征的表示。更重要的是,所提模型不需要对不同驾驶风格的数据段进行整理,而是仅需通过简单窗口分割实现了完美分割,更贴近实际应用。
本发明首先通过引入k核均值嵌入技术以提取高阶统计特征。接着使用统计、时间、空间三个子网分别提取相应特征以形成统一特征,并使用注意力衡量统一特征的重要性。最后以联合损失函数优化三个子网的分布、重建和分类性能,以训练高效的驾驶风格识别模型。本发明的技术方案具体介绍如下。
一种基于统一融合特征的多模态车辆驾驶风格识别方法,包括以下步骤:
(1)对多模态数据进行预处理,以便于下一步的特征提取;预处理操作包括加入随机噪声、归一化处理、小波去噪和滑动窗口切分;
(2)将数据集分为训练集和测试集,通过三个特征提取子网提取统一的统计特征、时间特征和空间特征,再对三种特征进行融合;
(3)对融合的统一特征计算驾驶风格分类,计算驾驶风格分类的联合损失并通过反向传播优化网络参数,得到最优驾驶风格识别模型。
本发明中,步骤(1)中,多模态驾驶数据选自加速度、角速度、磁传感数据、GPS数据、油耗数据、脑电图EEG、心电图ECG或肌电图EMG中的若干种。
本发明中,步骤(2)中,三个特征提取子网分别为统计子网fst、时间子网fte、空间子网fsp,统计子网fst通过Autoencoder提取基于分布的统计特征、时间子网fte通过GRU+CNN提取时间特征,空间子网fsp通过GRU提取空间特征。
本发明中,步骤(2)中,统计子网fst以矩阵X的作为输入,旨在通过神经网络fst自动学习统计特征,表示如下:
Figure BDA0003903838190000024
其中Fst表示统计特征。
Figure BDA0003903838190000025
为特征映射函数,实现从映射的希尔伯特空间分布中提取高维甚至无限维的特征;具体地,通过计算每段输入样本的特征映射均值作为核均值的向量输入,公式表达如下:
Figure BDA0003903838190000021
其中ws是滑动窗口长度,M是驾驶风格类型的集合。为了使统计子网fst能自动地从不同的特征核
Figure BDA0003903838190000026
中学习最佳核,即通过k核均值嵌入,从多个核函数中学习最大的映射均值,公式如下:
Figure BDA0003903838190000022
其中
Figure BDA0003903838190000023
表示最佳的特征映射,由于k核均值嵌入映射不一定是可逆的,所以fst通过引入Autoencoder的编码器Encoder和解码器Decoder来保证特征映射的可逆性,即:
Figure BDA0003903838190000031
其中fst(·)和
Figure BDA0003903838190000032
分别表示特征映射和逆映射,
Figure BDA0003903838190000033
Figure BDA0003903838190000034
分别表示编码器和解码器;
时间子网fte由并行的2层GRU网络和4层1维CNN网络组成,两者均用于提取多模态驾驶数据中的时间关系,CNN网络的输入形式为列向量
Figure BDA0003903838190000035
通过1维卷积沿时间维度提取数据中的时间模式;GRU网络的输入形式为行向量
Figure BDA0003903838190000036
以此学习数据中的时间关系。T表示转置,d为所有模态通道组成的维度;
空间子网fsp使用2层GRU网络提取每种模态之间的空间关系,其输入形式为列向量
Figure BDA0003903838190000037
之间的依赖形成空间特征向量,建立模态之间的空间关联。
本发明中,步骤(2)中,将三个子网提取的不同类型的特征联结,形成统一特征,并通过注意力衡量不同特征的重要性,公式计算如下:
Fun=[Fst;Fte;Fsp] (10)
af=Sigmoid(Ws(ReLU(WrFun+br))+bs (11)
Figure BDA0003903838190000038
其中Fun表示将统计特征Fst、时间特征Fte、空间特征Fsp联结后形成的统一特征,af表示通过注意力网络为Fun生成的权重向量,Ff为注意力融合后形成的统一融合的特征,
Figure BDA0003903838190000039
表示元素级乘法,Sigmoid(·)和ReLu(·)分别表示Sigmoid函数和ReLu函数,{Ws,Wr,br,bs}为训练过程中可学习参数。
本发明中,步骤(3)中,多模态驾驶风格识别网络的损失函数包括三部分:分布损失、重建损失和分类损失;使用最大均值差异距离
Figure BDA00039038381900000312
作为统计子网分布嵌入的计算度量,公式如下:
Figure BDA00039038381900000310
其中xi和xj表示2种风格的输入行数据,N和M表示2种输入样本的长度,基于
Figure BDA00039038381900000311
分布损失
Figure BDA0003903838190000041
的计算公式为:
Figure BDA0003903838190000042
Figure BDA0003903838190000043
的计算近似于Autoencoder的输入和输出之间的平均向量差值。重建损失采用均方差函数计算,公式如下:
Figure BDA0003903838190000044
驾驶风格分类损失采用交叉熵损失函数,计算公式如下:
Figure BDA0003903838190000045
其中
Figure BDA0003903838190000046
为驾驶风格的种类,yq表示当前输入样本标签为q的标注(0或1),
Figure BDA0003903838190000047
为使用Softmax函数预测驾驶风格
Figure BDA0003903838190000048
为q的概率。综上,本发明实施例通过以下公式计算联合损失函数:
Figure BDA0003903838190000049
其中λ和γ是平衡参数,B为批处理大小。
本发明中,步骤(3)中,通过全连接层和Softmax函数对融合的统一特征计算驾驶风格分类。
和现有技术相比,本发明的有益效果在于:
1、相比于以往的手动设计特征的方式,本发明所提模型模型通过核均值嵌入技术可以提取驾驶风格序列数据中的高维甚至无限维统计特征;
2、相比于固定式设备的技术方案,本发明所提模型仅需使用智能手机即可实现车辆的驾驶风格检测,具备低成本、高灵活性和可交互性;
3、以往基于时空特征提取的方法无法提取统计信息,本方法可以同时提取基于时空和统计信息的关键特征并且对模块中的参数具备低敏感度;
4、本方法仅的输入数据为固定的滑动窗口数据片段,而不是对不同的驾驶风格应用不同的滑动窗口,使得模型更加适应实际应用;
5、区别于基于视频数据的检测方式,本方法仅需手机内置的多个传感器即可实现高效检测,平均预测执行时间达到1-3ms,滑动窗口为3-5s。
附图说明
图1:本发明实施例中基于统一融合特征的车辆驾驶风格识别方法的总流程图;箭头指示数据流向。
图2:本发明实施例中训练驾驶风格识别模型的网络流程示意图;箭头指示数据流向。
图3:本发明实施例中提取统一特征的子网络结构示意图。箭头指示数据流向,Conv1D表示1维卷积的卷积层,MeanPool1D表示1维均值池化核的池化层,ReLU()和Tanh()为激活函数,FC表示全连接层。ConvB表示构成(c)时间子网的CNN网络快,FCB表示构成(e)统计子网
图4:本发明所提模型在迭代训练第0、30、50和100时的可视化聚类结果。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细介绍。
本发明在多模态驾驶风格识别的特征提取方法中引入了基于统一融合特征策略,通过基于k核均值嵌入技术将任意分布映射到希尔伯特空间,使得统计子网可以提取多模态驾驶数据中的高阶统计特征;统计子网不仅用于原始数据的重建,还用于分布嵌入的重建;使用GRU网络提取多模态驾驶序列的空间特征;使用CNN+GRU网络提取多模态驾驶序列的时间特征;通过不同的数据输入形式分别从统计、时间、空间子网提取统一特征,并使用注意力网络衡量统一特征的重要性;通过联合损失函数优化模型的分布、重建和分类性能。
图1为本发明提出的一种基于统一融合特征的车辆驾驶风格识别方法的总流程图,该流程可分为4个阶段,包括数据预处理S1、特征提取S2、损失计算S3、驾驶风格分类S4。
本发明可通过智能手机内嵌的多种传感器采集多模态驾驶风格数据,如加速度计、陀螺仪、磁传感计、GPS等,每种传感器对应采集一种模态数据,形成加速度、角速度、GPS等真实的多模态驾驶风格数据。该方法的总流程:首先对多模态数据进行预处理,以便于下一步的特征提取,包括加入随机噪声、归一化处理、小波去噪、滑动窗口切分;接着,将数据集按照7:3的比例分为训练集(含验证集)和测试集,并通过三个特征提取子网提取统一的时间、空间和统计特征,并采用注意力对三种特征进行高效融合;最后,计算分类的联合损失并通过反向传播优化网络参数,得到最优驾驶风格识别模型。
每段待输入的多模态驾驶序列可以表示为(X,y),其中X=[x1,..xm,..,xM],m∈[1,M],M代表M种模态,
Figure BDA0003903838190000051
Figure BDA0003903838190000052
表示驾驶风格的集合,如攻击性驾驶、昏昏欲睡、正常驾驶。模态m的输入数据
Figure BDA0003903838190000053
ws为滑动窗口长度,dm为m模态的通道数。进一步地,还可以表示模态m的输入单时间步数据
Figure BDA0003903838190000061
i∈[1,ws]。为了增强网络模型对数据的抗干扰能力,我们为原始数据添加随机高斯噪声,公式表示如下:
Figure BDA0003903838190000062
其中
Figure BDA0003903838190000063
表示无噪声的原始数据,nk是独立的0均值,方差为σ2的高斯随机变量。
小波变换的原理是将原始信号分解成一系列的小波函数的叠加,不仅可以获取信号的频率还可以定位到时间,公式表达如下:
Figure BDA0003903838190000064
其中a和t分别表示尺度和平移量。小波去噪特别适合非平稳、非线性信号的处理。不同的小波函数有不同的去噪效果,本发明实施例通过db4系列小波和软阈值法估计得到小波系数。当小波系数绝对值|ω|大于阈值λ时,则减去λ,反之则为0,公式表示如下:
Figure BDA0003903838190000065
此后还需要对数据应用最大最小归一化处理,使所有数据范围统一在[-1,1],本发明实施例通过以下公式进行归一化处理:
Figure BDA0003903838190000066
其中x、x′、xmin和xmax分别是原始数据、归一化后的数据、原始数据中的最小和最大值。
为了探索多模态驾驶风格数据的时空特性和统计特性,我们设计三个特征提取子网分别,统计子网fst、时间子网fte和空间子网fsp以提取统计、时间、空间特征。为了更好地探索数据的内在模式,不同子网的输入形式是不同的。统计子网fst以矩阵X的作为输入,旨在通过神经网络fst自动学习统计特征,表示如下:
Figure BDA0003903838190000069
我们引入核均值嵌入技术将每个实例映射到希尔伯特空间,
Figure BDA00039038381900000610
为特征映射函数,实现从映射的希尔伯特空间分布中提取高维甚至无限维的特征。具体地,通过计算每段输入样本的特征映射均值作为核均值的向量输入,公式表达如下:
Figure BDA0003903838190000067
我们的目标是使统计子网fst能自动地从不同的特征核
Figure BDA0003903838190000068
中学习最佳核,即通过k核均值嵌入,从多个核函数中学习最大的映射均值,公式如下:
Figure BDA0003903838190000071
由于fst(·)使用k核均值嵌入映射,不一定是可逆的,所以我们引入Autoencoder的编码器Encoder和解码器Decoder来保证特征映射的可逆性,即:
Figure BDA0003903838190000072
其中fst(·)和
Figure BDA0003903838190000073
分别表示特征映射和逆映射,
Figure BDA0003903838190000074
Figure BDA0003903838190000075
分别表示Encoder和Decoder。
时间子网fte由并行的2层GRU子网和4层1维CNN子网组成,其网络结构见图3(d)和图3(c)。两者均用于提取多模态驾驶数据中的时间关系,CNN子网的输入形式为列向量
Figure BDA0003903838190000076
通过1维卷积沿时间维度提取数据中的时间模式,ws为滑动窗口长度;GRU子网的输入形式为行向量
Figure BDA0003903838190000077
以此学习数据中的时间关系,d为所有模态通道组成的维度。GRU是一种比LSTM更简易的门控循环神经网络,每个GRU单元均包含多个门控组件,其公式计算如下:
Figure BDA0003903838190000078
其中rt是重置门zt是更新门,
Figure BDA0003903838190000079
表示当前时刻的候选状态,ht表示当前状态。rt定义了如何将新输入与前一个内存单元组合起来,zt指定了前一个内存单元的保留量。
不同于以往方法中使用1维CNN沿着时间维度对数据进行卷积以提取空间模式的方式,本发明实施例所提空间子网fsp使用堆叠GRU网络提取模态数据之间的空间关系,其网络结构见图3(d),输入形式为列向量
Figure BDA00039038381900000710
通过学习每种模态之间的依赖形成的空间特征向量,建立每种模态的空间关联。
随后我们将三个子网提取的不同类型的特征联结,形成统一特征,并通过注意力衡量不同特征的重要性,这两部分的公式计算如下:
Fun=[Fst;Fte;Fsp] (10)
af=Sigmoid(Ws(ReLU(WrFun+br))+bs (11)
Figure BDA00039038381900000711
其中Fun表示将统计特征Fst、时间特征Fte、空间特征Fsp联结后形成的统一特征,af表示注意力网络为Fun生成的权重向量,Ff为注意力融合后的特征,
Figure BDA00039038381900000712
表示元素级乘法。Sigmoid(·)和ReLu(·)分别表示Sigmoid函数和ReLu函数,{Ws,Wr,br,bs}为训练过程的学习参数。
本发明方法中多模态驾驶风格识别网络的损失函数包括三部分:分布损失、重建损失和分类损失。我们使用最大均值差异距离
Figure BDA0003903838190000081
作为统计子网分布嵌入的计算度量,公式如下:
Figure BDA0003903838190000082
其中xi和xj表示2种风格的输入行数据,N和M表示2种输入样本的长度。基于
Figure BDA0003903838190000083
分布损失的计算公式为:
Figure BDA0003903838190000084
重建损失采用均方差函数计算,公式如下:
Figure BDA0003903838190000085
驾驶风格分类损失采用交叉熵损失函数,计算公式如下:
Figure BDA0003903838190000086
其中
Figure BDA0003903838190000087
为驾驶风格的种类,yq表示当前输入样本标签为q的标注(0或1),
Figure BDA0003903838190000088
为使用Softmax函数预测驾驶风格
Figure BDA0003903838190000089
为q的概率。综上,本发明实施例通过以下公式计算联合损失函数:
Figure BDA0003903838190000091
其中λ和γ是平衡参数,B为批处理大小。
图2为本发明提出的训练驾驶风格识别模型的神经网络结构示意图,该网络结构包含五部分:多模态驾驶序列N1、数据预处理N2、统一特征提取N3、特征融合N4、驾驶风格分类N5。其中:
N1包括多种模态数据,如加速度、方位、磁传感计、GPS等,输入的单个滑动窗口持续时间为5s;
N2对数据输入数据进行预处理操作,其目的是为了便于神经网络的处理,包括增加高斯随机噪声以增加模型对抗噪声干扰的能力、最大最小化归一化处理以提高的计算处理效率、小波去噪以抑制高频噪声干扰、滑动窗口切分以划分等长驾驶风格样本数据;
N3由三个特征提取子网组成,其作用分别为通过Autoencoder提取基于分布的统计特征、通过GRU提取空间特征和通过GRU+CNN提取时间特征。每个不同子网的网络结构(图3)有不同的数据输入形式,并将所提取的输出特征联结起来形成统一特征;
N4可通过注意力网络对统一特征进行重要性衡量,进一步提高网络模型对数据特征的辨识度;
N5通过全连接层和Softmax函数对融合的统一特征计算驾驶风格分类。
图3为提取统一特征的子网络结构示意图,包括(a)CNN网络块ConvB、(b)Autoencoder网络块FCB、(c)CNN时间子网、(d)GRU时间/空间子网和(e)Autoencoder统计子网。其中:
(a)为(c)CNN时间子网中每层的网络结构,依次是核为3的1维卷积层、ReLU激活函数层、核为2的1维均值池化层及20%的随机辍学层;
(b)为(e)Autoencoder统计子网中卷积层的网络结构,依次包含全连接层、ReLU激活函数层、10%的随机辍学层;
(c)为CNN时间子网的网络结构,依次为输入层、三个(a)CNN块层,输入层的尺寸为
Figure BDA0003903838190000092
(d)为时间和空间子网的网络结构,均采用堆叠GRU网络,每层的隐藏状态为128。GRU时间子网的输入层的尺寸为
Figure BDA0003903838190000093
GRU空间子网的输入层的尺寸为
Figure BDA0003903838190000094
(e)为统计子网的网络结构,分为左侧的编码器Encoder和右侧的解码器Decoder,其中编码器依次为输入层、4个(b)Autoencoder网络块,输入尺寸为滑动窗口切分得到的矩阵X,解码器在编码器之后,依次为4个(b)Autoencoder网络块、Tan激活函数。
本发明中统计子网的核函数可替换为多项式核函数、sigmoid核函数、高斯核函数、拉普拉斯核函数等;本发明中的多模态驾驶数据可根据采集设备的传感器种类进行增加或减少,数据类型不限于加速度、角速度、磁传感计、GPS、油耗数据、脑电图EEG、心电图ECG、肌电图EMG等;本发明中用于提取空间特征的CNN可被替换为Resnet、Inception、Densenet等其他类型的卷积神经网络;本发明中用于提取时间特征的GRU网络可被替换为RNN、LSTM等其他类型的循环神经网络;本发明中用于提取统计特征的Autoencoder网络可被替换为Sparse Autoencoder、Variational Autoencoder等其他自编码器变种;除针对输入样本矩阵提取统计特征外,亦可选择(1)加入驾驶上下文如道路、天气、地图数据等额外信息作为元数据共同提取统计特征;(2)将时空特征作为输入向量进行特征嵌入后的二次统计特征提取。
本发明中神经网络结构示意图(图2)中的特征融合层N4可选择将注意力网络层替换为简单联结或是键值注意力、多头注意力、结构化注意力、Top-k注意力等注意力变种网络,也可以选择应用PCA进行主成分分析。
本发明中,3类特征的整合使得模型对于任意单一子网的参数具备低敏感性,如
(1)统计子网中编码器/解码器在层数{1,2,3,4,5,6}的性能变化仅在3个点左右浮动;
(2)统计子网中编码器最后1层的潜在表示在1D~6D(D为输入维度)范围变化很小;
(3)时间和空间子网中GRU的隐表示{32,64,128,256,512}时性能变化不大;
(4)时间子网的卷积层数{2,4,6,8,10}时性能变化不大。
具体见表1,是所提模型在公开的驾驶行为检测数据集UAH-Driveset上的关键参数消融结果。
表1所提模型的参数消融结果
Figure BDA0003903838190000101
图4是本发明所提模型在迭代训练第0、30、50和100时的可视化聚类结果。由图4可见,所提模型在迭代30个时已基本形成聚类的雏形;在迭代50时,几乎达到了迭代100具备同样良好的聚类效果。

Claims (8)

1.一种基于统一融合特征的多模态车辆驾驶风格识别方法,其特征在于,包括以下步骤:
(1)对多模态数据进行预处理,以便于下一步的特征提取;预处理操作包括加入随机噪声、归一化处理、小波去噪和滑动窗口切分;
(2)将数据集分为训练集和测试集,通过三个特征提取子网提取统一的统计特征、时间特征和空间特征,再对三种特征进行融合;
(3)对融合的统一特征计算驾驶风格分类,计算驾驶风格分类的联合损失并通过反向传播优化网络参数,得到最优驾驶风格识别模型。
2.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(1)中,多模态驾驶数据选自加速度、角速度、磁传感数据、GPS数据、油耗数据、脑电图EEG、心电图ECG或肌电图EMG中的若干种。
3.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(2)中,三个特征提取子网分别为统计子网fst、时间子网fte和空间子网fsp,统计子网fst通过Autoencoder提取基于分布的统计特征、时间子网fte通过GRU+CNN提取时间特征,空间子网fsp通过GRU提取空间特征。
4.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(2)中,统计子网fst以矩阵X的作为输入,旨在通过神经网络fst自动学习统计特征,表示如下:
Fst=fst(X)=φfst(X) (5)
其中Fst表示统计特征。φfst(·)为特征映射函数,实现从映射的希尔伯特空间分布中提取高维甚至无限维的特征;具体地,通过计算每段输入样本的特征映射均值作为核均值的向量输入,公式表达如下:
Figure FDA0003903838180000011
其中ws是滑动窗口长度,M是驾驶风格类型的集合。为了使统计子网fst能自动地从不同的特征核
Figure FDA0003903838180000012
中学习最佳核,fst通过k核均值嵌入从多个核函数中学习最大的映射均值,公式如下:
Figure FDA0003903838180000013
其中
Figure FDA0003903838180000014
表示最佳的特征映射,由于k核均值嵌入映射不一定是可逆的,所以fst通过引入Autoencoder的编码器和解码器来保证特征映射的可逆性,即:
Figure FDA0003903838180000015
其中
Figure FDA0003903838180000021
Figure FDA0003903838180000022
分别表示特征映射和逆映射,
Figure FDA0003903838180000023
Figure FDA0003903838180000024
分别表示编码器和解码器;
时间子网fte由并行的2层GRU网络和4层1维CNN网络组成,两者均用于提取多模态驾驶数据中的时间关系。CNN网络的输入形式为列向量
Figure FDA0003903838180000025
通过1维卷积沿时间维度提取数据中的时间模式;GRU网络的输入形式为行向量
Figure FDA0003903838180000026
以此学习数据中的时间关系。T表示转置,d为所有模态通道组成的维度;
空间子网fsp使用2层GRU网络提取每种模态之间的空间关系,其输入形式为列向量
Figure FDA0003903838180000027
通过学习所有模态通道之间的依赖形成空间特征向量,建立模态之间的空间关联。
5.根据权利要求4所述的多模态车辆驾驶风格识别方法,其特征在于,统计子网fst的网络结构采用编码器和解码器结构,其中编码器包括输入层和4个Autoencoder网络块,解码器近似于编码器的反对称结构并被设计在编码器的输出之后,包括4个Autoencoder网络块和Tan激活函数;Autoencoder网络块由全连接层、ReLU激活函数层、10%的随机辍学层依次连接组成;
时间子网fte中的GRU网络采用堆叠GRU网络块,每层的隐藏状态为128;CNN网络包括输入层和3个CNN块层,每个CNN块层由核为3的1维卷积层、ReLU激活函数层、核为2的1维均值池化层及20%的随机辍学层依次连接组成;
空间子网fsp同样采用堆叠GRU网络,每层的隐藏状态为128。
6.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(2)中,将三个子网提取的不同类型的特征联结,形成统一特征,并通过注意力衡量不同特征的重要性,公式计算如下:
Fun=[Fst;Fte;Fsp] (10)
af=Sigmoid(Ws(ReLU(WrFun+br))+bs (11)
Figure FDA0003903838180000028
其中Fun表示将统计特征Fst、时间特征Fte、空间特征Fsp联结后形成的统一特征,af表示通过注意力网络为Fun生成的权重向量,Ff为注意力融合后形成的统一融合特征,
Figure FDA0003903838180000029
表示元素级乘法,Sigmoid(·)和ReLu(·)分别表示Sigmoid函数和ReLu函数,{Ws,Wr,br,bs}为训练过程中可学习的参数。
7.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(3)中,多模态驾驶风格识别网络的损失函数包括三部分:分布损失、重建损失和分类损失;使用最大均值差异距离
Figure FDA00039038381800000210
作为统计子网分布嵌入的计算度量,公式如下:
Figure FDA0003903838180000031
其中xi和xj表示2种风格的输入行数据,N和M表示2种输入样本的长度,基于
Figure FDA0003903838180000032
分布损失
Figure FDA0003903838180000033
的计算公式为:
Figure FDA0003903838180000034
Figure FDA0003903838180000035
的计算近似于Autoencoder的输入和输出之间的平均向量差值。重建损失采用均方差函数计算,公式如下:
Figure FDA0003903838180000036
分类损失采用交叉熵损失函数,计算公式如下:
Figure FDA0003903838180000037
其中
Figure FDA0003903838180000038
为驾驶风格的种类,yq表示当前输入样本标签为q的标注,为0或1,
Figure FDA0003903838180000039
为使用Softmax函数预测驾驶风格
Figure FDA00039038381800000310
为q的概率;
以上,通过以下公式计算联合损失函数:
Figure FDA00039038381800000311
其中λ和γ是平衡参数,B为批处理大小。
8.根据权利要求1所述的多模态车辆驾驶风格识别方法,其特征在于,步骤(3)中,通过全连接层和Softmax函数对融合的统一特征计算驾驶风格分类。
CN202211299132.XA 2022-10-24 2022-10-24 一种基于统一融合特征的多模态车辆驾驶风格识别方法 Pending CN115565161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211299132.XA CN115565161A (zh) 2022-10-24 2022-10-24 一种基于统一融合特征的多模态车辆驾驶风格识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211299132.XA CN115565161A (zh) 2022-10-24 2022-10-24 一种基于统一融合特征的多模态车辆驾驶风格识别方法

Publications (1)

Publication Number Publication Date
CN115565161A true CN115565161A (zh) 2023-01-03

Family

ID=84746266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211299132.XA Pending CN115565161A (zh) 2022-10-24 2022-10-24 一种基于统一融合特征的多模态车辆驾驶风格识别方法

Country Status (1)

Country Link
CN (1) CN115565161A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195082A (zh) * 2023-11-08 2023-12-08 清华大学 一种驾驶行为预测方法和装置
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***
CN117653147A (zh) * 2024-01-31 2024-03-08 长春理工大学 一种基于脑电信号特征的分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195082A (zh) * 2023-11-08 2023-12-08 清华大学 一种驾驶行为预测方法和装置
CN117195082B (zh) * 2023-11-08 2024-02-06 清华大学 一种驾驶行为预测方法和装置
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***
CN117388893B (zh) * 2023-12-11 2024-03-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位***
CN117653147A (zh) * 2024-01-31 2024-03-08 长春理工大学 一种基于脑电信号特征的分类方法
CN117653147B (zh) * 2024-01-31 2024-04-26 长春理工大学 一种基于脑电信号特征的分类方法

Similar Documents

Publication Publication Date Title
CN111914907B (zh) 一种基于深度学习空谱联合网络的高光谱图像分类方法
CN115565161A (zh) 一种基于统一融合特征的多模态车辆驾驶风格识别方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN108830254B (zh) 一种基于数据均衡策略和密集注意网络的细粒度车型检测与识别方法
CN114495492B (zh) 一种基于图神经网络的交通流预测方法
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
CN116343284A (zh) 基于注意力机制的多特征户外环境情绪识别方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及***
CN116596151B (zh) 基于时空图注意力的交通流量预测方法及计算设备
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN117133035A (zh) 一种面部表情识别方法、***及电子设备
CN118051831B (zh) 基于CNN-Transformer合作网络模型的水声目标识别方法
CN112869717A (zh) 一种基于bl-cnn的脉搏特征识别分类***及方法
CN115035298A (zh) 基于多维注意力机制的城市街景语义分割增强方法
Wang et al. Spectral-spatial global graph reasoning for hyperspectral image classification
CN116597312A (zh) 基于小样本图像语义分割的农作物叶片病虫害识别的方法
CN111797849B (zh) 用户活动识别方法、装置、存储介质及电子设备
CN114757271A (zh) 基于多通道图卷积网络的社交网络节点分类方法与***
CN113781385B (zh) 用于大脑医学影像自动分类的联合注意力图卷积方法
CN116486183B (zh) 基于多种注意力权重融合特征的sar图像建筑区分类方法
CN113159371B (zh) 基于跨模态数据融合的未知目标特征建模与需求预测方法
CN111860368A (zh) 一种行人重识别方法、装置、设备及存储介质
CN112883905B (zh) 基于粗粒度时频特征与多层融合学习的人体行为识别方法
CN115757855A (zh) 一种基于图结构匹配的图像检索方法
CN114998731A (zh) 智能终端导航场景感知识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination