CN113392853A

CN113392853A - 一种基于图像识别的关门声品质测评识别方法

Info

Publication number: CN113392853A
Application number: CN202110595225.6A
Authority: CN
Inventors: 苏丽俐; 邱雯婕; 顾灿松; 陈达亮; 邓江华; 李洪亮; 杨明辉; 何森东; 刘玉龙; 马紫辉; 石谢达
Original assignee: CATARC Tianjin Automotive Engineering Research Institute Co Ltd
Current assignee: CATARC Tianjin Automotive Engineering Research Institute Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-14

Abstract

本发明提供了一种基于图像识别的关门声品质测评识别方法，采集关门声音，通过图像转化工具转化为小波图，分析小波图的特征，通过提取图像的特征，并将特征合并，将提取的训练集特征输入SVM算法中进行训练，生成浅层机器学习模型；运用迁移学习方法冻结多种模型的瓶颈层，微调全连接层，通过训练数据集得到新的深度学习模型；通过Keras深度学习框架，搭建适合本数据集的神经网络模型，运用不同的优化器和正则化方法来训练模型，通过对比损失函数和准确率，调整不同的参数，得到新的神经网络模型。本发明是一种基于图像识别的关门声品质测评识别方法，可以有效的识别关门有无异响，为关门声品质测评提供一种新的方法，并具有良好的准确性。

Description

一种基于图像识别的关门声品质测评识别方法

技术领域

本发明属于汽车技术和机器视觉技术领域，尤其是涉及一种基于图像识别的关门声品质测评识别方法。

背景技术

随着汽车工业的发展，人民生活水平的不断被提高，客户对汽车全方位品质要求越来越高。顾客在购车时通常会关注关门声品质，开关车门听其声音已经是顾客挑选汽车时的习惯性动作，因为人们认为汽车品质的好与坏能够从关门声反映出来，因此汽车关门声品质对顾客选择汽车的心理有很大的影响。

在4S店展厅里，常能见到看车的消费者打开车门再重重关上，若声音沉重、厚实，则得出结论，这车质量不错。所以很多汽车厂商为了提高汽车的关门声品质都投入了大量的人力物力，但是目前还没有推出很好的关门声品质的测试装置和评价方法，暂时还是通过人耳测听，根据实际工作经验去判断，这种方法长期以来根深蒂固，因为同样是人耳判断就最接近消费者的理想值，然而人与人之间存在差距，只能说这种方法适应大部分客户，在此将关门声进行量化用数据来说明事实让客户认同的方法还是空白。

汽车车门是汽车整车上一项重要的结构件与最常使用的开闭总成，车门不但影响汽车的碰撞安全性、空气动力特性及密封性，其关门振动噪声特性也是消费者判断整车品质的主要内容之一。自20世纪80年代以来，汽车车门关闭的振动噪声问题越来越受到重视。汽车NVH是评价乘坐舒适性的重要指标.关门噪声是整车NVH的一部分，它影响了许多消费者判断车辆质量。理想的关门声音应该是低沉厚重的，而实际产品中往往混有尖锐的、持久的杂音，或是多次碰撞声等异响，准确地识别关门声品质可以为解决此类噪声提供前提保障。

随着人工智能的发展，机器学习和深度学习也逐渐应用于汽车行业，使汽车更智能化，所以对关门声品质的测评识别也提出了更高的要求。

发明内容

有鉴于此，本发明旨在提出一种基于图像识别的关门声品质测评识别方法，以解决关门声品质的测评识别中，由于关门声音应该是低沉厚重的，而实际产品中往往混有尖锐的、持久的杂音，或是多次碰撞声等异响，不能准确地识别关门声品质的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于图像识别的关门声品质测评识别方法，包括以下步骤：

S1、利用专业人工头设备采集并分析关门时声音样本，通过图像转化工具转化成小波图并分析小波图的图像特征，图像特征一部分作为训练集图像特征，另一部分作为测试集图像特征；

S2、使用机器学习方法，提取训练集的图像特征，并将图像特征合并，将合并的图像特征输入到SVM算法中进行训练，生成浅层机器学习模型；

S3、通过迁移学习方法冻结多种模型的特征提取层，并分别微调多种模型的全连接层，通过训练集的图像特征训练数据集得到新的迁移学习模型；

S4、利用Keras深度学习框架，搭建全新神经网络模型，通过训练集的图像特征优化得到最优的神经网络模型；

S5、利用测试集的图像特征分别用S2-S4中的不同模型的训练集的图像特征进行分类，识别出测试集的图像特征属于有异响或者无异响。

进一步的，步骤S2中提取训练集的图像特征包括：GLCM和HOG特征；

图像特征合并：将GLCM和HOG特征向量组成一维向量，取两个向量的长度之和就是该输入图片特征提取后的总长度。

进一步的，SVM算法采用高斯核函数。

进一步的，步骤S3中多种模型包括VGG16、VGG19、Inception-v3、Res Net50模型。

进一步的，步骤S3中微调多种模型的全连接层的过程如下：冻结原网络的特征提取层，使卷积层和池化层的权重保持不变，删除原来的全连接层，在特征提取层之后添加全局平均池化层，再增加两个全新的全连接层，最后一层全连接层分类数与数据集的类数相匹配，通过训练集的图像特征重新训练确定最后几层的参数信息，来实现分类目标。

进一步的，新的迁移学习模型训练过程如下：优化器选择Adam来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率来确定迁移学习模型。

进一步的，步骤S4中最优的神经网络模型搭建过程如下：通过Keras深度学习框架，来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率得到神经网络模型。

进一步的，更新全连接层权重的过程：在全连接层增加Dropout,当使用dropout时，定义了固定的舍去概率p为0.5，对于选定的层，成比例数量的神经元被舍弃。

进一步的，模型的准确度计算方法如下：

式中，P指有异响的数据量，N为无异响的数据量，TP指正确预测有异响的数目，TN指正确预测无异响的数目。

进一步的，损失函数：如下式所示：

式中，E是损失函数，y_k是神经网络的输出，t_k是正确解标签，t_k中只有正确解标签的索引为1，其他均为0。

相对于现有技术，本发明所述的一种基于图像识别的关门声品质测评识别方法具有以下有益效果：

(1)本发明所述的一种基于图像识别的关门声品质测评识别方法，通过采集关门声音，将声音信号转化为图像，建立了关门声音数据集，并通过数据集训练得到不到的模型，提出基于图像识别的关门声品质测评识别方法，首次将图像特征用于车门异响识别的研究，填补了此领域的空缺。建立了基于关门小样本数据的神经网络分类模型，并在网络结构中加入Dropout层进行正则化，Adam优化器进行自适应优化，以达到更高的准确率。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的为本发明流程示意图；

图2为本发明实施例所述的为测点布置示意图；

图3为本发明实施例所述的基于Keras框架搭建的神经网络结构图；

图4为本发明实施例所述的关门声品质识别界面图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1至图4所示，一种基于图像识别的关门声品质测评识别方法，包括以下步骤：

S1、利用专业人工头设备采集并分析关门时声音样本，通过图像转化工具转化成小波图并分析小波图的图像特征，部分作为训练集图像特征，部分作为测试集图像特征；

S5、利用测试集的图像特征分别用S1-S3中的不同模型的训练集的图像特征进行分类，识别出测试集的图像特征属于有异响或者无异响。

步骤S1中的图像转化工具采用HEAD软件。

步骤S2中提取的图像特征包括：GLCM和HOG特征；

SVM算法采用高斯核函数。

步骤S3中多种模型包括VGG16、VGG19、Inception-v3、Res Net50模型。

步骤S3中微调多种模型的全连接层的过程如下：冻结原网络的特征提取层，使卷积层和池化层的权重保持不变，删除原来的全连接层，在特征提取层之后添加全局平均池化层，再增加两个全新的全连接层，最后一层全连接层分类数与数据集的类数相匹配，通过训练集的图像特征重新训练确定最后几层的参数信息，来实现分类目标。

新的迁移学习模型训练过程如下：优化器选择Adam来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率来确定迁移学习模型。

步骤S4中最优的神经网络模型搭建过程如下：通过Keras深度学习框架，来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率得到神经网络模型。

更新全连接层权重的过程：在全连接层增加Dropout,当使用dropout时，定义了固定的舍去概率p为0.5，对于选定的层，成比例数量的神经元被舍弃。

模型的准确度计算方法如下：

损失函数：如下式所示：

具体实施如下：

一种基于图像识别的关门声品质测评识别方法，如图1所示，包括以下步骤：

步骤一：数据集的整理，为了能采集到真实有效的汽车关门时的声音样本，选择HEAD公司的专业人工头设备进行采集并分析，专业人工头设备采用HMS IV.0/1型号；实验在整车半消声实验室进行，背景噪声25dB(A)，截止频率80Hz；本次样本采集所用的设备包括：Head公司数据采集***1套；计算机+数据采集分析软件(HEAD Recorder 4.0，ArtemisSUITE 9.1)；车门关闭速度测试仪1套；包括人工头支架的三脚架1套；人工头1个；测点布置如图2所示，人工头置于车外，人工头摆放位置X向(整车坐标系：+X，车头指向车尾；+Y，驾驶员指向副驾驶员；+Z，垂直向上)与门锁扣对齐且距离锁扣距离为1米，人工头头顶距离地面高度为1.72米。

实验前需先进行试关门，确保关门过程无明显的不正常的部件异响，如有异响要先消除异响再进行测试，以避免干扰测试结果。关门方式可以选择手动方式，要保证关门速度的一致性，关门速度控制在1.2m/s，关门速度误差控制在±0.02m/s。

每辆样车至少测试2组，依次完成140辆样车的测试并用人工头记录，由专业评价人员进行主客观评价，声品质评价间的回放设备为HEAD公司专业的数据回放***，通过对声音样本进行分析，删除不合格的样本后组成数据集，建立了140个长度在2-5s关门声样本库，数据集由专业评价人员分为有异响和无异响两类。

由于条件的限制只能得到小样本数据，若直接使用小样本数据进行训练，会出现的严重的过拟合问题。为了抑制小样本数据在深度学习中出现的过拟合问题，需要对小样本数据进行图像的图像数据增强，使其在深度学习中取得好的训练结果，数据增强是通过对样本图像进行的几何变换，从而得到更多的样本，以此来提高样本的多样性。小样本数据的增加，会提高训练模型的泛化能力。图像数据增强有很多种类型，如随机翻转、移位、剪切、旋转等，使用数据增强会避免因为图像的角度、位置、大小等改变预测结果。

步骤二：使用机器学习方法，提取图像的GLCM和HOG特征，分别得到两种特征向量，将两种特征向量组成一维向量，取两个向量的长度之和就是该输入图片特征提取后的总长度。将提取的特征输入SVM算法中进行训练生成浅层机器学习模型，SVM选用高斯核函数。

步骤三：搭建迁移学习模型，传统的CNN模型训练时使用了大量的标记样本，得到的网络结构比较复杂，并在Image Net等数据集上表现出了很好的分类效果。但在这些复杂的CNN模型中使用小样本数据进行分类任务时，可能出现过拟合和识别率不高等现象。在只有小样本数据的情况下，为了提高识别率，迁移学习的加入在一定程度上解决了样本不足带来的上述问题。迁移学习是将从已经学到的知识迁移到另一个新的领域中去，迁移已有的知识解决目标领域中仅有小样本数据的学习任务。

选取经典的VGG16、VGG19、Inception-v3、Res Net50，他们拥有较深的网络，可以提取到足够多的图像特征，同时它们具有不同的网络优化策略。通过改进全连接层分别进行迁移学***均池化层，再增加两个全新的全连接层，最后一层全连接层分类数与数据集的类数相匹配，通过重新训练确定最后几层的参数信息，来实现分类目标。优化器选择Adam,损失函数选择交叉熵误差,迭代次数同样为200次。通过不断的调整超参数对比得到的损失和准确率来确定迁移学习模型。

步骤四：通过Keras深度学习框架，搭建全新神经网络模型，通过不断更改模型、训练，对比准确度，最终搭建了一个10层的神经网络模型如图3所示。在全连接层增加Dropout,当使用Dropout时，定义了一个固定的舍去概率p为0.5，对于选定的层，成比例数量的神经元被舍弃。神经网络的每层信息如下所示：

图像输入层：用于指定图像大小，输入图像大小为224×224×3，对应高度、宽度和通道大小。数字数据由RGB图像组成，因此通道大小(颜色通道)为3。

卷积层1：kernel_size＝3：卷积核(过滤器)大小为3×3，它是训练函数在沿图像扫描时使用的卷积核的高度和宽度。numFilters＝12：卷积核数量为12。Padding＝1：步幅为1的卷积层。Valid：不填充卷积，输出图像尺寸比输入图像尺寸小。激活函数：使用修正线性单元(ReLU)。

池化层1：选用最大池化层，Stride＝2，池化层步长为2，poolSize＝2，输出的每个元素都是其对应2×2区域中的最大元素值。

卷积层2：kernel_size＝3，numFilters＝24，Padding＝1，Valid。激活函数：使用修正线性单元(ReLU)。

池化层2：选用最大池化层。poolSize＝2，Stride＝2。

卷积层3：kernel_size＝5，numFilters＝48，Padding＝1，Valid。激活函数：使用修正线性单元(ReLU)。

池化层3：选用最大池化层。poolSize＝2，Stride＝2。

卷积层4：kernel_size＝5，numFilters＝64，Padding＝1，Valid。激活函数：使用修正线性单元(ReLU)。

池化层4：选用最大池化层。poolSize＝2，Stride＝2。

全连接层：全连接层中的神经元将连接到前一层中的所有神经元。最后一个全连接层将特征组合在一起来对图像进行分类。输出为二分类。

步骤五：将所有模型放在GUI界面中，如图4所示，可以通过点击加载图片来加载待识别的图片，点击不同的模型可以得到不同模型的预测结果，一张由关门声音信号转化来的图像，被识别为有异响的概率为99.99％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像识别的关门声品质测评识别方法，其特征在于包括以下步骤：

S1、采集并分析关门时声音样本，通过图像转化工具转化成小波图并分析小波图的图像特征，图像特征的其中一部作为训练集图像特征，另一样部分作为测试集图像特征；

S3、通过迁移学习方法冻结多种模型的特征提取层，并分别微调多种模型的全连接层，通过训练集的图像特征训练得到新的迁移学习模型；

2.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于：步骤S2中提取训的图像特征包括：GLCM和HOG特征；

3.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于：SVM算法采用高斯核函数。

4.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于：步骤S3中多种模型包括VGG16、VGG19、Inception-v3、ResNet50模型。

5.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于,步骤S3中微调多种模型的全连接层的过程如下：冻结原网络的特征提取层，使卷积层和池化层的权重保持不变，删除原来的全连接层，在特征提取层之后添加全局平均池化层，再增加两个全新的全连接层，最后一层全连接层分类数与数据集的类数相匹配，通过训练集的图像特征重新训练确定最后几层的参数信息，来实现分类目标。

6.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于，步骤S3中新的迁移学习模型训练过程如下：优化器选择Adam来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率来确定迁移学习模型。

7.根据权利要求1所述的一种基于图像识别的关门声品质测评识别方法，其特征在于，步骤S4中最优的神经网络模型搭建过程如下：通过Keras深度学习框架，来优化网络训练,针对本网络模型设置学习率,最后通过训练集的图像特征训练更新新的全连接层权重，训练时，损失函数选择交叉熵误差,迭代次数为200次，通过不断的调整超参数对比得到的损失和准确率得到神经网络模型。

8.根据权利要求7所述的一种基于图像识别的关门声品质测评识别方法，其特征在于，更新全连接层权重的过程：在全连接层增加Dropout,当使用dropout时，定义了固定的舍去概率p为0.5，对于选定的层，成比例数量的神经元被舍弃。

9.根据权利要求6-7任一所述的一种基于图像识别的关门声品质测评识别方法，其特征在于，模型的准确度计算方法如下：

10.根据权利要求6-7任一所述的一种基于图像识别的关门声品质测评识别方法，其特征在于，损失函数：如下式所示：