CN114944152A

CN114944152A - 车辆鸣笛音识别方法

Info

Publication number: CN114944152A
Application number: CN202210854185.7A
Authority: CN
Inventors: 王丹; 崔洋洋; 杨登舟
Original assignee: Shenzhen Weina Perception Computing Technology Co ltd
Current assignee: Shenzhen Weina Perception Computing Technology Co ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-08-26

Abstract

本申请提供了一种车辆鸣笛音识别方法，该方法包括：获取第一音频，该第一音频包括车辆的鸣笛音；对第一音频进行分段，得到第一音频片段；对第一音频片段进行特征提取，得到第一音频片段的特征向量；根据第一音频片段的特征向量，确定车辆的类别。该方法将冗长的汽车鸣笛音分割为多段，再进行特征提取，可有效降低额外因素对于特征提取的不利影响，提升特征提取准确度。此外，截取片段的方式还能够有效减少后续处理的音频数据，提高处理效率。该方案能够获取到充分反映不同车辆的鸣笛音的特点的音频特征，基于这样的音频特征来进行分类，能够有效提高分类的准确性。

Description

车辆鸣笛音识别方法

技术领域

本申请属于车辆鸣笛音识别技术领域，尤其涉及一种车辆鸣笛音识别方法。

背景技术

声音是由物体振动产生的声波。一般来说声音是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动，许多物体都有声音，不同的物体产生的声音也不同，其中汽车鸣笛声是声音的其中一类，为了自动对于一些汽车鸣笛声进行判定，从而对于一些场景中的禁止鸣笛的车辆进行处罚，需要识别出鸣笛车辆的类别。

传统方案中，只是针对整段鸣笛音进行车辆类别的简单判别，但由于鸣笛音的音频干扰因素过多，例如掺杂了环境噪声，甚至可能存在其他车辆的鸣笛音的影响等，导致判定的车辆类别可能错误。

因此，如何提高车辆鸣笛音识别的准确性是亟待解决的技术问题。

发明内容

本申请实施例提供了一种车辆鸣笛音识别方法，可以提高车辆鸣笛音识别的准确性。

第一方面，本申请实施例提供了一种车辆鸣笛音识别方法，包括：获取第一音频，该第一音频包括车辆的鸣笛音；对第一音频进行分段，得到第一音频片段；对第一音频片段进行特征提取，得到第一音频片段的特征向量；根据第一音频片段的特征向量，确定车辆的类别。

在第一方面的一种可能的实现方式中，在对第一音频进行特征提取，得到第一音频片段的特征向量时，可以利用特征提取模型实现，也就是说，利用特征提取模型对第一音频进行特征提取。

在第一方面的一种可能的实现方式中，在对第一音频片段进行特征提取，得到第一音频片段的特征向量时，可以执行下面的操作：对第一音频片段进行预处理，得到第二音频片段，该第二音频片段用于表示预处理后的第一音频片段；对第二音频片段进行特征提取，得到第二音频片段的特征向量。

在第一方面的一种可能的实现方式中，在对第一音频片段进行预处理，得到第二音频片段时，可以执行下面的操作：提取并剔除第一音频片段中的模糊片段，从而得到第二音频片段；和/或，去除第一音频片段的噪声，从而得到第二音频片段；和/或，对第一音频片段进行滤波处理，从而得到第二音频片段。

在第一方面的一种可能的实现方式中，在根据第一音频片段的特征向量，确定车辆的类别时，可以利用第一深度学习模型对第一音频片段的特征向量进行处理，将第一深度学习模型输出的车辆类别（分类结果）作为上述车辆的类别。

在第一方面的一种可能的实现方式中，上述方法还可以包括：获取第一图像，第一图像中包括车辆；对第一图像进行特征提取，得到第一图像的特征向量，第一图像的特征向量包括车辆的类别参数；上述根据第一音频片段的特征向量，确定车辆的类别可以包括：根据第一音频片段的特征向量和第一图像的特征向量，确定车辆的类别。

在第一方面的一种可能的实现方式中，在根据第一音频片段的特征向量和第一图像的特征向量，确定车辆的类别时，可以执行下面的操作：根据第一音频片段的特征向量，确定车辆的第一候选类别；根据第一图像的特征向量，确定车辆的第二候选类别；当第一候选类别与第二候选类别相同时，将第一候选类别或第二候选类别确定为车辆的类别。

在第一方面的一种可能的实现方式中，在根据第一音频片段的特征向量和第一图像的特征向量，确定车辆的类别时，可以利用第一深度学习模型对第一音频片段的特征向量进行处理，将第一深度学习模型输出的车辆类别（分类结果）作为上述第一候选类别；利用第二深度学习模型对第一图像的特征向量进行处理，将第二深度学习模型输出的车辆类别（分类结果）作为上述第二候选类别。

在第一方面的一种可能的实现方式中，在对第一图像进行特征提取，得到第一图像的特征向量时，可以执行下面的操作：对第一图像进行预处理，得到第二图像，该第二图像用于表示预处理后的第一图像；对第二图像进行特征提取，得到第二图像的特征向量。

在第一方面的一种可能的实现方式中，在对第一图像进行预处理，得到第二图像时，可以执行下面的操作：调整第一图像的对比度、清晰度或像素中的至少一项参数，从而得到第二图像；和/或，对第一图像进行二值化处理，从而得到第二图像。

第二方面，本申请实施例提供了一种车辆鸣笛音识别装置，该装置包括能够实现第一方面及其任意一种实现方式的方法的单元。

在第二方面的一种可能的实现方式中，该车辆鸣笛音识别装置包括：获取单元，用于获取第一音频，第一音频包括车辆的鸣笛音；处理单元，用于对第一音频进行分段，得到第一音频片段；对第一音频片段进行特征提取，得到第一音频片段的特征向量；根据第一音频片段的特征向量，确定车辆的类别。

在第二方面的一种可能的实现方式中，处理单元包括：分段模块，用于对第一音频进行分段，得到第一音频片段；音频特征提取模块，用于对第一音频片段进行特征提取，得到第一音频片段的特征向量。

在第二方面的一种可能的实现方式中，音频特征提取模块包括：第一预处理子模块，用于对第一音频片段进行预处理，得到第二音频片段，第二音频片段用于表示预处理后的第一音频片段；第一提取子模块，用于对第二音频片段进行特征提取，得到第二音频片段的特征向量。

在第二方面的一种可能的实现方式中，第一预处理子模块具体用于：提取并剔除第一音频片段中的模糊片段，从而得到第二音频片段；和/或，去除第一音频片段的噪声，从而得到第二音频片段；和/或，对第一音频片段进行滤波处理，从而，得到第二音频片段。

在第二方面的一种可能的实现方式中，获取单元还用于，获取第一图像，该第一图像中包括车辆；处理单元还包括：图像特征提取模块，用于对第一图像进行特征提取，得到第一图像的特征向量，该第一图像的特征向量包括上述车辆的类别参数；分类模块，用于根据第一音频片段的特征向量和第一图像的特征向量，确定车辆的类别。

在第二方面的一种可能的实现方式中，分类模块包括：音频分类子模块，用于根据第一音频片段的特征向量，确定车辆的第一候选类别；图像分类子模块，用于根据第一图像的特征向量，确定车辆的第二候选类别；类别确定子模块，用于当第一候选类别与第二候选类别相同时，将第一候选类别或第二候选类别确定为车辆的类别。

在第二方面的一种可能的实现方式中，图像特征提取模块包括：第二预处理子模块，用于对第一图像进行预处理，得到第二图像，该第二图像用于表示预处理后的第一图像；第二提取子模块，用于对第二图像进行特征提取，得到第二图像的特征向量。

在第二方面的一种可能的实现方式中，第二预处理子模块具体用于：

调整第一图像的对比度、清晰度或像素中的至少一项参数，从而得到第二图像；和/或

对第一图像进行二值化处理，从而得到第二图像。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面及其任意一种实现方式的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面及其任意一种实现方式的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备能够实现第一方面及其任意一种实现方式的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：通过对包含有鸣笛音的第一音频先进行分段，再对得到的第一音频片段进行特征提取，得到第一音频片段的特征向量，再根据第一音频的特征向量来对车辆进行分类。通过分段能够过滤掉部分干扰，使得特征提取时，更容易提取出有效音频特征。换言之，将冗长的汽车鸣笛音分割为多段，再进行特征提取，可有效降低额外因素对于特征提取的不利影响，提升特征提取准确度。此外，截取片段的方式还能够有效减少后续处理的音频数据，提高处理效率。该方案能够获取到充分反映不同车辆的鸣笛音的特点的音频特征，基于这样的音频特征来进行分类，能够有效提高分类的准确性。

附图说明

图1是本申请实施例的一种适用场景的示意图。

图2是本申请实施例的一种车辆鸣笛音识别方法的示意性流程图。

图3是步骤S202的一个示例的示意性流程图。

图4是步骤S302的一种实现方式的示意性流程图。

图5是本申请实施例的另一种车辆鸣笛音识别方法的示意性流程图。

图6是本申请实施例的一种车辆鸣笛音识别装置的示意图。

图7是本申请实施例的另一种车辆鸣笛音识别装置的示意图。

图8是本申请实施例的又一种车辆鸣笛音识别装置的示意图。

图9是本申请实施例的鸣笛音频学习模块的示意图。

图10是本申请实施例的汽车类型学习模块的示意图。

图11是本申请实施例的汽车图像处理分析模块的示意图。

图12是本申请实施例的汽车鸣笛音频处理分析模块的示意图。

图13是本申请实施例的一种计算机设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的车辆鸣笛音识别方法可以应用于车载设备、车联网终端、道路监控设备、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等计算机设备上，本申请实施例对计算机设备的具体类型不作任何限制。

可选地，上述计算机设备还可以为可穿戴设备，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜或头盔等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

在一个例子中，可穿戴设备是头盔，则用户可以利用设置在该头盔中的能够用于执行本申请实施例的车辆鸣笛音识别方法的模块来执行相关步骤。例如，该头盔的音频采集装置采集鸣笛音的音频信号，然后该头盔内置的处理器对采集到的音频信号进行特征提取等操作，得到车辆的类别。这样穿戴该头盔的用户就能够知道鸣笛的车辆是什么类型的车辆。

图1是本申请实施例的一种适用场景的示意图。如图1所示，该场景中包括车辆A和车辆鸣笛音识别装置B，车辆鸣笛音识别装置B采集车辆A的音频信号和/或图像信号，对采集到的信号处理之后，输出车辆A的类别。

应理解，在本申请实施例中，车辆可以是传统汽车、电力汽车、新能源汽车、智能汽车、电动自行车或摩托车等各类能够鸣笛的车辆。例如可以是公交车、消防车、救护车、货车、客车、私家车等等，不再一一列举。

车辆A的音频信号中包括车辆A的鸣笛音。在一个例子中，车辆A为待分类的车辆（即待检测车辆），车辆A的音频信号为本申请所述第一音频。

车辆A的图像信号是包含有车辆A的成像的图像。在一个例子中，车辆A为待分类的车辆，车辆A的图像信号为本申请所述第一图像。

需要说明的是，图1中的车辆鸣笛音识别装置B可以是设置在上述任意一种计算机设备中的，也可以是上述任意一种计算机设备。

图2是本申请实施例的一种车辆鸣笛音识别方法的示意性流程图。如图2所示，该方法包括：

S201、获取第一音频，该第一音频包括车辆的鸣笛音。

应理解，步骤S201可以是利用传声器、音频采集装置等能够采集音频信号的装置实时获取第一音频；也可以是从存储装置中读取第一音频；还可以是利用通信接口通过网络获取第一音频。在本申请实施例中不存在限定。

在一种实现方式中，还可以利用声源定位(Sound Source Localization，SSL)模块定位正在鸣笛的车辆，然后利用音频获取模块来采集第一音频，以及利用数据传输模块来将第一音频传输给处理单元进行进一步的处理，例如步骤S202、S203的处理。

声源定位模块是指利用声源定位技术来定位生源的模块。声源定位技术是指利用多个麦克风在环境不同位置点对声信号进行测量，由于声信号到达各麦克风的时间有不同程度的延迟，利用算法对测量到的声信号进行处理，由此获得声源点相对于麦克风的到达方向（包括方位角、俯仰角）和距离等。

可选地，在采集第一音频时，还可以利用消音装置，以去除环境杂音的影响，提高第一音频的质量。

S202、对第一音频进行特征提取，得到第一音频的特征向量。

需要说明的是，特征提取是利用机器学习或深度学习方法，通过特征提取模型提取音频信号中的音频特征。该方法跟传统的估算音频信号的单一参数是不同的，通过特征提取模型来提取，能够得到更加丰富更能够反映音频特点的特征。

该特征提取模型可以是卷积神经网络模型、深度神经网络模型或者其他非神经网络模型。

在一种实现方式中，该音频特征包括音频频率、音频音调和音频声强。

也就是说，步骤S202主要通过特征提取的方式提取第一音频的音频特征，这些音频特征包含在第一音频的特征向量中。

在一种实现方式中，步骤S202可以包括图3所示步骤，也就是说，可以先对第一音频进行分段，再对得到的第一音频片段进行特征提取，具体内容会在图3详细展开，此处不再重复。

S203、根据第一音频的特征向量，确定该车辆的类别。

可选地，可以利用深度学习方法，构造和训练神经网络模型，可以称之为深度学习模型，来执行步骤S203。也就是说，可以利用深度学习模型来对第一音频的特征向量进行分类，从而得到车辆类别。下面以卷积神经网络模型为例。

假设利用卷积神经网络模型执行步骤S203，则是将第一音频的特征向量输入到卷积神经网络模型中，卷积神经网络模型进行处理之后，输出该特征向量对应的车辆类别。该卷积神经网络模型的训练数据包括不同车辆的鸣笛音的音频样本和每个音频样本对应的车辆类别的标签（可以理解为该音频样本对应的实际车辆类别）。在训练时，将音频样本输入到卷积神经网络模型会得到车辆类别的估计值和置信度，该估计值可能与标签相同或不同，则根据二者的差异构造的损失函数，调整卷积神经网络模型的权重参数，从而使得卷积神经网络模型能够具备越来越准确的分类能力。

该音频样本可以通过让已知车辆类别的车辆在无噪声环境下鸣笛，然后采集音频信号作为音频样本，该已知车辆类别即为该音频样本的标签。

应理解，上述只是以卷积神经网络模型为例进行介绍，本领域技术人员也可以采用其他深度学习模型，例如循环神经网络模型等，不存在限定。

需要说明的是，由于步骤S202可以包括图3所示步骤，提取了第一音频片段的特征向量，则在这种情况下，步骤S203则具体而言是根据第一音频片段的特征向量，确定该车辆的类别。也就是说，只是输入到深度学习模型中的特征向量不同，在没有分段的情况下是第一音频的特征向量，而在分段的情况下是第一音频片段的特征向量。

图2所示方法，通过对包含有鸣笛音的第一音频先进行分段，再对得到的第一音频片段进行特征提取，得到第一音频的特征向量，再根据第一音频片段的特征向量来对车辆进行分类，该方案能够获取到充分反映不同车辆的鸣笛音的特点的音频特征，基于这样的音频特征来进行分类，能够有效提高分类的准确性。

图3是步骤S202的一个示例的示意性流程图。如图3所示，步骤S202包括：

S301、对第一音频进行分段，得到第一音频片段。

第一音频片段可以是一个或多个片段，也就是说，可以从第一音频中截取一个或多个片段。第一音频片段的时间长度小于或等于第一音频的时间长度。但应理解，如果第一音频片段的时间长度等于第一音频的时间长度相等，则相当于没有分段，所以第一音频片段的时间长度一般取小于第一音频的时间长度的值。还应理解，如果第一音频片段的时间长度过短，会导致包含的音频特征过少或者难以提取，因此，应该截取适当时间长度的第一音频片段。

在一种实现方式中，第一音频片段只有一个片段，也就是说，是从第一音频的整段音频信号中截取了一个音频片段。

可选地，该第一音频片段可以是具有适当长度的位于第一音频的整段音频信号的中间时段的片段。一般情况下，音频在中间部分较为稳定，所以截取中间时段的片段，干扰较小。

在一个例子中，假设第一音频的时间长度为A，则第一音频片段的时间长度为B%*A。其中，A、B均为正实数，B大于0且小于100。例如，A=10秒（S），B=30、40或50，也就是说，第一音频片段的时间长度为3S、4S或5S。在该例子中，第一音频片段可以是从第2秒到第8秒之间截取的。应理解，该例子只是为了说明可以优先从中间时段截取适当长度的音频片段，但对具体数值不存在限定，本领域技术人员可以根据实际情况设定。

在另一种实现方式中，第一音频片段包括多个片段，也就是说，是从第一音频的整段音频信号中截取了多个音频片段。每个音频片段都可以参照上述一个音频片段的相关介绍，不再赘述。

S302、对第一音频片段进行特征提取，得到第一音频片段的特征向量。

步骤S302可以参照步骤S202中对第一音频的特征提取的相关介绍。例如，可以利用特征提取模型对第一音频片段进行特征提取。特征提取模型同样可以是卷积神经网络模型、深度神经网络模型或者其他非神经网络模型。只是训练模型用到的音频样本是音频片段。

在传统方案中，是对整段音频进行处理，如果以第一音频为例，则是对第一音频的整段音频去推算音频参数，这种处理方式由于众多干扰因素的存在，会导致推算出的音频参数并不准确。而在图3的方案中，则是截取适当片段来进行处理，因此能够过滤掉部分干扰，尤其是音频首尾处较容易存在干扰的部分被去除，使得特征提取时，更容易提取出有效音频特征。换言之，将冗长的汽车鸣笛音分割为多段，再进行特征提取，可有效降低额外因素对于特征提取的不利影响，提升特征提取准确度。此外，截取片段的方式还能够有效减少后续处理的音频数据，提高处理效率。

图4是步骤S302的一种实现方式的示意性流程图。如图4所示，步骤S302包括：

S401、对第一音频片段进行预处理，得到第二音频片段，该第二音频片段用于表示预处理后的第一音频片段。

对第一音频片段进行预处理，主要可以去除第一音频片段中的干扰成分，从而更好地提取音频特征。

在一种实现方式中，步骤S402可以包括执行以下操作：提取并剔除第一音频片段中的模糊片段，从而得到第二音频片段；和/或，去除第一音频片段的噪声，从而得到第二音频片段；和/或，对第一音频片段进行滤波处理，从而，得到第二音频片段。

也就是说，上述预处理可以包括上述三种预处理方式中的至少一项。

S402、对第二音频片段进行特征提取，得到第二音频片段的特征向量。

步骤S402可以参照S302对第一音频片段进行特征提取的相关介绍，不再赘述。

还需要说明的是，图3和图4所示方法都是能够达到更好的技术效果的进一步改进的方案，图3和图4所示方法可以一起使用，也就是说，对第一音频先分段，再对音频片段进行预处理和特征提取，这种情况下能够进一步提高车辆鸣笛音识别的准确性，且截取一个片段的方式还能够提高处理效率。但是，在一些情况下，也可以不执行图3所示步骤，只执行预处理相关步骤，也就是说，可以直接对第一音频进行预处理和特征提取，这种情况下，也能够一定程度上进一步提高车辆鸣笛音识别的准确性，但没有分段操作不具备分段操作所带来的技术效果。在又一些情况下，还可以先对第一音频进行预处理，再把预处理后的第一音频进行分段，这种情况下同样能够进一步提高车辆鸣笛音识别的准确性，且截取一个片段的方式还能够提高处理效率。

图5是本申请实施例的另一种车辆鸣笛音识别方法的示意性流程图。图5可以看作是图1的一个例子。如图5所示，该方法包括：

S501、获取第一音频，该第一音频包括车辆的鸣笛音。

步骤S501可以参照步骤S201的相关介绍，不再重复。

S502、对第一音频进行特征提取，得到第一音频的特征向量。

步骤S502可以参照步骤S202以及图3和图4的相关介绍，不再重复。

S503、获取第一图像，第一图像中包括上述车辆。

步骤S503可以是利用图像采集装置，例如相机或摄像机等能够采集图像的装置实时获取第一图像；也可以是从存储装置中读取第一图像；还可以是利用通信接口通过网络获取第一图像。在本申请实施例中不存在限定。

应理解，步骤S501和步骤S503的执行顺序不受限制，可以同时执行也可以不同时执行，且先后顺序不受影响。

S504、对第一图像进行特征提取，得到第一图像的特征向量。

其中，第一图像的特征向量包括车辆的类别参数。该车辆的类别参数是指能够区分车辆类别的参数，例如车辆的形状、轮廓、体积、结构等参数。

第一图像的特征提取同样可以利用机器学习或深度学习方法，通过特征提取模型提取第一图像中的车辆的特征。该特征提取模型可以是卷积神经网络模型、深度神经网络模型或者其他非神经网络模型。

S505、根据第一音频的特征向量和第一图像的特征向量，确定车辆的类别。

步骤S505可以看作是步骤S203的一个具体实现方式的示例。

在一种可能的实现方式中，在根据第一音频的特征向量和第一图像的特征向量，确定车辆的类别时，可以执行下面的操作：根据第一音频的特征向量，确定车辆的第一候选类别；根据第一图像的特征向量，确定车辆的第二候选类别；当第一候选类别与第二候选类别相同时，将第一候选类别或第二候选类别确定为车辆的类别。

应理解，步骤S505可以根据第一音频的特征向量和第一图像的特征向量，确定车辆的类别；也可以根据第一音频片段的特征向量和第一图像的特征向量，确定车辆的类别。为了描述简洁，下面只以前一种情况进行介绍，对于后一种情况，只需要将第一音频的特征向量替换为第一音频片段的特征向量即可。

在一个例子中，可以利用第一深度学习模型来对第一音频的特征向量进行分类，得到第一候选类别，以及利用第二深度学习模型来对第一图像的特征向量进行分类，得到第二候选类别。由于对于第一音频的特征向量的分类已经在上文中介绍过了，此处主要说明对第一图像的特征向量的分类。

假设利用第二深度学习模型执行得到第二候选类别的步骤，则是将第一图像的特征向量输入到第二深度学习模型中，第二深度学习模型进行处理之后，输出该特征向量对应的车辆类别。该第二深度学习模型的训练数据包括不同车辆的图像样本和每个图像样本对应的车辆类别的标签（可以理解为该图像样本对应的实际车辆类别）。在训练时，将图像样本输入到第二深度学习模型会得到车辆类别的估计值和置信度，该估计值可能与标签相同或不同，则根据二者的差异构造的损失函数，调整第二深度学习模型的权重参数，从而使得第二深度学习模型能够具备越来越准确的分类能力。

该图像样本可以通过拍摄已知车辆类别的车辆的清晰图像，然后将这些清晰图像作为图像样本，该已知车辆类别即为该图像样本的标签。

需要说明的是，本领域技术人员可以根据音频信号和图像信号的不同特点来选择不同的深度学习模型，例如音频一般会有时间前后的关联性，所以可以选择长短期记忆神经网络等循环神经网络作为第一深度学习模型，图像则可能需要更多的卷积操作，所以可以选择卷积神经网络作为第二深度学习模型。

通过比较两个候选类别是否一致，以及只有当二者一致时才输出车辆的类别，能够进一步提高车辆类别识别的准确性。如果二者不一致可以重新执行步骤S502、S504和步骤S505，或者可以重新执行步骤S501至S505。

在一种可能的实现方式中，在对第一图像进行特征提取，得到第一图像的特征向量时，可以执行下面的操作：对第一图像进行预处理，得到第二图像，该第二图像用于表示预处理后的第一图像；对第二图像进行特征提取，得到第二图像的特征向量。

在一种可能的实现方式中，在对第一图像进行预处理，得到第二图像时，可以执行下面的操作：调整第一图像的对比度、清晰度或像素中的至少一项参数，从而得到第二图像；和/或，对第一图像进行二值化处理，从而得到第二图像。

对第一图像的预处理旨在使得第一图像中的车辆的特征更加突出。由于车辆的类别一般跟颜色关联性较小，同一类别的车辆可能有多种颜色，所以，此处去掉对于颜色这一图像特征，不会影响到后续的分类的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的车辆鸣笛音识别方法，图6是本申请实施例的一种车辆鸣笛音识别装置的示意图。为了便于说明，仅示出了与本申请实施例相关的部分。参照图6，该装置1000包括：获取单元1001和处理单元1002。

该装置1000能够用于执行上述任意一种车辆鸣笛音识别方法的步骤。例如，获取单元1001可以用于执行步骤S201；处理单元1002可以用于执行步骤S202和S203。又例如，处理单元1002可以用于执行步骤S301、S302、S401和S402。又例如，获取单元1001可以用于执行步骤S501和S503；处理单元1002可以用于执行步骤S502、S504和S505。

图7是本申请实施例的另一种车辆鸣笛音识别装置的示意图。图7可以看作是图6所示装置的一个示例。如图7所示该装置1000包括获取单元1001和处理单元1002。

在一种可能的实现方式中，处理单元1002包括：分段模块210，用于对第一音频进行分段，得到第一音频片段；音频特征提取模块220，用于对第一音频片段进行特征提取，得到第一音频片段的特征向量。

在一种可能的实现方式中，音频特征提取模块220包括：第一预处理子模块221，用于对第一音频片段进行预处理，得到第二音频片段，第二音频片段用于表示预处理后的第一音频片段；第一提取子模块222，用于对第二音频片段进行特征提取，得到第二音频片段的特征向量。

在一种可能的实现方式中，第一预处理子模块221具体用于：提取并剔除第一音频片段中的模糊片段，从而得到第二音频片段；和/或，去除第一音频片段的噪声，从而得到第二音频片段；和/或，对第一音频片段进行滤波处理，从而，得到第二音频片段。

在一种可能的实现方式中，获取单元1001还用于，获取第一图像，该第一图像中包括车辆；处理单元1002还包括：图像特征提取模块230，用于对第一图像进行特征提取，得到第一图像的特征向量，该第一图像的特征向量包括上述车辆的类别参数；分类模块240，用于根据第一音频的特征向量和第一图像的特征向量，确定车辆的类别。

在一种可能的实现方式中，分类模块240包括：音频分类子模块241，用于根据第一音频的特征向量，确定车辆的第一候选类别；图像分类子模块242，用于根据第一图像的特征向量，确定车辆的第二候选类别；类别确定子模块243，用于当第一候选类别与第二候选类别相同时，将第一候选类别或第二候选类别确定为车辆的类别。

在一种可能的实现方式中，图像特征提取模块230包括：第二预处理子模块231，用于对第一图像进行预处理，得到第二图像，该第二图像用于表示预处理后的第一图像；第二提取子模块232，用于对第二图像进行特征提取，得到第二图像的特征向量。

在一种可能的实现方式中，第二预处理子模块231具体用于：调整第一图像的对比度、清晰度或像素中的至少一项参数，从而得到第二图像；和/或，对第一图像进行二值化处理，从而得到第二图像。

图8是本申请实施例的又一种车辆鸣笛音识别装置的示意图。图8可以看作是图6或图7所示装置的一个示例。

如图8所示，该车辆鸣笛音识别装置包括鸣笛音频学习模块1、汽车类型学习模块2、汽车鸣笛声源定位模块8与汽车外形图像获取模块13。其中，鸣笛音频学习模块1及汽车类型学习模块2的输出端与机器学习模块5的输入端相连接，机器学习模块5的输出端与数据存储模块6的输入端电性连接，数据存储模块6的输出端与数据库7的输入端相连接。

应理解，在该例子中，机器学习模块5、数据存储模块6和数据库7不是车辆鸣笛音识别装置的组成部分。

该车辆鸣笛音识别装置还包括环境杂音剔除模块9、汽车鸣笛音频获取模块10、数据传输模块11和汽车鸣笛音频处理分析模块3，汽车鸣笛声源定位模块8的输出端与环境杂音剔除模块9的输入端相连接，环境杂音剔除模块9的输出端与汽车鸣笛音频获取模块10的输入端相连接，汽车鸣笛音频获取模块10的输出端与数据传输模块11的输入端相连接，数据传输模块11的输出端与汽车鸣笛音频处理分析模块3的输入端相连接。

该车辆鸣笛音识别装置还包括汽车图像处理分析模块4、汽车外形图像获取模块12、信息对比分析模块13和汽车类别判定模块14。汽车外形图像获取模块12的输出端与汽车图像处理分析模块4的输入端相连接，汽车鸣笛音频处理分析模块3及汽车图像处理分析模块4的输出端均与信息对比分析模块13的输入端相连接，信息对比分析模块13与数据库7双向连接，信息对比分析模块13的输出端与汽车类别判定模块14的输入端相连接。

在一个例子中，如图9所示，鸣笛音频学习模块1包括汽车类型划分模块101、鸣笛音频分类模块102、鸣笛音频获取模块103、鸣笛音频特征提取模块104和深度学习模块105。汽车类型划分模块101的输出端与鸣笛音频分类模块102的输入端相连接，鸣笛音频分类模块102的输出端与鸣笛音频获取模块103的输入端相连接，鸣笛音频获取模块103的输出端与鸣笛音频特征提取模块104的输入端相连接，鸣笛音频特征提取模块104的输出端与深度学习模块105的输入端相连接，提取的音频特征包括音频频率、音频音调与音频声强。

在一个例子中，如图10所示，汽车类型学习模块2包括汽车类型划分模块201、汽车外形图像获取模块202、图像特征提取模块203、干扰特征剔除模块204和深度学习模块205。汽车类型划分模块201的输出端与汽车外形图像获取模块202的输入端相连接，汽车外形图像获取模块202的输出端与图像特征提取模块203的输入端相连接，图像特征提取模块203的输出端与干扰特征剔除模块204的输入端相连接，干扰特征剔除模块204的输出端与深度学习模块205的输入端相连接。

通过在内设置有深度学习模块105，可对于不同汽车的不同鸣笛音进行学习，提取鸣笛音特征，在进行后续的比对时，可快速进行，提高***工作效率，同时深度学习模块205还学习汽车外形、类型，在后续进行汽车种类判定时，首先根据鸣笛音对于汽车类型进行判定，其次通过获取的图像信息，对于判定完成的汽车类型结果进行核验，二者判定均一致，才能认为是最终结果。通过双向判定设计，大大提高了判定精准度。

在一个例子中，如图11所示，汽车图像处理分析模块4包括图像对比度调节模块401、图像清晰度调节模块402、图像二值化处理模块403和图像像素调节模块404。图像对比度调节模块401的输出端与图像清晰度调节模块402的输入端相连接，图像清晰度调节模块402的输出端与图像二值化处理模块403的输入端相连接，图像二值化处理模块403的输出端与图像像素调节模块404的输入端相连接。对于获取的图像信息进行有效处理，从而保证图像分析的准确性。

在一个例子中，如图12所示，汽车鸣笛音频处理分析模块3包括汽车鸣笛音频分段模块301、汽车鸣笛音频模糊段提取模块302、模糊段剔除模块303、汽车鸣笛音频消噪模块304、汽车鸣笛音频滤波处理模块305和汽车鸣笛音频特征提取模块306。汽车鸣笛音频分段模块301的输出端与汽车鸣笛音频模糊段提取模块302的输入端相连接，汽车鸣笛音频模糊段提取模块302的输出端与模糊段剔除模块303的输入端相连接，模糊段剔除模块303的输出端与汽车鸣笛音频消噪模块304的输入端相连接。汽车鸣笛音频分段模块301分割时间段例如可以为3S、4S或5S，汽车鸣笛音频消噪模块304的输出端与汽车鸣笛音频滤波处理模块305的输入端相连接，汽车鸣笛音频滤波处理模块305的输出端与汽车鸣笛音频特征提取模块306的输入端相连接。

通过设置汽车鸣笛音频处理分析模块3，在对于汽车鸣笛音进行特征提取时，可对于汽车鸣笛音进行分段，将冗长的汽车鸣笛音分割为多段，进行特征提取，可有效降低额外因素对于特征提取的不利影响，提升特征提取准确度，同时，分割后对于一些模糊的鸣笛音可进行剔除，避免产生不利影响。

在一个例子中，获取单元1001包括汽车鸣笛音频获取模块10和数据传输模块11，其中，汽车鸣笛音频获取模块10用于采集鸣笛音的音频信号（为了便于理解，以第一音频为例），数据传输模块11用于将第一音频传输给汽车鸣笛音频处理分析模块12。汽车鸣笛音频获取模块10可以是传声器等能够采集音频信号的装置，数据传输模块11可以是通信接口或接口电路等能够传输数据的装置。获取单元1001还可以包括汽车鸣笛声源定位模块8和环境杂音剔除模块9，汽车鸣笛声源定位模块8和环境杂音剔除模块9分别用于定位正在鸣笛的车辆和消除环境噪声。

在一个例子中，汽车鸣笛音频获取模块10和数据传输模块11用于执行步骤S201和/或S501。

在一个例子中，汽车鸣笛声源定位模块8、环境杂音剔除模块9、汽车鸣笛音频获取模块10和数据传输模块11用于执行步骤S201和/或S501。

在一个例子中，获取单元1001包括汽车外形图像获取模块12，用于获取包含有车辆的图像（为了便于理解，以第一图像为例），该汽车外形图像获取模块12例如可以是相机、摄像机等图像采集装置。汽车外形图像获取模块12将采集到的第一图像传输给汽车图像处理分析模块4。

在一个例子中，汽车外形图像获取模块12用于执行步骤S503。

在一个例子中，处理单元1002包括汽车鸣笛音频处理分析模块3，用于执行步骤S202或S502。汽车鸣笛音频处理分析模块3还可以用于执行图3或图4各个步骤。

在一个例子中，处理单元1002包括汽车图像处理分析模块4，用于执行步骤S504。汽车图像处理分析模块4还可以用于执行对第一图像的特征提取、预处理等操作。例如，在对第一图像进行特征提取，得到第一图像的特征向量时，可以执行下面的操作：对第一图像进行预处理，得到第二图像，该第二图像用于表示预处理后的第一图像；对第二图像进行特征提取，得到第二图像的特征向量。又例如，在对第一图像进行预处理，得到第二图像时，可以执行下面的操作：调整第一图像的对比度、清晰度或像素中的至少一项参数，从而得到第二图像；和/或，对第一图像进行二值化处理，从而得到第二图像。

在一个例子中，处理单元1002包括信息对比分析模块13和汽车类别判定模块14，二者相结合用于执行步骤S203或S505。

在一个例子中，第一深度学习模型是利用鸣笛音频学习模块1得到的，第二深度学习模型是利用汽车类型学习模块2得到的。应理解，鸣笛音频学习模块1和汽车类型学习模块2是在训练阶段（学习阶段）进行深度学习模型的训练，使得训练后的深度学习模型具备根据音频信号给车辆分类或者根据图像给车辆分类的能力。

在一个例子中，汽车鸣笛音频处理分析模块3包括汽车鸣笛音频分段模块301可以看作是分段模块210的一个示例。

在一个例子中，汽车鸣笛音频处理分析模块3还包括音频特征提取模块220，音频特征提取模块220包括第一预处理子模块221和第一提取子模块222，第一预处理子模块221包括汽车鸣笛音频模糊段提取模块302、模糊段剔除模块303、汽车鸣笛音频消噪模块304和汽车鸣笛音频滤波处理模块305，第一提取子模块222包括汽车鸣笛音频特征提取模块306。

在一个例子中，图像特征提取模块230包括汽车图像处理分析模块4，该汽车图像处理分析模块4可以看作是第二预处理子模块231的一个示例，也就是说，第二预处理子模块231包括图像对比度调节模块401、图像清晰度调节模块402、图像二值化处理模块403和图像像素调节模块404。

需要说明的是，图6-图12采用了两种模块或单元的划分方式对本申请实施例的车辆鸣笛音识别装置进行了介绍，其中图6和图7是一种划分方式，图8-图12是另一种划分方式，可以看出来两种划分方式虽然不同，但各个功能模块或单元执行本申请实施例的车辆鸣笛音识别方法的步骤时，都能够实现本申请实施例的车辆鸣笛音识别方法的功能。在实际场景中，功能模块如何划分并不会影响本申请实施例的方法的技术效果，本领域技术人员可以采用上述两种划分方式的任意一种或者采用其他划分方式均可。

图13为本申请一实施例提供的车辆鸣笛音识别装置/计算机设备的结构示意图。如图13所示，该实施例的车辆鸣笛音识别装置/计算机设备600包括：至少一个处理器60（图13中仅示出一个）处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个车辆鸣笛音识别方法实施例中的步骤。

所述车辆鸣笛音识别装置/计算机设备600可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该车辆鸣笛音识别装置/计算机设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是车辆鸣笛音识别装置/计算机设备600的举例，并不构成对车辆鸣笛音识别装置/计算机设备600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述车辆鸣笛音识别装置/计算机设备600的内部存储单元，例如车辆鸣笛音识别装置/计算机设备600的硬盘或内存。所述存储器61在另一些实施例中也可以是所述车辆鸣笛音识别装置/计算机设备600的外部存储设备，例如所述车辆鸣笛音识别装置/计算机设备600上配备的插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器61还可以既包括所述车辆鸣笛音识别装置/计算机设备600的内部存储单元也包括外部存储设备。所述存储器61用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/计算机设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种车辆鸣笛音识别方法，其特征在于，包括：

获取第一音频，所述第一音频包括车辆的鸣笛音；

对所述第一音频进行分段，得到第一音频片段；

对所述第一音频片段进行特征提取，得到所述第一音频片段的特征向量；

根据所述第一音频片段的特征向量，确定所述车辆的类别。

2.如权利要求1所述的方法，其特征在于，所述对所述第一音频片段进行特征提取，得到所述第一音频片段的特征向量，包括：

对所述第一音频片段进行预处理，得到第二音频片段，所述第二音频片段用于表示预处理后的所述第一音频片段；

对所述第二音频片段进行特征提取，得到所述第二音频片段的特征向量。

3.如权利要求2所述的方法，其特征在于，所述对所述第一音频片段进行预处理，得到第二音频片段，包括：

提取并剔除所述第一音频片段中的模糊片段，从而得到所述第二音频片段；和/或

去除所述第一音频片段的噪声，从而得到所述第二音频片段；和/或

对所述第一音频片段进行滤波处理，从而得到所述第二音频片段。

4.如权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

获取第一图像，所述第一图像中包括所述车辆；

对所述第一图像进行特征提取，得到所述第一图像的特征向量，所述第一图像的特征向量包括所述车辆的类别参数；

所述根据所述第一音频片段的特征向量，确定所述车辆的类别，包括：

根据所述第一音频片段的特征向量和所述第一图像的特征向量，确定所述车辆的类别。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一音频片段的特征向量和所述第一图像的特征向量，确定所述车辆的类别，包括：

根据所述第一音频片段的特征向量，确定所述车辆的第一候选类别；

根据所述第一图像的特征向量，确定所述车辆的第二候选类别；

当所述第一候选类别与所述第二候选类别相同时，将所述第一候选类别或所述第二候选类别确定为所述车辆的类别。

6.如权利要求5所述的方法，其特征在于，所述对所述第一图像进行特征提取，得到所述第一图像的特征向量，包括：

对所述第一图像进行预处理，得到第二图像，所述第二图像用于表示预处理后的第一图像；

对所述第二图像进行特征提取，得到所述第二图像的特征向量。

7.如权利要求6所述的方法，其特征在于，所述对所述第一图像进行预处理，得到第二图像，包括：

调整所述第一图像的对比度、清晰度或像素中的至少一项参数，从而得到所述第二图像；和/或

对所述第一图像进行二值化处理，从而得到所述第二图像。

8.一种车辆鸣笛音识别装置，其特征在于，包括：

获取单元，用于获取第一音频，所述第一音频包括车辆的鸣笛音；

处理单元，用于对所述第一音频进行分段，得到第一音频片段；对所述第一音频片段进行特征提取，得到所述第一音频片段的特征向量；根据所述第一音频片段的特征向量，确定所述车辆的类别。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。