CN117456999B

CN117456999B - 音频识别方法、音频识别装置、车辆、计算机设备和介质

Info

Publication number: CN117456999B
Application number: CN202311800969.2A
Authority: CN
Inventors: 张辽; 余骁捷
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-04-30
Anticipated expiration: 2043-12-25
Also published as: CN117456999A

Abstract

本申请公开一种音频识别方法、音频识别装置、车辆、计算机设备和介质。方法包括：对待识别音频进行编码，以生成发音概率矩阵；通过预设的延迟纠错模型，对发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵；对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵；对目标概率矩阵输入到语音解码图进行解码，以得到识别结果。通过延迟纠错模型具备的纠错能力，对发音概率矩阵进行纠错，从而获取到准确的字结果，提高音频识别的准确性，且延迟纠错模型可以有效地节省算力，节省存储空间等。

Description

音频识别方法、音频识别装置、车辆、计算机设备和介质

技术领域

本申请涉及语音识别技术领域，更具体而言，涉及一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。

背景技术

目前，车辆的语音识别一般采用基于注意力机制（attention）的端到端声学模型方案。基于注意力机制（attention）的端到端声学模型方案可以更准确地将输入的语音信号映射到输出的文字标记中。

但是，当车辆在离线状态下时，由于芯片算力限制，基于注意力机制（attention）的端到端声学模型无法获取到运行时需要的算力和足够的存储空间，从而导致车辆在离线状态下，语音识别的交互处理速度、准确性较低等，影响用户体验。

发明内容

本申请实施方式提供一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。通过延迟纠错模型对待识别音频进行延迟纠错，基于延迟纠错的结果，解码出准确率较高的识别结果，不仅有效地节省算力和存储空间，还能保证对音频的识别的准确率。

本申请的音频识别方法包括对待识别音频进行编码，以生成发音概率矩阵；通过预设的延迟纠错模型，对所述发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵；对所述字结果和所述输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据所述映射概率矩阵和所述发音概率矩阵，生成目标概率矩阵；将所述目标概率矩阵输入到语音解码图进行解码，以得到识别结果。

在某些实施方式中，所述对待识别音频进行编码，以生成发音概率矩阵，包括：对所述待识别音频进行编码，以通过预先训练好的声学模型的第一输出层输出对应帧的第一概率矩阵，及通过所述声学模型的第二输出层输出对应帧的第二概率矩阵；其中，所述第一输出层和所述第二输出层相互独立，所述第一输出层的损失函数为CTC损失函数，所述第二输出层的损失函数为CE损失函数；根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成所述发音概率矩阵。

在某些实施方式中，所述根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成所述发音概率矩阵，包括：将所述第一尖峰路径与第二尖峰路径进行对齐，确定具有相同标签的尖峰作为拼接起点；根据所述拼接起点，确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰；将所述第一尖峰对应的帧数位置的第一概率矩阵与所述第二尖峰对应的帧数位置的第二概率矩阵进行拼接，获得所述发音概率矩阵。

在某些实施方式中，所述延迟纠错模型与预设的声学模型相互独立，并根据预设的无监督的注音文本数据训练得到。

在某些实施方式中，所述对所述字结果和所述输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据所述映射概率矩阵和所述发音概率矩阵，生成目标概率矩阵，包括：将对应同一个音的字的概率相加以作为对应的音的概率，以得到所述映射概率矩阵；将所述映射概率矩阵和所述发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成所述目标概率矩阵。

在某些实施方式中，还包括：接收车辆内的用户发出的语音请求，以生成所述待识别音频；或者接收与所述车辆关联的终端接收的语音请求，以生成所述待识别音频。

本申请实施方式的音频识别装置包括编码模块、纠错模块、映射模块和解码模块，编码模块用于对待识别音频进行编码，以生成发音概率矩阵；纠错模块用于通过预设的延迟纠错模型，对所述发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵；映射模块用于对所述字结果和所述输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据所述映射概率矩阵和所述发音概率矩阵，生成目标概率矩阵；解码模块用于对所述目标概率矩阵输入到语音解码图进行解码，以得到识别结果。

本申请实施方式的车辆包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

本申请实施方式的计算机设备包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

本申请实施方式的非易失性计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施方式所述的音频识别方法。

本申请实施方式的音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质，通过对获取的待识别音频进行编码，以生成发音概率矩阵，再通过预设的延迟纠错模型，对发音概率矩阵进行纠错，得到对应的字结果和输出概率矩阵，通过延迟纠错模型具备的纠错能力，对发音概率矩阵进行纠错，从而获取到准确的字结果，保证音频识别的准确性，且延迟纠错模型不需要基于目前的attention模块，因此可以有效地节省算力，节省存储空间。

然后通过对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵，由于字结果和输出概率矩阵经过纠错，具备更高的准确性，根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵可以进一步提高音频识别的准确率，获取到更为准确的音的概率分布关系，最后通过将目标概率矩阵输入到语音解码图进行解码，从而提高识别结果的准确率。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的音频识别方法的应用场景示意图；

图2是本申请某些实施方式的音频识别方法的流程示意图；

图3是本申请某些实施方式的音频识别方法的流程示意图；

图4是本申请某些实施方式的音频识别方法的流程示意图；

图5是本申请某些实施方式的音频识别方法的流程示意图；

图6是本申请某些实施方式的音频识别方法的流程示意图；

图7是本申请某些实施方式的音频识别方法的流程示意图；

图8是本申请某些实施方式的音频识别方法的场景示意图；

图9是本申请某些实施方式的音频识别方法的流程示意图；

图10是本申请某些实施方式的音频识别方法的场景示意图；

图11是本申请某些实施方式的音频识别装置的模块示意图；

图12是本申请某些实施方式的计算机设备的结构示意图；

图13是本申请某些实施方式的非易失性计算机可读存储介质和处理器的连接状态示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

为方便理解本申请，下面对本申请出现的名词进行解释：

1、CTC损失函数：（ConnectionistTemporalClassification，CTC）是一种用于序列学习的损失函数，常用于语音识别和光学字符识别等任务中，在语音识别任务中，CTC损失函数可以用于训练声学模型。基于CTC损失函数的声学模型是一种端到端的模型，通常包含一个输出层，该输出层用于将输入特征序列映射到标签序列。对于每个时间步，输出层会生成一个概率分布，表示对应时间步的标签可能性。这些概率分布将被用于计算CTC损失，以指导模型学习正确的映射关系。在本申请实施方式中，CTC损失函数用于输出对应帧的第一概率矩阵。

2、CE损失函数：交叉熵损失函数（CrossEntropyLoss，CE）是一种常用的分类损失函数，常用来衡量模型预测结果与真实标签之间的差异，即模型预测的概率分布与真实标签的概率分布之间的距离。

车辆的语音识别技术是指通过分析车辆内部或周围的声音信号来实现对车辆状态、操作或环境的自动识别和理解，可以用于车辆安全、驾驶辅助***、车载娱乐等领域。

目前，车辆的语音识别一般是基于深度学习，实现对车辆获取到的语音进行识别和理解。由于算力和时延等限制，很难直接在车辆上线纯神经网络的方案，因而，一般采用声学和解码图协同工作的方案，其中，以基于注意力机制（attention）的端到端声学方案应用最广。

车辆在使用时常常会面临无网络环境。基于注意力机制（attention）的端到端声学方案中，当车辆在离线状态下对声音进行识别时，一般是先获取音频，并通过基于attention的端到端声学模型将音频信号输出为发音序列，再通过词典（L.fst）将发音序列映射到词序列，最后通过语音模型输出最优的词序列结果，以便车辆根据识别到的语音结果进行后续响应工作等。基于attention的端到端声学模型的编码器（Encoder），基于CTC损失函数，会对获取到的音频进行处理以提取特征表示，生成向量序列，捕获音频中的重要信息。解码器（Decoder）基于CE损失函数，接受相应的解码信息，生成发音序列，attention机制会获取当前Decoder的位置和Encoder的输出，向Decoder输出当前时刻Decoder所需的解码信息，通过在每个解码步骤中计算注意力权重，以指导声学模型对输入的不同部分进行关注，这样做可以使模型更好地利用输入序列的上下文信息，提高解码的准确性。

Encoder的attention中，需要根据CTC损失函数的尖峰路径进行确定，尖峰路径通常会跳过输入中的空白标记，先向右获取两个非空白向量序列（尖峰路径），再向左获取四个向量序列，虽然可以提高识别的准确性，但会导致语音识别时出现延迟。

可以理解的是，attention机制需要看很长范围的声学特征，导致计算量巨大，而当车辆在离线状态下时，由于芯片算力限制，声学模型没有太大的算力、和存储空间可供使用；并且，在Encoder的attention机制下，需要先向右获取两个CTC损失函数的尖峰路径，即使在忽略计算延迟的情况下，仍会有延迟，导致交互速度变慢，影响用户体验。

为解决上述技术问题，本申请实施例提供一种音频识别方法。

下面先对本申请的技术方案的一种应用场景进行介绍，如图1所示，本申请提供的音频识别方法，可以应用于如图1所示的应用场景中。该音频识别方法应用于音频识别***1000中，该音频识别***包括车辆100。

车辆100为任一可进行音频识别的车辆100，如汽车、卡车等。

车辆100包括车身50、处理器30和存储器40，处理器30设置在车身50的内部。

在一个实施例中，车辆100还包括存储器40，存储器40可以用于存储音频的解码图、预设的延迟纠错矩阵等。

在一个实施例中，车辆100还包括麦克风20，麦克风20设置在车身50的内部，麦克风20用于采集车辆内部或车辆周围的音频信息，用户可以通过麦克风20向车辆发出控制指令等。

在一个实施例中，车辆的音频识别***1000还包括服务器200，服务器200和车辆100通过网络进行通信；车辆100的延迟纠错模型可以部署在车辆100本地或服务器200中至少一者。例如，车辆100的延迟纠错模型部署在车辆100本地和服务器200，并对音频进行延迟纠错处理，或车辆100的延迟纠错模型部署在车辆100本地，在离线状态下对音频进行延迟纠错处理。

在一个实施例中，服务器200可以是独立的物理服务器200，也可以是多个物理服务器200构成的服务器200集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器200。本申请实施例对此不做限制。

在一个实施例中，车辆100可包括显示屏（图中未示出），显示屏能对识别到的音频，在经过处理后生成的词序列进行展示，以供用户查看、校正识别结果等功能。显示屏还可以是可交互的触控显示屏，用户可以通过显示屏触控下达控制命令，如修改识别结果、确认识别结果等。

在一个实施例中，音频识别***1000还包括终端300，终端300包括显示器301。终端300能够与车辆100进行通信，从而向车辆100发送通过终端300接收到的语音请求等，终端300的显示器301还可以显示音频识别结果等。

在一个实施例中，终端300可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。

在一个实施例中，车辆100、服务器200和终端300之间均通过网络进行通信，如车辆100、服务器200和终端300任意两者之间可通过无线方式通信（如无线局域网（WirelessFidelity，wifi）通信、蓝牙通信、红外通信等）。

可以理解，车辆100、服务器200和终端300之间的通信并不限于上述通信方式，对此不作限制。

如通过wifi通信时，车辆100和终端300分别与服务器200通信，然后由服务器200实现车辆100和服务器200（或终端300）的通信；如通过蓝牙通信或红外通信时，车辆100和终端300各自设置有对应的通信模块，以直接实现两者之间的通信。

在一个实施例中，音频识别方法可以在离线状态下通过车辆100实现；或通过车辆100和终端300实现；还可以在上线状态下，通过车辆100实现；或通过车辆100和终端300实现；或通过服务器200和终端300实现；或通过车辆100、服务器200和终端300实现等等。

下面将对本申请的音频识别方法进行详细阐述：

请参阅图1、图2和图3，本申请实施方式提供一种音频识别方法，该音频识别方法包括：

步骤011：对待识别音频进行编码，以生成发音概率矩阵。

其中，待识别音频可以包括用户通过语音的方式向***发送的请求或查询，表征用户欲使车辆执行的功能或动作。在语音识别和语音控制领域，通常使用“语音指令”、“语音命令”、“语音控制指令”等术语来描述用户用于触发特定操作或任务的语音词组。这些语音指令可以是单个单词、短语或完整的句子，它们被称为“查询”（query）。也就是说，待识别音频可以是用户在语音交互中使用的query。例如，待识别音频可以是“你好啊”、“放首歌”及“导航去超市”等。发音概率矩阵可以包括在特定时间步上对应音素的发音概率，如根据对应的发音单元，计算每个时间帧上各个发音单元的发音概率，将每个时间帧上各个发音单元的发音概率整合，以生成发音概率矩阵。

具体地，车辆在获取到待识别音频后，可以先对待识别音频进行预处理，如通过去噪、音频增强、音频分割等预处理方式，以提高音频质量；通过Encoder对预处理后的待识别音频进行特征提取，以获得特征向量，如通过短时傅里叶变换（Short-time FourierTransform）或梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）等方式，获得特征向量，最后对特征向量进行编码处理，如通过深度神经网络（Deep NeuralNetwork，DNN）等，以生成对应的发音概率矩阵。

可选地，请参阅图4和图5，待识别音频可以通过以下步骤中任一者进行生成：

步骤015：接收车辆内的用户发出的语音请求，以生成待识别音频；

步骤016：接收与车辆关联的终端接收的语音请求，以生成待识别音频。

具体地，用户可以通过车辆上的麦克风，发出语音请求。待识别音频可以是根据麦克风采集的用户发出的语音请求，所生成的待识别音频；或者，车辆与终端关联（如通过网络连接等），用户通过终端发出语音请求，终端在接收到语音请求后，向车辆发送接收到的语音请求，车辆在接收到语音请求后，生成待识别音频。

步骤012：通过预设的延迟纠错模型，对发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵；

其中，预设的延迟纠错模型可以是能够对发音概率矩阵进行纠错的语言模型等。

具体地，可以通过车辆的处理器，将发音概率矩阵输入到预设的延迟纠错模型中，并输出对应的字结果和经过纠错的输出概率矩阵，从而使得对音频的发音概率矩阵完成纠错，以获取到准确的音频识别结果。在对预设的延迟纠错模型进行训练的过程中，可以根据相似发音生成器，按照一定的概率，随机生成一个或多个相似的错误发音，使得训练延迟纠错模型，在输入的发音是错误的情况下，映射的标签数据是正确的，也就是说，通过使用标签数据和错误发音对延迟纠错模型进行训练，以使得延迟纠错模型即使在获取到错误发音的情况下，仍能输出正确的结果，进而使得延迟纠错模型对输入的发音概率矩阵具备纠错能力。

可以理解的是，在延迟纠错模型中，将不再需要目前的attention模块。由于延迟纠错模型是一个语言模型，在训练学习的过程中，可以学习到更加置信的语言模型信息，相比目前的Decoder，延迟纠错模型能够更好地理解句子的语法、语义结构等，从而可以更为准确地进行纠错；此外，在对延迟纠错模型进行训练时，设置延迟纠错模型的输入和标签数据之间存在延迟，使得模型可以更好地学习到发音之间的依赖关系和上下文关系，从而进一步提高延迟纠错模型的正确率和训练效果。所以，相较于Decoder而言，延迟纠错模型具有比Decoder更好的纠错能力和语言表达能力。

可以理解，通过预设的延迟纠错模型，对发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵，不仅可以保证纠错的准确性，且不再需要目前的attention模块，可以有效地节省算力，节省存储空间等。

步骤013：对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵。

具体地，对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，如通过预设的发音映射表等，在发音映射表中找到字结果、和与字结果对应的发音单元，根据发音映射表，对各个字结果和输出概率矩阵映射完毕后，得到映射概率矩阵，最后根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵，如将映射概率矩阵和发音概率矩阵进行累加再取均值等方式，生成目标概率矩阵。

可以理解，向延迟纠错模型输入发音概率矩阵，输出的是字结果和经过纠错的输出概率矩阵。输出概率矩阵与发音概率矩阵相比，由于输出概率矩阵经过更多的语言模型信息处理后，音的分布概率可能有所不同且输出概率矩阵的分布概率更为准确。因而，为了进一步提高识别的准确率，可以通过对字结果和相对发音概率矩阵更为准确的输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，更加细致地调整生成的概率分布，即生成概率分布更为准确的目标概率矩阵，从而实现替代attention模块的作用。

步骤014：将目标概率矩阵输入到语音解码图进行解码，以得到识别结果。

其中，语音解码图可以是为了实现语音识别，而进行的解码操作中，基于加权有限状态转换器（Weighted Finite State Transducer，WFST），将多个有限状态转化器（FiniteState Transducer，FST）进行图耦合（compose）操作合并以构建得到的映射关系。

具体地，目标概率矩阵得到的是发音的概率矩阵，将目标概率矩阵输入到构建完毕的语音解码图中进行解码，从而获得字的音频识别结果。

如此，通过对获取的待识别音频进行编码，以生成发音概率矩阵，再通过预设的延迟纠错模型，对发音概率矩阵进行纠错，得到对应的字结果和输出概率矩阵，通过延迟纠错模型具备的纠错能力，对发音概率矩阵进行纠错，从而获取到准确的字结果，保证音频识别的准确性，且延迟纠错模型不需要基于目前的attention模块，因此可以有效地节省算力，节省存储空间。

然后通过对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵，由于字结果和输出概率矩阵经过纠错，具备更高的准确性，根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵可以进一步提高音频识别的准确率，获取到更为准确的发音的概率分布关系，最后通过将目标概率矩阵输入到语音解码图进行解码，从而提高识别结果的准确率。

请参阅图6，在某些实施例中，步骤011：对待识别音频进行编码，以生成发音概率矩阵，包括：

步骤0111：对待识别音频进行编码，以通过预先训练好的声学模型的第一输出层输出对应帧的第一概率矩阵，及通过声学模型的第二输出层输出对应帧的第二概率矩阵；其中，第一输出层和第二输出层相互独立，第一输出层的损失函数为CTC损失函数，第二输出层的损失函数为CE损失函数；

步骤0112：根据第一概率矩阵的第一尖峰路径和第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成发音概率矩阵。

具体地，本申请实施方式中的声学模型通过预先训练构建而成，预先训练好的声学模型包括两层相互独立的输出层，两层相互独立的输出层包括第一输出层和第二输出层，第一输出层和第二输出层不同，且第一输出层和第二输出层可以对同一输入的特征向量分别输出不同的预测结果，即第一概率矩阵和第二概率矩阵，第一概率矩阵不同于第二概率矩阵。此外，根据声学模型采用的建模单元不同，输出的概率矩阵与之对应。例如建模单元可以是三音素、音节或静音标签中的一种或多种。

其中，第一输出层的损失函数为CTC损失函数，第二输出层的损失函数为CE损失函数。由CTC损失函数和CE损失函数的在对音频的输入和输出进行处理时的不同特性可知，经过CTC损失函数处理后的音频正确率较高，但有相对真实发音的延迟，经过CE损失函数处理后的音频正确率较低，但相对真实发音不存在延迟。例如，请参阅图10，以获取到一个“你好啊”的音频，音频时长共800毫秒（ms）为例进行说明，将“你好啊”的音频分为16帧，假设用户的真实发音在第7帧发出了“好”的音，CTC损失函数识别到“hao3”的尖峰约在第11帧才会出现，可以理解，CTC损失函数约有（800/16）*（11-7）=200ms的延迟，而CE函数则不存在这样的延迟。

可以理解的是，步骤014：对目标概率矩阵输入到语音解码图进行解码，以得到识别结果中的语音解码图，可以沿用基于CTC损失函数的端到端的语音识别***的解码图，例如由语言模型、发音词典、上下文关系及马尔柯夫模型(Hidden Markov Model，HMM)的解码图耦合而成的HCLG【HMM（H）、上下文相关单元（Context-Dependent Units，CDUs）、语言模型（Language Model，L）和语法（Grammar，G）】解码图。也就是说，语音解码图可以无需考虑基于CE损失函数的声学模型的输入特性而作出改动，即无需设计两套不同的语音解码图，只需一套基于CTC损失函数的端到端的语音识别***的解码图，即可直接根据拼接概率矩阵作为输入并搜索解码路径，不影响语音解码图的识别性能，且不会增加计算资源的占用。

根据当前累计帧的第一概率矩阵，即根据当前已经处理过的所有的音频帧，获得对应的第一尖峰路径和各第一尖峰对应的帧数位置；根据当前累计帧的第二概率矩阵，获得对应的第二尖峰路径和各第二尖峰对应的帧数位置；根据第一尖峰路径和第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以获得拼接概率矩阵。

请参阅图7，在某些实施例中，步骤0112：根据第一概率矩阵的第一尖峰路径和第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成发音概率矩阵，包括：

步骤01121：将第一尖峰路径与第二尖峰路径进行对齐，确定具有相同标签的尖峰作为拼接起点；

步骤01122：根据拼接起点，确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰；

步骤01123：将第一尖峰对应的帧数位置的第一概率矩阵与第二尖峰对应的帧数位置的第二概率矩阵进行拼接，获得发音概率矩阵。

具体地，预设的声学模型中，通过将第一尖峰路径与第二尖峰路径进行对齐，并将具有相同标签的尖峰确定为拼接起点；根据拼接起点，确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰；将第一尖峰对应的帧数位置的第一概率矩阵与第二尖峰对应的帧数位置的第二概率矩阵进行拼接，以生成对应的发音概率矩阵。

可以理解，第一输出层的损失函数为CTC损失函数，第二输出层的损失函数为CE损失函数，那么通过第一输出层输出对应帧的第一概率矩阵的第一尖峰路径的准确率更高，但相对真实发音约延迟两个字左右，通过第二输出层输出对应帧的第二概率矩阵的第二尖峰路径虽然准确率较低，但是第二尖峰路径相对真实发音无延迟，因此，通过将第一尖峰对应的帧数位置的第一概率矩阵与第二尖峰对应的帧数位置的第二概率矩阵进行拼接，利用第二尖峰路径的无延迟效果，和第一尖峰路径的准确率，使得不仅在保证准确性的情况下，还能生成无延迟的发音概率矩阵，并且，发音概率矩阵在进入延迟纠错模块后，由于延迟纠错模块的纠错能力，能够进一步更正CE损失函数带来的较低的准确率，从而使得不影响音频识别结果的准确性。

例如，请参阅图8，在当前时刻为第80帧时，根据累计的第一概率矩阵，可以获得对应的第一尖峰路径为sil(40) d_a_3(56)；根据累计的第二概率矩阵，可以获得对应的第二尖峰路径为sil(20) d_a_3(35) k_ai_1(60) d_i_4(80)，括号中的数值为该尖峰输出时对应的帧数位置，例如“k_ai_1(60)”表示在第60帧的时候确定该帧的尖峰为k_ai_1，第60帧对应的第二概率矩阵即为该尖峰的概率矩阵。可以理解，第一尖峰路径和第二尖峰路径中的每一帧尖峰均具有对应帧的概率矩阵。

第一尖峰路径包括“sil d_a_3”，第二尖峰路径包括“sil d_a_3 k_ai_1 d_i_4”，将上述第一尖峰路径和第二尖峰路径按照时序从后往前（即从左至右）进行对齐，找到最靠前（即最靠右）的相同的标签，可见二者具有相同的两帧尖峰即“sil”和“d_a_3”。

也就是说，将第一尖峰路径中的“sil d_a_3”作为拼接起点，在该拼接起点之后拼接上第二尖峰路径中的除去相同尖峰以外的剩余的预设帧数的尖峰。例如，预设帧数可以选自1~3帧，例如2帧。也就是说，先将第二尖峰路径中与拼接起点重复的两帧尖峰删除，再拼接剩余的2帧尖峰，总计采用了两步编辑动作。即第二尖峰路径中的2帧“k_ai_1d_i_4”拼接在第一尖峰路径的2帧“sil d_a_3”之后，获得的拼接尖峰路径为“sil d_a_3 k_ai_1 d_i_4”，从而将“sil d_a_3”对应的两帧第一概率矩阵与“k_ai_1 d_i_4”对应的两帧第二概率矩阵进行拼接，获得当前时刻的拼接概率矩阵。

需要指出的是，延迟纠错模型与预设的声学模型相互独立，并根据预设的无监督的注音文本数据训练得到。

具体地，预设的声学模型与延迟纠错模型相互独立，将延迟纠错模型独立于预设的声学模型进行训练，并且，不通过音频数据，而是根据大量的预设的无监督的注音文本数据训练得到延迟纠错模型。无监督的注音文本数据相对容易获取，如通过互联网、书籍、文章等即可收集大量的文本数据，简化训练过程，提高训练效率；并且，延迟纠错模型不依赖音频数据，而是通过学习文本和注音的映射关系，可以避免音频训练集分布偏差对模型性能的影响。

请参阅图9，在某些实施例中，步骤013：对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵，包括：

步骤0131：将对应同一个音的字的概率相加以作为对应的音的概率，以得到映射概率矩阵；

步骤0132：将映射概率矩阵和发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成目标概率矩阵。

具体地，将对应同一个音的字的概率相加以作为对应的音的概率，以得到映射概率矩阵，将映射概率矩阵和发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成目标概率矩阵。

例如，请参阅图10，以一个“你好啊”的音频，生成一个2000维的音的发音概率矩阵和对应生成一个5000维的字的输出概率矩阵为例进行说明，预设的映射表中，多个字会映射有同一个音，通过将同一个音的多个字的概率进行相加以作为对应的音的概率，从而将5000维的字的输出概率矩阵反向映射为2000维的音的映射概率矩阵，再将映射概率矩阵和发音概率矩阵中，对应同一个音的概率矩阵进行累加，再取均值，以生成目标概率矩阵。

请参阅图11，为便于更好地实施本申请实施方式的音频识别方法，本申请实施方式还提供一种音频识别装置10。该音频识别装置10可以包括编码模块11、纠错模块12、映射模块13和解码模块14，编码模块11用于对待识别音频进行编码，以生成发音概率矩阵；纠错模块12用于通过预设的延迟纠错模型，对发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵；映射模块13用于对字结果和输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据映射概率矩阵和发音概率矩阵，生成目标概率矩阵；解码模块14用于将目标概率矩阵输入到语音解码图进行解码，以得到识别结果。

在一个实施例中，编码模块11具体还用于对待识别音频进行编码，以通过预先训练好的声学模型的第一输出层输出对应帧的第一概率矩阵，及通过声学模型的第二输出层输出对应帧的第二概率矩阵；其中，第一输出层和第二输出层相互独立，第一输出层的损失函数为CTC损失函数，第二输出层的损失函数为CE损失函数；根据第一概率矩阵的第一尖峰路径和第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成发音概率矩阵。

在一个实施例中，编码模块11具体还用于将第一尖峰路径与第二尖峰路径进行对齐，确定具有相同标签的尖峰作为拼接起点；根据拼接起点，确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰；将第一尖峰对应的帧数位置的第一概率矩阵与第二尖峰对应的帧数位置的第二概率矩阵进行拼接，获得发音概率矩阵。

在一个实施例中，映射模块13具体还用于将对应同一个音的字的概率相加以作为对应的音的概率，以得到映射概率矩阵；将映射概率矩阵和发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成目标概率矩阵。

在一个实施例中，音频识别装置10还包括接收模块15，接收模块15用于接收车辆内的用户发出的语音请求，以生成待识别音频；或者接收与车辆关联的终端接收的语音请求，以生成待识别音频。

上文中结合附图从功能模块的角度描述了音频识别装置10，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

请再次参阅图1，本申请实施方式的车辆包括处理器30、存储器40及计算机程序，其中，计算机程序被存储在存储器40中，并且被处理器30执行，计算机程序包括用于执行上述任一实施方式的音频识别方法的指令。

请参阅图12，本申请实施方式的计算机设备包括处理器402、存储器403及计算机程序，其中，计算机程序被存储在存储器403中，并且被处理器402执行，计算机程序包括用于执行上述任一实施方式的音频识别方法的指令。

在一个实施例中，该计算机设备可以是终端400或车辆100。其内部结构图可以如图12所示。该计算机设备包括通过***总线连接的处理器402、存储器404、网络接口404、显示屏401和输入装置405。

其中，该计算机设备的处理器402用于提供计算和控制能力。该计算机设备的存储器404包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口404用于与外部设备通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施方式的音频识别方法和展示方法。该计算机设备的显示屏401可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置405可以是显示屏401上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图13，本申请实施方式还提供了一种计算机可读存储介质600，其上存储有计算机程序610，计算机程序610被处理器620执行的情况下，实现上述任意一种实施方式的音频识别方法的步骤，为了简洁，在此不再赘述。

在本说明书的描述中，参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种音频识别方法，其特征在于，包括：

对待识别音频进行编码，以生成发音概率矩阵；

通过预设的延迟纠错模型，对所述发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵，其中，在对所述延迟纠错模型进行训练时，设置所述延迟纠错模型的输入和标签数据之间存在延迟；

对所述字结果和所述输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据所述映射概率矩阵和所述发音概率矩阵，生成目标概率矩阵；

将所述目标概率矩阵输入到语音解码图进行解码，以得到识别结果；

所述对所述字结果和所述输出概率矩阵进行发音映射，以得到映射概率矩阵，并根据所述映射概率矩阵和所述发音概率矩阵，生成目标概率矩阵，包括：

将所述输出概率矩阵中对应同一个音的字的概率相加以作为对应的音的概率，以得到所述映射概率矩阵；

将所述映射概率矩阵和所述发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成所述目标概率矩阵。

2.根据权利要求1所述的音频识别方法，其特征在于，所述对待识别音频进行编码，以生成发音概率矩阵，包括：

对所述待识别音频进行编码，以通过预先训练好的声学模型的第一输出层输出对应帧的第一概率矩阵，及通过所述声学模型的第二输出层输出对应帧的第二概率矩阵；其中，所述第一输出层和所述第二输出层相互独立，所述第一输出层的损失函数为CTC损失函数，所述第二输出层的损失函数为CE损失函数；

根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成所述发音概率矩阵。

3.根据权利要求2所述的音频识别方法，其特征在于，所述根据所述第一概率矩阵的第一尖峰路径和所述第二概率矩阵的第二尖峰路径，将对应帧数位置的第一概率矩阵与第二概率矩阵进行拼接，以生成所述发音概率矩阵，包括：

将所述第一尖峰路径与第二尖峰路径进行对齐，确定具有相同标签的尖峰作为拼接起点；

根据所述拼接起点，确定第一尖峰路径中用于拼接的第一尖峰和第二尖峰路径中用于拼接的预设帧数的第二尖峰；

将所述第一尖峰对应的帧数位置的第一概率矩阵与所述第二尖峰对应的帧数位置的第二概率矩阵进行拼接，获得所述发音概率矩阵。

4.根据权利要求2所述的音频识别方法，其特征在于，所述延迟纠错模型与预设的声学模型相互独立，并根据预设的无监督的注音文本数据训练得到。

5. 根据权利要求1所述的音频识别方法，其特征在于，还包括：

接收车辆内的用户发出的语音请求，以生成所述待识别音频；或者

接收与所述车辆关联的终端接收的语音请求，以生成所述待识别音频。

6.一种音频识别装置，其特征在于，包括：

编码模块，用于对待识别音频进行编码，以生成发音概率矩阵；

纠错模块，用于通过预设的延迟纠错模型，对所述发音概率矩阵进行纠错，以得到对应的字结果和输出概率矩阵，其中，在对所述延迟纠错模型进行训练时，设置所述延迟纠错模型的输入和标签数据之间存在延迟；

映射模块，用于将所述输出概率矩阵中对应同一个音的字的概率相加以作为对应的音的概率，以得到映射概率矩阵；和用于将所述映射概率矩阵和所述发音概率矩阵中，对应同一个音的概率矩阵累加后取均值，以生成目标概率矩阵；

解码模块，用于对所述目标概率矩阵输入到语音解码图进行解码，以得到识别结果。

7.一种车辆，其特征在于，包括：

处理器、存储器；及

计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行权利要求1至5任意一项所述的音频识别方法的指令。

8. 一种计算机设备，其特征在于，包括：

处理器、存储器；及

9.一种包含计算机程序的非易失性计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至5任意一项所述的音频识别方法。