CN117437909B

CN117437909B - 基于热词特征向量自注意力机制的语音识别模型构建方法

Info

Publication number: CN117437909B
Application number: CN202311758804.3A
Authority: CN
Inventors: 石争; 王宇光; 王龙标
Original assignee: Huiyan Technology Tianjin Co ltd
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-05
Anticipated expiration: 2043-12-20
Also published as: CN117437909A

Abstract

本发明提供一种基于热词特征向量自注意力机制的语音识别模型构建方法，具体包括：训练预训练模型，获取词嵌入层，以Decoder‑Only的方式进行训练，对词嵌入层进行优化；训练热词编码模型，以指定热词作为输入，并将热词编码为热词特征向量；将热词信息与声学特征信息融合，得到编码向量并作为最终的解码器输入，使得热词信息与声学模型信息联系更紧密，得到对热词识别准确率更高的语音识别模型。在用户使用过程中，可以主动指定多个热词，初始化语音识别引擎时将会使用热词编码模型对热词进行编码得到热词特征向量序列。在用户使用过程中，该热词特征序列将会作为模型输入与用户每次输入的声学特征进行拼接并进行解码。

Description

基于热词特征向量自注意力机制的语音识别模型构建方法

技术领域

本发明涉及语音识别技术领域，具体是涉及一种基于热词特征向量自注意力机制的语音识别模型构建方法。

背景技术

语音识别（Automatic Speech Recognition，ASR），是使用机器自动将语音转写为文字的技术。随着大数据、算力以及算法的不断发展，语音识别算法由传统的基于混合高斯（Gaussian Mixture Model, GMM）-隐马尔可夫模型（Hidden Markov Model, HMM）逐渐发展为基于深度学习算法的模型，识别效果、解码速度均有了明显提升，已经在生活中得到了广泛的应用，例如语音输入、语音助手等功能，极大地提高了智能设备的推广应用，极大便利了人类生活。

然而，虽然当前语音识别***的识别效果已经得到了较为明显的提升，但是个性化场景下的识别效果不佳，特别是和用户相关的某些关键词（后续简称“热词”）识别错误将极大地影响用户体验。因此为了适应不同场景的需要，满足用户个性化需求，多数ASR提供热词输入接口，允许用户输入指定热词，通过热词增强技术提高热词识别准确率，防止热词识别错误，提高用户体验。

一般热词定制化工作大致可以分为以下步骤：1）用户传入多个指定热词；2）***自动对这些热词进行分词操作，并以此为基础构建基于加权有限状态转录机(WeightedFinite-State Transducer/WFST)或者AC自动机（Aho-Corasick automaton）的热词词图；3）设计Viterbi静态解码方案或者Lattice静态解码方案对模型编码结果进行解码。

使用这种热词定制化方法可以一定程度上提高语音识别模型对热词的识别准确率，但是该方法存在下述问题：1）用户在传入热词进行热词词图构建，当传入热词数量过多时，将导致热词词图过大，极大影响到解码速度，同时提高热词误识别发生的可能性；2）设计解码逻辑的方案极大依赖于专家知识，且需要针对不同的语种需要设置不同的判定方案，设计耗时过长且成本过高，稳定性不高；3）热词机制的实现方案和模型训练割裂，在模型训练阶段未充分考虑热词的识别准确率问题，仅在解码阶段添加额外的热词加强策略，准确率不高误差传递较为明显。

发明内容

针对上述背景技术指出的问题，本发明创造性地提供了一种基于热词特征向量自注意力机制的语音识别模型构建方法。

本发明的技术方案: 基于热词特征向量自注意力机制的语音识别模型构建方法，包括如下步骤：

S1以Decoder-Only的方式训练预训练模型，对词嵌入层进行优化；

S2应用热词训练数据序列训练热词编码模型，提取热词特征向量；

S3训练接收以热词特征向量为背景信息的语音识别模型，使用热词编码模型对随机抽取的热词进行编码，在注意力机制计算过程中得到的候选热词特征向量与音频特征向量进行拼接，在编码过程中使用基于热词特征向量自注意力机制（self-attention basedhotword context）将热词信息与音频信息融合，得到融合特征向量作为最终的解码器输入。

所述步骤S1中预训练模型包括：词嵌入层、特征编码器、分类器；

所述词嵌入层由Embedding层构成；

所述特征编码器是由若干层单向长短期记忆人工神经网络(LSTM)构成；

所述分类器classic由全连接层构成，该全连接层和词嵌入层共享参数；

进一步地，所述步骤S1具体如下：

S1-1应用大量文本对预训练模型的词嵌入层进行预训练

S1-1-1随机初始化预训练模型参数；

S1-1-2通过词嵌入层对输入序列进行编码转换为词向量序列；

S1-1-3通过特征编码器对词向量序列进行编码和特征提取；

S1-1-4使用分类器计算逻辑回归评分，并通过归一化指数函数（softmax）进行归一化处理；

S1-1-5通过交叉熵损失函数（Cross Entropy）计算损失值并进行模型更新。

进一步地，所述预训练模型的计算公式为：

式中，为序列起始符对应的字符索引，/>为真实字符索引序列，其中/>表示序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小，表示/>与/>拼接得到的待编码的字符索引序列；

表示词嵌入层，/>为转换得到的词向量序列，/>表示词向量的维度；

表示单向LSTM构成的特征编码器，/>为特征编码器编码结果；

表示分类器，/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数，/>表示经过归一化后的概率分布，表示下一个字符出现的概率；

为序列终止符对应的字符索引，/>表示/>与/>拼接得到的拟合目标，表示交叉熵损失函数，/>为标量，衡量预测的概率分布和真实序列之间的差异。

S1-2在完成模型预训练后，舍弃除词嵌入层外的其他层，仅保留词嵌入层参数，应用于步骤S2中热词编码模型的词嵌入层权重。

所述步骤S2中热词编码模型包括：词嵌入层，特征编码器和仅在训练过程中生效的特征解码器；

所述词嵌入层由Embedding层构成，在训练阶段初始化为S1中预训练模型的词嵌入层的权重；

所述特征编码器是由若干层双向长短期记忆人工神经网络(BiLSTM)构成；

所述仅在训练过程中生效的特征解码器是由若干层单向长短期记忆人工神经网络(LSTM)构成。

进一步地，所述步骤S2具体包括：

S2-1准备训练数据，具体为：

S2-1-1使用分词工具对大量文本进行分词处理，获取常见的词汇数据；

S2-1-2使用字典中的字符随机生成词汇，用于模拟用户可能输入的稀有词汇数据；

S2-1-3将S2-1-1与S2-1-2的数据组合去重，得到热词训练数据序列。

S2-2应用热词训练数据序列对热词编码模型进行训练，具体为：

S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为词向量序列；

S2-2-2通过特征编码器对词向量序列进行编码和特征提取，获取热词特征向量；

S2-2-3特征解码器的初始状态初始化为热词特征向量，将热词特征向量作为输入，进行解码；

S2-2-4使用分类器计算逻辑回归评分，并通过归一化指数函数（softmax）进行归一化处理；

S2-2-5通过交叉熵损失函数（Cross Entropy）计算损失值并进行模型更新。

进一步地，所述热词编码模型训练以及提取热词特征向量的计算公式为：

式中，为待编码的热词字符索引序列，其中/>表示热词序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小；

表示双向LSTM构成的特征编码器，/>为特征编码器编码结果；/>为计算均值函数，对/>在时间维度上求均值，/>为获取的热词特征向量；

为序列起始符对应的字符索引，/>为真实字符索引序列，其中/>表示序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小，表示/>与/>拼接得到的待编码的字符索引序列，/>表示词嵌入层，/>为转换得到的词向量序列，/>表示词向量的维度；

表示单向LSTM构成的特征解码器，/>表示将特征解码器状态初始化为/>，/>为特征编码器编码结果；

表示分类器，/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数，/>表示经过归一化后的概率分布，表示下一个字符出现的概率；/>为序列终止符对应的字符索引，/>表示/>与拼接得到的拟合目标，/>表示交叉熵损失函数，/>为标量，衡量预测的概率分布和真实序列之间的差异。

所述步骤S3中，接收以热词特征向量为背景信息的语音识别模型采用的是连接时序分类（Connectionist temporal classification，CTC）/编码器-解码器（Encoder-Decoder）联合结构的变压器模型（Transformer），其中编码器（Encoder）为使用基于热词特征向量自注意力机制（self-attention based hotword context）的卷积增强变压器模块（Conformer Blocks），解码器（Decoder）为一般变压器模型（Transformer）的解码器（Decoder）。

进一步地，所述步骤S3具体包括：

S3-1准备训练数据

S3-1-1使用分词工具对当前待使用的音频-文本对中的文本进行分词处理，随机抽取m个词作为热词；

S3-1-2随机组合生成n个热词，前述的随机抽取m个热词拼接形成音频-文本-候选热词组数据；

S3-2应用音频-文本-候选热词组数据对语音识别模型进行训练

S3-2-1对音频提取音频特征，使用热词编码模型将候选热词组转换为热词特征向量；

S3-2-2使用卷积降采样层对音频进行降采样，并初步提取音频特征向量；

S3-2-3将热词特征向量与音频特征向量输入到若干个基于热词特征向量自注意力机制（self-attention based hotword context）的卷积增强变压器模块（ConformerBlocks）中进一步提取特征，使得热词信息与音频信息有效融合得到融合特征向量；

S3-2-4将融合特征向量和真实文本输入到连接时序分类层（Connectionisttemporal classification，CTC）和解码器（Decoder）中计算损失值。

进一步地，所述热词特征向量自注意力机制（self-attention based hotwordcontext）的计算公式为：

式中，为第i层提取到的音频特征向量，t为经过下采样后的特征序列长度，d为特征维度；/>和/>为自注意力层中将输入转换为查询向量的线性层所使用的权重和偏置，/>为查询向量；/>和/>为自注意力层中将输入转换为键向量的线性层所使用的权重和偏置，/>为键向量；和/>为自注意力层中将输入转换为值向量的线性层所使用的权重和偏置，/>为值向量；/>为候选热词组通过热词编码器编码得到的热词特征向量，其中/>为文本中真实存在的热词的数量，/>为随机构造的不存在于文本的伪热词数量，在不同的层中共享该矩阵，/>和/>自注意力层中将输入转换为热词键向量的线性层所使用的权重和偏置，/>为热词键向量；/>表示按顺序在时间维度上的拼接操作，/>为音频特征向量/>编码得到的键向量/>和热词键向量/>在时间维度上拼接得到的融合键向量，/>和自注意力层中将输入转换为热词值向量的线性层所使用的权重和偏置，表示按顺序在时间维度上的拼接操作为热词值向量；/>表示按顺序在时间维度上的拼接操作，/>为音频特征向量/>编码得到的值向量/>和热词值向量/>在时间维度上拼接得到的融合值向量，/>为/>转置时间维度和特征维度得到的矩阵，/>为特征维度大小的平方根，用于对注意力评分进行放缩降低方差大小，/>为注意力评分，/>为注意力评分使用/>进行归一化处理得到的注意力分布矩阵，/>为注意力机制的计算结果。

在用户使用过程中，可以主动指定多个热词，初始化语音识别引擎时将会使用热词编码模型对热词进行编码得到热词特征向量序列。在用户使用过程中，该热词特征序列将会作为模型输入与用户每次输入的声学特征进行拼接并进行解码。用户调用S2步骤中训练好的热词编码模型对输入的热词进行编码，并调用S3步骤中训练好的语音识别模型对音频进行解码，在该过程中首先使用CTC束解码机制获取K个评分最高的序列，之后使用Decoder进行二次重打分，最后根据选择综合评分最高的序列作为最终的识别结果。

与现有技术相比，本发明的有益效果体现在：使用预训练的方式训练热词编码模型，不需要额外采集大量的文本数据和额外的音频-文本对数据，有效降低了训练成本。同时在训练过程中即将热词信息与音频特征融合，由模型自动学习热词识别的能力，不需要依赖专家知识设计额外的解码逻辑，可以快速应用于不同领域不同语种，在提高模型识别准确率的同时极大降低了设计成本。

本发明通过使用大量文本以Decoder-Only的方式对模型进行预训练，可以以近似无监督的方式使模型学习到大量文本之间的知识，克服数据量不足导致的性能不佳的问题。

本发明通过特征编码器对词向量序列进行编码和特征提取，可以将任意长度的热词转换为固定大小的热词特征向量，通过特征编码器对该热词特征向量进行解码拟合，可以在降低维度的同时使热词特征向量包含该热词的语言学信息。

本发明将在注意力机制计算过程中得到的候选热词向量特征与语音识别模型声学特征进行拼接，语音识别模型在编码过程中使用基于热词特征向量自注意力机制将热词信息与声学特征信息融合，得到编码向量并作为最终的解码器输入，使得热词信息与声学模型信息联系更紧密，得到对热词识别准确率更好的语音识别模型。该模型训练过程中，不需要特别标注的热词文本，仅需要从音频-文本对中随机抽取部分热词即可进行模型训练，对训练数据要求低。在用户使用过程中，不需要再进行额外的模型微调或者训练工作，仅使用热词编码模型对用户指定热词进行编码即可，有效降低了模型训练和实际应用的难度。

本发明通过随机构建候选热词组，拟合用户在使用过程中待识别目标中不一定包含全部热词的情况。将候选热词组编码为热词特征向量，在注意力机制计算过程中即与音频特征进行融合，不需要手动设计额外的解码逻辑，因此识别率和准确度均可以得到明显提升，可以有效应用于不同领域。

附图说明

图1为预训练模型的结构图；

图2是热词编码器模型的结构图；

图3是语音识别模型训练结构图；

图4 是语音识别模型解码结构图；

图5 是基于热词特征向量自注意力机制的卷积增强变压器块结构图；

图6 是基于热词特征向量自注意力机制结构图。

具体实施方式

以下结合附图来对本发明作进一步的说明。

实施例

所述步骤S1中，所述预训练模型包括：词嵌入层、特征编码器、分类器层，如图1所示；

所述词嵌入层由Embedding层构成；

S1-1首先应用大量文本对预训练模型的词嵌入层进行预训练，具体为：

S1-1-1随机初始化预训练模型参数；

S1-1-2通过词嵌入层对输入序列进行编码转换为维度为256的词向量序列；

S1-1-3通过特征编码器对词向量序列进行编码和特征提取；

进一步地，在上述方案中，所述预训练模型的计算公式为：

式中，为序列起始符对应的字符索引，一般设置为0，/>为真实字符索引序列，其中/>表示序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小，/>表示/>与/>拼接得到的待编码的字符索引序列；

表示单向LSTM构成的特征编码器，/>为特征编码器编码结果；/>表示分类器，/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数，/>表示经过归一化后的概率分布，表示下一个字符出现的概率；

为序列终止符对应的字符索引，一般设置为0，/>表示/>与/>拼接得到的拟合目标，/>表示交叉熵损失函数，/>为标量，衡量预测的概率分布和真实序列之间的差异。

说明：通过使用大量文本以Decoder-Only的方式对模型进行预训练，可以以近似无监督的方式使模型学习到大量文本之间的知识，克服数据量不足导致的性能不佳的问题。

S1-2在完成模型预训练后，将舍弃除词嵌入层外的其他层，仅保留词嵌入层参数，应用于步骤S2中热词编码模型的词嵌入层权重。

在上述方案中，所述步骤S2中，所述热词编码模型包括：词嵌入层，特征编码器和仅在训练过程中生效的特征解码器，如图2所示；

所述词嵌入层由Embedding层构成，在训练阶段被初始化为所述S1中预训练模型的词嵌入层权重；

所述特征编码器是由5层双向长短期记忆人工神经网络(BiLSTM)构成；

所述仅在训练过程中生效的特征解码器是由5层单向长短期记忆人工神经网络(LSTM)构成。

进一步地，在上述方案中，所述训练热词编码模型以及提取热词特征向量的步骤为：

S2-1准备训练数据

S2-1-1使用分词工具对大量文本进行分词处理，获取常见的词汇，例如“今天天气很不错”可以被分词为“今天”、“天气”，“很不错”；

S2-1-2使用字典中的字符随机生成词汇，用于模拟用户可能输入的稀有词汇；

S2-1-3将S2-1-1与S2-1-2的数据组合去重，得到热词训练数据。

S2-2应用热词训练数据对热词编码模型进行训练，具体为：

S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为256维的词向量序列；

进一步地，在上述方案中，所述热词编码模型训练以及提取热词特征向量的计算公式为：

式中，为待编码的热词字符索引序列，其中/>表示热词序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小，/>表示词嵌入层，为转换得到的词向量序列，/>表示词向量的维度。/>表示双向LSTM构成的特征编码器，/>为特征编码器编码结果。/>为计算均值函数，对在时间维度上求均值，/>为获取的热词特征向量。/>为序列起始符对应的字符索引，/>为真实字符索引序列，其中/>表示序列长度，字符索引的取值范围为/>之间的正整数/>个正整数，/>表示字典大小，/>表示/>与/>拼接得到的待编码的字符索引序列，/>表示词嵌入层，/>为转换得到的词向量序列，/>表示词向量的维度。/>表示单向LSTM构成的特征解码器，/>表示将特征解码器状态初始化为/>，/>为特征编码器编码结果。表示分类器，/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数，/>表示经过归一化后的概率分布，表示下一个字符出现的概率。/>为序列终止符对应的字符索引，/>表示/>与/>拼接得到的拟合目标，/>表示交叉熵损失函数，/>为标量，衡量预测的概率分布和真实序列之间的差异。

说明：通过特征编码器对词向量序列进行编码和特征提取，可以将任意长度的热词转换为固定大小的热词特征向量，通过特征编码器对该热词特征向量进行解码拟合，可以在降低维度的同时使热词特征向量包含该热词的语言学信息。

在上述方案中，所述步骤S3中，接收向量特征为背景信息的语音识别模型采用的是连接时序分类（Connectionist temporal classification，CTC）/编码器-解码器（Encoder-Decoder）联合结构的变压器模型（Transformer），如图3所示，其中编码器（Encoder）为使用基于热词特征向量自注意力机制（self-attention based hotwordcontext）的卷积增强变压器模块（Conformer Blocks），解码器（Decoder）为一般变压器模型（Transformer）的解码器（Decoder）。

使用基于热词特征向量自注意力机制（self-attention based hotwordcontext）的卷积增强变压器模块（Conformer Blocks）结构如图5所示。

除本发明特殊说明，其他配置如下：

音频：16kHz采样率，16-bit采样位数的wav格式音频。

特征：80维滤波器组（Filter-bank，Fbank）特征。

模型的配置：

语音识别模型的配置为12层编码器，6层解码器，模型隐藏层维度为256，和热词特征序列维度保持一致，使用双层步长为2卷积神经网络（Convolutional Neural Networks,CNN）进行下采样，下采样完成后特征序列长度变为原本的1/4。

进一步地，在上述方案中，所述热词编码模型训练以及提取热词特征向量的方法为：

S3-1准备训练数据，具体为：

S3-1-2随机组合生成n个热词，与前述热词拼接形成候选热词组；

S3-2应用音频-文本-候选热词组数据对语音识别模型进行训练，具体为：

S3-2-1对音频提取80维fbank音频特征，使用热词编码器将候选热词组转换为热词特征向量；

S3-2-3将热词特征向量与音频特征向量输入到若干个基于热词特征向量自注意力机制（self-attention based hotword context）的卷积增强变压器模块（ConformerBlocks）中进一步提取特征，使得热词信息与音频信息有效融合得到融合特征向量。

进一步地，在上述方案中，所述热词特征向量自注意力机制（self-attentionbased hotword context）结构，如图6所示，计算公式为：

式中，为第i层提取到的音频特征向量，t为经过下采样后的特征序列长度，d为特征维度；/>和/>为自注意力层中将输入转换为查询向量的线性层所使用的权重和偏置，/>为查询向量；/>和/>为自注意力层中将输入转换为键向量的线性层所使用的权重和偏置，/>为键向量；和/>为自注意力层中将输入转换为值向量的线性层所使用的权重和偏置，/>为值向量；/>为候选热词组通过热词编码器编码得到的热词特征向量，其中/>为文本中真实存在的热词的数量，/>为随机构造的不存在于文本的伪热词数量，在不同的层中共享该矩阵。/>和/>自注意力层中将输入转换为热词键向量的线性层所使用的权重和偏置，/>为热词键向量；/>表示按顺序在时间维度上的拼接操作，/>为音频特征向量/>编码得到的键向量/>和热词键向量/>在时间维度上拼接得到的融合键向量。/>和自注意力层中将输入转换为热词值向量的线性层所使用的权重和偏置，为热词值向量；/>表示按顺序在时间维度上的拼接操作，/>为音频特征向量/>编码得到的值向量/>和热词值向量/>在时间维度上拼接得到的融合值向量。/>为/>转置时间维度和特征维度得到的矩阵，/>为特征维度大小的平方根，用于对注意力评分进行放缩降低方差大小，为注意力评分，/>为注意力评分使用/>进行归一化处理得到的注意力分布矩阵，/>为注意力机制的计算结果。

说明：通过随机构建候选热词组，拟合用户在使用过程中待识别目标中不一定包含全部热词的情况。将候选热词组编码为热词特征向量，在注意力机制计算过程中即与音频特征进行融合，不需要手动设计额外的解码逻辑，因此识别率和准确度均可以得到明显提升，可以有效应用于不同领域。

在上述方案中，所述步骤S4中，用户调用S2步骤中训练好的热词编码模型对输入的热词进行编码，并调用S3步骤中训练好的语音识别模型对音频进行解码，在该过程中首先使用CTC束解码机制获取10个评分最高的序列，之后使用Decoder进行二次重打分其中CTC束解码权重为0.8，Decoder二次重打分权重为0.2，最后根据选择加权求和综合评分最高的序列作为最终的识别结果，如图4所示。

Claims

1.基于热词特征向量自注意力机制的语音识别模型构建方法，其特征在于，包括以下步骤：

S3使用热词编码模型对随机抽取的热词进行编码，将得到的候选热词特征向量与音频特征向量进行拼接，在编码过程中使用基于热词特征向量自注意力机制将热词信息与音频信息融合，得到融合特征向量并作为最终的解码器输入；

所述步骤S1中预训练模型包括：词嵌入层、特征编码器和分类器；

所述词嵌入层由Embedding层构成；

所述特征编码器是由若干层单向长短期记忆人工神经网络构成；

所述分类器由全连接层构成，所述全连接层和词嵌入层共享参数；

所述步骤S1具体如下：

S1-1应用文本对预训练模型的词嵌入层进行预训练

S1-1-1随机初始化预训练模型参数；

S1-1-2通过词嵌入层对输入序列进行编码转换为词向量序列；

S1-1-3通过特征编码器对词向量序列进行编码和特征提取；

S1-1-4使用分类器计算逻辑回归评分，并通过归一化指数函数softmax进行归一化处理；

S1-1-5通过交叉熵损失函数Cross Entropy计算损失值并进行模型更新；

S1-2在完成预训练后，舍弃除词嵌入层外的其他层，仅保留词嵌入层参数；

所述步骤S2中热词编码模型包括：词嵌入层、特征编码器和仅在训练过程中生效的特征解码器；

所述特征编码器是由若干层双向长短期记忆人工神经网络构成；

所述仅在训练过程中生效的特征解码器是由若干层单向长短期记忆人工神经网络构成；

所述步骤S2具体如下：

S2-1准备热词训练数据

S2-1-1使用分词工具对文本进行分词处理，获取词汇数据；

S2-1-2使用字典中的字符随机生成词汇数据；

S2-1-3将上述两步的数据组合去重，得到热词训练数据序列；

S2-2应用热词训练数据序列对热词编码模型进行训练

S2-2-4使用分类器计算逻辑回归评分，并通过归一化指数函数进行归一化处理；

S2-2-5通过交叉熵损失函数计算损失值并进行模型更新。

2. 根据权利要求1所述的基于热词特征向量自注意力机制的语音识别模型构建方法，其特征在于，所述步骤S3具体如下：

S3-1准备训练数据

S3-1-1使用分词工具对音频-文本对中的文本进行分词处理，随机抽取m个词作为热词；

S3-1-2随机组合生成n个热词，与前述的随机抽取m个热词拼接形成候选热词组；

S3-2应用音频-文本-候选热词组数据进行训练

S3-2-1提取音频特征，使用热词编码模型将候选热词组转换为热词特征向量；

S3-2-3将S3-2-1得到的热词特征向量与S3-2-2提取的音频特征向量输入到若干个基于热词特征向量自注意力机制的卷积增强变压器模块中进一步提取特征，使得热词信息与音频信息融合得到融合特征向量；

S3-2-4将融合特征向量和真实文本输入到连接时序分类层和解码器中计算损失值。