CN117437909B - 基于热词特征向量自注意力机制的语音识别模型构建方法 - Google Patents
基于热词特征向量自注意力机制的语音识别模型构建方法 Download PDFInfo
- Publication number
- CN117437909B CN117437909B CN202311758804.3A CN202311758804A CN117437909B CN 117437909 B CN117437909 B CN 117437909B CN 202311758804 A CN202311758804 A CN 202311758804A CN 117437909 B CN117437909 B CN 117437909B
- Authority
- CN
- China
- Prior art keywords
- hotword
- word
- training
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 139
- 238000010276 construction Methods 0.000 title abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 13
- 239000000470 constituent Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 239000003999 initiator Substances 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于热词特征向量自注意力机制的语音识别模型构建方法,具体包括:训练预训练模型,获取词嵌入层,以Decoder‑Only的方式进行训练,对词嵌入层进行优化;训练热词编码模型,以指定热词作为输入,并将热词编码为热词特征向量;将热词信息与声学特征信息融合,得到编码向量并作为最终的解码器输入,使得热词信息与声学模型信息联系更紧密,得到对热词识别准确率更高的语音识别模型。在用户使用过程中,可以主动指定多个热词,初始化语音识别引擎时将会使用热词编码模型对热词进行编码得到热词特征向量序列。在用户使用过程中,该热词特征序列将会作为模型输入与用户每次输入的声学特征进行拼接并进行解码。
Description
技术领域
本发明涉及语音识别技术领域,具体是涉及一种基于热词特征向量自注意力机制的语音识别模型构建方法。
背景技术
语音识别(Automatic Speech Recognition,ASR),是使用机器自动将语音转写为文字的技术。随着大数据、算力以及算法的不断发展,语音识别算法由传统的基于混合高斯(Gaussian Mixture Model, GMM)-隐马尔可夫模型(Hidden Markov Model, HMM)逐渐发展为基于深度学习算法的模型,识别效果、解码速度均有了明显提升,已经在生活中得到了广泛的应用,例如语音输入、语音助手等功能,极大地提高了智能设备的推广应用,极大便利了人类生活。
然而,虽然当前语音识别***的识别效果已经得到了较为明显的提升,但是个性化场景下的识别效果不佳,特别是和用户相关的某些关键词(后续简称“热词”)识别错误将极大地影响用户体验。因此为了适应不同场景的需要,满足用户个性化需求,多数ASR提供热词输入接口,允许用户输入指定热词,通过热词增强技术提高热词识别准确率,防止热词识别错误,提高用户体验。
一般热词定制化工作大致可以分为以下步骤:1)用户传入多个指定热词;2)***自动对这些热词进行分词操作,并以此为基础构建基于加权有限状态转录机(WeightedFinite-State Transducer/WFST)或者AC自动机(Aho-Corasick automaton)的热词词图;3)设计Viterbi静态解码方案或者Lattice静态解码方案对模型编码结果进行解码。
使用这种热词定制化方法可以一定程度上提高语音识别模型对热词的识别准确率,但是该方法存在下述问题:1)用户在传入热词进行热词词图构建,当传入热词数量过多时,将导致热词词图过大,极大影响到解码速度,同时提高热词误识别发生的可能性;2)设计解码逻辑的方案极大依赖于专家知识,且需要针对不同的语种需要设置不同的判定方案,设计耗时过长且成本过高,稳定性不高;3)热词机制的实现方案和模型训练割裂,在模型训练阶段未充分考虑热词的识别准确率问题,仅在解码阶段添加额外的热词加强策略,准确率不高误差传递较为明显。
发明内容
针对上述背景技术指出的问题,本发明创造性地提供了一种基于热词特征向量自注意力机制的语音识别模型构建方法。
本发明的技术方案: 基于热词特征向量自注意力机制的语音识别模型构建方法,包括如下步骤:
S1以Decoder-Only的方式训练预训练模型,对词嵌入层进行优化;
S2应用热词训练数据序列训练热词编码模型,提取热词特征向量;
S3训练接收以热词特征向量为背景信息的语音识别模型,使用热词编码模型对随机抽取的热词进行编码,在注意力机制计算过程中得到的候选热词特征向量与音频特征向量进行拼接,在编码过程中使用基于热词特征向量自注意力机制(self-attention basedhotword context)将热词信息与音频信息融合,得到融合特征向量作为最终的解码器输入。
所述步骤S1中预训练模型包括:词嵌入层、特征编码器、分类器;
所述词嵌入层由Embedding层构成;
所述特征编码器是由若干层单向长短期记忆人工神经网络(LSTM)构成;
所述分类器classic由全连接层构成,该全连接层和词嵌入层共享参数;
进一步地,所述步骤S1具体如下:
S1-1应用大量文本对预训练模型的词嵌入层进行预训练
S1-1-1随机初始化预训练模型参数;
S1-1-2通过词嵌入层对输入序列进行编码转换为词向量序列;
S1-1-3通过特征编码器对词向量序列进行编码和特征提取;
S1-1-4使用分类器计算逻辑回归评分,并通过归一化指数函数(softmax)进行归一化处理;
S1-1-5通过交叉熵损失函数(Cross Entropy)计算损失值并进行模型更新。
进一步地,所述预训练模型的计算公式为:
式中,为序列起始符对应的字符索引,/>为真实字符索引序列,其中/>表示序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小,表示/>与/>拼接得到的待编码的字符索引序列;
表示词嵌入层,/>为转换得到的词向量序列,/>表示词向量的维度;
表示单向LSTM构成的特征编码器,/>为特征编码器编码结果;
表示分类器,/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数,/>表示经过归一化后的概率分布,表示下一个字符出现的概率;
为序列终止符对应的字符索引,/>表示/>与/>拼接得到的拟合目标,表示交叉熵损失函数,/>为标量,衡量预测的概率分布和真实序列之间的差异。
S1-2在完成模型预训练后,舍弃除词嵌入层外的其他层,仅保留词嵌入层参数,应用于步骤S2中热词编码模型的词嵌入层权重。
所述步骤S2中热词编码模型包括:词嵌入层,特征编码器和仅在训练过程中生效的特征解码器;
所述词嵌入层由Embedding层构成,在训练阶段初始化为S1中预训练模型的词嵌入层的权重;
所述特征编码器是由若干层双向长短期记忆人工神经网络(BiLSTM)构成;
所述仅在训练过程中生效的特征解码器是由若干层单向长短期记忆人工神经网络(LSTM)构成。
进一步地,所述步骤S2具体包括:
S2-1准备训练数据,具体为:
S2-1-1使用分词工具对大量文本进行分词处理,获取常见的词汇数据;
S2-1-2使用字典中的字符随机生成词汇,用于模拟用户可能输入的稀有词汇数据;
S2-1-3将S2-1-1与S2-1-2的数据组合去重,得到热词训练数据序列。
S2-2应用热词训练数据序列对热词编码模型进行训练,具体为:
S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为词向量序列;
S2-2-2通过特征编码器对词向量序列进行编码和特征提取,获取热词特征向量;
S2-2-3特征解码器的初始状态初始化为热词特征向量,将热词特征向量作为输入,进行解码;
S2-2-4使用分类器计算逻辑回归评分,并通过归一化指数函数(softmax)进行归一化处理;
S2-2-5通过交叉熵损失函数(Cross Entropy)计算损失值并进行模型更新。
进一步地,所述热词编码模型训练以及提取热词特征向量的计算公式为:
式中,为待编码的热词字符索引序列,其中/>表示热词序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小;
表示词嵌入层,/>为转换得到的词向量序列,/>表示词向量的维度;
表示双向LSTM构成的特征编码器,/>为特征编码器编码结果;/>为计算均值函数,对/>在时间维度上求均值,/>为获取的热词特征向量;
为序列起始符对应的字符索引,/>为真实字符索引序列,其中/>表示序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小,表示/>与/>拼接得到的待编码的字符索引序列,/>表示词嵌入层,/>为转换得到的词向量序列,/>表示词向量的维度;
表示单向LSTM构成的特征解码器,/>表示将特征解码器状态初始化为/>,/>为特征编码器编码结果;
表示分类器,/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数,/>表示经过归一化后的概率分布,表示下一个字符出现的概率;/>为序列终止符对应的字符索引,/>表示/>与拼接得到的拟合目标,/>表示交叉熵损失函数,/>为标量,衡量预测的概率分布和真实序列之间的差异。
所述步骤S3中,接收以热词特征向量为背景信息的语音识别模型采用的是连接时序分类(Connectionist temporal classification,CTC)/编码器-解码器(Encoder-Decoder)联合结构的变压器模型(Transformer),其中编码器(Encoder)为使用基于热词特征向量自注意力机制(self-attention based hotword context)的卷积增强变压器模块(Conformer Blocks),解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder)。
进一步地,所述步骤S3具体包括:
S3-1准备训练数据
S3-1-1使用分词工具对当前待使用的音频-文本对中的文本进行分词处理,随机抽取m个词作为热词;
S3-1-2随机组合生成n个热词,前述的随机抽取m个热词拼接形成音频-文本-候选热词组数据;
S3-2应用音频-文本-候选热词组数据对语音识别模型进行训练
S3-2-1对音频提取音频特征,使用热词编码模型将候选热词组转换为热词特征向量;
S3-2-2使用卷积降采样层对音频进行降采样,并初步提取音频特征向量;
S3-2-3将热词特征向量与音频特征向量输入到若干个基于热词特征向量自注意力机制(self-attention based hotword context)的卷积增强变压器模块(ConformerBlocks)中进一步提取特征,使得热词信息与音频信息有效融合得到融合特征向量;
S3-2-4将融合特征向量和真实文本输入到连接时序分类层(Connectionisttemporal classification,CTC)和解码器(Decoder)中计算损失值。
进一步地,所述热词特征向量自注意力机制(self-attention based hotwordcontext)的计算公式为:
式中,为第i层提取到的音频特征向量,t为经过下采样后的特征序列长度,d为特征维度;/>和/>为自注意力层中将输入转换为查询向量的线性层所使用的权重和偏置,/>为查询向量;/>和/>为自注意力层中将输入转换为键向量的线性层所使用的权重和偏置,/>为键向量;和/>为自注意力层中将输入转换为值向量的线性层所使用的权重和偏置,/>为值向量;/>为候选热词组通过热词编码器编码得到的热词特征向量,其中/>为文本中真实存在的热词的数量,/>为随机构造的不存在于文本的伪热词数量,在不同的层中共享该矩阵,/>和/>自注意力层中将输入转换为热词键向量的线性层所使用的权重和偏置,/>为热词键向量;/>表示按顺序在时间维度上的拼接操作,/>为音频特征向量/>编码得到的键向量/>和热词键向量/>在时间维度上拼接得到的融合键向量,/>和自注意力层中将输入转换为热词值向量的线性层所使用的权重和偏置,表示按顺序在时间维度上的拼接操作为热词值向量;/>表示按顺序在时间维度上的拼接操作,/>为音频特征向量/>编码得到的值向量/>和热词值向量/>在时间维度上拼接得到的融合值向量,/>为/>转置时间维度和特征维度得到的矩阵,/>为特征维度大小的平方根,用于对注意力评分进行放缩降低方差大小,/>为注意力评分,/>为注意力评分使用/>进行归一化处理得到的注意力分布矩阵,/>为注意力机制的计算结果。
在用户使用过程中,可以主动指定多个热词,初始化语音识别引擎时将会使用热词编码模型对热词进行编码得到热词特征向量序列。在用户使用过程中,该热词特征序列将会作为模型输入与用户每次输入的声学特征进行拼接并进行解码。用户调用S2步骤中训练好的热词编码模型对输入的热词进行编码,并调用S3步骤中训练好的语音识别模型对音频进行解码,在该过程中首先使用CTC束解码机制获取K个评分最高的序列,之后使用Decoder进行二次重打分,最后根据选择综合评分最高的序列作为最终的识别结果。
与现有技术相比,本发明的有益效果体现在:使用预训练的方式训练热词编码模型,不需要额外采集大量的文本数据和额外的音频-文本对数据,有效降低了训练成本。同时在训练过程中即将热词信息与音频特征融合,由模型自动学习热词识别的能力,不需要依赖专家知识设计额外的解码逻辑,可以快速应用于不同领域不同语种,在提高模型识别准确率的同时极大降低了设计成本。
本发明通过使用大量文本以Decoder-Only的方式对模型进行预训练,可以以近似无监督的方式使模型学习到大量文本之间的知识,克服数据量不足导致的性能不佳的问题。
本发明通过特征编码器对词向量序列进行编码和特征提取,可以将任意长度的热词转换为固定大小的热词特征向量,通过特征编码器对该热词特征向量进行解码拟合,可以在降低维度的同时使热词特征向量包含该热词的语言学信息。
本发明将在注意力机制计算过程中得到的候选热词向量特征与语音识别模型声学特征进行拼接,语音识别模型在编码过程中使用基于热词特征向量自注意力机制将热词信息与声学特征信息融合,得到编码向量并作为最终的解码器输入,使得热词信息与声学模型信息联系更紧密,得到对热词识别准确率更好的语音识别模型。该模型训练过程中,不需要特别标注的热词文本,仅需要从音频-文本对中随机抽取部分热词即可进行模型训练,对训练数据要求低。在用户使用过程中,不需要再进行额外的模型微调或者训练工作,仅使用热词编码模型对用户指定热词进行编码即可,有效降低了模型训练和实际应用的难度。
本发明通过随机构建候选热词组,拟合用户在使用过程中待识别目标中不一定包含全部热词的情况。将候选热词组编码为热词特征向量,在注意力机制计算过程中即与音频特征进行融合,不需要手动设计额外的解码逻辑,因此识别率和准确度均可以得到明显提升,可以有效应用于不同领域。
附图说明
图1为预训练模型的结构图;
图2是热词编码器模型的结构图;
图3是语音识别模型训练结构图;
图4 是语音识别模型解码结构图;
图5 是基于热词特征向量自注意力机制的卷积增强变压器块结构图;
图6 是基于热词特征向量自注意力机制结构图。
具体实施方式
以下结合附图来对本发明作进一步的说明。
实施例
所述步骤S1中,所述预训练模型包括:词嵌入层、特征编码器、分类器层,如图1所示;
所述词嵌入层由Embedding层构成;
所述特征编码器是由若干层单向长短期记忆人工神经网络(LSTM)构成;
所述分类器classic由全连接层构成,该全连接层和词嵌入层共享参数;
S1-1首先应用大量文本对预训练模型的词嵌入层进行预训练,具体为:
S1-1-1随机初始化预训练模型参数;
S1-1-2通过词嵌入层对输入序列进行编码转换为维度为256的词向量序列;
S1-1-3通过特征编码器对词向量序列进行编码和特征提取;
S1-1-4使用分类器计算逻辑回归评分,并通过归一化指数函数(softmax)进行归一化处理;
S1-1-5通过交叉熵损失函数(Cross Entropy)计算损失值并进行模型更新。
进一步地,在上述方案中,所述预训练模型的计算公式为:
式中,为序列起始符对应的字符索引,一般设置为0,/>为真实字符索引序列,其中/>表示序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小,/>表示/>与/>拼接得到的待编码的字符索引序列;
表示词嵌入层,/>为转换得到的词向量序列,/>表示词向量的维度;
表示单向LSTM构成的特征编码器,/>为特征编码器编码结果;/>表示分类器,/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数,/>表示经过归一化后的概率分布,表示下一个字符出现的概率;
为序列终止符对应的字符索引,一般设置为0,/>表示/>与/>拼接得到的拟合目标,/>表示交叉熵损失函数,/>为标量,衡量预测的概率分布和真实序列之间的差异。
说明:通过使用大量文本以Decoder-Only的方式对模型进行预训练,可以以近似无监督的方式使模型学习到大量文本之间的知识,克服数据量不足导致的性能不佳的问题。
S1-2在完成模型预训练后,将舍弃除词嵌入层外的其他层,仅保留词嵌入层参数,应用于步骤S2中热词编码模型的词嵌入层权重。
在上述方案中,所述步骤S2中,所述热词编码模型包括:词嵌入层,特征编码器和仅在训练过程中生效的特征解码器,如图2所示;
所述词嵌入层由Embedding层构成,在训练阶段被初始化为所述S1中预训练模型的词嵌入层权重;
所述特征编码器是由5层双向长短期记忆人工神经网络(BiLSTM)构成;
所述仅在训练过程中生效的特征解码器是由5层单向长短期记忆人工神经网络(LSTM)构成。
进一步地,在上述方案中,所述训练热词编码模型以及提取热词特征向量的步骤为:
S2-1准备训练数据
S2-1-1使用分词工具对大量文本进行分词处理,获取常见的词汇,例如“今天天气很不错”可以被分词为“今天”、“天气”,“很不错”;
S2-1-2使用字典中的字符随机生成词汇,用于模拟用户可能输入的稀有词汇;
S2-1-3将S2-1-1与S2-1-2的数据组合去重,得到热词训练数据。
S2-2应用热词训练数据对热词编码模型进行训练,具体为:
S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为256维的词向量序列;
S2-2-2通过特征编码器对词向量序列进行编码和特征提取,获取热词特征向量;
S2-2-3特征解码器的初始状态初始化为热词特征向量,将热词特征向量作为输入,进行解码;
S2-2-4使用分类器计算逻辑回归评分,并通过归一化指数函数(softmax)进行归一化处理;
S2-2-5通过交叉熵损失函数(Cross Entropy)计算损失值并进行模型更新。
进一步地,在上述方案中,所述热词编码模型训练以及提取热词特征向量的计算公式为:
式中,为待编码的热词字符索引序列,其中/>表示热词序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小,/>表示词嵌入层,为转换得到的词向量序列,/>表示词向量的维度。/>表示双向LSTM构成的特征编码器,/>为特征编码器编码结果。/>为计算均值函数,对在时间维度上求均值,/>为获取的热词特征向量。/>为序列起始符对应的字符索引,/>为真实字符索引序列,其中/>表示序列长度,字符索引的取值范围为/>之间的正整数/>个正整数,/>表示字典大小,/>表示/>与/>拼接得到的待编码的字符索引序列,/>表示词嵌入层,/>为转换得到的词向量序列,/>表示词向量的维度。/>表示单向LSTM构成的特征解码器,/>表示将特征解码器状态初始化为/>,/>为特征编码器编码结果。表示分类器,/>表示编码结果经过分类器后得到的逻辑回归值。/>表示归一化指数函数,/>表示经过归一化后的概率分布,表示下一个字符出现的概率。/>为序列终止符对应的字符索引,/>表示/>与/>拼接得到的拟合目标,/>表示交叉熵损失函数,/>为标量,衡量预测的概率分布和真实序列之间的差异。
说明:通过特征编码器对词向量序列进行编码和特征提取,可以将任意长度的热词转换为固定大小的热词特征向量,通过特征编码器对该热词特征向量进行解码拟合,可以在降低维度的同时使热词特征向量包含该热词的语言学信息。
在上述方案中,所述步骤S3中,接收向量特征为背景信息的语音识别模型采用的是连接时序分类(Connectionist temporal classification,CTC)/编码器-解码器(Encoder-Decoder)联合结构的变压器模型(Transformer),如图3所示,其中编码器(Encoder)为使用基于热词特征向量自注意力机制(self-attention based hotwordcontext)的卷积增强变压器模块(Conformer Blocks),解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder)。
使用基于热词特征向量自注意力机制(self-attention based hotwordcontext)的卷积增强变压器模块(Conformer Blocks)结构如图5所示。
除本发明特殊说明,其他配置如下:
音频:16kHz采样率,16-bit采样位数的wav格式音频。
特征:80维滤波器组(Filter-bank,Fbank)特征。
模型的配置:
语音识别模型的配置为12层编码器,6层解码器,模型隐藏层维度为256,和热词特征序列维度保持一致,使用双层步长为2卷积神经网络(Convolutional Neural Networks,CNN)进行下采样,下采样完成后特征序列长度变为原本的1/4。
进一步地,在上述方案中,所述热词编码模型训练以及提取热词特征向量的方法为:
S3-1准备训练数据,具体为:
S3-1-1使用分词工具对当前待使用的音频-文本对中的文本进行分词处理,随机抽取m个词作为热词;
S3-1-2随机组合生成n个热词,与前述热词拼接形成候选热词组;
S3-2应用音频-文本-候选热词组数据对语音识别模型进行训练,具体为:
S3-2-1对音频提取80维fbank音频特征,使用热词编码器将候选热词组转换为热词特征向量;
S3-2-2使用卷积降采样层对音频进行降采样,并初步提取音频特征向量;
S3-2-3将热词特征向量与音频特征向量输入到若干个基于热词特征向量自注意力机制(self-attention based hotword context)的卷积增强变压器模块(ConformerBlocks)中进一步提取特征,使得热词信息与音频信息有效融合得到融合特征向量。
S3-2-4将融合特征向量和真实文本输入到连接时序分类层(Connectionisttemporal classification,CTC)和解码器(Decoder)中计算损失值。
进一步地,在上述方案中,所述热词特征向量自注意力机制(self-attentionbased hotword context)结构,如图6所示,计算公式为:
式中,为第i层提取到的音频特征向量,t为经过下采样后的特征序列长度,d为特征维度;/>和/>为自注意力层中将输入转换为查询向量的线性层所使用的权重和偏置,/>为查询向量;/>和/>为自注意力层中将输入转换为键向量的线性层所使用的权重和偏置,/>为键向量;和/>为自注意力层中将输入转换为值向量的线性层所使用的权重和偏置,/>为值向量;/>为候选热词组通过热词编码器编码得到的热词特征向量,其中/>为文本中真实存在的热词的数量,/>为随机构造的不存在于文本的伪热词数量,在不同的层中共享该矩阵。/>和/>自注意力层中将输入转换为热词键向量的线性层所使用的权重和偏置,/>为热词键向量;/>表示按顺序在时间维度上的拼接操作,/>为音频特征向量/>编码得到的键向量/>和热词键向量/>在时间维度上拼接得到的融合键向量。/>和自注意力层中将输入转换为热词值向量的线性层所使用的权重和偏置,为热词值向量;/>表示按顺序在时间维度上的拼接操作,/>为音频特征向量/>编码得到的值向量/>和热词值向量/>在时间维度上拼接得到的融合值向量。/>为/>转置时间维度和特征维度得到的矩阵,/>为特征维度大小的平方根,用于对注意力评分进行放缩降低方差大小,为注意力评分,/>为注意力评分使用/>进行归一化处理得到的注意力分布矩阵,/>为注意力机制的计算结果。
说明:通过随机构建候选热词组,拟合用户在使用过程中待识别目标中不一定包含全部热词的情况。将候选热词组编码为热词特征向量,在注意力机制计算过程中即与音频特征进行融合,不需要手动设计额外的解码逻辑,因此识别率和准确度均可以得到明显提升,可以有效应用于不同领域。
在上述方案中,所述步骤S4中,用户调用S2步骤中训练好的热词编码模型对输入的热词进行编码,并调用S3步骤中训练好的语音识别模型对音频进行解码,在该过程中首先使用CTC束解码机制获取10个评分最高的序列,之后使用Decoder进行二次重打分其中CTC束解码权重为0.8,Decoder二次重打分权重为0.2,最后根据选择加权求和综合评分最高的序列作为最终的识别结果,如图4所示。
Claims (2)
1.基于热词特征向量自注意力机制的语音识别模型构建方法,其特征在于,包括以下步骤:
S1以Decoder-Only的方式训练预训练模型,对词嵌入层进行优化;
S2应用热词训练数据序列训练热词编码模型,提取热词特征向量;
S3使用热词编码模型对随机抽取的热词进行编码,将得到的候选热词特征向量与音频特征向量进行拼接,在编码过程中使用基于热词特征向量自注意力机制将热词信息与音频信息融合,得到融合特征向量并作为最终的解码器输入;
所述步骤S1中预训练模型包括:词嵌入层、特征编码器和分类器;
所述词嵌入层由Embedding层构成;
所述特征编码器是由若干层单向长短期记忆人工神经网络构成;
所述分类器由全连接层构成,所述全连接层和词嵌入层共享参数;
所述步骤S1具体如下:
S1-1应用文本对预训练模型的词嵌入层进行预训练
S1-1-1随机初始化预训练模型参数;
S1-1-2通过词嵌入层对输入序列进行编码转换为词向量序列;
S1-1-3通过特征编码器对词向量序列进行编码和特征提取;
S1-1-4使用分类器计算逻辑回归评分,并通过归一化指数函数softmax进行归一化处理;
S1-1-5通过交叉熵损失函数Cross Entropy计算损失值并进行模型更新;
S1-2在完成预训练后,舍弃除词嵌入层外的其他层,仅保留词嵌入层参数;
所述步骤S2中热词编码模型包括:词嵌入层、特征编码器和仅在训练过程中生效的特征解码器;
所述词嵌入层由Embedding层构成,在训练阶段初始化为S1中预训练模型的词嵌入层的权重;
所述特征编码器是由若干层双向长短期记忆人工神经网络构成;
所述仅在训练过程中生效的特征解码器是由若干层单向长短期记忆人工神经网络构成;
所述步骤S2具体如下:
S2-1准备热词训练数据
S2-1-1使用分词工具对文本进行分词处理,获取词汇数据;
S2-1-2使用字典中的字符随机生成词汇数据;
S2-1-3将上述两步的数据组合去重,得到热词训练数据序列;
S2-2应用热词训练数据序列对热词编码模型进行训练
S2-2-1通过词嵌入层对热词训练数据序列进行编码转换为词向量序列;
S2-2-2通过特征编码器对词向量序列进行编码和特征提取,获取热词特征向量;
S2-2-3特征解码器的初始状态初始化为热词特征向量,将热词特征向量作为输入,进行解码;
S2-2-4使用分类器计算逻辑回归评分,并通过归一化指数函数进行归一化处理;
S2-2-5通过交叉熵损失函数计算损失值并进行模型更新。
2. 根据权利要求1所述的基于热词特征向量自注意力机制的语音识别模型构建方法,其特征在于,所述步骤S3具体如下:
S3-1准备训练数据
S3-1-1使用分词工具对音频-文本对中的文本进行分词处理,随机抽取m个词作为热词;
S3-1-2随机组合生成n个热词,与前述的随机抽取m个热词拼接形成候选热词组;
S3-2应用音频-文本-候选热词组数据进行训练
S3-2-1提取音频特征,使用热词编码模型将候选热词组转换为热词特征向量;
S3-2-2使用卷积降采样层对音频进行降采样,并初步提取音频特征向量;
S3-2-3将S3-2-1得到的热词特征向量与S3-2-2提取的音频特征向量输入到若干个基于热词特征向量自注意力机制的卷积增强变压器模块中进一步提取特征,使得热词信息与音频信息融合得到融合特征向量;
S3-2-4将融合特征向量和真实文本输入到连接时序分类层和解码器中计算损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311758804.3A CN117437909B (zh) | 2023-12-20 | 2023-12-20 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311758804.3A CN117437909B (zh) | 2023-12-20 | 2023-12-20 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117437909A CN117437909A (zh) | 2024-01-23 |
CN117437909B true CN117437909B (zh) | 2024-03-05 |
Family
ID=89553894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311758804.3A Active CN117437909B (zh) | 2023-12-20 | 2023-12-20 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437909B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649846B (zh) * | 2024-01-29 | 2024-04-30 | 北京安声科技有限公司 | 语音识别模型生成方法、语音识别方法、设备和介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及*** |
CN104834638A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种热词展示方法、装置及电子设备 |
CN109635204A (zh) * | 2018-12-21 | 2019-04-16 | 上海交通大学 | 基于协同过滤和长短记忆网络的在线推荐*** |
US10388274B1 (en) * | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113674734A (zh) * | 2021-08-24 | 2021-11-19 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种基于语音识别的信息查询方法及***、设备和存储介质 |
WO2021232746A1 (zh) * | 2020-05-18 | 2021-11-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN114464182A (zh) * | 2022-03-03 | 2022-05-10 | 慧言科技(天津)有限公司 | 一种音频场景分类辅助的语音识别快速自适应方法 |
CN114550718A (zh) * | 2022-02-18 | 2022-05-27 | 招商银行股份有限公司 | 热词语音识别方法、装置、设备与计算机可读存储介质 |
CN114564564A (zh) * | 2022-02-25 | 2022-05-31 | 山东新一代信息产业技术研究院有限公司 | 一种用于语音识别的热词增强方法、设备及介质 |
CN115132187A (zh) * | 2022-06-10 | 2022-09-30 | 普强时代(珠海横琴)信息技术有限公司 | 热词增强的语音识别方法以及装置、存储介质、电子装置 |
CN115881104A (zh) * | 2022-11-22 | 2023-03-31 | 科大讯飞股份有限公司 | 基于热词编码的语音识别方法、装置和存储介质 |
CN116978367A (zh) * | 2023-02-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN117116264A (zh) * | 2023-02-20 | 2023-11-24 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
-
2023
- 2023-12-20 CN CN202311758804.3A patent/CN117437909B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及*** |
CN104834638A (zh) * | 2014-02-10 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种热词展示方法、装置及电子设备 |
US10388274B1 (en) * | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
CN109635204A (zh) * | 2018-12-21 | 2019-04-16 | 上海交通大学 | 基于协同过滤和长短记忆网络的在线推荐*** |
WO2021232746A1 (zh) * | 2020-05-18 | 2021-11-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112347769A (zh) * | 2020-10-30 | 2021-02-09 | 北京百度网讯科技有限公司 | 实体识别模型的生成方法、装置、电子设备及存储介质 |
WO2023273578A1 (zh) * | 2021-06-30 | 2023-01-05 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113674734A (zh) * | 2021-08-24 | 2021-11-19 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种基于语音识别的信息查询方法及***、设备和存储介质 |
CN114550718A (zh) * | 2022-02-18 | 2022-05-27 | 招商银行股份有限公司 | 热词语音识别方法、装置、设备与计算机可读存储介质 |
CN114564564A (zh) * | 2022-02-25 | 2022-05-31 | 山东新一代信息产业技术研究院有限公司 | 一种用于语音识别的热词增强方法、设备及介质 |
CN114464182A (zh) * | 2022-03-03 | 2022-05-10 | 慧言科技(天津)有限公司 | 一种音频场景分类辅助的语音识别快速自适应方法 |
CN115132187A (zh) * | 2022-06-10 | 2022-09-30 | 普强时代(珠海横琴)信息技术有限公司 | 热词增强的语音识别方法以及装置、存储介质、电子装置 |
CN115881104A (zh) * | 2022-11-22 | 2023-03-31 | 科大讯飞股份有限公司 | 基于热词编码的语音识别方法、装置和存储介质 |
CN116978367A (zh) * | 2023-02-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN117116264A (zh) * | 2023-02-20 | 2023-11-24 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
Non-Patent Citations (1)
Title |
---|
Improved Soft Cancellation Decoding of Polar Codes;Mingyue You;Zhifeng Ma;;Journal of Beijing Institute of Technology;20200915(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117437909A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209801B (zh) | 一种基于自注意力网络的文本摘要自动生成方法 | |
US11194972B1 (en) | Semantic sentiment analysis method fusing in-depth features and time sequence models | |
CN111145728B (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN111199727B (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN110083831B (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN117437909B (zh) | 基于热词特征向量自注意力机制的语音识别模型构建方法 | |
CN112182191B (zh) | 多轮口语理解的结构化记忆图网络模型 | |
CN111145729A (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN110459208A (zh) | 一种基于知识迁移的序列到序列语音识别模型训练方法 | |
CN111783477B (zh) | 一种语音翻译方法及*** | |
CN114781377B (zh) | 非对齐文本的纠错模型、训练及纠错方法 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、***及存储介质 | |
CN114461851A (zh) | 一种可交互Transformer的多模态视频密集事件描述算法 | |
CN112967720B (zh) | 少量重口音数据下的端到端语音转文本模型优化方法 | |
CN115470799B (zh) | 一种用于网络边缘设备的文本传输和语义理解一体化方法 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及*** | |
CN116227503A (zh) | 一种基于ctc的非自回归端到端语音翻译方法 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
CN112183086B (zh) | 基于意群标注的英语发音连读标记模型 | |
CN115169363A (zh) | 一种融合知识的增量编码的对话情感识别方法 | |
CN112951201A (zh) | 一种营业厅环境下端到端的情感语音合成方法 | |
CN113806506B (zh) | 一种面向常识推理的生成式人机对话回复生成方法 | |
CN117524193B (zh) | 中英混合语音识别***训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |