CN117558263A - 语音识别方法、装置、设备及可读存储介质 - Google Patents

语音识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117558263A
CN117558263A CN202410034818.9A CN202410034818A CN117558263A CN 117558263 A CN117558263 A CN 117558263A CN 202410034818 A CN202410034818 A CN 202410034818A CN 117558263 A CN117558263 A CN 117558263A
Authority
CN
China
Prior art keywords
attention mechanism
vector
prompt
recognition model
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410034818.9A
Other languages
English (en)
Other versions
CN117558263B (zh
Inventor
马志强
李永超
孙磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202410034818.9A priority Critical patent/CN117558263B/zh
Publication of CN117558263A publication Critical patent/CN117558263A/zh
Application granted granted Critical
Publication of CN117558263B publication Critical patent/CN117558263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种语音识别方法、装置、设备及可读存储介质。本方案中,预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数,每个领域的提示向量参数用于指示该领域专有的语音识别信息,在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,获取待识别语音数据所属领域的提示向量参数,将该提示向量参数和声学特征序列,输入该领域的多领域语音识别模型,多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理,得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。

Description

语音识别方法、装置、设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,更具体的说,是涉及一种语音识别方法、装置、设备及可读存储介质。
背景技术
目前的语音识别模型有传统的语音识别模型和端到端语音识别模型,其中,传统的语音识别模型是声学模型和语言模型独立建模的,端到端语音识别模型具有声学和语言联合建模的优点,成为现阶段应用最广泛的语音识别模型。
语音识别应用场景包括很多个领域,比如教育、医疗、车载等等,因此,如何保证端到端语音识别模型在各领域的识别效果,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种语音识别方法、装置、设备及可读存储介质。具体方案如下:
一种语音识别方法,所述方法包括:
获取待识别语音数据;
确定所述待识别语音数据的声学特征序列;
获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
可选地,所述多领域语音识别模型,包括:编码器和解码器;所述编码器中包括N个编码块,所述解码器中包括N个解码块,所述编码块和所述解码块均包括注意力机制模块;
所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,包括:
所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理,得到所述语音数据的识别结果。
可选地,所述提示向量参数包括键提示向量参数和值提示向量参数,每个注意力机制模块的处理方式包括:
确定查询向量参数、键向量参数和值向量参数;
将所述键提示向量参数与所述键向量参数进行拼接,得到键拼接向量参数;
将所述值提示向量参数与所述值向量参数进行拼接,得到值拼接向量参数;
基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出。
可选地,所述编码块包括第一注意力机制模块,针对每个编码块的注意力机制模块,所述查询向量参数、键向量参数和值向量参数的确定方式,包括:
基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个编码块的原始输入为所述待识别语音数据的声学特征序列,除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。
可选地,所述解码块包括第二注意力机制模块和第三注意力机制模块,针对所述解码块的每个注意力机制模块,所述查询向量参数、键向量参数和值向量参数的确定方式,包括:
基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列,第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出;除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出,第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。
可选地,所述基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出,包括:
将所述查询向量参数与所述键拼接向量参数进行矩阵相乘,得到注意力机制的权重;
将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘,得到所述注意力机制模块的输出。
可选地,所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。
可选地,所述对端到端语音识别模型进行领域自适应训练的方式包括:
获取各领域的语音识别训练数据,以及,各领域的初始提示向量参数;每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列,以及与所述训练用语音对应的文本标注序列;
将各个领域的训练用语音的声学特征序列输入端到端语音识别模型,将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块,得到所述端到端语音识别模型输出的结果;
根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列,确定所述端到端语音识别模型的预测损失;
根据所述端到端语音识别模型的预测损失,对各个领域的提示向量参数进行更新,训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。
一种语音识别装置,所述装置包括:
语音数据获取单元,用于获取待识别语音数据;
声学特征序列确定单元,用于确定所述待识别语音数据的声学特征序列;
提示向量参数获取单元,用于获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
识别单元,用于将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
可选地,所述多领域语音识别模型,包括:编码器和解码器;所述编码器中包括N个编码块,所述解码器中包括N个解码块,所述编码块和所述解码块均包括注意力机制模块;
所述识别单元,具体用于:
所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理,得到所述语音数据的识别结果。
可选地,所述提示向量参数包括键提示向量参数和值提示向量参数,所述注意力机制模块,包括:
确定单元,用于确定查询向量参数、键向量参数和值向量参数;
第一拼接单元,用于将所述键提示向量参数与所述键向量参数进行拼接,得到键拼接向量参数;
第二拼接单元,将所述值提示向量参数与所述值向量参数进行拼接,得到值拼接向量参数;
计算单元,用于基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出。
可选地,所述编码块包括第一注意力机制模块,针对每个编码块的注意力机制模块,所述确定单元,具体用于:
基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个编码块的原始输入为所述待识别语音数据的声学特征序列,除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。
可选地,所述解码块包括第二注意力机制模块和第三注意力机制模块,针对所述解码块的每个注意力机制模块,所述确定单元,具体用于:
基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列,第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出;除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出,第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。
可选地,所述计算单元,具体用于:
将所述查询向量参数与所述键拼接向量参数进行矩阵相乘,得到注意力机制的权重;
将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘,得到所述注意力机制模块的输出。
可选地,所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。
可选地,所述对端到端语音识别模型进行领域自适应训练的方式包括:
获取各领域的语音识别训练数据,以及,各领域的初始提示向量参数;每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列,以及与所述训练用语音对应的文本标注序列;
将各个领域的训练用语音的声学特征序列输入端到端语音识别模型,将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块,得到所述端到端语音识别模型输出的结果;
根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列,确定所述端到端语音识别模型的预测损失;
根据所述端到端语音识别模型的预测损失,对各个领域的提示向量参数进行更新,训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。
一种语音识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音识别方法的各个步骤。
借由上述技术方案,本申请公开了一种语音识别方法、装置、设备及可读存储介质。本方案中,预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数,每个领域的提示向量参数用于指示该领域专有的语音识别信息,在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,获取待识别语音数据所属领域的提示向量参数,将该提示向量参数和声学特征序列,输入该领域的多领域语音识别模型,多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理,得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种语音识别方法的流程示意图;
图2为本申请公开的一种注意力机制模块的网络结构示意图;
图3为本申请公开的一种对端到端语音识别模型进行领域自适应训练的实现方式的流程示意图;
图4为本申请实施例公开的一种注意力机制模块的处理方式的流程示意图;
图5为本申请实施例公开的一种注意力机制模块的计算示意图;
图6为本申请实施例公开的一种语音识别装置结构示意图;
图7为本申请实施例公开的一种语音识别设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了保证端到端语音识别模型在各领域的识别效果,本领域技术人员多采用对端到端语音识别模型进行领域自适应训练的方式。
目前,端到端语音识别模型领域自适应训练方案主要有两种,一种是模型全参数微调,即使用领域训练数据在通用端到端语音识别模型上进行微调训练,全参数更新,该方案训练周期长,泛化性能差,每个领域都需要训练一个全新的模型,增加了模型训练和部署成本,并且会影响通用领域的识别效果。
另一种是模型输出层参数微调,即使用领域训练数据在通用端到端语音识别模型上进行微调训练,只更新输出层参数,其他层参数固定,该方案对领域训练数据量级有要求,领域训练数据量级少的情况下存在过拟合等问题。
可见,目前的端到端语音识别模型领域自适应训练方案均无法有效保证端到端语音识别模型在各领域识别效果。
本案发明人进行研究发现,端到端语音识别模型领域自适应训练方案需要考虑如下几个问题:
第一:模型训练微调参数量问题。
领域自适应的训练参数量不能太大,不能额外增加很多参数量,训练时间不能太长,保障目标领域的迁移效率,需要考虑部署成本,不能每个领域都部署一个全新的语音识别模型。
第二:模型原始参数训练问题。
在目标领域训练时,尽量不改变原始模型的参数和权重,原始模型的网络参数保持固定,实现高度的参数共享,减少领域自适应训练常见的灾难性遗忘问题,避免对通用场景效果的影响,减少对目标场景的过拟合问题。
第三:领域可扩展性问题。
当存在多个目标领域需要适应时,可以分别为每个领域训练一组独立但少量的模型参数,实现不同领域的快速扩展。
基于上述思路,本案发明人进行了深入研究,最终提出了一种基于提示学习(Prompt Learning)的端到端语音识别模型领域自适应训练方法。
提示学习(Prompt Learning)是一种广泛应用于NLP(Natural LanguageProcessing,自然语言处理)领域的学习方法,在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”,将下游任务改为文本生成任务。和传统监督式学习给出输入x,预测输出y的概率p(y|x)不同,提示学习是基于语言模型,直接计算文本的概率。为了使这些模型可以完成预测任务,我们通过模板(template)将输入x转换为x',x'相当于是x被挖走了一些词(token),留下一些待填充的槽(slot),然后使用语言模型来填充x',最终可以导出输出y。
本案发明人提出的基于提示学习(Prompt Learning)的端到端语音识别模型领域自适应训练方法,具体是基于提示学习(Prompt Learning)对端到端语音识别模型中的注意力机制模块进行改进,通过轻量级微调,即可有效保证端到端语音识别模型在各领域识别效果。
接下来,通过下述实施例对本申请提供的端到端语音识别模型领域自适应训练方法以及语音识别方法进行介绍。
参照图1,图1为本申请实施例公开的一种语音识别方法的流程示意图,该方法可以包括如下步骤:
S101:获取待识别语音数据。
在本申请中,待识别语音数据可以为任意语种、任意时长、任意领域的语音数据,对此,本申请不进行任何限定。
S102:确定所述待识别语音数据的声学特征序列。
在本申请中,所述待识别语音数据中包括多个语音帧;则确定所述待识别语音数据的声学特征序列的具体实现方式可以为确定所述待识别语音数据中各语音帧分别对应的声学特征,得到所述待识别语音数据的声学特征序列。
所述声学特征可以为PLP(Perceptual Linear Predictive,感知线性预测系数)、MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数)、Filter Bank(滤波器组)特征等常见的声学特征,作为一种可实施方式,本申请中的声学特征可以为FilterBank特征。
S103:获取所述待识别语音数据所属领域的提示向量参数。
在本申请中,所述提示向量参数是用于指示所述领域专有的语音识别信息。不同的领域,提示向量参数不同。每个领域的提示向量参数可以有一个或多个,作为一种可实施方式,所述提示向量参数可以包括键(Key)提示向量参数和值(Value)提示向量参数。作为一种可实施方式,每个提示向量参数中可以包括L个提示向量,L为大于等于1的整数。
S104:将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果。
在本申请中,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。对端到端语音识别模型进行领域自适应训练的方式将通过后面的实施例详细说明。所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果的过程中,主要是注意力机制模块应用所述提示向量参数进行注意力计算,作为一种可实施方式,可以是部分注意力机制模块应用所述提示向量参数,也可以是全部注意力机制模块都应用所述提示向量参数,对此,本申请不进行任何限定,考虑到模型效果,在本申请中,可以采用全部注意力机制模块都应用所述提示向量参数,具体将通过后面的实施例详细说明。
本实施例公开了一种语音识别方法。本方案中,预先对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型以及各领域的提示向量参数,每个领域的提示向量参数用于指示该领域专有的语音识别信息,在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,获取待识别语音数据所属领域的提示向量参数,将该提示向量参数和声学特征序列,输入该领域的多领域语音识别模型,多领域语音识别模型对提示向量参数和声学特征序列进行编解码处理,得到语音数据的识别结果。本方案可有效保证端到端语音识别模型在各领域识别效果。
在上述实施例中指出,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的,接下来先对本申请中应用的端到端语音识别模型的结构进行简单介绍。
端到端语音识别模型的结构采用编码器-解码器(Encoder-Decoder)框架,可以是transformer、conformer等类似结构,这里不做限制。作为一种可实施方式,在本申请中,端到端语音识别模型的编码器中包括N个编码块,所述解码器中包括N个解码块,N为大于1的整数,比如N可以取值12、16等,对此,本申请不进行任何限定。所述编码块和所述解码块均包括注意力机制模块,常用的注意力机制有单头注意力机制和多头注意力机制,对于编码器和解码器来说,如果其采用的注意力机制为单头注意力机制,则其注意力机制模块即为单头注意力机制模块,如果其采用的注意力机制为多头注意力机制,则其注意力机制模块即为多头注意力机制中的每个注意力机制层。传统的端到端语音识别模型,每个注意力机制模块的输入为查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数。
为便于理解,参照图2,图2为本申请公开的一种注意力机制模块的网络结构示意图,如图2所示,其输入为查询(Query)向量参数Q、键(Key)向量参数K和值(Value)向量参数V。如果该注意力机制模块为单头注意力机制模块,则其基于如下公式,进行注意力计算:
其中, 是训练的参数。
如果该注意力机制模块为多头注意力机制中的一个注意力机制层i,则其基于如下公式,进行注意力计算:
其中,i表示多头注意力机制里面的第i个注意力机制层(head), 是第i个head所对应的训练参数。
在确定端到端语音识别模型之后,可通过对端到端语音识别模型进行领域自适应训练得到多领域语音识别模型,在本申请的另一个实施例中,详细介绍了对端到端语音识别模型进行领域自适应训练的实现方式,如图3所示,该方式可以包括如下步骤:
S201:获取各领域的语音识别训练数据,以及,各领域的初始提示向量参数;每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列,以及与所述训练用语音对应的文本标注序列。
各领域的语音识别训练数据可以包括任意多个领域的语音识别训练数据,比如,教育、医疗、车载等等,对此,本申请不进行任何限定。
所述声学特征可以为PLP(Perceptual Linear Predictive,感知线性预测系数)、MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数)、Filter Bank(滤波器组)特征等常见的声学特征,作为一种可实施方式,本申请中的声学特征可以为FilterBank特征。
示例性地,一句训练用语音数据的声学特征序列和文本标注序列可采用如下方式表示:
声学特征序列X=[x1,x2,……,xm,……,xM]
文本标注序列Y=[y0,y1,……,yt,……,yT]
其中,xm表示声学特征序列X中第m帧声学特征向量,作为一种可实施方式,本申请可使用40维的Filter Bank特征,K为总语音帧数目;yt 表示文本标注序列Y中第t个字符,T+1为该总文本标注的总字符数目,其中y0为句子开始符“<s>”,yT为句子结束符“</s>”。以中文语音识别为例,并用单个汉字作为建模单元,训练数据能覆盖的常用汉字约6700。假设某句话的文本内容为“欢迎来到科大讯飞”,共有8个汉字,加上句子开始符和句子结束符,文本标注序列总共10个字符,则文本标注序列Y=[<s>,欢,迎,来,到,科,大,讯,飞,</s>]。
S202:将各个领域的训练用语音的声学特征序列输入端到端语音识别模型,将各个领域的初始提示向量参数输入所述端到端语音识别模型中各注意力机制模块,得到所述端到端语音识别模型输出的结果。
在本申请中,每个训练用语音的声学特征序列对应一个初始提示向量参数,将该训练用语音的声学特征序列输入端到端语音识别模型之后,端到端语音识别模型在对该训练用语音的声学特征序列进行处理时,端到端语音识别模型中各注意力机制模块将会利用该训练用语音的声学特征序列对应的初始提示向量参数进行注意力计算。计算方式与实际的语音识别场景中的计算方式一致,具体可参见后面的实施例中有关注意力机制模块的处理方式的相关内容。
在训练时,作为一种可实施方式,一个batch内可以包含相同领域的训练用语音数据,实现各领域单独训练。作为另一种可实施方式,一个batch内也可以包含多个领域的训练用语音数据,实现各领域混合训练。
S203:根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列,确定所述端到端语音识别模型的预测损失。
在本申请中,所述端到端语音识别模型的预测损失可以为任意损失,比如交叉熵损失、均方误差损失等,具体可基于场景需求确定,本申请不进行任何限定。
S204:根据所述端到端语音识别模型的预测损失,对各个领域的初始提示向量参数进行更新,训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。
在本申请中,在对端到端语音识别模型进行领域自适应训练时,端到端语音识别模型的原有参数是保持不变的,只对各个领域的提示向量参数进行更新,训练结束后,即可得到多领域语音识别模型以及各个领域的提示向量参数。
在本实施例中,对端到端语音识别模型进行领域自适应训练的方式,端到端语音识别模型的原始模型的参数不更新,只需通过调整领域的提示向量参数,与传统的对端到端语音识别模型进行领域自适应训练的方式相比,调整的参数量较低,因此,训练效率更高。
另外,在本实施例中,对端到端语音识别模型进行领域自适应训练的方式,无需每个领域都部署一个全新的语音识别模型,通过分别为每个领域训练一组独立但少量的模型参数(即提示向量参数),即可激活端到端语音识别模型在各个领域的识别能力,提升了端到端语音识别模型的领域扩展性,从而保障了端到端语音识别模型在各领域的语音识别效果。
多领域语音识别模型的结构与端到端语音识别模型的结构相同,即所述多领域语音识别模型,包括:编码器和解码器;所述编码器中包括N个编码块,所述解码器中包括N个解码块,所述编码块和所述解码块均包括注意力机制模块;则所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,包括:所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理,得到所述语音数据的识别结果。
需要说明的是,在本申请中,多领域语音识别模型与端到端语音识别模型的区别仅在于,相对于端到端语音识别模型的注意力机制模块的输入,多领域语音识别模型中,每个注意力机制模块的输入除了包含查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数之外,还增加了提示向量参数。则本申请中,只对所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理时,每个注意力机制模块的处理方式进行详细介绍,其他部分的处理可参考端到端语音识别模型的处理方式,本申请不再赘述。
则所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理时,每个注意力机制模块的处理方式可以包括如下步骤,具体如图4所示:
S301:确定查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数。
在本申请中,不同的编码块或解码块确定查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数的方式不同。在一种可实施方式中,每个编码块中都包括一个注意力机制模块,每个解码块中包括两个注意力机制模块,具体可参照Transformer模型的编码器和解码器结构。假设编码块中包括第一注意力机制模块,则作为一种可实施方式,针对每个编码块的注意力机制模块,所述查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数的确定方式,包括:基于所述编码块的原始输入计算查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数;其中,第一个编码块的原始输入为所述待识别语音数据的声学特征序列,除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。
假设所述解码块包括第二注意力机制模块和第三注意力机制模块,则作为另外一种可实施方式,针对所述解码块的每个注意力机制模块,所述查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数的确定方式,包括:基于所述注意力机制模块的原始输入计算查询(Query)向量参数、键(Key)向量参数和值(Value)向量参数;其中,第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列,第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出;除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出,第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。
S302:将所述键(Key)提示向量参数与所述键(Key)向量参数进行拼接,得到键(Key)拼接向量参数。
在本申请中,作为一种可实施方式,所述键(Key)提示向量参数与所述键(Key)向量参数的维度一致,可以将所述键(Key)提示向量参数拼接到所述键(Key)向量参数的前面,得到键(Key)拼接向量参数。
S303:将所述值(Value)提示向量参数与所述值(Value)向量参数进行拼接,得到值(Value)拼接向量参数。
在本申请中,作为一种可实施方式,所述值(Value)提示向量参数与所述值(Value)向量参数维度一致,可以将所述值(Value)提示向量参数拼接到所述值(Value)向量参数的前面,得到值(Value)拼接向量参数。
S304:基于所述查询(Query)向量参数、所述键(Key)拼接向量参数和所述值(Value)拼接向量参数,计算所述注意力机制模块的输出。
作为一种可实施方式,基于所述查询(Query)向量参数、所述键(Key)拼接向量参数和所述值(Value)拼接向量参数,采用注意力机制计算所述注意力机制模块的输出,包括:将所述查询(Query)向量参数与所述键(Key)拼接向量参数进行矩阵相乘,得到注意力机制的权重;将所述注意力机制的权重与所述值(Value)拼接向量参数进行矩阵相乘,得到所述注意力机制模块的输出。
为便于理解注意力机制模块的处理方式,假设注意力机制模块为多头注意力机制模块中的注意力机制层i,则可采用如下公式计算所述注意力机制模块的输出:
其中,和/>是注意力机制层i对应的提示向量参数,维度是/>,Q的维度是,/>和/>的维度是/>,Q和 />通过Prompt MatMul矩阵相乘得到的注意力机制的权重/>,其维度为/>,权重/>和 />通过Prompt MatMul矩阵相乘得到注意力机制模块的输出,维度为/>。具体如图5所示。
下面对本申请实施例公开的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
参照图6,图6为本申请实施例公开的一种语音识别装置结构示意图。如图6所示,该语音识别装置可以包括:
语音数据获取单元11,用于获取待识别语音数据;
声学特征序列确定单元12,用于确定所述待识别语音数据的声学特征序列;
提示向量参数获取单元13,用于获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
识别单元14,用于将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
作为一种可实施方式,所述多领域语音识别模型,包括:编码器和解码器;所述编码器中包括N个编码块,所述解码器中包括N个解码块,所述编码块和所述解码块均包括注意力机制模块;
所述识别单元,具体用于:
所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理,得到所述语音数据的识别结果。
作为一种可实施方式,所述提示向量参数包括键提示向量参数和值提示向量参数,所述注意力机制模块,包括:
确定单元,用于确定查询向量参数、键向量参数和值向量参数;
第一拼接单元,用于将所述键提示向量参数与所述键向量参数进行拼接,得到键拼接向量参数;
第二拼接单元,将所述值提示向量参数与所述值向量参数进行拼接,得到值拼接向量参数;
计算单元,用于基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出。
作为一种可实施方式,所述编码块包括第一注意力机制模块,针对每个编码块的注意力机制模块,所述确定单元,具体用于:
基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个编码块的原始输入为所述待识别语音数据的声学特征序列,除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。
作为一种可实施方式,所述解码块包括第二注意力机制模块和第三注意力机制模块,针对所述解码块的每个注意力机制模块,所述确定单元,具体用于:
基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列,第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出;除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出,第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。
作为一种可实施方式,所述计算单元,具体用于:
将所述查询向量参数与所述键拼接向量参数进行矩阵相乘,得到注意力机制的权重;
将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘,得到所述注意力机制模块的输出。
作为一种可实施方式,所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。
作为一种可实施方式,所述对端到端语音识别模型进行领域自适应训练的方式包括:
获取各领域的语音识别训练数据,以及,各领域的初始提示向量参数;每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列,以及与所述训练用语音对应的文本标注序列;
将各个领域的训练用语音的声学特征序列输入端到端语音识别模型,将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块,得到所述端到端语音识别模型输出的结果;
根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列,确定所述端到端语音识别模型的预测损失;
根据所述端到端语音识别模型的预测损失,对各个领域的提示向量参数进行更新,训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。
参照图7,图7为本申请实施例提供的一种语音识别设备的硬件结构框图,参照图7,语音识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待识别语音数据;
确定所述待识别语音数据的声学特征序列;
获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待识别语音数据;
确定所述待识别语音数据的声学特征序列;
获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
确定所述待识别语音数据的声学特征序列;
获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述多领域语音识别模型,包括:编码器和解码器;所述编码器中包括N个编码块,所述解码器中包括N个解码块,所述编码块和所述解码块均包括注意力机制模块;
所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,包括:
所述编码器基于所述提示向量参数和所述声学特征序列进行编码处理,所述解码器基于所述提示向量参数和所述编码器的输出进行解码处理,得到所述语音数据的识别结果。
3.根据权利要求2所述的方法,其特征在于,所述提示向量参数包括键提示向量参数和值提示向量参数,每个注意力机制模块的处理方式包括:
确定查询向量参数、键向量参数和值向量参数;
将所述键提示向量参数与所述键向量参数进行拼接,得到键拼接向量参数;
将所述值提示向量参数与所述值向量参数进行拼接,得到值拼接向量参数;
基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出。
4.根据权利要求3所述的方法,其特征在于,所述编码块包括第一注意力机制模块,针对每个编码块的注意力机制模块,所述查询向量参数、键向量参数和值向量参数的确定方式,包括:
基于所述编码块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个编码块的原始输入为所述待识别语音数据的声学特征序列,除所述第一个编码块之外的其他编码块的原始输入为其上一个编码块的输出。
5.根据权利要求3所述的方法,其特征在于,所述解码块包括第二注意力机制模块和第三注意力机制模块,针对所述解码块的每个注意力机制模块,所述查询向量参数、键向量参数和值向量参数的确定方式,包括:
基于所述注意力机制模块的原始输入计算查询向量参数、键向量参数和值向量参数;
其中,第一个解码块的第二注意力机制模块的原始输入为已解码出的文本序列,第三注意力机制模块的原始解码输入为该解码块中第一注意力机制模块输出和所述编码器的输出;除所述第一个解码块之外的其他解码块的第二注意力机制模块的原始输入为其上一个解码块的输出,第三注意力机制模块的原始输入为该解码块中第二注意力机制模块的输出。
6.根据权利要求3所述的方法,其特征在于,所述基于所述查询向量参数、所述键拼接向量参数和所述值拼接向量参数,计算所述注意力机制模块的输出,包括:
将所述查询向量参数与所述键拼接向量参数进行矩阵相乘,得到注意力机制的权重;
将所述注意力机制的权重与所述值拼接向量参数进行矩阵相乘,得到所述注意力机制模块的输出。
7.根据权利要求2所述的方法,其特征在于,所述注意力机制模块为单头注意力机制模块或多头注意力机制模块中的每个注意力机制层。
8.根据权利要求1所述的方法,其特征在于,所述对端到端语音识别模型进行领域自适应训练的方式包括:
获取各领域的语音识别训练数据,以及,各领域的初始提示向量参数;每个领域的语音识别训练数据包括所述领域的训练用语音的声学特征序列,以及与所述训练用语音对应的文本标注序列;
将各个领域的训练用语音的声学特征序列输入端到端语音识别模型,将各个领域的提示向量参数输入所述端到端语音识别模型中各注意力机制模块,得到所述端到端语音识别模型输出的结果;
根据所述端到端语音识别模型输出的结果以及所述训练用语音对应的文本标注序列,确定所述端到端语音识别模型的预测损失;
根据所述端到端语音识别模型的预测损失,对各个领域的提示向量参数进行更新,训练结束后得到所述多领域语音识别模型以及各个领域的提示向量参数。
9.一种语音识别装置,其特征在于,所述装置包括:
语音数据获取单元,用于获取待识别语音数据;
声学特征序列确定单元,用于确定所述待识别语音数据的声学特征序列;
提示向量参数获取单元,用于获取所述待识别语音数据所属领域的提示向量参数,所述提示向量参数是用于指示所述领域专有的语音识别信息;
识别单元,用于将所述提示向量参数和所述声学特征序列,输入多领域语音识别模型,所述多领域语音识别模型对所述提示向量参数和所述声学特征序列进行编解码处理,得到所述语音数据的识别结果,所述多领域语音识别模型和所述提示向量参数是通过对端到端语音识别模型进行领域自适应训练得到的。
10.一种语音识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的语音识别方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的语音识别方法的各个步骤。
CN202410034818.9A 2024-01-10 2024-01-10 语音识别方法、装置、设备及可读存储介质 Active CN117558263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410034818.9A CN117558263B (zh) 2024-01-10 2024-01-10 语音识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410034818.9A CN117558263B (zh) 2024-01-10 2024-01-10 语音识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN117558263A true CN117558263A (zh) 2024-02-13
CN117558263B CN117558263B (zh) 2024-04-26

Family

ID=89823513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410034818.9A Active CN117558263B (zh) 2024-01-10 2024-01-10 语音识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117558263B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436616A (zh) * 2021-05-28 2021-09-24 中国科学院声学研究所 一种多领域自适应的端到端语音识别方法、***及电子装置
US20220383853A1 (en) * 2019-11-25 2022-12-01 Iflytek Co., Ltd. Speech recognition error correction method, related devices, and readable storage medium
CN116129887A (zh) * 2023-02-20 2023-05-16 南开大学 一种基于跨域对齐和域内区分的语音识别模型构建方法
JP2023075883A (ja) * 2021-11-19 2023-05-31 日本放送協会 音声認識装置およびプログラム
CN116343755A (zh) * 2023-03-15 2023-06-27 平安科技(深圳)有限公司 领域自适应语音识别方法、装置、计算机设备及存储介质
CN116364061A (zh) * 2023-03-15 2023-06-30 平安科技(深圳)有限公司 多场景语音识别方法、装置、计算机设备及存储介质
CN116543768A (zh) * 2023-05-31 2023-08-04 平安科技(深圳)有限公司 模型的训练方法、语音识别方法和装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220383853A1 (en) * 2019-11-25 2022-12-01 Iflytek Co., Ltd. Speech recognition error correction method, related devices, and readable storage medium
CN113436616A (zh) * 2021-05-28 2021-09-24 中国科学院声学研究所 一种多领域自适应的端到端语音识别方法、***及电子装置
JP2023075883A (ja) * 2021-11-19 2023-05-31 日本放送協会 音声認識装置およびプログラム
CN116129887A (zh) * 2023-02-20 2023-05-16 南开大学 一种基于跨域对齐和域内区分的语音识别模型构建方法
CN116343755A (zh) * 2023-03-15 2023-06-27 平安科技(深圳)有限公司 领域自适应语音识别方法、装置、计算机设备及存储介质
CN116364061A (zh) * 2023-03-15 2023-06-30 平安科技(深圳)有限公司 多场景语音识别方法、装置、计算机设备及存储介质
CN116543768A (zh) * 2023-05-31 2023-08-04 平安科技(深圳)有限公司 模型的训练方法、语音识别方法和装置、设备及存储介质

Also Published As

Publication number Publication date
CN117558263B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
US20240135955A1 (en) Generating audio using neural networks
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN110648658B (zh) 一种语音识别模型的生成方法、装置及电子设备
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN113781995B (zh) 语音合成方法、装置、电子设备及可读存储介质
CN111508470B (zh) 一种语音合成模型的训练方法及装置
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN113822017A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
CN113409757A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和***
CN113053353B (zh) 一种语音合成模型的训练方法及装置
CN117558263B (zh) 语音识别方法、装置、设备及可读存储介质
CN116013274A (zh) 语音识别的方法、装置、计算机设备和存储介质
CN112397053A (zh) 语音识别方法、装置、电子设备及可读存储介质
CN117456999B (zh) 音频识别方法、音频识别装置、车辆、计算机设备和介质
CN117012183A (zh) 语音识别模型训练方法、语音识别方法和装置
CN117059112A (zh) 语音识别方法、装置、设备及可读存储介质
CN115273803A (zh) 模型训练方法和装置、语音合成方法、设备和存储介质
CN115240633A (zh) 用于文本到语音转换的方法、装置、设备和存储介质
CN117672176A (zh) 基于语音自监督学习表征的重读可控语音合成方法及装置
WO2023147539A1 (en) Self-supervised learning for audio processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant