CN111105786B - 一种多采样率语音识别方法、装置、***及存储介质 - Google Patents
一种多采样率语音识别方法、装置、***及存储介质 Download PDFInfo
- Publication number
- CN111105786B CN111105786B CN201911363288.8A CN201911363288A CN111105786B CN 111105786 B CN111105786 B CN 111105786B CN 201911363288 A CN201911363288 A CN 201911363288A CN 111105786 B CN111105786 B CN 111105786B
- Authority
- CN
- China
- Prior art keywords
- audio
- sampling rate
- training
- speech recognition
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 190
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000003062 neural network model Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种多采样率语音识别方法、装置、***及存储介质。首先,在不改变音频采样率的条件下,根据采样率不同进行相应配置的方式对不同采样率的音频进行特征提取,并利用所提取到的音频对神经网络模型进行训练。该神经网络模型除了具有一般的语音识别标签之外,还添加了采样率分类标签,并在训练该神经网络模型时会使用梯度置反的方法对采样率分类标签进行对抗训练,从而使训练得到的多采样率语音识别模型能够自主适应不同采样率的音频。之后,就可以使用上述方法训练得到的多采样率语音识别模型进行语音识别,实现用同一语音识别模型统一处理多种采样率的音频输入的目标。
Description
技术领域
本发明涉及人工智能语音交互领域,尤其涉及一种多采样率语音识别方法、装置、***及存储介质。
背景技术
随着人工智能和电子通信技术的不断发展和进步,智能语音交互技术日益普及应用在多个产品领域,包括智能客服,呼叫中心,智能音箱和智能手表等等。
然而,虽然同是语音识别,然而在不同的应用场景下,语音采样率却不尽相同。如果需要在一个***中处理不同多采样率的语音样本,现多采用以下方案:1)通过升/降采样将音频的采样率统一,以此来统一成一个语音识别***。这一方案会改变原始音频的性质,导致语音识别的准确率下降。2)部署多个语音识别***,在输出结果后根据置信度或者混淆度来进行筛选,选出最合适的那个结果。这一方案则存在资源利用效率低,运维成本高的问题。
发明内容
针对以上问题,本发明人创造性地提供一种多采样率语音识别的方法、装置、***及存储介质。
根据本发明实施例第一方面,一种多采样率语音识别模型的训练方法,该方法包括:获取至少两种不同采样率的音频特征;将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
根据本发明一实施方式,其中,获取至少两种不同采样率的音频特征,包括:接收至少两种不同采样率的音频输入;根据音频输入所属的采样率分类设定特征提取的配置信息;使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
根据本发明一实施方式,其中,对神经网络模型进行训练,包括:针对语音识别标签对神经网络模型进行正常训练,并针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,针对采样率分类标签对神经网络模型进行对抗训练包括:依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,进行对抗训练包括:采用梯度置反后进行反传的方式进行对抗训练。
根据本发明实施例第二方面,一种多采样率语音识别的方法,该方法包括:接收音频特征;将音频特征输入给多采样率语音识别模型得到语音识别结果,其中,多采样率语音识别模型是执行上述多采样语音识别模型的训练方法的任一项方法训练得到的。
根据本发明实施例第三方面,一种多采样率语音识别模型的训练装置,该装置包括:音频特征获取模块,用于获取至少两种不同采样率的音频特征;神经网络模型训练模块,用于将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
根据本发明一实施方式,其中,音频特征获取模块包括:音频输入接收单元,用于接收至少两种不同采样率的音频输入;特征提取配置单元,用于根据音频输入所属的采样率分类设定特征提取的配置信息;音频特征提取单元,用于使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
根据本发明一实施方式,其中,神经网络模型训练模块包括:语音识别训练单元,用于针对语音识别标签对神经网络模型进行正常训练;采样率分类训练单元,用于针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,采样率分类训练单元具体用于依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,采样率分类训练单元包括:梯度置反子单元,用于采用梯度置反后进行反传的方式进行对抗训练。
根据本发明实施例第四方面,提供一种多采样率语音识别装置,该装置包括:音频特征接收模块,用于接收音频特征;语音识别模块,用于将音频特征输入给多采样率语音识别模型得到语音识别结果,其中,多采样率语音识别模型是执行上述多采样率语音识别模型的训练方法任一项方法训练得到的。
根据本发明实施例第五方面,提供一种多采样率语音识别***,该***包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述任一项的方法。
根据本发明实施例第六方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的方法。
本发明实施例提供一种多采样率语音识别方法、装置、***及存储介质。首先,在不改变音频采样率的条件下,根据采样率不同进行相应配置的方式对不同采样率的音频进行特征提取,并利用所提取到的音频对神经网络模型进行训练。该神经网络模型除了具有一般的语音识别标签之外,还添加了采样率分类标签,并在训练该神经网络模型时会使用梯度置反的方法对采样率分类标签进行对抗训练,从而使训练得到的多采样率语音识别模型能够自主适应不同采样率的音频。之后,就可以使用上述方法训练得到的多采样率语音识别模型进行语音识别,实现用同一语音识别模型统一处理多种采样率的音频输入的目标。这样,即能够保留原始音频的性质,还大大节约了语音识别***的训练成本和维护成本。此外,不同采样率的音频输入的数据可以相互融合,进一步提高了数据的多样性,并使可用数据成倍增长。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例多采样率语音识别模型的训练方法的实现流程示意图;
图2为本发明一应用多采样率语音识别模型的训练方法的具体实现流程示意图;
图3为本发明实施例多采样率语音识别方法的实现流程示意图;
图4为本发明一应用多采样率语音识别方法的具体实现流程示意图;
图5为本发明实施例多采样率语音识别模型的训练装置的组成结构示意图;
图6为本发明实施例多采样率语音识别装置的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了本发明实施例训练多采样率语音识别模型的方法的实现流程。参考图1,该方法包括:操作110,获取至少两种不同采样率的音频特征;操作120,将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
在操作110中,此处音频特征数据是训练神经网络模型用的训练数据。可以通过对音频输入进行特征提取得到的,也可以是从音频特征供应商或原料库获取的。需要说明的是,训练数据与实际应用中的数据不同,是经过标签标注处理过的数据。这里的标签就是要预测的内容,标签的值就是期望值。通过实际预测值与期望值进行对比,就能不断修正模型使实际预测值与期望值之间的误差趋于最小,从而得到一个准确率较高、可以投入实际应用的模型。为了使训练得到的语音识别***可以识别多种采样率不同的音频数据,在训练神经网络模型的时候,最少要使用两种不同采样率的音频输入。而且,用于训练神经网络模型的训练数据最好与实际应用中需要识别的音频数据采用相同的采样率,这样在之后的应用中,对不同采样率的音频输入进行语音识别的准确率会更高,应用效果也更好。使用本发明实施例多采样率语音识别模型的训练方法,对训练数据中各种不同采样率的数据量分布是没有要求的,可以是任意比例的不同采样率数据。
在操作120中,利用操作110中获取到的音频特征就可以对神经网络进行训练了。正如前文提到的,训练数据携带有标签,标签的值就是期望值。通过比较训练得出的实际预测值与期望值,就能不断修正模型使实际预测值与期望值趋于最小,直至得到一个准确率较高、可以实际应用的模型,这就是对神经网络进行训练的过程。与其他用于语音识别的神经网络模型不同,本发明实施例还增设了采样率分类标签。这也意味着,这一神经网络模型不仅会预测语音识别的结果,还会预测该音频输入所属的采样率分类。这里,该标签的使用是为了更好地融合各种不同采样率的音频数据,使模型可用的数据量更大,且不同来源的数据也使得数据的多样性更充分,预测的结果也相对更准确。
根据本发明一实施方式,其中,获取至少两种不同采样率的音频特征,包括:接收至少两种不同采样率的音频输入;根据音频输入所属的采样率分类设定特征提取的配置信息;使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
这里的音频输入,可以是音频采集设备采集到的原始音频,但最好是经过语音信号处理过的音频输入。经过语音信号处理过的音频更为清晰,易于识别,训练效果更佳。这些音频输入也可以从数据提供商处或音频数据库中获取。音频输入的采样率分类是预先设定好的,而音频输入所属的采样率分类也是已知的。在此处,只需通过一些输入参数或配置信息进行指定音频输入所属的采样率分类即可。采样率分类的定义是在建模时进行的,这里指定的值要与建立采样率分类标签时定义的值一致。例如,假设在建模时将第一采样率音频的分类定义为1,那么在此处使用第一采样率音频进行训练时,需要指定的采样率分类就是1。从不同音频采样率的音频输入种提取特征的过程和参数会略有不同。为此,还需要针对不同音频采样率的音频输入设置一些音频处理的参数以便拿到该采样率音频所特有的、最有代表性的特征,这些参数的设定值就是为特征提取而设定的配置信息。例如,在进行音频特征提取的过程中需要设定一个最高频率,对于采样率为8K的音频,可以将这一参数设置为4000,而对于采样率为16K的音频,则可以将这一参数设置为8000。某个特定的采样率音频所使用的配置可以根据该采样率音频的音频性质预先设定好,在这一操作中获取预设值进行配置即可。而音频特征的提取可以使用任何适用的方法,本发明实施例主要采用当前比较通用的F-bank音频特征提取方法。这里提取到的音频特征包含用于进行语音识别的语音识别特征,比如音素、字等,还包含有采样率分类值。
根据本发明一实施方式,其中,对神经网络模型进行训练,包括:针对语音识别标签对神经网络模型进行正常训练,并针对采样率分类标签对神经网络模型进行对抗训练。
这里,针对语音识别标签进行的正常训练与其他语音识别***的实现过程无异,一般采样基于神经网络的时序类分类(Connectionist temporal classification,CTC)准则、最大互信息(Maximum Mutual Information,MM)准则或是其他任何适用的准则来进行训练。而针对采样率分类标签对神经网络模型进行对抗训练,则是本发明实施例的突出特点。这里的对抗训练,也可以称作干扰训练,旨在让模型不能准确区分采样率分类,从而充分利用不同采样率音频数据,在更多样化的数据基础上进行预测,这样的预测结果具有自适应性,也更加准确,从而实现用同一模型对多采样率音频输入进行统一处理,输出语音识别结果。
根据本发明一实施方式,其中,针对采样率分类标签对神经网络模型进行对抗训练包括:依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
交叉熵主要用于消岐领域,通过计算先验信息和后验信息的交叉熵,并以交叉熵指导对歧义的进行辨识和消除。特别适用于计算机自适应实现。使用交叉熵准则针对采样率分类标签对神经网络模型进行训练,则通过这种训练所得到的多采样率语音识别模型的可以自主的适应多个采样率数据。
根据本发明一实施方式,其中,进行对抗训练包括:采用梯度置反后进行反传的方式进行对抗训练。
这里的梯度可以简单地理解为是实际预测值与期望值之间的误差,可以作为调整神经网络模型参数的一个依据。梯度越小就认为预测越准确,神经网络模型就越成熟。在使用神经网络模型预测采样率分类时,为了使其忽略采样率的区别,会进行梯度置反的操作。即,用梯度乘以负一得到其相反数,然后回传该相反数来训练模型。这也就是对抗训练所采取的干扰方式,通过这种方式,神经网络模型就不能准确地预测采样率分类,也就不会因为采样率不同而区别对待,从而大大提高了不同采样率数据的贡献率,并可以对不同采样率的音频特征进行统一处理。这也是对抗训练可以让语音识别***无视采样率带来的分歧,达到很好的识别效果的关键所在。
下面就结合图2,具体说明本发明一应用训练多采样率语音识别模型的方法的具体流程。如图2所示的应用场景中,***主要接收三种采样率音频数据,分别是第一采样率音频数据、第二采样率音频数据和第三采样率音频数据。在为该***训练多采样率语音识别模型时,主要采用以下步骤:
步骤201,接收音频输入;
这里的音频输入是带有训练标签的训练数据,而且是至少两种以上不同采样率的训练数据。
步骤220,判断采样率分类;
音频输入所属的采样率分类是已知信息,并可通过某一参数或配置信息获取,此处需要判断该音频输入具体是哪一分类,并根据分类决定下一步骤。若该音频输入的采样率是第一采样率,则继续步骤230;若该音频输入的采样率是第二采样率,则继续步骤240;若该音频输入的采样率是第三采样率,则继续步骤250。
步骤230,第一采样率音频特征提取;
所接收的音频输入是第一采样率音频,使用第一采样率音频所使用的配置进行特征提取。其中,第一采样率音频所使用的配置可以根据第一采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入给神经网络模型进行训练。
步骤240,第二采样率音频特征提取;
所接收的音频输入是第二采样率音频,使用第二采样率音频所使用的配置进行特征提取。其中,第二采样率音频所使用的配置可以根据第二采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入给神经网络模型进行训练。
步骤250,第三采样率音频特征提取;
所接收的音频输入是第三采样率音频,使用第三采样率音频所使用的配置进行特征提取。其中,第三采样率音频所使用的配置可以根据第三采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入给神经网络模型进行训练。
步骤260,训练神经网络模型;
这里主要是使用上述步骤所获取的音频特征对神经网络进行训练,并根据预测结果调整神经网络模型的参数,使预测误差值不断减小的过程。在本发明实施例的这一应用中,主要采用梯度下降法。
步骤270,针对采样率分类标签进行梯度置反并反传;
如前这里,为了融合不同采样率音频数据,在训练时会对梯度进行置反,采用对抗学习方法。
步骤280,针对语音识别标签进行梯度反传。
这里的梯度反传是正常反传,不进行置反操作。
需要说明的是,训练神经网络模型的过程是个无限次循环的过程,可根据实际应用需要决定模型成熟的标准,并将认为已经较为成熟的多采样率语音识别模型应用于实际生产环境中进行语音识别。
本发明实施例在执行以上多采样率语音识别模型的训练方法得到一个较为成熟的多采样率语音识别模型后,本发明实施例还提供一种语音识别方法。如图3所示,该方法包括:操作310,接收音频特征;操作320,将音频特征输入给多采样率语音识别模型得到语音识别结果,其中,多采样率语音识别模型是执行上述多采样语音识别模型的训练方法的任一项方法训练得到的。
在操作310中,这里的音频特征是从实际生产环境下不带标注的新数据中提取到的。这里所说的新数据是所用训练数据中某一采样率分类的音频数据,例如第一采样率音频数据。
在操作320中,这里使用的是已经训练好的多采样率语音识别模型,根据输入可直接获取一个预测结果,即语音识别的结果。
需要说明的是,用实际生产环境中新输入的、不带标签的音频特征进行预测之后不会再进行梯度反传操作,但可以根据预测结果进行标签标注变成新的训练数据,用于之后半监督学习。
下面结合图4,详细讲述如何使用本发明一应用实例使用图2所示的步骤训练得到的多采样率语音识别模型进行多采样率语音识别的方法。如图4所示,可以使用如下步骤进行多采样率语音识别:
步骤410,接收音频输入;
这里的音频输入是不带有训练标签的、生产环境下新输入的音频数据。
步骤420,判断采样率分类;
音频输入所属的采样率分类是已知信息,并可通过某一参数或配置信息获取,此处需要判断该音频输入具体是哪一分类,并根据分类决定下一步骤。若该音频输入的采样率是第一采样率,则继续步骤430;若该音频输入的采样率是第二采样率,则继续步骤440;若该音频输入的采样率是第三采样率,则继续步骤450。
步骤430,第一采样率音频特征提取;
所接收的音频输入是第一采样率音频,使用第一采样率音频所使用的配置进行特征提取。其中,第一采样率音频所使用的配置可以根据第一采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入给多采样率语音识别模型进行语音识别。
步骤440,第二采样率音频特征提取;
所接收的音频输入是第二采样率音频,使用第二采样率音频所使用的配置进行特征提取。其中,第二采样率音频所使用的配置可以根据第二采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入多采样率语音识别模型进行语音识别。
步骤450,第三采样率音频特征提取;
所接收的音频输入是第三采样率音频,使用第三采样率音频所使用的配置进行特征提取。其中,第三采样率音频所使用的配置可以根据第三采样率音频的音频性质预先设定好,在这一步骤中,只需获取预设值进行配置。配置好之后就可以进行音频特征提取,得到需要的音频特征并输入给多采样率语音识别模型进行语音识别。
步骤460,使用多采样率语音识别模型进行语音识别;
这里使用的预测模型是已经训练好的多采样率语音识别模型,可以用于生产环境下的语音识别。
步骤470,输出语音识别结果。
这里可以根据步骤430、步骤440或步骤450提取到的音频特征,使用采样率语音识别模型进行预测会得到一个预测结果,这个预测结果就是语音识别结果。
进一步地,本发明实施例还提供一种多采样率语音识别模型的训练装置。如图5所示,该设备50包括:音频特征获取模块501,用于获取至少两种不同采样率的音频特征;神经网络模型训练模块502,用于将音频特征作为输入对神经网络模型进行训练,其中,音频特征标注有语音识别标签和采样率分类标签。
根据本发明一实施方式,其中,音频特征获取模块501包括:音频输入接收单元,用于接收至少两种不同采样率的音频输入;特征提取配置单元,用于根据音频输入所属的采样率分类设定特征提取的配置信息;音频特征提取单元,用于使用配置信息对音频进行特征提取得到至少两种不同采样率的音频特征。
根据本发明一实施方式,其中,神经网络模型训练模块502包括:语音识别训练单元,用于针对语音识别标签对神经网络模型进行正常训练;采样率分类训练单元,用于针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,采样率分类训练单元具体用于依据交叉熵训练准则,针对采样率分类标签对神经网络模型进行对抗训练。
根据本发明一实施方式,其中,采样率分类训练单元包括:梯度置反子单元,用于采用梯度置反后进行反传的方式进行对抗训练。
此外,本发明实施例还提供一种多采样率语音识别装置,如图6所示,该装置60包括:音频特征接收模块601,用于接收音频特征;语音识别模块602,用于将音频特征输入给多采样率语音识别模型得到语音识别结果,其中,多采样率语音识别模型是执行上述多采样率语音识别模型的训练方法任一项方法训练得到的。
根据本发明实施例第五方面,提供一种多采样率语音识别***,该***包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述任一项的方法。
根据本发明实施例第六方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的方法。
这里需要指出的是:以上对针多采样率语音识别模型的训练装置实施例的描述、对针多采样率语音识别装置实施例的描述、以上针对多采样率语音识别***实施例的描述和以上针对计算机存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明对多采样率语音识别模型的训练装置实施例的描述、对多采样率语音识别装置实施例的描述、对多采样率语音识别***实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种多采样率语音识别模型的训练方法,其特征在于,所述方法包括:
接收至少两种不同采样率的音频输入;根据所述音频输入所属的采样率分类设定特征提取的配置信息;使用所述配置信息对所述音频进行特征提取得到至少两种不同采样率的音频特征;
将所述音频特征作为输入对神经网络模型进行训练,其中,所述音频特征标注有语音识别标签和采样率分类标签。
2.根据权利要求1所述的方法,其特征在于,对神经网络模型进行训练,包括:
针对语音识别标签对所述神经网络模型进行正常训练,并针对采样率分类标签对所述神经网络模型进行对抗训练。
3.根据权利要求2所述的方法,其特征在于,所述针对采样率分类标签对所述神经网络模型进行对抗训练包括:
依据交叉熵训练准则,针对采样率分类标签对所述神经网络模型进行对抗训练。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述进行对抗训练包括:
采用梯度置反后进行反传的方式进行对抗训练。
5.一种多采样率语音识别方法,其特征在于,所述方法包括:
接收音频特征;
将所述音频特征输入给多采样率语音识别模型得到语音识别结果,其中,所述多采样率语音识别模型是执行权利要求1至4任一项所述的方法训练得到的。
6.一种多采样率语音识别模型的训练装置,其特征在于,所述装置包括:
音频特征获取模块,用于接收至少两种不同采样率的音频输入;根据所述音频输入所属的采样率分类设定特征提取的配置信息;使用所述配置信息对所述音频进行特征提取得到至少两种不同采样率的音频特征;
神经网络模型训练模块,用于将所述音频特征作为输入对神经网络模型进行训练,其中,所述音频特征标注有语音识别标签和采样率分类标签。
7.一种多采样率语音识别装置,其特征在于,所述装置包括:
音频特征接收模块,用于接收音频特征;
语音识别模块,用于将所述音频特征输入给多采样率语音识别模型得到语音识别结果,其中,所述多采样率语音识别模型是执行权利要求1至4任一项所述的方法训练得到的。
8.一种多采样率语音识别***,其特征在于,所述***包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至4任一项所述的方法;
或者,执行如权利要求5所述的方法。
9.一种存储介质,在所述存储介质上存储了程序指令,其中,所述程序指令在运行时用于执行如权利要求1至4任一项所述的方法;
或者,执行如权利要求5所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363288.8A CN111105786B (zh) | 2019-12-26 | 2019-12-26 | 一种多采样率语音识别方法、装置、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363288.8A CN111105786B (zh) | 2019-12-26 | 2019-12-26 | 一种多采样率语音识别方法、装置、***及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105786A CN111105786A (zh) | 2020-05-05 |
CN111105786B true CN111105786B (zh) | 2022-10-18 |
Family
ID=70425343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911363288.8A Active CN111105786B (zh) | 2019-12-26 | 2019-12-26 | 一种多采样率语音识别方法、装置、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111105786B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859010B (zh) * | 2020-07-10 | 2022-06-03 | 浙江树人学院(浙江树人大学) | 一种基于深度互信息最大化的半监督音频事件识别方法 |
CN112259078A (zh) * | 2020-10-15 | 2021-01-22 | 上海依图网络科技有限公司 | 一种音频识别模型的训练和非正常音频识别的方法和装置 |
CN113257235B (zh) * | 2021-04-30 | 2023-01-03 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、服务器及存储介质 |
CN113345424B (zh) * | 2021-05-31 | 2024-02-27 | 平安科技(深圳)有限公司 | 一种语音特征提取方法、装置、设备及存储介质 |
CN114420100B (zh) * | 2022-03-30 | 2022-06-21 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105513590A (zh) * | 2015-11-23 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别的方法和装置 |
CN108510979B (zh) * | 2017-02-27 | 2020-12-15 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN110517664B (zh) * | 2019-09-10 | 2022-08-05 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110459205B (zh) * | 2019-09-24 | 2022-04-12 | 京东科技控股股份有限公司 | 语音识别方法及装置、计算机可存储介质 |
-
2019
- 2019-12-26 CN CN201911363288.8A patent/CN111105786B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111105786A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105786B (zh) | 一种多采样率语音识别方法、装置、***及存储介质 | |
CN110276066B (zh) | 实体关联关系的分析方法及相关装置 | |
CN111401609B (zh) | 车流量时间序列的预测方法及预测装置 | |
CN110807515A (zh) | 模型生成方法和装置 | |
CN109214421B (zh) | 一种模型训练方法、装置、及计算机设备 | |
CN107358247B (zh) | 一种确定流失用户的方法及装置 | |
CN114298417A (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
CN107015964B (zh) | 面向智能机器人开发的自定义意图实现方法及装置 | |
CN108875059A (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN110555451A (zh) | 信息识别方法和装置 | |
CN111160959B (zh) | 一种用户点击转化预估方法及装置 | |
CN111383100A (zh) | 基于风险模型的全生命周期管控方法和装置 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN111582341A (zh) | 用户异常操作预测方法及装置 | |
CN113986674A (zh) | 时序数据的异常检测方法、装置和电子设备 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN113190746B (zh) | 推荐模型的评估方法、装置及电子设备 | |
CN114360027A (zh) | 一种特征提取网络的训练方法、装置及电子设备 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
KR20140146437A (ko) | 특허정보를 이용한 기업성과 예측 장치 및 방법 | |
CN115600818A (zh) | 多维评分方法、装置、电子设备和存储介质 | |
CN113705683B (zh) | 推荐模型的训练方法、装置、电子设备及存储介质 | |
CN115278757A (zh) | 一种检测异常数据的方法、装置及电子设备 | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |