CN111833851A - 一种自动学习优化声学模型的方法 - Google Patents
一种自动学习优化声学模型的方法 Download PDFInfo
- Publication number
- CN111833851A CN111833851A CN202010551382.2A CN202010551382A CN111833851A CN 111833851 A CN111833851 A CN 111833851A CN 202010551382 A CN202010551382 A CN 202010551382A CN 111833851 A CN111833851 A CN 111833851A
- Authority
- CN
- China
- Prior art keywords
- data
- acoustic model
- test
- training
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004806 packaging method and process Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 12
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种自动学习优化声学模型的方法。为了克服现有技术优化声学模型的过程繁琐耗时,成本大且准入门槛高的问题;本发明包括以下步骤:S1:从数据库中将部分标注数据选入测试池中,将剩余部分筛选入训练池;S2:将训练池中的数据分批训练,以识别率最高的声学模型进行循环迭代训练,利用已有数据完成最优声学模型;S3:利用测试池对完成的最优声学模型进行测试,测试结果录入数据库,并生成测试报告。本方案通过语音增强等手段扩充标注数据,减少人工标注成本,为提高语音识别结果的准确率提供关键基础。自动训练、测试完成循环迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。
Description
技术领域
本发明涉及一种计算机领域,尤其涉及一种自动学习优化声学模型的方法。
背景技术
语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,***能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别***中。
语音识别算法目前虽已日趋完善,但语音识别***的性能受多方面影响,如口语化,方言,短词,语速,音量,噪声等。在不同的应用场景中,往往遇到各种各样的问题影响引擎的最终识别结果。
传统的机器学习方法在优化声学模型时,首先需要收集大量数据,然后对数据进行标注、提取特征、选择特征,然后根据所选特征训练模型、对模型进行测试评估,最后部署到应用上,以解决基础声学模型的口音识别问题。
例如,一种在中国专利文献上公开的“一种优化语音识别声学模型的方法及***”,其公告号CN103165129B,包括:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。
该方法的声学优化过程需要大量的标注语料,耗费大量的人力和时间;优化声学模型的过程繁琐耗时,且准入门槛高。
发明内容
本发明主要解决现有技术优化声学模型的过程繁琐耗时,成本大且准入门槛高的问题;提供一种自动学习优化声学模型的方法,自动训练、自动测试和迭代优化,降低声学模型优化过程的耗时和成本,降低准入门槛。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
本发明包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池;
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告;
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
本方案自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。
作为优选,所述的步骤S1包括以下步骤:
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池;
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池;
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据。
本方案中识别率的阈值为80%,将识别率高的识别音频的识别结果作为标注数据扩充进入训练池,减少人工标注的成本,节省人力,提高效率。
作为优选,所述的非线性回归算法为:
其中,Y为音频数据的预测识别准确率;X1为音频数据识别结果的困惑度;X2为音频数据的音频实时测试速度;ε为服从均值为零,方差为σ2分布的随机误差;βi,βij为待估参数;i,j 为自然数下标。
采用非线性回归算法预测音频数据的识别率,筛选音频数据进入训练池,提高通过训练池得到的声学模型的识别率。
作为优选,所述的待估参数βi,βij通过极大然似估计;对于给定的X和待估参数βi,βij,Y的密度函数为:
n个观测值的对数然似函数为:
最大化上述函数得到待估参数βi,βij的估计值:
作为优选,所述的语音增强包括音量增强和语音去噪以及语音转换。先将音频数据进行音量增强和语音去噪,提高音频数据的质量,提高语音识别的准确率。再将质量提高后的音频数据进行语音转换,丰富训练池中的语料,通过语音转化解决声学模型识别口音的问题。
作为优选,所述的步骤S2和步骤S3包括以下步骤:
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型;
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试;
S23:将识别率测试结果录入数据库,并生成测试报告;
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代;
S32:利用已有数据完成最优识别率的声学模型的训练学习。
以本次识别率最高的声学模型作为下一次训练学习基础,依次循环迭代,以识别率为判断基础自动训练、自动迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。
作为优选,将对所述的最优声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告。生成报告以及句错误率分布图和引擎测试实时率分布图,给开发者一个直观的反馈,方便进行之后的优化。
作为优选,所述的提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权音频的实时测试速度,并提取每个测试音频的句错误率;以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频的实时测试速度为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。提取重要信息,对数据库进行反馈以及给开发者直观的反馈,方便之后的声学模型的优化。
作为优选,用于完成所述自动学习优化声学模型方法的***采用docker封装。***采用docker封装,将自学习代码与数据库代码打包成镜像,方便***更新升级;再把配置文件、训练包、数据等外部文件挂载到docker内部,降低docker存储量,并编写docker***封装代码,实现***的一键启动、停止、删除和重启,方便操作。
本发明的有益效果是:
1.通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。
2.语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提供了提高语音识别结果准确率的基础。
3.自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。
附图说明
图1是本发明的一种自动学习优化声学模型的方法流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本实施例的一种自动学习优化声学模型的方法,如图1所示,包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池。
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池。
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池。在本实施例中,阈值为80%。
非线性回归算法为:
其中,Y为音频数据的预测识别准确率;X1为音频数据识别结果的PPL,即困惑度;X2为音频数据的RTF,即音频的实时测试速度;ε为服从均值为零,方差为σ2分布的随机误差;βi,βij为待估参数;i,j为自然数下标。
待估参数βi,βij通过极大然似估计;对于给定的X和待估参数βi,βij,Y的密度函数为:
n个观测值的对数然似函数为:
最大化上述函数得到待估参数βi,βij的估计值:
采用非线性回归算法预测音频数据的识别率,筛选音频数据进入训练池,提高通过训练池得到的声学模型的识别率。
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据。
语音增强包括音量增强和语音去噪以及语音转换。先通过音量增强、语音去噪改善音频质量,随后对优化后的音频进行语音转换来扩充数据。
音量增强通过自适应音量增强算法实现。
首先预设音频的强度阈值,包括最低值和最高值,一般为5000-30000smpl,其中,smpl 为最大允许电平。之后对原音频进行分帧,并以每十帧为一段。对每段音频进行音量检测,若某段音频声音强度低于最低值,对其进行增强处理,反之,减弱其声音强度。
语音去噪包括提取各语音帧的声学特征;利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形;如果应用到语音识别***,则将估计到的理想软掩蔽应用到输入语音的声学特征上上,得到掩蔽后的声学特征,然后对波形进行重构得到增强后的语音。
语音转换分为指向性声音转换和非指向性声音转换,在保持原说话人的语调、语速等特征不变的前提下,将原音频中说话人的声音转换为另外指定人的声音,或随机转换为其他人声音。其中,指向性声音转换采用CycleGAN算法,对说话人声音进行风格转移,从而达到对两个人的声音风格进行转换的目的。而非指向性声音转换,是通过调整音频的基频和共振峰,在保持说话人语速不变、内容不变的情况下改变说话人声音。
通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。
语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提高了语音识别结果的准确率。
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告。
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型。
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试。
S23:将识别率测试结果录入数据库,并生成测试报告。
将对最优声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告。提取重要信息反馈给数据库,便于之后的声学模型优化。
提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权RTF,即音频的实时测试速度,并提取每个测试音频的句错误率。
以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频 RTF为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。
生成报告以及句错误率分布图和引擎测试实时率分布图,给开发者一个直观的反馈,方便进行之后的声学模型优化。
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代。
S32:利用已有数据完成最优识别率的声学模型的训练学习。
以本次识别率最高的声学模型作为下一次训练学习基础,依次循环迭代,以识别率为判断基础自动训练、自动迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。
用于完成自动学习优化声学模型方法的***采用docker封装。***采用docker封装,将自学习代码与数据库代码打包成镜像,方便***更新升级;再把配置文件、训练包、数据等外部文件挂载到docker内部,降低docker存储量,并编写docker***封装代码,实现***的一键启动、停止、删除和重启,方便操作。
本发明通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提供了提高语音识别结果的准确率的基础。自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。
Claims (9)
1.一种自动学习优化声学模型的方法,其特征在于,包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池;
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告;
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
2.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,所述的步骤S1包括以下步骤:
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池;
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池;
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据。
5.根据权利要求2所述的一种自动学习优化声学模型的方法,其特征在于,所述的语音增强包括音量增强和语音去噪以及语音转换。
6.根据权利要求1或2所述的一种自动学习优化声学模型的方法,其特征在于,所述的步骤S2和步骤S3包括以下步骤:
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型;
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试;
S23:将识别率测试结果录入数据库,并生成测试报告;
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代;
S32:利用已有数据完成最优识别率的声学模型的训练学习。
7.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,将对所述的声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告。
8.根据权利要求7所述的一种自动学习优化声学模型的方法,其特征在于,所述的提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权音频的实时测试速度,并提取每个测试音频的句错误率;以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频的实时测试速度为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。
9.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,用于完成所述自动学习优化声学模型方法的***采用docker封装。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551382.2A CN111833851B (zh) | 2020-06-16 | 2020-06-16 | 一种自动学习优化声学模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010551382.2A CN111833851B (zh) | 2020-06-16 | 2020-06-16 | 一种自动学习优化声学模型的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833851A true CN111833851A (zh) | 2020-10-27 |
CN111833851B CN111833851B (zh) | 2021-03-16 |
Family
ID=72898886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010551382.2A Active CN111833851B (zh) | 2020-06-16 | 2020-06-16 | 一种自动学习优化声学模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833851B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784997A (zh) * | 2021-01-22 | 2021-05-11 | 北京百度网讯科技有限公司 | 标注复核方法、装置、设备、存储介质以及程序产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及*** |
CN108492821A (zh) * | 2018-03-27 | 2018-09-04 | 华南理工大学 | 一种减弱语音识别中说话人影响的方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN109033921A (zh) * | 2017-06-08 | 2018-12-18 | 北京君正集成电路股份有限公司 | 一种识别模型的训练方法和装置 |
US20190065462A1 (en) * | 2017-08-31 | 2019-02-28 | EMR.AI Inc. | Automated medical report formatting system |
CN109816043A (zh) * | 2019-02-02 | 2019-05-28 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
US20190362737A1 (en) * | 2018-05-25 | 2019-11-28 | i2x GmbH | Modifying voice data of a conversation to achieve a desired outcome |
CN110648671A (zh) * | 2019-08-21 | 2020-01-03 | 广州国音智能科技有限公司 | 声纹模型重建方法、终端、装置及可读存储介质 |
CN111145730A (zh) * | 2019-12-30 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 语音识别模型的优化方法及*** |
-
2020
- 2020-06-16 CN CN202010551382.2A patent/CN111833851B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN105810193A (zh) * | 2015-01-19 | 2016-07-27 | 三星电子株式会社 | 训练语言模型的方法和设备及识别语言的方法和设备 |
CN109033921A (zh) * | 2017-06-08 | 2018-12-18 | 北京君正集成电路股份有限公司 | 一种识别模型的训练方法和装置 |
US20190065462A1 (en) * | 2017-08-31 | 2019-02-28 | EMR.AI Inc. | Automated medical report formatting system |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及*** |
CN108492821A (zh) * | 2018-03-27 | 2018-09-04 | 华南理工大学 | 一种减弱语音识别中说话人影响的方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
US20190362737A1 (en) * | 2018-05-25 | 2019-11-28 | i2x GmbH | Modifying voice data of a conversation to achieve a desired outcome |
CN109816043A (zh) * | 2019-02-02 | 2019-05-28 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110648671A (zh) * | 2019-08-21 | 2020-01-03 | 广州国音智能科技有限公司 | 声纹模型重建方法、终端、装置及可读存储介质 |
CN111145730A (zh) * | 2019-12-30 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 语音识别模型的优化方法及*** |
Non-Patent Citations (2)
Title |
---|
HASIM SAK, ANDREW SENIOR, KANISHKA RAO, FRANCOISE BEAUFAYS: "Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition", 《ARXIV》 * |
钱彦旻,刘加: "低数据资源条件下基于优化的数据选择策略的无监督语音识别声学建模", 《清华大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784997A (zh) * | 2021-01-22 | 2021-05-11 | 北京百度网讯科技有限公司 | 标注复核方法、装置、设备、存储介质以及程序产品 |
CN112784997B (zh) * | 2021-01-22 | 2023-11-10 | 北京百度网讯科技有限公司 | 标注复核方法、装置、设备、存储介质以及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111833851B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN108899051B (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
US6868380B2 (en) | Speech recognition system and method for generating phonotic estimates | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN114550703A (zh) | 语音识别***的训练方法和装置、语音识别方法和装置 | |
CN110390948B (zh) | 一种快速语音识别的方法及*** | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN112735482A (zh) | 基于联合深度神经网络的端点检测方法及*** | |
CN110634476A (zh) | 一种快速搭建鲁棒性声学模型的方法及*** | |
CN112074903A (zh) | 用于口语中的声调识别的***和方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN112382310A (zh) | 一种人声音频录制方法和装置 | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN111833851B (zh) | 一种自动学习优化声学模型的方法 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN111613219B (zh) | 语音数据识别方法、设备及介质 | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及*** | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |