CN116386613A - 一种用于命令词语音增强的模型训练方法 - Google Patents
一种用于命令词语音增强的模型训练方法 Download PDFInfo
- Publication number
- CN116386613A CN116386613A CN202310650948.0A CN202310650948A CN116386613A CN 116386613 A CN116386613 A CN 116386613A CN 202310650948 A CN202310650948 A CN 202310650948A CN 116386613 A CN116386613 A CN 116386613A
- Authority
- CN
- China
- Prior art keywords
- word
- corpus
- audio
- command
- command word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims description 20
- 230000002708 enhancing effect Effects 0.000 title description 5
- 238000012216 screening Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 57
- 244000269722 Thea sinensis Species 0.000 description 19
- 235000013616 tea Nutrition 0.000 description 17
- 235000013399 edible fruits Nutrition 0.000 description 10
- 238000012360 testing method Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000009835 boiling Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 235000006468 Thea sinensis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000020279 black tea Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000009569 green tea Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种用于命令词语音增强的模型训练方法,包括以下步骤:S1.进行初始训练,得到原始语音识别模型MD1;S2:获取客户项目使用的命令词词条C1选择出对应的音频进行筛选并将待扩充命令词进行音频扩充;S3:剔除解码错误的音频,得到修正命令词语料库B4;S4:录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理,得到命令词扩充语料库B5;S5:选取语料训练芯片端所用的初始模型MD2,使用步骤S4得到的命令词扩充语料库B5进行调整,得到最终模型MD3。本发明利用已有语料库来生成缺乏的命令词语料,可在不显著增加人工成本的情况下提高模型在实际场景下的识别率,满足客户应用需求。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及一种用于命令词语音增强的模型训练方法。
背景技术
近年来,随着人工智能的持续发展,各种语音设备的使用也越来越频繁。但是,由于芯片端的算力有限,因此语音芯片的实际应用还是以命令词为主。传统端侧命令词识别过程是使用大量语料训练一个连续语音识别模型,然后用这个模型去识别某一产品对应的命令词。在安静环境下的命令词识别基本不存在问题,然而噪音及远场环境下的识别仍然是一大难题。
因此,开发者通常会根据客户给的命令词指令去录制对应的语料去微调初始模型。然而,录制语料需要耗费大量的人力物力,从而带来更多的成本。另外一种解决方法是使用语音合成的模型来合成对应的命令词语料,这带来一个新的问题是需要训练对应的文本到语音模型(TTS,text to speech),并且合成的语料带来的训练效果提升有限。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种用于命令词语音增强的模型训练方法。
本发明所述用于命令词语音增强的模型训练方法,包括以下步骤:
S1.进行初始训练,得到原始语音识别模型MD1,并建立安静语料库;
S2:获取客户项目使用的命令词词条C1, 所述命令词词条包括至少一个命令词;
S21.根据命令词词条C1在现有的安静语料库A1中选择出对应的音频,统计出命令词词条C1中每个命令词在安静语料库A1中的音频条数,设置第一筛选阈值对命令词词条C1中的全部命令词进行筛选,筛选出对应音频数量低于第一筛选阈值的待扩充命令词;
待扩充命令词进行音频扩充;扩充方法如下:
S22.对命令词进行分词,第一次分词为将命令词分解为一个以上词语,在第一次分词基础上继续进行第二次分词,将每个词语分为一个以上单字;
S23.设置第二筛选阈值,根据第一次分词结果,从安静语料库A1中筛选出包括各个词语的音频词条,如果单个词语的音频条数少于第二筛选阈值,则按照第二次分词结果在安静语料库A1中再次筛选;筛选出音频条数大于第二筛选阈值的单字;
如果两次筛选均不能筛选出结果,则降低第二筛选阈值;重复步骤S23;
获取步骤S23筛选得到包含两次分词结果的原始音频;
S24.使用原始语音识别模型MD1模型对步骤S23得到的音频进行对齐,获得词语或单字在音频中对应的时间标签,并根据对应的时间标签切分出仅包含对应词语或单字的音频,将切分后的音频作为分词子语料库B1;
S25.对每个命令词重复S22-S24步骤,将所有分词子语料库B1组合得到分词语料库B2;
S26.从分词语料库B2中随机筛选音频进行组合,得到命令词整词语料库B3;
S3:使用原始语音识别模型MD1对合成的命令词整词语料库B3进行解码,剔除解码错误的音频,得到修正命令词语料库 B4;
S4:录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理,得到命令词扩充语料库B5;
S5: 选取语料训练芯片端所用的初始模型MD2,使用步骤S4得到的命令词扩充语料库B5进行调整,得到最终模型MD3。
优选的,所述步骤S1中使用CTC/RNNT的训练方法训练得到原始语音识别模型MD1。
优选的,所述步骤S4中从修正命令词语料B4中选取部分音频在相应噪音环境播放并进行采音,采音得到的音频为补充噪音语料库B6;
所述步骤S5中同时使用所述命令词扩充语料库B5和补充噪音语料库B6对MD2进行调整,得到最终模型MD3。
本发明利用已有语料库来生成缺乏的命令词语料,可在不显著增加人工成本的情况下提高模型在实际场景下的识别率,满足客户应用需求。
附图说明
图1是本发明一个具体实施例的流程示意图。
实施方式
下面结合附图对本发明的具体实施方式进行详细说明,但并不用来限制本发明的保护范围。
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
本发明所述用于命令词语音增强的模型训练方法,包括以下步骤:
S1:使用超过1万小时的大语料进行初始训练,得到原始语音识别模型MD1,该模型使用字建模的CTC/RNNT(基于神经网络的时序分类Connectionist TemporalClassification、递归神经网络换能器Recurrent Neural Network Transducer)的训练方法,对于中文来说,模型的建模单元为汉字;
建立安静语料库,所述安静语料库为包括大量安静环境下采集的发声音频,这些音频包括单字、词语、短句、长句或整篇文章,朗读者包括不同性别,年龄,具备不同发音习惯的人;
S2:获取客户项目使用的命令词词条C1, 所述命令词词条包括至少一个命令词,以茶吧机项目为例,所述命令词词条C1中包含命令词如果茶模式、红茶模式、绿茶模式、关闭煮茶、停止煮茶等,
S21.首先根据命令词词条C1在现有的安静语料库A1中选择出对应的音频,统计出命令词词条C1中每个命令词在安静语料库A1中的音频条数,设置第一筛选阈值对命令词词条C1中的命令词进行筛选,筛选出待扩充命令词,对于命令词少于筛选阈值如少于1000条的音频单独列出,作为待扩充命令词C2,假设目前果茶模式音频条数为0,因此需对待扩充命令词中每个命令词的音频数量进行扩充。具体扩充方法如下:
S22.对命令词进行分词,第一次分词为将命令词分解为一个以上词语,在第一次分词基础上继续进行第二次分词,将每个词语分为一个以上单字;
S23.设置第二筛选阈值,根据第一次分词结果,从安静语料库A1中筛选出包括各个词语的音频词条,如果单个词语的音频条数少于第二筛选阈值,则按照第二次分词结果在安静语料库A1中再次筛选;筛选出音频条数大于第二筛选阈值的单字;
如果两次筛选均不能筛选出结果,说明第二筛选阈值设置较高,则降低第二筛选阈值;重复步骤S23;
获取步骤S23筛选得到包含两次分词结果的原始音频;
S24.使用原始语音识别模型MD1模型对步骤S23得到的音频进行对齐,获得词语或单字在音频中对应的时间标签,并根据对应的时间标签切分出仅包含对应词语或单字的音频,将切分后的音频作为分词子语料库B1;
S25.对每个命令词重复S21-S24步骤,将所有分词子语料库B1组合得到分词语料库B2;
S26.从分词语料库B2中随机筛选音频进行组合,得到命令词整词语料库B3;
例如一个具体实施方式流程如图1所示:
①对果茶模式进行分词,第一次分词的分词结果为果茶、模式,在第一分词结果上继续分词得到的第二次分词得到的单字结果为“果、茶”,“模、式”;
② 设置第二筛选阈值为50,根据第一次分词从语料A1中筛选包含“果茶”和“模式”对应的音频词条,如果单个词条的音频条数少于50,则按照第二分词在语料中再次筛选;假设果茶的音频仍少于50条,则根据第二分词“果、茶”进行语料筛选;
③获取由①和②步骤筛选得到包含两次分词结果的原始音频;
④使用原始语音识别模型MD1模型对步骤③得到的音频进行对齐,获得词语或单字如“果茶”、“果”、“茶”、“模式”等在音频中对应的时间标签,并根据对应的时间标签切分出仅包含对应词语或单字的音频,将切分后的音频作为分词子语料库B1;
例如从音频“水果糖”、“糖果”、“团购模式”等中分别切分出“果”和“模式”的音频;
⑤对每个命令词重复①-④步骤,将所有分词子语料库B1组合得到分词语料库B2;
⑥从分词语料库B2中随机筛选音频进行组合,得到命令词整词语料库B3;
例如在分词语料库B2中存在多个“果”、“茶”、“模式”的音频,全部选择或随机筛选出部分音频,将这些音频随机组合成完成的命令词“果茶模式”,将得到的结果作为命令词整词语料库B3;
本步骤采用两次筛选分词是由于人的发音习惯对一个整词,会先进行分词,然后进行发音,而词语的发音更加连贯的,两次分词得到的语料既首先保留了完整的词语发音,同时在没有足够的完整词语发音音频情况时用单字音频替代,有利于获取最优的筛选结果,利于语料的切分;
S3:使用原始语音识别模型MD1对合成的命令词整词语料库B3进行解码,
解码是对合成音频进行识别,如果识别出来的文本和对应的命令词文本不同,认为解码错误,需要删除该类音频使后续投入训练的语料更加有效。造成解码错误的原因通常是由于原始语音识别模型MD1存在***性的小概率解码错误,或由于存在音频切分不准造成合成后的音频失真;
剔除解码错误的音频,得到修正命令词语料库 B4;
S4.录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理,得到命令词扩充语料库B5;
可以从修正命令词语料B4中选取少量音频在相应噪音环境播放以模拟真实环境,并用语音芯片进行采音,得到补充噪音语料库B6;所谓相应噪音环境是该音频对应命令词常处于的噪音环境,例如“我要接水”音频对应的设备为茶吧机,相应噪音环境是烧水和接水时候产生的噪声;
补充噪音语料库B6是真实环境采音的噪音音频,相对于模拟加噪生成的命令词扩充语料库B5效果更好;
S5. 选取语料训练芯片端所用的初始模型MD2,其中MD2模型是能够在芯片运行并为芯片端训练而构建的基础模型,使用步骤S4得到的命令词扩充语料库B5和补充噪音语料库B6对MD2进行训练,得到最终模型MD3。
本发明利用已有语料库来生成缺乏的命令词语料,可在不显著增加人工成本的情况下提高模型在实际场景下的识别率,满足客户应用需求。
本发明通过扩充命令词语料提高识别率,对于模型训练来说,两次筛选分词是由于人的发音习惯(对一个整词,会先进行分词,然后进行发音,而且词语的发音是更加连贯的,这有利于语料的切分;相对而言,单个字的切分更加困难,因为其很少在一段语音中单独出现。
本实施例在开源语音识别工具k2和卡尔迪(kaldi)环境下实施;首先选用上万小时的基础语料在k2平台上训练一个端到端的conformer模型作为原始语音识别模型MD1,用于后续语料的对齐和解码。conformer模型为谷歌(Google)公司在2020年提出的语音识别模型
使用茶吧机的约100个命令词按照本发明所述训练方法的S2步骤筛选和扩充,得到命令词整词语料库B3;并在S3步骤完成剔除;
然后进行S4步骤,录制茶吧机运行时的噪音进行加噪处理,得到命令词扩充语料库B5和补充噪音语料库B6,以提高实际使用时噪声环境下的识别效果。
在卡尔迪(kaldi)环境使用几千小时的基础语料训练芯片端运行的模型结构为f-tdnn(分解延时神经网络Factorized TDNN)的初始模型MD2,然后使用得到命令词扩充语料库B5和补充噪音语料库B6,对初始模型MD2进行微调,从而得到适用于特定命令词的最终模型MD3。
本实施例中,基于茶吧机的测试项目,每个测试集的样本个数为220条音频,各个模型在PC端的测试结果如表1:
MD2 | MD3 | MD4 | |
参数量 | 850K | 850K | 850K |
安静 | 98% | 99% | 100% |
音乐 | 79% | 87% | 93% |
接水噪音 | 90% | 95% | 96% |
烧水噪音 | 90% | 93% | 97% |
表1:茶吧机测试表
表1中MD2 为基础语料语料训练的模型,MD3是使用本专利的方法生成扩充命令词语料后训练的模型,MD4是使用高保真音响录制的命令词音频(即真实录制的命令词人声音频)后训练的模型,从测试结果来看,扩充命令词语料可以提高模型在实际使用项目下的识别效果。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (3)
1.一种用于命令词语音增强的模型训练方法,其特征在于,包括以下步骤:
S1:进行初始训练,得到原始语音识别模型MD1,并建立安静语料库;
S2:获取客户项目使用的命令词词条C1, 所述命令词词条包括至少一个命令词;
S21.根据命令词词条C1在现有的安静语料库A1中选择出对应的音频,统计出命令词词条C1中每个命令词在安静语料库A1中的音频条数,设置第一筛选阈值对命令词词条C1中的全部命令词进行筛选,筛选出对应音频数量低于第一筛选阈值的待扩充命令词;
待扩充命令词进行音频扩充;扩充方法如下:
S22.对命令词进行分词,第一次分词为将命令词分解为一个以上词语,在第一次分词基础上继续进行第二次分词,将每个词语分为一个以上单字;
S23.设置第二筛选阈值,根据第一次分词结果,从安静语料库A1中筛选出包括各个词语的音频词条,如果单个词语的音频条数少于第二筛选阈值,则按照第二次分词结果在安静语料库A1中再次筛选;筛选出音频条数大于第二筛选阈值的单字;
如果两次筛选均不能筛选出结果,则降低第二筛选阈值;重复步骤S23;
获取步骤S23筛选得到包含两次分词结果的原始音频;
S24.使用原始语音识别模型MD1模型对步骤S23得到的音频进行对齐,获得词语或单字在音频中对应的时间标签,并根据对应的时间标签切分出仅包含对应词语或单字的音频,将切分后的音频作为分词子语料库B1;
S25.对每个命令词重复S22-S24步骤,将所有分词子语料库B1组合得到分词语料库B2;
S26.从分词语料库B2中随机筛选音频进行组合,得到命令词整词语料库B3;
S3:使用原始语音识别模型MD1对合成的命令词整词语料库B3进行解码,剔除解码错误的音频,得到修正命令词语料库 B4;
S4:录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理,得到命令词扩充语料库B5;
S5: 选取语料训练芯片端所用的初始模型MD2,使用步骤S4得到的命令词扩充语料库B5进行调整,得到最终模型MD3。
2.如权利要求1所述的模型训练方法,其特征在于,所述步骤S1中使用CTC/RNNT的训练方法训练得到原始语音识别模型MD1。
3.如权利要求1所述的模型训练方法,其特征在于,
所述步骤S4中从修正命令词语料B4中选取部分音频在相应噪音环境播放并进行采音,采音得到的音频为补充噪音语料库B6;
所述步骤S5中同时使用所述命令词扩充语料库B5和补充噪音语料库B6对MD2进行调整,得到最终模型MD3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650948.0A CN116386613B (zh) | 2023-06-05 | 2023-06-05 | 一种用于命令词语音增强的模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310650948.0A CN116386613B (zh) | 2023-06-05 | 2023-06-05 | 一种用于命令词语音增强的模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116386613A true CN116386613A (zh) | 2023-07-04 |
CN116386613B CN116386613B (zh) | 2023-07-25 |
Family
ID=86973587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310650948.0A Active CN116386613B (zh) | 2023-06-05 | 2023-06-05 | 一种用于命令词语音增强的模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386613B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160225372A1 (en) * | 2015-02-03 | 2016-08-04 | Samsung Electronics Company, Ltd. | Smart home connected device contextual learning using audio commands |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和*** |
CN110853625A (zh) * | 2019-09-18 | 2020-02-28 | 厦门快商通科技股份有限公司 | 语音识别模型分词训练方法、***、移动终端及存储介质 |
EP3617930A1 (en) * | 2018-08-28 | 2020-03-04 | Accenture Global Solutions Limited | Training data augmentation for convesational ai bots |
US20200152175A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Active learning for large-scale semi-supervised creation of speech recognition training corpora |
CN112151021A (zh) * | 2020-09-27 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 语言模型的训练方法、语音识别方法、装置及电子设备 |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
US20220208176A1 (en) * | 2020-12-28 | 2022-06-30 | Genesys Telecommunications Laboratories, Inc. | Punctuation and capitalization of speech recognition transcripts |
CN114692634A (zh) * | 2022-01-27 | 2022-07-01 | 清华大学 | 中文命名实体识别及分类方法和装置 |
-
2023
- 2023-06-05 CN CN202310650948.0A patent/CN116386613B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160225372A1 (en) * | 2015-02-03 | 2016-08-04 | Samsung Electronics Company, Ltd. | Smart home connected device contextual learning using audio commands |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和*** |
EP3617930A1 (en) * | 2018-08-28 | 2020-03-04 | Accenture Global Solutions Limited | Training data augmentation for convesational ai bots |
US20200152175A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Active learning for large-scale semi-supervised creation of speech recognition training corpora |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN110853625A (zh) * | 2019-09-18 | 2020-02-28 | 厦门快商通科技股份有限公司 | 语音识别模型分词训练方法、***、移动终端及存储介质 |
CN112151021A (zh) * | 2020-09-27 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 语言模型的训练方法、语音识别方法、装置及电子设备 |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
US20220208176A1 (en) * | 2020-12-28 | 2022-06-30 | Genesys Telecommunications Laboratories, Inc. | Punctuation and capitalization of speech recognition transcripts |
CN114692634A (zh) * | 2022-01-27 | 2022-07-01 | 清华大学 | 中文命名实体识别及分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
CHENCHEN ZHANG: "Research on Keyword Extraction of Word2vec Model in Chinese Corpus", 《2018 IEEE/ACIS 17TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS)》 * |
林伟敏: "嵌入式连续中小词量的语音识别***的研究", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116386613B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vasquez et al. | Melnet: A generative model for audio in the frequency domain | |
Chandna et al. | Wgansing: A multi-voice singing voice synthesizer based on the wasserstein-gan | |
CN113470662A (zh) | 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配 | |
Song et al. | Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification | |
CN108922518A (zh) | 语音数据扩增方法和*** | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成***及其方法 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
Yağlı et al. | Artificial bandwidth extension of spectral envelope along a Viterbi path | |
CN110246489A (zh) | 用于儿童的语音识别方法及*** | |
CN114267372A (zh) | 语音降噪方法、***、电子设备和存储介质 | |
Du et al. | Noise-robust voice conversion with domain adversarial training | |
Koizumi et al. | Miipher: A robust speech restoration model integrating self-supervised speech and text representations | |
Lee et al. | A new voice transformation method based on both linear and nonlinear prediction analysis | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
Ma et al. | Two-stage training method for Japanese electrolaryngeal speech enhancement based on sequence-to-sequence voice conversion | |
CN116386613B (zh) | 一种用于命令词语音增强的模型训练方法 | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和*** | |
CN113436607B (zh) | 一种快速语音克隆方法 | |
Du et al. | Effective wavenet adaptation for voice conversion with limited data | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
Song et al. | Speaker-adaptive neural vocoders for parametric speech synthesis systems | |
CN104464717B (zh) | 声音合成装置 | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |