CN111833852A - 一种声学模型的训练方法、装置以及计算机可读存储介质 - Google Patents
一种声学模型的训练方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111833852A CN111833852A CN202010618657.XA CN202010618657A CN111833852A CN 111833852 A CN111833852 A CN 111833852A CN 202010618657 A CN202010618657 A CN 202010618657A CN 111833852 A CN111833852 A CN 111833852A
- Authority
- CN
- China
- Prior art keywords
- acoustic
- model
- acoustic model
- training
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006835 compression Effects 0.000 claims abstract description 17
- 238000007906 compression Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 4
- 238000002054 transplantation Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种声学模型的训练方法、装置以及计算机可读存储介质,包括获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;将云端声学模型中的模型参数信息更新至本地第一声学模型;基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,因而大大提高了训练效率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种声学模型的训练方法、装置以及计算机可读存储介质。
背景技术
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。近年来,随着高质量的训练数据的增加,加上本地芯片计算能力不足,导致现如今依靠芯片来训练一个模型的效率变得十分低下。
发明内容
本发明实施例提供了一种声学模型的训练方法、装置以及计算机可读存储介质,具有高效地训练声学模型的效果。
本发明一方面提供一种声学模型的训练方法,所述方法包括:获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;将所述云端声学模型中的模型参数信息更新至本地第一声学模型;基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
在一可实施方式中,所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
在一可实施方式中,所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
在一可实施方式中,所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
在一可实施方式中,所述基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型,包括:将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
在一可实施方式中,所述基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型,包括:将所述声学训练数据作为所述本地第二声学模型的输入进行训练,得到第三声学后验概率;基于所述第一声学后验概率和第三声学后验概率,更新所述本地第二声学模型中的参数信息;利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息,得到目标第二声学模型。
在一可实施方式中,在对所述本地第二声学模型训练的过程中,所述方法还包括:利用语音端点检测技术去除所述声学训练数据中的长静音部分。
本发明另一方面提供一种声学模型的训练装置,所述装置包括:训练数据获取模块,用于获取带标注的声学训练数据;声学后验概率生成模块,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;参数更新模块,用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型;第一训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;模型生成模块,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;第二训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
在一可实施方式中,所述第一训练模块具体用于:将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行一种声学模型的训练方法。
在本发明实施例中,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地本地的声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种声学模型的训练方法的实现流程示意图;
图2为本发明实施例一种声学模型的训练装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种声学模型的训练方法的实现流程示意图;
如图1所示,本发明一方面提供一种声学模型的训练方法,方法包括:
步骤101,获取带标注的声学训练数据;
步骤102,将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;
步骤103,将云端声学模型中的模型参数信息更新至本地第一声学模型;
步骤104,基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;
步骤105,以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
步骤106,基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。
本实施例中,在步骤101中,声学训练数据具体为由特征提取模块提取的特征向量,获取方式可以是利用爬虫技术从线上获取,也可以从本地语料库中直接获取。
在步骤102中,云端声学模型放置于云端中,一般为训练成熟的模型,具有强大并且高效的计算能力,能快速地训练大量的训练数据,得到对应的第一声学后验概率。
在步骤103中,模型参数信息为模型中的变化信息参数,包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致,可通过迁移学习方法进行参数移植操作。结合步骤102,省去了在本地端进行数据训练的过程,提高了训练效率。
步骤104中,本地第一声学模型中的“本地”可以是服务器,也可以是计算机等终端设备。
步骤105中,利用模型压缩算法将本地第一声学模型进行模型压缩,得到本地第二声学模型,以在保证模型预测效果的前提下,从中减少了模型参数,尽可能地降低模型的大小,使本地第二声学模型能够应用于芯片端;
步骤106中,再利用训练数据和第一声学后验概率,进一步对本地第二声学模型进行训练,以再次调整本地第二声学模型中的模型参数,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在一可实施方式中,带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
本实施例中,声学特征信息可以利用梅尔频率倒谱系数特征提取法从语音信息中提取得到。文本信息与语音信息相对应,可以由人工书写得到,也可以从线上获取。
在一可实施方式中,云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
本实施例中,FSMN即前馈型序列记忆网络,FSMN模型相比较其他模型而言,能大大缩减训练时间,进而提升训练效率。
在一可实施方式中,云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
本实施例中,通过将建模单元均设置为粗粒度并且不带音调的音节,可提升复杂声学环境下模型的泛化能力。
在一可实施方式中,基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型,包括:
将声学训练数据作为本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于第一声学后验概率和第二声学后验概率,更新本地第一声学模型中的参数信息,得到目标第一声学模型。
本实施例中,步骤104的具体过程为:将声学训练数据作为本地第一声学模型的输入进行训练,也同样利用神经网络前向传播得到第二声学后验概率,接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新第一声学模型中的参数信息,并继续对本地第一声学模型进行训练,直到当所计算得到的误差小于预设阈值时,训练完成,最终得到目标第一声学模型。
在一可实施方式中,基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型,包括:
将声学训练数据作为本地第二声学模型的输入进行训练,得到第三声学后验概率;
基于第一声学后验概率和第三声学后验概率,更新本地第二声学模型中的参数信息;
利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息,得到目标第二声学模型。
本实施例中,步骤106的具体过程为:将声学训练数据作为本地第二声学模型的输入进行训练,也同样利用神经网络前向传播得到第三声学后验概率,接着通过损失函数计算所得到的第三声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新本地第二声学模型中的参数信息,并继续对本地第二声学模型进行训练,直到所计算得到的误差小于预设阈值时,初步训练完成,接着利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息,最终得到目标第二声学模型。其中序列建模模型训练准则为最大互信息训练准则、交叉熵训练准则和状态级贝叶斯风险训练准则中的一种或者多种,以上三种训练准则为现有技术,在本实施例中不再详细阐述。
在一可实施方式中,在对本地第二声学模型训练的过程中,方法还包括:
利用语音端点检测技术去除声学训练数据中的静音信息和噪声信息。
本实施例中,在训练云端声学模型、本地第一声学模型以及本地第二声学模型的过程中,在将声学训练数据输入于上述三种模型之后,利用语音端点检测技术(即VAD)来去除声学训练数据中的长静音部分,以保证模型训练的准确性,并且能最大化利用有限的空间资源。
本发明实施例还提供一种基于上文中所训练的目标第二声学模型的语音识别***。
语音识别***主要包括基于本地语法的搜索网络、置信度判别器。
在测试阶段,搜索网络与目标第二声学模型结合,对输入数据进行逐帧维特比解码,搜索得到发音特征序列对应的识别结果,及其相应的识别概率,作为识别结果的置信度,再通过置信度判别器来确定输出识别结果。
图2为本发明实施例一种声学模型的训练装置的结构组成示意图,如图2所示。
基于上文提供的一种声学模型的训练方法,本发明另一方面提供一种声学模型的训练装置,装置包括:
训练数据获取模块201,用于获取带标注的声学训练数据;
声学后验概率生成模块202,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;
参数更新模块203,用于将云端声学模型中的模型参数信息更新至本地第一声学模型;
第一训练模块204,用于基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;
模型生成模块205,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
第二训练模块206,用于基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。
本实施例中,在训练数据获取模块201中,声学训练数据具体为由特征提取模块提取的特征向量,获取方式可以是利用爬虫技术从线上获取,也可以从本地语料库中直接获取。
在声学后验概率生成模块202中,云端声学模型放置于云端中,一般为训练成熟的模型,具有强大并且高效的计算能力,能快速地训练大量的训练数据,得到对应的第一声学后验概率。
在参数更新模块203中,模型参数信息为模型中的变化信息参数,包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致,可通过迁移学习方法进行参数移植操作。结合声学后验概率生成模块202,省去了在本地端进行数据训练的过程,提高了训练效率。
第一训练模块204中,本地第一声学模型中的“本地”可以是服务器,也可以是计算机等终端设备。
模型生成模块205中,利用模型压缩算法将本地第一声学模型进行模型压缩,得到本地第二声学模型,以在保证模型预测效果的前提下,从中减少了模型参数,尽可能地降低模型的大小,使本地第二声学模型能够应用于芯片端;
第二训练模块206中,再利用训练数据和第一声学后验概率,进一步对本地第二声学模型进行训练,以再次调整本地第二声学模型中的模型参数,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在一可实施方式中,第一训练模块204具体用于:
将声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于第一声学后验概率和第二声学后验概率,更新本地第一声学模型中的参数信息,得到目标第一声学模型。
本实施例中,第一训练模块204具体用于:将声学训练数据作为本地第一声学模型的输入进行训练,也同样利用神经网络前向传播得到第二声学后验概率,接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新第一声学模型中的参数信息,并继续对本地第一声学模型进行训练,直到当所计算得到的误差小于预设阈值时,训练完成,最终得到目标第一声学模型。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的一种声学模型的训练方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率,并通过迁移学习算法将所得到的第一声学后验概率移至本地;基于声学训练数据和第一声学后验概率,对第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到第二声学模型;基于声学训练数据和第一声学后验概率,对第二声学模型进行训练,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种声学模型的训练方法,其特征在于,所述方法包括:
获取带标注的声学训练数据;
将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;
将所述云端声学模型中的模型参数信息更新至本地第一声学模型;
基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;
以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
2.根据权利要求1所述的方法,其特征在于,所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
3.根据权利要求1所述的方法,其特征在于,所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
4.根据权利要求1所述的方法,其特征在于,所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
5.根据权利要求1所述的方法,其特征在于,所述基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型,包括:
将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
6.根据权利要求1所述的方法,其特征在于,所述基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型,包括:
将所述声学训练数据作为所述本地第二声学模型的输入进行训练,得到第三声学后验概率;
基于所述第一声学后验概率和第三声学后验概率,更新所述本地第二声学模型中的参数信息;
利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息,得到目标第二声学模型。
7.根据权利要求6所述的方法,其特征在于,在对所述本地第二声学模型训练的过程中,所述方法还包括:
利用语音端点检测技术去除所述声学训练数据中的长静音部分。
8.一种声学模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取带标注的声学训练数据;
声学后验概率生成模块,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;
参数更新模块,用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型;
第一训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;
模型生成模块,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
第二训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
9.根据权利要求8所述的装置,其特征在于,所述第一训练模块具体用于:
将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7任一项所述的一种声学模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618657.XA CN111833852B (zh) | 2020-06-30 | 2020-06-30 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618657.XA CN111833852B (zh) | 2020-06-30 | 2020-06-30 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833852A true CN111833852A (zh) | 2020-10-27 |
CN111833852B CN111833852B (zh) | 2022-04-15 |
Family
ID=72899936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010618657.XA Active CN111833852B (zh) | 2020-06-30 | 2020-06-30 | 一种声学模型的训练方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833852B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
JP2022111977A (ja) * | 2021-01-20 | 2022-08-01 | 株式会社東芝 | 音声認識システム及び方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
CN106384587A (zh) * | 2015-07-24 | 2017-02-08 | 科大讯飞股份有限公司 | 一种语音识别方法及*** |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及*** |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
EP3573050A1 (en) * | 2018-05-25 | 2019-11-27 | i2x GmbH | Computing platform and method for modifying voice data |
CN110600014A (zh) * | 2019-09-19 | 2019-12-20 | 深圳酷派技术有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
CN111210821A (zh) * | 2020-02-07 | 2020-05-29 | 普强时代(珠海横琴)信息技术有限公司 | 一种基于互联网应用的智能语音识别*** |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、***、装置及存储介质 |
-
2020
- 2020-06-30 CN CN202010618657.XA patent/CN111833852B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
CN106384587A (zh) * | 2015-07-24 | 2017-02-08 | 科大讯飞股份有限公司 | 一种语音识别方法及*** |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107610709A (zh) * | 2017-08-01 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种训练声纹识别模型的方法及*** |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
EP3573050A1 (en) * | 2018-05-25 | 2019-11-27 | i2x GmbH | Computing platform and method for modifying voice data |
CN110600014A (zh) * | 2019-09-19 | 2019-12-20 | 深圳酷派技术有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
CN111243574A (zh) * | 2020-01-13 | 2020-06-05 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、***、装置及存储介质 |
CN111210821A (zh) * | 2020-02-07 | 2020-05-29 | 普强时代(珠海横琴)信息技术有限公司 | 一种基于互联网应用的智能语音识别*** |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022111977A (ja) * | 2021-01-20 | 2022-08-01 | 株式会社東芝 | 音声認識システム及び方法 |
JP7146038B2 (ja) | 2021-01-20 | 2022-10-03 | 株式会社東芝 | 音声認識システム及び方法 |
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113362814B (zh) * | 2021-08-09 | 2021-11-09 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111833852B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN106098059B (zh) | 可定制语音唤醒方法及*** | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
KR102323046B1 (ko) | 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체 | |
CN110033758B (zh) | 一种基于小训练集优化解码网络的语音唤醒实现方法 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别*** | |
CN111968629A (zh) | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
CN111833852B (zh) | 一种声学模型的训练方法、装置以及计算机可读存储介质 | |
CN107093422B (zh) | 一种语音识别方法和语音识别*** | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和*** | |
CN112802461B (zh) | 语音识别方法和装置、服务器、计算机可读存储介质 | |
CN114627863A (zh) | 一种基于人工智能的语音识别方法和装置 | |
Price et al. | Speaker adaptation of deep neural networks using a hierarchy of output layers | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
CN103559289A (zh) | 语种无关的关键词检索方法及*** | |
Li et al. | Bidirectional LSTM Network with Ordered Neurons for Speech Enhancement. | |
Lee et al. | Training hidden Markov models by hybrid simulated annealing for visual speech recognition | |
Banjara et al. | Nepali speech recognition using cnn and sequence models | |
CN108010518B (zh) | 一种语音交互设备的语音采集方法、***及存储介质 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215024 building 14, Tengfei Innovation Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215024 building 14, Tengfei Innovation Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |