CN113077786B

CN113077786B - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN113077786B
Application number: CN202110308487.XA
Authority: CN
Inventors: 徐燃
Original assignee: Beijing Rubu Technology Co ltd
Current assignee: Beijing Rubu Technology Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-12-02
Anticipated expiration: 2041-03-23
Also published as: CN113077786A

Abstract

本申请提供一种语音识别方法、装置、设备及存储介质，该方法包括：获取新语言的命令语音；根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法，所述第一字典根据第一语言的第二字典以及所述新语言与所述第一语言的音素映射关系确定，所述第一声学模型根据所述第一语言的第二声学模型和第一字典确定，所述第一语言为基础语言中与所述新语言发音音素更接近的语言，所述基础语言包括无声调语言和有声调语言；根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。采用本申请实施例的方案，可以快速实现多语言识别，成本低，性价比高。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别领域，具体涉及一种语音识别方法、装置、设备及存储介质。

背景技术

随着全球化的发展，很多具备语音命令控制的产品都要求能支持多种主要语言，这就需要给每种语言单独训练声学模型。然而，对于每种语言从无到有训练声学模型的过程，数据获取成本高，开发周期长。

发明内容

本申请提供一种语音识别方法、装置、设备及存储介质，快速实现多语言识别，成本低，性价比高。

为实现上述目的，本申请实施例提供一种语音识别方法，包括：

获取新语言的命令语音；

根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法，所述第一字典根据第一语言的第二字典以及所述新语言与所述第一语言的音素映射关系确定，所述第一声学模型根据所述第一语言的第二声学模型和第一字典确定，所述第一语言为基础语言中与所述新语言发音音素更接近的语言，所述基础语言包括无声调语言和有声调语言；

根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。

进一步的，在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，还包括：

获取新语言的训练样本，所述训练样本的采样人数小于等于200，每人录音次数相同，所述录音次数小于等于10.

进一步的，所述采样人数中男女人数相同。

进一步的，所述训练样本包括同一采样人等距离采样的N条同步录音，所述N小于等于3.

根据所述新语言与所述第一语言的音素映射关系，确定所述新语言的第一字典，所述第一字典中的第一音素为所述第二字典中用于表征所述新语言发音的第二音素。

将所述第一字典中的音素对齐；

根据对齐结果，以预设学习率对所述第二声学模型进行微调迭代，得到所述第一声学模型，所述预设学习率小于等于低学习率阈值，所述第二声学模型为基于神经网络的声学模型。

进一步的，所述无声调语言为英语，所述有声调语言为汉语。

为实现上述目的，本申请实施例提供一种语音识别装置，包括：

获取单元，设置为获取新语言的命令语音；

语法单元，设置为根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法，所述第一字典根据第一语言的第二字典以及所述新语言与所述第一语言的音素映射关系确定，所述第一声学模型根据所述第一语言的第二声学模型和第一字典确定，所述第一语言为基础语言中与所述新语言发音音素更接近的语言，所述基础语言包括无声调语言和有声调语言；

解码单元，设置为根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。

为实现上述目的，本申请实施例提供一种设备，包括：

一个或多个处理器；

存储器，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

为实现上述目的，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现如上所述的方法。

本申请实施例提出的一种语音识别方法、装置、设备及存储介质，无需进行几百上千小时的新语言训练数据的标注和学习，根据现有的基础语言的字典和声学模型快速识别新语言的命令词，成本低，性价比高。

附图说明

图1是本申请实施例一提供的语音识别方法的流程图；

图2是本申请实施例二提供的语音识别方法的流程图；

图3是本申请实施例三提供的语音识别装置的结构图；

图4是本申请实施例提供的一种设备的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

实施例一

图1为本公开实施例一提供的一种语音识别方法的流程图，该方法可以由语音识别设备来执行，语音识别设备可以采用软件和/或硬件的方式实现。如图1所示，该方法具体包括步骤S110、步骤S120和步骤S130。

S110、获取新语言的命令语音。

S120、根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法，所述第一字典根据第一语言的第二字典以及所述新语言与所述第一语言的音素映射关系确定，所述第一声学模型根据所述第一语言的第二声学模型和第一字典确定，所述第一语言为基础语言中与所述新语言发音音素更接近的语言，所述基础语言包括无声调语言和有声调语言。

基础语言是指已经完成声学模型的语言。在本申请实施例中，所述无声调语言的示例为英语，所述有声调语言的示例为汉语；当然，无声调语言除了英语之外，也可以是其他已经完成声学模型且无声调的语言，无声调语言除了汉语之外，也可以是其他已经完成声学模型且有声调的语言。

S130、根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。

本申请实施例提出的一种语音识别方法，无需进行几百上千小时的新语言训练数据的标注和学习，根据现有的基础语言的字典和声学模型快速识别新语言的命令词，成本低，性价比高。

实施例二

图2为本公开实施例二提供的一种语音识别方法的流程图。如图2所示，该方法在实施例一的基础上，包括步骤S210、步骤120和步骤130。

S210、获取新语言的训练样本。

将所需进行语音识别的新语言的命令词进行录音作为新语言的训练样本。为了控制训练样本的数量尽量少，可选的，对训练样本可以作如下要求：

(1)所述训练样本的采样人数小于等于200，进一步可选的，训练样本的采样人数为[100,200]人。

(2)所述采样人数中男女人数相同，使得训练样本的性别特征均衡。

(3)每人录音次数相同，所述录音次数小于等于10.

(4)所述训练样本包括同一采样人等距离采样的N条同步录音，所述N小于等于3.如果新语言的语音需要进行远距离识别(即语音识别设备与待识别用户的距离大于等于预设阈值)，例如最远支持3m语音交互，那么每隔1m放一个设备，即分别在距离语音识别设备1m，2m和3m处对同一采样人进行同步录音。

训练样本的数量为新语音命令词句子数量、采样人数、录音次数与N的乘积。

S220、根据所述新语言与所述第一语言的音素映射关系，确定所述新语言的第一字典，所述第一字典中的第一音素为所述第二字典中用于表征所述新语言发音的第二音素。

在一种实施方式中，以新语言为日语，基础语言中的无声调语言为英语(本实施例中的英语为美式英语)，基础语言中的有声调语言为汉语为例，日语的发音音素与英语的发音音素更接近，因此，第一语言为英语。

参见表1，为本实施方式中以国际语音字母(International Phonetic Alphabet,IPA)音素表为例，在日语(新语言)与英语(第一语言)的发音之间，根据发音的相似性，构建日语与英语的音素映射关系。

表1日语与英语的音素映射关系

根据例如表1示出的音素映射关系，用第一语言的第二字典中的第二音素来表征新语言命令词的发音，用于表征的第二音素作为第一音素组成新语言的第一字典。参见表2，示出两个日语命令词及其对应的日语与英语的音素映射关系。

表2日语命令词及其对应的日语与英语的音素映射关系

S230、将所述第一字典中的音素对齐；根据对齐结果，以预设学习率对所述第二声学模型进行微调(Finetune)迭代，得到所述第一声学模型，所述预设学习率小于等于低学习率阈值，所述第二声学模型为基于神经网络的声学模型。

S240、获取新语言的命令语音。

S250、根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法。

S260、根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。

实施例三

图3为本公开实施例三提供的一种语音识别装置的结构图。如图3所示，语音识别装置包括：获取单元310、语法单元320和解码单元330.

获取单元310，设置为获取新语言的命令语音；

语法单元320，设置为根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法，所述第一字典根据第一语言的第二字典以及所述新语言与所述第一语言的音素映射关系确定，所述第一声学模型根据所述第一语言的第二声学模型和第一字典确定，所述第一语言为基础语言中与所述新语言发音音素更接近的语言，所述基础语言包括无声调语言和有声调语言；

解码单元330，设置为根据所述新语言的语法和所述第一声学模型解码得到所述命令语音的命令词。

进一步的，获取单元310，还设置为在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，获取新语言的训练样本，所述训练样本的采样人数小于等于200，每人录音次数相同，所述录音次数小于等于10.

进一步的，所述采样人数中男女人数相同。

进一步的，获取单元310，还设置为在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，根据所述新语言与所述第一语言的音素映射关系，确定所述新语言的第一字典，所述第一字典中的第一音素为所述第二字典中用于表征所述新语言发音的第二音素。

进一步的，获取单元310，还设置为在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，将所述第一字典中的音素对齐；根据对齐结果，以预设学习率对所述第二声学模型进行微调迭代，得到所述第一声学模型，所述预设学习率小于等于低学习率阈值，所述第二声学模型为基于神经网络的声学模型。

本申请实施例提出的一种语音识别装置，无需进行几百上千小时的新语言训练数据的标注和学习，根据现有的基础语言的字典和声学模型快速识别新语言的命令词，成本低，性价比高。

本申请实施例还提供一种设备，图4是本申请实施例提供的一种设备的结构图，如图4所示，该设备包括处理器71、存储器72、输入装置73、输出装置74；设备中处理器71的数量可以是一个或多个，以一个处理器71为例；设备中的处理器71、存储器72、输入装置73和输出装置74可以通过总线或其他方式连接，本实施例以通过总线连接为例。

存储器72作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的语音识别装置对应的程序指令/模块(例如，语音识别装置中的获取单元310、语法单元320和解码单元330)，处理器71通过运行存储在存储器72中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本申请实施例提供的任一方法。

存储器72可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器72可进一步包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置73可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别方法，包括：

获取新语言的命令语音；

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的语音识别方法操作,还可以执行本申请任意实施例所提供的语音识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。

本领域内的技术人员应明白，术语用户终端涵盖任何适合类型的无线用户节点，例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。

一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和***(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本发明的范围。因此，本发明的恰当范围将根据权利要求确定。

Claims

1.一种语音识别方法，其特征在于：包括：

获取新语言的命令语音；

2.根据权利要求1所述的方法，其特征在于，在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，还包括：

获取新语言的训练样本，所述训练样本的采样人数小于等于200，每人录音次数相同，所述录音次数小于等于10。

3.根据权利要求2所述的方法，其特征在于，所述采样人数中男女人数相同。

4.根据权利要求2所述的方法，其特征在于，所述训练样本包括同一采样人等距离采样的N条同步录音，所述N小于等于3。

5.根据权利要求2至4任一项所述的方法，其特征在于，在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，还包括：

6.根据权利要求5所述的方法，其特征在于，在所述根据所述新语言的第一字典和所述新语言的第一声学模型，得到所述命令语音的语法之前，还包括：

将所述第一字典中的音素对齐；

7.根据权利要求1所述的方法，其特征在于，所述无声调语言为英语，所述有声调语言为汉语。

8.一种语音识别装置，其特征在于，包括：

获取单元，设置为获取新语言的命令语音；

9.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现如权利要求1-7任一项所述的方法。