CN113077781B

CN113077781B - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN113077781B
Application number: CN202110621665.4A
Authority: CN
Inventors: 李成飞; 林连志; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-07
Anticipated expiration: 2041-06-04
Also published as: CN113077781A

Abstract

本申请公开了语音识别方法、装置、电子设备及存储介质，具体实现方案为：对语音信息进行语种分类处理，得到语种信息；对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息；对所述语言信息进行语音特征的提取处理，得到语音特征的过程中，将所述语音信息输入语音编码模型，在所述语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征，作为所述语音特征；根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果。采用本申请，可以提高语音识别的准确率。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着便携设备、手机终端等电子设备相比以往更智能化，芯片的解析能力更强，可以通过人工智能技术对语音信息、含语音的视频信息等进行高效的解析。

以语音信息为例，来自国内外不同地区及国内不同地域的用户存在不同的发声习惯，甚至同一地域的用户也可能存在不同的发声习惯。而且随着全球化的发展，各种语音（比如中英文）混合输入成为用户生活中的沟通常态，导致迫切需要一种精确的语音识别方案，然而，相关技术中，目前未提出有效的解决方案。

发明内容

本申请提供了一种语音识别方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种语音识别方法，包括：

对语音信息进行语种分类处理，得到语种信息；

对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息；

对所述语言信息进行语音特征的提取处理，得到语音特征的过程中，将所述语音信息输入语音编码模型，在所述语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征，作为所述语音特征；

根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果。

根据本申请的另一方面，提供了一种语音识别装置，包括：

分类模块，用于对语音信息进行语种分类处理，得到语种信息；

分析模块，用于对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息；

提取模块，用于对所述语言信息进行语音特征的提取处理，得到语音特征的过程中，将所述语音信息输入语音编码模型，在所述语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征，作为所述语音特征；

语音识别模块，用于根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以对语音信息进行语种分类处理，得到语种信息。对所述语音信息进行语句关系的分析处理，可以得到用于描述所述语音信息中语句关系的语言信息。对所述语言信息进行语音特征的提取处理，可以得到语音特征，具体可以是将所述语音信息输入语音编码模型，在所述语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征，作为所述语音特征，从而，根据所述语种信息、所述语言信息及所述语音特征这三类信息可以进行综合运算，通过综合运算来进行语音识别处理，可以得到更为精确的语音识别结果。换言之，提高了语音识别的准确率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的语音识别方法的流程示意图；

图2是根据本申请实施例的一应用示例的联合语种信息的端到端中英文混合语音识别框架的示意图；

图3是根据本申请实施例的一应用示例的语种标签流的处理流程示意图；

图4是根据本申请实施例的一应用示例的中文、英文文本建模单元的转换示意图；

图5是根据本申请实施例的一应用示例的联合网络的示意图；

图6是根据本申请实施例的语音识别装置的组成结构示意图；

图7是用来实现本申请实施例的语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

针对语音识别方案而言，以语音信息（比如混合输入的中英文语音信息）为例，可以建立中英文混合语音识别任务，对于该中英文混合语音识别任务，可以采用端到端的神经网络模型或者传统的语音识别模型。其中，由于端到端的神经网络模型，是将声学、发音词典和语言模型集成到一个整体中并进行联合优化，相比传统的语音识别模型在语音识别上更为优越。然而，尽管端到端的神经网络模型在目前的实践应用中，在各个语种（比如日语、英语、韩语等各个单一语种）识别上取得了极大的进展，但是，对于该多语种的输入，即上述中英文混合输入的情况，由于说话人会随意切换语言，导致即便使用该端到端的神经网络模型进行语音识别也不尽人意。

针对中英文混合输入场景下语音识别准确率低的上述问题，本申请通过联合语种信息的端到端中英文混合的语音识别方法来提高语音识别准确率，具体来讲，可以训练一个语种分类模型，通过语种分类模型得到语种信息，比如，将能够代表语种信息的中间特征（如bottleneck特征）输入到联合模型中进行最终的解码运算。而且，除了语种信息，还综合考虑到语言信息、语音特征，经语种信息、语言信息、语音特征这三类信息的综合运算，输出最终的识别结果。

根据本申请的实施例，提供了一种语音识别方法，图1是根据本申请实施例的语音识别方法的流程示意图，该方法可以应用于语音识别装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行特征提取、语音识别等等。其中，终端可以为用户设备（UE，User Equipment）、移动设备、蜂窝电话、无绳电话、个人数字处理（PDA，Personal Digital Assistant）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、对语音信息进行语种分类处理，得到语种信息。

一示例中，可以将语音信息输入训练好的语种分类模型，在语种分类模型中进行语音帧级别的语种分类处理，以得到该语种信息。

S102、对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息。

一示例中，可以将该语音信息输入语言模型，在语言模型中对语音信息对应的文本信息进行语句关系的分析处理，以得到该语言信息。

S103、对所述语言信息进行语音特征的提取处理，得到语音特征的过程中，将该语音信息输入语音编码模型，在语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征作为该语音特征。

S104、根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果。

一示例中，可以将该语种信息、该语言信息及该语音特征输入联合模型中，并在该联合模型中将该语种信息、该语言信息及该语音特征结合在一起综合运算，以得到该识别结果。

采用本申请，可以对语音信息进行语种分类处理，得到语种信息。对所述语音信息进行语句关系的分析处理，可以得到用于描述所述语音信息中语句关系的语言信息。对所述语言信息进行语音特征的提取处理，可以得到语音特征，从而，根据所述语种信息、所述语言信息及所述语音特征这三类信息可以进行综合运算，通过综合运算来进行语音识别处理，可以得到更为精确的语音识别结果。换言之，提高了语音识别的准确率。

需要指出的是，上述步骤S101- S104可以采用中英文混合输入的语音识别模型来实现，该语音识别模型可以由上述语种分类模型、上述语音编码模型和上述联合模型构成，而且，不限于中英文混合输入的场景，只要是多语种混合输入的情况，都能通过本申请的语音识别模型来实现，通过综合运算来进行语音识别处理，可以排除多语种混合输入、不同用户发音表达习惯等的干扰，大大提高了语音识别的准确率。

一实施方式中，所述在所述语种分类模型中进行语音帧级别的语种分类处理，得到所述语种信息，包括：在所述语种分类模型中提取与所述语音信息对应的文本信息；在所述语种分类模型中根据所述语音信息与所述文本信息中各字符的语种分类映射关系，得到所述语种信息。采用本实施方式，通过所建立的映射关系，可以将语音信息对应到相应文本信息的语种分类上，则可以得到该语音信息所隶属的语种信息，有利于提高后续语音识别的准确率。

一实施方式中，所述在所述语言模型中对所述语音信息对应的文本信息进行语句关系的分析处理，得到所述语言信息，包括：在所述语言模型中根据语言的内在规律进行语句关系的分析处理，得到所述语言信息。采用本实施方式，可以根据语言的内在规律进行语句关系的分析处理，比如根据语言的内在规律进行语句关系是否合理的概率评估，则可以知道更为合适的语言信息，有利于提高后续语音识别的准确率。

一实施方式中，所述根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果，包括：将所述语种信息、所述语言信息及所述语音特征输入联合模型；在所述联合模型中，将所述语种信息在向量维度上与所述语音特征保持一致，将得到的语种信息向量与语音特征向量进行拼接处理，得到待处理向量；在所述联合模型中，将所述待处理向量基于循环神经网络（RNN，Recurrent Neural Network）和所述语言信息进行编解码处理，得到所述语音识别结果。采用本实施方式，是在联合模型进行综合运算，为了更好的运算效果，还可以执行数据保持对齐的处理，使得向量维度一致，之后进行向量拼接等，最终根据该语种信息、该语言信息及该语音特征这三类信息的综合运算来进行语音识别处理，提高了语音识别的准确率。

一实施方式中，还包括：获取语料中的第一语音信息；对所述第一语音信息对应的第一文本信息进行文本标注处理，得到第一文本标注数据；将由所述第一语音信息和所述第一文本标注数据构建的数据对作为语音样本训练数据；根据所述语音样本训练数据对所述语种分类模型进行训练，得到训练好的语种分类模型。采用本实施方式，可以事先从语料中提取第一语音信息，以便采用第一语音信息和第一文本标注数据构建的数据对来进行语种分类模型的训练，以得到训练好的语种分类模型，可以在接收到待处理语音信息后，直接根据该训练好的语种分类模型进行语种分类，使得运算效率更快、运算精度更高。

一实施方式中，还包括：将所述第一文本信息中的中文文本处理为单个汉字；将所述第一文本信息中的英文文本处理为子词；将由所述单个汉字及所述子词构成的待处理字符序列进行正则处理，得到所述第一文本信息中每个字符对应的语种标签分类。采用本实施方式，针对第一文本标注数据，还可以进行语种标签的分类处理，以得到语种标签分类，可以根据该语种标签分类更好的训练语种分类模型。

一实施方式中，所述将由所述第一语音信息和所述第一文本标注数据构建的数据对作为语音样本训练数据，包括：将对所述第一文本信息进行分类处理所得到的所述语种标签分类，加入所述第一文本标注数据中，得到第二文本标注数据；将由所述第一语音信息和所述第二文本标注数据构建的数据对作为语音样本训练数据。采用本实施方式，可以将语种标签分类也作为训练数据的一部分，并加入到第一文本标注数据中，得到第二文本标注数据，将由所述第一语音信息和所述第二文本标注数据构建的数据对作为语音样本训练数据，可以更好的训练语种分类模型。

一实施方式中，还包括：对所述第一语音信息进行语音特征的提取处理，得到第一语音特征；将所述第一语音特征输入序列标注分类（CTC，Connectionist TemporalClassification）模块；在所述CTC模块中将所述第一语音特征与对应的语种标签分类进行映射后进行长度对齐处理。采用本实施方式，通过CTC模块的映射后对齐处理，可以基于该第一语音特征及对应的语种标签分类对语种分类模型进行训练，最终使训练好的语种分类模型可以针对每个输入的语音帧都能对应到一个语种的标签分类，从而识别出更为准确的语种信息。

应用示例：

中英文混合语音识别在算法层面，就传统的语音识别算法来说，是对发音词典进行构建，比如针对英文单词映射到中文的发音来构建该发音词典，并按照中文的发音音素进行发音词表的构建。英文单词映射到中文发音的一个示例中，python—>派森，然后按照中文的发音词典对“派森”进行注音，采用传统的语音识别算法能解决部分的中英文混合识别的情况，性能主要取决于对英文单词映射到中文发音的词表大小，但是这个过程不仅需要人工的标注，而且还有很多英文单词与中文词发音类似、甚至有些英文单词不能映射到中文发音的情况，导致，采用这种传统的语音识别算法训练的传统的语音识别模型，其模型的性能泛化性很差。

一个好的深度学习模型的目标是：将训练数据很好地推广到问题领域的任何数据，即模型更具有通用性，而不是上述受限于特定数据，只能应用于专门的问题领域泛化性很差的模型。随着深度学习的发展，将基于深度学习的神经网络算法应用到语音识别中，颠覆了传统的语音识别方法，不再包括：声学模型、语言模型、发音词典等这些单一的、传统的语音识别模块，而是采用一个神经网络完成上述各个模块的功能，在语音识别上将这类神经网络算法统称为端到端的语音识别算法。该端到端的语音识别算法，是利用端到端的语码转换，即：通过中文的建模单元选择单个的汉字（如中文“您好”，可以取汉字“您”），而英文采用的是子词（如英文“HELLO”可以取英文的一部分，称之为子词，比如子词“HEL”）。然后，使用单个的汉字与相应子词构成的“标注数据对”作为训练数据以进行模型的训练，但是在中英文混合输入的情况上，由于说话人随意切换语言的情况，主流的端到端语音识别算法不能够学习到这种随意转换的情况，因而不再满足中英文混合识别模型的训练。

本应用示例是一种联合语种信息的端到端中英文混合的语音识别方法，考虑到中英文场景下，中文、英文为不同语种，可以对输入的语音信息进行帧级别的语种分类，然后将经语种分类得到的语种信息输入到联合模型中，具体的，可以将能够代表语种信息的中间特征（bottleneck）输入到联合模型中，以进行最终的解码运算。采用本应用示例的语音识别方法，综合考虑到语种信息、语言信息、语音特征，通过联合语种信息的端到端中英文混合算法得到最终的语音识别结果，大大提升了语音识别结果的准确率。其中，bottleneck特征可以在网络模型中只利用卷积层部分，而把全连接层以上的部分先抛掉，然后在训练集和测试集上运行所得到的输出结果，采用bottleneck特征的好处是网络模型的运算速度快。

图2是根据本申请实施例的一应用示例的联合语种信息的端到端中英文混合语音识别框架的示意图，如图2所示，包括：语种分类模型、语言模型、及联合模型。其中，语种分类模型用于实现语种分类，可以由语音编码模型及CTC模块构成，CTC模块主要用于处理序列标注问题中的输入与输出标签的对齐，CTC模块输出的语种标签分类，可以记为LID；语言模型用于描述自然语言内在固有规律；联合模型用于将语言模型的输出（如所输出的语言模型信息），CTC模块的输出（如所输出的包括语种标签分类的语种信息），及语音编码模型的输出（如所输出的声学特征信息）进行综合运算，将由联合模型得到的运算结果输出后，经Softmax函数进行归一化处理，以得到最终的语言识别结果。

以下具体阐述实现本应用示例所涉及的具体处理过程，包括如下内容：

一、语种分类

语种分类，是指根据输入语音信息的语音特征（如从语音信息的音频中提取的声学特征）进行语音帧级别的语种信息判断，可以采用但不限于上述语种分类模型来实现，比如，可以通过该语种分类模型将原始输入的语音信息、与通过对语音信息对应文本进行标注所得到的文本标注数据进行预处理，语音信息与文本标注数据存在对应关系，可以记为“语音信息<—>文本标注数据”，构成“数据对”。其中，该文本标注数据还可以包括语种的标签分类，语种分类的具体内容如下：

1）对于上述语音信息而言，考虑到Fbank特征作为语音识别的一个评价指标，已经很贴近人耳的响应特性，因此，在实际应用中，可以直接从语音信息中提取滤波（Fbank，Filter Bank）特征。考虑到人耳对声音频谱的响应是非线性的，采用Fbank这种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。

2）对于上述标注数据对，可以将语音信息对应的文本进行文本标注的预处理，可以得到所需语种的语种标签。图3是根据本申请实施例的一应用示例的语种标签流的处理流程示意图，如图3所示，包括如下内容：

第一步、获取语音信息对应的文本，通过字节对编码（BPE，Byte Pair Encoding）模型对文本进行文本标注的预处理。

比如，该文本可以为：“HELLO 我们一起CHECK一下吧”，经BPE模型进行文本标注的预处理，具体是：将原始的中文文本处理为单个汉字，例如：我们—>“我”及“们”；将原始的英文文本处理为子词，例如：HELLO —>“HE”及“LLO”，从而得到由单个汉字及子词构成的待处理的字符序列为：“HE LLO 我们一起 CH ECK 一下吧”。

进一步，还可以将得到的单个汉字及子词写入中英文建模单元中，为了提高语音识别的效率及精确度，可以积累更多的语料，将原始的中文文本处理为单个汉字，例如：小猴—>“小”及“猴”等，如图4所示。

第二步、基于语音特征实现语种标签的映射。

比如，可以对该待处理的字符序列进行正则处理（比如可以通过正则模块来实现正则处理），以实现语种标签映射的具体转换。其中，将汉字标注为CN，将英文的字母或者子词标注为EN，并且在各子词之间***用于子词之间分隔的特殊符号。需要指出的是，该特殊符号的加入，主要考虑到两个汉字之间或者子词之间的时间段不代表任何语种，可以使用诸如空格（blank）这类特殊符号，不限于blank，只要能实现汉字或子词之间分隔的符号都在本申请的保护范围之内。

如图3所示的一语种标签“BL EN BL EN BL CN BL CN BL CN BL CN BL EN BL ENBL CN BL CN BL CN BL”中，其对应该待处理的字符序列“HE LLO 我们一起 CH ECK 一下吧”，以BL代表上述blank的位置，以EN代表该待处理的字符序列中英文子词的位置，以CN代表该待处理的字符序列中单个汉字的位置。

3）语种分类模型训练过程中，对于从语音信息中提取到音频的声学特征而言，可以基于多头注意力（Multi-head Attention）的编码方法来实现提取处理，以使每个head能捕获不同方面的信息，从而提取出多重语意，使得语音识别及分类更为准确。其中，可以对该声学特征进行编码之后得到高阶特征，将该高阶特征输入到CTC模块中，以最终实现根据输入语音信息的语音特征进行语音帧级别的语种信息判断。

针对图2中的语音编码模型的结构，具体描述如下：

语音编码模型可以由N=6个相同的层（Layer）组成，每个Layer由两个sub-layer组成，分别是多头自注意力机制（multi-head self-attention mechanism）和全连接前馈网络（fully connected feed-forward network）。其中每个sub-layer都可以添加残差连接（residual connection）和规范化（normalization），因此可以将语音编码模型的输出表示为如下公式（1）-公式（4）：

（1）

（2）

（3）

（4）

上述公式（1）-（4）中，

表示语音编码；x表示输入；

表示层的归一化；Multi-Head代表多头机制；Concat代表拼接操作；headi表示第i个head的计算方式，Self Attention代表自注意力机制，Q，K，V是输入向量分别与不同的矩阵相乘得到的向量，为了并行化计算，Q/K/V通常是矩阵并行操作；

是向量V的维度；

是Multihead的输出参数矩阵；w1、w2、w3分别是向量Q/K/V的参数矩阵。

CTC是一种适合不知道输入输出是否对齐的情况使用的算法，可以做如下定义：输入

，对应的输出是

，其中，X代表语音编码模型的输出，y代表对应的语种标签序列，但是，X与Y的长度不是对等的（语音帧的数量远大于语种标签的数量），需要对齐处理，为了训练这种类型的数据，找到一种由X到Y的映射关系，可以采用上述CTC来予以解决。可以定义CTC损失函数，具体是：对于给定的输入X，训练模型希望得到最大化Y的后验概率为

,而

是可导的，这样就可以使用梯度下降算法进行求导。对于一对输入输出（X,Y）来说，采用公式（5）使得CTC的目标最大化，A是指X和Y在CTC中的某条对齐路径，其长度和输入序列X一致；

是每个时刻的输出，具体描述如公式（5）所示：

（5）

通过上述模型的训练，每个输入的语音帧都能对应到一个语种的标签分类。

4）语种标签分类预训练过程中，可以使用单一的语种，例如：纯中文的音频—>文本数据、及纯英文的音频—>文本数据进行上述整个流程的模型训练。通过语种标签分类预训练，可以得到一个已经预先训练好的语种分类模型，然后将该预先训练好的语种分类模型中的参数作为初始化参数，继续进行参数更新迭代的训练，最终得到所需的语种分类模型。相比较现有模型训练过程中都是随机的初始化处理，采用预训练模型中的参数进行初始化处理，可以使得语种分类模型的识别分类准确率更高。

二、语言模型

语言模型，是一种描述自然语言内在固有规律的数学模型，可以应用在各个需要对句子序列进行概率评估的任务中。可以采用经典的RNN语言模型进行语言内在规律的预测，具体是输入上一时刻的识别结果，输出是经过RNN编码计算的向量。

三、联合模型，图5是根据本申请实施例的一应用示例的联合模型的示意图，如图5所示，包括如下内容：

联合模型，是将上述语言模型的输出、上述CTC模块的输出、上述语音编码模型的输出进行综合运算，以进行最终结果的输出。具体的，CTC模块的输出经过一个向量维度调整层（reshape-layer）的层，将表示语种信息的向量维度与语音编码模型的输出保持一致，在全连接层（concatenate layer）中将两个向量进行拼接操作，比如将帧级别的声学信息和帧级别的语种信息进行拼接，之后输入到一个基于RNN循环网络的语言模型中，将上一时刻的输出进行编码，并输入到RNN循环网络中进行解码。

需要指出的是，图5中的o1、o2 、o3分别表示每个时刻的识别结果的输出，因为并不是每个语音信息帧都有识别结果，因此，可以采用CTC 的方式进行损失函数的计算，从而进行多个识别结果的自动对齐。

本申请提供了一种语音识别装置，图6是根据本申请实施例的语音识别装置的组成结构示意图，如图6所示，所述装置包括：分类模块41，用于对语音信息进行语种分类处理，得到语种信息；分析模块42，用于对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息；提取模块43，用于对所述语言信息进行语音特征的提取处理，得到语音特征的过程中，将该语音信息输入语音编码模型，在语音编码模型中对所述语音信息进行声学特征的提取处理，将得到的声学特征作为该语音特征；语音识别模块44，用于根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果。

一实施方式中，所述分类模块，用于将所述语音信息输入训练好的语种分类模型；在所述语种分类模型中进行语音帧级别的语种分类处理，得到所述语种信息。

一实施方式中，所述分类模块，用于在所述语种分类模型中提取与所述语音信息对应的文本信息；在所述语种分类模型中根据所述语音信息与所述文本信息中各字符的语种分类映射关系，得到所述语种信息。

一实施方式中，所述分析模块，用于将所述语音信息输入语言模型；在所述语言模型中对所述语音信息对应的文本信息进行语句关系的分析处理，得到所述语言信息。

一实施方式中，所述分析模块，用于在所述语言模型中根据语言的内在规律进行语句关系的分析处理，得到所述语言信息。

一实施方式中，所述语音识别模块，用于将所述语种信息、所述语言信息及所述语音特征输入联合模型；在所述联合模型中，将所述语种信息在向量维度上与所述语音特征保持一致，将得到的语种信息向量与语音特征向量进行拼接处理，得到待处理向量；在所述联合模型中，将所述待处理向量基于循环神经网络和所述语言信息进行编解码处理，得到所述语音识别结果。

一实施方式中，还包括训练模块，用于获取语料中的第一语音信息；对所述第一语音信息对应的第一文本信息进行文本标注处理，得到第一文本标注数据；将由所述第一语音信息和所述第一文本标注数据构建的数据对作为语音样本训练数据；根据所述语音样本训练数据对所述语种分类模型进行训练，得到训练好的语种分类模型。

一实施方式中，还包括语种标签分类模块，用于将所述第一文本信息中的中文文本处理为单个汉字；将所述第一文本信息中的英文文本处理为子词；将由所述单个汉字及所述子词构成的待处理字符序列进行正则处理，得到所述第一文本信息中每个字符对应的语种标签分类。

一实施方式中，所述训练模块，用于将对所述第一文本信息进行分类处理所得到的所述语种标签分类，加入所述第一文本标注数据中，得到第二文本标注数据；将由所述第一语音信息和所述第二文本标注数据构建的数据对作为语音样本训练数据。

一实施方式中，还包括对齐处理模块，用于对所述第一语音信息进行语音特征的提取处理，得到第一语音特征；将所述第一语音特征输入CTC模块；在所述CTC模块中将所述第一语音特征与对应的语种标签分类进行映射后进行长度对齐处理，以基于所述第一语音特征及对应的语种标签分类对所述语种分类模型进行训练。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是用来实现本申请实施例的语音识别方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器***）。图7中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音识别方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对语音信息进行语种分类处理，得到语种信息；

根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果；

其中，所述根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果，包括：

将所述语种信息、所述语言信息及所述语音特征输入联合模型；

在所述联合模型中，将所述语种信息在向量维度上与所述语音特征保持一致，将得到的语种信息向量与语音特征向量进行拼接处理，得到待处理向量；

在所述联合模型中，将所述待处理向量基于循环神经网络和所述语言信息进行编解码处理，得到所述语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对语音信息进行语种分类处理，得到语种信息，包括：

将所述语音信息输入训练好的语种分类模型；

在所述语种分类模型中进行语音帧级别的语种分类处理，得到所述语种信息。

3.根据权利要求2所述的方法，其特征在于，所述在所述语种分类模型中进行语音帧级别的语种分类处理，得到所述语种信息，包括：

在所述语种分类模型中提取与所述语音信息对应的文本信息；

在所述语种分类模型中根据所述语音信息与所述文本信息中各字符的语种分类映射关系，得到所述语种信息。

4.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行语句关系的分析处理，得到用于描述所述语音信息中语句关系的语言信息，包括：

将所述语音信息输入语言模型；

在所述语言模型中对所述语音信息对应的文本信息进行语句关系的分析处理，得到所述语言信息。

5.根据权利要求4所述的方法，其特征在于，所述在所述语言模型中对所述语音信息对应的文本信息进行语句关系的分析处理，得到所述语言信息，包括：

在所述语言模型中根据语言的内在规律进行语句关系的分析处理，得到所述语言信息。

6.根据权利要求2所述的方法，其特征在于，还包括：

获取语料中的第一语音信息；

对所述第一语音信息对应的第一文本信息进行文本标注处理，得到第一文本标注数据；

将由所述第一语音信息和所述第一文本标注数据构建的数据对作为语音样本训练数据；

根据所述语音样本训练数据对所述语种分类模型进行训练，得到训练好的语种分类模型。

7.根据权利要求6所述的方法，其特征在于，还包括：

将所述第一文本信息中的中文文本处理为单个汉字；

将所述第一文本信息中的英文文本处理为子词；

将由所述单个汉字及所述子词构成的待处理字符序列进行正则处理，得到所述第一文本信息中每个字符对应的语种标签分类。

8.根据权利要求7所述的方法，其特征在于，所述将由所述第一语音信息和所述第一文本标注数据构建的数据对作为语音样本训练数据，包括：

将对所述第一文本信息进行分类处理所得到的所述语种标签分类，加入所述第一文本标注数据中，得到第二文本标注数据；

将由所述第一语音信息和所述第二文本标注数据构建的数据对作为语音样本训练数据。

9.根据权利要求8所述的方法，其特征在于，还包括：

对所述第一语音信息进行语音特征的提取处理，得到第一语音特征；

将所述第一语音特征输入CTC模块；

在所述CTC模块中将所述第一语音特征与对应的语种标签分类进行映射后进行长度对齐处理，以基于所述第一语音特征及对应的语种标签分类对所述语种分类模型进行训练。

10.一种语音识别装置，其特征在于，所述装置包括：

语音识别模块，用于根据所述语种信息、所述语言信息及所述语音特征进行语音识别处理，得到语音识别结果；其中，将所述语种信息、所述语言信息及所述语音特征输入联合模型；在所述联合模型中，将所述语种信息在向量维度上与所述语音特征保持一致，将得到的语种信息向量与语音特征向量进行拼接处理，得到待处理向量；在所述联合模型中，将所述待处理向量基于循环神经网络和所述语言信息进行编解码处理，得到所述语音识别结果。

11.根据权利要求10所述的装置，其特征在于，所述分类模块，用于：

将所述语音信息输入训练好的语种分类模型；

12.根据权利要求11所述的装置，其特征在于，所述分类模块，用于：

13.根据权利要求10所述的装置，其特征在于，所述分析模块，用于：

将所述语音信息输入语言模型；

14.根据权利要求13所述的装置，其特征在于，所述分析模块，用于：

15.根据权利要求11所述的装置，其特征在于，还包括训练模块，用于：

获取语料中的第一语音信息；

16.根据权利要求15所述的装置，其特征在于，还包括语种标签分类模块，用于：

将所述第一文本信息中的中文文本处理为单个汉字；

将所述第一文本信息中的英文文本处理为子词；

17.根据权利要求16所述的装置，其特征在于，所述训练模块，用于：

18.根据权利要求17所述的装置，其特征在于，还包括对齐处理模块，用于：

将所述第一语音特征输入CTC模块；

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-9中任一项所述的方法。