CN109461438A

CN109461438A - 一种语音识别方法、装置、设备及存储介质

Info

Publication number: CN109461438A
Application number: CN201811556515.4A
Authority: CN
Inventors: 方昕; 刘海波; 汪睿; 方磊
Original assignee: HEFEI XUNFEI DIGITAL TECHNOLOGY Co Ltd
Current assignee: HEFEI XUNFEI DIGITAL TECHNOLOGY Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-03-12
Anticipated expiration: 2038-12-19
Also published as: CN109461438B

Abstract

本申请提出一种语音识别方法、装置、设备及存储介质，其中，该方法包括：提取待识别语音数据的语音特征；根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息；根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容。上述语音识别的处理过程识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息，可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象，利于提升语音识别准确度。

Description

一种语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

端到端的语音识别模型可以对输入的语音数据进行单字、单词的识别，并将识别到的单字、单词合并得到整词或语句。如汉语语音识别模型常将汉字或词语作为建模单元，通过学习输入语音数据与输出汉字或词语之间的对应关系，识别输入语音数据中所包含的汉字或词语，然后由识别得到的汉字或词语合并得到识别文本。

有些语种的单字或单词等具有属性特征，用于规定其组成整词或整句时的用法。甚至某些语种的单字或单词具有多重属性，例如在很多黏着语语种中，作为语句元素的某些子词是既能作为词干，又能作为词缀的，当子词作为词干或词缀的属性不同时，其与相邻子词的格属关系不同，构成的整词或语句也不同。而上述端到端的语音识别模型只是单纯地建立语音数据与单字或单词内容的对应关系，对识别到的单字或单词直接进行拼接得到识别结果。当训练不充分时，经常出现单字或单词识别混淆、识别结果拼接错误的现象，导致语音识别不准确。

发明内容

基于上述现有的语音识别技术中存在的问题，本申请提出一种语音识别方法、装置、设备及存储介质，用以解决语音识别中存在的识别混淆问题，从而提高语音识别准确度。该技术方案具体如下：

一种语音识别方法，包括：

提取待识别语音数据的语音特征；

根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息；

根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容。

可选的，所述属性信息包括语言成分信息，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

相应的，所述根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息，包括：

将所述语音特征输入预先训练的第一解码模型，解码得到所述待识别语音数据的语音内容的语言成分信息；其中，所述第一解码模型至少根据已标注待识别内容的语言成分信息的解码训练特征样本训练得到。

可选的，所述属性信息还包括词性类型信息；

相应的，所述根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息，还包括：

将所述语音特征，以及所述待识别语音数据的语音内容的语言成分信息，输入预先训练的第二解码模型，解码得到所述待识别语音数据的语音内容的词性类型信息；其中，所述第二解码模型至少根据已标注待识别内容的语言成分信息和词性类型信息的解码训练特征样本训练得到。

可选的，所述属性信息包括语言成分信息及词性类型信息；其中，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

将所述语音特征输入预先训练的第三解码模型，解码得到所述待识别语音数据的语音内容的语言成分信息及词性类型信息；其中，所述第三解码模型至少根据已标注待识别内容的语言成分信息及词性类型信息的解码训练特征样本训练得到。

其中，所述根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容，包括：

将所述语音特征，以及所述待识别语音数据的语音内容的属性信息，输入预先训练的第四解码模型，解码得到所述待识别语音数据的语音内容；其中，所述第四解码模型至少根据已经标注待识别内容，以及已经标注待识别内容的属性信息的解码训练特征样本训练得到。

其中，所述解码训练特征样本包括语音特征样本和文本特征样本。

其中，所述语音特征样本由预设的语音编码器对语音训练样本进行语音特征提取得到；以及，所述文本特征样本由预设的文本编码器对文本训练样本进行文本特征提取得到；

其中，所述语音编码器至少通过对语音数据样本进行特征提取训练得到，所述文本编码器至少通过对文本数据样本进行特征提取训练得到，并且所述语音编码器和所述文本编码器经过联合训练处理，使所述语音编码器输出的语音特征与所述文本编码器输出的文本特征的特征表征分布相同。

其中，所述语音编码器和所述文本编码器的联合训练处理过程，包括：

利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征；其中，所述判别器模型至少通过识别文本特征样本和语音特征样本训练得到

当所述判别器模型能够区分识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征时，根据所述判别器模型的负交叉熵梯度，对所述文本编码器和所述语音编码器的参数进行校正；

重复以上处理，直到所述判别器模型不能区分识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征。

其中，所述利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征，包括：

利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征向量的平均池化向量，以及所述语音编码器输出的语音特征向量的平均池化向量。

其中，所述提取待识别语音的语音特征，包括：

将待识别语音数据输入与所述文本编码器经过联合训练处理后的所述语音编码器，提取得到所述待识别语音数据的语音特征。

一种语音识别装置，包括：

特征提取单元，用于提取待识别语音数据的语音特征；

属性确定单元，用于根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息；

内容识别单元，用于根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容。

相应的，所述属性确定单元根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息时，具体用于：

可选的，所述属性信息还包括词性类型信息；

相应的，所述属性确定单元根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息时，还用于：

其中，所述内容识别单元根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容时，具体用于：

可选的，所述语音编码器和所述文本编码器的联合训练处理过程，包括：

可选的，所述利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征，包括：

其中，所述提取待识别语音的语音特征，包括：

一种语音识别设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中存储的程序，实现以下功能：

提取待识别语音数据的语音特征；根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息；根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的语音识别方法的各个步骤。

采用本申请提出的语音识别方法对待识别语音数据的语音特征进行识别处理时，先识别待识别语音数据的语音内容的属性信息，然后以该属性信息为参考，再识别待识别语音数据的语音内容，经过上述过程的处理识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息，可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象，利于提升语音识别准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法的流程示意图；

图2是本申请实施例提供的一种语音识别***的结构示意图；

图3是本申请实施例提供的另一种语音识别***的结构示意图；

图4是本申请实施例提供的语音识别方法的另一种流程示意图；

图5是本申请实施例提供的又一种语音识别***的结构示意图；

图6是本申请实施例提供的语音识别***的训练***示意图；

图7是本申请实施例提供的语音识别***的另一种训练***的示意图；

图8是本申请实施例提供的一种语音识别装置的结构示意图；

图9是本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音识别应用场景。

通常，语音识别的实现过程是先对待识别语音数据进行“化整为零”的语音帧或语音片段的识别，得到单字或单词识别结果；然后，再对单字或单词识别结果执行“化零为整”的合并处理，得到整词或整句，即得到语音识别结果。

例如，假设待识别语音数据为某人朗读单词“ABCDEF”的语音数据，则当对该待识别语音数据进行语音识别时，将该语音数据划分为更小单位的语音帧进行语音识别，一般多个语音帧对应一个音素，假设对该语音数据进行语音帧划分时得到顺次连接的多个语音帧，对这多个语音帧分别进行语音识别，得到的识别结果依次为“AB”、“CD”、“EF”；然后，将三个识别结果“AB”、“CD”“EF”按照其各自对应的语音片段之间的时序关系依次连接，得到识别结果，即“ABCDEF”文本。

上述的语音识别过程，通常通过端到端的语音识别模型来实现。端到端的语音识别模型以单字或单词为建模单元，通过学习语音数据与单字或单词之间的对应关系，可以从语音数据中识别单字或单词，从而得到语音识别结果。

在有些语种中，会为其包含的单字或单词进行属性划分以便区分其具体用法，例如构词规则等。例如在黏着语中，会将构成整词的子词分为词干和词缀。其中，词干作为整词的主干可以单独存在，而词缀则作为词干的辅助内容，当其前后有词干时，需要与词干一起组合成整词。

例如，假设上述单词“ABCDEF”为一个黏着语单词，上述的语音识别过程中，假设子词识别结果分别为“AB”、“CD”、“EF”，并且已明确其中的“AB”为词干，“CD”和“EF”均为词缀，为了便于从表示形式上区分，设定在词缀前面加“-”来表示，即上述的“CD”和“EF”分别可表示为“-CD”、“-EF”，则在将上述识别结果“AB”、“-CD”、“-EF”进行组合得到整词时，将词缀“-CD”和“-EF”向前合并，与词干“AB”合并构成整词“ABCDEF”。

但是，在上述的黏着语语种中，很多子词是既能作为词干，又能作为词缀的。因此就导致了，对子词词干和词缀属性识别的正确与否，会直接影响最终识别到的整词的正确与否。

例如，假设某人依次朗读了“ABCDEF”和“CDGH”两个单词得到一条待识别语音数据，在对该语音数据进行语音识别时，假设依次识别到子词“AB”、“CD”、“EF”、“CD”、“GH”，对于其中的两个子词“CD”，应当是第一个“CD”为词缀，第二个“CD”为词干，其余的，“AB”为词干、“EF”、“GH”均为词缀，即上述识别到的各个子词依次应当为“AB”、“-CD”、“-EF”、“CD”、“-GH”，对这些子词进行组合即可得到语音识别结果“ABCDEF CDGH”，即是包含两个单词的文本，这是正确的语音识别结果。

而如果对于上述的子词“CD”的属性不能正确区分，假设将第一个子词“CD”识别为词干，则会得到语音识别结果“AB CDEF CDGH”，即得到一个包含三个单词的文本；或者假设将第二个子词“CD”识别为词缀，则会得到语音识别结果“ABCDEFCDGH”，即得到只包含一个单词的文本，这显然是错误的识别结果。

当利用上述端到端的语音识别模型对与上述黏着语类似的，文本元素具有属性特征的语种进行语音识别时，要想使模型能够准确识别出语音数据中的整词，只能通过大量的训练数据学习单字或单词识别过程，以及学习由单字或单词组合得到整词的处理过程，使模型能够在准确识别到单字或单词的基础上，对单字或单词进行合理的拼接、组合得到整词。但是，在上述端到端的语音识别模型训练不充分的情况下，很容易出现单字或单词识别混淆，拼接错误的现象。

基于上述现有语音识别技术中存在的不足，本申请实施例提出一种语音识别方法，在语音识别过程中加入属性信息识别，从而提升语音识别准确度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例提出的语音识别方法，包括：

S101、提取待识别语音数据的语音特征。

上述待识别语音数据，是指记录基于某种语言发声时的声音信号的数据，该数据可以借助专业的声音采集设备，如录音机等采集得到。上述基于某种语言发声时的声音信号，包括但不限于人说话时的声音信号，还可以是机器模拟人声发音时的声音信号等。

本申请实施例技术方案的目的是，对上述待识别语音数据的语音内容进行识别。基于识别对象的可变性，上述待识别语音数据可以是任意时长的语音数据，例如可以是几秒种、几分钟的整段语音数据，也可以是一个数据帧长度的语音数据等。

上述语音特征，具体为用于表示上述待识别语音数据的声学信息的特征，例如可以是上述待识别语音数据的Filter Bank特征、MFCC特征或PLP特征等。该语音特征作为待识别语音数据的特征表示，可以作为对该待识别语音数据进行识别的依据。作为一种可选的实现方式，上述语音特征可以以特征向量的形式表示。

S102、根据上述语音特征，确定待识别语音数据的语音内容的属性信息。

上述待识别语音数据的语音内容，是指待识别语音数据所记录的语言的具体内容。例如，假设上述待识别语音数据是对某人说话时的声音信号进行记录得到的数据，则该待识别语音数据的语音内容，即为这个人说话的具体内容。

上述语音内容的属性信息，是指用于表示语音内容所包含的语言元素的属性特征的信息。上述语言元素，是指构成语言的基本组成单位，例如构成语言的单字、单词等。

例如，假设上述待识别语音数据为某人朗读黏着语单词“ABCDEF”的声音信号数据，该黏着语单词“ABCDEF”包括子词“AB”、“CD”、“EF”，则该待识别语音数据的语音内容的属性信息，即为上述各个子词“AB”、“CD”、“EF”的属性信息，例如可以是子词的类型(词干或是词缀)、词性(名词或是动词等)等属性信息。

由于上述语音识别过程执行到步骤S102时，尚未识别出待识别语音数据的具体语音内容，因此，上述根据待识别语音数据的语音特征，确定待识别语音数据的语音内容的属性信息，具体是确定待识别语音数据中包含的音素或音素集合对应的属性信息。由于待识别语音数据中的音素或音素集合对应待识别语音数据的语音内容所包含的单字或单词，因此，确定了待识别语音数据中的音素或音素集合对应的属性信息，也就是确定了待识别语音数据的语音内容的属性信息。

一种示例性的实现方式是，上述确定待识别语音数据中包含的音素或音素集合对应的属性信息，可以根据预先设定的属性判定规则，或属性限制关系而确定。例如，对于上述的黏着语，假设预先设定子词“EF”只能作为词缀，或者设定当子词“CD”与子词“AB”相邻时，由子词“AB”作为词干，而子词“CD”则作为“AB”的词缀。则当识别人声朗读黏着语单词“ABCDEF”的语音数据时，按照上述预先设定的属性判定规则和属性限制关系，对该语音数据的语音特征进行语音识别，以及进行语音内容属性信息识别。当识别到与子词“AB”对应的音素或音素集合时，可以确定该音素或音素集合对应的语音内容为词干；当识别到与子词“CD”和“EF”对应的音素或音素集合时，可以确定该音素或音素集合对应的语音内容为词缀。

S103、根据上述语音特征，以及待识别语音数据的语音内容的属性信息，确定待识别语音数据的语音内容。

在确定待识别语音的语音内容的属性信息，也就是确定待识别语音包含的各个语言元素的属性信息后，本申请实施例进一步在此基础上，利用待识别语音数据的语音特征，识别待识别语音数据所包含的各个语言元素的具体内容。在分别确定待识别语音数据的语音内容的属性信息和语音内容的具体内容后，即可根据待识别语音数据所包含的各个语言元素的具体内容和属性信息，确定语音识别结果。

作为一种优选的实现方式，本申请实施例提出，上述的根据语音特征，以及待识别语音数据的语音内容的属性信息，确定待识别语音数据的语音内容的具体处理过程为：

以待识别语音数据的语音内容的属性信息为限制，对上述语音特征进行语音内容解码处理，得到与语音内容的属性信息相对应的语音内容，即在语音内容的属性信息所限定的搜索空间内，对上述语音特征进行解码，确定语音内容。

例如，假设对上述黏着语单词“ABCDEF”的声音信号数据进行语音识别，当确定该语音数据的第一个子词为词干时，在进一步识别该语音数据的第一个子词的具体内容时，只在词干空间内对该语音特征进行解码，解码出一个作为词干的子词即为第一个子词的识别结果。

进一步的，当上述待识别语音数据包含多个语言元素，即包含多个单字或单词时，上述确定语音识别结果的处理，具体可包括根据识别得到的各个单字或单词的属性信息，对各个单字或单词的具体内容进行合并处理，得到整词或整句，即得到语音识别结果。

例如，以上述的黏着语单词“ABCDEF”的声音信号数据的识别为例，假设通过步骤S102分别确定了该语音数据包含的三个子词的属性依次分别为词干、词缀、词缀，则当执行步骤S103分别识别得到该语音数据所包含的三个子词分别为“AB”、“CD”、“EF”时，即可确定待合并的语音内容分别为“AB”、“-CD”、“-EF”，按照预先规定的属性特征构词规则，对上述待合并的语音内容进行合并，即可得到识别结果，即“ABCDEF”。

当上述待识别语音数据仅包括一个单字或单词时，则不存在与其他单字或单词进行组合的处理，直接将识别到的单字或单词作为语音识别结果即可。

通过上述介绍可见，本申请实施例提出的语音识别方法在对待识别语音数据的语音特征进行识别处理时，先识别待识别语音数据的语音内容的属性信息，然后以该属性信息为参考，再识别待识别语音数据的语音内容，经过上述过程的处理识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息，可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象，利于提升语音识别准确度。

作为一种优选的实现方式，本申请实施例借助预先训练的模型来实现所提出的语音识别方法的具体处理过程，包括语音特征的提取、属性信息的识别和语音内容识别等。

进一步的，根据语音识别过程的划分，上述语音特征的提取可通过语音编码过程实现，上述的属性信息识别和语音内容识别的过程可通过特征解码过程实现，因此可以分别设置编码模型实现上述的语音特征提取，以及设置解码模型实现上述的属性信息识别和语音内容识别过程。

基于上述设置，本申请实施例所提出的语音识别方法可以基于图2所示的语音识别***实现。该语音识别***由编码模型1和解码模型2构成，其中，编码模型1用于对待识别语音数据进行特征提取处理，得到语音特征；编码模型1提取得到的语音特征作为解码模型2的输入，由解码模型2执行特征解码处理，具体为识别待识别语音数据的语音内容的属性信息，以及识别待识别语音数据的具体语音内容。

进一步的，对于图2所示的语音识别模型，还可以根据功能不同具体划分为不同的子模型或功能模块。参见图3所示，上述的编码模型1可以包括多个编码层以及注意力模块，其中，每个编码层用于对待识别语音数据X执行一层编码处理，注意力模块用于结合解码模型2在上一时刻的解码状态与编码模型最后一个编码层输出的特征向量形成注意力权重，然后将该权重与编码模型最后一个编码层输出的特征向量按向量维度进行加权求和，得到当前时刻语音数据的语音特征向量

上述的解码模型2可以进一步划分为属性解码模型21和内容解码模型22。

其中，属性解码模型21用于执行本申请提出的如图1所示的语音识别方法中的步骤S102，根据待识别语音数据的语音特征，确定待识别语音数据的语音内容的属性信息，即对待识别语音数据的语音特征进行属性解码，确定待识别语音数据的语音内容的属性信息。

内容解码模型22，用于执行本申请提出的如图1所示的语音识别方法中的步骤S103，根据待识别语音数据的语音特征以及待识别语音数据的语音内容的属性信息，确定待识别语音数据的语音内容，即根据属性解码模型21解码确定的属性信息，对待识别语音数据的语音特征进行内容解码，确定待识别语音数据的语音内容。

作为一种可选的实现方式，参见图3所示，上述编码模型1对待识别语音数据X进行编码时，以数据帧为单位分别进行，即对图中所示每个数据帧X₁、X₂…X_t分别进行编码。相应的，解码模型2在进行针对待识别语音数据的语音特征解码时，也可以是以帧为单位进行。

可选的，在本申请的另一个实施例中公开了，本申请提出的如图1所示的语音识别方法中的处理步骤S103，根据语音特征以及待识别语音数据的语音内容的属性信息，确定待识别语音数据的语音内容的具体实现过程为：

将语音特征，以及上述待识别语音数据的语音内容的属性信息，输入预先训练的第四解码模型，解码得到上述待识别语音数据的语音内容。

可以理解，上述的第四解码模型，即是为了实现上述内容解码模型22的语音内容解码功能而训练得到的解码模型，该第四解码模型可以作为图3中所示的内容解码模型22，执行语音内容解码处理，也就是执行本申请提出的如图1所示的语音识别方法中的处理步骤S103。

其中，上述第四解码模型至少根据已标注待识别内容，以及已经标注待识别内容的属性信息的解码训练特征样本训练得到。

上述的解码训练特征样本，是指用于对第四解码模型进行解码训练的特征样本，该特征样本具体是针对训练样本数据进行特征提取得到的特征。示例性的，上述解码训练特征样本可以以特征向量的形式表示。

上述待识别内容，即为上述解码训练特征样本所对应的待识别数据中的具体内容。当上述解码训练特征样本为语音数据的特征样本时，上述待识别内容即为该语音数据的语音内容。

在上述解码训练特征样本已经标注待识别内容以及待识别内容的属性信息的基础上，将解码训练特征样本，以及待识别内容的属性信息输入上述第四解码模型，使第四解码模型根据待识别内容的属性信息，对解码训练特征样本进行内容解码，确定解码训练特征样本的具体内容。

然后将第四解码模型解码得到的具体内容，与上述已经标注的待识别内容进行对比，根据两者的差异对第四解码模型进行反向参数校正。

重复以上识别及反向参数校正处理，直到第四解码模型的识别准确度达到预设需求时停止训练。

经过训练的第四解码模型可用于在待识别语音数据的语音内容的属性信息限制下，对待识别语音数据的语音特征进行内容解码处理，确定待识别语音数据的语音内容。

需要说明的是，上述的待识别语音数据的语音内容的属性信息，具体可以根据待识别语音数据的语种特点而灵活设定，并且，上述属性信息还可以是多种属性信息的总称。例如对于上述的黏着语语种，上述的属性信息可以是子词的词性、类型等；对于其他的语种，可以是语言元素构成语句时的句子成分信息等。总之，上述的属性信息，表示某一语言元素在某一维度或某些维度上区别于其他语言元素的特有属性信息，同时，上述属性信息规定了语言元素构成整词或整句时的构成规则，是对语言构成产生影响的属性信息。

由于不同语种对语言元素的属性划分维度不同，使得针对不同语种的语音识别得到的属性信息的具体内容不同，在本申请实施例中，以对黏着语的语音识别为例，示例性地介绍本申请所提出的语音识别方法的具体处理过程。可以理解，本申请实施例仅是示例性的，并不是限定性的，对于任意语种的语音识别，都可以参照本申请各实施例介绍而实现，都在本申请实施例保护范围内。

具体的，在本申请的另一个实施例中公开了，上述属性信息包括语言成分信息。

其中，上述语言成分信息，用于表示语音内容在其所构成的整词和/或语句中的成分属性。

例如，对于某一汉语语句中的单字或单词来说，其可能作为其所在语句中的主语、谓语、宾语等成分；对于某一黏着语中的单字或单词来说，其可能作为其所在的整词中的词干或词缀成分。

可以理解，确定了语音内容(包括单字、单词等)的语言成分信息，也就是确定了其构成整词或语句时的成分属性，对后续的语音识别具有辅助作用，可以避免因为不确定语音内容的属性而导致识别错误。

相应的，上述根据待识别语音数据的语音特征，确定待识别语音数据的语音内容的属性信息的具体处理过程为：

将上述语音特征输入预先训练的第一解码模型，解码得到待识别语音数据的语音内容的语言成分信息。

其中，上述第一解码模型至少根据已标注待识别内容的语音成分信息的解码训练特征样本训练得到。

具体的，上述解码训练特征样本，是指用于对第一解码模型进行解码训练的特征样本，该特征样本具体是针对训练样本数据进行特征提取得到的特征。示例性的，上述解码训练特征样本可以以特征向量的形式表示。

上述待识别内容，即为上述解码训练特征样本所对应的待识别数据中的具体内容。当上述解码训练特征样本为语音数据的特征样本时，上述待识别内容即为该语音数据的语音内容；或者，当上述解码训练特征样本为文本数据的特征样本时，上述待识别内容即为该文本数据的文本内容。

在上述解码训练特征样本已经标注待识别内容的语言成分信息的基础上，将解码训练特征样本输入上述第一解码模型，使第一解码模型根据待识别内容的语言成分信息，对解码训练特征样本进行语言成分解码，确定解码训练特征样本对应的语音内容的语言成分信息。

然后将第一解码模型解码得到的语音内容的语言成分信息，与上述已经标注的待识别内容的语言成分信息进行对比，根据两者的差异对第一解码模型进行反向参数校正。

重复以上识别及反向参数校正处理，直到第一解码模型的识别准确度达到预设需求时停止训练。

经过训练的第一解码模型可用于对待识别语音数据的语音内容的语言成分信息进行解码，确定待识别语音数据的语音内容的语言成分信息。

例如，假设上述待识别语音数据为人声朗读黏着语“ABCD EF”的语音数据，将该待识别语音数据的语音特征输入上述经过训练的第一解码模型，可以分别识别到该待识别语音数据所包含的各个子词的语言成分信息，即确定该待识别语音数据所包含的各个子词是词干还是词缀。假设通过识别确定第一个子词为词干，第二个子词为词缀，第三个子词为词干，则第一解码模型输出识别结果“词干词缀词干”，表示输入的待识别语音数据的第一个子词为词干，第二个子词为词缀，第三个子词为词干。

进一步的，本申请另一实施例还公开了，上述属性信息在包括语言成分信息的基础上，还包括词性类型信息。

该词性类型信息，即表示待识别语音数据中的语音内容的词性类型，例如当上述待识别语音数据为黏着语语音数据时，上述词性类型可以为名词、动词等。

相应的，参见图4所示，在执行步骤S402、将上述语音特征输入预先训练的第一解码模型，解码得到待识别语音数据的语音内容的语言成分信息的基础上，上述根据语音特征，确定待识别语音数据的语音内容的属性信息，还包括：

S403、将语音特征以及待识别语音数据的语音内容的语言成分信息，输入预先训练的第二解码模型，解码得到待识别语音数据的语音内容的词性类型信息。

其中，上述第二解码模型，至少根据已标注待识别内容的语言成分信息和词性类型信息的解码训练特征样本训练得到。

具体的，参照上述实施例介绍的对第一解码模型的训练过程，本申请实施例利用已标注待识别内容的语言成分信息和词性类型信息的解码训练特征样本对上述第二解码模型进行训练，使其能够在已知待识别语音数据的语音内容的语言成分信息的基础上，对待识别语音数据的语音特征进行进一步解码处理，解码得到待识别语音数据的语音内容的词性类型信息。

如图5所示，在将待识别语音数据的语音特征输入预先训练的第一解码模型，解码得到待识别语音数据的语音内容的语言成分信息后，将第一解码模型的输出，以及待识别语音数据的语音特征，同时作为上述经过训练的第二解码模型的输入，由第二解码模型在已知待识别语音数据的语音内容的语言成分信息的基础上，进一步对待识别语音数据的语音特征进行解码，得到待识别语音数据的语音内容的词性类型信息。

例如，假设上述待识别语音数据为人声朗读黏着语“ABCD EF”的语音数据，将该待识别语音数据的语音特征输入上述经过训练的第一解码模型，可以分别识别到该待识别语音数据所包含的各个子词的语言成分信息。假设第一解码模型通过解码确定待识别语音数据的第一个子词为词干，第二个子词为词缀，第三个子词为词干，则第一解码模型输出识别结果“词干词缀词干”，表示输入的待识别语音数据的第一个子词为词干，第二个子词为词缀，第三个子词为词干。

然后，参见图5所示的解码模型架构，上述第一解码模型的输出和待识别语音数据的语音特征同时作为第二解码模型的输入，由第二解码模型进一步对待识别语音数据的语音内容的词性类型进行解码，分别解码待识别语音数据所包含的三个子词的词性类型。假设第二解码模型解码确定待识别语音数据的第一个作为词干的子词为名词类型的子词，则确定待识别语音数据的第一个子词为名词词干；假设第二解码模型解码确定待识别语音数据的第二个作为词缀的子词为格属类型的子词，则确定待识别语音数据的第二个子词为格属词缀；假设第二解码模型确定待识别语音数据的第三个作为词干的子词为动词类型的子词，则确定待识别语音数据的第三个子词为动词词干；此时，第二解码模型输出“名词词干格属词缀动词词干”，表示待识别语音数据的第一个子词为名词类型的词干，第二个子词为格属类型的词缀，第三个子词为动词类型的词干。

在经过上述步骤S402和S403分别确定待识别语音数据的语音内容的语言成分信息和词性类型信息所构成的属性信息后，上述根据上述语音特征，以及待识别语音数据的语音内容的属性信息，确定待识别语音数据的语音内容，具体即为执行步骤S404、根据上述语音特征，以及待识别语音数据的语音内容的语言成分信息和词性类型信息，确定待识别语音数据的语音内容。

图4所示的方法实施例中的步骤S401、S404的具体工作内容，可参见图1所示的方法实施例中的步骤S101、S103，此处不再赘述。

以上实施例介绍了当上述的属性信息包括语言成分信息和词性类型信息两方面内容时，分别利用预先训练的第一解码模型和第二解码模型实现两方面内容的识别。

可以理解，当上述属性信息所包含的具体内容确定时，也可以通过一个解码模型同时识别上述属性信息所包含的各项具体内容。

示例性的，在本申请的另一个实施例中公开了，当上述属性信息同时包括语言成分以及词性类型信息时，上述的根据待识别语音数据的语音特征，确定待识别语音数据的语音内容的属性信息，包括：

将所述语音特征输入预先训练的第三解码模型，解码得到所述待识别语音数据的语音内容的语言成分信息及词性类型信息。

其中，上述第三解码模型至少根据已标注待识别内容的语言成分信息及词性类型信息的解码训练特征样本训练得到。

上述解码训练特征样本，是指用于对第三解码模型进行解码训练的特征样本，该特征样本具体是针对训练样本数据进行特征提取得到的特征。示例性的，上述解码训练特征样本可以以特征向量的形式表示。

在上述解码训练特征样本已经标注待识别内容的语言成分信息及词性类型信息的基础上，将解码训练特征样本输入上述第三解码模型，使第三解码模型对解码训练特征样本进行语言成分解码以及词性类型解码，确定解码训练特征样本对应的语音内容的语言成分信息及词性类型信息。

然后将第三解码模型解码得到的语音内容的语言成分信息及词性类型信息，与上述已经标注的待识别内容的语言成分信息及词性类型信息进行对比，根据两者的差异对第三解码模型进行反向参数校正。

重复以上识别及反向参数校正处理，直到第三解码模型的识别准确度达到预设需求时停止训练。

经过训练的第三解码模型可用于对待识别语音数据的语音内容的语言成分信息和词性类型信息进行解码识别，确定待识别语音数据的语音内容的语言成分信息和词性类型信息。

例如，假设上述待识别语音数据为人声朗读黏着语“ABCD EF”的语音数据，将该待识别语音数据的语音特征输入上述经过训练的第三解码模型，可以分别识别到该待识别语音数据所包含的各个子词的语言成分信息及词性类型信息，即确定该待识别语音数据所包含的各个子词是词干还是词缀，以及确定该待识别语音数据所包含的各个子词是名词还是动词等。假设通过识别确定该待识别语音数据的第一个子词为名词类型的词干，第二个子词为格属类型的词缀，第三个子词为动词类型的词干，则第一解码模型输出识别结果“名词词干格属词缀动词词干”。

上述各实施例以上述的属性信息包括语言成分信息、词性类型信息以及同时包括语音成分信息和词性类型信息为例，分别介绍了上述确定待识别语音数据的语音内容的属性信息的具体处理过程。并且，本申请上述各实施例以借助解码模型的方式确定待识别语音数据的语音内容的属性信息。

需要说明的是，上述各实施例仅是示例性的实现方式介绍，当上述的属性信息所包括的具体内容不同时，上述各个解码模型的具体功能也相应发生改变。并且，上述各个解码模型可以以类似图5所示的解码模型架构各自独立存在，也可以作为整体的解码模型的不同功能部件而存在，在实际应用本申请实施例技术方案时，可以灵活设置上述各个解码模型的存在形式。可以理解的是，不论上述的属性信息的具体内容如何变化，或者上述各实施例介绍的各个解码模型的相互存在关系如何，对本申请提出的语音识别方法的执行过程都可以参照本申请上述各实施例的介绍实现，都在本申请实施例保护范围内。

通过本申请上述各实施例介绍可以确定，在利用上述的各解码模型实现对上述属性信息的解码，以及根据语音内容的属性信息对语音内容进行解码时，对各解码模型的训练是关键，必须通过足够的训练，解码模型才具备符合需求的解码能力。在本申请实施例中设定，以上述的解码训练特征样本对上述各解码模型进行训练。

由于本申请实施例提出的语音识别方法的目的是对待识别语音数据进行更准确的识别，因此优先以语音数据样本的特征作为上述的解码训练特征样本，对解码模型进行训练。

进一步的，为了提升解码模型的解码能力，在本申请的另一个实施例中还公开了，上述解码训练特征样本，包括语音特征样本和文本特征样本，即在利用语音数据样本的特征对解码模型进行训练的基础上，还将文本样本的特征作为训练样本，用于训练解码模型解码属性信息和语音内容的能力。

参见图6所示，本申请实施例还公开了，上述语音特征样本由预设的语音编码器31对语音训练样本进行语音特征提取得到，上述文本特征样本由预设的文本编码器32对文本训练样本进行文本特征提取得到。

即本申请实施例设置如图6所示的语音编码器31和文本编码器32分别用于对语音训练样本进行特征提取得到语音特征样本，以及对文本训练样本进行特征提取得到文本特征样本，得到的语音特征样本和文本特征样本同时作为解码模型的解码训练特征样本。

其中，图6所示的语音编码器31至少通过对语音数据样本进行特征提取训练得到。同理，上述文本编码器32至少通过对文本数据样本进行特征提取训练得到。

上述语音编码器31和文本编码器32的具体结构，可以与图3所示的编码模型的结构相同，即可以包括多个编码层以及注意力模块，其中，每个编码层用于对待识别语音数据X和文本数据C执行一层编码处理，注意力模块用于结合解码模型2在上一时刻的解码状态形成注意力权重，然后将该权重与编码模型最后一个编码层输出的特征向量按向量维度进行加权求和，得到当前时刻语音数据的语音特征向量。

另一方面，如图6所示的，用于实现本申请所提出的语音识别方法中的属性信息识别和语音内容识别的解码模型2具有学习领域单一性限制。即，解码模型只能学习针对某一种特定形式的特征的解码能力，当解码模型再学习针对其他形式的特征的解码能力时，就会丧失之前学习的解码能力。例如，假设同一个解码模型，已经经过训练获得了语音特征解码能力，当再次用文本特征对该解码模型进行解码训练时，由于文本特征与语音特征的表示形式不同，该解码模型就会慢慢学习对文本特征的解码能力，同时慢慢丧失先前已经获得的语音特征解码能力。

鉴于解码模型2的上述特点，本申请实施例在将上述的语言编码器31和文本编码器32同时用于对解码模型2的训练时，对语音编码器31和文本编码器32进行联合训练处理，使语音编码器31输出的语音特征与文本编码器32输出的文本特征的特征表征分布相同，然后将语音编码器31和文本编码器32输出的特征表征分布相同的语音特征和文本特征，都作为对解码模型2进行训练的训练数据，用于执行后续对解码模型2的训练。

上述语音编码器31输出的语音特征与文本编码器32输出的文本特征的特征表征分布相同，即是指语音特征与文本特征符合相同的特征分布。例如，当上述语音特征和文本特征均以特征向量的形式表示时，假设语音特征向量所表示的特征符合高斯分布，则当文本特征向量所表示的特征也符合高斯分布时，该语音特征向量与该文本特征向量的特征表征分布相同。

上述的联合训练处理，可以使语音编码器31和文本编码器32在相同的编码矢量空间对语音训练样本和文本训练样本进行特征编码，最终编码得到的语音特征和文本特征的特征表征分布相同。

将特征表征分布相同的特征样本作为解码训练特征样本输入解码模型2进行训练，解码模型2不会因为获取的特征的特征表征分布不同而发生训练混乱的现象，能够一致性地提升训练效果。

在本申请的另一实施例中，公开了对上述语音编码器31和文本编码器32进行联合训练处理的具体过程。

参见图7所示，本申请实施例借助预先训练的判别器模型40实现对上述语音编码器31和文本编码器32的联合训练处理。

上述判别器模型40至少通过识别文本特征样本和语音特征样本训练得到。具体的，将预设的文本特征样本和语音特征样本(可以是语音编码器31输出的语音特征，以及文本编码器32输出的文本特征)分别输入上述判别器模型40进行训练，使判别器模型40对文本特征样本和语音特征样本进行区分识别，当判别器模型40能够准确地区分识别输入的任意文本特征样本和语音特征样本时，固定判别器模型40的运算参数。此时，判别器模型40的训练过程完成，其具备了准确区分识别文本特征和语音特征的能力。

然后，如图7所示，将上述判别器模型40加入对语音编码器31和文本编码器32的联合训练处理。

此时，利用上述判别器模型40分别识别上述语音编码器31输出的语音特征和上述文本编码器32输出的文本特征；

当判别器模型40能够区分识别上述语音编码器31输出的语音特征和文本编码器32输出的文本特征时，根据判别器模型40的负交叉熵梯度，对上述语音编码器31和文本编码器32的参数进行校正。

其中，上述判别器模型40的负交叉熵梯度，是指判别器模型40由能够准确区分上述语音编码器31输出的语音特征和上述文本编码器32输出的文本特征，到无法区分上述语音编码器31输出的语音特征和上述文本编码器32输出的文本特征的变化梯度。

按照上述负交叉熵梯度，对上述语音编码器31和文本编码器32的参数进行校正，并且再次利用判别器模型40分别识别参数校正后的语音编码器31与文本编码器32输出的特征。重复上述特征识别和参数校正处理，使判别器模型40沿着其负交叉熵梯度，以最快的速度表现出无法区分识别语音编码器31和文本编码器32输出的特征。此时，可以认为语音编码器31输出的语音特征与文本编码器32输出的文本特征的特征表征分布相同，以至于上述的判别器模型40已经无法区分。

作为一种可选的实现方式，利用预先训练的判别器模型40分别识别上述语音编码器31输出的语音特征和上述文本编码器32输出的文本特征时，为了保证语音特征和文本特征的可比性，参见图7所示，本申请实施例对语音编码器31输出的语音特征和文本编码器32输出的文本特征分别进行平均池化后，再由判别器模型40的判别器进行区分识别。示例性的，利用上述预先训练的判别器模型40，分别识别语音编码器31输出的语音特征向量的平均池化向量，以及文本编码器32输出的文本特征向量的平均池化向量。

进一步的，为了保证训练的语音编码器31和文本编码器32输出的特征被图7所示的解码模型2高效解码，从而加速对解码模型2的训练过程以及提升训练效果，本申请实施例在根据判别器模型40的识别结果对语音编码器31和文本编码器32的参数进行校正时，还以解码模型2的梯度作为参数校正的参考，即同时根据解码模型2的梯度，对上述语音编码器31和文本编码器32的参数进行校正。此时，在语音编码器31和文本编码器32的参数被校正后，在使得两者输出的特征的特征表征分布相同的同时，还使得两者输出的特征能够更高效地被解码模型2解码，从而提升模型训练效果，更利于提升模型语音识别效率。

具体的，假设此时解码模型2的损失函数为L_D1，包含语音数据解码损失与文本数据解码损失。其中，由语音数据解码产生的解码模型2的交叉熵损失函数为L_D1S，由文本数据解码产生的解码模型2的交叉熵损失函数为L_D1T。而判别器模型40的交叉熵损失函数为L_D2，则图7所示的语音识别***各部分网络参数的更新策略如下：

其中θ_E1为语音编码器31的网络参数，θ_E2为文本编码器32的网络参数，θ_D1为解码模型2的网络参数，θ_D2为判别器模型40的网络参数，l为学习率。

按照上述策略所示的计算公式，在上述的联合训练处理过程中对各网络参数进行校正，直到上述的L_D1S和L_D1T不再变化时停止训练过程。

通过上述介绍的联合训练处理，图7所示的语音编码器31和文本编码器32输出的特征的特征表征分布逐步趋于相同，此时继续将语音编码器31和文本编码器32输出的特征用于对解码模型2进行训练，逐步完成对解码模型2的功能训练。

在完成对解码模型2的训练后，即可将图7所述的语音识别***中的文本编码器32和判别器模型40省去，只保留经过与文本编码器32经过联合训练处理后的语音编码器31以及解码模型2，组成语音识别***模型。此时的语音识别***中的语音编码器31即相当于图2所示的编码模型1。

相对应的，执行图1所示的本申请实施例所提出的语音识别方法的处理步骤S101，提取待识别语音数据的语音特征时，将待识别语音数据输入与上述文本编码器32经过联合训练处理后的上述语音编码器31，提取得到待识别语音数据的语音特征。

可以理解，由于在本申请上述实施例中已介绍，图2所示的解码模型2的训练是基于联合训练的语音编码器31和文本编码器32而进行的，因此在实际应用该解码模型2执行语音识别时，也只能针对与上述语音编码器32输出的特征的特征表征分布相同的特征而进行。因此，本申请实施例直接将用于对上述解码模型2进行训练的语音编码器31，作为整个语音识别***的编码模型，可以保证语音识别***功能的有效性。

与上述语音识别方法相对应的，本申请实施例还提供了一种语音识别装置，参见图8所示，该装置包括：

特征提取单元100，用于提取待识别语音数据的语音特征；

属性确定单元110，用于根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息；

内容识别单元120，用于根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容。

本申请实施例提出的语音识别装置由特征提取单元100提取待识别语音数据的语音特征，在对待识别语音数据的语音特征进行识别处理时，先由属性确定单元110识别待识别语音数据的语音内容的属性信息，然后由内容识别单元120以该属性信息为参考，再识别待识别语音数据的语音内容，经过上述过程的处理识别得到的内容包括语音内容的属性信息和具体的语音内容两方面的信息，可以有效避免由于无法区分语音内容的属性而出现识别混淆的现象，利于提升语音识别准确度。

可选的，在本申请的另一个实施例中提出，所述属性信息包括语言成分信息，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

相应的，所述属性确定单元110根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息时，具体用于：

可选的，在本申请的另一个实施例中提出，所述属性信息还包括词性类型信息；

相应的，所述属性确定单元110根据所述语音特征，确定所述待识别语音数据的语音内容的属性信息时，还用于：

可选的，在本申请的另一个实施例中提出，所述属性信息包括语言成分信息及词性类型信息；其中，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

作为一种可选的实现方式，所述内容识别单元120根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容时，具体用于：

在一种可选的实现方式中，所述解码训练特征样本包括语音特征样本和文本特征样本。

作为一种可选的实现方式，所述语音特征样本由预设的语音编码器对语音训练样本进行语音特征提取得到；以及，所述文本特征样本由预设的文本编码器对文本训练样本进行文本特征提取得到；

作为一种可选的实现方式，所述语音编码器和所述文本编码器的联合训练处理过程，包括：

作为一种可选的实现方式，所述利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征，包括：

作为一种可选的实现方式，所述提取待识别语音的语音特征，包括：

本申请另一实施例还提供了一种语音识别设备，参见图9所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现以下功能：

具体的，上述语音识别设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音识别方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的语音识别方法的各个步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和单元可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块可以结合或者可以集成到另一个模块或单元，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元的部件可以是或者也可以不是物理模块或单元，即可以位于一个地方，或者也可以分布到多个网络模块或单元上。可以根据实际的需要选择其中的部分或者全部模块或单元来实现本实施例方案的目的。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

提取待识别语音数据的语音特征；

2.根据权利要求1所述的方法，其特征在于，所述属性信息包括语言成分信息，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

3.根据权利要求2所述的方法，其特征在于，所述属性信息还包括词性类型信息；

4.根据权利要求1所述的方法，其特征在于，所述属性信息包括语言成分信息及词性类型信息；其中，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容，包括：

6.根据权利要求1至5中任一权利要求所述的方法，其特征在于，所述解码训练特征样本包括语音特征样本和文本特征样本。

7.根据权利要求6所述的方法，其特征在于，所述语音特征样本由预设的语音编码器对语音训练样本进行语音特征提取得到；以及，所述文本特征样本由预设的文本编码器对文本训练样本进行文本特征提取得到；

8.根据权利要求7所述的方法，其特征在于，所述语音编码器和所述文本编码器的联合训练处理过程，包括：

利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征；其中，所述判别器模型至少通过识别文本特征样本和语音特征样本训练得到；

9.根据权利要求8所述的方法，其特征在于，所述利用预先训练的判别器模型，分别识别所述文本编码器输出的文本特征和所述语音编码器输出的语音特征，包括：

10.根据权利要求7至9中任一权利要求所述的方法，其特征在于，所述提取待识别语音的语音特征，包括：

11.一种语音识别装置，其特征在于，包括：

特征提取单元，用于提取待识别语音数据的语音特征；

12.根据权利要求11所述的装置，其特征在于，所述属性信息包括语言成分信息，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

13.根据权利要求12所述的装置，其特征在于，所述属性信息还包括词性类型信息；

14.根据权利要求11所述的装置，其特征在于，所述属性信息包括语言成分信息及词性类型信息；其中，所述语言成分信息表示语音内容在其所构成的整词和/或语句中的成分属性；

15.根据权利要求11所述的装置，其特征在于，所述内容识别单元根据所述语音特征，以及所述待识别语音数据的语音内容的属性信息，确定所述待识别语音数据的语音内容时，具体用于：

16.一种语音识别设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

17.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至10中任一权利要求所述的语音识别方法的各个步骤。