CN113409793B

CN113409793B - 语音识别方法及智能家居***、会议设备、计算设备

Info

Publication number: CN113409793B
Application number: CN202010129820.6A
Authority: CN
Inventors: 郑斯奇; 雷赟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2024-05-17
Anticipated expiration: 2040-02-28
Also published as: CN113409793A

Abstract

本申请公开了一种语音识别方法及智能家居***、会议设备、计算设备。其中，该方法包括：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。本申请解决了与短时文本无关任务对应的语音识别方案准确率较低的技术问题。

Description

语音识别方法及智能家居***、会议设备、计算设备

技术领域

本申请涉及语音识别领域，具体而言，涉及一种语音识别方法及智能家居***、会议设备、计算设备。

背景技术

说话人识别技术是一种通过声音识别说话人的身份的技术。目前说话人识别技术在工业界的落地应用，主要都是短时文本相关场景，即固定说话人所说的文本内容，如智能家居的唤醒词；或是长时文本无关，即不规定说话人所说内容，但是对说话时长要求比较长。对于短时文本无关任务，利用传统说话人识别技术进行语音识别，识别准确率较低，无法达到商用级别。

针对现阶段与短时文本无关任务对应的语音识别方案准确率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音识别方法及智能家居***、会议设备、计算设备，以至少解决与短时文本无关任务对应的语音识别方案准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种语音识别方法，包括：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型中的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

根据本申请实施例的另一方面，还提供了另一种语音识别方法，包括：接收目标对象的语音信息；将目标对象的语音信息输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息以及与身份信息对应的语音内容，其中，目标机器学习模型中每个网络层的输入为第一机器学习模型和第二机器学习模型中与每个网络层的输出结果；对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

根据本申请实施例的另一方面，还提供了一种智能家居***，包括至少一个家电设备和控制设备，其中，至少一个家电设备，用于采集至少一个家电设备所在空间内目标对象的语音信息，以及接收来自控制设备的控制指令；控制设备，用于接收语音信息，并将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；基于语音内容生成控制指令，并将控制指令发送至至少一个家电设备。

根据本申请实施例的另一方面，还提供了一种会议设备，包括：至少一个语音采集设备，用于采集至少一个语音采集设备所在空间内的至少一个目标对象的语音信息；控制器，用于获取语音信息，并将语音信息输入至第一机器学习模型，并将第一机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，目标机器学习模型用于识别目标对象的身份信息和与身份信息对应的语音内容，第一机器学习模型为对至少一个目标对象的声学特征进行识别的模型。

根据本申请实施例的另一方面，还提供了另一种会议设备，包括：至少一个语音采集设备，用于采集至少一个语音采集设备所在空间内的至少一个目标对象的语音信息；控制器，用于获取语音信息，并将语音信息输入至第二机器学习模型，并将第二机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，目标机器学习模型用于识别目标对象的身份信息和与身份信息对应的语音内容，第二机器学习模型为对至少一个目标对象的语音信息进行内容识别的模型。

根据本申请实施例的另一方面，还提供了另一种语音识别方法，包括：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第二机器学习模型，将第二机器学习模型中网络层的输出结果输入至第一机器学习模型，将第一机器学习模型中网络层的输出结果输入至目标机器学习模型中的相应网络层进行分析，以得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

根据本申请实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以上的语音识别方法。

根据本申请实施例的再一方面，还提供了一种计算设备，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

在本申请实施例中，采用采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容的方式，通过将三种神经网路进行组合，利用这三种相互关联的神经网络对目标对象的语音信息进行识别，从而实现了提高短时文本无关任务的语音识别的准确率的技术效果，进而解决了与短时文本无关任务对应的语音识别方案准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了一种用于实现语音识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种语音识别方法的流程图；

图3是根据本申请实施例的一种神经网络模型的示意图；

图4是根据本申请实施例的另一种语音识别方法的流程图；

图5是根据本申请实施例的一种智能家居***的结构图；

图6是根据本申请实施例的一种计算机终端的结构框图；

图7是根据本申请实施例的一种用户通过语音唤醒智能家电设备的应用场景示意图；

图8是根据本申请实施例的一种会议设备的结构示意图；

图9是根据本申请实施例的另一种会议设备的结构示意图；

图10是根据本申请实施例的另一种语音识别方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

说话人识别：通过声音，识别确认说话人的身份。

短时文本无关任务：对说话人所说的内容，不做限制，同时，语音较短(如：小于5秒)。

实施例1

根据本申请实施例，还提供了一种语音识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的语音识别方法。图2是根据本申请实施例的一种语音识别方法的流程图，如图2所示，该方法包括以下步骤：

步骤S202，采集至少一个目标对象的语音信息。

根据本申请的一个可选的实施例，步骤S202中的语音信息为短时文本无关任务对应的语音信息，短时文本无关任务的语音识别主要应用于家电设备的唤醒词，例如、“你好电视”等。

步骤S204，将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容。

在本申请的一个可选的实施例中，上述第一机器学习模型为对上述至少一个目标对象的声学特征进行识别的模型；第二机器学习模型为对至少一个目标对象的语音信息进行内容识别的模型。

在本申请的一个可选的实施例中，上述第一机器学习模型、第二机器学习模型和目标机器学习模型是三个相互独立又相互链接的神经网络学习模型。图3是根据本申请实施例的一种神经网络模型的示意图，如图3所示，该神经网络学习模型由左、中、右三个独立又相互链接的神经网络组成。最左边的网络与传统声纹识别网络相似，其输入为声学特征。最右边的网络，输入的是语音识别网络中提取的隐藏特征，代表了语音的内容。中间的网络，由两者的交叉链接形成。

步骤S206，输出语音内容。

通过上述方法，通过将三种神经网路进行组合，利用这三种相互关联的神经网络对目标对象的语音信息进行识别，从而实现了提高短时文本无关任务的语音识别的准确率的技术效果。

根据本申请的一个可选的实施例，上述目标机器学习模型为通过以下方式训练得到的：获取用于对目标机器学习模型进行训练的多组训练数据，其中，每组训练数据中均包括一个三元组信息，该三元组信息包括：第一样本对象的不同语音信息；第二样本对象的语音信息；将多组训练数据分别输入至目标机器学习模型进行训练，直至目标机器学习模型的预测结果满足预设条件。

上述第一样本对象和第二样本对象分别指不同的说话人。

在本申请的一个可选的实施例中，将多组训练数据分别输入值目标机器学习模型进行训练，包括：在预测结果不满足预设条件时，对第一样本对象的不同语音信息以及第二样本对象的语音信息的权重进行调整，直至目标机器学习模型的预测结果满足预设条件。

根据本申请的一个可选的实施例，对第一样本对象的不同语音信息以及第二样本对象的语音信息的权重进行调整时，可以包括以下处理过程：增大第一样本对象的不同语音信息的权重；和/或减小第二样本对象的语音信息的权重。例如，通过triplet loss进行端到端的识别，可以对不同语音内容进行更好的归一化处理。例如，同一人说不同的内容时，可以将跟声音特质相关的信息赋予更多权重，从而使两个点尽可能接近。如果不同人说同样的内容，上述目标模型也能尽可能摒弃内容相关的信息，而找出不同人声纹相关的差异性。

在本申请的另一个可选的实施例中，将多组训练数据分别输入至目标机器学习模型进行训练，包括：在预测结果不满足预设条件时，对目标机器学习模型的损失函数进行调整，直至第一样本对象的不同语音信息的特征向量之间的样本距离小于第二样本对象与指定语音信息的特征向量之间的样本距离，其中，指定语音信息为第一样本对象的不同语音信息的特征向量中的任意一个特征向量。

上述目标机器学习模型与主流声纹识别框架不同，该神经网络采用端到端triplet loss的损失函数。triplet loss是深度学习的一种损失函数，同于训练差异性较小的样本，包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。

上述目标机器学习模型摒弃了传统的后端线性判别分析(Linear DiscriminantAnalysis，LDA)和PLDA(PLDA用来处理说话人和信道的变形)打分，通过直接对不同的三元组之间的比较，计算loss的损失函数。

通过上述方法，基于triplet loss损失函数，结合语音识别信息进行端到端的说话人识别，相对于传统的说话人识别技术，可以大大提高对短时文本无关任务的语音识别的准确率。

在本申请的一些可选的实施例中，上述语音识别方法还包括：对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

在识别出与目标对象的身份信息对应的语音内容后，可以进一步对目标对象的身份进行验证，只有在验证通过时才执行与语音内容对应的操作。例如，在具体应用时，用户通过唤醒词对智能家电设备进行语音控制，用户发出“开启空调”的语音控制指令后，空调设备上的控制器通过上述语音识别方法在识别出该语音控制指令后，还需要进一步判断该用户是否对该空调设备具备控制权限，在判断出该用户对空调设备具备控制权限后，才空调执行与语音控制指令对应的操作。通过该方法，可以对用户权限进行限定，提高家电设备的操作的安全性。

图7是根据本申请实施例的一种用户通过语音唤醒智能家电设备的应用场景示意图，如图7所示，智能家电设备的处理器运行由上述第一机器学习模型、第二机器学习模型和目标机器学习模型组成的神经网络***。当用户发出唤醒智能家电设备的语音控制指令后，智能家电设备通过设备上的话筒采集用户发出的语音控制指令，将语音控制指令发送至处理器，处理器通过执行以下方法对语音控制指令对应的语音信息进行处理：

步骤S702，采集至少一个目标对象的语音信息；

步骤S704，将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；

步骤S706，输出语音内容。

具体的，如果同一用户说不同的内容时，该神经网络***可以将跟声音特质相关的信息赋予更多权重。如果不同用户说同样的内容，上述神经网络***也能尽可能摒弃内容相关的信息，而找出不同人声纹相关的差异性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语音识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

图4是根据本申请实施例的另一种语音识别方法的流程图，如图4所示，该方法包括以下步骤：

步骤S402，接收目标对象的语音信息。

根据本申请的一个可选的实施例，上述语音信息为短时文本无关任务对应的语音信息，短时文本无关任务的语音识别主要应用于家电设备的唤醒词。

步骤S404，将目标对象的语音信息输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息以及与身份信息对应的语音内容，其中，目标机器学习模型中每个网络层的输入为第一机器学习模型和第二机器学习模型中与每个网络层的输出结果。

根据本申请的一个可选的实施例，第一机器学习模型为对所述目标对象的声学特征进行识别的模型；所述第二机器学习模型为对所述目标对象的语音信息进行内容识别的模型。

上述第一机器学习模型、第二机器学习模型和目标机器学习模型是三个相互独立又相互链接的神经网络。该神经网络由左、中、右三个独立又相互链接的神经网络组成。最左边的网络独立出来看，与传统声纹识别网络相似，其输入为声学特征。最右边的网络，输入的是语音识别网络中提取的隐藏特征，代表了语音的内容。中间的网络，由两者的交叉链接形成。

步骤S406，对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

需要说明的是，图4所示实施例的优选实施方式可以参见图1所示实施例的相关描述，此处不再赘述。

实施例3

图5是根据本申请实施例的一种智能家居***的结构图，如图5所示，该***包括至少一个家电设备50和控制设备52，其中，

至少一个家电设备50，用于采集至少一个家电设备50所在空间内目标对象的语音信息，以及接收来自控制设备52的控制指令；

根据本申请的一个可选的实施例，上述语音信息为短时文本无关任务对应的语音信息，短时文本无关任务的语音识别主要应用于家电设备的唤醒词，例如、“你好电视”等。家电设备50包括但不限于智能空调、智能电视。智能音响的设备。

控制设备52，用于接收语音信息，并将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；基于语音内容生成控制指令，并将控制指令发送至至少一个家电设备。

在本申请的一个可选的实施例中，上述第一机器学习模型、第二机器学习模型和目标机器学习模型是三个相互独立又相互链接的神经网络。图3是根据本申请实施例的一种神经网络模型的示意图，如图3所示，该神经网络由左、中、右三个独立又相互链接的神经网络组成。最左边的网络独立出来看，与传统声纹识别网络相似，其输入为声学特征。最右边的网络，输入的是语音识别网络中提取的隐藏特征，代表了语音的内容。中间的网络，由两者的交叉链接形成。

优选地，控制设备52在识别出与目标对象的身份信息对应的语音内容后，可以进一步对目标对象的身份进行验证，只有在验证通过时才执行与语音内容对应的操作。例如，在具体应用时，用户通过唤醒词对智能空调设备进行语音控制，用户发出“开启空调”的语音控制指令后，控制设备52通过上述语音识别方法在识别出该语音控制指令后，还需要进一步判断该用户是否对该空调设备具备控制权限，在判断出该用户对空调设备具备控制权限后，才控制空调设备执行与语音控制指令对应的操作。通过该方法，可以对用户权限进行限定，提高家电设备的操作的安全性。

通过上述***，可以实现提高短时文本无关任务的语音识别的准确率的技术效果。

需要说明的，图5所示实施例的优选实施方式可以参见图2所示实施例的相关描述，此处不再赘述。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的语音识别方法中以下步骤的程序代码：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

可选地，图6是根据本申请实施例的一种计算机终端的结构框图。如图6所示，该计算机终端60可以包括：一个或多个(图中仅示出一个)处理器602、存储器604、以及射频模块、音频模块及显示屏。

其中，存储器604可用于存储软件程序以及模块，如本申请实施例中的语音识别方法和装置对应的程序指令/模块，处理器602通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端60。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

可选的，上述处理器还可以执行如下步骤的程序代码：获取用于对目标机器学习模型进行训练的多组训练数据，其中，每组训练数据中均包括一个三元组信息，该三元组信息包括：第一样本对象的不同语音信息；第二样本对象的语音信息；将多组训练数据分别输入至目标机器学习模型的相应网络层进行训练，直至目标机器学习模型的预测结果满足预设条件。

可选的，上述处理器还可以执行如下步骤的程序代码：在预测结果不满足预设条件时，对第一样本对象的不同语音信息以及第二样本对象的语音信息的权重进行调整，直至目标机器学习模型的预测结果满足预设条件。

可选的，上述处理器还可以执行如下步骤的程序代码：增大所述第一样本对象的不同语音信息的权重；和/或减小所述第二样本对象的语音信息的权重。

可选的，上述处理器还可以执行如下步骤的程序代码：在预测结果不满足预设条件时，对目标机器学习模型的损失函数进行调整，直至第一样本对象的不同语音信息的特征向量之间的样本距离小于第二样本对象与指定语音信息的特征向量之间的样本距离，其中，指定语音信息为第一样本对象的不同语音信息的特征向量中的任意一个特征向量。

可选的，上述处理器还可以执行如下步骤的程序代码：对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

根据本申请的一个可选的实施例，处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收目标对象的语音信息；将目标对象的语音信息输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息以及与身份信息对应的语音内容，其中，目标机器学习模型中每个网络层的输入为第一机器学习模型和第二机器学习模型中与每个网络层的输出结果；对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

根据本申请的一个可选的实施例，处理器还可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第二机器学习模型，将第二机器学习模型中网络层的输出结果输入至第一机器学习模型，将第一机器学习模型中网络层的输出结果输入至目标机器学习模型中的相应网络层进行分析，以得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

采用本申请实施例，提供了一种语音识别的方案。通过将三种神经网路进行组合，利用这三种相互关联的神经网络对目标对象的语音信息进行识别，从而达到了提高短时文本无关任务的语音识别的准确率的目的，进而解决了与短时文本无关任务对应的语音识别方案准确率较低的技术问题。

本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端60还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的语音识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

可选地，上述存储介质还用于存储执行以下步骤的程序代码：获取用于对目标机器学习模型进行训练的多组训练数据，其中，每组训练数据中均包括一个三元组信息，该三元组信息包括：第一样本对象的不同语音信息；第二样本对象的语音信息；将多组训练数据分别输入至目标机器学习模型的相应网络层进行训练，直至目标机器学习模型的预测结果满足预设条件。

可选地，上述存储介质还用于存储执行以下步骤的程序代码：在预测结果不满足预设条件时，对第一样本对象的不同语音信息以及第二样本对象的语音信息的权重进行调整，直至目标机器学习模型的预测结果满足预设条件。

可选地，上述存储介质还用于存储执行以下步骤的程序代码：增大所述第一样本对象的不同语音信息的权重；和/或减小所述第二样本对象的语音信息的权重。

可选地，上述存储介质还用于存储执行以下步骤的程序代码：在预测结果不满足预设条件时，对目标机器学习模型的损失函数进行调整，直至第一样本对象的不同语音信息的特征向量之间的样本距离小于第二样本对象与指定语音信息的特征向量之间的样本距离，其中，指定语音信息为第一样本对象的不同语音信息的特征向量中的任意一个特征向量。

可选地，上述存储介质还用于存储执行以下步骤的程序代码：对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：接收目标对象的语音信息；将目标对象的语音信息输入至目标机器学习模型的相应网络层进行分析，得到目标对象的身份信息以及与身份信息对应的语音内容，其中，目标机器学习模型中每个网络层的输入为第一机器学习模型和第二机器学习模型中与每个网络层的输出结果；对身份信息进行验证，并在验证通过时，执行与语音内容对应的操作。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：采集至少一个目标对象的语音信息；将至少一个目标对象的语音信息输入至第二机器学习模型，将第二机器学习模型中网络层的输出结果输入至第一机器学习模型，将第一机器学习模型中网络层的输出结果输入至目标机器学习模型中的相应网络层进行分析，以得到目标对象的身份信息和与身份信息对应的语音内容；输出语音内容。

实施例5

图8是根据本申请实施例的一种会议设备的结构示意图，如图8所示，该会议设备包括：

至少一个语音采集设备80，用于采集至少一个语音采集设备所在空间内的至少一个目标对象的语音信息。语音采集设备80可以是麦克风阵列，

控制器82，用于获取语音信息，并将语音信息输入至第一机器学习模型，并将第一机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，目标机器学习模型用于识别目标对象的身份信息和与身份信息对应的语音内容，第一机器学习模型为对至少一个目标对象的声学特征进行识别的模型。

根据本申请的一个可选的实施例，第一机器学习模型可以识别目标对象声纹特征，利用第一机器学习模型对目标对象的语音信息进行识别后，将声纹识别结果输入至目标机器学习模型进行进一步处理，需要说明的是，目标机器学习模型可以结合其他机器学习模型对声纹识别结果进一步处理，例如，可以结合语音内容识别模型进一步识别与识别出的声纹结果对应的语音内容。

需要说明的是，图8所示实施例的优选实施方式可以参见图2所述实施例的相关描述，此处不再赘述。

实施例6

图9是根据本申请实施例的另一种会议设备的结构示意图，如图9所示，该会议设备包括：

至少一个语音采集设备90，用于采集至少一个语音采集设备所在空间内的至少一个目标对象的语音信息。语音采集设备90可以是麦克风阵列。

控制器92，用于获取语音信息，并将语音信息输入至第二机器学习模型，并将第二机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，目标机器学习模型用于识别目标对象的身份信息和与身份信息对应的语音内容，第二机器学习模型为对至少一个目标对象的语音信息进行内容识别的模型。

根据本申请的一个可选的实施例，第二机器学习模型可以识别目标对象的语音信息的语音内容，利用第二机器学习模型对目标对象的语音信息进行识别后，将语音内容识别结果输入至目标机器学习模型进行进一步处理，需要说明的是，目标机器学习模型可以结合其他机器学习模型对语音内容识别结果进一步处理，例如，可以结合声纹特征识别模型进一步识别与识别出与该语音内容对应的声纹特征。

需要说明的是，图9所示实施例的优选实施方式可以参见图2所述实施例的相关描述，此处不再赘述。

实施例7

图10是根据本申请实施例的另一种语音识别方法的流程图，如图10所示，该方法包括以下步骤：

步骤S1002，采集至少一个目标对象的语音信息。

根据本申请的一个可选的实施例，步骤S1002中的语音信息为短时文本无关任务对应的语音信息，短时文本无关任务的语音识别主要应用于家电设备的唤醒词，例如、“你好电视”等。

步骤S1004，将至少一个目标对象的语音信息输入至第二机器学习模型，将第二机器学习模型中网络层的输出结果输入至第一机器学习模型，将第一机器学习模型中网络层的输出结果输入至目标机器学习模型中的相应网络层进行分析，以得到目标对象的身份信息和与身份信息对应的语音内容。

根据本申请的一个可选的实施例，上述第一机器学习模型为对至少一个目标对象的声学特征进行识别的模型；上述第二机器学习模型为对至少一个目标对象的语音信息进行内容识别的模型。

在本申请的一个可选的实施例中，上述第一机器学习模型、第二机器学习模型和目标机器学习模型是三个相互独立又相互链接的神经网络学习模型。在本实施例中，首先将采集的语音信息输入至语音内容识别模型(第二机器学习模型)进行识别，待语音内容识别完成后，引入声学特征识别模型(第一机器学习模型)继续进行识别，然后将第一机器学习模型的输出结果输入至目标机器学习模型的相应晚会罗曾进行分析，最终得到目标对象的身份信息和与身份信息对应的语音内容。

步骤S1006，输出语音内容。

需要说明的是，图10所示实施例的优选实施方式可以参见图2所述实施例的相关描述，此处不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

采集至少一个目标对象的语音信息；

将所述至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将所述第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型中的相应网络层进行分析，得到所述目标对象的身份信息和与所述身份信息对应的语音内容；

输出所述语音内容。

2.根据权利要求1所述的方法，其特征在于，所述目标机器学习模型为通过以下方式训练得到的：

获取用于对所述目标机器学习模型进行训练的多组训练数据，其中，每组训练数据中均包括一个三元组信息，该三元组信息包括：第一样本对象的不同语音信息；第二样本对象的语音信息；

将所述多组训练数据分别输入至所述目标机器学习模型进行训练，直至所述目标机器学习模型的预测结果满足预设条件。

3.根据权利要求2所述的方法，其特征在于，将所述多组训练数据分别输入值所述目标机器学习模型进行训练，包括：

在所述预测结果不满足所述预设条件时，对所述第一样本对象的不同语音信息以及所述第二样本对象的语音信息的权重进行调整，直至所述目标机器学习模型的预测结果满足所述预设条件。

4.根据权利要求3所述的方法，其特征在于，对所述第一样本对象的不同语音信息以及所述第二样本对象的语音信息的权重进行调整，包括：

增大所述第一样本对象的不同语音信息的权重；和/或

减小所述第二样本对象的语音信息的权重。

5.根据权利要求1所述的方法，其特征在于，所述第一机器学习模型为对所述至少一个目标对象的声学特征进行识别的模型；所述第二机器学习模型为对所述至少一个目标对象的语音信息进行内容识别的模型。

6.根据权利要求2所述的方法，其特征在于，将所述多组训练数据分别输入至所述目标机器学习模型进行训练，包括：

在所述预测结果不满足所述预设条件时，对所述目标机器学习模型的损失函数进行调整，直至所述第一样本对象的不同语音信息的特征向量之间的样本距离小于所述第二样本对象与指定语音信息的特征向量之间的样本距离，其中，所述指定语音信息为所述第一样本对象的不同语音信息的特征向量中的任意一个特征向量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述身份信息进行验证，并在验证通过时，执行与所述语音内容对应的操作。

8.一种语音识别方法，其特征在于，包括：

接收目标对象的语音信息；

将所述目标对象的语音信息输入至目标机器学习模型的相应网络层进行分析，得到所述目标对象的身份信息以及与所述身份信息对应的语音内容，其中，所述目标机器学习模型中每个网络层的输入为第一机器学习模型和第二机器学习模型中与所述每个网络层的输出结果；

9.根据权利要求8所述的方法，其特征在于，所述第一机器学习模型为对所述目标对象的声学特征进行识别的模型；所述第二机器学习模型为对所述目标对象的语音信息进行内容识别的模型。

10.一种智能家居***，其特征在于，包括至少一个家电设备和控制设备，其中，

所述至少一个家电设备，用于采集所述至少一个家电设备所在空间内目标对象的语音信息，以及接收来自所述控制设备的控制指令；

控制设备，用于接收所述语音信息，并将所述至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将所述第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到所述目标对象的身份信息和与所述身份信息对应的语音内容；基于所述语音内容生成所述控制指令，并将控制指令发送至所述至少一个家电设备。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的语音识别方法。

12.一种计算设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：采集至少一个目标对象的语音信息；将所述至少一个目标对象的语音信息输入至第一机器学习模型和第二机器学习模型，并将所述第一机器学习模型和第二机器学习模型中每个网络层的输出结果共同输入至目标机器学习模型的相应网络层进行分析，得到所述目标对象的身份信息和与所述身份信息对应的语音内容；输出所述语音内容。

13.一种会议设备，其特征在于，包括：

至少一个语音采集设备，用于采集所述至少一个语音采集设备所在空间内的至少一个目标对象的语音信息；

控制器，用于获取所述语音信息，并将所述语音信息输入至第一机器学习模型，并将所述第一机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，所述目标机器学习模型用于识别所述目标对象的身份信息和与所述身份信息对应的语音内容，所述第一机器学习模型为对所述至少一个目标对象的声学特征进行识别的模型。

14.一种会议设备，其特征在于，包括：

控制器，用于获取所述语音信息，并将所述语音信息输入至第二机器学习模型，并将所述第二机器学习模型中每个网络层的输出结果输入至目标机器学习模型中的相应网络层，其中，所述目标机器学习模型用于识别所述目标对象的身份信息和与所述身份信息对应的语音内容，所述第二机器学习模型为对所述至少一个目标对象的语音信息进行内容识别的模型。

15.一种语音识别方法，其特征在于，包括：

采集至少一个目标对象的语音信息；

将所述至少一个目标对象的语音信息输入至第二机器学习模型，将所述第二机器学习模型中网络层的输出结果输入至第一机器学习模型，将所述第一机器学习模型中网络层的输出结果输入至目标机器学习模型中的相应网络层进行分析，以得到所述目标对象的身份信息和与所述身份信息对应的语音内容；

输出所述语音内容。

16.根据权利要求15所述的方法，其特征在于，所述第一机器学习模型为对所述至少一个目标对象的声学特征进行识别的模型；所述第二机器学习模型为对所述至少一个目标对象的语音信息进行内容识别的模型。