CN109741747B

CN109741747B - 语音场景识别方法和装置、语音控制方法和设备、空调

Info

Publication number: CN109741747B
Application number: CN201910122448.3A
Authority: CN
Inventors: 李明杰; 宋德超; 贾巨涛; 吴伟; 胡天云
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2021-02-12
Anticipated expiration: 2039-02-19
Also published as: CN109741747A

Abstract

本申请提出一种语音场景识别方法和装置、语音控制方法和设备、空调，其中语音场景识别装置包括：模型单元，用于建立和训练神经网络模型，神经网络模型的输入值包括语音数据和环境类数据，神经网络模型的输出值包括语音数据和环境类数据对应的场景类型；语音单元，用于获取待识别语音数据和待识别环境类数据；识别单元，用于采用神经网络模型确定待识别语音数据和待识别环境类数据对应的目标场景类型；其中，环境类数据包括室内面积、室内温度、室内空调的运行参数、室内空调的耗电量和/或室外天气状况。从而解决了传统模型没有考虑到环境类数据导致的场景类别识别准确度低和实时性差的问题。

Description

语音场景识别方法和装置、语音控制方法和设备、空调

技术领域

本申请涉及语音识别领域，特别涉及语音场景识别方法和装置、语音控制方法和设备、空调。

背景技术

随着智能家居***的不断发展，在语音空调使用的过程中，对于周边环境不同语音场景的感知和识别成为研究热点。

在现有技术中，语音场景识别***多采用编码器-解码器(Encode-Decode)结构的模型并取得了一定的效果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示，对应长度较短的输入序列而言，该模型能够学习出对应合理的向量表示，但对于输入序列较长时，该模型难以学到合理的向量表示。语音场景的识别的过程中，输入序列是长语音音频，属于长序列，故传统模型不适用于语音场景识别，并且传统的语音场景识别主要针对单个场景进行识别，存在识别准确度低、场景单一、实时性差等问题。此外，传统的模型仅仅考虑到了语音数据与场景类型的关系，实际上环境类数据与场景类型也存在密切联系，现有技术中没有考虑到环境类数据与场景类型的联系。

发明内容

本申请提供了一种语音场景识别方法和装置、语音控制方法和设备、空调，用于引入环境类数据，从而提高场景识别的准确度。

为了解决上述问题，作为本申请的一个方面，提供了一种语音场景识别装置，包括：

模型单元，用于建立和训练神经网络模型，神经网络模型的输入值包括语音数据和环境类数据，神经网络模型的输出值包括语音数据和环境类数据对应的场景类型；

语音单元，用于获取待识别语音数据和待识别环境类数据；

识别单元，用于采用神经网络模型确定待识别语音数据和待识别环境类数据对应的目标场景类型；

其中，环境类数据包括室内面积、室内温度、室内空调的运行参数、室内空调的耗电量和/或室外天气状况。

可选的，场景类型包括运动场景、聚会场景、会议场景、独自场景和/或无人场景。

可选的，神经网络模型为采用LSTM加Attention算法建立的神经网络模型。

可选的，模型单元训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

为输入数据设置场景类型标签并确定各个场景类型标签的权重值；

通过神经网络模型的输入层载入输入数据，采用LSTM算法对输入数据进行处理得到处理结果数据，采用Attention算法对处理结果数据进行识别确定语音数据对应的场景类型；

其中，场景类型标签包括运动场景标签、聚会场景标签、会议场景标签、独自场景标签和/或无人场景标签。

可选的，模型单元确定各个场景类型标签的权重值，包括：

获取语音数据的目标音调、目标响度和目标音色；

获取各个场景类型标签对应的预设音调、预设响度和预设音色；

调节各个场景类型标签的权重值，以使各个预设音调的加权值与目标音调的差值小于第一阈值、各个预设响度的加权值与目标响度的差值小于第二阈值且各个预设音色的加权值与目标音色的差值小于第三阈值。

可选的，模型单元还用于，在获取语音数据和环境类数据作为输入数据之后，在为输入数据设置场景类型标签并确定各个场景类型标签的权重值之前，对输入数据进行预处理；

和/或，语音单元还用于，在获取待识别语音数据之后，在识别单元采用神经网络模型识别待识别语音数据对应的目标场景类型之前，对待识别语音数据进行预处理。

可选的，预处理包括缺失值处理、标准化处理和降噪处理中的一个或多个。

本申请还提出一种语音场景识别方法，包括：

建立和训练神经网络模型，神经网络模型的输入值包括语音数据和环境类数据，神经网络模型的输出值包括语音数据和环境类数据对应的场景类型；

获取待识别语音数据和待识别环境类数据；

采用神经网络模型确定待识别语音数据和待识别环境类数据对应的目标场景类型；

可选的，训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

可选的，确定各个场景类型标签的权重值，包括：

获取语音数据的目标音调、目标响度和目标音色；

可选的，在获取语音数据和环境类数据作为输入数据之后，在为输入数据设置场景类型标签并确定各个场景类型标签的权重值之前，还包括：对输入数据进行预处理；

和/或，在获取待识别语音数据之后，在识别单元采用神经网络模型识别待识别语音数据对应的目标场景类型之前，还包括：对待识别语音数据进行预处理。

本申请还提出一种语音控制方法，包括：

场景识别步骤，包括本申请提出的任一项的语音场景识别方法；

设备控制步骤，根据待识别语音数据确定拟控制的目标设备，并根据待识别语音数据和目标场景类型控制目标设备进行响应。

本申请还提出一种空调，包括本申请提出的任一的装置，或者包括本申请提出的语音控制设备。

本申请还提出一种空调，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，处理器执行程序时实现本申请提出的任一方法的步骤。

本申请提出了一种语音场景识别方法和装置、语音控制方法和设备、空调，采用语音数据和环境类数据作为神经网络模型的输入值，从而解决了传统模型没有考虑到环境类数据导致的场景类别识别准确度低和实时性差的问题。

附图说明

图1为本申请实施例中一种语音场景识别装置的组成图；

图2为本申请实施例中一种语音场景识别方法的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或空调不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或空调固有的其它步骤或单元。

为了准确的识别语音场景，提高语音场景识别的准确率，如图1所示，本申请提出一种语音场景识别装置，包括：模型单元10、语音单元20和识别单元30。

模型单元10，用于建立和训练神经网络模型，所述神经网络模型的输入值包括语音数据和环境类数据，所述神经网络模型的输出值包括所述语音数据和环境类数据对应的场景类型；

语音单元20，用于获取待识别语音数据和待识别环境类数据；

识别单元30，用于采用所述神经网络模型确定所述待识别语音数据和待识别环境类数据对应的目标场景类型。

具体的，所述环境类数据包括室内面积、室内温度、室内空调的运行参数、室内空调的耗电量和/或室外天气状况。语音数据包括：用户发出的语音和环境声音中的一个或两个。在建立神经网络模型时，先预先输入大量的语音数据和环境类数据作为输入值，并指定输入值对应的场景类型，然后采用预设算法建立场景类型和输入值之间的联系作为神经网络模型的中间层，中间层表明了输入值和输出值之间的联系，具体的建立和训练神经网络的方法可以采用现有的方法。

在现有技术中的神经网络模型只能够处理单纯的音频数据，将音频数据转化为文字，而在本实施例中，在神经网络模型的输入值包括了环境类数据，在现有技术中并没有注意到环境类数据对场景类别识别时的影响，不同场景类型下的环境类数据是存在差异的，例如在一些实施例中，场景类型包括运动场景、聚会场景、会议场景、独自场景和/或无人场景。在无人场景和独自场景下，空调的运行参数不同，无人场景下空调往往不会开启，而在独自场景和会议场景下空调的运行参数也是不同的，会议场景下因为人的个数比独自场景多，所以在空调的运行参数相同时，假设空调处于制冷模式，会议场景下室内温度的降低速度会快于独自场景，而聚会场景下因为也是多个人，但多个人处于活动状态，假设空调处于制冷模式，聚会场景下的室内温度下降速度会明显慢于会议模式。而不同场景类型下的室内面积和室外天气状况都会影响收集到的语音数据，即环境类型与语音数据和环境类数据彼此之间是相互影响的，在现有技术中往往只是根据音频数据确定场景类型，而没有考虑到环境类数据和场景类型之间的联系，导致对场景类型的识别的准确度不够，本实施例克服了上述问题，提高了场景类型识别准确度。例如：在用户一个人的独自场景下和多人的聚会场景下，在天气状况相同的情况下用户选择的空调的运行参数是不同的，即空调的运行参数反应了场景类型，彼此之间是存在关联的。又例如：在独自场景和聚会场景下，用户选用相同的空调的运行参数的情况下，因为在独自场景下空调会很快达到设定的温度，而在聚会场景下空调需要更长的时间才能到达设定的温度，因此空调的耗电量是不同的，即空调的耗电量与场景类型是存在关系的。

在一些实施例中，场景类型包括运动场景、聚会场景、会议场景、独自场景和/或无人场景。在本实施例中运动场景和聚会场景属于动态场景，会议场景、独自场景和无人场景属于静态场景；运动场景表示用户处于独自运动状态，例如正在家里中跑步机上跑步，或是正在做家务，聚会场景表明多个人正处于运动状态，例如在室内开派对，静态场景表示用户此时很少动，例如正坐在沙发上看电视或是正躺在床上休息，需要注意的是，静态场景并不意味用户完全不动，而是动作相对较少，重心移动较少，例如在1分钟内的移动少于3m。会议场景是指多个人正在处于静态状态，即有多个人，且多个人都处于清醒状态，并且彼此之间有交流，独自场景是指此时只有用户一人且处于静态状态，无人场景是指当前未检测到任何用户，例如语音数据中只有环境声音，且环境声音的响度较小。

可选的，在确定了语音数据和环境类数据对应的场景类型后，如果需要进行语音播报，可以依据如下所示的场景类型语音播报表确定语音播报的方式。在进行语音播报时，不同的场景类型对应的音调、响度和音色不同，按照上表的标准进行控制，例如在判断场景类型为运动场景后，在对语音数据进行反馈进行语音播报时，可以调节音调为4kHz、响度90dB且音色为复音，在不同的场景下播报语音时的音调、响度和音色不同，从而实现了不同场景下的差异化语音播报，而现有技术中，在不同场景类型下进行语音播报的音调、响度和音色往往是相同的，导致用户体验不够。

场景类型语音播报表

可选的，所述神经网络模型为采用LSTM(Long Short-Term Memory，长短期记忆网络)加Attention(注意力机制)算法建立的神经网络模型，采用LSTM加Attention算法建立的神经网络模型适宜处理长序列的输入值，即可以处理长语音音频，并且可以提高语音场景识别的准确度，从而可以解决现有技术中的场景模型无法处理长语音音频和对场景类型识别准确度低的问题。

可选的，模型单元训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

具体的，在训练神经网络模型时，各个输入数据预先设置有对应的预期场景类型，采用LSTM算法对输入数据进行处理得到处理结果数据，采用Attention算法对处理结果数据进行识别确定语音数据对应的场景类型，实际上是建立各个输入数据与对应的场景类型之间的联系，采用LSTM加Attention算法得到一个结果，该结果实际上可以是多个场景类型及对应的概率，选取其中概率最高的场景类型作为输出的场景类型，该输出的场景类型与预设的输入数据对应的预期场景类型相互比较，如果两者不一致，则调节神经网络模型各个神经元的权重，即调节神经网络模型的权值矩阵，直到输出的场景类型和预期场景类型相一致，通过不断的输入语音数据、环境类数据和预期场景类型，从而不断对神经网络模型中的神经元的权重进行调节，训练神经网络模型。当然，也可以采用其他现有的训练神经网络模型的方法。

可选的，模型单元确定各个场景类型标签的权重值，包括：

获取语音数据的目标音调、目标响度和目标音色；

具体的，在实际情况中，采集到的语音数据往往是由多个音频混合在一起的，各个场景类型标签预设有对应的预设音调、预设响度和预设音色，响度、音调和音色可以采用向量表示，因为实际上采集到的语音数据包括大量的音频，所以无法将语音数据单纯的设为其中一个场景类型，因为语音数据中可能包含多个音频(声波)，获取到的语音数据实际上是由多个场景类型的音频混合而成，所以本申请中为输入数据设置场景类型标签并设置对应的权重值，对于任何一个语音数据可以先为其设置五种场景类型标签，预先设置权重相等都等于0.2，然后按照加权算法，各个场景类型的音调乘以对应的权重值再相加得到音调的加权值，采用相同的加权算法得到响度的加权值和音色的加权值，然后对比音调的加权值和语音数据的目标音调的差值，调节各个场景类型的权重值，使得音调的加权值和目标音调的差值小于第一阈值，此时得到的权重值的解很可能是多个，然后依次按照响度的加权值与目标响度的差值小于第二阈值调节权重值，音色的加权值与目标音色的差值小于第三阈值调节各个场景类型的权重值，最后得到各个场景类型的权重值。需要注意的是，在进行权重值的计算时，各个场景类型实际上对应设置了一个固定的预设音调、预设响度和预设音色，预设音调、预设响度和预设音色的取值都是点值或是闭合区间的范围值，而不是开放区间的范围值。

具体的，在实际情况中，很多情况会出现数据缺失、异常等问题，如果不对输入数据和待识别语音数据进行预处理，那么得到的结果将存在较大误差，无法准确的识别语音控制指令，造成数据异常的情况包括：数据无法获取、数据遗漏、数据的某些数据不可用等。可选的，预处理包括缺失值处理、标准化处理和降噪处理中的一个或多个。通过对数据进行预处理，可以防止因数据异常导致的神经网络模型的准确度降低，保证神经网络模型能够准确识场景类型。

本申请还提出一种语音控制设备，包括：

本申请提出的任一项的语音场景的识别装置；

控制装置，用于根据待识别语音数据确定拟控制的目标设备，并根据待识别语音数据和目标场景类型控制目标设备进行响应。

具体的，语音数据可以是语音查询数据，例如语音控制设备为具有语音识别功能待测空调，用户想要查询当天的天气，用户对空调说“查询今天的天气”，此时具有语音识别功能的空调检测到用户发出的语音并连同环境音一同作为待识别语音数据传入识别装置内的神经网络模型，神经网络模型识别出目标场景类型为独自场景，待识别语音数据中没有具体指定目标设备，在选用默认的目标设备，此实施例中默认的目标设备为语音控制设备，即本实施中的语音空调，然后语音空调查询了当天的天气状况后，准备播报今天的天气状况以对待识别语音数据进行响应，因为场景类别为独自场景，因此在播报的时候降低响度，如果场景类别为聚会环境，则会自动增大响度。不同的场景类型对应的语音播报的音调、响度和音色可以不同。即当根据语音数据确定需要进行语音反馈时，根据场景类型调节语音反馈时的音调、音色和响度中的一个或多个。

如图2所示，本申请还提出一种语音场景识别方法，包括：

S11：建立和训练神经网络模型；

其中，神经网络模型的输入值包括语音数据和环境类数据，神经网络模型的输出值包括语音数据和环境类数据对应的场景类型；

S12：获取待识别语音数据和待识别环境类数据；

S13：采用神经网络模型确定待识别语音数据和待识别环境类数据对应的目标场景类型。

具体的，环境类数据包括室内面积、室内温度、室内空调的运行参数、室内空调的耗电量和/或室外天气状况。语音数据包括：用户发出的语音和环境声音中的一个或两个。待识别语音数据和待识别环境类数据是此次获取到的当前的语音数据和环境类数据，用于确定目标场景类型。在建立神经网络模型时，先预先输入大量的语音数据和环境类数据作为输入值，并指定输入值对应的场景类型，然后采用预设算法建立场景类型和输入值之间的联系作为神经网络模型的中间层，中间层表明了输入值和输出值之间的联系，具体的建立和训练神经网络的方法可以采用现有的方法。在现有技术中往往只是根据音频数据确定场景类型，而没有考虑到环境类数据和场景类型之间的联系，导致对场景类型的识别的准确度不够，本实施例克服了上述问题。

可选的，场景类型包括运动场景、聚会场景、会议场景、独自场景和/或无人场景。可选的，在确定了语音数据和环境类数据对应的场景类型后，如果根据语音数据确定需要进行语音播报，则根据场景类型调节语音播报的音调、音色和响度中的一个或多个。

可选的，神经网络模型为采用LSTM加Attention算法建立的神经网络模型。采用LSTM加Attention算法建立的神经网络模型适宜处理长序列的输入值，即可以处理长语音音频，并且可以提高语音场景识别的准确度，从而可以解决现有技术中的场景模型无法处理长语音音频和识别准确度低的问题。

可选的，训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

可选的，确定各个场景类型标签的权重值，包括：

获取语音数据的目标音调、目标响度和目标音色；

具体的，在实际情况中，采集到的语音数据往往是由多个音频混合在一起的，各个场景类型标签预设有对应的预设音调、预设响度和预设音色，但是，因为实际上采集到的语音数据包括大量的音频，无法将语音数据单纯的设为其中一个场景类型，因为语音数据中可能包含多个音频(声波)，获取到的语音数据实际上是由多个场景类型的音频组合而成，所以本申请中为输入数据设置场景类型标签并设置对应的权重值，对于任何一个语音数据可以先为其设置五种场景类型标签，预先设置权重相等都等于0.2，然后按照加权算法，各个场景类型的音调乘以对应的权重值再相加得到音调的加权值，然后对比音调的加权值和语音数据的目标音调的差值，调节各个场景类型的权重值，使得音调的加权值和目标音调的差值小于第一阈值，此时得到的权重值的解很可能是多个，然后依次按照响度的加权值与目标响度的差值小于第二阈值调节权重值，音色的加权值与目标音色的差值小于第三阈值调节各个场景类型的权重值，最后得到各个场景类型的权重值。需要注意的是，在进行权重值的计算时，各个场景类型实际上采用了一个固定的音调、响度和音色，预设音调、预设响度和预设音色的取值都是点值或是闭合区间的范围值，而不是开放区间的范围值。

可选的，在获取语音数据和环境类数据作为输入数据之后，在为输入数据设置场景类型标签并确定各个场景类型标签的权重值之前，还包括：对输入数据进行预处理；和/或，在获取待识别语音数据之后，在识别单元采用神经网络模型识别待识别语音数据对应的目标场景类型之前，还包括：对待识别语音数据进行预处理。具体的，在实际情况中，很多情况会出现数据缺失、异常等问题，如果不对输入数据和待识别语音数据进行预处理，那么得到的结果将存在较大误差，无法准确的识别语音控制指令，造成数据异常的情况包括：数据无法获取、数据遗漏、数据的某些数据不可用等。可选的，预处理包括缺失值处理、标准化处理和降噪处理中的一个或多个。通过对数据进行预处理，可以防止因数据异常导致的神经网络模型的准确度降低，保证神经网络模型能够准确识场景类型。

本申请还提出一种语音控制方法，包括：场景识别步骤和设备控制步骤，其中场景识别步骤，包括本申请提出的任一项的语音场景识别方法；设备控制步骤包括：根据待识别语音数据确定拟控制的目标设备，并根据待识别语音数据和目标场景类型控制目标设备进行响应。其中，当根据语音数据确定需要进行语音反馈时，根据场景类型调节语音反馈时的音调、音色和响度中的一个或多个。

本申请还提出一种空调，包括本申请提出的任一的装置，或者包括本申请提出的任一的语音控制设备。

为了更好的说明本申请的有益效果，以下提出一优选实施例。

传统的空调中，语音场景识别主要针对单个场景进行特征提取和分类器选择，存在识别准确度低、场景单一、实时性差等问题。基于LSTM+Attention的语音场景识别方法可以在大量语音数据的基础上，提高识别场景的种类和性能，很好的适应复杂语音环境下的各种场景的识别任务，提高空调的智能化水平。

本实施例中，语音场景识别方法的步骤包括：收集输入数据，输入数据包括环境类数据和语音数据，为输入设置场景类型标签和权重值，利用上述输入数据训练LSTM+Attention神经网络模型，得到语音神经网络模型。然后，实时采集待识别语音数据，并采用LSTM+Attention神经网络模型进行场景识别确定待识别数据的目标场景类型。

本申请中的LSTM+Attention神经网络模型与现有模型的区别点包括：

1)现有的模型只能用于语音识别，将语音音频转化为文字，无法结合识别语音场景。本申请中的模型将环境类数据与语音数据拼接到一起，可以实现语音场景识别。

2)现有语音识别模型在训练的过程中，在输入层只能输入一种类型的数据。本申请中的模型在输入层加上了场景类型标签权重标定，将上述标定的场景权重标签与语音数据进行组合，从而得到基于场景权重的语音数据，然后传输到LSTM+Attention神经网络模型的输入层。因为普通的模型只能处理单纯的音频数据，无法感知语音数据的环境，所以本申请设计了基于场景权重的语音数据，这样的好处是可以将场景类型添加到模型的输入层从而让模型可以感知场景类型。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音场景识别装置，其特征在于，包括：

模型单元，用于建立和训练神经网络模型，所述神经网络模型的输入值包括语音数据和环境类数据，所述神经网络模型的输出值包括所述语音数据和环境类数据对应的场景类型；

语音单元，用于获取待识别语音数据和待识别环境类数据；

识别单元，用于采用所述神经网络模型确定所述待识别语音数据和待识别环境类数据对应的目标场景类型；

其中，所述环境类数据包括室内面积、室内温度、室内空调的运行参数、室内空调的耗电量和/或室外天气状况。

2.根据权利要求1所述的语音场景识别装置，其特征在于，

所述场景类型包括运动场景、聚会场景、会议场景、独自场景和/或无人场景。

3.根据权利要求1-2任一项所述的语音场景识别装置，其特征在于，

所述神经网络模型为采用LSTM加Attention算法建立的神经网络模型。

4.根据权利要求3所述的语音场景识别装置，其特征在于，所述模型单元训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

为所述输入数据设置场景类型标签并确定各个场景类型标签的权重值；

通过神经网络模型的输入层载入所述输入数据，采用LSTM算法对所述输入数据进行处理得到处理结果数据，采用Attention算法对处理结果数据进行识别确定所述语音数据对应的场景类型；

其中，所述场景类型标签包括运动场景标签、聚会场景标签、会议场景标签、独自场景标签和/或无人场景标签。

5.根据权利要求4所述的语音场景识别装置，其特征在于，所述模型单元确定各个场景类型标签的权重值，包括：

获取所述语音数据的目标音调、目标响度和目标音色；

调节各个场景类型标签的权重值，以使各个所述预设音调的加权值与目标音调的差值小于第一阈值、各个所述预设响度的加权值与目标响度的差值小于第二阈值且各个所述预设音色的加权值与目标音色的差值小于第三阈值。

6.根据权利要求4-5任一项所述的语音场景识别装置，其特征在于，

所述模型单元还用于，在获取语音数据和环境类数据作为输入数据之后，在为所述输入数据设置场景类型标签并确定各个场景类型标签的权重值之前，对所述输入数据进行预处理；

和/或，所述语音单元还用于，在获取待识别语音数据之后，在识别单元采用所述神经网络模型识别所述待识别语音数据对应的目标场景类型之前，对所述待识别语音数据进行预处理。

7.根据权利要求6所述的语音场景识别装置，其特征在于，

所述预处理包括缺失值处理、标准化处理和降噪处理中的一个或多个。

8.一种语音控制设备，其特征在于，包括：

如权利要求1-7中任一项所述的语音场景的识别装置；

控制装置，用于根据所述待识别语音数据确定拟控制的目标设备，并根据所述待识别语音数据和目标场景类型控制所述目标设备进行响应。

9.一种语音场景识别方法，其特征在于，包括：

建立和训练神经网络模型，所述神经网络模型的输入值包括语音数据和环境类数据，所述神经网络模型的输出值包括所述语音数据和环境类数据对应的场景类型；

获取待识别语音数据和待识别环境类数据；

采用所述神经网络模型确定所述待识别语音数据和待识别环境类数据对应的目标场景类型；

10.根据权利要求9所述的语音场景识别方法，其特征在于，

11.根据权利要求9-10任一项所述的语音场景识别方法，其特征在于，

12.根据权利要求11所述的语音场景识别方法，其特征在于，训练神经网络模型，包括：

获取语音数据和环境类数据作为输入数据；

13.根据权利要求12所述的语音场景识别方法，其特征在于，确定各个场景类型标签的权重值，包括：

获取所述语音数据的目标音调、目标响度和目标音色；

14.根据权利要求12-13任一项所述的语音场景识别方法，其特征在于，

在获取语音数据和环境类数据作为输入数据之后，在为所述输入数据设置场景类型标签并确定各个场景类型标签的权重值之前，还包括：对所述输入数据进行预处理；

和/或，在获取待识别语音数据之后，在识别单元采用所述神经网络模型识别所述待识别语音数据对应的目标场景类型之前，还包括：对所述待识别语音数据进行预处理。

15.根据权利要求14所述的语音场景识别方法，其特征在于，

16.一种语音控制方法，其特征在于，包括：

场景识别步骤，包括如权利要求9-15中任一项所述的语音场景识别方法；

设备控制步骤，根据所述待识别语音数据确定拟控制的目标设备，并根据所述待识别语音数据和目标场景类型控制所述目标设备进行响应。

17.一种空调，其特征在于，包括如权利要求1-7任一所述的装置，或者包括如权利要求8所述的语音控制设备。

18.一种空调，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，所述处理器执行所述程序时实现权利要求9-16任一所述方法的步骤。