CN108962256A

CN108962256A - 一种对象状态检测方法、装置、设备及存储介质

Info

Publication number: CN108962256A
Application number: CN201810751436.2A
Authority: CN
Inventors: 徐小玉; 刘棨; 雷琴辉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-07

Abstract

本申请提供了一种对象状态检测方法、装置、设备及存储介质，方法包括：获取包括指定环境中至少一个指定对象的语音的目标语音数据；基于目标语音数据确定目标文本，目标文本中至少包括对至少一个指定对象的语音转写得到的文字信息；根据目标文本的内容，确定指定对象是否处于指定状态。本申请提供的对象状态检测方法、装置、设备及存储介质能够简单、高效地检测出指定对象是否处于指定状态。

Description

一种对象状态检测方法、装置、设备及存储介质

技术领域

本申请涉及数据检测技术领域，尤其涉及一种对象状态检测方法、装置、设备及存储介质。

背景技术

在某些时候，为了某种需求，需要检测某一环境中的指定对象是否处于某一状态。

示例性地，很多乘车人在乘车途中都会休息，为了不影响乘车人休息，往往需要调节汽车环境，比如调节车内的音频设备、空调设备等，然而，汽车环境往往需要手动调节，非常不便利，因此，对于乘车人员休息时汽车环境的智能调节就显得尤为重要，可以理解的是，要实现汽车环境的智能调节，首先需要确定乘车人是否在休息，即需要检测乘车人是否处于休息状态，然而，现有技术尚不存在检测乘车人是否处于休息状态的方案。

即，现有技术中尚不存在检测指定环境中的指定对象是否处于指定状态的方案。

发明内容

有鉴于此，本申请提供了一种对象状态检测方法、装置、设备及存储介质，以检测指定环境中的指定对象是否处于指定状态，其技术方案如下：

一种对象状态检测方法，包括：

获取包括指定环境中至少一个指定对象的语音的目标语音数据；

基于所述目标语音数据确定目标文本，所述目标文本中至少包括对所述至少一个指定对象的语音转写得到的文字信息；

根据所述目标文本的内容，确定所述指定对象是否处于指定状态。

其中，所述指定对象为多个，所述目标语音数据为多个指定对象对话的语音数据，所述目标文本中的内容至少包括所述多个指定对象的对话内容。

所述对象状态检测方法，还包括：获取与所述目标语音数据对应的、各个所述指定对象的面部视频数据；

所述基于所述目标语音数据确定目标文本，包括：

将所述目标语音数据转写成文字，并将不同指定对象的语音数据转写得到文字进行区分，得到初始文本；

基于各个所述指定对象的面部视频数据，将所述初始文本的文本内容与各个所述指定对象对应，获得包括与各个指定对象对应的对话内容的文本，作为所述目标文本。

其中，所述将不同指定对象的语音数据转写得到文字进行区分，包括：

将所述不同指定对象的语音数据转写得到文字通过不同标识进行区分；

所述基于各个所述指定对象的面部视频数据，将所述初始文本的文本内容与各个所述指定对象对应，包括：

基于各个所述指定对象的面部视频数据，将所述初始文本中的各个标识更新为各个所述指定对象的标识，以使每个所述指定对象的语音数据转写得到的文字与该指定对象对应。

其中，所述基于各个所述指定对象的面部视频数据，将所述初始文本的文本内容与各个所述指定对象对应，包括：

针对所述多个指定对象中的每个目标指定对象的面部视频数据，执行：

基于所述目标指定对象的面部视频数据中所述目标指定对象的唇形变化，确定所述目标指定对象所表达的文字信息，作为目标文字信息；

在所述初始文本中确定包含所述目标文字信息或包含所述目标文字信息中的关键文字信息的语句，将确定出的语句与所述目标指定对象对应。

其中，所述基于所述目标指定对象的面部视频数据中所述目标指定对象的唇形变化，确定所述目标指定对象所表达的文字信息，包括：

从所述目标指定对象的面部视频数据中，所述指定对象的唇部提取多个位置的特征数据；

将提取的所述特征数据输入预先建立的唇语识别模型，获得所述唇语识别模型输出的、所述目标指定对象所表达的文字信息；

其中，所述唇语识别模型以从训练面部视频数据中指定对象的唇部的多个位置提取的特征数据为训练样本，以所述训练面部视频数据中指定对象所表达的文字信息为样本标签进行训练得到。

其中，所述根据所述目标文本的内容，确定所述指定对象是否处于指定状态，包括：

基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，所述目标关键词为与所述指定状态相关的词；

基于所述目标语句和所述目标语句的上下文，确定所述指定对象是否处于所述指定状态。

其中，所述基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，包括：

在所述目标文本中筛选出包含所述目标关键词的语句，筛选出的语句组成的集合作为候选语句集合；

按第一扩展规则，对所述目标关键词进行扩展，扩展后得到的词作为第一扩展关键词；

在所述候选语句集合中筛选包含所述第一扩展关键词的语句，将筛选出的包含所述第一扩展关键词的语句作为所述目标语句。

其中，所述基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，还包括：

若在所述候选语句集合中未筛选出包含所述第一扩展关键词的语句，则按与所述第一扩展规则不同的第二扩展规则，对所述目标关键词进行扩展，扩展后得到的词作为第二扩展关键词；

在所述候选语句集合中筛选包含所述第二扩展关键词的语句，将筛选出的包含所述第二扩展关键词的语句作为所述目标语句。

其中，所述基于所述目标语句和所述目标语句的上下文，确定所述指定对象是否处于所述指定状态，包括：

通过所述目标语句中的第一目标词和所述目标语句的上下文，确定是否有指定对象处于所述指定状态，其中，所述第一目标词为表征肯定或否定的词；

当有指定对象处于所述指定状态时，基于所述目标语句中的第二目标词确定处于所述指定状态的指定对象，其中，所述第二目标词为人称词。

其中，所述根据所述目标文本的内容，确定所述指定对象是否处于指定状态，还包括：

若基于所述目标关键词在所述目标文本中未筛选出所述目标语句，则将所述目标文本输入预先建立的状态识别模型，获得所述状态识别模型输出的、所述指定对象是否处于指定状态的识别结果；

其中，所述状态识别模型以包括多个指定对象的对话场景信息的文本为训练样本，以对话场景中的指定对象是否处于所述指定状态为标签进行训练得到。

所述对象状态检测方法，还包括：

获取所述指定对象的身体状态数据，所述身体状态数据与所述指定状态有关；

所述根据所述目标文本的内容，确定所述指定对象是否处于指定状态，包括：

通过所述目标文本的内容和所述指定对象的身体状态数据，确定所述指定对象是否处于所述指定状态。

其中，所述获取所述指定对象的身体状态数据，包括：

获取所述指定对象的当前身体姿态数据以及历史身体姿态数据，基于所述指定对象的当前身体姿态数据以及历史身体姿态数据确定所述指定对象维持同一姿态的时间；

和/或，

获取所述指定对象作用于支撑对象时，所述支撑对象上的压力检测单元检测的压力值以及各个压力值的检测时间，基于获取的压力值以及各个压力值的检测时间确定压力值随时间的波动情况；

将所述指定对象维持同一姿态的时间，和/或，所述压力值随时间的波动情况，作为所述指定对象的身体状态数据。

所述对象状态检测方法，还包括：

当所述指定对象处于所述指定状态时，调节所述指定环境的状态。

其中，所述指定环境为汽车的车内环境，所述指定对象为汽车上的乘车人，所述指定状态为休息状态，所述目标语音为所述汽车上乘车人的语音数据。

一种对象状态检测装置，包括：语音数据获取模块、文本确定模块和状态确定模块；

所述语音数据获取模块，用于获取包括指定环境中至少一个指定对象的语音的目标语音数据；

所述文本确定模块，用于基于所述目标语音数据确定目标文本，所述目标文本中至少包括对所述至少一个指定对象的语音转写得到的文字信息；

所述状态确定模块，用于根据所述目标文本的内容，确定所述指定对象是否处于指定状态。

所述对象状态检测装置，还包括：视频数据获取模块；

所述视频数据获取模块，用于获取与所述目标语音数据对应的、各个所述指定对象的面部视频数据；

所述文本确定模块，包括：语音转写子模块和对应子模块；

所述语音转写子模块，用于将所述目标语音数据转写成文字，并将不同指定对象的语音数据转写得到文字进行区分，得到初始文本；

所述对应子模块，用于基于各个所述指定对象的面部视频数据，将所述初始文本的文本内容与各个所述指定对象对应，获得包括与各个指定对象对应的对话内容的文本，作为所述目标文本。

其中，所述状态确定模块包括：筛选子模块和状态确定子模块；

所述筛选子模块，用于基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，所述目标关键词为与所述指定状态相关的词；

所述状态确定子模块，用于基于所述目标语句和所述目标语句的上下文，确定所述指定对象是否处于所述指定状态。

其中，所述状态确定模块还包括：状态识别子模块；

所述状态识别子模块，用于在所述筛选子模块基于所述目标关键词在所述目标文本中未筛选出所述目标语句时，将所述目标文本输入预先建立的状态识别模型，获得所述状态识别模型输出的、所述指定对象是否处于指定状态的识别结果；其中，所述状态识别模型以包括多个指定对象的对话场景信息的文本为训练样本，以对话场景中的指定对象是否处于所述指定状态为标签进行训练得到。

所述对象状态检测装置，还包括：身体状态数据获取模块；

所述身体状态数据获取模块，用于获取所述指定对象的身体状态数据，所述身体状态数据与所述指定状态有关；

所述状态确定模块，具体用于通过所述目标文本的内容和所述指定对象的身体状态数据，确定所述指定对象是否处于所述指定状态。

所述对象状态检测装置，还包括：环境调节模块；

所述环境调节模块，用于当所述指定对象处于所述指定状态时，调节所述指定环境的状态。

一种对象状态检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述对象状态检测方法的各个步骤。

经由上述的技术方案可知，本申请提供的对象状态检测方法、装置、设备及存储介质，首先获取包括指定环境中至少一个指定对象的语音的目标语音数据，然后基于目标语音数据确定目标文本，最后根据目标文本的内容，确定指定对象是否处于指定状态。由此可见，本申请提供的对象状态检测方法、装置、设备及存储介质，能够基于包括指定环境中至少一个指定对象的语音的目标语音数据自动确定指定环境中的指定对象是否处于指定状态，即本申请提供的对象状态检测方法能够简单、高效地实现对指定对象状态的检测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的对象状态检测方法的流程示意图；

图2为本申请提供的对象状态检测方法中，基于目标语音数据和各个指定对象的面部视频数据，确定目标文本的实现过程的流程示意图；

图3为本申请提供的对象状态检测方法中，基于目标文本确定指定对象是否处于指定状态的实现过程的流程示意图；

图4为本申请提供的对象状态检测装置的结构示意图；

图5为本申请提供的对象状态检测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

鉴于现有技术中尚不存在检测指定环境中的指定对象是否处于指定状态的方案，本申请提供了一种对象状态检测方法，请参阅图1，示出了该方法的流程示意图，该方法可以包括：

步骤S101：获取包括指定环境中至少一个指定对象的语音的目标语音数据。

具体地，可利用指定环境中设置的音频采集设备如麦克风采集包括至少一个指定对象的语音的目标语音数据。

随着人们生活和物质水平的提高，越来越多的人选择汽车作为代步工具，汽车与人们的生活变得越来越密不可分，很多乘车人在乘车途中都会休息，如果能检测出乘车人处于休息状态，进而自动调节车内环境的状态，将大大提高汽车的智能化和舒适程度。基于此，本实施例中的指定环境可以为汽车的车内环境，相应的，至少一个指定对象可以为汽车上的至少一个乘车人，指定状态可以为休息状态。

可以理解是，通常情况下，驾驶人员需要驾驶汽车，在驾驶的过程中其是不能休息的，只有车上的非驾驶人员才可以休息，基于此，在一种可能的实现方式中，当车上只有驾驶人员时，可不进行检测，在车上有非驾驶人员时，才进行检测，具体地，可通过车内设置的摄像头拍摄车内图像，通过摄像头拍摄的图像确定车中的人数，如果车中的人数为1，则表明汽车上只有驾驶人员，可不进行任何操作，当车中人数大于1人时，才执行本申请提供的状态检测方法。需要说明的是，本实施例并不限定于此，在另一种可能的实现方式中，不管车上是否只有驾驶人员，都执行本申请提供的状态检测方法，即在车上只有驾驶人员时，也进行检测，比如，驾驶人员把车停在某个地方，想在车里休息，驾驶人员可能给朋友打电话说自己此刻的状态(比如，太累了，好困啊…)，基于此，可获取驾驶人员的语音数据，基于驾驶人员的语音数据确定驾驶人员是否处于休息状态。

本实施例并不限定指定环境为上述提及的汽车的车内环境外，还可以为其它环境，比如家居环境，相应的，至少一个指定对象可以为家居环境中的指定人员。随着智能家居越来越普及，人们对于家居环境的智能化和舒适程度要求越来越高，如果能检测家居环境中对象的状态，进而调节家居环境的状态，将大大提高家居环境的智能化和舒适程度，比如，家居环境的两个对象在卧室聊天，聊到很晚不知不觉睡着了，此时，若能检测出卧室的两个对象处于休息状态，进而调节卧室环境的状态，比如，调低空调的温度，将大大提高家居环境的智能化和舒适程度。

另外，需要说明的是，本实施例中的指定对象可以为一个，也可以为多个，当指定对象为一个时，目标语音数据可以为指定对象的语音数据，当指定对象为多个时，目标语音数据可以为至少包括多个指定对象对话的语音数据。

步骤S102：基于目标语音数据确定目标文本。

其中，目标文本中至少包括对至少一个指定对象的语音转写得到的文字信息。基于目标语音数据确定目标文本的具体实现方式可参见后续实施例的说明。

步骤S103：根据目标文本的内容，确定指定对象是否处于指定状态。

在一种可能的实现方式中，可根据目标文本中文本内容的语义信息确定指定对象是否处于指定状态，比如，可根据目标文本中与指定状态相关的语句的语义确定指定对象是否处于指定状态。

本申请实施例提供的对象状态检测方法，首先获取包括指定环境中至少一个指定对象的语音的目标语音数据，然后基于目标语音数据确定目标文本，最后根据目标文本的内容，确定指定对象是否处于指定状态。由此可见，本申请实施例提供的对象状态检测方法能够基于包括指定环境中至少一个指定对象的语音的目标语音数据自动确定指定环境中的指定对象是否处于指定状态，即本申请实施例提供的对象状态检测方法能够简单、高效地实现对指定对象状态的检测。

在本申请的另一实施例中，对上述实施例中的步骤S102：基于目标语音数据确定目标文本进行介绍。

上述实施例提供的对象状态检测方法中的指定对象可以为一个，也可以为多个。对于指定对象为一个的情况，基于目标语音数据确定目标文本的过程可以包括：将目标语音数据转写成文本，转写得到的文本作为目标文本。

对于指定对象为多个的情况，基于目标语音数据确定目标文本的实现方式有多种，在一种可能的实现方式中，将目标语音数据转写成文本，将转写得到的文本作为目标文本，进而基于该目标文本确定指定对象是否处于指定状态。

在上述实现方式中，由于目标文本直接由目标语音数据转写而来，因此只能获得多个对象的对话内容，而无法将对话内容与指定环境中的各个指定对象对应，因此，基于该实现方式得到的目标文本只能确定出是否有指定对象处于指定状态，而无法确定具体哪个指定对象处于指定状态。

为了能确定出处于指定状态的指定对象，需要还原出多个指定对象的对话场景，即不但要确定出指定环境中各个指定对象的对话内容，还要将对话内容与各个指定对象对应。基于此，在另一种可能的实现方式中，可获取与目标语音数据对应的、各个指定对象的面部视频数据，进而基于目标语音数据和各个指定对象的面部视频数据还原对话场景。

获取各个指定对象的面部视频数据的实现方式有多种，在一种可能的实现方式中，可获取摄像头采集的包括各个指定对象的面部的视频数据，从包括各个指定对象的面部的视频数据中分别提取出各个指定对象的面部视频数据。

需要说明的是，在上述获取各个指定对象的面部视频数据的实现方式中，由于需要使各个指定对象的面部都位于视频画面中，因此，对于每个指定对象的面部而言，其画面的分辨率或清晰度必然受影响。有鉴于此，在另一种可能的实现方式中，可利用与各个指定对象对应的摄像头分别采集各个指定对象的面部视频数据。以指定环境为汽车的车内环境为例，可在汽车上乘车人员乘坐的每个座位前设置摄像头，利用各个摄像头实时采集各个乘车人员的面部视频数据。

在获取到目标语音数据和各个指定对象的面部视频数据后，便可还原各个指定对象的对话场景，确定目标文本。请参阅图2，示出了基于目标语音数据和各个指定对象的面部视频数据，确定目标文本的实现过程的流程示意图，可以包括：

步骤S201：将目标语音数据转写成文字，并将不同指定对象的语音数据转写得到文字进行区分，得到初始文本。

其中，不同指定对象的语音数据可基于声纹技术进行区分。

在一种可能的实现方式中，可将不同指定对象的语音数据转写得到文字通过不同标识进行区分；

示例性地，对目标语音数据采用声纹技术进行区分确定出指定对象为4个，可为4个指定对象编号，比如编号1、2、3、4，在对目标语音数据进行转写时，将转写出的文字信息与对应的编号对应起来。以下示出了目标语音数据经过转写得到的初始文本的一示例：

1：今天天气真不错！

2：是呀！

3：要不我们去北京玩吧。

1：我同意。

4：那我们商量一下具体去哪玩吧。

需要说明的是，通过该步骤只能确定出指定对象为几个，以及这几个指定对象都说了什么，但是并不能将说话内容与指定对象对应。比如，上面示例中的“1”指的是哪个指定对象并不能确定。以指定环境为汽车的车内环境，目标语音数据为多个乘车人对话的语音数据为例，通过对目标语音数据进行转写，可获得多个乘车人的对话内容，但是不能将对话内容与各个座位上的乘车人对应。

步骤S202：基于各个指定对象的面部视频数据，将初始文本的文本内容与各个指定对象对应，获得包括与各个指定对象对应的对话内容的文本，作为目标文本。

具体地，步骤S201对不同指定对象的语音数据转写得到文字通过不同标识进行了区分，本步骤进一步基于各个指定对象的面部视频数据，将初始文本中的各个标识更新为各个指定对象的标识，以使每个指定对象的语音数据转写得到的文字与该指定对象对应。

上述步骤S201的目的在于确定出对话内容并将对话内容基于不同的指定对象进行区分，而本步骤S202的目的在于将对话内容与指定对象对应。

以下对基于各个指定对象的面部视频数据，将初始文本的文本内容与各个指定对象对应进行介绍。

基于各个指定对象的面部视频数据，将初始文本中的各个标识更新为各个指定对象的标识的实现过程有多种，在一种可能的实现方式中，针对多个指定对象中的每个目标指定对象的面部视频数据，可执行：基于目标指定对象的面部视频数据中目标指定对象的唇形变化，确定目标指定对象所表达的文字信息，作为目标文字信息；在初始文本中确定包含目标文字信息的语句，将包含目标文字信息的语句与目标指定对象对应，具体地，可将包含目标文字信息的语句对应的标识更新为目标指定对象的标识。

示例性地，基于小张的面部视频数据中小张的唇形变化确定出目标文字信息为“要不我们去北京玩吧”，则在初始文本中确定包含“要不我们去北京玩吧”的语句，假设包含“要不我们去北京玩吧”的语句对应的标识为“3”，则可将“3”更新为“小张”，从而将小张与其说话内容对应起来。

需要说明的是，在某些时候可能存在基于目标指定对象的唇形变化确定出的目标文字信息与目标指定对象实际表达的内容不完全一致的情况，在出现这种情况时，后续可能无法基于目标文字信息在初始文本中匹配到语句，进而无法将初始文本中的文本内容与各个指定对象对应，或者，可能基于目标文字信息在初始文本中匹配到错误的语句，进而使得初始文本中的文本内容无法与指定对象正确对应。

鉴于上述问题，在另一种可能的实现方式中，可针对多个指定对象中的每个目标指定对象的面部视频数据，执行：基于目标指定对象的面部视频数据中目标指定对象的唇形变化，确定目标指定对象所表达的文字信息，作为目标文字信息；在初始文本确定包含目标文字信息中的关键文字信息的语句，将包含关键文字信息的语句与目标指定对象对应，具体地，可将包含关键文字信息的语句对应的标识更新为目标指定对象的标识。

其中，关键文字信息可以为通过唇形变化确定出的目标文字信息中准确率最高的文字信息。采用目标文字信息中的关键文字信息在初始文本中匹配语句，能够避免因唇形误识别所导致的错误匹配。

示例性地，基于小张的面部视频数据中小张的唇形变化确定出目标文字信息为“要不我们去北京玩吧”，目标文字信息中的关键文字信息为“去北京玩”，则在初始文本中确定包含“去北京玩”的语句，假设包含“去北京玩”的语句对应的标识为“3”，则可将“3”更新为“小张”，从而将小张和其说话内容对应起来。

进一步地，基于目标指定对象的面部视频数据中目标指定对象的唇形变化，确定目标指定对象所表达的文字信息的过程可以包括：从目标指定对象的面部视频数据中，指定对象的唇部提取多个位置的特征数据；将提取的特征数据输入预先建立的唇语识别模型，获得唇语识别模型输出的目标指定对象所表达的文字信息。其中，唇语识别模型以从训练面部视频数据中指定对象的唇部的多个位置的提取的特征数据为训练样本，以训练面部视频数据中指定对象所表达的文字信息为样本标签进行训练得到。

上述初始文本的示例，经过步骤S202后，得到的目标文本的示例如下：

小李：今天天气真不错！

小王：是呀！

小张：要不我们去北京玩吧。

小李：我同意。

小吴：那我们商量一下具体去哪玩吧。

由上述目标文本的示例可以看出，初始文本中的文本内容与指定对象对应起来，即，最终获得的目标文本中既包括了各个指定对象的对话内容，又包括了与各对话内容对应的指定对象的标识，从而实现了多个指定对象对话场景的还原。

在确定出目标文本后，便可基于目标文本确定指定对象是否处于指定状态。请参阅图3，示出了基于目标文本确定指定对象是否处于指定状态的实现过程的流程示意图，可以包括：

步骤S301：基于目标关键字，按预设的筛选规则，从目标文本中筛选出目标语句。

其中，目标关键词为与指定状态相关的词。示例性地，指定状态为睡眠状态，则目标关键词可以为睡眠、睡觉、休息等。

具体地，基于目标关键字，按预设的筛选规则，从目标文本中筛选出目标语句的过程可以包括：在目标文本中筛选出包含目标关键词的语句，筛选出的语句组成的集合作为候选语句集合；按第一扩展规则对目标关键词进行扩展，扩展后得到的词作为第一扩展关键词；在候选语句集合中筛选包含第一扩展关键词的语句，将筛选出的包含第一扩展关键词的语句作为目标语句。

在一种可能的实现方式中，第一扩展规则可以为“人称+目标关键词”，比如，目标关键词为是“睡觉”，按第一扩展规则对“睡觉”进行扩展后的第一扩展关键词为“他睡觉”，则在候选语句集合中筛选出包含“他睡觉”的语句，筛选出的语句作为目标语句。

需要说明的是，若在候选语句集合中未筛选出包含第一扩展关键词的语句，说明扩展规则可能不合适，则按与第一扩展规则不同的第二扩展规则，对目标关键词进行扩展，扩展后得到的词作为第二扩展关键词；在候选语句集合中筛选包含第二扩展关键词的语句，将筛选出的包含第二扩展关键词的语句作为目标语句。

在一种可能的实现方式中，第二扩展规则可以为“人称+中间词+目标关键词”，比如，目标关键词为是“睡觉”，按第二扩展规则对“睡觉”进行扩展后的第二扩展关键词为“他要睡觉”，则在候选语句集合中筛选出包含“他要睡觉”的语句，筛选出的语句作为目标语句。

需要说明的是，本实施例并不限定扩展规则为上述两个扩展规则，还可有其它的扩展规则，扩展规则的内容以及数量可基于具体的应用场景进行设定。在一种可能的实现方式中，可基于某一具体的应用场景设置一扩展规则集合，在筛选时，可逐一从扩展规则集合中获得扩展规则，按获取的扩展规则扩展目标关键词，得到扩展关键词，在候选语句集合中筛选包括扩展关键词的语句，若没有筛选出包括该扩展关键词的语句，则从扩展规则集合中获取另一扩展规则对目标关键词进行扩展，以此类推。上述方式是预先设定出所有可能的扩展规则，在另一种可能的实现方式中，也可先设定第一扩展规则，在第一扩展规则不合适时，对第一扩展规则进行调整获得第二扩展规则，在第二扩展规则合适时，对第二扩展规则进行调整获得第三扩展规则，以此类推，在该实现方式中，扩展结束的条件可以为达到预设的扩展次数，或者未达到预设的扩展次数，但找到合适的扩展规则，所谓合适的扩展规则指的是能够在候选语句集合中筛选出包含基于该扩展规则扩展得到的扩展关键词的语句。

步骤S302：基于目标语句中的目标词和目标语句的上下文，确定指定对象是否处于指定状态。

在一种可能的实现方式中，基于目标语句中的目标词和目标语句的上下文，确定指定对象是否处于指定状态的实现过程可以包括：基于目标语句中的第一目标词和目标语句的上下文，确定是否有指定对象处于指定状态，其中，第一目标词为表征肯定或否定的词；当有指定对象处于指定状态时，基于目标语句中的第二目标词确定处于指定状态的指定对象，其中，第二目标词为人称词。

示例性地，目标语句为“他要睡觉”，则第一目标词为表示肯定的词“要”，第二目标词为人称词“他”，目标语句为“他不要睡觉”，则第一目标词为表示否定的词“不要”，第二目标词为人称词“他”。

其中，基于目标语句中的第一目标词和目标语句的上下文，确定是否有指定对象处于指定状态的过程可以包括：基于目标语句的语气确定目标语句的类型；若目标语句为肯定句，则基于目标语句的第一目标词和目标语句的上下文确定是否有指定对象处于指定状态；若目标语句为疑问句，则基于目标语句的第一目标词和目标语句的上下文中对目标语句的回答语句确定是否有指定对象处于指定状态。

需要说明的是，在基于目标语句的第一目标词和目标语句的上下文中对目标语句的回答语句确定是否有指定对象处于指定状态时，可基于同或逻辑确定，具体的，如果第一目标词表示肯定，对目标语句的回答为肯定的回答，则可确定有指定对象处于指定状态，如果第一目标词表示否定，对目标语句的回答为否定的回答，则可确定没有指定对象处于指定状态，如果第一目标词表示肯定，对目标语句的回答为否定，则可确定没有指定对象处于指定状态，如果第一目标词表示否定，对目标语句的回答为肯定，则可确定有指定对象处于指定状态。

示例性地，目标语句为“他要睡觉吗？”，假设针对目标语句的回答语句为“他要睡觉”(目标语句的第一目标词为肯定，针对目标语句的回答为肯定)，则可确定有指定对象处于休息状态，假设针对目标语句的回答语句为“他不要睡觉”(目标语句的第一目标词为肯定，针对目标语句的回答为否定)，则可确定没有指定对象处于休息状态；目标语句为“他不要睡觉吗？”，假设针对目标语句的回答语句为“他要睡觉”(目标语句的第一目标词为否定，针对目标语句的回答为肯定)，则可确定有指定对象处于休息状态，假设针对目标语句的回答语句为“他不要睡觉”(目标语句的第一目标词为否定，针对目标语句的回答为否定)，则可确定没有指定对象处于休息状态。

当确定出有指定对象处于指定状态时，可基于目标语句中的人称词确定处于指定状态的指定对象。具体地，可基于目标语句的上下文确定人称词所指代的对象，该人称词所指代的对象即为处于指定状态的指定对象。

上述过程给出了基于目标关键词，按预设的筛选规则从目标文本中筛选出目标语句，进而对目标语句以及目标语句的上下文进行语义分析，以确定指定对象是否处于指定状态的过程。然而，在某些时候，可能存在基于目标关键词，按预设的筛选规则从目标文本中未筛选出目标语句的情况，针对这种情况，本申请提出了采用语义推理的方式对目标文本中内容的语义进行分析，以确定指定对象是否处于指定状态。比如，从“他昨晚没合眼”可推出“他昨晚没睡觉”、“他现在很可能在睡觉”等，这种推理所依据的是“合眼”与“睡觉”、“昨晚”与“现在”之间具体的语义关系。

具体地，采用语义推理的方式确定指定对象是否处于指定状态的过程可以包括：将目标文本输入预先建立的状态识别模型，获得状态识别模型输出的、指定对象是否处于指定状态的识别结果。其中，状态识别模型通过对目标文本中的内容的进行推理，其利用目标文本的对话内容中存在的同义关系、下义关系、反义关系进行与指定状态相关的语义关系的推理，以确定指定对象是否处于指定状态。状态识别模型通过大量的训练数据训练得到，具体地，状态识别模型以包括多个指定对象的对话场景数据的文本为训练样本，以对话场景中的指定对象是否处于指定状态为标签进行训练得到。

可以理解的是，用户往往希望对象状态检测的准确率越高越好，为了进一步提高对象状态检测的准确率，本申请提供的对象状态检测方法还可以包括：获取指定对象的身体状态数据，身体状态数据与指定状态有关。在确定指定对象是否处于指定状态时，通过目标文本的内容和指定对象的身体状态数据，确定指定对象是否处于指定状态。

在一种可能的实现方式中，获取指定对象的身体状态数据的过程可以包括：获取指定对象的当前身体姿态数据以及历史身体姿态数据，基于指定对象的当前身体姿态数据以及历史身体姿态数据确定指定对象维持同一姿态的时间，作为指定对象的身体状态数据。

假设指定状态为休息状态，可以理解的是，如果指定对象处于休息状态，其身体通常会长时间保持同一姿态，因此，可基于指定对象维持同一姿态的时间确定指定对象是否处于休息状态。

在另一种可能的实现方式中，获取指定对象的身体状态数据的过程可以包括：获取指定对象作用于支撑对象时，支撑对象上的压力检测单元检测的压力值以及各个压力值的检测时间，基于检测的各个压力值和各个压力值的检测时间确定压力值随时间的波动情况，作为指定对象的身体状态数据。

示例性的，指定环境为汽车的车内环境，指定对象为乘车人，指定状态为休息状态，可以理解的是，如果乘车人处于休息状态，那么座椅上设置的压力检测单元如压力传感器检测的压力值随时间的波动会很小，因此，通过乘车人所坐的座椅上压力传感器检测的压力值随时间的波动情况，确定指定乘车人是否处于休息状态。

本申请可将指定对象维持同一姿态的时间、支撑指定对象的支撑对象上压力检测单元检测的压力值随时间的波动情况中的任一种或两种数据作为指定对象的身体状态数据。基于目标文本的内容同时结合指定对象的身体状态数据，确定指定对象是否处于指定状态，能够提高检测准确率。

示例性地，指定环境为汽车的车内环境，指定对象为乘车人，指定状态为休息状态，假设通过目标文本确定出乘车人A处于休息状态，并且，通过乘车人的姿态数据分析出乘车人A长时间保持同一姿态，则可确定乘车人A处于休息状态；假设通过目标文本确定出乘车人A处于休息状态，而通过乘车人的姿态数据分析出乘车人A保持每个姿态的时间都很短，则可确定乘车人A未处于休息状态；假设通过目标文本确定出乘车人A处于休息状态，乘车人A的座椅上压力传感器检测的压力值随时间的波动较小，表明乘车人A处于静止状态，则可确定乘车人A处于休息状态；假设通过目标文本确定出乘车人A处于休息状态，而乘车人A的座椅上压力传感器检测的压力值随时间的波动较大，则可确定乘车人A未处于休息状态。

在本申请的另一实施例中，当确定出指定对象处于指定状态时，对象状态检测方法还可以包括：调节指定环境的状态。

具体的，当确定出指定对象处于指定状态时，调节指定环境的状态的实现过程可以包括：当确定出指定对象处于指定状态时，调节指定环境中指定设备的状态。

需要说明的是，调节指定设备的状态可以但不限定为控制指定设备打开、控制指定设备关闭、调节指定设备的运行参数等。

示例性地，指定环境为汽车的车内环境，指定对象为乘车人，指定状态为休息状态，当确定出车内有人处于休息状态时，可智能调节车内指定设备的状态，比如调节空调的温度、音频设备的音量等，可以理解的是，当有人休息时，车内温度过高或过低都不适宜，在一种可能的实现方式中，可利用温度检测设备如红外测温仪检测车内的当前温度，基于车内的当前温度控制空调将温度调节至适宜的温度，如夏季26℃，冬季20℃，还可用音量检测设备如分贝仪检测车内声音的当前音量，基于车内声音的当前音量控制音频设备将音量调节到适宜的音量，比如调节到10～20分贝，另外还可调节车内的湿度。需要说明的是，只要是能够改变车内环境的状态的设备，都可选择进行智能调节。

本申请实施例提供的对象状态检测方法可基于包括指定环境中至少一个指定对象的语音的目标语音数据确定指定对象是否处于指定状态，并在确定出指定对象处于指定状态时，自动调节指定环境的状态。由此可见，本申请实施例提供的对象状态检测方法能够简单、快速、高效地实现对指定对象状态的检测，并能基于指定对象的状态自动对指定环境的状态进行调节，因此，提高了指定环境调节的智能化程度以及指定环境的舒适程度，用户体验较好。

与上述对象状态检测方法相对应，本申请还提供了一种对象状态检测装置，请参阅图4，示出了该装置的结构示意图，可以包括：语音数据获取模块401、文本确定模块402和状态确定模块403。其中：

语音数据获取模块401，用于获取包括指定环境中至少一个指定对象的语音的目标语音数据。

文本确定模块402，用于基于所述目标语音数据确定目标文本，所述目标文本中至少包括对所述至少一个指定对象的语音转写得到的文字信息。

状态确定模块403，用于根据所述目标文本的内容，确定所述指定对象是否处于指定状态。

本申请实施例提供的对象状态检测装置，首先获取包括指定环境中至少一个指定对象的语音的目标语音数据，然后基于目标语音数据确定目标文本，最后根据目标文本的内容，确定指定对象是否处于指定状态。由此可见，本申请实施例提供的对象状态检测装置不但能够基于包括指定环境中至少一个指定对象的语音的目标语音数据自动确定指定环境中的指定对象是否处于指定状态，并且，确定指定对象状态的方式简单、高效。

在一种可能的实现方式中，上述实施例中的所述指定对象为多个，所述目标语音数据为多个指定对象对话的语音数据，所述目标文本中的内容至少包括所述多个指定对象的对话内容。

在一种可能的实现方式中，上述实施例提供的对象状态检测装置还包括：视频数据获取模块。

所述视频数据获取模块，用于获取与所述目标语音数据对应的、各个所述指定对象的面部视频数据。

则文本确定模块，包括：语音转写子模块和对应子模块。

所述语音转写子模块，用于将所述目标语音数据转写成文字，并将不同指定对象的语音数据转写得到文字进行区分，得到初始文本。

在一种可能的实现方式中，所述语音转写子模块，具体用于将所述不同指定对象的语音数据转写得到文字通过不同标识进行区分。

所述对应子模块，具体用于基于各个所述指定对象的面部视频数据，将所述初始文本中的各个标识更新为各个所述指定对象的标识，以使每个所述指定对象的语音数据转写得到的文字与该指定对象对应。

在一种可能的实现方式中，对应子模块，具体用于针对所述多个指定对象中的每个目标指定对象的面部视频数据，基于所述目标指定对象的面部视频数据中所述目标指定对象的唇形变化，确定所述目标指定对象所表达的文字信息，作为目标文字信息；在所述初始文本中确定包含所述目标文字信息或包含所述目标文字信息中的关键文字信息的语句，将确定出的语句与所述目标指定对象对应。

进一步地，对应子模块基于所述目标指定对象的面部视频数据中所述目标指定对象的唇形变化，确定所述目标指定对象所表达的文字信息时，具体用于从所述目标指定对象的面部视频数据中，所述指定对象的唇部提取多个位置的特征数据；将提取的所述特征数据输入预先建立的唇语识别模型，获得所述唇语识别模型输出的、所述目标指定对象所表达的文字信息。

在一种可能的实现方式中，上述实施例提供的对象状态检测装置中，状态确定模块包括：筛选子模块和状态确定子模块。

所述筛选子模块，用于基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，所述目标关键词为与所述指定状态相关的词。

在一种可能的实现方式中，筛选子模块可以包括：候选语句筛选子模块、第一扩展子模块和第一筛选子模块。

候选语句筛选子模块，用于在所述目标文本中筛选出包含所述目标关键词的语句，筛选出的语句组成的集合作为候选语句集合。

第一扩展子模块，用于按第一扩展规则，对所述目标关键词进行扩展，扩展后得到的词作为第一扩展关键词。

第一筛选子模块，用于在所述候选语句集合中筛选包含所述第一扩展关键词的语句，将筛选出的包含所述第一扩展关键词的语句作为所述目标语句。

所述筛选子模块还可以包括：第二扩展子模块和第二筛选子模块。

第二扩展子模块，用于在第一筛选子模块在所述候选语句集合中未筛选出包含所述第一扩展关键词的语句，按与所述第一扩展规则不同的第二扩展规则，对所述目标关键词进行扩展，扩展后得到的词作为第二扩展关键词。

第二筛选子模块，用于在所述候选语句集合中筛选包含所述第二扩展关键词的语句，将筛选出的包含所述第二扩展关键词的语句作为所述目标语句。

在一种可能的实现方式中，上述实施例提供的对象状态检测装置中，所述状态确定模块还包括：状态识别子模块。

在一种可能的实现方式中，上述实施例提供的对象状态检测装置还包括：身体状态数据获取模块。

所述身体状态数据获取模块，用于获取所述指定对象的身体状态数据，所述身体状态数据与所述指定状态有关。

在一种可能的实现方式中，所述身体状态数据获取模块，具体用于获取所述指定对象的当前身体姿态数据以及历史身体姿态数据，基于所述指定对象的当前身体姿态数据以及历史身体姿态数据确定所述指定对象维持同一姿态的时间；和/或，获取所述指定对象作用于支撑对象时，所述支撑对象上的压力检测单元检测的压力值以及各个压力值的检测时间，基于获取的压力值以及各个压力值的检测时间确定压力值随时间的波动情况；将所述指定对象维持同一姿态的时间，和/或，所述压力值随时间的波动情况，作为所述指定对象的身体状态数据。

在一种可能的实现方式中，上述实施例提供的对象状态检测装置还包括：环境调节模块。

本发明实施例还提供了一种对象状态检测设备，请参阅图5，示出了该设备的结构示意图，该设备可以包括：存储器501和处理器502。

存储器501，用于存储程序；

处理器502，用于执行所述程序，所述程序具体用于：

对象状态检测设备还可以包括：总线、通信接口503、输入设备504和输出设备505。

处理器502、存储器501、通信接口503、输入设备504和输出设备505通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器502可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器502可包括主处理器，还可包括基带芯片、调制解调器等。

存储器501中保存有执行本发明技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器501可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备504可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备505可包括允许输出信息给用户的装置，例如显示屏、扬声器等。

通信接口503可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器502执行存储器501中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的对象状态检测方法的各个步骤。

本申请提供的对象状态检测设备，不但能够基于包括指定环境中至少一个指定对象的语音的目标语音数据自动确定指定环境中的指定对象是否处于指定状态，并且，确定指定对象状态的方式简单、高效。

本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的对象状态检测方法的各个步骤。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种对象状态检测方法，其特征在于，包括：

2.根据权利要求1所述的对象状态检测方法，其特征在于，所述指定对象为多个，所述目标语音数据为多个指定对象对话的语音数据，所述目标文本中的内容至少包括所述多个指定对象的对话内容。

3.根据权利要求2所述的对象状态检测方法，其特征在于，还包括：获取与所述目标语音数据对应的、各个所述指定对象的面部视频数据；

所述基于所述目标语音数据确定目标文本，包括：

4.根据权利要求3所述的对象状态检测方法，其特征在于，所述将不同指定对象的语音数据转写得到文字进行区分，包括：

5.根据权利要求1所述的对象状态检测方法，其特征在于，所述根据所述目标文本的内容，确定所述指定对象是否处于指定状态，包括：

6.根据权利要求5所述的对象状态检测方法，其特征在于，所述基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，包括：

7.根据权利要求6所述的对象状态检测方法，其特征在于，所述基于目标关键字，按预设的筛选规则，从所述目标文本中筛选出目标语句，还包括：

8.根据权利要求5所述的对象状态检测方法，其特征在于，所述基于所述目标语句和所述目标语句的上下文，确定所述指定对象是否处于所述指定状态，包括：

9.根据权利要求1所述的对象状态检测方法，其特征在于，还包括：

10.根据权利要求9所述的对象状态检测方法，其特征在于，所述获取所述指定对象的身体状态数据，包括：

和/或，

11.根据权利要求1～10中任意一项所述的对象状态检测方法，其特征在于，还包括：

12.根据权利要求1～10中任意一项所述的对象状态检测方法，其特征在于，所述指定环境为汽车的车内环境，所述指定对象为汽车上的乘车人，所述指定状态为休息状态，所述目标语音数据为所述汽车上乘车人的语音数据。

13.一种对象状态检测装置，其特征在于，包括：语音数据获取模块、文本确定模块和状态确定模块；

14.根据权利要求13所述的对象状态检测装置，其特征在于，所述指定对象为多个，所述目标语音数据为多个指定对象对话的语音数据，所述目标文本中的内容至少包括所述多个指定对象的对话内容。

15.根据权利要求14所述的对象状态检测装置，其特征在于，还包括：视频数据获取模块；

所述文本确定模块，包括：语音转写子模块和对应子模块；

16.根据权利要求13所述的对象状态检测装置，其特征在于，所述状态确定模块包括：筛选子模块和状态确定子模块；

17.根据权利要求13所述的对象状态检测装置，其特征在于，还包括：身体状态数据获取模块；

18.根据权利要求13～17中任意一项所述的对象状态检测装置，其特征在于，还包括：环境调节模块；

19.一种对象状态检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

20.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至12中任一项所述的对象状态检测方法的各个步骤。