CN113553020A

CN113553020A - 智能音箱的播报控制方法和装置

Info

Publication number: CN113553020A
Application number: CN202010329332.XA
Authority: CN
Inventors: 范冰冰
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-10-26

Abstract

本申请公开了一种智能音箱的播报控制方法和装置，涉及人工智能领域。具体实现方案为：获取预设区域的图像,并判断图像之中包含用户的头像，则确定头像对应的第一推荐内容；控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容；监测当前播报条件，并判断当前播报条件是否满足预设播报条件；以及如果当前播报条件满足预设播报条件，则播报第二推荐内容。由此，一方面，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，另一方面，还可以根据场景需要确定第二推荐内容来播报，灵活的调整播报内容，进一步提升了智能音箱的服务质量。

Description

智能音箱的播报控制方法和装置

技术领域

本申请涉及图像处理技术领域中的人工智能技术领域，尤其涉及一种智能音箱的播报控制方法和装置。

背景技术

从文本到语音(TextToSpeech，TTS)技术，是人机对话的一部分，在智能音箱中得到了广泛的使用。

相关技术中，当智能音箱开机时，即进行有关语音播报，然而，智能音箱的开机可能是偏离了用户真实意图的误触发，比如，对于小度智能音箱，只要用户在聊天中涉及到“小度”关键词，就会对小度智能音箱开机，这种误触发的开机会触发对应的语音播报，从而导致语音播报打扰用户，并且，在进行语音播报时，会默认统一播报默认的内容，影响智能音箱的服务质量。

发明内容

本申请提供了一种用于智能音箱的播报控制方法和装置，一方面，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，另一方面，还可以根据场景需要确定第二推荐内容来播报，灵活的调整播报内容，进一步提升了智能音箱的服务质量。

根据第一方面，提供了一种智能音箱的播报控制方法，包括：获取预设区域的图像,并判断所述图像之中是否包含用户的头像；如果包含所述用户的头像，则确定与所述用户的头像对应的第一推荐内容；控制所述智能音箱语音播报所述第一推荐内容，并获取满足预设推荐条件的第二推荐内容；监测当前播报条件，并判断所述当前播报条件是否满足预设播报条件；以及如果所述当前播报条件满足预设播报条件，则播报所述第二推荐内容。

根据第二方面，提供了一种智能音箱的播报控制装置，包括：第一判断模块，用于获取预设区域的图像,并判断所述图像之中是否包含用户的头像；确定模块，用于在包含所述用户的头像时，确定与所述用户的头像对应的第一推荐内容；获取模块，用于控制所述智能音箱语音播报所述第一推荐内容，并获取满足预设推荐条件的第二推荐内容；第二判断模块，用于监测当前播报条件，并判断所述当前播报条件是否满足预设播报条件；播报模块，用于在所述当前播报条件满足预设播报条件时，播报所述第二推荐内容。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述实施例描述的智能音箱的播报控制方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质所述计算机指令用于使所述计算机执行上述实施例描述的智能音箱的播报控制方法。

本申请实施例提供的技术方案，至少具有如下有益技术效果：

获取预设区域的图像,并判断图像之中是否包含用户的头像，如果包含用户的头像，则确定与用户的头像对应的第一推荐内容，控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容，进而，监测当前播报条件，并判断当前播报条件是否满足预设播报条件，并且在当前播报条件满足预设播报条件时，播报第二推荐内容。由此，一方面，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，另一方面，还可以根据场景需要确定第二推荐内容来播报，灵活的调整播报内容，进一步提升了智能音箱的服务质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的智能音箱的播报控制方法流程示意图；

图2是根据本申请第二实施例的智能音箱的播报控制方法的流程示意图；

图3是根据本申请第三实施例的智能音箱的播报控制场景示意图；

图4是根据本申请第四实施例的智能音箱的显示界面示意图；

图5是根据本申请第五实施例的第二推荐内容的生成流程示意图；

图6是根据本申请第六实施例的第二推荐内容的生成场景示意图；

图7是根据本申请第七实施例的第二推荐内容的生成场景示意图；

图8是根据本申请第八实施例的智能音箱的播报控制方法流程示意图；

图9是根据本申请第九实施例的智能音箱的播报控制方法流程示意图；

图10是根据本申请第十实施例的智能音箱的播报控制装置的结构示意图；

图11是用来实现本申请实施例的智能音箱的播报控制的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对智能音箱开机即进行语音播报时，导致可能语音播报会打扰到用户的问题，本申请提供了一种把握语音播报时机，在用户需要的时候进行语音播报的方式。并且，针对智能音箱会默认播报统一内容的问题，本申请提供了一种灵活确定播报内容，灵活满足更多场景需要的播报内容确定的方式。

具体而言，图1是根据本申请一个实施例的智能音箱的播报控制方法的流程图，如图1所示，该方法包括：

步骤101，获取预设区域的图像。

其中，预设区域可以是针对智能音箱的屏幕而言，与屏幕的夹角为预设范围的区域，也可以是用户在使用智能音箱时，通常所在的区域等，其中，该通常所在的区域可以统计预设的时间段内用户使用智能音箱的历史所在位置，当历史所在位置的次数大于预设阈值时，则认为该历史所在位置为预设区域。

具体的，获取预设区域的图像，以便于后续根据图像中包含的图像内容来确定用户是否意图使用智能音箱。在实际应用中，可根据智能音箱中的摄像头设备才获取预设区域的图像，也可控制智能设备与家中的其他拥有摄像头的设备联网后，控制其他设备采集得到的。

步骤102，如果包含用户的头像，则确定与用户的头像对应的第一推荐内容。

具体的，可以通过提取图像的图像特征，识别图像特征中是否包含人脸特征，来判断图像之中是否包含用户的头像；也可以识别图像中的轮廓信息，根据提取到的轮廓信息中是否包含人脸轮廓，来判断图像之中是否包含用户的头像。

在实际执行中，该用户的头像可以是任意用户的头像，也可以是预先设置的特定用户的头像。

进一步的，由于预设区域通常对应于用户使用智能音箱的区域，因而，当预设区域中包含用户的头像时，则认为用户意图使用智能音箱，从而，确定与用户的头像对应的第一推荐内容，以便于后续控制智能音箱进行语音播报。

需要说明的是，在不同的应用场景中，可以采用不同的方式确定与用户的头像对应的第一推荐内容，示例说明如下：

示例一：

在本示例中，如图2所示，上述步骤102包括：

步骤201，根据用户的头像获取用户的年龄信息和性别信息。

容易理解的是，用户的头像反映了用户的年龄信息和性别信息，因此，可以根据用户的头像获取用户的年龄信息和性别信息。

需要说明的是，在不同的应用场景中，可以采用不同的方式来实现根据用户的头像获取用户的年龄信息和性别信息：

在本申请的一个实施例中，可以预先构建不同的年龄信息和性别信息对应的人像特征，比如，女性对应的人像特征包括长头发特征、化妆特征等，男性对应的人像特征包括胡须特征等，进而，提取用户的头像的头像特征，将头像特征与预先构建的头像特征比对，根据比对结果确定用户的年龄信息和性别信息。

在本申请的另一个实施例中，可预先根据大量样本图像训练得到深度学习模型，该深度学习模型的输入为包含人像区域的图像，输出为年龄信息和性别信息，因此，可以将图像输入到深度学习模型，获取对应的年龄信息和性别信息。

步骤202，根据年龄信息和性别信息获取第一推荐内容。

具体的，由于不同的年龄和性别感兴趣的内容不同，比如，中年男性对金融信息普遍感兴趣等，因此，根据年龄信息和性别信息获取播报推荐内容，比如，可以查询预设的对应关系，确定与年龄信息和性别对应的第一推荐内容等。

当然，为了进一步避免打扰用户，在另一些可能的示例中，可以确定与年龄信息和性别信息对应的大量用户的播报时间历史数据，根据播报时间历史数据确定最常被对应年龄信息和性别信息使用的播报的时间，获取当前的时间，确定与当前的时间匹配的最常被用户播报的时间，确定该最常被用户播报的时间下对应用户最常播报的内容为该第一推荐内容。

示例二：

在本示例中，在其他应用程序中获取与用户头像对应的用户账号的用户模型，该用户模型描述了用户在其他应用程序中总结的偏好信息，进而，将用户模型输入预设的自学习模型，获取与该用户对应的第一推荐内容。

步骤103，控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容。

在获取到第一推荐内容后，控制智能音箱语音播报第一推荐内容，此时，由于预设区域通常对应于用户使用智能音箱的区域，因而，当预设区域中包含用户的头像时，则认为用户意图使用智能音箱，从而，控制智能音箱进行语音播报。

其中，为了灵活的满足不同的场景需要，进一步提升服务质量，还可以根据不同的方式来控制智能音箱语音播报第一推荐内容，示例说明如下：

示例一：

在本示例中，为了进一步避免打扰用户，可以在进行语音播报时选择播报时间，在合适的时间为用户进行语音播报，比如，根据用户的人像信息统计用户使用音箱的历史使用时间，获取当前的时间，在当前的时间与历史使用时间匹配时进行第一推荐内容的播报。

示例二：

为了进一步提升用户的使用体验，还可以根据用户的人像信息确定用户的年龄信息，根据用户的年龄信息查询预设数据库，获取匹配的播报声音信息和音量信息，比如，如图3所示，当用户的年龄是10岁时，采用卡通声音中音量语音播报，当用户的年龄是60岁时，采用播音腔声音高音语音播报改第一推荐内容。

示例三：

在本示例中，如图4所示，智能音箱具有显示屏，因此在制智能音箱进行语音播报之前，还可以在显示屏之上显示第一推荐内容对应的功能卡，其中，功能卡与语音播报的内容对应，进而，在进行语音播报时，用户也可以直观的看到对应的第一推荐内容。

进一步的，在播报第一推荐内容时，获取满足预设推荐条件的第二推荐内容，其中，第二推荐内容可以根据场景灵活确定，可以包括突发事件内容，还可以包括根据用户喜好推送的其他推荐内容等。

步骤104，监测当前播报条件，并判断当前播报条件是否满足预设播报条件。

步骤105，如果当前播报条件满足预设播报条件，则播报第二推荐内容。

应当理解的是，为了兼顾用户体验和第二推荐内容的传送到位，在播报第二推荐内容时，监测当前播报条件，只有当满足播报条件后，才播报第二推荐内容。其中，第二推荐内容的播报方法和第一推荐内容播报方法类似，在此不再赘述。

其中，在上述播报条件可以根据用户喜好设定，也可以根据第二推荐内容的紧急程度确定，在一些可能的示例中，当第二推荐内容与突发事件提醒消息对应时，则确定突发事件提醒消息的提醒等级，该提醒等级可以根据突发事件的类型确定，即获取突发事件提醒消息的对应的突发事件，查询预设的对应关系，获取与该突发事件对应的提醒等级，该提醒等级也可通过分析突发事件提醒消息中携带的等级信息确定，进而，判断提醒等级是否大于预设阈值，若是，大于预设阈值，则满足预设的播报条件，即根据提醒等级确定出当前第二推荐内容的播报实时性要求，若是较为紧急，则确定其满足预设播报条件，立即播报第二推荐内容。

在本示例中，当判断获知提醒等级是否小于等于预设阈值，则根据预设阈值与提醒等级之差确定播报延时时间，并在播报延时时间之后播报第二推荐内容。

其中，预设阈值与提醒等级之差和对应的播报延时时间可以为正比关系。

在另一些可能的示例中，当没有获取到突发事件提醒消息，则判断第一推荐内容是否播报完毕，其中，若第一推荐内容播报完毕，则满足预设播报条件，或者，判断用户是否执行预设的切换操作，其中，若用户执行预设的切换操作，则满足预设播报条件，其中，预设的切换操作可以是用户点击预设的切换控件等实施的，从而，在本示例中，按照顺序或者用户的主观意图来确定是否播报第二推荐内容。

综上，本申请实施例的智能音箱的播报控制方法，获取预设区域的图像,并判断图像之中是否包含用户的头像，如果包含用户的头像，则确定与用户的头像对应的第一推荐内容，控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容，进而，监测当前播报条件，并判断当前播报条件是否满足预设播报条件，并且在当前播报条件满足预设播报条件时，播报第二推荐内容。由此，一方面，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，另一方面，还可以根据场景需要确定第二推荐内容来播报，灵活的调整播报内容，进一步提升了智能音箱的服务质量。

应当理解的是，第二推荐内容可以根据实际场景需要不同，可以灵活的满足不同的内容推荐，进一步提升智能音箱的智能化程度。

下面举例说明，如何确定第二推荐内容：

在本申请的一个实施例中，考虑到在在很多时候会有突发的新闻信息，比如，疫情提醒信息，又比如地震信息等，因此，为了进一步丰富的智能音箱的功能，在本实施例中，还可以接收服务器或者其他终端设备发送的突发事件提醒消息，在播报第一推荐内容时，如图5所示，判断是否获取突发事件提醒消息，如果获取到突发事件提醒消息，则根据突发事件提醒消息生成第二推荐内容。

在一些可能的示例中，突发事件提醒消息中包含具体的突发事件提醒内容，此时可以直接将突发事件提醒消息作为第二推荐内容，在一些可能的示例中，突发事件提醒消息中包含突发事件的标识信息，此时根据标识信息与服务器交互，获取到服务器反馈的与该标识信息对应的突发事件提醒内容，并根据该突发事件提醒内容生成第二推荐内容，其中，当第二推荐内容为功能卡形式展现时，可根据功能卡生成模板生成与突发事件提醒内容对应的第二推荐内容。

在本实施例中，继续参照图5所示，若是没有获取到突发时间提醒消息，则可以理解预先针对用户的头像确定候选推荐内容，该候选推荐内容与用户的个人偏好对应，显而易见的是，第一推荐内容也属于该候选推荐内容，因此，在与用户的头像对应的候选推荐内容中，确定除第一推荐内容之外的其他候选推荐内容，进而，根据预设的推荐规则在其他候选推荐内容中确定第二推荐内容。

为了更好的说明，如何根据预设的推荐规则在其他候选推荐内容中确定第二推荐内容，下面结合几种可能的示例来说明：

示例一：

在本示例中，如图6所示，预先针对每个候选推荐内容编写顺序编号，确定当前第一推荐内容的编号后，按照顺序编号，将第一推荐内容之后的候选推荐内容确定为第二推荐内容。

示例二：

在本示例中，如图7所示，预先针对每个候选推荐内容统计用户反馈的满意度，在除了第一推荐内容之后的其他候选推荐内容中，确定满意度最高的推荐内容为第二推荐内容(图中候选推荐内容为5个)。

在本申请的另一个实施例中，用户在第一推荐内容中的操作行为实际上反应了用户的需求，我们可以主动挖掘用户的需求，为用户提供其期望的第二推荐内容，避免用户再次发起搜索等动作，一次操作即可完成多种需求的满足，减少了用户操作步骤以及等待时间。

具体而言，在本实施例中，如图8所示，获取满足预设推荐条件的第二推荐内容步骤，包括：

步骤301，获取用户针对第一推荐内容的操作行为。

具体的，获取用户针对第一推荐内容的操作行为，该操作行为对应于第一推荐内容中的推荐内容，可以为语音操作行为或者触发操作行为时，其中，当用户通过语音操作第一推荐内容时，可以根据语音信息中的关键词确定用户操作的推荐内容，当用户通过触发操作第一推荐内容时，可以根据触发的区域确定该区域中的推荐内容。

步骤302，如果操作行为的操作对象为第一推荐内容中的推荐内容添加候选操作项，则确定与操作行为对应的目标推荐内容。

其中，每个第一推荐内容可对应一个或多个候选操作项。候选操作项是推荐内容对应的用于实现用户目的的操作入口，也就是说，用户可通过触发或点击候选操作项以直接进入用户期望的界面。从而，将添加候选操作项后的推荐内容提供给用户之后，用户可通过点击候选操作项以直接进入需要的界面，而不需针对推荐内容对应的实体再次发起搜索。具体的，如操作行为的操作对象为第一推荐内容中的推荐内容添加候选操作项，则确定与操作行为对应的目标推荐内容，该目标对剑内容为候选操作项对应的界面内容。

步骤303，根据目标推荐内容生成第二推荐内容。

具体的，在获取目标推荐内容后，根据目标推荐内容生成第二推荐内容，其中，当第二推荐内容为功能卡形式时，根据功能卡模板和目标推荐内容生成第二推荐内容。

综上，本申请实施例的智能音箱的播报控制方法，可以根据实际场景灵活生成第二推荐内容，进一步提升了智能音箱的服务质量。

当然，当图像之中未包括用户的头像时，也并不表示用户没有使用智能音箱的意图，因此，为了进一步提升服务质量，还可以判断是否满足主动进行语音播报的时机。

在本申请的一个实施例中，考虑到在实际应用中，若智能音箱处于屏保状态，则认为用户在不久前还使用过智能音箱，因此，为了避免用户在不知道的情况下，智能音箱直接进入睡眠状态，在本实施例中，还可以检测智能音箱是否处于屏保状态，比如，检测智能音箱的当前显示图像是否为预设的屏保图像，又比如，检测智能音箱的当前运行程序接口，根据该接口判断当前是否运行屏保应用。

进一步的，若是智能音箱处于屏保状态，则在屏保状态退出时进行语音播报以告知用户。比如告知用户“我睡觉啦主人”。

若是智能音箱不处于屏保状态，则确定智能音箱不满足主动语音播报的条件，从而，不进行语音播报。

在本申请的另一个实施例中，即使在预设区域没有采集到用户的人像，但是用户可能主动打开了智能音箱，这种情况下，显然也满足语音播报的条件。

具体而言，检测智能音箱的启动状态，比如，可以根据智能音箱的当前上层接口调用情况等来确定启动状态，或者可以根据被触发的对象来确定启动状态等，若是启动状态为主动开机状态，比如，上层接口调用的对象是启动按键，或者是启动状态是电源接入状态，又比如，启动状态是重启键被触发等，则控制智能音箱进行语音播报，如果启动状态为被动开机状态，比如，自动开关机状态，或者是静默重启状态，则控制智能音箱不进行语音播报。

由此，本实施例中的智能音箱播报时，从多个维度考量用户的真实意图，根据用户的真实意图来确定是否语音播报，为了使得本领域的技术人员更加清楚的理解本申请下面结合一个具体的应用场景来进行说明。

在该场景中，预设区域的图像由智能音箱中的摄像头采集，如图9所示，可以检测智能音箱的摄像头是否支持人脸检测，若是不支持，则不进行语音播报，其中，还可以向用户发送提醒智能音箱进行版本升级的消息，以便于后续进行人脸检测的实施。

若是支持，则判断摄像头是否打开，若是已经打开，则获取并检测预设区域的图像中是否包含人脸，若是包含人脸，则进行语音播报，若是不包含，则检测智能音箱是否处于屏保状态，若是处于屏保状，则在屏保状态退出后进行语音播报，其中，屏保状态退出可以是在达到预设时间后自动退出的，也可以是用户触发对应的控件退出的。如智能音箱不处于屏保状态，则等待是否识别人像，同时不进行播报。

若是智能音箱的摄像头没有打开，则检测当前智能音箱的启动状态，如果启动状态为主动开机状态，则控制智能音箱进行语音播报，比如播报第一推荐内容，如果启动状态为被动开机状态，则控制智能音箱不进行语音播报。

综上，本申请实施例的智能音箱的播报控制方法，在图像中不包含人像时，也会根据具体的情况来决定是否可以主动语音播报，进一步提升了智能音箱的服务质量。

为了实现上述实施例，本申请还提出了一种智能音箱的播报控制装置。图10是根据本申请一个实施例的智能音箱的播报控制装置的结构示意图，如图10所示，该智能音箱的播报控制装置包括：第一判断模块101、确定模块102、获取模块103、第二判断模块104和播报模块105，其中，

第一判断模块101，用于获取预设区域的图像,并判断图像之中是否包含用户的头像；

确定模块102，用于在包含用户的头像时，确定与用户的头像对应的第一推荐内容；

在本申请的一个实施例中，确定模块102，具体用于：

根据用户的头像获取用户的年龄信息和性别信息；以及

根据年龄信息和性别信息获取第一推荐内容。

获取模块103，用于控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容；

第二判断模块104，用于监测当前播报条件，并判断当前播报条件是否满足预设播报条件；

在本申请的一个实施例中，当第二推荐内容对应于突发提醒消息时，第二判断模块104，具体用于：

获取突发事件提醒消息的提醒等级；

判断提醒等级是否大于预设阈值，其中，若大于预设阈值，则满足预设播报条件。

本申请的一个实施例中，当第二推荐内容不对应于突发提醒消息时，第二判断模块104，具体用于：

判断第一推荐内容是否播报完毕，其中，若第一推荐内容播报完毕，则满足预设播报条件；或者，

判断用户是否执行预设的切换操作，其中，若用户执行预设的切换操作，则满足预设播报条件。

播报模块105，用于在当前播报条件满足预设播报条件时，播报第二推荐内容。

需要说明的是，前述对智能音箱的播报控制方法的解释说明，也使适用于本实施例的智能音箱的播报控制装置，其实现原理类似，在此不再赘述。

综上，本申请实施例的智能音箱的播报控制装置，获取预设区域的图像,并判断图像之中是否包含用户的头像，如果包含用户的头像，则确定与用户的头像对应的第一推荐内容，控制智能音箱语音播报第一推荐内容，并获取满足预设推荐条件的第二推荐内容，进而，监测当前播报条件，并判断当前播报条件是否满足预设播报条件，并且在当前播报条件满足预设播报条件时，播报第二推荐内容。由此，一方面，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，另一方面，还可以根据场景需要确定第二推荐内容来播报，灵活的调整播报内容，进一步提升了智能音箱的服务质量。

下面举例说明获取模块103如何确定第二推荐内容：

在本申请的一个实施例中，获取模块103，具体用于：

判断是否获取突发事件提醒消息；

如果获取到突发事件提醒消息，则根据突发事件提醒消息生成第二推荐内容。

在本实施例中，获取模块103，具体用于：

如果没有获取到突发事件提醒消息，则在与用户的头像对应的候选推荐内容中，确定除第一推荐内容之外的其他候选推荐内容；

根据预设的推荐规则在其他候选推荐内容中确定第二推荐内容。

在本申请的一个实施例中，获取模块103，具体用于：

获取用户针对第一推荐内容的操作行为；

如果操作行为的操作对象为第一推荐内容中的推荐内容添加候选操作项，则确定与操作行为对应的目标推荐内容；

根据目标推荐内容生成第二推荐内容。

综上，本申请实施例的智能音箱的播报控制装置，可以根据实际场景灵活生成第二推荐内容，进一步提升了智能音箱的服务质量。

在本申请的一个实施例中，考虑到在实际应用中，若智能音箱处于屏保状态，则认为用户在不久前还使用过智能音箱，因此，为了避免用户在不知道的情况下，智能音箱直接进入睡眠状态，在本实施例中，播报模块105还可以检测智能音箱是否处于屏保状态，比如，检测智能音箱的当前显示图像是否为预设的屏保图像，又比如，检测智能音箱的当前运行程序接口，根据该接口判断当前是否运行屏保应用。

若是智能音箱不处于屏保状态，则确定智能音箱不满足主动语音播报的条件，从而，播报模块105不进行语音播报。

具体而言，播报模块105检测智能音箱的启动状态，比如，可以根据智能音箱的当前上层接口调用情况等来确定启动状态，或者可以根据被触发的对象来确定启动状态等，若是启动状态为主动开机状态，比如，上层接口调用的对象是启动按键，或者是启动状态是电源接入状态，又比如，启动状态是重启键被触发等，则控制智能音箱进行语音播报，如果启动状态为被动开机状态，比如，自动开关机状态，或者是静默重启状态，则播报模块105控制智能音箱不进行语音播报。

由此，本实施例中的智能音箱播报时，从多个维度考量用户的真实意图，根据用户的真实意图来确定是否语音播报。

综上，本申请实施例的智能音箱的播报控制装置，在图像中不包含人像时，也会根据具体的情况来决定是否可以主动语音播报，进一步提升了智能音箱的服务质量。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图11所示，是根据本申请实施例的智能音箱的控制的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图11中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的智能音箱的控制的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的智能音箱的控制的方法。

存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的智能音箱的控制的方法对应的程序指令/模块(例如，附图11所示的第一判断模块101、确定模块102、获取模块103、第二判断模块104和播报模块105)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的智能音箱的控制的方法。

存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据智能音箱的控制的电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至智能音箱的控制的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

智能音箱的控制的方法的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置1103可接收输入的数字或字符信息，以及产生与智能音箱的控制的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种智能音箱的播报控制方法，其特征在于，包括：

获取预设区域的图像,并判断所述图像之中是否包含用户的头像；

如果包含所述用户的头像，则确定与所述用户的头像对应的第一推荐内容；

控制所述智能音箱语音播报所述第一推荐内容，并获取满足预设推荐条件的第二推荐内容；

监测当前播报条件，并判断所述当前播报条件是否满足预设播报条件；以及

如果所述当前播报条件满足预设播报条件，则播报所述第二推荐内容。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述用户的头像对应的第一推荐内容，包括：

根据所述用户的头像获取所述用户的年龄信息和性别信息；以及

根据所述年龄信息和性别信息获取所述第一推荐内容。

3.根据权利要求2所述的方法，其特征在于，包括：

获取当前的时间，其中，根据所述年龄信息、所述性别信息和所述当前时间获取所述第一推荐内容。

4.如权利要求1所述的方法，其特征在于，所述获取满足预设推荐条件的第二推荐内容，包括：

判断是否获取突发事件提醒消息；

如果获取到突发事件提醒消息，则所述根据所述突发事件提醒消息生成所述第二推荐内容。

5.如权利要求4所述的方法，其特征在于，还包括：

如果没有获取到突发事件提醒消息，则在与所述用户的头像对应的候选推荐内容中，确定除所述第一推荐内容之外的其他候选推荐内容；

根据预设的推荐规则在所述其他候选推荐内容中确定所述第二推荐内容。

6.如权利要求1所述的方法，其特征在于，所述获取满足预设推荐条件的第二推荐内容，包括：

获取用户针对所述第一推荐内容的操作行为；

如果所述操作行为的操作对象为所述第一推荐内容中的推荐内容添加候选操作项，则确定与所述操作行为对应的目标推荐内容；

根据所述目标推荐内容生成所述第二推荐内容。

7.如权利要求4所述的方法，其特征在于，所述判断所述当前播报条件是否满足预设播报条件，包括：

获取所述突发事件提醒消息的提醒等级；

判断所述提醒等级是否大于预设阈值，其中，若大于所述预设阈值，则满足所述预设播报条件。

8.如权利要求5所述的方法，其特征在于，所述判断所述当前播报条件是否满足预设播报条件，包括：

判断所述第一推荐内容是否播报完毕，其中，若所述第一推荐内容播报完毕，则满足所述预设播报条件；或者，

判断用户是否执行预设的切换操作，其中，若所述用户执行所述预设的切换操作，则满足所述预设播报条件。

9.如权利要求1所述的方法，其特征在于，还包括：

如果所述图像之中未包含所述用户的头像，则检测所述智能音箱是否处于屏保状态；

如果所述智能音箱处于所述屏保状态，则在所述屏保状态退出时进行语音播报。

10.如权利要求9所述的方法，其特征在于，还包括：

如果所述智能音箱未处于所述屏保状态，则不进行语音播报。

11.如权利要求1所述的方法，其特征在于，所述在所述智能音箱启动之中，还包括：

检测所述智能音箱的启动状态；

如果所述启动状态为主动开机状态，则控制所述智能音箱进行语音播报；

如果所述启动状态为被动开机状态，则控制所述智能音箱不进行语音播报。

12.一种智能音箱的播报控制装置，其特征在于，包括：

第一判断模块，用于获取预设区域的图像,并判断所述图像之中是否包含用户的头像；

确定模块，用于在包含所述用户的头像时，确定与所述用户的头像对应的第一推荐内容；

获取模块，用于控制所述智能音箱语音播报所述第一推荐内容，并获取满足预设推荐条件的第二推荐内容；

第二判断模块，用于监测当前播报条件，并判断所述当前播报条件是否满足预设播报条件；

播报模块，用于在所述当前播报条件满足预设播报条件时，播报所述第二推荐内容。

13.如权利要求12所述的装置，其特征在于，所述确定模块，具体用于：

根据所述年龄信息和性别信息获取所述第一推荐内容。

14.如权利要求12所述的装置，其特征在于，所述获取模块，具体用于：

判断是否获取突发事件提醒消息；

15.如权利要求14所述的装置，其特征在于，所述获取模块，具体用于：

16.如权利要求12所述的装置，其特征在于，所述获取模块，具体用于：

获取用户针对所述第一推荐内容的操作行为；

根据所述目标推荐内容生成所述第二推荐内容。

17.如权利要求14所述的装置，其特征在于，所述第二判断模块，具体用于：

获取所述突发事件提醒消息的提醒等级；

18.如权利要求15所述的装置，其特征在于，所述第二判断模块，具体用于：

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的智能音箱的播报控制方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的智能音箱的播报控制方法。