CN113569712B

CN113569712B - 信息交互方法、装置、设备以及存储介质

Info

Publication number: CN113569712B
Application number: CN202110839550.2A
Authority: CN
Inventors: 冯博豪; 陈禹燊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-11-14
Anticipated expiration: 2041-07-23
Also published as: CN113569712A

Abstract

本公开提供了信息交互方法、装置、设备以及存储介质，涉及人工智能技术领域。具体实现方案为：响应于满足预设的图像采集条件，采集目标对象的多张图像；对多张图像进行分析，确定与目标对象对应的指令；根据指令，输出交互信息。本实现方式可以提高人机交互体验。

Description

信息交互方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及人工智能技术领域、语音识别领域和图像识别领域，尤其涉及信息交互方法、装置、设备以及存储介质。

背景技术

中国老龄化社会已经到来，老年人的健康和生活服务需求迫切且巨大。随着人工智能技术的发展，越来越多的公司和机构从事居家机器人研发，各种形式和各种功能的机器人相继出现。这些机器人逐渐承担一些重复、繁重的工作，成为居家老人日常生活的护理助手。

现有的家用机器人功能不丰富，有的***只能识别特定的语音控制指令，对于意思相近的指令则无法识别。有的***只能通过将人们提出的问题和本地问题模板进行匹配从而给出应答，其功能比较单一，拓展性较差。

发明内容

本公开提供了一种信息交互方法、装置、设备以及存储介质。

根据第一方面，提供了一种信息交互方法，包括：响应于满足预设的图像采集条件，采集目标对象的多张图像；对多张图像进行分析，确定与目标对象对应的指令；根据指令，输出交互信息。

根据第二方面，提供了一种信息交互装置，包括：图像采集单元，被配置成响应于满足预设的图像采集条件，采集目标对象的多张图像；指令确定单元，被配置成对多张图像进行分析，确定与目标对象对应的指令；信息交互单元，被配置成根据指令，输出交互信息。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，上述指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面所描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如第一方面所描述的方法。

根据第五方面，一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如第一方面所描述的方法。

根据本公开的技术可以通过采集多张图像确定对应的指令，从而能够更好的为用户，特别是，居家老人、残障人士等，提供服务。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开的一个实施例可以应用于其中的示例性***架构图；

图2是根据本公开的信息交互方法的一个实施例的流程图；

图3是根据本公开的信息交互方法的一个应用场景的示意图；

图4是根据本公开的信息交互方法的另一个实施例的流程图；

图5是根据本公开的信息交互方法的又一个实施例的流程图；

图6是根据本公开的信息交互方法的又一个实施例中确定用户意图以及槽位标签的流程图；

图7是根据本公开的信息交互装置的一个实施例的结构示意图；

图8是用来实现本公开实施例的信息交互方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的信息交互方法或信息交互装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括智能终端设备101、102、103，网络104和服务器105。网络104用以在智能终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用智能终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。智能终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音识别类应用、语音生成类应用等。智能终端设备101、102、103上还可以安装有图像采集装置、麦克风阵列、扬声器等。

智能终端设备101、102、103可以是硬件，也可以是软件。当智能终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当智能终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对智能终端设备101、102、103上提供支持的后台服务器。后台服务器可以向智能终端设备101、102、103提供图像处理模型或语音处理模型，得到处理结果，并将处理结果反馈给智能终端设备101、102、103。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的信息交互方法一般由智能终端设备101、102、103执行。相应地，信息交互装置一般设置于智能终端设备101、102、103中。

应该理解，图1中的智能终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的智能终端设备、网络和服务器。

继续参考图2，示出了根据本公开的信息交互方法的一个实施例的流程200。本实施例的信息交互方法，包括以下步骤：

步骤201，响应于满足预设的图像采集条件，采集目标对象的多张图像。

本实施例中，信息交互方法的执行主体可以实时检测是否满足预设的图像采集条件，如果满足，则可以采集目标对象的多张图像。上述图像采集条件可以是自上次采集图像经过了预设时长、碰到了障碍物、行走到了某个特定位置等。执行主体可以连接有图像采集装置，上述图像采集装置可以是单目相机、双目相机、深度相机等等。当图像采集条件满足时，执行主体可以控制图像采集装置多次采集目标对象的图像，得到多张图像。这里，目标对象可以是人物，也可以是物体，还可以是区域等等。在一些具体的应用场景中，当预设的图像采集条件满足时，执行主体可以通过多次采集图像，判断是否采集到目标对象的图像。如果采集到，则继续采集目标对象的图像。如果未采集到，则执行主体可以控制调整图像采集装置的角度，以准确采集目标对象的图像。

步骤202，对多张图像进行分析，确定与目标对象对应的指令。

执行主体在采集到多张图像后，可以对多张图像进行分析，得到分析结果。然后，根据分析结果，确定与目标对象对应的指令。具体的，执行主体可以对多张图像进行状态识别，确定目标对象的状态。然后，执行主体可以根据预先设定的状态与指令的对应关系，确定目标对象对应的指令。或者，执行主体可以分别将多张图像输入预先训练的深度学习模型中，得到与目标对象对应的指令。上述深度学习模型可以用于表征多张图像与指令的对应关系。上述指令可以是语音播放指令、图像显示指令、运动指令等等。

步骤203，根据上述指令，输出交互信息。

本实施例中，执行主体在确定上述指令后，可以输出交互信息。上述交互信息可以是与上述指令存在对应关系的信息，也可以是固定的信息。例如，上述指令是运动指令，则上述交互信息可以是显示运动位置。上述指令是语音指令，则上述交互信息可以是回复语音。

继续参见图3，其示出了根据本公开的信息交互方法的一个应用场景的示意图。在图3的应用场景中，智能家居机器人可以每隔5分钟采集独居老人的图像。即，智能家居机器人在检测到自上次采集独居老人的图像经过了5分钟，智能家居机器人可以再次采集独居老人的多张图像。智能家居机器人可以对上述多张图像进行图像分类，确定独居老人是否摔倒。如果摔倒，则可以确定与独居老人对应的指令为报警指令。最后，智能家居机器人可以根据上述报警指令，输出语音“已为您通知家属”，同时向家属发送独居老人的图像，供家属及时查看独居老人的状态。

本公开的上述实施例提供的信息交互方法，可以通过采集多张图像确定对应的指令，从而能够更好的为用户，特别是居家老人、残障人士等，提供服务。

继续参见图4，其示出了根据本公开的信息交互方法的另一个实施例的流程400。如图4所示，本实施例的方法可以包括以下步骤：

步骤401a，响应于确定自上次采集目标对象的图像经过了预设时长，确定满足图像采集条件。

执行主体可以实时监测是否满足图像采集条件。本实施例中，执行主体可以记录每次采集图像的时间，并计算当前时刻与上次采集图像的时间之间的时长。如果上述时长等于预设时长，则可以确定满足图像采集条件。

执行主体还可以通过步骤401b来判断是否满足图像采集条件。

步骤401b，响应于接收到图像采集指令，确定满足图像采集条件。

本实施例中，用户还可以通过多种方式通过执行主体的输入设备输入图像采集指令，例如可以通过触摸点击的方式输入，或者通过语音的方式输入。上述图像采集指令还可以是其它方式触发的，例如执行主体在运动过程中碰撞到了障碍物、所处环境温度达到了预设温度阈值等等。

步骤402，响应于满足预设的图像采集条件，采集目标对象的多张图像。

本实施例中，如果执行主体确定满足图像采集条件，可以控制通信连接的图像采集装置采集目标对象的多张图像。上述目标对象可以为人体。具体的，用户可以预先在执行主体内设置目标对象的人脸图像、人体图像、声纹信息等，以供执行主体识别目标对象。

步骤403，对多张图像进行分类，并基于分类结果确定目标对象的状态；响应于确定目标对象的状态满足预设的报警条件，确定报警指令。

本实施例中，执行主体可以对多张图像进行分类，并基于分类结果确定目标对象的状态。上述状态可以包括但不限于：摔倒、晕倒、哮喘发作、呕吐等等。具体的，执行主体可以将上述多张图像输入预先训练的图像分类模型中，得到分类结果。并基于分类结果确定目标对象的状态。这里，分类结果可以是预先设定的多个分类结果中至少一个。例如，分类结果可以包括分类1、分类2等等。不同的分类结果对应不同的状态，例如分类结果1对应摔倒状态，分类结果2对应晕倒状态等等。执行主体可以预先获取预先训练的图像分类模型并存储在本地。上述图像分类模型可以Inception-resnet模型。Inception-resnet模型包含有残差结构，在图像分类领域要优于其他模型。

上述图像分类模型可以由以下步骤训练得到：获取训练样本集合，训练样本集合中的各训练样本包括多张样本图像以及对应的分类标签。将各训练样本的多张样本图像作为输入，将所输入的多张样本图像对应的分类标签作为期望输出，训练得到图像分类模型。

上述训练样本集合中的多张样本图像可以包括各状态发生前后的多张图像，例如可以包括摔倒前后的多张图像、晕倒前后的多张图像。得到的分类标签可以对应人体的各个状态。需要说明的是，图像分类模型的训练过程可以由其它电子设备完成，其它电子设备在训练完成后，可以将训练完成的图像分类模型发送给执行主体。

执行主体可以判断目标对象的状态是否满足预设报警条件。上述预设报警条件可以是当前目标对象的状态位于预设的状态集合内。如果目标对象的状态位于上述状态集合内，可以确定预设报警条件满足。执行主体可以进一步确定报警指令。具体的，执行主体可以根据状态与报警指令的对应关系，确定出与目标对象的状态对应的报警指令。例如，呕吐状态对应的报警指令为输出常用药物的存放位置，摔倒状态对应的报警指令为发送至少一张图像至预设人员，晕倒状态对应的报警指令为拨打急救电话等。

步骤404，根据报警指令，将多张图像中的至少一张发送给预设人员。

本实施例中，执行主体确定目标对应的指令为报警指令时，可以将多张图像中的至少一张发送给预设人员。上述预设人员可以是家庭医生，也可以是目标对象的家属。

在一些具体的应用中，执行主体还可以的上述预设人员提供建议解决方案。上述建议解决方案可以是技术人员根据上述状态预先设置好的。也可以是执行主体根据历史处理方案学习到的。

本公开的上述实施例提供的信息交互方法，可以通过对多张图像进行分类，确定用户的状态，并基于状态进行报警，提高用户的安全性。

继续参见图5，其示出了根据本公开的信息交互方法的另一个实施例的流程500。如图5所示，本实施例的方法可以包括以下步骤：

步骤501，响应于接收到语音指令，对语音指令进行意图检测以及槽位填充，确定用户意图以及槽位标签；根据用户意图以及槽位标签，确定目标对象以及采集目标对象的多张图像。

本实施例中，执行主体可以接收语音指令。具体的，执行主体可以通过通信连接的麦克风阵列采集语音指令。执行主体可以对语音指令进行语音识别，得到对应的文本。然后对文本进行意图检测以及槽位填充，确定用户意图以及槽位标签。

执行主体在确定用户意图以及槽位标签后，可以确定目标对象，而后采集目标对象的多张图像。比如，语音指令为“将书本从桌子放到床上”，意图检测为“移动书本”，槽位为“桌子”和“床”。则目标对象为“书本”、“桌子”和“床”。上述多张图像可以是深度摄像头拍摄，也可以是多个摄像头拍摄。

步骤502，对多张图像进行目标检测，确定目标对象的位置；根据目标对象的位置，确定与目标对象之间的距离；根据目标对象的位置以及与目标对象之间的距离，确定操作指令。

本实施例中，执行主体还可以对多张图像进行目标检测，确定目标对象的位置。具体的，执行主体可以利用预先训练的目标检测模型，确定多个目标对象。上述目标检测模型可以是yolo-v5，它能够定位到“桌子”、“书本”和“床”。在确定出目标对象的位置后，执行主体还可以对目标对象进行测距。具体的，利用多个摄像头对同一物品进行拍摄，利用摄像头的视差以及三角测量原理，能够计算与目标物体的距离。根据这个位置和距离，执行主体可以确定操作指令，以供准确执行相关的指令，比如，让机器手臂准确抓住书本。

步骤503，执行操作指令，并输出操作结果。

本实施例中，执行主体在确定操作指令后，可以执行上述操作指令，例如将书本从桌子上拿到床上。在执行上述操作指令时，执行主体可以控制其中的机械部件进行转动或移动，来完成上述操作指令。执行主体还可以实时输出操作结果。例如，执行主体可以语音播报“已到达桌子处”、“已拿取书本”和“已放到床上”。或者，执行主体还可以在显示屏上动态显示所采集的图像等。

在本实施例的一些可选的实现方式中，在执行操作指令的过程中，可能需要移动。执行主体可以首先根据所处的环境信息和/或目标对象的类型，确定移动速度。然后以上述移动速度进行移动。

本实现方式中，可以根据所处的环境信息和/或所述目标对象的类型，确定对应的移动速度。所处的环境信息可以包括用于描述执行主体所处的场所的信息(例如位于酒店大堂、银行大堂、家庭)。执行主体可以根据所处的场所确定移动速度。例如，在酒店大堂或银行大堂，移动速度可以为1米/秒。如果所处的场所为家庭内，可以将移动速度设置为0.5米/秒。所处的环境信息还可以包括用于描述服务对象的信息。例如服务对象为老人、小孩、年轻人等等。如果服务对象为老人、小孩，则将移动速度设置为0.5米/秒。如果服务对象为年轻人，则将移动速度设置为1米/秒。这样，可以防止执行主体在移动的过程中撞倒服务对象。可以理解的是，执行主体在移动的过程中，可以通过其四周安装的多个传感器感知移动过程中周围的环境信息，包括周围的桌子、椅子、人等。这些环境信息能够避免让机器人在行动过程中撞到障碍物。

在本实施例的一些可选的实现方式中，执行主体还可以通过图5中未示出的以下步骤实现实时输出操作结果：获取操作指令的执行进度，根据执行进度生成响应文本；输出响应文本对应的语音。

本实现方式中，执行主体可以实时获取操作指令的执行进度。具体的，执行主体可以根据机械臂的姿态或执行主体所在的位置，确定指令的执行进度。或者，执行主体可以通过图像采集设备采集周围的图像，确定执行性进度。根据执行进度生成响应文本。例如，执行主体可以根据所在的位置，生成响应文本。例如“我到桌子旁边了”等等。执行主体可以输出响应文本对应的语音。通过本实现方式还可以实现对心率、血氧等健康数据的同步播报。

通过本实现方式，可以实现语音指令执行结果及人机对话返回结果的实时播报，从而使居家老人能及时、准确、全面地知道机器人运行状态并提升人机交互体验。

在本实施例的一些可选的实现方式中，执行主体确定响应文本对应的音频波形；基于音频波形，输出响应文本对应的语音。

本实现方式中，在进行语音合成时，执行主体可以利用ClariNet模型。ClariNet模型使用基于注意力机制(Attention)的编码器-解码器模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态(hidden states)被送给Bridge-net来进行时序信息处理和升采样。最终Bridge-net的隐状态被送给音频波形生成模块(Vocoder)，用来合成音频波形。最后音频波形，输出响应文本对应的语音。ClariNet打通了从文本到原始音频波形的端到端输出，实现了对整个TTS***的联合优化，比起其他模型，在语音合成的自然度上有大幅提升。另外，ClariNet是全卷积模型，性能要优于其他基于RNN的模型。

通过本实现方式，还可以实现与用户的闲聊。用户可以通过各种方式开启闲聊模式，例如通过输入语音“聊会天”或者说出唤醒词来开启。当居家老人开启闲聊模式时，执行主体会利用训练好的合成语音模型生成对应的文本的语音，从而实现与居家老人的沟通。

在本实施例的一些可选的实现方式中，执行主体还可以根据预先设置的声音参数，输出响应文本对应的语音。

本实现方式中，通过对多数居家老人听力习惯的测试，语音合成模块对发音人性别、语音、语速、音量、音色、频率等信息进行了初始设置。通过上述声音参数，可以为居家老人提供听起来舒服的语音。

在本实施例的一些可选的实现方式中，执行主体还可以接收针对声音参数的调整指令，根据调整指令调整声音参数。

本实现方式中，居家老人在使用过程中，也可以根据自己的实际需求通过交互界面进行设置声音参数。

在本实施例的一些可选的实现方式中，上述方法还可以包括图5中未示出的以下步骤：存储接收到的指令、采集到的图像。

本实现方式中，执行主体可以将采集到的图像存储，这些图像可以在后续经标注后用于图像分类模型的优化训练。在对话场景中，执行主体还可以保存用户输入的语音指令以及生成的回复文本。这些对话数据也可以经标注后用于训练文本生成模型。执行主体还可以存储上述优化后的模型，以提升交互性能。

在本实施例的一些可选的实现方式中，上述方法还可以包括图5中未示出的以下步骤：响应于接收到自定义设置请求，显示设置界面；将通过设置界面输入的指令作为自定义指令。

本实现方式中，执行主体可以连接有显示装置，上述显示装置可以是设置在执行主体上的显示交互屏，也可以是与执行主体通信连接的远程终端。交互屏可以用于播放娱乐项目(电影、音乐mv和电子书等)和自定义指令。自定义指令是指，用户(老人)可自行增加一些简单的、常用的指令。用户可以通过上述显示屏发送自定义设置请求，在接收到上述自定义设置请求后，可以显示设置界面。上述设置界面上可以包括指令输入接口。用户可以通过上述设置成界面输入指令，执行主体可以将用户输入的指令作为自定义指令。远程终端可以为老人家属的移动端和私人医生的移动端。执行主体将监控到的情况实时地发送到家属和医生的终端***。家属和医生可以实现实时的远程查看。老人家属能够通过切换画面的摄像头，调整拍摄的角度。另外，如果遇到突发情况，老人家属能够通过显示屏，查看紧急事件的处理方式。

本公开的上述实施例提供的信息交互方法，可以实现与用户的语音交互，实现物品的取放、状态监控等等，提高交互体验。

继续参见图6，其示出了根据本公开的信息交互方法中确定用户意图以及槽位标签的流程600。如图6所示，本实施例中可以通过以下步骤实现意图检测以及槽位填充：

步骤601，对语音指令进行语音识别，得到语音文本。

本实施例中，执行主体可以首先对语音指令进行语音识别，得到语音文本。具体的，执行主体可以利用预先训练的深度学习算法进行语音识别，将算法输出的文本作为语音文本。

在本实施例的一些可选的实现方式中，执行主体可以通过以下步骤进行语音识别：

步骤6011，对语音指令进行语音激活检测，确定语音指令的起始点和结束点。

步骤6012，对起始点和结束点之间的语音进行数字化，提取数字化后的音频的特征。

步骤6013，根据所提取的数字化后的音频的特征以及预先训练的向量确定模型，确定音频对应的向量。

步骤6014，对音频对应的向量进行解码，确定语音文本。

本实现方式中，语音识别的输入为一段时域的语音信号，用编码为向量表示，输出是对应的文本。一段音频输入后，在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成干扰，因此需要进行语音激活检测(VAD)。通过语音激活检测，执行主体可以确定语音指令的起始点和结束点。

然后，执行主体可以对起始点和结束点之间的语音进行数字化，并进行特征提取。这里先将音频数字化，获取梅尔频率倒谱系数(MFCC)语音特征。

执行主体可以将获取到的MFCC语音特征输入到WaveNet网络中进行处理。WaveNet模型融合了dilated CNN、残差网络、CTC和LSTM。其中，dilated CNN模型可以增加卷积核的感受野，利用更长距离的上下文信息。

最后，利用解码器(decoder)解码，并输出最终的识别结果。

步骤602，对语音文本进行意图检测以及槽位填充，确定用户意图以及槽位标签。

执行主体在确定语音文本后，可以对语音文本进行意图检测以及槽位填充，确定用户意图以及槽位标签。具体的，执行主体可以利用预先训练的语言模型进行意图检测。同时预测语音文本中的槽位，确定槽位标签。

步骤6021，对语音文本进行编码，确定语音文本对应的文本向量。

步骤6022，对文本向量进行编码，确定文本向量对应的意图分类向量以及多个槽位预测向量。

步骤6023，根据意图分类向量以及多个槽位预测向量，确定用户意图以及槽位标签。

本实现方式中，执行主体可以首先对语音文本进行编码，确定语音文本对应的文本向量。这里的文本向量可以是高维向量。具体的，执行主体可以利用多种编码算法对语音文本进行编码。

然后，执行主体可以将文本向量输入到神经网络的transformer模块中进行编码，得到文本向量对应的意图分类向量以及多个槽位预测向量。这里，意图分类向量和多个槽位预测向量可以分别作为transformer模块输出的多头自注意力的Attention值。

最后，执行主体可以分别将意图分类向量以及多个槽位预测向量输入前馈神经网络，再送入softmax分类器。最后输出意图标签和slot标签。

具体的，执行主体可以利用SlotRefine模型(来源于论文EMNLP2020的一篇文章)进行意图检测以及槽位填充。该模型融合了意图检测和槽位(slot)填充两项任务，在意图理解上能够取得较优效果，并且在解码速度上优于现有的其他模型。

在本实施例的一些可选的实现方式中，执行主体可以通过图6中未示出的以下步骤确定用户意图以及槽位标签：对意图分类向量进行分类，并基于分类结果确定用户意图；分别将意图分类向量与各槽位预测向量进行拼接，得到多个拼接向量；对各拼接向量进行分类，并基于分类结果确定槽位标签。

本实现方式中，执行主体可以首先将意图分类向量送入softmax分类器，根据softmax分类器得到的分类结果确定用户意图。执行主体还可以分别将意图分类向量与各槽位预测向量进行拼接，得到多个拼接向量。并将各拼接向量送入softmax分类器，根据softmax分类器得到的分类结果确定槽位标签。

本公开的上述实施例提供的信息交互方法，可以有效地识别用户意图和槽位标签，提高操作指令的准确性。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种信息交互装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的信息交互装置700包括：图像采集单元701、指令确定单元702和信息交互单元703。

图像采集单元701，被配置成响应于预设的图像采集条件满足，采集目标对象的多张图像。

指令确定单元702，被配置成对多张图像进行分析，确定与目标对象对应的指令。

信息交互单元703，被配置成根据指令，输出交互信息。

在本实施例的一些可选的实现方式中，装置700还可以进一步包括图7中未示出的条件判断单元，被配置成：监测以下至少一项是否满足：自上次采集目标对象的图像经过了预设时长、接收到图像采集指令；响应于以上至少一项满足，确定满足预设的图像采集条件。

在本实施例的一些可选的实现方式中，指令确定单元702可以进一步被配置成：对多张图像进行分类，并基于分类结果确定目标对象的状态；响应于确定目标对象的状态满足预设的报警条件，确定报警指令。相应地，信息交互单元703可以进一步被配置成：根据报警指令，将多张图像中的至少一张发送给预设人员。

在本实施例的一些可选的实现方式中，图像采集单元701可以进一步被配置成：响应于接收到语音指令，对语音指令进行意图检测以及槽位填充，确定用户意图以及槽位标签；根据用户意图以及槽位标签，确定目标对象以及采集目标对象的多张图像。

在本实施例的一些可选的实现方式中，图像采集单元701可以进一步被配置成：对语音指令进行语音识别，得到语音文本；对语音文本进行意图检测以及槽位填充，确定用户意图以及槽位标签。

在本实施例的一些可选的实现方式中，图像采集单元701可以进一步被配置成：对语音指令进行语音激活检测，确定语音指令的起始点和结束点；对起始点和结束点之间的语音进行数字化，提取数字化后的音频的特征；根据所提取的数字化后的音频的特征以及预先训练的向量确定模型，确定音频对应的向量；对音频对应的向量进行解码，确定语音文本。

在本实施例的一些可选的实现方式中，图像采集单元701可以进一步被配置成：对语音文本进行编码，确定语音文本对应的文本向量；对文本向量进行编码，确定文本向量对应的意图分类向量以及多个槽位预测向量；根据意图分类向量以及多个槽位预测向量，确定用户意图以及槽位标签。

在本实施例的一些可选的实现方式中，图像采集单元701可以进一步被配置成：对意图分类向量进行分类，并基于分类结果确定用户意图；分别将意图分类向量与各槽位预测向量进行拼接，得到多个拼接向量；对各拼接向量进行分类，并基于分类结果确定槽位标签。

在本实施例的一些可选的实现方式中，指令确定单元702可以进一步被配置成：对多张图像进行目标检测，确定目标对象的位置；根据目标对象的位置，确定与目标对象之间的距离；根据目标对象的位置以及与目标对象之间的距离，确定操作指令。相应地，信息交互单元703可以进一步被配置成：执行操作指令，并输出操作结果。

在本实施例的一些可选的实现方式中，信息交互单元703可以进一步被配置成：根据所处环境的信息和/或目标对象的类型，确定移动速度；以移动速度移动。

在本实施例的一些可选的实现方式中，信息交互单元703可以进一步被配置成：获取操作指令的执行进度，根据执行进度生成响应文本；输出响应文本对应的语音。

在本实施例的一些可选的实现方式中，信息交互单元703可以进一步被配置成：确定响应文本对应的音频波形；基于音频波形，输出响应文本对应的语音。

在本实施例的一些可选的实现方式中，装置700还可以进一步包括图7中未示出的自定义设置单元，被配置成：响应于接收到自定义设置指令，显示设置界面；将通过设置界面输入的指令作为自定义指令。

应当理解，信息交互装置700中记载的单元701至单元703分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对信息交互方法描述的操作和特征同样适用于装置700及其中包含的单元，在此不再赘述。

在一些具体的应用场景中，上述信息交互装置700可以集成在智能家居机器人中。信息交互装置700可以实现为多个软件模块，包括语音识别模块、语音合成模块、目标物体定位模块、指令意图理解模块、突发情况识别模块、应急处理模块、机械程控模块、显示模块和存储模块。各模块间相互作用，能够极大程度地提高居家机器人的服务体验。其中，语音识别模块主要用于识别用户输入的语音。指令意图理解模块主要用于理解用户的意图。目标物体定位模块主要用于定位相关的目标物体。语音合成模块主要用于实现语音指令执行结果及人机对话返回结果的实时播报。突发情况识别模块主要用于识别老人的突发情况。应急处理模块主要用于自动拨打电话联系家属和医生，发送实时图像信息给家属和医生，并提供建议解决方案。机械程控模块主要用于接收到运动指令后将该指令传递给机器人的机械程控模块从而驱动机器人根据指令运动。显示模块主要用于显示各种信息。存储模块主要用于存储各种数据。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了根据本公开实施例的执行信息交互方法的电子设备800的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储器808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储电子设备800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。I/O接口(输入/输出接口)805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储器808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器801可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器801执行上文所描述的各个方法和处理，例如信息交互方法。例如，在一些实施例中，信息交互方法可被实现为计算机软件程序，其被有形地包含于机器可读存储介质，例如存储器808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM803并由处理器801执行时，可以执行上文描述的信息交互方法的一个或多个步骤。备选地，在其他实施例中，处理器801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息交互方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。上述程序代码可以封装成计算机程序产品。这些程序代码或计算机程序产品可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器801执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读存储介质可以是机器可读信号存储介质或机器可读存储介质。机器可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开的保护范围之内。

Claims

1.一种信息交互方法，所述方法应用于智能终端设备，所述方法包括：

响应于满足预设的图像采集条件，采集目标对象的多张图像；

对所述多张图像进行分析，确定与所述目标对象对应的指令；

根据所述指令，输出交互信息；

所述对所述多张图像进行分析，确定与所述目标对象对应的指令，包括：

对所述多张图像进行目标检测，确定所述目标对象的位置；

根据所述目标对象的位置，确定所述智能终端设备与所述目标对象之间的距离；

根据所述目标对象的位置以及与所述目标对象之间的距离，确定操作指令；

所述根据所述指令，输出交互信息，包括：

执行所述操作指令，并输出操作结果；

所述执行所述操作指令，并输出操作结果包括：

在执行所述操作指令的过程中，实时获取所述操作指令的执行进度，根据所述执行进度生成响应文本；

实时输出所述响应文本对应的语音。

2.根据权利要求1所述的方法，其中，所述方法还包括：

监测以下至少一项是否满足：自上次采集所述目标对象的图像经过了预设时长、接收到图像采集指令；

响应于以上至少一项满足，确定满足所述预设的图像采集条件。

3.根据权利要求1所述的方法，其中，所述对所述多张图像进行分析，确定与所述目标对象对应的指令，包括：

对所述多张图像进行分类，并基于分类结果确定所述目标对象的状态；

响应于确定所述目标对象的状态满足预设的报警条件，确定报警指令；

所述根据所述指令，输出交互信息，包括：

根据所述报警指令，将所述多张图像中的至少一张发送给目标终端。

4.根据权利要求1所述的方法，其中，所述响应于满足预设的图像采集条件，采集目标对象的多张图像，包括：

响应于接收到语音指令，对所述语音指令进行意图检测以及槽位填充，确定用户意图以及槽位标签；

根据所述用户意图以及所述槽位标签，确定目标对象以及采集所述目标对象的多张图像。

5.根据权利要求4所述的方法，其中，所述对所述语音指令进行意图检测以及槽位填充，确定用户意图以及槽位标签，包括：

对所述语音指令进行语音识别，得到语音文本；

对所述语音文本进行意图检测以及槽位填充，确定用户意图以及槽位标签。

6.根据权利要求5所述的方法，其中，所述对所述语音指令进行语音识别，得到语音文本，包括：

对所述语音指令进行语音激活检测，确定所述语音指令的起始点和结束点；

对所述起始点和所述结束点之间的语音进行数字化，提取数字化后的音频的特征；

根据所提取的数字化后的音频的特征以及预先训练的向量确定模型，确定所述音频对应的向量；

对所述音频对应的向量进行解码，确定所述语音文本。

7.根据权利要求5所述的方法，其中，所述对所述语音文本进行意图检测以及槽位填充，确定用户意图以及槽位标签，包括：

对所述语音文本进行编码，确定所述语音文本对应的文本向量；

对所述文本向量进行编码，确定所述文本向量对应的意图分类向量以及多个槽位预测向量；

根据所述意图分类向量以及所述多个槽位预测向量，确定用户意图以及槽位标签。

8.根据权利要求7所述的方法，其中，所述根据所述意图分类向量以及所述多个槽位预测向量，确定用户意图以及槽位标签，包括：

对所述意图分类向量进行分类，并基于分类结果确定用户意图；

分别将所述意图分类向量与各槽位预测向量进行拼接，得到多个拼接向量；

对各拼接向量进行分类，并基于分类结果确定槽位标签。

9.根据权利要求1所述的方法，其中，所述执行所述操作指令，包括：

根据所处环境的信息和/或所述目标对象的类型，确定移动速度；

以所述移动速度移动。

10.根据权利要求1所述的方法，其中，所述输出所述响应文本对应的语音，包括：

确定所述响应文本对应的音频波形；

基于所述音频波形，输出所述响应文本对应的语音。

11.一种信息交互装置，所述装置位于智能终端设备，所述装置包括：

图像采集单元，被配置成响应于满足预设的图像采集条件，采集目标对象的多张图像；

指令确定单元，被配置成对所述多张图像进行分析，确定与所述目标对象对应的指令；

信息交互单元，被配置成根据所述指令，输出交互信息；

所述指令确定单元进一步被配置成：

对所述多张图像进行目标检测，确定所述目标对象的位置；

所述信息交互单元进一步被配置成：

执行所述操作指令，并输出操作结果；

所述信息交互单元进一步被配置成：

实时输出所述响应文本对应的语音。

12.根据权利要求11所述的装置，其中，所述装置还包括条件判断单元，被配置成：

13.根据权利要求11所述的装置，其中，所述指令确定单元进一步被配置成：

所述信息交互单元进一步被配置成：

根据所述报警指令，将所述多张图像中的至少一张发送给预设人员。

14.根据权利要求11所述的装置，其中，所述图像采集单元进一步被配置成：

15.根据权利要求14所述的装置，其中，所述图像采集单元进一步被配置成：

对所述语音指令进行语音识别，得到语音文本；

16.根据权利要求15所述的装置，其中，所述图像采集单元进一步被配置成：

对所述音频对应的向量进行解码，确定所述语音文本。

17.根据权利要求15所述的装置，其中，所述图像采集单元进一步被配置成：

18.根据权利要求17所述的装置，其中，所述图像采集单元进一步被配置成：

对各拼接向量进行分类，并基于分类结果确定槽位标签。

19.根据权利要求11所述的装置，其中，所述信息交互单元进一步被配置成：

以所述移动速度移动。

20.根据权利要求11所述的装置，其中，所述信息交互单元进一步被配置成：

确定所述响应文本对应的音频波形；

基于所述音频波形，输出所述响应文本对应的语音。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。