CN111177329A

CN111177329A - 一种智能终端的用户交互方法、智能终端及存储介质

Info

Publication number: CN111177329A
Application number: CN201811348973.9A
Authority: CN
Inventors: 吴炽强
Original assignee: Qiku Internet Technology Shenzhen Co Ltd
Current assignee: Qiku Internet Technology Shenzhen Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2020-05-19

Abstract

本发明公开一种智能终端的用户交互方法、智能终端及存储介质。该智能终端的用户交互方法通过对接收到的声音进行分析，确定与所述声音对应的声源位置；对所述声源位置处的用户进行身份识别，得到识别结果；根据所述识别结果确定所述用户的身份信息，并获取与所述身份信息对应的第一历史交互数据；利用所述第一历史交互数据与所述用户进行智能交互。通过上述方式可基于识别到的用户的历史交互数据与其进行人机交互，更加贴合该用户的爱好、行程计划、生活习惯、身体状况、情绪等，令智能终端与用户之间的交互更具有个性化，更加符合用户的个人特质，交互更加智能，用户体验也更好。

Description

一种智能终端的用户交互方法、智能终端及存储介质

技术领域

本发明涉及智能终端的人机交互技术领域，尤其涉及一种智能终端的用户交互方法、智能终端及存储介质。

背景技术

随着智能终端的发展，能够与用户进行人机交互的智能设备越来越普遍。现有技术中，智能音箱、手机、智能机器人等智能设备可以获取用户的指令与用户进行智能人机交互，例如，根据用户的控制指令执行相应播放音乐、视频等操作，根据用户的发问进行相应回答进而与用户进行聊天互动等。

但现有技术中，智能终端不能对不同的用户进行识别，而是单一的根据既定程序对用户发出的交互指令进行回应，不能根据不同的用户针对性的进行个性化的操作，当用户数量较多时不能智能的根据用户的不同执行与用户相应的个性化操作，不能符合多个不同用户的个性化需求。

发明内容

本发明的目的在于提供一种智能终端的用户交互方法、智能终端及存储介质，该智能终端的用户交互方法能够使人机交互更加个性化。

为实现上述目的，本发明提供一种智能终端的用户交互方法，所述用户交互方法包括：

对接收到的声音进行分析，确定与所述声音对应的声源位置；

对所述声源位置处的用户进行身份识别，得到识别结果；

根据所述识别结果确定所述用户的身份信息，并获取与所述身份信息对应的第一历史交互数据；

利用所述第一历史交互数据与所述用户进行智能交互。

另一方面，本发明提出了一种智能终端，该智能终端包括声音获取装置、人机交互电路、存储器以及处理器，所述声音获取装置、人机交互电路、存储器以及处理器相互连接；

所述声音获取装置用于获取用户的声音；

所述存储器用于存储所述处理器执行的计算机指令；

所述人机交互电路用于根据所述处理器的指令与用户进行人机交互；

所述处理器用于执行所述计算机指令以生成相应的人机交互的控制指令，并向所述人机交互电路发送所述控制指令，以使所述人机交互电路根据所述控制指令实现上述用户交互方法。

另一方面，本发明还提出了一种存储介质，该存储介质存储有计算机程序数据，所述计算机程序数据能够被执行以实现上述用户交互方法。

有益效果：区别于现有技术，本发明的智能终端根据用户注册得到身份信息建立与该用户对应的历史交互数据库，并将与该用户进行交互的信息存储至与其身份信息对应的历史交互数据库中。当智能终端接收到用户的声音时，对声源位置处的用户进行识别，确定其身份信息，进而获取与该用户对应的历史交互数据，进而可根据与该用户对应的历史交互数据进行智能交互。由于此时的交互是基于该用户的历史交互数据进行的，其中表征了用户的爱好、行程计划、生活习惯、身体状况、情绪等具有用户个性化的信息，进而使智能终端与用户之间的智能交互更加贴合该用户的爱好、行程计划、生活习惯、身体状况、情绪等，令交互更具有个性化，更加符合用户的个人特质，交互更加智能，用户体验也更好。

附图说明

图1是本发明智能终端的用户交互方法第一实施例的流程示意图；

图2是图1中步骤S11的一实施方式的流程示意图；

图3是图2中声源位置计算的示意图；

图4是图1中步骤S12的一实施方式的流程示意图；

图5是图1中步骤S12的另一实施方式的流程示意图；

图6是图1中步骤S14的一实施方式的流程示意图；

图7是图1中步骤S14的另一实施方式的流程示意图；

图8是本发明智能终端的用户交互方法第二实施例的流程示意图；

图9是本发明智能终端的用户交互方法第三实施例的流程示意图；

图10是本发明智能终端一实施例的结构示意图；

图11是本发明存储介质一实施例的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明做进一步详细描述。显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，均属于本发明保护的范围。

请参阅图1，图1是本发明智能终端的用户交互方法第一实施例的流程示意图。如图1所示，本实施例的用户交互方法至少可包括如下步骤：

在步骤S11中，对接收到的声音进行分析，确定与声音对应的声源位置。

本发明以智能音箱举例，智能音箱上设置有麦克风，当智能音箱周边有声音时，智能音箱通过其上设置的麦克风接收该声音，并对接收到的声音进行分析，进而可确定发出声音的声源位置。本实施例中，智能音箱接收到的声音不限于用户的语音指令，智能音箱接收到的声音也可以是用户在智能音箱周围聊天的说话声或用户通过某些动作产生的声音，例如，用户进行开门、放置钥匙等动作时发出的声音。

在一实施方式中，可通过对接收到的声音进行分析得到相应是强度信息，进而根据强度信息即可计算出对应的声源位置。

此外，可以理解的是本发明并不对智能终端进行限制，智能终端可以为能够与用户进行人机交互的手机、电脑终端、机器人等具有人机交互功能的任意智能设备，智能音箱仅是实施例中举例说明。

在步骤S12中，对声源位置处的用户进行身份识别，得到识别结果。

进一步，智能音箱根据确定的声源位置可对声源位置处的用户进行识别。本实施例中对声源位置处的用户进行识别包括对声源位置处的用户进行识别，判断该用户是已注册用户还是未注册用户，若用户是已注册用户，则可对进一步确定该用户的身份信息，进而根据用户的身份信息执行后续的步骤S13和步骤S14；若用户是未注册用户，则提示用户进行注册，并对用户注册后的交互数据进行记录，若未注册用户拒绝注册，则可结束操作不响应该用户的执行，或仅根据未注册用户的发问进行简单回复。

上述对用户是否为已注册用户的识别可通过提取接收到的声音的声音特征进行识别，也可通过对声源位置处的用户进行图像拍摄，通过拍摄的图像进行识别。

在另一实施方式中，对声源位置处的用户进行识别还包括对声源位置处发出声音的声源进行识别，判断发出声音的声源是否为用户，若发出声音的声源为用户，则上述对声源位置处的用户是否为已注册用户进行识别，判断该用户是已注册用户还是未注册用户，若发出声音的声源不是用户(例如电视、宠物、其他电子设备等能够发出声音的物体)，则停止流程不再继续执行后续步骤。由此，可对除用户之外的其他能够发出或产生声音的物体进行排除。此时，对声源位置处发出声音的声源识别也可通过接收到的声音的声音特征进行识别，或通过对声源位置处的声源进行图像拍摄，通过拍摄的图像进行识别。

在步骤S13中，根据识别结果确定用户的身份信息，并获取与身份信息对应的第一历史交互数据。

本实施例中在用户通过智能音箱进行用户注册成为已注册用户后，智能音箱可根据用户注册时的身份信息建立相应的历史使用数据库，用户每次与智能音箱进行交互的过程中，智能音箱可对每次的交互内容进行记录，并根据该用户的身份信息存储至相应的历史使用数据库中。若步骤S12中的识别结果为用户为已注册用户，则可进一步确定用户的身份信息，进而可根据该身份信息从相应的历史使用数据库中获取与该用户对应的第一历史交互数据。可以理解的是，由于历史使用数据库中记录了用户的交互过程，即第一历史交互数据可表征用户的爱好、行程计划、生活习惯、身体状况、情绪等。

本实施例中，用户的身份信息可包括用户的固定特征信息，例如用户名称、用户生日、用户性别、用户的家庭成员角色等，第一历史交互数据则可包括用户与智能音箱进行交互的任意类型的交互数据，其中可表征用户的爱好、行程计划、生活习惯、身体状况、情绪等。

在步骤S14中，利用第一历史交互数据与用户进行智能交互。

第一历史交互数据可表征用户的爱好、行程计划、生活习惯、身体状况、情绪等，因此智能音箱根据获取到的第一历史交互数据与用户进行交互时，可基于第一历史交互数据中表征的用户的爱好、行程计划、生活习惯、身体状况、情绪等与用户进行更加贴合用户个性的智能交互。

例如，第一历史交互数据中记录了用户常常播放歌手A的歌曲，则可表征用户喜欢听歌手A的歌，则当用户向智能音箱发出播放歌曲的语音指令(语音指令中未指明播放什么歌曲)时，智能音箱则可根据第一历史交互数据中的记录自动播放歌手A的歌曲。或者第一交互数据中记录了用户常常播放某演员作为主演的喜剧电影，则当用户向智能音箱发出播放电影的语音指令时，智能音箱则可根据第一历史交互数据中的记录自动开启电视或投影设备播放该演员作为主演的喜剧电影。

此外，智能音箱还可对接收到的声音进行情绪分析，可得到用户的当前情绪，可参考分析得到的用户的当前情绪，结合用户的当前情绪与用户进行智能交互。

本实施例中，用户与智能音箱进行交互前需要进行身份注册，智能音箱根据用户注册得到身份信息建立与该用户对应的历史交互数据库，并将与该用户进行交互的信息存储至与其身份信息对应的历史交互数据库中。当智能音箱接收到用户的声音时，对声源位置处的用户进行识别，确定其身份信息，进而获取与该用户对应的历史交互数据，进而可根据与该用户对应的历史交互数据进行智能交互。由于此时的交互是基于该用户的历史交互数据进行的，其中表征了用户的爱好、行程计划、生活习惯、身体状况、情绪等具有用户个性化的信息，进而使智能音箱与用户之间的智能交互更加贴合该用户的爱好、行程计划、生活习惯、身体状况、情绪等，令交互更具有个性化，更加符合用户的个人特质，交互更加智能，用户体验也更好。

进一步，请参阅图2，如图2所示，在一实施方式中步骤S11可包括如下步骤：

在步骤S111中，通过设置在智能终端不同位置处的多个麦克风接收声音。

本实施例的智能终端具有设置在不同位置处的多个麦克风，当智能音箱周边有声音时，智能音箱上的不同位置处的多个麦克风均可接受到该声音。

在步骤S112中，对多个麦克风接收到的声音进行强度分析，得到各个麦克风各自接收到的声音的强度信息。

对于同一个声源发出的声音而言，由于多个麦克风的位置不同，多个麦克风相对于该声源的距离和角度也不相同，因此，每个麦克风接收到的声音的强度也存在差异，因此，可对每个麦克风接收到的声音进行分析，进而得到每个麦克风接收到的声音的强度信息。

在步骤S113中，根据各个麦克风接收到的声音的强度信息计算与声音对应的声源位置。

由于每个麦克风接收到的声音的强度信息不同，因此可结合每个麦克风接收到的声音的强度信息，计算得到相对准确的声源位置。

对上述实施方式进行说明，以智能音箱上具有不同位置的3个麦克风为例，如图3所示，3个麦克风(分别为麦克风A、麦克风B和麦克风C)分别设在在智能音箱的外壳上，声源位于S处，智能音箱的3个麦克风均可接受到声源S发出的声音，对3个麦克风接收到的声音进行强度分析，可得到麦克风A、麦克风B和麦克风C分别接收到的声音的强度信息Sa、Sb和Sc，令麦克风A、麦克风B和麦克风C分别到声源S的距离为La、Lb和Lc，由此，根据如下方程式组：

Sa＝k×S/(La×La)；

Sb＝k×S/(Lb×Lb)；

Sc＝k×S/(Lc×Lc)；

其中，k为常数，S为声源位置，根据上述方程式即可计算得到La、Lb和Lc的比值，进而得到声源位置S。

可以理解的是，根据麦克风数量的不同可对上述方程式组进行调整，例如，若只有麦克风A和麦克风B，则使用的方程式组只包括Sa＝k× S/(La×La)和Sb＝k×S/(Lb×Lb)；若还包括麦克风D，则使用的方程式组增加与麦克风D对应方程式。

进一步，根据上述对步骤S12的说明可知，在对声源位置处的用户进行身份识别时，可采用图像进行识别，也可采用声音特征进行识别。由此，进一步，请参阅图4，如图4所示，在一实施方式中步骤S12可包括如下步骤：

在步骤S12a1中，获取声源位置处的用户图像。

智能音箱确定的声源位置后，调整其上设置的拍摄装置的朝向，令拍摄装置朝向该声源位置，进而通过拍摄装置拍摄用户图像，智能终端即可获取拍摄装置拍摄的用户图像。

在步骤S12a2中，从用户图像中提取对应的二维图像信息或二维特征信息，判断是否能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息。

本实施例中，先从拍摄的用户图像中获取包含的二维图像信息或二维特征信息，进一步，将获取的二维图像信息或二维特征信息与预先存储的用户二维图像信息或用户二维特征信息进行匹配，可以理解的，由于当前是对用户是否为已注册用户进行识别，即智能音箱不能确定获取的用户图像中的二维图像信息或二维特征信息是否与已注册用户的用户二维图像信息或用户二维特征信息匹配，因此，本实施例中智能音箱的操作是判断是否能够从存储的已注册用户的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息，若是，则说明此时通过用户图像得到的二维图像信息或二维特征信息为已注册用户的用户二维图像信息或用户二维特征信息，则继续执行步骤S12a3，进一步对用户是否为已注册用户进行识别；否则，执行步骤S12a5。

其中，二维图像信息可以指图像中包含的所有区域的二维图像信息，也可以是先对用户图像进行人脸识别，然后对人脸识别区域提取的二维图像信息。二维特征信息可以指对用户图像进行特征识别，对识别到的特征区域提取的二维特征信息，例如，对用户图像中人脸进行的特征识别，对人脸中包含的五官特征进行识别，进而提取识别到的五官特征的二维特征信息。

在步骤S12a3中，从用户图像中提取对应的图像深度信息或深度特征信息，并获取与其匹配的二维图像信息或二维特征信息对应的用户深度信息或用户深度特征信息，判断图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配。

当步骤S12a2的判断结果为能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息时，本实施例进一步提取上述二维图像信息或二维特征信息对应区域的图像深度信息或深度特征信息。进一步，根据上述与用户图像中的二维图像信息或二维特征信息匹配的用户二维图像信息或用户二维特征信息，获取与该用户二维图像信息或用户二维特征信息对应的用户深度信息或用户深度特征信息。进一步，判断图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配，若是，则执行步骤S12a4，以确定用户为已注册用户，否则，执行步骤S12a5，以确定用户为未注册用户。

本实施例在通过二维信息进行用户识别后进一步通过三维信息进行用户识别，可排除拍摄到的用户图像中包含的用户照片等物品对识别结果的影响。

图像深度信息可以是与上述二维图像信息的区域对应的深度信息，深度特征信息可以是与上述二维特征信息的区域对应的深度信息。

本实施例中，拍摄装置可为设置在智能音箱上的深度相机，由此其拍摄的图像中可包含有深度信息，以执行上述匹配操作。

在步骤S12a4中，确定用户为已注册用户。

当步骤S12a2和步骤S12a3的判断结果均为肯定结果时，则可确定声源位置处的用户为已注册用户。进而可继续执行步骤S13，继续与用户进行人机交互。

在步骤S12a5中，确定用户为未注册用户。

当步骤S12a2或步骤S12a3中任意一个判断步骤的判断结果为否定结果时，则可确定声源位置处的用户为未注册用户，此时，可向该用户发出注册提示，进而在用户完成注册后根据用户的指令与其进行交互。若用户拒绝注册，则可拒绝该用户的交互请求，或仅对该用户进行基本交互，例如，根据用户的提问回答相应问题等。

此外，通过步骤S12a2和步骤S12a3还可对声源位置处的声源是否为用户进行判断，例如，声源位置处的声源若为电视机、宠物、手机等物品时，同样可通过步骤S12a2和步骤S12a3确定声源位置的声源不是用户，则可确定不再继续执行后续步骤。

进一步，请参阅图5，如图5所示，在另一实施方式中步骤S12还可包括如下步骤：

在步骤S12b1中，提取声音的声音特征，判断是否能够从存储的用户声音特征中查找到与其匹配的声音特征。

在另一实施方式中，智能音箱对获取的声音进行分析，即可提取声音中的声音特征，进而判断存储的用户声音特征是否存在该声音特征匹配的声音特征。其中，声音特征可包括音色、音调、声音频率等特征。若是，则继续执行步骤S12b2，以确定用户为已注册用户，否则继续执行S12b3，以确定用户为未注册用户。

在步骤S12b2中，确定用户为已注册用户。

当步骤S12b1的判断结果均为肯定结果时，则可确定声源位置处的用户为已注册用户。进而可继续执行步骤S13，继续与用户进行人机交互。

在步骤S12b3中，确定用户为未注册用户。

当步骤S12b1的判断结果为否定结果时，则可确定声源位置处的用户为未注册用户。

此外，通过步骤S12b1同样可对声源位置处的声源是否为用户进行判断，例如，声源位置处的声源若为电视机、宠物、手机等物品时，同样可通过步骤S12b1确定声源位置的声源不是用户，则可确定不再继续执行后续步骤。

在其他实施方式中，还可将图4所示的步骤S12的实施方式和图5 所示的步骤S12的实施方式进行结合，换言之，即通过用户图像对用户进行身份识别，同时也通过提取声音的声音特征对用户进行身份识别。具体的，可在通过图4所示的步骤S12完成用户识别后，根据利用图4 所示的步骤S12的执行内容确定的用户的身份信息，获取与该身份信息对应的声音特征，将对接收到的声音进行分析得到的声音特征和与该身份信息对应的声音特征进行匹配，以通过图5所示的步骤S12的实施方式对图4所示的步骤S12的实施结构做进一步确认，提高用户身份识别的准确度。

进一步，请参阅图6，如图6所示，在一实施方式中，步骤S14可包括如下步骤：

在步骤S14a1中，对第一历史交互数据进行分析，得到用户的用户使用信息。

第一历史交互数据可表征用户的爱好、行程计划、生活习惯、身体状况、情绪等，因此智能音箱根据获取到的第一历史交互数据与用户进行交互时，对第一历史交互数据进行分析即可得到包括用户的爱好、行程计划、生活习惯、身体状况、情绪等的用户使用信息，进而可基于分析得到的用户使用信息与用户进行更加贴合用户个性的智能交互。

在步骤S14a2中，利用用户使用信息主动向用户发起智能交互。

根据步骤S14a1中得到的用户的爱好、行程计划、生活习惯、身体状况、情绪等用户使用信息，主动向用户发起智能交互，提升用户的使用体验度。

例如，最近记录的第一历史交互数据中记录用户在上午查询了感冒药的信息，则对第一历史交互数据进行分析可得到用户可能感冒的用户状态，则当再次识别到该用户时，可通过该第一历史交互数据确定用户状态为用户可能感冒，则主动向用户发起记得吃药的提示，或主动向用户询问身体状况；或最近记录的第一历史交互数据中记录用户在上午查询了用户的行程计划中对应某航班的机票信息，则可当再次识别到该用户时，主动向用户提示该航班的机票票价变动、与该航班接近的其他航班的机票信息等情况。

进一步，请参阅图7，如图7所示，在另一实施方式中，步骤S14 还可包括如下步骤：

在步骤S14b1中，确定声音中包含有携带关联身份关键词的语音指令。

在应用中，一个智能音箱通常可对应多个已注册用户，本实施例的智能音箱能够根据某一已注册用户的设置或指令将该智能音箱对应多个已注册用户通过关联身份关键词进行关联，进而对多个已注册用户建立关联关系。当智能音箱接收到的声音中包含有关联身份关键词，及相应的语音指令时，则可对该关联身份关键词和语音指令进行确认。

在步骤S14b2中，根据关联身份关键词查找对应的其他用户，并提取与其他用户对应的第二历史交互数据。

进一步，智能音箱即可根据确定的关联身份关键词查找到对应的已注册的其他用户，并根据查找到的已注册的其他用户的身份信息获取与该其他用户对应的历史交互数据，本实施例为做区分，令其他用户对应的历史交互数据为第二历史交互数据。根据上述实施例中对历史交互数据的解释可知，其他用户对应的第二历史交互数据可表征其他用户的使用习惯、喜好、用户状态的用户特征。

在步骤S14b3中，利用第一历史交互数据和第二历史交互数据与用户进行智能交互。

进一步，即可根据智能音箱识别到的用户的第一历史交互数据和查找到的已注册的其他用户的第二历史交互数据与该用户进行智能交互。由此，即可利用其它用户的交互信息与该用户进行智能交互，使该用户可对其他用户的状态、喜好、习惯等进行了解，提升用户体验，使得交互内容更加丰富。

通过具体应用例对上述实施例进行说明：如果在一个家庭中包括家庭成员A、家庭成员B和家庭成员C，其中，家庭成员A为妈妈，家庭成员B为爸爸，家庭成员C为儿子，上述3个家庭成员均为智能音箱的已注册用户，则可根据家庭成员A的设置或指令利用“夫妻”这一关联身份关键词对家庭成员A和家庭成员B建立关联关系，利用“子女”这一关联身份关键词对家庭成员A、B和家庭成员C建立关联关系。由此，智能音箱即可根据建立的关联关系确定家庭成员A和家庭成员B为彼此的妻子和丈夫，家庭成员C为家庭成员A和家庭成员B的儿子。当智能音箱接收到声音并确定声源位置处的用户为家庭成员A，且对接收到的声音进行分析，确定声音中包含的语音指令为“今天儿子的作业做完没有？”，由此，可确定关联身份关键词为“儿子”，则智能音箱可根据已建立的家庭成员的关联关系确定“儿子”对应于家庭成员C，则可对应提取今天与家庭成员C的交互数据，并根据今天与家庭成员C的交互数据回答家庭成员A的提问，与家庭成员A进行智能交互。

可以理解的是，图6所示的步骤S14的实施方式和图7所示的步骤 S14的实施方式可以为智能终端在不同场景下的实施内容，即其他应用场景中，图6所示的步骤S14的实施内容与图7所示的步骤S14的实施内容可根据应用场景的需要同时进行。

进一步，请参阅图8，图8是本发明智能终端的用户交互方法第二实施例的流程示意图。如图8所示，本实施例的用户交互方法至少可包括如下步骤：

在步骤S21中，接收到多个声音，对接收到的多个声音进行分析，确定与多个声音分别对应的多个声源位置。

在步骤S22中，对多个声源位置处的用户分别进行身份识别，得到对应的多个识别结果。

在步骤S23中，根据多个识别结果确定与多个声源位置分别对应的多个用户各自的身份信息，并获取多个用户各自的第一历史交互数据。

本实施例中，步骤S21至步骤S23的实施内容与图1所示的用户交互方法第一实施例中的步骤S11至步骤S13类似，不同在于本实施例中的智能音箱接收到的是多个声源对应的多个声音，由此，对多个声音分别进行步骤S21至步骤S23的处理，具体执行内容请参考图1至图4所示的步骤S11至步骤S13，此处不再赘述。

在步骤S24中，利用多个用户各自的第一历史交互数据，按照获取到多个声音的先后顺序依次与多个用户进行智能交互。

本实施例中可根据接收到的声音的时间确定接收到多个声音的先后顺序，由此，即可按照接收到的声音的先后顺序，依次按接收到的声音的先后顺序与声源位置处的用户进行智能交互。

可以理解的，接收到的多个声音的声源位置处的用户可能并不全是已注册用户，也有未注册用户，则对识别到的已注册用户按接收到的声音的先后顺序与其进行智能交互。

进一步，请参阅图9，图9是本发明智能终端的用户交互方法第三实施例的流程示意图。如图9所示，本实施例的用户交互方法至少可包括如下步骤：

在步骤S31中，接收到多个声音，对接收到的多个声音进行分析，确定与多个声音分别对应的多个声源位置。

在步骤S32中，对多个声源位置处的用户分别进行身份识别，得到对应的多个识别结果。

在步骤S33中，根据多个识别结果确定与多个声源位置分别对应的多个用户各自的身份信息，并获取多个用户各自的第一历史交互数据。

本实施例中，步骤S31至步骤S33的实施内容与图1至图4所示的用户交互方法第一实施例中的步骤S11至步骤S13类似，不同在于本实施例中的智能音箱接收到的是多个声源对应的多个声音，由此，对多个声音分别进行步骤S31至步骤S33的处理，具体执行内容请参考图1所示的步骤S11至步骤S13，此处不再赘述。

在步骤S34中，根据多个用户各自的身份信息，获取多个用户之间的优先级关系。

本实施例中可根据接收到的多个声音可对声源位置处的多个用户分别进行识别进而得到多个用户的身份信息。本实施例中，可根据用户身份信息设置优先级关系，由此，可根据识别到的多个用户各自的身份信息确定该多个用户之间的优先级关系。

在步骤S35中，利用多个用户各自的第一历史交互数据，按照优先级关系依次与多个用户进行智能交互。

本实施例中可根据识别到的多个用户的优先级关系，按照优先级关系依次与多个用户进行智能交互。

可以理解的，接收到的多个声音的声源位置处的用户可能并不全是已注册用户，也有未注册用户，因此，本实施例是对识别到的已注册用户按照优先级关系依次与多个用户进行智能交互。此外，也可能存在多个用户中部分用户的优先级关系相同，此时，可结合图7所示的用户交互方法第二实施例，对优先级关系相同的用户，依次按接收到的声音的先后顺序与其进行智能交互。

进一步，请参阅图10，图10是本发明智能终端一实施例的结构示意图。如图10所示，本实施例的智能终端100包括声音获取装置104、人机交互电路103、存储器102以及处理器101，声音获取装置104、人机交互电路103、存储器102以及处理器101相互连接。本实施例以智能音箱为例，智能音箱100可根据实际情况设置为圆柱形、长方形、正方形等各种形状，本实施例不做限定，本实施例以长方形为例。声音获取装置104可以为一个或多个麦克风，设置在智能音箱100内部或外部，用于获取用户的声音。人机交互电路103可包括设置在智能音箱内部的人机交互芯片及相关电路，还包括设置在智能音箱外壳上的人机交互界面，用于根据处理器101的指令与用户进行人机交互，进行人机交互时可通过人机交互界面显示相关交互内容，或拟人化的表情等。存储器102 设置在智能音箱100内部，用于存储处理器101执行的计算机指令。处理器101用于执行存储器102存储的计算机指令以生成相应的人机交互的控制指令，并向人机交互电路103发送控制指令，以使人机交互电路 103根据控制指令实现上述图1至图9所示的智能终端的用户交互方法第一实施例至第三实施例中的任意实施例，具体实施内容请参见上述图 1至图9所示的智能终端的用户交互方法第一实施例至第三实施例，此处不再赘述。

进一步，本实施例的智能终端还包括拍摄装置105，拍摄装置105 分别与处理器101和存储器102连接，拍摄装置105可为深度相机，进而可获取拍摄到的用户图像的深度信息。拍摄装置105用于对声源位置的用户进行拍摄得到相应的用户图像，以使利用用户图像实现上述图1 至图9所示的智能终端的用户交互方法第一实施例至第三实施例中的任意实施例，此处不再赘述。

请参阅图11，图11是本申请存储介质一实施例的结构示意图。如图11所示，本实施例中的存储介质200中存储有能够被执行的计算机程序数据201，该计算机程序数据201被执行能够实现图1至图9所示的智能终端的用户交互方法第一实施例至第三实施例中的任意实施例。

本实施例中，该存储介质200可以是智能终端的存储模块、移动存储装置(如移动硬盘、U盘等)、网络云盘、应用存储平台或服务器等具备存储功能的介质。此外，该存储介质还可以为上述图10中所示的存储器102。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种智能终端的用户交互方法，其特征在于，包括：

对所述声源位置处的用户进行身份识别，得到识别结果；

利用所述第一历史交互数据与所述用户进行智能交互。

2.根据权利要求1所述的用户交互方法，其特征在于，所述对接收到的声音进行分析，确定与所述声音对应的声源位置，包括：

通过设置在所述智能终端不同位置处的多个麦克风接收声音；

对所述多个麦克风接收到的声音进行强度分析，得到各个麦克风各自接收到的声音的强度信息；

根据所述各个麦克风接收到的声音的强度信息计算与所述声音对应的声源位置。

3.根据权利要求1所述的用户交互方法，其特征在于，所述对所述声源位置处的用户进行身份识别，得到识别结果，包括：

获取所述声源位置处的用户图像；

从所述用户图像中提取对应的二维图像信息或二维特征信息，判断是否能够从预先存储的用户二维图像信息或用户二维特征信息中查找到与其匹配的二维图像信息或二维特征信息；

若是，从所述用户图像中提取对应的图像深度信息或深度特征信息，并获取所述与其匹配的二维图像信息或二维特征信息对应的用户深度信息或用户深度特征信息，判断所述图像深度信息或深度特征信息与用户深度信息或用户深度特征信息是否匹配；若是，则确定所述用户为已注册用户；

否则，确定所述用户为未注册用户。

4.根据权利要求1所述的用户交互方法，其特征在于，所述对所述声源位置处的用户进行身份识别，得到识别结果，包括：

提取所述声音的声音特征，判断是否能够从存储的用户声音特征中查找到与其匹配的声音特征；

若是，则确定所述用户为已注册用户；

否则，确定所述用户为未注册用户。

5.根据权利要求1所述的用户交互方法，其特征在于，所述利用所述第一历史交互数据与所述用户进行智能交互，包括：

对所述第一历史交互数据进行分析，得到所述用户的用户使用信息；

利用所述用户使用信息主动向所述用户发起智能交互。

6.根据权利要求1所述的用户交互方法，其特征在于，所述利用所述第一历史交互数据与所述用户进行智能交互，包括：

确定所述声音中包含有携带关联身份关键词的语音指令；

根据所述关联身份关键词查找对应的其他用户，并提取与所述其他用户对应的第二历史交互数据；

利用所述第一历史交互数据和所述第二历史交互数据与所述用户进行智能交互。

7.根据权利要求1所述的用户交互方法，其特征在于，所述用户交互方法还包括：

所述智能终端接收到多个声音，对接收到的多个声音进行分析，确定与所述多个声音分别对应的多个声源位置；

对所述多个声源位置处的用户分别进行身份识别，得到对应的多个识别结果；

根据所述多个识别结果确定与所述多个声源位置分别对应的多个用户各自的身份信息，并获取所述多个用户各自的第一历史交互数据；

利用所述多个用户各自的第一历史交互数据，按照获取到所述多个声音的先后顺序依次与所述多个用户进行智能交互。

8.根据权利要求7所述的用户交互方法，其特征在于，

在所述根据所述多个识别结果确定与所述多个声源位置分别对应的多个用户各自的身份信息，并获取所述多个用户各自的第一历史交互数据之后，还包括：

根据所述多个用户各自的身份信息，获取所述多个用户之间的优先级关系；

利用所述多个用户各自的第一历史交互数据，按照所述优先级关系依次与所述多个用户进行智能交互。

9.一种智能终端，其特征在于，包括声音获取装置、人机交互电路、存储器以及处理器，所述声音获取装置、人机交互电路、存储器以及处理器相互连接；

所述声音获取装置用于获取用户的声音；

所述存储器用于存储所述处理器执行的计算机指令；

所述处理器用于执行所述计算机指令以生成相应的人机交互的控制指令，并向所述人机交互电路发送所述控制指令，以使所述人机交互电路根据所述控制指令实现权利要求1-8任意一项所述的用户交互方法。

10.一种存储介质，其特征在于，存储有计算机程序数据，所述计算机程序数据能够被执行以实现如权利要求1-8任意一项所述的用户交互方法。