CN109189980A

CN109189980A - 与用户进行语音交互的方法和电子设备

Info

Publication number: CN109189980A
Application number: CN201811124542.4A
Authority: CN
Inventors: 李香兰; 亓向国; 曹娟; 徐银辉; 王国伟
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-01-11

Abstract

本发明提供与用户进行语音交互的方法和电子设备，所述方法包括：获取用户的数据；根据获取的用户的数据确定用户属性；根据用户属性，在声音数据库中确定与用户进行交互的声音；使用确定的声音来与用户进行交互。据本发明的实施例的与用户进行语音交互的方法和电子设备，可根据获取的用户的数据确定用户属性，根据用户属性在声音数据库中选择用户喜好的声音，作为与用户交互的声音，与现有的交互方式中的提供统一的交互声音的单调方式相比，本发明的交互方式更加生动有趣，让用户有更好的体验。

Description

与用户进行语音交互的方法和电子设备

技术领域

本发明涉及智能设备领域。更具体地讲，涉及与用户进行语音交互的方法和电子设备。

背景技术

随着网络技术、通信技术和数字信号处理技术的发展，目前已出现了可与用户进行语音交互的技术，例如，可与用户进行语音交互的应用程序或智能电子设备。用户可通过智能对话与即时问答的智能交互，解决各种生活类问题(例如查询天气预报、播放歌曲等)。目前的语音交互技术一般只使用单一的声音与用户进行交互，较为单调。

发明内容

本发明的目的在于提供与用户进行语音交互的方法和电子设备，以解决现有的语音交互方式较为单调的技术问题。

本发明的一方面提供一种与用户进行语音交互的方法，所述包括：获取用户的数据；根据获取的用户的数据确定用户属性；根据用户属性，在声音数据库中确定与用户进行交互的声音；使用确定的声音来与用户进行交互。

可选地，所述用户的数据包括用户的语音数据以及以下至少一项：用户的影像数据、用户的温度数据以及用户的红外数据。

可选地，所述方法还包括：对获取的用户的数据进行预处理，得到用户的以下至少一项特征信息：人脸信息、声纹信息、语音数据中的文本内容信息、音调信息、身高信息、体温信息、活跃度信息、姿势信息、位置信息、距离信息；其中，根据所述至少一项特征信息确定用户属性。

可选地，所述用户属性包括以下至少一项：用户的人数、用户的性别、用户的年龄、用户的情绪和用户之间的关系。

可选地，根据获取的用户的数据确定用户属性的步骤包括：根据获取的用户的数据以及用户属性识别模型确定用户属性，其中，所述用户属性识别模型是通过对样本信息进行机器学习获得的模型。

可选地，所述声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，其中，根据用户属性，在声音数据库中确定与用户进行交互的声音的步骤包括：将声音数据库中与用户属性对应的声音中权重值最高的声音确定为与用户进行交互的声音。

可选地，所述方法还包括：根据获取的用户的数据识别用户的身份；其中，所述声音数据库中包括与不同用户属性对应的多个声音、所述多个声音的权重值、不同身份的用户的历史使用记录，其中，所述历史使用记录包括之前与用户进行交互的声音；根据用户属性，在声音数据库中确定与用户进行交互的声音的步骤包括：根据声音数据库中与用户属性对应的多个声音的权重值以及所述身份的用户的使用记录来确定与用户进行交互的声音。

可选地，所述方法还包括：在使用确定的声音来与用户进行交互之后，检测用户对确定的声音的反馈信息；当检测到的反馈信息指示用户拒绝确定的声音时，重新确定与所述用户进行交互的声音，并且更新所述声音数据库中与用户属性对应的多个声音的权重值，和/或将用户拒绝的声音从用户的历史使用记录中删除。

可选地，所述方法还包括：根据当前播放的内容和/或用户属性确定与用户进行互动的声音的情绪，其中，使用确定的声音来与用户进行交互的步骤包括：使用确定的声音以确定的情绪来用户进行对话，和/或使用确定的声音以确定的情绪播放所述内容。

可选地，所述方法还包括：将确定的声音所属的人物的头像以及与确定的情绪对应的表情通过屏幕反馈给用户；或者将与确定的情绪相应的灯光反馈给用户。

本发明的另一方面提供一种电子设备，电子设备包括处理器，所述处理器被配置为：获取用户的数据；根据获取的用户的数据确定用户属性；根据用户属性，在声音数据库中确定与用户进行交互的声音；使用确定的声音来与用户进行交互。

可选地，所述处理器还被配置为：对获取的用户的数据进行预处理，得到用户的以下至少一项特征信息：人脸信息、声纹信息、语音数据中的文本内容信息、音调信息、身高信息、体温信息、活跃度信息、姿势信息、位置信息、距离信息；其中，根据所述至少一项特征信息确定用户属性。

可选地，根据获取的用户的数据确定用户属性的处理包括：根据获取的用户的数据以及用户属性识别模型确定用户属性，其中，所述用户属性识别模型是通过对样本信息进行机器学习获得的模型。

可选地，所述声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，其中，根据用户属性，在声音数据库中确定与用户进行交互的声音的处理包括：将声音数据库中与用户属性对应的声音中权重值最高的声音确定为与用户进行交互的声音。

可选地，所述处理器还被配置为：根据获取的用户的数据识别用户的身份；其中，所述声音数据库中包括与不同用户属性对应的多个声音、所述多个声音的权重值、不同身份的用户的历史使用记录，其中，所述历史使用记录包括之前与用户进行交互的声音；根据用户属性，在声音数据库中确定与用户进行交互的声音的处理包括：根据声音数据库中与用户属性对应的多个声音的权重值以及所述身份的用户的使用记录来确定与用户进行交互的声音。

可选地，所述处理器还被配置为：在使用确定的声音来与用户进行交互之后，检测用户对确定的声音的反馈信息；当检测到的反馈信息指示用户拒绝确定的声音时，重新确定与所述用户进行交互的声音，并且更新所述声音数据库中与用户属性对应的多个声音的权重值，和/或将用户拒绝的声音从用户的历史使用记录中删除。

可选地，所述处理器还被配置为：根据当前播放的内容和/或用户属性确定与用户进行互动的声音的情绪，其中，使用确定的声音来与用户进行交互的步骤包括：

使用确定的声音以确定的情绪来用户进行对话，和/或使用确定的声音以确定的情绪播放所述内容。

可选地，所述处理器还被配置为：将确定的声音所属的人物的头像以及与确定的情绪对应的表情通过屏幕反馈给用户；或者将与确定的情绪相应的灯光反馈给用户。

本发明的另一方面提供一种计算机可读存储介质，该计算机可读存储介质存储有当被处理器执行时使得处理器执行如上所述的与用户进行语音交互的方法的计算机程序。

根据本发明的实施例的与用户进行语音交互的方法和电子设备，可根据获取的用户的数据确定用户属性，根据用户属性在声音数据库中选择用户喜好的声音，作为与用户交互的声音，与现有的交互方式中的提供统一的交互声音的单调方式相比，本发明的交互方式更加生动有趣，让用户有更好的体验。

此外，根据本发明的实施例的与用户进行语音交互的方法和电子设备，还可根据获取的用户的数据以及通过机器学习得到的用户属性识别模型得到用户属性，以及根据用户属性来提供不同的情绪的声音、表情或灯光，与现有的呆板的音调及单一的灯光效果相比，本发明的交互方式更加人性化。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1是示出根据本发明的实施例的与用户进行语音交互的方法的流程图。

具体实施方式

下面参照附图详细描述本发明的实施例。

图1是示出根据本发明的实施例的与用户进行语音交互的方法的流程图。根据本发明的实施例的与用户进行语音交互的方法可应用于各种电子设备，例如，智能音箱、智能导航仪、智能网关、移动通信终端、个人计算机、平板电脑、游戏机、数字多媒体播放器等各种可与用户进行语音交互的电子设备。

参照图1，在步骤S10，获取用户的数据。在步骤S20，根据用户的数据确定用户属性。

可采用各种方式来根据用户的数据确定用户属性。作为示例，可根据用户的数据以及用户属性识别模型来确定用户属性。下文将详细介绍用户属性识别模型。

作为示例，用户的数据是指可体现用户的个人特征以及用户当前的使用状态的数据。例如，用户的数据可包括用户的语音数据以及以下至少一项：用户的影像数据、用户的体温数据以及用户的红外数据。

作为示例，用户的数据可通过各个采集设备进行采集，在步骤S10中，从各个采集设备获取用户的数据。例如，语音数据可通过麦克风采集，影像数据可通过摄像头采集，体温数据可通过温度传感器采集，红外数据可通过红外传感器采集。

作为示例，在步骤S20，可根据从各个采集设备获取的用户数据以及使用模式识别模型确定用户属性。

在一个优选的实施例中，在步骤S20之前，对获取的用户的数据进行预处理，得到用户的以下至少一项特征信息：人脸信息、声纹信息、语音数据中的文本内容信息、音调信息、身高信息、体温信息、活跃度信息、姿势信息、位置信息以及距离信息，在步骤S20，根据用户的至少一项特征信息(预处理后的用户的数据)确定用户属性。

作为示例，所述人脸信息可通过对用户的影像数据进行人脸识别获得。

作为示例，所述声纹信息、语音数据中的文本内容信息以及音调信息可通过对用户的语音信息进行声纹识别、语音识别等处理获取。

作为示例，在对用户的语音信息进行声纹识别、语音识别之前可对语音数据进行以下至少一项预处理：语音检测处理、降噪处理、去混响处理以及波束形成处理。

作为示例，语音检测(Voice Activity Detection，VAD)的目标是准确地检测出音频信号的语音段起始位置，从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干的非语音信号，高效准确的VAD不但能减轻后续处理的计算量，提高整体实时性，还能有效提高下游算法的性能。VAD算法可以粗略的分为三类：基于阈值的VAD、作为分类器的VAD、模型VAD。基于阈值的VAD是指通过提取时域(短时能量、短期过零率等)或频域特征，以及通过合理的设置门限，达到区分语音和非语音的目的，属于传统的VAD方法。作为分类器的VAD可以将语音检测视作为语音/非语音的分类，进而用机器学习的方法训练分类器，达到检测语音的目的。模型VAD利用一个完整的声学模型，在解码的基础，通过全局信息，判别语音段和非语音段。VAD作为整个流程的最高端，可以在本地实时地完成。由于计算资源非常有限，因此，VAD一般可采用基于阈值的VAD和作为分类器的VAD。

作为示例，降噪处理是指去除语音数据中的各种噪声，例如实际环境中的空调、风扇以及其他的噪声，可降低噪声干扰，提高信噪比，降低后端语音识别的难度。

作为示例，关于去混响处理，由于在室内，语音会被墙壁等多次反射，这些会被麦克风采集到。混响对于人耳完全不是问题，但是延迟的语音叠加产生掩蔽效应，这对语音识别是致命的障碍。对于混响处理，一般从两个方面来尝试解决：一方面是去混响，另一方面是在语音识别的声学模型中加入混响训练。

作为示例，波束形成处理是利用空间滤波的方法，将多路声音信号，整合为一路信号。通过波束形成处理，一方面可以增强原始的语音信号，另一方面抑制旁路信号，起到降噪和去混响的作用。

作为示例，语音识别处理的目的是将语音信号转化为文本。目前，基于近场信号、受控环境(低噪声、低混响)下的标准音语音识别能够达到很高的水平。然而在开放性的真实环境下获取的语音，如果能结合上文所述的各种处理，语音识别处理将更加准确。

作为示例，声纹识别处理即说话人识别处理，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。本发明的示例性实施例可在设备设置阶段即可对各用户进行声纹注册，从而对识别用户及用户组提供补充帮助。作为示例，声纹识别处理与语音识别处理的相同之处在于，都是通过对采集到的语音信号进行分析和处理，提取相应的特征或建立相应的模型，然后据此做出判断。声纹识别处理与语音识别处理的区别之处在于，其目的不是识别语音的内容，而是识别说话人的身份，因此它不注重语音信号的语义，而是希望从语音信号中提取个人声纹特征。声纹识别处理是企求挖掘出包含在语音信号中的个性因素，而语音识别是从不同人的词语信号中寻找共同因素。

作为示例，所述身高信息、姿势信息可通过对用户的影像数据进行预处理来获得。

作为示例，所述体温信息可通过对用户的体温数据进行预处理来获得。

作为示例，活跃度信息是指用户出现的频率，可通过对用户的影像数据进行预处理来获得。

作为示例，位置信息可通过对用户的影像数据和红外数据进行预处理来获得。

此外，位置信息还可结合对用户的语音数据进行声源定位处理的结果来最终确定。

作为示例，声源定位处理是根据麦克风收集的语音数据，确定说话人的位置。声源定位处理的常用方法包括基于波束扫描的声源定位方法以及基于到达时间差的声源定位方法。考虑到算法复杂性和延时，优选采用基于到达时间差的声源定位方法。声源定位处理至少具有两个用途，一是用于方位灯的展示，增强交互效果；二是作为波束形成的前导任务，确定空间滤波的参数。

作为示例，距离信息可通过对用户的红外数据进行预处理来获得。

用户属性识别模型是通过对样本信息进行机器学习获得的模型，该模型能够根据用户的数据确定用户属性。

作为示例，在将用户的数据输入到用户属性识别模型后，用户属性识别模型将输出用户的属性。

作为示例，用户属性可包括以下至少一项：用户的人数、用户的年龄、用户的情绪和用户之间的关系。

用户属性包括的信息可与输入至用户属性识别模型中的全部或部分数据有关。作为示例，用户的人数以及用户的性别可跟人脸信息和声纹信息有关，用户的年龄可跟人脸信息、声纹信息和身高信息等有关，用户的情绪可跟人脸信息、音调信息和体温信息等有关，用户之间的关系可跟文本内容信息、身高信息、活跃度信息、姿势信息、位置信息以及距离信息等有关。

作为示例，机器学习是指将采集到的用户低层次多维度的数据特征进行整合及学习，形成更加抽象的高层次的属性类别或特征。作为示例，在本发明的实施例中，主要是深度学习用户或用户组的一些特征(即用户的属性)，如，使用人数、年龄层、情绪，使用人之间的关系等，以便更准确地选择适合用户的声音。

作为示例，深度学习主要就是指使用多层神经网络，而多层神经网络目前效果比较好的是卷积神经网络，目前在图像和音频信号上效果比较好。深度学习从统计学的角度来说，就是在预测数据的分布，从数据中学得一个模型然后再通过这个模型去预测新的数据，这一点就要求测试数据和训练数据必须是同分布。

在步骤S30，根据用户属性，在声音数据库中确定与用户进行交互的声音。

作为示例，该声音是指某个影视角色或明星的声音、或者是某种方言、某种外语等。

作为示例，声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，声音的权重值越重，该声音越受该属性的用户的偏好。作为示例，与各个属性对应的多个声音及其权重值可以是对所有设备的用户的使用习惯进行机器学习得到的，并且随着时间的推移，与各个属性对应的多个声音及其权重值将不断地学习更新。表1示出声音数据库中与各个属性对应的多个声音以及多个声音的权重值。

表1 与各个属性对应的多个声音

作为示例，在步骤S30中，将声音数据库中与用户的属性对应的声音中权重值排名最高的声音确定为与用户进行交互的声音。作为示例，如果与用户的属性对应的多个声音的权重值相似，则随机在多个声音中选择一个声音作为与用户进行交互的声音。

作为另一示例，为了提供个性化服务，可对用户的个人习惯进行记录，以更了解用户的偏好。例如可通过云端服务器，获取用户在服务器端的所有使用记录。如，该用户在某个听书软件上听的频率最高的是语言类节目，该用户在开车时，最喜欢用某个明星的声音做导航。在整合大量用户的个人使用记录后，可对用户习惯进行统计，从而更准确的为用户提供服务。

具体说来，根据本发明的实施例的与用户进行语音交互的方法还可包括以下步骤(图中未示出)：根据用户的数据识别用户的身份。例如，根据人脸信息或声纹信息识别用户。在这种情况下，可结合用户属性以及用户的个人使用习惯来确定与用户进行交互的声音。

作为示例，声音数据库中包括与各个用户属性对应的多个声音、所述多个声音的权重值、不同身份的用户的历史使用记录，历史使用记录包括之前与用户进行交互的声音

在步骤S30中，根据声音数据库中与用户属性对应的多个声音的权重值以及识别的身份的用户的使用记录来确定与用户进行交互的声音。

作为示例，可根据用户的使用记录确定用户是否有偏好的声音(例如使用频率较高的声音)，如果用户有偏好的声音，则将用户偏好的声音确定为与用户进行交互的声音，如果用户没有偏好的声音，将声音数据库中与用户的属性对应的声音中权重值排名最高的声音确定为与用户进行交互的声音。

在步骤S40，使用确定的声音与用户进行交互。作为示例，与用户进行交互可包括与用户进行语音对话以及播放有声内容(故事、有声小说等)。

作为示例，根据本发明的示例性实施例的与用户进行语音交互的方法还包括以下步骤(图中未示出)：在使用确定的声音来与用户进行交互后，检测用户对确定的声音的反馈信息；当检测到的反馈信息指示用户拒绝确定的声音时，重新确定与用户进行交互的声音，并且更新声音数据库中与用户属性对应的多个声音的权重值，和/或将用户拒绝的声音从用户的历史使用记录中删除。

作为示例，声音数据库中的数据(包括与各个属性对应的多个声音及其权重值、用户偏好的声音等)可周期性地根据各个用户近期的使用习惯进行更新。通过不断地学习用户的习惯，不断地扩充及更新数据库，细化用户特征，如，增加使用户方言的频率，增加判断用户是否用对外国的文化及语言感兴趣，从而使与用户的语音互动更加智能且符合个人习惯。

在一个优选的实施例中，根据本发明的示例性实施例的与用户进行语音交互的方法还可进行情绪反馈。具体说来，该方法还可包括(图中未示出)：根据当前播放的内容和/或用户的属性确定与用户进行互动的声音的情绪，在步骤S40，使用确定的声音以确定的情绪来与用户进行对话，和/或使用确定的声音以确定的情绪播放所述内容。

作为示例，可根据当前播放的内容的情感基调来确定与用户进行互动的声音的情绪。例如，当前播放的内容是一个幽默的故事时，确定与用户进行互动的声音的情绪为轻松愉快，以一种轻松愉快的语调来播放该幽默的故事。

作为示例，可根据用户的属性来确定与用户进行互动的声音的情绪。例如，在用户的属性指示用户当前的情绪为悲伤时，确定与用户进行互动的声音的情绪为伤感。例如，在用户的属性指示当前用户为一个家庭时，确定与用户进行互动的声音的情绪为温和。

作为示例，可根据当前播放的内容和用户的属性确定与用户进行互动的声音的情绪。

作为示例，根据本发明的示例性实施例的与用户进行语音交互的方法还可包括以下步骤(未示出)：将确定的声音所属的人物的头像以及与确定的情绪对应的表情通过屏幕反馈给用户，或者将与确定的情绪对应的灯光反馈给用户。例如，显示与确定的情绪对应的颜色的灯光或者与确定的情绪对应的频率闪动的灯光，与不同的情绪对应的颜色或频率可预先进行设置。

此外，根据本发明的示例性实施例的与用户进行语音交互的方法还可包括唤醒处理。出于保护用户隐私和减少误识别两个因素的考虑，在一般在检测到唤醒词之后，才会开始步骤S10及之后的步骤。作为示例，唤醒处理需要一个小型语音识别引擎。由于目标单一(检测出指定的唤醒词)，唤醒处理只需要较小的声学模型和语言模型(只需要区分出有无唤醒词出现)，空间占用少，能够在本地实现。

以下将描述在确定与用户进行互动的声音之后，与用户进行语音互动过程中的一些处理的示例，例如自然语言理解处理、对话管理处理、自然语言生成处理、语言合成处理和接口控制处理等。

作为示例，自然语言理解处理包括以下三个子处理：领域分类子处理。领域分类子处理、意图分类子处理和实体抽取子处理。领域分类子处理主要是识别出用户命令所属领域，领域是预先设计的封闭集合(音乐、天气等领域)，而每个领域都只支持无限预设的查询内容和交互方式。意图分类子处理是在相应领域，识别用户的意图(如播放音乐、暂停或切换等)，意图对应实际的操作。实体抽取子处理是指确定意图(即操作)的参数(例如具体是播放哪首歌或哪位歌手的歌曲)。

作为示例，对话管理处理是指处理与用户的多轮对话。比如，当我们询问“北京明天的天气怎么样？”，之后，更习惯追问“那深圳呢？”而不是重复的说“深圳明天的天气怎么样？”。作为示例，对话管理处理将本轮对话解析出的参数作为上下文(全局变量)，带入到下一轮对话；根据一定的条件判断，是否在本轮对话中保持在上一轮的领域以及是否清空上下文。

作为示例，自然语言生成处理是指生成与用户交互的语句。作为示例，一般采用预先设计的文本模板来生成文本输出。例如，播放歌曲时，生成语句为：“即将为您播放某位歌手的某首歌”。

作为示例，语音合成处理又叫做文语转换处理，主要是指将自然语言生成处理生成的语句转换为语音。

作为示例，接口控制处理根据生成的自然语言，调用第三方发布的接口，从而实现相应的功能，例如，到QQ音乐去播放所需歌曲，到天气通接口查找某天的天气等。

以下将描述根据本发明的示例性实施例的与用户进行语音交互的方法的5个应用场景，下文中的智能助手是指执行本发明的方法的设备。

应用场景一，一名5岁男孩一个人将智能助手开启，并与其对话。用户执行语音指令，想要收听一个故事。智能助手接收到用户的语音，分析出当前是单一儿童在使用。通过结合当前想要播放的内容，用户使用习惯及样本学习结果综合进行判断。通过大量学习结果及用户使用习惯了解到5岁左右的男孩比较喜欢孙悟空，则自动转换为孙悟空的声音与男孩进行交谈，同时利用点阵屏或智能助手的屏幕给出俏皮的表情反馈给用户。当接收到用户的语音“我要听兔小贝儿歌”时，通过大量学习结果及用户使用习惯了解到听兔小贝儿歌时，用户想要和兔小贝角色进行交流。自动转换为兔小贝的声音与男孩进行交谈，同时利用点阵屏或智能助手的屏幕给出兔小贝的常用表情反馈给用户。过了几个月后，用户在这几个月非常喜欢听凯叔的故事，当用户跟智能助手交互时，智能助手通过大量数据学习及近期习惯，更新数据库排序，将凯叔的声音作为交互的声音。

应用场景二，一名成年男子一个人将智能助手打开。用户执行语音命令，想要收听某节目，如，我想听光辉岁月。智能助手设备接收到用户的语音指令时，分析出当前是单一成年男子在使用设备。通过大量学习及用户个人习惯，了解到成年男子较喜欢林志玲的声音，则自动转换为林志玲的声音进行用户进行交谈，同时利用点阵屏或智能助手的屏幕给出温柔或娇俏的表情反馈给用户。

应用场景三，一家五口围坐在智能助手前与其对话。用户执行语音命令，想要与智能助手聊天，如，你叫什么名字？你的家乡在哪里？等等。智能助手接收到用户语音指令，分析出当前是一家人在使用设备。通过大量学习及用户个人习惯，了解到用户组是整个家庭，需要用较中性的声音进行交流，则自动转换为较温和的声音进行交谈，同时利用点阵屏或智能助手的屏幕给出适合家族的表情反馈给用户。

应用场景四，有一家东北人坐在智能助手与其对话。用户执行与命令，想要与智能助手聊天，如，你叫什么名字？你的家乡在哪里？等等。智能助手接收到用户语音指令，分析出当前是一家人在使用设备。通过大量学***时都是用方言进行交流，且频率很高，需要用方言进行交流，则自动转换为相应方言进行交谈，同时利用点阵屏或智能助手的屏幕给出合适的表情反馈给用户。

应用场景五，一名喜欢韩国明星玄彬的年轻女子坐在智能助手前与其对话。用户执行语音命令，想要与智能助手设备聊天，如，你叫什么名字？你的家乡在哪里？等等。智能助手设备接收到用户的语音指令，分析出当前用户是一个希望了解韩国及学习韩国语的用户。通过大量学习及用户个人习惯，了解到用户比较喜欢韩国文化，喜欢韩国明星，想要学韩国话，需要用韩语进行交流，则自动转换为玄彬的声音且用韩语与其进行交谈，同时利用点阵屏或智能助手的屏幕给出合适的表情反馈给用户。若与用户进行交流的过程中，发现用户听不懂外语，或只能听懂部分外语，则继续用用户可以理解的语言(如中文，或中文方言)再次进行表述。经过学习，设备了解到用户对于某句外语已经基本能听懂。此时，设备不再用中文重复表述。可以起到学习外语的作用。

根据本发明的实施例还提供一种电子设备。该电子设备可以是智能音箱、智能导航仪、智能网关、移动通信终端、个人计算机、平板电脑、游戏机、数字多媒体播放器等各种可与用户进行语音交互的电子设备。

根据本发明的实施例的与用户进行语音交互的电子设备包括处理器。

处理器被配置为：获取用户的数据；根据获取的用户的数据确定用户属性；根据用户属性，在声音数据库中确定与用户进行交互的声音；使用确定的声音来与用户进行交互。

作为示例，用户的数据可通过各个采集设备进行采集，处理器从各个采集设备获取用户的数据。例如，语音数据可通过麦克风采集，影像数据可通过摄像头采集，体温数据可通过温度传感器采集，红外数据可通过红外传感器采集。

作为示例，处理器可根据从各个采集设备获取的用户数据以及使用模式识别模型确定用户属性。

在一个优选的实施例中，在确定用户属性之前，对获取的用户的数据进行预处理，得到用户的以下至少一项特征信息：人脸信息、声纹信息、语音数据中的文本内容信息、音调信息、身高信息、体温信息、活跃度信息、姿势信息、位置信息以及距离信息，根据用户的至少一项特征信息(预处理后的用户的数据)确定用户属性。

作为示例，在对用户的语音信息进行声纹识别、语音识别之前可对语音数据进行以下至少一项预处理：语音检测处理、降噪处理、去混响处理以及波束形成处理。各预处理已在方法部分进行了详细介绍，在此不再赘述。

作为示例，与用户进行交互的声音是指某个影视角色或明星的声音、或者是某种方言、某种外语等。

作为示例，声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，声音的权重值越重，该声音越受该属性的用户的偏好。作为示例，与各个属性对应的多个声音及其权重值可以是对所有设备的用户的使用习惯进行机器学习得到的，并且随着时间的推移，与各个属性对应的多个声音及其权重值将不断地学习更新。

作为示例，将声音数据库中与用户的属性对应的声音中权重值排名最高的声音确定为与用户进行交互的声音。作为示例，如果与用户的属性对应的多个声音的权重值相似，则随机在多个声音中选择一个声音作为与用户进行交互的声音。

具体说来，处理器还可被配置为根据用户的数据识别用户的身份。例如，根据人脸信息或声纹信息识别用户。在这种情况下，可结合用户属性以及用户的个人使用习惯来确定与用户进行交互的声音。

作为示例，声音数据库中包括与各个用户属性对应的多个声音、所述多个声音的权重值、不同身份的用户的历史使用记录，历史使用记录包括之前与用户进行交互的声音。

处理器根据声音数据库中与用户属性对应的多个声音的权重值以及识别的身份的用户的使用记录来确定与用户进行交互的声音。

作为示例，处理器还可被配置为在使用确定的声音来与用户进行交互后，检测用户对确定的声音的反馈信息；当检测到的反馈信息指示用户拒绝确定的声音时，重新确定与用户进行交互的声音，并且更新声音数据库中与用户属性对应的多个声音的权重值，和/或将用户拒绝的声音从用户的历史使用记录中删除。

在一个优选的实施例中，根据本发明的示例性实施例的与用户进行语音交互的方法还可进行情绪反馈。具体说来，处理器还可被配置为根据当前播放的内容和/或用户的属性确定与用户进行互动的声音的情绪，使用确定的声音以确定的情绪来与用户进行对话，和/或使用确定的声音以确定的情绪播放所述内容。

作为示例，处理器还可被配置为将确定的声音所属的人物的头像以及与确定的情绪对应的表情通过屏幕反馈给用户，或者将与确定的情绪对应的灯光反馈给用户。例如，显示与确定的情绪对应的颜色的灯光或者与确定的情绪对应的频率闪动的灯光，与不同的情绪对应的颜色或频率可预先进行设置。

根据本发明的实施例还提供一种计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行如上所述的与用户进行语音交互的方法的计算机程序。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种与用户进行语音交互的方法，其特征在于，包括：

获取用户的数据；

根据获取的用户的数据确定用户属性；

根据用户属性，在声音数据库中确定与用户进行交互的声音；

使用确定的声音来与用户进行交互。

2.根据权利要求1所述的方法，其特征在于，所述用户的数据包括用户的语音数据以及以下至少一项：用户的影像数据、用户的温度数据以及用户的红外数据。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对获取的用户的数据进行预处理，得到用户的以下至少一项特征信息：人脸信息、声纹信息、语音数据中的文本内容信息、音调信息、身高信息、体温信息、活跃度信息、姿势信息、位置信息、距离信息；

其中，根据所述至少一项特征信息确定用户属性。

4.根据权利要求1所述的方法，其特征在于，所述用户属性包括以下至少一项：用户的人数、用户的性别、用户的年龄、用户的情绪和用户之间的关系。

5.根据权利要求4所述的方法，其特征在于，根据获取的用户的数据确定用户属性的步骤包括：

根据获取的用户的数据以及用户属性识别模型确定用户属性，其中，所述用户属性识别模型是通过对样本信息进行机器学习获得的模型。

6.根据权利要求1所述的方法，其特征在于，所述声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，

其中，根据用户属性，在声音数据库中确定与用户进行交互的声音的步骤包括：将声音数据库中与用户属性对应的声音中权重值最高的声音确定为与用户进行交互的声音。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据获取的用户的数据识别用户的身份；

其中，所述声音数据库中包括与不同用户属性对应的多个声音、所述多个声音的权重值、不同身份的用户的历史使用记录，其中，所述历史使用记录包括之前与用户进行交互的声音；

根据用户属性，在声音数据库中确定与用户进行交互的声音的步骤包括：根据声音数据库中与用户属性对应的多个声音的权重值以及所述身份的用户的使用记录来确定与用户进行交互的声音。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

在使用确定的声音来与用户进行交互之后，检测用户对确定的声音的反馈信息；

当检测到的反馈信息指示用户拒绝确定的声音时，重新确定与所述用户进行交互的声音，并且更新所述声音数据库中与用户属性对应的多个声音的权重值，和/或将用户拒绝的声音从用户的历史使用记录中删除。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据当前播放的内容和/或用户属性确定与用户进行互动的声音的情绪，

其中，使用确定的声音来与用户进行交互的步骤包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

将确定的声音所属的人物的头像以及与确定的情绪对应的表情通过屏幕反馈给用户；

或者将与确定的情绪相应的灯光反馈给用户。

11.一种电子设备，其特征在于，包括处理器，其中，所述处理器被配置为：

获取用户的数据；

根据获取的用户的数据确定用户属性；

使用确定的声音来与用户进行交互。

12.根据权利要求11所述的电子设备，其特征在于，所述用户的数据包括用户的语音数据以及以下至少一项：用户的影像数据、用户的温度数据以及用户的红外数据。

13.根据权利要求12所述的电子设备，其特征在于，所述处理器还被配置为：

其中，根据所述至少一项特征信息确定用户属性。

14.根据权利要求11所述的电子设备，其特征在于，所述用户属性包括以下至少一项：用户的人数、用户的性别、用户的年龄、用户的情绪和用户之间的关系。

15.根据权利要求14所述的电子设备，其特征在于，根据获取的用户的数据确定用户属性的处理包括：

16.根据权利要求11所述的电子设备，其特征在于，所述声音数据库中包括与不同用户属性对应的多个声音以及所述多个声音的权重值，

其中，根据用户属性，在声音数据库中确定与用户进行交互的声音的处理包括：将声音数据库中与用户属性对应的声音中权重值最高的声音确定为与用户进行交互的声音。

17.根据权利要求11所述的电子设备，其特征在于，所述处理器还被配置为：

根据获取的用户的数据识别用户的身份；

根据用户属性，在声音数据库中确定与用户进行交互的声音的处理包括：根据声音数据库中与用户属性对应的多个声音的权重值以及所述身份的用户的使用记录来确定与用户进行交互的声音。

18.根据权利要求16或17所述的电子设备，其特征在于，所述处理器还被配置为：

19.根据权利要求11所述的电子设备，其特征在于，所述处理器还被配置为：

其中，使用确定的声音来与用户进行交互的步骤包括：

20.根据权利要求19所述的电子设备，其特征在于，所述处理器还被配置为：

或者将与确定的情绪相应的灯光反馈给用户。

21.一种计算机可读存储介质，存储有当被处理器执行时使得处理器执行如权利要求1至10中任意一项所述的与用户进行语音交互的方法的计算机程序。