CN109215679A

CN109215679A - 基于用户情绪的对话方法和装置

Info

Publication number: CN109215679A
Application number: CN201810887638.XA
Authority: CN
Inventors: 徐力; 李颖超; 马晓昕
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-15
Also published as: US20190333514A1; US11062708B2

Abstract

本发明提供一种基于用户情绪的对话方法和装置，其中方法包括，采集来自用户的第一音频数据，并根据第一音频数据的特征确定用户的情绪，以使用与用户的情绪对应的第二音频数据与用户进行对话。本发明提供的基于用户情绪的对话方法和装置，能够在与用户对话时能够根据用户的情绪做出不同的回应。进而丰富了电子设备根据用户的音频数据能够做出的回应，并进一步地提高了电子设备在对话时的用户体验。

Description

基于用户情绪的对话方法和装置

技术领域

本发明涉及智能设备技术领域，尤其涉及一种基于用户情绪的对话方法和装置。

背景技术

目前，随着人工智能、机器学习和网络技术的快速发展，人们与智能型电子设备之间的沟通已不仅仅可以实现指令输入至电子设备，智能型电子设备再以文字内容回应的沟通方式，还可以能够通过音频数据交互的方式进行沟通与对话，从而使得用户可以通过对话的方式通过智能型电子设备实现安排会议、学习技能和收听新闻等应用，或者与智能型电子设备进行对话交流。

现有技术中，用户在通过对话的方式与智能型电子设备进行交流时，智能型电子设备能够采集用户所说的音频数据，并对音频数据进行相关处理与分析，确定用户所说的音频数据中想要表达的信息，以根据该信息向用户做出回应。例如：用户可以向电子设备说“今天天气怎么样”，电子设备采集到该音频数据后，对于音频数据进行语义分析，确定用户表达的信息后，可以通过互联网查询今天的天气后，向用户播放“今天天气晴”的音频数据。

采用现有技术，由于电子设备仅能够向用户提供单方面制式化的回应，并不能考虑用户实际的感受与使用状况，从而导致了用户在于电子设备对话时，电子设备根据用户的音频数据做出的回应较为单一。

发明内容

本发明提供一种基于用户情绪的对话方法和装置，丰富了电子设备与用户对话时，根据用户的音频数据做出的回应，提高了用户体验。

本发明第一方面提供一种基于用户情绪的对话方法，包括：

采集来自用户的第一音频数据；

根据所述第一音频数据的特征确定所述用户的情绪；

使用与所述用户的情绪对应的第二音频数据与所述用户进行对话。

在本发明第一方面一实施例中，所述根据所述第一音频数据确定所述用户的情绪，包括：

根据所述第一音频数据的属性确定所述用户的情绪；其中，所述属性至少包括以下的一种或多种：所述第一音频数据的幅度、音调、音色、频率和连续时间。

根据所述第一音频数据的语义确定所述用户的情绪。

在本发明第一方面一实施例中，所述使用与所述用户的情绪对应的第二音频数据与所述用户进行对话，包括：

通过查找第一映射关系确定所述用户的情绪对应的第二音频数据；其中，所述第一映射关系包括至少一种情绪和音频数据之间的对应关系；

使用所述第二音频数据与所述用户进行对话。

在本发明第一方面一实施例中，还包括：

确定至少一种情绪和所述音频数据之间的对应关系；

根据所述至少一种情绪和所述音频数据之间的对应关系确定所述第一映射关系。

通过查找第二映射关系确定所述用户的情绪对应的音频数据处理方式；其中，所述第二映射关系包括至少一种情绪和音频数据处理方式之间的对应关系；

通过所述音频数据处理方式处理所述第二音频数据；

使用经过处理后的所述第二音频数据与所述用户进行对话。

在本发明第一方面一实施例中，所述通过查找第二映射关系确定所述用户的情绪对应的音频数据处理方式之前，还包括：

根据所述第一音频数据的语义确定所述第二音频数据。

在本发明第一方面一实施例中，还包括：

确定至少一种情绪和所述音频数据处理方式之间的对应关系；

根据所述至少一种情绪和所述音频数据处理方式之间的对应关系确定所述第二映射关系。

在本发明第一方面一实施例中，所述采集来自用户的第一音频数据，包括：

当检测到所述用户的音频数据，则采集来自所述用户的第一音频数据。

每间隔预设时间采集来自所述用户的第一音频数据。

综上，在本发明第一方面提供的基于用户情绪的对话方法中，通过采集来自用户的第一音频数据，并根据第一音频数据确定用户的情绪，以使用与用户的情绪对应的第二音频数据与用户进行对话。从而在电子设备与用户对话时能够根据用户的情绪做出不同的回应。进而丰富了电子设备根据用户的音频数据能够做出的回应，并进一步地提高了电子设备在对话时的用户体验。

本发明第二方面提供一种基于用户情绪的对话装置，包括：

采集模块，用于采集来自用户的第一音频数据；

确定模块，用于根据所述第一音频数据的特征确定所述用户的情绪；

对话模块，用于使用与所述用户的情绪对应的第二音频数据与所述用户进行对话。

在本发明第二方面一实施例中，所述确定模块具体用于，

根据所述第一音频数据的语义确定所述用户的情绪。

在本发明第二方面一实施例中，所述对话模块具体用于，

使用所述第二音频数据与所述用户进行对话。

在本发明第二方面一实施例中，所述对话模块具体用于，

通过所述音频处理方式处理所述第二音频数据；

使用经过处理后的所述第二音频数据与所述用户进行对话。

在本发明第二方面一实施例中，所述对话模块还用于，

根据所述第一音频数据的语义确定所述第二音频数据。

在本发明第二方面一实施例中，所述采集模块具体用于，

每间隔预设时间采集来自所述用户的第一音频数据。

综上，在本发明第二方面提供的基于用户情绪的对话装置中，通过采集模块采集来自用户的第一音频数据，并通过确定模块根据第一音频数据的特征确定用户的情绪，以使对话模块使用与用户的情绪对应的第二音频数据与用户进行对话。从而在电子设备与用户对话时能够根据用户的情绪做出不同的回应。进而丰富了电子设备根据用户的音频数据能够做出的回应，并进一步地提高了电子设备在对话时的用户体验。

本发明第三方面提供一种电子设备可读存储介质，包括程序，当所述程序在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于用户情绪的对话方法实施例的流程示意图；

图2为本发明基于用户情绪的对话装置实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明基于用户情绪的对话方法实施例的流程示意图。如图1所示，本实施例提供的基于用户情绪的对话方法包括：

S101：采集来自用户的第一音频数据。

在本步骤中，电子设备采集用户的第一音频数据，以针对用户的音频数据进行分析与处理。其中，音频数据指电子设备对用户所说的话进行采集后的到的电子数据，例如该数据可以是用户所说的话的录音，电子设备能够直接对音频数据进行处理。需要说明的是，本实施例的执行主体可以是具有相关数据处理功能的电子设备，如智能音箱、智能手机、智能手表等。此外，电子设备还可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality，VR)电子设备、增强现实(Augmented Reality，AR)电子设备、工业控制(industrial control)中的电子设备、无人驾驶(self driving)中的电子设备、远程手术(remote medical surgery)中的电子设备、智能电网(smart grid)中的电子设备、运输安全(transportation safety)中的电子设备、智慧城市(smart city)中的电子设备、智慧家庭(smart home)中的电子设备等具备数据处理功能的电子设备。

具体地，电子设备可以通过但不限于以下几种方式获取用户的音频数据：1、直接获取已有的用户的音频数据，例如电子设备可以读取设备内部存储设备中存储的用户的音频数据，或者电子设备通过互联网获取用户的音频数据。2、通过电子设备内的音频处理软件捕获用户的音频数据。3、利用电子设备内设置的麦克风等音频处理装置采集用户的音频数据。以上三种方法均可在本步骤中择一使用，或者结合使用。

可选地，S101一种可能的实现方式为，当检测到用户的音频数据，则采集来自用户的第一音频数据。其中，当电子设备与用户进行对话时，电子设备可以采集用户所说的话作为第一音频数据。或者，电子设备在没有与用户进行对话时，当检测到用户开始说话，则采集用户的第一音频数据。

可选地，S101另一种可能的实现方式为，每间隔预设时间采集来自用户的第一音频数据。例如，用户一直在说话，但是并没有和电子设备进行对话，此时，电子设备可以每间隔例如10分钟采集用户的第一音频数据，并可以将所采集的第一音频数据存在电子设备的存储设备中，以在后续需要处理时从存储设备中获取。

S102：根据第一音频数据的特征确定用户的情绪。

具体地，在S102中，作为执行主体的电子设备通过S101中所获取的用户的第一音频数据确定用户的情绪。其中，电子设备可以通过提取第一音频数据的特征，并根据第一音频数据的特征确定用户的情绪。电子设备可以存储不同的特征与情绪的对应关系，以根据第一音频数据的特征确定对应的情绪。其中，上述不同的特征与不同情绪的对应关系可以通过大数据学习的方式确定不同的音频数据的特征与用户的情绪对应的基于机器学习的情绪识别模型。并可以根据随时新获取的音频数据的特征及其对应的情绪进行增加。

可选地，本实施例中的第一音频数据的特征可以是第一音频数据的属性，其中，属性至少包括以下的一种或多种：第一音频数据的幅度、音调、音色、频率和连续时间。则S102一种具体实现方式为，根据第一音频数据的属性确定用户的情绪。例如：电子设备中存储的特征与情绪的对应关系为：“频率大于300Hz-生气”，“频率小于100Hz-害怕”。则电子设备通过提取所获取的第一音频数据的特征例如为第一音频数据的频率为400Hz，则确定该特征对应的情绪为生气，即确定用户的情绪为生气。此外，对于其他如音调、音色、幅度等特征于情绪的对应方式与上述示例相同，不再赘述。并且情绪与特征的对应方式可以是一对一、一对多或者多对一，例如：音频数据的频率大于250Hz且幅度大于第一预设阈值时，对应的情绪为生气。

可选地，本实施例中的第一音频数据的特征可以是第一音频数据的语义。则S102另一种具体实现方式为，根据第一音频数据的语义确定用户的情绪。其中，本步骤中可以对所采集的用户的第一音频数据进行语义分析，对用户的第一音频数据中文字进行理解，并根据第一音频数据中文字的语义确定用户的情绪。例如，电子设备中存储不同的语义对应的不同的情绪，“不高兴-生气”，“担心-害怕”。则在电子设备确定用户的第一音频数据为“今天不高兴，放一首欢快的歌”，则电子设备根据第一音频数据中的文字“不高兴”确定用户的情绪为生气。

S103：使用与用户的情绪对应的第二音频数据与用户进行对话。

具体地，在本步骤中，电子设备根据S102中确定的用户的情绪，使用与用户的情绪对应的第二音频数据与用户进行对话。其中，用户的情绪与第二音频数据存在对应关系，不同的情绪对应不同的音频数据。可选地，本实施例中的第二音频数据还可以与第一音频数据存在映射关系，即第二音频数据是电子设备用于在与用户对话时回答用户的第一音频数据的问题的数据。即，第二音频数据是既与第一音频数据对应，又与用户的情绪对应的音频数据。或者，本实施例中的第二音频数据也可以与第一音频数据无关，即，电子设备根据用户的第一音频数据判断用户的情绪后，在后续与用户对话的过程中，使用第二音频数据与用户进行对话。

可选地，S103一种可能的实现方式为，电子设备通过查找第一映射关系确定用户的情绪对应的第二音频数据；其中，第一映射关系包括至少一种情绪和音频数据之间的对应关系；随后，电子设备使用第二音频数据与用户进行对话。即，在本实现方式中，电子设备根据用户不同的情绪确定与通过不同的第二音频数据与用户进行对话。例如：电子设备接收到的用户的第一音频数据为“今天天气如何”，电子设备在回答用户第一音频数据的问题之前，根据前述的方法判断用户的情绪为“高兴”。则电子设备根据用户的情绪“高兴”所确定第二音频数据为“今天的天气和你的心情一样晴朗”。而如果电子设备判断用户的情绪为“难过”，则电子设备所确定的回答同一个问题的第二音频数据为“希望你的心情和今天天气一样是晴朗的”。又或者，电子设备所确定的第二音频数据可以与第一音频数据的内容无关，即例如电子设备根据第一音频数据确定用户的情绪为“难过”时，电子设备确定“难过”对应的第二音频数据为“别难过了，给你讲个笑话吧”，从而由电子设备根据用户的情绪对用户进行主动发起的问询，而不是被动地回答用户的问题。

可选地，S103另一种可能的实现方式为，电子设备根据第一音频数据的语义确定第二音频数据，随后电子设备通过查找第二映射关系确定用户的情绪对应的音频数据处理方式；其中，第二映射关系包括至少一种情绪和音频数据处理方式之间的对应关系；随后电子设备通过音频数据处理方式处理第二音频数据；并使用经过处理后的第二音频数据与用户进行对话。即，本实现方式中，电子设备根据用户的第一音频数据的语义内容，确定使用相同的第二音频数据与用户进行对话，但是会根据用户不同的情绪确定对第二音频数据进行处理。例如：电子设备接收到的用户的第一音频数据为“今天天气如何”，电子设备根据第一音频数据的语义为询问天气，则根据第一音频数据的语义确定用于回答用户第一音频数据的第二音频数据为“今天天气晴朗”。则在电子设备通过第二音频数据回答用户第一音频数据的问题的对话之前，根据前述的方法判断用户的情绪为“高兴”确定第一音频数据处理方式为“频率300Hz，音调高，语速快”，并对第二音频数据进行上述处理后与用户进行对话。而如果电子设备判断用户的情绪为“难过”，则电子设备所确定的第二音频数据处理方式为“频率100Hz，音调地，语速慢”，并对第二音频数据进行上述处理后与用户进行对话。

综上，本发明提供的基于用户情绪的对话方法中，通过采集来自用户的第一音频数据，并根据第一音频数据确定用户的情绪，以使用与用户的情绪对应的第二音频数据与用户进行对话。从而在电子设备与用户对话时能够根据用户的情绪做出不同的、更为合适的回应。进而丰富了电子设备根据用户的音频数据能够做出的回应，并进一步地提高了电子设备在对话时的用户体验。

图2为本发明基于用户情绪的对话装置实施例的结构示意图。如图2所示，本实施例提供的基于用户情绪的对话装置包括：采集模块201、确定模块202和对话模块203。其中，采集模块201用于采集来自用户的第一音频数据；确定模块202用于根据第一音频数据的特征确定用户的情绪；对话模块203用于使用与用户的情绪对应的第二音频数据与用户进行对话。

本实施例提供的基于用户情绪的对话装置可用于执行如图1所示的基于用户情绪的对话方法，其实现方式与具体原理相同，不再赘述。

可选地，确定模块202具体用于，根据第一音频数据的属性确定用户的情绪；其中，属性至少包括以下的一种或多种：第一音频数据的幅度、音调、音色、频率和连续时间。

可选地，确定模块202具体用于，根据第一音频数据的语义确定用户的情绪。

可选地，对话模块203具体用于，通过查找第一映射关系确定用户的情绪对应的第二音频数据；其中，第一映射关系包括至少一种情绪和音频数据之间的对应关系；使用第二音频数据与用户进行对话。

可选地，对话模块203具体用于，对话模块具体用于，通过查找第二映射关系确定用户的情绪对应的音频数据处理方式；其中，第二映射关系包括至少一种情绪和音频数据处理方式之间的对应关系；通过音频处理方式处理第二音频数据；使用经过处理后的第二音频数据与用户进行对话。

可选地，对话模块203具体用于，根据第一音频数据的语义确定第二音频数据。

可选地，对话模块203具体用于，当检测到用户的音频数据，则采集来自用户的第一音频数据。

可选地，对话模块203具体用于，每间隔预设时间采集来自用户的第一音频数据。

本实施例提供的各基于用户情绪的对话装置可用于执行如上述实施例中对应所示的基于用户情绪的对话方法，其实现方式与具体原理相同，不再赘述。

本发明还提出一种电子设备可读存储介质，包括程序，当其在电子设备上运行时，使得电子设备执行上述任一实施例所述的基于用户情绪的对话方法。

本发明一实施例还提供一种电子设备，包括：处理器；以及，存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任一项实施例中的基于用户情绪的对话方法。

发明一实施例还提供一种程序产品，该程序产品包括：计算机程序(即执行指令)，该计算机程序存储在可读存储介质中。编码设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得编码设备实施前述的各种实施方式提供的基于用户情绪的对话方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于用户情绪的对话方法，其特征在于，包括：

采集来自用户的第一音频数据；

根据所述第一音频数据的特征确定所述用户的情绪；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频数据的特征确定所述用户的情绪，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频数据的特征确定所述用户的情绪，包括：

根据所述第一音频数据的语义确定所述用户的情绪。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述使用与所述用户的情绪对应的第二音频数据与所述用户进行对话，包括：

使用所述第二音频数据与所述用户进行对话。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述使用与所述用户的情绪对应的第二音频数据与所述用户进行对话，包括：

通过所述音频数据处理方式处理所述第二音频数据；

使用经过处理后的所述第二音频数据与所述用户进行对话。

6.根据权利要求5所述的方法，其特征在于，所述通过查找第二映射关系确定所述用户的情绪对应的音频数据处理方式之前，还包括：

根据所述第一音频数据的语义确定所述第二音频数据。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述采集来自用户的第一音频数据，包括：

8.根据权利要求1-3任一项所述的方法，其特征在于，所述采集来自用户的第一音频数据，包括：

每间隔预设时间采集来自所述用户的第一音频数据。

9.一种基于用户情绪的对话装置，其特征在于，包括：

采集模块，用于采集来自用户的第一音频数据；

确定模块，用于根据所述第一音频数据确定所述用户的情绪；

10.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于，

11.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于，

根据所述第一音频数据的语义确定所述用户的情绪。

12.根据权利要求9-11任一项所述的装置，其特征在于，所述对话模块具体用于，

使用所述第二音频数据与所述用户进行对话。

13.根据权利要求9-11任一项所述的装置，其特征在于，所述对话模块具体用于，

通过所述音频处理方式处理所述第二音频数据；

使用经过处理后的所述第二音频数据与所述用户进行对话。

14.根据权利要求13所述的装置，其特征在于，所述对话模块还用于，

根据所述第一音频数据的语义确定所述第二音频数据。

15.根据权利要求9-11任一项所述的装置，其特征在于，所述采集模块具体用于，

16.根据权利要求9-11任一项所述的装置，其特征在于，所述采集模块具体用于，

每间隔预设时间采集来自所述用户的第一音频数据。

17.一种电子设备可读存储介质，其特征在于，包括程序，当所述程序在电子设备上运行时，使得电子设备执行权利要求1-8任一项所述的基于用户情绪的对话方法。