CN113448433A

CN113448433A - 情绪响应型虚拟个人助理

Info

Publication number: CN113448433A
Application number: CN202110308065.2A
Authority: CN
Inventors: J.弗贝克; S.克拉茨; S.马蒂
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Ltd; Harman International Industries Inc
Priority date: 2020-03-27
Filing date: 2021-03-23
Publication date: 2021-09-28
Also published as: US11735206B2; JP2021157172A; US20210304787A1; KR20210120852A; EP3886086A1

Abstract

虚拟私人助理(VPA)被配置为分析指示与用户相关联的一个或多个行为的各种类型的输入，并基于所述输入确定所述用户的情绪状态。所述VPA还基于所述输入和所确定的情绪状态来确定代表所述用户执行的一个或多个操作。然后，所述VPA执行所述一个或多个操作，并基于所述用户的情绪状态和所述一个或多个操作来合成输出。所合成的输出包括一个或多个语义成分以及从所述用户的所述情绪状态导出的一个或多个情绪成分。所述VPA观察所述用户响应于所合成输出的行为，然后基于观察到的行为实施各种修改，以改善与所述用户未来交互的有效性。

Description

情绪响应型虚拟个人助理

技术领域

各个实施方案总体上涉及计算机软件和虚拟个人助理，并且更具体地，涉及情绪响应型虚拟个人助理。

背景技术

“虚拟个人助理”(VPA)是一种计算机程序，其与用户交互以代表用户执行各种操作。在这样做时，VPA通常处理从用户接收的发声并将这些发声解释为一个或多个命令。然后，VPA将那些命令映射到可以代表用户执行的一个或多个对应的操作。在执行操作后，VPA可以经由合成发声以会话方式与用户对接，以报告操作结果。例如，VPA 可以处理从用户接收的发声，并将该发声解释为命令“检查电子邮件”。VPA可以将该命令映射到用于检索新电子邮件的操作，并执行该操作以获得用户的新电子邮件。然后，VPA可以合成指示检索到的新电子邮件的数量的发声。

在一些实现方式中，VPA可以在车辆内实施以允许用户与车辆的各种特征进行交互，而不会将大部分注意力从驾驶中转移开。例如，假设用户需要调整车辆的气候控制设置，以将内部温度降低到更舒适的水平。用户可以发出“激活空调”的命令，以指示VPA激活空调。在激活空调后，VPA可以合成向用户指示已经执行了相关操作的发声。以这种方式，在车辆中实施的VPA可以帮助用户避免将注意力从驾驶转移到与各种车辆特征进行手动交互，从而增加总体驾驶安全性。

上述技术的一个缺点是常规VPA只能解释发声的语义成分，因此不能正确解释使用情绪成分传达信息的发声。因此，在车辆中实施的VPA有时可能无法代表用户适当地执行给定的操作，并产生其中用户不得不将注意力从驾驶中转移开以便手动执行该操作的情况。例如，假设用户正在收听收音机，并且突然开始播放声音非常大的歌曲。用户可能迅速指示VPA：“立即降低音量！”然而，VPA可能无法解释与这种类型的用户命令相关的急迫性，并且仅将音量降低一级。为了纠正这种错误传达，用户将不得不将注意力从驾驶中转移开，并且手动地将收音机的音量减小到更合适的水平，这将降低总体驾驶安全性。

上述技术的另一个缺点是，由于常规VPA不能正确解释使用情绪成分传达信息的发声，因此VPA通常不能以真实方式与用户交谈。因此，在车辆中实施的VPA会使用户与VPA脱离或完全关闭VPA，从而产生其中用户不得不将注意力从驾驶中转移开以便手动与各种车辆特征进行交互的情况。例如，假设用户对在工作中获得晋升感到非常兴奋，并指示VPA确定最快的回家路线。如果VPA合成了沉闷的单调发声以叙述相关的导航指令，则用户将发现与VPA的交互令人沮丧并最终关闭VPA以保持他/她的兴奋程度。这样的结果降低了总体驾驶安全性。

如前面所说明的，本领域需要当VPA代表用户执行操作时与用户进行交互的更有效方式。

发明内容

各种实施方案包括一种用于在辅助用户的同时与所述用户交互的计算机实现的方法，所述方法包括：捕获指示与所述用户相关联的一个或多个行为的第一输入；基于所述第一输入确定所述用户的第一情绪状态；基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关；以及将所述第一发声输出给所述用户。

相对于现有技术，所公开的技术的至少一个技术优点是，所公开的技术使VPA能够基于用户的情绪状态更准确地确定代表用户执行的一个或多个操作。因此，当在车辆内实施时，所公开的VPA有助于防止用户将注意力从驾驶中转移开以与车辆特征交互，从而增加总体驾驶安全性。

附图说明

为了可以详细地理解各个实施方案的上述特征的方式，可以通过参考各个实施方案来对以上简要概述的发明构思进行更具体的描述，在附图中示出了一些实施方案。然而，应注意，附图仅示出了本发明构思的典型实施方案，因此不应以任何方式被认为是对范围的限制，并且还存在其他等效的实施方案。

图1A至图1B示出了被配置为实施各种实施方案的一个或多个方面的***；

图2是根据各种实施方案的图1的VPA的更详细图示；

图3A至图3B阐述了根据各种实施方案的图1的VPA如何表征和转换用户的情绪状态的示例；

图4A至图4C阐述了根据各种实施方案的图1的VPA如何对用户的情绪状态作出响应的示例；

图5A至图5C阐述了根据各种实施方案的图1的VPA如何补偿用户的情绪状态的示例；以及

图6是根据各种实施方案的用于合成反映用户的情绪状态的发声的方法步骤的流程图。

具体实施方式

在以下描述中，阐述了许多具体细节以提供对各种实施方案的更透彻的理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本发明构思。

如上所述，常规VPA只能解释发声的语义成分，因此无法正确解释使用情绪成分传达信息的发声。因此，在车辆中实施的VPA有时会无法代表用户适当地执行某些操作，因此会产生其中用户不得不将注意力从驾驶中转移开以便亲自执行这些操作的情况。另外，由于常规VPA不能正确解释使用情绪成分传达信息的发声，因此VPA无法以任何类型的真实方式与用户以对话方式对接。因此，在车辆内实施的VPA可能使用户与VPA脱离或完全关闭VPA，从而产生其中用户不得不将注意力从驾驶中转移开以便与各种车辆特征进行交互的情况。

为了解决这些问题，各种实施方案包括被配置为分析指示与用户相关联的一个或多个行为的各种类型的输入的VPA。输入可以包括表示供VPA执行的显式命令的发声以及与用户相关联的非口头暗示 (诸如面部表情和/或姿势改变等)。VPA基于该输入来确定用户的情绪状态。VPA还基于输入和所确定的情绪状态来确定代表用户执行的一个或多个操作。然后，VPA执行所述一个或多个操作，并基于用户的情绪状态和所述一个或多个操作来合成输出。所合成的输出包括一个或多个语义成分以及从用户的情绪状态导出的一个或多个情绪成分。除了其他可能性之外，输出的情绪成分可以匹配用户的情绪状态或与用户的情绪状态形成对比。VPA观察用户响应于所合成输出的行为，然后基于观察到的行为实施各种修改，以改善与用户未来交互的有效性。

相对于现有技术，所公开的技术的至少一个技术优点是，所公开的技术使VPA能够基于用户的情绪状态更准确地确定代表用户执行的一个或多个操作。因此，当在车辆内实施时，所公开的VPA有助于防止用户将注意力从驾驶中转移开以与车辆特征交互，从而增加总体驾驶安全性。所公开的技术的另一技术优点是，所公开的技术使VPA能够生成试图反映用户的情绪状态的对话性真实响应。对话性真实响应保持了用户与VPA的对接，因此减少了用户关闭VPA并手动与车辆特征进行交互的情况的数量，这增加了总体驾驶安全性。这些技术优点表示相对于现有技术方法的一个或多个技术进步。

***概述

图1A至图1B示出了被配置为实施各种实施方案的一个或多个方面的***。如图1A所示，***100包括耦合到一个或多个输入装置120和一个或多个输出装置130的计算装置110。

输入装置120被配置为捕获反映与用户140相关联的一个或多个行为的输入122。如本文所引用的，“行为”包括用户执行的任何自愿和/或非自愿动作。例如但不限于，“行为”可以包括由用户发出的显式命令、由用户表现的面部表情、由用户有意识或无意识呈现的情感变化以及用户姿势、心率、皮肤电导性、瞳孔扩张的变化等。输入装置120可以包括多种不同类型的传感器，所述传感器被配置为捕获反映与用户相关联的行为的不同类型的数据。例如但不限于，输入装置 120可以包括记录由用户发出的发声的音频捕获装置、记录描绘用户的图像和/或视频的光学捕获装置、测量用户的瞳孔扩张的瞳孔测量传感器、测量用户面部和/或身体中的血流的红外传感器、产生与用户相关联的每分钟心跳读数的心率传感器、测量用户的皮肤电导性变化的皮肤电反应传感器、检测用户的体核温度和/或体表温度的变化的体温传感器、检测不同脑波模式的脑波传感器等。如以下更详细描述的，计算装置110处理输入122以生成输出132。

输出装置130被配置为向用户140发送输出132。输出132可以包括与任何给定的感觉形态相关联的任何技术上可行类型的数据，但是在实践中输出装置130产生并向用户140发送音频输出。这样，输出装置130通常包括一个或多个音频输出装置。例如但不限于，音频装置130可以包括一个或多个扬声器、一个或多个声换能器、一组耳机、波束形成阵列、声场发生器和/或音盆。

计算装置110可以是任何技术上可行类型的计算机***，包括台式计算机、膝上型计算机、移动装置、计算装置的虚拟实例、分布式和/或基于云的计算机***。计算装置110包括耦合在一起的处理器 112、输入/输出(I/O)装置114和存储器116。处理器112包括被配置为处理数据和执行软件应用程序的任何技术上可行的硬件单元集。例如但不限于，处理器112可以包括一个或多个中央处理器(CPU)、一个或多个图形处理单元(GPU)和/或一个或多个专用集成电路(ASIC)。 I/O装置114包括被配置为执行输入和/或输出操作的任何技术上可行的装置集。例如但不限于，I/O装置114可以包括通用串行总线(USB) 端口、串行端口和/或火线端口。在一个实施方案中，I/O装置114可以包括输入装置120和/或输出装置130。存储器116包括被配置为存储数据和软件应用程序的任何技术上可行的存储介质。例如但不限于，存储器116可以包括硬盘、随机存取存储器(RAM)模块和/或只读存储器(ROM)。存储器116包括虚拟私人助理(VPA)118。VPA 118是一种软件应用程序，当由处理器112执行时，该软件应用程序将基于输入122执行各种操作以生成输出132。

在操作中，VPA 118处理经由输入装置120捕获的输入122，并基于该输入确定用户140的情绪状态。VPA 118还基于输入122和所确定的情绪状态来确定代表用户140执行的一个或多个操作。VPA 118使用下面结合图2至图3B更详细描述的技术确定用户140的情绪状态以及代表用户140执行的一个或多个操作。然后，VPA 118执行所述一个或多个操作，或使所述一个或多个操作由另一***执行。 VPA 118基于用户140的情绪状态和所述一个或多个操作来合成输出132。所合成的输出包括与所述一个或多个操作有关的语义成分以及从用户的情绪状态导出和/或受用户的情绪状态影响的情绪成分。 VPA 118经由输出装置130将输出132发送给用户140。VPA 118观察用户140响应于所合成输出的行为，然后实施可以增加VPA 118的可用性和/或用户与其对接的各种修改。

一般来说，***100可以实施为独立***，或者与任何其他技术上可行的***集成和/或配置为与任何其他技术上可行的***交互操作。例如但不限于，***100可以与车辆、智能家居、智能耳机、智能扬声器、智能电视机、一个或多个物联网(IoT)装置或可穿戴计算***等集成和/或被配置为与它们交互操作。图1B示出了***100与车辆集成的示例性实现方式。

如图1B所示，***100与用户140所驻留的车辆150集成。***100耦合到该车辆内的一个或多个子***160(0)至160(N)。每个子***160提供对一个或多个车辆特征的访问。例如但不限于，给定的子***160可以是提供对车辆的气候控制特征的访问的气候控制子***、提供对车辆的信息娱乐特征的访问的信息娱乐子***、提供对车辆的导航特征的访问的导航子***、提供对车辆的自动驾驶功能的访问的自动驾驶子***等。***100内的VPA 118被配置为访问一个或多个子***160，以代表用户140执行操作。

总体上参考图1A至图1B，本领域技术人员将理解，总体上*** 100并且具体地VPA118可以在任何技术上可行的环境中实施，以代表用户140执行操作并基于用户140的情绪状态合成发声。可以实施和/或包括VPA的装置各种示例包括移动装置(例如，手机、平板电脑、膝上型电脑等)、可穿戴装置(例如，手表、戒指、手镯、耳机、 AR/VR头戴式装置等)、消费产品(例如，游戏等)、智能家居装置(例如，智能照明***、安全***、智能扬声器等)、通信***(例如，电话会议***、视频会议***等)。VPA可以位于各种环境中，包括但不限于道路车辆环境(例如，消费汽车、商用卡车、打车车辆、雪地机车、全地形车辆(ATV)、半自动和全自动驾驶车辆等)、航天和/航空环境(例如，飞机、直升机、宇宙飞船、电动垂直起降飞行器(eVTOL)等)、航海和海底环境(例如，轮船、船舶、喷气式水艇)等。下面结合图2 更详细地描述实施VPA 118的总体功能的各种模块。

软件概述

图2是根据各种实施方案的图1的VPA的更详细图示。如图所示，VPA 118包括语义分析器210、情绪分析器220、响应生成器230、输出合成器240和映射修改器250。这些各种元件被实施为交互操作以执行VPA 118的功能的软件和/或硬件模块。

在操作中，语义分析器210从用户140接收输入122，并对包含在该输入中的发声执行语音到文本的转录操作，以生成输入转录212。输入转录212包括反映命令、问题、陈述以及用户140向VPA 118发出的以引起来自VPA 118的响应的其他形式的语言通信的文本数据。例如但不限于，输入转录212可以包括指示用户140希望VPA 118 执行的操作的命令。输入抄录212还可以指示用户140希望VPA 118 回答的问题或用户140向VPA 118做出的陈述。语义分析器210将输入抄录212发送到响应生成器230。

情绪分析器220还从用户140接收输入122，然后对输入122执行情绪分析操作，以便确定与用户140相关联的情绪状态222。情绪分析器220还可以基于输入转录212确定情绪状态222。情绪分析器 220可以在生成情绪状态222时执行任何技术上可行的方法来表征活实体的情绪状态，并且这样做可以处理输入122内包括的任何技术上可行形式的数据。例如但不限于，情绪分析器220可以处理从用户接收的发声以量化该发声的音高、音调、音色、音量和/或其他声学特征。然后，情绪分析器220可以将那些特征映射到具体的情绪状态或情绪度量。在另一示例中，但不限于，情绪分析器220可以处理由用户140 表现的面部表情的视频，然后将该面部表情分类为与特定的情绪状态相对应。在一个实施方案中，情绪状态222可以包括指示特定类型的情绪的效价值和指示该类型的情绪被表达的强度的强度值和/或与该类型的情绪相对应的唤醒水平，如下结合图3A至图3B所述。本领域技术人员将理解，情绪分析器220可以实施用于表征情绪的任何技术上可行的方法，并且可以生成情绪状态222以包括描述情绪的任何技术上可行的数据。情绪分析器220将情绪状态222发送到响应生成器230。

响应生成器230被配置为处理输入转录212和情绪状态222以生成操作232。每个操作232可以对应于从用户140接收并包括在输入转录212中的命令。VPA 118可以代表用户140响应于给定命令执行给定操作232或将该操作转给将代表用户140执行的另一***。例如但不限于，VPA 118可以将给定操作232转给图1B所示的车辆子***160中的一个。在一个实施方案中，响应生成器230可以基于输入转录212生成一组合格操作，然后基于情绪状态222选择这些操作的子集来执行。

响应生成器230还被配置为处理输入转录212和情绪状态222，以生成语义成分234。语义成分234包括文本数据，该文本数据被合成为输出132，随后被发送给用户140，如下文进一步描述。语义成分234可以包括在上下文上与输入转录212相关的词语、短语和/或句子。例如但不限于，语义成分234可以包括对从用户140接收到命令的确认。语义成分234还可以描述和/或引用操作232和/或执行那些操作的状态。例如但不限于，语义成分234可以包括响应于从用户 140接收到的命令而发起具体操作232的指示。

响应生成器230还被配置为处理输入转录212和情绪状态222，以便生成情绪成分236。情绪成分236指示从情绪状态222导出并在合成期间并入到输出132中的具体情绪质量和/或属性。例如但不限于，给定的情绪成分236可以包括应合成发声所处的以反映特定的情绪质量和/或属性的特定音高、音调、音色、音量、措辞速度和/或通知水平。

在各个实施方案中，响应生成器230被配置为生成语音响应，该语音响应尽管具有相同或相似的语义内容，但是可以基于各种言语水平而变化，诸如(i)合成语音的整体节奏、响度和音高，(ii)发声影响参数(其将在下面进行详细说明)；(iii)非口头和非语言发声、副语言呼吸 (例如，笑声、咳嗽、口哨声等)，以及(iv)非言语更改声音(例如，哔哔声、唧唧声、咔嗒声等)。这些语音响应的感知情绪效果不同，例如，可以用显得柔和、向用户扫荡、或鲁莽而突然的言语呈现相同的语义内容。感知的情绪效果中的这些变化可能通过使用具有柔和声与硬声、多音节节奏与突然节奏的词语而产生。例如，由诸如“l”、“m”和“n”以及由轻柔的多音节节奏增强的长元音或双音的声音被解释为比诸如“g”和“k”、短元音和突然节奏的硬声的词语为“更好”。声音象征领域(例如，如 http://grammar.about.com/od/rs/g/soundsymbolismterm.htm中所述)提供了各种启发法，这些启发法通过在言语中连接具有特定含义的特定声音序列来尝试灌输情感。如上所述的发声影响参数通常包括(i)音高参数(例如，口音形状、平均音高、轮廓斜率、最终降低和音高范围)， (ii)定时参数(例如，言语速率和重音频率)，(iii)语音质量参数(例如，呼吸、亮度、喉音、响度、暂停不连续性和音高连续性)，以及(iv)清晰度参数。语音输出除了可听言语之外，还可以包括非语言发声，诸如笑声、呼吸、犹豫(例如，“嗯”)和/或非口头的同意(例如，“啊哈”)

在一些实例中，给定的情绪成分236可以与情绪状态222互补或对齐。例如但不限于，如果情绪状态222指示用户140当前“高兴”，则情绪成分236可以包括通常与“高兴”相关联的特定语音音调。相反，给定的情绪成分236可以偏离情绪状态222。例如但不限于，如果情绪状态222指示用户140当前“生气”，则情绪成分236可以包括通常与“冷静”相关联的特定语音音调。图3A至图3B阐述了响应生成器230如何基于情绪状态222产生情绪成分236的各种示例。

在一个实施方案中，响应生成器230可以实施响应映射238，该响应映射将输入转录212和/或情绪状态222映射到一个或多个操作 232、一个或多个语义成分234和/或一个或多个情绪成分236。响应映射238可以是任何技术上可行的数据结构，基于该数据结构可以处理一个或多个输入以生成一个或多个输出。例如但不限于，响应映射 238可以包括人工神经网络、机器学习模型、一组启发法、一组条件语句和/或一个或多个查找表等。在各个实施方案中，可以从响应映射的基于云的存储库中获得响应映射238，该响应映射是由***100的不同实例为不同用户生成的。此外，可以使用下面更详细描述的技术来修改响应映射238，然后将其上传到基于云的存储库以供在*** 100的其他实例中使用。

响应生成器230将语义成分234和情绪成分236发送到输出合成器240。输出合成器240被配置为组合语义成分234和情绪成分 236以生成输出132。输出132通常采用合成发声的形式。输出合成器132经由输出装置130将输出132发送到用户140。通过以上技术，VPA118使用用户140的情绪状态，以便更有效地解释从用户 140接收的输入并响应于用户140更有效地生成发声。此外，VPA 118 可以基于用户140对给定输出132的响应进行适应，以改善可用性和与用户140的对接。

具体地，VPA 118被配置为捕获反映用户140响应于输出132执行的一个或多个行为的反馈242。然后，VPA 118更新情绪状态222 以反映观察到的用户140的任何行为变化。映射修改器250基于更新的情绪状态222评估一个或多个目标函数252，以量化输出132引起用户140的具体类型的行为变化的有效性。例如但不限于，给定的目标函数252可以基于情绪状态222是否表示用户140愉悦或不悦来量化将给定的输入转录212映射到特定的一组操作232的有效性。在另一示例中，但不限于，给定的目标函数可以基于情绪状态222指示感兴趣还是不感兴趣来量化在生成输出132时选择具体语义成分234 的有效性。在又一示例中，但不限于，给定的目标函数252可以量化在用户140处于“紧张”情绪状态时将“舒缓”音调并入到输出132中以使用户140平静的有效性。

一般来说，给定的目标函数252可以表示用户140的目标行为、用户140的目标情绪状态222、用户140的目标状态、与VPA 118对接的目标水平或可以基于反馈242评估的任何其他技术上可行的目标。在响应生成器230包括响应映射238的实施方案中，映射修改器250可以更新响应映射238，以改善后续输出132。以所述方式，VPA 118可以适应不同用户的具体个性和特质，因此随时间改善解释和与用户140对接。

情感状态的示例性表征与转换

图3A至图3B示出了根据各种实施方案的图1的VPA如何表征和转换用户的情绪状态的示例。如图3A所示，使用包括效价轴302、强度轴304和相对于这两个轴绘制的位置306的图300来定义情绪状态222。效价轴302定义了可以对应于不同类型的情绪(诸如“欢乐”、“高兴”、“愤怒”和“兴奋”等)的位置谱。强度轴304定义了与每种情绪类型相对应的强度范围。位置306对应于经由效价轴302阐述的特定类型的情绪以及表达该情绪的特定强度。在所示的示例中，位置306 对应于高水平的欢乐。

情绪分析器220基于先前描述的任何不同类型的分析来生成情绪状态222。然后，响应生成器230生成情绪成分236，该情绪成分相似地定义包括效价轴312和强度轴314的图310。图310还包括位置316，该位置表示在合成期间要包括在输出132中的情绪质量。在所示的示例中，与位置306类似，位置316对应于高水平的欢乐，并且因此以意在赞扬用户140的情绪状态222的情绪质量来生成输出 132。响应生成器230还可以生成与情绪状态222不同的情绪成分 236，如图3B所示。

现在参考图3B，情绪状态222包括对应于升高水平的沮丧的位置308。响应生成器230生成情绪成分236以包括对应于低水平的欢呼的位置318。因此，输出132以不同于情绪状态222的情绪质量生成，但是可以通过经由愉悦的发声减少用户140的沮丧来潜在地修改该情绪状态。

总体参考图3A至图3B，在各个实施方案中，响应生成器230可以实施响应映射238，以便将图300上的具***置映射到图310上的其他位置，从而实现上面通过示例描述的情绪状态222和情绪成分236之间的不同类型的转换。本领域技术人员将理解，除了结合图3A 至图3B描述的示例性技术之外，VPA 118可以实施任何技术上可行的方法来表征情绪状态和/或情绪成分。

如所讨论的，总体上***100并且具体地VPA 118可以集成到各种不同类型的***中，包括车辆。图4A至图5C阐述了示例性场景，其中***100被集成到车辆中，并且所公开的技术实现了更大的可用性，从而防止了用户140需要将注意力从驾驶中转移开。

示例性VPA交互

图4A至图4C示出了根据各种实施方案的图1的VPA如何对用户的情绪状态作出响应的示例。如图4A所示，***100被集成在用户140所驻留的车辆150内，也如图1B所示。用户140激动地声称他们如何忘记了牙医预约，并要求VPA 118(***100内)快速提供去看牙医的路线。VPA 118分析输入122并检测通常与兴奋和/或焦虑感相关联的具体发声特征。如图4B所示，VPA 118然后生成与检测到的兴奋水平匹配的输出132。具体地，VPA 118紧急地陈述已经定位好最快的路线，然后向用户140再保证他们将及时到达。随后，如图4C所示，用户140表示安心，VPA 118将安心处理为反馈242，以告知将来与用户140的交互。在此示例中，VPA 118通过表现出对用户140的情绪型响应来促进用户对接，从而鼓励用户140继续使用VPA 118，而不是亲自执行各种面向车辆的操作。

图5A至图5C阐述了根据各种实施方案的图1的VPA如何补偿用户的情绪状态的示例。在此示例中，VPA 118实施与用户140的情绪状态不同的情绪成分，以实现用户140的情绪状态的改变。如图5A 所示，用户140对不得不堵车驾驶表示烦恼。VPA 118分析输入122并检测通常与烦恼和/或沮丧相关联的具体发声特征。如图5B所示， VPA 118然后生成具有与这些特定感觉明显不同的情绪质量的输出 132。具体地，VPA 118消沉地道歉并承认没有其他可用的路线。随后，如图4C所示，用户140忘记了以前的烦恼感，并向VPA 118提供慰藉，VPA 118将慰藉作为反馈242处理，以告知将来与用户140 的交互。在此示例中，VPA 118通过表现出对用户140的情绪敏感来促进用户对接，从而鼓励用户140继续使用VPA 118，而不是亲自执行各种面向车辆的操作。

用于响应于用户情绪状态执行操作的程序

图6是根据各种实施方案的用于合成反映用户的情绪状态的发声的方法步骤的流程图。尽管结合图1至图5C的***描述了方法步骤，但是本领域技术人员将理解，被配置为以任何顺序执行方法步骤的任何***都落在本实施方案的范围内。

如图所示，方法600在步骤602处开始，其中VPA 118捕获指示与用户相关联的一个或多个行为的输入。VPA 118与图1所示的输入装置120交互以捕获输入。输入装置120可以包括被配置为捕获与用户相关联的不同类型的数据的各种不同类型的传感器，包括记录由用户发出的发声的音频捕获装置、记录描绘用户的图像和/或视频的光学捕获装置、测量用户的瞳孔扩张的瞳孔测量传感器、测量用户面部和/或身体中的血流的红外传感器、产生与用户相关联的每分钟心跳读数的心率传感器、测量用户的皮肤电导性变化的皮肤电反应传感器、检测用户的体核温度和/或体表温度的变化的体温传感器、检测不同脑波模式的脑波传感器等。可以处理任何和所有此类数据来确定用户的情绪状态，如下文更详细地描述。

在步骤604处，VPA 118基于该输入来确定用户的情绪状态。这样做，VPA 118实施情绪分析器220以处理任何以上类型的数据，以便将该数据和/或其处理的版本映射到用户的情绪状态。情绪分析器 220可以使用任何技术上可行的方法来定义用户的情绪状态。在一个实施方案中，情绪分析器220可以经由效价与强度数据集描述用户的情绪状态，诸如图3A至图3B所示。具体地，情绪分析器220分析与输入相关联的具体质量，诸如与用户发声相关联的音高、音色、音调和/或音量等，然后将这些质量映射到多维效价与强度空间内的特定位置。本领域技术人员将理解，VPA 118可以实施任何技术上可行的方法来生成指示在执行步骤604时用户的情绪状态的数据。

在步骤606处，VPA 118基于在步骤602处捕获的输入和在步骤 604处确定的情绪状态，确定代表用户执行的一个或多个操作。VPA 118实施响应生成器230以处理输入的转录以确定代表用户执行的一个或多个相关操作。例如，如果输入对应于播放音乐的命令，则VPA 118可以处理输入的转录，然后激活用户所驻留的车辆内的立体声***。VPA 118可以实施任何技术上可行的方法来生成输入的转录，包括言语到文本以及其他方法。在一些实施方案中，响应生成器230还可以基于在步骤606处确定的用户的情绪状态来选择一组相关的操作来执行。例如，如果用户处于“悲伤”的情绪状态，则VPA 118可以选择播放阴沉音乐的特定无线电台。

在步骤608处，VPA 118代表用户执行一个或多个操作，以帮助用户执行那些操作。在一些实施方案中，VPA 118可以通过执行所述一个或多个对应的子例程和/或软件功能来执行一个或多个操作。在其他实施方案中，VPA 118可以与另一***集成，并且VPA通过使该***执行那些操作来执行所述一个或多个操作。例如，如上所述，通过将VPA 118集成到车辆中的实现方式，VPA 118可以执行给定的操作以使车辆内的一个或多个子***执行给定的操作。在这样的实现方式中，VPA 118有利地代表用户执行与车辆相关联的操作，因此防止用户不得不将注意力从驾驶转移到亲自执行那些操作。

在步骤610处，VPA 118基于在步骤604处确定的情绪状态和在步骤606处确定的一个或多个操作来合成输出。VPA 118实施响应生成器230以生成输出的语义成分以及该输出的情绪成分。输出的语义成分包括以有意义的方式与所述一个或多个操作相关的一个或多个词语、短语和/或句子。例如，如果给定的操作与用于对车辆导航的一组导航指令有关，则输出的语义成分可以包括与第一导航指令相关联的语言。在一个实施方案中，响应生成器230可以生成输出的语义成分以具有从用户的情绪状态导出的情绪特征。输出的情绪成分可以指示从用户的情绪状态导出的意在引起用户的特定情绪响应的音高、音调、音色和/或音量的变化。输出的情绪成分还可以包括影响输出的语义成分如何传达给用户的其他因素，诸如传递速度、时机等。基于语义成分和情绪成分，输出合成器240生成输出，并经由输出装置130 将输出发送给用户。

在步骤612处，VPA 118观察用户响应于在步骤610处合成的输出的行为。VPA 118捕获描述与用户相关联的各种行为的任何上述类型的数据，以确定用户如何对输出作出响应。具体地，情绪分析器220 可以分析任何捕获的数据以确定用户的情绪状态如何响应于输出而改变。例如但不限于，情绪分析器220可以确定先前处于“沮丧”情绪状态的用户响应于包括“抚慰”情绪成分的输出而转变为“放松”情绪状态。

在步骤614处，VPA 118基于观察到的行为来修改响应生成器 230和/或其中包括的响应映射238。在一个实施方案中，VPA 118可以实施映射修改器250，以便评估一个或多个目标函数252并确定是否应修改响应生成器230和/或响应映射238。每个目标函数252可以反映用户的行为的目标集合、目标情绪状态、目标状态等。例如但不限于，目标函数252可以量化用户的幸福、连接性、生产率和/或欢乐，并且映射修改器250可以调整响应映射238以最大化这些目标中的一个或多个。映射修改器250可以评估每个目标函数252，以便确定观察到的行为对应于给定目标行为的程度，然后修改响应映射238 以增加用户表达目标行为的程度。VPA 118可以实施任何技术上可行的方法来量化给定行为的表达。

VPA 118实施方法600，以执行本文所述的各种特征中的一些或全部。尽管在一些实例中相对于车载实现方式描述了VPA 118，但是本领域技术人员将理解，所公开的技术如何在广泛的技术上可行的实现方式中赋予相对于现有技术的特定优点。一般来说，所公开的技术使VPA 118能够更有效、更准确地解释从用户接收的发声，并使VPA 118对用户产生更多的对话真实响应，从而与现有技术方法相比，实现明显更好的可用性。

总之，虚拟私人助理(VPA)被配置为分析指示与用户相关联的一个或多个行为的各种类型的输入。输入可以包括代表供VPA执行的显式命令的发声、从这些发声中导出的情绪状态以及与用户相关联的隐式非口头暗示，诸如面部表情和/或姿势改变等。VPA基于该输入来确定用户的情绪状态。VPA还基于输入和所确定的情绪状态来确定代表用户执行的一个或多个操作。然后，VPA执行所述一个或多个操作，并基于用户的情绪状态和所述一个或多个操作来合成输出。所合成的输出包括一个或多个语义成分以及从用户的情绪状态导出的一个或多个情绪成分。除了其他可能性之外，输出的情绪成分可以匹配用户的情绪状态或与用户的情绪状态形成对比。VPA观察用户响应于所合成输出的行为，然后基于观察到的行为实施各种修改，以改善与用户未来交互的有效性。

相对于现有技术，所公开的技术的至少一个技术优点是，所公开的技术使VPA能够基于用户的情绪状态更准确地确定代表用户执行的一个或多个操作。因此，当在车辆内实施时，所公开的VPA有助于防止用户将注意力从驾驶中转移开以与车辆特征交互，从而增加总体驾驶安全性。所公开的技术的另一技术优点是，所公开的技术使 VPA能够生成试图反映用户的情绪状态的对话性真实响应。对话性真实响应保持了用户与VPA的对接，因此减少了用户关闭VPA并手动与车辆特征进行交互的情况的数量，这增加了总体驾驶安全性。这些技术优点表示相对于现有技术方法的一个或多个技术进步。

1.一些实施方案包括一种用于在辅助用户的同时与所述用户交互的计算机实现的方法，所述方法包括：捕获指示与所述用户相关联的一个或多个行为的第一输入；基于所述第一输入确定所述用户的第一情绪状态；基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关；以及将所述第一发声输出给所述用户。

2.根据条款1所述的计算机实现的方法，其中所述用户驻留在捕获所述第一输入的车辆内，并且其中所述第一操作由所述车辆中包括的车辆子***代表所述用户执行。

3.根据条款1至2中任一项所述的计算机实现的方法，其还包括基于所述第一情绪状态来确定所述第一操作，并执行所述第一操作以辅助所述用户。

4.根据条款1至3中任一项所述的计算机实现的方法，其中确定所述用户的所述第一情绪状态包括确定所述第一输入的第一特征并确定与所述第一特征相对应的第一类型的情绪。

5.根据条款1至4中任一项所述的计算机实现的方法，其中所述第一输入包括音频输入，并且其中所述第一特征包括与所述用户相关联的语音音调。

6.根据条款1至5中任一项所述的计算机实现的方法，其中所述第一输入包括视频输入，并且其中所述第一特征包括由所述用户做出的面部表情。

7.根据条款1至6中任一项所述的计算机实现的方法，其中确定所述用户的所述第一情绪状态包括基于所述第一输入来确定指示情绪类型谱内的位置的第一效价值，并基于所述第一输入来确定第一强度值，所述第一强度值指示在强度范围内的与所述情绪类型谱内的所述位置相对应的位置。

8.根据条款1至7中任一项所述的计算机实现的方法，其中所述第一情绪成分对应于所述第一效价值和所述第一强度值。

9.根据条款1至8中任一项所述的计算机实现的方法，其中所述第一情绪成分对应于第二效价值或第二强度值中的至少一个。

10.根据条款1至9中任一项所述的计算机实现的方法，其还包括基于所述第一情绪状态和将情绪状态转换为情绪成分的响应映射来生成所述第一情绪成分。

11.一些实施方案包括存储程序指令的非暂时性计算机可读介质，所述程序指令在由处理器执行时使所述处理器通过执行以下步骤在辅助用户的同时与所述用户交互：捕获指示与所述用户相关联的一个或多个行为的第一输入；基于所述第一输入确定所述用户的第一情绪状态；基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关；以及将所述第一发声输出给所述用户。

12.根据条款11所述的非暂时性计算机可读介质，其中所述用户驻留在捕获所述第一输入的车辆内，并且其中所述第一操作由所述车辆中包括的车辆子***代表所述用户执行。

13.根据条款11至12中任一项所述的非暂时性计算机可读介质，其还包括基于所述第一情绪状态来确定所述第一操作并执行所述第一操作以辅助所述用户的步骤。

14.根据条款11至13中任一项所述的非暂时性计算机可读介质，其中确定所述用户的所述第一情绪状态的步骤包括确定所述第一输入的第一特征并确定与所述第一特征相对应的第一类型的情绪，其中所述第一特征包括与所述用户相关联的语音音调或所述用户做出的面部表情。

15.根据条款11至14中任一项所述的非暂时性计算机可读介质，其中确定所述用户的所述第一情绪状态的步骤包括基于所述第一输入来确定指示情绪类型谱内的位置的第一效价值，并基于所述第一输入来确定第一强度值，所述第一强度值指示在强度范围内的与所述情绪类型谱内的所述位置相对应的位置。

16.根据条款11至15中任一项所述的非暂时性计算机可读介质，其还包括基于所述第一情绪状态和将情绪状态转换为情绪成分的响应映射来生成所述第一情绪成分的步骤。

17.根据条款11至16中任一项所述的非暂时性计算机可读介质，其还包括捕获指示所述用户响应于所述输出而执行的至少一个行为的第二输入以及基于所述第二输入和第一目标函数来修改所述响应映射，所述第一目标函数被评估以确定所述至少一个行为与目标行为对应的紧密程度。

18.根据条款11至17中任一项所述的非暂时性计算机可读介质，其中生成所述第一发声的步骤包括将所述第一情绪成分与第一语义成分进行组合。

19.根据条款11至18中任一项所述的非暂时性计算机可读介质，其还包括生成所述第一输入的指示所述第一输入中包括的一个或多个语义成分的转录并基于所述一个或多个语义成分生成所述第一语义成分。

20.一些实施方案包括一种***，所述***包括存储软件应用程序的存储器以及处理器，所述处理器在执行所述软件应用程序时被配置为执行以下步骤：捕获指示与用户相关联的一个或多个行为的第一输入；基于所述第一输入确定所述用户的第一情绪状态；基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关；以及将所述第一发声输出给所述用户。

权利要求中任一项所述的权利要求要素和/或本申请中描述的任何要素中的任何一个的呈任何形式的任何和所有组合均落入本实施方案和保护的预期范围内。

各种实施方案的描述已经呈现以用于说明目的，而并非意在穷举或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。

本实施方案的各方面可体现为***、方法或计算机程序产品。因此，本公开的各方面可以采取完全硬件实施方案、完全软件实施方案 (包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施方案的形式，它们在本文中可以统称为“模块”、“***”或“计算机”。此外，本公开的各方面可采用计算机程序产品的形式，所述计算机程序产品在其上体现有计算机可读程序代码的一个或多个计算机可读介质中体现。

可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可为例如但不限于电子、磁性、光学、电磁、红外或半导体***、设备或装置或前述介质的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下项：具有一根或多根导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器 (ROM)、可擦可编程序只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述介质的任何合适的组合。在本文献的上下文中，计算机可读存储介质可为能够含有或存储供指令执行***、设备或装置使用或与其结合使用的程序的任何有形介质。

参考根据本公开的实施方案的方法、设备(***)和计算机程序产品的流程图图示和/或方框图来描述本公开的各方面。应理解，流程图图示和/或方框图中的每个方框以及流程图图示和/或方框图的方框组合能够通过计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。当经由计算机或其他可编程数据处理设备的处理器执行时，这些指令使得能够实现在一个或多个流程图和/或方框图方框中指定的功能/动作。这种处理器可为但不限于通用处理器、专用处理器、应用特定处理器或现场可编程门阵列。

附图中的流程图和方框图示出根据本公开的各种实施方案的***、方法和计算机程序产品的可能实现方式的体系结构、功能性和操作。在这个方面，流程图或方框图中的每个方框可表示代码的模块、区段或部分，所述代码包括用于实现指定逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现方式中，框中提到的功能可不按附图中提到的顺序出现。例如，实际上取决于所涉及的功能，可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行所述框。还应注意，方框图和/或流程图图示中的每个方框以及方框图和 /或流程图图示中的方框的组合能够由执行指定的功能或动作的基于专用硬件的***或者专用硬件和计算机指令的组合来实现。

虽然前述内容针对本公开的实施方案，但是可在不脱离本公开的基本范围的情况下设计出本公开的其他和更多实施方案，且所述范围由所附权利要求确定。

Claims

1.一种用于在辅助用户的同时与所述用户交互的计算机实现的方法，所述方法包括：

捕获指示与所述用户相关联的一个或多个行为的第一输入；

基于所述第一输入确定所述用户的第一情绪状态；

基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关；以及

将所述第一发声输出给所述用户。

2.根据权利要求1所述的计算机实现的方法，其中所述用户驻留在捕获所述第一输入的车辆内，并且其中所述第一操作由所述车辆中包括的车辆子***代表所述用户执行。

3.根据权利要求1所述的计算机实现的方法，其还包括：

基于所述第一情绪状态来确定所述第一操作；以及

执行所述第一操作以辅助所述用户。

4.根据权利要求1所述的计算机实现的方法，其中确定所述用户的所述第一情绪状态包括：

确定所述第一输入的第一特征；以及

确定与所述第一特征相对应的第一类型的情绪。

5.根据权利要求4所述的计算机实现的方法，其中所述第一输入包括音频输入，并且其中所述第一特征包括与所述用户相关联的语音音调。

6.根据权利要求4所述的计算机实现的方法，其中所述第一输入包括视频输入，并且其中所述第一特征包括由所述用户做出的面部表情。

7.根据权利要求1所述的计算机实现的方法，其中确定所述用户的所述第一情绪状态包括：

基于所述第一输入来确定指示情绪类型谱内的位置的第一效价值；以及

基于所述第一输入来确定第一强度值，所述第一强度值指示在强度范围内的与所述情绪类型谱内的所述位置相对应的位置。

8.根据权利要求7所述的计算机实现的方法，其中所述第一情绪成分对应于所述第一效价值和所述第一强度值。

9.根据权利要求7所述的计算机实现的方法，其中所述第一情绪成分对应于第二效价值或第二强度值中的至少一个。

10.根据权利要求1所述的计算机实现的方法，其还包括基于所述第一情绪状态和将情绪状态转换为情绪成分的响应映射来生成所述第一情绪成分。

11.一种存储程序指令的非暂时性计算机可读介质，所述程序指令在由处理器执行时使所述处理器通过执行以下步骤在辅助用户的同时与所述用户交互：

捕获指示与所述用户相关联的一个或多个行为的第一输入；

基于所述第一输入确定所述用户的第一情绪状态；

将所述第一发声输出给所述用户。

12.根据权利要求11所述的非暂时性计算机可读介质，其中所述用户驻留在捕获所述第一输入的车辆内，并且其中所述第一操作由所述车辆中包括的车辆子***代表所述用户执行。

13.根据权利要求11所述的非暂时性计算机可读介质，其还包括以下步骤：

基于所述第一情绪状态来确定所述第一操作；以及

执行所述第一操作以辅助所述用户。

14.根据权利要求11所述的非暂时性计算机可读介质，其中确定所述用户的所述第一情绪状态的步骤包括：

确定所述第一输入的第一特征；以及

确定与所述第一特征相对应的第一类型的情绪，其中所述第一特征包括与所述用户相关联的语音音调或所述用户做出的面部表情。

15.根据权利要求11所述的非暂时性计算机可读介质，其中确定所述用户的所述第一情绪状态的步骤包括：

16.根据权利要求11所述的非暂时性计算机可读介质，其还包括基于所述第一情绪状态和将情绪状态转换为情绪成分的响应映射来生成所述第一情绪成分的步骤。

17.根据权利要求16所述的非暂时性计算机可读介质，其还包括：

捕获指示所述用户响应于所述输出而执行的至少一个行为的第二输入；以及

基于所述第二输入和第一目标函数来修改所述响应映射，所述第一目标函数被评估以确定所述至少一个行为与目标行为对应的紧密程度。

18.根据权利要求11所述的非暂时性计算机可读介质，其中生成所述第一发声的步骤包括将所述第一情绪成分与第一语义成分进行组合。

19.根据权利要求18所述的非暂时性计算机可读介质，其还包括：

生成所述第一输入的指示所述第一输入中包括的一个或多个语义成分的转录；以及

基于所述一个或多个语义成分生成所述第一语义成分。

20.一种***，其包括：

存储器，其存储软件应用程序；以及

处理器，其在执行所述软件应用程序时，被配置为执行以下步骤：

捕获指示与用户相关联的一个或多个行为的第一输入，

基于所述第一输入确定所述用户的第一情绪状态，

基于所述第一情绪状态生成并入有第一情绪成分的第一发声，其中所述第一发声与正在执行以辅助所述用户的第一操作有关，以及

将所述第一发声输出给所述用户。