CN113238654A

CN113238654A - 基于多模态的反应式响应生成

Info

Publication number: CN113238654A
Application number: CN202110545116.3A
Authority: CN
Inventors: 宋睿华; 杜涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-10
Also published as: WO2022242706A1

Abstract

本公开提供了用于基于多模态的反应式响应生成的方法、***和装置。可以获得多模态输入数据。可以从所述多模态输入数据中提取至少一个信息元素。可以至少基于所述至少一个信息元素来生成至少一个参考信息项。可以至少利用所述至少一个参考信息项来产生多模态输出数据。可以提供所述多模态输出数据。

Description

基于多模态的反应式响应生成

背景技术

近年来，智能人机交互***被广泛地应用于越来越多的场景和领域，其能够有效地提升人机交互效率、优化人机交互体验。随着人工智能(AI)技术的发展，人机交互***也在例如智能会话***等方面取得了更为深入的发展。例如，智能会话***已经涵盖了任务对话、知识问答、开放域对话等应用场景，并且可以采用基于模板的技术、基于检索的技术、基于深度学习的技术等多种技术来实现。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于基于多模态的反应式响应生成的方法、***和装置。可以获得多模态输入数据。可以从所述多模态输入数据中提取至少一个信息元素。可以至少基于所述至少一个信息元素来生成至少一个参考信息项。可以至少利用所述至少一个参考信息项来产生多模态输出数据。可以提供所述多模态输出数据。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的基于多模态的反应式响应生成***的示例性架构。

图2示出了根据实施例的用于基于多模态的反应式响应生成的示例性过程。

图3示出了根据实施例的智能动画角色场景的实例。

图4示出了根据实施例的智能动画角色场景的示例性过程。

图5示出了根据实施例的智能动画生成的示例性过程。

图6示出了根据实施例的用于基于多模态的反应式响应生成的示例性方法的流程图。

图7示出了根据实施例的用于基于多模态的反应式响应生成的示例性装置。

图8示出了根据实施例的用于基于多模态的反应式响应生成的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

现有的人机交互***通常采用单一媒介来作为信息输入和输出的渠道，例如，通过文本、语音、手势等中之一进行人与机器或机器与机器之间的交流沟通。以智能会话***为例，尽管其可面向文本或语音，但是其仍然以文本处理或文本分析为核心。智能会话***在交互过程中缺少对交互对象在文本之外的例如面部表情、肢体动作等信息的考虑，也缺少对环境中的声音、光线等因素的考虑，致使在交互过程中存在较为普遍的问题。一方面的问题在于对信息的理解不够全面准确。人类在实际交流过程中，并不是单一地通过语言文本来表达自己的全部交流内容，而是往往也将语气、面部表情、肢体动作等作为表达或传递信息的重要渠道。例如，对于相同一句话，如果使用不同的语气或伴随不同的面部表情和肢体动作，则在不同的场合下其可能传达截然不同的语义。现有的以文本处理为核心的智能会话技术缺失了在交互过程中相当重要的这部分信息，由此导致对会话中的上下文信息的提取与应用变得十分困难。另一方面的问题在于对信息的表达不够生动。现有的智能会话技术在信息表达上主要是通过文本来进行的，而在支持语音识别和语音合成的情况下，也可以将输出文本转换为语音。然而，这样的信息传递渠道仍然是受限的，无法像人类一样综合地利用语言、面部表情、肢体动作等来全面准确地表达自身意图，从而导致难以展示生动活泼的拟人化表现。再一方面的问题在于现有的智能会话技术局限于对所接收到的输入会话消息做出响应，而无法自发地对各种环境因素做出反应。例如，现有的聊天机器人仅专注于对来自用户的会话消息做出响应，以便能够围绕来自用户的会话消息而进行聊天。

本公开的实施例提出了基于多模态的反应式(reaction)响应生成方案，其可以被实施在多种智能会话主体上，并且可以被广泛地应用于包括人机交互在内的多种场景中。在本文中，智能会话主体可以广泛地指能够在特定的应用场景中生成并呈现信息内容、提供交互功能等的AI产品形态，例如，聊天机器人、智能动画角色、虚拟主播、智能车机助理、智能客服、智能音箱等。根据本公开的实施例，智能会话主体可以基于多模态输入数据来产生多模态输出数据，其中，多模态输出数据是以反应式方式所生成的、将被呈现给用户的响应。

人与人之间自然的交流方式往往是多模态的。人类在彼此交流时，往往会综合考虑来自交流对象的语音、文字、面部表情、肢体动作等多种类型的信息，同时兼顾所处环境的场景、光线、声音甚至温度、湿度等信息。通过对这些多模态的信息的综合考虑，人类能够更加全面、准确、快速地理解交流对象所要表达的内容。同样地，在表达信息时，人类也会倾向于综合使用语音、面部表情、肢体动作等多模态的表达方式来更加准确、生动、全面地表达自身意图。

基于来自上述的人类交流方式的启发，在人机交互的场景下，自然、本真的人机交互方案也应该是多模态的。因此，本公开的实施例提出了基于多模态的人机交互方式。在本文中，交互可以广泛地指例如对信息、数据、内容等的理解和表达，而人机交互可以广泛地指在智能会话主体与交互对象之间的交互，例如，在智能会话主体与人类用户之间的交互、在智能会话主体之间的交互、智能会话主体对各种媒体内容或信息化数据的响应、等等。与现有的基于单一媒介的交互方式相比，本公开的实施例具有多种优势。在一个方面，可以实现更加准确地信息理解。通过对包括例如媒体内容、所采集的图像或音频、聊天会话、外界环境数据等多模态输入数据的综合处理，能够更加全面地收集和分析信息，减少信息缺失造成的误解，从而更加准确地理解交互对象的深层次意图。在一个方面，表达方式更为高效。通过以多种方式多模态地迭加表达信息，例如，在语音或文字的基础上迭加虚拟形象的面部表情和/或肢体动作或者其它动画序列等，可以更高效地表达信息和情感。在一个方面，智能会话主体的交互行为将更加生动。对多模态数据的理解与表达将使得智能会话主体更加拟人化，从而显著地提升用户体验。

此外，本公开的实施例可以使得智能会话主体模仿人类来对语音、文本、音乐、视频图像等多模态输入数据产生自然的反应，即，做出反应式响应。在本文中，智能会话主体的反应式响应并不局限于对来自例如用户的聊天消息所做出的反应，还可以涵盖对例如媒体内容、所采集的图像或音频、外界环境等各种输入数据所主动做出的反应。以智能会话主体充当智能动画角色来提供AI智能陪伴的场景为例，假设智能会话主体可以通过对应的虚拟形象来陪伴用户观看视频，则该智能会话主体不仅可以与用户进行直接交互，还可以对该视频中的内容自发地做出反应式响应，例如，该虚拟形象可以发出语音、做出面部表情、做出肢体动作、呈现文字等。从而，智能会话主体的行为将更加拟人化。

本公开的实施例提出了通用的基于多模态的反应式响应生成技术，通过集成和应用基于多模态的反应式响应生成***，智能会话主体可以高效快捷地获得多模态交互能力。通过根据本公开实施例的基于多模态的反应式响应生成技术，可以整合处理来自多种媒介渠道的多模态输入数据，并且能够更加准确有效地解读多模态输入数据所表达的意图。此外，通过根据本公开实施例的基于多模态的反应式响应生成技术，智能会话主体可以经由多种渠道来提供多模态输出数据以表达整体一致的信息，由此提升了信息表达的准确度和效率，使得智能会话主体的信息表达更加生动有趣，从而显著地改善了用户体验。

根据本公开实施例的基于多模态的反应式响应生成技术可以被自适应地应用于多种场景中。基于不同场景所支持的输入和输出能力，本公开的的实施例可以在不同场景中获得对应的多模态输入数据，并且输出适合于特定场景的多模态输出数据。以为充当智能动画角色的智能会话主体自动地生成动画的场景为例，本公开的实施例可以为智能动画角色的虚拟形象生成包括例如动画序列等的反应式响应。例如，在该智能动画角色被应用于陪伴用户观看视频的情况下，智能动画角色能够综合处理来自视频内容、采集的图像或音频、聊天会话、外界环境数据等的多模态输入数据，对多模态输入数据进行深度感知和理解，并且相应地以智能且动态的方式通过例如语音、文字、包含面部表情和/或肢体动作的动画序列等多种模态来做出合理的反应，从而实现全面、高效、生动的人机交互体验。智能动画角色的感知能力和情绪表达能力得到极大增强，并且智能动画角色变得更加拟人化。这也可以成为通过AI技术进行例如智能动画内容创作的技术基础。

以上仅仅对本公开实施例在智能动画角色场景中的应用进行了示例性说明，本公开的实施例还可以应用于多种其它场景。例如，在智能会话主体是聊天机器人的场景下，该聊天机器人可以与用户进行诸如语音、文字、视频等形式的聊天，则本公开的实施例所处理的多模态输入数据可以包括例如聊天会话、采集的图像或音频、外界环境数据等，并且所提供的多模态输出数据可以包括例如语音、文字、动画序列等。例如，在智能会话主体是虚拟主播的场景下，该虚拟主播可以具有对应的虚拟形象并且向多个用户播放和解说预定的媒体内容，则本公开的实施例所处理的多模态输入数据可以包括例如所播放的媒体内容、外界环境数据等，并且所提供的多模态输出数据可以包括例如语音、文字、虚拟形象的动画序列等。例如，在智能会话主体是智能车机助理的场景下，该智能车机助理可以在用户驾驶交通工具(例如，车辆)期间提供辅助或陪伴，则本公开的实施例所处理的多模态输入数据可以包括例如聊天会话、采集的图像或音频、外界环境数据等，并且所提供的多模态输出数据可以包括例如语音、文字等。例如，在智能会话主体是智能客服的场景下，该智能客服可以为顾客提供诸如问题解答、产品信息提供等交互，则本公开的实施例所处理的多模态输入数据可以包括例如聊天会话、外界环境数据等，并且所提供的多模态输出数据可以包括例如语音、文字、动画等。例如，在智能会话主体是智能音箱的场景下，该智能音箱中的语音助理或聊天机器人可以与用户进行交互、播放音频内容等，则本公开的实施例所处理的多模态输入数据可以包括例如所播放的音频内容、聊天会话、采集的音频、外界环境数据等，并且所提供的多模态输出数据可以包括例如语音等。应当理解，除了上述这些示例性场景，本公开的实施例还可以应用于任何其它场景。

图1示出了根据实施例的基于多模态的反应式响应生成***100的示例性架构。***100可以支持智能会话主体在不同的场景中做出基于多模态的反应式响应。智能会话主体可以实施或驻留在终端设备或任何用户可访问的设备或平台上。

***100可以包括多模态数据输入接口110，其用于获得多模态输入数据。多模态数据输入接口110可以从多种数据源处收集多种类型的输入数据。例如，在向用户播放目标内容的情况下，多模态数据输入接口110可以收集到该目标内容的例如图像、音频、弹幕文件等数据。在本文中，目标内容可以广泛地指在设备上播放或呈现给用户的各种媒体内容，例如，视频内容、音频内容、图片内容、文字内容等。例如，在智能会话主体可以与用户进行聊天的情况下，多模态数据输入接口110可以获得关于聊天会话的输入数据。例如，多模态数据输入接口110可以通过终端设备上的摄像头和/或麦克风来采集用户周围的图像和/或音频。例如，多模态数据输入接口110还可以从第三方应用或任何其它信息源处获得外界环境数据。在本文中，外界环境数据可以广泛地指终端设备或用户所处于的真实世界中的各种环境参数，例如，关于天气、温度、湿度、行进速度等的数据。

多模态数据输入接口110可以将所获得的多模态输入数据112提供给***100中的核心处理单元120。核心处理单元120提供反应式响应生成所需要的各种核心处理能力。基于处理阶段和类型，核心处理单元120可以进而包括多个处理模块，例如，数据整合处理模块130、场景逻辑处理模块140、多模态输出数据生成模块150等。

数据整合处理模块130可以从多模态输入数据112中提取不同类型的多模态的信息，所提取的多模态的信息可以是在特定场景和时序条件下而处于同一上下文环境中的。在一种实现方式中，数据整合处理模块130可以从多模态输入数据112中提取一个或多个信息元素132。在本文中，信息元素可以广泛地指从原始数据中提取的计算机可理解的信息或信息表示。在一个方面，数据整合处理模块130可以从多模态输入数据112所包括的目标内容中提取信息元素，例如，从目标内容的图像、音频、弹幕文件等中提取信息元素。示例性地，从目标内容的图像中提取的信息元素可以包括例如人物特征、文本、图像光线、物体等，从目标内容的音频中提取的信息元素可以包括例如音乐、语音等，从目标内容的弹幕文件中提取的信息元素可以包括例如弹幕文本等。在本文中，音乐可以广泛地指歌曲演唱、器乐演奏或者其组合，语音可以广泛地指讲话的声音。在一个方面，数据整合处理模块130可以从多模态输入数据112所包括的聊天会话中提取信息元素，例如，消息文本。在一个方面，数据整合处理模块130可以从多模态输入数据112所包括的采集的图像中提取例如对象特征等信息元素。在一个方面，数据整合处理模块130可以从多模态输入数据112所包括的采集的音频中提取例如语音、音乐等信息元素。在一个方面，数据整合处理模块130可以从多模态输入数据112所包括的外界环境数据中提取例如外界环境信息等信息元素。

场景逻辑处理模块140可以至少基于信息元素132来生成一个或多个参考信息项142。在本文中，参考信息项可以广泛地指基于各种信息元素所生成的、供***100在产生多模态输出数据时所参考的各种引导性信息。在一个方面，参考信息项142可以包括情感标签，该情感标签可以引导多模态输出数据所要呈现或基于的情感。在一个方面，参考信息项142可以包括动画标签，在多模态输出数据将要包括动画序列的情况下，该动画标签可以用于选择所要呈现的动画。在一个方面，参考信息项142可以包括评论文本，该评论文本可以是针对例如目标内容的评论，以便表达智能会话主体自己对于目标内容的观点或评价等。在一个方面，参考信息项142可以包括聊天响应文本，该聊天响应文本可以是对来自聊天会话的消息文本的响应。应当理解，可选地，场景逻辑处理模块140还可以在生成参考信息项142的过程中考虑更多其它因素，例如，场景特定情感、智能会话主体的预设个性、智能会话主体的预设角色等。

多模态输出数据生成模块150可以至少利用参考信息项142来产生多模态输出数据152。多模态输出数据152可以包括多种类型的输出数据，例如，语音、文字、动画序列等。多模态输出数据152所包括的语音可以是例如与评论文本或聊天响应文本相对应的语音，多模态输出数据152所包括的文字可以是例如与评论文本或聊天响应文本相对应的文字，多模态输出数据152所包括的动画序列可以是例如智能会话主体的虚拟形象的动画序列。应当理解，可选地，多模态输出数据生成模块150还可以在生成多模态输出数据152的过程中考虑更多其它因素，例如，场景特定需求等。

***100可以包括多模态数据输出接口160，其用于提供多模态输出数据152。多模态数据输出接口160可以支持向用户提供或呈现多种类型的输出数据。例如，多模态数据输出接口160可以经由显示屏幕来呈现文字、动画序列等，并且可以经由扬声器来播放语音等。

应当理解，以上描述的基于多模态的反应式响应生成***100的架构仅仅是示例性的，根据实际的应用需求和设计，***100可以包括更多或更少的组件单元或模块。此外，应当理解，***100可以是通过硬件、软件或其组合来实现的。例如，在一种情况下，多模态数据输入接口110、核心处理单元120以及多模态数据输出接口160可以是基于硬件实现的单元，例如，核心处理单元120可以是由具有数据处理能力的处理器、控制器等实现的，而多模态数据输入接口110和多模态数据输出接口160可以是通过具有数据输入/输出能力的硬件接口单元实现的。例如，在一种情况下，***100中所包括的单元或模块也可以是通过软件或程序来实现的，从而这些单元或模块可以是软件单元或软件模块。此外，应当理解，***100所包括的单元和模块可以被实施在终端设备处、或者可以被实施在网络设备或平台处、或者可以一部分被实施在终端设备处而另一部分被实施在网络设备或平台处。

图2示出了根据实施例的用于基于多模态的反应式响应生成的示例性过程200。过程200中的步骤或处理可以由例如图1中的基于多模态的反应式响应生成***中的对应单元或模块来执行。

在210处，可以获得多模态输入数据212。示例性地，基于不同的应用场景，多模态输入数据212可以包括例如目标内容的图像、目标内容的音频、目标内容的弹幕文件、聊天会话、采集的图像、采集的音频、外界环境数据等中的至少一个。例如，在存在目标内容的场景下，例如，智能动画角色场景、虚拟主播场景等，可以在210处获得目标内容的图像、音频、弹幕文件等数据。例如，在智能会话主体支持聊天功能的场景下，可以在210处获得关于聊天会话的数据，其包括该聊天会话中的聊天记录等。例如，在实施了智能会话主体的终端设备具有摄像头或麦克风的场景下，可以在210处获得通过摄像头所采集的图像、通过麦克风所采集的音频等数据。例如，在智能会话主体具有获取外界环境数据的能力的场景下，可以在210处获得各种外界环境数据。应当理解，多模态输入数据212并不局限于以上描述的示例性输入数据。

在220处，可以从多模态输入数据212中提取一个或多个信息元素222。取决于多模态输入数据212中所包括的具体的输入数据，可以分别从这些输入数据中提取对应的信息元素。

在多模态输入数据212包括目标内容的图像的情况下，可以从目标内容的图像中提取人物特征。以目标内容是在终端设备上播放的演唱会视频为例，可以从该视频的图像中提取演唱者的各种人物特征，例如，面部表情、肢体动作、服装颜色等。应当理解，本公开的实施例并不局限于任何特定的人物特征提取技术。

在多模态输入数据212包括目标内容的图像的情况下，可以从目标内容的图像中识别文本。在一种实现方式中，可以通过例如光学符号识别(OCR)等文本识别技术来从图像中识别文本。仍然以目标内容是演唱会视频为例，该视频中的某些图像可能包含音乐信息，例如，歌曲名、作词人、作曲人、演唱者、演奏者等，因此，可以通过文本识别来获得这些音乐信息。应当理解，本公开的实施例并不局限于通过OCR技术来识别文本，而是可以采用任何其它文本识别技术。此外，从目标内容的图像中所识别的文本也并不局限于音乐信息，还可以包括任何其它指示了与图像中所发生的事件相关的信息的文本，例如，字幕、歌词等。

在多模态输入数据212包括目标内容的图像的情况下，可以从目标内容的图像中检测图像光线。图像光线可以指图像所呈现的画面内的环境光线特性，例如，明亮、暗淡、阴森、闪烁等。仍然以目标内容是演唱会视频为例，假设演唱者正在演唱欢快风格的歌曲，则演唱会现场的舞台可能采用了明亮的灯光，从而，可以从这些图像中检测出图像光线为明亮。应当理解，本公开的实施例并不局限于任何特定的图像光线检测技术。

在多模态输入数据212包括目标内容的图像的情况下，可以从目标内容的图像中识别物体。所识别的物体可以是例如在图像中的代表性物体、在图像中的显著或重要位置出现的物体、在图像中与人物关联的物体等，例如，所识别的物体可以包括道具、背景陈设等。仍然以目标内容是演唱会视频为例，假设演唱者在演唱歌曲的同时弹奏挎在身上的吉他，则可以从图像中识别出物体“吉他”。应当理解，本公开的实施例并不局限于任何特定的物体识别技术。

在多模态输入数据212包括目标内容的音频的情况下，可以从目标内容的音频中提取音乐。该目标内容本身可以是音频，例如，在终端设备上向用户播放的歌曲，相应地，可以从该音频中提取对应于该歌曲的音乐。此外，该目标内容也可以是视频，例如演唱会视频，相应地，可以从该视频所包含的音频中提取音乐。在本文中，音乐可以广泛地包括例如由乐器所演奏的乐曲、由演唱者所演唱的歌曲、由专用设备或配音员所产生的特效音、等等。所提取的音乐可以是背景音乐、前景音乐等。此外，音乐提取可以广泛地指例如获得与音乐相对应的声音文件、声波数据等。应当理解，本公开的实施例并不局限于任何特定的音乐提取技术。

在多模态输入数据212包括目标内容的音频的情况下，可以从目标内容的音频中提取语音。在本文中，语音可以指讲话的声音。例如，当目标内容包括人物或角色的交谈、演说、点评等时，可以从目标内容的音频中提取出对应的语音。语音提取可以广泛地指例如获得与语音相对应的声音文件、声波数据等。应当理解，本公开的实施例并不局限于任何特定的语音提取技术。

在多模态输入数据212包括目标内容的弹幕文件的情况下，可以从目标内容的弹幕文件中提取弹幕文本。在一些情况下，一些视频播放应用或播放平台支持视频的不同观看者通过弹幕的形式来发送自己的评论、感受等，这些评论、感受等可以被作为弹幕文本而被包含在附加到视频的弹幕文件中，因此，可以从弹幕文件中提取弹幕文本。应当理解，本公开的实施例并不局限于任何特定的弹幕文本提取技术。

在多模态输入数据212包括聊天会话的情况下，可以从聊天会话中提取消息文本。消息文本可以包括例如由智能会话主体所发送的聊天消息的文本、由至少另一聊天参与方所发送的聊天消息的文本等。在聊天会话是以文本方式进行的情况下，可以直接从聊天会话中提取消息文本，而在聊天会话是以语音方式进行的情况下，可以通过语音识别技术来将聊天会话中的语音消息转换为消息文本。应当理解，本公开的实施例并不局限于任何特定的消息文本提取技术。

在多模态输入数据212包括采集的图像的情况下，可以从采集的图像中提取对象特征。对象特征可以广泛地指在采集的图像中出现的对象的各种特征，所述对象可以包括例如人物、物体等。例如，在通过电脑摄像头而采集到电脑使用者的图像的情况下，可以从该图像中提取关于该使用者的各种特征，例如面部表情、肢体动作等。例如，在通过汽车上安装的摄像头而采集到汽车前方图像的情况下，可以从该图像中提取关于例如前方车辆、交通标识、路侧建筑等的各种特征。应当理解，本公开的实施例并不局限于从采集的图像中提取以上示例性的对象特征，而是还可以提取任何其它的对象特征。此外，本公开的实施例也并不局限于任何特定的对象特征提取技术。

在多模态输入数据212包括采集的音频的情况下，可以从采集的音频中提取语音和/或音乐。与上述的从目标内容的音频中提取语音、音乐等的方式相类似地，可以从采集的音频中提取语音、音乐等。

在多模态输入数据212包括外界环境数据的情况下，可以从外界环境数据中提取外界环境信息。例如，可以从关于天气的数据中提取具体的天气信息，可以从关于温度的数据中提取具体的温度信息，可以从关于行进速度的数据中提取具体的速度信息，等等。应当理解，本公开的实施例并不局限于任何特定的外界环境信息提取技术。

应当理解，以上描述的从多模态输入数据212中所提取的信息元素都是示例性的，本公开的实施例还可以提取任何其它类型的信息元素。此外，所提取的信息元素可以是在特定场景和时序条件下而处于同一上下文环境中的，例如，这些信息元素可以是在时序上对准的，相应地，可以在不同的时间点处提取不同的信息元素组合。

在230处，可以至少基于信息元素222来生成一个或多个参考信息项232。

根据本公开的实施例，在230处所生成的参考信息项232可以包括情感标签。情感标签可以指示例如情感类型、情感等级等。本公开的实施例可以涵盖任意数量的预定情感类型，以及为每种情感类型定义的任意数量的情感等级。示例性的情感类型可以包括例如高兴、伤心、愤怒等，示例性的情感等级可以按照情感强烈程度从低到高而包括1级、2级、3级等。相应地，如果在230处确定了情感标签<高兴，2级>，则表明信息元素222整体上表达出了高兴的情感并且情感等级为中等水平的2级。应当理解，以上仅仅为了便于解释而给出了示例性的情感类型、示例性的情感等级及其表达方式，本公开的实施例还可以采用更多或更少的任何其它情感类型以及任何其它情感等级，并且可以采用任何其它表达方式。

可以首先针对每一种信息元素确定各自所表达的情感，然后综合考虑这些情感以确定最终的情感类型和情感等级。例如，可以首先生成与信息元素222中的一个或多个信息元素分别对应的一个或多个情感表示，然后至少基于这些情感表示来生成最终的情感标签。在本文中，情感表示可以指对情感的信息化表示，其可以采用例如情感向量、情感标签等形式。情感向量可以包括用于表示情感分布的多个维度，每个维度对应于一种情感类型，并且每个维度上的值表明对应情感类型的预测概率或权重。

在信息元素222包括从目标内容的图像中所提取的人物特征的情况下，可以利用例如预先训练的机器学习模型来生成与该人物特征对应的情感表示。以人物特征中的面部表情为例，可以采用例如用于面部情感识别的卷积神经网络模型来预测对应的情感表示。类似地，该卷积神经网络模型也可以被训练为进而综合考虑人物特征中可能包含的例如肢体动作等其它特征来预测情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与人物特征对应的情感表示的技术。

在信息元素222包括从目标内容的图像中所识别的文本的情况下，以该文本是音乐信息为例，可以基于该音乐信息在预先建立的音乐数据库中检索与该音乐对应的情感信息，从而形成情感表示。音乐数据库可以包括预先收集的大量音乐的音乐信息以及对应的情感信息、音乐类型、背景知识、聊天语料等。音乐数据库可以是按照例如歌曲名、演唱者、演奏者等各种音乐信息来建立索引的，从而，可以基于音乐信息来从音乐数据库中找到与特定音乐对应的情感信息。可选地，由于不同的音乐类型也通常可以指示不同的情感，因此，也可以将从音乐数据库中找到的音乐类型用于形成情感表示。此外，以所识别的文本是图像中的人物所讲话语的字幕为例，可以利用预先训练的机器学习模型来生成与该字幕对应的情感表示。该机器学习模型可以是例如基于卷积神经网络的情感分类模型。应当理解，本公开的实施例并不局限于任何特定的确定与从目标内容的图像中所识别的文本对应的情感表示的技术。

在信息元素222包括从目标内容的图像中所识别的物体的情况下，可以基于预先建立的机器学习模型或者预先设定的启发式规则来确定与该物体对应的情感表示。在一些情况下，图像中的物体也可以有助于表达情感。例如，如果在图像中显示在舞台上布置了用于烘托气氛的多个红色摆件，则从图像中所识别出的这些红色摆件可以有助于确定出例如高兴或喜悦的情感。应当理解，本公开的实施例并不局限于任何特定的确定与从目标内容的图像中所识别的物体对应的情感表示的技术。

在信息元素222包括从目标内容的音频中所提取的音乐的情况下，可以通过多种方式来确定或生成与该音乐对应的情感表示。在一种方式中，如果已经识别出了音乐信息，则可以基于音乐信息来从音乐数据库中找到与该音乐对应的情感信息，从而形成情感表示。在一种方式中，可以利用预先训练的机器学***均能量(AE)，表示为

其中，x是离散的音频输入信号，t是时间，N是输入信号x的数量。音乐特征还可以包括从音乐中提取的以节拍数量和/或节拍间隔的分布来表示的节奏特征。可选地，音乐特征也可以包括上述的利用音乐信息所获得的与该音乐对应的情感信息。可以基于上述的一种或多个音乐特征来训练机器学习模型，以使得经训练的机器学习模型能够预测音乐的情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与从目标内容的音频中所提取的音乐对应的情感表示的技术。

在信息元素222包括从目标内容的音频中所提取的语音的情况下，可以利用预先训练的机器学习模型来生成与该语音对应的情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与从目标内容的音频中所提取的语音对应的情感表示的技术。

在信息元素222包括从目标内容的弹幕文件中所提取的弹幕文本的情况下，可以利用预先训练的机器学习模型来生成与该弹幕文本对应的情感表示。该机器学习模型可以是例如基于卷积神经网络的情感分类模型，表示为CNN_sen。假设将弹幕文本中的词语表示为[d₀,d₁,d₂,…]，则可以通过情感分类模型CNN_sen来预测出与该弹幕文本对应的情感向量，表示为[s₀,s₁,s₂,…]＝CNN_sen[d₀,d₁,d₂,…]，其中，情感向量[s₀,s₁,s₂,…]中的每个维度对应一个情感类别。应当理解，本公开的实施例并不局限于任何特定的确定与从目标内容的弹幕文件中所提取的弹幕文本对应的情感表示的技术。

在信息元素222包括从聊天会话中所提取的消息文本的情况下，可以利用预先训练的机器学习模型来生成与该消息文本对应的情感表示。该机器学习模型可以是与上述的用于生成与弹幕文本对应的情感表示的机器学习模型相类似的方式来建立的。应当理解，本公开的实施例并不局限于任何特定的确定与从聊天会话中所提取的消息文本对应的情感表示的技术。

在信息元素222包括从采集的图像中所提取的对象特征的情况下，可以利用预先训练的机器学习模型来生成与该对象特征对应的情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与从采集的图像中所提取的对象特征对应的情感表示的技术。

在信息元素222包括从采集的音频中所提取的语音和/或音乐的情况下，可以生成与该语音和/或音乐对应的情感表示。可以通过与上述的确定与从目标内容的音频中所提取的语音和/或音乐对应的情感表示相类似的方式，来生成与从采集的音频中所提取的语音和/或音乐对应的情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与从采集的音频中所提取的语音和/或音乐对应的情感表示的技术。

在信息元素222包括从外界环境数据中所提取的外界环境信息的情况下，可以基于预先建立的机器学习模型或者预先设定的启发式规则来确定与该外界环境信息对应的情感表示。以外界环境信息为“阴雨”天气为例，由于人们往往在阴雨天气中表现出略微忧伤的情感，因此，可以从该外界环境信息中确定出对应于忧伤情感的情感表示。应当理解，本公开的实施例并不局限于任何特定的确定与从外界环境数据中所提取的外界环境信息对应的情感表示的技术。

在按照以上描述而生成了与信息元素222中的一个或多个信息元素分别对应的一个或多个情感表示之后，可以至少基于这些情感表示来生成最终的情感标签。该最终的情感标签可以被理解为指示了通过综合考虑多种信息元素而确定的整体情感。可以通过各种方式来从多个情感表示形成情感标签。例如，在情感表示采用了情感向量的情况下，可以对多个情感表示进行叠加以获得总情感向量，并且从总情感向量中的情感分布中导出情感类型和情感等级以形成最终的情感标签。例如，在情感表示采用了情感标签的情况下，可以基于预定规则来从与多个信息元素对应的多个情感标签中计算、选择或确定出最终的情感标签。应当理解，本公开的实施例并不局限于任何特定的基于多个情感表示来生成情感标签的方式。

应当理解，尽管以上讨论涉及到在230处可以首先生成与多个信息元素分别对应的多个情感表示，然后基于这些情感表示来生成情感标签，但是，替代地，本公开的实施例也可以直接基于多个信息元素来生成情感标签。例如，可以预先训练一个机器学习模型，该模型可以被训练为将多个信息元素作为多个输入特征并且相应地预测情感标签。从而，经训练的该模型可以用于直接基于信息元素222来生成情感标签。

根据本公开的实施例，在230处所生成的参考信息项232可以包括动画标签。在多模态输出数据将要包括智能会话主体的虚拟形象的动画序列的情况下，该动画标签可以用于选择所要呈现的动画。动画标签可以指示虚拟形象的例如面部表情类型、肢体动作类型等至少之一或其组合。面部表情可以包括例如微笑、大笑、眨眼、撇嘴、说话等，肢体动作可以包括例如向左转、挥手、摆动身体、舞蹈动作等。

可以根据预定规则，将至少一个信息元素222映射为动画标签。例如，可以预先定义多种动画标签，并且预先定义大量的从信息元素集合到动画标签的映射规则，其中，信息元素集合可以包括一个或多个信息元素。从而，在给定包括一个或多个信息元素的信息元素集合时，可以参考预先定义的映射规则，基于该信息元素集合中的一个信息元素或者多个信息元素的组合来确定出对应的动画标签。一种示例性的映射规则为：当从目标内容的图像中所提取的人物特征指示了人物的唱歌动作，并且弹幕文本包括例如“好听”、“陶醉”等关键词语，则可以将这些信息元素映射为例如“闭上双眼”、“摆动身体”等动画标签，以使得虚拟形象可以表现出例如陶醉地倾听歌曲的行为。一种示例性的映射规则为：当从目标内容的音频中所提取的语音指示人们在争吵，弹幕文本包括例如“噪音”、“不想听”等关键词语，并且从聊天会话中所提取的消息文本包括表明用户的厌恶情感的关键词语，则可以将这些信息元素映射为例如“用手捂住耳朵”、“摇头”等动画标签，以使得虚拟形象可以表现出例如不想听到争吵的行为。一种示例性的映射规则为：当从目标内容的图像中所检测的图像光线指示了快速的明暗变化，从目标内容的图像中所识别的物体为吉他，并且从目标内容的音频中所提取的音乐指示了快节奏的乐曲，则可以将这些信息元素映射为例如“弹吉他”、“快节奏舞蹈动作”等动画标签，以使得虚拟形象可以表现出例如随着热烈的乐曲而弹琴跳舞的行为。应当理解，以上仅仅列出了几种示例性的映射规则，本公开的实施例还可以定义大量的任何其它映射规则。

此外，可选地，动画标签也可以是进一步基于情感标签来生成的。例如，可以将情感标签与信息元素一起用于定义映射规则，从而，可以基于信息元素和情感标签的组合来确定对应的动画标签。此外，可选地，也可以定义从情感标签到动画标签的直接映射规则，从而，在生成了情感标签后，可以参考所定义的映射规则而直接基于情感标签确定出对应的动画标签。例如，可以定义从情感标签<悲伤，2级>到“大哭”、“用手擦眼泪”等动画标签的映射规则。

根据本公开的实施例，在230处所生成的参考信息项232可以包括评论文本。评论文本可以是针对例如目标内容的评论，以便表达智能会话主体自己对于目标内容的观点或评价等。可以从目标内容的弹幕文本中选择评论文本。示例性地，可以利用基于双塔模型所构建的评论生成模型来从弹幕文本中选择评论文本。目标内容的弹幕文本可以与目标内容的图像和/或音频在时间上对齐，其中，在时间上对齐可以指位于相同的时刻处或者处于相同的时间段内。在特定时刻处的弹幕文本可能包括多个语句，这些语句可以是不同观看者对目标内容在该时刻或邻近时间段内的图像和/或音频的评论。在每个时刻处，评论生成模型可以从对应的弹幕文本中选择适合的语句，以作为针对目标内容在该时刻处或邻近时间段内的图像和/或音频的评论文本。例如，可以利用双塔模型来确定在目标内容的弹幕文本中的语句与目标内容的图像和/或音频之间的匹配度，并且从弹幕文本中选择匹配度最高的语句作为评论文本。评论生成模型可以包括例如两个双塔模型。对于弹幕文本中的一个语句，一个双塔模型可以用于基于输入的目标内容图像和该语句来输出第一匹配度分数，以表示在该图像与该语句之间的匹配程度，而另一个双塔模型可以用于基于输入的目标内容音频和该语句来输出第二匹配度分数，以表示在该音频与该语句之间的匹配程度。可以对第一匹配度分数和第二匹配度分数进行任意方式的组合以便得到该语句的综合匹配度分数。在获得了弹幕文本的多个语句的多个综合匹配度分数后，可以选择匹配度分数最高的语句作为对当前图像和/或音频的评论文本。应当理解，上述的评论生成模型的结构仅仅是示例性的，该评论生成模型也可以仅包括两个双塔模型中的一个双塔模型，或者基于任何其它被训练用于确定弹幕文本的语句与目标内容的图像和/或音频之间的匹配度的模型。

根据本公开的实施例，如果智能会话主体正在聊天会话中与至少另一聊天参与方进行聊天，则在230处所生成的参考信息项232也可以包括聊天响应文本。另一聊天参与方可以是例如用户、其它智能会话主体等。在获得了来自另一聊天参与方的消息文本后，可以通过聊天引擎，至少基于该消息文本来生成对应的聊天响应文本。

在一种实现方式中，可以采用任何通用的聊天引擎来生成聊天响应文本。

在一种实现方式中，聊天引擎可以至少基于情感标签来生成聊天响应文本。例如，聊天引擎可以被训练为至少基于输入的消息文本和情感标签来生成聊天响应文本，从而，使得聊天响应文本至少是在情感标签所指示的情感的影响下来生成的。

在一种实现方式中，智能会话主体可以在聊天会话中表现出情感延续的特性，例如，智能会话主体的响应并不仅仅受到当前接收到的消息文本的情感的影响，还受到智能会话主体自己当前所处于的情感状态的影响。作为示例，假设智能会话主体当前处于高兴的情感状态，则尽管接收到的当前消息文本可能具有或导致例如愤怒等负面情感，智能会话主体也并不会由于该当前消息文本而立刻给出具有愤怒情感的响应，而是可能仍然保持高兴情感或仅仅略微降低高兴情感的情感等级。与此不同，现有的聊天引擎通常仅针对当前轮次的会话或仅根据当前接收到的消息文本来确定响应的情感类型，从而响应的情感类型可能随着接收到的消息文本而频繁地变化，这并不符合人类在聊天时通常处于较为平稳的情感状态而并不会频繁改变情感状态的行为。本公开实施例所提出的在聊天会话中具有情感延续特性的智能会话主体将会更加拟人化。为了实现在聊天会话中的情感延续特性，聊天引擎可以至少基于来自情感转移网络的情感表示来生成聊天响应文本。该情感转移网络用于建模动态的情感变换，其既可以保持平稳的情感状态，也可以响应于当前接收到的消息文本而对情感状态做出适当的调整或更新。例如，情感转移网络可以将当前情感表示与当前接收到的消息文本作为输入，并且输出经更新的情感表示，其中，当前情感表示可以是例如对智能会话主体当前的情感状态的向量表示。经更新的情感表示既包含了反应先前情感状态的信息，也包含了可能由当前消息文本导致的情感变化的信息。经更新的情感表示可以被进而提供给聊天引擎，从而，聊天引擎可以在该接收到的情感表示的影响下，针对当前消息文本来生成聊天响应文本。

在一种实现方式中，聊天引擎可以被训练为能够针对目标内容来进行聊天，即，可以与另一聊天参与方一起讨论与目标内容相关的话题。示例性地，该聊天引擎可以是基于例如在与目标内容相关的论坛中的人们之间的聊天内容而构建的基于检索的聊天引擎。该聊天引擎的构建可以包括多个方面的处理。在一个方面，可以从与目标内容相关的论坛中爬取涉及人们之间的聊天内容的聊天语料。在一个方面，可以训练一个词向量模型，以用于找到每个命名实体的可能的名称。例如，可以利用词向量技术来找到每个命名实体的相关词语，然后，可选地，通过例如人工核查的方式从相关词语中保留正确的词语以作为该命名实体的可能的名称。在一个方面，可以从聊天语料中提取关键词。例如，可以根据相关语料的分词结果进行统计，然后与非相关语料中的统计结果进行比较，由此找出词频-逆文档频率(TF-IDF)区别较大的词语作为关键词。在一个方面，可以训练基于例如深度卷积神经网络的深度检索模型，其是聊天引擎的核心网络。可以将聊天语料中的消息-回复对作为训练数据来对该深度检索模型进行训练。消息-回复对中的文本可以包括该消息和该回复中的原始语句或者所提取的关键词。在一个方面，可以训练意图检测模型，其可以检测所接收到的消息文本具体与哪个目标内容相关，从而可以从多个论坛中选择出与该目标内容相关的论坛。意图检测模型可以是二分类的分类器，具体地，其可以是例如卷积神经网络文本分类模型。用于该意图检测模型的正例样本可以来自于与该目标内容相关的论坛中的聊天语料，而反例样本可以来自于其它论坛中的聊天语料或者普通文本。通过上述的一个或多个处理以及可能的任何其它处理，可以构建出基于检索的聊天引擎，其可以响应于所输入的消息文本来提供聊天响应文本，该聊天响应文本是基于与目标内容相关的论坛中的语料的。

应当理解，以上讨论的在230处生成包括例如情感标签、动画标签、评论文本、聊天响应文本等的参考信息项232的处理过程都是示例性的，在其它实现方式中，参考信息项生成的过程还可以考虑更多其它因素，例如，场景特定情感、智能会话主体的预设个性、智能会话主体的预设角色等。

场景特定情感可以指预先设定的与具体场景相关联的情感偏好。例如，在一些场景下可能需要智能会话主体尽量做出积极乐观的响应，从而，可以为这些场景预先设定能够导致积极乐观响应的场景特定情感，例如，高兴、兴奋等。场景特定情感可以包括情感类型，或者包括情感类型及其情感等级。场景特定情感可以用于影响参考信息项的生成。在一个方面，在上述的生成情感标签的过程中，可以将场景特定情感与信息元素222一起作为输入，以便共同生成情感标签。例如，该场景特定情感可以被作为一种情感表示，该情感表示可以与多个信息元素所分别对应的多个情感表示一起用于生成情感标签。在一个方面，在上述的生成动画标签的过程中，可以以与情感标签相类似的方式来考虑场景特定情感，例如，可以将场景特定情感与信息元素一起用于定义映射规则。在一个方面，在上述的生成评论文本的过程中，对弹幕文本中的多个语句的排序可以不仅考虑在这些语句与目标内容的图像和/或音频之间的匹配度，还可以考虑从这些语句中检测出的情感信息与场景特定情感的匹配度。在一个方面，在上述的生成聊天响应文本的过程中，可以以与情感标签相类似的方式来考虑场景特定情感。例如，聊天引擎可以将输入的消息文本与场景特定情感以及可能的情感标签一起用于生成聊天响应文本。

智能会话主体的预设个性可以指预先为智能会话主体设定的个性特征，例如，活泼好动、可爱、性格温和、兴奋等等。可以使得智能会话主体做出的响应尽可能地符合预设个性。该预设个性可以用于影响参考信息项的生成。在一个方面，在上述的生成情感标签的过程中，可以将预设个性映射到对应的情感倾向，并且可以将该情感倾向与信息元素222一起作为输入，以便共同生成情感标签。例如，该情感倾向可以被作为一种情感表示，该情感表示可以与多个信息元素所分别对应的多个情感表示一起用于生成情感标签。在一个方面，在上述的生成动画标签的过程中，可以将预设个性与信息元素一起用于定义映射规则。例如，活泼好动的预设个性将更有助于确定出具有更多肢体动作的动画标签，可爱的预设个性将更有助于确定出具有可爱面部表情的动画标签，等等。在一个方面，在上述的生成评论文本的过程中，对弹幕文本中的多个语句的排序可以不仅考虑在这些语句与目标内容的图像和/或音频之间的匹配度，还可以考虑从这些语句中检测出的情感信息与预设个性所对应的情感倾向的匹配度。在一个方面，在上述的生成聊天响应文本的过程中，可以以与情感标签相类似的方式来考虑与预设个性所对应的情感倾向。例如，聊天引擎可以将输入的消息文本与该情感倾向以及可能的情感标签一起用于生成聊天响应文本。

智能会话主体的预设角色可以指智能会话主体所要扮演的角色。预设角色可以是按照各种标准来分类的，例如，按照年龄和性别划分的小女孩、中年男子等角色，按照职业划分的老师、医生、警察等角色，等等。可以使得智能会话主体做出的响应尽可能地符合预设角色。该预设角色可以用于影响参考信息项的生成。在一个方面，在上述的生成情感标签的过程中，可以将预设角色映射到对应的情感倾向，并且可以将该情感倾向与信息元素222一起作为输入，以便共同生成情感标签。例如，该情感倾向可以被作为一种情感表示，该情感表示可以与多个信息元素所分别对应的多个情感表示一起用于生成情感标签。在一个方面，在上述的生成动画标签的过程中，可以将预设角色与信息元素一起用于定义映射规则。例如，小女孩的预设角色将更有助于确定出具有可爱的面部表情、较多的肢体动作等的动画标签。在一个方面，在上述的生成评论文本的过程中，对弹幕文本中的多个语句的排序可以不仅考虑在这些语句与目标内容的图像和/或音频之间的匹配度，还可以考虑从这些语句中检测出的情感信息与预设角色所对应的情感倾向的匹配度。在一个方面，在上述的生成聊天响应文本的过程中，可以以与情感标签相类似的方式来考虑与预设角色对应的情感倾向。例如，聊天引擎可以将输入的消息文本与该情感倾向以及可能的情感标签一起用于生成聊天响应文本。此外，聊天引擎的训练语料也可以包括更多与预设角色对应的语料，从而使得聊天引擎所输出的聊天响应文本更符合预设角色的语言特点。

根据过程200，在获得了参考信息项232之后，可以在240处至少利用参考信息项232来产生多模态输出数据242。多模态输出数据242是将要被提供或呈现给用户的数据，其可以包括各种类型的输出数据，例如，智能会话主体的语音、文字、智能会话主体的虚拟形象的动画序列等。

多模态输出数据中的语音可以是针对参考信息项中的评论文本、聊天响应文本等所生成的。例如，可以通过任何文本到语音(TTS)转换技术来将评论文本、聊天响应文本等转换成对应的语音。可选地，该TTS转换过程可以是以情感标签为条件的，以使得所生成的语音具有由情感标签所指示的情感。

多模态输出数据中的文字可以是与参考信息项中的评论文本、聊天响应文本等对应的可视化文字。从而，可以通过该文字来可视化地呈现智能会话主体所讲述的评论内容、聊天响应内容等。可选地，该文字可以是以预定的字体或呈现效果来生成的。

多模态输出数据中的动画序列可以是至少利用参考信息项中的动画标签和/或情感标签来生成的。可以预先建立智能会话主体的虚拟形象的动画库。该动画库可以包括大量的以智能会话主体的虚拟形象所预先创作的动画模板。每个动画模板可以包括例如多个GIF图像。此外，动画库中的动画模板可以是以动画标签和/或情感标签来索引的，例如，每个动画模板可以被标记有对应的面部表情类型、肢体动作类型、情感类型、情感等级等中的至少一个。因此，当在230处所生成的参考信息项232包括动画标签和/或情感标签时，可以利用该动画标签和/或情感标签，从动画库中选择对应的动画模板。优选地，在选择了动画模板之后，可以对该动画模板执行时间适配，以形成智能会话主体的虚拟形象的动画序列。时间适配旨在调整该动画模板，以使其匹配于与评论文本和/或聊天响应文本相对应的语音的时间序列。例如，可以调整动画模板中的面部表情、肢体动作等的持续时间，以便匹配于智能动画角色的语音的持续时间。作为示例，可以在播放智能动画角色的语音的时间段期间，使得动画模板中涉及嘴巴开合讲话的图像不断重复，从而呈现出虚拟形象正在讲话的视觉效果。此外，应当理解，时间适配并不局限于使得动画模板匹配于与评论文本和/或聊天响应文本相对应的语音的时间序列，其还可以包括使得动画模板匹配于所提取的一种或多种信息元素222的时间序列。例如，假设在目标内容中演唱者正在弹奏吉他、已经从目标内容中识别出了例如物体“吉他”等信息元素、并且已经将这些信息元素映射为“弹吉他”动画标签，则在演唱者弹奏吉他的时间段期间，可以不断重复所选择出的对应于“弹吉他”的动画模板，从而呈现出虚拟形象正在随着目标内容中的演唱者一起弹吉他的视觉效果。应当理解，在不同的应用场景中，智能会话主体可能具有不同的虚拟形象，从而可以针对不同的虚拟形象来分别预先建立不同的动画库。

应当理解，以上讨论的在240处生成包括例如动画序列、语音、文字等的多模态输出数据242的处理过程都是示例性的，在其它实现方式中，多模态输出数据生成的过程还可以考虑更多其它因素，例如，场景特定需求等，即，多模态输出数据可以是进一步基于场景特定需求来产生的。对场景特定需求的考虑可以使得本公开的实施例能够被自适应地应用于多种场景中，例如，可以基于不同场景所支持的输出能力而自适应地输出适合于特定场景的多模态输出数据。

场景特定需求可以指智能会话主体的不同应用场景的特定需求。场景特定需求可以包括与具体场景相关联的例如所支持的多模态输出数据的类型、语速预定设置、聊天模式设置等。在一个方面，不同的场景可能具有不同的数据输出能力，因此，不同场景所支持的多模态输出数据的类型可以包括仅输出语音、动画序列和文字中之一，或者输出语音、动画序列和文字中的至少两者。例如，智能动画角色和虚拟主播场景要求终端设备至少能够支持图像和音频的输出，从而，场景特定需求可以指示输出语音、动画序列和文字中的一个或多个。例如，智能音箱场景仅支持音频输出，从而，场景特定需求可以指示仅输出语音。在一个方面，不同场景可能存在不同的语速偏好，因此，场景特定需求可以进行语速预定设置。例如，由于在智能动画角色和虚拟主播场景中用户既可以观看到图像也可以听到语音，因此，可以将语速设置为较快，以便表达更丰富的情感。例如，在智能音箱和智能车机助理的场景中，用户往往只能获得或仅关注语音输出，因此，可以将语速设置为较慢，以便用户可以仅通过语音就清楚地获知智能会话实体所要表达的内容。在一个方面，不同场景可能存在不同的聊天模式偏好，因此，场景特定需求可以进行聊天模式设置。例如，在智能车机助理的场景中，由于用户可能正在驾驶车辆，因此，为了不过多地分散用户的注意力，可以减少聊天引擎的闲聊输出。此外，聊天模式设置也可以与采集的图像、采集的音频、外界环境数据等相关联。例如，当采集的音频指示用户周围存在较大的噪声时，可以减少对聊天引擎所生成的聊天响应的语音输出。例如，当外界环境数据指示用户的行进速度比较快，例如，正在高速驾驶车辆时，可以减少聊天引擎的闲聊输出。

在240处可以至少基于场景特定需求来产生多模态输出数据。例如，当场景特定需求指示不支持图像输出或者仅支持语音输出时，可以不执行动画序列和文字的生成。例如，当场景特定需求指示采用较快的语速时，可以在TTS转换过程中加快所生成的语音的语速。例如，当场景特定需求指示在特定的条件下减少聊天响应输出时，则可以限制生成与聊天响应文本相对应的语音或文字。

在250处，可以提供多模态输出数据。例如，通过显示屏幕显示动画序列、文字等，通过扬声器播放语音等。

应当理解，过程200可以被持续地执行，以便不断地获得多模态输入数据和不断地提供多模态输出数据。

图3示出了根据实施例的智能动画角色场景的实例。在图3的智能动画角色场景中，用户310可以在终端设备320上观看视频，同时，根据本公开实施例的智能会话实体可以作为智能动画角色来陪伴用户310一起观看视频。终端设备320可以包括例如显示屏幕330、摄像头322、扬声器(未示出)、麦克风(未示出)等。在显示屏幕330中可以呈现作为目标内容的视频332。此外，智能会话主体的虚拟形象334也可以在显示屏幕330中呈现。智能会话主体可以根据本公开的实施例来执行基于多模态的反应式响应生成，并且相应地，可以经由虚拟形象334来在终端设备320上提供所生成的基于多模态的反应式响应。例如，响应于视频332中的内容、与用户310的聊天会话、所采集的图像和/或音频、所获得的外部环境数据等，虚拟形象334可以做出面部表情、肢体动作、发出语音等。

图4示出了根据实施例的智能动画角色场景的示例性过程400。过程400示出了例如图3的智能动画角色场景所涉及的处理流、数据/信息流等。此外，过程400可以被视为是图2中的过程200的具体示例。

根据过程400，可以首先获得多模态输入数据，其包括例如视频、外界环境数据、采集的图像、采集的音频、聊天会话等中的至少一个。所述视频作为目标内容，其可以进而包括例如图像、音频、弹幕文件等。应当理解，所获得的多模态输入数据可以是在时间上对准的，并相应地具有相同的上下文。

可以从多模态输入数据中提取信息元素。例如，从视频的图像中提取人物特征、文本、图像光线、物体等，从视频的音频中提取音乐、语音等，从视频的弹幕文件中提取弹幕文本，从外界环境数据中提取外界环境信息，从采集的图像中提取对象特征，从采集的音频中提取音乐、语音等，从聊天会话中提取消息文本，等等。

可以至少基于所提取的信息元素来生成参考信息项，其包括例如情感标签、动画标签、评论文本、聊天响应文本中的至少一个。评论文本可以是通过评论生成模型430来生成的。聊天响应文本可以是通过聊天引擎450以及可选的情感转移网络452来生成的。

可以至少利用所生成的参考信息项来产生多模态输出数据，其包括例如动画序列、评论语音、评论文字、聊天响应语音、聊天响应文字等中的至少一个。动画序列可以是基于以上结合图2的描述来生成的。例如，可以利用动画标签、情感标签等，在动画库中执行动画选择410以便选择出动画模板，进而基于所选择的动画模板来执行动画序列生成420，以便通过在动画序列生成420处执行的时间适配来获得动画序列。评论语音可以是通过对评论文本执行语音生成440(例如，TTS转换)来获得的。评论文字可以是基于评论文本来获得的。聊天响应语音可以是通过对聊天响应文本执行语音生成460(例如，TTS转换)来获得的。聊天响应文字可以是基于聊天响应文本来获得的。

可以在终端设备上提供所产生的多模态输出数据。例如，在显示屏幕上呈现动画序列、评论文字、聊天响应文字等，通过扬声器播放评论语音、聊天响应语音等。

应当理解，过程400中的所有处理、数据/信息等都是示例性的，在实际的应用中，过程400可能仅涉及这些处理、数据/信息中的一项或多项。

根据本公开实施例的基于多模态的反应式响应生成可以被应用于执行多种任务。以下仅仅示例性地说明这些任务中的示例性智能动画生成任务。应当理解，本公开的实施例并不局限于用于执行智能动画生成任务，而是还可以用于执行多种其它任务。

图5示出了根据实施例的智能动画生成的示例性过程500。过程500可以被视为是图2中的过程200的一种具体实现。过程500的智能动画生成是过程200的基于多模态的反应式响应生成的具体应用。过程500的智能动画生成可以涉及响应于目标内容而执行的虚拟形象的动画序列的生成、虚拟形象的评论语音的生成、评论文字的生成等中至少之一。

在过程500中，可以将图2的210处的多模态输入数据获取步骤具体化为在510处获得目标内容的图像、音频、弹幕文件中至少之一。

在过程500中，可以将图2的220处的信息元素提取步骤具体化为在520处从目标内容的图像、音频、弹幕文件中提取至少一个信息元素。例如，从目标内容的图像中提取人物特征、文本、图像光线、物体等，从目标内容的音频中提取音乐、语音等，从目标内容的弹幕文件中提取弹幕文本，等等。

在过程500中，可以将图2的230处的参考信息项生成步骤具体化为在530处生成动画标签、情感标签和评论文本中至少之一。例如，可以至少基于在520处所提取的至少一个信息元素来生成动画标签、情感标签、评论文本等。

在过程500中，可以将图2的240处的多模态输出数据生成步骤具体化为在540处至少利用动画标签、情感标签和评论文本中至少之一来产生虚拟形象的动画序列、虚拟形象的评论语音、评论文字中至少之一。以动画序列为例，可以按照以上结合图2所描述的方式来至少利用动画标签和/或情感标签产生动画序列。此外，也可以按照以上结合图2所描述的方式来产生评论语音和评论文字。

在过程500中，可以将图2的250处的多模态输出数据提供步骤具体化为在550处提供所生成的动画序列、评论语音、评论文字中至少之一。

应当理解，过程500中的每个步骤可以采用与以上针对图2中的对应步骤的描述相类似的方式来执行。此外，过程500还可以包括以上针对图2的过程200所描述的任何其它处理。

图6示出了根据实施例的用于基于多模态的反应式响应生成的示例性方法600的流程图。

在610处，可以获得多模态输入数据。

在620处，可以从所述多模态输入数据中提取至少一个信息元素。

在630处，可以至少基于所述至少一个信息元素来生成至少一个参考信息项。

在640处，可以至少利用所述至少一个参考信息项来产生多模态输出数据。

在650处，可以提供所述多模态输出数据。

在一种实现方式中，所述多模态输入数据可以包括以下至少之一：目标内容的图像、目标内容的音频、目标内容的弹幕文件、聊天会话、采集的图像、采集的音频、以及外界环境数据。

从所述多模态输入数据中提取至少一个信息元素可以包括以下至少之一：从目标内容的图像中提取人物特征；从目标内容的图像中识别文本；从目标内容的图像中检测图像光线；从目标内容的图像中识别物体；从目标内容的音频中提取音乐；从目标内容的音频中提取语音；从目标内容的弹幕文件中提取弹幕文本；从聊天会话中提取消息文本；从采集的图像中提取对象特征；从采集的音频中提取语音和/或音乐；以及从外界环境数据中提取外界环境信息。

在一种实现方式中，至少基于所述至少一个信息元素来生成至少一个参考信息项可以包括：至少基于所述至少一个信息元素来生成情感标签、动画标签、评论文本、以及聊天响应文本中至少之一。

至少基于所述至少一个信息元素来生成情感标签可以包括：生成与所述至少一个信息元素中的一个或多个信息元素分别对应的一个或多个情感表示；以及至少基于所述一个或多个情感表示来生成所述情感标签。

所述情感标签可以指示情感类型和/或情感等级。

至少基于所述至少一个信息元素来生成动画标签可以包括：根据预定规则，将所述至少一个信息元素映射为所述动画标签。

所述动画标签可以指示面部表情类型和/或肢体动作类型。

所述动画标签可以是进一步基于所述情感标签来生成的。

至少基于所述至少一个信息元素来生成评论文本可以包括：从目标内容的弹幕文本中选择所述评论文本。

所述选择所述评论文本可以包括：利用双塔模型，确定在所述目标内容的弹幕文本中的语句与所述目标内容的图像和/或音频之间的匹配度；以及从所述弹幕文本中选择匹配度最高的语句作为所述评论文本。

至少基于所述至少一个信息元素来生成聊天响应文本可以包括：通过聊天引擎，至少基于聊天会话中的消息文本来生成所述聊天响应文本。

所述聊天响应文本可以是进一步基于所述情感标签来生成的。

所述聊天响应文本可以是进一步基于来自情感转移网络的情感表示来生成的。

在一种实现方式中，所述至少一个参考信息项可以是进一步基于以下至少之一来生成的：场景特定情感；智能会话主体的预设个性；以及智能会话主体的预设角色。

在一种实现方式中，所述多模态输出数据可以包括以下至少之一：智能会话主体的虚拟形象的动画序列；智能会话主体的语音；以及文字。

至少利用所述至少一个参考信息项来产生多模态输出数据可以包括：生成与所述评论文本和/或所述聊天响应文本相对应的语音和/或文字。

至少利用所述至少一个参考信息项来产生多模态输出数据可以包括：利用所述动画标签和/或所述情感标签，从智能会话主体的虚拟形象的动画库中选择对应的动画模板；以及对所述动画模板执行时间适配，以形成智能会话主体的虚拟形象的动画序列。

所述时间适配可以包括：调整所述动画模板，以匹配于与所述评论文本和/或所述聊天响应文本相对应的语音的时间序列。

在一种实现方式中，所述多模态输出数据可以是进一步基于场景特定需求来产生的。

所述场景特定需求可以包括以下至少之一：仅输出语音、动画序列和文字中之一；输出语音、动画序列和文字中的至少两者；语速预定设置；以及聊天模式设置。

在一种实现方式中，基于多模态的反应式响应生成可以包括智能动画生成。获得多模态输入数据可以包括：获得目标内容的图像、音频和弹幕文件中至少之一。从所述多模态输入数据中提取至少一个信息元素可以包括：从所述目标内容的图像、音频和弹幕文件中提取至少一个信息元素。至少基于所述至少一个信息元素来生成至少一个参考信息项可以包括：至少基于所述至少一个信息元素来生成动画标签、情感标签和评论文本中至少之一。至少利用所述至少一个参考信息项来产生多模态输出数据可以包括：至少利用所述动画标签、所述情感标签和所述评论文本中至少之一来产生虚拟形象的动画序列、虚拟形象的评论语音和评论文字中至少之一。提供所述多模态输出数据可以包括：提供所述动画序列、所述评论语音和所述评论文字中至少之一。

应当理解，方法600还可以包括根据上述本公开实施例的用于基于多模态的反应式响应生成的任何步骤/过程。

图7示出了根据实施例的用于基于多模态的反应式响应生成的示例性装置700。

装置700可以包括：多模态输入数据获得模块710，用于获得多模态输入数据；数据整合处理模块720，用于从所述多模态输入数据中提取至少一个信息元素；场景逻辑处理模块730，用于至少基于所述至少一个信息元素来生成至少一个参考信息项；多模态输出数据生成模块740，用于至少利用所述至少一个参考信息项来产生多模态输出数据；以及多模态输出数据提供模块750，用于提供所述多模态输出数据。

此外，装置700还可以包括执行根据上述本公开实施例的用于基于多模态的反应式响应生成的方法的步骤的任何其它模块。

图8示出了根据实施例的用于基于多模态的反应式响应生成的示例性装置800。

装置800可以包括：至少一个处理器810；以及存储器820，其存储计算机可执行指令。当所述计算机可执行指令被运行时，所述至少一个处理器810可以执行根据上述本公开实施例的用于基于多模态的反应式响应生成的方法的任何步骤/过程。

本公开的实施例提出了基于多模态的反应式响应生成***，包括：多模态数据输入接口，用于获得多模态输入数据；核心处理单元，其被配置用于从所述多模态输入数据中提取至少一个信息元素，至少基于所述至少一个信息元素来生成至少一个参考信息项，以及至少利用所述至少一个参考信息项来产生多模态输出数据；以及多模态数据输出接口，用于提供所述多模态输出数据。此外，多模态数据输入接口、核心处理单元、多模态数据输出接口还可以执行根据上述本公开实施例的用于基于多模态的反应式响应生成的方法的任何相关步骤/过程。此外，基于多模态的反应式响应生成***还可以包括根据上述本公开实施例的用于基于多模态的反应式响应生成的任何其它单元和模块。

本公开的实施例提出了用于基于多模态的反应式响应生成的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器运行用于执行根据上述本公开实施例的用于基于多模态的反应式响应生成的方法的任何步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于基于多模态的反应式响应生成的方法的任何步骤/过程。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

另外，除非另有规定或者从上下文能清楚得知针对单数形式，否则如本说明书和所附权利要求书中所使用的冠词“一(a)”和“一个(an)”通常应当被解释为意指“一个”或者“一个或多个”。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于基于多模态的反应式响应生成的方法，包括：

获得多模态输入数据；

从所述多模态输入数据中提取至少一个信息元素；

至少基于所述至少一个信息元素来生成至少一个参考信息项；

至少利用所述至少一个参考信息项来产生多模态输出数据；以及

提供所述多模态输出数据。

2.如权利要求1所述的方法，其中，所述多模态输入数据包括以下至少之一：

目标内容的图像、目标内容的音频、目标内容的弹幕文件、聊天会话、采集的图像、采集的音频、以及外界环境数据。

3.如权利要求2所述的方法，其中，从所述多模态输入数据中提取至少一个信息元素包括以下至少之一：

从目标内容的图像中提取人物特征；

从目标内容的图像中识别文本；

从目标内容的图像中检测图像光线；

从目标内容的图像中识别物体；

从目标内容的音频中提取音乐；

从目标内容的音频中提取语音；

从目标内容的弹幕文件中提取弹幕文本；

从聊天会话中提取消息文本；

从采集的图像中提取对象特征；

从采集的音频中提取语音和/或音乐；以及

从外界环境数据中提取外界环境信息。

4.如权利要求1所述的方法，其中，至少基于所述至少一个信息元素来生成至少一个参考信息项包括：

至少基于所述至少一个信息元素来生成情感标签、动画标签、评论文本、以及聊天响应文本中至少之一。

5.如权利要求4所述的方法，其中，至少基于所述至少一个信息元素来生成情感标签包括：

生成与所述至少一个信息元素中的一个或多个信息元素分别对应的一个或多个情感表示；以及

至少基于所述一个或多个情感表示来生成所述情感标签。

6.如权利要求5所述的方法，其中，

所述情感标签指示情感类型和/或情感等级。

7.如权利要求4所述的方法，其中，至少基于所述至少一个信息元素来生成动画标签包括：

根据预定规则，将所述至少一个信息元素映射为所述动画标签。

8.如权利要求7所述的方法，其中，

所述动画标签指示面部表情类型和/或肢体动作类型。

9.如权利要求7所述的方法，其中，

所述动画标签是进一步基于所述情感标签来生成的。

10.如权利要求4所述的方法，其中，至少基于所述至少一个信息元素来生成评论文本包括：

从目标内容的弹幕文本中选择所述评论文本。

11.如权利要求10所述的方法，其中，所述选择所述评论文本包括：

利用双塔模型，确定在所述目标内容的弹幕文本中的语句与所述目标内容的图像和/或音频之间的匹配度；以及

从所述弹幕文本中选择匹配度最高的语句作为所述评论文本。

12.如权利要求4所述的方法，其中，至少基于所述至少一个信息元素来生成聊天响应文本包括：

通过聊天引擎，至少基于聊天会话中的消息文本来生成所述聊天响应文本。

13.如权利要求12所述的方法，其中，

所述聊天响应文本是进一步基于所述情感标签来生成的。

14.如权利要求12所述的方法，其中，

所述聊天响应文本是进一步基于来自情感转移网络的情感表示来生成的。

15.如权利要求1所述的方法，其中，所述至少一个参考信息项是进一步基于以下至少之一来生成的：

场景特定情感；

智能会话主体的预设个性；以及

智能会话主体的预设角色。

16.如权利要求1所述的方法，其中，所述多模态输出数据包括以下至少之一：

智能会话主体的虚拟形象的动画序列；

智能会话主体的语音；以及

文字。

17.如权利要求4所述的方法，其中，至少利用所述至少一个参考信息项来产生多模态输出数据包括：

生成与所述评论文本和/或所述聊天响应文本相对应的语音和/或文字。

18.如权利要求4所述的方法，其中，至少利用所述至少一个参考信息项来产生多模态输出数据包括：

利用所述动画标签和/或所述情感标签，从智能会话主体的虚拟形象的动画库中选择对应的动画模板；以及

对所述动画模板执行时间适配，以形成智能会话主体的虚拟形象的动画序列。

19.如权利要求18所述的方法，其中，所述时间适配包括：

调整所述动画模板，以匹配于与所述评论文本和/或所述聊天响应文本相对应的语音的时间序列。

20.如权利要求1所述的方法，其中，

所述多模态输出数据是进一步基于场景特定需求来产生的。

21.如权利要求20所述的方法，其中，所述场景特定需求包括以下至少之一：

仅输出语音、动画序列和文字中之一；

输出语音、动画序列和文字中的至少两者；

语速预定设置；以及

聊天模式设置。

22.如权利要求1所述的方法，其中，

获得多模态输入数据包括：获得目标内容的图像、音频和弹幕文件中至少之一，

从所述多模态输入数据中提取至少一个信息元素包括：从所述目标内容的图像、音频和弹幕文件中提取至少一个信息元素，

至少基于所述至少一个信息元素来生成至少一个参考信息项包括：至少基于所述至少一个信息元素来生成动画标签、情感标签和评论文本中至少之一，

至少利用所述至少一个参考信息项来产生多模态输出数据包括：至少利用所述动画标签、所述情感标签和所述评论文本中至少之一来产生虚拟形象的动画序列、虚拟形象的评论语音和评论文字中至少之一，以及

提供所述多模态输出数据包括：提供所述动画序列、所述评论语音和所述评论文字中至少之一。

23.一种基于多模态的反应式响应生成***，包括：

多模态数据输入接口，用于获得多模态输入数据；

核心处理单元，其被配置用于：从所述多模态输入数据中提取至少一个信息元素；至少基于所述至少一个信息元素来生成至少一个参考信息项；以及至少利用所述至少一个参考信息项来产生多模态输出数据；以及

多模态数据输出接口，用于提供所述多模态输出数据。

24.一种用于基于多模态的反应式响应生成的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被运行时使所述至少一个处理器执行如权利要求1至21中任一项所述方法的步骤。

25.一种用于基于多模态的反应式响应生成的装置，包括：

多模态输入数据获得模块，用于获得多模态输入数据；

数据整合处理模块，用于从所述多模态输入数据中提取至少一个信息元素；

场景逻辑处理模块，用于至少基于所述至少一个信息元素来生成至少一个参考信息项；

多模态输出数据生成模块，用于至少利用所述至少一个参考信息项来产生多模态输出数据；以及

多模态输出数据提供模块，用于提供所述多模态输出数据。

26.一种用于基于多模态的反应式响应生成的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器运行用于执行如权利要求1至21中任一项所述方法的步骤。