CN113785539A

CN113785539A - 用于基于对用户情绪的识别来动态推荐输入的***和方法

Info

Publication number: CN113785539A
Application number: CN201980095244.3A
Authority: CN
Inventors: 苏米特·库马尔·蒂瓦里; 马努基·库马尔; 尤吉拉基·班纳吉; 戈文德·加纳德哈南; 塔斯里姆·阿里夫
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-04-10
Filing date: 2019-12-03
Publication date: 2021-12-10
Also published as: WO2020207041A1

Abstract

本发明涉及一种用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的***[100]和方法。实时地接收用户的至少一个用户输入和至少一个姿势。之后，基于与用户的至少一个姿势相关联的至少一个表情和至少一个用户输入，来识别至少一个情绪数据。基于至少一个情绪数据，来确定至少一个输入内容，并由此向用户推荐在通信会话期间使用至少一个输入内容。

Description

用于基于对用户情绪的识别来动态推荐输入的***和方法

技术领域

本发明总统上涉及在电子通信会话过程中对用户输入的管理，更具体地，涉及一种用于基于对用户情绪的识别来动态推荐输入内容的***和方法。

背景技术

本节旨在提供与通常现有技术相关的信息，因此下文描述的任何方法/功能不应该仅因为包含在本节中而被视为具备现有技术资格。

随着电子通信设备的先期发展，人类通过各种呼叫和消息收发应用建立通信会话，并在彼此通信的同时传达人的情绪，已成为可能。各种呼叫和/或消息收发应用或‘应用(app)’要么预先安装在所述电子设备中，要么可根据用户的要求和偏好来下载和安装。

一种典型的电子通信设备，在本文中称为‘设备’，例如是移动电话、平板设备、智能电话、膝上型计算机等；通过各种‘应用’，通过提供包括图像、视频、诸如GIF的图形图像、文本、图标等的各种选项来方便用户表达他/她的情绪。这些选项可由用户在任何通信会话期间根据他们的要求和偏好输入。例如，智能电话可装备有一个或多个电子消息收发应用，该一个或多个电子消息收发应用可配置成典型地以文本、图像和/或图标的形式接收用户输入，以方便用户由此将他们的情绪传达给其他用户或接收者。

虽然传统通信方法和***给用户提供上述选项以在任何通信会话期间传达他们的情绪，但是通常要求用户手动***输入以提供他们的情绪信息。此类***的主要缺点是：电子消息收发应用内可用的选项常常不能传达准确地描述用户的意图和情绪的情绪信息，因此，此类传统通信方法和***需要用户加以干涉，以有效地将用户的本意情绪传达给其他用户。

通过自动基于从用户的基于文本或基于语音的输入检测到的情绪信息来提供选项，克服了传统***和方法的上述限制。然而，在此类***中，一直到从用户接收到完整的基于文本或基于语音的输入(例如，通过文本或语音表示的完整句子)，才向用户显示自动选项。因此，这些***只有在用户完成句子输入之后才能够提取情绪数据。这在用户的通信体验中产生中断，且为了体验更好的情绪检测精确度，用户必须在完成整个会话之前暂停，以由***采集适量的文本。

美国专利公开US20170147202和US20030110450公开了用于基于从用户接收的键盘输入和语音/音频输入，来在文本消息中表达任何情绪信息的解决方案。然而，各种文本输入参数和语音输入参数(例如打字速度和语音音调)可允许仅检测高强度情绪，因此难以在文本和语音输入中预测所有类型和所有程度的情绪。因此，这些类型的输入需要用户姿势的附加输入参数，以实时准确地检测用户的情绪。

在用于在用户的文本消息中表达情绪的各种现有方法和***中，还使用深度学习技术来检测由用户输入的短语或文本集内的情绪上下文。例如，短语“Go Away(走开)！”和“Shut Up(闭嘴)”可通过现有技术的深度学习技术识别成具有愤怒元素，即使在所述短语中没有使用单词“anger(愤怒)”或其任何同义词，也会识别成具有愤怒元素。然而，仅与有限类型的情绪相关的有限数量的短语可由深度学习技术检测，且可能不能准确地检测所有类型的情绪上下文。

因此，需要提供一种针对上述问题的解决方案，以用于通过实时分析从用户接收的输入来自动检测用户的情绪，并管理所接收的输入以给用户提供准确的输入选项来在通信会话期间表达他们的情绪。

发明内容

提供本节，以简化形式介绍本发明的某些方面，在下面的详细描述中进一步描述这些方面。本发明内容不旨在识别所要求保护的主题的关键特征或范围。

鉴于现有技术的上述缺点和限制，本发明的目的在于提供用于实时自动分析从用户接收的输入的方法和***。本发明的另一目的在于以这样的方式管理所接收的用户输入，使得给用户提供准确的输入选项来在通信会话期间在任何文本消息中表达他们的情绪。本发明的另一目的在于接收具有用户的至少一个姿势的实时图像。本发明的又一目的在于从所接收的输入和实时图像检测情绪数据。本发明的又一目的在于基于用于表达情绪的情绪数据向用户推荐准确输入内容。本发明的又一目的在于方便用户在通信会话期间使用附加输入选项来在文本消息中表达他们的情绪。

鉴于这些和其他目的，本发明的一方面可涉及一种用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的方法，该方法包括如下步骤：通过输入模块实时地接收至少一个用户输入；通过相机模块接收用户的图像的至少一部分，该至少一部分实时地指示用户的至少一个姿势；使用表情识别模块识别与用户的至少一个姿势相关联的至少一个表情；使用情绪检测模块，基于至少一个表情和至少一个用户输入，来识别至少一个情绪数据；使用处理模块，基于至少一个情绪数据，来针对至少一个用户输入确定至少一个输入内容；以及使用显示模块，在通信会话期间，随着至少一个用户输入来向用户推荐选择和使用至少一个输入内容。

本发明的另一方面可涉及一种用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的***。该***包括：输入模块，配置成实时地接收至少一个用户输入；相机模块，配置成接收用户的图像的至少一部分，该至少一部分实时地指示用户的至少一个姿势；表情识别模块，配置成识别与用户的至少一个姿势相关联的至少一个表情；情绪检测模块，配置成基于至少一个表情和至少一个用户输入，来识别至少一个情绪数据；处理模块，配置成基于至少一个情绪数据，来针对至少一个用户输入确定至少一个输入内容；以及显示模块，配置成在通信会话期间，随着至少一个用户输入来向用户推荐选择和使用至少一个输入内容。

本发明的另一方面可涉及方法和***，该方法和***用于实时地且持续地跟踪用户的至少一个姿势，以识别任何变化；基于在至少一个姿势中识别的变化，来更新情绪数据；以及基于所更新的情绪数据，向用户推荐更新的至少一个内容。

本发明的另一方面可涉及方法和***，该方法和***用于标记从用户接收的至少一个姿势的开始和结束；基于至少一个姿势的开始和结束，自动执行对至少一个用户输入的分割以创建一个或多个片段；基于至少一个姿势和至少一个用户输入，来识别一个或多个片段中的每个片段的对应情绪数据；以及基于至少一个用户输入的每个片段的对应情绪数据，向用户推荐至少一个输入内容。

本发明的另一方面可涉及方法和***，该方法和***用于给用户提供如下指示，该指示表明相机模块是否充分采集实时图像的至少一部分。

附图说明

附图并入本文中并构成本发明的一部分，示出了所公开的方法和***的示例性实施例，其中贯穿不同的附图，相同的附图标记指代相同的部件。附图中的组件不一定按比例绘制，而是加以强调以清楚地示出本发明的原理。一些附图可使用框图来指示组件，且可以不表示每个组件的内部电路。本领域技术人员应理解，此类附图的公开内容包括通常用于实现此类组件的电气组件或电路的公开。为了清楚起见，在附图中未示出组件的子组件之间的连接，因此假设所有子组件应彼此连接，除非在本发明中另外明确地予以说明。

图1示出了根据本发明的示例性实施例的用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的***架构[100]。

图2是根据本发明的示例性实施例的示出了用于提供表情识别和跟踪的***[100]元件的框图。

图3是根据本发明的示例性实施例的示出了用于识别情绪数据的***[100]元件的框图。

图4是根据本发明的示例性实施例的示出了基于可用历史和配置文件信息执行动作的***[100]元件的框图。

图5示出了根据本发明的示例性实施例的场景，其中向用户给出正在采集实时图像的指示。

图6示出了根据本发明的示例性实施例的场景，其中提示用户使用基于情绪数据的任何变化而更新的输入内容。

图7示出了根据本发明的示例性实施例的场景，其中提示用户使用基于单个文本内容中的多种情绪的多个输入内容选项。

图8是根据本发明的示例性实施例的示出了用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的方法的流程图。

图9示出了支持执行本发明的示例性实施例的框架。

具体实施方式

在下面的描述中，为了说明的目的，阐述了各种特定细节，以提供对本发明的实施例的透彻理解。然而，显而易见的是，可以在没有这些特定细节的情况下实践本发明的实施例。下文描述的多个特征可彼此独立地使用，或者与其他特征任意组合地使用。单个特征可以不解决上面讨论的任何问题，或者可以仅解决上面讨论的一个问题。

本发明包括用于在用户之间通过通信网络的通信会话期间基于对用户情绪的识别来动态地推荐输入内容的***和方法。通过输入模块实时地从用户接收至少一个用户输入。与至少一个用户输入一起，还使用相机模块接收用户的图像的至少一部分。用户图像的至少一部分实时地指示用户的至少一个姿势。之后，识别与用户的至少一个姿势相关联的至少一个表情。基于至少一个表情和至少一个用户输入，确定至少一个情绪数据。随后，使用至少一个情绪数据，确定至少一个输入内容。之后，向用户推荐至少一个输入内容，以用于在通信会话期间随着至少一个用户输入来选择和使用所推荐的至少一个输入内容。

如本文所使用的，“硬件”包括分立组件、集成电路、特定用途集成电路、现场可编程门阵列、其他可编程逻辑器件和/或对本领域技术人员来说可能显而易见的其他合适硬件的组合。

如本文所使用的，“软件”包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用、或对于本领域技术人员来说可能显而易见的其他合适的软件结构。在一个实施例中，软件可包括在诸如操作***的通用软件应用中运行的一行或多行代码或其他合适的软件结构，以及在特定用途的软件应用中运行的一行或多行代码或其他合适的软件结构。

如本文所使用的，“应用程序”或“应用”或“app”是驻留在相应电子通信设备中的软件应用，且可预安装，或者可下载并安装在所述设备中。应用包括但不限于联系人管理应用、日历应用、消息收发应用、图像和/或视频修改和观看应用、游戏应用、导航应用、办公室应用、商业应用、教育应用、健康和健身应用、医疗应用、金融应用、社交网络应用和任何其他应用。应用使用了随时间可在电子设备中创建、修改或安装的“数据”。数据包括但不限于联系人、日历条目、呼叫日志、SMS、图像、视频、工厂数据、电子邮件以及与一个或多个应用相关联的数据。

如本文所使用的，“联接”及其同源术语例如“耦合”和“耦接”包括物理连接(例如导体)、虚拟连接(例如通过随机分配的数据存储设备的存储位置)、逻辑连接(例如通过半导体设备的逻辑门)、其他合适的连接或此类连接的组合，这对于本领域技术人员来说可能显而易见。

如本文所使用的，“电子通信设备”包括但不限于移动电话、可穿戴设备、智能电话、机顶盒、智能电视、膝上型计算机、通用计算机、台式计算机、个人数字助理、平板计算机、大型主机、或能够进行通信消息或数据的交易的任何其他计算机实现的电子设备，这对于本领域技术人员可以是公知的。

如本文所使用的，通过面部表情、手运动、手指运动、拇指运动、头部运动、腿运动等来检测用户的‘表情’。用户的各种面部特征包括眼睛运动、鼻子运动、嘴唇运动、眉毛运动、下巴运动等运动。通过使用适合于特定表情识别的现有技术分类器，可将表情分类成任何特定类别。

如本文所使用的，“情绪数据”是与用户的表情以及通过文本、音频、图标或任何图像输入的用户情绪相关的任何数据。通过分析所接收的用户输入(例如单词、句子、短语、GIF、图像、图标等)以及用户表情来确定情绪数据。通过使用预定的人类情绪类别，可将情绪数据分类成任何特定类型和程度，其中，预定的人类情绪类别可在本地存储在设备上或者存储在一个或多个远程服务器上。

如本文所使用的，‘深度相机’是能够采集作为输入而被接收的任何场景或视频帧的深度信息的相机类型。

图1示出了根据本公开的示例性实施例的用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的***架构。如图1所示，***[100]包括数据管理模块[102]、配置文件管理模块[104]、动态内容模块[106]、消息收发应用模块[112]、处理模块[110]、相机模块[108]、输入模块[118]、情绪检测模块[114]和表情识别模块[116]。

根据本发明的实施例，消息收发应用模块[112]发起用户之间的任何通信会话。消息收发应用模块[112]配置成发起一个或多个第三方消息收发应用、社交网络应用、即时通讯应用、在任何门户网站上运行的在线聊天应用等，这些应用需要用户输入文本、语音或图像，并因此在相应的通信会话期间传送他们的消息。消息收发应用模块[112]还可通过安装任何输入设备(包括键盘、鼠标、操纵杆等)来触发。消息收发应用模块[112]还可由从用户接收的触摸输入来触发。

在本发明的一个实施例中，消息收发应用模块[112]可通信地联接到处理模块[110]，并向处理模块[110]发出用于识别用户的表情和情绪的请求。处理模块[110]联接到表情识别模块[116]和情绪检测模块[114]，表情识别模块[116]和情绪检测模块[114]分别从所接收的输入识别表情和情绪数据。根据本发明的实施例，表情识别模块[116]接收用户的图像的至少一部分，该至少一部分指示用户的至少一个姿势。表情识别模块[116]识别与用户的至少一个姿势相关联的至少一个表情。此外，情绪检测模块[114]基于至少一个表情和至少一个用户输入的组合来识别至少一个情绪数据。处理模块[110]进一步使用情绪数据来确定通过显示模块推荐给用户的至少一个输入内容。至少一个输入内容可包括但不限于图标、表情符号、图像、标签、文本、文本集、单词、单词组等。因此，用户可使用通过相应设备执行的消息收发应用来实现消息事务中推荐的至少一个输入内容。

如上所公开的，消息收发应用模块[112]通过发送用于分析至少一个用户输入和用户的图像的至少一部分的请求来调用处理模块[110]。之后，处理模块110从相机模块[108]寻找用户的图像的至少一部分，从输入模块[118]寻找至少一个用户输入，并相应地基于情绪数据确定要推荐给用户的至少一个输入内容。因此，处理模块[110]用作上下文分析器，上下文分析器分析和处理所接收的输入以识别与所接收的输入相关联的情绪上下文。如上所讨论的，处理模块[110]联接到相机模块[108]和输入模块[118]，以用于分别接收用户图像和至少一个用户输入。相机模块[108]可包括深度相机，深度相机能够采集用户的实时图像的深度信息。

使用相机模块[108]接收的用户图像包括实时地指示用户的至少一个姿势的至少一部分。处理模块[110]可通信地联接到表情识别模块[116]和情绪检测模块[114]，表情识别模块[116]和情绪检测模块[114]由人工智能(AI)工具和框架支持，以在任何正在进行的通信会话期间在用户键入任何输入或做出任何姿势时分别识别用户的表情和情绪。

在本发明的各实施例中，当第三方消息收发应用被调用时，输入模块[118]提供至少一个用户输入。至少一个用户输入可包括单词、文本集、句子、短语、语音数据、存储的图像、实时图像、媒体等。此外，相机模块[108]可实时地接收用户的图像，其中用户图像的至少一部分实时地指示用户的至少一个姿势。表情识别模块[116]分析至少一个姿势，以识别用户通过他/她的姿势传达的表情。

此外，情绪检测模块[114]和表情识别模块[116]分别接收至少一个用户输入和图像的至少一部分，并持续地分析所接收的至少一个用户输入和图像的至少一部分，以识别由用户传达的表情的任何变化。在通过输入模块[118]或者通过相机模块[108]所接收的输入中的表情发生任何变化的情况下，处理模块[110]在接收至少一个用户输入和用户的图像的至少一部分的同时检测该变化。至少一个用户输入和用户的图像的至少一个姿势的变化对应于用户情绪的变化。例如，在用户键入消息句子“我的旅行不好”的情况下，情绪检测模块[114]分析用户的情绪是‘悲伤’。然而，当用户通过删除单词‘不’来改变输入，并输入句子“我的旅行好”时；于是，情绪检测模块[114]识别用户的情绪是‘快乐’。

在用户的姿势实时地发生任何变化的情况下，还可记录这些变化。例如，用户可将面部表情从愤怒的脸改变成他/她脸上的快乐表情。因此，可由受到人工智能工具和机制支持的表情识别模块[116]检测并相应地分析表情的任何变化。根据本发明的实施例，表情识别模块[116]能够识别表情的任何变化并因此确定用户的当前情绪。

在本发明的各实施例中，处理模块[110]还调用相机模块[108]以用于接收要分析和处理的图像馈送，随后与表情识别模块[116]交互以用于提取数据并生成基于表情的***事件。一旦接收至少一个用户输入并识别与用户的至少一个姿势相关联的至少一个表情，则由情绪检测模块[114]识别至少一个情绪数据。之后，处理模块[110]通过分析和处理根据至少一个用户输入以及至少一个表情确定的情绪数据来确定至少一个输入内容。处理模块[110]还请求情绪检测模块[114]获得至少一个情绪数据的类型和程度。例如，至少一个情绪数据的类型可包括快乐、悲伤、愤怒、困倦等，且情绪数据类型的程度可包括情绪类型的强度，例如低、中、高、非常高等。至少一个情绪数据的类型和程度可被进一步处理，以准确地确定随后可推荐给用户的至少一个输入内容。举个例子，用户正在键入“你怎么敢这样？”，同时相机模块[108]采集用户的图像带有愤怒的脸。在这种情况下，用户的表情是“愤怒的脸”。此外，表情“愤怒的脸”与输入“你怎么敢这样？”一起被分析，以确定情绪数据。因此，在这种情况下，情绪数据可被确定为“非常愤怒”。在这种情况下，向用户建议的至少一个输入内容可以是指示愤怒表情的红脸情绪。

数据管理模块[102]配置成管理设备相关数据，设备相关数据与用户通过任何一个或多个电子通信设备进行的通信会话相关。数据管理模块[102]可位于设备上。数据管理模块[102]执行管理数据的功能，包括存储数据、格式化任何文本输入等。数据管理模块[102]还存储任何预处理数据，并在***[100]内的相应模块之间执行任何数据的特定交易。例如，数据管理模块[102]还接收和存储用户的配置文件以及多个用户的联系人信息。每个用户的联系人可与用户具有一定程度的亲缘关系，且基于亲缘关系程度，用户可以在通信会话期间输入任何消息时使用不同类型的内容。数据管理模块[102]使用用户的配置文件和联系人信息来相应地管理与通信会话相关的数据。数据管理模块[102]还基于情绪数据、至少一个表情和至少一个用户输入中的至少一项来执行至少一个用户输入的格式化。

数据管理模块[102]通信地联接到配置文件管理模块[104]，以用于接收用户的配置文件信息。此外，配置文件管理模块[104]还将用户的配置文件信息提供给各种第三方应用。配置文件管理模块[104]使用各种数据，例如呼叫日志数据、消息内容数据和其他类型的数据，来确定和创建关于其他发送者或接收者的用户配置文件。配置文件信息还可用于定制格式化选项，并相应地给用户的特定联系人和朋友列表生成个性化内容。配置文件信息还可用于过滤关于特定联系人和朋友列表的任何内容。

动态内容模块[106]通过配置文件管理模块[104]联接到数据管理模块[102]和消息收发应用模块[112]。动态内容模块[106]从本地设备的任何内置存储模块或数据库中动态地[106]搜索任何数据或内容，并将数据或内容提供给配置文件管理模块[104]以及数据管理模块[102]。在用户之间进行通信会话过程中，消息收发应用模块[112]还使用所搜索的数据。动态内容模块[106]还从位于任何本地或远程网络(例如LAN、WAN、因特网等)上的各种网络服务器中搜索任何在线数据。

因此，根据本发明的实施例的***[100]配置成实时地接收至少一个用户输入且还接收用户的实时图像，其中图像的至少一部分指示用户的姿势。表情识别模块[116]识别与用户的至少一个姿势相关联的至少一个表情。情绪检测模块[114]基于至少一个表情和至少一个用户输入来识别至少一个情绪数据。情绪数据用于确定通过显示模块推荐给用户的至少一个输入内容。在通信会话期间，还结合至少一个用户输入，提示用户选择和使用至少一个输入内容。在本发明的各实施例中，显示模块包括各种元件，包括触摸屏、任何显示屏、图形用户界面模块等中的至少一个。

图2是根据本公开的示例性实施例的示出了用于提供表情识别和跟踪的***[100]元件的框图。消息收发应用模块[112]为用户发起通信会话，并通过发送用于分析用户输入的请求来调用处理模块[110]。随后，处理模块[110]从相机模块[108]寻找输入，一旦处理模块[110]接收用户的图像，则处理模块[110]将用户的图像发送到表情识别模块[116]。由相机模块[108]采集的图像包括用户图像的至少一部分，该至少一部分实时地指示用户的至少一个姿势。表情识别模块[116]持续地跟踪由用户图像指示的用户的至少一个姿势，并分析至少一个姿势以识别用户通过他/她的姿势传达的表情。表情识别模块[116]进一步分析用户的表情的任何变化。表情识别模块[116]还识别表情的类型和程度。例如快乐、悲伤、愤怒等和非常快乐、非常悲伤、非常愤怒等。

在本发明的一个实施例中，消息收发应用模块[112]是与相机模块[108]和处理模块[110]一起支持各种软件应用的执行的应用框架，此类软件应用包括至少一个消息收发应用或任何其他软件应用。例如，消息收发应用模块[112]可支持安装在用户设备中的游戏应用，其中用户作为游戏玩家，可以在玩游戏时表达不同的表情，并相应地向其他玩家发送与正在进行的游戏相关的消息。用户还可通过使用输入模块[118]来表达他们的情绪，输入模块[118]包括键盘、鼠标、操纵杆等中的至少一个。

图3是根据本公开的示例性实施例的示出了用于识别情绪数据的***[100]元件的框图。处理模块[110]将所接收的输入，即至少一个用户输入和用户图像的至少一部分提供给情绪检测模块[114]。如之前所说明的，情绪检测模块[114]持续地跟踪通过输入模块[118]和相机模块[108]接收的用户输入，以识别通过所述输入传达的表情的任何变化。在检测到任何变化的情况下，情绪检测模块[114]分析该变化，并相应地以至少一个情绪数据的形式识别用户的当前情绪。处理模块[110]请求情绪检测模块[114]提供包括用户情绪的类型和程度的情绪数据。情绪检测模块[114]相应地将至少一个情绪数据发送到处理模块[110]，以用于确定之后可推荐给用户的至少一个输入内容。至少一个输入内容，例如表情符号或微笑，在由消息收发应用模块[112]进行的通信会话期间由用户使用。

图4是根据本公开的示例性实施例的示出了基于可用历史和配置文件信息执行动作的***[100]元件的框图。如图所示，配置文件管理模块[104]、数据管理模块[102]和动态内容模块[106]彼此交互，以管理与用户之间的通信会话相关的数据。在多个通信会话期间，基于用户动作和呼叫日志的配置文件信息和历史来管理数据。此外，消息收发应用模块[112]与配置文件管理模块[104]、数据管理模块[102]和动态内容模块[106]交互，以获得用户的配置文件信息和呼叫日志历史，以及与任何更新的配置文件信息和与其他用户的亲缘关系程度相关的任何信息。基于提供给消息收发应用模块[112]的数据和信息，处理模块[110]更新至少一个输入内容并向用户推荐所更新的输入内容。因此，可基于可用历史和配置文件信息向用户推荐至少一个输入内容。

图5a、图5b和图5c示出了根据本公开的示例性实施例的场景，其中向用户给出正在由相机模块[108]完全或部分地采集实时图像的指示。在图5a，图5b和图5c中示出了具有相机模块[108]、显示屏[508]和用户界面[510]的电子通信设备[506]。如之前所公开的，相机模块[108]接收用户的图像[502]的至少一部分。该至少一部分实时地指示用户的至少一个姿势。

图5a示出了由用户的面部表情指示的用户的至少一个姿势。表情识别模块[116]识别与用户的至少一个姿势相关联的至少一个表情。然而，在相机模块[108]未充分采集该至少一部分的情况下，可能无法检测用户的表情。例如，如图5a所示，用户的面部未被阴影区域[504]完全覆盖。阴影区域[504]指示相机模块[108]对用户身体部位的覆盖。在图5a所示的示例中，用户的面部未被相机模块[108]充分采集。因此，在这种情况下，相机模块[108]可能无法检测用户的表情。根据本发明的实施例，在显示屏[508]上提供如下指示，该指示表明相机模块[108]是否充分采集实时图像[502]的至少一部分。用户可相应地将通信设备[506]调节到合适的角度或者控制相机角度，使得图像的足够部分被相机模块[108]覆盖，从而触发由处理模块[110]推荐输入内容的处理。

图5b示出了示例性场景，其中根据面部区域的覆盖区域[504]，方便用户控制如所提出的发明中公开的特征的启动和执行。最初，当用户通过输入模块[510]开始键入输入文本时，相机模块[108]尝试采集用户的面部，用户的面部实时地指示用户的至少一个姿势。用户还可通过他/她的至少一个身体部位做出至少一个姿势，包括面部表情、手部移动、手指移动等。由相机模块[108]采集的至少一个姿势用于检测用户的任何表情。在图5b所示的场景中，相机没有完全采集用户的至少一个身体部位，即他的脸。因此，当未采集用户的完整面部时，相机模块[108]不能检测用户的表情。在这种情况下，通过显示屏[508]或显示模块向用户提供第一指示[512]，第一指示[512]表明相机未检测到用户的完整面部，且还通过GUI(图形用户界面)提示用户将相机调节到准确的位置或角度，以能够识别用户的准确情绪。如果用户在键入用户输入时移动面部(以覆盖整个面部来进行表情检测)，则可以在不中断键入过程的情况下准确地执行基于情绪的格式化。这与需要用户干预以手动格式化文本输入的现有***和方法相比，提供了优点。

图5c示出了能够识别用户的准确情绪的对用户面部的完全覆盖。第二指示[514]提供给用户，表明完全覆盖用户图像的至少一部分，该至少一部分示出了用于指示用户的当前情绪的任何姿势。因此，用户键入的输入与面部表情一起被进一步分析，并由此向用户推荐基于用户情绪的实时输入。

图6示出了根据本公开的示例性实施例的场景，其中提示用户使用基于情绪数据的任何变化而更新的输入。如图所示，用户在单个文本中键入具有多种类型的情绪的文本，且还表达不同的情绪。当用户将他的表情从一种情绪改变成另一种情绪时，表情识别模块[116]相应地实时分析表情的变化，从而确定更新的至少一个输入内容。自动且动态地提示用户使用更新的至少一个输入内容。表情识别模块[116]和情绪检测模块[114]实时地且持续地跟踪用户的姿势和至少一个用户输入，以识别任何变化，随后给用户确定更新的至少一个输入内容。本发明包括动态地对所接收的用户输入进行分割，以提供对用户通过文本输入以及姿势表达的多种情绪的平滑分析，但不会在通信会话期间中断用户的体验。

图7示出了根据本公开的示例性实施例的场景，其中提示用户从基于情绪数据中检测到的变化的、至少一个输入内容的多个选项中进行选择。基于检测到情绪序列，可过滤不同类型的内容以替换文本。多个情绪内容可包括各种选项，例如图像、GIF或视频等，这些选项可具有描绘不同表情层的两个或更多个片段。例如，一个GIF内容可以以有趣的部分开始，并以愤怒的部分结束。在另一示例中，图像可描绘如下会话，其中图像中的第一顶部会话可能是悲伤，随后图像的底部以愤怒的会话结束。如图所示，基于键入的文本，用户可使用一个手指在侧面图标上的滑动手势来查看单个情绪内容，或者使用两个手指的滑动手势来从侧面图标查看多情绪内容。

图8是根据本发明的示例性实施例的示出了用于在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的方法的流程图。在步骤802，实时地接收至少一个用户输入。至少一个用户输入包括但不限于文本输入、语音输入、视频输入和图像输入。此外，还接收用户的图像的至少一部分，其中该至少一部分指示实时地接收的用户的至少一个姿势。至少一个姿势包括但不限于用户的面部表情和行为模式。处理模块[110]配置成分别通过输入模块[118]和相机模块[108]接收至少一个用户输入和用户图像的至少一部分。

在步骤804，识别与用户的至少一个姿势相关联的至少一个表情。至少一个表情由可通信地联接到处理模块[110]的表情识别模块[116]识别。此外，处理模块[110]还可通信地联接到情绪检测模块[114]，情绪检测模块[114]配置成基于至少一个表情和至少一个用户输入来识别至少一个情绪数据。情绪数据与至少一种类型的人类情绪相关，其中至少一种类型的人类情绪具有至少一个程度。根据本发明的实施例，还可基于情绪数据、至少一个表情和至少一个用户输入中的至少一项来格式化至少一个用户输入。至少一个输入的格式化还可基于用户与其他用户的亲缘关系程度。例如，用户可以在与他/她的家人和朋友或商业同事通信时使用不同的内容。与亲缘关系程度相关的信息可由数据管理模块[102]和配置文件管理模块[104]存储。此外，还通过显示模块给用户提供如下指示，该指示表明相机模块[108]是否充分采集实时图像的至少一部分。在相机模块[108]不能采集用户的姿势的情况下，用户可调节他/她的设备的角度，使得指示用户的姿势的用户图像的至少一部分可被充分采集并输入处理模块[110]。

在步骤806，基于至少一个情绪数据，来针对至少一个用户输入确定至少一个输入内容。至少一个输入内容由处理模块[110]确定。根据本发明的实施例，至少一个输入内容包括但不限于图标、表情、视频、音频、图形交换格式(GIF)内容和图像。

在步骤810，通过显示模块，在通信会话期间，结合至少一个用户输入来向用户推荐选择和使用至少一个输入内容。在本发明的一个实施例中，在用户选择正在显示的至少一个输入内容的情况下，进一步建议用户用至少一个内容替换至少一个用户输入。根据本发明的实施例，在通信会话期间，当用户在至少一个文本消息中键入至少一个用户输入时，向用户推荐至少一个输入内容。此外，实时地且持续地跟踪用户的至少一个姿势，以识别任何变化。因此，基于在至少一个姿势中识别的变化来更新情绪数据，并向用户推荐基于更新的情绪数据而更新的至少一个内容。

本发明包括进一步基于对从用户接收的用户输入的分割，来推荐至少一个用户输入。标记从用户接收的至少一个姿势的开始和结束。之后，基于至少一个姿势的开始和结束，自动分割至少一个用户输入以创建一个或多个片段。基于至少一个姿势和至少一个用户输入，针对一个或多个片段中的每个片段识别对应的情绪数据。随后，基于至少一个用户输入的每个片段的对应情绪数据，向用户推荐至少一个输入内容。

图9示出了支持执行本发明的示例性实施例的框架[900]。本发明的***和方法可以在诸如安卓框架、iOS框架等各种兼容框架上实现，这些框架可包括内置AI芯片(NPU-神经处理单元)和更快的机器学习技术。根据本发明的实施例，表情检测和情绪识别可联接到AI服务框架、深度相机以及设置在通信设备中的一个或多个点阵投影仪。例如，AI框架的实现有助于容易地识别用户的表达的每一个微小和微妙的变化；用户的面部移动或面部表情的微小变化。AI框架的实现还有助于实现以更好的精度跟踪用户的表情。

因此，与传统***和方法相比，如本文所述的本发明的特征提供如下技术优势：(1)在用户键入输入时准确地识别用户的情绪，(2)使用用户的表情以及用户输入来确定用户的情绪(即，情绪数据)，(3)基于用户的姿势/表情的变化，对用户输入进行分割，(4)在用户打字时针对一个用户输入推荐多于一个输入内容，(5)使用单次滑动，双次滑动手势以便于用户选择输入内容。

如本文所公开的包括处理模块[110]的各模块，可与至少一个处理器相关联，至少一个处理器配置成执行数据处理、输入/输出处理和/或能够使根据本公开的***[100]工作的任何其他功能。如本文所使用的，“处理器”指的是用于处理指令的任何逻辑电路。处理器可以是专用处理器或多个微处理器，其中一个或多个微处理器可与至少一个控制器、微控制器、特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)电路和任何其他类型的集成电路(IC)等相关联。至少一个处理器可以是存在于***[100]附近的本地处理器。至少一个处理器还可以是位于远程位置的处理器，其处理如本公开所说明的方法步骤。在其他能力方面，处理器还配置成获取并执行存储在存储器或数据存储设备中的计算机可读指令和数据。

根据本发明的实施例，可使用用于存储要执行的指令、任何信息和数据的存储器、任何外部存储设备、内部存储设备来实现数据库，该要执行的指令、任何信息和数据由***[100]使用以在通信会话期间向用户推荐输入选项。如本文所使用的，“存储器”或“存储库”指的是任何非暂时性介质，此类非暂时性介质存储使得机器以特定方式操作的数据和/或指令。存储器可包括易失性存储器或非易失性存储器。非易失性存储器包括例如磁盘、光盘、固态驱动器或者用于存储信息和指令的任何其他存储设备。易失性存储器例如包括动态存储器。存储器可以有单个或多个、可联接或独立存在，并包括对于本领域技术人员来说可能显而易见的其他变型和实现选项。

处理器、存储器和***[100]例如使用通信总线彼此互连。“通信总线”或“总线”包括硬件、软件和通信协议，该硬件、软件和通信协议由总线使用以方便传输数据和/或指令。通信总线便于在这些组件之间传输数据、信息和内容。

虽然在本文中相当强调所公开的实施例，但是应当理解，在不脱离本发明的原理的情况下，可对实施例进行改变。本发明的实施例的这些和其他变化应在本发明的范围内，且应当理解，前述描述内容是说明性的而非限制性的。

Claims

1.一种在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的方法，所述方法包括如下步骤：

通过输入模块[118]实时地接收至少一个用户输入；

通过相机模块[108]接收用户的图像的至少一部分，所述至少一部分实时地指示所述用户的至少一个姿势；

使用表情识别模块[116]识别与所述用户的所述至少一个姿势相关联的至少一个表情；

使用情绪检测模块[114]，基于所述至少一个表情和所述至少一个用户输入，来识别至少一个情绪数据；

使用处理模块[110]，基于所述至少一个情绪数据，来针对所述至少一个用户输入确定至少一个输入内容；以及

使用显示模块，在所述通信会话期间，结合所述至少一个用户输入来向所述用户推荐选择和使用所显示的至少一个输入内容。

2.所述的方法，进一步包括：在所述用户选择所述至少一个内容的事件中，用至少一个内容替换所述至少一个用户输入。

3.所述的方法，进一步包括：基于所述情绪数据、所述至少一个表情和所述至少一个用户输入中的至少一项，来改变所述至少一个用户输入的格式。

4.所述的方法，进一步包括：当所述用户在所述通信会话期间在至少一个文本消息中键入所述至少一个用户输入时，向所述用户建议所述至少一个输入内容。

5.所述的方法，进一步包括：

实时地且持续地跟踪所述用户的所述至少一个姿势，以识别任何变化；

基于在所述至少一个姿势中识别的变化，来更新所述情绪数据；

基于所更新的情绪数据，向所述用户推荐更新的至少一个内容。

6.所述的方法，进一步包括：

标记从所述用户接收的所述至少一个姿势的开始和结束；

基于所述至少一个姿势的开始和结束，自动分割所述至少一个用户输入以创建一个或多个片段；以及

基于所述至少一个姿势和所述至少一个用户输入，来识别所述一个或多个片段中的每个片段的对应情绪数据；以及

基于所述至少一个用户输入的每个片段的对应情绪数据，向所述用户推荐所述至少一个输入内容。

7.所述的方法，其中，所述至少一个用户输入包括文本输入、语音输入、视频输入和图像输入中的至少一个。

8.所述的方法，其中，所述至少一个输入内容包括图标、表情符号、视频、音频、图形交换格式GIF内容和图像中的至少一个。

9.所述的方法，其中，所述至少一个姿势包括但不限于所述用户的面部表情和行为模式。

10.所述的方法，进一步包括：在所述显示屏上给所述用户提供如下指示，所述指示表明所述相机模块[108]是否充分采集所述实时图像的所述至少一部分。

11.所述的方法，其中，所述情绪数据与至少一种类型的人类情绪相关，并且其中，所述至少一种类型的人类情绪具有至少一个程度。

12.所述的方法，进一步包括基于所述情绪数据过滤所述至少一个内容的步骤。

13.一种在通过通信网络的通信会话过程中动态地向用户推荐至少一个输入内容的***[100]，所述***[100]包括：

输入模块[118]，配置成实时地接收至少一个用户输入；

相机模块[108]，配置成接收用户的图像的至少一部分，所述至少一部分实时地指示所述用户的至少一个姿势；

表情识别模块[116]，配置成识别与所述用户的所述至少一个姿势相关联的至少一个表情；

情绪检测模块[114]，配置成基于所述至少一个表情和所述至少一个用户输入，来识别至少一个情绪数据；

处理模块[110]，配置成基于所述至少一个情绪数据，来针对所述至少一个用户输入确定至少一个输入内容；以及

显示模块，配置成在所述通信会话期间，结合所述至少一个用户输入来向所述用户推荐选择和使用所述至少一个输入内容。

14.所述的***[100]，其中，所述处理模块[110]进一步配置成：

基于在所述至少一个姿势中识别的变化，来更新情绪数据；以及

15.所述的***[100]，其中，所述处理模块[110]进一步配置成：

标记从所述用户接收的所述至少一个姿势的开始和结束；

基于所述至少一个姿势的开始和结束，自动执行对所述至少一个用户输入的分割以创建一个或多个片段；以及

16.所述的***[100]，其中，所述至少一个用户输入包括文本输入、语音输入、视频输入和图像输入中的至少一个。

17.所述的***[100]，其中，所述至少一个输入内容包括图标、表情符号、视频、音频、图形交换格式GIF内容和图像中的至少一个。

18.所述的***[100]，其中，所述至少一个姿势包括但不限于所述用户的面部表情和行为模式。

19.所述的***[100]，其中，所述相机模块[108]包括深度相机，所述深度相机能够采集所述用户的所述实时图像的深度信息。

20.所述的***[100]，其中，所述处理模块[110]进一步配置成使用所述显示模块给所述用户提供如下指示，所述指示表明所述相机模块[108]是否充分采集所述实时图像的所述至少一部分。

21.所述的***[100]，其中，所述情绪数据与至少一种类型的人类情绪相关，并且其中，所述至少一种类型的人类情绪具有至少一个程度。

22.所述的***[100]，其中，处理模块[110]进一步配置成基于所述情绪数据过滤所述至少一个内容。

23.所述的***[100]，进一步包括消息收发应用模块[112]，所述消息收发应用模块[112]配置成促进所述通信会话。

24.所述的***[100]，进一步包括数据管理模块[102]，所述数据管理模块[102]配置成管理与所述通信会话相关的至少一个设备上数据。

25.所述的***[100]，进一步包括配置文件管理模块[104]，所述配置文件管理模块[104]配置成提供所述用户的配置文件信息。

26.所述的***[100]，进一步包括动态内容模块[106]，所述动态内容模块[106]配置成搜索任何相关数据，其中，所述相关数据存储在网络上的至少一个在线数据库和至少一个本地数据库中。