CN111063339A

CN111063339A - 智能交互方法、装置、设备及计算机可读介质

Info

Publication number: CN111063339A
Application number: CN201911096650.XA
Authority: CN
Inventors: 杨扬
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-24

Abstract

本申请公开了一种智能交互方法、装置、设备及计算机可读介质。其中，该方法包括：获取交互场景下的第一交互信息，交互场景为第一用户与第二用户进行实时通讯的场景，第一交互信息是进行实时通讯时对第一用户进行采集得到的媒体信息；获取与第一交互信息对应的第二交互信息，第二交互信息是对媒体信息进行处理得到的、第一用户所表达的交互信息；向第二用户展示第一交互信息和第二交互信息。本发明解决了相关技术中在复杂环境下难以排除或减少背景环境干扰的技术问题。

Description

智能交互方法、装置、设备及计算机可读介质

技术领域

本申请涉及即时通讯技术领域，尤其涉及一种智能交互方法、装置、设备及计算机可读介质。

背景技术

随着通讯技术的迅速发展和互联网的快速普及，越来越多的用户喜欢随时随地的与其他用户分享自己的生活状态，实时通讯成为当今时代主流的沟通交流方式。

现有技术采用实时语音通话、视频通话的方式完成实时通讯。然而，语音通话、视频通话的交流过程都比较单一，在复杂环境下，容易受到背景环境的干扰，造成沟通障碍。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种智能交互方法、装置、设备及计算机可读介质，以至少解决上述“在复杂环境下，容易受到背景环境的干扰”的技术问题，建立了更加有效的交互方式，有效减少了背景环境的干扰，提升在复杂环境下用户的沟通效率。

第一方面，本申请提供了一种智能交互方法，该方法包括以下步骤：获取交互场景下的第一交互信息，其中，交互场景为第一用户与第二用户进行实时通讯的场景，第一交互信息是进行实时通讯时对第一用户进行采集得到的媒体信息；获取与第一交互信息对应的第二交互信息，其中，第二交互信息是对媒体信息进行处理得到的、第一用户所表达的交互信息；向第二用户展示第一交互信息和第二交互信息。

优选地，获取与第一交互信息对应的第二交互信息的步骤，包括：对第一交互信息进行特征提取，得到特征信息；对特征信息进行特征识别，得到识别结果；根据识别结果确定对应的第二交互信息。

优选地，获取交互场景下的第一交互信息的步骤之前，该方法还包括：创建语音识别模型，其中，语音识别模型用于根据输入语音的语音特征识别出输入语音对应的词语；创建动作识别模型，其中，动作识别模型用于根据输入图像的特征点识别出输入图像中用户的动作。

优选地，获取与第一交互信息对应的第二交互信息的步骤，包括：在第一交互信息包括语音信息的情况下，通过语音识别模型识别出语音信息中每个语音段对应的词语，其中，在任一语音段存在多个对应的词语的情况下，任一语音段对应的多个词语的发音相同；将语音信息中每个语音段对应的词语按照语音段在语音信息中的位置，拼接成候选语句；从候选语句中选取出语义符合预设条件的语句作为待展示的字幕，其中，第二交互信息包括待展示的字幕。

优选地，获取与第一交互信息对应的第二交互信息的步骤，还包括：在第一交互信息包括图像信息的情况下，通过动作识别模型识别出图像信息中第一用户的第一动作；从候选动画中选取出用于表示第一动作的目标动画，其中，候选动画中的每个动画用于表示一种动作，第二交互信息包括目标动画。

优选地，该方法还包括：在第一用户输入的第一交互信息发生更新的情况下，将第二交互信息的目标动画中虚拟对象的动作从第一动作调整为第二动作，其中，第一动作为发生更新前的第一交互信息采集到的第一用户的动作，第二动作为发生更新后的第一交互信息采集到的第一用户的动作。

第二方面，本申请提供了一种智能交互装置，包括：

第一获取模块，用于获取交互场景下的第一交互信息，其中，交互场景为第一用户与第二用户进行实时通讯的场景，第一交互信息是进行实时通讯时对第一用户进行采集得到的媒体信息；

第二获取模块，用于获取与第一交互信息对应的第二交互信息，其中，第二交互信息是对媒体信息进行处理得到的、第一用户所表达的交互信息；

展示模块，用于向第二用户展示第一交互信息和第二交互信息。

第三方面，本申请提供了一种智能交互设备，括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面任一所述方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例通过在第一用户与第二用户进行实时通讯时为第二用户增加反映第一用户所表达的、更加直观可视的交互信息，能够在复杂环境下建立更加有效的交互方式，有效减少了背景环境的干扰，不仅提升用户沟通效率，还大大增强了用户在沟通过程中的趣味性，提高用户粘性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种可选的智能交互方法流程图；

图2为本申请实施例提供的一种可选的信息获取流程图；

图3为本申请实施例提供的一种可选的语音信息处理流程图；

图4为本申请实施例提供的一种可选的图像信息处理流程图；

图5为本申请实施例提供的一种智能交互装置示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一方面，本发明实施例提供一种智能交互方法，在实际应用中，可以应用于多用户实时通讯场景，参见图1，该方法包括以下步骤：

S101：获取交互场景下的第一交互信息。

本发明实施例中，交互场景可以包括双人、多人等进行实时通讯的交互场景，可以是普通对话，还可以是直播、远程教育、视频会议等场景。以双人进行实时通讯的交互场景为例，将交互信息的输出方作为第一用户，将交互信息的接收方作为第二用户，可见，在实时通讯场景下第一用户和第二用户是可以互相转化的。将交互信息的输出方即第一用户输出的交互信息作为第一交互信息，第一交互信息可以包括语音通话时的语音信息，还可以包括视频通话时产生的语音、图像信息等媒体信息。

S102：获取与第一交互信息对应的第二交互信息。

本发明实施例中，第二交互信息是对第一交互信息，即第一用户输入的媒体信息进行处理得到的、与第一用户所表达的内容意思相同或相似但是表现形式不同的交互信息。

具体地，参见图2，该步骤又可以包括以下步骤：

S201：对第一交互信息进行特征提取，得到特征信息。

S202：对特征信息进行特征识别，得到识别结果。

S203：根据识别结果确定对应的第二交互信息。

本发明实施例中，可以通过创建语音识别模型，对第一用户输入的语音信息进行处理，即根据输入语音的语音特征识别出该输入语音对应的字、词语和句子。其中，创建语音识别模型可以是基于深度学习建立的模型，比如RNN、CNN等，在此不再赘述。

本发明实施例中，可以通过创建动作识别模型，对第一用户输入的图像信息进行处理，即根据输入图像的特征点识别出输入图像中第一用户的动作。输入的图像信息可以包括第一用户的表情、口型以及肢体动作。其中，创建动作识别模型可以是基于深度学习建立的模型，比如R-CNN、Fast R-CNN等，在此不再赘述。

本发明实施例中，参见图3，在第一交互信息包括语音信息的情况下，获取与第一交互信息对应的第二交互信息的步骤，还可以包括以下步骤：

S301：在第一交互信息包括语音信息的情况下，通过语音识别模型识别出语音信息中每个语音段对应的词语。

具体地，人类的发音具有一定的声学规律，以汉语为例，发音时，每个字与字，词与词之间存在一定的间隔，其中，词与词之间的间隔较为明显，而间隔处没有语音特征，通过语音识别模型可以将上述较为明显的间隔进行划分，从而将语音信息划分为若干语音段，再通过语音特征的识别、比对，将相似度最高的模板筛选出来，得到每个语音段对应的词语，由于同一个发音有若干对应词语，所以此时会存在一个语音段对应多个词语的情况。

S302：将语音信息中每个语音段对应的词语按照语音段在语音信息中的位置，拼接成候选语句。

具体地，语音识别模型在划分语音段时同时记录该语音段在完整语音信息中所在的位置，在语音识别模型将相似度最高的语音段对应的词语筛选出来后，按照所述记录的语音段的位置将对应的词语进行拼接，得到若干候选语句。

S303：从候选语句中选取出语义符合预设条件的语句作为待展示的字幕，其中，第二交互信息包括待展示的字幕。

具体地，语音识别模型在训练时，将人类习惯的表达方式和常用的词语组合方式也作为特征，形成以人类习惯的表达方式和常用组合为特征的预设条件，当语音识别模型得到若干候选语句后，按照所述预设条件对得到的若干候选语句进行相似度匹配，从而选出语义符合预设条件，即符合人类习惯的表达方式和常用组合的语句作为待展示的字幕。字幕的颜色、形状等外观可以根据预设模式随机变化，还可以固定模式单一呈现。

本发明实施例中，参见图4，在第一交互信息包括图像信息的情况下，获取与第一交互信息对应的第二交互信息的步骤，还可以包括以下步骤：

S401：在第一交互信息包括图像信息的情况下，通过动作识别模型识别出图像信息中第一用户的第一动作。

具体地，第一用户输入的图像信息即第一交互信息中可以包括第一用户的表情、口型、肢体动作等图像信息，动作识别模型预先将表情特征、口型轮廓、人体骨架关节点等作为特征进行训练，当图像信息输入时对图像进行识别、特征比对，选出所述图像信息中所述第一用户的第一动作，该第一动作能够表示所述第一用户所要表达的内容。例如，将面部展示开心、愤怒等表情时嘴巴不同的形状、开口程度等特征进行训练，创建以不同形状、不同开口程度的表情特征为阈值划分的“表情包”模板，当输入图像信息时，动作识别模型直接对含有上述特征的图像进行识别、特征比对，筛选出相似度最高的模板作为第一表情动作。又如，将用户说话时口型变化的形状、轮廓作为特征进行训练，创建以不同形状、轮廓变化的口型特征为阈值的口型模板，每个模板对应一个发音，即对应一组同一发音的字、词语，当输入图像信息时，动作识别模型对含有上述特征的图像进行识别、特征比对，筛选出相似度最高的模板，后续再配合语音识别模型的识别结果选出语义符合预设条件，即符合人类习惯的表达方式和常用组合的语句作为待展示的字幕。再如，将捶打、挑衅等动作的肢体骨架关节位置特征作为特征点进行训练，创建以不同肢体骨架关节位置的动作特征为阈值划分的肢体动作模板，当输入图像信息时，动作识别模型直接对含有上述特征的图像进行识别、特征比对，筛选出相似度最高的模板作为第一肢体动作。对表情、口型和肢体动作的识别可以是单一的，即只对一种进行识别，还可以同时对表情、口型和肢体动作进行多种识别。

S402：从候选动画中选取出用于表示第一动作的目标动画。

具体地，候选动画中的每个动画用于表示一种动作，所述第二交互信息包括所述目标动画。在动作识别模型对图像信息进行识别、特征比对得到第一动作时，在预设候选动画中选出对应于第一动作的目标动画，并将其作为待展示动画。例如，在动作识别模型得到了与第一用户表情相似度最高的表情模板后，在预设候选动画中确定与该模板对应的表情动画，并将其作为待展示表情动画。同理，在动作识别模型得到了与第一用户肢体动作相似度最高的肢体动作模板后，在预设候选动画中确定与该模板对应的肢体动作动画，并将其作为待展示动画。

S103：向第二用户展示第一交互信息和第二交互信息。

具体地，将所述第一交互信息和所述第二交互信息同时展示给第二用户，使得第二用户不仅能够获取到第一用户传递的原语音、图像信息，也能通过更直观、更形象的方式获知第一用户所表达的意思。例如，用户A和用户B进行语音通话时，A说了一句话，语音识别模型获取到A输入的语音信息，并对其识别、特征比对，得到待展示字幕，则用户B不仅可以听到用户A的语音信息，还能在通讯设备上同时看到字幕，使得在嘈杂环境下通讯双方也能清楚理解对方表达的意思。又如，用户C和D进行视频通话时，语音识别模型获取C输入的语音信息，得到待展示字幕，动作识别模型获取C输入的图像信息，得到待展示的表情动画和/或肢体动作动画，以及口型模板配合语音识别模型得到待展示字幕，最后再同时向D用户展示C用户的语音信息、图像信息以及字幕和动画，具体的，如用户C说“我爱你”时，用户D能听到用户C的声音，看到用户C的表情和动作，同时能在屏幕上看到“我爱你”的字幕以及类似爱心表达爱意的动画。

在本发明其他实施例中，还可以在第一用户输入的第一交互信息发生更新的情况下，将第二交互信息的目标动画中虚拟对象的动作从第一动作调整为第二动作。

具体地，所述第一动作为发生更新前的所述第一交互信息采集到的所述第一用户的动作，所述第二动作为发生更新后的所述第一交互信息采集到的所述第一用户的动作。所述虚拟对象为用于动画中表达表情、动作的线条、形状等。例如，当第一用户表达委屈时，向第二用户展示委屈的动画，此时第一用户发生情绪变化，表达愤怒，则对该委屈动画中的线条、形状等进行调整，更新为表达愤怒的动画，上述更新过程完整向第二用户展示，从而避免了多次调取、资源浪费的问题。

在本发明其他实施例中，语音信息识别和图像信息识别可以单一进行，也可同时进行。还可以在语音识别模型得到待展示字幕时，对所述字幕进行关键字识别。由该关键字可以确定对应的动画，进而展示给第二用户，如A的对话内容出现“累”，则向B展示睡觉的动画，B说“好好休息”，则向A展示枕头的形象。或者，由该关键字还可以对语音进行放大、回音的效果处理，例如，对话内容出现“你好棒！”，则向第二用户展示时可以对“棒”进行声音放大、回音。

在本发明其他实施例中，第二交互信息还可以是震动。在训练语音识别模型和动作识别模型时可以加入震动条件的训练，当语音信息和/或图像信息达到所述震动条件的阈值时，向第二用户展示第二交互信息时展示震动，所述展示震动可以控制通讯设备进行震动，还可以对通讯设备的界面进行震动效果处理。

在本发明其他实施例中，用户进行实时通讯前还可以设置是否启用增加互动模式，若关闭，则不进行第二交互信息的获取及展示，以及，还可以在实时通讯前判断使用的环境，具体的，本发明技术方案可以作为单独存在的方案，如应用于独立的软件中，还可以植入其他应用，以插件的形式进行展示，如在通讯设备监听到来电时，以浮窗的方式出现，当应用于第三方应用时，需要提前进行适配。

第二方面，本发明实施例还提供了一种智能交互装置，参见图5，该装置包括：第一获取模块51、第二获取模块52以及展示模块53。

第一获取模块51用于获取交互场景下的第一交互信息，并将第一交互信息发送给第二获取模块52以及展示模块53；

第二获取模块52用于接收第一交互信息，并获取与第一交互信息对应的第二交互信息，再将第二交互信息发送给展示模块53；

展示模块53用于接收第一交互信息和第二交互信息，并向第二用户同时展示第一交互信息和第二交互信息。

第三方面，本发明实施例还提供了一种智能交互设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的故障检测方法的步骤。

第四方面，本公开实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述第一方面任一所述故障检测方法。

可以理解的是，本公开第二、第三、第四方面的实施例所提供的装置、设备以及计算机可读介质主要用以或者配置为执行第一方面的实施例所提供的方法。本公开第二、第三、第四方面的实施例中的术语以及相应的实施方式可以参照第一方面的实施例，在此不再赘述。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种智能交互方法，其特征在于，包括：

获取交互场景下的第一交互信息，其中，所述交互场景为第一用户与第二用户进行实时通讯的场景，所述第一交互信息是进行实时通讯时对所述第一用户进行采集得到的媒体信息；

获取与所述第一交互信息对应的第二交互信息，其中，所述第二交互信息是对所述媒体信息进行处理得到的、所述第一用户所表达的交互信息；

向所述第二用户展示所述第一交互信息和所述第二交互信息。

2.根据权利要求1所述的智能交互方法，其特征在于，所述获取与所述第一交互信息对应的第二交互信息的步骤，包括：

对所述第一交互信息进行特征提取，得到特征信息；

对所述特征信息进行特征识别，得到识别结果；

根据所述识别结果确定对应的所述第二交互信息。

3.根据权利要求1所述的智能交互方法，其特征在于，所述获取交互场景下的第一交互信息的步骤之前，所述方法还包括：

创建语音识别模型，其中，所述语音识别模型用于根据输入语音的语音特征识别出所述输入语音对应的词语；

创建动作识别模型，其中，所述动作识别模型用于根据输入图像的特征点识别出所述输入图像中用户的动作。

4.根据权利要求1至3任一所述的智能交互方法，其特征在于，所述获取与所述第一交互信息对应的第二交互信息的步骤，包括：

在所述第一交互信息包括语音信息的情况下，通过语音识别模型识别出所述语音信息中每个语音段对应的词语，其中，在任一语音段存在多个对应的词语的情况下，所述任一语音段对应的多个词语的发音相同；

将所述语音信息中每个语音段对应的词语按照语音段在所述语音信息中的位置，拼接成候选语句；

从所述候选语句中选取出语义符合预设条件的语句作为待展示的字幕，其中，所述第二交互信息包括所述待展示的字幕。

5.根据权利要求1至3任一所述的智能交互方法，其特征在于，所述获取与所述第一交互信息对应的第二交互信息的步骤，还包括：

在所述第一交互信息包括图像信息的情况下，通过动作识别模型识别出所述图像信息中所述第一用户的第一动作；

从候选动画中选取出用于表示所述第一动作的目标动画，其中，所述候选动画中的每个动画用于表示一种动作，所述第二交互信息包括所述目标动画。

6.根据权利要求1所述的智能交互方法，其特征在于，所述方法还包括：

在所述第一用户输入的所述第一交互信息发生更新的情况下，将所述第二交互信息的目标动画中虚拟对象的动作从第一动作调整为第二动作，其中，所述第一动作为发生更新前的所述第一交互信息采集到的所述第一用户的动作，所述第二动作为发生更新后的所述第一交互信息采集到的所述第一用户的动作。

7.一种智能交互装置，其特征在于，包括：

第一获取模块，用于获取交互场景下的第一交互信息，其中，所述交互场景为第一用户与第二用户进行实时通讯的场景，所述第一交互信息是进行实时通讯时对所述第一用户进行采集得到的媒体信息；

第二获取模块，用于获取与所述第一交互信息对应的第二交互信息，其中，所述第二交互信息是对所述媒体信息进行处理得到的、所述第一用户所表达的交互信息；

展示模块，用于向所述第二用户展示所述第一交互信息和所述第二交互信息。

8.一种智能交互设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。

9.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至6中任一所述方法。