CN113157241A

CN113157241A - 交互设备、交互装置及交互***

Info

Publication number: CN113157241A
Application number: CN202110482187.3A
Authority: CN
Inventors: 司马华鹏; 周亚南; 曹志惠; 涂坤; 樊景星; 朱逸飞
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-23

Abstract

本申请实施例提供了一种交互设备、交互装置及交互***，交互设备分别与服务器和显示设备进行通信连接，交互设备包括壳体以及设置于壳体内部的功能模块，功能模块包括：摄像模块，配置为获取目标区域的图像信息；拾音模块，配置为获取目标区域的音频输入信息；控制模块，分别与摄像模块和拾音模块电连接；控制模块配置为将图像信息和/或音频输入信息发送至服务器以供服务器根据图像信息和/或音频输入信息生成显示信息，以及，向摄像模块和拾音模块发送控制指令；传输接口，配置为输出显示信息至显示设备，其中，显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

Description

交互设备、交互装置及交互***

技术领域

本申请涉及语音交互技术领域，具体而言，涉及一种交互设备、交互装置及交互***。

背景技术

随着智能终端的发展，越来越多的服务场所或公共场所，如，银行、商场、展厅等，开始通过具有一定交互功能的大屏终端设备向用户提供服务。上述具有交互功能的大屏终端设备通常而言包括集成于大屏终端设备中摄像头、扬声器、麦克风、显示器以及必要的控制器件等相关部件，大屏终端设备通过上述部件获取相应的信息，并根据预设的指令向用户进行反馈，进而实现与用户之间的交互。

相关技术中，大屏终端设备多采用将所需要的各个部件，如摄像头、扬声器、麦克风、显示器以及必要的控制器件集成于大屏终端设备内部的设计，该设计方式对大屏终端设备的处理单元的性能要求极高，进而造成大屏终端设备的生产成本较为高昂；而且，上述将大屏终端设备整体作为使用对象的方式必然导致对以往不包含交互功能的大屏设备的摒弃，造成了终端使用者的使用成本的过高。

针对相关技术中，采用集成设计的大屏终端设备的使用成本过高且使用过程中与使用场景的适配性欠缺的问题，相关技术中尚未有合理的解决方案。

发明内容

本申请实施例提供了一种交互设备、交互装置及交互***，以至少解决相关技术中采用集成设计的大屏终端设备的使用成本过高且使用过程中与使用场景的适配性欠缺的问题。

在本申请的一个实施例中，提出了一种交互设备，所述交互设备分别与服务器和显示设备进行通信连接，所述交互设备包括壳体以及设置于所述壳体内部的功能模块，所述功能模块包括：摄像模块，配置为获取目标区域的图像信息；拾音模块，配置为获取所述目标区域的音频输入信息；控制模块，分别与所述摄像模块和所述拾音模块电连接；所述控制模块配置为将所述图像信息和/或所述音频输入信息发送至所述服务器以供所述服务器根据所述图像信息和/或所述音频输入信息生成显示信息，以及，向所述摄像模块和所述拾音模块发送控制指令；传输接口，配置为输出所述显示信息至所述显示设备，其中，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

在本申请的另一个实施例中，还提出了一种交互装置，包括上述实施例所述的交互设备和显示模块，其中，所述交互设备配置为，将获取的图像信息和音频输入信息发送至服务器；所述显示模块配置为，对显示信息进行显示，其中，所述显示信息由所述服务器根据所述图像信息和所述音频输入信息生成，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

在本申请的另一个实施例中，还提出了一种交互***，包括上述实施例中所述的交互装置和服务器，其中，所述服务器配置为，根据所述交互设备获取的图像信息和音频输入信息生成显示信息，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，提供一个交互设备，包括壳体和设置于壳体内的功能模块，可以完成与服务器和显示设备之间的信息交互，可以理解为该交互设备构成一个功能盒子，方便携带且功能完善，通过盒子内部的摄像模块、拾音模块、控制模块和传输接口，完成图像和音频信息的采集，以及显示信息和控制指令的生成，只需外接一个显示设备即可完成与服务对象之间的交互过程。解决了相关技术中采用集成设计的大屏终端设备的使用成本过高且使用过程中与使用场景的适配性欠缺的问题。通过本申请实施例，由于交互设备独立于显示设备，因此，对于任意功能或形态的显示设备，均可通过与本申请实施例中的交互设备连接，进而形成可提供相应服务的大屏终端设备。以此，一方面，使用者基于其自身的相关显示设备，通过接入交互设备即可形成可提供相应服务的大屏终端设备，以减少了使用者对过往设备的更新换代，进而改善其使用成本；另一方面，对于部分特殊使用场景下，可直接将交互设备接入该场景下针对性的显示设备以形成可提供相应服务的终端设备，从而可适配于该场景的需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的交互设备结构框图；

图2是根据本申请实施例的一种可选的交互设备的连接示意图；

图3是根据本申请实施例的一种交互设备应用示意图；

图4是根据本申请实施例的一种可选的交互装置结构框图；

图5是根据本申请实施例的一种可选的交互***结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1是根据本申请实施例的一种可选的交互设备结构框图，图2是根据本申请实施例的一种可选的交互设备的连接示意图，如图1和图2所示，本申请实施例提供了一种交互设备1，分别与服务器2和显示设备3进行通信连接，交互设备1包括壳体11以及设置于壳体内部的功能模块12，功能模块12包括：

摄像模块121，配置为获取目标区域的图像信息；

拾音模块122，配置为获取目标区域的音频输入信息；

控制模块123，分别与摄像模块121和拾音模块122电连接；控制模块123配置为将图像信息和/或音频输入信息发送至服务器1以供服务器1根据图像信息和/或音频输入信息生成显示信息，以及，向摄像模块121和拾音模块122发送控制指令；

传输接口124，配置为输出显示信息至显示设备3，其中，显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

需要说明的是，本申请实施例中涉及的“电连接”可理解为线路构造中不同元器件之间通过PCB铜箔或导线等可传输电信号的实体线路进行连接的形式，也可以是通过线缆连接相应接口进行有线信号传输与控制，也可以通过蓝牙、射频、WIFI或其它无线信号方式实现无线信号传输与控制。

需要说明的是，目标区域可以是交互设备1和显示设备3所在位置的周边区域，可以是以交互设备1为圆心，直径3-10米的圆形区域，也可以是以显示设备3为圆心，直径2-9米的圆形区域，本申请实施例对于区域的形态、大小不做限定。

图像信息或图像展示信息，可以包括静态的图像画面，也可以包括动态的视频，即连续的图像画面。

需要说明的是，上述摄像模块121通常为摄像头以及相应的光学与机械组件。摄像模块121所获取目标区域的图像/视频信息，可以为摄像单元所检测到的用户的人脸信息，也可以为交互设备所设置环境内的环境信息，例如，捕捉某一特定事件下的当前环境的图像信息，或实时采集当前环境的监控视频流。基于摄像模块121，可进一步实现人脸检测、人脸捕捉、人脸跟随等计算机视觉处理，结合现有技术中已有的计算机视觉处理技术进行后续分析应用。

上述拾音模块122可以是麦克风阵列。拾音模块122所获取的目标区域的音频输入信息可以为交互设备所设置环境内的环境声音，也可以为拾音模块122所检测到的用户的声音输入。

上述控制模块123通常包括处理器，以及相应的视频编解码单元、音频处理单元、电源单元、通信与WIFI单元、OTA(Over the Air，空中下载)单元等。其中，视频编解码单元可对于摄像模块获取的视频流进行编码以发送至服务器，也可对于服务器下发的视频流进行解码后通过传输端口发送至显示设备；音频处理单元通常包括语音识别、硬件降噪、软件降噪以及VAD(Voice Activity Detection，语音活动检测)功能单元等，音频处理单元通过对拾音模块122获取的音频输入信息进行处理，以实现降噪、唤醒词识别等操作，同时，音频处理单元还可以对音频输入信息进行A/D转换，对音频输出信息进行D/A转换等；电源单元可实现供电处理，通信与WIFI单元可实现交互设备与服务器的连接，OTA模块可实现本地的固件升级。

上述传输接口124通常为HDMI(High Definition Multimedia Interface，高清多媒体接口)接口或VGA(Video Graphics Array，视频图形阵列)接口，也可通过扩展其它接口或转接器，以实现交互设备与***示设备的连接以及显示信息的输出。

本申请实施例中，显示设备可以为集成显示功能与其它功能的显示器，例如，桌面电脑，平板电脑，电视等，也可以为仅具备显示功能的显示器，例如，液晶显示器，LED屏幕等，本申请实施例对于显示器的呈现方式不做限定，任何可实现显示功能的设备，均可作为本申请实施例中的显示设备。

在一实施例中，交互设备1还包括：

音频输出模块125，设置在壳体11的内部或外部，配置为输出第一音频输出信息，其中，第一音频输出信息由服务器2根据图像信息和音频输入信息生成。音频输出模块125可以为扬声器。

在第一音频输出信息可以包括针对特定场景输出的音乐，也可以是在检测到有服务对象靠近显示设备时输出欢迎语或答案，例如，“Hi，你想去哪里？”“厕所在一楼XXX旁边哦”。

上述交互设备主体，在一示例中，交互设备主体为一盒体，包括壳体11和功能模块12，摄像模块、拾音模块、音频输出模块、控制模块与传输接口均设置于该壳体内部。该示例中，交互设备中的各个部件均集成于该盒体内，交互设备具有更好的集成性，其在使用过程中的部署更为方便灵活。

在另一示例中，交互设备主体为一盒体，包括壳体11和功能模块12，摄像模块、拾音模块、控制模块与传输接口均设置于该盒体中，音频输出模块则设置于该盒体之外。该示例中，音频输出模块与其它部件独立设置，进而避免了音频输出模块输出音频输出信息过程中可能对于拾音模块产生的近场噪声影响，以改善了拾音模块的拾音以及语音识别效果。该示例中，音频输出模块可设置于另一盒体中，也可以直接采用诸如音响等音频输出设备。音频输出模块通常而言，在设置过程中为进一步避免对拾音模块产生的近场噪声影响，可远离交互设备主体设置，例如，对于某显示设备，交互设备主体可设置于显示设备顶部，音频输出模块可设置于显示设备两侧或底部。

图3是根据本申请实施例的一种交互设备应用示意图。如图3所示，图3中的“多模态交互设备”相当于前述“交互设备1”，图3中的“显示单元”相当于前述“显示设备3”。本申请实施例中的交互设备在使用过程中，摄像模块与拾音模块分别获取相应的图像/视频信息与音频输入信息，经控制模块处理后送入服务器，根据预设的语音与视觉算法服务生成相应的显示信息与音频输出信息，服务器将该显示信息与音频输出信息发送至交互设备的控制模块后，进一步由控制模块通过传输接口将显示信息输出至显示器进行显示，并通过音频输出模块输出音频输出信息，以此完成与用户的交互。

需要说明的是，虚拟形象的动作信息可以是与图像展示画面匹配的动作信息，也可以是与音频输出信息匹配的动作信息。虚拟形象可以是虚拟的人物形象，也可以是虚拟的动物形象、卡通形象、神话形象或童话形象。

在一实施例中，控制模块123还配置为，将图像信息和/或音频输入信息发送至服务器以供服务器根据图像信息和音频输入信息生成话术信息，其中，话术信息用于指示虚拟形象用以与服务对象进行交互的话术；

音频输出模块125还配置为，根据话术信息输出虚拟形象与服务对象交互时的第二音频输出信息，其中，第二音频输出信息与虚拟形象的动作信息相对应，虚拟形象的动作信息包括面部动作信息和肢体动作信息。

在一实施例中，控制模块123还配置为，

指示服务器根据图像展示信息在预设的虚拟形象动作数据库中选取与图像展示信息对应的第一动作模块，其中，第一动作模块用于指示展示图像展示信息对应图像时虚拟形象的动作；

指示服务器根据话术信息在虚拟形象动作数据库中选取与话术信息对应的第二动作模块，第二动作模块用于指示按照话术信息与服务对象进行交互时虚拟形象的动作；

控制模块123还配置为，将通过第一动作模块和/或第二动作模块确定的虚拟形象的动作信息通过传输接口发送至显示设备；

其中，虚拟形象动作数据库中包括多个预设的动作模块，其中，每一个动作模块均对应虚拟形象的一个或多个肢体动作和/或面部动作。一个动作模块可以对应虚拟形象的一个肢体动作和/或一个面部动作，或是，对应一套(多个)肢体动作和/或一套(多个)面部动作。

需要说明的是，图像展示信息可以包括静态的图像画面，也可以包括动态的视频，即连续的图像画面。话术信息可以包括在不同的应用场景下设置的话术逻辑规则，虚拟形象的动作信息可以包括介绍产品时的肢体动作和/或面部动作，以及与话术信息对应的在回复用户时使用的肢体动作和/或面部动作。

例如，在金融理财应用领域，图像展示信息可以是根据理财产品的文字介绍和对应的图像素材制作生成的展示画面或视频，可以包括介绍理财产品的展示画面或者包含虚拟形象的展示画面。话术信息可以包括，针对投资者可能的关注点，例如，投资形式、投资周期、预期收益、手续费用、风险程度等，自动生成相应的回复话术，并配合生成图像展示信息。虚拟形象动作信息可以包括，在进行理财产品介绍时对应的肢体动作和/或面部动作，以及与话术信息对应的在回复用户针对理财产品的咨询时使用的肢体动作和/或面部动作。

在教育培训领域，图像展示信息可以是根据培训课程的文字介绍和对应的图像素材制作生成的展示画面或视频，可以包括介绍课程的展示画面或者包含虚拟形象的展示画面。话术信息可以包括，针对培训学员可能的关注点，例如，课程提纲，课程内容，老师简介，课程目的或价值等，自动生成相应的回复话术，并配合生成图像展示信息。虚拟形象动作信息可以包括，在进行培训课程介绍时对应的肢体动作和/或面部动作，以及与话术信息对应的在回复用户针对培训课程的咨询时使用的肢体动作和/或面部动作。

在公共服务领域，例如政府招商部门希望对某个招商引资政策进行推广与说明，图像展示信息可以是根据政策说明的文字介绍和对应的图像素材制作生成的展示画面或视频，可以包括介绍课程的展示画面或者包含虚拟形象的展示画面。话术信息可以包括，针对企业可能的关注点，例如，招商政策的适配对象，政策的生效与截止时间，企业所需办理的材料或手续，企业可享有的政策与税收优惠等，自动生成相应的回复话术，并配合生成图像展示信息。虚拟形象动作信息可以包括，在进行政策宣传时对应的肢体动作和/或面部动作，以及与话术信息对应的在回复企业针对政策的咨询时使用的肢体动作和/或面部动作。

在一实施例中，拾音模块122还配置为，获取目标区域内服务对象输入的语音数据，其中，语音数据包括实时语音数据和/或非实时语音数据；

控制模块123还配置为，指示服务器根据语音数据以及话术信息在虚拟形象动作数据库中选取与语音数据对应的目标第一动作模块和/或目标第二动作模块；

控制模块123还配置为，获取目标第一动作模块和/或目标第二动作模块，并将目标第一动作模块和/或目标第二动作模块通过传输接口推送至显示设备。

在一实施例中，控制模块123还配置为，指示服务器将目标第一动作模块和/或目标第二动作模块对应的目标统一资源定位URL地址发送至控制模块，以令控制模块根据目标URL地址获取目标第一动作模块和/或目标第二动作模块；

其中，URL地址用于指示用于设置有第一动作模块和/或第二动作模块的内容分发网络CDN节点的地址，每个CDN节点对应一URL地址；

控制模块123还配置为，通过传输接口将目标第一动作模块和/或目标第二动作模块发送至显示设备。

需要说明的是，上述实施例中，虚拟形象动作数据库中对应的多个第二动作模块，可分别设置对应的一CDN节点上，该CDN节点对应的URL地址即与该第二动作模块对应。

以下结合前述交互设备的工作方式，以示例性的方式说明上述将目标第二动作模块通过推送至显示设备的过程：

在一示例中，交互设备采用非实时语音功能。该示例中，服务对象针对某一问题进行语音咨询，交互设备内拾音模块集成的自动语音识别技术(Automatic SpeechRecognition，简称为ASR)模块对该语音咨询对应的音频进行语义识别，以确定服务对象的咨询内容对应的咨询文本；服务器集成的智能对话模块中存储有问答规则，智能对话模块即可在预设的问答规则中查询与咨询文本所对应的回答文本。确定回答文本后，即可在虚拟形象动作数据库中确定与该回答文本对应的目标第二动作模块。

交互设备根据上述目标第二动作模块对应的目标URL地址，从对应的CDN节点中将目标第二动作模块下载后发送至显示设备，以在交互设备中将回答文本通过交互设备中集成的从文本到语音(Text To Speech，简称为TTS)模块转化为相应的回答音频并通过音频输出模块进行输出，令虚拟形象按照目标第二动作模块与服务对象交互。

较于相关技术中需要在本地或者服务侧对服务对象交互所需的虚拟形象进行即时渲染再进行推流的方案，上述实施例中的技术方案可显著减少其可能存在的时延以及硬件成本，经试验，上述实施例中的技术方案较于相关技术，实际可减少10至20ms的时延。由于本申请实施例中的交互设备的服务往往存在极高的实时性需求，故上述实施例可显著改善向服务对象提供服务时的用户体验。

需要说明的是，本申请实施例中的交互设备独立于显示设置，因此，对于任意功能或形态的显示单元，均可通过与交互设备连接，进而形成可提供相应服务的交互设备，即相关技术中的大屏终端。以此，大屏终端的使用者可基于其自身的相关显示设备，如平板电脑、液晶显示器、LED屏幕等通过接入本申请实施例中的交互设备形成可提供相应服务的交互装置，以减少使用者对其已有显示设备的更新换代，进而改善其使用成本。同时，对于部分特殊使用场景下，可直接将交互设备接入该场景下针对性的显示设备以形成可提供相应服务的交互装置，从而可适配于该场景的需求。例如，对于部分无法设置体积较大的大屏终端的狭小环境内，可直接将平板电脑或液晶显示器悬挂于墙面，同时悬挂本申请实施例中的交互设备，并令两者连接，以在该环境内快速部署交互装置。

另一方面，对于显示内容的处理性能要求较高的服务形式，例如前述的虚拟形象的处理等，本申请实施例中的交互设备将上述服务的相应处理部署于独立于显示设备的服务器中进行，而令本地的显示设备与交互设备对于硬件的要求降低，一方面进一步控制了硬件成本，另一方面，由于对显示设备与交互设备的处理性能可不做要求，故可在此基础上提供任意形式与处理需求的服务内容，以进一步改善交互设备的服务适配性。

此外，本申请实施例中的交互设备由于相关部件均集成于交互设备内部，故后续维修与升级过程中，仅需对多模态交互设备本身进行相关售后维护，由于交互设备较于相关技术中集成式的大屏终端设备在体积与形态上明显改善，故其相应售后工作也更为便捷。

在本申请的另一个实施例中，还提出了一种交互装置。图4是根据本申请实施例的一种可选的交互装置结构框图，如图4所示，包括上述实施例所述的交互设备和显示模块，其中，交互设备配置为，将获取的图像信息和音频输入信息发送至服务器；显示模块配置为，对显示信息进行显示，其中，显示信息由服务器根据图像信息和音频输入信息生成，显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

在一实施例中，显示模块还配置为：

接收交互设备发送的第一显示信息，其中，第一显示信息为经过交互设备解码处理的显示信息；和/或

接收服务器发送的第二显示信息，其中，第二显示信息为未经解码处理的显示信息。

在一实施例中，显示模块还配置为：

获取用户输入的指令信息，其中，指令信息至少包括以下之一：触控信息，鼠标输入信息，键盘输入信息；

将指令信息发送至交互设备或服务器。

在一实施例中，交互设备还配置为：向服务器发送第一注册请求；在第一注册请求通过后，向服务器发送第一心跳信号以保持与服务器的连接；

显示模块还配置为：向服务器发送第二注册请求；在第二注册请求通过后，向服务器发送第二心跳信号以保持与服务器的连接。

需要说明的是，上述交互装置中，交互设备与显示模块是相互独立的。

上述显示模块即为前述任何可实现显示功能的显示设备。显示单元在工作过程中，在一示例中，可参照上述过程，由交互设备将显示信息通过传输接口发送至显示模块中进行显示，在该示例中显示模块基本不需要进行相应的处理或计算。在另一示例中，可由服务器将生成的显示信息通过无线通信链路直接发送至显示模块中进行显示，该示例中，显示单元需具备一定的处理或计算能力。在另一示例中，可将显示信息中对实时性要求相对较低且数据量较大的部分，如视频流等，由多模态交互设备将显示信息通过传输接口发送至显示模块中进行显示，而对实时性要求相对较高且数据量较小的部分，如文字或图像的显示等，通过无线通信链路直接发送至显示模块中进行显示，以此，既可满足用户交互过程中对文字识别等实时性反馈的需求，又可减少显示单元本身的处理或计算量。

相应的，显示模块在与用户交互过程中，也可以将用户的输入(触控或键盘)，例如触控信息等通过传输接口反馈至交互设备中，并进一步由多模态交互设备发送至服务器进行相应处理；或者，也可以由显示模块直接通过无线通信链路发送至服务器内进行相应处理。

此外，为实现显示模块的管理，显示模块还可向服务器进行注册以及通过心跳信号保持连接，以令服务器可对于各个交互设备对应连接的显示模块进行控制与管理。

在本申请的另一个实施例中，还提出了一种交互***，图5是根据本申请实施例的一种可选的交互***结构框图，如图5所示，交互***包括上述实施例中所述的交互装置和服务器。服务器配置为，根据交互设备获取的图像信息和音频输入信息生成显示信息，显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

在一实施例中，服务器包括：

媒体与资源模块，配置为访问多媒体资源并将多媒体资源发布至内容分发网络；

即时通信模块，配置为实现交互设备和/或服务器与人工坐席之间的消息收发；

语音通信模块，配置为接收、识别以及录制音频数据；

智能对话模块，配置为通过机器人与用户进行交互，其中，机器人为经过训练的神经网络模型；

通话对话中间模块，配置为控制与调度即时通信模块、语音通信模块以及智能对话模块；

视频直播模块，配置为将交互设备获取的图像信息生成实时视频流，并对实时视频流进行保存。

需要说明的是，上述媒体与资源模块中，多媒体资源可包括前述的虚拟形象动作库中的虚拟形象的动作模块，以及图像展示信息，亦或其它可能的图像/视频与音频信息，上述多媒体资源均可设置于相应的CDN节点中，以在控制模块请求时可推送至控制模块，并进一步传输至显示模块进行显示。

上述语音通信模块中存储有预先训练的ASR模型与TTS模型，其中，ASR模型用以识别用户所输入的音频，即将用户所输入的音频转换为相应的文本内容；TTS模型用于将对回答文本转换为音频，并将音频推送至控制模块以进行输出。需要说明的是，在一示例中，上述语音通信模块也可集成于控制模块中，而并非设置在服务器内，在该示例中，由控制模块对用户所输入的音频进行识别，并将识别后的文本传输至服务器中的智能对话模块进行对话处理。

上述即时通信模块连接有后台的人工坐席组，在用户需要人工介入的情形下，即时通信模块可向人工坐席组进行请求，以令人工坐席组分配一人工坐席，即时通信模块进一步实现该人工坐席与服务器以及交互设备之间的消息收发。

上述智能对话模块又可称为BOT模块，该模块中存储有问答规则，即针对用户可能输入的不同查询或咨询内容，提供相应的回答内容。智能对话模块通过预先训练的NLP模型对前述语音通信模块所识别的输入文本进行识别，并根据识别内容在问答规则中选取对应的回答文本反馈至语音通信模块。

上述视频直播模块可在用户允许的情形下，将实时视频流发送至上述人工坐席组，以供人工坐席组实时监控用户的交互状态，以判断用户是否需要进行人工介入，进而在用户存在较大的可能需要人工介入的情形下，主动介入沟通。

在一实施例中，服务器还包括：

管理与控制模块，配置为分别接收交互设备和显示模块发送的注册请求，记录交互设备的显示模块的参数信息，并监控交互设备和显示模块的状态，其中，交互设备包括一个或多个，显示模块包括一个或多个。

下文以某银行提供以数字人(相当于前述“虚拟形象”)为服务形式的大屏终端设备作为示例进行说明。

本示例性实施例提供了一种多模态交互设备(相当于前述“交互设备”)，包括，多模态交互设备主体，多模态交互设备主体内部(相当于前述交互设备内部的“功能模块”)设置有：

摄像单元，配置为获取用户的图像/视频信息；

拾音单元，配置为获取用户的音频输入信息；

音频输出单元，配置为输出音频输出信息；

控制单元，配置为对上述摄像单元、拾音单元以及音频输出单元进行驱动与控制；

传输接口，配置为输出显示信息至显示器，显示信息由服务器根据上述图像/视频信息与音频输入信息生成。

本示例性实施例中，多模态交互设备主体采用将摄像单元、拾音单元、音频输出单元、控制单元与传输接口均设置于一盒体中的结构设计。摄像单元、拾音单元、音频输出单元、控制单元与传输接口的构成参见前述的摄像模块、拾音模块、音频输出模块、控制模块和传输接口。

银行基于自有LED大屏作为显示单元，多模态交互设备通过传输接口与LED大屏之间的连接，进而与LED大屏之间构成本发明中的多模态交互装置。

用户使用多模态交互装置的过程中，可由拾音单元中的麦克风阵列获取用户的语音作为音频输入信息，并经由硬件降噪与软件降噪后，由控制单元中的语音识别模块通过预设的ASR与NLP(Natural Language Processing，自然语言处理)模型等进行语音识别处理，以明确用户所期望的意图或指令；同时，摄像单元可对用户进行人脸检测与跟随，获取用户使用过程中的视频流等视频信息，以进行相应的表情识别等处理。

控制单元将上述处理后的音频输入信息与视频信息发送至部署于云端的云服务器中，服务器根据上述音频输入信息与视频信息的识别结果，以基于预设的语音及视觉规则以生成相应的显示信息与音频输出信息。在一示例中，用户通过语音输入“我在10月20日办理的银行卡还有多久才能办好”，拾音单元中的麦克风阵列获取该语音输入，经识别后确定用户所询问的是业务办理进度，同时，摄像单元获取该用户的人脸信息，通过与用户办理业务时录入的人脸信息进行比对，即可确定用户身份。服务器收到上述拾音单元与摄像单元上传的用户的语音输入与人脸信息后，即可在后台查找该人脸信息对应用户名下的业务办理进度，在查询到相关结果后，即可通过生成相应的显示信息与音频输出信息。本示例中，显示信息为一视频流，具体包括用户办理业务卡的详细进度流程，以及数字人的虚拟形象对该流程的指引，音频输出信息为上述数字人的虚拟形象指引过程中的语音说明。

需要说明的是，本示例中，显示内容包括数字人的虚拟形象对相应流程的指引，该内容的生成涉及到对数字人的虚拟形象相应的计算与驱动。上述相关的数字人的图像与视频处理在实际工程实现过程中依赖于高性能的CPU与GPU处理，对于传统的集成式大屏终端设备，在涉及到类似于数字人等对处理性能需求较大的任务时，需在本地设置高性能硬件，以满足相应的性能需求，随之带来较高的硬件成本。而在本示例中，对数字人的虚拟形象所进行的相应计算与驱动处理由云端完成，本地的显示单元与多模态交互设备均不参与上述处理过程，故其对硬件可不做过高要求。

服务器生成显示信息与音频输出信息后，即可将该显示信息与音频输出信息发送至多模态交互设备，并由多模态交互设备通过传输接口将显示信息发送至显示单元进行显示，同时直接通过音频输出单元中的麦克风播放音频输出信息。在上述示例中，即为将用户办理业务卡的详细进度流程以及数字人的虚拟形象对该流程的指引在LED大屏中进行显示，同时由麦克风播放语音说明，以此形成与用户之间的交互。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种交互设备，其特征在于，所述交互设备分别与服务器和显示设备进行通信连接，所述交互设备包括壳体以及设置于所述壳体内部的功能模块，所述功能模块包括：

摄像模块，配置为获取目标区域的图像信息；

拾音模块，配置为获取所述目标区域的音频输入信息；

控制模块，分别与所述摄像模块和所述拾音模块电连接；所述控制模块配置为将所述图像信息和/或所述音频输入信息发送至所述服务器以供所述服务器根据所述图像信息和/或所述音频输入信息生成显示信息，以及，向所述摄像模块和所述拾音模块发送控制指令；

传输接口，配置为输出所述显示信息至所述显示设备，其中，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

2.根据权利要求1所述的交互设备，其特征在于，所述交互设备还包括：

音频输出模块，设置在所述壳体的内部或外部，配置为输出第一音频输出信息，其中，所述第一音频输出信息由所述服务器根据所述图像信息和所述音频输入信息生成。

3.根据权利要求2所述的交互设备，其特征在于，所述控制模块还配置为，将所述图像信息和/或所述音频输入信息发送至所述服务器以供所述服务器根据所述图像信息和所述音频输入信息生成话术信息，其中，所述话术信息用于指示所述虚拟形象用以与服务对象进行交互的话术；

所述音频输出模块还配置为，根据所述话术信息输出所述虚拟形象与所述服务对象交互时的第二音频输出信息，其中，所述第二音频输出信息与所述虚拟形象的动作信息相对应，所述虚拟形象的动作信息包括面部动作信息和肢体动作信息。

4.根据权利要求3所述的交互设备，其特征在于，所述控制模块还配置为，

指示所述服务器根据所述图像展示信息在预设的虚拟形象动作数据库中选取与所述图像展示信息对应的第一动作模块，其中，所述第一动作模块用于指示展示所述图像展示信息对应图像时所述虚拟形象的动作；

指示所述服务器根据所述话术信息在所述虚拟形象动作数据库中选取与所述话术信息对应的第二动作模块，所述第二动作模块用于指示按照所述话术信息与所述服务对象进行交互时所述虚拟形象的动作；

所述控制模块还配置为，将通过所述第一动作模块和/或所述第二动作模块确定的所述虚拟形象的动作信息通过所述传输接口发送至所述显示设备；

其中，所述虚拟形象动作数据库中包括多个预设的动作模块，其中，每一个所述动作模块均对应所述虚拟形象的一个或多个肢体动作和/或面部动作。

5.根据权利要求4所述的交互设备，其特征在于，所述拾音模块还配置为，获取所述目标区域内所述服务对象输入的语音数据，其中，所述语音数据包括实时语音数据和/或非实时语音数据；

所述控制模块还配置为，指示所述服务器根据所述语音数据以及所述话术信息在所述虚拟形象动作数据库中选取与所述语音数据对应的目标第一动作模块和/或目标第二动作模块；

所述控制模块还配置为，获取所述目标第一动作模块和/或目标第二动作模块，并将所述目标第一动作模块和/或目标第二动作模块通过所述传输接口推送至所述显示设备。

6.根据权利要求5所述的交互设备，其特征在于，所述控制模块还配置为，指示所述服务器将所述目标第一动作模块和/或目标第二动作模块对应的目标统一资源定位URL地址发送至所述控制模块，以令所述控制模块根据所述目标URL地址获取所述目标第一动作模块和/或目标第二动作模块；

其中，URL地址用于指示用于设置有所述第一动作模块和/或所述第二动作模块的内容分发网络CDN节点的地址，每个所述CDN节点对应一URL地址；

所述控制模块还配置为，通过所述传输接口将所述目标第一动作模块和/或目标第二动作模块发送至所述显示设备。

7.一种交互装置，其特征在于，包括权利要求1至6任一项所述的交互设备和显示模块，其中，

所述交互设备配置为，将获取的图像信息和音频输入信息发送至服务器；

所述显示模块配置为，对显示信息进行显示，其中，所述显示信息由所述服务器根据所述图像信息和所述音频输入信息生成，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

8.根据权利要求7所述的交互装置，其特征在于，所述显示模块还配置为：

接收所述交互设备发送的第一显示信息，其中，所述第一显示信息为经过所述交互设备解码处理的显示信息；和/或

接收所述服务器发送的第二显示信息，其中，所述第二显示信息为未经解码处理的显示信息。

9.根据权利要求7所述的交互装置，其特征在于，所述显示模块还配置为：

获取用户输入的指令信息，其中，所述指令信息至少包括以下之一：触控信息，鼠标输入信息，键盘输入信息；

将所述指令信息发送至所述交互设备或所述服务器。

10.根据权利要求7所述的交互装置，其特征在于，

所述交互设备还配置为：向所述服务器发送第一注册请求；在所述第一注册请求通过后，向所述服务器发送第一心跳信号以保持与所述服务器的连接；

所述显示模块还配置为：向所述服务器发送第二注册请求；在所述第二注册请求通过后，向所述服务器发送第二心跳信号以保持与所述服务器的连接。

11.一种交互***，其特征在于，包括权利要求7至10任一项所述的交互装置和服务器，其中，

所述服务器配置为，根据所述交互设备获取的图像信息和音频输入信息生成显示信息，所述显示信息至少包括：虚拟形象的动作信息，和/或，图像展示信息。

12.根据权利要求11所述的交互***，其特征在于，所述服务器包括：

媒体与资源模块，配置为访问多媒体资源并将所述多媒体资源发布至内容分发网络；

即时通信模块，配置为实现所述交互设备和/或所述服务器与人工坐席之间的消息收发；

语音通信模块，配置为接收、识别以及录制音频数据；

智能对话模块，配置为通过机器人与用户进行交互，其中，所述机器人为经过训练的神经网络模型；

通话对话中间模块，配置为控制与调度所述即时通信模块、所述语音通信模块以及所述智能对话模块；

视频直播模块，配置为将所述交互设备获取的图像信息生成实时视频流，并对所述实时视频流进行保存。

13.根据权利要求11所述的交互***，其特征在于，所述服务器还包括：

管理与控制模块，配置为分别接收所述交互设备和所述显示模块发送的注册请求，记录所述交互设备的所述显示模块的参数信息，并监控所述交互设备和所述显示模块的状态，其中，所述交互设备包括一个或多个，所述显示模块包括一个或多个。