CN117221503A - 数字人移动终端全息投影*** - Google Patents

数字人移动终端全息投影*** Download PDF

Info

Publication number
CN117221503A
CN117221503A CN202311475636.7A CN202311475636A CN117221503A CN 117221503 A CN117221503 A CN 117221503A CN 202311475636 A CN202311475636 A CN 202311475636A CN 117221503 A CN117221503 A CN 117221503A
Authority
CN
China
Prior art keywords
digital
mobile terminal
digital person
module
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311475636.7A
Other languages
English (en)
Inventor
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fenghuo Wanjia Technology Co ltd
Original Assignee
Beijing Fenghuo Wanjia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fenghuo Wanjia Technology Co ltd filed Critical Beijing Fenghuo Wanjia Technology Co ltd
Priority to CN202311475636.7A priority Critical patent/CN117221503A/zh
Publication of CN117221503A publication Critical patent/CN117221503A/zh
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例涉及人工智能技术领域,具体涉及一种数字人移动终端全息投影***。该数字人移动终端全息投影***至少包括:移动终端和数字人服务平台;其中,所述移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,并根据所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道;所述数字人服务平台,用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。

Description

数字人移动终端全息投影***
技术领域
本申请属于人工智能技术领域,具体地说,涉及一种数字人移动终端全息投影***。
背景技术
在当前信息通信领域中,随着数字人的逐步被人认知,数字人技术的发展也日新月异,但是数字人的技术发展仍然处于起步阶段。数字人的技术主要集中在数字人生成以及在手机或电脑中播放数字人,移动终端因其便捷的优势发展迅速,而数字人的投影主要还是依靠大型投影设备与电脑的结合来实现,其便捷性较差。
因此,目前亟需一种便捷性较高的数字人投影***。
在背景技术中公开的上述信息仅用于加强对本申请的背景的理解,因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。
发明内容
为解决上述问题,本发明采用如下的技术方案:
一种数字人移动终端全息投影***,至少包括:移动终端和数字人服务平台;其中,
所述移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,并根据所述所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道;
所述数字人服务平台,用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。
在本申请一个可选实施例中,所述全息投影模块至少包括:
多媒体处理芯片,设置于所述移动终端的主板,用于提供数字人的图像、视频、语音计算和处理中的至少一种;
光源模块,设置于所述移动终端的镜头模块,用于为所述数字人的成像提供光源;
镜头模块,设置于所述移动终端的镜头模块,用于对所述光源模块发射出的光学进行控制和调整,以实现数字人的投影成像。
在本申请一个可选实施例中,所述镜头模块至少包括:光栅和镜头。
在本申请一个可选实施例中,所述辅助信息模块至少包括:麦克风以及麦克风处理模块、扬声器以及扬声器处理模块。
在本申请一个可选实施例中,所述数字人应用程序在运行时在图形用户界面提供数字人的交互界面,其中,所述交互界面至少包括:数字人控制触控按钮,用于响应用户控制操作,并基于用户操控控制所述数字人投放或关闭。
在本申请一个可选实施例中,所述交互界面包含多个选择控件,一个选择控件对应一个类型的数字人,所述选择控件用于响应用户的选择操作,并根据所述选择操作从数字人库中确定需要投影的目标数字人;其中,所述数字人库中的各数字人的应用行业不完全相同。
在本申请一个可选实施例中,所述数字人服务平台至少包括:
数字人生产服务***,与所述移动终端的所述全息投影模块通信连接,所述数字人生产服务***用于构建或存储数字人***,并根据所述移动终端通过数字人应用程序发送的所述交互信息确定用于响应所述交互信息的所述交互内容;其中,所述交互内容包括但不限于:动作内容、语音内容和图像内容。
在本申请一个可选实施例中,所述数字人服务平台还包括:
人工智能模块,所述人工智能模块与所述数字人生产服务***通信连接,所述人工智能模块用于对所述数字人生产服务***发送的所述交互信息进行解析,并根据解析内容生成与所述交互信息对应的语音内容和/动作内容。
在本申请一个可选实施例中,所述数字人服务平台还包括:
用户管理模块,用于实现各移动终端对应的用户的接入与管控。
在本申请一个可选实施例中,上述数字人移动终端全息投影***,还包括:
第三方平台,与所述数字人服务平台通信连接,用于基于所述数字人服务平台接入对应的数字人。
本申请实施例提供的数字人移动终端全息投影***至少包括:移动终端和数字人服务平台;其中,所述移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,并根据所述所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道;所述数字人服务平台,用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。第一方面,通过移动终端与数字人服务平台的交互结合,可以实现数字人的投影、展示与交互,相对于传统方式中的大型投影设备便捷性更优。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的数字人移动终端全息投影***的结构示意图;
图2为本申请实施例提供的数字人移动终端全息投影***中全息投影模块的结构示意图;
图3为本申请实施例提供的数字人移动终端全息投影***交互示意图;
图4为本申请实施例提供的数字人移动终端全息投影***中数字人服务平台的结构示意图;
图5为本申请一个实施例提供的数字人语音交互方法的流程图;
图6为本申请一个实施例提供的数字人语音交互方法中在数字人服务平台中的交互示意图;
图7为本申请一个实施例提供的数字人语音交互方法中确定第一语义的流程图;
图8为本申请一个实施例提供的数字人语音交互方法中确定第一语义的解析流程图;
图9为本申请一个实施例提供的数字人语音交互方法中确定第二语音信息并播放的流程图;
图10为本申请一个实施例提供的数字人语音交互方法在移动终端的交互示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在当前信息通信领域中,随着数字人的逐步被人认知,数字人技术的发展也日新月异,但是数字人的技术发展仍然处于起步阶段。数字人的技术主要集中在数字人生成以及在手机或电脑中播放数字人,移动终端因其便捷的优势发展迅速,而数字人的投影主要还是依靠大型投影设备与电脑的结合来实现,其便捷性较差。
因此,目前亟需一种便捷性较高的数字人投影***。
基于此,本申请实施例提供了一种数字人移动终端全息投影***,请参见图,该数字人移动终端全息投影***至少包括:移动终端和数字人服务平台,其中:
该移动终端是指用户操作终端,包括硬件设备与软件***等,本申请实施例对移动终端的硬件及软件均作出了对应改进,以具有对数字人全息投影的服务与处理能力。硬件部分的改进包括:在移动终端的主板部分增加全息投影模块,例如高性能图像/视频处理芯片,高亮度和高分辨率光源、精密投影光栅和镜头等;当然,该移动终端对应的壳体、主板电路布局等也会进行相应的调整,在此不作赘述,可根据实际情况灵活调整。软件模块的改进包括:对手机操作***的改进,例如增设与数字人服务平台的通信接口,以及与其他辅助信息模块之间的通信接口,实现与全息投影模块和辅助信息模块之间的通信等。该移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,例如打开或关闭数字人的全息投影,并根据所述所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道。该移动终端可以为如图1中的手机终端,也可以为其他例如PAD等其他具有光学投影功能的可穿戴设备,本申请实施例不作具体限定,可根据实际情况灵活设定。
所述数字人服务平台用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。该交互信息是指数字人产生的动作信息、语音信息、图像或视频信息等,以及用户产生的动作信息、语音信息、图像或视频信息等,该信息均通过移动终端进行采集并通过该数字人应用程序发送至数字人服务平台。
本申请实施例提供的数字人移动终端全息投影***至少包括:移动终端和数字人服务平台;其中,所述移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,并根据所述所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道;所述数字人服务平台,用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。第一方面,通过移动终端与数字人服务平台的交互结合,可以实现数字人的投影、展示与交互,相对于传统方式中的大型投影设备便捷性更优。
在本申请实施例中,通过在移动终端设置全息投影模块与辅助信息模块打通移动终端与数字人服务平台之间的通信接口,在移动终端提供全息投影支持,以一种新型的通信协议和开放接口实现通过上层数字人应用程序对全息投影模块的打开、投放、关闭等重要操作。同时,相较于传统的大型投影设备需要外接设备外壳、电源、通信线路与设备,本申请实施例全息投影模块只提取最核心的全息投影部分,以较小的功率投影较低像素的方式,实现了移动终端主板驱动并调用全息投影模块,适配于小型的移动终端,且在保障投影效果的前提下更为节能。
本申请实施例将传统以投影机主板等相关硬件驱动的方式来打开投影、投放全息、关闭投影等重要投影操作的能力改造成一种以移动终端上层的应用软件(即数字人应用程序)和移动终端相结合的全新的软硬一体的方式来实现,本申请实施例一方面摒弃了大型投影设备多余的设备空间、大型投影设备主板、硬件驱动投影的方式以及传统全息投影模块占用较大空间的弊端,从而实现全息投影模块的小型化,另一方面又实现了移动终端主板以较低功率驱动并调用全息模块的能力,从而使得在一个较小的移动终端内部实现了全息投影的功能,这样可以以一种更便捷、小型的方式实现了全息的投影。
在本申请一个可选实施例中,本申请实施例中的移动终端内部,操作***与主板、全息模块、扬声器等相关模块进行交互通信协议可以如下:
1)数字人应用程序与操作***之间:改造操作***,使其具备解码播放数字人视频以及根据数字人视频的实际情况调用全息模块以及扬声器的能力,数字人应用程序与操作***之间的协议格式如下:
其中:
会话ID为某个数字人的标识ID,或者数字人应用程序为了标识具体播放的数字人,专门分配的与某个数字人一一对应的ID;
消息序列为同一个会话ID下,需要多个消息传输数字人视频时,标识不同消息的序列ID;
命令类型为数字人投影相关的命令类型,例如可以为以下三种命令:打开全息投影模块(Open)、投影(Projection)、关闭全息模块(Close);当为打开全息投影模块(Open)和关闭全息投影模块(Close)命令时,视频数据、音频数据为0;
消息标记主要两种:取1时表明还有后续消息,取0时表明本消息是最后一条消息,如果没有收到关闭的命令,全息投影模块可以自行关闭;
消息体为数字人具体的多媒体数据,包括视频流数据和音频数据流。
操作***收到以上协议格式的命令时,执行相应的命令:
收到打开全息模块(Open)命令时,通过移动终端中的主板。操控***等驱动打开全息投影模块;
收到投影(Projection)命令时,将视频数据通过主板发送给全息投影模块,通过辅助信息模块进行投影,将音频数据通过主板发送给辅助信息模块通过扬声器进行播放;
收到关闭全息模块(Close)命令时,通过主板驱动关闭全息投影模块。
操作***与主板/全息投影模块之间的协议格式可以采用上述数字人应用程序程序与操作***之间的协议格式,在此不再赘述。
改造后的操作***具有音视频同步的能力,一方面将视频数据通过主板发送给全息投影模块进行投影,另一方面将音频数据通过主板发送给扬声器进行播放,让双方不至于失步。
操作***调用扬声器的协议可以采用移动终端现有通用的协议,只需要可以实现信息交互的目的即可。
请参见图2,在本申请一个可选实施例中,所述全息投影模块至少包括:多媒体处理芯片、光源模块和镜头模块,其中:
该多媒体处理芯片设置于所述移动终端的主板,用于提供数字人的图像、视频、语音计算和处理中的至少一种;实现全息图像/视频复杂的计算和处理,能够将所述数字人服务平台中的所述数字人以全息图像/视频的方式呈现。该多媒体处理芯片可以包括:语音处理模块、图像处理模块、视频处理模块以及动作捕获与处理模块等,在此不作穷举,可根据实际情况灵活设定。当全息投影模块收到操作***的打开指令,并且建立数字人投放通道之后,高性能图像/视频处理芯片处理来自数字人服务平台传过来的数字人视频信息,并调用光源模块产生高亮度和高分辨率光源。
该光源模块设置于所述移动终端的镜头模块,可以产生一个亮度高、色域广且分辨率高的光源,即用于为所述数字人的成像提供光源。
该镜头模块设置于所述移动终端的镜头模块,用于对所述光源模块发射出的光学进行控制和调整,例如能够对光线进行精细化控制和调整,实现光线的分化和重定向,从而以实现数字人的投影成像。该镜头模块通过光源产生的光,将数字人投放至相应的投影空间。该投影空间可以是空间的一个区域,也可以是有全息投影屏所在的一个区域。
本申请实施例通过在全息投影模块中设置多媒体处理芯片、光源模块和镜头模块等,从而硬件上支持数字人的全息成像,增加数字人的交互信息的丰富性,同时提高数字人交互信息的处理全面性,以实现为用户提供更为真实的感官体验效果。
在本申请一个可选实施例中,所述镜头模块至少包括:光栅和镜头。光栅的参数例如可以为:小尺寸(例如25.4 毫米外径,3 毫米厚)的光栅(光谱范围:350nm—2400nm,波前畸变:典型值1/5 wave,更高精度可定制,波前均匀性:<1/40 wave RMS,空间频率:125 lp/mm —-3600lp/mm),镜头的参数,例如可以为:分辨率:19201080、可视角度:168/178°、亮度:400cd/㎡、色彩:167.7m。通过该参数的光栅和镜头可以实现对数字人的较高亮度和较高分辨率的呈现,数字人成像更为真实,提高用户的感官体验。
在本申请一个可选实施例中,所述辅助信息模块至少包括:麦克风以及麦克风处理模块、扬声器以及扬声器处理模块。例如通过麦克风捕获用户的声音,然后将该声音信息通过数字人应用程序发送至数字人服务平台,数字人服务平台进行响应,并生成与该声音信息对应的响应内容,扬声器处理模块将该响应内容进行解析与格式转换后通过扬声器发出,用户听到后即可实现数字人与用户之间的语音互动。本申请实施例从语音的输入、输出以及语音信息的处理三个维度提高对用户声音和数字人之间的交互效果,进而为用户提供更为真实的感官体验效果。
在本申请一个可选实施例中,所述数字人应用程序在运行时在图形用户界面提供数字人的交互界面,其中,所述交互界面至少包括:数字人控制触控按钮,用于响应用户控制操作,并基于用户操控控制所述数字人投放或关闭。该数字人应用程序为上层的数字人服务应用,当用户需要投放某数字人的时候,可以通过该数字人服务应用(可以是APP,或Web,或任何类型的可以与用户进行交互的应用)点击相应的“投放”按钮,实现数字人的投放与交互。当需要关闭数字人时,可以点击该应用内的“关闭”按钮,实现数字人的关闭;该数字人服务应用还可以管理各种类型的数字人,可以以列表的形式展现各种类型的数字人,方便用户选择某一个数字人进行投放与交互。
在本申请一个可选实施例中,所述交互界面包含多个选择控件,一个选择控件对应一个类型的数字人,所述选择控件用于响应用户的选择操作,并根据所述选择操作从数字人库中确定需要投影的目标数字人;其中,所述数字人库中的各数字人的应用行业不完全相同,例如影视行业、传媒行业、游戏行业、金融行业、文旅行业等。通过行业应用模块,提供针对不同行业的数字人,能够支持不同行业的数字人通过该通道进行数字人的投放,进而提高数字人的应用领域与应用范围,且精细度更高。
在本申请一个可选实施例中,所述数字人服务平台至少包括:数字人生产服务***、人工智能模块和用户管理模块,其中:
该数字人生产服务***与所述移动终端的所述全息投影模块通信连接,所述数字人生产服务***用于构建或存储数字人***,并根据所述移动终端通过数字人应用程序发送的所述交互信息确定用于响应所述交互信息的所述交互内容;其中,所述交互内容包括但不限于:动作内容、语音内容和图像内容。该数字人生产服务***:包括建模***、动作捕捉***、渲染平台、解决方案平台等,用于生产出满足各行业需求的数字人。该建模***用于根据移动终端或者第三方平台的数字人需求,可以实时构建与该需求匹配的数字人,例如针对文旅行业的数字人或者在不同场景中提供不同皮肤等,在此不作具体限定,可根据实际情况灵活调整;该动作捕捉***可以用于通过传感器等外设捕获用户的动作,也可以根据移动终端采集的数字人位置信息捕获数字人的动作信息等均可;该渲染平台用于对数字人的光影、色彩等进行渲染,以提高数字人的成像效果。该解决平台可以配置有多套预警方案,针对预设的意外情况配置对应的预警方案,一旦该意外情况被触发,则直接启动匹配的预警方案,从而实现闭环的方案自动处理,稳定更高;同时,还可以将该解决平台设定为开源的,一旦意外情况被触发,可以发出报警信号,以供工作人员根据报警信号确定对应的意外情况,从而及时高效的进行排查,以快速的进行问题解决。
该人工智能模块与所述数字人生产服务***通信连接,所述人工智能模块用于对所述数字人生产服务***发送的所述交互信息进行解析,并根据解析内容生成与所述交互信息对应的语音内容和/动作内容。该人工智能模块为AI能力平台,可以包括:计算机视觉、智能语音、自然语言处理等,生成数字人的语音和动作,识别用户回复的语音和语言,并且根据识别的内容,生成数字人回复给用户的语音和动作(音视频)等,提高数字人与用户的交互智能程度,提高用户的感官体验。
该用户管理模块用于实现各移动终端对应的用户的接入与管控,对各行业客户(商户)进行管理,方便行业客户***(第三方平台)接入数字人服务平台,方便对各用户以及各数字人进行统筹管理与控制。
在本申请一个可选实施例中,该数字人移动终端全息投影***,还包括:第三方平台,其中:
该第三方平台与所述数字人服务平台通信连接,用于基于所述数字人服务平台接入对应的数字人。该第三方平台是指具有数字人需求的第三方平台(商户平台),例如某一文旅公司的运营平台,通过与数字人服务平台的某一文旅数字人进行绑定,数字人服务平台向第三方平台开放全息数字人投放服务,数字人服务平台通过行业客户管理模块向第三方平台开放相应的接口,能够支持第三方的数字人通过该通道进行数字人的投放。用户在移动终端的数字人服务应用程序中开启数字人投影服务,与该文旅数字人进行交互,从而获得文旅讲解、展示以及互动等服务。
请参见图3,以下结合上述所有实施例对本申请实施例提供的数字人移动终端全息投影***的交互过程作简要介绍:
步骤301、用户在移动终端的数字人应用程序点击“投影数字人”按钮(在此之前,数字人应用程序可以有数字人列表,方便用户选择某一个数字人进行投影);
步骤302、移动终端全息投影模块通过移动终端向数字人服务平台获取相应的数字人;
步骤303、数字人服务平台构建相应的数字人,或从之前已经构建好相应的数字人;
步骤304、数字人服务平台返回相应的数字人;
步骤305、移动终端通过操作***、主板,打开全息投影模块;
步骤306、全息投影模块、数字人服务模块与数字人服务平台之间建立数字人投影通道;
步骤307、全息投影模块将数字人投影到投影口对着的空间,空间中展现相应的数字人,数字人服务模块根据数字人播放场景调用手机内的辅助信息模块实现用户与数字人之间的交互;比如数字人说话时,数字人服务模块同时调用扬声器发出声音,用户发出的声音通过麦克风传至数字人服务模块,然后传至数字人服务平台,以此实现用户与数字人之间的交互;
步骤308、数字人交互结束,用户点击数字人应用程序中图形用户界面的“关闭”按钮,可以关闭数字人;
步骤309、移动终端的数字人应用程序向数字人服务平台发送关闭请求;
步骤310、数字人服务平台关闭数字人;
步骤311、数字人服务平台返回相应的响应;
步骤312、移动终端的数字人服务模块通过操作***、主板关闭通道,关闭全息投影投影模块。
在本申请及其实施例的描述中,需要理解的是,术语“顶”、“底”、“高度”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请及其实施例中,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请及其实施例中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
上文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,上文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本申请提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
此外,上述移动终端至少配置有用于在移动终端投放数字人的全息投影模块,以及用于收发语音信息的辅助信息模块,数字人服务平台用于语音信息处理与回复。如图4,数字人服务平台在上述结构中还增加了语料知识库,该语料知识库中包括不同语义内容对应的回复语料。
以下对本申请实施例提供的数字人语音交互方法进行详细说明:
请参见图5,本申请实施例提供的数字人语音交互方法包括如下步骤501-步骤503:
步骤501、调用辅助信息模块接收第一语音信息,并将第一语音信息发送至数字人服务平台。
其中,第一语音信息是指全息投影模块投放的数字人发出的智能语音信息,和/或,用户发出的自然语音信息。本申请实施例中的语音信息可以为声音信息,也可以指声音经过格式转换的数字信息等,在此不作具体限定,可根据实际情况配置为任意声音类信息。
步骤502、在数字人服务平台对第一语音信息进行解析,得到第一语音信息的第一语义。
该第一语义即为第一语音信息所要表达的内容,该第一语义可以采用文本、语音或者其他任意形式进行表征,在此不作具体限定。该解析过程可以采用例如隐马尔科夫模型(HMM)、混合高斯模型(GMM)等,在此不作穷举。
步骤503、在数字人服务平台确定与第一语义匹配的第二语音信息,并将第二语音信息发送至辅助信息模块进行播放。
也就是说,数字人服务平台可以对第一语义进行语料回复,从而实现对用户或数字人发出的第一语音信息进行响应回复,并发送至移动终端的辅助信息模块,以通过该辅助信息模块中的扬声器等进行播放,从而实现在移动终端与数字人的语音互动。
本申请实施例提供的数字人语音交互方法应用于数字人移动终端全息投影***,数字人移动终端全息投影***至少包括:移动终端与数字人服务平台,该数字人语音交互方法包括:调用辅助信息模块接收第一语音信息,并将第一语音信息发送至数字人服务平台,在数字人服务平台对第一语音信息进行解析,得到第一语音信息的第一语义,在数字人服务平台确定与第一语义匹配的第二语音信息,并将第二语音信息发送至辅助信息模块进行播放。
即通过移动终端接收用户或数字人发出的第一语音信息,并通过配置数字人服务平台,在数字人服务平台通过第二语音信息对该第一语音信息进行响应回复,并发送至移动终端的辅助信息模块进行播放,从而实现在移动终端与数字人的语音互动,提供了一种可以实现用户与数字人进行语音交互的方法,能够实现人与移动终端投影的全息数字人之间的语音交互,能够较为真实地感受到远方数字人的存在,更加接近真实的交互方式为用户之间实现即时面对面交流打下基础。同时将单向的数字人投放转换为用户与数字人双向的交互,提供更真实生动的人机交互体验。
请参见图6,在本申请一个可选实施例中,数字人服务平台至少包括:交互逻辑模块、智能语音模块、自然语言处理模块与语料知识库。其中,该交互逻辑模块用于实现移动终端与数字人服务平台之间的通信与交互,例如信息的收发(例如向移动终端下发数字人的语音信息,以及接受并处理来自人类的回复语音信息等),接口的协议配置等。该智能语音模块用于进行智能语音与自然语音之间的转换,其中,智能语音是指数字人发出的语音,自然语音是指用户发出的语音。自然语言处理模块用于语义解析,该自然语言处理模块中配置有语言解析模型,例如WACSP语义解析模型,LR-ASPP模型等,在此不作穷举,只需要可以实现语义解析的目的即可。该语料知识库中包括不同语义内容对应的回复语料,语料知识库为语音交互的数字人进行发言及答复的语料知识库,该库按照人工智能技术组织,供智能语音和自然语言处理模块调用,以实现数字人与自然人的自然交互,该库数据越丰富,则交互越流畅;该库的数据支持自然人与数字人交互,可以通过不断更新实现语料内容的自丰富。
请参见图7,若第一语音信息为智能语音信息,则上述步骤502、在数字人服务平台对第一语音信息进行解析,得到第一语音信息的第一语义,包括如下步骤701-步骤703:
请一并参见图6,步骤701、在数字人服务平台调用交互逻辑模块接收第一语音信息,并将第一语音信息发送至智能语音模块;
步骤702、在智能语音模块将第一语音信息的格式转换为自然语音信息;
步骤703、将格式转换后的第一语音信息发送至自然语言处理模块,并在自然语言处理模块对第一语音信息进行语义解析,得到第一语音信息的第一语义。
本申请实施例在数字人服务平台至少配置了:交互逻辑模块与智能语音模块,基于交互逻辑模块实现语音信息的收发,即实现与移动终端之间的信息交互,然后通过智能语音模块实现自然语言与智能语言之间的转换,最后通过自然语言处理模块对第一语音进行语义解析并基于语料知识库中的语料内容进行响应回复,效率更高,实现了用户的自然语言与数字人的智能语言之间的语音互动;且各个模块相互独立工作,干扰较小,可靠性更高。
在本申请一个可选实施例中,上述步骤503、在数字人服务平台确定与第一语义匹配的第二语音信息,并将第二语音信息发送至辅助信息模块进行播放,包括如下步骤:
在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语音信息,并将第二语音信息发送至辅助信息模块进行播放。
本申请实施例基于数字人服务平台中预先配置的语料知识库进行第一语义匹配内容的确定,可靠性高,且对网络要求较低,效率更高;同时可对该语料知识库不断进行自更新,从而提高语音互动的丰富性。
请参见图8,在本申请一个可选实施例中,上述步骤703、在自然语言处理模块对第一语音信息进行语义解析,得到第一语音信息的第一语义,包括如下步骤801-步骤802:
步骤801、在自然语言处理模块基于预先训练的语言处理模型对第一语音信息进行关键字提取,得到语义关键词;
步骤802、基于语义关键词确定第一语音信息的第一语义。
该语言处理模型是指可以进行关键词提取的神经网络模型,例如TF-IDF模型、TextRank模型等对文本进行关键词提取的模型,还可以为直接对语音进行关键词提取的神经网络模型等均可,在此不作赘述。
本申请实施例先基于预先训练的语言处理模型对第一语音信息进行关键字提取得到语义关键词后,再基于该语义关键词确定第一语音信息的第一语义,可以减少第一语义确定时的数据处理量,进而提高生成第二语音信息的效率,进而提高本申请实施例数字人语音交互方法的互动效率。
请参见图9,在本申请一个可选实施例中,上述步骤在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语音信息,并将第二语音信息发送至辅助信息模块进行播放,包括如下步骤901-步骤902:
步骤901、在数字人服务平台中从语料知识库中确定与第一语义匹配的第二语义信息,并将第二语义信息发送至智能语音模块;
步骤902、在智能语音模块将第二语义信息转换为第二语音信息,并将第二语音信息发送至辅助信息模块进行播放。
请继续参见图6,先基于数字人服务平台中的语料知识库确定第一语义对应的第二语义信息,然后再将该第二语义信息转换为第二语音信息,即该语料知识库中包含的是不同语义之间的对应关系,无需进行语义与语音之间对应关系的转换,该语料知识库的容量减小,从而降低数字人服务平台的存储压力,降低本申请实施例数字人移动终端全息投影***的结构体积。
在本申请一个可选实施例中,上述步骤902、在智能语音模块将第二语义信息转换为第二语音信息,并将第二语音信息发送至辅助信息模块进行播放,包括如下步骤:
在智能语音模块将第二语义信息转换为第二语音信息,并将第二语音信息发送至交互逻辑模块,并基于交互逻辑模块将第二语音信息发送至辅助信息模块进行播放。
即本申请实施例在数字人服务平台中,基于智能语音模块将第二语义信息转换为第二语音信息,然后再通过交互逻辑模块将该第二语音信息发送至移动终端,各个模块相互独立工作,干扰小,可以提高第二语音信息传输的可靠性。
在本申请一个可选实施例中,上述移动终端配置有数字人应用程序,该数字人应用程序的结构与布局等均在上述实施例中已详细阐述,在此不再赘述。对应的,上述步骤503、将第二语音信息发送至辅助信息模块进行播放,包括如下步骤:
将第二语音信息发送至移动终端的数字人应用程序,并基于数字人应用程序调用播放器播放第二语音信息。
即通过移动终端的数字人应用程序调用播放器(例如扬声器等)播放第二语音信息,同时用户可以通过该数字人应用程序实现对数字人的控制,交互更为丰富,操控便捷性也更高。
以上为数字人服务平台中语音信息的交互过程,以下对本申请实施例提供的数字人语音交互方法在移动终端中的交互过程:
请参见图10,用户在移动终端上通过上述的数字人移动终端全息投影***投影相应的数字人之后,移动终端将数字人服务平台中的数字人全息投影至相应的空间;
数字人服务平台的数字人生产服务模块的交互逻辑模块组织数字人相应话术的第二语音信息,并返回至移动终端的数字人应用程序;
移动终端的数字人服务应用通过全息投影模块和辅助信息模块将第二语音信息播放出来;
用户通过辅助信息模块中的麦克风等回复数字人相应的第一语音信息;该第一语音信息通过数字人应用程序发送至数字人服务平台,数字人服务平台根据用户的第一语音信息回复的内容组织自己要回复的内容;
数字人服务平台通过交互逻辑模块返回相应的第二语音信息给移动终端的数字人应用程序;
移动终端的数字人应用程序通过辅助信息模块操作***、主板、扬声器将语音信息播放出来;
如此往复交互,用户与数字人就实现了相应的语音交互。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数字人移动终端全息投影***,其特征在于,至少包括:移动终端和数字人服务平台;其中,
所述移动终端至少包括全息投影模块和辅助信息模块,所述全息投影模块用于接收用户操作指令,并根据所述操作指令控制数字人在空间的投影;所述辅助信息模块用于提供所述数字人与用户之间的信息交互通道;
所述数字人服务平台,用于接收所述数字人与用户的交互信息,并将所述交互信息转换为预设格式的交互内容并发送至所述移动终端的数字人应用程序,以供所述数字人应用程序基于所述交互内容控制所述数字人交互。
2.根据权利要求1所述的数字人移动终端全息投影***,其特征在于,所述全息投影模块至少包括:
多媒体处理芯片,设置于所述移动终端的主板,用于提供数字人的图像、视频、语音计算和处理中的至少一种;
光源模块,设置于所述移动终端的镜头模块,用于为所述数字人的成像提供光源;
镜头模块,设置于所述移动终端的镜头模块,用于对所述光源模块发射出的光学进行控制和调整,以实现数字人的投影成像。
3.根据权利要求2所述的数字人移动终端全息投影***,其特征在于,所述镜头模块至少包括:光栅和镜头。
4.根据权利要求1所述的数字人移动终端全息投影***,其特征在于,所述辅助信息模块至少包括:麦克风以及麦克风处理模块、扬声器以及扬声器处理模块。
5.根据权利要求1所述的数字人移动终端全息投影***,其特征在于,所述数字人应用程序在运行时在图形用户界面提供数字人的交互界面,其中,所述交互界面至少包括:数字人控制触控按钮,用于响应用户控制操作,并基于用户操控控制所述数字人投放或关闭。
6.根据权利要求5所述的数字人移动终端全息投影***,其特征在于,所述交互界面包含多个选择控件,一个选择控件对应一个类型的数字人,所述选择控件用于响应用户的选择操作,并根据所述选择操作从数字人库中确定需要投影的目标数字人;其中,所述数字人库中的各数字人的应用行业不完全相同。
7.根据权利要求1所述的数字人移动终端全息投影***,其特征在于,所述数字人服务平台至少包括:
数字人生产服务***,与所述移动终端的所述全息投影模块通信连接,所述数字人生产服务***用于构建和/或存储数字人***,并根据所述移动终端通过数字人应用程序发送的所述交互信息确定用于响应所述交互信息的所述交互内容;其中,所述交互内容包括但不限于:动作内容、语音内容和图像内容。
8.根据权利要求7所述的数字人移动终端全息投影***,其特征在于,所述数字人服务平台还包括:
人工智能模块,所述人工智能模块与所述数字人生产服务***通信连接,所述人工智能模块用于对所述数字人生产服务***发送的所述交互信息进行解析,并根据解析内容生成与所述交互信息对应的语音内容和/动作内容。
9.根据权利要求7所述的数字人移动终端全息投影***,其特征在于,所述数字人服务平台还包括:
用户管理模块,用于实现各移动终端对应的用户的接入与管控。
10.根据权利要求1所述的数字人移动终端全息投影***,其特征在于,还包括:
第三方平台,与所述数字人服务平台通信连接,用于基于所述数字人服务平台接入对应的数字人。
CN202311475636.7A 2023-11-08 2023-11-08 数字人移动终端全息投影*** Pending CN117221503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311475636.7A CN117221503A (zh) 2023-11-08 2023-11-08 数字人移动终端全息投影***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311475636.7A CN117221503A (zh) 2023-11-08 2023-11-08 数字人移动终端全息投影***

Publications (1)

Publication Number Publication Date
CN117221503A true CN117221503A (zh) 2023-12-12

Family

ID=89035638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311475636.7A Pending CN117221503A (zh) 2023-11-08 2023-11-08 数字人移动终端全息投影***

Country Status (1)

Country Link
CN (1) CN117221503A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519663A (zh) * 2024-01-08 2024-02-06 广州趣丸网络科技有限公司 一种数字人智能生产平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267598A1 (en) * 2013-03-14 2014-09-18 360Brandvision, Inc. Apparatus and method for holographic poster display
CN106502377A (zh) * 2015-09-07 2017-03-15 Lg电子株式会社 移动终端及其控制方法
US20200218198A1 (en) * 2019-01-04 2020-07-09 International Business Machines Corporation Movement control of holographic objects with crown movement of a watch device
CN112669422A (zh) * 2021-01-07 2021-04-16 深圳追一科技有限公司 仿真3d数字人生成方法、装置、电子设备及存储介质
CN116107463A (zh) * 2022-12-23 2023-05-12 南京聚贤信息科技有限公司 一种3d虚拟数字人的交互***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267598A1 (en) * 2013-03-14 2014-09-18 360Brandvision, Inc. Apparatus and method for holographic poster display
CN106502377A (zh) * 2015-09-07 2017-03-15 Lg电子株式会社 移动终端及其控制方法
US20200218198A1 (en) * 2019-01-04 2020-07-09 International Business Machines Corporation Movement control of holographic objects with crown movement of a watch device
CN112669422A (zh) * 2021-01-07 2021-04-16 深圳追一科技有限公司 仿真3d数字人生成方法、装置、电子设备及存储介质
CN116107463A (zh) * 2022-12-23 2023-05-12 南京聚贤信息科技有限公司 一种3d虚拟数字人的交互***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519663A (zh) * 2024-01-08 2024-02-06 广州趣丸网络科技有限公司 一种数字人智能生产平台
CN117519663B (zh) * 2024-01-08 2024-04-26 广州趣丸网络科技有限公司 一种数字人智能生产平台

Similar Documents

Publication Publication Date Title
US10650816B2 (en) Performing tasks and returning audio and visual feedbacks based on voice command
CN115145529B (zh) 语音控制设备的方法及电子设备
US7746986B2 (en) Methods and systems for a sign language graphical interpreter
US8825468B2 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
CN100433828C (zh) 信息处理装置、信息处理方法
EP3435373B1 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
CN110503959B (zh) 语音识别数据分发方法、装置、计算机设备及存储介质
US11995561B2 (en) Universal client API for AI services
CN117221503A (zh) 数字人移动终端全息投影***
WO2022089224A1 (zh) 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
US11282523B2 (en) Voice assistant management
CN101809651A (zh) 提供语音到语音翻译和模拟人类属性的化身的移动无线显示器
CN114697742A (zh) 一种视频录制方法及电子设备
KR20220109373A (ko) 발화 영상 제공 방법
WO2021031862A1 (zh) 一种数据处理方法及其装置
CN117198293B (zh) 数字人语音交互方法、装置、计算机设备和存储介质
CN116229311B (zh) 视频处理方法、装置及存储介质
CN115086888B (zh) 消息通知方法与装置、电子设备
CN109300472A (zh) 一种语音识别方法、装置、设备及介质
CN109640164A (zh) 一种用于多个虚拟现实设备间的播放方法与装置
WO2021202605A1 (en) A universal client api for ai services
CN113157241A (zh) 交互设备、交互装置及交互***
WO2011000749A1 (en) Multimodal interaction on digital television applications
CN117215416B (zh) 移动终端全息交流方法、装置、计算机设备和存储介质
KR102546532B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination