CN108334199A - 基于增强现实的移动式多模态交互方法及装置 - Google Patents

基于增强现实的移动式多模态交互方法及装置 Download PDF

Info

Publication number
CN108334199A
CN108334199A CN201810144421.XA CN201810144421A CN108334199A CN 108334199 A CN108334199 A CN 108334199A CN 201810144421 A CN201810144421 A CN 201810144421A CN 108334199 A CN108334199 A CN 108334199A
Authority
CN
China
Prior art keywords
augmented reality
modal
gesture
virtual
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810144421.XA
Other languages
English (en)
Inventor
杜广龙
陈晓丹
张平
李方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810144421.XA priority Critical patent/CN108334199A/zh
Publication of CN108334199A publication Critical patent/CN108334199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/012Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于增强现实的移动式多模态交互方法及装置,该方法包括以下步骤:通过增强现实方式显示人机交互界面,增强现实虚拟场景包括虚拟物体等交互信息;用户通过手势和语音的方式发送交互指令,通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令;用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。本发明的装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器。本发明提供了一种结合增强现实技术与多模态交互的方法及装置,体现以人为中心的思想,自然直观,降低了学习负荷,提高了交互效率。

Description

基于增强现实的移动式多模态交互方法及装置
技术领域
本发明涉及人机交互技术领域,具体涉及一种基于增强现实的移动式多模态交互方法及装置。
背景技术
随着计算机技术的飞速发展,近些年增强现实技术(Augmented Reality,AR)在消费市场上引起了巨大的关注,各种产品层出不穷,掀起了一股视觉革命的浪潮。增强现实技术是一种将真实场景同虚拟场景融合的技术,它的目的是通过计算机图形、图像处理技术实现实景(显示环境或用户影像)与虚景(计算机生成的虚拟环境或虚拟物体)的合成。
同样地,多模态人机交互技术也是目前人机交互领域被广泛研究地研究。多模态人机交互方式应用多个自然交互方式,使人的感知模态得到充分利用,多个交互模态以不同的交互方式协同操作实现更加自由和自然的通信。多模态交互并不是单纯地使用多个通道独立地完成任务,而是通过多通道整合技术将用户不同通道之间的交互信息整合,通过多个通道之间的相互作用形成最终的交互意图,正确地完成任务。
然而,目前的增强现实技术虽然拥有与传统不同的视觉显示方式,以全息的方式提供更多的信息,穿戴式的AR设备也具备了良好的移动性和便携性,但其缺乏自然直观、高效的交互方式,通常只能通过控制器或者简单的语音或手势进行交互,使得用户体验不佳。而目前的多模态交互方式能够统一不同感官模态实现自然直观、高效地交互,但只应用于桌面设备,缺乏良好的便携性和移动性。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于增强现实的移动式多模态交互方法及装置,融合多个感知模态,通过增强现实技术实现信息反馈,将增强现实技术的增强性、便携性和多模态交互的交互性有机结合,实现自然直观、低学习负荷、高交互效率同时具有便携性、移动性的人机交互方式。
根据公开的实施例,本发明的第一方面公开了一种基于增强现实的移动式多模态交互方法,所述的多模态交互方法包括以下步骤:
S1、通过增强现实方式显示人机交互界面,增强现实虚拟场景的交互信息;
S2、用户通过手势和语音的多模态交互方式与增强现实虚拟场景中的虚拟交互对象进行交互;
S3、通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令;
S4、用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。
进一步地,步骤S1中所述的现实虚拟场景包括虚拟交互对象和虚拟信息对象,其中,所述的虚拟交互对象,拥有多模态交互能力和信息表现能力;所述的虚拟信息对象,拥有信息表现能力。
进一步地,步骤S2中通过手势发送交互指令操作,其中,手势的交互对象为增强现实虚拟场景中的虚拟交互对象,交互方式包括:对虚拟交互对象实施点击、拖动或者触碰操作。
进一步地,步骤S2中要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动,需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准,得到两者之间的坐标转换关系,采用张正友标定法计算手势传感器与增强现实显示设备的内参与外参,张正友标定法的透镜模型如下:
其中,s为尺度因子,[u,v,1]T为像素平面坐标,[Xw,Yw,Zw,1]T为世界坐标系的坐标点,[R,T]即矩阵为外参数,R为旋转矩阵,t为平移向量,T表示矩阵的转置,为内参数K, f为摄像机的焦距,[u0,v0]T为摄像机坐标系原点在图像坐标系中的坐标,dx和dy为像素的边长,单位为mm,K=K1K2
根据单应性映射,平面标定板与摄像机所得图像之间的关系如下:
其中r1、r2、r3为旋转矩阵R在x、y、z方向的展开,假设平面标定板上的点在世界坐标系中的Z坐标为0,则式(2)单应性映射关系简化如下:
其中,K[r1r2t]即为单应性矩阵H,令上述式子可以简化为其中:
H=[h1 h2 h3]=λK[r1 r2 t] (10)
根据旋转矩阵的特性,得到如下约束:和‖r1‖=‖r2‖=1,根据式(4)可知:
将式(5)代入上述约束可得:
即每个单应性矩阵能提供2个方程,而内参矩阵包含5个参数,要求解,至少需要3个单应性矩阵,因此需要三幅平面标定板的图片得出三组式(6)用以计算出内参,再根据式(5)内参与外参的关系计算外参数。
进一步地,步骤S3中所述的多模态融合方法采用面向任务的分层融合模型。
进一步地,其特征在于,所述的面向任务的分层融合模型的实现过程如下:通过词法层统一不同通道的输入形式,使用同一原语表达不同通道的同一内容;把来自词法层的原语信息按照语法规范分成表示命令的原语、表示对象的原语、表示对象属性的原语;语义层利用任务驱动机制,最终将原语组合成各种具体的任务。
进一步地,步骤S4中通过增强现实虚拟场景进行信息反馈方法包括:通过虚拟信息对象显示文本和图形信息;通过虚拟交互对象的状态表现。
根据公开的实施例,本发明的第二方面公开了一种基于增强现实的移动式多模态交互装置,所述的多模态交互装置包括手势传感器、PC机、麦克风、增强现实显示设备,其中,所述的势传感器通过支撑结构安装在所述的增强现实显示设备上,其数据接口通过USB数据线的方式与所述的PC机相连,用于捕获控制者的手势位置和姿态;
所述的麦克风,安装在所述的增强现实显示设备上,其数据接口通过USB数据线与PC机相连,用于捕获控制者的语音控制指令;
所述的增强现实显示设备用于渲染和显示增强现实虚拟场景,通过增强现实技术,在真实环境上叠加虚拟场景,提供真实世界无法获取的辅助信息,增强用户对真实世界的感知能力和与真实世界的交互能力;
所述的PC机,用于识别来自手势模态和语音模态的数据并进行多模态融合,所述的PC机将多模态融合指令的交互结果通过无线网络传输至所述的增强现实显示设备,通过增强现实虚拟场景中的虚拟对象实现交互信息的反馈。
进一步地,所述的多模态交互装置还包括WiFi路由器,所述的PC机通过WiFi路由器与所述的增强现实显示设备之间进行无线网络通信。
进一步地,所述的手势传感器采用Leap Motion,所述的增强现实显示设备采用HoloLens。
本发明相对于现有技术具有如下的优点及效果:
1、本发明提供一种基于增强现实的移动式多模态交互方法,能够有效地组织手势模态和语音模态,与传统串行的交互方式不同,实现不同模态之间的并行和协作运行,实现更加自然直观的交互方式。
2、通过手势传感器与增强现实显示设备之间的坐标系配准,能够实现手势与虚拟场景之间的直接交互,无需借助控制器等额外设备,实现用户与增强现实的高效交互。
3、将多模态融合交互的执行结果通过增强现实技术反馈至虚拟场景中,利用增强现实技术的增强性提供立体、直观的反馈信息。
4、本发明提供的一种基于增强现实的移动式多模态交互装置,采用光学透过式增强现实头戴式显示器HoloLens和手势传感器Leap Motion,通过连接机构将两者结合,实现了所述交互设备的便携性和移动性,使得用户在户外、移动工作环境下也能正常实施交互。
附图说明
图1是本发明实施例中的一种基于增强现实的移动式多模态交互方法的交互流程图;
图2是本发明实施例中的一种具体实施场景的交互流程图;
图3是本发明实施例中分层任务模型结构图;
图4是本发明实施例中一般性任务槽结构图;
图5是本发明实施例中多模态融合算法流程图;
图6是本发明实施例中分层任务模型的体系结构图;
图7是本发明实施例中一种基于增强现实的移动式多模态交互装置的组成图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例中分别提供一种基于增强现实的移动式多模态交互方法及装置,实现了自然直观、低学习负荷、高交互效率同时具有便携性、移动性的人机交互方式。通过增强现实方式显示人机交互界面,增强现实虚拟场景包括虚拟物体等交互信息;用户通过手势和语音的方式发送交互指令,通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令;用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。
如图7所示,本实施例中提供的一种基于增强现实的移动式多模态交互装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器,其中:
手势传感器,手势传感器(即附图7中Leap Motion)通过支撑结构安装在增强现实显示设备上,其数据接口通过USB数据线的方式与PC机相连,用于捕获控制者的手势位置和姿态。
PC机,通过USB数据线与手势传感器、麦克风相连,用于识别来自手势模态和语音模态的数据并进行多模态融合;将多模态融合指令的交互结果通过无线网络传输至光学透过式增强现实显示设备,通过增强现实虚拟场景中的虚拟对象实现交互信息的反馈;并通过WiFi路由器与增强现实显示设备之间进行通信。
麦克风,安装在增强现实显示设备上,其数据接口通过USB数据线与PC机相连,用于捕获控制者的语音控制指令;
增强现实显示设备,增强现实显示设备(即附图7中HoloLens)负责渲染和显示增强现实虚拟场景,通过增强现实技术,在真实环境上叠加虚拟场景,提供真实世界无法获取的辅助信息,增强用户对真实世界的感知能力和与真实世界的交互能力;
WiFi路由器,提供PC机与增强现实显示设备之间通信的无线网络环境。
所述的装置按照功能特点又可以分为以下功能模块:增强现实显示模块、手势输入模块、语音输入模块和多模态理解与融合模块。
增强现实显示模块:负责渲染和显示增强现实虚拟场景,主要由光学透过式增强现实眼镜组成,本实施例中采用微软HoloLens设备。通过增强现实技术,在真实环境上叠加虚拟场景,提供真实世界无法获取的辅助信息,增强用户对真实世界的感知能力和与真实世界的交互能力;其自身拥有并维持一个虚拟场景坐标系,同于渲染和处理虚拟场景对象;同时由于所述基于增强现实的移动式多模态交互装置应具备便携性和移动性,增强现实显示模块采用头戴式增强现实显示设备。
手势输入模块:负责手势交互数据的获取和进一步的处理,本实施例采用LeapMotion手势传感器。手势输入模块基于双目摄像机深度成像,用于实现以下步骤:收集获取手部图像。对图像进行手势分割,将手势从图像背景中分割出来。建立手势模型,通过一系列的参数描述手势。提取手势特征,根据建立的模型从手势中提取相应的特征参数参数;其自身拥有手势输入模块坐标系,用于描述手势及手势特征数据;由于所述基于增强现实的移动式多模态交互装置应具备便携性和移动性,手势输入模块采用的手势传感器将安装至增强现实显示模块的头戴式增强现实显示设备上部,其感应范围跟随头戴式增强现实显示设备移动,确保在移动情况下的正常工作。
语音输入模块:负责语音交互数据的获取和进一步的处理,主要由麦克风组成。对语音进行预加重、端点检测等预处理后,去除语音数据中的冗余,提取其特征如梅尔倒谱系数,并以此对统计模型训练,得到语音库,最后通过模式匹配得到识别结果。同样,为了保证所述基于增强现实的移动式多模态交互装置的便携性与移动性,语音输入模块采用的麦克风安装在增强现实显示设备上。
多模态理解和融合模块:多模态理解部分负责将来自设备层的原始信息进行统一处理,把意义相同而形式不同的输入同一为相同的信息表示,从而向语法层提供与设备无关的信息,即交互原语;而多模态融合部分则是基于分层的任务模型,根据用户所策划的任务将不同通道的交互原语填充至对应的任务槽中,最终融合成目标任务。多模态理解和融合模块主要在PC机上实现。
基于上述装置与功能模块的基于增强现实的移动式多模态交互方法的工作流程如图1所示,包括以下步骤:
S1、通过增强现实方式显示人机交互界面,增强现实虚拟场景包括虚拟物体等交互信息。
该步骤S1通过增强现实显示模块将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示;
S2、用户通过手势和语音的多模态交互方式与增强现实虚拟场景中的虚拟交互对象进行交互。
该步骤通过手势输入模块和语音输入模块采用多通道交互方式与增强现实虚拟场景中的虚拟交互对象进行交互;
在步骤S2中,用户的手势直接在虚拟场景中与虚拟交互对象交互,需要将手势数据从手势输入模块的坐标系转换至增强现实虚拟场景坐标系。
要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动,需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准,得到两者之间的坐标转换关系。
本实施例中采用张正友标定法计算手势输入模块与增强现实显示模块的内参与外参,张正友标定法的透镜模型如下:
其中,s为尺度因子,[u,v,1]T为像素平面坐标,[Xw,Yw,Zw,1]T为世界坐标系的坐标点,[R,T]即矩阵为外参数,R为旋转矩阵,t为平移向量,T表示矩阵的转置,为内参数K, f为摄像机的焦距,[u0,v0]T为摄像机坐标系原点在图像坐标系中的坐标,dx和dy为像素的边长,单位为mm,K=K1K2
由于张正友标定法是一种基于平面棋盘格的标定,其变换为一个平面到另一个平面的投影映射,即为单应性映射。
根据单应性映射,平面标定板与摄像机所得图像之间的关系如下:
其中r1、r2、r3为旋转矩阵R在x、y、z方向的展开,假设平面标定板上的点在世界坐标系中的Z坐标为0,则式(2)单应性映射关系简化如下:
其中,K[r1 r2 t]即为单应性矩阵H,令上述式子可以简化为其中:
H=[h1 h2 h3]=λK[r1 r2 t] (4)
根据旋转矩阵的特性,容易得到如下约束:和‖r1‖=‖r2‖=1,根据式(4)容易知道:
将式(5)代入上述约束可得:
即每个单应性矩阵能提供2个方程,而内参矩阵包含5个参数,要求解,至少需要3个单应性矩阵,因此需要三幅平面标定板的图片用以计算出内参,再根据内参与外参的关系计算外参数。
得到增强现实显示模块与手势传感器的内参与外参后,即可以算出两者坐标系之间的转换关系。
设Pvs为增强现实显示模块中某点的空间坐标,pvs为该点在像平面上的投影坐标,Hvs为增强现实显示模块的内参,根据小孔成像模型可得:
pvs=HvsPvs (7)
同理,可以得到:
ph=HhPh (8)
其中设Ph为手势传感器中某点的空间坐标,ph为该点在像平面上的投影坐标,Hh为手势传感器的内参。设点pvs和点ph为空间中同一点,因此可以通过坐标旋转和平移变换实现该点在两个坐标系之间的变换,记为Pvs=RPh+T,其中R为旋转变换,T为平移变换。同时该点的Pvs和Ph的表示可以根据全局坐标系即标定板坐标通过坐标变换得到,如式子Pvs=RvsP+Tvs和Ph=RhP+Th,其中Rvs、Rh、Tvs和Th分别是从全局坐标系到增强现实显示设备摄像机与手势传感器的旋转变换和平移变换,其值可从标定外参矩阵中得到。根据上两式稍加变换可以得到:
根据目标坐标变换关系Pvs=RPh+T可得:
根据式(10)可以得到变换关系,最终能够将坐标从手势传感器坐标系转换到增强现实显示设备摄像机坐标系中,实现两者坐标系的配准。
S3、通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令。
该步骤将手势输入模块与语音输入模块的原始数据交由多模态理解和融合模块进行处理和融合,根据多通道信息生成用户的交互任务;
在步骤S3中,需要对来自不同输入模块各模态数据进行处理并转换成交互原语,根据语义将原语进行分类和组合,形成最终的交互任务。
语音输入模块语音识别的设备层表示是字符串,而手势输入模块设备层则是坐标信息和点击信息,通过多模态理解处理,将不同模态的信息使用共同的数据结构表示,形成交互原语。
如图3所示,多模态融合部分采用分层的任务模型,任务模型是通过任务的桥梁作用,人以任务规划者的身份来有机地组织计算机的行为,从而将计算机的无目的的功能转变成针对目标的实现方法,简单讲就是把人的意图通过任务这种形式传达给计算机,而分层的思想则是将模态信息从具体的设备信息到最终的要填充的语义抽象为设备层、词法层、语法层和语义层4层。
由于采用的为面向任务的多模态融合模型,需要定义一定的结构用以描述交互任务。如图4所示,一般性的任务结构由任务动作和一系列的任务参数组成,而本实施例根据具体实施场景将任务结构定义为任务动作、对象属性结构和参数的形式,某一类任务结构称为任务槽。对象属性结构用于指代所要交互的对象,如本实施例中的交互过程中:语音输入“测量这里到那里的距离”中,“这里”和“那里”即为表示对象属性结构的原语,用于表示对象的位置信息。任务动作是任务结构的核心,以连接不同对象属性和参数,如本实施例中语音输入的“测量”就为任务动作。参数为任务动作所需要的信息,如本实施例中的“测量”需要“距离”参数补充,通过修改参数可以组合不同的任务。需要注意的是不同的任务动作可能对应不同的任务结构,如本实施例中的“测量这里到那里的距离”需要填充一个任务动作、两个对象属性结构和一个参数,而任务“标记这个位置”则只需要填充一个任务和一个对象属性结构即可。根据任务槽的填充状态可以判断一个任务是否应该提交执行,若任务槽仍需要其他信息则等待用户的进一步输入,若任务槽已经填充完毕则立即提交解释执行。
参见图5,图5示出多模态融合算法流程,其步骤包括:
步骤S31,对接收到的输入事件分类,若提取出任务关键字,则转步骤S32。否则,按输入通道分别填入语音时间队列或手势事件队列,并形成参数栈;
步骤S32,根据任务关键字产生相应的任务槽,放入交互上下文中;
步骤S33,在事件队列中以时间相关性、当前交互上下文中的任务的语法规则为约束进行任务槽填充,判断是否填充完整,若完整,则提交解释执行,否则返回等待进一步填充;
步骤S34,对任务进行解释执行,并清空上下文。若解释失败,任务无法执行,抛出异常并记录上下文。
参见图6,图6示出本实施例中采用的分层任务模型的体系结构,其结构包括:事件管理子***,负责接收和管理输入模块的输入信息;工作事件队列,负责用户输入的事件;事件动作转化表,负责将工作事件队列的事件与动作映射;事件参数转化表;事件对象属性转化表;交互上下文,负责管理当前和历史任务槽信息;命令整合器,负责将填充任务槽,整合成任务。
S4、用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。
为了更好地描述本发明提出的基于增强现实的移动式多模态交互方法,下面将具体介绍本发明方法在具体的应用场景中的步骤。图2示出本实施例的一种具体实施场景的交互流程,所述具体实施场景描述了通过本发明所述交互方法获取地图上两点之间距离,其主要步骤包括:
步骤R1,增强现实显示模块将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示。具体的,本实施例的所述具体实施场景的增强现实虚拟场景包括虚拟地图和信息概况。虚拟地图为虚拟交互对象,用户能够通过多模态交互方式进行交互。而信息概况为虚拟信息对象,用于显示该地图显示区域所在的地区、天气、交通情况等;
步骤R2,用户通过语音说出:“测量这里到那里的距离”,同时用户用手点击虚拟场景的虚拟地图的两个位置,分别作为起点和终点;
步骤R3,语音输入模块和手势输入模块将步骤R2的用户的语音和手势原始数据传入多模态理解和融合模块,将原始数据转换为交互原语,并根据语法规则分成不同类别的原语,最后利用任务驱动机制将不同原语组合,形成最终的交互任务,交由***执行;
步骤R4,***完成距离测量任务后,将距离测量返回至虚拟场景中。具体的,信息反馈方式可以为虚拟信息对象以文本的方式显示,或者通过语音播报的方式反馈用户。
本实施例提出的一种基于增强现实的移动式多模态交互方法包括以下步骤:通过增强现实方式显示人机交互界面,增强现实虚拟场景包括虚拟物体等交互信息;用户通过手势和语音的方式发送交互指令,通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令;用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。本实施例提出的一种基于增强现实的移动式多模态交互装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器。
本实施例中,通过增强现实技术将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示。用户通过手势输入模块和语音输入模块采用多通道交互方式与增强现实虚拟场景中的虚拟交互对象进行交互。根据交互产生的原始数据,多模态理解和融合模块进行实现多模态通道交互的融合,生成用户的交互任务。交互任务交由***执行完后,其执行结果返回增强现实虚拟场景,实现交互的反馈。通过利用增强现实技术的信息增强性,扩展用户获取信息的维度。同时又通过多模态融合技术实现多种效应通道的并行和协作,提供了集成而灵活的自然交互方式。依托于增强现实技术的增强性和多模态交互的交互性,提供了一种自然直观、高效的交互方式。
同时又因为本发明提供的一种基于增强现实的移动式多模态交互装置,采用光学透过式增强现实头戴式显示器HoloLens和手势传感器Leap Motion,通过连接机构将两者结合,实现了所述交互设备的便携性和移动性,使得用户在户外、移动工作环境下也能正常实施交互,提供了良好的便携性和移动性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于增强现实的移动式多模态交互方法,其特征在于,所述的多模态交互方法包括以下步骤:
S1、通过增强现实方式显示人机交互界面,增强现实虚拟场景的交互信息;
S2、用户通过手势和语音的多模态交互方式与增强现实虚拟场景中的虚拟交互对象进行交互;
S3、通过多模态融合方法,理解不同模态语义,并融合手势与语音的模态数据,产生多模态融合交互指令;
S4、用户交互指令作用后,其作用结果返回增强现实虚拟场景中,通过场景的变化进行信息反馈。
2.根据权利要求1所述的基于增强现实的移动式多模态交互方法,其特征在于,步骤S1中所述的增强现实虚拟场景包括虚拟交互对象和虚拟信息对象,其中,所述的虚拟交互对象,拥有多模态交互能力和信息表现能力;所述的虚拟信息对象,拥有信息表现能力。
3.根据权利要求1所述的基于增强现实的移动式多模态交互方法,其特征在于,步骤S2中通过手势发送交互指令操作,其中,手势的交互对象为增强现实虚拟场景中的虚拟交互对象,交互方式包括:对虚拟交互对象实施点击、拖动或者触碰操作。
4.根据权利要求3所述的基于增强现实的移动式多模态交互方法,其特征在于,步骤S2中要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动,需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准,得到两者之间的坐标转换关系,采用张正友标定法计算手势传感器与增强现实显示设备的内参与外参,张正友标定法的透镜模型如下:
其中,s为尺度因子,[u,v,1]T为像素平面坐标,[Xw,Yw,Zw,1]T为世界坐标系的坐标点,[R,T]即矩阵为外参数,R为旋转矩阵,t为平移向量,T表示矩阵的转置,为内参数K, f为摄像机的焦距,[u0,v0]T为摄像机坐标系原点在图像坐标系中的坐标,dx和dy为像素的边长,单位为mm,K=K1K2
根据单应性映射,平面标定板与摄像机所得图像之间的关系如下:
其中r1、r2、r3为旋转矩阵R在x、y、z方向的展开,假设平面标定板上的点在世界坐标系中的Z坐标为0,则式(2)单应性映射关系简化如下:
其中,K[r1 r2 t]即为单应性矩阵H,令上述式子可以简化为其中:
H=[h1 h2 h3]=λK[r1 r2 t] (4)
根据旋转矩阵的特性,得到如下约束:和‖r1‖=‖r2‖=1,根据式(4)可知:
将式(5)代入上述约束可得:
即每个单应性矩阵能提供2个方程,而内参矩阵包含5个参数,要求解,至少需要3个单应性矩阵,因此需要三幅平面标定板的图片得出三组式(6)用以计算出内参,再根据式(5)内参与外参的关系计算外参数。
5.根据权利要求1所述的基于增强现实的移动式多模态交互方法,其特征在于,步骤S3中所述的多模态融合方法采用面向任务的分层融合模型。
6.根据权利要求5所述的基于增强现实的移动式多模态交互方法,其特征在于,所述的面向任务的分层融合模型的实现过程如下:通过词法层统一不同通道的输入形式,使用同一原语表达不同通道的同一内容;把来自词法层的原语信息按照语法规范分成表示命令的原语、表示对象的原语、表示对象属性的原语;语义层利用任务驱动机制,最终将原语组合成各种具体的任务。
7.根据权利要求1所述的基于增强现实的移动式多模态交互方法,其特征在于,步骤S4中通过增强现实虚拟场景进行信息反馈方法包括:通过虚拟信息对象显示文本和图形信息;通过虚拟交互对象的状态表现。
8.一种基于增强现实的移动式多模态交互装置,其特征在于,所述的多模态交互装置包括手势传感器、PC机、麦克风、增强现实显示设备,其中,所述的势传感器通过支撑结构安装在所述的增强现实显示设备上,其数据接口通过USB数据线的方式与所述的PC机相连,用于捕获控制者的手势位置和姿态;
所述的麦克风,安装在所述的增强现实显示设备上,其数据接口通过USB数据线与PC机相连,用于捕获控制者的语音控制指令;
所述的增强现实显示设备用于渲染和显示增强现实虚拟场景,通过增强现实技术,在真实环境上叠加虚拟场景,提供真实世界无法获取的辅助信息,增强用户对真实世界的感知能力和与真实世界的交互能力;
所述的PC机,用于识别来自手势模态和语音模态的数据并进行多模态融合,所述的PC机将多模态融合指令的交互结果通过无线网络传输至所述的增强现实显示设备,通过增强现实虚拟场景中的虚拟对象实现交互信息的反馈。
9.根据权利要求8所述的基于增强现实的移动式多模态交互装置,其特征在于,所述的多模态交互装置还包括WiFi路由器,所述的PC机通过WiFi路由器与所述的增强现实显示设备之间进行无线网络通信。
10.根据权利要求8所述的基于增强现实的移动式多模态交互装置,其特征在于,所述的手势传感器采用Leap Motion,所述的增强现实显示设备采用HoloLens。
CN201810144421.XA 2018-02-12 2018-02-12 基于增强现实的移动式多模态交互方法及装置 Pending CN108334199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144421.XA CN108334199A (zh) 2018-02-12 2018-02-12 基于增强现实的移动式多模态交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144421.XA CN108334199A (zh) 2018-02-12 2018-02-12 基于增强现实的移动式多模态交互方法及装置

Publications (1)

Publication Number Publication Date
CN108334199A true CN108334199A (zh) 2018-07-27

Family

ID=62929256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144421.XA Pending CN108334199A (zh) 2018-02-12 2018-02-12 基于增强现实的移动式多模态交互方法及装置

Country Status (1)

Country Link
CN (1) CN108334199A (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109343703A (zh) * 2018-09-10 2019-02-15 中国科学院计算机网络信息中心 信息处理方法、装置、***、存储介质和处理器
CN109395375A (zh) * 2018-09-18 2019-03-01 华南理工大学 一种基于增强现实与移动交互的三维游戏接口设计方法
CN109461351A (zh) * 2018-09-28 2019-03-12 中国科学院苏州生物医学工程技术研究所 三屏交互的增强现实游戏训练***
CN109766003A (zh) * 2018-12-29 2019-05-17 北京诺亦腾科技有限公司 一种vr场景中对象展示方法及装置
CN109782907A (zh) * 2018-12-28 2019-05-21 西安交通大学 一种基于多混合现实设备的虚拟装填协同训练***
CN109976519A (zh) * 2019-03-14 2019-07-05 浙江工业大学 一种基于增强现实的交互显示装置及其交互显示方法
CN110109541A (zh) * 2019-04-25 2019-08-09 广州智伴人工智能科技有限公司 一种多模态交互的方法
CN110286762A (zh) * 2019-06-21 2019-09-27 济南大学 一种具有多模态信息处理功能的虚拟实验平台
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110471531A (zh) * 2019-08-14 2019-11-19 上海乂学教育科技有限公司 虚拟现实中多模态人机对话***和方法
CN111104470A (zh) * 2019-11-19 2020-05-05 青岛海信网络科技股份有限公司 一种电子沙盘和应急平台联动的方法和***
CN111124116A (zh) * 2019-12-18 2020-05-08 佛山科学技术学院 一种虚拟现实中与远距离物体交互方法及***
CN111124236A (zh) * 2018-10-30 2020-05-08 阿里巴巴集团控股有限公司 一种数据处理方法、装置和机器可读介质
CN111167115A (zh) * 2018-11-09 2020-05-19 致伸科技股份有限公司 交互式游戏***
CN111367407A (zh) * 2020-02-24 2020-07-03 Oppo(重庆)智能科技有限公司 智能眼镜交互方法、智能眼镜交互装置及智能眼镜
CN111724485A (zh) * 2020-06-11 2020-09-29 浙江商汤科技开发有限公司 实现虚实融合的方法、装置、电子设备及存储介质
CN111832656A (zh) * 2020-07-17 2020-10-27 复旦大学 医用人机交互辅助***及含该程序的计算机可读存储介质
CN112000219A (zh) * 2020-03-30 2020-11-27 华南理工大学 一种可用于增强现实游戏的可移动式手势交互装置及方法
CN112069834A (zh) * 2020-09-02 2020-12-11 中国航空无线电电子研究所 一种多通道控制指令的整合方法
CN112148120A (zh) * 2020-08-18 2020-12-29 华为技术有限公司 一种显示虚拟界面的方法、设备以及存储介质
CN112486322A (zh) * 2020-12-07 2021-03-12 济南浪潮高新科技投资发展有限公司 一种基于语音识别和手势识别的多模态ar眼镜交互***
CN112527112A (zh) * 2020-12-08 2021-03-19 中国空气动力研究与发展中心计算空气动力研究所 一种多通道沉浸式流场可视化人机交互方法
CN113476835A (zh) * 2020-10-22 2021-10-08 青岛海信电子产业控股股份有限公司 一种画面显示的方法及装置
CN113589929A (zh) * 2021-07-29 2021-11-02 和舆图(北京)科技有限公司 一种基于HoloLens设备的空间距离测量方法及***
US11176910B2 (en) 2018-08-22 2021-11-16 Google Llc Smartphone providing radar-based proxemic context
CN113703583A (zh) * 2021-09-08 2021-11-26 厦门元馨智能科技有限公司 一种多模态交叉融合的虚拟影像融合***、方法、装置
US11204694B2 (en) 2018-08-24 2021-12-21 Google Llc Radar system facilitating ease and accuracy of user interactions with a user interface
CN114167994A (zh) * 2022-02-11 2022-03-11 北京亮亮视野科技有限公司 知识库添加方法、装置、设备及介质
US11314312B2 (en) 2018-10-22 2022-04-26 Google Llc Smartphone-based radar system for determining user intention in a lower-power mode
CN114454814A (zh) * 2022-01-26 2022-05-10 深圳时空科技集团有限公司 一种增强现实的人机交互方法及设备
CN114842146A (zh) * 2022-05-10 2022-08-02 中国民用航空飞行学院 一种民航发动机维修手册与工卡建模方法及可存储介质
US11435468B2 (en) 2018-08-22 2022-09-06 Google Llc Radar-based gesture enhancement for voice interfaces
WO2022183775A1 (zh) * 2021-03-05 2022-09-09 华中师范大学 一种混合增强教学场景中多移动机制融合方法
CN117928519A (zh) * 2024-03-19 2024-04-26 北京理工大学 服务机器人的多传感器融合定位与建图方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339129A (zh) * 2011-09-19 2012-02-01 北京航空航天大学 一种基于语音和手势的多通道人机交互方法
CN104615243A (zh) * 2015-01-15 2015-05-13 深圳市掌网立体时代视讯技术有限公司 一种头戴式多通道交互***及多通道交互方法
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN107194972A (zh) * 2017-05-16 2017-09-22 成都通甲优博科技有限责任公司 一种摄像机标定方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339129A (zh) * 2011-09-19 2012-02-01 北京航空航天大学 一种基于语音和手势的多通道人机交互方法
CN104615243A (zh) * 2015-01-15 2015-05-13 深圳市掌网立体时代视讯技术有限公司 一种头戴式多通道交互***及多通道交互方法
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN107194972A (zh) * 2017-05-16 2017-09-22 成都通甲优博科技有限责任公司 一种摄像机标定方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张翼: "《基于图像特征的增强现实装配技术研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176910B2 (en) 2018-08-22 2021-11-16 Google Llc Smartphone providing radar-based proxemic context
US11435468B2 (en) 2018-08-22 2022-09-06 Google Llc Radar-based gesture enhancement for voice interfaces
US11204694B2 (en) 2018-08-24 2021-12-21 Google Llc Radar system facilitating ease and accuracy of user interactions with a user interface
CN109343703A (zh) * 2018-09-10 2019-02-15 中国科学院计算机网络信息中心 信息处理方法、装置、***、存储介质和处理器
CN109395375A (zh) * 2018-09-18 2019-03-01 华南理工大学 一种基于增强现实与移动交互的三维游戏接口设计方法
CN109214006A (zh) * 2018-09-18 2019-01-15 中国科学技术大学 图像增强的层次化语义表示的自然语言推理方法
CN109461351B (zh) * 2018-09-28 2021-04-02 中国科学院苏州生物医学工程技术研究所 三屏交互的增强现实游戏训练***
CN109461351A (zh) * 2018-09-28 2019-03-12 中国科学院苏州生物医学工程技术研究所 三屏交互的增强现实游戏训练***
US11314312B2 (en) 2018-10-22 2022-04-26 Google Llc Smartphone-based radar system for determining user intention in a lower-power mode
CN111124236B (zh) * 2018-10-30 2023-04-28 斑马智行网络(香港)有限公司 一种数据处理方法、装置和机器可读介质
CN111124236A (zh) * 2018-10-30 2020-05-08 阿里巴巴集团控股有限公司 一种数据处理方法、装置和机器可读介质
CN111167115A (zh) * 2018-11-09 2020-05-19 致伸科技股份有限公司 交互式游戏***
CN109782907A (zh) * 2018-12-28 2019-05-21 西安交通大学 一种基于多混合现实设备的虚拟装填协同训练***
CN109766003A (zh) * 2018-12-29 2019-05-17 北京诺亦腾科技有限公司 一种vr场景中对象展示方法及装置
CN109976519A (zh) * 2019-03-14 2019-07-05 浙江工业大学 一种基于增强现实的交互显示装置及其交互显示方法
CN109976519B (zh) * 2019-03-14 2022-05-03 浙江工业大学 一种基于增强现实的交互显示装置及其交互显示方法
CN110109541B (zh) * 2019-04-25 2022-04-05 广州智伴人工智能科技有限公司 一种多模态交互的方法
CN110109541A (zh) * 2019-04-25 2019-08-09 广州智伴人工智能科技有限公司 一种多模态交互的方法
CN110286762B (zh) * 2019-06-21 2022-11-04 济南大学 一种具有多模态信息处理功能的虚拟实验平台
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110286762A (zh) * 2019-06-21 2019-09-27 济南大学 一种具有多模态信息处理功能的虚拟实验平台
CN110288016B (zh) * 2019-06-21 2021-09-28 济南大学 一种多模态意图融合方法及应用
CN110471531A (zh) * 2019-08-14 2019-11-19 上海乂学教育科技有限公司 虚拟现实中多模态人机对话***和方法
CN111104470A (zh) * 2019-11-19 2020-05-05 青岛海信网络科技股份有限公司 一种电子沙盘和应急平台联动的方法和***
CN111124116A (zh) * 2019-12-18 2020-05-08 佛山科学技术学院 一种虚拟现实中与远距离物体交互方法及***
CN111367407B (zh) * 2020-02-24 2023-10-10 Oppo(重庆)智能科技有限公司 智能眼镜交互方法、智能眼镜交互装置及智能眼镜
CN111367407A (zh) * 2020-02-24 2020-07-03 Oppo(重庆)智能科技有限公司 智能眼镜交互方法、智能眼镜交互装置及智能眼镜
CN112000219A (zh) * 2020-03-30 2020-11-27 华南理工大学 一种可用于增强现实游戏的可移动式手势交互装置及方法
CN112000219B (zh) * 2020-03-30 2022-06-14 华南理工大学 一种可用于增强现实游戏的可移动式手势交互方法
CN111724485A (zh) * 2020-06-11 2020-09-29 浙江商汤科技开发有限公司 实现虚实融合的方法、装置、电子设备及存储介质
CN111724485B (zh) * 2020-06-11 2024-06-07 浙江商汤科技开发有限公司 实现虚实融合的方法、装置、电子设备及存储介质
CN111832656A (zh) * 2020-07-17 2020-10-27 复旦大学 医用人机交互辅助***及含该程序的计算机可读存储介质
CN112148120A (zh) * 2020-08-18 2020-12-29 华为技术有限公司 一种显示虚拟界面的方法、设备以及存储介质
CN112069834A (zh) * 2020-09-02 2020-12-11 中国航空无线电电子研究所 一种多通道控制指令的整合方法
CN113476835B (zh) * 2020-10-22 2024-06-07 海信集团控股股份有限公司 一种画面显示的方法及装置
CN113476835A (zh) * 2020-10-22 2021-10-08 青岛海信电子产业控股股份有限公司 一种画面显示的方法及装置
CN112486322A (zh) * 2020-12-07 2021-03-12 济南浪潮高新科技投资发展有限公司 一种基于语音识别和手势识别的多模态ar眼镜交互***
CN112527112A (zh) * 2020-12-08 2021-03-19 中国空气动力研究与发展中心计算空气动力研究所 一种多通道沉浸式流场可视化人机交互方法
WO2022183775A1 (zh) * 2021-03-05 2022-09-09 华中师范大学 一种混合增强教学场景中多移动机制融合方法
CN113589929A (zh) * 2021-07-29 2021-11-02 和舆图(北京)科技有限公司 一种基于HoloLens设备的空间距离测量方法及***
CN113703583A (zh) * 2021-09-08 2021-11-26 厦门元馨智能科技有限公司 一种多模态交叉融合的虚拟影像融合***、方法、装置
CN114454814A (zh) * 2022-01-26 2022-05-10 深圳时空科技集团有限公司 一种增强现实的人机交互方法及设备
CN114454814B (zh) * 2022-01-26 2023-08-11 深圳时空数字科技有限公司 一种增强现实的人机交互方法及设备
CN114167994B (zh) * 2022-02-11 2022-06-28 北京亮亮视野科技有限公司 知识库添加方法、装置、设备及介质
CN114167994A (zh) * 2022-02-11 2022-03-11 北京亮亮视野科技有限公司 知识库添加方法、装置、设备及介质
CN114842146A (zh) * 2022-05-10 2022-08-02 中国民用航空飞行学院 一种民航发动机维修手册与工卡建模方法及可存储介质
CN117928519A (zh) * 2024-03-19 2024-04-26 北京理工大学 服务机器人的多传感器融合定位与建图方法及***
CN117928519B (zh) * 2024-03-19 2024-07-26 北京理工大学 服务机器人的多传感器融合定位与建图方法及***

Similar Documents

Publication Publication Date Title
CN108334199A (zh) 基于增强现实的移动式多模态交互方法及装置
CN105075246B (zh) 使用镜子暗喻来提供远程沉浸式体验的方法
CN107491174A (zh) 用于远程协助的方法、装置、***及电子设备
Dai Virtual reality for industrial applications
CN106157359B (zh) 一种虚拟场景体验***的设计方法
Wang Augmented reality in architecture and design: potentials and challenges for application
Azuma Overview of augmented reality
US20140176607A1 (en) Simulation system for mixed reality content
MacIntyre et al. Future multimedia user interfaces
CN107566793A (zh) 用于远程协助的方法、装置、***及电子设备
CN106648098B (zh) 一种自定义场景的ar投影方法及***
US11727238B2 (en) Augmented camera for improved spatial localization and spatial orientation determination
KR20090117531A (ko) 혼합현실 구현 시스템 및 그 방법
CN105808071A (zh) 一种显示控制方法、装置和电子设备
CN104656893A (zh) 一种信息物理空间的远程交互式操控***及方法
Jo et al. Chili: viewpoint control and on-video drawing for mobile video calls
CN113506377A (zh) 一种基于虚拟漫游技术的教学培训方法
Zhang et al. The Application of Folk Art with Virtual Reality Technology in Visual Communication.
CN113989462A (zh) 一种基于增强现实的铁路信号室内设备维护***
Siegl et al. An augmented reality human–computer interface for object localization in a cognitive vision system
CN114187426A (zh) 一种地图增强现实***
CN106909222A (zh) Vr显示方法及装置
Zhang et al. Virtual Museum Scene Design Based on VRAR Realistic Interaction under PMC Artificial Intelligence Model
RE Low cost augmented reality for industrial problems
KR102690911B1 (ko) 딥러닝 기반의 모션 인식에 의한 키네틱 조형물의 상호 작용 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180727

RJ01 Rejection of invention patent application after publication