CN110895931A - 一种基于语音识别的vr交互***和方法 - Google Patents
一种基于语音识别的vr交互***和方法 Download PDFInfo
- Publication number
- CN110895931A CN110895931A CN201910986351.7A CN201910986351A CN110895931A CN 110895931 A CN110895931 A CN 110895931A CN 201910986351 A CN201910986351 A CN 201910986351A CN 110895931 A CN110895931 A CN 110895931A
- Authority
- CN
- China
- Prior art keywords
- module
- voice
- user
- processing
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000003993 interaction Effects 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000002093 peripheral effect Effects 0.000 claims abstract description 47
- 238000004891 communication Methods 0.000 claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000007654 immersion Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004438 eyesight Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 17
- 230000008447 perception Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000035807 sensation Effects 0.000 description 5
- 235000019615 sensations Nutrition 0.000 description 5
- 238000004088 simulation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 235000019613 sensory perceptions of taste Nutrition 0.000 description 1
- 230000035923 taste sensation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及语音识别***的相关领域,公开了一种基于语音识别的VR交互***,包括云端和VR外设端,云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块,VR外设端包括显示器模块、语音输入模块和语音输入模块,VR外设端也包括通信模块,本发明还公开了一种基于语音识别的VR交互***的方法,包括如下方法步骤:构建知识库对话库;开启云端和VR外设端;用户佩戴VR外设;用户输入;云端处理。本发明有效改善目前现有VR产品交互性差,抽离感强的不足,实现人和虚拟场景人物更自然的交互体验。
Description
技术领域
本发明涉及语音识别***的相关领域,具体为一种基于语音识别的VR交互***和方法。
背景技术
VR,简称虚拟现实技术,虚拟现实技术是仿真技术的一个重要方向是仿真技术与计算机图形学人机接口技术多媒体技术传感技术网络技术等多种技术的集合是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术(VR)主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。传感设备是指三维交互设备。
虚拟现实是由美国vpl公司创建人拉尼尔在20世纪80年代初提出的。其具体内涵是:综合利用计算机图形***和各种现实及控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术。其中,计算机生成的、可交互的三维环境成为虚拟环境,虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真***它利用计算机生成一种模拟多源信息融合的交互式的三维动态视景和实体行为的***仿真使用户沉浸到该环境中。
VR技术在医疗,教育,房地产,设计方面都有广阔的前景。目前VR的交互技术主要还是靠动作捕捉,手势识别,用户的体验性并不好,所以在此情况下,语音交互就成为一个用户很强的诉求。语音识别技术现在主要的分为两个方向,即传统声学模型和深度学习模型。传统的语音识别技术即声学模型,通过提取说话者的音频特征,在一些算法的模拟下,生成一个模型。深度学习模型,是近几年来迅速崛起的技术,目前比较火的是基于深度神经网络的隐马尔可夫模型,该技术基于数据的计算模拟出一个鉴别性模型。随着算法不断进步和硬件的不断升级,深度学习模型的优势也越来越明显,我们采用的也是基于深度学习的语音识别模型,目前基于语音识别模型的现有的VR产品交互性差,抽离感强的不足,不能实现人和虚拟场景人物更自然的交互体验,有待改善。
发明内容
本发明的目的在于提供一种基于语音识别的VR交互***和方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于语音识别的VR交互***,包括云端和VR外设端,所述云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块,所述VR外设端包括显示器模块、语音输入模块和语音输入模块,所述VR外设端也包括通信模块;
所述语音识别模块主要对用户的语音先进行初步的处理,即在语音输入模块的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块和语义识别模块相连;
所述语义识别模块在语音识别模块的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块和场景处理模块相连;
所述场景处理模块分析语义识别模块的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块输出结果,这需要该模块调用存储模块中的知识库进行相关的处理,场景处理模块和存储模块以及显示器模块相连;
所述存储模块用于存储知识库和对话库,场景处理模块根据前一步的结果,将调用存储在存存储模块的所需的对话库知识库输出,对话库通过语音输出模块输出,知识库通过显示器模块进行输出;
所述语音输入模块包括一些音频输入设备,语音输入模块和语音输出模块相连;
所述语音输出模块将存储模块中的结果进行语音输出;
所述通信模块负责外设间的通信。
优选的,所述语音输入模块的音频输入设备包括麦克风。
优选的,所述语音输入模块的设备包括耳机功放。
一种基于语音识别的VR交互***的方法,包括如下方法步骤:
构建知识库对话库:首先把相应的对话库存储于存储模块;
开启云端和VR外设端:开启云端和VR外设端后并保证通信模块正常;
用户佩戴vR外设:用户佩戴佩戴vR外设后能够感受到虚拟场景;
用户输入:用户根据虚拟场景提示或者主动通过音频输入外设,输入语音;
云端处理:通过在云端的处理,用户就会在vR终端,通过耳机接收到应答信息,同时从显示器模块的显示设备获取虚拟场景的应答动作和表情。
优选的,包括基于方法步骤的具体应用,使用时,用户通过麦克风等输入设备输入音频,传输到云端,先利用语音识别模块进行语音识别,初步获取用户信息,然后利用语义识别模块进行语义识别,云端理解用户指令,并推断出用户的意图,然后,根据用户的意图,在场景处理模块中处理,将结果传输给显示器模块;同时调用存储模块中的知识库,将相应的结果返回给VR外设端,通过VR外设端的输出设备,用户就可以听到对话信息,这样用户一边通过显示器模块观看,一边通过语音输入模块以及语音输出模块对应的音频设备收听,获得视觉和听觉的双重反馈,更有沉浸感。
与现有技术相比,本发明的有益效果是:本发明中用户对于虚拟场景中的人物进行交流,可以通过VR外设端上的语音输入模块进行,如mic,也可通过音频转接线或者其他方式传输到云端,云端首先会对传进来的语音信息进行初步处理,这一部分在语音识别模块进行,语音识别模块首先是降噪,去除混响,等去除周围环境中干扰的因素,然后提取语音特征,通过基于深度神经网络的深度学习算法进行分析建模,生成语音模型,然后对用户输入的语音信息进行比对和识别,分析用户语音信息内容和指令信息,在此语音识别基础上,进入到语义识别模块,云端会根据语音识别的基础上,进行NLP分词,关键词分析等,结合上下文环境进而推断出用户可能的意图,进入场景处理模块后,根据语义识别模块中的结果进行场景处理,该模块会调用存储模块中的知识库,进行相应的场景应答,包括图形调节,上下文处理等,反馈到输出上就是虚拟人物的动作变换,这些处理结果将会通过数据线或者其他方式传输给VR外设端上的显示器模块,同时输出相应的语音信息,这里的存储模块包括知识图库,对话库等,云端在场景处理的基础上,将会从存储模块的对话库中,返回应答会话,同时云端将会在场景处理模块进行相关场景处理,根据用户的指令,如做出应答的表情或者动作,从而能够达到视觉听觉的双重感知,使得用户沉浸感大大增强。
本发明有效改善目前现有VR产品交互性差,抽离感强的不足,实现人和虚拟场景人物更自然的交互体验。
附图说明
图1为本发明的模块结构示意图。
图中:1、云端;2、VR外设端;3、语音识别模块;4、语义识别模块;5、场景处理模块;6、存储模块;7、显示器模块;8、语音输入模块;9、语音输出模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1,本发明提供一种技术方案:一种基于语音识别的VR交互***,包括云端1和VR外设端2,云端1包括语音识别模块3、语义识别模块4、场景处理模块5、存储模块6和通信模块,VR外设端2包括显示器模块7、语音输入模块8和语音输入模块8,VR外设端2也包括通信模块;
语音识别模块3主要对用户的语音先进行初步的处理,即在语音输入模块8的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块3和语义识别模块4相连;
语义识别模块4在语音识别模块3的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块4和场景处理模块5相连;
场景处理模块5分析语义识别模块4的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块7输出结果,这需要该模块调用存储模块6中的知识库进行相关的处理,场景处理模块5和存储模块6以及显示器模块7相连;
存储模块6用于存储知识库和对话库,场景处理模块5根据前一步的结果,将调用存储在存存储模块6的所需的对话库知识库输出,对话库通过语音输出模块9输出,知识库通过显示器模块7进行输出;
语音输入模块8包括一些音频输入设备,语音输入模块8和语音输出模块9相连;
语音输出模块9将存储模块6中的结果进行语音输出;
通信模块负责外设间的通信。
进一步的,语音输入模块8的音频输入设备包括麦克风,语音输入模块8的设备包括耳机功放。
基于上述实施例中***的原理方法,包括如下方法步骤:
构建知识库对话库:首先把相应的对话库存储于存储模块6;
开启云端1和VR外设端2:开启云端1和VR外设端2后并保证通信模块正常;
用户佩戴VR外设:用户佩戴佩戴VR外设后能够感受到虚拟场景;
用户输入:用户根据虚拟场景提示或者主动通过音频输入外设,输入语音;
云端1处理:通过在云端1的处理,用户就会在VR终端,通过耳机接收到应答信息,同时从显示器模块7的显示设备获取虚拟场景的应答动作和表情。
基于上述方法步骤的具体应用,具体使用步骤如下:使用时,用户通过麦克风等输入设备输入音频,传输到云端1,先利用语音识别模块3进行语音识别,初步获取用户信息,然后利用语义识别模块4进行语义识别,云端1理解用户指令,并推断出用户的意图,然后,根据用户的意图,在场景处理模块5中处理,将结果传输给显示器模块7;同时调用存储模块6中的知识库,将相应的结果返回给VR外设端2,通过VR外设端2的输出设备,用户就可以听到对话信息,这样用户一边通过显示器模块7观看,一边通过语音输入模块8以及语音输出模块9对应的音频设备收听,获得视觉和听觉的双重反馈,更有沉浸感。
需要说明的是,本发明不仅仅局限于云端和VR外设端,而是指那些场景控制***和智能语音***独立于VR外设的一切设备,也可以是云端等等,本发明为了陈述便于理解,以云端为例。
一般的核心处理器独立于VR外设端,因为需要大量的计算数据,所以需要一个计算性能强大的处理器,目前阶段,此种处理器无法同时满足外设于一体的一体机,故我们转换思路,提出将处理过程放在云端的全新方法,此种方式还有一个好处,将处理过程放在云端还可以有更好的组网性能,更适合大数据的处理。
在上述新方法的思路下,本发明中用户对于虚拟场景中的人物进行交流,可以通过VR外设端2上的语音输入模块8进行,如mic,也可通过音频转接线或者其他方式传输到云端1,云端1首先会对传进来的语音信息进行初步处理,这一部分在语音识别模块3进行,语音识别模块3首先是降噪,去除混响,等去除周围环境中干扰的因素,然后提取语音特征,通过基于深度神经网络的深度学习算法进行分析建模,生成语音模型,然后对用户输入的语音信息进行比对和识别,分析用户语音信息内容和指令信息,在此语音识别基础上,进入到语义识别模块4,云端1会根据语音识别的基础上,进行NLP分词,关键词分析等,结合上下文环境进而推断出用户可能的意图,进入场景处理模块5后,根据语义识别模块4中的结果进行场景处理,该模块会调用存储模块6中的知识库,进行相应的场景应答,包括图形调节,上下文处理等,反馈到输出上就是虚拟人物的动作变换,这些处理结果将会通过数据线或者其他方式传输给VR外设端2上的显示器模块7,同时输出相应的语音信息,这里的存储模块6包括知识图库,对话库等,云端在场景处理的基础上,将会从存储模块6的对话库中,返回应答会话,同时云端1将会在场景处理模块5进行相关场景处理,根据用户的指令,如做出应答的表情或者动作,从而能够达到视觉听觉的双重感知,使得用户沉浸感大大增强。
经过上述过程分析,本发明有效改善目前现有VR产品交互性差,抽离感强的不足,实现人和虚拟场景人物更自然的交互体验。
对于本领域技术人员来说,显然本发明不限于上述示范性的细节,而且在不违背本发明的精神和基本特征基础上,能够以其他的具体形式实现本发明。因此本发明的范围由所附属权利要求而不是上述说明限定,因此在落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中任何图标视为限制所涉及的权利要求。
Claims (5)
1.一种基于语音识别的VR交互***,其特征在于:包括云端(1)和VR外设端(2),所述云端(1)包括语音识别模块(3)、语义识别模块(4)、场景处理模块(5)、存储模块(6)和通信模块,所述VR外设端(2)包括显示器模块(7)、语音输入模块(8)和语音输入模块(8),所述VR外设端(2)也包括通信模块;
所述语音识别模块(3)主要对用户的语音先进行初步的处理,即在语音输入模块(8)的基础上,通过降噪去混响方式提取语音特征,然后通过基于深度学习的算法进行语音模型的生成和检验,这一部分用到很多算法和处理工具,语音识别模块(3)和语义识别模块(4)相连;
所述语义识别模块(4)在语音识别模块(3)的基础上再次进行语义处理,并且推断出用户意图,这一部分需要根据结合上下文进行分析,来提高准确性,语义识别模块(4)和场景处理模块(5)相连;
所述场景处理模块(5)分析语义识别模块(4)的识别的结果,根据结果,调整场景的布局变换,并且通过显示器模块(7)输出结果,这需要该模块调用存储模块(6)中的知识库进行相关的处理,场景处理模块(5)和存储模块(6)以及显示器模块(7)相连;
所述存储模块(6)用于存储知识库和对话库,场景处理模块(5)根据前一步的结果,将调用存储在存存储模块(6)的所需的对话库知识库输出,对话库通过语音输出模块(9)输出,知识库通过显示器模块(7)进行输出;
所述语音输入模块(8)包括一些音频输入设备,语音输入模块(8)和语音输出模块(9)相连;
所述语音输出模块(9)将存储模块(6)中的结果进行语音输出;
所述通信模块负责外设间的通信。
2.根据权利要求1所述的一种基于语音识别的VR交互***,其特征在于:所述语音输入模块(8)的音频输入设备包括麦克风。
3.根据权利要求1所述的一种基于语音识别的VR交互***,其特征在于:所述语音输入模块(8)的设备包括耳机功放。
4.根据权利要求1-3任一所述的一种基于语音识别的VR交互***的方法,其特征在于:包括如下方法步骤:
构建知识库对话库:首先把相应的对话库存储于存储模块(6);
开启云端(1)和VR外设端(2):开启云端(1)和VR外设端(2)后并保证通信模块正常;
用户佩戴VR外设:用户佩戴佩戴VR外设后能够感受到虚拟场景;
用户输入:用户根据虚拟场景提示或者主动通过音频输入外设,输入语音;
云端(1)处理:通过在云端(1)的处理,用户就会在VR终端,通过耳机接收到应答信息,同时从显示器模块(7)的显示设备获取虚拟场景的应答动作和表情。
5.根据权利要求4所述的一种基于语音识别的VR交互***的方法,其特征在于:包括基于方法步骤的具体应用,使用时,用户通过麦克风等输入设备输入音频,传输到云端(1),先利用语音识别模块(3)进行语音识别,初步获取用户信息,然后利用语义识别模块(4)进行语义识别,云端(1)理解用户指令,并推断出用户的意图,然后,根据用户的意图,在场景处理模块(5)中处理,将结果传输给显示器模块(7);同时调用存储模块(6)中的知识库,将相应的结果返回给VR外设端(2),通过VR外设端(2)的输出设备,用户就可以听到对话信息,这样用户一边通过显示器模块(7)观看,一边通过语音输入模块(8)以及语音输出模块(9)对应的音频设备收听,获得视觉和听觉的双重反馈,更有沉浸感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910986351.7A CN110895931A (zh) | 2019-10-17 | 2019-10-17 | 一种基于语音识别的vr交互***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910986351.7A CN110895931A (zh) | 2019-10-17 | 2019-10-17 | 一种基于语音识别的vr交互***和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110895931A true CN110895931A (zh) | 2020-03-20 |
Family
ID=69786337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910986351.7A Pending CN110895931A (zh) | 2019-10-17 | 2019-10-17 | 一种基于语音识别的vr交互***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895931A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696536A (zh) * | 2020-06-05 | 2020-09-22 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN111768768A (zh) * | 2020-06-17 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
CN111939558A (zh) * | 2020-08-19 | 2020-11-17 | 北京中科深智科技有限公司 | 一种实时语音驱动虚拟人物动作的方法和*** |
CN111986297A (zh) * | 2020-08-10 | 2020-11-24 | 山东金东数字创意股份有限公司 | 基于语音控制的虚拟角色面部表情实时驱动***和方法 |
CN112216278A (zh) * | 2020-09-25 | 2021-01-12 | 威盛电子股份有限公司 | 语音识别***、指令产生***及其语音识别方法 |
CN113672155A (zh) * | 2021-07-02 | 2021-11-19 | 浪潮金融信息技术有限公司 | 一种基于vr技术的自助操作***、方法及介质 |
CN117391822A (zh) * | 2023-12-11 | 2024-01-12 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106550156A (zh) * | 2017-01-23 | 2017-03-29 | 苏州咖啦魔哆信息技术有限公司 | 一种基于语音识别的人工智能客服***及其实现方法 |
CN109841217A (zh) * | 2019-01-18 | 2019-06-04 | 苏州意能通信息技术有限公司 | 一种基于语音识别的ar交互***和方法 |
US20190198019A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd | Method, apparatus, device, and storage medium for voice interaction |
CN110335595A (zh) * | 2019-06-06 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于语音识别的插问对话方法、装置及存储介质 |
-
2019
- 2019-10-17 CN CN201910986351.7A patent/CN110895931A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106550156A (zh) * | 2017-01-23 | 2017-03-29 | 苏州咖啦魔哆信息技术有限公司 | 一种基于语音识别的人工智能客服***及其实现方法 |
US20190198019A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd | Method, apparatus, device, and storage medium for voice interaction |
CN109841217A (zh) * | 2019-01-18 | 2019-06-04 | 苏州意能通信息技术有限公司 | 一种基于语音识别的ar交互***和方法 |
CN110335595A (zh) * | 2019-06-06 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于语音识别的插问对话方法、装置及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696536A (zh) * | 2020-06-05 | 2020-09-22 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN111696536B (zh) * | 2020-06-05 | 2023-10-27 | 北京搜狗智能科技有限公司 | 语音处理方法、装置和介质 |
CN111768768A (zh) * | 2020-06-17 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
CN111768768B (zh) * | 2020-06-17 | 2023-08-29 | 北京百度网讯科技有限公司 | 语音处理方法、装置、外设操控设备及电子设备 |
CN111986297A (zh) * | 2020-08-10 | 2020-11-24 | 山东金东数字创意股份有限公司 | 基于语音控制的虚拟角色面部表情实时驱动***和方法 |
CN111939558A (zh) * | 2020-08-19 | 2020-11-17 | 北京中科深智科技有限公司 | 一种实时语音驱动虚拟人物动作的方法和*** |
CN112216278A (zh) * | 2020-09-25 | 2021-01-12 | 威盛电子股份有限公司 | 语音识别***、指令产生***及其语音识别方法 |
CN113672155A (zh) * | 2021-07-02 | 2021-11-19 | 浪潮金融信息技术有限公司 | 一种基于vr技术的自助操作***、方法及介质 |
CN113672155B (zh) * | 2021-07-02 | 2023-06-30 | 浪潮金融信息技术有限公司 | 一种基于vr技术的自助操作***、方法及介质 |
CN117391822A (zh) * | 2023-12-11 | 2024-01-12 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及*** |
CN117391822B (zh) * | 2023-12-11 | 2024-03-15 | 中汽传媒(天津)有限公司 | 一种汽车营销的vr虚拟现实数字展示方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110895931A (zh) | 一种基于语音识别的vr交互***和方法 | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
WO2022052481A1 (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
US20230042654A1 (en) | Action synchronization for target object | |
CN111145322B (zh) | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 | |
CN113454708A (zh) | 语言学风格匹配代理 | |
JP2022524944A (ja) | インタラクション方法、装置、電子機器及び記憶媒体 | |
CN108877336A (zh) | 基于增强现实技术的教学方法、云服务平台和教学*** | |
CN107003825A (zh) | 通过自然语言输出控制电影指导和动态角色的***和方法 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
Morishima | Real-time talking head driven by voice and its application to communication and entertainment | |
CN205451551U (zh) | 一种语音识别驱动的增强现实人机交互视频语言学习*** | |
El Haddad et al. | Laughter and smile processing for human-computer interactions | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
KR20060091329A (ko) | 대화식 시스템 및 대화식 시스템을 제어하는 방법 | |
US20220301250A1 (en) | Avatar-based interaction service method and apparatus | |
Ding et al. | Interactive multimedia mirror system design | |
CN114201596A (zh) | 虚拟数字人使用方法、电子设备和存储介质 | |
Chandrasiri et al. | Internet communication using real-time facial expression analysis and synthesis | |
Morishima et al. | Face-to-face communicative avatar driven by voice | |
Leandro Parreira Duarte et al. | Coarticulation and speech synchronization in MPEG-4 based facial animation | |
Santos-Pérez et al. | AVATAR: an open source architecture for embodied conversational agents in smart environments | |
Sundblad et al. | OLGA—a multimodal interactive information assistant | |
Zoric et al. | Towards facial gestures generation by speech signal analysis using huge architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200320 |
|
RJ01 | Rejection of invention patent application after publication |