CN110895931A

CN110895931A - 一种基于语音识别的vr交互***和方法

Info

Publication number: CN110895931A
Application number: CN201910986351.7A
Authority: CN
Inventors: 刘雨松
Original assignee: Suzhou Yi Neng Tong Information Technology Co Ltd
Current assignee: Suzhou Yi Neng Tong Information Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-03-20

Abstract

本发明涉及语音识别***的相关领域，公开了一种基于语音识别的VR交互***，包括云端和VR外设端，云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块，VR外设端包括显示器模块、语音输入模块和语音输入模块，VR外设端也包括通信模块，本发明还公开了一种基于语音识别的VR交互***的方法，包括如下方法步骤：构建知识库对话库；开启云端和VR外设端；用户佩戴VR外设；用户输入；云端处理。本发明有效改善目前现有VR产品交互性差，抽离感强的不足，实现人和虚拟场景人物更自然的交互体验。

Description

一种基于语音识别的VR交互***和方法

技术领域

本发明涉及语音识别***的相关领域，具体为一种基于语音识别的VR交互***和方法。

背景技术

VR，简称虚拟现实技术，虚拟现实技术是仿真技术的一个重要方向是仿真技术与计算机图形学人机接口技术多媒体技术传感技术网络技术等多种技术的集合是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术(VR)主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外，还有听觉、触觉、力觉、运动等感知，甚至还包括嗅觉和味觉等，也称为多感知。自然技能是指人的头部转动，眼睛、手势、或其他人体行为动作，由计算机来处理与参与者的动作相适应的数据，并对用户的输入作出实时响应，并分别反馈到用户的五官。传感设备是指三维交互设备。

虚拟现实是由美国vpl公司创建人拉尼尔在20世纪80年代初提出的。其具体内涵是：综合利用计算机图形***和各种现实及控制等接口设备，在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术。其中，计算机生成的、可交互的三维环境成为虚拟环境，虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真***它利用计算机生成一种模拟多源信息融合的交互式的三维动态视景和实体行为的***仿真使用户沉浸到该环境中。

VR技术在医疗，教育，房地产，设计方面都有广阔的前景。目前VR的交互技术主要还是靠动作捕捉，手势识别，用户的体验性并不好，所以在此情况下，语音交互就成为一个用户很强的诉求。语音识别技术现在主要的分为两个方向，即传统声学模型和深度学习模型。传统的语音识别技术即声学模型，通过提取说话者的音频特征，在一些算法的模拟下，生成一个模型。深度学习模型，是近几年来迅速崛起的技术，目前比较火的是基于深度神经网络的隐马尔可夫模型，该技术基于数据的计算模拟出一个鉴别性模型。随着算法不断进步和硬件的不断升级，深度学习模型的优势也越来越明显，我们采用的也是基于深度学习的语音识别模型，目前基于语音识别模型的现有的VR产品交互性差，抽离感强的不足，不能实现人和虚拟场景人物更自然的交互体验，有待改善。

发明内容

本发明的目的在于提供一种基于语音识别的VR交互***和方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于语音识别的VR交互***，包括云端和VR外设端，所述云端包括语音识别模块、语义识别模块、场景处理模块、存储模块和通信模块，所述VR外设端包括显示器模块、语音输入模块和语音输入模块，所述VR外设端也包括通信模块；

所述语音识别模块主要对用户的语音先进行初步的处理，即在语音输入模块的基础上，通过降噪去混响方式提取语音特征，然后通过基于深度学习的算法进行语音模型的生成和检验，这一部分用到很多算法和处理工具，语音识别模块和语义识别模块相连；

所述语义识别模块在语音识别模块的基础上再次进行语义处理，并且推断出用户意图，这一部分需要根据结合上下文进行分析，来提高准确性，语义识别模块和场景处理模块相连；

所述场景处理模块分析语义识别模块的识别的结果，根据结果，调整场景的布局变换，并且通过显示器模块输出结果，这需要该模块调用存储模块中的知识库进行相关的处理，场景处理模块和存储模块以及显示器模块相连；

所述存储模块用于存储知识库和对话库，场景处理模块根据前一步的结果，将调用存储在存存储模块的所需的对话库知识库输出，对话库通过语音输出模块输出，知识库通过显示器模块进行输出；

所述语音输入模块包括一些音频输入设备，语音输入模块和语音输出模块相连；

所述语音输出模块将存储模块中的结果进行语音输出；

所述通信模块负责外设间的通信。

优选的，所述语音输入模块的音频输入设备包括麦克风。

优选的，所述语音输入模块的设备包括耳机功放。

一种基于语音识别的VR交互***的方法，包括如下方法步骤：

构建知识库对话库：首先把相应的对话库存储于存储模块；

开启云端和VR外设端：开启云端和VR外设端后并保证通信模块正常；

用户佩戴vR外设：用户佩戴佩戴vR外设后能够感受到虚拟场景；

用户输入：用户根据虚拟场景提示或者主动通过音频输入外设，输入语音；

云端处理：通过在云端的处理，用户就会在vR终端，通过耳机接收到应答信息，同时从显示器模块的显示设备获取虚拟场景的应答动作和表情。

优选的，包括基于方法步骤的具体应用，使用时，用户通过麦克风等输入设备输入音频，传输到云端，先利用语音识别模块进行语音识别，初步获取用户信息，然后利用语义识别模块进行语义识别，云端理解用户指令，并推断出用户的意图，然后，根据用户的意图，在场景处理模块中处理，将结果传输给显示器模块；同时调用存储模块中的知识库，将相应的结果返回给VR外设端，通过VR外设端的输出设备，用户就可以听到对话信息，这样用户一边通过显示器模块观看，一边通过语音输入模块以及语音输出模块对应的音频设备收听，获得视觉和听觉的双重反馈，更有沉浸感。

与现有技术相比，本发明的有益效果是：本发明中用户对于虚拟场景中的人物进行交流，可以通过VR外设端上的语音输入模块进行，如mi_c，也可通过音频转接线或者其他方式传输到云端，云端首先会对传进来的语音信息进行初步处理，这一部分在语音识别模块进行，语音识别模块首先是降噪，去除混响，等去除周围环境中干扰的因素，然后提取语音特征，通过基于深度神经网络的深度学习算法进行分析建模，生成语音模型，然后对用户输入的语音信息进行比对和识别，分析用户语音信息内容和指令信息，在此语音识别基础上，进入到语义识别模块，云端会根据语音识别的基础上，进行NLP分词，关键词分析等，结合上下文环境进而推断出用户可能的意图，进入场景处理模块后，根据语义识别模块中的结果进行场景处理，该模块会调用存储模块中的知识库，进行相应的场景应答，包括图形调节，上下文处理等，反馈到输出上就是虚拟人物的动作变换，这些处理结果将会通过数据线或者其他方式传输给VR外设端上的显示器模块，同时输出相应的语音信息，这里的存储模块包括知识图库，对话库等，云端在场景处理的基础上，将会从存储模块的对话库中，返回应答会话，同时云端将会在场景处理模块进行相关场景处理，根据用户的指令，如做出应答的表情或者动作，从而能够达到视觉听觉的双重感知，使得用户沉浸感大大增强。

本发明有效改善目前现有VR产品交互性差，抽离感强的不足，实现人和虚拟场景人物更自然的交互体验。

附图说明

图1为本发明的模块结构示意图。

图中：1、云端；2、VR外设端；3、语音识别模块；4、语义识别模块；5、场景处理模块；6、存储模块；7、显示器模块；8、语音输入模块；9、语音输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1，本发明提供一种技术方案：一种基于语音识别的VR交互***，包括云端1和VR外设端2，云端1包括语音识别模块3、语义识别模块4、场景处理模块5、存储模块6和通信模块，VR外设端2包括显示器模块7、语音输入模块8和语音输入模块8，VR外设端2也包括通信模块；

语音识别模块3主要对用户的语音先进行初步的处理，即在语音输入模块8的基础上，通过降噪去混响方式提取语音特征，然后通过基于深度学习的算法进行语音模型的生成和检验，这一部分用到很多算法和处理工具，语音识别模块3和语义识别模块4相连；

语义识别模块4在语音识别模块3的基础上再次进行语义处理，并且推断出用户意图，这一部分需要根据结合上下文进行分析，来提高准确性，语义识别模块4和场景处理模块5相连；

场景处理模块5分析语义识别模块4的识别的结果，根据结果，调整场景的布局变换，并且通过显示器模块7输出结果，这需要该模块调用存储模块6中的知识库进行相关的处理，场景处理模块5和存储模块6以及显示器模块7相连；

存储模块6用于存储知识库和对话库，场景处理模块5根据前一步的结果，将调用存储在存存储模块6的所需的对话库知识库输出，对话库通过语音输出模块9输出，知识库通过显示器模块7进行输出；

语音输入模块8包括一些音频输入设备，语音输入模块8和语音输出模块9相连；

语音输出模块9将存储模块6中的结果进行语音输出；

通信模块负责外设间的通信。

进一步的，语音输入模块8的音频输入设备包括麦克风，语音输入模块8的设备包括耳机功放。

基于上述实施例中***的原理方法，包括如下方法步骤：

构建知识库对话库：首先把相应的对话库存储于存储模块6；

开启云端1和VR外设端2：开启云端1和VR外设端2后并保证通信模块正常；

云端1处理：通过在云端1的处理，用户就会在VR终端，通过耳机接收到应答信息，同时从显示器模块7的显示设备获取虚拟场景的应答动作和表情。

基于上述方法步骤的具体应用，具体使用步骤如下：使用时，用户通过麦克风等输入设备输入音频，传输到云端1，先利用语音识别模块3进行语音识别，初步获取用户信息，然后利用语义识别模块4进行语义识别，云端1理解用户指令，并推断出用户的意图，然后，根据用户的意图，在场景处理模块5中处理，将结果传输给显示器模块7；同时调用存储模块6中的知识库，将相应的结果返回给VR外设端2，通过VR外设端2的输出设备，用户就可以听到对话信息，这样用户一边通过显示器模块7观看，一边通过语音输入模块8以及语音输出模块9对应的音频设备收听，获得视觉和听觉的双重反馈，更有沉浸感。

需要说明的是，本发明不仅仅局限于云端和VR外设端，而是指那些场景控制***和智能语音***独立于VR外设的一切设备，也可以是云端等等，本发明为了陈述便于理解，以云端为例。

一般的核心处理器独立于VR外设端，因为需要大量的计算数据，所以需要一个计算性能强大的处理器，目前阶段，此种处理器无法同时满足外设于一体的一体机，故我们转换思路，提出将处理过程放在云端的全新方法，此种方式还有一个好处，将处理过程放在云端还可以有更好的组网性能，更适合大数据的处理。

在上述新方法的思路下，本发明中用户对于虚拟场景中的人物进行交流，可以通过VR外设端2上的语音输入模块8进行，如mi_c，也可通过音频转接线或者其他方式传输到云端1，云端1首先会对传进来的语音信息进行初步处理，这一部分在语音识别模块3进行，语音识别模块3首先是降噪，去除混响，等去除周围环境中干扰的因素，然后提取语音特征，通过基于深度神经网络的深度学习算法进行分析建模，生成语音模型，然后对用户输入的语音信息进行比对和识别，分析用户语音信息内容和指令信息，在此语音识别基础上，进入到语义识别模块4，云端1会根据语音识别的基础上，进行NLP分词，关键词分析等，结合上下文环境进而推断出用户可能的意图，进入场景处理模块5后，根据语义识别模块4中的结果进行场景处理，该模块会调用存储模块6中的知识库，进行相应的场景应答，包括图形调节，上下文处理等，反馈到输出上就是虚拟人物的动作变换，这些处理结果将会通过数据线或者其他方式传输给VR外设端2上的显示器模块7，同时输出相应的语音信息，这里的存储模块6包括知识图库，对话库等，云端在场景处理的基础上，将会从存储模块6的对话库中，返回应答会话，同时云端1将会在场景处理模块5进行相关场景处理，根据用户的指令，如做出应答的表情或者动作，从而能够达到视觉听觉的双重感知，使得用户沉浸感大大增强。

经过上述过程分析，本发明有效改善目前现有VR产品交互性差，抽离感强的不足，实现人和虚拟场景人物更自然的交互体验。

对于本领域技术人员来说，显然本发明不限于上述示范性的细节，而且在不违背本发明的精神和基本特征基础上，能够以其他的具体形式实现本发明。因此本发明的范围由所附属权利要求而不是上述说明限定，因此在落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中任何图标视为限制所涉及的权利要求。

Claims

1.一种基于语音识别的VR交互***，其特征在于：包括云端(1)和VR外设端(2)，所述云端(1)包括语音识别模块(3)、语义识别模块(4)、场景处理模块(5)、存储模块(6)和通信模块，所述VR外设端(2)包括显示器模块(7)、语音输入模块(8)和语音输入模块(8)，所述VR外设端(2)也包括通信模块；

所述语音识别模块(3)主要对用户的语音先进行初步的处理，即在语音输入模块(8)的基础上，通过降噪去混响方式提取语音特征，然后通过基于深度学习的算法进行语音模型的生成和检验，这一部分用到很多算法和处理工具，语音识别模块(3)和语义识别模块(4)相连；

所述语义识别模块(4)在语音识别模块(3)的基础上再次进行语义处理，并且推断出用户意图，这一部分需要根据结合上下文进行分析，来提高准确性，语义识别模块(4)和场景处理模块(5)相连；

所述场景处理模块(5)分析语义识别模块(4)的识别的结果，根据结果，调整场景的布局变换，并且通过显示器模块(7)输出结果，这需要该模块调用存储模块(6)中的知识库进行相关的处理，场景处理模块(5)和存储模块(6)以及显示器模块(7)相连；

所述存储模块(6)用于存储知识库和对话库，场景处理模块(5)根据前一步的结果，将调用存储在存存储模块(6)的所需的对话库知识库输出，对话库通过语音输出模块(9)输出，知识库通过显示器模块(7)进行输出；

所述语音输入模块(8)包括一些音频输入设备，语音输入模块(8)和语音输出模块(9)相连；

所述语音输出模块(9)将存储模块(6)中的结果进行语音输出；

所述通信模块负责外设间的通信。

2.根据权利要求1所述的一种基于语音识别的VR交互***，其特征在于：所述语音输入模块(8)的音频输入设备包括麦克风。

3.根据权利要求1所述的一种基于语音识别的VR交互***，其特征在于：所述语音输入模块(8)的设备包括耳机功放。

4.根据权利要求1-3任一所述的一种基于语音识别的VR交互***的方法，其特征在于：包括如下方法步骤：

构建知识库对话库：首先把相应的对话库存储于存储模块(6)；

开启云端(1)和VR外设端(2)：开启云端(1)和VR外设端(2)后并保证通信模块正常；

云端(1)处理：通过在云端(1)的处理，用户就会在VR终端，通过耳机接收到应答信息，同时从显示器模块(7)的显示设备获取虚拟场景的应答动作和表情。

5.根据权利要求4所述的一种基于语音识别的VR交互***的方法，其特征在于：包括基于方法步骤的具体应用，使用时，用户通过麦克风等输入设备输入音频，传输到云端(1)，先利用语音识别模块(3)进行语音识别，初步获取用户信息，然后利用语义识别模块(4)进行语义识别，云端(1)理解用户指令，并推断出用户的意图，然后，根据用户的意图，在场景处理模块(5)中处理，将结果传输给显示器模块(7)；同时调用存储模块(6)中的知识库，将相应的结果返回给VR外设端(2)，通过VR外设端(2)的输出设备，用户就可以听到对话信息，这样用户一边通过显示器模块(7)观看，一边通过语音输入模块(8)以及语音输出模块(9)对应的音频设备收听，获得视觉和听觉的双重反馈，更有沉浸感。