CN106356059A

CN106356059A - 语音控制方法、装置及投影仪设备

Info

Publication number: CN106356059A
Application number: CN201510424654.1A
Authority: CN
Inventors: 朱渊
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-07-17
Filing date: 2015-07-17
Publication date: 2017-01-25
Also published as: WO2017012511A1

Abstract

本发明提供了一种语音控制方法、装置及投影仪设备，其中，该方法包括：确定投影仪设备进入语音识别状态，其中，该语音识别状态为根据语音指令执行操作的状态；接收输入的语音指令；根据接收的语音指令执行与上述语音指令对应的操作。通过本发明，解决了相关技术中存在的手动操作投影仪时操作繁琐，导致用户体验差，进而达到了降低投影仪操作复杂度，提高用户体验的效果。

Description

语音控制方法、装置及投影仪设备

技术领域

本发明涉及通信领域，具体而言，涉及一种语音控制方法、装置及投影仪设备。

背景技术

投影仪，又称投影机，是一种可以将图像或视频投射到幕布上的设备，可以通过不同的接口同计算机、视频光盘(Video Compact Disc，简称为VCD)、数字视盘(DigitalVideo Disc，简称为DVD)、游戏机等相连接，播放相应的视频信号，投影仪广泛应用于家庭、办公室、学校和娱乐场所，按照应用环境的不同，投影仪可以分为如下几类：家庭影院型、便携商务型投影仪、教育会议型投影仪、主流工程型投影仪、专业剧院型投影仪、测量投影仪。

这些投影仪都有一个共同的特点，就是在操作这些投影仪时，需要手动遥控器操作，而手动操作会造成操作繁琐的问题，从而导致用户体验差、缺乏趣味性。

针对相关技术中存在的手动操作投影仪时操作繁琐，导致用户体验差的问题，目前尚未提出有效的解决方案。

发明内容

本发明提供了一种语音控制方法、装置及投影仪设备，以至少解决相关技术中存在的手动操作投影仪时操作繁琐，导致用户体验差的问题。

根据本发明的一个方面，提供了一种语音控制方法，包括：确定投影仪设备进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；接收输入的语音指令；根据接收的所述语音指令执行与所述语音指令对应的操作。

可选地，确定投影仪设备进入语音识别状态包括：确定所述投影仪设备通过接收唤醒指令的方式，进入所述语音识别状态，其中，所述唤醒指令包括以下至少之一：预定轨迹的触控信号、语音信号、按键信号。

可选地，根据接收的所述语音指令执行与所述语音指令对应的操作包括：判断是否预先存储有与所述语音指令匹配的指令；在判断结果为是的情况下，执行与所述语音指令对应的操作。

可选地，根据接收的所述语音指令执行与所述语音指令对应的操作之前，还包括：获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；存储所述文件名称和/或所述应用名称，其中，所述文件名称用于根据所述语音指令调用与所述文件名称对应的文件，所述应用名称用于根据所述语音指令调用与所述应用名称对应的应用。

可选地，所述投影仪设备支持通过***设备接收所述语音指令，其中，所述***设备包括以下至少之一：有线耳机、蓝牙耳机。

根据本发明的另一方面，提供了一种语音控制装置，包括：确定模块，用于确定投影仪设备进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；接收模块，用于接收输入的语音指令；执行模块，用于根据接收的所述语音指令执行与所述语音指令对应的操作。

可选地，所述确定模块包括：确定单元，用于确定所述投影仪设备通过接收唤醒指令的方式，进入所述语音识别状态，其中，所述唤醒指令包括以下至少之一：预定轨迹的触控信号、语音信号、按键信号。

可选地，所述执行模块包括：判断单元，用于判断是否预先存储有与所述语音指令匹配的指令；执行单元，用于在所述判断单元的判断结果为是的情况下，执行与所述语音指令对应的操作。

可选地，所述装置还包括：获取模块，用于获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；存储模块，用于存储所述文件名称和/或所述应用名称，其中，所述文件名称用于根据所述语音指令调用与所述文件名称对应的文件，所述应用名称用于根据所述语音指令调用与所述应用名称对应的应用。

根据本发明的另一方面，提供了一种投影仪设备，所述设备至少包括：低功耗唤醒芯片、语音引擎和标准流组件，其中，所述低功耗唤醒芯片用于根据唤醒指令进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；所述语音引擎用于接收输入的语音指令；所述标准流组件用于根据接收的所述语音指令执行与所述语音指令对应的操作。

通过本发明，采用确定投影仪设备进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；接收输入的语音指令；根据接收的所述语音指令执行与所述语音指令对应的操作，解决了相关技术中存在的手动操作投影仪时操作繁琐，导致用户体验差，进而达到了降低投影仪操作复杂度，提高用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音控制方法的流程图；

图2是根据本发明实施例的语音控制装置的结构框图；

图3是根据本发明实施例的语音控制装置中确定模块22的结构框图；

图4是根据本发明实施例的语音控制装置中执行模块26的结构框图；

图5是根据本发明实施例的语音控制装置的优选结构框图；

图6是根据本发明实施例的声控投影仪***的结构框图；

图7是根据本发明实施例的声控投影仪***的低功耗唤醒流程图；

图8是根据本发明实施例的声控投影仪***的工作状态图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本实施例中提供了一种语音控制方法，图1是根据本发明实施例的语音控制方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，确定投影仪设备进入语音识别状态，其中，该语音识别状态为根据语音指令执行操作的状态；

步骤S104，接收输入的语音指令；

步骤S106，根据接收的语音指令执行与上述语音指令对应的操作。

通过上述步骤，在操作投影仪设备时，可以通过语音指令操作投影仪设备，从而可以避免手工操作的繁琐步骤，解决了相关技术中存在的手动操作投影仪时操作繁琐，导致用户体验差，进而达到了降低投影仪操作复杂度，提高用户体验的效果。

在一个可选的实施例中，确定投影仪设备进入语音识别状态包括：确定该投影仪设备通过接收唤醒指令的方式，进入上述语音识别状态，其中，该唤醒指令包括以下至少之一：预定轨迹的触控信号、语音信号、按键信号。

在一个可选的实施例中，根据接收的上述语音指令执行与语音指令对应的操作包括：判断是否预先存储有与上述语音指令匹配的指令；在判断结果为是的情况下，执行与该语音指令对应的操作。其中，若没有存储于上述语音指令匹配的指令，则可以反馈一个提示信息，例如“无法识别该指令”的提示。

在一个可选的实施例中，根据接收的上述语音指令执行与语音指令对应的操作之前，还包括：获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；存储该文件名称和/或应用名称，其中，该文件名称用于根据语音指令调用与文件名称对应的文件，该应用名称用于根据语音指令调用与应用名称对应的应用。存储上述文件名称和应用名称的目的是为了方便地根据语音指令调用相应的文件和应用，当存储了新的文件或安装了新的应用后，会存储该新存储的文件的文件名称和该新安装的应用的应用名称。

在一个可选的实施例中，上述投影仪设备支持通过***设备接收上述语音指令，其中，该***设备包括以下至少之一：有线耳机、蓝牙耳机。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种语音控制装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的语音控制装置的结构框图，如图2所示，该装置包括确定模块22、接收模块24和执行模块26，下面对该装置进行说明。

确定模块22，用于确定投影仪设备进入语音识别状态，其中，该语音识别状态为根据语音指令执行操作的状态；接收模块24，连接至上述确定模块22，用于接收输入的语音指令；执行模块26，连接至上述接收模块24，用于根据接收的语音指令执行与上述语音指令对应的操作。

图3是根据本发明实施例的语音控制装置中确定模块22的结构框图，如图3所示，该确定模块22包括确定单元32，下面对该确定模块22进行说明。

确定单元32，用于确定投影仪设备通过接收唤醒指令的方式，进入语音识别状态，其中，该唤醒指令包括以下至少之一：预定轨迹的触控信号、语音信号、按键信号。

图4是根据本发明实施例的语音控制装置中执行模块26的结构框图，如图4所示，该执行模块26包括判断单元42和执行单元44，下面对该执行模块26进行说明：

判断单元42，用于判断是否预先存储有与上述语音指令匹配的指令；执行单元44，连接至上述判断单元42，用于在上述判断单元42的判断结果为是的情况下，执行与该语音指令对应的操作。

图5是根据本发明实施例的语音控制装置的优选结构框图，如图5所示，该装置除包括图2所示的所有模块外，还包括获取模块52和存储模块54，下面对该装置进行说明：

获取模块52，用于获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；存储模块54，连接至上述获取模块52和上述执行模块26，用于存储上述文件名称和/或上述应用名称，其中，该文件名称用于根据语音指令调用与文件名称对应的文件，该应用名称用于根据语音指令调用与应用名称对应的应用。

可选地，上述的投影仪设备支持通过***设备接收语音指令，其中，该***设备包括以下至少之一：有线耳机、蓝牙耳机。

根据本发明的另一方面，还提供了一种投影仪设备，该设备至少包括：低功耗唤醒芯片、语音引擎和标准流组件，其中，该低功耗唤醒芯片用于根据唤醒指令进入语音识别状态，其中，该语音识别状态为根据语音指令执行操作的状态；该语音引擎用于接收输入的语音指令；该标准流组件用于根据接收的语音指令执行与该语音指令对应的操作。其中，上述的低功耗唤醒芯片可以和语音引擎连接，该语音引擎可以和标准流组件连接，低功耗唤醒芯片和标准流组件之间可以连接，也可以不连接。

在本发明实施例中，所涉及到的技术可以包含以下几个方面：

1、语音识别技术：

语音识别技术作为当前的技术热点，已渗透到各个领域，开启从“键盘交互”、“触控交互”到“语音交互”的人机交互模式，为人们解放双手和提高效率带来可能。

语音识别技术也被称为自动语音识别(Automatic Speech Recognition，简称为ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别(Speaker recognition)及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别(isolated wordrecognition)，关键词识别(或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

在本发明实施例中可以采用孤立词的语音识别，即将需要支持的语音指令预先编辑成语法文件，有引擎编译生成相应的识别范围。用户使用时仅支持语法中预先定义好的指令。

2、低功耗唤醒：

低功耗数字信号处理器(Digital Signal Processor，简称为DSP)语音唤醒技术是指终端(如，手机)无线访问点(Access Point，简称为AP)休眠后(即中央处理器(CentralProcessing Unit，简称为CPU)停止工作)，依靠DSP特有的处理单元，并通过特定的触发方式，能达到唤醒CPU从而使其重新进入工作状态的技术。它是着眼于完全的解放双手的语音操控场景，在手机***休眠状态中达到最大节电的基础上，开发对手机语音唤醒的技术操作。此研究的开发工作可以为手机操作开辟一种完全的使用“语音+听觉反应”代替“手指+视觉触控”的输入操作前提，从而达成完全的语音智能化的人机交互体验。

3、语音打断：

语音打断是指在稳态背景音下进行语音识别的一项特殊语音识别技术。有了这一功能，使用语音识别***时就不必等待“嘀”声之后才能讲话了，而是可以随时用语音打断提示音，直接进入语音识别(这一过程称为barge-in)。

语音打断的关键是语音端点检测功能，端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号，并确定语音信号的开始及结束。一般的信号流都存在一定的背景声，而语音识别的模型都是基于语音信号训练的，语音信号和语音模型进行模式匹配才有意义。因此从信号流中检测出语音信号是语音识别的必要的预处理过程。

详细说来，端点检测有两个过程：

a)基于语音信号的特征，用能量、过零率、商(entropy)、音高(pitch)等参数以及它们的衍生参数，来判断信号流中的语音/非语音信号。

b)在信号流中检测到语音信号后，判断此处是否是语句的开始或结束点。在商用语音***中，由于信号多变的背景和自然对话模式而更容易使句中有停顿(非语音)，特别是在爆发声母前总会有无声间隙。因此，这种开始/结束的判定尤为重要。

此外端点检测的目的还在于：

a)减少识别器的数据处理量：可以大量减少信号传输量及识别器的运算负载，对于语音对话的实时识别有重要作用。

b)拒绝非语音的信号：对非语音信号的识别不仅是一种资源浪费，而且有可能改变对话的状态，造成对用户的困扰。

c)在需要打断(barge-in)功能的***中，语音的起始点是必须的。在端点检测找到语音的起始点时，***将停止提示音的播放。完成打断功能。

该***的技术方案如下：

设备休眠时，用户通过唤醒指令唤醒投影仪，进入语音识别状态，该唤醒指令支持自定义录制培训。

其中，用户也可手动唤醒投影仪，如通过home键长按唤醒设备，进入语音识别状态。

随即，用户可以说出预置的任何语音指令，告诉投影仪下一步需要做什么。如：打开投影，关闭投影，播放****，打开***(其中***为视频文件名，PPT文档名或者安装的应用名等)。文件只要拷贝到投影仪存储器即可自动将该名称加载到可说语法，应用只要安装到***也可自动加载到可说语法。

其中，当用户输入了投影仪未预置的指令，投影仪会提示用户输入错误，进入重新输入指令流程。

当视频开始播放，用户可以通过语音打断技术全程语音控制视频播放，即可在视频播放期间任何时候输入语音指令。用户可说视频控制指令如：调高音量、调低音量、暂停、继续播放、退出播放等。

当PPT开始演示，用户可以通过语音打断技术全程语音控制PPT播放，即可在PPT演示期间任何时候输入语音指令。用户可说PPT控制指令如：上一页、下一页、首页、尾页、退出全屏、全屏播放等。

支持***设备语音控制投影仪。***设备如有线耳机，蓝牙耳机，连上投影仪以后，***设备可作为语音输入设备控制投影仪。如用户可以站在离投影仪较远的地方通过蓝牙耳机声控投影仪。

整个流程投影仪在投影仪屏幕上会有用户界面(User Interface，简称为UI)提示，同时会有人声或提示音告诉用户何时开始输入指令，输入结束，输入错误等。

以下将结合附图对本发明实施例的的方案进行较为详尽的说明。

图6是根据本发明实施例的声控投影仪***的结构框图，如图6所示。该***主要由3部分组成，包括低功耗唤醒芯片模块(对应于图6中的Low-power Wakeup DSP Chip，同上述的低功耗唤醒芯片)、识别和播报引擎模块(对应于图6中的Voice Engine，同上述的语音引擎)和标准流组件模块(对应于图6中的Standard Flow Component，同上述的标准流组件)。各模块的主要功能如下：

低功耗唤醒芯片模块，属于硬件设备，用于在投影仪休眠时监控用户的唤醒操作；识别和播报引擎模块，是语音识别和人声播报的核心模块，负责对搜集到的音频进行识别，并语音合成播报内容；标准流组件模块，用于实现各个具体功能点，如视频播放语音控制，打开应用语音控制，每个功能点以流的形式存在，有自己的生命周期。

图7是根据本发明实施例的声控投影仪***的低功耗唤醒流程图，如图7所示，该流程包括如下步骤：

步骤S702，用户输入唤醒词；

步骤S704，低功耗唤醒芯片在投影仪休眠时持续监控用户语音输入；

步骤S706，当用户的语音输入于预置培训的唤醒词一致时，低功耗唤醒芯片唤醒CPU，并向驱动层上报唤醒事件；

步骤S708，随后框架层通过消息的方式通知应用层；

步骤S710，应用层调起语音识别流程；

步骤S712，结束。

该低功耗唤醒芯片为完全解放用户双手，使语音控制流程成为闭环操作成为可能。鉴于低功耗唤醒芯片属于硬件配置，在某些投影仪机型无法配置，所以本***在低配置投影仪上支持裁剪该模块，用户可通过其他方式，如***设备，投影仪按键来唤醒。

图8是根据本发明实施例的声控投影仪***的工作状态图，下面结合图8进行说明：

当设备初始化完成并被唤醒后，设备进入录音状态，等待用户输入语音指令。用户此时有两种可能操作：一是没有发声，识别流程超时结束；一是有发声被投影仪录入，从而进入后续的识别状态。进入识别状态后，如果识别到用户说了正确的指令，就会分发到相应的标准流组件进行处理；如果为不可识别的指令，就提示用户输入错误，重新输入或退出。

其中录音打断是一种在稳态背景音下的特殊识别方式。如视频播放时的语音控制。此时录音持续开启检测用户语音输入并针对稳态背景音消噪。如果检测到和预置的动态指令一致的语音输入，引擎会返回识别结果告知标准组件流进行相应操作。同时继续检测下一次语音输入，录音打断不会停止直到用户退出视频播放。

本发明实施例中，针对投影仪设备手动操作繁琐，用户体验差，缺乏趣味性的问题，提出声控投影仪***以解决该问题。该***通过硬件和软件配合使用户能通过声音唤醒投影仪并发送声音指令。整个流程能实现闭环操作，即整个环节都通过声控完成，不需要手动操作，从而解放了用户的双手，大大增强了投影仪的使用效率和趣味性。该***支持裁剪，可根据需要裁剪功能和硬件配置。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块分别位于多个处理器中。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，确定投影仪设备进入语音识别状态，其中，该语音识别状态为根据语音指令执行操作的状态；

S2，接收输入的语音指令；

S3，根据接收的语音指令执行与上述语音指令对应的操作。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行步骤S1-S3。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，包括：

确定投影仪设备进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；

接收输入的语音指令；

根据接收的所述语音指令执行与所述语音指令对应的操作。

2.根据权利要求1所述的方法，其特征在于，确定投影仪设备进入语音识别状态包括：确定所述投影仪设备通过接收唤醒指令的方式，进入所述语音识别状态，其中，所述唤醒指令包括以下至少之一：

预定轨迹的触控信号、语音信号、按键信号。

3.根据权利要求1所述的方法，其特征在于，根据接收的所述语音指令执行与所述语音指令对应的操作包括：

判断是否预先存储有与所述语音指令匹配的指令；

在判断结果为是的情况下，执行与所述语音指令对应的操作。

4.根据权利要求1所述的方法，其特征在于，根据接收的所述语音指令执行与所述语音指令对应的操作之前，还包括：

获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；

存储所述文件名称和/或所述应用名称，其中，所述文件名称用于根据所述语音指令调用与所述文件名称对应的文件，所述应用名称用于根据所述语音指令调用与所述应用名称对应的应用。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述投影仪设备支持通过***设备接收所述语音指令，其中，所述***设备包括以下至少之一：有线耳机、蓝牙耳机。

6.一种语音控制装置，其特征在于，包括：

确定模块，用于确定投影仪设备进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；

接收模块，用于接收输入的语音指令；

执行模块，用于根据接收的所述语音指令执行与所述语音指令对应的操作。

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：确定单元，用于确定所述投影仪设备通过接收唤醒指令的方式，进入所述语音识别状态，其中，所述唤醒指令包括以下至少之一：

预定轨迹的触控信号、语音信号、按键信号。

8.根据权利要求6所述的装置，其特征在于，所述执行模块包括：

判断单元，用于判断是否预先存储有与所述语音指令匹配的指令；

执行单元，用于在所述判断单元的判断结果为是的情况下，执行与所述语音指令对应的操作。

9.根据权利要求6所述的装置，其特征在于，还包括：

获取模块，用于获取预先存储的文件的文件名称和/或预先安装的应用的应用名称；

存储模块，用于存储所述文件名称和/或所述应用名称，其中，所述文件名称用于根据所述语音指令调用与所述文件名称对应的文件，所述应用名称用于根据所述语音指令调用与所述应用名称对应的应用。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述投影仪设备支持通过***设备接收所述语音指令，其中，所述***设备包括以下至少之一：有线耳机、蓝牙耳机。

11.一种投影仪设备，其特征在于，至少包括：低功耗唤醒芯片、语音引擎和标准流组件，其中，

所述低功耗唤醒芯片用于根据唤醒指令进入语音识别状态，其中，所述语音识别状态为根据语音指令执行操作的状态；

所述语音引擎用于接收输入的语音指令；

所述标准流组件用于根据接收的所述语音指令执行与所述语音指令对应的操作。