CN110992955A

CN110992955A - 一种智能设备的语音操作方法、装置、设备及存储介质

Info

Publication number: CN110992955A
Application number: CN201911359467.4A
Authority: CN
Inventors: 李勇; 甘津瑞; 徐大光
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-10

Abstract

本发明公开了一种智能设备的语音操作方法、装置、设备及存储介质，该方法包括：控制终端接收用户输入的语音信息，对语音信息进行语音识别，生成语音识别结果；对语音识别结果进行语义分析，获取语义分析结果；根据语义分析结果生成与语音信息匹配的操作控制指令；将操作控制指令经由服务器发送至受控智能设备，以指示受控智能设备执行所述操作控制指令。本发明实施例实现了用户通过控制终端输入语音信息来操作智能设备，在广域网内将用户输入的语音信息转换为文本格式的操作控制指令经由服务器发送至智能设备，避免了局域网的局限性，降低了对网络状态的要求；保证了用户语音操作智能设备的实时性，提升了用户的体验感。

Description

一种智能设备的语音操作方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据采集与处理技术，尤其涉及一种智能设备的语音操作方法、装置、设备及存储介质。

背景技术

目前市场上通过移动终端语音操作智能设备的方法已经比较普遍，现有的智能设备语音操作方法主要分为两种，第一种是通过建立移动终端与智能设备处于同一局域网内的长连接，通过移动终端实时录音并将音频数据发送给智能设备，智能设备再实时将此音频数据转换成文本数据，在文本数据下操作对应的模块；第二种是通过移动终端预先录好一整段音频文件，然后通过网络接口将音频文件发送给智能设备进行整段音频识别，得到与该音频文件对应的整段文本数据，最后在此文本数据下操作对应的模块。

上述方法虽然都能够使得智能设备完成与用户语音信息匹配的操作动作，但是第一种方法在实时传输音频数据流的过程中，需要保证移动终端于智能设备处于同一个局域网之内，会严重受到网络条件的制约，在网络状态不好的情况下，音频文件传输缓慢容易造成转换误差；第二种方法不能够保证用户语音操作智能设备的实时性，用户体验感较差。

发明内容

本发明实施例提供一种智能设备的语音操作方法、装置、设备及存储介质，保证了用户语音操作智能设备的实时性，避免了局域网的局限性，降低了对网络状态的要求，提升了用户的体验感。

第一方面，本发明实施例提供了一种智能设备的语音操作方法，所述方法包括：

控制终端接收用户输入的语音信息，并在确定所述语音信息为人声信息时，对所述语音信息进行语音识别，生成语音识别结果；

所述控制终端对所述语音识别结果进行语义分析，获取语义分析结果；

所述控制终端根据所述语义分析结果生成与所述语音信息匹配的操作控制指令；

所述控制终端将所述操作控制指令经由服务器发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

第二方面，本发明实施例还提供了一种智能设备的语音操作方法，所述方法包括：

服务器接收控制终端发送的与用户输入的语音信息匹配操作控制指令；

服务器将所述操作控制指令发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

第三方面，本发明实施例提供了一种智能设备的语音操作装置，该装置包括：

语音识别结果生成模块，用于接收用户输入的语音信息，并在确定所述语音信息为人声信息时，对所述语音信息进行语音识别，生成语音识别结果；

语义分析结果获取模块，用于对所述语音识别结果进行语义分析，获取语义分析结果；

操作控制指令生成模块，用于根据所述语义分析结果生成与所述语音信息匹配的操作控制指令；

操作控制指令发送模块，用于将所述操作控制指令经由服务器发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

第四方面，本发明实施例还提供了一种智能设备的语音操作装置，该装置包括：

操作控制指令接收模块，用于服务器接收控制终端发送的与用户输入的语音信息匹配操作控制指令；

操作控制指令发送模块，用于服务器将所述操作控制指令发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

第五方面，本发明实施例还提供了一种计算设备，该计算设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的一种智能设备的语音操作方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的一种智能设备的语音操作方法。

本发明实施例的技术方案通过控制终端接收到用户输入的语音信息后，生成与该语音信息对应的语音识别结果，然后获取到与该语音识别结果对应的语义分析结果，根据语义分析结果生成与语音信息匹配的操作控制指令，最后将操作控制指令经由服务器发送至受控智能设备，以指示受控智能设备执行操作控制指令。本发明实施例实现了用户通过控制终端输入语音信息来操作智能设备，在广域网内将用户输入的语音信息转换为文本格式的操作控制指令经由服务器发送至智能设备，避免了局域网的局限性；与传输音频数据流相比，本发明实施例传输文本格式的操作控制指令，降低了对网络状态的要求；保证了用户语音操作智能设备的实时性，提升了用户的体验感。

附图说明

图1是本发明实施例一中的一种智能设备的语音操作方法的流程图；

图2是本发明实施例中的一种智能设备的语音操作方法的流程图；

图3是本发明实施例二中的一种智能设备的语音操作方法的流程图；

图4是本发明实施例三中的一种智能设备的语音操作装置的结构图；

图5是本发明实施例四中的一种智能设备的语音操作装置的结构图；

图6是本发明实施例五中的一种计算设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种智能设备的语音操作方法的流程图，本实施例可适用于控制终端实时接收用户输入的语音信息，并将此语音信息转换为文本格式的操作控制指令发送至服务器，以使服务器将此操作控制指令发送至受控智能设备，从而实现对智能设备的操作的情形，如图2所示，该方法可以由智能设备的语音操作装置来执行，该装置可以由软件和/或硬件来实现，并一般可以集成在控制终端中，且所述控制终端能够与所述服务器通信，所述方法具体包括如下步骤：

步骤110、控制终端接收用户输入的语音信息，并在确定所述语音信息为人声信息时，对所述语音信息进行语音识别，生成语音识别结果。

在本实施例中，控制终端可以为手机端或电脑端，用户通过打开控制终端的录音模块输入语音信息，控制终端在检测到录音模块的触发请求时，利用VAD(Voice ActivityDetection，声音活动检测)技术对录音模块中输入的语音信息进行检测，如果控制终端检测到所述语音信息为人声信息，则利用ASR(Automatic Speech Recognition，自动语音识别)技术对所述语音信息进行语音识别，生成语音识别结果。具体的，假设用户通过控制终端的录音模块录入“我想***机长”的语音信息，控制终端利用VAD技术检测到此语音信息为人声信息，然后利用ASR技术对此语音信息进行语音识别，将此语音信息转换为“我想***机长”的文本信息，并将该文本信息作为与用户输入的语音信息匹配的语音识别结果。

在此步骤之后，所述控制终端将所述语音识别结果经由所述服务器发送至受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

在一个具体的实施例中，如图2所示，控制终端针对用户输入的语音信息生成语音识别结果，如“我想***机长”，然后将此语音识别结果发送至服务器，服务器再将该语音识别结果发送至受控智能设备，受控智能设备接收到所述语音识别结果后，将该语音识别结果“我想***机长”在显示界面中进行同步显示。

其中，所述受控智能设备可以为携带显示模块的智能设备，如电视机和具有显示屏的音箱等设备。

步骤120、所述控制终端对所述语音识别结果进行语义分析，获取语义分析结果。

在此步骤中，控制终端判断是否预先存储与所述语音识别结果匹配的语音指令映射关系；若否，则所述控制终端对所述语音识别结果进行语义分析，获取语义分析结果；若是，则所述控制终端获取匹配的所述语音指令映射关系中的操作控制指令，作为与所述语音信息匹配的操作控制指令。

在本实施例中，所述语音指令映射关系包括语音识别结果和所述语音识别结果对应的操作控制指令，例如语音识别结果为“我想***机长”，对应的操作控制指令即为“触发电影模块并且播放电影中国机长”。

控制终端根据用户输入的语音信息生成语音识别结果后，在本地存储器中查找是否有与所述语音识别结果匹配的语音指令映射关系，如果有，则提取所述语音指令映射关系中的操作控制指令作为与所述语音信息匹配的操作控制指令；如果没有，则利用NLU(Natural Language Understanding，自然语言理解)技术对所述语音识别结果进行语义分析，将所述语音识别结果转换为智能设备能够理解的文本信息，将此文本信息作为语义分析结果。例如，所述语音识别结果为“我想***机长”，利用NLU技术对该语音识别结果进行语义分析，获取到语义分析结果为“播放中国机长”。

步骤130、所述控制终端根据所述语义分析结果生成与所述语音信息匹配的操作控制指令。

在此步骤中，控制终端获取到与用户输入的语音信息匹配的语义分析结果后，根据此语义分析结果，利用DM(Dialog Manager，对话管理)技术生成受控智能设备能够理解的操作控制指令。例如，所述语义分析结果为“播放中国机长”，与该语义分析结果对应的操作控制指令可以为“触发电影模块并且播放电影中国机长”。

在此步骤之后，控制终端将所述语音识别结果以及所述操作控制指令作为新的语音指令映射关系进行存储，目的在于当控制终端下次获取的语音识别结果与本次语音识别结果相一致时，则直接将本地存储的语音指令映射关系中的操作控制指令作为与下次获取的语音识别结果相匹配的操作控制指令，而不需要对下次获取的语音识别结果进行语义分析，节省了智能设备的语音操作步骤。

步骤140、所述控制终端将所述操作控制指令经由服务器发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

在此步骤中，如图2所示，控制终端将所述操作控制指令发送至服务器，服务器再将该操作控制指令发送至受控智能设备，受控智能设备在接收到操作控制指令后执行相应的操作。

本发明实施例通过控制终端接收到用户输入的语音信息后，生成与该语音信息对应的语音识别结果，然后对语音识别结果进行语义分析，获取到语义分析结果，根据语义分析结果生成与语音信息匹配的操作控制指令，最后将操作控制指令经由服务器发送至受控智能设备，以指示受控智能设备执行操作控制指令。本发明实施例实现了用户通过控制终端输入语音信息来操作智能设备，在广域网内将用户输入的语音信息转换为文本格式的操作控制指令经由服务器发送至智能设备，避免了局域网的局限性；与传输音频数据流相比，本发明实施例传输文本格式的操作控制指令，降低了对网络状态的要求；保证了用户语音操作智能设备的实时性，提升了用户的体验感。

实施例二

图3是本发明实施例二提供的一种智能设备的语音操作方法的流程图，本实施例可适用于服务器接收到控制终端发送的文本格式的操作控制指令后，将此操作控制指令发送至受控智能设备，从而实现对智能设备的操作的情形，如图2所示，该方法可以由智能设备的语音操作装置来执行，该装置可以由软件和/或硬件来实现，并一般可以集成在服务器中，且所述服务器能够与所述控制终端通信，所述方法具体包括如下步骤：

步骤310、服务器接收控制终端发送的与用户输入的语音信息匹配操作控制指令。

在此步骤中，控制终端通过长距离无线通信机制(例如WIFI或者移动数据等)将与用户输入的语音信息匹配操作控制指令发送至服务器。具体的，假设用户输入的语音信息为“我想***机长”，与该语音信息匹配的操作控制指令可以为“触发电影模块并且播放电影中国机长”。

在此步骤之前，服务器接收所述控制终端发送的语音识别结果，将所述语音识别结果发送至所述受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

在一个具体的实施例中，控制终端针对用户输入的语音信息生成文本格式的语音识别结果，如“我想***机长”，然后将此语音识别结果发送至服务器，服务器再将该语音识别结果发送至受控智能设备，受控智能设备接收到所述语音识别结果后，将该语音识别结果“我想***机长”在显示界面中进行同步显示。

步骤320、服务器将所述操作控制指令发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

在此步骤中，服务器通过长距离无线通信机制(例如WIFI或者移动数据等)将所述操作控制指令发送至受控智能设备，受控智能设备在接收到操作控制指令后执行相应的操作。

本发明实施例通过服务器接收控制终端发送的与用户输入的语音信息匹配操作控制指令，然后将所述操作控制指令发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。本发明实施例实现了用户通过控制终端输入语音信息来操作智能设备，在广域网内将用户输入的语音信息转换为文本格式的操作控制指令经由服务器发送至智能设备，避免了局域网的局限性；与传输音频数据流相比，本发明实施例传输文本格式的操作控制指令，降低了对网络状态的要求；保证了用户语音操作智能设备的实时性，提升了用户的体验感。

实施例三

图4为本发明实施例三提供的一种智能设备的语音操作装置的结构图，该装置包括：语音识别结果生成模块410、语义分析结果获取模块420、操作控制指令生成模块430和操作控制指令发送模块440。

其中，语音识别结果生成模块410，用于接收用户输入的语音信息，并在确定所述语音信息为人声信息时，对所述语音信息进行语音识别，生成语音识别结果；语义分析结果获取模块420，用于对所述语音识别结果进行语义分析，获取语义分析结果；操作控制指令生成模块430，用于根据所述语义分析结果生成与所述语音信息匹配的操作控制指令；操作控制指令发送模块440，用于所述将所述操作控制指令经由服务器发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

在上述各实施例的基础上，语义分析结果获取模块420，可以包括：

判断单元，用于判断是否预先存储与所述语音识别结果匹配的语音指令映射关系；

语义分析单元，用于控制终端没有预先存储与所述语音识别结果匹配的语音指令映射关系时，对所述语音识别结果进行语义分析，获取语义分析结果；

操作控制指令获取单元，用于控制终端预先存储与所述语音识别结果匹配的语音指令映射关系时，获取匹配的所述语音指令映射关系中的操作控制指令，作为与所述语音信息匹配的操作控制指令。

操作控制指令生成模块430，可以包括：

语音指令映射关系存储单元，用于将语音识别结果以及操作控制指令作为新的语音指令映射关系进行存储。

语音识别结果生成模块410，可以包括：

语音识别结果发送单元，用于将所述语音识别结果经由所述服务器发送至所述受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

本发明实施例所提供的智能设备的语音操作装置可执行本发明任意实施例所提供的智能设备的语音操作方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种智能设备的语音操作装置的结构图，该装置包括：操作控制指令接收模块510和操作控制指令发送模块520。

其中，操作控制指令接收模块510，用于接收控制终端发送的与用户输入的语音信息匹配操作控制指令；操作控制指令发送模块520，用于将所述操作控制指令发送至受控智能设备，以指示所述受控智能设备执行所述操作控制指令。

在上述各实施例的基础上，智能设备的语音操作装置，还可以包括：

语音识别结果接收模块，用于接收所述控制终端发送的语音识别结果，将所述语音识别结果发送至所述受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

实施例五

图6为本发明实施例五提供的一种计算设备的结构示意图，如图6所示，该计算设备包括处理器610、存储器620、输入装置630和输出装置640；计算设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；计算设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种智能设备的语音操作方法对应的程序指令/模块(例如，一种智能设备的语音操作装置中的语音识别结果生成模块410、语义分析结果获取模块420、操作控制指令生成模块430和操作控制指令发送模块440)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的一种智能设备的语音操作方法。也即，该程序被处理器执行时实现：

存储器620作为一种计算机可读存储介质，还可用于如本发明实施例二中的一种智能设备的语音操作方法对应的程序指令/模块(例如，一种智能设备的语音操作装置中的操作控制指令接收模块510和操作控制指令发送模块520)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的一种智能设备的语音操作方法。也即，该程序被处理器执行时实现：

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与计算设备的用户设置以及功能控制有关的键信号输入，可以包括键盘和鼠标等。输出装置640可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述方法。当然，本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明实施例一所提供的一种智能设备的语音操作方法中的相关操作。也即，该程序被处理器执行时实现：

本发明实施例所提供的一种计算机可读存储介质，其还可以执行本发明实施例二所提供的一种智能设备的语音操作方法中的相关操作。也即，该程序被处理器执行时实现：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述智能设备的语音操作装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种智能设备的语音操作方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述控制终端对所述语音识别结果进行语义分析，获取语义分析结果，包括：

所述控制终端判断是否预先存储与所述语音识别结果匹配的语音指令映射关系；

若否，则所述控制终端对所述语音识别结果进行语义分析，获取语义分析结果；

在所述控制终端根据所述语义分析结果生成与所述语音信息匹配的操作控制指令之后，还包括：

所述控制终端将所述语音识别结果以及所述操作控制指令作为新的语音指令映射关系进行存储。

3.根据权利要求2所述的方法，其特征在于，在所述控制终端判断是否预先存储与所述语音识别结果匹配的语音指令映射关系之后，还包括：

若是，则所述控制终端获取匹配的所述语音指令映射关系中的操作控制指令，作为与所述语音信息匹配的操作控制指令。

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述控制终端将所述语音信息进行语音识别，生成语音识别结果之后，还包括：

所述控制终端将所述语音识别结果经由所述服务器发送至所述受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

5.一种智能设备的语音操作方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，在服务器接收控制终端发送的与用户输入的语音信息匹配操作控制指令之前，还包括：

所述服务器接收所述控制终端发送的语音识别结果，将所述语音识别结果发送至所述受控智能设备，以指示所述受控智能设备将所述语音识别结果在设备显示界面中进行同步显示。

7.一种智能设备的语音操作装置，其特征在于，包括：

8.一种智能设备的语音操作装置，其特征在于，包括：

9.一种计算设备，其特征在于，所述计算设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种智能设备的语音操作方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的一种智能设备的语音操作方法。