CN108564944B - 智能控制方法、***、设备及存储介质 - Google Patents

智能控制方法、***、设备及存储介质 Download PDF

Info

Publication number
CN108564944B
CN108564944B CN201810129720.6A CN201810129720A CN108564944B CN 108564944 B CN108564944 B CN 108564944B CN 201810129720 A CN201810129720 A CN 201810129720A CN 108564944 B CN108564944 B CN 108564944B
Authority
CN
China
Prior art keywords
instruction
information
custom
matched
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810129720.6A
Other languages
English (en)
Other versions
CN108564944A (zh
Inventor
王飞
栾舒涵
苗亚飞
熊芩
董文林
刘悦
樊兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201810129720.6A priority Critical patent/CN108564944B/zh
Publication of CN108564944A publication Critical patent/CN108564944A/zh
Application granted granted Critical
Publication of CN108564944B publication Critical patent/CN108564944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明公开了智能控制方法、***、设备及存储介质,其中方法包括:获取用户向智能设备发出的语音控制信息对应的文本信息;确定智能设备对应的自定义指令集,并在自定义指令集中查找与文本信息相匹配的自定义指令信息,自定义指令集中至少包括一条自定义指令信息;若存在相匹配的自定义指令信息,则根据相匹配的自定义指令信息生成操作指令;将操作指令返回给智能设备,以便智能设备根据操作指令完成对应的操作。应用本发明所述方案,能够提高语音控制的成功率等。

Description

智能控制方法、***、设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及智能控制方法、***、设备及存储介质。
【背景技术】
不同的产品有不同的亮点功能,在人工智能(AI,Artificial Intelligence)时代,各种智能设备都希望能够通过语音进行控制,快速实现其特定功能,然而云端并不是能立即支持功能指令的解析,需要很长一段时间进行开发、测试、上线。
按照现有方式,用户的语音控制信息发送到云端,云端识别之后返回一个操作指令给智能设备,智能设备根据操作指令完成对应的操作。云端返回的指令集是固定的,比如厂商的需求包括让冰箱“快速杀毒”,那么云端的固定指令集中必须有“快速杀毒”才可以执行对应的操作,如果没有,则不能执行对应的操作。也就是说,云端在解析的时候不能满足固定指令集以外的指令,返回对应的操作指令,从而限制了语音控制的能力,降低了语音控制的成功率。要使得云端能够返回对应于“快速杀毒”的操作指令,则需要很长的时间进行开发、测试等,开发到上线的排期无法满足厂商的产品测试及发布时间需求。
【发明内容】
有鉴于此,本发明提供了智能控制方法、***、设备及存储介质。
具体技术方案如下:
一种智能控制方法,包括:
获取用户向智能设备发出的语音控制信息对应的文本信息;
确定所述智能设备对应的自定义指令集,并在所述自定义指令集中查找与所述文本信息相匹配的自定义指令信息,所述自定义指令集中至少包括一条自定义指令信息;
若存在相匹配的自定义指令信息,则根据所述相匹配的自定义指令信息生成操作指令;
将所述操作指令返回给所述智能设备,以便所述智能设备根据所述操作指令完成对应的操作。
根据本发明一优选实施例,每条自定义指令信息中包括:自定义规则以及自定义字典。
根据本发明一优选实施例,该方法进一步包括:
若不存在相匹配的自定义指令信息,则在通用指令集中查找与所述文本信息相匹配的通用指令信息,不同的智能设备对应同一通用指令集;
若存在相匹配的通用指令信息,则根据所述相匹配的通用指令信息生成操作指令。
根据本发明一优选实施例,该方法进一步包括:
若不存在相匹配的通用指令信息,则返回空的结果给所述智能设备。
一种智能控制方法,包括:
智能设备获取来自用户的语音控制信息,并获取所述语音控制信息对应的文本信息;
所述智能设备将所述文本信息发送给云端,以便云端在所述智能设备对应的自定义指令集中查找与所述文本信息相匹配的自定义指令信息,所述自定义指令集中至少包括一条自定义指令信息;
所述智能设备获取云端返回的操作指令,所述操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令;
所述智能设备根据所述操作指令完成对应的操作。
根据本发明一优选实施例,所述获取所述语音控制信息对应的文本信息包括:
将所述语音控制信息发送给云端进行语音识别;
获取云端返回的识别得到的所述文本信息。
根据本发明一优选实施例,该方法进一步包括:
所述智能设备获取云端返回的操作指令,所述操作指令为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与所述文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令,不同的智能设备对应同一通用指令集。
一种智能控制设备,包括:第一获取单元、指令匹配单元以及第一发送单元;
所述第一获取单元,用于获取用户向智能设备发出的语音控制信息对应的文本信息;
所述指令匹配单元,用于确定所述智能设备对应的自定义指令集,并在所述自定义指令集中查找与所述文本信息相匹配的自定义指令信息,所述自定义指令集中至少包括一条自定义指令信息,若存在相匹配的自定义指令信息,则根据所述相匹配的自定义指令信息生成操作指令;
所述第一发送单元,用于将所述操作指令返回给所述智能设备,以便所述智能设备根据所述操作指令完成对应的操作。
根据本发明一优选实施例,每条自定义指令信息中包括:自定义规则以及自定义字典。
根据本发明一优选实施例,所述指令匹配单元进一步用于,若不存在相匹配的自定义指令信息,则在通用指令集中查找与所述文本信息相匹配的通用指令信息,不同的智能设备对应同一通用指令集,若存在相匹配的通用指令信息,则根据所述相匹配的通用指令信息生成操作指令。
根据本发明一优选实施例,所述第一发送单元进一步用于,若不存在相匹配的通用指令信息,则返回空的结果给所述智能设备。
一种智能设备,包括:第二获取单元、第二发送单元以及指令执行单元;
所述第二获取单元,用于获取用户向所述智能设备发出的语音控制信息,并获取所述语音控制信息对应的文本信息;
所述第二发送单元,用于将所述文本信息发送给云端,以便云端在所述智能设备对应的自定义指令集中查找与所述文本信息相匹配的自定义指令信息,所述自定义指令集中至少包括一条自定义指令信息;
所述指令执行单元,用于获取云端返回的操作指令,所述操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令,根据所述操作指令完成对应的操作。
根据本发明一优选实施例,所述第二获取单元将所述语音控制信息发送给云端进行语音识别,并获取云端返回的识别得到的所述文本信息。
根据本发明一优选实施例,所述指令执行单元进一步用于,获取云端返回的操作指令,所述操作指令为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与所述文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令,不同的智能设备对应同一通用指令集,根据所述操作指令完成对应的操作。
一种智能控制***,包括:
如以上所述的智能控制设备,以及,如以上所述的智能设备。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,在获取到用户向智能设备发出的语音控制信息对应的文本信息后,可首先确定出智能设备对应的自定义指令集,之后可在确定出的自定义指令集中查找与获取到的文本信息相匹配的自定义指令信息,若存在相匹配的自定义指令信息,则可根据相匹配的自定义指令信息生成操作指令,进而可将操作指令返回给智能设备,以便智能设备根据操作指令完成对应的操作,相比于现有技术,本发明所述方案中可设置自定义指令集,如厂商可设置自己的智能设备对应的自定义指令集,从而可满足厂商的特定功能需求,进而提高了语音控制的成功率,而且,无需进行很长时间的开发、测试等,从而能够满足厂商的产品测试及发布时间需求等。
【附图说明】
图1为本发明所述智能控制方法第一实施例的流程图。
图2为现有语音识别过程的示意图。
图3为本发明所述根据相匹配的自定义指令信息生成操作指令的方式示意图。
图4为本发明所述智能控制方法第二实施例的流程图。
图5为本发明所述智能设备与云端服务器的交互方式示意图。
图6为本发明所述智能控制设备实施例的组成结构示意图。
图7为本发明所述智能设备实施例的组成结构示意图。
图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述智能控制方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取用户向智能设备发出的语音控制信息对应的文本信息。
当需要智能设备执行某种操作时,用户可向智能设备发出语音形式的控制指令,如“快速杀毒”。
比如,在智能设备用户界面,用户可通过遥控器上的麦克风进行近场语音输入,或者,通过麦克风阵列进行远场语音输入。
智能设备获取到用户发出的语音控制信息后,可将其发送给云端进行语音识别,相应地,云端可对获取到的语音控制信息进行语音识别,从而得到语音识别结果,即得到语音控制信息对应的文本信息。
图2为现有语音识别过程的示意图。如图2所示,一个完整的语音识别过程包括采集语音数据(如本实施例中所述的语音控制信息)、对获取到的语音数据进行特征提取,以及,将提取出的特征放到特定的解码器上作解码得到语音识别结果等。
在采集语音数据时,采集设备的性能、声音源到采集设备的距离、采集设备支持单麦克风还是麦克风阵列等的不同,均会影响声音采集效果。总体来说,采集设备性能越高,声音源到采集设备距离越短,采用麦克风阵列而不是单麦克风,会得到特征更完整更利于识别的语音数据。例如,想要支持远场(>5米)唤醒或者识别,使用麦克风阵列的性能会大大优于使用单麦克风的性能。
采集到的语音数据可能会存在一些问题,并不能直接用来识别。比如,在免提或者会议应用的场景下,扬声器的声音会多次反馈到麦克风,这时麦克风采集到的语音数据中会存在声学回声,需要使用回声消除(AEC,Acoustic Echo Cancellation)算法做回声消除。再比如,在特定的环境下,如行驶的车辆中,采集到的语音数据中会有特定的噪音,这时就需要借助于降噪(NS,Noise Suppression)算法来消除噪音。
可对按照上述方式进行处理后的语音数据进行特征提取,并将提取出的特征放到特定的解码器上作解码得到语音识别结果。在解码器解码过程中,会使用到声学模型、语言模型和发音词典。声学模型的主要作用是将语音特征转换成音节,语言模型的主要作用是将音节转换成文本,发音词典则提供了一个从音节到文本的映射表。
在102中,确定智能设备对应的自定义指令集,并在自定义指令集中查找与获取到的文本信息相匹配的自定义指令信息,自定义指令集中至少包括一条自定义指令信息。
云端获取到用户发出的语音控制信息对应的文本信息后,可首先确定出智能设备对应的自定义指令集。
比如,不同的厂商可分别对应不同的自定义指令集,自定义指令集中至少包括一条自定义指令信息,这样,根据智能设备所属的厂商,即可确定出智能设备对应的自定义指令集。
也就是说,厂商可以根据自己的特定功能进行云端指令的制定,将制定好的指令放在云端进行自然语言处理(NLP,Natural Language Processing)解析,完全不受云端已有指令的影响,并且,不同厂商的自定义指令不会彼此影响,也不可复用。
假设智能设备为“海尔”冰箱,那么智能设备对应的自定义指令集即可为厂商“海尔”对应的自定义指令集。
在确定出智能设备对应的自定义指令集后,可进一步在自定义指令集中查找与获取到的文本信息相匹配的自定义指令信息。
比如,可分别将获取到的文本信息与自定义指令集中的各自定义指令信息进行模糊匹配,以便查找到与文本信息相匹配的自定义指令信息。
查找到的相匹配的自定义指令信息的数量可能为一个,也可能为多个,或者,也可能不存在相匹配的自定义指令信息。如果查找到的相匹配的自定义指令信息的数量为一个,那么可直接执行103,如果查找到的相匹配的自定义指令信息的数量为多个,那么可从中选出匹配程度最高的自定义指令信息,进而基于选出的自定义指令信息执行103。
在103中,若存在相匹配的自定义指令信息,则根据相匹配的自定义指令信息生成操作指令。
较佳地,每条自定义指令信息中可包括:自定义规则以及自定义字典。相应地,根据相匹配的自定义指令信息生成操作指令即指根据相匹配的自定义指令信息中的自定义规则及自定义字典生成操作指令。
比如,相匹配的自定义指令信息中的自定义规则为:
ai.dueros.device_interface.thirdparty.gionee.voiceassistOperateBluetooth[operate][bluetooth];
相匹配的自定义指令信息中的自定义字典为:
[D:operate]
打开
关闭
[D:bluetooth]
蓝牙;
当用户发出的语音控制信息为“打开蓝牙”时,则会返回如下操作指令:
Figure BDA0001574529350000081
图3为本发明所述根据相匹配的自定义指令信息生成操作指令的方式示意图。如图3所示,其中的pattern即为自定义规则,dict.dic字典即为自定义字典。
在104中,将操作指令返回给智能设备,以便智能设备根据操作指令完成对应的操作。
云端生成操作指令之后,可将操作指令返回给智能设备,这样,智能设备即可根据操作指令完成对应的操作,如完成打开蓝牙的操作。
如前所述,若存在相匹配的自定义指令信息,那么可按照103~104所示方式进行处理,若不存在相匹配的自定义指令信息,可进一步在通用指令集中查找与获取到的文本信息相匹配的通用指令信息,若存在相匹配的通用指令信息,可根据相匹配的通用指令信息生成操作指令。
不同的智能设备对应同一通用指令集,通用指令集即可为现有技术中的固定指令集,不同厂商的智能设备可共用同一固定指令集。
若不存在相匹配的通用指令信息,可返回空的结果给智能设备。
智能设备获取到云端返回的结果后,如果是空的结果,可不用执行任何操作,如果是非空的结果,即获取到根据自定义指令信息或通用指令信息生成的操作指令,则可根据操作指令完成对应的操作。
图4为本发明所述智能控制方法第二实施例的流程图。如图4所示,包括以下具体实现方式。
在401中,智能设备获取来自用户的语音控制信息,并获取语音控制信息对应的文本信息。
当需要智能设备执行某种操作时,用户可向智能设备发出语音形式的控制指令,如“快速杀毒”。
智能设备获取到用户发出的语音控制信息后,可将其发送给云端进行语音识别,相应地,云端可对获取到的语音控制信息进行语音识别,从而得到语音识别结果,即得到语音控制信息对应的文本信息,并将文本信息返回给智能设备。
在402中,智能设备将获取到的文本信息发送给云端,以便云端在智能设备对应的自定义指令集中查找与文本信息相匹配的自定义指令信息,自定义指令集中至少包括一条自定义指令信息。
智能设备获取到文本信息之后,可将其发送给云端。针对获取到的文本信息,云端可首先确定出智能设备对应的自定义指令集,比如,不同的厂商可分别对应不同的自定义指令集,自定义指令集中至少包括一条自定义指令信息,这样,根据智能设备所属的厂商,即可确定出智能设备对应的自定义指令集。之后,云端可在智能设备对应的自定义指令集中查找与获取到的文本信息相匹配的自定义指令信息,若存在相匹配的自定义指令信息,则可进一步根据相匹配的自定义指令信息生成操作指令。
在403中,智能设备获取云端返回的操作指令,操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令。
云端生成操作指令之后,可将其返回给智能设备。
在404中,智能设备根据获取到的操作指令完成对应的操作。
比如,完成打开蓝牙的操作。
另外,403中,智能设备获取到的云端返回的操作指令,也可以为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与获取到的文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令。
不同的智能设备对应同一通用指令集,通用指令集即可为现有技术中的固定指令集,不同厂商的智能设备可共用同一固定指令集。
若不存在相匹配的通用指令信息,云端可向智能设备返回空的结果。
智能设备获取到云端返回的结果后,如果是空的结果,可不用执行任何操作,如果是非空的结果,即获取到根据自定义指令信息或通用指令信息生成的操作指令,则可根据操作指令完成对应的操作。
上述各方法实施例中,语音识别以及匹配等操作均可在云端完成,并可由不同的云端服务器来完成,如图5所示,图5为本发明所述智能设备与云端服务器的交互方式示意图。
智能设备获取用户的语音控制信息,发送给云端语音识别服务器进行语音识别,并获取云端语音识别服务器返回的识别出的文本信息,之后,智能设备将识别出的文本信息发送给云端解析服务器,云端解析服务器从智能设备对应的自定义指令集中查找出与文本信息相匹配的自定义指令信息,并根据相匹配的自定义指令信息生成操作指令,进而将操作指令返回给智能设备,智能设备根据操作指令完成对应的操作。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可设置自定义指令集,如厂商可设置自己的智能设备对应的自定义指令集,从而可满足厂商的特定功能需求,进而提高了语音控制的成功率,而且,无需进行很长时间的开发、测试等,从而能够满足厂商的产品测试及发布时间需求,另外,厂商可根据自身需求灵活设置和更新自定义指令集,实现起来灵活方便。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图6为本发明所述智能控制设备实施例的组成结构示意图。如图6所示,包括:第一获取单元601、指令匹配单元602以及第一发送单元603。
第一获取单元601,用于获取用户向智能设备发出的语音控制信息对应的文本信息。
指令匹配单元602,用于确定智能设备对应的自定义指令集,并在自定义指令集中查找与文本信息相匹配的自定义指令信息,自定义指令集中至少包括一条自定义指令信息,若存在相匹配的自定义指令信息,则根据相匹配的自定义指令信息生成操作指令。
第一发送单元603,用于将操作指令返回给智能设备,以便智能设备根据操作指令完成对应的操作。
在实际应用中,可由智能设备将获取到的用户的语音控制信息发送给云端,进而通过语音识别得到对应的文本信息。
指令匹配单元602获取到来自第一获取单元601的文本信息后,可首先确定出智能设备对应的自定义指令集,比如,不同的厂商可分别对应不同的自定义指令集,自定义指令集中至少包括一条自定义指令信息,这样,根据智能设备所属的厂商,即可确定出智能设备对应的自定义指令集,之后,可在确定出的自定义指令集中查找与获取到的文本信息相匹配的自定义指令信息,若存在相匹配的自定义指令信息,则可根据相匹配的自定义指令信息生成操作指令。每条自定义指令信息中可包括:自定义规则以及自定义字典,相应地,根据相匹配的自定义指令信息生成操作指令即指根据相匹配的自定义指令信息中的自定义规则及自定义字典生成操作指令。
第一发送单元603可将指令匹配单元602生成的操作指令返回给智能设备,以便智能设备根据操作指令完成对应的操作。
另外,若不存在相匹配的自定义指令信息,指令匹配单元602还可在通用指令集中查找与文本信息相匹配的通用指令信息,不同的智能设备对应同一通用指令集,若存在相匹配的通用指令信息,则可根据相匹配的通用指令信息生成操作指令,进而通过第一发送单元603返回给智能设备。
若不存在相匹配的通用指令信息,第一发送单元603可返回空的结果给智能设备。
在实际应用中,图6所示智能控制设备可为图5中所示的云端解析服务器。
图7为本发明所述智能设备实施例的组成结构示意图。如图7所示,包括:第二获取单元701、第二发送单元702以及指令执行单元703。
第二获取单元701,用于获取用户向智能设备发出的语音控制信息,并获取语音控制信息对应的文本信息。
第二发送单元702,用于将文本信息发送给云端,以便云端在智能设备对应的自定义指令集中查找与文本信息相匹配的自定义指令信息,自定义指令集中至少包括一条自定义指令信息。
指令执行单元703,用于获取云端返回的操作指令,操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令,根据操作指令完成对应的操作。
第二获取单元701获取到用户的语音控制信息后,可将其发送给云端进行语音识别,并获取云端返回的识别得到的文本信息。
之后,第二发送单元702可将识别得到的文本信息发送给云端,以便云端在智能设备对应的自定义指令集中查找与文本信息相匹配的自定义指令信息,并根据相匹配的自定义指令信息生成操作指令。
指令执行单元703获取云端返回的操作指令,并根据操作指令完成对应的操作。
另外,指令执行单元703获取到的云端返回的操作指令,还可为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令,不同的智能设备对应同一通用指令集,进而可根据操作指令完成对应的操作。
本发明中同时公开了一种智能控制***,包括:如图6中所示的智能控制设备,以及,如图7中所示的智能设备。
上述设备及***实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
总之,采用上述各设备及***实施例所述方案,可设置自定义指令集,如厂商可设置自己的智能设备对应的自定义指令集,从而可满足厂商的特定功能需求,进而提高了语音控制的成功率,而且,无需进行很长时间的开发、测试等,从而能够满足厂商的产品测试及发布时间需求,另外,厂商可根据自身需求灵活设置和更新自定义指令集,实现起来灵活方便。
图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图8显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或4所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或4所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (17)

1.一种智能控制方法,其特征在于,包括:
获取用户向智能设备发出的语音控制信息对应的文本信息;
根据智能设备所属的厂商,确定所述智能设备对应的自定义指令集,并在所述自定义指令集中查找与所述文本信息相匹配的自定义指令信息,不同的厂商分别对应不同的自定义指令集,所述自定义指令集中至少包括一条自定义指令信息;所述自定义指令集中包括的自定义指令信息为所述厂商根据自己的智能设备上的特定功能而制定的;
若存在相匹配的自定义指令信息,则根据所述相匹配的自定义指令信息生成操作指令;
将所述操作指令返回给所述智能设备,以便所述智能设备根据所述操作指令完成所述智能设备对应的操作。
2.根据权利要求1所述的方法,其特征在于,
每条自定义指令信息中包括:自定义规则以及自定义字典。
3.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
若不存在相匹配的自定义指令信息,则在通用指令集中查找与所述文本信息相匹配的通用指令信息,不同的智能设备对应同一通用指令集;
若存在相匹配的通用指令信息,则根据所述相匹配的通用指令信息生成操作指令。
4.根据权利要求3所述的方法,其特征在于,
该方法进一步包括:
若不存在相匹配的通用指令信息,则返回空的结果给所述智能设备。
5.一种智能控制方法,其特征在于,包括:
智能设备获取来自用户的语音控制信息,并获取所述语音控制信息对应的文本信息;
所述智能设备将所述文本信息发送给云端,以便云端根据智能设备所属的厂商,确定所述智能设备对应的自定义指令集,在所述智能设备对应的自定义指令集中查找与所述文本信息相匹配的自定义指令信息,不同的厂商分别对应不同的自定义指令集,所述自定义指令集中至少包括一条自定义指令信息;所述自定义指令集中包括的自定义指令信息为所述厂商根据自己的智能设备上的特定功能而制定的;
所述智能设备获取云端返回的操作指令,所述操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令;
所述智能设备根据所述操作指令完成所述智能设备对应的操作。
6.根据权利要求5所述的方法,其特征在于,
所述获取所述语音控制信息对应的文本信息包括:
将所述语音控制信息发送给云端进行语音识别;
获取云端返回的识别得到的所述文本信息。
7.根据权利要求5所述的方法,其特征在于,
该方法进一步包括:
所述智能设备获取云端返回的操作指令,所述操作指令为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与所述文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令,不同的智能设备对应同一通用指令集。
8.一种智能控制设备,其特征在于,包括:第一获取单元、指令匹配单元以及第一发送单元;
所述第一获取单元,用于获取用户向智能设备发出的语音控制信息对应的文本信息;
所述指令匹配单元,用于根据智能设备所属的厂商,确定所述智能设备对应的自定义指令集,并在所述自定义指令集中查找与所述文本信息相匹配的自定义指令信息,不同的厂商分别对应不同的自定义指令集,所述自定义指令集中至少包括一条自定义指令信息,若存在相匹配的自定义指令信息,则根据所述相匹配的自定义指令信息生成操作指令;所述自定义指令集中包括的自定义指令信息为所述厂商根据自己的智能设备上的特定功能而制定的;
所述第一发送单元,用于将所述操作指令返回给所述智能设备,以便所述智能设备根据所述操作指令完成所述智能设备对应的操作。
9.根据权利要求8所述的智能控制设备,其特征在于,
每条自定义指令信息中包括:自定义规则以及自定义字典。
10.根据权利要求8所述的智能控制设备,其特征在于,
所述指令匹配单元进一步用于,若不存在相匹配的自定义指令信息,则在通用指令集中查找与所述文本信息相匹配的通用指令信息,不同的智能设备对应同一通用指令集,若存在相匹配的通用指令信息,则根据所述相匹配的通用指令信息生成操作指令。
11.根据权利要求10所述的智能控制设备,其特征在于,
所述第一发送单元进一步用于,若不存在相匹配的通用指令信息,则返回空的结果给所述智能设备。
12.一种智能设备,其特征在于,包括:第二获取单元、第二发送单元以及指令执行单元;
所述第二获取单元,用于获取用户向所述智能设备发出的语音控制信息,并获取所述语音控制信息对应的文本信息;
所述第二发送单元,用于将所述文本信息发送给云端,以便云端根据智能设备所属的厂商,确定所述智能设备对应的自定义指令集,在所述智能设备对应的自定义指令集中查找与所述文本信息相匹配的自定义指令信息,不同的厂商分别对应不同的自定义指令集,所述自定义指令集中至少包括一条自定义指令信息;所述自定义指令集中包括的自定义指令信息为所述厂商根据自己的智能设备上的特定功能而制定的;
所述指令执行单元,用于获取云端返回的操作指令,所述操作指令为云端根据查找到的相匹配的自定义指令信息生成的操作指令,根据所述操作指令完成所述智能设备对应的操作。
13.根据权利要求12所述的智能设备,其特征在于,
所述第二获取单元将所述语音控制信息发送给云端进行语音识别,并获取云端返回的识别得到的所述文本信息。
14.根据权利要求12所述的智能设备,其特征在于,
所述指令执行单元进一步用于,获取云端返回的操作指令,所述操作指令为云端未查找到相匹配的自定义指令信息时,在通用指令集中查找与所述文本信息相匹配的通用指令信息,根据查找到的相匹配的通用指令信息生成的操作指令,不同的智能设备对应同一通用指令集,根据所述操作指令完成对应的操作。
15.一种智能控制***,其特征在于,包括:
如权利要求8~11中任一项所述的智能控制设备,以及,如权利要求12~14中任一项所述的智能设备。
16.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201810129720.6A 2018-02-08 2018-02-08 智能控制方法、***、设备及存储介质 Active CN108564944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810129720.6A CN108564944B (zh) 2018-02-08 2018-02-08 智能控制方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810129720.6A CN108564944B (zh) 2018-02-08 2018-02-08 智能控制方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108564944A CN108564944A (zh) 2018-09-21
CN108564944B true CN108564944B (zh) 2021-12-24

Family

ID=63532197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810129720.6A Active CN108564944B (zh) 2018-02-08 2018-02-08 智能控制方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108564944B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109561003A (zh) * 2018-12-20 2019-04-02 深圳市朗强科技有限公司 一种基于声控的红外遥控器及电器控制***
CN109670016B (zh) * 2018-12-25 2021-02-02 苏州思必驰信息科技有限公司 用于语音对话平台内语音产品的技能测试方法及***
CN111327469A (zh) * 2020-02-21 2020-06-23 苏州浪潮智能科技有限公司 一种配置文件生成方法、***、设备以及介质
CN113129889B (zh) * 2021-03-09 2023-11-07 佛山市佰特智慧物联科技有限公司 语音控制方法及控制装置
CN113377050A (zh) * 2021-06-16 2021-09-10 北京字节跳动网络技术有限公司 控制终端的方法、装置、终端及非暂时性存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488032A (zh) * 2015-12-31 2016-04-13 杭州智蚁科技有限公司 一种语音识别输入的控制方法及***
CN107612968A (zh) * 2017-08-15 2018-01-19 北京小蓦机器人技术有限公司 通过智能终端控制其所连接设备的方法、设备与***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646646B (zh) * 2013-11-27 2018-08-31 联想(北京)有限公司 一种语音控制方法及电子设备
CN105989841B (zh) * 2015-02-17 2019-12-27 上海汽车集团股份有限公司 车载语音控制方法及装置
CN105242556A (zh) * 2015-10-28 2016-01-13 小米科技有限责任公司 智能设备的语音控制方法、装置、控制设备及智能设备
CN106970908A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种语音内容分析方法
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、***及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488032A (zh) * 2015-12-31 2016-04-13 杭州智蚁科技有限公司 一种语音识别输入的控制方法及***
CN107612968A (zh) * 2017-08-15 2018-01-19 北京小蓦机器人技术有限公司 通过智能终端控制其所连接设备的方法、设备与***

Also Published As

Publication number Publication date
CN108564944A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108564944B (zh) 智能控制方法、***、设备及存储介质
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN108170749B (zh) 基于人工智能的对话方法、装置及计算机可读介质
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
CN107103903B (zh) 基于人工智能的声学模型训练方法、装置及存储介质
CN110033760B (zh) 语音识别的建模方法、装置及设备
KR102115541B1 (ko) 외부 데이터 소스들을 사용한 스피치 재-인식
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
US11587550B2 (en) Method and apparatus for outputting information
CN107221328B (zh) 修改源的定位方法及装置、计算机设备及可读介质
CN108776696B (zh) 节点配置方法及装置、存储介质和电子设备
CN109635305B (zh) 语音翻译方法及装置、设备及存储介质
CN109947924B (zh) 对话***训练数据构建方法、装置、电子设备及存储介质
US20180090131A1 (en) Technologies for improved keyword spotting
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN112289305A (zh) 韵律预测方法、装置、设备以及存储介质
CN112309368A (zh) 韵律预测方法、装置、设备以及存储介质
CN110675865A (zh) 用于训练混合语言识别模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210511

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant