CN110010125A - 一种智能机器人的控制方法、装置、终端设备及介质 - Google Patents
一种智能机器人的控制方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN110010125A CN110010125A CN201711478761.8A CN201711478761A CN110010125A CN 110010125 A CN110010125 A CN 110010125A CN 201711478761 A CN201711478761 A CN 201711478761A CN 110010125 A CN110010125 A CN 110010125A
- Authority
- CN
- China
- Prior art keywords
- control instruction
- intelligent robot
- semantics recognition
- control
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 13
- 230000002452 interceptive effect Effects 0.000 abstract description 8
- 230000002618 waking effect Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Manipulator (AREA)
Abstract
本发明适用于人工智能技术领域,提供了一种智能机器人的控制方法、装置、终端设备及介质,该方法包括:接收用户发出的语音信号;对所述语音信号进行语义识别处理,得到语义识别结果;在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。本发明使得用户在不知道唤醒词的情况之下,也能基于自己的语音交互习惯,实时发出个性化的语音控制信号;由于智能机器人能够基于语义识别的方式自行确定并分发控制指令,故实现了全语音交互,免去了用户在操控智能机器人过程中的学习成本,降低了操控繁琐度以及提高了人机交互的效率。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种智能机器人的控制方法、装置、终端设备及介质。
背景技术
随着人工智能技术的不断发展,智能机器人一般都已实现了与用户之间的人机语音交互,其可根据用户发出的语音信息,回答用户的问题或者执行相应的控制功能。因此,现有的智能机器人已在人们的日常生活中扮演着越来越重要的角色,得到了越来越广泛的应用。
目前,为了启动智能机器人的语音交互功能,用户都只能通过物理按键或者采用预设唤醒词的方式来唤醒智能机器人。在第一种唤醒方式之下,用户需要人工点击控制按键,因而无法实现真正意义上的全语音交互;在第二种唤醒方式之下,用户需要预先进入智能机器人的设置界面,并录入唤醒词,由此才能保证用户在后续发出包含该唤醒词的语音信号时,唤醒智能机器人。另外,对于其他用户而言,其也只有在明确知道唤醒词以及知道具体的人机交互指令的情况之下,才能正确操控智能机器人,因而现有的智能机器人控制方法存在操控难度大以及学习成本较高的问题,由此阻碍了智能机器人的进一步普及。
发明内容
有鉴于此,本发明实施例提供了一种智能机器人的控制方法及终端设备,以解决现有智能机器人控制方法中所存在的操控难度大以及学习成本较高的问题。
本发明实施例的第一方面提供了一种智能机器人的控制方法,包括:
接收用户发出的语音信号;
对所述语音信号进行语义识别处理,得到语义识别结果;
在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
本发明实施例的第二方面提供了一种智能机器人的控制装置,包括:
接收单元,用于接收用户发出的语音信号;
语义识别单元,用于对所述语音信号进行语义识别处理,得到语义识别结果;
判断单元,用于在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
控制单元,用于若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
接收用户发出的语音信号;
对所述语音信号进行语义识别处理,得到语义识别结果;
在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
接收用户发出的语音信号;
对所述语音信号进行语义识别处理,得到语义识别结果;
在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
本发明实施例中,只要接收到用户发出的语音信号,智能机器人便会对该条语音信号进行语音识别处理,以得到语义识别结果;通过在预设的多条控制指令中,获取与语义识别结果匹配的控制指令,并令智能机器人执行与该控制指令对应的操控动作,使得用户在不知道唤醒词的情况之下,也能基于自己的语音交互习惯,实时发出个性化的语音控制信号;由于智能机器人能够基于语义识别的方式自行确定并分发控制指令,因而实现了真正意义上的全语音交互,免去了用户在操控智能机器人过程中的学习成本,因此降低了操控繁琐度以及提高了人机交互的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能机器人的控制方法的实现流程图;
图2是本发明实施例提供的智能机器人的控制方法S104的具体实现流程图;
图3是本发明另一实施例提供的智能机器人的控制方法的实现流程图;
图4是本发明又一实施例提供的智能机器人的控制方法的实现流程图;
图5是本发明实施例提供的智能机器人的控制装置的结构框图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参见图1,图1是本发明实施例提供的智能机器人的控制方法的实现流程图。如图1所示的实现流程包括步骤S101至S104,各步骤的实现原理具体如下:
S101:接收用户发出的语音信号。
当用户想要与智能机器人进行语音交互时,可对着该智能机器人说出自己想要交互的语音信号,例如,说出“给我跳个舞”或者“播一首歌来听下”等。
本发明实施例中,启动机器人软件平台(Robot Operating System,ROS)所内置的语音接收器,以激活语音接收器的录音功能。基于语音接收器,ROS可接收用户输入的语音信号。其中,上述语音接收器例如可以是麦克风。
S102:对所述语音信号进行语义识别处理,得到语义识别结果。
对于实时接收到的语音信号,对其进行语义识别处理。其中,语义识别处理过程基于自然语言理解(Natural Language Understanding,NLU)技术来实现。示例性地,在将语音信号转换为文本信息后,经过对文本信息的分词、词性标注、语法分析以及语义分析,可在预设的标准语法的指导下,将语音信号所表达的主要语义信息进行输出,以得到语义识别结果。
S103:在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令。
在预设的本地信息库中,存储有智能机器人所能执行的各个任务的类别。当智能机器人需要执行某一类别任务时,通过运行该类任务所对应的一个安卓安装包(AndroidPackage,APK)来实现。为了区分不同的APK,本发明实施例中,以每一APK在安装后所得到的安卓应用(Application,App)的唯一编码号(identification,ID)来对其进行标识。由此,本地信息库中存储有各App ID以及任务类型的对应关系。
本发明实施例中,判断上述输出的语义识别结果与本地信息库中所预设的各个任务类别是否关联。示例性地,若某一任务类别为“跳舞”,而对用户输入的语音信号进行语义识别处理后所输出的语义信息为与“跳舞”相关的信息,则确定该语义信息与“跳舞”这一类别的任务关联,故读取“跳舞”这一任务类别对应的App ID。
为了控制智能机器人完成相应的任务,需要读取该任务对应的APK中所包含的各条控制指令。因此,若检测到本地信息库中存在与上述语义信息关联的任务类型,则确定存在与语义识别结果匹配的控制指令,且与语义识别结果匹配的控制指令为该任务类型所对应的APK中所包含的控制指令。
优选地,除了基于上述本地信息库来获取与语义识别结果匹配的控制指令之外,还可通过无线相连的云端信息库来获取与语义识别结果匹配的控制指令。具体地,将语义识别结果上传至后台的云端信息库,以使云端信息库检测是否存在与语义识别结果匹配的控制指令或App ID。
S104:若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
若本地信息库或云端信息库中存在与所述语义识别结果匹配的所述控制指令,则智能机器人内部的安卓端任务分发器调用与该控制指令相关的服务,以实现该控制指令对应的响应操作。
例如,若存在与语音识别结果匹配的控制指令,且控制指令所对应的AppId为10,则安卓端任务分发器调用App ID为10的APK。若App ID为10的APK为跳舞APK,则调用后该APK后,智能机器人将执行预设的舞蹈动作。
进一步地,若不存在与所述语义识别结果匹配的所述控制指令,则返回执行所述接收用户发出的语音信号的步骤,即重新执行上述S101至S103。
进一步地,若不存在与所述语义识别结果匹配的所述控制指令,则还可以控制智能机器人进入语音闲聊模式,以向用户返回与语义识别结果相关的语音信息。并且,在再次接收到用户发出的语音信号时,重复执行上述S101至S103。
例如,若基于用户发出的语音信号的语音识别结果为“跳舞”,且暂未检测到与“跳舞”相关的控制指令,则此时,智能机器人将返回与“跳舞”相关的语音话题信息,如,返回“我也喜欢跳舞”。
进一步地,上述实施例中,在将语义识别结果发送至云端信息库后,若接收到云端信息库返回的与语义识别结果匹配的第一控制指令,且在本地信息库中也检测到与该语义识别结果匹配的第二控制指令,则可根据获取得到的控制指令的先后次序,确定当前所需执行的一条控制指令。若在云端信息库中优先获取到控制指令,则执行云端信息库中所匹配得到的控制指令;若在本地信息库中优先获取到控制指令,则执行本地信息库中所匹配得到的控制指令。其中,上述第一控制指令以及第二控制指令可以相同,也可以不同。
本发明实施例中,只要接收到用户发出的语音信号,智能机器人便会对该条语音信号进行语音识别处理,以得到语义识别结果;通过在预设的多条控制指令中,获取与语义识别结果匹配的控制指令,并令智能机器人执行与该控制指令对应的操控动作,使得用户在不知道唤醒词的情况之下,也能基于自己的语音交互习惯,实时发出个性化的语音控制信号;由于智能机器人能够基于语义识别的方式自行确定并分发控制指令,因而实现了真正意义上的全语音交互,免去了用户在操控智能机器人过程中的学习成本,因此降低了操控繁琐度以及提高了人机交互的效率。
本发明实施例中,在不存在与语义识别结果匹配的控制指令之下,通过控制智能机器人进入语音闲聊模式,使得智能机器人即使无法通过具体的动作APK来响应用户的语音信息,也不至于不对用户执行任何反馈,保证了只要用户发出了语音信号,用户就能够实现与智能机器人的交互,提高了智能机器人的交互能力。由于用户能够基于反馈的语音信息来确认智能机器人已接收到其语音信号,故避免了用户重复发出相同语音信号的情况出现。
作为本发明的一个实施例,图2示出了本发明实施例提供的智能机器人的控制方法S104的具体实现流程,详述如下:
S1041:若存在与所述语义识别结果匹配的多条所述控制指令,则计算每一条所述控制指令的置信度,所述置信度表示所述控制指令与所述语义识别结果的匹配程度。
本发明实施例中,与语义识别结果匹配的控制指令可能是一条或多条。当匹配得到的控制指令的数量为多条时,分别计算各条控制指令的置信度。具体地,在本地信息库中,根据预设的指令字典,分别生成各条控制指令所对应的指令向量。同时,将语义识别结果也转换为基准向量,以利用现有技术中的向量相似度计算算法,计算各指令向量与基准向量之间的相似度。对任一指令向量而言,将其与基准向量之间的相似度确定为该指令向量所对应的控制指令的置信度。
S1042:获取所述置信度最高的一条所述控制指令,以令智能机器人执行与该条控制指令对应的操控动作。
本发明实施例中,在计算得到的具有不同置信度的控制指令中,确定出置信度最高的控制指令,以根据该控制指令,控制智能机器人执行相应的操控动作。
进一步地,在计算得到的具有不同置信度的控制指令中,还可以确定出置信度高于预设阈值的控制指令,以控制智能机器人分别执行与确定出的各控制指令对应的操控动作。
进一步地,上述实施例中,在将语义识别结果发送至云端信息库后,若接收到云端信息库返回的与语义识别结果匹配的一条或多条第一控制指令,且在本地信息库中也检测到与该语义识别结果匹配的一条或多条第二控制指令,则除了上述基于时间的先后次序来确认智能机器人所需执行的控制指令之外,还可以利用上述置信度计算算法,分别计算各个第一控制指令以及第二控制指令的置信度,以令智能机器人执行其中置信度最大的一条控制指令。
进一步地,若存在与所述语义识别结果匹配的多个APK,则基于上述相同的置信度算法,计算每一APK的置信度,并令智能机器人运行其中置信度最高的一个APK。
本发明实施例中,通过以数学向量的方式来计算语义识别结果以及控制指令之间的相似度,在量化了语义匹配度的同时,大大减少了计算消耗,提高了计算效率;由于筛选出的控制指令与语义识别结果的关联度最高,因而基于置信度最大的控制指令来控制智能机器人执行相应的操作,提高了语音交互的准确率,也使得智能机器人无需同时执行匹配得到的所有控制指令,减少了智能机器人的无效操作。
作为本发明的另一实施例,如图3所示,在上述S101之前,还包括:
S105:基于所述智能机器人上的深度摄像头,获取实时拍摄图像。
本发明实施例中,具有深度检测功能的摄像头为深度摄像头。深度摄像头设置于智能机器人身上,且持续处于拍摄状态。具体地,每隔预设的时间间隔,深度摄像头在其视觉拍摄范围内,捕捉当前的景象,以得到一帧实时拍摄图像。
深度摄像头通过预设算法来对实时拍摄图像进行分割以及识别等处理,以提取实时拍摄图像中的特征信息,并判断提取得到的特征信息是否为活体生物特征信息。其中,上述预设算法为人脸检测算法或基于动物体的图像识别算法等。
S106:若检测到所述实时拍摄图像中包含活体生物,且检测到所述活体生物与所述智能机器人的距离小于预设阈值,则控制所述智能机器人进入语音听写模式。
若提取得到的特征信息中包含活体生物特征信息,则确定当前实时拍摄图像中包含活体生物。此时,深度摄像头基于双摄像头的视差、单个摄像头通过移动在不同角度捕捉同一场景、photometric stereo或detect算法等原理,检测活动生物与当前智能机器人的距离值。
若检测到的活体生物与智能机器人的距离值小于预设阈值,则控制智能机器人开启语音听写模式。在语音听写模式下,智能机器人将持续检测外界所存在的语音信号,以通过上述S101对接收到的语音信号进行识别处理。
本发明实施例中,通过利用深度摄像头来获取智能机器人附近范围内的实时拍摄图像,能够快速检测出实时拍摄图像中是否存在活体生物以及准确确定出活动生物与智能机器人的距离值。由于活动生物与智能机器人的距离值小于预设阈值时,表示附近范围内的生物体具有较大的概率需要与智能机器人进行语音交互,因此,通过控制智能机器人进入语音听写模式,实现了智能机器人的自动唤醒,避免了当用户发出语音信号时,智能机器人未能及时接收该语音信号而导致无法执行相应操控动作的情况发生。
优选地,仅在连续获取得到多帧满足预设条件的实时拍摄图像时,才控制智能机器人进入语音听写模式。上述预设条件包括:实时拍摄图像中包含活体生物,且检测到所述活体生物与所述智能机器人的距离小于预设阈值。本发明实施例中,只有在获取得到多张满足预设条件的实时拍摄图像的情况下,才令智能机器人进入语音听写模式,保证了在活体生物误入深度摄像头的视觉拍摄范围且快速离开的情况之下,智能机器人也不会被唤醒,提高了自动唤醒智能机器人的准确率。另外,由于图像检测算法也可能产生错误检测的现象,故通过检测连续多帧实时拍摄图像是否满足预设条件来判断是否控制智能机器人进入语音听写模式,能够降低生物特征的误识别率。
优选地,启动预设的计数器,当获取到新的一帧实时拍摄图像时,将计数器的计数值加一。若检测到计数值达到预设阈值,则对下一张接收到的实时拍摄图像进行丢弃后,重置上述计数器。本发明实施例中,由于接收到的实时拍摄图像需要通过预设算法来进行生物特征检测处理,因而通过隔帧丢弃(每隔预设数量的实时拍摄图像,丢弃一张实时拍摄图像)的方式来确认智能机器人是否进入语音听写模式,避免了对每一张实时拍摄图像都进行检测,在保证了能够确认活体生物是否存在的情况下,降低了所需检测的实时拍摄图像的数量,从而降低了***的CPU使用率。
作为本发明的又一实施例,如图4所示,在上述S104之后,还包括:
S107:若检测到所述实时拍摄图像中不包含活体生物,或者,检测到所述活体生物与所述智能机器人的距离大于或等于预设阈值,则控制所述智能机器人退出所述语音听写模式。
在智能机器人进入语音听写模式之后,持续接收到外界的语音信号。与此同时,预设于智能机器人上的深度摄像头保持对实时拍摄图像的识别处理。在进入语音听写模式之后的任一时刻,若检测到实时拍摄图像中不再包含活体生物,或者,检测到活体生物与智能机器人的实时距离大于或等于预设阈值,则智能机器人退出语音听写模式,进入待机状态。待机状态下,关闭语音接收功能,仅控制深度摄像头进行图像拍摄以及检测操作,并返回执行上述S105,直至再次检测到实时拍摄图像中包含活体生物,且检测到活体生物与智能机器人的距离小于预设阈值时,控制智能机器人进入语音听写模式,以执行图4中的S106及其后续各个步骤。
本发明实施例中,通过深度摄像头来检测实时拍摄图像中的活动生物,在检测结果不满足预设条件时,控制智能机器人退出语音听写模式,避免了智能机器人在无人环境之下因持续启动语音接收器而导致能耗浪费的问题出现,因此,本发明实施例降低了智能机器人的能耗,从而提高了智能机器人的续航能力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的智能机器人的控制方法,图5示出了本发明实施例提供的智能机器人的控制装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图5,该装置包括:
接收单元51,用于接收用户发出的语音信号。
语义识别单元52,用于对所述语音信号进行语义识别处理,得到语义识别结果。
判断单元53,用于在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令。
控制单元54,用于若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
可选地,所述智能机器人的控制装置还包括:
获取单元55,用于基于所述智能机器人上的深度摄像头,获取实时拍摄图像。
模式切换单元56,用于若检测到所述实时拍摄图像中包含活体生物,且检测到所述活体生物与所述智能机器人的距离小于预设阈值,则控制所述智能机器人进入语音听写模式。
可选地,所述智能机器人的控制装置还包括:
退出单元57,用于若检测到所述实时拍摄图像中不包含活体生物,或者,检测到所述活体生物与所述智能机器人的距离大于或等于预设阈值,则控制所述智能机器人退出所述语音听写模式。
可选地,所述控制单元54包括:
计算子单元,用于若存在与所述语义识别结果匹配的多条所述控制指令,则计算每一条所述控制指令的置信度,所述置信度表示所述控制指令与所述语义识别结果的匹配程度。
获取子单元,用于获取所述置信度最高的一条所述控制指令,以令智能机器人执行与该条控制指令对应的操控动作。
可选地,所述智能机器人的控制装置还包括:
返回单元58,用于若不存在与所述语义识别结果匹配的所述控制指令,则返回执行所述接收用户发出的语音信号。
本发明实施例中,只要接收到用户发出的语音信号,智能机器人便会对该条语音信号进行语音识别处理,以得到语义识别结果;通过在预设的多条控制指令中,获取与语义识别结果匹配的控制指令,并令智能机器人执行与该控制指令对应的操控动作,使得用户在不知道唤醒词的情况之下,也能基于自己的语音交互习惯,实时发出个性化的语音控制信号;由于智能机器人能够基于语义识别的方式自行确定并分发控制指令,因而实现了真正意义上的全语音交互,免去了用户在操控智能机器人过程中的学习成本,因此降低了操控繁琐度以及提高了人机交互的效率。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如智能机器人的控制程序。所述处理器60执行所述计算机程序62时实现上述各个智能机器人的控制方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各单元的功能,例如图5所示单元51至57的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种智能机器人的控制方法,其特征在于,包括:
接收用户发出的语音信号;
对所述语音信号进行语义识别处理,得到语义识别结果;
在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
2.如权利要求1所述的控制方法,其特征在于,在所述接收用户发出的语音信号之前,还包括:
基于所述智能机器人上的深度摄像头,获取实时拍摄图像;
若检测到所述实时拍摄图像中包含活体生物,且检测到所述活体生物与所述智能机器人的距离小于预设阈值,则控制所述智能机器人进入语音听写模式。
3.如权利要求2所述的控制方法,其特征在于,在所述控制所述智能机器人进入语音听写模式之后,还包括:
若检测到所述实时拍摄图像中不包含活体生物,或者,检测到所述活体生物与所述智能机器人的距离大于或等于预设阈值,则控制所述智能机器人退出所述语音听写模式。
4.如权利要求1所述的控制方法,其特征在于,所述若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作,包括:
若存在与所述语义识别结果匹配的多条所述控制指令,则计算每一条所述控制指令的置信度,所述置信度表示所述控制指令与所述语义识别结果的匹配程度;
获取所述置信度最高的一条所述控制指令,以令智能机器人执行与该条控制指令对应的操控动作。
5.如权利要求1所述的控制方法,其特征在于,还包括:
若不存在与所述语义识别结果匹配的所述控制指令,则返回执行所述接收用户发出的语音信号。
6.一种智能机器人的控制装置,其特征在于,包括:
接收单元,用于接收用户发出的语音信号;
语义识别单元,用于对所述语音信号进行语义识别处理,得到语义识别结果;
判断单元,用于在预设的多条控制指令中,判断是否存在与所述语义识别结果匹配的所述控制指令;
控制单元,用于若存在与所述语义识别结果匹配的所述控制指令,则令智能机器人执行与所述控制指令对应的操控动作。
7.如权利要求6所述的控制装置,其特征在于,还包括:
获取单元,用于基于所述智能机器人上的深度摄像头,获取实时拍摄图像;
模式切换单元,用于若检测到所述实时拍摄图像中包含活体生物,且检测到所述活体生物与所述智能机器人的距离小于预设阈值,则控制所述智能机器人进入语音听写模式。
8.如权利要求6所述的控制装置,其特征在于,所述控制单元包括:
计算子单元,用于若存在与所述语义识别结果匹配的多条所述控制指令,则计算每一条所述控制指令的置信度,所述置信度表示所述控制指令与所述语义识别结果的匹配程度;
获取子单元,用于获取所述置信度最高的一条所述控制指令,以令智能机器人执行与该条控制指令对应的操控动作。
9.一种终端设备,包括存储器、处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711478761.8A CN110010125A (zh) | 2017-12-29 | 2017-12-29 | 一种智能机器人的控制方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711478761.8A CN110010125A (zh) | 2017-12-29 | 2017-12-29 | 一种智能机器人的控制方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110010125A true CN110010125A (zh) | 2019-07-12 |
Family
ID=67164082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711478761.8A Pending CN110010125A (zh) | 2017-12-29 | 2017-12-29 | 一种智能机器人的控制方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010125A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517678A (zh) * | 2019-08-28 | 2019-11-29 | 南昌保莱科技有限公司 | 一种基于视觉感应的ai语音应答响应*** |
CN110827179A (zh) * | 2019-10-18 | 2020-02-21 | 引力互联国际有限公司 | 提供人工智能教育的方法、装置以及存储介质 |
CN110910866A (zh) * | 2019-11-28 | 2020-03-24 | 出门问问信息科技有限公司 | 一种对话处理方法、设备及计算机可读存储介质 |
CN110989900A (zh) * | 2019-11-28 | 2020-04-10 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN111198790A (zh) * | 2019-12-23 | 2020-05-26 | 深圳市优必选科技股份有限公司 | 机器人测试方法、机器人测试装置及机器人 |
CN111309992A (zh) * | 2020-02-19 | 2020-06-19 | 深圳市天博智科技有限公司 | 智能机器人应答方法、***、机器人和存储介质 |
CN111951795A (zh) * | 2020-08-10 | 2020-11-17 | 中移(杭州)信息技术有限公司 | 语音交互方法、服务器、电子设备和存储介质 |
CN112114887A (zh) * | 2020-09-24 | 2020-12-22 | 北京小米移动软件有限公司 | 被控设备、唤醒被控设备的方法及存储介质 |
CN112802495A (zh) * | 2019-11-13 | 2021-05-14 | 深圳市优必选科技股份有限公司 | 一种机器人语音测试方法、装置、存储介质及终端设备 |
CN115312054A (zh) * | 2022-08-05 | 2022-11-08 | 山东大学 | 一种基于语音交互的四足机器人运动控制方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206275A (zh) * | 2015-08-31 | 2015-12-30 | 小米科技有限责任公司 | 一种设备控制方法、装置及终端 |
CN105869639A (zh) * | 2016-03-21 | 2016-08-17 | 广东小天才科技有限公司 | 一种语音识别的方法及*** |
CN106409293A (zh) * | 2016-08-22 | 2017-02-15 | 四川美亚达光电科技有限公司 | 一种基于Android手机用的GPS导航*** |
CN106847279A (zh) * | 2017-01-10 | 2017-06-13 | 西安电子科技大学 | 基于机器人操作***ros的人机交互方法 |
CN107195301A (zh) * | 2017-05-19 | 2017-09-22 | 深圳市优必选科技有限公司 | 智能机器人语义处理的方法及装置 |
CN107437419A (zh) * | 2016-05-27 | 2017-12-05 | 广州零号软件科技有限公司 | 一种语音控制服务机器人移动的方法、指令集及*** |
-
2017
- 2017-12-29 CN CN201711478761.8A patent/CN110010125A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206275A (zh) * | 2015-08-31 | 2015-12-30 | 小米科技有限责任公司 | 一种设备控制方法、装置及终端 |
CN105869639A (zh) * | 2016-03-21 | 2016-08-17 | 广东小天才科技有限公司 | 一种语音识别的方法及*** |
CN107437419A (zh) * | 2016-05-27 | 2017-12-05 | 广州零号软件科技有限公司 | 一种语音控制服务机器人移动的方法、指令集及*** |
CN106409293A (zh) * | 2016-08-22 | 2017-02-15 | 四川美亚达光电科技有限公司 | 一种基于Android手机用的GPS导航*** |
CN106847279A (zh) * | 2017-01-10 | 2017-06-13 | 西安电子科技大学 | 基于机器人操作***ros的人机交互方法 |
CN107195301A (zh) * | 2017-05-19 | 2017-09-22 | 深圳市优必选科技有限公司 | 智能机器人语义处理的方法及装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517678A (zh) * | 2019-08-28 | 2019-11-29 | 南昌保莱科技有限公司 | 一种基于视觉感应的ai语音应答响应*** |
CN110517678B (zh) * | 2019-08-28 | 2022-04-08 | 南昌保莱科技有限公司 | 一种基于视觉感应的ai语音应答响应*** |
CN110827179A (zh) * | 2019-10-18 | 2020-02-21 | 引力互联国际有限公司 | 提供人工智能教育的方法、装置以及存储介质 |
CN112802495A (zh) * | 2019-11-13 | 2021-05-14 | 深圳市优必选科技股份有限公司 | 一种机器人语音测试方法、装置、存储介质及终端设备 |
CN110989900B (zh) * | 2019-11-28 | 2021-11-05 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN110910866A (zh) * | 2019-11-28 | 2020-03-24 | 出门问问信息科技有限公司 | 一种对话处理方法、设备及计算机可读存储介质 |
CN110989900A (zh) * | 2019-11-28 | 2020-04-10 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
US11769499B2 (en) | 2019-11-28 | 2023-09-26 | Beijing Sensetime Technology Development Co., Ltd. | Driving interaction object |
CN110910866B (zh) * | 2019-11-28 | 2022-07-29 | 出门问问创新科技有限公司 | 一种对话处理方法、设备及计算机可读存储介质 |
CN111198790A (zh) * | 2019-12-23 | 2020-05-26 | 深圳市优必选科技股份有限公司 | 机器人测试方法、机器人测试装置及机器人 |
CN111198790B (zh) * | 2019-12-23 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 机器人测试方法、机器人测试装置及机器人 |
CN111309992A (zh) * | 2020-02-19 | 2020-06-19 | 深圳市天博智科技有限公司 | 智能机器人应答方法、***、机器人和存储介质 |
CN111951795A (zh) * | 2020-08-10 | 2020-11-17 | 中移(杭州)信息技术有限公司 | 语音交互方法、服务器、电子设备和存储介质 |
CN111951795B (zh) * | 2020-08-10 | 2024-04-09 | 中移(杭州)信息技术有限公司 | 语音交互方法、服务器、电子设备和存储介质 |
CN112114887A (zh) * | 2020-09-24 | 2020-12-22 | 北京小米移动软件有限公司 | 被控设备、唤醒被控设备的方法及存储介质 |
CN115312054A (zh) * | 2022-08-05 | 2022-11-08 | 山东大学 | 一种基于语音交互的四足机器人运动控制方法及*** |
CN115312054B (zh) * | 2022-08-05 | 2024-06-07 | 山东大学 | 一种基于语音交互的四足机器人运动控制方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110010125A (zh) | 一种智能机器人的控制方法、装置、终端设备及介质 | |
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
CN104777911B (zh) | 一种基于全息技术的智能交互方法 | |
CN108664472B (zh) | 自然语言处理方法、装置及其设备 | |
CN109637548A (zh) | 基于声纹识别的语音交互方法及装置 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
CN109493849A (zh) | 语音唤醒方法、装置及电子设备 | |
CN109656512A (zh) | 基于语音助手的交互方法、装置、存储介质及终端 | |
KR20180085920A (ko) | 적응적으로 회의를 제공하기 위한 장치 및 방법 | |
CN110299152A (zh) | 人机对话的输出控制方法、装置、电子设备及存储介质 | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN108632653A (zh) | 语音管控方法、智能电视及计算机可读存储介质 | |
CN110248021A (zh) | 一种智能设备音量控制方法及*** | |
WO2021212388A1 (zh) | 一种交互沟通实现方法、设备和存储介质 | |
JP7436077B2 (ja) | スキルの音声ウェイクアップ方法および装置 | |
CN112735418A (zh) | 一种语音交互的处理方法、装置、终端及存储介质 | |
CN109215679A (zh) | 基于用户情绪的对话方法和装置 | |
CN109920413A (zh) | 一种厨房场景触屏语音对话的实现方法及存储介质 | |
CN113703585A (zh) | 交互方法、装置、电子设备及存储介质 | |
CN109686370A (zh) | 基于语音控制进行斗地主游戏的方法及装置 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
CN110154048A (zh) | 机器人的控制方法、控制装置和机器人 | |
CN110418181A (zh) | 对智能电视的业务处理方法、装置、智能设备及存储介质 | |
CN108231074A (zh) | 一种数据处理方法、语音助手设备及计算机可读存储介质 | |
CN109068005B (zh) | 一种计时提醒事件的创建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190712 |
|
RJ01 | Rejection of invention patent application after publication |