CN106897665A - 应用于智能机器人的物体识别方法及*** - Google Patents
应用于智能机器人的物体识别方法及*** Download PDFInfo
- Publication number
- CN106897665A CN106897665A CN201710031423.3A CN201710031423A CN106897665A CN 106897665 A CN106897665 A CN 106897665A CN 201710031423 A CN201710031423 A CN 201710031423A CN 106897665 A CN106897665 A CN 106897665A
- Authority
- CN
- China
- Prior art keywords
- modal
- information
- data
- identified
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于智能机器人的物体识别方法及装置,所述智能机器人安装有机器人操作***,该方法包括:获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息;从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中所述指示多模态信息为指示待识别物体的轮廓或区域的信息;响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。本发明能够使机器人准确识别物体,而且,在识别出物体后还可以根据物体信息从各种角度向用户输出多模态数据与用户进行交互,提高了机器人的智能性和用户的体验性。
Description
技术领域
本发明涉及智能机器人领域,尤其涉及一种应用于智能机器人的物体识别方法及***。
背景技术
随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人,人机交互也就成为决定智能机器人发展的重要因素。
物体识别是机器人视觉领域的核心,由于形状特征反映出图像中物体最直接的视觉特征,大部分物体可以通过分辨其形状来进行判别,因此在物体识别中,形状特征的正确提取非常重要。然而,现有的机器人在进行物体识别时,由于背景图像中除了包含目标对象以外还包含许多其他物体,因此在提取形状特征时会错误地将其他物体的特征也提取出来,这就严重影响了物体识别的准确度。
因此,亟需提供一种能够准确识别物体,提高智能机器人的智能性和拟人性的解决方案。
发明内容
本发明所要解决的技术问题之一是需要提供一种能够准确识别物体,提高智能机器人的智能性和拟人性的解决方案。
为了解决上述技术问题,本申请的实施例首先提供了一种应用于智能机器人的物体识别方法,所述智能机器人安装有机器人操作***,该方法包括:获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息;从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中所述指示多模态信息为指示待识别物体的轮廓或区域的信息;响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。
优选地,所述指示多模态信息包括表示圈定待识别物体轮廓或区域的标示框、指示待识别物体轮廓或区域的自定义标示物和预定动作的任一信息。
优选地,所述与识别结果关联的反馈输出数据包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。
优选地,该方法还包括:在物体识别失败时,输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。
优选地,若存在多个与识别结果关联的反馈输出数据,则根据用户选择的反馈输出数据进行多模态输出。
另外,本申请的实施例还提供了一种应用于智能机器人的物体识别装置,所述智能机器人安装有机器人操作***,该装置包括:多模态数据解析模块,其获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息;指示信息获取模块,其从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中,所述指示多模态信息为指示待识别物体的轮廓或区域的信息;多模态输出模块,其响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。
优选地,所述指示多模态信息包括表示圈定待识别物体轮廓或区域的标示框、指示待识别物体轮廓或区域的自定义标示物和预定动作的任一信息。
优选地,所述与识别结果关联的反馈输出数据包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。
优选地,该装置还包括:反馈输出数据创建模块,其在物体识别失败时,输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。
优选地,所述多模态输出模块,其进一步在存在多个与识别结果关联的反馈输出数据时,则根据用户选择的反馈输出数据进行多模态输出。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
本发明实施例通过使机器人获取并解析包含待识别物体信息的多模态输入数据,从解析结果中获取与物体识别关联的指示多模态信息以生成物体识别指令,然后响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出,能够在提取物体形状特征时简化提取步骤,使提取出的物体形状特征更加准确。而且,在识别出物体后还可以根据物体信息从各种角度向用户输出多模态数据与用户进行交互,提高了机器人的智能性和用户的体验性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。
附图说明
附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。
图1为根据本发明第一实施例的应用于智能机器人的物体识别方法的流程示意图。
图2为图1所示实施例中的步骤S120的具体流程示意图。
图3(A)~(F)为根据本发明实施例的多种自定义标示物的示意图。
图4为根据本发明实施例的指示待识别物体的第一种形式、即标示框的示意图。
图5为根据本发明实施例的指示待识别物体的第二种形式、即用标示物来指出物体的示意图。
图6为根据本发明实施例的指示待识别物体的第三种形式、即设定动作来指出物体的示意图。
图7为根据本发明第二实施例的应用于智能机器人的物体识别装置300的示例的结构框图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
随着智能机器人产品的普及,越来越多的家庭和商家都需要机器人为其服务。现有技术中,大多数机器人在进行物体识别时,一般需要执行如下处理:图像预处理、特征提取、特征选择、匹配和定位,而其中的特征提取部分是最关键的一步也是较难以控制的一步,通常特征提取步骤所要提取的内容是物体形状的特征。然而,由于机器人图像处理***的一些局限性,导致在进行物体形状特征的提取操作时,提取到的特征数据准确度较低,导致机器人进行物体识别时的成功率也大大下降,进而降低了用户的体验性。
本发明实施例提供了解决上述问题的解决方案。在机器人识别物体之前,对机器人采集的图像中的待识别物体通过标示框的方式进行轮廓或区域的指示,或者预先采用自定义标示物或预设动作对待识别物体轮廓或区域进行指示,而至采集到的图像中已包含自定义标示物或预设动作,在物体识别过程中,机器人先将这些与物体识别关联的指示多模态信息从图像中提取出来,然后对明确指示轮廓或区域的物体进行识别。如此,能够提高物体形状特征提取的准确率,进而能够提高物体识别的准确率。
另一方面,在本发明的实施例中,机器人在识别物体后,还根据物体识别结果生成反馈输出数据,然后向用户进行多模态输出。其中的反馈输出数据可以包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。例如,用户用手摸了摸桌子,机器人识别出桌子后,可能会发出桌子的英文读音“table”,或者会播放与桌子相关的音乐,甚至还可以告诉用户上一次谁摸过这个桌子。如此,不但提高了物体识别的准确性,还提高了趣味性。
不可避免的,由于某些因素的影响,例如图像中的物体之间出现重叠、或者采集的图像数据模糊之类的因素,导致物体识别失败,但是为了提高用户的使用兴趣以及为了实现下一次的对该物体的识别,机器人在物体识别失败时,向用户输出询问物体名称及所需反馈的信息,然后根据用户的反馈信息创建与该物体相关的反馈输出数据。
另外,在存在多个与识别结果关联的反馈输出数据时,则可以向用户发出选择请求的信息,然后根据用户选择的反馈输出数据进行多模态输出。这样能够有针对性地向用户输出其感兴趣的多模态输出,提高用户的体验度。
第一实施例
图1为涉及本发明的应用于智能机器人的物体识别方法的示例一的流程示意图。本实施例的机器人视觉***的硬件组成部分可以包括摄像头、视频解码器、处理模块和外部显示器,在该智能机器人的处理模块优选安装有机器人操作***。下面参考图1来说明该方法的各个步骤。
在步骤S110中,智能机器人获取并解析多模态输入数据,其中的多模态输入数据包括待识别物体的信息。
由于本例是对物体进行识别,因此多模态输入数据至少要包括图像类数据或由多帧图像数据构成的视频类数据。多模态输入数据的获取来源可以是来自于用户输入的图像数据或视频数据、或者这些数据和其他数据(例如,文本数据、音频数据或程序指令)的组合数据,也可以是该智能机器人调用自身的数据采集设备,例如机器人启动调用摄像头、麦克风等设备采集来的图像数据或者视频数据、或者这些数据和其他数据的组合数据等。而且,在来自用户输入的或机器人采集得到的图像中要包含待识别物体(也称“目标对象”)的图像信息。
随后,对接收到的多模态输入数据进行解析。具体来说,主要是根据数据类型特征从多模态输入数据中将图像数据或视频数据从多种类型数据中分离出来,然后对提取出到的图像数据或视频数据进行预处理。其中,针对图像的预处理主要包括滤波等去噪处理、几何畸变校正等处理。通过图像预处理,可以减少后续图像处理的复杂度,提高处理效率。而对于视频图像数据来说,除了针对每帧图像也进行去噪处理、灰度图像转换等处理,还需要检测图像中存在的移动的物体。
通常,移动物体检测算法依照目标与摄像头之间的关系可以分为静态背景下的运动检测和动态背景下的运动检测,所谓静态背景下的运动检测就是摄像头在整个摄像过程中不发生移动,只有被摄像目标在摄像机的视场内运动。由于本例中的机器人的摄像头一般不发生较大移动,因此,在检测图像中的移动的物体时,采用静态背景下运动目标检测,例如帧间差分法、背景差分法和光流法等。通过上面任一算法对视频数据的连续两帧图像进行检测,能够得到图像中是否存在移动的物体。需要说明的是,该移动物体检测主要是为了检测出图像中是否存在与指示待识别物体轮廓或区域的预定动作的信息,例如,在用户拿着待识别物体抖动或晃动时,机器人拍摄的图像中没有包括自定义标示物,如人的手部,通过检测采集到的相邻两幅图像的移动物体,可以检测出预定动作,为后面执行步骤S120做好准备。
在步骤S120中,从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中指示多模态信息为指示待识别物体的轮廓或区域的信息。
在现有技术中,现有物体识别算法会将图像数据中涉及的所有物体都识别出来,例如,通过窗口扫描的方式,对图片进行几个设定级别的缩放处理来重复进行识别,这种方式计算量非常大,增加了机器人操作***的数据处理负担,降低处理速度,而且,识别出来的多个物体往往都并不是用户所感兴趣的物体,导致浪费了大量***处理开销。因此,在本申请的一个例子中,在机器人执行物体识别之前,可以预先让用户对摄像得到的图像进行目标对象的圈定,例如,机器人将采集到的图像显示在触屏显示器上,用户通过触控笔或手指等对图像中的待识别物体进行标定,标定的图形可以是圆形、矩形等标定框(参见图4)。或者,在其他的例子中,用户通过自定义标示物或预定动作来指示场景中的目标对象,则机器人所采集的图像中会包括指示该待识别物体的轮廓或区域的信息的自定义标示物(参见图5)和预定动作(参见图6)的任一信息。容易理解,同样的图像,不同的用户会标定不同的目标物体,这既与人的观察视角、关注点等物理条件有关,也与人的性格、经历等有关。通过对目标对象预先进行标定,能够精准识别出用户感兴趣的物体,进而提高用户体验。
图2为图1所示实施例中的步骤S120的具体流程示意图。下面参见图2,详细说明从解析结果中获取与物体识别关联的指示多模态信息(标示框、自定义标示物和预定动作这三种)的具体流程。
如图2所示,该步骤S120具体包括如下子步骤。
在子步骤S1201中,先根据解析结果判断是否存在标示框。
标示框可以是圆形、矩形或三角形等形状的框体,在本例中,优选为矩形框。以标示框为矩形框为例,可以采用多边形检测,通过约束条件寻找解析结果中是否存在矩形。具体来说,在处理的过程中,先将预处理后的图像进行灰度图像转换和滤波,然后在不同阈值下进行二值化处理,然后进行多边形逼近,如果存在凸四边形并且该凸四边形的面积在预设范围内,则检测该凸四边形的角度是否为直角,如果是直角则认为该图像中存在矩形框,进而确定存在标示框。另外,通过检测线段之间夹角的方式也可以检测图像中存在的矩形框,不再赘述。关于其他形状的框体,也可以根据形状所具备的特征来进行检测。
如图2所示,在判断图像中存在标示框时,则执行步骤S1204,生成对应的物体识别指令,否则执行步骤S1202。
在子步骤S1202中,根据解析结果判断是否存在与设定动作相关的数据。
本例中的设定动作可以包括拿着被识别物体进行抖动、挥动的动作,或者如图6所示的用自定义标示物(手部)框选出待识别物体的动作。在识别是否存在设定动作的过程中,首先根据解析结果判断是否存在抖动、挥动等动作,具体可以根据在步骤S110中检测图像中是否存在移动的物体的结果来判断,若解析结果中判断图像中存在移动的物体,则认为存在设定动作,执行步骤S1204,生成对应的物体识别指令,否则对图像进行进一步解算,判断是否存在用自定义标示物框选待识别物体的动作。
在判断是否存在自定义标示物框选物体的动作时,先判断是否存在自定义标定物,然后解析自定义标定物构成的形状是否为与矩形、圆形、三角形等形状相同或类似的形状。自定义标定物可以为图3(A)~(F)中的手部、笔、棒棒糖、遥控器、手套、手机等具备指示作用的物体,除此之外,还可以根据需要选择其他物体作为自定义标示物,此处不做限定。在进行自定义标定物识别时,可以采用现有技术来实现。概况来说,可以先对图像进行特征提取和分类,然后将提取和分类的结果与预设的自定义标示物的特征进行匹配来判断图像中是否存在自定义标定物。在判断存在自定义标定物之后,解析自定义标定物构成的形状,具体可以参照子步骤S1201来进行解算。若判断自定义标定物构成的形状不是设定形状,则认为图像中不存在与设定动作相关的数据,则执行子步骤S1203,否则执行子步骤S1204生成对应的物体识别指令。
在子步骤S1203中,根据解析结果判断是否存在自定义标示物。
预先存储了各种自定义标示物的图像特征,例如图像的形状特征、颜色特征、图像纹理特征等,提取解析结果中的图像特征,然后分别将该提取的图像特征与每个自定义标示物的图像特征进行相关的参数描述,最后把两幅图所描述的相关参数进行特征匹配。与以手部作为自定义标示物的例子,在检测是否存在手部时,可以采用基于肤色的人手候选区域检测、基于Hu矩的完全手部的检测等识别手部的方法。对于其他自定义标示物,可以根据这些自定义标示物的图像特征,判断采集的图像中是否与自定义标定物匹配的物体。
若判断为存在自定义标示物,则执行步骤S1204,否则,采用其他物体识别方法进行目标对象识别,或者结束操作。
需要说明的是,在执行子步骤S1202时,在判断是否存在自定义标示物框选物体的动作时,若判断存在自定义标示物而不存在相应动作时,由于已经判断存在自定义标示物了,为了减少***处理流程,则不执行该子步骤S1203,直接执行步骤S1204。
在子步骤S1204中,生成物体识别指令。
具体地,根据检测得到的不同的指示多模态信息(标示框、自定义标示物和预定动作)生成不同的物体识别指令。例如,若检测到标识框,则生成识别标示框中的物体的物体识别指令,若检测出预定动作时,则生成识别具备移动特征的物体或框选出的物体的物体识别指令,若检测出自定义标示物时,则生成在自定义标示物设定范围内或所指示的物体的物体识别指令。
最后,在步骤S130中,响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。
在一个例子中,根据物体识别指令提取出标示框中的图片的特征向量,具备移动特征的物体或框选出的物体的图片的特征向量,或者在自定义标示物设定范围内或所指示的物体的图片的特征向量,然后采用SVM算法对物体进行分类识别,即特征向量分类。
在识别出物体后,从数据库中获取与识别结果关联的反馈输出数据,这些反馈输出数据包括与识别出的物体相关的知识性数据(例如一幅画的介绍或画家简介)、娱乐性数据(例如与“flower”相关的英文歌曲)、历史记录数据(例如之前哪个人用过该桌子)中的至少之一。在某些情况下对应一个物体可能会包括多个反馈输出数据,若存在多个与识别结果关联的反馈输出数据,则可以向用户发出请求,让用户选择一项感兴趣的反馈输出数据,然后根据用户选择的反馈输出数据进行多模态输出。
在进行多模态输出时,机器人解析反馈输出数据,生成对应的语音信息或图像信息展现给用户从而进行交互。
需要说明的是,针对单个物体实例而言,通常由于图像采集过程中光照条件、拍摄视角、距离的不同、物体自身的非刚体形变以及其他物体的部分遮挡,使得物体实例的表观特征产生很大的变化,给物体识别带来了极大的困难,容易导致物体识别失败。在此情况下,机器人可以输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。具体地,在物体识别失败时,向用户发出“该物体是什么?与它相关的反馈信息有哪些”的问询信息,用户可以发出语音信息告知机器人,或者向机器人传输相应的文本内容,机器人在获取用户反馈的数据后,记录该物体的名称以及相应的反馈输出数据,供下一次物体识别时使用。
本发明实施例能够在提取物体形状特征时简化提取步骤,使提取出的物体形状特征更加准确。而且,在识别出物体后还可以根据物体信息从各种角度向用户输出多模态数据与用户进行交互,提高了机器人的智能性和用户的体验性。
第二实施例
图7为本申请实施例的应用于智能机器人的物体识别装置300的结构框图。本实施例的机器人视觉***的硬件组成部分可以包括摄像头、视频解码器、处理模块和外部显示器,在该智能机器人的处理模块优选安装有机器人操作***。如图7所示,本申请实施例的物体识别装置300主要包括:多模态数据解析模块310、指示信息获取模块320、多模态输出模块330和反馈输出数据创建模块340。
多模态数据解析模块310,其获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息。
指示信息获取模块320,其从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中,所述指示多模态信息为指示待识别物体的轮廓或区域的信息。具体来说,所述指示多模态信息包括表示圈定待识别物体轮廓或区域的标示框、指示待识别物体轮廓或区域的自定义标示物和预定动作的任一信息。
多模态输出模块330,其响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。所述与识别结果关联的反馈输出数据包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。所述多模态输出模块330,其进一步在存在多个与识别结果关联的反馈输出数据时,则根据用户选择的反馈输出数据进行多模态输出。
反馈输出数据创建模块340,其在物体识别失败时,输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。
通过合理设置,本实施例的物体识别装置300可以执行第一实施例的各个步骤,此处不再赘述。
由于本发明的方法描述的是在计算机***中实现的。该计算机***例如可以设置在机器人的控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由机器人操作***中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种应用于智能机器人的物体识别方法,所述智能机器人安装有机器人操作***,该方法包括:
获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息;
从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中所述指示多模态信息为指示待识别物体的轮廓或区域的信息;
响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。
2.根据权利要求1所述的物体识别方法,其特征在于,
所述指示多模态信息包括表示圈定待识别物体轮廓或区域的标示框、指示待识别物体轮廓或区域的自定义标示物和预定动作的任一信息。
3.根据权利要求1或2所述的物体识别方法,其特征在于,
所述与识别结果关联的反馈输出数据包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。
4.根据权利要求1~3中任一项所述的物体识别方法,其特征在于,该方法还包括:
在物体识别失败时,输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。
5.根据权利要求3所述的物体识别方法,其特征在于,
若存在多个与识别结果关联的反馈输出数据,则根据用户选择的反馈输出数据进行多模态输出。
6.一种应用于智能机器人的物体识别装置,所述智能机器人安装有机器人操作***,该装置包括:
多模态数据解析模块,其获取并解析多模态输入数据,所述多模态输入数据包括待识别物体的信息;
指示信息获取模块,其从解析结果中获取与物体识别关联的指示多模态信息,以生成物体识别指令,其中,所述指示多模态信息为指示待识别物体的轮廓或区域的信息;
多模态输出模块,其响应该物体识别指令对目标对象进行识别,获取与识别结果关联的反馈输出数据并进行多模态输出。
7.根据权利要求6所述的物体识别装置,其特征在于,
所述指示多模态信息包括表示圈定待识别物体轮廓或区域的标示框、指示待识别物体轮廓或区域的自定义标示物和预定动作的任一信息。
8.根据权利要求6或7所述的物体识别装置,其特征在于,
所述与识别结果关联的反馈输出数据包括与识别出的物体相关的知识性数据、娱乐性数据、历史记录数据中的至少之一。
9.根据权利要求6~8中任一项所述的物体识别装置,其特征在于,该装置还包括:
反馈输出数据创建模块,其在物体识别失败时,输出询问物体名称及所需反馈的信息,根据获取的反馈信息创建与该物体相关的反馈输出数据。
10.根据权利要求8所述的物体识别装置,其特征在于,
所述多模态输出模块,其进一步在存在多个与识别结果关联的反馈输出数据时,则根据用户选择的反馈输出数据进行多模态输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710031423.3A CN106897665B (zh) | 2017-01-17 | 2017-01-17 | 应用于智能机器人的物体识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710031423.3A CN106897665B (zh) | 2017-01-17 | 2017-01-17 | 应用于智能机器人的物体识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897665A true CN106897665A (zh) | 2017-06-27 |
CN106897665B CN106897665B (zh) | 2020-08-18 |
Family
ID=59198805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710031423.3A Active CN106897665B (zh) | 2017-01-17 | 2017-01-17 | 应用于智能机器人的物体识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897665B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381048A (zh) * | 2020-11-30 | 2021-02-19 | 重庆优乃特医疗器械有限责任公司 | 基于多用户同步检测的3d体态检测分析***及方法 |
CN112417944A (zh) * | 2020-08-31 | 2021-02-26 | 深圳市银星智能科技股份有限公司 | 一种机器人控制方法及电子设备 |
US20230045897A1 (en) * | 2021-08-03 | 2023-02-16 | Subaru Corporation | Object recognition apparatus and non-transitory recording medium |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156872A (zh) * | 2010-12-29 | 2011-08-17 | 深圳大学 | 一种基于多光谱数据的物体识别方法和装置 |
CN103310182A (zh) * | 2012-03-14 | 2013-09-18 | 联想(北京)有限公司 | 一种物体的识别方法及装置 |
CN104484648A (zh) * | 2014-11-27 | 2015-04-01 | 浙江工业大学 | 基于轮廓识别的机器人可变视角障碍物检测方法 |
CN104850229A (zh) * | 2015-05-18 | 2015-08-19 | 小米科技有限责任公司 | 识别物体的方法及装置 |
CN105518702A (zh) * | 2014-11-12 | 2016-04-20 | 深圳市大疆创新科技有限公司 | 一种对目标物体的检测方法、检测装置以及机器人 |
CN106097793A (zh) * | 2016-07-21 | 2016-11-09 | 北京光年无限科技有限公司 | 一种面向智能机器人的儿童教学方法和装置 |
CN106156799A (zh) * | 2016-07-25 | 2016-11-23 | 北京光年无限科技有限公司 | 智能机器人的物体识别方法及装置 |
CN106239506A (zh) * | 2016-08-11 | 2016-12-21 | 北京光年无限科技有限公司 | 智能机器人的多模态输入数据处理方法及机器人操作*** |
-
2017
- 2017-01-17 CN CN201710031423.3A patent/CN106897665B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156872A (zh) * | 2010-12-29 | 2011-08-17 | 深圳大学 | 一种基于多光谱数据的物体识别方法和装置 |
CN103310182A (zh) * | 2012-03-14 | 2013-09-18 | 联想(北京)有限公司 | 一种物体的识别方法及装置 |
CN105518702A (zh) * | 2014-11-12 | 2016-04-20 | 深圳市大疆创新科技有限公司 | 一种对目标物体的检测方法、检测装置以及机器人 |
CN104484648A (zh) * | 2014-11-27 | 2015-04-01 | 浙江工业大学 | 基于轮廓识别的机器人可变视角障碍物检测方法 |
CN104850229A (zh) * | 2015-05-18 | 2015-08-19 | 小米科技有限责任公司 | 识别物体的方法及装置 |
CN106097793A (zh) * | 2016-07-21 | 2016-11-09 | 北京光年无限科技有限公司 | 一种面向智能机器人的儿童教学方法和装置 |
CN106156799A (zh) * | 2016-07-25 | 2016-11-23 | 北京光年无限科技有限公司 | 智能机器人的物体识别方法及装置 |
CN106239506A (zh) * | 2016-08-11 | 2016-12-21 | 北京光年无限科技有限公司 | 智能机器人的多模态输入数据处理方法及机器人操作*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417944A (zh) * | 2020-08-31 | 2021-02-26 | 深圳市银星智能科技股份有限公司 | 一种机器人控制方法及电子设备 |
CN112417944B (zh) * | 2020-08-31 | 2024-04-16 | 深圳银星智能集团股份有限公司 | 一种机器人控制方法及电子设备 |
CN112381048A (zh) * | 2020-11-30 | 2021-02-19 | 重庆优乃特医疗器械有限责任公司 | 基于多用户同步检测的3d体态检测分析***及方法 |
CN112381048B (zh) * | 2020-11-30 | 2024-05-10 | 重庆优乃特医疗器械有限责任公司 | 基于多用户同步检测的3d体态检测分析***及方法 |
US20230045897A1 (en) * | 2021-08-03 | 2023-02-16 | Subaru Corporation | Object recognition apparatus and non-transitory recording medium |
Also Published As
Publication number | Publication date |
---|---|
CN106897665B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664060B2 (en) | Multimodal input-based interaction method and device | |
CN106985137B (zh) | 用于智能机器人的多模态交互方法及*** | |
US10592726B2 (en) | Manufacturing part identification using computer vision and machine learning | |
CN106156799B (zh) | 智能机器人的物体识别方法及装置 | |
CN106960181B (zh) | 一种基于rgbd数据的行人属性识别方法 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及*** | |
US20120062736A1 (en) | Hand and indicating-point positioning method and hand gesture determining method used in human-computer interaction system | |
CN107016046A (zh) | 基于视觉场景化的智能机器人对话方法及*** | |
CN108564103A (zh) | 数据处理方法与装置 | |
CN106873893A (zh) | 用于智能机器人的多模态交互方法及装置 | |
US9798946B2 (en) | Systems and methods for optical recognition of tire specification | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
Miah et al. | Rotation, Translation and Scale Invariant Sign Word Recognition Using Deep Learning. | |
CN106897665A (zh) | 应用于智能机器人的物体识别方法及*** | |
CN109086351B (zh) | 一种获取用户标签的方法及用户标签*** | |
CN112001394A (zh) | 基于ai视觉下的听写交互方法、***、装置 | |
CN111444850A (zh) | 一种图片检测的方法和相关装置 | |
CN112784926A (zh) | 一种手势交互的方法和*** | |
CN112199015B (zh) | 智能交互一体机及其书写方法、装置 | |
CN111571567A (zh) | 机器人转译技能训练方法、装置及电子设备和存储介质 | |
CN109086391B (zh) | 一种构建知识图谱的方法及*** | |
Siby et al. | Gesture based real-time sign language recognition system | |
Bhukhya et al. | Virtual Assistant and Navigation for Visually Impaired using Deep Neural Network and Image Processing | |
JP2014038543A (ja) | 指文字を認識するための文字認識システムおよびプログラム | |
CN113505729A (zh) | 基于人体面部运动单元的面试作弊检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |