CN116021506A - 机器人控制方法、装置和存储介质 - Google Patents

机器人控制方法、装置和存储介质 Download PDF

Info

Publication number
CN116021506A
CN116021506A CN202111248999.8A CN202111248999A CN116021506A CN 116021506 A CN116021506 A CN 116021506A CN 202111248999 A CN202111248999 A CN 202111248999A CN 116021506 A CN116021506 A CN 116021506A
Authority
CN
China
Prior art keywords
frame
robot
feature
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111248999.8A
Other languages
English (en)
Inventor
张志鹏
鞠汶奇
徐全飞
孙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Robozone Technology Co Ltd
Original Assignee
Midea Robozone Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Robozone Technology Co Ltd filed Critical Midea Robozone Technology Co Ltd
Priority to CN202111248999.8A priority Critical patent/CN116021506A/zh
Priority to EP21962184.4A priority patent/EP4421591A1/en
Priority to PCT/CN2021/136031 priority patent/WO2023070841A1/zh
Publication of CN116021506A publication Critical patent/CN116021506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种机器人控制方法、装置和存储介质,方法包括:检测机器人上摄像头采集的第一场景图像中是否有脚部;根据连续多帧第一场景图像检测到脚部,获取多帧摄像头采集的第二场景图像;基于第二场景图像识别脚部姿势,并按照识别的脚部姿势对应的控制方式控制机器人。通过用搭载在机器人上的摄像头拍摄的场景图像,捕捉视野范围内出现脚部时,再利用摄像头拍摄的一段视频识别出脚部姿势,并按照识别的脚部姿势实现机器人的智能控制。相较现有的手机APP或机身上按键的方式,更加方便、快捷、智能,可以很好提升用户体验。并且由于利用的是机器人上原有摄像头便可实现智能控制,无需增加成本,便可以带来产品的智能控制,进一步提升了用户体验。

Description

机器人控制方法、装置和存储介质
技术领域
本发明涉及机器人技术领域,具体涉及一种机器人控制方法、装置和存储介质。
背景技术
随着科技的发展,机器人在人们的日常生活中应用越来越多,例如常见的扫地机器人、擦地机器人,以及更为高级的机器人管家等,这些机器人在家庭中的应用,使得人们的生活变得更为舒适便利。其中,机器视觉作为辅助可以帮助机器人获取周围视野范围的场景信息。
目前,对机器人工作的控制主要基于手机APP或者机器人机身上按键。
但是,利用手机APP,严重依赖于手机与用于传输控制指令的网络,操作不够方便快捷,并且机器人机身上的按键功能也有限,因此目前基于手机APP或者机身上按键的机器人控制方案都比较复杂繁琐,用户使用体验不佳。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种机器人控制方法、装置和存储介质,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种机器人控制方法,所述方法包括:
获取机器人周围的第一场景图像,并检测所述第一场景图像中是否有脚部;
根据连续预设数量帧第一场景图像均被检测到有脚部,连续获取多帧机器人周围的第二场景图像;
基于所述多帧第二场景图像识别脚部姿势,并按照识别到的脚部姿势所对应的控制方式控制所述机器人。
在本申请的一些实施例中,所述检测所述第一场景图像中是否有脚部,包括:
将所述第一场景图像输入已训练的第一神经网络模型,以由所述第一神经网络模型检测所述第一场景图像中是否有脚部,并输出检测结果。
在本申请的一些实施例中,所述方法还包括第一神经网络模型的训练过程:
获取由所述摄像头采集的包含脚部的图像作为正样本,并获取不包含脚部的图像作为负样本;利用所述正样本和所述负样本对预先建立的分类模型进行训练,以得到第一神经网络模型。
在本申请的一些实施例中,所述基于所述多帧第二场景图像识别脚部姿势,包括:
将所述多帧连续的第二场景图像输入已训练的第二神经网络模型,以由所述第二神经网络模型基于多帧第二场景图像识别脚部姿势。
在本申请的一些实施例中,所述第二神经网络模型基于多帧第二场景图像识别脚部姿势,包括:
通过所述第二神经网络模型中的特征提取模块对每帧第二场景图像依次进行特征提取,得到多帧特征图;通过所述第二神经网络模型中的时序移位模块从所述特征提取模块中获取所述多帧特征图,并对每帧特征图进行时序移位,以得到多帧移位后的特征图;通过所述第二神经网络模型中的识别模块从所述时序移位模块中获取所述多帧移位后的特征图,从所述特征提取模块中获取所述多帧特征图,并根据所述多帧移位后的特征图和所述多帧特征图识别脚部姿势。
在本申请的一些实施例中,所述时序移位模块对每帧特征图进行时序移位,以得到多帧移位后的特征图,包括:
针对第一帧特征图至倒数第二帧特征图中的每帧特征图,将该特征图中部分通道的特征移位至相邻的下一帧特征图的相应通道上,以得到多帧移位后的特征图。
在本申请的一些实施例中,所述识别模块根据所述多帧移位后的特征图和所述多帧特征图识别脚部姿势,包括:
通过所述识别模块中的卷积层对每帧移位后的特征图进行卷积操作;通过所述识别模块中的合并层从所述卷积层中获取每帧卷积后的特征图,并将每帧卷积后的特征图与所述多帧特征图中相应的特征图进行合并,以得到多帧合并后的特征图;通过所述识别模块中的全连接层从所述合并层中获取所述多帧合并后的特征图,并基于所述多帧合并后的特征图获得脚部姿势识别结果。
在本申请的一些实施例中,所述特征提取模块对每帧第二场景图像依次进行特征提取,得到多帧特征图,包括:
通过所述特征提取模块中增加注意力机制的卷积模块对每帧第二场景图像依次进行特征提取,得到多帧特征图。
在本申请的一些实施例中,所述增加注意力机制的卷积模块为在至少一对相邻卷积层之间设置有注意力模块;所述注意力模块包括通道注意力模块、第一融合层、空间注意力模块、以及第二融合层;其中,通过所述通道注意力模块根据上一卷积层输出的特征图获得通道权重;通过所述第一融合层将所述通道权重融合到上一卷积层输出的特征图上,得到第一融合特征图;通过所述空间注意力模块根据第一融合层输出的第一融合特征图获得空间位置权重;通过所述第二融合层将所述空间位置权重融合到第一融合特征图上,得到第二融合特征图,并输入至下一卷积层中。
在本申请的一些实施例中,所述方法还包括所述第二神经网络模型的训练过程:
获取由所述摄像头采集的多段包含脚部的视频,并标注每段视频中包含的预设脚部姿势;利用标注后的多段视频对预先建立的动作识别模型进行训练,以得到第二神经网络模型。
在本申请的一些实施例中,在得到第二神经网络模型之后,所述方法还包括:
对所述第二神经网络模型中的模型参数进行整型量化。
在本申请的一些实施例中,所述按照识别到的脚部姿势所对应的控制方式控制所述机器人,包括:
根据识别到的脚部姿势为第一预设姿势,控制所述机器人启动清扫模式开始清扫;根据识别到的脚部姿势为第二预设姿势,控制所述机器人结束清扫;根据识别到的脚部姿势为第三预设姿势,控制所述机器人进入目标跟踪模式;根据识别到的脚部姿势为第四预设姿势,控制所述机器人对所述脚部位置的预设范围进行清扫。
本发明的第二方面提供了一种机器人控制装置,所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述方法的步骤。
本发明的第三方面提供了一种机器人,包括:
如上述第二方面所述的机器人控制装置;
摄像头,用于采集所述机器人周围的场景图像。
本发明的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法的步骤。
基于上述第一方面至第四方面所述的机器人控制方法、装置和存储介质,本发明技术方案具有如下有益效果或好处:
通过利用搭载在机器人上的摄像头拍摄的场景图像,捕捉到机器人视野范围内出现脚部时,继续利用摄像头拍摄的一段视频识别出具体的脚部姿势,从而按照识别的脚部姿势实现机器人的智能控制。相较于现有的手机APP或者机身上按键的控制方式,更加方便、快捷、智能,可以很好提升用户体验。并且由于利用的是机器人上原有摄像头便可实现智能控制,无需增加成本,便可以带来产品的智能控制,进一步提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明示出的一种机器人的结构示意图;
图2为本发明根据一示例性实施例示出的一种机器人控制方法的实施例流程示意图;
图3为本发明根据图2所示实施例示出的第二神经网络模型进行脚部姿势识别的流程示意图;
图4为本发明根据图3所示实施例示出的第二神经网络模型的结构示意图;
图5为本发明根据图3所示实施例示出的特征提取模块中增加的注意力模块的结构示意图;
图6为本发明根据图3所示实施例示出的时序移位模块的移位原理示意图;
图7为本发明根据图3所示实施例示出的识别模块的结构示意图;
图8为本发明根据一示例性实施例示出的一种机器人控制方法的具体框架示意图;
图9为本发明根据一示例性实施例示出的一种机器人控制装置的结构示意图;
图10为本发明根据一示例性实施例示出的一种存储介质的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
为了解决当前采用手机APP或机身按键控制机器人不方便的问题,本申请提出一种改进的机器人控制方法,即获取机器人上摄像头采集的第一场景图像,并检测第一场景图像中是否有脚部,根据连续预设数量帧第一场景图像均被检测到有脚部,连续获取多帧所述摄像头采集的第二场景图像,从而基于多帧第二场景图像识别脚部姿势,并按照识别到的脚部姿势所对应的控制方式控制机器人。
基于上述描述可达到的技术效果有:
通过利用搭载在机器人上的摄像头拍摄的场景图像,捕捉到机器人视野范围内出现脚部时,继续利用摄像头拍摄的一段视频识别出具体的脚部姿势,从而按照识别的脚部姿势实现机器人的智能控制。相较于现有的手机APP或者机身上按键的控制方式,更加方便、快捷、智能,可以很好提升用户体验。并且由于利用的是机器人上原有摄像头便可实现智能控制,无需增加成本,便可以带来产品的智能控制,进一步提升了用户体验。
参见图1所示的机器人结构示意图,包括机器人本体10、机器人控制装置20、摄像头30。
具体地,机器人本体10用于进行移动,其与机器人控制装置20电连接,摄像头30设置在机器人本体10背离地面的一侧,也即摄像头30设置在机器人的正前方,在机器人移动过程中,可以控制摄像头30拍摄机器人前方的场景,实现避障、路径规划。
可选的,机器人控制装置20可以独立于机器人本体10之外,当然也可以集成在机器人本体10内,本申请对此不进行具体限定。
需要说明的是,机器人本体10中设置有运动模块、控制模块、各种传感器等结构,以用于实现机器人的环境地图的构建和路径规划。
基于上述各个结构的功能描述,机器人控制装置20的控制原理为:
获取机器人上摄像头采集的第一场景图像,并检测第一场景图像中是否有脚部,根据连续预设数量帧第一场景图像均被检测到有脚部,连续获取多帧所述摄像头采集的第二场景图像,从而基于多帧第二场景图像识别脚部姿势,并按照识别到的脚部姿势所对应的控制方式控制机器人。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一:
图2为本发明根据一示例性实施例示出的一种机器人控制方法的实施例流程示意图,所述机器人控制方法所适用的机器人包括如图1所示的摄像头30,下面以机器人为扫地机器人为例进行示例性说明,如图2所示,所述机器人控制方法包括如下步骤:
步骤201:获取机器人上摄像头采集的第一场景图像,并检测第一场景图像中是否有脚部。
其中,无论机器人处于移动状态还是停止状态,其上搭载的摄像头均会实时采集机器人周围的场景图像,由于机器人自身高度有限,因此如果有人进入摄像头视野范围,摄像头也只能拍摄到人的脚部位置。
在一可选的具体实施例中,针对检测第一场景图像中是否有脚部的过程,可以将第一场景图像输入已训练的第一神经网络模型,以由第一神经网络模型检测第一场景图像中是否有脚部,并输出检测结果。通过采用神经网络实现视野范围内是否有人脚部出现的检测,既简单又准确。
其中,由于第一神经网络模型只需要判断图像中是否有人的脚部出现,因此可以采用简单的二分类模型即可。
可选的,由于机器人自身的算力有限,因此二分类模型的搭建可以采用深度卷积网络加少量全连接层来实现。
在本实施例中,在应用第一神经网络模型之前,需要提前训练好第一神经网络模型,其训练过程包括:获取由摄像头采集的包含脚部的图像作为正样本,并获取不包含脚部的图像作为负样本,然后利用正样本和负样本对预先建立的分类模型进行训练,以得到第一神经网络模型。
其中。在采集正负样本时,可以在机器人上摄像头的视野范围内,由不同的人,穿着不同的鞋子,用脚做出一些预设的姿势,摄像头拍摄成视频,然后从视频中抽取其中包含脚部的图像作为正样本,不包含脚部的图像作为负样本。
步骤202:根据连续预设数量帧第一场景图像均检测到有脚部,连续获取多帧摄像头采集的第二场景图像。
其中,通过限制连续多帧均检测到有脚部,再进行后续的脚部姿势的识别,可以避免出现误检测或者用户无意经过摄像头视野范围。
进一步地,由于人做一些特定的脚部姿势时,需要几秒时间来完成,因此在识别具体的脚部姿势时,需要获取多帧连续的图像来进行识别。
本领域技术人员可以理解的是,上述“第一场景图像”和“第二场景图像”均属于摄像头采集的场景图像,只是第一场景图像的采集时间早于第二场景图像而已。也就是说,只有机器人检测到摄像头的视野范围内有人的脚部出现,再进行具体的脚部姿势识别。
步骤203:基于所述多帧第二场景图像识别脚部姿势,并按照识别到的脚部姿势所对应的控制方式控制机器人。
在一可选的具体实施例中,针对脚部姿势的识别过程,可以将多帧连续的第二场景图像输入已训练的第二神经网络模型,以由第二神经网络模型基于多帧第二场景图像识别脚部姿势。
针对第二神经网络模型识别脚部姿势的具体过程,可以参见下述实施例的相关描述,本申请在此暂不详述。
其中,第二神经网络模型属于动作识别模型,在应用第二神经网络模型之前,需要提前训练好第二神经网络模型,其训练过程包括:获取由摄像头采集的多段包含脚部的视频,并标注每段视频中包含的预设脚部姿势,然后利用标注后的多段视频对预先建立的动作识别模型进行训练,以得到第二神经网络模型。
可选的,在采集训练数据时,可以在机器人上摄像头的视野范围内,由不同的人,穿着不同的鞋子,用脚做出一些预设的姿势,摄像头拍摄成视频,并对每段视频标注脚部姿势标签。
对于第二神经网络模型可识别的有效脚部姿势的种类,可以根据实际需求设置,假设机器人具有4种控制功能,那么可以在训练第二神经网络模型时,采集包含4种脚部姿势的数据集来对动作识别模型进行训练,对于除这4种之外的脚部姿势,第二神经网络模型均识别为无效脚部姿势。
在一可选的具体实施方式中,如果由第二神经网络模型能够识别得到4种有效的脚部姿势,那么针对按照识别到的脚部姿势所对应的控制方式控制机器人的过程,如果识别到的脚部姿势为第一预设姿势,则控制机器人启动清扫模式开始清扫;如果识别到的脚部姿势为第二预设姿势,则控制机器人结束清扫;如果识别到的脚部姿势为第三预设姿势,控制机器人进入目标跟踪模式,以使机器人追踪用户脚部,到达特定位置;如果识别到的脚部姿势为第四预设姿势,则控制机器人对脚部位置的预设范围进行重点清扫。
本领域技术人员可以理解的是,上述给出的4种控制功能仅为示例性说明,本申请包括但不限于开始清扫、结束清扫、目标跟踪、重点清扫等这4种功能。
需要说明的是,由于训练好的第二神经网络模型中各层包含的模型参数均为浮点类型,而机器人由于算力有限,如果搭载浮点格式的模型,会出现运行效率极低的问题,为了不影响机器人的运行效率,本发明在得到第二神经网络模型之后,还可以对第二神经网络模型中的模型参数进行整型量化。从而,将量化后的第二神经网络模型部署到机器人上,可以使用较少的资源占用,进行高效稳定的识别。
可选的,整型量化计算公式如下:
Q=R/S+Z
其中,Q代表量化后的整型参数;R代表模型中的浮点型参数;S=(Rmax-Rmin)/(Qmax-Qmin),为量化尺度;Z=Qmax-Rmax/S,为量化零点。
基于上述步骤201至步骤203所述,在一优选实施例中,为了尽量降低机器人的资源占用,降低能耗负担,复杂的第二神经网络模型保持休眠,只运行简单的第一神经网络模型来检测第一场景图像中是否有脚部,若连续多帧第一场景图像中均检测到脚部,则唤醒第二神经网络模型基于进一步采集的多帧第二场景图像识别脚部姿势。
进一步地,如果第二神经网络模型持续一段时间均未识别到有效的脚部姿势,则控制第二神经网络模型重新进入休眠,并启动第一神经网络模型。
至此,完成上述图2所示的控制流程,通过利用搭载在机器人上的摄像头拍摄的场景图像,捕捉到机器人视野范围内出现脚部时,继续利用摄像头拍摄的一段视频识别出具体的脚部姿势,从而按照识别的脚部姿势实现机器人的智能控制。相较于现有的手机APP或者机身上按键的控制方式,更加方便、快捷、智能,可以很好提升用户体验。并且由于利用的是机器人上原有摄像头便可实现智能控制,无需增加成本,便可以带来产品的智能控制,进一步提升了用户体验。
实施例二:
图3为本发明根据图2所示实施例示出的第二神经网络模型进行脚部姿势识别的流程示意图,基于上述图2所示实施例的基础上,并结合图4所示的第二神经网络模型的结构,第二神经网络模型进行脚部姿势识别的流程包括如下步骤:
步骤301:通过第二神经网络模型中的特征提取模块对每帧第二场景图像依次进行特征提取,得到多帧特征图。
在一可选的具体实施例中,可以通过特征提取模块中增加注意力机制的卷积模块对每帧第二场景图像依次进行特征提取,得到多帧特征图,以使模型更多的集中注意力在有效信息上。
其中,卷积模块中包括有多层卷积层,对于增加了注意力机制的卷积模块可以是在至少一对相邻卷积层之间设置注意力模块。该注意力模块会根据输入特征计算通道权重和空间位置权重,再对输入特征进行加权,不改变输入特征的形状。
可选的,如图5所示,注意力模块包括通道注意力模块、第一融合层、空间注意力模块、以及第二融合层,其中各模块层的工作原理包括:
通过通道注意力模块根据上一卷积层输出的特征图获得通道权重;
通过第一融合层将通道权重融合到上一卷积层输出的特征图上,得到第一融合特征图;
通过空间注意力模块根据第一融合层输出的第一融合特征图获得空间位置权重;
通过第二融合层将空间位置权重融合到第一融合特征图上,得到第二融合特征图,并输入至下一卷积层。
其中,第一融合层和第二融合层均进行的是乘积操作,即对输入的两项信息做乘积操作。
步骤302:通过第二神经网络模型中的时序移位模块从特征提取模块中获取多帧特征图,并对每帧特征图进行时序移位,以得到多帧移位后的特征图。
其中,通过对每帧特征图进行时序移位,可以在不增加计算量的前提下,有效融合各帧特征图之间的时序信息,以使移位后的特征图获得时序建模能力。
在一可选的具体实施例中,针对第一帧特征图至倒数第二帧特征图中的每帧特征图,将该特征图中部分通道的特征移位至相邻的下一帧特征图的相应通道上,以得到多帧移位后的特征图。
其中,为了保证每帧移位后的特征图的尺寸一致,对于第一帧特征图中移走通道的特征,可以用0补全。
如图6所示的时序移位原理,输入NxCxHxW的特征图(N为图片序号,C为通道数,H为特征图高,W为特征图宽),当N=4时,对于t=4的特征图,是将该特征图中部分通道的特征丢弃,将t=3的特征图中相应通道的特征移位至t=4的特征图中;对于t=3的特征图,是将t=2的特征图中部分通道的特征移位至该特征图中;对于t=2的特征图,是将t=1的特征图中部分通道的特征移位至该特征图中;对于t=1的特征图,是将t=0的特征图中部分通道的特征移位至该特征图中。
步骤303:通过第二神经网络模型中的识别模块从时序移位模块中获取多帧移位后的特征图,从特征提取模块中获取多帧特征图,并根据多帧移位后的特征图和多帧特征图识别脚部姿势。
在一可选的具体实施例中,如图7所示的识别模块的结构,其识别过程包括步骤如下:
1、由识别模块中的卷积层对每帧移位后的特征图进行卷积操作,以将移位过来的上一时序特征与当前时序特征进行融合。值得注意的是,为了保证后续与特征提取模块输出的特征图进行合并,在进行卷积操作时要保证卷积之后输出的特征图的通道数和尺寸大小保持不变。
2、由识别模块中的合并层从卷积层中获取每帧卷积后的特征图,并将每帧卷积后的特征图与特征提取模块输出的多帧特征图中相应的特征图进行合并,以得到多帧合并后的特征图。由于卷积后的特征图包含有上下时序建模信息,而特征提取模块保留有空间建模信息,因此通过将这两项特征图进行合并,可以使得合并后的特征图即具有时序建模信息也具有空间建模信息。具体地,在合并层中进行合并操作为特征相加操作。
3、由识别模块中的全连接层从合并层中获取多帧合并后的特征图,并基于多帧合并后的特征图获得脚部姿势识别结果。
其中,全连接层输出的脚部姿势识别结果可能是有效脚部姿势的序号,也可能是无效脚部姿势的序号。
有效脚部姿势指的是识别模块能够识别出的脚部姿势,无效脚部姿势指的是识别模块无法识别出的脚部姿势。
至此,完成上述图3所示的识别流程,通过在模型中增加时序移位模块使得每帧特征图具有时序建模能力,提高视频理解能力,更加准确识别具体的脚部姿势。
实施例三:
图8为本发明根据一示例性实施例示出的一种机器人控制方法的具体框架示意图,基于上述图2至图7所示实施例的基础上,该具体框架示意图包括:
在PC机上训练好第一神经网络模型和第二神经网络模型后,将第一神经网络模型和第二神经网络模型部署到机器人上,机器人上搭载的相机实时采集场景图像,并输入第一神经网络模型,以由第一神经网络模型检测输入的场景图像中是否有脚部出现,当连续多帧检测到有脚部时,唤醒第二神经网络模型,并将相机采集的一段视频输入第二神经网络模型,以由第二神经网络模型识别输入视频中的脚部姿势,从而按照识别到的脚部姿势所对应的控制方式控制机器人(例如控制机器人开始清扫、停止清扫、目标跟踪、重点清扫等的功能)。
进一步地,如果第二神经网络模型持续一段时间均未识别到有效的脚部姿势,则控制第二神经网络模型重新进入休眠,并启动第一神经网络模型继续进行脚部检测。
本发明实施方式还提供一种与前述实施方式所提供的机器人控制方法对应的机器人控制装置,以执行上述机器人控制方法。
图9为本发明根据一示例性实施例示出的一种机器人控制装置的硬件结构图,该机器人控制装置包括:通信接口701、处理器702、存储器703和总线704;其中,通信接口701、处理器702和存储器703通过总线704完成相互间的通信。处理器702通过读取并执行存储器703中与机器人控制方法的控制逻辑对应的机器可执行指令,可执行上文描述的机器人控制方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的存储器703可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器703可以是RAM(Random AccessMemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口701(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线704可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器703用于存储程序,所述处理器702在接收到执行指令后,执行所述程序。
处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
本申请实施例提供的机器人控制装置与本申请实施例提供的机器人控制方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的机器人控制方法对应的计算机可读存储介质,请参考图10所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的机器人控制方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的机器人控制方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种机器人控制方法,其特征在于,所述方法包括:
获取机器人上摄像头采集的第一场景图像,并检测所述第一场景图像中是否有脚部;
根据连续预设数量帧第一场景图像均检测到有脚部,连续获取多帧所述摄像头采集的第二场景图像;
基于所述多帧第二场景图像识别脚部姿势,并按照识别到的脚部姿势所对应的控制方式控制所述机器人。
2.如权利要求1所述的方法,其特征在于,所述检测所述第一场景图像中是否有脚部,包括:
将所述第一场景图像输入已训练的第一神经网络模型,以由所述第一神经网络模型检测所述第一场景图像中是否有脚部,并输出检测结果。
3.如权利要求2所述的方法,其特征在于,所述方法还包括第一神经网络模型的训练过程:
获取由所述摄像头采集的包含脚部的图像作为正样本,并获取不包含脚部的图像作为负样本;
利用所述正样本和所述负样本对预先建立的分类模型进行训练,以得到第一神经网络模型。
4.如权利要求1所述的方法,其特征在于,所述基于所述多帧第二场景图像识别脚部姿势,包括:
将所述多帧连续的第二场景图像输入已训练的第二神经网络模型,以由所述第二神经网络模型基于多帧第二场景图像识别脚部姿势。
5.如权利要求4所述的方法,其特征在于,所述第二神经网络模型基于多帧第二场景图像识别脚部姿势,包括:
通过所述第二神经网络模型中的特征提取模块对每帧第二场景图像依次进行特征提取,得到多帧特征图;
通过所述第二神经网络模型中的时序移位模块从所述特征提取模块中获取所述多帧特征图,并对每帧特征图进行时序移位,以得到多帧移位后的特征图;
通过所述第二神经网络模型中的识别模块从所述时序移位模块中获取所述多帧移位后的特征图,从所述特征提取模块中获取所述多帧特征图,并根据所述多帧移位后的特征图和所述多帧特征图识别脚部姿势。
6.如权利要求5所述的方法,其特征在于,所述时序移位模块对每帧特征图进行时序移位,以得到多帧移位后的特征图,包括:
针对第一帧特征图至倒数第二帧特征图中的每帧特征图,将该特征图中部分通道的特征移位至相邻的下一帧特征图的相应通道上,以得到多帧移位后的特征图。
7.如权利要求5所述的方法,其特征在于,所述识别模块根据所述多帧移位后的特征图和所述多帧特征图识别脚部姿势,包括:
通过所述识别模块中的卷积层对每帧移位后的特征图进行卷积操作;
通过所述识别模块中的合并层从所述卷积层中获取每帧卷积后的特征图,并将每帧卷积后的特征图与所述多帧特征图中相应的特征图进行合并,以得到多帧合并后的特征图;
通过所述识别模块中的全连接层从所述合并层中获取所述多帧合并后的特征图,并基于所述多帧合并后的特征图获得脚部姿势识别结果。
8.如权利要求5所述的方法,其特征在于,所述特征提取模块对每帧第二场景图像依次进行特征提取,得到多帧特征图,包括:
通过所述特征提取模块中增加注意力机制的卷积模块对每帧第二场景图像依次进行特征提取,得到多帧特征图。
9.如权利要求8所述的方法,其特征在于,所述增加注意力机制的卷积模块为在至少一对相邻卷积层之间设置有注意力模块;所述注意力模块包括通道注意力模块、第一融合层、空间注意力模块、以及第二融合层;
其中,通过所述通道注意力模块根据上一卷积层输出的特征图获得通道权重;
通过所述第一融合层将所述通道权重融合到上一卷积层输出的特征图上,得到第一融合特征图;
通过所述空间注意力模块根据第一融合层输出的第一融合特征图获得空间位置权重;
通过所述第二融合层将所述空间位置权重融合到第一融合特征图上,得到第二融合特征图,并输入至下一卷积层中。
10.如权利要求4-9任一项所述的方法,其特征在于,所述方法还包括所述第二神经网络模型的训练过程:
获取由所述摄像头采集的多段包含脚部的视频,并标注每段视频中包含的预设脚部姿势;
利用标注后的多段视频对预先建立的动作识别模型进行训练,以得到第二神经网络模型。
11.如权利要求10所述的方法,其特征在于,在得到第二神经网络模型之后,所述方法还包括:
对所述第二神经网络模型中的模型参数进行整型量化。
12.如权利要求1所述的方法,其特征在于,所述按照识别到的脚部姿势所对应的控制方式控制所述机器人,包括:
根据识别到的脚部姿势为第一预设姿势,控制所述机器人启动清扫模式开始清扫;
根据识别到的脚部姿势为第二预设姿势,控制所述机器人结束清扫;
根据识别到的脚部姿势为第三预设姿势,控制所述机器人进入目标跟踪模式;
根据识别到的脚部姿势为第四预设姿势,控制所述机器人对所述脚部位置的预设范围进行清扫。
13.一种机器人控制装置,所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-12任一项所述方法的步骤。
14.一种机器人,其特征在于,包括:
如上述权利要求13所述的机器人控制装置;
摄像头,用于采集所述机器人周围的场景图像。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12任一项所述方法的步骤。
CN202111248999.8A 2021-10-26 2021-10-26 机器人控制方法、装置和存储介质 Pending CN116021506A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111248999.8A CN116021506A (zh) 2021-10-26 2021-10-26 机器人控制方法、装置和存储介质
EP21962184.4A EP4421591A1 (en) 2021-10-26 2021-12-07 Robot control method and apparatus, and storage medium
PCT/CN2021/136031 WO2023070841A1 (zh) 2021-10-26 2021-12-07 机器人控制方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111248999.8A CN116021506A (zh) 2021-10-26 2021-10-26 机器人控制方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN116021506A true CN116021506A (zh) 2023-04-28

Family

ID=86076542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111248999.8A Pending CN116021506A (zh) 2021-10-26 2021-10-26 机器人控制方法、装置和存储介质

Country Status (3)

Country Link
EP (1) EP4421591A1 (zh)
CN (1) CN116021506A (zh)
WO (1) WO2023070841A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104748746B (zh) * 2013-12-29 2017-11-03 刘进 智能机姿态测定及虚拟现实漫游方法
CN110765967B (zh) * 2019-10-30 2022-04-22 腾讯科技(深圳)有限公司 一种基于人工智能的动作识别方法和相关装置
CN111462192A (zh) * 2020-02-24 2020-07-28 江苏大学 一种人行道扫地机器人时空双流融合卷积神经网络动态避障方法
CN111754303A (zh) * 2020-06-24 2020-10-09 北京字节跳动网络技术有限公司 虚拟换服饰的方法和装置、设备和介质
CN112379781B (zh) * 2020-12-10 2023-02-28 深圳华芯信息技术股份有限公司 基于脚部信息识别的人机交互方法、***以及终端
CN112800894B (zh) * 2021-01-18 2022-08-26 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及***

Also Published As

Publication number Publication date
WO2023070841A1 (zh) 2023-05-04
EP4421591A1 (en) 2024-08-28

Similar Documents

Publication Publication Date Title
CN102843509B (zh) 图像处理装置和图像处理方法
CN101086600A (zh) 成像设备、成像设备控制方法以及计算机程序
CN112207812B (zh) 设备控制方法、设备、***及存储介质
WO2021190321A1 (zh) 图像处理方法和装置
CN104660900A (zh) 图像处理装置及图像处理方法
CN106648078B (zh) 应用于智能机器人的多模态交互方法及***
CN110164060B (zh) 一种用于娃娃机的手势控制方法、存储介质和娃娃机
JP2009053815A (ja) 被写体追跡プログラム、および被写体追跡装置
CN103733607A (zh) 用于检测运动物体的装置和方法
CN114241379B (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控***
CN104869316A (zh) 一种多目标的摄像方法及装置
CN108710879B (zh) 一种基于网格聚类算法的行人候选区域生成方法
CN106774910A (zh) 基于虚拟现实的街景实现方法和装置
CN105180802A (zh) 一种物体尺寸信息识别方法和装置
CN109753901A (zh) 基于行人识别的室内行人寻迹方法、装置、计算机设备及存储介质
CN114511589A (zh) 一种人体跟踪方法和***
CN113610865B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN116021506A (zh) 机器人控制方法、装置和存储介质
CN113158766A (zh) 面向无人驾驶的基于姿态估计的行人行为识别方法
CN104935807B (zh) 摄像装置、摄像方法以及计算机可读取的记录介质
CN113538557A (zh) 基于三维视觉的箱体积测量装置
JP2020098114A (ja) 自己位置推定装置、自己位置推定方法及びプログラム
CN111062311B (zh) 一种基于深度级可分离卷积网络的行人手势识别与交互方法
CN111368667B (zh) 一种数据采集方法、电子设备和存储介质
CN103900714A (zh) 热像匹配装置和热像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination