CN113246156A - 一种基于情绪智能识别的儿童陪护型机器人及控制方法 - Google Patents

一种基于情绪智能识别的儿童陪护型机器人及控制方法 Download PDF

Info

Publication number
CN113246156A
CN113246156A CN202110791276.6A CN202110791276A CN113246156A CN 113246156 A CN113246156 A CN 113246156A CN 202110791276 A CN202110791276 A CN 202110791276A CN 113246156 A CN113246156 A CN 113246156A
Authority
CN
China
Prior art keywords
emotion
module
recognition
child
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110791276.6A
Other languages
English (en)
Inventor
马力
陈昆
江飞虹
史文龙
刘鑫豪
鲁浩淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110791276.6A priority Critical patent/CN113246156A/zh
Publication of CN113246156A publication Critical patent/CN113246156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/003Manipulators for entertainment
    • B25J11/0035Dancing, executing a choreography
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于情绪智能识别的儿童陪护型机器人,包括情绪识别模块、动作交互模块、语言交互模块和控制模块;情绪识别模块:用于根据采集信号对儿童情绪进行判别,输出情绪识别值;动作交互模块:用于根据控制模块输出的控制指令控制机器人本体的运动形态;语言交互模块:用于根据控制模块输出的控制指令输出音频信息;控制模块:用于根据情绪识别值和用户输入指令输出对应级别的控制指令,并分别向动作交互模块、语言交互模块输出控制指令。本发明实现了基于机器人NAO平台对儿童的表情、语音进行识别,并判定儿童的情绪状态的功能,进而作出相应的交互反应,通过根据儿童情绪有针对性地与儿童交互,最终达到让儿童健康快乐成长的目的。

Description

一种基于情绪智能识别的儿童陪护型机器人及控制方法
技术领域
本发明涉及机器人技术领域,具体地指一种基于情绪智能识别的儿童陪护型机器人及控制方法。
背景技术
NAO机器人是法国Aldebaran Robotics公司研制的一款新型人工智能机器人,可以在多种平台上编程,并且拥有一个开放式的编程构架,吸引了全球大批人员利用它进行不同的研究。NAO有着呆萌可爱的外形,具备一定程度的人工智能和一定程度的情感智商,更易于与儿童亲近。研究表明,NAO机器人能够增强自闭症儿童的自主性,培养基本生活和社交技能。
近年来,在基于NAO的儿童陪护和心理治疗方面,国内外有大量相关研究,提出了很多有效的疗法。例如,通过总结自闭症儿童语言和认知理解困难等特点,根据传统锻炼儿童行为能力的课程,完成了NAO机器人陪伴、提示以及训练等工作;将NAO机器人作为示范者在不同示范条件下对自闭症儿童的手势障碍进行干预,并验证了NAO机器人的有效性;利用眼动数据验证孤独症儿童对NAO机器人的兴趣,随后针对孤独症儿童共同注意目标行为,设计相应的干预训练方案;发明了一种自闭症儿童辅助治疗的智能机器人,构建了自闭症儿童的内容丰富、类型多样的音乐库,其智能聊天能够强化自闭症儿童的对话能力,从而显著提高儿童自闭症的治疗效果;基于NAO来开发游戏,旨在培养自闭症儿童的亲社会和联合注意行为;利用NAO机器人对自闭症儿童进行模仿游戏、体育锻炼等,使自闭症儿童受益匪浅等等。
为了有针对性地对儿童进行心理疏导,需要预先对儿童的情绪状态进行判别,而表情是人类传达自己内心情绪、情感最有效和直接的方式。在NAO的表情识别方面,国内外的研究大多会使用机器学习的相关算法。比如,通过Gabor特征提取和弹性模板匹配算法,设计并实现了面部表情识别***;在研究卷积神经网络的理论基础上,利用目前流行的深度学习框架Tensor Flow设计了一个独特的卷积神经网络模型用于表情识别等等。
在基于语音进行情感识别方面,因为情感的表达方式与年龄、性别、语境和文化背景很多因素有关,故语音情感识别比起其他模式识别问题更困难。环境感知方法是语音情感识别进入实际应用的一个关键途径。
虽然目前国内外学者对基于NAO的儿童陪护和心理治疗方面有所研究,但多为无针对性的干预治疗,很少运用表情识别和语音识别来预先判别儿童的情绪,从而进行针对性的训练,缺乏自主性、智能性。而在NAO的表情识别、语音识别方面,多数研究仅利用表情识别、语音识别来进行简单的情绪判别和交互,很少运用在儿童陪护和心理治疗方面。
发明内容
本发明针对现有技术的不足之处,提出了一种基于情绪智能识别的儿童陪护型机器人及控制方法,实现了基于NAO平台对儿童的表情、语音进行识别,通过与儿童沟通交流锻炼儿童的对话交流能力。
为实现上述目的,本发明所设计的一种基于情绪智能识别的儿童陪护型机器人,其特殊之处在于,包括情绪识别模块、动作交互模块、语言交互模块和控制模块;
所述情绪识别模块:用于根据采集信号对儿童情绪进行判别,输出情绪识别值;
所述情绪识别模块包括表情识别模块、语音识别模块、情绪判断模块;所述表情识别模块:用于调用机器人本体上的摄像头模块采集的图像信息,对图像信息进行表情识别,输出图像情绪识别结果;所述语音识别模块:用于调用机器人本体上的音频传感器采集的语音信息,对儿童语音文字特征、音频特征分别识别,输出关键词情绪判别结果、音频特征情绪判别结果;所述情绪判断模块:用于根据图像情绪识别结果、关键词情绪判别结果、音频特征情绪判别结果进行加权分析,输出情绪判别值;
所述动作交互模块:用于根据控制模块输出的控制指令控制机器人本体的运动形态;
所述语言交互模块:用于根据控制模块输出的控制指令输出音频信息;
所述控制模块:用于根据情绪识别值和用户输入指令输出对应级别的控制指令,并分别向动作交互模块、语言交互模块输出控制指令。
进一步地,所述表情识别模块由基于opencv模型的儿童面部检测模块、基于dlib模型的儿童面部预处理模块和基于mobilenet迁移学习算法网络模型的儿童表情预测模块组成。
更进一步地,所述语音识别模块由基于ALSpeechRecognition模型的音频特征分析模块和基于百度语音识别API的关键词情绪分析模块组成。
更进一步地,所述情绪判断模块输出情绪判别值mood的模型为:
Figure 812847DEST_PATH_IMAGE001
其中,mood1为关键词情绪判别结果,mood2为音频特征情绪判别结果,mood3为图像情绪判别结果,mood1、mood2、mood3均为四维情绪预测概率向量,每一维度代表一种情绪,按照比重进行加权,求出最后的加权情绪预测概率向量mood,取其中概率最大维度对应的情绪作为当前用户的情绪。
更进一步地,所述动作交互模块运用动力学模型法,建立基于ZMP的集中质量模型,对机器人本体的步态进行规划与控制。
更进一步地,所述集中质量模型的表达式为:
Figure 589042DEST_PATH_IMAGE002
其中m为机器人的总质量;
Figure 932561DEST_PATH_IMAGE003
为重力加速度;
Figure 124508DEST_PATH_IMAGE004
为机器人所受外力;
Figure 1197DEST_PATH_IMAGE005
为机器人重心(COG),
Figure 558081DEST_PATH_IMAGE006
为ZMP,
Figure 887431DEST_PATH_IMAGE007
为地面高度。
本发明还提出一种基于情绪智能识别的儿童陪护型机器人的控制方法,其特殊之处在于,所述方法包括情绪识别步骤、动作交互步骤和语言交互步骤;
所述情绪识别步骤包括表情识别步骤和语音识别步骤,其中表情识别步骤包括:
11)采集儿童面部图像,基于haarcascade_frontalface_default.xml的级联分类器输出ROI区域;
12)基于人脸68个特征点组件对儿童面部图像做对齐处理、尺度归一化处理,并将RGB图像转化为灰度图;
13)将灰度图输入在mobilenet网络基于imagenet千分类基础上的四分类卷积神经网络;
14)基于深度学习实现对儿童表情的识别,输出图像情绪识别值mood3。
优选地,所述语音识别步骤包括:
21)语音录制与识别:利用机器人本体自带的麦克风进行wav格式的音频录制,并调用百度语音识别API进行识别,将返回语音识别转成文本数据;
22)关键词判别模型训练:利用开源数据集NLPCC 2013数据集进行模型训练,对每条数据集利用分词工具jieba进行分词并提取关键词,利用软间隔的线性核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model1,并部署到机器人本体;
23)关键词情绪判别:将识别的文本经过分词工具jieba进行分词并提取关键词words,将关键词words放入基于NLPCC 2013数据集训练好的软间隔线性核SVC模型model1中进行预测,返回关键词情绪预测概率向量mood1作为关键词情绪判别结果;
24)音频特征提取,对录制好的音频段进行处理,提取三个特征量:短时能量均值、基音频率的均值和第一共振峰的均值;
25)音频特征判别模型训练,利用开源的CASIA语音情感识别数据集进行模型训练,利用软间隔的高斯核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model2,并部署到机器人本体;
26)音频特征情绪判别:将短时能量均值、基音频率的均值和第一共振峰的均值的特征向量放入基于CASIA语音情感识别数据集训练好的软间隔高斯SVC模型model2中进行预测,返回音频特征情绪预测概率向量mood2作为音频特征情绪判别结果。
优选地,所述音频特征提取的具体步骤包括:
241)对音频进行加汉明窗分帧,求取音频段的短时能量平均值作为第一个特征;
242)利用自相关发求出基音频率,并对基频曲线进行中心消波和线性平滑处理,提取基音频率的均值作为第二个特征;
243)对音频段加汉明窗处理再对其进行傅里叶变换得到共振峰,提取第一共振峰的均值作为第三个特征。
优选地,所述语言交互步骤包括:
31)构建动作关键词库:设计沟通交流、播放音乐的动作,同时设置具体对应的关键词,生成关键词向量,将动作与之对应的关键词向量组成动作关键词库,并进行编码;
32)关键词意图判别:对语音识别模块的识别关键词words与语音关键词库进行匹配,如果匹配度高达80%以上,则输出该动作的编码。
本发明的有益效果在于:本发明提出的一种基于情绪智能识别的儿童陪护型机器人通过表情识别判定儿童情绪,通过语音识别辅助表情识别进行情绪的判断;基于对儿童情绪状态的判别,对儿童进行针对性地心理疏导;根据儿童的情绪播放不同类型的音乐,安抚儿童;通过与儿童沟通交流锻炼儿童的对话交流能力;利用舞蹈、游戏互动,从而培养儿童的人际交往能力。
附图说明
图1为本发明的***架构图。
图2为本发明的运行流程图。
图3为表情识别模块构成框图。
图4为表情识别模块流程图。
图5为语音识别模块流程图。
图6为不同情绪下交互涉及框图。
图7为机器人关节角度设置示意图。
图8为设定Play Sound指令盒参数示意图。
图9为机器人舞蹈程序设计图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述,但本发明的实施方式不限于此。
如图1所示,本发明提出的一种基于情绪识别与NAO平台的儿童陪护型机器人以NAO为平台,包括情绪识别模块、动作交互模块、语言交互模块和控制模块;其中,情绪识别模块用于根据采集信号对儿童情绪进行判别,输出情绪识别值;动作交互模块用于根据控制模块输出的控制指令控制机器人本体的运动形态;语言交互模块:用于根据控制模块输出的控制指令输出音频信息;控制模块:用于根据情绪识别值和用户输入指令输出对应级别的控制指令,并分别向动作交互模块、语言交互模块输出控制指令。
情绪识别模块包括表情识别模块、语音识别模块、情绪判断模块;其中,表情识别模块用于调用机器人本体上的摄像头模块采集的图像信息,对图像信息进行表情识别,输出图像情绪识别结果;语音识别模块用于调用机器人本体上的音频传感器采集的语音信息,对儿童语音文字特征、音频特征分别识别,输出关键词情绪判别结果、音频特征情绪判别结果;情绪判断模块用于根据图像情绪识别结果、关键词情绪判别结果、音频特征情绪判别结果进行加权分析,输出情绪判别值。情绪判断模块输出情绪判别值mood的模型为:
Figure 384533DEST_PATH_IMAGE001
其中,mood1为关键词情绪判别结果,mood2为音频特征情绪判别结果,mood3为图像情绪判别结果,mood1、mood2、mood3均为四维情绪预测概率向量,每一维度代表一种情绪,按照比重进行加权,求出最后的加权情绪预测概率向量mood,取其中概率最大维度对应的情绪作为当前用户的情绪。
NAO机器人平台分别采集儿童的面部表情、语音信息送到情绪识别模块进行情感分析与情绪分类,情绪识别模块将识别结果发送至控制模块最后返回给NAO机器人平台。
如图2所示,本发明整个***运行时,通过NAO机器人自身所带的摄像头及语音传感器采集儿童的面部表情及语音;分别通过表情识别和语音识别模块对儿童的情绪进行识别;对情绪识别结果进行分析处理后,针对不同情绪分别做出不同的动作交互反应(打招呼、跳舞、做游戏)与语言交互反应(沟通交流、播放音乐)。
如图3所示,表情识别模块,由基于opencv模型的儿童面部检测模块、基于dlib模型的儿童面部预处理模块和基于mobilenet迁移学习算法网络的儿童表情预测模块三个模块,及***传感器、摄像头模块级联而成。
如图5所示,语音识别模块,语音识别模块包括基于ALSpeechRecognition模型的音频特征分析模块和基于百度语音识别API的关键词情绪分析模块,由于NAO机器人自身带有的语音识别模块ALSpeechRecognition对中文的识别率不够理想,因此,调用百度语音识别API来完成语音的识别,采用国际领先的流式端到端语音语言一体化建模算法,将语音快速准确识别为文字,提高机器人对中文识别的准确率。
语音识别模块主要包括两个功能,一是语音识别转文字,进行分词处理和提取关键词,从文本分析情绪;二是对语音进行特征提取,根据音频特征进行情绪判别。两块分别返回对应四个情绪(开心、愤怒、悲伤、平静)的预测概率向量mood1和mood2,用于后续与图像识别一起判断情绪。
交互模块包括动作交互、语言交互模块,以情绪识别的结果为基础,针对不同情绪NAO机器人分别做出不同的交互反应。如图6所示,当情绪识别结果为开心时,NAO机器人与儿童进行交流,让儿童分享开心的事情;播放欢快的音乐。当情绪识别结果为愤怒时,NAO机器人播放舒缓的音乐。当情绪识别结果为悲伤时,NAO机器人与儿童进行交流,让儿童分享令其悲伤的事情,安慰儿童;播放舒缓的音乐。当情绪识别结果为平静时,NAO机器人与儿童进行日常问候、交流;根据儿童指令跳舞,与儿童做游戏。
动作交互模块,在对NAO机器人的步态进行规划与控制中,运用参考轨迹法中的动力学模型法,建立基于ZMP的集中质量模型。该模型可表述为:
Figure 912467DEST_PATH_IMAGE002
其中m为机器人的总质量;
Figure 702568DEST_PATH_IMAGE003
为重力加速度;
Figure 925739DEST_PATH_IMAGE004
为机器人所受外力;
Figure 521806DEST_PATH_IMAGE005
为机器人重心(COG),
Figure 343393DEST_PATH_IMAGE006
为ZMP,
Figure 242079DEST_PATH_IMAGE007
为地面高度。
将上述模型写成分量形式为:
Figure 342759DEST_PATH_IMAGE008
其中
Figure 680200DEST_PATH_IMAGE009
为重心处的角速度。
语言交互模块,根据儿童的话语来进行意图判断,从而触发沟通交流、播放音乐功能。
本发明还提出一种基于情绪智能识别的儿童陪护型机器人的控制方法,所述方法包括情绪识别步骤、动作交互步骤和语言交互步骤;情绪识别步骤包括表情识别步骤和语音识别步骤。其中表情识别步骤包括:
11)儿童面部检测模块采集到的一帧图像经过儿童面部检测模块中基于haarcascade_frontalface_default.xml的级联分类器输出ROI区域(儿童面部区域),去除了其它无关部分而只保留了具体处理对象的图像使后级模块的处理更加高效与准确;
12)将儿童面部检测模块输出的图像输入儿童面部预处理模块,基于shape_predictor_68_face_landmarks.dat(人脸68个特征点)对面部做对齐处理,尺度归一化,减少拍摄角度不正和面部图片尺寸大小不一对识别结果的影响,将RGB图像转化为灰度图,减少需要处理的数据量,加快识别的速度,减少硬件的负担;
13)将经过预处理的儿童面部图像输入儿童表情预测模块,识别模型是在mobilenet网络基于imagenet千分类基础上的四分类卷积神经网络,采用迁移学习的思想,在一定程度上弥补训练数据不足的缺点,减少训练时间;
14)表情识别模块基于深度学习实现对儿童表情的识别,输出图像情绪识别值mood3。表情识别模块基于深度学习实现对儿童表情的识别,以tensorflow2为训练框架,以pycharm为训练的IDE。筛选年龄在四岁到十岁区间范围内儿童表情图片作为模型的训练具体实现方法包括以下步骤:
141)将不同类别的儿童表情图片对应的标签号填入数组,将图片和标签号捆绑在一起并打乱顺序,按照7:3分成训练集和验证集;
142)对图像进行预处理,将图片的尺寸统一,像素值归一化;
143)将图片和标号以tfrecord文件的形式存储,将tfrecord文件读出解码,数据打包成batch形式;
144)使用迁移学习的方法,在mobilenet神经网络基于imagenet数据集千分类的基础上输入batch形式的儿童表情图片进行训练,训练准确率及验真准确率随遍历次数的变化如表1所示;
145)调用NAO机器人的摄像头,导入opencv库的人脸检测模型,检测儿童的脸部;
146)使用步骤145)中训练好的模型,对检测出的人脸进行表情识别,输出情绪预测概率向量mood3。
语音识别步骤包括:
21)语音录制与识别:利用Nao机器人本体自带的麦克风进行wav格式的音频录制,并调用百度语音识别API进行识别,将返回语音识别转成文本数据;
22)关键词判别模型训练:利用开源数据集NLPCC 2013数据集进行模型训练,对每条数据集利用分词工具jieba进行分词并提取关键词,将原数据集的八种情绪划分为识别所需的四种情绪(开心、愤怒、悲伤、平静),利用软间隔的线性核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model1,并部署到Nao机器人本体;
23)关键词情绪判别:将识别的文本经过分词工具jieba进行分词并提取关键词words,将关键词words放入基于NLPCC 2013数据集(数据集原八分类已被转换为四分类)训练好的软间隔线性核SVC模型model1中进行预测,返回关键词情绪预测概率向量mood1作为关键词情绪判别结果;
24)音频特征提取,对录制好的音频段进行处理,提取三个特征量:短时能量均值、基音频率的均值和第一共振峰的均值;具体步骤包括:
241)对音频进行加汉明窗分帧,求取音频段的短时能量平均值作为第一个特征;
242)利用自相关发求出基音频率,并对基频曲线进行中心消波和线性平滑处理,提取基音频率的均值作为第二个特征;
243)对音频段加汉明窗处理再对其进行傅里叶变换得到共振峰,提取第一共振峰的均值作为第三个特征。
25)音频特征判别模型训练,利用开源的CASIA语音情感识别数据集进行模型训练,利用软件实现“短时能量”、“基音频率的均值”和“第一共振峰的均值”三个特征的提取并将原数据集的六种情绪划分为识别所需的四种情绪(开心、愤怒、悲伤、平静),利用软间隔的高斯核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model2,并部署到Nao机器人本体;
26)音频特征情绪判别,将“短时能量均值”、“基音频率的均值”和“第一共振峰的均值”组成的特征向量放入基于CASIA语音情感识别数据集训练好的软间隔高斯SVC模型model2中进行预测,返回音频特征情绪预测概率向量mood2作为音频特征情绪判别结果。
情绪识别的最终预测结果满足以下公式:
Figure 120408DEST_PATH_IMAGE001
其中,mood1为关键词情绪判别结果,mood2为音频特征情绪判别结果,mood3为图像情绪判别结果,mood1、mood2、mood3均为4维情绪预测概率向量,每一维度代表一种情绪,按照比重进行加权,求出最后的加权情绪预测概率向量mood,取其中概率最大维度对应的情绪作为当前用户的情绪。
语言交互步骤包括:
31)构建动作关键词库,设计沟通交流、播放音乐的动作,同时设置其具体对应的关键词,生成一个关键词向量,将动作与之对应的关键词向量组成动作关键词库,并进行编码;
32)关键词意图判别:对语音识别模块的识别关键词words与语音关键词库进行匹配,如果匹配度高达80%以上,则输出该动作的编码。
控制模块运用Choregraphe软件平台编写程序。利用Choregraphe内置的指令盒及手动编写的python指令盒完成整体程序的编写。
NAO机器人跳舞程序的实现主要包括以下步骤:
41)舞蹈动作的设计和分解:选取音乐,以人的舞蹈动作为基础设计机器人的舞蹈动作,分为多个关键帧;
42)关键帧动作设置和保存:在Choregraphe软件中创建流程图指令盒,设置机器人各个关节的角度,并保存到相应关键帧,如图7所示;
43)建立行为层,添加Play Sound指令盒,在指令盒中添加相应的音乐文件,如图8所示;
44)添加Motor On/Off及Stand Up指令盒,完善整个程序,如图9所示。
将编写的程序烧录到NAO机器人的步骤为:
51)长按NAO机器人胸前的按钮,启动机器人,并记录下机器人报出的自身编号;
52)使电脑与NAO机器人连接同一个WiFi;
53)在Choregraphe软件中连接对应编号的NAO机器人,启动程序,即可将程序录入NAO机器人。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
最后需要说明的是,以上具体实施方式仅用以说明本专利技术方案而非限制,尽管参照较佳实施例对本专利进行了详细说明,本领域的普通技术人员应当理解,可以对本专利的技术方案进行修改或者等同替换,而不脱离本专利技术方案的精神和范围,其均应涵盖在本专利的权利要求范围当中。

Claims (10)

1.一种基于情绪智能识别的儿童陪护型机器人,其特征在于:包括情绪识别模块、动作交互模块、语言交互模块和控制模块;
所述情绪识别模块:用于根据采集信号对儿童情绪进行判别,输出情绪识别值;
所述情绪识别模块包括表情识别模块、语音识别模块、情绪判断模块;所述表情识别模块:用于调用机器人本体上的摄像头模块采集的图像信息,对图像信息进行表情识别,输出图像情绪识别结果;所述语音识别模块:用于调用机器人本体上的音频传感器采集的语音信息,对儿童语音文字特征、音频特征分别识别,输出关键词情绪判别结果、音频特征情绪判别结果;所述情绪判断模块:用于根据图像情绪识别结果、关键词情绪判别结果、音频特征情绪判别结果进行加权分析,输出情绪判别值;
所述动作交互模块:用于根据控制模块输出的控制指令控制机器人本体的运动形态;
所述语言交互模块:用于根据控制模块输出的控制指令输出音频信息;
所述控制模块:用于根据情绪识别值和用户输入指令输出对应级别的控制指令,并分别向动作交互模块、语言交互模块输出控制指令。
2.根据权利要求1所述的一种基于情绪智能识别的儿童陪护型机器人,其特征在于:所述表情识别模块由基于opencv模型的儿童面部检测模块、基于dlib模型的儿童面部预处理模块和基于mobilenet迁移学习算法网络模型的儿童表情预测模块组成。
3.根据权利要求1所述的一种基于情绪智能识别的儿童陪护型机器人,其特征在于:所述语音识别模块由基于ALSpeechRecognition模型的音频特征分析模块和基于百度语音识别API的关键词情绪分析模块组成。
4.根据权利要求1所述的一种基于情绪智能识别的儿童陪护型机器人,其特征在于:所述情绪判断模块输出情绪判别值mood的模型为:
Figure 139718DEST_PATH_IMAGE001
其中,mood1为关键词情绪判别结果,mood2为音频特征情绪判别结果,mood3为图像情绪判别结果,mood1、mood2、mood3均为四维情绪预测概率向量,每一维度代表一种情绪,按照比重进行加权,求出最后的加权情绪预测概率向量mood,取其中概率最大维度对应的情绪作为当前用户的情绪。
5.根据权利要求1所述的一种基于情绪智能识别的儿童陪护型机器人,其特征在于:所述动作交互模块运用动力学模型法,建立基于ZMP的集中质量模型,对机器人本体的步态进行规划与控制。
6.根据权利要求5所述的一种基于情绪智能识别的儿童陪护型机器人,其特征在于:所述集中质量模型的表达式为:
Figure 603060DEST_PATH_IMAGE002
其中m为机器人的总质量;
Figure 744191DEST_PATH_IMAGE003
为重力加速度;
Figure 38907DEST_PATH_IMAGE004
为机器人所受外力;
Figure 669608DEST_PATH_IMAGE005
为机器人重心(COG),
Figure 918449DEST_PATH_IMAGE006
为ZMP,
Figure 535375DEST_PATH_IMAGE007
为地面高度。
7.一种根据权利要求1~6中任一项所述的基于情绪智能识别的儿童陪护型机器人的控制方法,其特征在于:所述方法包括情绪识别步骤、动作交互步骤和语言交互步骤;
所述情绪识别步骤包括表情识别步骤和语音识别步骤,其中表情识别步骤包括:
11)采集儿童面部图像,基于haarcascade_frontalface_default.xml的级联分类器输出ROI区域;
12)基于人脸68个特征点组件对儿童面部图像做对齐处理、尺度归一化处理,并将RGB图像转化为灰度图;
13)将灰度图输入在mobilenet网络基于imagenet千分类基础上的四分类卷积神经网络;
14)基于深度学习实现对儿童表情的识别,输出图像情绪识别值mood3。
8.根据权利要求7所述的基于情绪智能识别的儿童陪护型机器人的控制方法,其特征在于:所述语音识别步骤包括:
21)语音录制与识别:利用机器人本体自带的麦克风进行wav格式的音频录制,并调用百度语音识别API进行识别,将返回语音识别转成文本数据;
22)关键词判别模型训练:利用开源数据集NLPCC 2013数据集进行模型训练,对每条数据集利用分词工具jieba进行分词并提取关键词,利用软间隔的线性核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model1,并部署到机器人本体;
23)关键词情绪判别:将识别的文本经过分词工具jieba进行分词并提取关键词words,将关键词words放入基于NLPCC 2013数据集训练好的软间隔线性核SVC模型model1中进行预测,返回关键词情绪预测概率向量mood1作为关键词情绪判别结果;
24)音频特征提取,对录制好的音频段进行处理,提取三个特征量:短时能量均值、基音频率的均值和第一共振峰的均值;
25)音频特征判别模型训练,利用开源的CASIA语音情感识别数据集进行模型训练,利用软间隔的高斯核SVC模型进行训练,参数通过网格搜索求优,得到训练模型model2,并部署到机器人本体;
26)音频特征情绪判别:将短时能量均值、基音频率的均值和第一共振峰的均值的特征向量放入基于CASIA语音情感识别数据集训练好的软间隔高斯SVC模型model2中进行预测,返回音频特征情绪预测概率向量mood2作为音频特征情绪判别结果。
9.根据权利要求7所述的基于情绪智能识别的儿童陪护型机器人的控制方法,其特征在于:所述音频特征提取的具体步骤包括:
241)对音频进行加汉明窗分帧,求取音频段的短时能量平均值作为第一个特征;
242)利用自相关发求出基音频率,并对基频曲线进行中心消波和线性平滑处理,提取基音频率的均值作为第二个特征;
243)对音频段加汉明窗处理再对其进行傅里叶变换得到共振峰,提取第一共振峰的均值作为第三个特征。
10.根据权利要求7所述的基于情绪智能识别的儿童陪护型机器人的控制方法,其特征在于:所述语言交互步骤包括:
31)构建动作关键词库:设计沟通交流、播放音乐的动作,同时设置具体对应的关键词,生成关键词向量,将动作与之对应的关键词向量组成动作关键词库,并进行编码;
32)关键词意图判别:对语音识别模块的识别关键词words与语音关键词库进行匹配,如果匹配度高达80%以上,则输出该动作的编码。
CN202110791276.6A 2021-07-13 2021-07-13 一种基于情绪智能识别的儿童陪护型机器人及控制方法 Pending CN113246156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110791276.6A CN113246156A (zh) 2021-07-13 2021-07-13 一种基于情绪智能识别的儿童陪护型机器人及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110791276.6A CN113246156A (zh) 2021-07-13 2021-07-13 一种基于情绪智能识别的儿童陪护型机器人及控制方法

Publications (1)

Publication Number Publication Date
CN113246156A true CN113246156A (zh) 2021-08-13

Family

ID=77191149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110791276.6A Pending CN113246156A (zh) 2021-07-13 2021-07-13 一种基于情绪智能识别的儿童陪护型机器人及控制方法

Country Status (1)

Country Link
CN (1) CN113246156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114699777A (zh) * 2022-04-13 2022-07-05 南京晓庄学院 一种玩具舞蹈机器人的控制方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102715902A (zh) * 2012-06-15 2012-10-10 天津大学 特殊人群的情绪监护方法
CN104287747A (zh) * 2014-10-24 2015-01-21 南京邮电大学 基于情绪感知的运动康复机器人交互控制方法
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法
KR20180054407A (ko) * 2016-11-15 2018-05-24 주식회사 로보러스 로봇 시스템
CN110480656A (zh) * 2019-09-09 2019-11-22 国家康复辅具研究中心 一种陪护机器人、陪护机器人控制方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102715902A (zh) * 2012-06-15 2012-10-10 天津大学 特殊人群的情绪监护方法
CN104287747A (zh) * 2014-10-24 2015-01-21 南京邮电大学 基于情绪感知的运动康复机器人交互控制方法
CN105082150A (zh) * 2015-08-25 2015-11-25 国家康复辅具研究中心 一种基于用户情绪及意图识别的机器人人机交互方法
KR20180054407A (ko) * 2016-11-15 2018-05-24 주식회사 로보러스 로봇 시스템
CN110480656A (zh) * 2019-09-09 2019-11-22 国家康复辅具研究中心 一种陪护机器人、陪护机器人控制方法及装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
丛爽: "《自动化理论、技术与应用 第10卷》", 31 August 2003, 中国科学技术大学出版社 *
吴秀珍等: "《信息技术与信息检索》", 30 April 2009, 中国戏剧出版社 *
娄岩: "《智能医学概论》", 30 October 2018, 中国铁道出版社 *
李德毅等: "《人工智能导论》", 31 August 2018, 中国科学技术出版社 *
杨秀霞: "《下肢智能携行外骨骼***控制理论与技术》", 31 December 2017, 国防工业出版社 *
田景熙: "《物联网概论 第2版》", 31 July 2017 *
连新元: "《听觉媒介景观再造 城市广播转型研究》", 31 August 2017, 中国传媒大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114699777A (zh) * 2022-04-13 2022-07-05 南京晓庄学院 一种玩具舞蹈机器人的控制方法和***

Similar Documents

Publication Publication Date Title
Tzirakis et al. End-to-end multimodal emotion recognition using deep neural networks
CN103366618B (zh) 基于人工智能与虚拟现实用于汉语学习培训的场景设备
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN108334583A (zh) 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108227932A (zh) 交互意图确定方法及装置、计算机设备及存储介质
CN110110169A (zh) 人机交互方法及人机交互装置
CN107972028B (zh) 人机交互方法、装置及电子设备
CN103996155A (zh) 智能交互及心理慰藉机器人服务***
CN111081371A (zh) 基于虚拟现实的孤独症早期筛查评估***及方法
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练***及方法
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及***
CN115951786B (zh) 一种利用aigc技术的多结局创意社交游戏的创作方法
CN115631267A (zh) 生成动画的方法及装置
Chai et al. Speech-driven facial animation with spectral gathering and temporal attention
CN107437090A (zh) 基于语音、表情与心电信号的三模态连续情感预测方法
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及***
CN113246156A (zh) 一种基于情绪智能识别的儿童陪护型机器人及控制方法
CN116561533B (zh) 一种教育元宇宙中虚拟化身的情感演化方法及终端
CN117195148A (zh) 基于表情、脑电及语音多模态融合的矿工情绪识别方法
Najeeb et al. Gamified smart mirror to leverage autistic education-aliza
CN114974312B (zh) 一种虚拟人情绪生成方法与***
Pérez-Espinosa et al. Emotion recognition: from speech and facial expressions
Nguyen Multimodal emotion recognition using deep learning techniques
CN115145402A (zh) 具有网络交互功能的智能玩具***及控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813