CN110309254A - 智能机器人与人机交互方法 - Google Patents
智能机器人与人机交互方法 Download PDFInfo
- Publication number
- CN110309254A CN110309254A CN201810170642.4A CN201810170642A CN110309254A CN 110309254 A CN110309254 A CN 110309254A CN 201810170642 A CN201810170642 A CN 201810170642A CN 110309254 A CN110309254 A CN 110309254A
- Authority
- CN
- China
- Prior art keywords
- user
- expression
- intended
- voice
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000003993 interaction Effects 0.000 title claims abstract description 18
- 230000002996 emotional effect Effects 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 30
- 230000008451 emotion Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000036651 mood Effects 0.000 claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims description 110
- 230000001815 facial effect Effects 0.000 claims description 42
- 230000008921 facial expression Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 5
- 210000001508 eye Anatomy 0.000 description 23
- 210000003128 head Anatomy 0.000 description 12
- 210000005252 bulbus oculi Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 8
- 241001071864 Lethrinus laticaudis Species 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/0003—Home robots, i.e. small robots for domestic use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
- Toys (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种智能机器人及人机交互方法。该智能机器人包括语音采集单元、语音输出单元及处理单元。该语音采集单元用于采集该智能机器人周围的语音。该处理单元用于:获取该语音采集单元采集的语音;识别获取的语音以确定用户的情绪特征;根据识别的语音确定用户意图;根据用户的情绪特征、用户意图及一应答关系表确定与该情绪特征及该用户意图相匹配的应答语句,其中,该应答关系表包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系;及控制该语音输出单元输出该确定出的应答语句。本发明中的智能机器人及人机交互方法能够深入地理解用户的情感和情绪的问题并与用户进行交互,提高了用户的体验感。
Description
技术领域
本发明涉及机器人领域,尤其涉及一种智能机器人及人机交互方法。
背景技术
现有技术中,机器人与人之间的交互主要涉及简单的人机对话,或在人的指令下完成特定的工作内容。然而,随着人工智能的发展,如何使机器人深入地理解用户的情感和情绪的问题并与用户进行交互成为人工智能发展的一大难题。
发明内容
鉴于以上内容,有必要提供一种智能机器人及人机交互方法以深入地理解用户的情感和情绪的问题并与用户进行交互。
一种智能机器人,包括语音采集单元、语音输出单元及处理单元,该语音采集单元用于采集该智能机器人周围的语音,该处理单元用于:
获取该语音采集单元采集的语音;
识别获取的语音以确定用户的情绪特征;
根据识别的语音确定用户意图;
根据用户的情绪特征、用户意图及一应答关系表确定与该情绪特征及该用户意图相匹配的应答语句,其中,该应答关系表包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系;及
控制该语音输出单元输出该确定出的应答语句。
优选地,该智能机器人还包括摄像单元及显示单元,该摄像单元用于摄取位于该智能机器人周围的人脸图像,该处理单元还用于:
获取该摄像单拍摄的人脸图像;
根据获取的人脸图像确定一动画形象的表情动画;
控制该显示单元显示该动画形象的表情动画。
优选地,该处理单元还用于从获取的人脸图像中分析出面部表情图片,对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数,并根据获取的人脸图像的面部表情特征参数利用脸部动作编码***来确定该动画形象的表情动画。
优选地,该智能机器人还包括一表情输出单元,该处理单元还用于:
根据识别的用户情绪及一表情关系表确定一表情控制指令;及
根据确定的表情控制指令控制该表情输出单元输出一表情以使该智能机器人与用户进行交互,其中,该表情关系表包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。
优选地,该处理单元还用于:
从识别的语音中提取多段特征文件,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
将第一级别对应的特征文字确定为当前级别的特征文字,并将该树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;及
当所有特征文字都匹配完成时将当前意图确定为用户意图。
优选地,该处理单元还用于:
当所有特征文字没有全部匹配完成时将下一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
将当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;及
当所有特征文字均匹配完成时,将当前意图确定为用户意图。
一种人机交互方法,应用在一智能机器人中,该方法包括步骤:
获取一语音采集单元采集的语音;
识别获取的语音以确定用户的情绪特征;
根据识别的语音确定用户意图;
根据用户的情绪特征、用户意图及一应答关系表确定与该情绪特征及该用户意图相匹配的应答语句,其中,该应答关系表包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系;及
控制一语音输出单元输出该确定出的应答语句。
优选地,该方法还包括步骤:
获取一摄像单拍摄的人脸图像;
根据获取的人脸图像确定一动画形象的表情动画;
控制一显示单元显示该动画形象的表情动画。
优选地,该方法在步骤“根据获取的人脸图像确定一动画形象的表情动画”中包括:
从获取的人脸图像中分析出面部表情图片;
对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数;及
根据获取的人脸图像的面部表情特征参数利用脸部动作编码***来确定该动画形象的表情动画。
优选地,方法还包括步骤:
根据识别的用户情绪及一表情关系表确定一表情控制指令;及
根据确定的表情控制指令控制一表情输出单元输出一表情以使该智能机器人与用户进行交互,其中,该表情关系表包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。
优选地,该方法还包括步骤:
从识别的语音中提取多段特征文件,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
将第一级别对应的特征文字确定为当前级别的特征文字,并将该树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;及
当所有特征文字都匹配完成时将当前意图确定为用户意图。
优选地,该方法还包括步骤:
当所有特征文字没有全部匹配完成时将下一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
将当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;及
当所有特征文字均匹配完成时,将当前意图确定为用户意图。
本案中的智能机器人及人机交互方法能够深入地理解用户的情感和情绪的问题并与用户进行交互,提高了用户的体验感。
附图说明
图1为本发明一实施方式中人机交互***的应用环境图。
图2为本发明一实施方式智能机器人的功能模块图。
图3为本发明一实施方式中人机交互***的功能模块图。
图4为本发明一实施方式中应答关系表的示意图。
图5为本发明一实施方式中表情关系表的示意图。
图6为本发明一实施方式中人机交互方法的流程图。
图7为本发明一实施方式中根据识别的语音确定用户意图的方法流程图。
主要元件符号说明
人机交互*** | 1 |
智能机器人 | 2 |
服务器 | 3 |
摄像单元 | 21 |
语音采集单元 | 22 |
显示单元 | 23 |
语音输出单元 | 24 |
表情输出单元 | 25 |
存储单元 | 26 |
处理单元 | 27 |
通信单元 | 28 |
获取模块 | 101 |
识别模块 | 102 |
应答确定模块 | 103 |
表情动画确定模块 | 104 |
输出模块 | 105 |
应答关系表 | 200 |
表情关系表 | 300 |
步骤 | S601~S604、S701~S706 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参考图1,所示为本发明一实施方式中人机交互***1的应用环境图。该人机交互***1应用在一智能机器人2中。该智能机器人2与一服务器3通信连接。本实施方式中,该服务器3为云端服务器。该人机交互***1用于获取用户的语音信息及表情信息,根据获取的语音信息产生一应答语句及根据获取的表情信息产生一表情动画,并输出该应答语句及表情动画以实现该智能机器人2与用户的交互。
请参考图2,所示为本发明一实施方式智能机器人2的功能模块图。该智能机器人2包括,但不限于摄像单元21、语音采集单元22、显示单元23、语音输出单元24、表情输出单元25、存储单元26、处理单元27及通信单元28。该处理单元27分别与该摄像单元21、语音采集单元22、显示单元23、语音输出单元24、表情输出单元25、存储单元26及通信单元28连接。本实施方式中,该摄像单元21用于摄像智能机器人2周围的环境图像并将摄取的图像传送给该处理单元27。例如,该摄像单元21可以摄取位于智能机器人2周围的用户的人脸图像,并将摄取的用户的人脸图像发送给该处理单元27。本实施方式中,该摄像单元21可以为一摄像头、3D光场相机等。该语音采集单元22用于采集接收智能机器人2周围的语音信息并将接收的语音信息传送给处理单元27。在本实施方式中,该语音采集单元22可以为麦克风或麦克风阵列等。该显示单元23用于在该处理单元27的控制下显示该智能机器人2的数据内容。例如,该显示单元23显示一动画图像数据。
该语音输出单元24用于在该处理单元27的控制下输出语音信息。在本实施方式中,该语音输出单元24可以为扬声器。该表情输出单元25用于在该处理单元27的控制下输出表情动作。例如,该表情动作可以为,如高兴、苦恼、忧郁等表情动作。在本实施方式中,该表情输出单元25包括设于机器人头部可开合的眼帘和嘴巴及设于眼帘内可转动的眼球。该通信单元28用于供该智能机器人2与服务器3通信连接。在一实施方式中,该通信单元28可以为WIFI通信模块、3G/4G通信模块、Zigbee通信模块及Blue Tooth通信模块。
该存储单元26用于存储该智能机器人2的程序代码及数据资料。例如,该存储单元26可以存储预设人脸图像、预设语音及人机交互***1。本实施方式中,该存储单元26可以为该智能机器人2的内部存储单元,例如该智能机器人2的硬盘或内存。在另一实施方式中,该存储单元26也可以为该智能机器人2的外部存储设备,例如该智能机器人2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施方式中,该处理单元27可以为一中央处理器(Central ProcessingUnit,CPU),微处理器或其他数据处理芯片,该处理单元27用于执行软件程序代码或运算数据。
请参考图3,所示为本发明一实施方式中人机交互***1的功能模块图。该人机交互***1包括一个或多个模块,所述一个或者多个模块被存储于该存储单元26中,并被该处理单元27所执行。本实施方式中,人机交互***1包括获取模块101、识别模块102、应答确定模块103、表情动画确定模块104及输出模块105。在其他实施方式中,该人机交互***1为内嵌在该智能机器人2中的程序段或代码。
该获取模块101用于获取该语音采集单元22采集的语音。
该识别模块102用于识别获取模块101获取的语音以确定用户的情绪特征。本实施方式中,用户的情绪特征包括,但不限于高兴、愤怒、生气、喜悦、担心等情绪。例如,该识别模块102识别的语音是“今天是周末,可以出去好好玩一玩了”时,该识别模块102能够确定与该语音相对应的情绪特征是高兴。例如,该识别模块102识别的语音是“今天天气糟透了,不能出去玩了”时,该识别模块102能够确定与该语音相对应的情绪特征是生气。本实施方式中,根据用户的语音确定用户的情绪特征为现有技术,这里不再详述。
该识别模块102还根据识别的语音确定用户意图。例如,该识别模块102识别的语音是“今天是周末,可以出去好好玩一玩了”时,该识别模块102能够确定与该语音相对应的用户意图是出去玩。具体地,该识别模块102从识别的语音中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应。本实施方式中,该识别模块102将该语音输入预设的特征文字提取模型,获得特征文字提取模型输出的各个级别的多特征文字。其中,特征文字提取模型,用于对所述语音进行语义解析,获得与树形结构意图库中各个级别对应的特征文字。在本实施方式中,树形结构意图库中的所有级别可以只对应一个总的特征文字提取模型。在输入时,将语音识别结果输入该总的特征文字提取模型,获得该总的特征文字提取模型输出的各个级别的多特征文字。然后,该识别模块102将第一级别对应的特征文字确定为当前级别的特征文字,并将所述树形结构意图库中第一级别的所有意图确定为候选意图。
然后,该识别模块102将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图。具体的,在匹配时,从第一级别的特征文字与树形结构意图库中第一级别的所有意图的匹配开始执行,然后将第二级别的特征文字与树形结构意图库中匹配成功的第二级别的所有意图进行匹配,将第三级别的特征文字与树形结构意图库中匹配成功的第三级别的所有意图进行匹配,依此规律逐级执行匹配过程,直至所有级别的特征文字匹配完成。本实施方式中,在获得当前意图时,该识别模块102可以直接将匹配成功的候选意图作为当前意图。本实施方式中,当前意图为本次匹配成功的候选意图以及在本次匹配之前所有匹配成功的各级别意图共同构成的意图。接着,该识别模块102判断是否所有特征文字匹配完成。如果所有特征文字都匹配完成,该识别模块102将当前意图确定为用户意图。如果所有特征文字没有全部匹配完成,该识别模块102将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图,并将当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图。最后,当所有特征文字均匹配完成时,当前意图即构成了最终确定的用户意图。
该应答确定模块103用于根据用户的情绪特征、用户意图及应答关系表200确定一与情绪特征及用户意图相匹配的应答语句。请参考图4,所示为本发明一实施方式中应答关系表200的示意图。本实施方式中,该应答关系表200包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系。本实施方式中,该应答确定模块103根据用户的情绪特征、用户意图查找该应答关系表200确定与该情绪特征及用户意图相匹配的应答语句。例如,在该应答关系表200中,与情绪特征为“高兴”及与用户意图为“出去玩”相对应的应答语句为“祝你玩得愉快”。该应答确定模块103根据获取的“高兴”情绪特征及“出去玩”的用户意图查找该应答关系表200,并确定出与该情绪特征及用户意图相匹配的应答语句为“祝你玩得愉快”。本实施方式中,该应答关系表200存储在该智能机器人2的存储单元26中,该应答确定模块103根据用户的情绪特征、用户意图查找存储在该存储单元26中的应答关系表200确定与该情绪特征及用户意图相匹配的应答语句。在其他实施方式中,该应答关系表200存储在该服务器3中,该应答确定模块103根据用户的情绪特征、用户意图查找存储在该服务器3中的应答关系表200确定与该情绪特征及用户意图相匹配的应答语句。
该输出模块105用于控制该语音输出单元24输出该应答语句。
在一实施方式中,该获取模块101还用于获取该摄像单元21拍摄的人脸图像。该表情动画确定模块104用于根据获取的人脸图像确定一动画形象的表情动画。具体的,该表情动画确定模块104从获取的人脸图像中分析出面部表情图片,对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数,并根据该面部表情特征参数确定该动画形象的表情动画。本实施方式中,该面部表情特征包括,但不限于头高、头围、眼宽、眼高、两眼距、鼻宽、鼻长、嘴宽、上下嘴唇厚、耳长、耳宽、耳厚等。该动画形象可以为小猪、小狗或小熊等卡通形象。本实施方式中,该表情动画确定模块104根据获取的人脸图像的面部表情特征参数利用脸部动作编码***(Facial Action Coding system,FACS)来确定该动画形象的表情动画。在另一实施方式中,该表情动画确定模块104根据获取的人脸图像的面部表情特征参数及识别模块102确定的用户情绪利用脸部动作编码***确定该动画形象的表情动画。该输出模块105用于控制该显示单元23显示该动画形象的表情动画。
在一实施方式中,该输出模块105还根据识别模块102识别的用户情绪及表情关系表300确定一表情控制指令,并根据确定的表情控制指令控制该表情输出单元25输出一表情以使该智能机器人2与用户进行交互。该表情输出单元25可以为设于智能机器人2头部中的眼帘和嘴巴及设于眼帘内的眼球。请参考图5,所示为本发明一实施方式中表情关系表300的示意图。该表情关系表300包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。该输出模块105根据用户情绪查找该表情关系表300确定与用户情绪相匹配的表情控制指令。例如,在该表情关系表300中,与“高兴”用户表情相对应的表情控制指令为控制设于智能机器人2头部中的眼帘和嘴巴开合及设于眼帘内的眼球转动。当该输出模块105根据“高兴”用户表情查找该表情关系表300并确定与“高兴”用户表情相对应的表情控制指令为控制设于智能机器人2头部中的眼帘和嘴巴开合及设于眼帘内的眼球转动时,该输出模块105控制该智能机器人2中的眼帘和嘴巴开合及设于眼帘内的眼球转动以输出智能机器人2的表情,从而实现该智能机器人2与用户进行交互。
请参考图6,所示为本发明一实施方式中人机交互方法的流程图。该方法应用在智能机器人2中。根据不同需求,该流程图中步骤的顺序可以改变,某些步骤可以省略或合并。该方法包括如下步骤。
S601:获取该语音采集单元22采集的语音。
S602:识别获取的语音以确定用户的情绪特征。
本实施方式中,用户的情绪特征包括,但不限于高兴、愤怒、生气、喜悦、担心等情绪。例如,当识别的语音是“今天是周末,可以出去好好玩一玩了”时,该智能机器人2能够确定与该语音相对应的情绪特征是高兴。当识别的语音是“今天天气糟透了,不能出去玩了”时,该智能机器人2能够确定与该语音相对应的情绪特征是生气。本实施方式中,根据用户的语音确定用户的情绪特征为现有技术,这里不再详述。
S603:根据识别的语音确定用户意图。例如,当识别的语音是“今天是周末,可以出去好好玩一玩了”时,该智能机器人2能够确定与该语音相对应的用户意图是出去玩。
S604:根据用户的情绪特征、用户意图及应答关系表200确定一与情绪特征及用户意图相匹配的应答语句。本实施方式中,该应答关系表200包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系。
本实施方式中,该智能机器人2根据用户的情绪特征、用户意图查找该应答关系表200确定与该情绪特征及用户意图相匹配的应答语句。例如,在该应答关系表200中,与情绪特征为“高兴”及与用户意图为“出去玩”相对应的应答语句为“祝你玩得愉快”。该智能机器人2根据获取的“高兴”情绪特征及“出去玩”的用户意图查找该应答关系表200,并确定出与该情绪特征及用户意图相匹配的应答语句为“祝你玩得愉快”。
S605:控制语音输出单元24输出该应答语句。
在一实施方式中,该方法还包括步骤:
获取该摄像单元21拍摄的人脸图像;
根据获取的人脸图像确定一动画形象的表情动画;及
控制该显示单元23显示该动画形象的表情动画。
在一实施方式中,该方法在步骤“根据获取的人脸图像确定一动画形象的表情动画”中包括:从获取的人脸图像中分析出面部表情图片;对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数;并根据该面部表情特征参数确定该动画形象的表情动画。
本实施方式中,该面部表情特征包括,但不限于头高、头围、眼宽、眼高、两眼距、鼻宽、鼻长、嘴宽、上下嘴唇厚、耳长、耳宽、耳厚等。该动画形象可以为小猪、小狗或小熊等卡通形象。本实施方式中,该智能机器人2根据获取的人脸图像的面部表情特征参数利用脸部动作编码***来确定该动画形象的表情动画。在另一实施方式中,该智能机器人2根据获取的人脸图像的面部表情特征参数及确定的用户情绪利用脸部动作编码***确定该动画形象的表情动画。
在一实施方式中,该方法还包括步骤:根据识别的用户情绪及表情关系表300确定一表情控制指令;并根据确定的表情控制指令控制该表情输出单元25输出一表情以使该智能机器人2与用户进行交互。
本实施方式中,该表情输出单元25可以为设于智能机器人2头部中的眼帘和嘴巴及设于眼帘内的眼球。该表情关系表300包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。该智能机器人2根据用户情绪查找该表情关系表300确定与用户情绪相匹配的表情控制指令。例如,在该表情关系表300中,与“高兴”用户表情相对应的表情控制指令为控制设于智能机器人2头部中的眼帘和嘴巴开合及设于眼帘内的眼球转动。当智能机器人2根据“高兴”用户表情查找该表情关系表300并确定与“高兴”用户表情相对应的表情控制指令为控制设于智能机器人2头部中的眼帘和嘴巴开合及设于眼帘内的眼球转动时,该智能机器人2控制该智能机器人2中的眼帘和嘴巴开合及设于眼帘内的眼球转动以输出智能机器人2的表情,从而实现该智能机器人2与用户进行交互。
请参考图7,所示为本发明一实施方式中根据识别的语音确定用户意图的方法流程图。本实施方式中,该方法包括步骤:
S701:从识别的语音中提取多段特征文件,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应。
本实施方式中,该智能机器人2将该语音输入预设的特征文字提取模型,获得特征文字提取模型输出的各个级别的多特征文字。其中,特征文字提取模型,用于对所述语音进行语义解析,获得与树形结构意图库中各个级别对应的特征文字。在本实施方式中,树形结构意图库中的所有级别可以只对应一个总的特征文字提取模型。在输入时,将语音识别结果输入该总的特征文字提取模型,获得该总的特征文字提取模型输出的各个级别的多特征文字。
S702:将第一级别对应的特征文字确定为当前级别的特征文字,并将所述树形结构意图库中第一级别的所有意图确定为候选意图。
具体的,在匹配时,从第一级别的特征文字与树形结构意图库中第一级别的所有意图的匹配开始执行,然后将第二级别的特征文字与树形结构意图库中匹配成功的第二级别的所有意图进行匹配,将第三级别的特征文字与树形结构意图库中匹配成功的第三级别的所有意图进行匹配,依此规律逐级执行匹配过程,直至所有级别的特征文字匹配完成。
S703:将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图。
具体地,在获得当前意图时,该智能机器人2可以直接将匹配成功的候选意图作为当前意图。本实施方式中,当前意图为本次匹配成功的候选意图以及在本次匹配之前所有匹配成功的各级别意图共同构成的意图。
S704:判断是否所有特征文字匹配完成。若是,则执行步骤S705;若否,则执行步骤S706。
S705:将当前意图确定为用户意图。
S706:将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;返回步骤S703。
本实施方式中,当所有特征文字均匹配完成时,当前意图即构成了最终确定的用户意图。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换都不应脱离本发明技术方案的精神和范围。
Claims (12)
1.一种智能机器人,包括语音采集单元、语音输出单元及处理单元,该语音采集单元用于采集该智能机器人周围的语音,其特征在于,该处理单元用于:
获取该语音采集单元采集的语音;
识别获取的语音以确定用户的情绪特征;
根据识别的语音确定用户意图;
根据用户的情绪特征、用户意图及一应答关系表确定与该情绪特征及该用户意图相匹配的应答语句,其中,该应答关系表包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系;及
控制该语音输出单元输出该确定出的应答语句。
2.如权利要求1所述的智能机器人,该智能机器人还包括摄像单元及显示单元,该摄像单元用于摄取位于该智能机器人周围的人脸图像,其特征在于,该处理单元还用于:
获取该摄像单拍摄的人脸图像;
根据获取的人脸图像确定一动画形象的表情动画;
控制该显示单元显示该动画形象的表情动画。
3.如权利要求2所述的智能机器人,其特征在于,该处理单元还用于从获取的人脸图像中分析出面部表情图片,对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数,并根据获取的人脸图像的面部表情特征参数利用脸部动作编码***来确定该动画形象的表情动画。
4.如权利要求1所述的智能机器人,该智能机器人还包括一表情输出单元,其特征在于,该处理单元还用于:
根据识别的用户情绪及一表情关系表确定一表情控制指令;及
根据确定的表情控制指令控制该表情输出单元输出一表情以使该智能机器人与用户进行交互,其中,该表情关系表包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。
5.如权利要求1所述的智能机器人,其特征在于,该处理单元还用于:
从识别的语音中提取多段特征文件,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
将第一级别对应的特征文字确定为当前级别的特征文字,并将该树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;及
当所有特征文字都匹配完成时将当前意图确定为用户意图。
6.如权利要求5所述的智能机器人,其特征在于,该处理单元还用于:
当所有特征文字没有全部匹配完成时将下一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
将当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;及
当所有特征文字均匹配完成时,将当前意图确定为用户意图。
7.一种人机交互方法,应用在一智能机器人中,其特征在于,该方法包括步骤:
获取一语音采集单元采集的语音;
识别获取的语音以确定用户的情绪特征;
根据识别的语音确定用户意图;
根据用户的情绪特征、用户意图及一应答关系表确定与该情绪特征及该用户意图相匹配的应答语句,其中,该应答关系表包括情绪特征、用户意图及应答语句,并定义了情绪特征、用户意图及应答语句的对应关系;及
控制一语音输出单元输出该确定出的应答语句。
8.如权利要求7所述的人机交互方法,其特征在于,该方法还包括步骤:
获取一摄像单拍摄的人脸图像;
根据获取的人脸图像确定一动画形象的表情动画;
控制一显示单元显示该动画形象的表情动画。
9.如权利要求8所述的人机交互方法,其特征在于,该方法在步骤“根据获取的人脸图像确定一动画形象的表情动画”中包括:
从获取的人脸图像中分析出面部表情图片;
对获取的面部表情图片进行面部表情特征提取后确定出面部表情特征参数;及
根据获取的人脸图像的面部表情特征参数利用脸部动作编码***来确定该动画形象的表情动画。
10.如权利要求7所述的人机交互方法,其特征在于,方法还包括步骤:
根据识别的用户情绪及一表情关系表确定一表情控制指令;及
根据确定的表情控制指令控制一表情输出单元输出一表情以使该智能机器人与用户进行交互,其中,该表情关系表包括一组用户情绪及一组表情控制指令,并定义了该些用户情绪及该些表情控制指令的对应关系。
11.如权利要求7所述的人机交互方法,其特征在于,该方法还包括步骤:
从识别的语音中提取多段特征文件,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
将第一级别对应的特征文字确定为当前级别的特征文字,并将该树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;及
当所有特征文字都匹配完成时将当前意图确定为用户意图。
12.如权利要求11所述的人机交互方法,其特征在于,该方法还包括步骤:
当所有特征文字没有全部匹配完成时将下一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
将当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;及
当所有特征文字均匹配完成时,将当前意图确定为用户意图。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170642.4A CN110309254A (zh) | 2018-03-01 | 2018-03-01 | 智能机器人与人机交互方法 |
TW107110167A TW201937344A (zh) | 2018-03-01 | 2018-03-23 | 智慧型機器人及人機交互方法 |
US15/959,370 US20190272846A1 (en) | 2018-03-01 | 2018-04-23 | Smart robot and method for man-machine interaction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170642.4A CN110309254A (zh) | 2018-03-01 | 2018-03-01 | 智能机器人与人机交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309254A true CN110309254A (zh) | 2019-10-08 |
Family
ID=67768219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810170642.4A Pending CN110309254A (zh) | 2018-03-01 | 2018-03-01 | 智能机器人与人机交互方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190272846A1 (zh) |
CN (1) | CN110309254A (zh) |
TW (1) | TW201937344A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807388A (zh) * | 2019-10-25 | 2020-02-18 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN112992147A (zh) * | 2021-02-26 | 2021-06-18 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778114A (zh) * | 2014-11-07 | 2021-12-10 | 索尼公司 | 控制***、控制方法以及存储介质 |
CN109421044A (zh) * | 2017-08-28 | 2019-03-05 | 富泰华工业(深圳)有限公司 | 智能机器人 |
CN112829763A (zh) * | 2019-11-05 | 2021-05-25 | 北京新能源汽车股份有限公司 | 一种语音交互处理方法、***及汽车 |
CN112289312B (zh) * | 2020-07-10 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 语音指令的识别方法、装置、电子设备及计算机可读介质 |
CN111966221B (zh) * | 2020-08-10 | 2024-04-26 | 广州汽车集团股份有限公司 | 车内互动处理方法及装置 |
CN111883131B (zh) * | 2020-08-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法及装置 |
CN112309372B (zh) * | 2020-10-28 | 2024-02-23 | 平安科技(深圳)有限公司 | 基于语调的意图识别方法、装置、设备及存储介质 |
CN114595314A (zh) * | 2020-12-07 | 2022-06-07 | 山东新松工业软件研究院股份有限公司 | 融合情绪的对话应答方法、装置、终端及存储装置 |
CN114121041B (zh) * | 2021-11-19 | 2023-12-08 | 韩端科技(深圳)有限公司 | 一种基于智伴机器人智能陪伴方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100157A1 (en) * | 2012-04-04 | 2015-04-09 | Aldebaran Robotics S.A | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot |
CN105082150A (zh) * | 2015-08-25 | 2015-11-25 | 国家康复辅具研究中心 | 一种基于用户情绪及意图识别的机器人人机交互方法 |
CN106537294A (zh) * | 2016-06-29 | 2017-03-22 | 深圳狗尾草智能科技有限公司 | 一种机器人交互内容的生成方法、***及机器人 |
CN106959839A (zh) * | 2017-03-22 | 2017-07-18 | 北京光年无限科技有限公司 | 一种人机交互装置及方法 |
CN106985137A (zh) * | 2017-03-09 | 2017-07-28 | 北京光年无限科技有限公司 | 用于智能机器人的多模态交互方法及*** |
CN107146610A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种用户意图的确定方法及装置 |
-
2018
- 2018-03-01 CN CN201810170642.4A patent/CN110309254A/zh active Pending
- 2018-03-23 TW TW107110167A patent/TW201937344A/zh unknown
- 2018-04-23 US US15/959,370 patent/US20190272846A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100157A1 (en) * | 2012-04-04 | 2015-04-09 | Aldebaran Robotics S.A | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot |
CN105082150A (zh) * | 2015-08-25 | 2015-11-25 | 国家康复辅具研究中心 | 一种基于用户情绪及意图识别的机器人人机交互方法 |
CN106537294A (zh) * | 2016-06-29 | 2017-03-22 | 深圳狗尾草智能科技有限公司 | 一种机器人交互内容的生成方法、***及机器人 |
CN106985137A (zh) * | 2017-03-09 | 2017-07-28 | 北京光年无限科技有限公司 | 用于智能机器人的多模态交互方法及*** |
CN106959839A (zh) * | 2017-03-22 | 2017-07-18 | 北京光年无限科技有限公司 | 一种人机交互装置及方法 |
CN107146610A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种用户意图的确定方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807388A (zh) * | 2019-10-25 | 2020-02-18 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN112992147A (zh) * | 2021-02-26 | 2021-06-18 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190272846A1 (en) | 2019-09-05 |
TW201937344A (zh) | 2019-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309254A (zh) | 智能机器人与人机交互方法 | |
US20230316643A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
CN111833418B (zh) | 动画交互方法、装置、设备以及存储介质 | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
WO2020253509A1 (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
CN110427472A (zh) | 智能客服匹配的方法、装置、终端设备及存储介质 | |
CN114578969A (zh) | 用于人机交互的方法、装置、设备和介质 | |
US20130262114A1 (en) | Crowdsourced, Grounded Language for Intent Modeling in Conversational Interfaces | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN110830852A (zh) | 一种视频内容的处理方法及装置 | |
CN108470188B (zh) | 基于图像分析的交互方法及电子设备 | |
CN107808191A (zh) | 虚拟人多模态交互的输出方法和*** | |
CN116704085B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN108416420A (zh) | 基于虚拟人的肢体交互方法及*** | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN115147521A (zh) | 一种基于人工智能语义分析的角色表情动画的生成方法 | |
CN112382287A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN106178502A (zh) | 一种基于视觉与语音识别技术的游戏控制***及方法 | |
CN106875955A (zh) | 一种声音动画的制作方法及电子设备 | |
CN110866962A (zh) | 一种基于卷积神经网络的虚拟人像与表情同步方法 | |
CN112149599B (zh) | 表情追踪方法、装置、存储介质和电子设备 | |
CN112634413B (zh) | 生成模型和生成3d动画的方法、装置、设备和存储介质 | |
CN117809679A (zh) | 一种服务器、显示设备及数字人交互方法 | |
CN113223125A (zh) | 一种虚拟形象的面部驱动方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191008 |