CN109558935A - 基于深度学习的情感识别与交互方法及*** - Google Patents
基于深度学习的情感识别与交互方法及*** Download PDFInfo
- Publication number
- CN109558935A CN109558935A CN201811434491.5A CN201811434491A CN109558935A CN 109558935 A CN109558935 A CN 109558935A CN 201811434491 A CN201811434491 A CN 201811434491A CN 109558935 A CN109558935 A CN 109558935A
- Authority
- CN
- China
- Prior art keywords
- expression
- recognition
- user
- current
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 230000008451 emotion Effects 0.000 claims abstract description 11
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 238000012905 input function Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims 2
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000036651 mood Effects 0.000 abstract description 6
- 101150035983 str1 gene Proteins 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的情感识别与交互方法,包括以下步骤:训练集建立步骤;模型训练步骤;数据采集步骤,包括采集表情信息步骤和采集语言信息步骤;情感识别步骤;交互步骤。本发明将语音识别与表情识别巧妙地结合在一起,根据语音和表情综合判断出用户的情感,从而判断出用户当下的真实想法最可能是什么,并给出最为合适的答复。本发明解决了目前由于语音识别技术的限制,仅从语音信息难以准确判断用户心情的技术问题。本发明还公开了一种基于深度学习的情感识别与交互***。
Description
技术领域
本发明涉及一种人工智能(AI)技术,具体涉及一种基于深度学习的情感识别与交互方法。本发明还涉及一种基于深度学习的情感识别与交互***。
背景技术
随着社会的发展,中国逐步进入老龄化社会,老年人口占总人口的比例越来越高。同时,受政策影响,现阶段的老年人普遍存在少子化的问题,很多老年人的身边都没有子女陪伴。另一方面,随着经济的快速发展,年轻父母的工作压力很大,长年工作忙碌导致小孩幼年时期缺少陪伴的情况越来越多。
随着人工智能技术的发展,人们希望用机器人来常伴老人或小孩的左右。但是,现有的聊天机器人只是对话式机器人,只能实现剧本式聊天,无法根据用户的情感作出准确的回应,对于老人或小孩来说仍然是冷冰冰的机器,无法起到知心陪伴的作用。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的情感识别与交互方法,它可以准确地识别出用户的情感并作出相应的反馈。
为解决上述技术问题,本发明基于深度学习的情感识别与交互方法的技术解决方案为,包括以下步骤:
训练集建立步骤:将人脸表情进行分类;搜集人脸图片,将每张图片根据不同表情类别放入不同的文件夹内,从而建立训练集;
模型训练步骤:搭建神经网络,采用训练集对神经网络进行训练,得到经过深度学习的神经网络模型;
在另一实施例中,所述神经网络包括卷积层、池化层、全连接层、softmax表情种类分类层。
在另一实施例中,所述神经网络包括:
第一卷积层,用于提取输入图片的特征;激活函数设置为ReLU函数;第一卷积层的输出结果进入到第一池化层;
第一池化层,采用最大池化方式从第一卷积层的输出结果中继续提取人脸特征;第一池化层的输出结果进入到第二卷积层;
第二卷积层,用于从第一池化层的输出结果中提取特征,激活函数设置为ReLU函数;
第二池化层,以第二卷积层的输出结果作为本层的输入,继续提取人脸特征;
第一全连接层,将第二池化层的结果作为输入,对提取到的人脸特征进行浓缩,得到较大的特征向量;
第二全连接层,将第一全连接层的结果作为输入,对人脸特征再次进行高度浓缩,得到较小的特征向量;
softmax表情种类分类层,以第二全连接层的输出结果作为输入,通过卷积操作,得到各种表情分类结果的置信度,即各种表情类别的可能性指数;全部表情类别的可能性指数加起来为100%。
在另一实施例中,所述模型训练步骤中对神经网络的训练方法如下:
将所搜集的人脸图片输入神经网络;
采用Python语言,tensorflow深度学习框架,以及OpenCv库;
每次从训练集中获取若干张图片输入神经网络,经过一层层卷积池化操作正向传播,得到某个分类结果,该分类结果为预测值;
将该分类结果输入误差函数,与期望值比较得到误差,通过误差判断识别程度;
再通过反向传播来确定梯度向量;
最后通过梯度向量来调整每一个权值,向预测值使误差逐渐趋于0或收敛的趋势调节;
重复上述过程直到达到最大迭代次数为止。
数据采集步骤:包括采集表情信息步骤和采集语言信息步骤;
所述采集表情信息步骤:获取用户的当前表情信号;将当前表情信号输入所述神经网络模型,神经网络模型提取当前表情信号的图片特征,并输出各种表情类别的可能性指数;将可能性指数最大值所对应的表情类别作为表情识别的识别结果;
所述采集语言信息步骤:获取用户的当前语音信号,提取当前语音信号的文本特征作为语音识别的识别结果;
在另一实施例中,所述采集语言信息步骤包括:调用Python自带的pyauido库采集语音信息,录制音频,并保存为wav语音文件;设置如果连续N秒内未采集到语音信息,则认为这句话说完,结束录制,其中N≥2;利用百度语音的API接口将保存的语音转化为文本信息。
情感识别步骤:将表情识别的识别结果和语音识别的识别结果结合起来,得到用户当前带有感情色彩的表达内容,即为用户当前的情感识别结果;
交互步骤:将用户当前的情感识别结果输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句。
本发明还提供一种基于深度学习的情感识别与交互***,其技术解决方案为,包括:
训练集建立模块:被配置为建立训练集;训练集中包含多张根据不同表情类别进行分类的人脸图片;
模型训练模块:被配置为采用训练集对所搭建的神经网络进行训练,得到经过深度学习的神经网络模型;该神经网络模型能够实时地判断出人脸的表情,并且输出各种表情类别的可能性指数;
数据采集模块:包括表情信息采集单元和语言信息采集单元;
表情信息采集单元:被配置为获取用户的当前表情信号;将当前表情信号输入所述神经网络模型,提取当前表情信号的图片特征,并输出当前最可能的表情识别结果;
语言信息采集单元:被配置为获取用户的当前语音信号,提取语音特征,进行语音识别,并输出当前语音信号的识别结果;
情感识别模块:被配置为根据表情识别结果和语音信号的识别结果,综合得出用户当前的情感表达内容;
智能问答模块:被配置为存储各种情况、场景下的答复语句;
交互模块:被配置为将用户当前的情感表达内容输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句。
本发明可以达到的技术效果是:
本发明将语音识别与表情识别巧妙地结合在一起,根据语音和表情综合判断出用户的情感,从而判断出用户当下的真实想法最可能是什么,并给出最为合适的答复。本发明解决了目前由于语音识别技术的限制,仅从语音信息难以准确判断用户心情的技术问题。
本发明应用于机器人,能够在与用户交流的同时,采集用户在说话过程中的表情,从而准确地识别出用户的情感并作出相应的反馈。
本发明采用深度学习算法,能够识别出人脸的多种表情指数,从而准确判断出用户当下最可能的心情。
附图说明
本领域的技术人员应理解,以下说明仅是示意性地说明本发明的原理,所述原理可按多种方式应用,以实现许多不同的可替代实施方式。这些说明仅用于示出本发明的教导内容的一般原理,不意味着限制在此所公开的发明构思。
结合在本说明书中并构成本说明书的一部分的附图示出了本发明的实施方式,并且与上文的总体说明和下列附图的详细说明一起用于解释本发明的原理。
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是本发明基于深度学习的情感识别与交互方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如图1所示,本发明基于深度学习的情感识别与交互方法,包括以下步骤:
1、训练集建立步骤;
将人脸表情进行分类,如生气、嫌弃、害怕、高兴、悲伤、惊讶、心如止水;搜集大量人脸的图片,包括国内外的各个年龄段的人群;将每张图片根据不同表情类别放入不同的文件夹内,从而建立训练集;
2、模型训练步骤;
搭建神经网络,采用训练集对神经网络进行训练,得到经过深度学习的神经网络模型;
本发明所搭建的神经网络包括卷积层、池化层、全连接层、softmax表情种类分类层;各层的层数以及所形成的网络结构可以根据需要进行调整;
作为本发明的实施例,神经网络架构可以包括:
第一卷积层,用于提取输入图片的特征;激活函数设置为ReLU函数;因为ReLU能够使一部分神经元的输出为0,这样能够造成了网络的稀疏性,并且减少了参数的相互依存关系,因而能够缓解过拟合问题的发生,而Sigmoid函数反向传播时,很容易就会出现梯度消失的情况;第一卷积层的输出结果进入到第一池化层;
第一池化层,采用最大池化方式从第一卷积层的输出结果中继续提取人脸特征,第一池化层的输出结果进入到第二卷积层;
第二卷积层,用于从第一池化层的输出结果中提取特征,激活函数设置为ReLU函数;
第二池化层,以第二卷积层的输出结果作为本层的输入,继续提取人脸特征;
第一全连接层,将第二池化层的结果作为输入,对提取到的人脸特征进行浓缩,得到较大的特征向量;
第二全连接层,将第一全连接层的结果作为输入,对人脸特征再次进行高度浓缩,得到较小的特征向量;
softmax表情种类分类层,以第二全连接层的输出结果作为输入,通过卷积操作,得到七种表情分类结果的置信度,即七种表情类别的可能性指数;例如此人此时心情为“高兴”的指数为73%,“惊讶”的指数为5%,“心如止水”的指数为22%,七种表情指数加起来为100%。
本发明对神经网络的训练方法如下:
将所搜集的人脸图片经过reshape变成48*48*1的灰度图输入神经网络;总共有约3万多张图片,训练集选定30000张,设置batch size=32,最大迭代次数10000次,此处最大迭代次数可以根据需要增加;
采用Python语言,tensorflow深度学习框架,以及OpenCv库;
每次从训练集中获取32张图片输入神经网络,经过一层层卷积池化操作正向传播,得到某个分类结果,该分类结果为预测值;卷积池化操作为现有技术,在此不做赘述;
将该分类结果(预测值)输入误差函数(正则化惩罚,防止过拟合),与期望值(真实值)比较得到误差,通过误差判断识别程度(损失值越小越好);
再通过反向传播(反向求导,最终目的是使误差最小)来确定梯度向量;
最后通过梯度向量来调整每一个权值,向预测值使误差逐渐趋于0或收敛的趋势调节;
重复上述过程直到达到最大迭代次数为止。
得到经过深度学习的神经网络模型,之后再向该神经网络模型输入待检测图片,神经网络模型就能够根据图片判断出人脸是哪种表情,并且输出各种表情的可能性指数,比如此人此时心情为“高兴”的指数为73%,“惊讶”的指数为5%,“心如止水”的指数为22%,选取可能性指数最大值所对应的表情类别作为表情识别的识别结果。
3、数据采集步骤;
采集表情信息;通过摄像头拍摄用户当前的表情图片,以获取用户的当前表情信号;将当前表情信号输入神经网络模型,提取当前表情信号的图片特征,并输出各种表情的可能性指数;其中可能性指数最大值所对应的表情类别作为表情识别的识别结果,记为str1;
采集语言信息;获取用户的当前语音信号,提取当前语音信号的文本特征作为语音识别的识别结果;
具体步骤包括:调用Python自带的pyauido库采集语音信息,录制音频,并保存为wav语音文件;设置如果连续2秒内未采集到语音信息,则认为这句话说完,结束录制,其中2秒这个值可以自己根据情况改变;利用百度语音的API接口将保存的语音转化为文本信息,语音识别的识别结果记为str2。
4、情感识别步骤:将表情识别的识别结果和语音识别的识别结果结合起来,得到用户当前带有感情色彩的表达内容,即为用户当前的情感识别结果;
具体步骤包括:将表情识别的识别结果str1和语音识别的识别结果str2结合起来得到str,则str为用户当前的情感表达内容;
比如:通过表情识别此人此时心情为“高兴”的指数为73%,“惊讶”的指数为5%,“心如止水”的指数为22%,高兴指数最大,判断用户此时是高兴的;用户说的话是“我讨厌你”,得出用户此时实际想表达的内容是“高兴地说我讨厌你”;则str1=高兴,str2=“我讨厌你”,最后传输给智能问答模块的输入可以是str=str1+str2=“高兴,我讨厌你”,此处str1可以根据需要进行一系列修改,增加一些修饰词等,比如改成str=“我高兴地说我讨厌你”等,以数学中的函数形式类比过来可以写成以下公式:str=f(str1)+str2。
5、交互步骤:将用户当前的情感识别结果输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句;
具体步骤包括:当智能问答模块接收到str文本后,分别提取其中str1和str2的内容,再根据str1及str2共同选出相对应的答复语句result;
智能问答模块,可以是数据库,用于存储各种情况下的答复语句;比如有针对“悲伤”时说的“你不爱我了”的答复1,有针对“生气”时说的“你不爱我了”的答复2,还有针对“心如止水”时说的“你不爱我了”的答复3,等等。
如果没有表情识别,仅通过语音识别结果“我讨厌你”得到的回复可能会很僵硬,甚至产生误解。而采用本发明,则可以设置成根据“张三高兴地说我讨厌你”得到回复,这两种情况下的回复是不一样的。另外,可以根据需要设计智能问答、语料库对接等模块,这样可以使答复更加灵活。比如说可以设置幽默地回复“看你的样子就知道你是在骗我”等等而不是仅仅回复一句“对不起”。试想一下,普通对话式的机器人仅仅根据声音进行识别,获取的是不带感情色彩的文本信息,没有情感,不可能知道此时用户的真实表情和想法,所以可能会造成僵硬的回答。一句简单的“我讨厌你”可能是用户用开心的口吻说的,也可能是生气地说的,还可能是心如止水地说的,而普通的对话式机器人仅仅知道用户说了一句“我讨厌你”,却压根区分不出来真实的表达含义,无法获取用户的情感,造成用户体验度很低,无法知心陪伴用户。
本发明基于深度学习的情感识别与交互***,包括:
训练集建立模块:被配置为建立训练集;
模型训练模块:被配置为采用训练集对所搭建的神经网络进行训练,得到经过深度学习的神经网络模型;该神经网络模型能够实时地判断出人脸的表情,并且输出各种表情的可能性指数;
数据采集模块:包括表情信息采集单元和语言信息采集单元;
表情信息采集单元:被配置为获取用户的当前表情信号;将当前表情信号输入神经网络模型,提取当前表情信号的图片特征,并输出当前最可能的表情识别结果;
语言信息采集单元:被配置为获取用户的当前语音信号,提取语音特征,进行语音识别,并输出当前语音信号的识别结果;
情感识别模块:被配置为根据表情识别结果和语音信号的识别结果,综合得出用户当前的情感表达内容;
智能问答模块:被配置为存储各种情况、场景下的答复语句;
交互模块:被配置为将用户当前的情感表达内容输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句。
本发明可应用于家庭陪伴聊天机器人,能够通过“看(表情识别)+听(语音识别)+说(交互)”的方式与用户进行情感交流,使机器人从玩具演变为能够识别用户情感的玩伴。
显然,本领域的技术人员可以对本发明进行各种改动和变形,而不脱离本发明的精神和范围。这样,倘若本发明的这些修改属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变形在内。
Claims (6)
1.一种基于深度学习的情感识别与交互方法,其特征在于,包括以下步骤:
训练集建立步骤:将人脸表情进行分类;搜集人脸图片,将每张图片根据不同表情类别放入不同的文件夹内,从而建立训练集;
模型训练步骤:搭建神经网络,采用训练集对神经网络进行训练,得到经过深度学习的神经网络模型;
数据采集步骤:包括采集表情信息步骤和采集语言信息步骤;
所述采集表情信息步骤:获取用户的当前表情信号;将当前表情信号输入所述神经网络模型,神经网络模型提取当前表情信号的图片特征,并输出各种表情类别的可能性指数;将可能性指数最大值所对应的表情类别作为表情识别的识别结果;
所述采集语言信息步骤:获取用户的当前语音信号,提取当前语音信号的文本特征作为语音识别的识别结果;
情感识别步骤:将表情识别的识别结果和语音识别的识别结果结合起来,得到用户当前带有感情色彩的表达内容,即为用户当前的情感识别结果;
交互步骤:将用户当前的情感识别结果输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句。
2.根据权利要求1所述的基于深度学习的情感识别与交互方法,其特征在于,所述神经网络包括卷积层、池化层、全连接层、softmax表情种类分类层。
3.根据权利要求1所述的基于深度学习的情感识别与交互方法,其特征在于,所述神经网络包括:
第一卷积层,用于提取输入图片的特征;激活函数设置为ReLU函数;第一卷积层的输出结果进入到第一池化层;
第一池化层,采用最大池化方式从第一卷积层的输出结果中继续提取人脸特征;第一池化层的输出结果进入到第二卷积层;
第二卷积层,用于从第一池化层的输出结果中提取特征,激活函数设置为ReLU函数;
第二池化层,以第二卷积层的输出结果作为本层的输入,继续提取人脸特征;
第一全连接层,将第二池化层的结果作为输入,对提取到的人脸特征进行浓缩,得到较大的特征向量;
第二全连接层,将第一全连接层的结果作为输入,对人脸特征再次进行高度浓缩,得到较小的特征向量;
softmax表情种类分类层,以第二全连接层的输出结果作为输入,通过卷积操作,得到各种表情分类结果的置信度,即各种表情类别的可能性指数;全部表情类别的可能性指数加起来为100%。
4.根据权利要求1所述的基于深度学习的情感识别与交互方法,其特征在于,所述模型训练步骤中对神经网络的训练方法如下:
将所搜集的人脸图片输入神经网络;
采用Python语言,tensorflow深度学习框架,以及OpenCv库;
每次从训练集中获取若干张图片输入神经网络,经过一层层卷积池化操作正向传播,得到某个分类结果,该分类结果为预测值;
将该分类结果输入误差函数,与期望值比较得到误差,通过误差判断识别程度;
再通过反向传播来确定梯度向量;
最后通过梯度向量来调整每一个权值,向预测值使误差逐渐趋于0或收敛的趋势调节;
重复上述过程直到达到最大迭代次数为止。
5.根据权利要求1所述的基于深度学习的情感识别与交互方法,其特征在于,所述采集语言信息步骤包括:调用Python自带的pyauido库采集语音信息,录制音频,并保存为wav语音文件;设置如果连续N秒内未采集到语音信息,则认为这句话说完,结束录制,其中N≥2;利用百度语音的API接口将保存的语音转化为文本信息。
6.一种基于深度学习的情感识别与交互***,其特征在于,包括:
训练集建立模块:被配置为建立训练集;训练集中包含多张根据不同表情类别进行分类的人脸图片;
模型训练模块:被配置为采用训练集对所搭建的神经网络进行训练,得到经过深度学习的神经网络模型;该神经网络模型能够实时地判断出人脸的表情,并且输出各种表情类别的可能性指数;
数据采集模块:包括表情信息采集单元和语言信息采集单元;
表情信息采集单元:被配置为获取用户的当前表情信号;将当前表情信号输入所述神经网络模型,提取当前表情信号的图片特征,并输出当前最可能的表情识别结果;
语言信息采集单元:被配置为获取用户的当前语音信号,提取语音特征,进行语音识别,并输出当前语音信号的识别结果;
情感识别模块:被配置为根据表情识别结果和语音信号的识别结果,综合得出用户当前的情感表达内容;
智能问答模块:被配置为存储各种情况、场景下的答复语句;
交互模块:被配置为将用户当前的情感表达内容输入智能问答模块,智能问答模块根据用户当前的情感表达内容,输出相对应的答复语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811434491.5A CN109558935A (zh) | 2018-11-28 | 2018-11-28 | 基于深度学习的情感识别与交互方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811434491.5A CN109558935A (zh) | 2018-11-28 | 2018-11-28 | 基于深度学习的情感识别与交互方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558935A true CN109558935A (zh) | 2019-04-02 |
Family
ID=65867720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811434491.5A Withdrawn CN109558935A (zh) | 2018-11-28 | 2018-11-28 | 基于深度学习的情感识别与交互方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558935A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263653A (zh) * | 2019-05-23 | 2019-09-20 | 广东鼎义互联科技股份有限公司 | 一种基于深度学习技术的场景分析***及其方法 |
CN110335617A (zh) * | 2019-05-24 | 2019-10-15 | 国网新疆电力有限公司乌鲁木齐供电公司 | 一种变电站中的噪音分析方法 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110378428A (zh) * | 2019-07-23 | 2019-10-25 | 上海思依暄机器人科技股份有限公司 | 一种家用机器人及其情绪识别方法和装置 |
CN110851589A (zh) * | 2019-08-28 | 2020-02-28 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN114724222A (zh) * | 2022-04-14 | 2022-07-08 | 浙江康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
CN106599800A (zh) * | 2016-11-25 | 2017-04-26 | 哈尔滨工程大学 | 一种基于深度学习的人脸微表情识别方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
CN108227932A (zh) * | 2018-01-26 | 2018-06-29 | 上海智臻智能网络科技股份有限公司 | 交互意图确定方法及装置、计算机设备及存储介质 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别***的时序语义融合关联判断子*** |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
-
2018
- 2018-11-28 CN CN201811434491.5A patent/CN109558935A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
CN106599800A (zh) * | 2016-11-25 | 2017-04-26 | 哈尔滨工程大学 | 一种基于深度学习的人脸微表情识别方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
CN108227932A (zh) * | 2018-01-26 | 2018-06-29 | 上海智臻智能网络科技股份有限公司 | 交互意图确定方法及装置、计算机设备及存储介质 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别***的时序语义融合关联判断子*** |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263653A (zh) * | 2019-05-23 | 2019-09-20 | 广东鼎义互联科技股份有限公司 | 一种基于深度学习技术的场景分析***及其方法 |
CN110335617A (zh) * | 2019-05-24 | 2019-10-15 | 国网新疆电力有限公司乌鲁木齐供电公司 | 一种变电站中的噪音分析方法 |
CN110363074A (zh) * | 2019-06-03 | 2019-10-22 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN110378428A (zh) * | 2019-07-23 | 2019-10-25 | 上海思依暄机器人科技股份有限公司 | 一种家用机器人及其情绪识别方法和装置 |
CN110851589A (zh) * | 2019-08-28 | 2020-02-28 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN110851589B (zh) * | 2019-08-28 | 2023-06-23 | 湖北科技学院 | 表情符与文本的情感交互机制表示与识别模型建立方法 |
CN114724222A (zh) * | 2022-04-14 | 2022-07-08 | 浙江康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
CN114724222B (zh) * | 2022-04-14 | 2024-04-19 | 康旭科技有限公司 | 一种基于多模态的ai数字人情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558935A (zh) | 基于深度学习的情感识别与交互方法及*** | |
CN109036465B (zh) | 语音情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN106448670B (zh) | 基于深度学习和强化学习的自动回复对话*** | |
Zhang et al. | Study on CNN in the recognition of emotion in audio and images | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、***、介质及设备 | |
CN107301168A (zh) | 智能机器人及其情绪交互方法、*** | |
CN107247702A (zh) | 一种文本情感分析处理方法和*** | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN107870994A (zh) | 用于智能机器人的人机交互方法及*** | |
CN107705806A (zh) | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 | |
CN111292765B (zh) | 一种融合多个深度学习模型的双模态情感识别方法 | |
CN107924680A (zh) | 口语理解*** | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及*** | |
CN109065021A (zh) | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 | |
CN109243494A (zh) | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 | |
CN110009025B (zh) | 一种用于语音测谎的半监督加性噪声自编码器 | |
CN114911932A (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN106815321A (zh) | 基于智能聊天机器人的聊天方法及装置 | |
CN112634944A (zh) | 识别声音事件的方法 | |
Vimal et al. | Mfcc based audio classification using machine learning | |
CN115238731A (zh) | 基于卷积递归神经网络与多头自注意力的情感识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
Gaur | Generation of a short narrative caption for an image using the suggested hashtag |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190402 |