CN111344717A - 交互行为预测方法、智能装置和计算机可读存储介质 - Google Patents

交互行为预测方法、智能装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111344717A
CN111344717A CN201980003374.XA CN201980003374A CN111344717A CN 111344717 A CN111344717 A CN 111344717A CN 201980003374 A CN201980003374 A CN 201980003374A CN 111344717 A CN111344717 A CN 111344717A
Authority
CN
China
Prior art keywords
data
neural network
emotion
section
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980003374.XA
Other languages
English (en)
Other versions
CN111344717B (zh
Inventor
丁万
黄东延
李柏
邵池
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Publication of CN111344717A publication Critical patent/CN111344717A/zh
Application granted granted Critical
Publication of CN111344717B publication Critical patent/CN111344717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开交互行为预测方法。该交互行为预测方法包括:获取多轮对话数据,提取多轮对话数据中指定说话人的至少一段发言数据;提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列;将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络,获取分类神经网络的输出结果作为指定说话人的预测交互行为。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升预测的准确性。

Description

交互行为预测方法、智能装置和计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及交互行为预测方法、智能装置和计算机可读存储介质。
背景技术
现有的情感交互行为理论表明交互过程中情感状态的变化与交互行为的类别有着较高的相关度,现有技术基于语音来识别情感并进行行为预测,然而实际场景中交互中的情感是通过多模态(如脸部、语音、文本)协同进行表达的。基于语音的情感交互行为预测忽略了其他模态信息所包含的重要特征,会导致预测结果不准确。
发明内容
基于此,有必要针对上述问题,提出了交互行为预测方法、智能装置和计算机可读存储介质。
一种交互行为预测方法,所述方法包括:获取多轮对话数据,提取所述多轮对话数据中指定说话人的至少一段发言数据;提取每段所述发言数据中的多模态特征数据,根据所述多模态特征数据生成多模态特征序列;将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络,获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为
一种智能装置,包括:获取模块,用于获取多轮对话数据,提取所述多轮对话数据中指定说话人的至少一段发言数据;提取模块,用于提取每段所述发言数据中的多模态特征数据,根据所述多模态特征数据生成多模态特征序列;交互模块,用于将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络,获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。
一种智能装置,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如上所述的方法。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被处理器执行以实现如上所述的方法。
采用本发明实施例,具有如下有益效果:
本发明在提取到多轮对话数据中指定说话人的至少一段发言数据后,提取每段所述发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据的多模态特征序列输入预训练的分类神经网络,获取预测指定说话人的交互行为,通过多模态的特征进行情感识别,然后根据交互过程中的情感变化来预测行为类型,可以有效提升预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本发明一个实施例中脸部情感识别方法应用环境图;
图2是本发明提供的交互行为预测方法的第一实施例的流程示意图;
图3是本发明提供的交互行为预测方法的第二实施例的流程示意图;
图4是本发明提供的交互行为预测方法的第三实施例的流程示意图;
图5是本发明提供的交互行为预测方法中获取每段发言数据的多模态特征数据的方法的一实施例的流程示意图;
图6是本发明提供的智能装置的第一实施例的结构示意图;
图7是本发明提供的智能装置的第二实施例的结构示意图;
图8是本发明提供的计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术基于语音来识别情感并进行行为预测,然而实际场景中交互中的情感是通过多模态(如脸部、语音、文本)协同进行表达的。基于语音的情感交互行为预测忽略了其他模态信息所包含的重要特征,会导致预测结果不准确。
在本实施例中,为了解决上述问题,提供了一种交互行为预测方法,能够提升对交互行为预测的准确性。
请参阅图1,图1是本发明一个实施例中交互行为预测方法应用环境图。参照图1,该脸部情感识别方法应用于交互行为预测***。该交互行为预测***包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取多轮对话数据,服务器120用于提取多轮对话数据中指定说话人的至少一段发言数据,提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络,获取分类神经网络的输出结果作为指定说话人的预测交互行为。
请参阅图2,图2是本发明提供的交互行为的预测方法的第一实施例的流程示意图。本发明提供的交互行为的预测方法包括如下步骤:
S101:获取多轮对话数据,提取多轮对话数据中指定说话人的至少一段发言数据。
在一个具体的实施场景中,获取多轮对话的数据,该对话可以包括两个或两个以上说话人,可以根据说话人的声音不同,分别识别出不同的说话人。用户可以从不同的说话人中选择一个人作为指定说话人,也可以选择多个说话人作为指定说话人,后续可以分别对每个说话人进行分析。
在获取到指定说话人后,提取该指定说话人在多轮对话数据中的至少一段发言数据,在本实施场景中,获取该指定说话人的全部发言数据,在其他实施场景中,还可以指定说话人的获取语音长度超过预设阈值的发言数据,或者指定说话人的其他满足预设条件的发言数据。
在本实施场景中,在获取该指定说话人的全部发言数据之后,将这些发言数据根据指定说话人的说话的顺序对这些发言数据排序。
S102:提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列。
在本实施场景中,提取每段发言数据中的多模态特征数据,多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。将每段发言数据的多模态特征数据依据时间顺序排列,生成多模态特征序列。例如,每段发言的多模态特征数据为一多维向量,指定说话人的多段发言数据分别对应一多维向量,将这些多维向量根据其对应的一段发言数据的时间顺序进行排列,生成多模态特征序列。
在本实施场景中,可以通过将每段发言数据输入预训练的特征提取神经网络,获取每段发言的多模态特征数据。可以输入多个不同的特征提取神经网络,分别提取每段发言数据的视频特征数据、音频特征数据和文本特征数据,或者输入一个特征提取神经网络,提取每段发言数据的视频特征数据、音频特征数据和文本特征数据。
S103:将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络,获取分类神经网络的输出结果作为指定说话人的预测交互行为。
在本实施场景中,将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络,获取分类神经网络的输出结果作为指定说话人的预测交互行为。
在本实施场景中,需要对分类神经网络进行训练,在训练前准备好多个训练多模态特征序列,为每个训练多模态特征序列标注其标注交互行为,定义分类神经网络的网络结构,可以定义分类神经网络的层数,例如,19层。还可以定义神经分类网络的类型,例如卷积神经网络,或者全连接神经网络等等。定义分类神经网络的损失函数,以及定义分类神经网络的训练终止的条件,例如训练2000次后停止。在训练成功后,将至少一段发言数据对应的多模态特征序列输入分类神经网络,分类神经网络将会输出多模态特征序列对应的预测交互行为。
通过上述描述可知,在本实施例中在提取到多轮对话数据中指定说话人的至少一段发言数据后,提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据的多模态特征序列输入预训练的分类神经网络,获取预测指定说话人的交互行为,通过多模态的特征进行情感识别,然后根据交互过程中的情感变化来来获取预测交互行为,可以有效提升预测的准确性。
请参阅图3,图3是本发明提供的交互行为预测方法的第二实施例的流程示意图。本发明提供的交互行为预测方法包括如下步骤:
S201:获取多轮对话数据,提取多轮对话数据中指定说话人的至少一段发言数据。
S202:提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列。
在一个具体的实施场景中,步骤S201-S202与本发明提供的交互行为预测方法的的第一实施例中的步骤S101-S102基本一致,此处不再进行赘述。
S203:将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,获取情感识别神经网络的输出结果作为每段发言数据的情感数据。
在本实施场景中,将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,将情感识别神经网络的输出结果作为每段发言数据的情感数据。情感数据可以是多模态特征数据对应的情感类别,或者情感组合。
在本实施场景中,需要对情感识别神经网络进行训练,可以预先准备多个训练多模态特征数据,并标注每个多模态特征数据的情感数据。获取每个训练多模态特征数据的不同模态的语义特征,例如可以通过将每个多模态特征数据输入预训练的语义特征提取神经网络,获取该多模态特征数据的不同模态的语义特征。或者可以预先准备多组不同模态的语义特征,每组不同模态的语义特征对应一个训练多模态特征数据。
还可以定义情感识别神经网络的网络结构,可以定义情感识别神经网络的层数,例如,19层。还可以定义情感识别神经网络的类型,例如卷积神经网络,或者全连接神经网络等等。定义情感识别神经网络的损失函数,以及定义情感识别神经网络的训练终止的条件,例如训练2000次后停止。在训练成功后,将每段发言数据对应的多模态特征数据输入情感识别神经网络,情感识别神经网络将会输出多模态特征序列对应的情感数据。
在本实施场景中,情感识别神经网络包括卷积网络层和长短期记忆网络层。采用两层结构的神经网络,可以进一步提升输出的情感数据的准确性,在其他实施场景中,情感识别神经网络可以只包括一层结构,例如情感识别神经网络为长短期记忆网络。
S204:将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将发言情感序列输入预训练的行为预测神经网络,获取行为预测神经网络的输出结果作为预测交互行为。
在本实施场景中,将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,例如,有三段发言数据,分别对应的情感数据为A、B、B,则按照这三段发言数据的时间顺序组成的发言情感序列为ABB。将发言情感序列输入预训练的行为预测神经网络,将行为预测神经网络的输出结果作为预测交互行为。例如,ABB对应的预测交互行为为沮丧。
在本实施场景中,需要对行为预测神经网络进行训练。可预先准备多个训练发言情感序列,为每个训练发言情感序列标注其标注交互行为,定义行为预测神经网络的网络结构,可以行为预测神经网络的层数,例如,19层。还可以定义行为预测神经网络的类型,例如卷积神经网络,或者全连接神经网络等等。定义行为预测神经网络的损失函数,以及定义行为预测神经网络的训练终止的条件,例如训练2000次后停止。在训练成功后,将至少一段发言数据对应的多模态特征序列输入行为预测神经网络,行为预测神经网络将会输出多模态特征序列对应的预测交互行为。
在本实施场景中,交互行为包括接纳、责备、积极、消极和沮丧中的至少一项。行为预测神经网络为全连接神经网络。
通过上述描述可知,在本实施例中,通过将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,获取每段发言数据的情感数据,将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将发言情感序列输入预训练的行为预测神经网络,获取预测交互行为,可以根据交互过程中的情感变化来获取预测交互行为,可以有效提升预测的准确性。
请参阅图4,图4是本发明提供的交互行为预测方法的第三实施例的流程示意图。本发明提供的交互行为预测方法包括如下步骤:
S301:获取多轮对话数据,提取多轮对话数据中指定说话人的至少一段发言数据。
S302:提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列。
S303:将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,获取情感识别神经网络的输出结果作为每段发言数据的情感数据。
在一个具体的实施场景中,步骤S301-S303与本发明提供的交互行为预测方法的的第二实施例中的步骤S201-S203基本一致,此处不再进行赘述。
S304:获取发言情感序列中每个情感数据的权重,将每个情感数据与其对应的权重点乘运算,将运算后的发言情感序列输入预训练的行为预测神经网络。
在本实施场景中,获取发言情感序列中每个情感数据的权重,将每个情感数据与其对应的权重点乘运算。因为至少一段发言数据中,各段发言数据之间相互影响,例如,某些发言数据是指定说话人表达自己观点的语句,某些发言数据是指定说话人应付性的回答,则不同的发言数据对至少一段发言数据的预测交互行为的影响能力大小不同。
在本实施场景中,通过进行注意力运算获取每个情感数据的权重。在本实施场景中,注意力运算的方法为:
Figure BDA0002351011620000081
其中,a为每个情感数据的权重,
Figure BDA0002351011620000082
为发言情感序列,softmax函数的运算公式为:
Figure BDA0002351011620000083
S305:将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将发言情感序列输入预训练的行为预测神经网络,获取行为预测神经网络的输出结果作为预测交互行为。
在本实施场景中,本步骤与本发明提供的交互行为预测方法的的第二实施例中的步骤S204基本一致,此处不再进行赘述。
通过上述描述可知,在本实施例中,通过获取每个情感数据的权重,并将每个情感数据与其对应的权重点乘后的组成发言情感序列,可以结合不同段的发言数据的情感数据对预测交互行为的影响的大小,对交互行为进行预测,从而有效提升预测的准确性。
请参阅图5,图5是本发明提供的交互行为预测方法中获取每段发言数据的多模态特征数据的方法的一实施例的流程示意图。获取每段发言数据的多模态特征数据的方法包括如下步骤:
S401:将每段发言数据输入预训练的特征提取神经网络,分别获取每段发言数据的视频特征数据、音频特征数据和文本特征数据。
在一个具体的实施场景中,将每段发言数据输入预训练的视频特征提取神经网络,获取每段发言数据的视频特征数据;将每段发言数据输入预训练的音频特征提取神经网络,获取每段发言数据的音频特征数据;将每段发言数据输入预训练的文本特征提取神经网络,获取每段发言数据的文本特征数据。上述步骤可以先后进行或者同步进行,在此不做限定。
S402:将每段发言数据的视频特征数据、音频特征数据和文本特征数据融合,获取每段发言数据的多模态特征数据。
在本实施场景中,将每段发言数据的视频特征数据、音频特征数据和文本特征数据串联,获取每段发言数据的多模态特征数据。例如视频特征数据、音频特征数据和文本特征数据均为一2维向量,则串联后获取的多模态特征数据为一6维向量。
通过上述描述可知,在本实施例中,通过将发言数据输入预训练的特征提取神经网络,分别获取每段发言数据的视频特征数据、音频特征数据和文本特征数据,将这些特征数据串联,获取多模态特征数据,提升提取的特征数据的准确性,从而有效提升预测的准确性。
请参阅图6,图6是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11、提取模块12和交互模块13。
获取模块11用于获取多轮对话数据,提取多轮对话数据中指定说话人的至少一段发言数据。提取模块12用于提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列。交互模块13用于将至少一段发言数据对应的多模态特征序列输入预训练的分类神经网络,获取分类神经网络的输出结果作为指定说话人的预测交互行为。
其中,交互行为包括接纳、责备、积极、消极和沮丧中的至少一项。多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。
通过上述描述可知,在本实施例中智能装置在提取到多轮对话数据中指定说话人的至少一段发言数据后,提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据的多模态特征序列输入预训练的分类神经网络,获取预测指定说话人的交互行为,通过多模态的特征进行情感识别,然后根据交互过程中的情感变化来来获取预测交互行为,可以有效提升预测的准确性。
请继续参阅图6,交互模块13包括情感数据子模块131和交互子模块132。情感数据子模块131用于将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,获取情感识别神经网络的输出结果作为每段发言数据的情感数据。交互子模块132用于将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将发言情感序列输入预训练的行为预测神经网络,获取行为预测神经网络的输出结果作为预测交互行为。
情感数据子模块131包括权重单元1311。权重单元1311用于获取发言情感序列中每个情感数据的权重,将每个情感数据与其对应的权重点乘运算,将运算后的发言情感序列输入预训练的行为预测神经网络。
具体地说,权重单元1311用于对发言情感序列进行注意力运算,获取发言情感序列中每个情感数据的权重。
其中,情感识别神经网络包括卷积网络层和长短期记忆网络层。行为预测神经网络为全连接神经网络。
获取模块11包括特征提取子模块111,特征提取子模块111用于将每段发言数据输入预训练的特征提取神经网络,获取每段发言数据的多模态特征数据。
特征提取子模块111包括特征提取单元1111和融合单元1112。特征提取单元1111用于将每段发言数据输入预训练的视频特征提取神经网络,获取每段发言数据的视频特征数据;将每段发言数据输入预训练的音频特征提取神经网络,获取每段发言数据的音频特征数据;将每段发言数据输入预训练的文本特征提取神经网络,获取每段发言数据的文本特征数据。融合单元1112用于将每段发言数据的视频特征数据、音频特征数据和文本特征数据融合,获取每段发言数据的多模态特征数据。
智能装置10还包括训练模块14,训练模块14用于对分类神经网络进行训练。
训练模块14包括准备子模块141、定义子模块142和输入子模块143。准备子模块141用于准备多个训练多模态特征序列,标注每个训练多模态特征序列的标注交互行为。定义子模块142用于定义训练的分类神经网络的结构、损失函数和终止条件。输入子模块143用于将多个多模态特征序列及其对应的标注交互行为输入分类神经网络进行训练。
通过上述描述可知,本实施例中智能装置过将每段发言数据的多模态特征数据输入预训练的情感识别神经网络,获取每段发言数据的情感数据,将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将发言情感序列输入预训练的行为预测神经网络,结合不同段的发言数据的情感数据对预测交互行为的影响的大小,对交互行为进行预测,从而有效提升预测的准确性。
请参阅图7,图7是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括处理器21、存储器22和获取电路23。处理器21耦接存储器22和获取电路23。存储器22中存储有计算机程序,处理器21在工作时执行该计算机程序以实现如图2-图5所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,在本实施例中智能装置提取到多轮对话数据中指定说话人的至少一段发言数据后,提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据的多模态特征序列输入预训练的分类神经网络,获取预测指定说话人的交互行为,通过多模态的特征进行情感识别,然后根据交互过程中的情感变化来来获取预测交互行为,可以有效提升预测的准确性。
请参阅图8,图8是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31,计算机程序31用于被处理器执行以实现如图2-图5所示的方法,详细的方法可参见上述,在此不再赘述。在一个实施例中,计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具,还可以是服务器等等。
通过上述描述可知,在本实施例中存储介质中存储的计算机程序可以用于在提取到多轮对话数据中指定说话人的至少一段发言数据后,提取每段发言数据中的多模态特征数据,根据多模态特征数据生成多模态特征序列,将至少一段发言数据的多模态特征序列输入预训练的分类神经网络,获取预测指定说话人的交互行为,通过多模态的特征数据进行情感识别,然后根据交互过程中的情感变化来来获取预测交互行为,可以有效提升预测的准确性。
区别于现有技术,本发明通过获取指定说话人的发言数据的多模态特征数据,通过多模态的特征进行情感识别,然后根据交互过程中的情感变化来来获取预测交互行为,可以有效提升预测的准确性。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (20)

1.一种交互行为预测方法,其特征在于,包括:
获取多轮对话数据,提取所述多轮对话数据中指定说话人的至少一段发言数据;
提取每段所述发言数据中的多模态特征数据,根据所述多模态特征数据生成多模态特征序列;
将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络,获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。
2.根据权利要求1所述的交互行为预测方法,其特征在于,所述将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络,获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为的步骤,包括:
将每段所述发言数据的多模态特征数据输入预训练的情感识别神经网络,获取所述情感识别神经网络的输出结果作为每段所述发言数据的情感数据;
将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将所述发言情感序列输入预训练的行为预测神经网络,获取所述行为预测神经网络的输出结果作为预测交互行为。
3.根据权利要求2所述的交互行为预测方法,其特征在于,所述将所述发言情感序列输入预训练的行为预测神经网络的步骤,包括:
获取所述发言情感序列中每个所述情感数据的权重,将每个所述情感数据与其对应的权重点乘运算,将运算后的所述发言情感序列输入所述预训练的行为预测神经网络。
4.根据权利要求3所述的交互行为预测方法,其特征在于,所述获取所述发言情感序列中每个所述情感数据的权重的步骤,包括:
对所述发言情感序列进行注意力运算,获取所述发言情感序列中每个所述情感数据的权重。
5.根据权利要求2所述的交互行为预测方法,其特征在于,所述情感识别神经网络包括卷积网络层和长短期记忆网络层;
所述行为预测神经网络为全连接神经网络。
6.根据权利要求1所述的交互行为预测方法,其特征在于,
所述预测交互行为包括接纳、责备、积极、消极和沮丧中的至少一项;
所述多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。
7.根据权利要求1所述的交互行为预测方法,其特征在于,所述提取每段所述发言数据中的多模态特征数据的步骤,包括:
将每段所述发言数据输入预训练的特征提取神经网络,分别获取每段所述发言数据的所述多模态特征数据。
8.根据权利要求7所述的交互行为预测方法,其特征在于,所述将每段所述发言数据输入预训练的特征提取神经网络,分别获取每段所述发言数据的所述多模态特征数据的步骤,包括:
将每段所述发言数据输入预训练的视频特征提取神经网络,获取每段所述发言数据的视频特征数据;将每段所述发言数据输入预训练的音频特征提取神经网络,获取每段所述发言数据的音频特征数据;将每段所述发言数据输入预训练的文本特征提取神经网络,获取每段所述发言数据的文本特征数据;
将每段所述发言数据的所述视频特征数据、所述音频特征数据和所述文本特征数据融合,获取每段所述发言数据的多模态特征数据。
9.根据权利要求1所述的交互行为预测方法,其特征在于,所述将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络的步骤之前,包括:
对所述分类神经网络进行训练;
所述对所述分类神经网络进行训练的步骤,包括:
准备多个训练多模态特征序列,标注每个所述训练多模态特征序列的标注交互行为;
定义训练的所述分类神经网络的结构、损失函数和终止条件;
将所述多个多模态特征序列及其对应的标注交互行为输入所述分类神经网络进行训练。
10.一种智能装置,其特征在于,包括:
获取模块,用于获取多轮对话数据,提取所述多轮对话数据中指定说话人的至少一段发言数据;
提取模块,用于提取每段所述发言数据中的多模态特征数据,根据所述多模态特征数据生成多模态特征序列;
交互模块,用于将所述至少一段发言数据对应的所述多模态特征序列输入预训练的分类神经网络,获取所述分类神经网络的输出结果作为所述指定说话人的预测交互行为。
11.根据权利要求10所述的智能装置,其特征在于,所述交互模块包括:
情感数据子模块,用于将每段所述发言数据的多模态特征数据输入预训练的情感识别神经网络,获取所述情感识别神经网络的输出结果作为每段所述发言数据的情感数据;
交互子模块,用于将至少一段发言数据的情感数据按照时间顺序组成发言情感序列,将所述发言情感序列输入预训练的行为预测神经网络,获取所述行为预测神经网络的输出结果作为预测交互行为。
12.根据权利要求11所述的智能装置,其特征在于,所述情感数据子模块包括:
权重单元,用于获取所述发言情感序列中每个所述情感数据的权重,将每个所述情感数据与其对应的权重点乘运算,将运算后的所述发言情感序列输入所述预训练的行为预测神经网络。
13.根据权利要求12所述的智能装置,其特征在于,
所述权重单元用于对所述发言情感序列进行注意力运算,获取所述发言情感序列中每个所述情感数据的权重。
14.根据权利要求11所述的智能装置,其特征在于,
所述情感识别神经网络包括卷积网络层和长短期记忆网络层;
所述行为预测神经网络为全连接神经网络。
15.根据权利要求10所述的智能装置,其特征在于,
所述预测交互行为包括接纳、责备、积极、消极和沮丧中的至少一项;
所述多模态特征数据包括视频特征数据、音频特征数据和文本特征数据。
16.根据权利要求10所述的智能装置,其特征在于,所述获取模块包括:
特征提取子模块,用于将每段所述发言数据输入预训练的特征提取神经网络,获取每段所述发言数据的所述多模态特征数据。
17.根据权利要求16所述的智能装置,其特征在于,所述特征提取子模块包括:
特征提取单元,用于将每段所述发言数据输入预训练的视频特征提取神经网络,获取每段所述发言数据的视频特征数据;将每段所述发言数据输入预训练的音频特征提取神经网络,获取每段所述发言数据的音频特征数据;将每段所述发言数据输入预训练的文本特征提取神经网络,获取每段所述发言数据的文本特征数据;
融合单元,用于将每段所述发言数据的所述视频特征数据、所述音频特征数据和所述文本特征数据融合,获取每段所述发言数据的多模态特征数据。
18.根据权利要求10所述的智能装置,其特征在于,所述智能装置还包括:
训练模块,用于对所述分类神经网络进行训练;
所述训练模块包括:
准备子模块,用于准备多个训练多模态特征序列,标注每个所述训练多模态特征序列的标注交互行为;
定义子模块,用于定义训练的所述分类神经网络的结构、损失函数和终止条件;
输入子模块,用于将所述多个多模态特征序列及其对应的标注交互行为输入所述分类神经网络进行训练。
19.一种智能装置,其特征在于,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如权利要求1-9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-9任一项所述的方法。
CN201980003374.XA 2019-12-31 2019-12-31 交互行为预测方法、智能装置和计算机可读存储介质 Active CN111344717B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/130367 WO2021134417A1 (zh) 2019-12-31 2019-12-31 交互行为预测方法、智能装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111344717A true CN111344717A (zh) 2020-06-26
CN111344717B CN111344717B (zh) 2023-07-18

Family

ID=71187715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003374.XA Active CN111344717B (zh) 2019-12-31 2019-12-31 交互行为预测方法、智能装置和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111344717B (zh)
WO (1) WO2021134417A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111950275A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN117215415A (zh) * 2023-11-07 2023-12-12 山东经鼎智能科技有限公司 基于mr录播技术的多人协同虚拟交互方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019237B (zh) * 2022-06-30 2023-12-08 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016004425A1 (en) * 2014-07-04 2016-01-07 Intelligent Digital Avatars, Inc. Systems and methods for assessing, verifying and adjusting the affective state of a user
JP2018025747A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置およびプログラム
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network
CN109547332A (zh) * 2018-11-22 2019-03-29 腾讯科技(深圳)有限公司 通讯会话交互方法、装置、计算机设备
CN109986553A (zh) * 2017-12-29 2019-07-09 深圳市优必选科技有限公司 一种主动交互的机器人、***、方法及存储装置
US20190384981A1 (en) * 2018-06-15 2019-12-19 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100249538A1 (en) * 2009-03-24 2010-09-30 Neurofocus, Inc. Presentation measure using neurographics
CN105426365B (zh) * 2014-08-01 2018-11-02 阿里巴巴集团控股有限公司 区分交互行为的方法及装置
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及***
CN109284506B (zh) * 2018-11-29 2023-09-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析***及方法
CN109766476B (zh) * 2018-12-27 2023-07-25 西安电子科技大学 视频内容情感分析方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016004425A1 (en) * 2014-07-04 2016-01-07 Intelligent Digital Avatars, Inc. Systems and methods for assessing, verifying and adjusting the affective state of a user
JP2018025747A (ja) * 2016-08-09 2018-02-15 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置およびプログラム
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network
CN109986553A (zh) * 2017-12-29 2019-07-09 深圳市优必选科技有限公司 一种主动交互的机器人、***、方法及存储装置
US20190384981A1 (en) * 2018-06-15 2019-12-19 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN109547332A (zh) * 2018-11-22 2019-03-29 腾讯科技(深圳)有限公司 通讯会话交互方法、装置、计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111950275A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN117215415A (zh) * 2023-11-07 2023-12-12 山东经鼎智能科技有限公司 基于mr录播技术的多人协同虚拟交互方法
CN117215415B (zh) * 2023-11-07 2024-01-26 山东经鼎智能科技有限公司 基于mr录播技术的多人协同虚拟交互方法

Also Published As

Publication number Publication date
WO2021134417A1 (zh) 2021-07-08
CN111344717B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111164601B (zh) 情感识别方法、智能装置和计算机可读存储介质
CN110444193B (zh) 语音关键词的识别方法和装置
CN108305643B (zh) 情感信息的确定方法和装置
CN111344717B (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
CN108305641B (zh) 情感信息的确定方法和装置
US9390711B2 (en) Information recognition method and apparatus
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
US20140172419A1 (en) System and method for generating personalized tag recommendations for tagging audio content
CN111274372A (zh) 用于人机交互的方法、电子设备和计算机可读存储介质
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
JP2020004382A (ja) 音声対話方法及び装置
CN111159358A (zh) 多意图识别训练和使用方法及装置
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN111291172A (zh) 用于处理文本的方法和装置
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、***和存储介质
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
US20220399013A1 (en) Response method, terminal, and storage medium
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
JP2021096847A (ja) ユーザの発言に基づくマルチメディア推奨
CN114706945A (zh) 意图识别方法、装置、电子设备及存储介质
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN112910761B (zh) 即时通讯方法、装置、设备、存储介质以及程序产品
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN116935287A (zh) 视频理解方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant