CN117953919A - 数据处理方法、装置、设备、存储介质及计算机程序产品 - Google Patents
数据处理方法、装置、设备、存储介质及计算机程序产品 Download PDFInfo
- Publication number
- CN117953919A CN117953919A CN202211351904.XA CN202211351904A CN117953919A CN 117953919 A CN117953919 A CN 117953919A CN 202211351904 A CN202211351904 A CN 202211351904A CN 117953919 A CN117953919 A CN 117953919A
- Authority
- CN
- China
- Prior art keywords
- emotion
- probability
- candidate
- information
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000004590 computer program Methods 0.000 title claims abstract description 16
- 230000008451 emotion Effects 0.000 claims abstract description 860
- 230000008909 emotion recognition Effects 0.000 claims abstract description 94
- 230000009191 jumping Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 110
- 230000010354 integration Effects 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 52
- 230000014509 gene expression Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 23
- 238000009877 rendering Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 5
- 238000002347 injection Methods 0.000 claims description 4
- 239000007924 injection Substances 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 58
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 230000002996 emotional effect Effects 0.000 description 14
- 230000003993 interaction Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010606 normalization Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 206010063659 Aversion Diseases 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据处理方法、装置、设备、存储介质及计算机程序产品,应用于云技术、人工智能、智慧交通、游戏和车载等各种情绪识别场景;该数据处理方法包括:对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种候选情绪的第一概率,当前情绪方向为待识别信息的情绪所属方向;基于当前情绪方向,从情绪跳转关系中确定每种候选情绪对应的第二概率,情绪跳转关系表示历史情绪和候选情绪之间结合情绪方向进行跳转的概率;对第一概率和第二概率进行整合,得到候选情绪的目标概率;基于多种候选情绪中每种候选情绪对应的目标概率,确定待识别信息的情绪识别结果。通过本申请,能够提升情绪识别的准确度。
Description
技术领域
本申请涉及计算机应用领域中的人工智能技术,尤其涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。
背景技术
情绪识别是指对情绪进行识别的过程,是情感计算的一个组成部分。为了实现情绪识别,通常是直接对待识别信息进行情绪识别,以识别出当前所对应的情绪;然而,由于上述情绪识别的过程中,直接对待识别信息进行情绪识别所依据的数据单一,因此,影响了情绪识别的准确度。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升情绪识别的准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据处理方法,包括:
对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,其中,所述当前情绪方向为所述待识别信息的情绪所属方向,所述候选情绪为预先设定的情绪;
基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率,其中,所述情绪跳转关系表示历史情绪和所述候选情绪之间结合情绪方向进行跳转的概率,所述历史情绪为所述当前轮之前所预测出的情绪;
对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率;
基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果。
本申请实施例提供一种数据处理装置,包括:
情绪预测模块,用于对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,其中,所述当前情绪方向为所述待识别信息的情绪所属方向,所述候选情绪为预先设定的情绪类型;
跳转预测模块,用于基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率,其中,所述情绪跳转关系表示历史情绪和所述候选情绪之间结合情绪方向进行跳转的概率,所述历史情绪为所述当前轮之前所预测出的情绪;
概率整合模块,用于对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率;
结果确定模块,用于基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果。
在本申请实施例中,所述数据处理装置还包括关系获取模块,用于获取多个情绪样本序列、以及所述情绪样本序列中每个情绪样本的情绪方向样本,其中,所述情绪样本序列是指标注出的轮次连续的N个所述情绪样本,N为正整数;基于多个所述情绪样本序列、以及每个所述情绪样本的所述情绪方向样本,生成多个样本元组序列,其中,所述样本元组序列包括多个样本元组,所述样本元组包括第n轮所述情绪样本、第n+1轮所述情绪样本和第n+1轮所述情绪样本的所述情绪方向样本,n∈N-1;基于多个所述样本元组序列,统计相邻轮次的两个所述情绪样本之间针对所述情绪方向样本进行跳转的概率,其中,所述情绪跳转关系是基于所述历史情绪从统计结果中确定出的。
在本申请实施例中,所述概率整合模块,还用于获取与当前轮次负相关的第一整合权重、以及与所述当前轮次正相关的第二整合权重,其中,所述当前轮次表示当前轮的预测次序;获取所述第一概率与所述第一整合权重的第一整合结果;获取所述第二概率与所述第二整合权重的第二整合结果;将所述第一整合结果和所述第二整合结果的结合结果,确定为所述候选情绪的所述目标概率。
在本申请实施例中,所述结果确定模块,还用于基于所述目标概率对多种所述候选情绪进行倒序排列,得到待筛选情绪序列;基于指定筛选参数,从所述待筛选情绪序列中筛选目标情绪序列,其中,所述指定筛选参数包括概率阈值参数和情绪数量参数中的一种或两种;将所述目标情绪序列、以及所述目标情绪序列中每个目标情绪的所述目标概率,确定为所述情绪识别结果。
在本申请实施例中,所述结果确定模块,还用于基于所述目标概率,从多种所述候选情绪的倒序排列中筛选指定数量的所述候选情绪;将所述指定数量的所述候选情绪,确定为当前候选情绪序列,其中,所述当前候选情绪序列用于确定下一轮预测的所述历史情绪。
在本申请实施例中,所述情绪预测模块,还用于对当前轮的所述待识别信息进行情绪预测,得到每种所述情绪方向对应的第三概率;将所述第三概率最大的所述情绪方向,确定为基准情绪方向;将与第三基准概率之间的概率差低于概率差阈值的所述情绪方向,确定为待选择情绪方向,其中,所述第三基准概率是指所述基准情绪方向的所述第三概率;将所述基准情绪方向和所述待选择情绪方向,确定为所述当前情绪方向。
在本申请实施例中,所述情绪预测模块,还用于基于当前轮的所述待识别信息,提取语义字符串序列,其中,所述语义字符串序列中的每个语义字符串用于表示情绪语义;对所述语义字符串序列进行特征提取,得到待预测特征;对所述待预测特征进行语义情绪预测,得到所述当前情绪方向、以及多种所述候选情绪中每种所述候选情绪的所述第一概率。
在本申请实施例中,所述特征提取和所述语义情绪预测通过情绪预测模型实现,其中,所述情绪预测模型通过以下步骤训练获得:获取识别信息样本,并获取所述识别信息样本对应的情绪标签和情绪方向标签;基于待训练预测模型,对所述识别信息样本进行情绪预测,得到情绪预测概率和情绪方向预测概率,其中,所述待训练预测模型为待训练的用于进行情绪预测的网络模型;结合所述情绪预测概率和所述情绪标签之间的差异、以及所述情绪方向预测概率与所述情绪方向标签之间的差异,训练所述待训练预测模型,得到所述情绪预测模型。
在本申请实施例中,所述情绪预测模块,还用于对当前轮的所述待识别音频进行文本识别,得到待识别文本;从所述待识别文本中提取各个所述语义字符串;对各个所述语义字符串进行组合,得到所述语义字符串序列。
在本申请实施例中,所述数据处理装置还包括情绪应用模块,用于当所述待识别信息为待呈现虚拟对象的待播放音频时,基于所述情绪识别结果,生成所述待呈现虚拟对象的表情渲染数据;在播放所述待播放音频时,基于所述表情渲染数据渲染所述待呈现虚拟对象的表情。
在本申请实施例中,所述情绪应用模块,还用于当所述待识别信息为交互消息时,基于所述情绪识别结果确定交互情绪状态;当所述交互情绪状态为待审核情绪状态时,显示提示信息,其中,所述提示信息用于提示改变所述交互情绪状态。
本申请实施例提供一种用于基于情绪进行数据处理的电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例至少具有以下有益效果:在进行情绪预测的过程中,先通过当前的待识别信息预测出单轮的每种候选情绪对应的第一概率和当前的情绪所属方向,再基于当前的情绪所属方向确定由历史情绪向候选情绪跳转的第二概率,最后通过将第一概率和第二概率整合为候选情绪的目标概率,来获得最终的情绪识别结果,使得情绪识别结果不仅基于了单轮的预测结果,还结合历史情绪向候选情绪跳转的概率;从而,在情绪识别结果获取时所依据的数据在时空上是多样的,因此,能够提升情绪识别的准确度。
附图说明
图1是一种示例性的情绪识别流程示意图;
图2是一种示例性的特征获取流程示意图;
图3是本申请实施例提供的情绪处理***的架构示意图;
图4是本申请实施例提供的图3中的服务器的组成结构示意图;
图5是本申请实施例提供的数据处理方法的流程示意图一;
图6是本申请实施例提供的一种示例性的情绪跳转关系的示意图;
图7是本申请实施例提供的数据处理方法的流程示意图二;
图8是本申请实施例提供的数据处理方法的流程示意图三;
图9是本申请实施例提供的数据处理方法的流程示意图四;
图10是本申请实施例提供的一种示例性的情绪识别应用流程图;
图11是本申请实施例提供的一种示例性的生成虚拟人面部表情的示意图;
图12是本申请实施例提供的一种示例性的情绪识别的流程图;
图13是本申请实施例提供的一种示例性的深度模型的结构示意图;
图14是本申请实施例提供的一种示例性的状态机示意图;
图15是本申请实施例提供的一种示例性的确定最终结果的示意图;
图16是本申请实施例提供的一种示例性的情绪识别界面示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
3)人工神经网络,是一种模仿生物神经网络结构和功能的数学模型,本申请实施例中人工神经网络的示例性结构包括图卷积网络(Graph Convolutional Network,GCN,一种用于处理图结构的数据的神经网络)、深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)、神经状态机(Neural State Machine,NSM)和相位函数神经网络(Phase-Functioned Neural Network,PFNN)等。本申请实施例中所涉及的情绪预测模型和待训练预测模型等均为人工神经网络对应的模型。
需要说明的是,为了实现情绪识别,通常是直接对待识别信息进行情绪识别,以识别出当前所对应的情绪;由于上述情绪识别的过程中,直接对待识别信息进行情绪识别所依据的数据单一,因此,影响了情绪识别的准确度。
另外,当待识别信息为待识别音频时,为了实现情绪识别,还可以结合待识别信息的物理信息;参见图1,图1是一种示例性的情绪识别流程示意图;如图1所示,该示例性的情绪识别流程包括步骤101至步骤104,下面对各步骤分别进行说明。
步骤101、获取待识别音频的第一特征和第二特征。
需要说明的是,第一特征和第二特征的获取过程参见图2,图2是一种示例性的特征获取流程示意图;如图2所示,该示例性的特征获取流程包括步骤201和步骤202,其中,步骤201是指利用波形到向量模型(Wav2vec模型)从待识别音频中提取第一特征,步骤202是指以说话者分类模型从待识别音频中提取第二特征。这里,第一特征表征与待识别音频的波形有关的特征,第二特征表征与待识别音频的说话者有关的特征。
步骤102、将第一特征和第二特征输入语音情绪识别模型进行情绪类别识别,得到第一识别结果。
需要说明的是,通过第一特征和第二特征进行情绪特征解耦,并利用解耦得到的情绪特征进行情绪类别识别。
步骤103、利用文本情绪识别模型对待识别音频对应的文本内容进行文本识别,得到第二识别结果。
步骤104、对第一识别结果和第二识别结果进行加权处理,得到第三识别结果。
由于图1和图2中所描述的情绪识别是依据待识别音频识别出单轮情绪的过程,因此进行情绪识别时所依据的数据单一,影响了情绪识别的准确度。另外,虽然图1和图2中所描述的情绪识别结合了基于音频的物理信息所提取出的语音频谱特征和声纹特征(称为第一特征和第二特征)、以及文本内容,但由于音频的物理信息在情绪识别时的精度低于精度阈值,因此,仍然影响了情绪识别的准确度。
基于此,本申请实施例提供一种数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升情绪的识别准确度。下面说明本申请实施例提供的用于基于情绪进行数据处理的电子设备(以下简称为情绪处理设备)的示例性应用,本申请实施例提供的情绪处理设备可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端,也可以实施为服务器。下面,将说明情绪处理设备实施为服务器时的示例性应用。
参见图3,图3是本申请实施例提供的情绪处理***的架构示意图;如图3所示,为支撑一个情绪处理应用,在情绪处理***100中,终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器400,网络300可以是广域网或者局域网,又或者是二者的组合。另外,该情绪处理***100中还包括数据库500,用于向服务器400提供数据支持;并且,图3中示出的为数据库500独立于服务器400的一种情况,此外,数据库500还可以集成在服务器400中,本申请实施例对此不作限定。
终端200,用于通过网络300接收服务器400发送的待播放音频(称为待识别信息)和待呈现虚拟对象的表情渲染数据,以及在播放待播放音频时,在图形界面上(示例性示出了终端200-1中的图形界面210-1)显示对应的文本信息(比如“这怎么行?”),并基于表情渲染数据渲染待呈现虚拟对象的表情。或者,用于通过网络300向服务器400发送交互信息(称为待识别信息),并通过网络300接收服务器400发送的提示信息,在图形界面上(示例性示出了终端200-2中的图形界面210-2)呈现提示信息(比如,“请注意文明用语!”)。
服务器400,用于对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种候选情绪的第一概率,其中,当前情绪方向为待识别信息的情绪所属方向;基于当前情绪方向,从情绪跳转关系中确定每种候选情绪对应的第二概率,其中,情绪跳转关系表示历史情绪和候选情绪之间结合情绪方向进行跳转的概率;对第一概率和第二概率进行整合,得到候选情绪的目标概率;基于多种候选情绪中每种候选情绪对应的目标概率,确定待识别信息的情绪识别结果。还用于基于情绪识别结果,生成待呈现虚拟对象的表情渲染数据,通过网络300向终端200发送待播放音频和待呈现虚拟对象的表情渲染数据;或者,还用于通过网络300接收终端200发送的交互信息,结合情绪识别结果确定交互情绪状态,当交互情绪状态为待审核情绪状态时,通过网络300向终端200发送提示信息。
在一些实施例中,服务器400可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端200可以是智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备和智能音箱等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不作限制。
参见图4,图4是本申请实施例提供的图3中的服务器的组成结构示意图,图4所示的服务器400包括:至少一个处理器410、存储器450和至少一个网络接口420。终端400中的各个组件通过总线***440耦合在一起。可理解,总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线***440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***451,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的数据处理装置(以下简称为数据处理装置)可以采用软件方式实现,图4示出了存储在存储器450中的数据处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:情绪预测模块4551、跳转预测模块4552、概率整合模块4553、结果确定模块4554、关系获取模块4555和情绪应用模块4556,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,本申请实施例提供的数据处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Log ic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Dev ice)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的数据处理方法。举例来说,计算机程序可以是操作***中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作***中安装才能运行的程序,如直播APP、游戏APP、虚拟人APP或者即时通信APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面,将结合本申请实施例提供的情绪处理设备的示例性应用和实施,说明本申请实施例提供的数据处理方法。另外,本申请实施例提供的数据处理方法应用于云技术、人工智能、智慧交通、游戏和车载等各种情绪识别场景。
参见图5,图5是本申请实施例提供的数据处理方法的流程示意图一,将结合图5示出的步骤进行说明。
步骤501、对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种候选情绪的第一概率。
在本申请实施例中,当情绪处理设备获得了待进行情绪识别的对象时,也就触发了基于情绪的数据处理流程;其中,该待进行情绪识别的对象即为当前轮的待识别信息。这里,情绪处理设备在针对待识别信息进行基于情绪的数据处理时,先依据待识别信息自身进行情绪预测,此时,情绪处理设备能够通过对待识别信息进行情绪预测,获得多种候选情绪中的每种候选情绪所对应的概率,称为第一概率,还能够获得当前的情绪所属的方向,称为当前情绪方向。
需要说明的是,待识别信息可以是待识别音频(比如,一句话的音频等),还可以是待识别文本(比如,一句话的文本,一条信息等),又可以是上述两者的结合,等等,本申请实施例对此不作限定。情绪预测是指确定待识别信息所表达的情绪的处理,可以基于待识别信息的语义实现,也可以基于待识别信息的物理信息(比如,音频波形和音色等)实现,又可以是上述两者的结合,等等,本申请实施例对此不作限定。这里,情绪处理设备预先设定了多种候选情绪,每种候选情绪表示一种预设的情绪,比如,正常,愤怒,厌恶,低落,兴奋,喜悦,惊讶等。另外,第一概率表示待识别信息的情绪为每种候选情绪的可能性,且待识别信息的情绪为每种候选情绪的可能性与第一概率正相关;而当前情绪方向为历史情绪向当前时刻进行情绪跳转的方向,比如,正向(表示兴奋、喜悦、惊讶、以及微笑等正面情绪对应的方向),负向(表示愤怒、厌恶、悲伤、蔑视、反讽、以及生气等负面情绪对应的方向),空(表示无情绪)等。其中,情绪处理设备对待识别信息进行情绪预测,所获得的每种候选情绪的第一概率,是一种单轮的情绪预测结果。
示例性地,情绪处理设备对“你很优秀啊”(称为待识别信息)进行情绪预测,获得的结果为:正向(称为当前情绪方向);正常(0.01),愤怒(0.10),厌恶(0.50),低落(0.02),兴奋(0.70),喜悦(0.90),惊讶(0.80)(称为候选情绪的第一概率)。
步骤502、基于当前情绪方向,从情绪跳转关系中确定每种候选情绪对应的第二概率。
在本申请实施例中,情绪处理设备在进行基于情绪的数据处理时,不仅包括单轮情绪预测,还包括历史情绪跳转至候选情绪的概率的获取。这里,情绪处理设备在获取历史情绪跳转至候选情绪的概率时,是基于情绪跳转关系实现的;该情绪跳转关系可以是存储在情绪处理设备中的,也可以是情绪处理设备从其他设备(比如,数据库等存储设备)中获得的,又可以是从接收的信息(比如情绪识别请求)中获得的,等等,本申请实施例对此不作限定。其中,由于情绪跳转关系表示历史情绪和候选情绪之间结合情绪方向进行跳转的概率,因此,情绪处理设备基于历史情绪和当前情绪方向就能够确定向每种候选情绪跳转的概率,基于该确定的跳转的概率也就获得了第二概率,表示由历史情绪向该种候选情绪跳转的可能性,且由历史情绪向该种候选情绪跳转的可能性与第二概率正相关。
需要说明的是,历史情绪为当前轮之前所预测出的情绪,且历史情绪为待识别信息的上文信息的情绪,该上文信息为当前轮之前的情绪识别对象;这里,历史情绪可以是当前时刻之前的最近M(M为正整数)次所预测出的情绪;以及最近每次预测出的情绪可以是一种最优的情绪,也可以是多种筛选的情绪,本申请实施例对此不作限定;比如,厌恶;又比如,厌恶和愤怒等;其中,最优的情绪为历史预测出的多种情绪中概率最大的情绪,多种筛选的情绪为历史预测出的多种情绪中概率排序靠前的L种情绪,L为大于1的正整数。在情绪跳转关系中,包括每种历史预测的情绪到每种候选情绪、以及在每种情绪方向下的跳转概率;比如,当前一轮预测的情绪的种类为C1种,候选情绪的种类为C2种,情绪方向的种类为C3种,则情绪跳转关系最多包括C1*C2*C3种跳转关系;另外,情绪跳转关系中的每种跳转关系可以表示为四元组形式,包括一种历史预测的情绪,一种候选情绪,一种情绪方向,以及一个跳转概率,表示一种历史预测的情绪向一种情绪方向跳转时,跳转到一种候选情绪的跳转概率;易知,该四元组中历史预测的情绪,可以包括至少一轮历史预测的情绪。
示例性地,参见图6,图6是本申请实施例提供的一种示例性的情绪跳转关系的示意图;如图6所示,历史情绪包括情绪6-11至情绪6-13,情绪6-21至情绪6-24均为候选情绪,情绪方向6-31为当前情绪方向;情绪6-11至情绪6-13,情绪6-21至情绪6-24,以及情绪方向6-31和情绪方向6-32,所对应的为情绪跳转关系6-4。
步骤503、对第一概率和第二概率进行整合,得到候选情绪的目标概率。
在本申请实施例中,情绪处理设备针对每种候选情绪获得了第一概率和第二概率之后,对第一概率和第二概率进行整合,并将所获得的整合结果确定为候选情绪的最终概率,这里称为目标概率。
需要说明的是,情绪处理设备在将第一概率和第二概率整合为目标概率时,可以通过累加的方式,还可以通过加权求和的方式,又可以通过求平均值的方式,等等,本申请实施例对此不作限定。
步骤504、基于多种候选情绪中每种候选情绪对应的目标概率,确定待识别信息的情绪识别结果。
在本申请实施例中,情绪处理设备针对多种候选情绪,获得了每种候选情绪对应的目标概率之后,可以直接将多种候选情绪一一对应的多种目标概率确定为情绪识别结果,还可以基于阈值和数量等从多种候选情绪对应的目标概率的倒序排列中筛选出情绪识别结果,等等,本申请实施例对此不作限定。
需要说明的是,情绪识别结果表示待识别信息所表达的情绪,可以是一种最优的(即为可能性最大)候选情绪以及对应的目标概率,又可以是目标概率大于指定阈值的至少两种候选情绪以及分别对应的目标概率,又可以是所有候选情绪分别对应的目标概率。
可以理解的是,在进行情绪预测的过程中,先通过当前的待识别信息预测出单轮的每种候选情绪对应的第一概率和当前的情绪所属方向,再基于当前的情绪所属方向确定由历史情绪向候选情绪跳转的第二概率,最后通过将第一概率和第二概率整合为候选情绪的目标概率,来获得最终的情绪识别结果,使得情绪识别结果不仅基于了单轮的预测结果,还结合历史情绪向候选情绪跳转的概率;从而,在情绪识别结果获取时所依据的数据在时空上是多样的,因此,能够提升情绪识别的准确度。
参见图7,图7是本申请实施例提供的数据处理方法的流程示意图二;如图7所示,在本申请实施例中,步骤502之前还包括步骤505至步骤507;也就是说,情绪处理设备基于当前情绪方向,从情绪跳转关系中确定每种候选情绪对应的第二概率之前,该数据处理方法还包括步骤505至步骤507,下面对各步骤分别进行说明。
步骤505、获取情绪样本序列、以及情绪样本序列中每个情绪样本的情绪方向样本。
在本申请实施例中,情绪样本序列是指标注出的轮次连续的多个情绪样本,每个情绪样本是一种情绪,且是样本数据,也就是说,情绪样本是指样本数据的情绪;情绪方向样本是通过对每个情绪样本进行标注所获得的情绪所属方向,比如,正向,或负向,或空(表示无情绪)等;这里,情绪处理设备通过对多个连续的信息进行情绪和情绪方向的标注,也就获得了情绪样本序列、以及情绪样本序列中每个情绪样本的情绪方向样本。
步骤506、基于情绪样本序列、以及每个情绪样本的情绪方向样本,生成多个样本元组。
在本申请实施例中,情绪处理设备从情绪样本序列中选择两个相邻的情绪样本,也就获得了第N轮情绪样本和第N+1轮情绪样本;接着,情绪处理设备将第N轮情绪样本、第N+1轮情绪样本和第N+1轮情绪样本的情绪方向样本组合为一个样本元组,从而,情绪处理设备能够获得多个样本元组;因此,每个样本元组包括第N轮情绪样本、第N+1轮情绪样本和第N+1轮情绪样本的情绪方向样本,N为正整数。
步骤507、基于多个样本元组,统计相邻轮次的两个情绪样本之间针对情绪方向样本进行跳转的概率,其中,情绪跳转关系是基于历史情绪从统计结果中确定出的。
在本申请实施例中,情绪处理设备通过将多个样本元组作为样本数据,来统计相邻轮次的两个情绪样本之间针对情绪方向样本进行跳转的概率,最后也就获得了前一轮的所有情绪向后一轮的所有情绪结合情绪方向进行跳转的概率,称为统计结果。这里,由于历史情绪是已知的,因此,情绪处理设备基于历史情绪和当前情绪方向,从统计结果中筛选跳转关系,也就获得了情绪跳转关系。另外,统计结果可通过状态机表示,其中,状态机描述的是不同状态之间转化的关系;从而,当利用状态机表示统计结果时,可以将情绪样本作为状态机的节点,将情绪样本之间跳转的概率作为状态机的跳转弧的输出,而跳转的目标节点所对应的情绪方向样本为跳转弧的输入。
需要说明的是,情绪处理设备基于多个样本元组,统计相邻轮次的两个情绪样本之间针对情绪方向样本进行跳转的概率,可以先基于多个样本元组,统计出每种前一轮的情绪对应的所有跳转总量,再统计出每种前一轮的情绪结合每种情绪方向样本向后一轮的一种情绪跳转的子数量,最后将子数量与总量的比值确定为跳转的概率。
在本申请实施例中,还可以通过神经网络模型获得情绪跳转关系;此时,神经网络模型的输入为历史情绪、当前情绪方向和候选情绪,输出为第二概率。
参见图8,图8是本申请实施例提供的数据处理方法的流程示意图三;如图8所示,在本申请实施例中,步骤503可通过步骤5031至步骤5033实现,也就是说,情绪处理设备对第一概率和第二概率进行整合,得到候选情绪的目标概率,包括步骤5031至步骤5033,下面对各步骤分别进行说明。
步骤5031、获取与当前轮次负相关的第一整合权重、以及与当前轮次正相关的第二整合权重。
在本申请实施例中,当情绪处理设备通过加权求和的方式整合第一概率和第二概率时,可以采用固定的权重对第一概率和第二概率进行整合,还可以基于当前轮次,采用动态的权重对第一概率和第二概率进行整合,本申请实施例对此不作限定。当情绪处理设备采用动态的权重对第一概率和第二概率进行整合时,可以先确定当前轮次,基于当前轮次动态地确定整合权重,该当前轮次表示当前轮的预测次序,比如,1,4。
需要说明的是,第一整合权重与当前轮次负相关,而第二整合权重与当前轮次正相关;并且,第一整合权重和第二整合权重还可以是互斥的关系,比如两者之和为指定值(示例性地第一整合权重和第二整合权重的和为1)。
在本申请实施例中,情绪处理设备获取与当前轮次负相关的第一整合权重、以及与当前轮次正相关的第二整合权重,包括:情绪处理设备获取上一轮对应的上一第一整合权重,通过基于指定调整幅度调低该上一第一整合权重,来获得与当前轮次负相关第一整合权重;获取上一轮对应的上一第二整合权重,通过基于指定调整幅度调高该上一第二整合权重,来获得与当前轮次正相关第二整合权重。其中,不同预测轮的指定调整幅度可以相同,也可以不同,本申请实施例对此不作限定。以及,在当前轮为第一轮时,上一第一整合权重和上一第二整合权重均为指定权重值。
示例性地,在当前轮次为第1轮时,第一整合权重可以为0.3,第二整合权重可以为0.7;在当前轮次为第2轮时,第一整合权重可以为0.35,第二整合权重可以为0.65;在当前轮次为第3轮时,第一整合权重可以为0.38,第二整合权重可以为0.62;……轮次越靠后,第二概率的权重越大,第一概率的权重越小。
步骤5032、获取第一概率与第一整合权重的第一整合结果,并获取第二概率与第二整合权重的第二整合结果。
在本申请实施例中,情绪处理设备将第一概率与第一整合权重进行融合,也就获得了第一融合结果;比如,情绪处理设备将第一概率与第一整合权重的乘积确定为第一整合结果。以及,情绪处理设备将第二概率与第二整合权重进行融合,也就获得了第二融合结果;比如,情绪处理设备将第二概率与第二整合权重的乘积确定为第二整合结果。
步骤5033、将第一整合结果和第二整合结果的结合结果,确定为候选情绪的目标概率。
在本申请实施例中,情绪处理设备获得了第一整合结果和第二整合结果之后,将第一整合结果和第二整合结果结合起来,所获得的结合结果即为候选情绪的目标概率。比如,情绪处理设备将第一整合结果和第二整合结果的和确定为候选情绪的目标概率。
在本申请实施例中,情绪处理设备在获得第二概率时,如果针对候选情绪存在多个跳转路径时,情绪处理设备将多个跳转路径对应的多个路径概率整合为第二概率,并且,整合的过程还可以基于跳转路径中历史的情绪的概率,确定与跳转路径中历史的情绪的概率正相关的路径概率整合权重;以及,多个路径概率整合出的概率还可以基于跳转路径的数量进行调整,比如,调整方向与跳转路径的数量正相关,数量大于阈值时调高所整合的概率,数量小于阈值时调低所整合的概率。其中,跳转路径概率可以是该跳转路径中所有跳转概率的乘积。
在本申请实施例中,当情绪处理设备基于阈值和数量中的至少一种,从多种候选情绪分别对应的目标概率中筛选出情绪识别结果时,步骤504中情绪处理设备基于多种候选情绪中每种候选情绪对应的目标概率,确定情绪识别结果,包括:情绪处理设备基于目标概率对多种候选情绪进行倒序排列,得到待筛选情绪序列;并基于指定筛选参数,从待筛选情绪序列中筛选目标情绪序列;最后,将目标情绪序列、以及目标情绪序列中的每个目标情绪的目标概率,确定为情绪识别结果。
需要说明的是,指定筛选参数包括概率阈值参数和情绪数量参数中的一种或两种,以及指定筛选参数即为阈值和数量中的至少一种。这里,当指定筛选参数包括概率阈值参数时,情绪处理设备可以将目标概率大于概率阈值参数的所有候选情绪确定为目标情绪序列。当指定筛选参数包括情绪数量参数时,情绪处理设备可以确定情绪数量参数个最大的目标概率,并将分别对应的候选情绪组合为目标情绪序列。其中,概率阈值参数是一种指定的概率阈值,表示用于筛选候选情绪的最小概率,比如0.8;情绪数量参数是一种指定的数量阈值,表示用于筛选候选情绪的最大数量,比如,5。
在本申请实施例的步骤504之后,还包括情绪处理设备基于情绪识别结果确定后续的历史情绪的过程;也就是说,情绪处理设备基于多种候选情绪中每种候选情绪对应的目标概率,确定情绪识别结果之后,该数据处理方法还包括:情绪处理设备基于目标概率,从多种候选情绪的倒序排列中筛选指定数量的候选情绪;将指定数量的候选情绪,确定为当前候选情绪序列,其中,当前候选情绪序列用于确定下一轮预测的历史情绪。此时,情绪识别结果包括多种候选情绪、以及每种候选情绪所对应的目标概率。
需要说明的是,多种候选情绪的倒序排列即为前述的待筛选情绪序列。这里,情绪处理设备可以将多种候选情绪全部用于确定下一轮预测的历史情绪,还可以从多种候选情绪中筛选指定数量的候选情绪,来用于确定下一轮预测的历史情绪,本申请实施例对此不作限定。另外,指定数量可以与情绪数量参数相同,还可以不同,本申请实施例对此不作限定。
可以理解的是,情绪处理设备通过结合目标概率从多种候选情绪筛选指定数量的候选情绪,来确定下一轮预测的历史情绪的过程中,由于是基于目标概率从大到小筛选的,因此,在确保准确率的情况下减少了历史情绪的数量,从而,能够降低基于情绪的数据处理量,提升情绪识别效率。
在本申请实施例的步骤501中,情绪处理设备对待识别信息进行情绪预测,得到当前情绪方向,包括:情绪处理设备对待识别信息进行情绪预测,得到每种情绪方向对应的第三概率;并将第三概率最大的情绪方向,确定为基准情绪方向;以及将与基准情绪方向的第三概率之间的概率差低于概率差阈值的情绪方向,确定为待选择情绪方向;最后,将基准情绪方向和待选择情绪方向,确定为当前情绪方向。
需要说明的是,情绪处理设备在对待识别信息进行预测时,会预测出多种情绪方向中的每种情绪方向所对应的第三概率,其中,多种情绪方向是预设的,每种情绪方向可以对应至少一种候选情绪,比如,情绪方向正向对应的候选情绪包括兴奋、开心和喜欢等,情绪方向空对应的候选情绪包括正常,情绪方向负向对应的候选情绪包括愤怒、厌恶、低落和反讽等。接着,情绪处理设备基于第三概率,从多种情绪方向的倒序排列中选择第三概率最大的情绪方向,称为基准情绪方向,并将基准方向直接确定为当前情绪方向;或者,继续在多种情绪方向的倒序排列中进行判断,以判断出是否包括与基准情绪方向的第三概率之间的概率差低于概率差阈值(比如,0.001)的情绪方向,称为待选择情绪方向,并且,在判断结果为是时,将待选择情绪方向与基准情绪方向共同作为当前情绪方向。
示例性地,情绪处理设备通过对待识别信息进行情绪预测,获得的每种情绪方向所对应的第三概率为:正向(0.9),空(0.01),负向(0.89),当概率差阈值为0.001时,基准情绪方向为正向,待选择情绪方向为负向,从而当前情绪方向包括正向和负向。
参见图9,图9是本申请实施例提供的数据处理方法的流程示意图四;如图9所示,在本申请实施例中,步骤501可通过步骤5011至步骤5013实现;也就是说,情绪处理设备对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种候选情绪的第一概率,包括步骤5011至步骤5013下面对各步骤分别进行说明。
步骤5011、基于当前轮的待识别信息,提取语义字符串序列。
在本申请实施例中,当情绪处理设备基于语义对待识别信息进行情绪预测时,先对待识别信息进行语义提取,也就提取出了语义字符串序列。这里,情绪处理设备可以基于预设的语义字符串表对待识别信息进行语义提取,以过滤掉无语义的字符和字符串等信息。其中,当待识别信息为文本格式的信息时,情绪处理设备直接从待识别信息中提取语义字符串,并将提取出的各个语义字符串组合为语音字符串序列。当待识别信息为待识别音频时,情绪处理设备基于待识别信息,提取出语义字符串序列,包括:情绪处理设备先对当前轮的待识别音频进行文本识别,得到待识别文本;再从待识别文本中提取各个语义字符串;最后,对各个语义字符串组合为语义字符串序列。其中,语义字符串序列中的每个语义字符串用于表示情绪语义。
需要说明的是,文本识别用于将音频等非文本形式的信息转化为文本形式的信息,可以通过预设的自动语音识别(Automatic Speech Recognition,ASR)***实现。
步骤5012、对语义字符串序列进行特征提取,得到待预测特征。
在本申请实施例中,情绪处理设备获得了语义字符串之后,对该语义字符串进行特征提取,也就获得了待预测特征。这里,情绪处理设备可以先对语义字符串序列进行向量表示,并对向量表示结果进行嵌入式表示,此时,所获得的嵌入式表示结果即为待预测特征。其中,特征提取包括向量表示和嵌入式表示。
步骤5013、对待预测特征进行语义情绪预测,得到当前情绪方向、以及多种候选情绪中每种候选情绪的第一概率。
在本申请实施例中,情绪处理设备基于待预测特征进行细分类的语义情绪预测,也就获得了多种候选情绪中每种候选情绪的第一概率;情绪处理设备基于待预测特征进行粗分类的语义情绪预测,能够获得当前情绪方向。其中,细分类的语义情绪预测的类别粒度,比粗分类的语义情绪预测的类别粒度要细。
在本申请实施例中,特征提取和语义情绪预测可通过情绪预测模型实现,其中,情绪预测模型通过以下步骤训练获得:获取识别信息样本,并获取识别信息样本对应的情绪标签和情绪方向标签;基于待训练预测模型,对识别信息样本进行情绪预测,得到情绪预测概率和情绪方向预测概率,其中,待训练预测模型为待训练的用于进行情绪预测的网络模型;结合情绪预测概率和情绪标签之间的差异、以及情绪方向预测概率与情绪方向标签之间的差异,训练待训练预测模型,得到情绪预测模型。其中,情绪预测模型用于对待识别信息进行基于语义的情绪预测,预测结果包括候选情绪的第一概率和情绪方向的第三概率;情绪标签实际的情绪,是一种标注信息;情绪方向标签是实际的情绪方向,是一种标注信息。
在本申请实施例中,情绪处理设备中包括待训练预测模型,或者情绪处理设备能够从其他设备(比如,预训练设备,存储设备等)获得待训练预测模型;从而,情绪处理设备在获得了识别信息样本之后,利用识别信息样本对待训练预测模型进行模型训练;在模型训练过程中,情绪处理设备将情绪预测概率和情绪标签之间的差异、以及情绪方向预测概率与情绪方向标签之间的差异进行结合,来获得模型训练的损失函数值,进而基于该损失函数值在待训练预测模型中进行反向传播,以对待训练预测模型中的参数进行调整,进而实现对待训练预测模型的训练。
还需要说明的是,待训练预测模型的训练可以迭代进行,当满足训练结束条件时结束训练,得到情绪预测模型;这里,训练结束条件可以是达到准确度指标阈值,也可以是达到训练次数阈值,还可以是达到训练时长阈值,又可以是以上的结合,等等,本申请实施例对此不作限定。
在本申请实施例的步骤504之后还包括基于情绪识别结果进行应用的过程。比如,可以应用在虚拟对象的表情渲染中,还可以应用在交互消息的信息检测中。当情绪处理设备将情绪识别结果应用在虚拟对象的表情渲染中时,待识别信息为待呈现虚拟对象的待播放音频;此时,情绪处理设备基于情绪识别结果,生成待呈现虚拟对象的表情渲染数据;并在播放待播放音频时,基于表情渲染数据渲染待呈现虚拟对象的表情。
需要说明的是,表情渲染数据可以是基于情绪识别结果中候选情绪的目标概率确定的表情值;情绪处理设备在获得了表情渲染数据之后,可以在播放待播放音频时,基于表情渲染数据渲染出虚拟对象的表情,实现音频的播放与虚拟对象的表情的同步。
在本申请实施例中,当情绪处理设备将情绪识别结果应用在交互消息的信息检测时,待识别信息为交互消息;此时,情绪处理设备基于情绪识别结果确定交互情绪状态;并当交互情绪状态为待审核情绪状态时,显示提示信息,其中,提示信息用于提示改变交互情绪状态;而当交互情绪状态为预设的正常状态时,不显示提示信息。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了通过情绪识别实现虚拟人(称为待呈现虚拟对象)面部表情生成的过程。
参见图10,图10是本申请实施例提供的一种示例性的情绪识别应用流程图;如图10所示,在该示例性的情绪识别应用过程中,先接收输入的音频或文本10-1(称为待识别信息),接着结合历史情绪10-4,对音频或文本10-1进行情绪识别,得到情绪10-2(称为情绪识别结果);最后,基于情绪10-2确定虚拟人面部表情10-3,并将情绪10-2更新至历史情绪10-4中。
其中,基于情绪10-2确定虚拟人面部表情10-3的描述参见图11,图11是本申请实施例提供的一种示例性的生成虚拟人面部表情的示意图;如图11所示,通过图10中的情绪10-2,在页面11-1的控件区域11-11中调整各个控件的值,也就完成了虚拟人面部表情的生成。
下面以接收到的待识别信息为音频(又称为当前音频)为例说明情绪识别的过程。
参见图12,图12是本申请实施例提供的一种示例性的情绪识别的流程图;如图12所示,该示例性的情绪识别过程中,对当前音频12-1进行文本处理,得到文本分词序列12-2(称为语义字符串序列);接着利用深度模型12-3(称为情绪预测模型)对文本分词序列12-2进行单轮情绪预测,得到单轮情绪预测结果12-4(称为当前情绪方向和每种候选情绪对应的第一概率)。再接着基于已获得的历史情绪12-5和状态机12-6、以及单轮情绪预测结果12-4进行多轮情绪预测,得到历史情绪预测结果12-7。再后,通过对历史情绪预测结果12-7和单轮情绪预测结果12-4进行连续搜索,得到最优情绪12-8,该最优情绪12-8即为图10中的情绪10-2。
需要说明的是,对当前音频12-1进行文本处理的过程中,由于当前音频12-1为音频形式,从而文本处理包括音频转换成文本、以及预处理,其中,预处理又包括分词和序列化。音频转换成文本是指利用ASR(是一种将语音转换为文本的技术)对当前音频12-1进行文本识别,得到当前音频12-1对应的文本。分词是指利用预设的语义词表(称为语义字符串表)对文本进行分词,以去除语义词表之外的字符(包括无语义的停顿词)。序列化是指将分词结果转化成文本分词序列12-2的过程。
单轮情绪预测结果12-4的内容包括显式情绪状态(称为多种候选情绪)对应的概率分布和隐式情绪状态(称为多种情绪方向)对应的概率分布两部分;其中,显式情绪状态表示情绪明确类别,隐式情绪状态表示情绪变化方向;比如为表1所示。
表1
名称 | 说明 |
显式情绪状态 | 正常、愤怒、厌恶、低落、兴奋、喜悦、惊讶 |
隐式情绪状态 | 正常、正向、负向 |
深度模型12-3包括嵌入(Embedding)层、编码(Encoding)层、显态多层感知机(Multilayer Perceptron,MLP)层和隐态多层感知机层,对应的输入特征和输出特征如表2所示。
表2
模型层 | 输入特征 | 输出特征 |
嵌入层 | 文本分词序列 | 语义向量序列 |
编码层 | 语义向量序列 | 特征提取的向量 |
显态MLP层 | 特征提取的向量 | 显态情绪预测分布 |
隐态MLP层 | 特征提取的向量 | 隐态情绪预测分布 |
参见图13,图13是本申请实施例提供的一种示例性的深度模型的结构示意图;如图13所示,稀疏特征(Sparse Features)13-1为文本分词序列,稀疏特征13-1经过嵌入层13-2之后,得到向量表示13-3;然后,一个分支中,向量表示13-3依次经过编码层13-41和显态多层感知机层13-51(Output Layer,比如,Softmax层)之后,得到显式情绪状态的预测信息13-91(称为概率分布);另一个分支中,向量表示13-3依次经过编码层13-42和隐态多层感知机层13-52之后,得到隐式情绪状态的预测信息13-92(称为概率分布)。其中,编码层13-41包括模块13-411、自注意力层13-412、模块13-413、归一化层(Layer Norm)13-414、前馈层13-415和归一化层13-416;编码层13-42包括模块13-421、自注意力层13-422、模块13-423、归一化层13-424、前馈层13-425和归一化层13-426;并且,模块13-411和模块13-421的输出结果分别还用于与位置编码(Positional Encoding)结合,自注意力层13-412和自注意力层13-422为同一模块,归一化层13-414和归一化层13-424为同一模块,归一化层13-416和归一化层13-426共享模型参数。
从而,单轮情绪预测结果12-4的获取过程如表3所示。
表3
接下来说明多轮情绪预测过程。
需要说明的是,多轮情绪预测通过序列预测模型实现,序列预测模型用于预测Sn+hn+1→Sn+1的概率分布;其中,S表示显式情绪,h表示隐式情绪,n表示上一轮,n+1表示当前轮;可通过式(1)描述,式(1)如下所示:
P(Sn+1|Sn+1∈S)=P_trans(Sn,hn+1|Sn∈S,hn+1∈h) (1);
其中,P(Sn+1|Sn+1∈S)=P_trans(Sn,hn+1|Sn∈S,hn+1∈h)表示基于Sn,hn+1预测出的显式情绪状态Sn+1的概率(称为第二概率)。比如,当Sn为“正常”,hn+1为“正向”时,预测出Sn+1为“兴奋”的概率为0.9,预测出Sn+1为“开心”的概率为0.8,预测出Sn+1为“悲伤”的概率为0.02等。
在本申请实施例的中,针对训练好的显式情绪状态和隐式情绪状态的序列预测模型,通过将显式情绪状态作为节点,将隐式情绪状态作为跳转弧的输入,以及将预测出的概率作为为跳转弧的输出,来获得状态机。
参见图14,图14是本申请实施例提供的一种示例性的状态机示意图;如图14所示,示出了状态机14-1;其中,状态机14-1中包括11个情绪节点(情绪节点14-21至情绪节点14-211)和12个跳转弧(跳转弧14-31至跳转弧14-312)。这里以情绪节点14-21和跳转弧14-31为例进行说明。情绪节点14-21表示开始的情绪节点,表示的显式情绪状态S为兴奋;跳转弧14-31表示在情绪方向h为正时,由情绪节点14-21向情绪节点14-22跳转的概率为0.9。
需要说明的是,在状态机中,显式情绪状态为节点,隐式情绪状态为跳转弧的输入,预测出的概率为跳转弧的输出;以及,在状态机中,针对任一个节点Sn,遍历以节点Sn为出发点的跳转弧,当跳转弧到达节点Sn+1时,该跳转弧对应的输入为hn+1,输出为概率wn+1。从而,基于前一轮的节点Sn和转弧的输入hn+1,能够获得至少一个序列预测结果,其中,少一个序列预测结果比如为式(2)所示。
S(正常)+h(正向)->[S(兴奋):0.9,S(开心):0.8,S(悲伤):0.02,..] (2);
至此,已获得了单轮情绪预测结果9-4和至少一个序列预测结果;这里,利用连续序列预测方式(比如,Beam Search算法)将单轮情绪预测结果9-4和至少一个序列预测结果结合起来,计算出最优预测结果。
需要说明的是,连续序列预测方式的实现过程如表4所示。
表4
示例性地,参见图15,图15是本申请实施例提供的一种示例性的确定最终结果的示意图;如图15所示,描述了在t0至t5轮的的预测中确定当前轮对应的最优情绪的过程。其中,在t1轮预测时,基于显式情绪状态S0向t1轮的每个显式情绪状态(栈中的S11至S15)的跳转概率,以及深度模型预测出的每个显式情绪状态的概率,综合计算出每个显式情绪状态的最终概率(称为目标概率),进而基于该最终概率确定t1轮的情绪识别结果,比如,最优情绪为显式情绪状态S11。在t2轮预测时,基于显式情绪状态S11至S15向t2轮的每个显式情绪状态(栈中的S21至S25)的跳转概率,以及深度模型预测出的每个显式情绪状态的概率,综合计算出每个显式情绪状态的最终概率,进而基于该最终概率确定t2轮的情绪识别结果;比如,最优情绪为显式情绪状态S21,此时,由于S21是由S12跳转来的,因此可以将t1轮的最优情绪修正为显式情绪状态S11。以此类推,预测出t3轮的最优情绪为显式情绪状态S31,t4轮的最优情绪为显式情绪状态S41,t5轮的最优情绪为显式情绪状态S5。从而,得到如路径15-1所示的最优情绪跳转关系。
下面,将说明本申请实施例在另一个实际的应用场景中的示例性应用。该示例性应用描述了通过情绪识别检测游戏场景中玩家情绪的过程。
参见图16,图16是本申请实施例提供的一种示例性的情绪识别界面示意图;如图16所示,消息界面16-1描述的为游戏对局内的聊天场景,包括消息框16-11和对局场景16-12;通过消息框16-11中的消息输入框获得了聊天消息(称为交互消息)16-111(“你就是个…”)时,通过本申请实施例提供的数据处理方法对该聊天消息16-111进行情绪识别,当确定识别结果表示当前玩家情绪为预设的情绪(比如,愤怒等引发舆情的情绪)时,也就确定当前玩家的情绪状态为待审核情绪状态,从而显示提示信息16-112(“请注意文明用语!”),以缓解当前玩家情绪。其中,通过本申请实施例提供的数据处理方法对该聊天消息16-111进行情绪识别的过程,与图12至图15对应的描述类似,本申请实施例在此不再赘述。
可以理解的是,本申请实施例实现了显式情绪状态预测和隐式情绪状态的预测,并且还将隐式情绪状态联合状态机,实现结合历史情绪状态综合预测当前最优情绪状态的过程,提升了情绪预测的准确性;且实现了情绪预测的平滑和连续性。
下面继续说明本申请实施例提供的数据处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图4所示,存储在存储器450的数据处理装置455中的软件模块可以包括:
情绪预测模块4551,用于对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,其中,所述当前情绪方向为所述待识别信息的情绪所属方向,所述候选情绪为预先设定的情绪类型;
跳转预测模块4552,用于基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率,其中,所述情绪跳转关系表示历史情绪和所述候选情绪之间结合情绪方向进行跳转的概率,所述历史情绪为所述当前轮之前所预测出的情绪;
概率整合模块4553,用于对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率;
结果确定模块4554,用于基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果。
在本申请实施例中,所述数据处理装置455还包括关系获取模块4555,用于获取多个情绪样本序列、以及所述情绪样本序列中每个情绪样本的情绪方向样本,其中,所述情绪样本序列是指标注出的轮次连续的N个所述情绪样本,N为正整数;基于多个所述情绪样本序列、以及每个所述情绪样本的所述情绪方向样本,生成多个样本元组序列,其中,所述样本元组序列包括多个样本元组,所述样本元组包括第n轮所述情绪样本、第n+1轮所述情绪样本和第n+1轮所述情绪样本的所述情绪方向样本,n∈N-1;基于多个所述样本元组序列,统计相邻轮次的两个所述情绪样本之间针对所述情绪方向样本进行跳转的概率,其中,所述情绪跳转关系是基于所述历史情绪从统计结果中确定出的。
在本申请实施例中,所述概率整合模块4553,还用于获取与当前轮次负相关的第一整合权重、以及与所述当前轮次正相关的第二整合权重,其中,所述当前轮次表示当前轮的预测次序;获取所述第一概率与所述第一整合权重的第一整合结果;获取所述第二概率与所述第二整合权重的第二整合结果;将所述第一整合结果和所述第二整合结果的结合结果,确定为所述候选情绪的所述目标概率。
在本申请实施例中,所述结果确定模块4554,还用于基于所述目标概率对多种所述候选情绪进行倒序排列,得到待筛选情绪序列;基于指定筛选参数,从所述待筛选情绪序列中筛选目标情绪序列,其中,所述指定筛选参数包括概率阈值参数和情绪数量参数中的一种或两种;将所述目标情绪序列、以及所述目标情绪序列中每个目标情绪的所述目标概率,确定为所述情绪识别结果。
在本申请实施例中,所述结果确定模块4554,还用于基于所述目标概率,从多种所述候选情绪的倒序排列中筛选指定数量的所述候选情绪;将所述指定数量的所述候选情绪,确定为当前候选情绪序列,其中,所述当前候选情绪序列用于确定下一轮预测的所述历史情绪。
在本申请实施例中,所述情绪预测模块4551,还用于对当前轮的所述待识别信息进行情绪预测,得到每种所述情绪方向对应的第三概率;将所述第三概率最大的所述情绪方向,确定为基准情绪方向;将与第三基准概率之间的概率差低于概率差阈值的所述情绪方向,确定为待选择情绪方向,其中,所述第三基准概率是指所述基准情绪方向的所述第三概率;将所述基准情绪方向和所述待选择情绪方向,确定为所述当前情绪方向。
在本申请实施例中,所述情绪预测模块4551,还用于基于当前轮的所述待识别信息,提取语义字符串序列,其中,所述语义字符串序列中的每个语义字符串用于表示情绪语义;对所述语义字符串序列进行特征提取,得到待预测特征;对所述待预测特征进行语义情绪预测,得到所述当前情绪方向、以及多种所述候选情绪中每种所述候选情绪的所述第一概率。
在本申请实施例中,所述特征提取和所述语义情绪预测通过情绪预测模型实现,其中,所述情绪预测模型通过以下步骤训练获得:获取识别信息样本,并获取所述识别信息样本对应的情绪标签和情绪方向标签;基于待训练预测模型,对所述识别信息样本进行情绪预测,得到情绪预测概率和情绪方向预测概率,其中,所述待训练预测模型为待训练的用于进行情绪预测的网络模型;结合所述情绪预测概率和所述情绪标签之间的差异、以及所述情绪方向预测概率与所述情绪方向标签之间的差异,训练所述待训练预测模型,得到所述情绪预测模型。
在本申请实施例中,所述情绪预测模块4551,还用于对当前轮的所述待识别音频进行文本识别,得到待识别文本;从所述待识别文本中提取各个所述语义字符串;对各个所述语义字符串进行组合,得到所述语义字符串序列。
在本申请实施例中,所述数据处理装置455还包括情绪应用模块4556,用于当所述待识别信息为待呈现虚拟对象的待播放音频时,基于所述情绪识别结果,生成所述待呈现虚拟对象的表情渲染数据;在播放所述待播放音频时,基于所述表情渲染数据渲染所述待呈现虚拟对象的表情。
在本申请实施例中,所述情绪应用模块4555,还用于当所述待识别信息为交互消息时,基于所述情绪识别结果确定交互情绪状态;当所述交互情绪状态为待审核情绪状态时,显示提示信息,其中,所述提示信息用于提示改变所述交互情绪状态。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。情绪处理设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该情绪处理设备执行本申请实施例上述的数据处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据处理方法,例如,如图5示出的数据处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行(此时,这一个电子设备即为情绪处理设备),或者在位于一个地点的多个电子设备上执行(此时,位于一个地点的多个电子设备即为情绪处理设备),又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行(此时,分布在多个地点且通过通信网络互连的多个电子设备即为情绪处理设备)。
可以理解的是,在本申请实施例中,涉及到交互信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
综上所述,本申请实施例在进行情绪预测的过程中,先通过当前的待识别信息预测出单轮的每种候选情绪对应的第一概率和当前的情绪所属方向,再基于当前的情绪所属方向确定由历史情绪向候选情绪跳转的第二概率,最后通过将第一概率和第二概率整合为候选情绪的目标概率,来获得最终的情绪识别结果,使得情绪识别结果不仅基于了单轮的预测结果,还结合历史情绪向候选情绪跳转的概率;从而,在情绪识别结果获取时所依据的数据在时空上是多样的,因此,能够提升情绪识别的准确度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,其中,所述当前情绪方向为所述待识别信息的情绪所属方向,所述候选情绪为预先设定的情绪;
基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率,其中,所述情绪跳转关系表示历史情绪和所述候选情绪之间结合情绪方向进行跳转的概率,所述历史情绪为所述当前轮之前所预测出的情绪;
对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率;
基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率之前,所述方法还包括:
获取多个情绪样本序列、以及所述情绪样本序列中每个情绪样本的情绪方向样本,其中,所述情绪样本序列是指标注出的轮次连续的N个所述情绪样本,N为正整数;
基于多个所述情绪样本序列、以及每个所述情绪样本的所述情绪方向样本,生成多个样本元组序列,其中,所述样本元组序列包括多个样本元组,所述样本元组包括第n轮所述情绪样本、第n+1轮所述情绪样本和第n+1轮所述情绪样本的所述情绪方向样本,n∈N-1;
基于多个所述样本元组序列,统计相邻轮次的两个所述情绪样本之间针对所述情绪方向样本进行跳转的概率,其中,所述情绪跳转关系是基于所述历史情绪从统计结果中确定出的。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率,包括:
获取与当前轮次负相关的第一整合权重、以及与所述当前轮次正相关的第二整合权重,其中,所述当前轮次表示当前轮的预测次序;
获取所述第一概率与所述第一整合权重的第一整合结果;
获取所述第二概率与所述第二整合权重的第二整合结果;
将所述第一整合结果和所述第二整合结果的结合结果,确定为所述候选情绪的所述目标概率。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果,包括:
基于所述目标概率对多种所述候选情绪进行倒序排列,得到待筛选情绪序列;
基于指定筛选参数,从所述待筛选情绪序列中筛选目标情绪序列,其中,所述指定筛选参数包括概率阈值参数和情绪数量参数中的一种或两种;
将所述目标情绪序列、以及所述目标情绪序列中每个目标情绪的所述目标概率,确定为所述待识别信息的所述情绪识别结果。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率之后,所述方法还包括:
基于所述目标概率,从多种所述候选情绪的倒序排列中筛选指定数量的所述候选情绪;
将所述指定数量的所述候选情绪,确定为当前候选情绪序列,其中,所述当前候选情绪序列用于确定下一轮预测的所述历史情绪。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述对当前轮的待识别信息进行情绪预测,得到当前情绪方向,包括:
对当前轮的所述待识别信息进行情绪预测,得到每种所述情绪方向对应的第三概率;
将所述第三概率最大的所述情绪方向,确定为基准情绪方向;
将与第三基准概率之间的概率差低于概率差阈值的所述情绪方向,确定为待选择情绪方向,其中,所述第三基准概率是指所述基准情绪方向的所述第三概率;
将所述基准情绪方向和所述待选择情绪方向,确定为所述当前情绪方向。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,包括:
基于当前轮的所述待识别信息,提取语义字符串序列,其中,所述语义字符串序列中的每个语义字符串用于表示情绪语义;
对所述语义字符串序列进行特征提取,得到待预测特征;
对所述待预测特征进行语义情绪预测,得到所述当前情绪方向、以及多种所述候选情绪中每种所述候选情绪的所述第一概率。
8.根据权利要求7所述的方法,其特征在于,所述特征提取和所述语义情绪预测通过情绪预测模型实现,其中,所述情绪预测模型通过以下步骤训练获得:
获取识别信息样本,并获取所述识别信息样本对应的情绪标签和情绪方向标签;
基于待训练预测模型,对所述识别信息样本进行情绪预测,得到情绪预测概率和情绪方向预测概率,其中,所述待训练预测模型为待训练的用于进行情绪预测的网络模型;
结合所述情绪预测概率和所述情绪标签之间的差异、以及所述情绪方向预测概率与所述情绪方向标签之间的差异,训练所述待训练预测模型,得到所述情绪预测模型。
9.根据权利要求7所述的方法,其特征在于,当所述待识别信息为待识别音频时,所述基于当前轮的所述待识别信息,提取语义字符串序列,包括:
对当前轮的所述待识别音频进行文本识别,得到待识别文本;
从所述待识别文本中提取各个所述语义字符串;
对各个所述语义字符串进行组合,得到所述语义字符串序列。
10.根据权利要求1至3任一项所述的方法,其特征在于,所述基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果之后,所述方法还包括:
当所述待识别信息为待呈现虚拟对象的待播放音频时,基于所述情绪识别结果,生成所述待呈现虚拟对象的表情渲染数据;
在播放所述待播放音频时,基于所述表情渲染数据渲染所述待呈现虚拟对象的表情。
11.根据权利要求1至3任一项所述的方法,其特征在于,所述基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果之后,所述方法还包括:
当所述待识别信息为交互消息时,基于所述情绪识别结果确定交互情绪状态;
当所述交互情绪状态为待审核情绪状态时,显示提示信息,其中,所述提示信息用于提示改变所述交互情绪状态。
12.一种数据处理装置,其特征在于,所述数据处理装置包括:
情绪预测模块,用于对当前轮的待识别信息进行情绪预测,得到当前情绪方向、以及多种候选情绪中每种所述候选情绪的第一概率,其中,所述当前情绪方向为所述待识别信息的情绪所属方向,所述候选情绪为预先设定的情绪类型;
跳转预测模块,用于基于所述当前情绪方向,从情绪跳转关系中确定每种所述候选情绪对应的第二概率,其中,所述情绪跳转关系表示历史情绪和所述候选情绪之间结合情绪方向进行跳转的概率,所述历史情绪为所述当前轮之前所预测出的情绪;
概率整合模块,用于对所述第一概率和所述第二概率进行整合,得到所述候选情绪的目标概率;
结果确定模块,用于基于多种所述候选情绪中每种所述候选情绪对应的所述目标概率,确定所述待识别信息的情绪识别结果。
13.一种基于情绪进行数据处理的电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至11任一项所述的数据处理方法。
14.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至11任一项所述的数据处理方法。
15.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的数据处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211351904.XA CN117953919A (zh) | 2022-10-31 | 2022-10-31 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
PCT/CN2023/120056 WO2024093557A1 (zh) | 2022-10-31 | 2023-09-20 | 一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
US18/598,056 US20240212705A1 (en) | 2022-10-31 | 2024-03-07 | Data processing method and apparatus, electronic device, computer-readable storage medium, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211351904.XA CN117953919A (zh) | 2022-10-31 | 2022-10-31 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953919A true CN117953919A (zh) | 2024-04-30 |
Family
ID=90798743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211351904.XA Pending CN117953919A (zh) | 2022-10-31 | 2022-10-31 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240212705A1 (zh) |
CN (1) | CN117953919A (zh) |
WO (1) | WO2024093557A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346436B (zh) * | 2017-08-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 语音情感检测方法、装置、计算机设备及存储介质 |
CN110866112A (zh) * | 2018-08-14 | 2020-03-06 | 阿里巴巴集团控股有限公司 | 一种响应顺序确定方法、服务器和终端设备 |
JP7230545B2 (ja) * | 2019-02-04 | 2023-03-01 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN111816211B (zh) * | 2019-04-09 | 2023-06-02 | Oppo广东移动通信有限公司 | 情绪识别方法、装置、存储介质及电子设备 |
CN113051427A (zh) * | 2019-12-10 | 2021-06-29 | 华为技术有限公司 | 一种表情制作方法和装置 |
CN112053205A (zh) * | 2020-08-21 | 2020-12-08 | 北京云迹科技有限公司 | 通过机器人情绪识别的产品推荐方法及装置 |
CN114282549B (zh) * | 2021-08-06 | 2024-07-12 | 腾讯科技(深圳)有限公司 | 信息间根因关系的识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-31 CN CN202211351904.XA patent/CN117953919A/zh active Pending
-
2023
- 2023-09-20 WO PCT/CN2023/120056 patent/WO2024093557A1/zh unknown
-
2024
- 2024-03-07 US US18/598,056 patent/US20240212705A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240212705A1 (en) | 2024-06-27 |
WO2024093557A1 (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086329B (zh) | 基于话题关键词引导的进行多轮对话方法及装置 | |
CN109977212B (zh) | 对话机器人的回复内容生成方法和终端设备 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN110245221B (zh) | 训练对话状态跟踪分类器的方法和计算机设备 | |
CN110263324A (zh) | 文本处理方法、模型训练方法和装置 | |
US20100049513A1 (en) | Automatic conversation system and conversation scenario editing device | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
US11200885B1 (en) | Goal-oriented dialog system | |
CN113505198B (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
WO2021000403A1 (zh) | 智能对话***的语音匹配方法、电子装置、计算机设备 | |
CN115293132B (zh) | 虚拟场景的对话处理方法、装置、电子设备及存储介质 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN114911932A (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
Li et al. | A deep reinforcement learning framework for Identifying funny scenes in movies | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN113704419A (zh) | 对话处理方法及装置 | |
CN113838448A (zh) | 一种语音合成方法、装置、设备及计算机可读存储介质 | |
CN117216544A (zh) | 模型训练方法、自然语言处理方法、装置及存储介质 | |
CN117494761A (zh) | 信息处理及模型训练方法、装置、设备、介质、程序产品 | |
CN112885338B (zh) | 语音识别方法、设备、计算机可读存储介质及程序产品 | |
Pan et al. | Conv-coa: Improving open-domain question answering in large language models via conversational chain-of-action | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及*** | |
CN117953919A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |