CN113241095A - 通话情绪实时识别方法、装置、计算机设备及存储介质 - Google Patents

通话情绪实时识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113241095A
CN113241095A CN202110706524.2A CN202110706524A CN113241095A CN 113241095 A CN113241095 A CN 113241095A CN 202110706524 A CN202110706524 A CN 202110706524A CN 113241095 A CN113241095 A CN 113241095A
Authority
CN
China
Prior art keywords
emotion
voice
speech
output quantity
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110706524.2A
Other languages
English (en)
Other versions
CN113241095B (zh
Inventor
曹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110706524.2A priority Critical patent/CN113241095B/zh
Publication of CN113241095A publication Critical patent/CN113241095A/zh
Application granted granted Critical
Publication of CN113241095B publication Critical patent/CN113241095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种通话情绪实时识别方法、装置、计算机设备及存储介质,使用情绪识别模型对多个滑动窗长进行验证,确定了最合适切分语音的目标滑动窗长,从而使用目标滑动窗长对用户通话语音进行采样得到最小颗粒度的用于分析用户情绪的通话语音片段,根据多个通话语音片段的语音输出量确定了基准情绪值,基准情绪值是根据用户的通话语音动态计算得到的,如此,不同的用户的通话语音计算得到的基准情绪值不同,基准情绪值的确定更具有参考意义,以基准情绪值为参考标准对用户的情绪进行实时分析,更为客观和准确。本发明适用于轮次对话场景中动态情绪波动的分析,而非简单统计用户的情绪值。

Description

通话情绪实时识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种通话情绪实时识别方法、装置、计算机设备及存储介质。
背景技术
目前,大部分行业如银行、通信行业等,在客服人员和用户电话沟通过程中,用户的情绪识别非常重要,通过情绪能够预测用户的意图,以及时调整沟通客服人员的沟通方式。此外,明确的情绪本身也可以作为意图进行针对性应对。
现有技术中,基于通话录音提取用户的语速特征,并根据语速特征识别用户的情绪。然而,当用户的语速特征不明显时,无法准确的识别到用户的情绪。
发明内容
鉴于以上内容,有必要提出一种通话情绪实时识别方法、装置、计算机设备及存储介质,能够实时动态且准确的分析用户的情绪。
本发明的第一方面提供一种通话情绪实时识别方法,所述方法包括:
设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段;
针对每个滑动窗长,使用情绪识别模型识别所述多个训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长;
根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本;
确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量;
根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量;
基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值;
根据所述基准情绪值及所述实时情绪值分析用户情绪。
在一个可选的实施方式中,所述根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和多个第二语音输出量包括:
计算第二个通话语音片段的语音输出量与第一个通话语音片段的语音输出量的第一语音输出量幅度差值;
计算所述第二个通话语音片段的语速与所述第一个通话语音片段的语速的第一语速幅度差值;
当所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值小于预设阈值时,计算第三个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第二语音输出量幅度差值,及计算所述第三个通话语音片段的语速与所述第一个通话语音片段的语速的第二语速幅度差值;
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。
在一个可选的实施方式中,采用如下公式根据所述音节数及所述音调计算得到每个文本字符的音样值:
D=(X12+X22)1/2,其中,D为所述音样值,X1表示所述音节数,X2表示所述音调。
在一个可选的实施方式中,所述基于所述第二语音输出量计算实时情绪值包括:
以当前的第二语音输出量为预设窗口的中心,获取所述预设窗口对应的其余的第二语音输出量;
计算所述当前的第二语音输出量与所述其余的第二语音输出量的方差;
根据所述方差及所述当前的第二语音输出量计算实时情绪值。
在一个可选的实施方式中,采用如下公式根据所述方差及所述当前的第二语音输出量计算实时情绪值:
Cn=Bn*Sn,其中,Bn为第n个通话语音片段对应的第二语音输出量,Sn为Bn与前后两个相邻的第二语音输出量的方差。
在一个可选的实施方式中,所述方法还包括:
将每个通话语音片段对应的用户情绪映射为情绪分数;
根据通话内容类别对应的权重计算所述情绪分数的加权和,得到第一评价分数;
获取通话过程中每个通话语音片段对应的客服话术准确度;
根据所述通话内容类别对应的权重计算所述客服话术准确度的加权和,得到第二评价分数;
根据所述第一评价分数以及所述第二评价分数计算得到客服的服务质量评价结果。
在一个可选的实施方式中,所述方法还包括:
创建用户画像;
对所述用户情绪进行分类,并计算同类用户情绪的数量;
将所述用户情绪及对应的数量作为所述用户画像的情绪标签;
当再次侦测到所述用户的来电时,根据所述用户画像的情绪标签匹配目标客服。
本发明的第二方面提供一种通话情绪实时识别装置,所述装置包括:
语音分割模块,用于设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段;
窗长确定模块,用于针对每个滑动窗长,使用情绪识别模型识别所述多个训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长;
通话采样模块,用于根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本;
语量计算模块,用于确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量;
语量切分模块,用于根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量;
情绪计算模块,还用于基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值;
情绪分析模块,用于根据所述基准情绪值及所述实时情绪值分析用户情绪。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述通话情绪实时识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述通话情绪实时识别方法。
综上所述,本发明所述的通话情绪实时识别方法、装置、计算机设备及存储介质,适用于通话这一轮次对话场景,通过通话过程中语音输出量的变化来分析情绪的波动,从而得到用户在通话中的情绪的动态变化,而非简单统计用户的情绪值。使用情绪识别模型对多个滑动窗长进行验证,确定了最合适切分语音的目标滑动窗长,从而使用目标滑动窗长对用户通话语音进行采样得到通话语音片段,接着确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,从而基于所述音样值计算每个通话语音片段的语音输出量,并根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量,进而基于所述第一语音输出量计算得到用户的基准情绪值,从而以基准情绪值为参考标准对用户的情绪进行实时分析,更为客观和准确。
附图说明
图1是本发明实施例一提供的通话情绪实时识别方法的流程图。
图2是本发明实施例二提供的音节表的示意图。
图3是本发明实施例二提供的通话情绪实时识别装置的结构图。
图4是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的通话情绪实时识别方法由计算机设备执行,相应地,通话情绪实时识别装置运行于计算机设备中。
图1是本发明实施例一提供的通话情绪实时识别方法的流程图。所述通话情绪实时识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段。
训练语音为预先采集的用于确定合适的滑动窗长的语音。多个滑动窗长的长度可以构成等差数列。可以使用滑动窗长在每个训练语音上进行无重叠滑动,从而将每个训练语音分割为多个语音片段。
S12,针对每个滑动窗长,使用情绪识别模型识别所述多个训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长。
情绪识别模型为以神经网络(例如,卷积神经网络)为网络框架预先训练的用于识别语音片段的情绪的模型,训练过程为现有技术,不再详细阐述。对于任意一个滑动窗长,使用情绪识别模型对每个训练语音的多个训练语音片段进行识别,得到每个训练语音的多个情绪识别结果,根据这多个情绪识别结果及每个情绪识别结果对应的实际情绪结果,计算得到每个训练语音的情绪识别准确度。
对于任意一个滑动窗长,将所有训练语音的情绪识别准确度进行平均计算,得到平均情绪识别准确度。一个滑动窗长对应一个平均情绪识别准确度,将最大的平均情绪识别准确度对应的滑动窗长作为目标滑动窗长。
S13,根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本。
现有技术中,用户通话语音都是预先设置的固定值,不可改变,设置的过大,容易影响后续的情绪识别的准确度,设置的过小,导致后续情绪识别过于耗时,情绪识别无法做到实时处理,本实施通过设置多个滑动窗长,并使用情绪识别模型对多个滑动窗长进行校验,确实最适合的目标滑动窗长,使用目标滑动窗长对用户通话语音进行采样,得到的多个通话语音片段可以认为是具有最小的颗粒度,最适合用于对用户情绪进行分析,既可以保证用户情绪识别的准确度,还能保证用户情绪识别的实时性。
S14,确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量。
计算机设备可以先对完整通话进行语音分离,例如,可以采用语音分离技术对客服与用户的完整通话进行语音分离,得到客服通话语音片段和用户通话语音片段,再采用语音识别技术识别每个通话语音片段的通话文本,每个通话文本中包括多个文本字符。从用户通话语音的起始位置开始采样,每隔目标滑动窗长对用户通话语音采集一次,每次采集的通话语音片段记为A。
本发明需要识别用户情绪,则可以对用户通话语音进行采集。若需识别客服情绪,则可以对客服通话语音进行采集。在其他场景中,也可以同时对客服通话语音和用户通话语音进行采集。计算机设备中预先设置有文本读音数据库,可以根据文本读音数据库确定每个文本字符的读音。再根据如图2所示的汉语的音节表确定每个文本字符的音节,所述音节表包括单字母音,双拼音,三拼音,合计402个。不同的读音对应不同的音节数,对应不同的音调值。其中,音调值是指音调对应的数字。如文本字符“广”,读音为guang,对应有3个音节数,第3声音调,则音调值为3。又如,文本字符“东”,读音为dong,对应有2个音节数,第1声音调,则音调值为1。
在一个可选的实施方式中,可以采用如下公式根据所述音节数及所述音调计算得到每个文本字符的音样值:D=(X1 2+X2 2)1/2,其中,D为所述音样值,X1表示所述音节数,X2表示所述音调。
由于不同的文本字符的读音有差异,导致不用的文本字符的耗时也存在差异,如文本字符“广”的耗时就比文本字符“东”的耗时要多。根据读音的音节数及音调值计算得到的音样值数用以表示文本字符的读音耗时,音节数越大,音调值越大,则计算得到的音样值就越大,文本字符的读音耗时就越多,音节数越小,音调值越小,则计算得到的音样值就越小,文本字符的读音耗时就越少。
计算机设备提取每个文本字符的音样值,并根据每个通话文本的所有文本字符的音样值进行加和计算,得到该通话文本的语音输出量,即每一个A对应的语音输出量(语量),而非文本字符的数量。
在一个可选的实施方式中,可以采用如下计算公式计算语音输出量:B=sum(L(i)),其中,B表示语音输出量,i是文本字符的序号,L是音样值。
通常而言,人的情绪越平稳,语速就越平稳,语音输出量会相对保持平衡,但在愤怒或者激动的时候,语速可能是平稳的,如一个字一个字的说,但是语气会较重,而语气会通过音节和音调进行反映,因此,通过音节数和音调值计算得到的音样值及基于音样值计算得到的语音输出量就能够充分的反映出人的情绪。
现有技术大多通过训练情绪识别模型来提取语音的特征,并进行情绪映射得到情绪,然而提取的特征并不总是能够明显的反映用户的情绪,导致情绪的识别准确度较低。本实施例通过计算每个通话语音片段的语音输出量,并将不同通话语音片段的语音输出量进行比较,来有效的表征用户的情绪的变化,而非直接计算具体的情绪值,对情绪的识别与分析更为客观,准确度更高。
S15,根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量。
每一个A对应一个B,以A为横坐标,B为纵坐标,可以创建语音输出量波动率曲线。根据语音输出量波动率曲线切分所述语音输出量,即将所有的B按照时间顺序进行排序后,寻找一个切分点,将B切分开来,位于切分点之前的B称之为第一语音输出量,位于切分点之后的B称之为第二语音输出量。
在一个可选的实施方式中,所述根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和多个第二语音输出量包括:
计算第二个通话语音片段的语音输出量与第一个通话语音片段的语音输出量的第一语音输出量幅度差值;
计算所述第二个通话语音片段的语速与所述第一个通话语音片段的语速的第一语速幅度差值;
当所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值小于预设阈值时,计算第三个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第二语音输出量幅度差值,及计算所述第三个通话语音片段的语速与所述第一个通话语音片段的语速的第二语速幅度差值;
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。
计算机设备在计算第二个通话语音片段的语速与第一个通话语音片段的语速的第一语速幅度差值之后,判断所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值是否小于预设阈值,当所述第一语音输出量幅度差值大于所述第一语速幅度差值时,以所述第二个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量,所述第二语音输出量包括第二通话语音片段的语音输出量及第二通话语音片段之后的通话语音片段的语音输出量。
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值小于所述预设阈值时,计算第四个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第三语音输出量幅度差值,及计算第四个通话语音片段的语速与所述第一个通话语音片段的语速的第三语速幅度差值,当所述第三语音输出量幅度差值与所述第三语速幅度差值的第三均值大于所述预设阈值时,以所述第四个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量、第二通话语音片段的语音输出量及第三通话语音片段的语音输出量,所述第二语音输出量包括第四通话语音片段的语音输出量及第四通话语音片段之后的通话语音片段的语音输出量。
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量及第二通话语音片段的语音输出量,所述第二语音输出量包括第三通话语音片段的语音输出量及第三通话语音片段之后的通话语音片段的语音输出量。
通常情况下,用户与客服通话的前几秒钟甚至几分钟内,情绪是较为平稳的,即语音输出量不会很大,语速也不会很快,则可以第一个通话语音片段为基准点作为判断标准,通过计算每个通话语音片段的语音输出量与基准点的语音输出量的幅度差值,计算每个通话语音片段的语速与基准点的语速的幅度差值,如果语音输出量的幅度差值较大,或者语速的幅度差值较大,表明用户的情绪较为激动,如果语音输出量的幅度差值较小,或者语速的幅度差值较小,表明用户的情绪较为平稳。
该可选的实施例中,通过计算语音输出量的幅度差值与语速的幅度差值的均值,综合考虑语音输出量与语速与情绪的关联关系,相较于仅单一的考虑语速而言,通过语音输出量的幅度差值与语速的幅度差值,切分语音输出量更为准确。
S16,基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值。
将第一语音输出量的均值作为基准情绪值,例如,第一语音输出量包括前3个通话语音片段的语音输出量,B1、B2、B3,则基准情绪值C0=(B1+B2+B3)/3。
在一个可选的实施方式中,所述基于所述第二语音输出量计算实时情绪值包括:
以当前的第二语音输出量为预设窗口的中心,获取所述预设窗口对应的其余的第二语音输出量;
计算所述当前的第二语音输出量与所述其余的第二语音输出量的方差;
根据所述方差及所述当前的第二语音输出量计算实时情绪值。
后续每一个第二语音输出量的实时情绪值记为Cn,例如,第4个通话语音片段对应的第二语音输出量记为C4,第5个通话语音片段对应的第二语音输出量记为C5。
实时情绪值Cn的计算公式如下:Cn=Bn*Sn,其中,Bn为第n个通话语音片段对应的第二语音输出量,Sn为Bn与前后两个相邻的第二语音输出量(即Bn-2/Bn-1/Bn/Bn+1/Bn+2序列)的方差。Sn越大,表明Bn与前后值的变化幅度越大,Sn越小,表明Bn与前后值的变化幅度越小。
S17,根据所述基准情绪值及所述实时情绪值分析用户情绪。
计算机设备根据所述基准情绪值及所述实时情绪值计算情绪变化率,根据情绪变化率X来分析用户情绪。其中,情绪变化率的计算公式为:Xn=Cn-C0。情绪变化率Xn越大,表明用户情绪越趋于强烈,情绪变化率Xn越小,表明用户情绪越趋于缓和。
对于趋于强烈的用户情绪,则可以在客服的用户端上进行实时显示,以起到提醒客服的作用,使得客服调整话术策略。
在一个可选的实施方式中,所述方法还包括:将每个通话语音片段对应的用户情绪映射为情绪分数;根据通话内容类别对应的权重计算所述情绪分数的加权和,得到第一评价分数;获取通话过程中每个通话语音片段对应的客服话术准确度;根据所述通话内容类别对应的权重计算所述客服话术准确度的加权和,得到第二评价分数;根据所述第一评价分数以及所述第二评价分数计算得到客服的服务质量评价结果。
其中,每种用户情绪均有对应的情绪分数,例如,愉悦情绪对应的情绪分数为90,不高兴情绪对应的情绪分数为60,愤怒情绪对应的情绪分数为30。在实际应用中,可以分别对情绪分数和准确度进行归一化处理,再进行评价分数计算。计算所述第一评价分数以及所述第二评价分数的和,得到本次通话的客服的服务质量评价结果。
在一个可选的实施方式中,所述方法还包括:创建用户画像;对所述用户情绪进行分类,并计算同类用户情绪的数量;将所述用户情绪及对应的数量作为所述用户画像的情绪标签;再次侦测到所述用户的来电时,根据所述用户画像的情绪标签匹配目标客服。
计算机设备可以获取用户的多个数据,并基于多个数据创建用户画像,将用户来电时的每个通话对应的用户情绪添加在用户画像上,作为该用户的用户画像的情绪标签。
根据所述用户画像的情绪标签匹配目标客服,并分配所述目标客服以服务所述用户,同时在目标客服的用户端上显示添加有一个或者多个情绪标签的用户画像,便于目标客服可以更好的提供服务。
该可选的实施例中,根据所述用户画像的情绪标签匹配目标客服,使得目标客服为用户提供服务,不仅实现了对客服的动态调度,且能够提供对应的服务给用户。对于用户情绪大多趋于剧烈的用户而言,可以分配更为有经验的客服来提供服务,提供更为专业的服务质量,还能够提升用户的体验。
由于在客服场景中,客服与用户一般是逐句对话,业务通常关注的是客服各个轮次中用户情绪的动态变化,有没有因为某个回复而产生情绪波动,本实施例所述的方法适用于轮次对话场景,通过通话过程中语音输出量的变化来分析情绪的波动,从而得到用户在通话中的情绪的动态变化,而非简单统计用户的情绪值。具体而言,首先使用情绪识别模型对多个滑动窗长进行验证,确定了最合适切分语音的目标滑动窗长,从而使用目标滑动窗长对用户通话语音进行采样得到通话语音片段,接着确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,从而基于所述音样值计算每个通话语音片段的语音输出量,并根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量,进而基于所述第一语音输出量计算得到用户的基准情绪值,基准情绪值是根据用户的通话语音动态计算得到的,如此,不同的用户的通话语音计算得到的基准情绪值不同,基准情绪值的确定更具有参考意义;此外,计算基准情绪值时不仅考虑了语速,还同时考虑了语音输出量,提高了基准情绪值的计算准确度,从而以基准情绪值为参考标准对用户的情绪进行实时分析,更为客观和准确。
需要强调的是,为进一步保证上述用户通话语音及实时情绪值的计算公式的私密性和安全性,上述用户通话语音及实时情绪值的计算公式可存储于区块链的节点中。
图3是本发明实施例二提供的通话情绪实时识别装置的结构图。
在一些实施例中,所述通话情绪实时识别装置30可以包括多个由计算机程序段所组成的功能模块。所述通话情绪实时识别装置30中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)通话情绪实时识别的功能。
本实施例中,所述通话情绪实时识别装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:语音分割模块301、窗长确定模块302、通话采样模块303、语量计算模块304、语量切分模块305、情绪计算模块306、情绪分析模块307、质量评价模块308及目标匹配模块309。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述语音分割模块301,用于设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段。
训练语音为预先采集的用于确定合适的滑动窗长的语音。多个滑动窗长的长度可以构成等差数列。可以使用滑动窗长在每个训练语音上进行无重叠滑动,从而将每个训练语音分割为多个语音片段。
所述窗长确定模块302,用于针对每个滑动窗长,使用情绪识别模型识别所述多个训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长。
情绪识别模型为以神经网络(例如,卷积神经网络)为网络框架预先训练的用于识别语音片段的情绪的模型,训练过程为现有技术,不再详细阐述。对于任意一个滑动窗长,使用情绪识别模型对每个训练语音的多个训练语音片段进行识别,得到每个训练语音的多个情绪识别结果,根据这多个情绪识别结果及每个情绪识别结果对应的实际情绪结果,计算得到每个训练语音的情绪识别准确度。
对于任意一个滑动窗长,将所有训练语音的情绪识别准确度进行平均计算,得到平均情绪识别准确度。一个滑动窗长对应一个平均情绪识别准确度,将最大的平均情绪识别准确度对应的滑动窗长作为目标滑动窗长。
所述通话采样模块303,用于根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本。
现有技术中,用户通话语音都是预先设置的固定值,不可改变,设置的过大,容易影响后续的情绪识别的准确度,设置的过小,导致后续情绪识别过于耗时,情绪识别无法做到实时处理,本实施通过设置多个滑动窗长,并使用情绪识别模型对多个滑动窗长进行校验,确实最适合的目标滑动窗长,使用目标滑动窗长对用户通话语音进行采样,得到的多个通话语音片段可以认为是具有最小的颗粒度,最适合用于对用户情绪进行分析,既可以保证用户情绪识别的准确度,还能保证用户情绪识别的实时性。
所述语量计算模块304,用于确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量。
计算机设备可以先对完整通话进行语音分离,例如,可以采用语音分离技术对客服与用户的完整通话进行语音分离,得到客服通话语音片段和用户通话语音片段,再采用语音识别技术识别每个通话语音片段的通话文本,每个通话文本中包括多个文本字符。从用户通话语音的起始位置开始采样,每隔目标滑动窗长对用户通话语音采集一次,每次采集的通话语音片段记为A。
本发明需要识别用户情绪,则可以对用户通话语音进行采集。若需识别客服情绪,则可以对客服通话语音进行采集。在其他场景中,也可以同时对客服通话语音和用户通话语音进行采集。计算机设备中预先设置有文本读音数据库,可以根据文本读音数据库确定每个文本字符的读音。再根据如图2所示的汉语的音节表确定每个文本字符的音节,所述音节表包括单字母音,双拼音,三拼音,合计402个。不同的读音对应不同的音节数,对应不同的音调值。其中,音调值是指音调对应的数字。如文本字符“广”,读音为guang,对应有3个音节数,第3声音调,则音调值为3。又如,文本字符“东”,读音为dong,对应有2个音节数,第1声音调,则音调值为1。
在一个可选的实施方式中,可以采用如下公式根据所述音节数及所述音调计算得到每个文本字符的音样值:D=(X1 2+X2 2)1/2,其中,D为所述音样值,X1表示所述音节数,X2表示所述音调。
由于不同的文本字符的读音有差异,导致不用的文本字符的耗时也存在差异,如文本字符“广”的耗时就比文本字符“东”的耗时要多。根据读音的音节数及音调值计算得到的音样值数用以表示文本字符的读音耗时,音节数越大,音调值越大,则计算得到的音样值就越大,文本字符的读音耗时就越多,音节数越小,音调值越小,则计算得到的音样值就越小,文本字符的读音耗时就越少。
计算机设备提取每个文本字符的音样值,并根据每个通话文本的所有文本字符的音样值进行加和计算,得到该通话文本的语音输出量,即每一个A对应的语音输出量(语量),而非文本字符的数量。
在一个可选的实施方式中,可以采用如下计算公式计算语音输出量:B=sum(L(i)),其中,B表示语音输出量,i是文本字符的序号,L是音样值。
通常而言,人的情绪越平稳,语速就越平稳,语音输出量会相对保持平衡,但在愤怒或者激动的时候,语速可能是平稳的,如一个字一个字的说,但是语气会较重,而语气会通过音节和音调进行反映,因此,通过音节数和音调值计算得到的音样值及基于音样值计算得到的语音输出量就能够充分的反映出人的情绪。
现有技术大多通过训练情绪识别模型来提取语音的特征,并进行情绪映射得到情绪,然而提取的特征并不总是能够明显的反映用户的情绪,导致情绪的识别准确度较低。本实施例通过计算每个通话语音片段的语音输出量,并将不同通话语音片段的语音输出量进行比较,来有效的表征用户的情绪的变化,而非直接计算具体的情绪值,对情绪的识别与分析更为客观,准确度更高。
所述语量切分模块305,用于根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量。
每一个A对应一个B,以A为横坐标,B为纵坐标,可以创建语音输出量波动率曲线。根据语音输出量波动率曲线切分所述语音输出量,即将所有的B按照时间顺序进行排序后,寻找一个切分点,将B切分开来,位于切分点之前的B称之为第一语音输出量,位于切分点之后的B称之为第二语音输出量。
在一个可选的实施方式中,所述语量切分模块305根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和多个第二语音输出量包括:
计算第二个通话语音片段的语音输出量与第一个通话语音片段的语音输出量的第一语音输出量幅度差值;
计算所述第二个通话语音片段的语速与所述第一个通话语音片段的语速的第一语速幅度差值;
当所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值小于预设阈值时,计算第三个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第二语音输出量幅度差值,及计算所述第三个通话语音片段的语速与所述第一个通话语音片段的语速的第二语速幅度差值;
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。
计算机设备在计算第二个通话语音片段的语速与第一个通话语音片段的语速的第一语速幅度差值之后,判断所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值是否小于预设阈值,当所述第一语音输出量幅度差值大于所述第一语速幅度差值时,以所述第二个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量,所述第二语音输出量包括第二通话语音片段的语音输出量及第二通话语音片段之后的通话语音片段的语音输出量。
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值小于所述预设阈值时,计算第四个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第三语音输出量幅度差值,及计算第四个通话语音片段的语速与所述第一个通话语音片段的语速的第三语速幅度差值,当所述第三语音输出量幅度差值与所述第三语速幅度差值的第三均值大于所述预设阈值时,以所述第四个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量、第二通话语音片段的语音输出量及第三通话语音片段的语音输出量,所述第二语音输出量包括第四通话语音片段的语音输出量及第四通话语音片段之后的通话语音片段的语音输出量。
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。此时,所述第一语音输出量包括第一通话语音片段的语音输出量及第二通话语音片段的语音输出量,所述第二语音输出量包括第三通话语音片段的语音输出量及第三通话语音片段之后的通话语音片段的语音输出量。
通常情况下,用户与客服通话的前几秒钟甚至几分钟内,情绪是较为平稳的,即语音输出量不会很大,语速也不会很快,则可以第一个通话语音片段为基准点作为判断标准,通过计算每个通话语音片段的语音输出量与基准点的语音输出量的幅度差值,计算每个通话语音片段的语速与基准点的语速的幅度差值,如果语音输出量的幅度差值较大,或者语速的幅度差值较大,表明用户的情绪较为激动,如果语音输出量的幅度差值较小,或者语速的幅度差值较小,表明用户的情绪较为平稳。
该可选的实施例中,通过计算语音输出量的幅度差值与语速的幅度差值的均值,综合考虑语音输出量与语速与情绪的关联关系,相较于仅单一的考虑语速而言,通过语音输出量的幅度差值与语速的幅度差值,切分语音输出量更为准确。
所述情绪计算模块306,用于基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值。
将第一语音输出量的均值作为基准情绪值,例如,第一语音输出量包括前3个通话语音片段的语音输出量,B1、B2、B3,则基准情绪值C0=(B1+B2+B3)/3。
在一个可选的实施方式中,所述情绪计算模块306基于所述第二语音输出量计算实时情绪值包括:
以当前的第二语音输出量为预设窗口的中心,获取所述预设窗口对应的其余的第二语音输出量;
计算所述当前的第二语音输出量与所述其余的第二语音输出量的方差;
根据所述方差及所述当前的第二语音输出量计算实时情绪值。
后续每一个第二语音输出量的实时情绪值记为Cn,例如,第4个通话语音片段对应的第二语音输出量记为C4,第5个通话语音片段对应的第二语音输出量记为C5。
实时情绪值Cn的计算公式如下:Cn=Bn*Sn,其中,Bn为第n个通话语音片段对应的第二语音输出量,Sn为Bn与前后两个相邻的第二语音输出量(即Bn-2/Bn-1/Bn/Bn+1/Bn+2序列)的方差。Sn越大,表明Bn与前后值的变化幅度越大,Sn越小,表明Bn与前后值的变化幅度越小。
所述情绪分析模块307,用于根据所述基准情绪值及所述实时情绪值分析用户情绪。
计算机设备根据所述基准情绪值及所述实时情绪值计算情绪变化率,根据情绪变化率X来分析用户情绪。其中,情绪变化率的计算公式为:Xn=Cn-C0。情绪变化率Xn越大,表明用户情绪越趋于强烈,情绪变化率Xn越小,表明用户情绪越趋于缓和。
对于趋于强烈的用户情绪,则可以在客服的用户端上进行实时显示,以起到提醒客服的作用,使得客服调整话术策略。
在一个可选的实施方式中,所述质量评价模块308,用于将每个通话语音片段对应的用户情绪映射为情绪分数;根据通话内容类别对应的权重计算所述情绪分数的加权和,得到第一评价分数;获取通话过程中每个通话语音片段对应的客服话术准确度;根据所述通话内容类别对应的权重计算所述客服话术准确度的加权和,得到第二评价分数;根据所述第一评价分数以及所述第二评价分数计算得到客服的服务质量评价结果。
其中,每种用户情绪均有对应的情绪分数,例如,愉悦情绪对应的情绪分数为90,不高兴情绪对应的情绪分数为60,愤怒情绪对应的情绪分数为30。在实际应用中,可以分别对情绪分数和准确度进行归一化处理,再进行评价分数计算。计算所述第一评价分数以及所述第二评价分数的和,得到本次通话的客服的服务质量评价结果。
在一个可选的实施方式中,所述目标匹配模块309,用于创建用户画像;对所述用户情绪进行分类,并计算同类用户情绪的数量;将所述用户情绪及对应的数量作为所述用户画像的情绪标签;再次侦测到所述用户的来电时,根据所述用户画像的情绪标签匹配目标客服。
计算机设备可以获取用户的多个数据,并基于多个数据创建用户画像,将用户来电时的每个通话对应的用户情绪添加在用户画像上,作为该用户的用户画像的情绪标签。根据所述用户画像的情绪标签匹配目标客服,并分配所述目标客服以服务所述用户,同时在目标客服的用户端上显示添加有一个或者多个情绪标签的用户画像,便于目标客服可以更好的提供服务。
该可选的实施例中,根据所述用户画像的情绪标签匹配目标客服,使得目标客服为用户提供服务,不仅实现了对客服的动态调度,且能够提供对应的服务给用户。对于用户情绪大多趋于剧烈的用户而言,可以分配更为有经验的客服来提供服务,提供更为专业的服务质量,还能够提升用户的体验。
由于在客服场景中,客服与用户一般是逐句对话,业务通常关注的是客服各个轮次中用户情绪的动态变化,有没有因为某个回复而产生情绪波动,本实施例所述的方法适用于轮次对话场景,通过通话过程中语音输出量的变化来分析情绪的波动,从而得到用户在通话中的情绪的动态变化,而非简单统计用户的情绪值。具体而言,首先使用情绪识别模型对多个滑动窗长进行验证,确定了最合适切分语音的目标滑动窗长,从而使用目标滑动窗长对用户通话语音进行采样得到通话语音片段,接着确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,从而基于所述音样值计算每个通话语音片段的语音输出量,并根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量,进而基于所述第一语音输出量计算得到用户的基准情绪值,基准情绪值是根据用户的通话语音动态计算得到的,如此,不同的用户的通话语音计算得到的基准情绪值不同,基准情绪值的确定更具有参考意义;此外,计算基准情绪值时不仅考虑了语速,还同时考虑了语音输出量,提高了基准情绪值的计算准确度,从而以基准情绪值为参考标准对用户的情绪进行实时分析,更为客观和准确。
参阅图4所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备4包括存储器41、至少一个存储器42、至少一条通信总线43及收发器44。
本领域技术人员应该了解,图4示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备4还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备4还可包括用户设备,所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备4仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器41中存储有计算机程序,所述计算机程序被所述至少一个存储器42执行时实现如所述的通话情绪实时识别方法中的全部或者部分步骤。所述存储器41包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个存储器42是所述计算机设备4的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备4的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块,以及调用存储在所述存储器41内的数据,以执行计算机设备4的各种功能和处理数据。例如,所述至少一个存储器42执行所述存储器中存储的计算机程序时实现本发明实施例中所述的通话情绪实时识别方法的全部或者部分步骤;或者实现通话情绪实时识别装置的全部或者部分功能。所述至少一个存储器42可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个存储器42等之间的连接通信。
尽管未示出,所述计算机设备4还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个存储器42逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种通话情绪实时识别方法,其特征在于,所述方法包括:
设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段;
针对每个滑动窗长,使用情绪识别模型识别所述训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长;
根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本;
确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量;
根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量;
基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值;
根据所述基准情绪值及所述实时情绪值分析用户情绪。
2.如权利要求1所述的通话情绪实时识别方法,其特征在于,所述根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和多个第二语音输出量包括:
计算第二个通话语音片段的语音输出量与第一个通话语音片段的语音输出量的第一语音输出量幅度差值;
计算所述第二个通话语音片段的语速与所述第一个通话语音片段的语速的第一语速幅度差值;
当所述第一语音输出量幅度差值与所述第一语速幅度差值的第一均值小于预设阈值时,计算第三个通话语音片段的语音输出量与所述第一个通话语音片段的语音输出量的第二语音输出量幅度差值,及计算所述第三个通话语音片段的语速与所述第一个通话语音片段的语速的第二语速幅度差值;
当所述第二语音输出量幅度差值与所述第二语速幅度差值的第二均值大于所述预设阈值时,以所述第三个通话语音片段为切分点切分所述语音输出量为第一语音输出量和第二语音输出量。
3.如权利要求2所述的通话情绪实时识别方法,其特征在于,采用如下公式根据所述音节数及所述音调计算得到每个文本字符的音样值:
D=(X12+X22)1/2,其中,D为所述音样值,X1表示所述音节数,X2表示所述音调。
4.如权利要求3所述的通话情绪实时识别方法,其特征在于,所述基于所述第二语音输出量计算实时情绪值包括:
以当前的第二语音输出量为预设窗口的中心,获取所述预设窗口对应的其余的第二语音输出量;
计算所述当前的第二语音输出量与所述其余的第二语音输出量的方差;
根据所述方差及所述当前的第二语音输出量计算实时情绪值。
5.如权利要求4所述的通话情绪实时识别方法,其特征在于,采用如下公式根据所述方差及所述当前的第二语音输出量计算实时情绪值:
Cn=Bn*Sn,其中,Bn为第n个通话语音片段对应的第二语音输出量,Sn为Bn与前后两个相邻的第二语音输出量的方差。
6.如权利要求1至5中任意一项所述的通话情绪实时识别方法,其特征在于,所述方法还包括:
将每个通话语音片段对应的用户情绪映射为情绪分数;
根据通话内容类别对应的权重计算所述情绪分数的加权和,得到第一评价分数;
获取通话过程中每个通话语音片段对应的客服话术准确度;
根据所述通话内容类别对应的权重计算所述客服话术准确度的加权和,得到第二评价分数;
根据所述第一评价分数以及所述第二评价分数计算得到客服的服务质量评价结果。
7.如权利要求1至5中任意一项所述的通话情绪实时识别方法,其特征在于,所述方法还包括:
创建用户画像;
对所述用户情绪进行分类,并计算同类用户情绪的数量;
将所述用户情绪及对应的数量作为所述用户画像的情绪标签;
当再次侦测到所述用户的来电时,根据所述用户画像的情绪标签匹配目标客服。
8.一种通话情绪实时识别装置,其特征在于,所述装置包括:
语音分割模块,用于设置多个滑动窗长,使用每个滑动窗长分割多个训练语音,得到每个训练语音的多个训练语音片段;
窗长确定模块,用于针对每个滑动窗长,使用情绪识别模型识别所述多个训练语音片段,得到情绪识别结果,并根据所述情绪识别结果计算情绪识别准确度,确定所述情绪识别准确度中的最高值对应的滑动窗长为目标滑动窗长;
通话采样模块,用于根据所述目标滑动窗长对用户通话语音进行采样得到多个通话语音片段,并识别每个通话语音片段的通话文本;
语量计算模块,用于确定所述通话文本中每个文本字符的读音的音节数和音调值,并根据每个文本字符的音节数及音调值计算音样值,基于所述音样值计算每个通话语音片段的语音输出量;
语量切分模块,用于根据每个通话语音片段的语音输出量及语速切分所述语音输出量为第一语音输出量和第二语音输出量;
情绪计算模块,还用于基于所述第一语音输出量计算基准情绪值,基于所述第二语音输出量计算实时情绪值;
情绪分析模块,用于根据所述基准情绪值及所述实时情绪值分析用户情绪。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的通话情绪实时识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的通话情绪实时识别方法。
CN202110706524.2A 2021-06-24 2021-06-24 通话情绪实时识别方法、装置、计算机设备及存储介质 Active CN113241095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110706524.2A CN113241095B (zh) 2021-06-24 2021-06-24 通话情绪实时识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110706524.2A CN113241095B (zh) 2021-06-24 2021-06-24 通话情绪实时识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113241095A true CN113241095A (zh) 2021-08-10
CN113241095B CN113241095B (zh) 2023-04-11

Family

ID=77140723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110706524.2A Active CN113241095B (zh) 2021-06-24 2021-06-24 通话情绪实时识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113241095B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610158A (zh) * 2022-03-25 2022-06-10 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
US20160329043A1 (en) * 2014-01-21 2016-11-10 Lg Electronics Inc. Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
US20210142820A1 (en) * 2019-11-07 2021-05-13 Sling Media Pvt Ltd Method and system for speech emotion recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US20160329043A1 (en) * 2014-01-21 2016-11-10 Lg Electronics Inc. Emotional-speech synthesizing device, method of operating the same and mobile terminal including the same
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和***
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
WO2021051577A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 语音情绪识别方法、装置、设备及存储介质
US20210142820A1 (en) * 2019-11-07 2021-05-13 Sling Media Pvt Ltd Method and system for speech emotion recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610158A (zh) * 2022-03-25 2022-06-10 Oppo广东移动通信有限公司 数据处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN113241095B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN108197115B (zh) 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108564968A (zh) 一种评价客服服务的方法及装置
Weninger et al. The voice of leadership: Models and performances of automatic analysis in online speeches
CN110085221A (zh) 语音情感交互方法、计算机设备和计算机可读存储介质
WO2021047319A1 (zh) 基于语音的个人信用评估方法、装置、终端及存储介质
CN110874716A (zh) 面试测评方法、装置、电子设备及存储介质
CN113807103B (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN112417128B (zh) 话术推荐方法、装置、计算机设备及存储介质
CN114007131A (zh) 视频监控方法、装置及相关设备
CN113436634B (zh) 基于声纹识别的语音分类方法、装置及相关设备
CN113591489B (zh) 语音交互方法、装置及相关设备
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN112863529A (zh) 基于对抗学习的说话人语音转换方法及相关设备
CN113077821A (zh) 音频质量检测方法、装置、电子设备及存储介质
CN113241095B (zh) 通话情绪实时识别方法、装置、计算机设备及存储介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN113255362B (zh) 人声过滤与识别方法、装置、电子设别及存储介质
CN112489628B (zh) 语音数据选择方法、装置、电子设备及存储介质
CN112466337A (zh) 音频数据情绪检测方法、装置、电子设备及存储介质
CN113221990B (zh) 信息录入方法、装置及相关设备
CN115242927A (zh) 客服对象分配方法、装置、计算机设备及存储介质
CN113436617B (zh) 语音断句方法、装置、计算机设备及存储介质
CN115631748A (zh) 基于语音对话的情感识别方法、装置、电子设备及介质
CN113421594B (zh) 语音情感识别方法、装置、设备及存储介质
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant