CN109360572B - 通话分离方法、装置、计算机设备及存储介质 - Google Patents

通话分离方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109360572B
CN109360572B CN201811347184.3A CN201811347184A CN109360572B CN 109360572 B CN109360572 B CN 109360572B CN 201811347184 A CN201811347184 A CN 201811347184A CN 109360572 B CN109360572 B CN 109360572B
Authority
CN
China
Prior art keywords
segment
speaker
call
conversation
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811347184.3A
Other languages
English (en)
Other versions
CN109360572A (zh
Inventor
刘博卿
贾雪丽
程宁
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811347184.3A priority Critical patent/CN109360572B/zh
Priority to PCT/CN2018/123553 priority patent/WO2020098083A1/zh
Publication of CN109360572A publication Critical patent/CN109360572A/zh
Application granted granted Critical
Publication of CN109360572B publication Critical patent/CN109360572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种通话分离方法、装置、计算机设备及存储介质,涉及人工智能领域。该通话分离方法包括:获取原始通话片段;采用静音检测去除原始通话片段中的静音片段,得到第一通话片段;将第一通话片段进行切割,得到至少三个第二通话片段,其中,一个说话人对应一个或多个第二通话片段;获取每个第二通话片段的i‑vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个i‑vector特征进行建模,得到每个第二通话片段的目标模型;基于目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将相同的说话人的第二通话片段标记成统一的标签。采用该通话分离方法能够精确分离通话中不同说话人对应的通话片段。

Description

通话分离方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及人工智能领域,尤其涉及一种通话分离方法、装置、计算机设备及存储介质。
【背景技术】
目前缺少合理的设计步骤来保证通话分离的实现效果,无法在不知道说话人信息的前提下,准确地区分在同一通话中由不同说话人发出的通话语音片段,在通话分离的实现效果上仍不理想。
【发明内容】
有鉴于此,本发明实施例提供了一种通话分离方法、装置、计算机设备及存储介质,用以解决目前通话分离不精确的问题。
第一方面,本发明实施例提供了一种通话分离方法,包括:
获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;
采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;
将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;
获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;
基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将所述第一通话片段进行切割,得到至少三个第二通话片段,包括:
基于贝叶斯信息准则和似然比,在所述第一通话片段中检测并得到说话人的转变点;
根据所述说话人的转变点将所述第一通话片段进行切割,得到至少三个所述第二通话片段。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标模型的表达式φm=yk+∈m,其中,φm表示第m个所述第二通话片段提取的i-vector特征,y表示所述第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与所述第二通话片段的指示向量,
Figure BDA0001864043760000021
表示第m个所述第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,所述基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,包括:
基于所述目标模型和所述变分贝叶斯算法获取第二通话片段的后验概率的表达式,
Figure BDA0001864043760000022
其中,m表示所述第二通话片段,M表示所述第二通话片段的片段总数,s表示说话人,S表示所述说话人的总数,qms是s在所述第二通话片段m中说话的后验概率,ims为所述说话人s在所述第二通话片段m中的指示向量,当所述说话人s在所述第二通话片段m中说话时,ims=1,当所述说话人s在所述第二通话片段m中没有说话时,ims=0;
基于所述目标模型和所述变分贝叶斯算法获取说话人的后验概率的表达式,
Figure BDA0001864043760000023
其中,s表示说话人,S表示所述说话人的总数,ys表示每个所述说话人s的所述第二通话片段,Q(Y)服从均值是μs,协方差为
Figure BDA0001864043760000024
的高斯分布;
基于变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新;
根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的所述第二通话片段。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述采用变分贝叶斯算法在所述目标模型中确定相同的说话人的第二通话片段之前,还包括:
初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对;
计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人;
重复预设次数的初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对和计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人的步骤,得到在所述预设次数的步骤中距离最远的两个所述说话人,并将在所述预设次数的步骤中距离最远的两个所述说话人作为变分贝叶斯计算的起点。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采用变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新,包括:
将所述第二通话片段的后验概率Q(I)中的qms更新为
Figure BDA0001864043760000031
其中,
Figure BDA0001864043760000032
用于区分qms中的s,表示更新前的s,
Figure BDA0001864043760000033
中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关项;所述说话人的后验概率Q(Y)的更新表示为
Figure BDA0001864043760000034
Λ为协差Λ-1的逆,
Figure BDA0001864043760000035
是说话人后验概率的协方差,Cs是协方差的逆。
第二方面,本发明实施例提供了一种通话分离装置,包括:
原始通话片段获取模块,用于获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;
第一通话片段获取模块,用于采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;
第二通话片段获取模块,用于将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;
目标模型获取模块,用于获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;
统一标签模块,用于基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述通话分离方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括:计算机可执行指令,当所述计算机可执行指令被运行时,用以执行第一方面任一项所述的通话分离方法。
上述技术方案中的一个技术方案具有如下有益效果:
本发明实施例中,首先将原始通话语音进行静音检测,可以去除语音通话中无人发出声音的静音片段,有利于提高通话分离的效率和精确度。接着将第一通话片段进行切割,可以得到不同说话人的第二通话片段,为后续确定相同的说话人的第二通话片段提供重要的技术前提。然后采用预先训练好的双协方差概率线性判别分析模型进行建模,得到每个第二通话片段的目标模型,可以通过双协方差概率线性判别分析模型将第二通话片段的特征更精确地表示出来。最后通过变分贝叶斯算法确定相同的说话人的第二通话片段,采用变分贝叶斯算法可以将属于同一说话人的第二通话片段进行聚类,精确度高,能达到精确的通话分离效果。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例中通话分离方法的一流程图;
图2是本发明一实施例中通话分离装置的一示意图;
图3是本发明一实施例中计算机设备的一示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出本实施例中通话分离方法的一流程图。该通话分离方法可应用在进行通话分离的终端设备上,用于实现通话分离的功能,具体可应用在安装在计算机设备上的电话通话分离***中。其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。该通话分离方法包括如下步骤:
S10:获取原始通话片段,原始通话片段包括至少两个不同说话人的通话片段。
其中,原始通话片段可以是通过录音设备获取的、包括至少两个不同说话人的通话片段。在一实施例中,具体可以是在会议场景中通过录音设备录取的由多个说话人组成的原始通话片段。
S20:采用静音检测去除原始通话片段中的静音片段,得到第一通话片段。
其中,静音检测是指对原始通话片段中静默(无人说话)部分的检测。在一实施例中,可以采用语音端点检测(Voice Activity Detection,简称VAD)的技术实现,包括采用帧幅度、帧能量、短时过零率和深度神经网络等方式实现。通过去除原始通话片段中静默的片段,可以将原始通话片段中说话人说话时的语音片段保留下来,从而在后续进行通话分离时,可以排除原始通话片段中静默部分的干扰,有效提高通话分离的效率和准确率。
S30:将第一通话片段进行切割,得到至少三个第二通话片段,其中,一个说话人对应一个或多个第二通话片段。
可以理解地,第一通话语音片段在时间轴上是连续的,但是在时间轴上会交替出现不同说话人的通话语音片段。因此,可以将第一通话语音片段切割成不同说话人所对应的通话片段,这些片段即第二通话片段。得到的第二通话片段至少包括三个片段(因为两个片段没有进行通话分离的必要),一个说话人可以对应有一个或多个第二通话片段,例如,有10个第二通话片段,该第二通话片段总共对应4个说话人A、B、C和D,那么A可以包括5个第二通话片段,B包括2个,C包括1个,D包括2个。
进一步地,在步骤S30中,将第一通话片段进行切割,得到至少三个第二通话片段,具体包括:
S31:基于贝叶斯信息准则和似然比,在第一通话片段中检测并得到说话人的转变点。
其中,贝叶斯信息准则(Bayesian information criterion,简称BIC)是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。似然比(likelihood ratio,简称LR)是反映真实性的一种指标。在一实施例中,通过采用贝叶斯信息准则结合似然比的方法,可以确定第一通话片段中更换说话人的具体时间,检测到第一通话片段中说话人的转变点。
S32:根据说话人的转变点将第一通话片段进行切割,得到至少三个第二通话片段。
在一实施例中,根据得到的转变点切割第一通话片段,可以实现初步的通话分离效果,可以确定每个得到的第二通话片段都对应一说话人。
在步骤S31-S32中,对第一通话片段实现了切割,使得切割得到的每个第二通话片段都对应一说话人,为后续确定相同的说话人的第二通话片段提供重要的技术前提。
S40:获取每个第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个i-vector特征进行建模,得到每个第二通话片段的目标模型。
其中,i-vector特征是指从高斯混合模型(Gaussian mixture model,GMM)均值超矢量中提取的一个更紧凑的矢量,i-vector特征除了包含说话人的身份信息外,还包括关于声道,话筒,说话方式,语音等信息,可以全面地体现声音的声纹特征。在声纹识别中,双协方差概率线性判别分析模型是用来从i-vector中提取说话人信息的,可以通过该模型对声纹特征进行比对和区分。双协方差概率线性判别分析模型假设i-vector是由另外两个参数提取的:一个说话人的向量y(不同的说话人有不同的向量),一个剩余向量∈(不同的片段有不同的向量)。采用预先训练好的双协方差概率线性判别分析模型对每个i-vector特征进行建模,能够将第二通话片段的特征更精确地表示出来,以在确定相同的说话人的第二通话片段时,能够达到更精确的区分效果。
在建模前有以下前提条件:在一个对话中,说话人的总数有S个。将所有第二通话片段提取的i-vector表示为Φ={φ1,...,φM}。对于每一个第二通话片段m=1,…,M,定义一个维度为S*1的指示向量im,如果说话人s在第二通话片段m中说话了,则im中的元素ims=1,如果说话人s在第二通话片段m中没说话,im中的元素ims=0。令I={i1,...,iM}为一个给出的关于第二通话片段的指示向量集合。假设事件为说话人s在一个片段中说话,则给该时间赋上一个先验概率
Figure BDA0001864043760000081
对于每个说话人s的样本ys∈N(y;μ,Λ-1),即每个说话人s的样本服从均值为μ,协方差为Λ-1的正态分布,对于每一个第二通话片段,服从于多项式分布Mult(П)的样本im,其中Π=(π1,...,πS)。
有了上述建模的前提条件,目标模型的表达式为:φm=yk+∈m,其中,φm表示第m个第二通话片段提取的i-vector特征,y表示第二通话片段中的与说话人关联向量,为了和上述ys中的s做区分,令k为使imk=1的索引,im表示与第二通话片段的指示向量,
Figure BDA0001864043760000091
表示第m个第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布。双协方差概率线性判别分析模型中的双协方差即分别来自yk和∈m。可以理解地,建模的过程即计算每一个第二通话片段在双协方差概率线性判别分析模型中的表示。通过建立每一个第二通话片段的目标模型,后续可以利用目标模型确定相同的说话人的第二通话片段。
S50:基于目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将相同的说话人的第二通话片段标记成统一的标签。
其中,变分贝叶斯算法(Variational Bayes,简称VB)是提供一种局部最优,但具有确定解的近似后验方法。
在一实施例中,Y={y1,...,yS}为说话人向量的集合。通过这个目标模型,可以将确定相同的说话人的第二通话片段这个问题归纳成求说话人在一个给定的第二通话片段中说过话的后验概率,其中,后验概率是指关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。由于上述的假设,P(Y,I|Φ)是一个不能解的积分,本实施例中,通过近似推断的方法,采用变分贝叶斯算法来近似计算P(Y|Φ)和P(I|Φ)。为简便表示,可以将P(Y|Φ)表示为Q(I),将P(I|Φ)表示为Q(Y),采用平均场变分贝叶斯方法假设后验概率可以被近似表示为:Q(Y,I)=Q(Y)Q(I)。通过近似推断,可以确定说话人在一个给定的第二通话片段中说过话的后验概率,即可确定相同的说话人的第二通话片段,并将相同的说话人的第二通话片段标记成统一的标签,以将第二通话片段按所属的说话人区分开来。
进一步地,在步骤S50中,基于目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,具体包括:
S511:基于目标模型和变分贝叶斯算法获取第二通话片段的后验概率的表达式,
Figure BDA0001864043760000101
其中,m表示第二通话片段,M表示第二通话片段的片段总数,s表示说话人,S表示说话人的总数,qms是s在第二通话片段m中说话的后验概率,ims为说话人s在第二通话片段m中的指示向量,当说话人s在第二通话片段m中说话时,ims=1,当说话人s在第二通话片段m中没有说话时,ims=0。
S512:基于目标模型和变分贝叶斯算法获取说话人的后验概率的表达式,
Figure BDA0001864043760000102
其中,s表示说话人,S表示说话人的总数,ys表示每个说话人s的第二通话片段,Q(Y)服从均值是μs,协方差为
Figure BDA0001864043760000103
的高斯分布。
S513:基于变分贝叶斯算法对第二通话片段的后验概率Q(I)和说话人的后验概率Q(Y)进行更新。
变分贝叶斯算法计算过程中采用了最大期望算法(Expectation MaximizationAlgorithm,简称EM算法)的更新过程。最大期望算法包括e-step和m-step,第二通话片段的后验概率Q(I)和说话人的后验概率Q(Y)在变分的e-step步骤更新;在m-step步骤将每个第二通话片段m赋给
Figure BDA0001864043760000107
中的说话人s。
进一步地,在步骤S513中,具体包括:
将第二通话片段的后验概率Q(I)中的qms更新为
Figure BDA0001864043760000104
其中,
Figure BDA0001864043760000105
s用于区分qms中的s,表示更新前的s,
Figure BDA0001864043760000106
中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关项;说话人的后验概率Q(Y)的更新表示为
Figure BDA0001864043760000111
Λ为协方差Λ-1的逆,
Figure BDA0001864043760000112
是说话人后验概率的协方差,Cs是协方差的逆。需要说明的是,以上公式中出现的参数在上文中均已解释,在此不一一再进行解释,只对首次出现的参数进行解释。
进一步地,在更新第二通话片段的后验概率Q(I)和说话人的后验概率Q(Y)时,还可以引入温度参数β,采用变分贝叶斯算法的确定性退火变种对片段的后验概率和说话人的后验概率进行更新。具体地,更新过程为:qms更新为
Figure BDA0001864043760000113
s′用于区分qms中的s,表示更新前的s,
Figure BDA0001864043760000114
Figure BDA0001864043760000115
β表示温度参数,
Figure BDA0001864043760000116
中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关项;说话人后验概率的更新表示为
Figure BDA0001864043760000117
Figure BDA0001864043760000118
Λ为协方差Λ-1的逆,
Figure BDA0001864043760000119
是说话人后验概率的协方差,Cs是协方差的逆。采用变分贝叶斯算法的确定性退火变种对片段的后验概率和说话人的后验概率进行更新可以有效避免说话人后验概率达到局部最优值。
S514:根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的第二通话片段。
得到更新后的Q(I)和更新后的Q(Y)即可得到说话人在一个给定的第二通话片段中说过话的后验概率,从而确定相同的说话人的第二通话片段。
进一步地,在步骤S50之前,即在采用变分贝叶斯算法在目标模型中确定相同的说话人的第二通话片段之前,还包括:
S521:初始化第二通话片段的后验概率中说话人的个数,将第二通话片段的后验概率中每个不同的说话人作为一对。
在一实施例中,初始化第二通话片段的后验概率中说话人的个数具体可以是初始化为3个说话人。
S522:计算每一对说话人之间的距离,得到距离最远的两个说话人。
其中,在双协方差概率线性判别分析模型中,可以采用余弦相似度和/或似然比分数作为衡量距离的标准。
S523:重复预设次数的初始化第二通话片段的后验概率中说话人的个数,将第二通话片段的后验概率中每个不同的说话人作为一对和计算每一对说话人之间的距离,得到距离最远的两个说话人的步骤,得到在预设次数的步骤中距离最远的两个说话人,并将在预设次数的步骤中距离最远的两个说话人作为变分贝叶斯计算的起点。
可以理解地,本步骤为重复预设次数(如10次)的步骤S521-S522,再将所有预设次数的步骤中距离最远的两个说话人作为变分贝叶斯计算的起点。
步骤S521-S523中是对变分贝叶斯算法的初始化进行的优化步骤,可以提高变分贝叶斯算法在采用最大期望算法进行迭代时得到的运算结果更加准确,并最终根据准确地得到说话人在一个给定的第二通话片段中说过话的后验概率,从而更好地对第二通话语音按说话人进行区分。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,首先将原始通话语音进行静音检测,可以去除语音通话中无人发出声音的静音片段,有利于提高通话分离的效率和精确度。接着将第一通话片段进行切割,可以得到不同说话人的第二通话片段,为后续确定相同的说话人的第二通话片段提供重要的技术前提。然后采用预先训练好的双协方差概率线性判别分析模型进行建模,得到每个第二通话片段的目标模型,可以通过双协方差概率线性判别分析模型将第二通话片段的特征更精确地表示出来。最后通过变分贝叶斯算法确定相同的说话人的第二通话片段,采用变分贝叶斯算法可以将属于同一说话人的第二通话片段进行聚类,精确度高,能达到精确的通话分离效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
基于实施例中所提供的通话分离方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
图2示出与实施例中通话分离方法一一对应的通话分离装置的原理框图。如图2所示,该通话分离装置包括原始通话片段获取模块10、第一通话片段获取模块20、第二通话片段获取模块30、目标模型获取模块40和统一标签模块50。其中,原始通话片段获取模块10、第一通话片段获取模块20、第二通话片段获取模块30、目标模型获取模块40和统一标签模块50的实现功能与实施例中通话分离方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
原始通话片段获取模块10,用于获取原始通话片段,原始通话片段包括至少两个不同说话人的通话片段。
第一通话片段获取模块20,用于采用静音检测去除原始通话片段中的静音片段,得到第一通话片段。
第二通话片段获取模块30,用于将第一通话片段进行切割,得到至少三个第二通话片段,其中,一个说话人对应一个或多个第二通话片段。
目标模型获取模块40,用于获取每个第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个i-vector特征进行建模,得到每个第二通话片段的目标模型。
统一标签模块50,用于基于目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将相同的说话人的第二通话片段标记成统一的标签。
可选地,第一通话片段获取模块10包括转变点获取单元和第二通话片段获取单元。
转变点获取单元,用于基于贝叶斯信息准则和似然比,在第一通话片段中检测并得到说话人的转变点。
第二通话片段获取单元,用于根据说话人的转变点将第一通话片段进行切割,得到至少三个第二通话片段。
可选地,目标模型的表达式φm=yk+∈m,其中,φm表示第m个第二通话片段提取的i-vector特征,y表示第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与第二通话片段的指示向量,
Figure BDA0001864043760000141
Figure BDA0001864043760000144
表示第m个第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,统一标签模块50包括第二通话片段后验概率获取单元、说话人后验概率获取单元、更新单元和确定单元。
第二通话片段后验概率获取单元,用于基于目标模型和变分贝叶斯算法获取第二通话片段的后验概率的表达式,
Figure BDA0001864043760000142
其中,m表示第二通话片段,M表示第二通话片段的片段总数,s表示说话人,S表示说话人的总数,qms是s在第二通话片段m中说话的后验概率,ims为说话人s在第二通话片段m中的指示向量,当说话人s在第二通话片段m中说话时,ims=1,当说话人s在第二通话片段m中没有说话时,ims=0。
说话人后验概率获取单元,用于基于目标模型和变分贝叶斯算法获取说话人的后验概率的表达式,
Figure BDA0001864043760000143
其中,s表示说话人,S表示说话人的总数,ys表示每个说话人s的第二通话片段,Q(Y)服从均值是μs,协方差为
Figure BDA0001864043760000145
的高斯分布。
更新单元,用于基于变分贝叶斯算法对第二通话片段的后验概率Q(I)和说话人的后验概率Q(Y)进行更新。
确定单元,用于根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的第二通话片段。
可选地,通话分离装置还包括初始化单元、距离单元和起点确定单元。
初始化单元,用于初始化第二通话片段的后验概率中说话人的个数,将第二通话片段的后验概率中每个不同的说话人作为一对。
距离单元,用于计算每一对说话人之间的距离,得到距离最远的两个说话人。
起点确定单元,用于重复预设次数的初始化第二通话片段的后验概率中说话人的个数,将第二通话片段的后验概率中每个不同的说话人作为一对和计算每一对说话人之间的距离,得到距离最远的两个说话人的步骤,得到在预设次数的步骤中距离最远的两个说话人,并将在预设次数的步骤中距离最远的两个说话人作为变分贝叶斯计算的起点。
可选地,更新单元包括:将第二通话片段的后验概率Q(I)中的qms更新为
Figure BDA0001864043760000151
其中,
Figure BDA0001864043760000152
s′用于区分qms中的s,表示更新前的s,
Figure BDA0001864043760000153
中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关项;说话人的后验概率Q(Y)的更新表示为
Figure BDA0001864043760000154
Figure BDA0001864043760000155
Λ为协方差Λ-1的逆,
Figure BDA0001864043760000156
是说话人后验概率的协方差,Cs是协方差的逆。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,首先将原始通话语音进行静音检测,可以去除语音通话中无人发出声音的静音片段,有利于提高通话分离的效率和精确度。接着将第一通话片段进行切割,可以得到不同说话人的第二通话片段,为后续确定相同的说话人的第二通话片段提供重要的技术前提。然后采用预先训练好的双协方差概率线性判别分析模型进行建模,得到每个第二通话片段的目标模型,可以通过双协方差概率线性判别分析模型将第二通话片段的特征更精确地表示出来。最后通过变分贝叶斯算法确定相同的说话人的第二通话片段,采用变分贝叶斯算法可以将属于同一说话人的第二通话片段进行聚类,精确度高,能达到精确的通话分离效果。
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例中通话分离方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器执行时实现实施例中通话分离装置中各模块/单元的功能,为避免重复,此处不一一赘述。
图3是本发明一实施例提供的计算机设备的示意图。如图3所示,该实施例的计算机设备60包括:处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63,该计算机程序63被处理器61执行时实现实施例中的通话分离方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器61执行时实现实施例中通话分离装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图3仅仅是计算机设备60的示例,并不构成对计算机设备60的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器62可以是计算机设备60的内部存储单元,例如计算机设备60的硬盘或内存。存储器62也可以是计算机设备60的外部存储设备,例如计算机设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器62还可以既包括计算机设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种通话分离方法,其特征在于,所述方法包括:
获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;
采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;
将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;
获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;
基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签;
所述目标模型的表达式φm=yk+∈m,其中,φm表示第m个所述第二通话片段提取的i-vector特征,y表示所述第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与所述第二通话片段的指示向量,
Figure FDA0003344223810000011
Figure FDA0003344223810000012
表示第m个所述第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,所述基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,包括:
基于所述目标模型和所述变分贝叶斯算法获取第二通话片段的后验概率的表达式,
Figure FDA0003344223810000013
其中,m表示所述第二通话片段,M表示所述第二通话片段的片段总数,s表示说话人,S表示所述说话人的总数,qms是s在所述第二通话片段m中说话的后验概率,ims为所述说话人s在所述第二通话片段m中的指示向量,当所述说话人s在所述第二通话片段m中说话时,ims=1,当所述说话人s在所述第二通话片段m中没有说话时,ims=0;
基于所述目标模型和所述变分贝叶斯算法获取说话人的后验概率的表达式,
Figure FDA0003344223810000014
其中,s表示说话人,S表示所述说话人的总数,ys表示每个所述说话人s的所述第二通话片段,Q(Y)服从均值是μs,协方差为
Figure FDA0003344223810000021
的高斯分布;
基于变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新;
根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的所述第二通话片段。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一通话片段进行切割,得到至少三个第二通话片段,包括:
基于贝叶斯信息准则和似然比,在所述第一通话片段中检测并得到说话人的转变点;
根据所述说话人的转变点将所述第一通话片段进行切割,得到至少三个所述第二通话片段。
3.根据权利要求1所述的方法,其特征在于,在所述采用变分贝叶斯算法在所述目标模型中确定相同的说话人的第二通话片段之前,还包括:
初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对;
计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人;
重复预设次数的初始化所述第二通话片段的后验概率中说话人的个数,将所述第二通话片段的后验概率中每个不同的说话人作为一对和计算每一对所述说话人之间的距离,得到距离最远的两个所述说话人的步骤,得到在所述预设次数的步骤中距离最远的两个所述说话人,并将在所述预设次数的步骤中距离最远的两个所述说话人作为变分贝叶斯计算的起点。
4.根据权利要求1或3任一项所述的方法,其特征在于,所述采用变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新,包括:
将所述第二通话片段的后验概率Q(I)中的qms更新为
Figure FDA0003344223810000022
其中,
Figure FDA0003344223810000031
s′用于区分qms中的s,表示更新前的s,
Figure FDA0003344223810000032
中的T表示转置矩阵运算,L为协方差L-1的逆,tr(.)表示矩阵的迹运算,const表示与说话人的无关项;所述说话人的后验概率Q(Y)的更新表示为
Figure FDA0003344223810000033
Λ为协方差Λ-1的逆,
Figure FDA0003344223810000034
是说话人后验概率的协方差,Cs是协方差的逆。
5.一种通话分离装置,其特征在于,所述装置包括:
原始通话片段获取模块,用于获取原始通话片段,所述原始通话片段包括至少两个不同说话人的通话片段;
第一通话片段获取模块,用于采用静音检测去除所述原始通话片段中的静音片段,得到第一通话片段;
第二通话片段获取模块,用于将所述第一通话片段进行切割,得到至少三个第二通话片段,其中,一个所述说话人对应一个或多个所述第二通话片段;
目标模型获取模块,用于获取每个所述第二通话片段的i-vector特征,采用预先训练好的双协方差概率线性判别分析模型对每个所述i-vector特征进行建模,得到每个所述第二通话片段的目标模型;
统一标签模块,用于基于所述目标模型,采用变分贝叶斯算法确定相同的说话人的第二通话片段,并将所述相同的说话人的所述第二通话片段标记成统一的标签;
所述目标模型的表达式φm=yk+∈m,其中,φm表示第m个所述第二通话片段提取的i-vector特征,y表示所述第二通话片段的与说话人关联向量,k为使imk=1的索引,im表示与所述第二通话片段的指示向量,
Figure FDA0003344223810000035
Figure FDA0003344223810000036
表示第m个所述第二通话片段的说话人无关向量∈服从均值为0,协方差为L-1的高斯分布,所述统一标签模块,包括:
第二通话片段后验概率获取单元,用于基于所述目标模型和所述变分贝叶斯算法获取第二通话片段的后验概率的表达式,
Figure FDA0003344223810000041
其中,m表示所述第二通话片段,M表示所述第二通话片段的片段总数,s表示说话人,S表示所述说话人的总数,qms是s在所述第二通话片段m中说话的后验概率,ims为所述说话人s在所述第二通话片段m中的指示向量,当所述说话人s在所述第二通话片段m中说话时,ims=1,当所述说话人s在所述第二通话片段m中没有说话时,ims=0;
说话人后验概率获取单元,用于基于所述目标模型和所述变分贝叶斯算法获取说话人的后验概率的表达式,
Figure FDA0003344223810000042
其中,s表示说话人,S表示所述说话人的总数,ys表示每个所述说话人s的所述第二通话片段,Q(Y)服从均值是μs,协方差为
Figure FDA0003344223810000043
的高斯分布;
更新单元,用于基于变分贝叶斯算法对所述第二通话片段的后验概率Q(I)和所述说话人的后验概率Q(Y)进行更新;
确定单元,用于根据更新后的Q(I)和更新后的Q(Y)确定相同的说话人的所述第二通话片段。
6.根据权利要求5所述的装置,其特征在于,所述第一通话片段获取模块,包括:
转变点获取单元,用于基于贝叶斯信息准则和似然比,在所述第一通话片段中检测并得到说话人的转变点;
第二通话片段获取单元,用于根据所述说话人的转变点将所述第一通话片段进行切割,得到至少三个所述第二通话片段。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述通话分离方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述通话分离方法的步骤。
CN201811347184.3A 2018-11-13 2018-11-13 通话分离方法、装置、计算机设备及存储介质 Active CN109360572B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811347184.3A CN109360572B (zh) 2018-11-13 2018-11-13 通话分离方法、装置、计算机设备及存储介质
PCT/CN2018/123553 WO2020098083A1 (zh) 2018-11-13 2018-12-25 通话分离方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811347184.3A CN109360572B (zh) 2018-11-13 2018-11-13 通话分离方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109360572A CN109360572A (zh) 2019-02-19
CN109360572B true CN109360572B (zh) 2022-03-11

Family

ID=65344905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811347184.3A Active CN109360572B (zh) 2018-11-13 2018-11-13 通话分离方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109360572B (zh)
WO (1) WO2020098083A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN113129893B (zh) * 2019-12-30 2022-09-02 Oppo(重庆)智能科技有限公司 一种语音识别方法、装置、设备及存储介质
CN112071438B (zh) * 2020-09-29 2022-06-14 武汉东湖大数据交易中心股份有限公司 一种百日咳智能筛查方法及***
CN112669855A (zh) * 2020-12-17 2021-04-16 北京沃东天骏信息技术有限公司 语音处理方法和装置
CN113051426A (zh) * 2021-03-18 2021-06-29 深圳市声扬科技有限公司 音频信息分类方法、装置、电子设备及存储介质
CN113707173B (zh) * 2021-08-30 2023-12-29 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN115168643B (zh) * 2022-09-07 2023-04-07 腾讯科技(深圳)有限公司 音频处理方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与***
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及***
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
WO2018005620A1 (en) * 2016-06-28 2018-01-04 Pindrop Security, Inc. System and method for cluster-based audio event detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147438B2 (en) * 2017-03-02 2018-12-04 International Business Machines Corporation Role modeling in call centers and work centers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018005620A1 (en) * 2016-06-28 2018-01-04 Pindrop Security, Inc. System and method for cluster-based audio event detection
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与***
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及***
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法

Also Published As

Publication number Publication date
WO2020098083A1 (zh) 2020-05-22
CN109360572A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
US11996091B2 (en) Mixed speech recognition method and apparatus, and computer-readable storage medium
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN107564513B (zh) 语音识别方法及装置
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
WO2018113243A1 (zh) 语音分割的方法、装置、设备及计算机存储介质
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
WO2016095218A1 (en) Speaker identification using spatial information
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
WO2012075640A1 (en) Modeling device and method for speaker recognition, and speaker recognition system
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
Wu et al. An efficient voice activity detection algorithm by combining statistical model and energy detection
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN112802498B (zh) 语音检测方法、装置、计算机设备和存储介质
Jiang et al. Mobile phone identification from speech recordings using weighted support vector machine
CN106910494B (zh) 一种音频识别方法和装置
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
CN114023336A (zh) 模型训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant