CN116364102A - 一种数据处理方法及装置、设备、存储介质 - Google Patents
一种数据处理方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN116364102A CN116364102A CN202111627928.9A CN202111627928A CN116364102A CN 116364102 A CN116364102 A CN 116364102A CN 202111627928 A CN202111627928 A CN 202111627928A CN 116364102 A CN116364102 A CN 116364102A
- Authority
- CN
- China
- Prior art keywords
- speakers
- speaker
- network
- predicted
- separation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 238000000926 separation method Methods 0.000 claims abstract description 143
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000003595 spectral effect Effects 0.000 claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 37
- 238000006073 displacement reaction Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000010339 dilation Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种数据处理方法及装置、设备、存储介质,涉及数据处理技术领域,包括:对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。本申请通过置换不变性损失函数对说话人分离模型进行训练,得到说话人分离模型可以实现对任意数量的说话人语音数据进行分离;提高了说话人分离模型的应用场景。
Description
技术领域
本申请涉及数据处理技术领域,涉及但不限于一种数据处理方法及装置、设备、存储介质。
背景技术
相关技术中,端到端的说话人分离模型的实现主要包括:配置说话人分离模型中的说话人数,基于该人数建立说话人分离模型的参数;然后采用端到端的训练方式,对说话人分离模型进行训练,从而实现给说话人分离模型,输入与该说话人数数量相同的说话人语音数据时,输出每个说话人对应的语音数据。
因此,相关技术中的端到端的说话人分离模型,只能在有音频数据包含的人数的已知的情况下,基于该已知的说话人数建立说话人分离模型,无法对任意人数的音频数据进行处理。
发明内容
本申请提供一种数据处理方法及装置、设备、存储介质,本申请通过置换不变性损失函数对说话人分离模型进行训练,这样得到说话人分离模型可以实现对任意数量的说话人语音数据进行分离;提高了说话人分离模型的应用场景。
本申请的技术方案是这样实现的:
本申请实施例提供了一种数据处理方法,所述方法包括:
对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;
将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;
利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;
至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
本申请实施例提供了一种数据处理装置,所述装置包括:
预处理单元,用于对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;
说话人分离单元,用于将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;
计算单元,用于利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;
调整单元,用于至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理方法。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法。
本申请实施例所提供的数据处理方法、装置、设备及存储介质,包括:对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。本申请通过置换不变性损失函数对说话人分离模型进行训练;由于置换不变性损失只关注输出结果在内容上的差异性,例如,关注输出结果是说话人A和说话人B;而不关注说话人之间的顺序,即不关注具体是说话人A、说话人B;还是说话人B、说话人A;这样训练得到的说话人分离模型重点在于区分不同的说话人,所以该说话人分离模型对应用场景没有限定,可以实现对任意数量的说话人语音数据的分离。
附图说明
图1为本申请实施例提供的数据处理***的一种可选的结构示意图;
图2为本申请实施例提供的数据处理方法的一种可选的流程示意图;
图3为本申请实施例提供的数据处理方法的一种可选的流程示意图;
图4为本申请实施例提供的数据处理方法的一种可选的流程示意图;
图5为本申请实施例提供的数据处理方法的一种可选的流程示意图;
图6为本申请实施例提供的数据处理方法的一种可选的流程示意图;
图7为本申请实施例提供的深度残差时间扩张卷积网络的一种可选的结构示意图;
图8为本申请实施例提供的时间扩张卷积块的一种可选的结构示意图;
图9为本申请实施例提供的注意力网络的一种可选的结构示意图;
图10为本申请实施例提供的线性近似的全局注意力网络的一种可选的结构示意图;
图11为本申请实施例提供的数据处理装置的一种可选的结构示意图;
图12为本申请实施例提供的电子设备的一种可选的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅是为例区别不同的对象,不代表针对对象的特定排序,不具有先后顺序的限定。可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例可提供数据处理方法及装置、设备和存储介质。实际应用中,数据处理方法可由数据处理装置实现,数据处理装置中的各功能实体可以由电子设备(数据处理端)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。
本申请实施例提供的数据处理方法应用于数据处理***,数据处理***包括数据处理端。
数据处理端用于执行:对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
可选的,数据处理***还可以包括客户端。客户端用于获取音频数据。
作为一示例,数据处理***的结构可如图1所示,包括:数据处理端10、客户端20。数据处理端10与客户端20之间可以通过网络30进行通信。
这里,数据处理端10用于执行:对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
其中,数据处理端10可以包括物理机(例如服务器等),或者虚拟机(例如云平台等)具有相关数据处理能力的电子设备。
客户端20用于获取音频数据。在一示例中,客户端用户采集多个说话人的音频数据。
其中,客户端20可以包括话筒、麦克风、手机等等具有音频处理能力的电子设备。
网络30用于数据处理端10与客户端20之间通信。在一示例中,网络30用于将客户端20采集的音频数据发送至数据处理端10。其中,网络30可以为有线网络,或者无线网络等等。
下面,结合图1所示的数据处理***的示意图,对本申请实施例提供的数据处理方法及装置、设备和存储介质的各实施例进行说明。
本申请实施例提供一种数据处理方法,该方法应用于数据处理装置,其中,数据处理装置可部署于作为数据处理端10的电子设备上。
图2示意了一种可选的数据处理方法的流程示意图,其中,本申请实施例提供的数据处理方法,用于创建一个端到端的说话人分离模型。
该数据处理方法可以包括但不限于图2所示的下述S201至S204。
S201、数据处理端对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征。
第一音频帧为音频数据中的一个处理单位,在音频数据的数据量较大的情况下,可以将音频数据划分为多个第一音频帧,参考本申请实施例对第一音频帧的处理方法,对该多个第一音频帧进行处理。
本申请实施例对第一音频帧的帧数以及第一音频帧的内容不作具体限定,可以根据实际需求进行配置。示例性的,可以将第一音频帧的帧数配置为20。示例性的,第一音频帧为音频数据中连续的20帧音频数据。
在一示例中,第一音频帧包括M个说话人的语音数据;M大于或等于2。
S201可以实施为:数据处理端将第一音频帧一维的时域信息转换为高维的频域信息;并将高维的频域信息作为第一音频帧对应的频谱特征。
本申请实施例对于将一维时域信息转换为高维频域信息的具体转换方式不作限定,可以根据实际需求进行配置。
在一种可能的实施方式中,在第一音频帧的帧数为20的情况下,S201可以实施为:数据处理端对第一音频帧中的每一个音频帧执行以下处理,得到20个64维的log-mel频谱特征;然后将该20个64维的对数梅尔倒谱(log-mel)频谱特征进行拼接,得到高维频域信息,作为一个频域特征。
其中,数据处理端对第一音频帧中的每一个音频帧执行以下处理可以实现为:数据处理端将一个音频帧的一维的时域信息利用傅里叶变换与梅尔倒谱系数计算,提取到该音频帧的64维的log-mel频谱特征。
S202、数据处理端将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人。
其中,L大于或等于1。L个第一预测说话人为通过说话人分离模型预测的第一音频帧中的说话人。
S202可以实施为:数据处理端将该频谱特征输入至说话人分离模型,通过说话人分离模型对该频谱特征进行分析,通过该分析预测该频谱特征对应的第一预测说话,得到L个第一预测说话人。
需要说明的是,L可能与M相同,L也可能与M不同。
S203、数据处理端利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值。
M个真实说话人用于表征实际上第一音频数据的说话人。本申请实施例对M个真实说话人的具体表现形式不作限定,可以根据实际需求进行配置。在一种可能的实施方式中,可以通过预先配置的标签表征M个真实说话人。例如,可以通过定义的um,t=1,表示说话人m在第t帧(相当于第一音频帧)未说话;可以通过定义的um,t=0,表示如果说话人m在第t帧未说话;基于多个定义的标签可以得知M个真实说话人。
置换不变性损失函数用于表征针对不同对象集合,按照组合的方式计算损失。本申请实施例对置换不变性损失函数不作具体限定可以根据实际需求进行配置。具体的,若第一集合与第二集合相同,则第一损失值等于零;若第一集合与第二集合不同,则第一损失值不等于零;第一集合包括L个第一预测说话人,第二集合包括M个真实说话人。
示例性的,若第一集合与第二集合相同,则第一损失值等于零;若第一集合包含第二集合,则第一损失值大于零;若第二集合包含第一集合,则第一损失小于零。
在一示例中,置换不变性损失函数可以为置换不变的交叉熵损失函数。
S204、数据处理端至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
本申请实施例对具体的调整算法不作限定可以根据实际需求进行配置。例如可以为基础反向传播算法或者神经网络反向传播算法等等。
S204的实施可以包括但不限于下述实施方式1或实施方式2。
实施方式1、数据处理端基于第一损失值,反向调整说话人分离模型中的参数,以得到收敛的说话人分离模型。
示例性的,在第一损失值大于零的情况下,以第一方向为处理维度,反向调整说话人分离模型中的参数;在第一损失值小于零的情况下,以第二方向为处理维度,反向调整说话人分离模型中的参数;在第一损失值等于零的情况下,不作调整。其中,第一方向与第二方向相反。例如,在第一方向为增大的情况下,第二方向为减小。
实施方式2、数据处理端基于第一损失值和第二损失值,反向调整说话人分离模型中的参数,以得到收敛的说话人分离模型。
实施方式2的具体实现可以参考下述SB06至SB08的具体描述,此处不再一一说明。
本申请实施例提供的数据处理方法,包括:对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。本申请通过置换不变性损失函数对说话人分离模型进行训练;由于置换不变性损失只关注输出结果在内容上的差异性,例如,关注输出结果是说话人A和说话人B;而不关注说话人之间的顺序,即不关注具体是说话人A、说话人B;还是说话人B、说话人A;这样训练得到的说话人分离模型重点在于区分不同的说话人,所以该说话人分离模型对应用场景没有限定,可以实现对任意数量的说话人语音数据的分离。
下面,对S202数据处理端将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人的过程进行说明,具体可以包括但不限于下述实施方式A至实施方式D中的任一项。
实施方式A、说话人分离模型包括第一卷积网络和第一说话人识别网络,基于第一卷积网络和第一说话人识别网络得到L个第一预测说话人;
实施方式B、说话人分离模型包括第一卷积网络、第一说话人识别网络以及第二卷积网络,基于第一卷积网络、第一说话人识别网络以及第二卷积网络得到L个第一预测说话人;
实施方式C、说话人分离模型包括第一卷积网络、第一说话人识别网络以及全局注意力网络,基于第一卷积网络、第一说话人识别网络以及全局注意力网络得到L个第一预测说话人;
实施方式D、说话人分离模型包括第一卷积网络、第一说话人识别网络、第二卷积网络以及全局注意力网络,基于第一卷积网络、第一说话人识别网络、第二卷积网络以及全局注意力网络得到L个第一预测说话人。
下面,对实施方式A说话人分离模型包括第一卷积网络和第一说话人识别网络,基于第一卷积网络和第一说话人识别网络得到L个第一预测说话人的过程进行说明。该过程可以包括但不限于图3所示的SA01和SA02。
SA01、数据处理端将所述频谱特征输入至所述第一卷积网络;通过所述第一卷积网络对所述频谱特征进行处理,得到第一特征。
本申请实施例第一卷积网络的具体网络类型以及网络结构不作限定,可以根据实际需求进行配置。
在一示例中,第一卷积网络可以包括:深度残差时间扩张卷积网络。其中,深度参数时间扩张卷积网络包括多个时间扩张卷积层构成,一个时间扩张卷积层包括多个时间扩展卷积块。
示例性的,SA01可以实施为:数据处理端将频谱特征输入至第一卷积网络;通过所述第一卷积网络中的多个时间扩张卷积层中的时间扩展卷积块对该频谱特征进行卷积处理,从而得到第一特征。
其中,第一特征为一个抽象特征,本申请实施例对第一特征的具体表现形式不作限定。在一示例中,第一特征为一个多维的张量。
SA02、数据处理端将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人。
本申请实施例对第一说话人识别网络的具体网络类型和网络结构不作具体限定,可以根据实际需求进行配置。在一示例中,第一说话人识别网络可以包括:全连接层与sigmoid激活函数。
SA02可以实施为:数据处理端将该第一特征输入至第一说话人识别网络,通过第一说话人识别网络对第一特征进行处理,预测第一特征对应的第一预测说话人,从而得到L个第一预测说话人。
可选的,在执行SA01之前,本申请实施例提供的数据处理方法还可以先执行下述SA03,通过SA03对第一卷积网络的网络结构进行调整,然后基于调整结构后的第一卷积网络,执行SA01。
SA03、数据处理端对所述P个时间扩张卷积层中的每个时间扩张卷积层,执行以下处理。
其中,P大于或等于2。
数据处理端获取时间卷积层包括的至少两个时间卷积块;对该至少两个时间卷积块中的每个时间卷积块执行第一处理;第一处理包括:将该时间卷积块中的标准卷积替换为分段卷积和点卷积。换而言之,第一处理可以将时间卷积块中的标准卷积计算方式替换为分段卷积的计算方式与点卷积的计算方式。
下面,对实施方式B说话人分离模型包括第一卷积网络、第一说话人识别网络以及第二卷积网络,基于第一卷积网络、第一说话人识别网络以及第二卷积网络得到L个第一预测说话人的过程进行说明。
其中,与实施方式A的不同之处在于,在实施方式B中,如图4所示,还可以包括下述SB01和SB02。
SB01、数据处理端将所述频谱特征输入至所述第二卷积网络;通过所述第二卷积网络对所述频谱特征进行处理,得到第二特征。
SB01的具体实施可以参考SA01、数据处理端将所述频谱特征输入至所述第一卷积网络;通过所述第一卷积网络对所述频谱特征进行处理,得到第一特征的详细描述。
需要说明的是,第二卷积网络可以与第一卷积网络相同,或者,第二卷积网络也可以与第一卷积网络不同。
SB02、数据处理端将所述第二特征叠加至所述第一特征,得到叠加后的第一特征。
本申请实施例对具体的叠加方式不作限定,可以根据实际需求进行配置。
在一种可能的实施方式中,数据处理端可以将第二特征与第一特征直接按照对应的位进行相加,得到叠加后的第一特征。
在另一种可能的实施方式中,数据处理端可以将第二特征乘以第三权重值得到第三乘积,将第一特征乘以第四权重值得到第四乘积,然后将第三乘积与第四乘积按照对应的位进行相加,得到叠加后的第一特征。
其中,对于第三权重值和第四权重值,可以根据实际需求进行配置。在一示例中,第三权重值可以为0.5,第四权重值可以为0.5;在另一示例中,第三权重值可以为0.6,第四权重值可以为0.4。
对应的,SA02、数据处理端将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人的实施可以包括:将叠加后的第一特征输入至第一说话人识别网络,通过第一说话人识别网络对叠加后的第一特征进行处理,得到L个第一预测说话人。
针对实施方式B、本申请实施例提供的数据处理方法在执行SB01数据处理端将所述频谱特征输入至所述第二卷积网络;通过所述第二卷积网络对所述频谱特征进行处理,得到第二特征之前,还可以先对第二网络进行训练,然后基于训练好的第二网络执行SB01。其中,如图4所示,该训练过程可以包括但不限于下述SB03至SB05。
SB03、数据处理端将所述第二特征输入至第二说话人识别网络,通过所述第二说话人识别网络对所述第二特征进行处理,输出N个第二预测说话人。
其中,第二说话人识别网络可以与第一说话人识别网络相同;或者,第二说话人识别网络也可以与第一说话人识别网络不同。
SB03的具体实施可以参考SA02数据处理端将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人的具体描述,此处不再一一赘述。
SB04、数据处理端计算所述N个第二预测说话人与所述M个真实说话人之间的第二损失值。
本申请实施例对第二损失值的计算方式不作具体限定,可以根据实际需求进行配置。在一示例中,可以通过二值交叉熵损失函数计算N个第二预测说话人与M个真实说话人之间的第二损失值。
SB05、数据处理端于所述第二损失值,反向调整所述第二卷积网络中的参数;以使第一距离大于或等于第一距离阈值。
第一距离为第一特征与第二特征之间的距离;第一特征对应的说话人与第二特征对应的说话人不同。
本申请实施例对第一距离阈值的取值不作限定,可以根据实际需求进行配置。
SB05的具体实施可以参考S204数据处理端至少基于所述第一损失值,反向调整所述说话人分离模型中的参数的具体描述,此处不再一一赘述。
需要说明的是,与S204不同的是,SB05中调整的目的是使第一距离与第二距离之间的距离大于或等于第一距离阈值。简单来说,使调整后的第二卷积网络针对不同的说话人,输出的第二特征之间的距离越大。
这样,训练后的第二卷积网络针对不同的说话人,输出的第二特征之间的区别越明显;提高了说话人分离模型的准确度。
针对实施方式B,在说话人分离模型包括第二卷积网络的情况下,还可以通过置换不变性损失与说话人识别损失对说话人分离模型进行联合训练,该联合训练过程可以包括的但不限于下述SB06至SB08。
SB06、数据处理端获取第二损失值。
第二损失值为N个第二预测说话人与M个真实说话人之间的损失值;其中,N个第二预测说话人是通过第二卷积网络输出的第二特征得到的。
N个第二预测说话人的获取过程可以参考SB01、数据处理端将所述频谱特征输入至所述第二卷积网络;通过所述第二卷积网络对所述频谱特征进行处理,得到第二特征;SB03数据处理端将所述第二特征输入至第二说话人识别网络,通过所述第二说话人识别网络对所述第二特征进行处理,输出N个第二预测说话人的详细描述,此处不再一一赘述。
SB07、数据处理端确定第三损失值为第一乘积与第二乘积的和。
第一乘积为第一损失值乘以第一权重值的结果;第二乘积为第二损失值乘以第二权重值的结果。
本申请实施例对第一权重值与第二权重值的具体大小不作限定,可以根据实际需求进行配置。例如,第一权重值可以为0.5,第二权重值可以为0.5;再例如,第一权重值可以为0.6;第二权重值可以为0.4。
SB07可以实施为:数据处理端将第一损失值乘以第一权重值得到第一乘积;将第二损失值乘以第二权重值得到第二乘积,将第一乘积与第二乘积之和作为第三损失值。
SB08、数据处理端基于所述第三损失值,反向调整所述说话人分离模型中的参数。
SB08的具体实施可以参考204、数据处理端至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型的具体描述,此处不再一一赘述。
下面,对实施方式C说话人分离模型包括第一卷积网络、第一说话人识别网络以及全局注意力网络,基于第一卷积网络、第一说话人识别网络以及全局注意力网络得到L个第一预测说话人的过程进行说明。如图5所示,该过程可以包括但不限于下述SC01至SC03。
SC01、数据处理端将所述M个第一音频帧输入至所述第一卷积网络,通过所述第一卷积网络对所述M个音频帧进行处理,得到M个第一特征。
SC01的具体实施可以参考SA01数据处理端将所述频谱特征输入至所述第一卷积网络;通过所述第一卷积网络对所述频谱特征进行处理,得到第一特征的具体描述,此处不再一一赘述。
SC02、数据处理端通过所述全局注意力网络,对所述M个第一特征进行下述第一公式的计算,得到M个新第一特征。
第一公式包括:O=f(Q)(f(K)TV);
数据处理端通过全局注意力网络,采用第一公式对第一特征进行优化,得到新第一特征;这样可以提高说话人分离模型的准确度。
SC03、数据处理端针对所述M个新第一特征中的每个新第一特征执行:将所述新第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对所述新第一特征进行处理,得到所述L个第一预测说话人。
SC03的具体实施可以参考SA02数据处理端将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人的具体描述,此处不再一一赘述。
需要说明的是,对于实施方式D的具体实施过程可以参考上述实施方式A至实施方式C的具体描述,此处不再一一赘述。
下面以会议场景下的说话人分离模型为例,对本申请实施例提供的数据处理方法进行说明。
说话人分离是会议等场景下语音收集及分析的重要内容。目前,说话人识别与分离方法主要包括传统方法和深度学习方法。
传统方法主要包括:将语音数据输入高斯混合模型-全局背景模型(GaussianMixed Model-Universal Background Model,GMM-UBM),通过GMM-UBM模型计算得到语音数据中的语音特征,然后将语音特征输入至聚类算法,利用聚类算法得到语音特征对应的说话人。
基于深度学习的方法具体分为两种:
第一种的实现主要包括:使用大量音频数据训练得到声纹子模型,声纹子模型可以根据音频数据提取声纹特征;基于聚类算法建立说话人识别子模型;说话人识别子模型可以根据不同的声纹特征得到对应的说话人,将声纹子模型与说话人识别子模型作为说话人分离模型。
第二种的实现主要包括:配置说话人分离模型中的说话人数,基于该人数建立说话人分离模型的参数;然后采用端到端的训练方式,对说话人分离模型进行训练,从而实现给说话人分离模型,输入与该说话人数数量相同的说话人语音数据时,输出每个说话人对应的语音数据。
相关技术具有以下缺点:
对于传统方法,不能克服语音信道的干扰信息,并且当数据规模增大时,效果下降;
对于深度学习的第一种方法,其结果的同时依赖于声纹子模型与说话人识别子模型,所以稳定性较差;并且,需要单独为声纹子模型与说话人识别子模型进行建模,两次建模过程使实现较繁琐;
对于深度学习的第二种方法,只能在有音频内包含人数的已知的情况下,建立说话人分离模型,不能处理含有任意人数的音频数据。
本申请实施例提出一种数据处理方法,在对音频数据进行说话人分离时,具有以下特点:
1、可以实现对可变人数的音频数据进行端到端的说话人分离;
2、利用局部和全局的上下文信息,构建说话人分离模型,提高模型的鲁棒性和分离性能;
3、通过线性近似的注意力机制,进一步降低计算的复杂度,提高了对长时间的音频数据的处理能力。
下面,以基于深度学习的端到端的说话人分离模型为例,对本申请实施例提供的数据处理方法进行说明。该方法可以包括但不限于下述S1至S6。
S1、采集原始音频(相当于音频数据)并提取频域特征(相当于频谱特征)。
S2、使用残差时间扩张卷积网络(相当于第一卷积网络或者第二卷积网络)提取抽象特征。
S3、加入说话人识别损失(相当于第二损失值),与说话人分离模型联合训练。
S4、将带有局部上下文信息的抽象特征(相当于第一特征),输入具有更低计算复杂度的全局注意力模块(相当于全局注意力网络)。
S5、利用置换不变性损失(相当于第一损失值),联合说话人识别损失相当于第二损失值,对说话人分离模型进行联合训练。
S6、使用级联体系结构,利用置换不变性损失进行网络学习优化,细优化预测结果。
如图6所示,本申请实施提供的数据处理方法的各部分实施细节如下:
步骤P10、采集原始音频数据。
其中,该原始音频数据为多个人的语音数据。
步骤P20、提取频域特征。
由于采集的原始音频属于一维的原始时域信息,所以,需要将一维的原始时域信息,变换为高维频域信息,作为频域特征。
具体可以包括:首先,利用傅里叶变换与梅尔倒谱系数计算,对原始音频数据中的每帧音频进行处理,提取到每帧的64维的log-mel频谱特征,将相邻的20帧的短时语音的频谱特征进行拼接,得到高维频域信息,作为一个频域特征。并且,以4帧的步长进行帧移,得到多个频域特征。
其中,步骤P20中提取的频域特征作为步骤P30和P40的输入。
步骤P30、使用深度残差时间扩张卷积网络,对频域特征进行处理,提取对应的抽象特征。
深度残差时间扩张卷积网络(相当于第一卷积网络)的结构如图7所示,深度残差时间扩张卷积网络在获取到输入后,先进行层批量归一化;然后进行点卷积运算,然后通过各个时间扩展卷积层的处理,最后将各时间扩张卷积层的数据进行相加后输出。其中,深度残差时间扩张卷积网络的每一层都由时间扩张卷积块构成,在每一层的卷积块内,扩张因子D呈指数级增长,以保证有足够大的时间上下文窗口。时间上下文窗口与前后相关帧的数量相关。
其中,图2中的N表示每组卷积块内有N个时间扩张卷积块。
需要说明的是,在每个时间扩张卷积块的输入相应的做了零填充,确保输出长度与输入长度相同。
图8为一个时间扩张卷积块的结构图。时间扩张卷积块在获取到输入后,分别进行点卷积、非线性激活函数、归一化、时间扩张卷积、非线性激活函数、归一化、点卷积以及点卷积的处理后生成输出信息和跳跃连接信息。
参考图7和图8,一个时间扩展卷积块的第一输出(图8中的输出)作为下一个时间扩张卷积块的输入,一个时间卷积块的第二输出(图8中的跳跃连接)作为图7中横向输出的一部分。
为了进一步减少参数的数量,使用分段可分离卷积(F-conv(·))替换每个时间扩张卷积块内部的标准卷积。
分段可分离卷积将标准卷积解耦为两个连续操作,即分段卷积(D-conv(·))和点卷积(1×1-conv(·))。
分段卷积可以表示为下述公式(1):
其中,Y表示分段离卷积的输入,Y∈RG×M;K表示卷积核的大小,K∈RG×P;concat表示拼接计算;yj∈R1×M,M表示矩阵和Y的行数;kj∈R1×P,P表示矩阵K的行数;Q表示矩阵的维度。
分段可分离卷积可以表示为下述公式(2):
简而言之,分段卷积(D-conv(·))操作主要是将输入的每行与对应矩阵行进行卷积;而点卷积(1×1-conv(·))主要是实现线性变换特征空间的功能(实现特征通道数的升维与降维,进行通道间性息的线性组合变化计算方式的变化)。
步骤P40、使用深度残差时间扩张卷积网络,对频域特征进行处理,提取对应的抽象特征。
与P30不同的是,在P40中,需要通过说话人识别网络和说话人识别损失,对深度残差时间扩张卷积网络(相当于第二卷积网络)进行训练,以使深度残差时间扩张卷积网络,针对不同说话人,提取的抽象特征之间的差异性越明显。
其中,说话人识别损失可以通过述公式(3)得到。
训练过程可以包括:对于输入的每一个抽象特征,通过说话人识别网络,识别出对应的说话人;然后通过话人识别损失函数计算出说话人识别损失,通过该损失值调整深度残差时间扩张卷积网络,以使深度残差时间扩张卷积网络,针对不同说话人,提取的抽象特征之间的差异性越明显。
其中,定义说话人标签向量ut∈RN;RN表示说话人标签向量是一个N维的向量,N为集中训练的说话人数量。若说话人m在第t帧说话,则通过um,t=1表示,如果说话人m在第t帧未说话,则通过um,t=0。对于同一个抽象特征中存在多个说话人说话的情况,则通过多个um,t=1表示。
步骤P50、将P30与P40步骤的输出结合之后作为线性近似的全局注意力网络的输入。
在一种可能的实施方式中,将P30提取的抽象特征与P40提取的抽象特征通过相加的方式进行结合,然后将结合后的结果(相当于叠加后的第一特征)作为线性近似的全局注意力网络的输入。
注意力网络的结构可以图如图9所示,主要针对Q、K和V进行张量点积、尺度缩放、张量掩膜、softmax计算以及张量点积对应的处理过程;具体可以通过下述公式(4)来表示。
其中,O表示注意力网络的输出;softmax表示softmax计算;Q表示给定的查询向量(相当于结合后的特征向量)、K表示键向量(相当于特征向量的得分)、V表示值向量V(相当于结合后的特征向量的一个映射);dk表示键向量的维度;T表示转置运算。
由于自注意力模型占用的内存与计算复杂度,对输入序列长度具有依赖性,所以在输入序列长度较大时,通过softmax计算,计算量较大,实现的复杂度较高。
为了避免过大的资源占用,本申请实施例采用一种线性近似的全注意力计算。线性近似的全局注意力网络的结构如图10所示。主要针对Q、K和V进行线性映射、尺度缩放、张量掩膜、第一张量点积以及第二张量点积对应的处理过程;具体可以通过下述公式(5)来表示。
O=f(Q)(f(K)TV) 公式(5);
其中,O表示注意力网络的输出;Q表示给定的查询向量(相当于结合后的特征向量)、K表示键向量(相当于特征向量的得分)、V表示值向量V(相当于结合后的特征向量的一个映射)。
f(x)可以表示为下述公式(6)。
其中,0≤β≤1,β用于控制输入x小于零的部分的饱和值。
这种线性近似的全注意力网络占用内存与计算资源较少,实现也较简单。
步骤P60、通过说话人分离层处理得到输出结果。
使用一个全连接层与sigmoid激活函数构成说话人分离层(相当于说话人识别网络)。
该说话人分离层可以对线性近似的全注意力网络的输出进行处理,得到最终的输出Y∈{0,1}N×T。其中,N表示说话人数量的最大值,T表示说话时间。若yn,t=1,表示在说话人n在第t时刻说话,若yn,t=0,表示在说话人n在t时刻未说话。
在有语音重叠发生的部分有∑nyn,t>1。
步骤P70、利用置换不变性损失对说话人分离模型进行训练。
为了使本申请实施例所使用的端到端说话人分离模型,能够处理预测结果与真实标签之间的不同排列,使用置换不变的交叉熵损失训练说话人分离模型。
置换不变的交叉熵损失可以通过下述公式(7)得到。
具体的训练过程包括:计算真实标签与预测标签之间的损失值,通过基本反向传播算法,以降低损失为目标,对说话人分离模型内部的参数进行优化。
本申请实施例具有以下特点:
第一、使用深度残差时间扩张卷积网络,利用局部上下文信息提取抽象特征,并且将标准卷积优化为分段分离卷积,并且把抽象特征应用于说话人识别网络;将说话人识别网络与说话人分离模型联合训练,实现说话人分离模型对于不同的说话人的区分;
第二、提出一种线性近似的全注意力网络的计算方式,减少注意力网络的内存与计算资源的消耗,提升说话人分离模型对长时语音数据的处理能力,并且允许采取更大的注意力模型;
第三、提出一种端到端的说话人分离模型建模方法,并且不需要得到音频数据的人数,能够处理含有任意数量人数的语音数据。
本申请的实施例具有以下技术效果:
第一、端到端的模型,无需另外的聚类步骤,可以处理包含任意数量人数的语音数据;
第二、使用线性近似的全注意力网络,能够处理长时的类似会议记录的语音数据,并且能够减少内存与计算负载;
第三、模型另外加入了说话人识别模型与说话人分离联合训练,提供了一种增加了说话人分离模型区分不同说话人特征的能力,提高了模型的鲁棒性。
图11为本申请实施例的一种数据处理装置的结构示意图,如图11所示,数据处理装置110可以包括预处理单元1101、说话人分离单元1102、计算单元1103和调整单元1104。其中:
预处理单元1101,用于对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;
说话人分离单元1102,用于将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;
计算单元1103,用于利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;
调整单元1104,用于至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
在一些实施例中,所述说话人分离模型包括第一卷积网络和第一说话人识别网络,说话人分离单元1102,还用于执行:
将所述频谱特征输入至所述第一卷积网络;通过所述第一卷积网络对所述频谱特征进行处理,得到第一特征;
将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人。
在一些实施例中,所述第一卷积网络包括P个时间扩张卷积层;数据处理装置110还可以包括第一处理单元;其中,第一处理单元用于在所述将所述频谱特征输入至所述第一卷积网络之前,执行:
对所述P个时间扩张卷积层中的每个时间扩张卷积层,执行以下处理:
获取所述时间卷积层包括的至少两个时间卷积块;
对所述至少两个时间卷积块中的每个时间卷积块执行第一处理;所述第一处理包括:将所述时间卷积块中的标准卷积替换为分段卷积和点卷积;其中,所述P大于或等于2。
在一些实施例中,数据处理装置110还可以包括第二处理单元;其中,第二处理单元用于在所述说话人分离模型还包括第二卷积网络的情况下执行:
将所述频谱特征输入至所述第二卷积网络;通过所述第二卷积网络对所述频谱特征进行处理,得到第二特征;
将所述第二特征叠加至所述第一特征,得到叠加后的第一特征;
对应的,所述将第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人,包括:
将所述叠加后的第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对所述叠加后的第一特征进行处理,得到所述L个第一预测说话人。
在一些实施例中,数据处理装置110还可以包括第三处理单元;其中,第三处理单元用于在所述将所述频谱特征输入至所述第二卷积网络之前,执行:
将所述第二特征输入至第二说话人识别网络,通过所述第二说话人识别网络对所述第二特征进行处理,输出N个第二预测说话人;
计算所述N个第二预测说话人与所述M个真实说话人之间的第二损失值;
基于所述第二损失值,反向调整所述第二卷积网络中的参数;以使第一距离大于或等于第一距离阈值;所述第一距离为第一特征与第二特征之间的距离;所述第一特征对应的说话人与所述第二特征对应的说话人不同。
在一些实施例中,在所述说话人分离模型还包括第二卷积网络的情况下,调整单元1104,还用于执行:
获取第二损失值;所述第二损失值为N个第二预测说话人与所述M个真实说话人之间的损失值;所述N个第二预测说话人是通过所述第二卷积网络输出的第二特征得到的;
确定第三损失值为第一乘积与第二乘积的和;所述第一乘积为第一损失值乘以第一权重值的结果;所述第二乘积为所述第二损失值乘以第二权重值的结果;
基于所述第三损失值,反向调整所述说话人分离模型中的参数。
在一些实施例中,在所述音频数据包括M个第一音频帧,所述说话人分离模型包括第一卷积网络、第一说话人识别网络以及全局注意力网络的情况下,说话人分离单元1102,还用于执行:
将所述M个第一音频帧输入至所述第一卷积网络,通过所述第一卷积网络对所述M个音频帧进行处理,得到M个第一特征;
通过所述全局注意力网络,对所述M个第一特征进行下述第一公式的计算,得到M个新第一特征;所述第一公式包括:O=f(Q)(f(K)TV);其中,所述O表示所述M个新第一特征,所述Q表示所述M个第一特征;所述K和所述V表示预设的参数张量;所述所述0≤β≤1;/>
针对所述M个新第一特征中的每个新第一特征执行:将所述新第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对所述新第一特征进行处理,得到所述L个第一预测说话人。
需要说明的是,本申请实施例提供的数据处理装置包括所包括的各单元,可以通过电子设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Micro ProcessorUnit)、数字信号处理器(DSP,Digital Signal Processor)或现场可编程门阵列(FPGA,Field-Programmable Gate Array)等。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的数据处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中提供的数据处理方法中的步骤。
对应地,本申请实施例提供一种存储介质,也就是计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的数据处理方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图12为本申请实施例电子设备的一种硬件实体示意图,如图12所示,所述电子设备120包括:一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1204和存储器1205。其中,通信总线1202配置为实现这些组件之间的连接通信。其中,用户接口1203可以包括显示屏,外部通信接口1204可以包括标准的有线接口和无线接口。
存储器1205配置为存储由处理器1201可执行的指令和应用,还可以缓存待处理器1201以及电子设备中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;
将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;
利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;
至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
2.根据权利要求1所述的方法,其特征在于,所述说话人分离模型包括第一卷积网络和第一说话人识别网络,所述将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人,包括:
将所述频谱特征输入至所述第一卷积网络;通过所述第一卷积网络对所述频谱特征进行处理,得到第一特征;
将所述第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积网络包括P个时间扩张卷积层;在所述将所述频谱特征输入至所述第一卷积网络之前,所述方法还包括:
对所述P个时间扩张卷积层中的每个时间扩张卷积层,执行以下处理:
获取所述时间卷积层包括的至少两个时间卷积块;
对所述至少两个时间卷积块中的每个时间卷积块执行第一处理;所述第一处理包括:将所述时间卷积块中的标准卷积替换为分段卷积和点卷积;其中,所述P大于或等于2。
4.根据权利要求2所述的方法,其特征在于,所述说话人分离模型还包括第二卷积网络,所述方法还包括:
将所述频谱特征输入至所述第二卷积网络;通过所述第二卷积网络对所述频谱特征进行处理,得到第二特征;
将所述第二特征叠加至所述第一特征,得到叠加后的第一特征;
对应的,所述将第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对第一特征进行处理,得到所述L个第一预测说话人,包括:
将所述叠加后的第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对所述叠加后的第一特征进行处理,得到所述L个第一预测说话人。
5.根据权利要求4所述的方法,其特征在于,在所述将所述频谱特征输入至所述第二卷积网络之前,所述方法还包括:
将所述第二特征输入至第二说话人识别网络,通过所述第二说话人识别网络对所述第二特征进行处理,输出N个第二预测说话人;
计算所述N个第二预测说话人与所述M个真实说话人之间的第二损失值;
基于所述第二损失值,反向调整所述第二卷积网络中的参数;以使第一距离大于或等于第一距离阈值;所述第一距离为第一特征与第二特征之间的距离;所述第一特征对应的说话人与所述第二特征对应的说话人不同。
6.根据权利要求1所述的方法,其特征在于,在所述说话人分离模型还包括第二卷积网络的情况下;所述至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,包括:
获取第二损失值;所述第二损失值为N个第二预测说话人与所述M个真实说话人之间的损失值;所述N个第二预测说话人是通过所述第二卷积网络输出的第二特征得到的;
确定第三损失值为第一乘积与第二乘积的和;所述第一乘积为第一损失值乘以第一权重值的结果;所述第二乘积为所述第二损失值乘以第二权重值的结果;
基于所述第三损失值,反向调整所述说话人分离模型中的参数。
7.根据权利要求1所述的方法,其特征在于,在所述音频数据包括M个第一音频帧,所述说话人分离模型包括第一卷积网络、第一说话人识别网络以及全局注意力网络的情况下;所述将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人,包括:
将所述M个第一音频帧输入至所述第一卷积网络,通过所述第一卷积网络对所述M个音频帧进行处理,得到M个第一特征;
通过所述全局注意力网络,对所述M个第一特征进行下述第一公式的计算,得到M个新第一特征;所述第一公式包括:O=f(Q)(f(K)TV);其中,所述O表示所述M个新第一特征,所述Q表示所述M个第一特征;所述K和所述V表示预设的参数张量;所述所述0≤β≤1;
针对所述M个新第一特征中的每个新第一特征执行:将所述新第一特征输入至所述第一说话人识别网络,通过所述第一说话人识别网络对所述新第一特征进行处理,得到所述L个第一预测说话人。
8.一种数据处理装置,其特征在于,所述装置包括:
预处理单元,用于对音频数据中的第一音频帧进行预处理,得到与所述第一音频帧对应的频谱特征;所述第一音频帧包括M个说话人的语音数据;所述M大于或等于2;
说话人分离单元,用于将所述频谱特征输入至说话人分离模型,通过所述说话人分离模型对所述频谱特征对应的第一预测说话人进行分离,得到L个第一预测说话人;所述L大于或等于1;
计算单元,用于利用置换不变性损失函数,计算所述L个第一预测说话人与M个真实说话人之间的第一损失值;其中,若第一集合与第二集合相同,则所述第一损失值等于零;若所述第一集合与所述第二集合不同,则所述第一损失值不等于零;所述第一集合包括所述L个第一预测说话人,所述第二集合包括所述M个真实说话人;
调整单元,用于至少基于所述第一损失值,反向调整所述说话人分离模型中的参数,以得到收敛的说话人分离模型。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任一项所述的数据处理方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现权利要求1至7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111627928.9A CN116364102A (zh) | 2021-12-28 | 2021-12-28 | 一种数据处理方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111627928.9A CN116364102A (zh) | 2021-12-28 | 2021-12-28 | 一种数据处理方法及装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116364102A true CN116364102A (zh) | 2023-06-30 |
Family
ID=86939287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111627928.9A Pending CN116364102A (zh) | 2021-12-28 | 2021-12-28 | 一种数据处理方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364102A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198272A (zh) * | 2023-11-07 | 2023-12-08 | 浙江同花顺智能科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-28 CN CN202111627928.9A patent/CN116364102A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198272A (zh) * | 2023-11-07 | 2023-12-08 | 浙江同花顺智能科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN117198272B (zh) * | 2023-11-07 | 2024-01-30 | 浙江同花顺智能科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976812B (zh) | 一种语音识别方法及其设备 | |
CN110136690A (zh) | 语音合成方法、装置及计算机可读存储介质 | |
CN108804453B (zh) | 一种视音频识别方法及装置 | |
Vinyals et al. | Learning with recursive perceptual representations | |
CN111178507B (zh) | 图谱卷积神经网络数据处理方法及装置 | |
CN113298096B (zh) | 训练零样本分类模型的方法、***、电子设备及存储介质 | |
Mo et al. | Neural architecture search for keyword spotting | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN112584062B (zh) | 背景音频构建方法及装置 | |
CN112861524A (zh) | 一种基于深度学习的多层次中文细粒度情感分析方法 | |
WO2022083165A1 (en) | Transformer-based automatic speech recognition system incorporating time-reduction layer | |
CN112804558B (zh) | 视频拆分方法、装置及设备 | |
CN111274412A (zh) | 信息提取方法、信息提取模型训练方法、装置及存储介质 | |
CN113196385B (zh) | 用于音频信号处理的方法和***及计算机可读存储介质 | |
CN116364102A (zh) | 一种数据处理方法及装置、设备、存储介质 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及*** | |
CN113762503A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN113378866B (zh) | 图像分类方法、***、存储介质及电子设备 | |
CN116167014A (zh) | 一种基于视觉和语音的多模态关联型情感识别方法及*** | |
CN116189714A (zh) | 一种基于多头注意力机制和MobileNet的语音情感识别方法 | |
CN113095435B (zh) | 视频描述生成方法、装置、设备及计算机可读存储介质 | |
CN115116470A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN112820298B (zh) | 声纹识别方法及装置 | |
CN114581721A (zh) | 基于二值神经网络的多光谱图像轻量化分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |