CN111179911B - 目标语音提取方法、装置、设备、介质和联合训练方法 - Google Patents
目标语音提取方法、装置、设备、介质和联合训练方法 Download PDFInfo
- Publication number
- CN111179911B CN111179911B CN202010002838.XA CN202010002838A CN111179911B CN 111179911 B CN111179911 B CN 111179911B CN 202010002838 A CN202010002838 A CN 202010002838A CN 111179911 B CN111179911 B CN 111179911B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- extraction
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 379
- 238000012549 training Methods 0.000 title claims abstract description 195
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 199
- 239000013074 reference sample Substances 0.000 claims abstract description 77
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 33
- 238000000926 separation method Methods 0.000 claims description 24
- 230000002829 reductive effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供了一种目标语音提取方法、装置、设备、介质和联合训练方法。目标语音提取***包括语音特征提取模型和语音提取模型,目标语音提取***的联合训练方法包括:利用所述语音特征提取模型对训练参考样本语音数据进行特征提取,得到参考语音特征向量,其中,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;利用所述语音提取模型基于训练语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据;利用所述语音提取模型基于所述训练语音数据和融合特征向量进行语音提取,得到所述目标语音数据;以及基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练。
Description
技术领域
本公开涉及语音数据处理领域,更具体地,涉及一种目标语音提取方法、装置、设备、介质和联合训练方法。
背景技术
随着人工智能技术的飞速发展,新兴起来基于人工智能的语音提取***。例如,利用配置用于提取语音数据的神经网络,可以从包括噪音的带噪语音数据中提取出对应于特定说话人的目标语音数据,所述提取或者称为滤波。例如,噪音可以是背景杂音,也可以是对应于除所述特定说话人之外的一个或多个说话人的语音数据。所述神经网络可以包括两个部分:语音特征提取模型和语音提取模型。语音特征提取模型用于从特定说话人的参考样本语音数据中提取出该特定说话人的语音特征,语音提取模型用于基于该特定说话人的语音特征,从带噪语音数据中提取出目标语音数据,所述目标语音数据可以是仅包括该特定说话人的语音数据。
在利用神经网络进行目标语音提取的应用任务之前,需要对神经网络的参数进行训练。一般地,只基于提取的目标语音数据来对语音提取模型的参数进行优化,而并未考虑语音特征提取模型的输出结果,忽视了语音特征提取模型的输出结果对于整个语音提取任务的影响。因此,需要一种优化的语音提取方法以及训练方法,其将前端的语音特征提取模型和后端的语音提取模型结合起来作为一个整体,并且使整个***都最大化地来进行训练和优化,从而有效地提升***的语音提取性能。
发明内容
本公开提供一种基于人工智能的目标语音提取***的联合训练方法,用于对目标语音提取***中包括的语音特征提取模型和语音提取模型进行联合训练,以提高目标语音提取任务的准确性。
根据本公开的一方面,提供了一种目标语音提取***的联合训练方法。其中,所述目标语音提取***包括语音特征提取模型和语音提取模型,所述方法包括:利用所述语音特征提取模型对训练参考样本语音数据进行特征提取,得到参考语音特征向量,其中,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;利用所述语音提取模型基于训练语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据;利用所述语音提取模型基于所述训练语音数据和融合特征向量进行语音提取,得到所述目标语音数据;以及基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练。
根据本公开的另一方面,还提供了一种目标语音提取方法,包括:获取参考样本语音数据和语音数据,其中,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述参考样本语音数据是对应于所述目标对象的纯净语音数据;利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量;利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量;利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据,其中,所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。
根据本公开的又一方面,还提供了目标语音提取装置,接收单元,配置成获取参考样本语音数据和语音数据,其中,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述参考样本语音数据是对应于所述目标对象的纯净语音数据;语音特征提取单元,配置成利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量;语音提取单元,配置成利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量;以及利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据,其中,所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。
根据本公开的又一方面,还提供了目标语音提取设备,包括:音频设备,用于接收语音数据;处理器;存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如上所述的目标语音提取***的联合训练方法,或者执行如上所述的目标语音提取方法。
根据本公开的又一方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的目标语音提取***的联合训练方法,或者执行如上所述的目标语音提取方法。
利用本公开提供的目标语音提取***的联合训练方法,可以对所述目标语音提取***中包括的语音特征提取模型和语音提取模型进行联合训练,提高整个目标语音提取***的性能参数,从而使得在利用经过根据本公开的联合训练方法训练得到的目标语音提取***进行目标语音提取任务时,可以提高目标语音提取任务的准确性,提升提取的目标语音数据的信噪比。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了目标语音提取***的应用场景的示意图;
图2示出了根据本公开实施例的目标语音提取方法的流程示意图;
图3示出了根据本公开实施例的目标语音提取***的处理流程图;
图4A示出了根据本公开实施例的编码神经网络的结构示意图;
图4B示出了根据本公开实施例的1-D Conv网络的结构示意图;
图4C示出了根据本公开实施例的解码神经网络的结构示意图;
图5示出了一种目标语音提取***的训练过程的示意图;
图6示出了根据本公开实施例的目标语音提取***的训练过程的示意图;
图7示出了根据本公开实施例的联合训练方法的流程示意图;
图8示出了根据本公开实施例的联合训练方法的处理流程图;
图9示出了根据本公开实施例的目标语音提取装置的示意性框图;
图10示出了根据本公开实施例的目标语音提取设备的示意性框图;
图11示出了根据本公开实施例的示例性计算设备的架构的示意图;
图12示出了根据本公开实施例的计算机存储介质的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)可以包括目标语音提取技术、自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术等等。让计算设备能通过对语音数据进行处理,从而实现能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。目前,目标语音提取技术已经被广泛地应用于各个领域中。
图1示出了目标语音提取***的应用场景的示意图,如图1所示,目标对象101发出语音(例如,“你好”),智能设备104可以通过诸如其内置或外接的一个或多个麦克风(未示出)等语音接收装置接收目标对象101发出的第一语音数据。智能设备104可以是任何类型的智能设备,例如智能音箱、智能电视、智能网关、智能手机、智能车载设备以及电子计算机等。同时,智能设备104还可能接收到噪声103(例如,鸟鸣声、风声和汽车鸣笛声等环境或背景噪声)。此外,智能设备104还可能接收到干扰对象102发出的第二语音数据(例如,“不知道”),所述干扰对象可以是一个人或者多个人。
根据本公开的实施例,在图1示出的场景中,智能设备104接收的语音数据可能包括第一语音数据、第二语音数据以及噪声,将其成为带噪语音数据。以目标对象101的语音数据为要提取的目标语音数据的情况下,即,从带噪语音数据中提取出仅包括第一语音数据的语音数据,所述第二语音数据以及噪声成为该第一语音数据的干扰数据,需要对其进行过滤,以只提取出第一语音数据作为目标语音数据。例如,如图1所示,智能设备104可以提取出目标对象101发出的目标语音为“你好”。基于提取的目标语音数据,智能设备104可以更好的进行诸如语音识别、语义提取等处理任务,更进一步的,智能设备104还可以基于分析得到的语义信息进行反馈,从而实现人机交互。
图2示出了根据本公开实施例的目标语音提取方法的流程示意图,以下将结合图2详细描述根据本公开提供的目标语音提取方法,以从带噪语音数据中提取出对应于特定说话人的目标语音数据,从而实现语音增强、滤波。
图2所示,首先,在步骤S101,获取参考样本语音数据和语音数据。根据本公开实施例,所述语音数据是要从其中提取对应于目标对象(即,特定说话人,例如,目标对象101)的目标语音数据的带噪语音数据,例如,可以是图1中的智能设备104接收到的包括第一语音数据、第二语音数据以及噪声的带噪语音数据。所述参考样本语音数据是对应于所述目标对象的纯净语音数据。换句话说,所述纯净语音数据是指只包括所述目标对象的语音而不包括其他目标对象的语音的数据。例如,智能设备可以存储有目标对象101的纯净的语音数据,可以是目标对象101发出的一句话或者多句话,作为所述参考样本语音数据,以用于从其中提取出该目标对象101的语音特征。
接着,在步骤S102,利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量。根据本公开实施例,所述语音特征提取模型可以基于神经网络来实现,例如可以是时延神经网络(Time-Delay Neural Network,TDNN),用于基于目标对象的参考样本语音数据来提取该目标对象的语音特征,具体的过程将在下文详细描述。
接着,在步骤S103,利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量。接着,在步骤S104,利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据。根据本公开实施例,所述语音提取模型可以是全卷积时域语音分离网络(Time-domain Audio Separation Network,TasNet),用于实时、单通道语音分离。在诸如图1示出的多人通话的环境中,稳健的语音处理需要有效的语音分离,即按照说话人进行语音提取。TasNet使用编码器-解码器框架在时域中直接建模信号,即,直接处理时域的音频信号,并得到提取的目标语音数据。
根据本公开实施例,所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。根据本公开实施例,所述联合训练方法包括:获取训练语音数据和训练参考样本语音数据,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;利用所述语音特征提取模型对所述训练参考样本语音数据进行特征提取,得到训练参考语音特征向量;利用语音提取模型基于训练语音数据和训练参考语音特征向量进行特征融合,得到训练融合特征向量;利用所述语音提取模型基于所述训练语音数据和训练融合特征向量进行语音提取,得到训练目标语音数据;基于所述训练参考语音特征向量和训练目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。根据本公开提供的联合训练方法将在下文详细描述。相比于所述语音数据和参考样本语音数据,所述训练语音数据和训练参考样本语音数据是指用于训练网络的训练数据,其具有用于训练的真实标签,具体的将在下文描述。
根据本公开实施例,所述语音特征提取模型是时延神经网络,所述语音提取模型是全卷积时域语音分离网络,其中,基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量包括:利用所述全卷积时域语音分离网络中的第一处理层对所述语音数据进行处理,得到语音特征向量,其中,所述第一处理层包括第一卷积网络和线性整流函数;利用所述全卷积时域语音分离网络中的编码神经网络对所述语音特征向量进行处理,得到编码特征向量;利用所述全卷积时域语音分离网络中的第二卷积网络对所述编码特征向量和参考语音特征向量进行特征融合,得到融合特征向量。
根据本公开实施例,所述利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据包括:利用所述全卷积时域语音分离网络中的解码神经网络对所述融合特征向量进行处理得到目标语音掩码向量;将所述目标语音掩码向量与所述语音特征向量进行点乘得到目标语音向量;以及对所述目标语音向量进行反卷积得到所述目标语音数据。
图3示出了根据本公开实施例的目标语音提取***的处理流程图,以下将结合图3对本公开的目标语音提取方法的处理流程进行详细描述。
如图3所示,目标语音提取***可以由作为语音提取模型的TasNet以及作为语音特征提取模型的TDNN组成。首先,TasNet可以接收带噪语音数据,其中包括对应于特定说话人的目标语音数据以及噪音数据。首先,其第一处理层可以对所述带噪语音数据进行初步处理,得到语音特征向量A。所述第一处理层可以包括1维卷积网络Conv1d以及线性整流函数(Rectified Linear Unit,ReLU)。作为一个示例,所述Conv1d的卷积核大小可以是40,卷积步长可以是20,其接收所述的带噪语音数据,并输出通道数为128的向量。接着,由ReLU对Conv1d的处理结果进行处理以得到语音特征向量A。所述线性整流函数ReLU又可以称修正线性单元,是神经网络中常用的一种激活函数(activation function),通常可以包括以斜坡函数及其变种为代表的非线性函数。
接着,在图3中,TasNet中的编码神经网络可以对所述语音特征向量A进行编码处理,以得到编码特征向量C。图4A示出了根据本公开实施例的编码神经网络的结构示意图。如图4A所示,所述编码神经网络可以包括归一化层,用于对数据经过归一化处理,使得将处理后的数据限定在一定的数据范围之内,例如,限制在区间[0,1]之间。所述编码神经网络还可以包括1×1卷积层1×1Conv,其卷积核大小可以为1,卷积步长可以为1,并输出通道数为128的中间特征向量。
此外,所述编码神经网络还可以包括多个深度卷积单元1-D Conv。图4B示出了根据本公开实施例的1-D Conv的结构示意图。作为一个示例,1-D Conv可以依次由1×1卷积层1×1Conv、参数ReLU(PReLU)、归一化层、一维深度卷积层D-Conv、参数ReLU(PReLU)、归一化层、1×1卷积层1×1Conv组成。其中,所述PReLU可以表示为:
其中,α是可训练的参数。
例如,对于输入向量G,图4B中示出的深度卷积单元1-D Conv可以首先按照上述过程组成的顺序进行处理,并得到中间向量H。在此基础上,对输入向量G和处理结果H进行相加处理,并得到输出向量I。
对于编码神经网络,其中包括的深度卷积单元1-D Conv的个数可以根据处理任务复杂程度来确定。
接着,返回图3,TasNet中的1维卷积网络Conv1d可以对由编码神经网络得到的编码特征向量以及TDNN网络基于参考样本语音数据得到的参考语音特征向量B进行特征融合,得到融合特征向量D。并由解码神经网络对融合特征向量D进行解码处理,以得到目标语音掩码向量E。关于TDNN网络的结构,将在下文描述。
具体的,图4C示出了根据本公开实施例的解码神经网络的结构示意图,如图4C所示,所述解码神经网络由多个深度卷积单元1-D Conv组成,还包括1×1卷积层1×1Conv。其中,1×1Conv可以具有如上所述的参数,即,卷积核大小为1,卷积步长为1。所述深度卷积单元1-D Conv的结构如图4B,在此不再重复描述。
接着,将所述目标语音掩码向量E与ReLU输出的语音特征向量A进行点乘,可以得到目标语音向量F。通过一维反卷积网络1-D Deconv对得到的目标语音向量F进行反卷积处理,可以使得经过处理得到的目标语音向量F恢复到成时域音频信号,以作为最终的目标语音数据。
对于作为语音特征提取模型的TDNN,其可以包括多层深度卷积网络,例如5层。相比于仅接收当前帧数据的神经网络,TDNN中的深度卷积网络还可以接收当前帧之前的几帧数据,即具有时间延迟特性,并用于提取输入语音中的语音特征向量。
作为一个具体示例,TDNN的输入数据可以是对参考样本语音数据进行梅尔变换得到的40维的log梅尔谱数据。TDNN的第一层网络在当前帧的基础上向前延伸4帧数据,即,接收包括当前帧在内的总共5帧数据,并输出包括512点的向量。TDNN的第二层网络在当前帧的基础上同样向前延伸4帧数据,即,接收包括当前帧在内的总共5帧数据,并输出包括512点的向量。TDNN的第三层网络在当前帧的基础上同样向前延伸6帧数据,即,接收包括当前帧在内的总共7帧数据,并输出包括512点的向量。TDNN的第四层网络仅接收当前帧数据,并输出包括512点的向量。TDNN的第五层网络同样仅接收当前帧数据,并输出包括1500点的向量。接着,可以得到的处理结果进行平均并求方差,然后将均值和方差融合成包括3000点的向量。此外,还可以利用全连接层对输出的3000点的向量进行处理,并得到包括512点的向量。对于上述TDNN中的每层网络,在该层网络之后还可以包括批归一化层(BN)和非线性层(例如,ReLU)。按照上述处理步骤,TDNN可以基于输入的参考样本语音数据输出128维的参考语音特征向量。所述参考语音特征向量表征对应于参考样本语音数据的特定说话人的语音特征。参考语音特征向量将作为参考样本嵌入到如图3中示出的TasNet中,用于提取对应于目标对象的目标语音数据。
根据本公开实施例,所述全卷积时域语音分离网络的输入为时域的音频信号,能完全保留语音数据中的幅度和相位信息,而不引起输入的语音数据的信息损失。此外,所述目标语音提取***的中的前端和后端模型是基于联合训练得到的,从而使得,语音提取模型的语音提取损失值可以通过梯度回传的方式影响语音特征提取模型的参数,通过语音提取模型和语音特征提取模型的***损失值,来进行共同训练,进一步提升语音提取性能。
根据本公开实施例,按照如图2中示出的目标语音提取方法,基于图3中的网络结构可以实现目标语音提取任务,以从带噪语音数据中提取出对应于特定说话人的目标语音数据。
在利用图3中示出的目标语音提取***进行目标语音提取任务之前,还需要基于训练集,按照损失函数对***中的语音提取模型和语音特征提取模型的参数进行训练,以优化参数,使得提高目标语音提取的准确性。
图5示出了一种目标语音提取***的训练过程的示意图。语音特征提取模型204可以基于输入的参考样本语音数据203得到表征目标对象的语音特征的参考语音特征向量,接着,语音提取模型202用于基于带噪语音201以及语音特征提取模型204输出的参考语音特征向量得到目标语音数据205。
一般地,目标语音提取***中的语音提取模型202和语音特征提取模型204作为两个独立的模型单独进行训练。例如,语音提取模型202可以采用特定的用于目标语音提取的损失函数(例如,信噪比损失函数)来训练,以尽可能地提升提取的目标语音数据的语音质量。作为另一独立的语音特征提取模型204,可以采用特定的用于语音特征提取的损失函数(例如,三元组损失函数)来进行训练,以提升语音特征提取的性能。
在图5中,两个模型由于功能不同,使用不同的损失函数来分别进行训练,因此分离的前端语音特征提取模型204不能完完全全为后端的语音提取模型202服务,在前后端模型分别训练的情况下,前端模型的输出结果存在很多由于环境或***不理想而造成的干扰,而这些干扰会大大降低后端模型的处理结果。
例如,在图5中示出的场景中,在训练语音提取模型202的过程中,仅单独训练模型202中的参数,而语音特征提取模型204中的参数是固定不变的。通常地,语音特征提取模型204中的参数是经过预先训练得到的,从而在训练语音提取模型202的过程中并不改变模型204中的参数。然而,如上所述的,单独训练的过程并未考虑语音特征提取模型204的输出结果,忽视了语音特征提取模型的输出结果对于整个语音提取任务的影响。
本公开提出了一种改进的基于人工智能的目标语音提取***的联合训练方法,图6示出了根据本公开实施例的目标语音提取***的训练过程的示意图。如图6所示,对语音特征提取模型和语音提取模型利用统一的损失函数进行联合训练,结构简单,容易扩展,大大提升了模型的处理性能和鲁棒性。提取性能优于分别训练的***的提取性能。
具体地,图7示出了根据本公开实施例的联合训练方法的流程示意图。如图7所示,首先,在步骤S201,利用所述语音特征提取模型对训练参考样本语音数据进行特征提取,得到参考语音特征向量。接着,在步骤S202,利用所述语音提取模型基于训练语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量。根据本公开实施例,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据。接着,在步骤S203,利用所述语音提取模型基于所述训练语音数据和融合特征向量进行语音提取,得到所述目标语音数据。以及,在步骤S204,基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练。如上所述的,相比于上文描述的语音数据和参考样本语音数据,所述训练语音数据和训练参考样本语音数据是指用于训练网络的训练数据,其具有用于训练的真实标签。例如,对于训练语音数据,其中包括的真实目标语音数据是已知的,基于上述模型得到的目标语音数据以及所述真实目标语音数据,可以确定模型的语音提取损失值。
对于上述步骤S201-S203中的处理过程,可以参照上文中的根据本公开的目标语音提取方法的描述,在此不再重复,下文将对联合训练步骤S204进行详细描述。
根据本公开实施例,所述联合训练方法还可以包括:初始化语音特征提取模型和语音提取模型的参数,以及利用参考样本语音训练集对所述语音特征提取模型进行初始训练。例如,可以基于参考样本语音训练集对所述语音特征提取模型进行初始训练,使得所述语音特征提取模型的语音特征提取的准确性达到一定的水平,再将所述语音特征提取模型与语音提取模型进行所述联合训练。
根据本公开实施例,所述基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练包括:基于所述参考语音特征向量和目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。
根据本公开实施例,所述特征提取损失函数包括三元组损失函数,所述按照特征提取损失函数确定特征提取损失值包括:利用语音特征提取模型分别对正参考样本语音数据和负参考样本语音数据进行特征提取,得到正参考语音特征向量和负参考语音特征向量,其中,所述正参考样本语音数据是对应于所述目标对象的纯净语音数据,所述负参考样本语音数据是对应于除所述目标对象之外的对象的语音数据;基于所述参考语音特征向量、正参考语音特征向量、负参考语音特征向量按照所述三元组损失函数来确定所述特征提取损失值,其中,所述三元组损失函数表征参考语音特征向量与正参考语音特征向量之间的欧式距离以及参考语音特征向量与负参考样本语音数据之间的欧式距离。
根据本公开实施例,所述语音提取损失函数包括信噪比损失函数,所述按照语音提取损失函数确定语音提取损失值包括:基于所述目标语音数据,按照所述信噪比损失函数来确定所述语音提取损失值。
图8示出了根据本公开实施例的联合训练方法的处理流程图,以下将结合图8对根据本公开的提供的联合训练方法进行详细描述。
如图8所示,在所述特征提取损失函数可以包括三元组损失函数的情况下,首先,作为语音特征提取模型的TDNN可以对输入的参考样本语音数据进行处理,以得到参考语音特征向量,此外,TDNN还可以对正参考样本语音数据和负参考样本语音数据进行特征提取,得到正参考语音特征向量和负参考语音特征向量。其中,参考样本语音数据和正参考样本语音数据可以是仅包括目标对象(例如,目标对象101)的注册语音数据。例如,可以包括该目标对象的多句话。负参考样本语音数据可以是对应于除所述目标对象之外的对象(例如,干扰对象102)的语音数据。
(xa,ya)可以表示参考样本语音数据和参考语音特征向量,(xp,yp)可以表示正参考样本语音数据和正参考语音特征向量,(xn,yn)可以表示负参考样本语音数据和负参考语音特征向量。如图8所示,还可以对TDNN输出的向量进行三元组采样,以按照三元组损失函数来进行训练。所述三元组损失函数LTriplet可以表示为:
LTriplet=Triplet{(xa,ya),(xp,yp),(xn,yn)} (2)
其中,所述三元组损失函数LTriplet表征参考语音特征向量ya与正参考语音特征向量yp之间的欧式距离d1以及参考语音特征向量ya与负参考样本语音数据yn之间的欧式距离d2。所述损失函数LTriplet通过减少d1以及增加d2来进行参数训练。换句话说,对于语音特征提取模型,期望其输出的对应于同一说话人的特征向量越来越接近,即,减少ya与yp之间的欧式距离d1,与此同时,还期望其输出的对应于不同说话人的特征向量越来越接远,即,增加ya与yn之间的欧式距离d2,从而使得语音特征提取模型可以准确的提取对应于特定说话人的特征向量。
根据本公开的一些实施例,所述特征提取损失函数还可以包括增强边缘余弦损失函数(Large Margin Cosine Loss,LMCL),表示为LLMCL,其以归一化后的特征向量作为输入,可通过最大化类间余弦边缘来学***方误差(LSE),表征真实值与估计值的差值的平方和。
综上,所述按照特征提取损失函数LSV可以表示为:
LSV=LTriplet+LLMCL+Lr (3)
按照上述按照特征提取损失函数,可以确定语音特征提取模型的特征提取损失值。
接着,如图8所示,作为语音提取模型的TasNet可以对输入的语音数据进行处理,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,在训练过程中可以称为训练语音数据。根据本公开实施例,可以通过语音混合处理来得到用于训练的训练语音数据。例如,可以对对应于目标对象的参考样本语音数据中混合入干扰对象的语音数据以及背景噪声,以得到所述训练语音数据,其中,所述训练语音数据中的目标语音数据是已知的,即参考样本语音数据,可以用于训练真值,表示为St,以用于计算语音提取损失值。
按照如图3中示出的过程,TasNet中的第一处理层可以对语音数据进行处理得到语音特征向量A,TasNet中的编码神经网络可以对所述语音特征向量A进行编码处理,以得到编码特征向量C。此外,TasNet还可以对编码特征向量C以及TDNN输出的参考语音特征向量进行融合,以得到融合特征向量D。如图8所示,在所述参考样本语音数据中包括对应于目标对象的多句话的情况下,还可以对基于多句话分别得到的参考语音特征向量进行特征处理,以得到最终的参考语音特征向量。例如,可以将平均后的向量作为所述最终的参考语音特征向量,并嵌入到TasNet以进行特征融合。又例如,还可以对所述基于多句话分别得到的参考语音特征向量应用注意力机制,为其分配不同的权重值,将加权平均后的结果作为所述最终的参考语音特征向量。
接着,TasNet可以得到提取的目标语音数据,可以表示为估计值Se。基于所述训练真值St以及估计值Se可以按照语音提取损失函数计算语音提取损失值。根据本公开实施例,所述语音提取损失函数可以包括信噪比损失函数,表示为:
其中,β是增益因子,表示为:
根据本公开实施例,所述目标语音提取***的***损失函数LJoint可以表示为:
LJoint=LSI-SNR+LSV (6)
基于所述***损失函数LJoint可以确定目标语音提取***的***损失值,并通过减少***损失值来对语音特征提取模型和语音提取模型中的参数进行训练,从而整体地提升目标语音提取***的性能,即,实现联合训练。
按照根据本公开实施例提供的联合训练方法对目标语音提取***进行训练,不仅考虑了语音提取模型的提取结果的准确性,还综合考虑了语音特征提取模型的处理结果对于提取结果的影响,从而可以提升***性能。此外,经过联合训练得到的目标语音提取***提取的目标语音数据中,对应于同一说话人的语音数据聚类的更紧凑,对应于不同说话人的语音数据分离效果也更好。
根据本公开实施例,将经过联合训练的目标语音提取***提取的目标语音数据K1与经过单元训练的目标语音提取***提取的目标语音数据K2进行了对比。
作为一个示例,分别计算了K1与K2的信号失真率(signal to distortion ratio,SDR),表征信号与失真的比值。SDR的比较结果如表1所示:
表1
方法 | 1个说话人 | 2个说话人 | 3个说话人 | 平均 |
单独训练 | 21.11 | 8.37 | 6.55 | 12.76 |
联合训练 | 21.46 | 10.56 | 9.24 | 14.47 |
其中,“1个说话人”是指处理的带噪语音数据中仅包括1个说话人的语音数据,换句话说,所述带噪语音数据中噪音仅包括背景噪声。“2个说话人”是指处理的带噪语音数据中包括2个说话人的语音数据,并从中分别提取分别对应于该2个说话人的目标语音数据,并将所述分别对应于该2个说话人的目标语音数据的SDR进行平均作为整体的SDR。类似地,“3个说话人”是指处理的带噪语音数据中包括3个说话人的语音数据。从表1可以看出,经过联合训练得到的目标语音提取***提取到的目标语音数据的SDR的值更高,表明语音提取效果更好,失真量较小。
作为另一个示例,分别计算了K1与K2的信噪比Si-Snr,表征信号与噪声的比值。Si-Snr的比较结果如表2所示:
表2
方法 | 1个说话人 | 2个说话人 | 3个说话人 | 平均 |
单独训练 | 20.8 | 7.82 | 6.07 | 12.32 |
联合训练 | 21.17 | 9.98 | 8.66 | 14 |
从表2可以看出,经过联合训练得到的目标语音提取***提取到的目标语音数据的信噪比Si-Snr的值更高,表明语音提取效果更好,噪声量较少。
根据本公开实施例,所述目标语音提取***的中的前端和后端模型是基于联合训练得到的,从而使得,语音提取模型的语音提取损失值可以通过梯度回传的方式影响语音特征提取模型的参数,通过语音提取模型和语音特征提取模型的***损失值,来进行共同训练。相比于单独训练,根据本公开的联合训练方法能进一步提升语音提取性能。
本公开还提供了一种目标语音提取装置,图9示出了根据本公开实施例的目标语音提取装置的示意性框图。
如图9所示,所述目标语音提取装置1000,可以包括接收单元1010、语音特征提取单元1020、语音提取单元1030。
根据本公开实施例,所述接收单元1010可以配置成获取参考样本语音数据和语音数据。根据本公开实施例,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述参考样本语音数据是对应于所述目标对象的纯净语音数据。
根据本公开实施例,所述语音特征提取单元1020可以配置成利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量。
根据本公开实施例,所述语音提取单元1030可以配置成利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量;以及利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据。根据本公开实施例,所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。
如图9所示,根据本公开实施例的目标语音提取装置1000还可以包括训练单元1040。所述训练单元1040可以配置成:获取训练语音数据和训练参考样本语音数据,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;利用所述语音特征提取模型对所述训练参考样本语音数据进行特征提取,得到训练参考语音特征向量;利用语音提取模型基于训练语音数据和训练参考语音特征向量进行特征融合,得到训练融合特征向量;利用所述语音提取模型基于所述训练语音数据和训练融合特征向量进行语音提取,得到训练目标语音数据;基于所述训练参考语音特征向量和训练目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。根据本公开实施例,所述训练单元可以按照以上结合图7描述的联合训练方法来对目标语音提取***中的语音提取模型和语音特征提取模型进行联合训练,具体的过程不再赘述。
根据本公开实施例,所述语音特征提取模型是时延神经网络,所述语音提取模型是全卷积时域语音分离网络。所述语音提取单元1030配置成:利用所述全卷积时域语音分离网络中的第一处理层对所述语音数据进行处理,得到语音特征向量。根据本公开实施例,所述第一处理层包括第一卷积网络和线性整流函数。进一步地,所述语音提取单元1030还配置成:利用所述全卷积时域语音分离网络中的编码神经网络对所述语音特征向量进行处理,得到编码特征向量;以及利用所述全卷积时域语音分离网络中的第二卷积网络对所述编码特征向量和参考语音特征向量进行特征融合,得到融合特征向量。
根据本公开实施例,所述语音提取单元1030还可以配置成:利用所述全卷积时域语音分离网络中的解码神经网络对所述融合特征向量进行处理得到目标语音掩码向量;将所述目标语音掩码向量与所述语音特征向量进行点乘得到目标语音向量;以及对所述目标语音向量进行反卷积得到所述目标语音数据。
根据本公开实施例,如图9中示出的目标语音提取装置可以参照以上结合图2描述的目标语音提取方法来执行目标语音提取任务,并且,其中的语音特征提取模型和语音提取模型中的参数是按照根据本公开提供的联合训练方法进行训练得到的。
根据本公开的又一方面,还提供了一种目标语音提取设备。图10示出了根据本公开实施例的目标语音提取设备的示意性框图。
如图10所示,目标语音提取设备2000可以包括音频设备2010、处理器2020以及存储器2030。根据本公开实施例,所述存储器2030中存储有计算机可读代码,所述计算机可读代码当由所述处理器2020运行时,执行如上所述的目标语音提取***的联合训练方法,或者执行如上所述的目标语音提取方法。
音频设备2010用于获取语音输入,例如,用于接收要从其中提取出对应于特定说话人的目标语音数据的带噪语音,以及接收参考样本语音数据。例如,音频设备2010可以包括能够将声音信号转换为电信号的任何转换单元,例如麦克风。音频设备2010可以以各种形式进行声电转换:电动式(动圈式、铝带式),电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。音频设备2010获取的语音输入可以以数字文件的方式存储于存储器2030中。
处理器2020可以根据存储在存储器2030中的程序执行各种动作和处理。具体地,处理器2020可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或者是ARM架构等。
存储器2030存储有计算机可执行指令代码,该指令代码在被处理器2020执行时用于实现人工智能网络,以基于语音输入来进行目标语音提取任务,从而得到目标语音数据。其中,该人工智能网络是基于根据本公开实施例所述的任何联合训练方法来进行联合训练的。存储器2030可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
根据本公开的一些实施例,所述目标语音提取设备2000可以是智能音箱、智能电视、智能网关、智能手机或智能车载设备等。例如,所述目标语音提取设备2000可以是用于实现人机交互的智能设备。基于提取的目标语音数据,智能设备可以更好的进行诸如语音识别、语义提取等处理任务,更进一步的,智能设备还可以基于分析得到的语义信息进行反馈,从而实现人机交互。
根据本公开的另一些实施例,所述目标语音提取设备2000还可以应用于有需要提供对应于特定说话人的语音数据的智能设备。诸如,对话、直播、会议的一些应用场景中,希望提取出特定说话人的语音数据,降低周围的噪声或其他说话人的干扰声音。
根据本公开实施例的方法或装置也可以借助于图11所示的计算设备3000的架构来实现。如图11所示,计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的目标语音提取方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图11所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图11示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。图12示出了根据本公开的存储介质的示意图4000。
如图12所示,所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的目标语音提取***的联合训练方法,或者执行目标语音提取方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。例如,所述计算机存储介质4020可以连接于诸如计算机等的计算设备,接着,在所述计算设备运行所述计算机存储介质4020上存储的计算机可读指令4010的情况下,可以进行如上所述的根据本公开提供的目标语音提取方法。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的***中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述***和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
Claims (15)
1.一种目标语音提取***的联合训练方法,其中,所述目标语音提取***包括语音特征提取模型和语音提取模型,所述方法包括:
利用所述语音特征提取模型对训练参考样本语音数据进行特征提取,得到参考语音特征向量,其中,所述训练参考样本语音数据是对应于目标对象的纯净语音数据;
利用所述语音提取模型基于训练语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据;
利用所述语音提取模型基于所述训练语音数据和融合特征向量进行语音提取,得到所述目标语音数据;以及
基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练。
2.根据权利要求1所述的联合训练方法,还包括:
初始化语音特征提取模型和语音提取模型的参数;
利用参考样本语音训练集对所述语音特征提取模型进行初始训练。
3.根据权利要求1所述的联合训练方法,其中,基于所述参考语音特征向量和目标语音数据对所述语音特征提取模型和语音提取模型进行联合训练包括:
基于所述参考语音特征向量和目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;
通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。
4.根据权利要求3所述的联合训练方法,其中,所述特征提取损失函数包括三元组损失函数,所述按照特征提取损失函数确定特征提取损失值包括:
利用语音特征提取模型分别对正参考样本语音数据和负参考样本语音数据进行特征提取,得到正参考语音特征向量和负参考语音特征向量,其中,所述正参考样本语音数据是对应于所述目标对象的纯净语音数据,所述负参考样本语音数据是对应于除所述目标对象之外的对象的纯净语音数据;
基于所述参考语音特征向量、正参考语音特征向量、负参考语音特征向量按照所述三元组损失函数来确定所述特征提取损失值,其中,所述三元组损失函数表征参考语音特征向量与正参考语音特征向量之间的欧式距离以及参考语音特征向量与负参考样本语音数据之间的欧式距离。
5.根据权利要求3所述的联合训练方法,其中,所述语音提取损失函数包括信噪比损失函数,所述按照语音提取损失函数确定语音提取损失值包括:
基于所述目标语音数据,按照所述信噪比损失函数来确定所述语音提取损失值。
6.一种目标语音提取方法,包括:
获取参考样本语音数据和语音数据,其中,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述参考样本语音数据是对应于所述目标对象的纯净语音数据;
利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量;
利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量;
利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据,其中,
所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。
7.根据权利要求6所述的目标语音提取方法,其中,所述联合训练方法包括:
获取训练语音数据和训练参考样本语音数据,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;
利用所述语音特征提取模型对所述训练参考样本语音数据进行特征提取,得到训练参考语音特征向量;
利用语音提取模型基于训练语音数据和训练参考语音特征向量进行特征融合,得到训练融合特征向量;
利用所述语音提取模型基于所述训练语音数据和训练融合特征向量进行语音提取,得到训练目标语音数据;
基于所述训练参考语音特征向量和训练目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;
通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。
8.根据权利要求6所述的目标语音提取方法,其中,所述语音特征提取模型是时延神经网络,所述语音提取模型是全卷积时域语音分离网络,其中,基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量包括:
利用所述全卷积时域语音分离网络中的第一处理层对所述语音数据进行处理,得到语音特征向量,其中,所述第一处理层包括第一卷积网络和线性整流函数;
利用所述全卷积时域语音分离网络中的编码神经网络对所述语音特征向量进行处理,得到编码特征向量;
利用所述全卷积时域语音分离网络中的第二卷积网络对所述编码特征向量和参考语音特征向量进行特征融合,得到融合特征向量。
9.根据权利要求8所述的目标语音提取方法,其中,所述利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据包括:
利用所述全卷积时域语音分离网络中的解码神经网络对所述融合特征向量进行处理得到目标语音掩码向量;
将所述目标语音掩码向量与所述语音特征向量进行点乘得到目标语音向量;以及
对所述目标语音向量进行反卷积得到所述目标语音数据。
10.一种目标语音提取装置,包括:
接收单元,配置成获取参考样本语音数据和语音数据,其中,所述语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述参考样本语音数据是对应于所述目标对象的纯净语音数据;
语音特征提取单元,配置成利用语音特征提取模型对参考样本语音数据进行特征提取,得到参考语音特征向量;
语音提取单元,配置成利用语音提取模型基于语音数据和所述参考语音特征向量进行特征融合,得到融合特征向量;以及
利用所述语音提取模型基于所述语音数据和融合特征向量进行语音提取,得到所述目标语音数据,其中,所述语音特征提取模型和语音提取模型是基于联合训练方法进行训练得到的。
11.根据权利要求10所述的目标语音提取装置,还包括训练单元,配置成:
获取训练语音数据和训练参考样本语音数据,其中,所述训练语音数据是要从其中提取对应于目标对象的目标语音数据的带噪语音数据,所述训练参考样本语音数据是对应于所述目标对象的纯净语音数据;
利用所述语音特征提取模型对所述训练参考样本语音数据进行特征提取,得到训练参考语音特征向量;
利用语音提取模型基于训练语音数据和训练参考语音特征向量进行特征融合,得到训练融合特征向量;
利用所述语音提取模型基于所述训练语音数据和训练融合特征向量进行语音提取,得到训练目标语音数据;
基于所述训练参考语音特征向量和训练目标语音数据,按照特征提取损失函数确定特征提取损失值,以及按照语音提取损失函数确定语音提取损失值;
通过调整所述语音特征提取模型和语音提取模型的参数,以使得所述特征提取损失值和语音提取损失值减小来进行所述联合训练。
12.根据权利要求10所述的目标语音提取装置,其中,所述语音特征提取模型是时延神经网络,所述语音提取模型是全卷积时域语音分离网络,其中,所述语音提取单元配置成:
利用所述全卷积时域语音分离网络中的第一处理层对所述语音数据进行处理,得到语音特征向量,其中,所述第一处理层包括第一卷积网络和线性整流函数;
利用所述全卷积时域语音分离网络中的编码神经网络对所述语音特征向量进行处理,得到编码特征向量;
利用所述全卷积时域语音分离网络中的第二卷积网络对所述编码特征向量和参考语音特征向量进行特征融合,得到融合特征向量。
13.根据权利要求12所述的目标语音提取装置,其中,所述语音提取单元配置成:
利用所述全卷积时域语音分离网络中的解码神经网络对所述融合特征向量进行处理得到目标语音掩码向量;
将所述目标语音掩码向量与所述语音特征向量进行点乘得到目标语音向量;以及
对所述目标语音向量进行反卷积得到所述目标语音数据。
14.一种目标语音提取设备,包括:
音频设备,用于接收语音数据;
处理器;
存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如权利要求1-5中任一项所述的目标语音提取***的联合训练方法,或者执行如权利要求6-9中任一项所述的目标语音提取方法。
15.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-5中任一项所述的目标语音提取***的联合训练方法,或者执行如权利要求6-9中任一项所述的目标语音提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002838.XA CN111179911B (zh) | 2020-01-02 | 2020-01-02 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002838.XA CN111179911B (zh) | 2020-01-02 | 2020-01-02 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179911A CN111179911A (zh) | 2020-05-19 |
CN111179911B true CN111179911B (zh) | 2022-05-03 |
Family
ID=70657796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002838.XA Active CN111179911B (zh) | 2020-01-02 | 2020-01-02 | 目标语音提取方法、装置、设备、介质和联合训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179911B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696532B (zh) * | 2020-06-17 | 2023-08-18 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN112420054B (zh) * | 2020-11-20 | 2022-07-12 | 湖北第二师范学院 | 一种基于说话人向量复用的语音识别***及方法 |
CN112767927A (zh) * | 2020-12-29 | 2021-05-07 | 平安科技(深圳)有限公司 | 一种提取语音特征的方法、装置、终端及存储介质 |
CN112992157A (zh) * | 2021-02-08 | 2021-06-18 | 贵州师范大学 | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 |
CN112989107B (zh) * | 2021-05-18 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 音频分类和分离方法、装置、电子设备以及存储介质 |
CN113409776B (zh) * | 2021-06-30 | 2024-06-07 | 南京领行科技股份有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN113782044B (zh) * | 2021-08-25 | 2023-11-03 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
CN113782006A (zh) * | 2021-09-03 | 2021-12-10 | 清华大学 | 一种语音提取方法、装置及设备 |
CN113610071B (zh) * | 2021-10-11 | 2021-12-24 | 深圳市一心视觉科技有限公司 | 人脸活体检测方法、装置、电子设备及存储介质 |
CN114299981A (zh) * | 2021-12-29 | 2022-04-08 | 中国电信股份有限公司 | 音频处理方法、装置、存储介质及设备 |
CN114866856B (zh) * | 2022-05-06 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 音频信号的处理方法、音频生成模型的训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及*** |
KR20190103080A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스 |
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及*** |
CN110288978A (zh) * | 2018-10-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110544482A (zh) * | 2019-09-09 | 2019-12-06 | 极限元(杭州)智能科技股份有限公司 | 一种单通道语音分离*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
-
2020
- 2020-01-02 CN CN202010002838.XA patent/CN111179911B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109429523A (zh) * | 2017-06-13 | 2019-03-05 | 北京嘀嘀无限科技发展有限公司 | 说话者确认方法、装置及*** |
CN110288978A (zh) * | 2018-10-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及*** |
KR20190103080A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스 |
CN110544482A (zh) * | 2019-09-09 | 2019-12-06 | 极限元(杭州)智能科技股份有限公司 | 一种单通道语音分离*** |
Also Published As
Publication number | Publication date |
---|---|
CN111179911A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179911B (zh) | 目标语音提取方法、装置、设备、介质和联合训练方法 | |
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN107077860B (zh) | 用于将有噪音频信号转换为增强音频信号的方法 | |
WO2019204547A1 (en) | Systems and methods for automatic speech recognition using domain adaptation techniques | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
Ji et al. | Speaker-aware target speaker enhancement by jointly learning with speaker embedding extraction | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN111261145B (zh) | 语音处理装置、设备及其训练方法 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
US20230335148A1 (en) | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium | |
CN111161744A (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
Hasannezhad et al. | PACDNN: A phase-aware composite deep neural network for speech enhancement | |
CN111899758A (zh) | 语音处理方法、装置、设备和存储介质 | |
Jiang et al. | An Improved Unsupervised Single‐Channel Speech Separation Algorithm for Processing Speech Sensor Signals | |
Ahmad et al. | Speech enhancement for multimodal speaker diarization system | |
CN111599368B (zh) | 一种基于直方图匹配的自适应实例规一化语音转换方法 | |
Park et al. | The Second DIHARD Challenge: System Description for USC-SAIL Team. | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
CN115691539A (zh) | 基于视觉导引的两阶段语音分离方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |