CN108520756A - 一种说话人语音分离的方法及装置 - Google Patents

一种说话人语音分离的方法及装置 Download PDF

Info

Publication number
CN108520756A
CN108520756A CN201810231676.XA CN201810231676A CN108520756A CN 108520756 A CN108520756 A CN 108520756A CN 201810231676 A CN201810231676 A CN 201810231676A CN 108520756 A CN108520756 A CN 108520756A
Authority
CN
China
Prior art keywords
audio signal
audio
obtains
speaker
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810231676.XA
Other languages
English (en)
Other versions
CN108520756B (zh
Inventor
孙学京
刘恩
张晨
张兴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoling Inc
Original Assignee
Beijing Tuoling Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoling Inc filed Critical Beijing Tuoling Inc
Priority to CN201810231676.XA priority Critical patent/CN108520756B/zh
Publication of CN108520756A publication Critical patent/CN108520756A/zh
Application granted granted Critical
Publication of CN108520756B publication Critical patent/CN108520756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种说话人语音分离的方法及装置,方法包括:获取预设格式的音频信号;针对所述音频信号进行预处理,得到处理后的第一音频信号;针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;输出所述第三音频信号。采用本发明的技术方案,实现了快速、准确地分离不用方位的多个说话人的音频信号。

Description

一种说话人语音分离的方法及装置
技术领域
本发明涉及语音识别技术领域,具体涉及一种说话人语音分离的方法及装置。
背景技术
随着科学技术的发展,各个领域对于音频质量的追求越来越高,各类音频文档的获取途径越来越丰富,数据量呈***式增长,从而对音频文档的管理也越来越困难。近年来,人们开始研究音频检索技术,对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中,对会议语音的检索难度最大,因为会议语音文档中包含有多个信道、更多的说话人。
现有的音频分离方法主要分为单通道(麦克)技术和多通道(麦克)技术。单麦克技术主要包括基于模型的音频分离方法和基于距离尺度的分离方法;多麦克技术主要包括波束形成分离方法和盲源分离方法。
其中,基于模型的音频分离方法包含训练和识别两个步骤:训练过程中对输入音频进行特征提取后进一步进行训练并存储训练后的模型;识别过程中对输入音频进行特征提取后进行说话人分离以及说话人聚类后,进一步和存储的模型进行匹配计算,判定各个说话人,最终得到分离后的音频信号。基于距离尺度的分离方法则通过计算每一点的左右相邻的一定窗长的两段信号的距离,进一步和设定的门限值进行比较,得到音频信号的跳变点,从而得到分离后的音频信号。波束形成分离方法通过对输入音频实时进行声源定位,并进一步根据说话人方位进行增强处理,得到各个说话人的音频信号。盲源分离方法通过对输入音频进行盲源分离处理,从而得到各个说话人的音频信号。
但是,基于模型的分离方法,要求对话当中每个说话人连续说话的时间较长,而且算法复杂度过高;基于距离尺度的分离方法,存在检测数过多的冗余分割点等问题。而波束形成分离方法、盲源分离方法等方法,主要是针对线性麦克风阵列和平面麦克风阵列等进行处理,且在复杂环境中处理的效果存在一定的不足。
因此,在复杂环境下,比较快速、准确地分离不用方位的多个说话人的音频信号,是当前亟待解决的技术问题。
发明内容
本发明的目的在于提供一种说话人语音分离的方法及装置,实现了快速、准确地分离不用方位的多个说话人的音频信号。
为实现上述目的,本发明提供一种说话人语音分离的方法,包括:
获取预设格式的音频信号;
针对所述音频信号进行预处理,得到处理后的第一音频信号;
针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;
针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;
输出所述第三音频信号。
进一步地,上述所述的方法中,针对所述音频信号进行预处理,得到处理后的第一音频信号,包括:
获取麦阵的放置方式参数和周围环境参数;
根据所述麦阵的放置方式参数,对所述音频信号进行转换处理,得到位于同一平面的转换音频信号;
对所述转换音频信号进行时频变换,得到所述转换音频信号对应的频域信号;
根据所述周围环境参数,对所述频域信号进行音频增强处理,得到增强后的频域信号;
针对增强后的频域信号进行时频逆变换,得到时域信号,作为所述第一音频信号。
进一步地,上述所述的方法中,对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,包括:
根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果;
根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
进一步地,上述所述的方法中,根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果,包括:
对所述第一音频信号进行语音检测处理,得到检测结果;
根据所述检测结果,对所述第一音频信号进行声源定位处理,得到所述声源定位结果;
根据预设的识别模型,对所述第一音频信号进行说话人识别处理,得到所述说话人识别结果。
进一步地,上述所述的方法中,根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号,包括:
根据所述声源定位结果和所述说话人识别结果,利用波束形成方法,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
进一步地,上述所述的方法中,根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号,包括:
选取与所述声源定位结果相对应的音频分离方法;
根据所述说话人识别结果,利用所述音频分离方法,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
进一步地,上述所述的方法中,对所述第二音频信号进行增强处理,得到增强后的第三音频信号,包括:
基于所述说话人识别结果,对所述第二音频信号进行平滑处理以及音频转换点位置的修正处理,得到所述第三音频信号。
本发明还提供一种说话人语音分离的装置,包括:
获取模块,用于获取预设格式的音频信号;
预处理模块,用于针对所述音频信号进行预处理,得到处理后的第一音频信号;
音频分离模块,用于对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;
增强处理模块,用于对所述第二音频信号进行增强处理,得到增强后的第三音频信号;
输出模块,用于输出所述第三音频信号。
本发明的说话人语音分离的方法及装置,通过对预设格式的音频信号进行预处理,得到处理后的第一音频信号,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,对第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号,输出第三音频信号,实现了快速、准确地分离不用方位的多个说话人的音频信号。
附图说明
图1为本发明的说话人语音分离的方法实施例的流程图;
图2为本发明采集四路音频信号的麦阵放置方式示意图;
图3为本发明的说话人语音分离的装置实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本实施例技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本实施例一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本实施例保护的范围。
说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够用以除了在这里图示的以外的顺序实施。
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
图1为本发明的说话人语音分离的方法实施例的流程图,如图1所示,本实施例的说话人语音分离的方法具体可以包括如下步骤:
100、获取预设格式的音频信号。
在本实施方式中的预设格式的音频信号可以是Ambisonic A格式的音频信号。其中,Ambisonic A格式的音频信号为四路音频信号(左前路(Left-Front-Up,LFU)、右前路(Right-Front-Down,RFD)、左后路(Left-Back-Down,LBD)、右后路(Right-Back-Up,RBU))。图2为本发明采集四路音频信号的麦阵放置方式示意图。
101、针对获取的音频信号进行预处理,得到处理后的第一音频信号。
在一个具体实现过程中,在获取预设格式的音频信号时,可以获取麦阵的放置方式参数和周围环境参数,以便根据麦阵的放置方式参数,对获取的预设格式的音频信号进行转换处理,得到位于同一平面的转换音频信号,并对转换音频信号进行时频变换,得到转换音频信号对应的频域信号,以及,根据周围环境参数,对频域信号进行音频增强处理,得到增强后的频域信号,进一步对频域信号进行时频逆变换,得到时域信号,作为第一音频信号。
例如,当获取到麦阵的放置方式后,可以基于麦阵的放置方式对音频信号按照公式(1)进行旋转处理,使得到的音频信号位于同一平面。
其中,A为转换矩阵:
其中,θh为首向角,θp为俯仰角,θb为倾斜角,f(θhpb)为与θh、θp以及θb相关的函数。
在得到转换信号后,可以采用离散傅氏变换(Discrete FourierTransformation)、快速傅氏变换(Fast Fourier Transformation,FFT)等方法对转换信号逐路进行时频变换处理。以DFT为例,可以按照公式(2)对转换信号进行时频变换处理:
其中,n为时域索引值,k为频域索引值,L为音频处理帧长,Lf为时频变换的长度,j为虚部单位,M为声道数目,x(n)为音频时域样点值,X(k)为音频频域系数。
在得到频域信号后,可以根据4路音频信号估计噪声能量谱,通过混响时间(RT60)参数以及直达和反射比(Direct-to-Reverberant Energy Ratio,DRR)参数估计混响能量谱,进一步基于估计的噪声能量谱和混响能量谱逐路进行音频增强处理,从而对得到的频域信号进行去噪、去混响等处理,使得到的频域信号得到增强。
本实施例中,可以根据麦阵的放置方式参数和周围环境参数,对接收的多声道音频信号进行预处理,降低了环境对后续音频分离处理的影响。
102、对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。
本实施例中,在得到第一音频信号后,可以根据该第一音频信号,获取该第一音频信号对应的声源定位结果和说话人识别结果,并根据声源定位结果和说话人识别结果,对第一音频信号进行音频分离处理,从而得到不同方位说话人的第二音频信号。
在一个具体实现过程中,可以对第一音频信号进行语音检测处理,得到相应的检测结果,以便根据该检测结果,对第一音频信号进行声源定位处理,得到声源定位结果,以及根据预设的识别模型,对第一音频信号进行说话人识别处理,得到说话人识别结果。
例如,可以采用多重信号分类(Multiple Signal Classification,MUSIC)算法、广义互相关(Generalized Cross Correlation,GCC)等方法实现声源定位,以GCC为例具体可以按照以下方式实现:
a)按照公式(3)分别计算各路音频的互相关:
其中,K1为起始频点,K2为截止频点。
b)按照公式(4)基于语音检测结果进行平滑处理:
Gsm(i,j)=Gsm(i,j)*fsm+(1-fsm)*G(i,j) (4)
其中,fsm为平滑因子:
Vad为语音检测处理结果。
c)对平滑后的互相关函数进一步处理,得到声源定位结果。
本实施例中,可以基于模型的方式进行说话人识别,得到说话人识别结果,如高斯混合模型(Gaussian Mixed Model,GMM),隐马尔科夫模型(Hidden Markov Model,HMM),深度神经网络(Deep Neural Networks,DNN)等。
在得到声源定位结果和说话人识别结果后,可以采用波束形成方式,对第一路音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。
也可以选取与声源定位结果相对应的音频分离方法,并根据说话人识别结果,利用音频分离方法,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。
例如,可以利用公式(5)进行音频分离处理,得到不同方位说话人的第二音频信号。
其中,Vdoa为在声源方向的加权因子:
τ为时延,S为声源数目,Vspe为单声源时的加权因子。
当S>1时,可以采用波束形成方法得到声源方向的音频信号。当S≤1时,Vdoa=Vspe,比如设定为(1,0,0,0)时表明采用第1路音频作为分离后的音频信号。
102、对不同方位说话人的第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号。
例如,可以基于说话人识别结果,对不同方位说话人的第二音频信号进行平滑处理以及音频转换点位置的修正处理,得到不同方位说话人的第三音频信号,以保证音频的连贯性。
103、输出第三音频信号。
本实施例的说话人语音分离的方法的执行主体可以为说话人语音分离的装置,该说话人语音分离的装置具体可以通过软件来集成,例如该说话人语音分离的装置具体可以为一个应用,本发明对此不进行特别限定。
本实施例的说话人语音分离的方法,获取预设格式的音频信号,通过对音频信号进行预处理,得到处理后的第一音频信号,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,对第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号,输出第三音频信号,实现了快速、准确地分离不用方位的多个说话人的音频信号。
实施例2
图3为本发明的说话人语音分离的装置实施例的结构示意图,如图3所示,本实施例的说话人语音分离的装置可以包括获取模块10、预处理模块11、音频分离模块12、增强处理模块13和输出模块14。
其中,获取模块10,用于获取预设格式的音频信号。
在本实施方式中的预设格式的音频信号可以是Ambisonic A格式的音频信号。其中,Ambisonic A格式的音频信号为四路音频信号(左前路(Left-Front-Up,LFU)、右前路(Right-Front-Down,RFD)、左后路(Left-Back-Down,LBD)、右后路(Right-Back-Up,RBU))。图2为本发明采集四路音频信号的麦阵放置方式示意图
预处理模块11,用于对接收音频信号进行预处理,得到处理后的第一音频信号。具体地,预处理模块11可以获取麦阵的放置方式参数和周围环境参数;根据麦阵的放置方式参数,对多声道音频信号进行转换处理,得到位于同一平面的转换音频信号;对转换信号进行时频变换,得到转换信号对应的频域信号;根据周围环境参数,对频域信号进行音频增强处理,得到增强后的频域信号;对增强后的音频信号进行时频逆变换,得到音频时域信号,作为第一音频信号。
音频分离模块12,用于对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。具体地,音频分离模块12可以根据第一音频信号,获取第一音频信号对应的声源定位结果和说话人识别结果,例如,对第一音频信号进行语音检测处理,得到检测结果;根据检测结果,对第一音频信号进行声源定位处理,得到声源定位结果;根据预设的识别模型,对第一音频信号进行说话人识别处理,得到说话人识别结果。
音频分离模块12还可以根据声源定位结果和说话人识别结果,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。例如,可以根据声源定位结果和说话人识别结果,采用波束形成技术,对第一音频信号进行音频分离处理,得到不用方位说话人的第二音频信号。也可以为选取与声源定位结果相对应的音频分离方法;根据说话人识别结果,利用音频分离方法,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号。
增强处理模块13,用于对不同方位说话人的第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号。具体地,增强处理模块13可以基于说话人识别结果,对第二音频信号进行平滑处理以及音频转换点位置的修正处理,得到不同方位说话人的第三音频信号。
输出模块14,用于输出不同方位说话人的第三音频信号。
本实施例的说话人语音分离的装置,通过采用上述各模块分离音频信号的实现机制与上述图1所示实施例的实现机制相同,详细可以参考上述图1所示实施例的记载,在此不再赘述。
本实施例的说话人语音分离的装置,获取预设格式的音频信号,通过对音频信号进行预处理,得到处理后的第一音频信号,对第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,对第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号,输出第三音频信号,实现了快速、准确地分离不用方位的多个说话人的音频信号。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种说话人语音分离的方法,其特征在于,包括:
获取预设格式的音频信号;
针对所述音频信号进行预处理,得到处理后的第一音频信号;
针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;
针对所述第二音频信号进行增强处理,得到增强后的不同方位说话人的第三音频信号;
输出所述第三音频信号。
2.根据权利要求1所述的方法,其特征在于,针对所述音频信号进行预处理,得到处理后的第一音频信号,包括:
获取麦阵的放置方式参数和周围环境参数;
根据所述麦阵的放置方式参数,对所述音频信号进行转换处理,得到位于同一平面的转换音频信号;
对所述转换音频信号进行时频变换,得到所述转换音频信号对应的频域信号;
根据所述周围环境参数,对所述频域信号进行音频增强处理,得到增强后的频域信号;
针对增强后的频域信号进行时频逆变换,得到时域信号,作为所述第一音频信号。
3.根据权利要求1或2所述的方法,其特征在于,对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号,包括:
根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果;
根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
4.根据权利要求3所述的方法,其特征在于,根据所述第一音频信号,获取所述第一音频信号对应的声源定位结果和说话人识别结果,包括:
对所述第一音频信号进行语音检测处理,得到检测结果;
根据所述检测结果,对所述第一音频信号进行声源定位处理,得到所述声源定位结果;
根据预设的识别模型,对所述第一音频信号进行说话人识别处理,得到所述说话人识别结果。
5.根据权利要求3所述的方法,其特征在于,根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号,包括:
根据所述声源定位结果和所述说话人识别结果,利用波束形成方法,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
6.根据权利要求3所述的方法,其特征在于,根据所述声源定位结果和所述说话人识别结果,对所述第一音频信号进行音频分离处理,得到所述第二音频信号,包括:
选取与所述声源定位结果相对应的音频分离方法;
根据所述说话人识别结果,利用所述音频分离方法,对所述第一音频信号进行音频分离处理,得到所述第二音频信号。
7.根据权利要求3所述的方法,其特征在于,对所述第二音频信号进行增强处理,得到增强后的第三音频信号,包括:
基于所述说话人识别结果,对所述第二音频信号进行平滑处理以及音频转换点位置的修正处理,得到所述第三音频信号。
8.一种说话人语音分离的装置,其特征在于,包括:
获取模块,用于获取预设格式的音频信号;
预处理模块,用于针对所述音频信号进行预处理,得到处理后的第一音频信号;
音频分离模块,用于针对所述第一音频信号进行音频分离处理,得到不同方位说话人的第二音频信号;
增强处理模块,用于针对所述第二音频信号进行增强处理,得到增强后的第三音频信号;
输出模块,用于输出所述第三音频信号。
CN201810231676.XA 2018-03-20 2018-03-20 一种说话人语音分离的方法及装置 Active CN108520756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810231676.XA CN108520756B (zh) 2018-03-20 2018-03-20 一种说话人语音分离的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810231676.XA CN108520756B (zh) 2018-03-20 2018-03-20 一种说话人语音分离的方法及装置

Publications (2)

Publication Number Publication Date
CN108520756A true CN108520756A (zh) 2018-09-11
CN108520756B CN108520756B (zh) 2020-09-01

Family

ID=63433795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810231676.XA Active CN108520756B (zh) 2018-03-20 2018-03-20 一种说话人语音分离的方法及装置

Country Status (1)

Country Link
CN (1) CN108520756B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议***及会议记录方法
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质
CN111899758A (zh) * 2020-09-07 2020-11-06 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1818909A1 (en) * 2004-12-03 2007-08-15 HONDA MOTOR CO., Ltd. Voice recognition system
CN101720558A (zh) * 2007-04-19 2010-06-02 埃波斯开发有限公司 话音和位置定位
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN104049235A (zh) * 2014-06-23 2014-09-17 河北工业大学 声源定向装置中的传声器阵列
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及***
CN105120421A (zh) * 2015-08-21 2015-12-02 北京时代拓灵科技有限公司 一种生成虚拟环绕声的方法和装置
CN105355203A (zh) * 2015-11-03 2016-02-24 重庆码头联智科技有限公司 通过重力传感器智能穿戴设备进行语音判断的方法
CN105872940A (zh) * 2016-06-08 2016-08-17 北京时代拓灵科技有限公司 一种虚拟现实声场生成方法及***
CN106098075A (zh) * 2016-08-08 2016-11-09 腾讯科技(深圳)有限公司 基于麦克风阵列的音频采集方法和装置
CN106816156A (zh) * 2017-02-04 2017-06-09 北京时代拓灵科技有限公司 一种音频质量增强的方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1818909A1 (en) * 2004-12-03 2007-08-15 HONDA MOTOR CO., Ltd. Voice recognition system
CN101720558A (zh) * 2007-04-19 2010-06-02 埃波斯开发有限公司 话音和位置定位
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN104049235A (zh) * 2014-06-23 2014-09-17 河北工业大学 声源定向装置中的传声器阵列
CN104936091A (zh) * 2015-05-14 2015-09-23 科大讯飞股份有限公司 基于圆形麦克风阵列的智能交互方法及***
CN105120421A (zh) * 2015-08-21 2015-12-02 北京时代拓灵科技有限公司 一种生成虚拟环绕声的方法和装置
CN105355203A (zh) * 2015-11-03 2016-02-24 重庆码头联智科技有限公司 通过重力传感器智能穿戴设备进行语音判断的方法
CN105872940A (zh) * 2016-06-08 2016-08-17 北京时代拓灵科技有限公司 一种虚拟现实声场生成方法及***
CN106098075A (zh) * 2016-08-08 2016-11-09 腾讯科技(深圳)有限公司 基于麦克风阵列的音频采集方法和装置
CN106816156A (zh) * 2017-02-04 2017-06-09 北京时代拓灵科技有限公司 一种音频质量增强的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张雄伟,李轶南,时文华,胡永刚,陈栩杉: "非负组合模型及其在声源分离中的应用", 《JOURNAL OF DATA ACQUISITION AND PROCESSING》 *
陈洁: "背景音乐自动分离***设计与实现", 《现代电子技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议***及会议记录方法
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质
CN111899758A (zh) * 2020-09-07 2020-11-06 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN111899758B (zh) * 2020-09-07 2024-01-30 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN112382306A (zh) * 2020-12-02 2021-02-19 苏州思必驰信息科技有限公司 分离说话人音频的方法及装置
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN112634935A (zh) * 2021-03-10 2021-04-09 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN112634935B (zh) * 2021-03-10 2021-06-11 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN108520756B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN108520756A (zh) 一种说话人语音分离的方法及装置
Chen et al. Continuous speech separation: Dataset and analysis
Yoshioka et al. Multi-microphone neural speech separation for far-field multi-talker speech recognition
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
Kingsbury et al. Recognizing reverberant speech with RASTA-PLP
CN106782565A (zh) 一种声纹特征识别方法及***
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN110970053A (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
Huang et al. Audio replay spoof attack detection using segment-based hybrid feature and densenet-LSTM network
CN106128477B (zh) 一种口语识别校正***
Cai et al. Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy Environment.
CN110858476A (zh) 一种基于麦克风阵列的声音采集方法及装置
Sainath et al. Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction.
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
CN107895582A (zh) 面向多源信息领域的说话人自适应语音情感识别方法
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及***
Taherian et al. Multi-channel conversational speaker separation via neural diarization
Huang et al. Audio-replay Attacks Spoofing Detection for Automatic Speaker Verification System
Kamble et al. Teager energy subband filtered features for near and far-field automatic speech recognition
Martín-Doñas et al. Multi-channel block-online source extraction based on utterance adaptation
CN113345421B (zh) 一种基于角度谱特征的多通道远场的目标语音识别方法
Gaffar et al. A multi-frame blocking for signal segmentation in voice command recognition
Yang et al. A target speaker separation neural network with joint-training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant