CN109036454A - 基于dnn的说话人无关单通道录音分离的方法和*** - Google Patents
基于dnn的说话人无关单通道录音分离的方法和*** Download PDFInfo
- Publication number
- CN109036454A CN109036454A CN201810576208.6A CN201810576208A CN109036454A CN 109036454 A CN109036454 A CN 109036454A CN 201810576208 A CN201810576208 A CN 201810576208A CN 109036454 A CN109036454 A CN 109036454A
- Authority
- CN
- China
- Prior art keywords
- dnn
- speaker
- single channel
- recording
- separator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000000926 separation method Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 18
- 210000003746 feather Anatomy 0.000 claims description 16
- 244000144992 flock Species 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 241000271566 Aves Species 0.000 claims description 7
- 238000012076 audiometry Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008451 emotion Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011056 performance test Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Catching Or Destruction (AREA)
Abstract
本发明公开了一种基于DNN的说话人无关单通道录音分离的方法和***,属于技术领域,具体步骤包括对训练集的语料进行分词处理,同时对词语进行向量编码,通过分词处理和词语向量编码的过程,用矩阵将一段语句表示出来生成词向量,然后将生成的词向量作为输入样本,输入到卷积神经网络中。本发明提出的组合优化算法在对文本情感特征的自动学习上有着不错的效果,模型的训练速度也大大的提高,分类结果准确度高、自动学习能力强。
Description
技术领域
本发明属于情感技术领域,特别涉及一种基于DNN的说话人无关单通道录音分离的方法和***。
背景技术
随着客服中心全业务集中运营,录音、工单及电话呼入量逐年递增,显现海量之势,录音人工质量检测、自助录音服务和少数民族语言服务等业务不能完全支撑客服中心“两全三化”的发展。基于客服中心的业务需求,智能客服的概念被随之提出,随着“互联网+”、大数据、深度学习等技术的发展,智能录音技术与大数据、云计算、人工智能结合应用,可以使用海量的数据对录音识别的声学模型、语言模型进行不间断的训练,同时采用内存计算、流计算等技术处理数据转写,将会大大提升智能录音技术识别率,提高录音数据的转写速度。但是目前客服中心的录音工单都是单通道,其录音识别的正确率受到很大影响,需要对单通道的录音分
离技术研究。对于说话人无关的情况,分离技术变得更加困难,同时在进行分离时复杂度也会上升并带来更大时延。
发明内容
本发明所要解决的技术问题是提供一种基于DNN的说话人无关单通道录音分离的方法和***,本发明使用具有录音对数功率谱作为录音的特征,特征具有全局特性,避免了特征表达不够带来的算法准确率上的损失;在录音的分割和重组的操作上区别CASA的操作使用了DNN算法;并以最小均方误差准则保障DNN的训练集误差不超过标准范围,提高录音识别的正确率。
为实现上述目的,一方面本发明提供以下的技术方案:基于DNN的说话人无关单通道录音分离的方法和***,其中:具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
优选的,所述单通道的说话人混合特征包含男女混合,男男混合以及女女混合三种情况
优选的,所述类聚的具体流程为:提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector;计算欧式距离矩阵,根据说话人的i-vector计算欧式距离;多维尺度分析,Sammon’s准则下的MDS分析获取2d空间上的分布结果;K-means聚类,K-means算法聚类避免局部最优。
优选的,所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合,所述DNN检测器以混合录音对数功率谱特征为输入以干净录音对数功率谱特征为输出,所述DNN检测器的目标函数为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
优选的,DNN检测器的判别式如下:
其中和表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
优选的,所述DNN分离器包括M-M DNN分离器(男男混合DNN分离器)、F-F DNN(女女混合DNN分离器)分离器、M-F DNN分离器(男女混合DNN分离器)。
优选的,分离器使用以下的目标函数进行训练:
另一方面,本发明还提供了基于DNN的说话人无关单通道录音分离***,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,配置用于单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,配置用于用于对语音信号结果进行测试。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
本发明与现有技术相比,具有的有益效果为:
1.本发明提供的基于DNN的说话人无关单通道录音分离的方法,通过录音类聚模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征,将男性和女性说话人聚成两类,并进一步的分别将男性和女性说话人聚成两个子类,从而用来处理同性说话人混合的情况,提高算法的准确度。
2.本发明提供的基于DNN的说话人无关单通道录音分离的方法,使用具有录音对数功率谱作为录音的特征,特征具有全局特性,避免了特征表达不够带来的算法准确率上的损失。
3.本发明提出的基于DNN的单通道录音分离***,能够实现无先验信息的情况下单通道录音的角色分离,主要是先通过检测判决说话人的性别信息,判定录音的说话人的组合,在选择相应的DNN分离器,能够快速的分离。
4.本发明在构建检测器时,选用多输出回归深度神经网络检测器,在对比STOI指标和PESQ指标上基于DNN的分离***的分离效果优于比经典CASA***。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为实施例的流程示意图;
图2为类聚的流程图;
图3为DNN检测器结构图;
图4为DNN分离器结构图;
图5为检测性能测试检测结果。
具体实施方式
为使发明的目的、技术方案和优点更加清楚明了,下面通过附图中及实施例,对本发明技术方案进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明技术方案,并不用于限制本发明技术方案的范围。
为解决现有技术问题,本发明实施例提供一种基于CNN-RSC组合优化算法的语音情感分析方法,以下进行详细说明。
实施例1:
如图1-3所示,本发明的一个实施例提供了基于DNN的说话人无关单通道录音分离的方法和***,具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音类聚模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
本实施例中的测试和训练集合都是采用基于SSC数据库(Coookie and Lee,2006)中的录音数据来构造的。SSC数据库是由34名说话人(18名男性说话人,16名女性说话人),每个人500局录音数据组成的。本文以信噪比[-10dB,10dB],间隔2dB,生成混合录音数据,测试集中目标录音和干扰录音信噪比在[-9dB,6dB],间隔为3dB。混合录音以降采样得到16kHz的波形文件,特征的帧移为32ms,包含512个采样点,特征的帧移为16ms,包含256个采样点,利用短时FFT得到DFT系数得到257维LPC特征的训练数据。
本实施例中,所述类聚的具体流程为:提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector;计算欧式距离矩阵,根据说话人的i-vector计算欧式距离;多维尺度分析,Sammon’s准则下的MDS分析获取2d空间上的分布结果;K-means聚类,K-means算法聚类避免局部最优。
本实施例中,DNN检测器的目标函数为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
本实施例中,DNN检测器的判别式如下:
其中和表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
优选的,分离器使用以下的目标函数进行训练:
对本实施例的检测性能进行测试,检测性能测试检测结果见图5,由图5可以看出,基于开发集的DNN最优检测率为94.73%。
通过在STOI指标和PESQ指标上对比基于DNN的说话人无关录音分离***和经典的CASA,对比结果见表1。
表1 PESQ和STOI结果对比表
由表1对比的基于DNN的说话人无关录音分离***和CASA***分离异性说话人时的PESQ和STOI结果。整体结果在所有的输入信噪比条件下比CASA***要好很多。
另一方面,本实施例还提供了基于DNN的说话人无关单通道录音分离***,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,用于对语音信号结果进行测试。
另一方面,本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.基于DNN的说话人无关单通道录音分离的方法,其特征在于:具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
2.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述单通道说话人混合特征包含男女混合,男男混合以及女女混合三种情况。
3.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述类聚的具体流程为:提取说话人的i-vector,计算欧式距离矩阵,多维尺度分析,K-means聚类。
4.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:DNN检测器的目标函数公式为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
5.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合,DNN检测器采用的判别式如下:
其中和表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
6.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述DNN分离器包括M-M DNN分离器、F-F DNN分离器和M-F DNN分离器。
7.根据权利要求1或6所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:DNN分离器使用的目标函数公式为:
8.基于DNN的说话人无关单通道录音分离***,其特征在于,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,配置用于单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,配置用于用于对语音信号结果进行测试。
9.一种设备,其特征在于:所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于:该程序被处理器执行时实现本发明如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576208.6A CN109036454A (zh) | 2018-06-06 | 2018-06-06 | 基于dnn的说话人无关单通道录音分离的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576208.6A CN109036454A (zh) | 2018-06-06 | 2018-06-06 | 基于dnn的说话人无关单通道录音分离的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109036454A true CN109036454A (zh) | 2018-12-18 |
Family
ID=64612279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810576208.6A Pending CN109036454A (zh) | 2018-06-06 | 2018-06-06 | 基于dnn的说话人无关单通道录音分离的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036454A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
WO2020258661A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN112685555A (zh) * | 2019-10-17 | 2021-04-20 | ***通信集团浙江有限公司 | 投诉工单质量检测方法及装置 |
WO2021139294A1 (zh) * | 2020-01-07 | 2021-07-15 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
CN116567150A (zh) * | 2023-07-11 | 2023-08-08 | 山东凌晓通信科技有限公司 | 一种会议室防窃听偷录的方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
-
2018
- 2018-06-06 CN CN201810576208.6A patent/CN109036454A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Non-Patent Citations (1)
Title |
---|
王燕南: "基于深度学习的说话人无关单通道语音分离", 《中国博士学位论文全文数据库(电子期刊)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020258661A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN112685555A (zh) * | 2019-10-17 | 2021-04-20 | ***通信集团浙江有限公司 | 投诉工单质量检测方法及装置 |
CN112685555B (zh) * | 2019-10-17 | 2023-04-18 | ***通信集团浙江有限公司 | 投诉工单质量检测方法及装置 |
WO2021139294A1 (zh) * | 2020-01-07 | 2021-07-15 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
US11908455B2 (en) | 2020-01-07 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Speech separation model training method and apparatus, storage medium and computer device |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
CN111899757B (zh) * | 2020-09-29 | 2021-01-12 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
CN116567150A (zh) * | 2023-07-11 | 2023-08-08 | 山东凌晓通信科技有限公司 | 一种会议室防窃听偷录的方法及*** |
CN116567150B (zh) * | 2023-07-11 | 2023-09-08 | 山东凌晓通信科技有限公司 | 一种会议室防窃听偷录的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036454A (zh) | 基于dnn的说话人无关单通道录音分离的方法和*** | |
Lin et al. | Deep unknown intent detection with margin loss | |
CN110289003B (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN106503805B (zh) | 一种基于机器学习的双模态人人对话情感分析方法 | |
CN105261367B (zh) | 一种说话人识别方法 | |
Weninger et al. | Deep learning based mandarin accent identification for accent robust ASR. | |
CN103793447B (zh) | 音乐与图像间语义相似度的估计方法和估计*** | |
CN109712641A (zh) | 一种基于支持向量机的音频分类和分段的处理方法 | |
CN101923855A (zh) | 文本无关的声纹识别*** | |
CN109766929A (zh) | 一种基于svm的音频分类方法及*** | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类***及方法 | |
CN106294344A (zh) | 视频检索方法和装置 | |
Apsingekar et al. | Speaker model clustering for efficient speaker identification in large population applications | |
CN109977258A (zh) | 图像和语音的跨模态检索分类器模型、检索***和检索方法 | |
CN107885723B (zh) | 对话角色区分方法和*** | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
CN107358947A (zh) | 说话人重识别方法及*** | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Awais et al. | Speaker recognition using mel frequency cepstral coefficient and locality sensitive hashing | |
Zhu et al. | Speaker Recognition System Based on weighted feature parameter | |
CN107766560A (zh) | 客服服务流程的评价方法和*** | |
Ghaemmaghami et al. | Speaker attribution of australian broadcast news data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |