CN109036454A - 基于dnn的说话人无关单通道录音分离的方法和*** - Google Patents

基于dnn的说话人无关单通道录音分离的方法和*** Download PDF

Info

Publication number
CN109036454A
CN109036454A CN201810576208.6A CN201810576208A CN109036454A CN 109036454 A CN109036454 A CN 109036454A CN 201810576208 A CN201810576208 A CN 201810576208A CN 109036454 A CN109036454 A CN 109036454A
Authority
CN
China
Prior art keywords
dnn
speaker
single channel
recording
separator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810576208.6A
Other languages
English (en)
Inventor
徐海青
***
吴立刚
章爱武
陈是同
徐唯耀
秦浩
王文清
郑娟
秦婷
梁翀
浦正国
张天奇
余江斌
韩涛
杨维
张才俊
孙林檀
田诺
潘子春
李葵
李明
张引强
黄影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810576208.6A priority Critical patent/CN109036454A/zh
Publication of CN109036454A publication Critical patent/CN109036454A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Catching Or Destruction (AREA)

Abstract

本发明公开了一种基于DNN的说话人无关单通道录音分离的方法和***,属于技术领域,具体步骤包括对训练集的语料进行分词处理,同时对词语进行向量编码,通过分词处理和词语向量编码的过程,用矩阵将一段语句表示出来生成词向量,然后将生成的词向量作为输入样本,输入到卷积神经网络中。本发明提出的组合优化算法在对文本情感特征的自动学习上有着不错的效果,模型的训练速度也大大的提高,分类结果准确度高、自动学习能力强。

Description

基于DNN的说话人无关单通道录音分离的方法和***
技术领域
本发明属于情感技术领域,特别涉及一种基于DNN的说话人无关单通道录音分离的方法和***。
背景技术
随着客服中心全业务集中运营,录音、工单及电话呼入量逐年递增,显现海量之势,录音人工质量检测、自助录音服务和少数民族语言服务等业务不能完全支撑客服中心“两全三化”的发展。基于客服中心的业务需求,智能客服的概念被随之提出,随着“互联网+”、大数据、深度学习等技术的发展,智能录音技术与大数据、云计算、人工智能结合应用,可以使用海量的数据对录音识别的声学模型、语言模型进行不间断的训练,同时采用内存计算、流计算等技术处理数据转写,将会大大提升智能录音技术识别率,提高录音数据的转写速度。但是目前客服中心的录音工单都是单通道,其录音识别的正确率受到很大影响,需要对单通道的录音分
离技术研究。对于说话人无关的情况,分离技术变得更加困难,同时在进行分离时复杂度也会上升并带来更大时延。
发明内容
本发明所要解决的技术问题是提供一种基于DNN的说话人无关单通道录音分离的方法和***,本发明使用具有录音对数功率谱作为录音的特征,特征具有全局特性,避免了特征表达不够带来的算法准确率上的损失;在录音的分割和重组的操作上区别CASA的操作使用了DNN算法;并以最小均方误差准则保障DNN的训练集误差不超过标准范围,提高录音识别的正确率。
为实现上述目的,一方面本发明提供以下的技术方案:基于DNN的说话人无关单通道录音分离的方法和***,其中:具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
优选的,所述单通道的说话人混合特征包含男女混合,男男混合以及女女混合三种情况
优选的,所述类聚的具体流程为:提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector;计算欧式距离矩阵,根据说话人的i-vector计算欧式距离;多维尺度分析,Sammon’s准则下的MDS分析获取2d空间上的分布结果;K-means聚类,K-means算法聚类避免局部最优。
优选的,所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合,所述DNN检测器以混合录音对数功率谱特征为输入以干净录音对数功率谱特征为输出,所述DNN检测器的目标函数为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
优选的,DNN检测器的判别式如下:
其中表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
优选的,所述DNN分离器包括M-M DNN分离器(男男混合DNN分离器)、F-F DNN(女女混合DNN分离器)分离器、M-F DNN分离器(男女混合DNN分离器)。
优选的,分离器使用以下的目标函数进行训练:
另一方面,本发明还提供了基于DNN的说话人无关单通道录音分离***,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,配置用于单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,配置用于用于对语音信号结果进行测试。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
本发明与现有技术相比,具有的有益效果为:
1.本发明提供的基于DNN的说话人无关单通道录音分离的方法,通过录音类聚模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征,将男性和女性说话人聚成两类,并进一步的分别将男性和女性说话人聚成两个子类,从而用来处理同性说话人混合的情况,提高算法的准确度。
2.本发明提供的基于DNN的说话人无关单通道录音分离的方法,使用具有录音对数功率谱作为录音的特征,特征具有全局特性,避免了特征表达不够带来的算法准确率上的损失。
3.本发明提出的基于DNN的单通道录音分离***,能够实现无先验信息的情况下单通道录音的角色分离,主要是先通过检测判决说话人的性别信息,判定录音的说话人的组合,在选择相应的DNN分离器,能够快速的分离。
4.本发明在构建检测器时,选用多输出回归深度神经网络检测器,在对比STOI指标和PESQ指标上基于DNN的分离***的分离效果优于比经典CASA***。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为实施例的流程示意图;
图2为类聚的流程图;
图3为DNN检测器结构图;
图4为DNN分离器结构图;
图5为检测性能测试检测结果。
具体实施方式
为使发明的目的、技术方案和优点更加清楚明了,下面通过附图中及实施例,对本发明技术方案进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明技术方案,并不用于限制本发明技术方案的范围。
为解决现有技术问题,本发明实施例提供一种基于CNN-RSC组合优化算法的语音情感分析方法,以下进行详细说明。
实施例1:
如图1-3所示,本发明的一个实施例提供了基于DNN的说话人无关单通道录音分离的方法和***,具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音类聚模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
本实施例中的测试和训练集合都是采用基于SSC数据库(Coookie and Lee,2006)中的录音数据来构造的。SSC数据库是由34名说话人(18名男性说话人,16名女性说话人),每个人500局录音数据组成的。本文以信噪比[-10dB,10dB],间隔2dB,生成混合录音数据,测试集中目标录音和干扰录音信噪比在[-9dB,6dB],间隔为3dB。混合录音以降采样得到16kHz的波形文件,特征的帧移为32ms,包含512个采样点,特征的帧移为16ms,包含256个采样点,利用短时FFT得到DFT系数得到257维LPC特征的训练数据。
本实施例中,所述类聚的具体流程为:提取说话人的i-vector,对每一个说话人根据其所有的语料训练提取说话人特性的100维的i-vector;计算欧式距离矩阵,根据说话人的i-vector计算欧式距离;多维尺度分析,Sammon’s准则下的MDS分析获取2d空间上的分布结果;K-means聚类,K-means算法聚类避免局部最优。
本实施例中,DNN检测器的目标函数为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
本实施例中,DNN检测器的判别式如下:
其中表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
优选的,分离器使用以下的目标函数进行训练:
对本实施例的检测性能进行测试,检测性能测试检测结果见图5,由图5可以看出,基于开发集的DNN最优检测率为94.73%。
通过在STOI指标和PESQ指标上对比基于DNN的说话人无关录音分离***和经典的CASA,对比结果见表1。
表1 PESQ和STOI结果对比表
由表1对比的基于DNN的说话人无关录音分离***和CASA***分离异性说话人时的PESQ和STOI结果。整体结果在所有的输入信噪比条件下比CASA***要好很多。
另一方面,本实施例还提供了基于DNN的说话人无关单通道录音分离***,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,用于对语音信号结果进行测试。
另一方面,本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于DNN的说话人无关单通道录音分离的方法。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.基于DNN的说话人无关单通道录音分离的方法,其特征在于:具体步骤为:
S1:从数据库中提取录音数据,得到训练集和测试集;
S2:对训练集进行单通道说话人混合特征提取;
S3:通过录音对数功率谱特征训练聚类模型对说话人混合特征类聚,将男性和女性声音分为四个子类,提取特征;
S4:将提取的特征送入说话人DNN检测器,检测判断选择对应的DNN分离器;
S5:DNN分离器基于说话人相关的方式进行单通道录音分离训练,实现话者分离,得到目标信号的特征向量,DNN分离器输出目标语音的对数功率谱特征;
S6:对DNN分离器输出目标语音的对数功率谱特征进行波形重建,产生可测听的语音信号。
S7:测试集对产生的可测听的语音信号结果进行测试。
2.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述单通道说话人混合特征包含男女混合,男男混合以及女女混合三种情况。
3.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述类聚的具体流程为:提取说话人的i-vector,计算欧式距离矩阵,多维尺度分析,K-means聚类。
4.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:DNN检测器的目标函数公式为:
其中是目标的对数功率谱特征,表示第t帧估测的说话人集合的对数功率谱,T是迭代参数调优的训练样本的数量。
5.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述DNN检测器用于检测判断混合录音是男男混合、男女混合和女女混合的哪种混合,DNN检测器采用的判别式如下:
其中表示RDNN检测器输出说话人在时域变换下的总能量。通过能量的极值来判定录音混合情况。
6.根据权利要求1所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:所述DNN分离器包括M-M DNN分离器、F-F DNN分离器和M-F DNN分离器。
7.根据权利要求1或6所述的基于DNN的说话人无关单通道录音分离的方法,其特征在于:DNN分离器使用的目标函数公式为:
8.基于DNN的说话人无关单通道录音分离***,其特征在于,包括:
数据提取单元,配置用于对数据库录音数据进行单通道的说话人特征的提取;
类聚单元,配置用于通过录音聚类算法对说话人类聚;
检测单元,配置用于输出进行性别检测
分离单元,配置用于单通道录音分离训练,实现话者分离;
输出单元,配置用于将分离结果输出;
测试单元,配置用于用于对语音信号结果进行测试。
9.一种设备,其特征在于:所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于:该程序被处理器执行时实现本发明如权利要求1-7任一所述的基于DNN的说话人无关单通道录音分离的方法。
CN201810576208.6A 2018-06-06 2018-06-06 基于dnn的说话人无关单通道录音分离的方法和*** Pending CN109036454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810576208.6A CN109036454A (zh) 2018-06-06 2018-06-06 基于dnn的说话人无关单通道录音分离的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810576208.6A CN109036454A (zh) 2018-06-06 2018-06-06 基于dnn的说话人无关单通道录音分离的方法和***

Publications (1)

Publication Number Publication Date
CN109036454A true CN109036454A (zh) 2018-12-18

Family

ID=64612279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810576208.6A Pending CN109036454A (zh) 2018-06-06 2018-06-06 基于dnn的说话人无关单通道录音分离的方法和***

Country Status (1)

Country Link
CN (1) CN109036454A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及***
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112685555A (zh) * 2019-10-17 2021-04-20 ***通信集团浙江有限公司 投诉工单质量检测方法及装置
WO2021139294A1 (zh) * 2020-01-07 2021-07-15 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备
CN116567150A (zh) * 2023-07-11 2023-08-08 山东凌晓通信科技有限公司 一种会议室防窃听偷录的方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王燕南: "基于深度学习的说话人无关单通道语音分离", 《中国博士学位论文全文数据库(电子期刊)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020258661A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN112685555A (zh) * 2019-10-17 2021-04-20 ***通信集团浙江有限公司 投诉工单质量检测方法及装置
CN112685555B (zh) * 2019-10-17 2023-04-18 ***通信集团浙江有限公司 投诉工单质量检测方法及装置
WO2021139294A1 (zh) * 2020-01-07 2021-07-15 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备
US11908455B2 (en) 2020-01-07 2024-02-20 Tencent Technology (Shenzhen) Company Limited Speech separation model training method and apparatus, storage medium and computer device
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及***
CN111899757B (zh) * 2020-09-29 2021-01-12 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及***
CN116567150A (zh) * 2023-07-11 2023-08-08 山东凌晓通信科技有限公司 一种会议室防窃听偷录的方法及***
CN116567150B (zh) * 2023-07-11 2023-09-08 山东凌晓通信科技有限公司 一种会议室防窃听偷录的方法及***

Similar Documents

Publication Publication Date Title
CN109036454A (zh) 基于dnn的说话人无关单通道录音分离的方法和***
Lin et al. Deep unknown intent detection with margin loss
CN110289003B (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN106503805B (zh) 一种基于机器学习的双模态人人对话情感分析方法
CN105261367B (zh) 一种说话人识别方法
Weninger et al. Deep learning based mandarin accent identification for accent robust ASR.
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计***
CN109712641A (zh) 一种基于支持向量机的音频分类和分段的处理方法
CN101923855A (zh) 文本无关的声纹识别***
CN109766929A (zh) 一种基于svm的音频分类方法及***
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类***及方法
CN106294344A (zh) 视频检索方法和装置
Apsingekar et al. Speaker model clustering for efficient speaker identification in large population applications
CN109977258A (zh) 图像和语音的跨模态检索分类器模型、检索***和检索方法
CN107885723B (zh) 对话角色区分方法和***
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN107358947A (zh) 说话人重识别方法及***
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Awais et al. Speaker recognition using mel frequency cepstral coefficient and locality sensitive hashing
Zhu et al. Speaker Recognition System Based on weighted feature parameter
CN107766560A (zh) 客服服务流程的评价方法和***
Ghaemmaghami et al. Speaker attribution of australian broadcast news data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218