CN113345460A - 音频信号处理方法、装置、设备及存储介质 - Google Patents

音频信号处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113345460A
CN113345460A CN202110895260.XA CN202110895260A CN113345460A CN 113345460 A CN113345460 A CN 113345460A CN 202110895260 A CN202110895260 A CN 202110895260A CN 113345460 A CN113345460 A CN 113345460A
Authority
CN
China
Prior art keywords
noise
target
audio signal
processing
target segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110895260.XA
Other languages
English (en)
Other versions
CN113345460B (zh
Inventor
马路
杨嵩
王心恬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110895260.XA priority Critical patent/CN113345460B/zh
Publication of CN113345460A publication Critical patent/CN113345460A/zh
Application granted granted Critical
Publication of CN113345460B publication Critical patent/CN113345460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开提供一种音频信号处理方法、装置、设备及存储介质,该方法包括:获取音频信号;利用预先训练的降噪模型确定所述音频信号对应的噪声特征;对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。通过将音频信号输入到预先训练完成的降噪模型中,由于该降噪模型包括噪声分类器和语音降噪器,噪声分类器用于确定音频信号对应的噪声特征,语音降噪器用于根据音频信号对应的噪声特征确定音频信号对应的语音特征,从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪,更好的引导语音降噪器提取语音特征,从而达到更好的语音降噪效果。

Description

音频信号处理方法、装置、设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种音频信号处理方法、装置、设备及存储介质。
背景技术
随着人工智能、语音增强、语音识别和音视频通信等技术的不断发展,音频信号的音质越来越重要。为了提高音频信号的音质,可以对音频信号进行降噪处理。
但是,现有技术无法有效消除音频信号中的噪声,从而导致降噪效果不够理想。
发明内容
根据本公开的一方面,提供了一种音频信号处理方法,包括:
获取音频信号;
利用预先训练的降噪模型确定所述音频信号对应的噪声特征;
对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;
对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
根据本公开的另一方面,提供了一种音频信号处理装置,包括:
获取模块,用于获取音频信号;
确定模块,用于利用预先训练的降噪模型确定所述音频信号对应的噪声特征;
处理模块,用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;以及对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述的音频信号处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的音频信号处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述几方面所述的方法。
本申请实施例中提供的一个或多个技术方案,利用该噪声特征辅助进行语音降噪,更好的引导语音降噪器提取语音特征。也就是说根据噪声特征可以有针对性的消除带噪信号中的噪声,从而达到更好的语音降噪效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的降噪模型的示意图;
图2示出了根据本公开示例性实施例的应用场景的示意图;
图3示出了根据本公开示例性实施例的带噪语音的生成方法流程图;
图4示出了根据本公开示例性实施例的降噪模型的示意图;
图5示出了根据本公开示例性实施例的降噪模型的示意图;
图6示出了根据本公开示例性实施例的降噪模型的示意图;
图7示出了根据本公开示例性实施例的音频信号处理方法流程图;
图8示出了根据本公开示例性实施例的音频信号处理方法流程图;
图9示出了根据本公开示例性实施例的音频信号处理方法流程图;
图10示出了根据本公开示例性实施例的音频信号处理装置的结构示意图;
图11示出了根据本公开示例性实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
通常情况下,为了提高音频信号的音质,可以对音频信号进行降噪处理。目前的语音降噪主要采用开源工具,例如,网页实时通信(Web Real-Time Communication,WebRTC)中的降噪方法。具体的,针对待降噪的音频信号,计算其频谱平坦度、对数似然比(Likelihood Ratio Test, LRT)特征、频谱差异特征等,进一步,根据这些特征更新该音频信号中的语音分量和噪声分量之间的概率函数,根据该概率函数更新噪声估计,并根据噪声估计得到维纳滤波器。进一步,利用该维纳滤波器对该音频信号降噪。由于这种方法直接在带噪的音频信号中进行噪声和语音的估计,因此估计噪声的过程中,语音分量会影响噪声分量的准确估计,噪声分量的估计也会影响语音分量的估计,从而影响最终的降噪效果。针对该问题,本公开实施例提供了一种音频信号处理方法,该方法可以应用预先训练的降噪模型对音频信号进行处理,从而得到降噪后的目标音频信号。在介绍该音频信号处理方法之前,本公开实施例可以对该降噪模型的训练过程进行介绍。
图1所示为降噪模型的一种结构示意图,具体的,该降噪模型包括如下几个部分:音频编码器(Audio Encoder)、语谱编码器(Spectrogram Encoder)、噪声分类器(NoiseClassifier)、语音降噪器(Speech Denoiser)和音频解码器(Audio Decoder)。
具体的,该降噪模型属于机器学习模型、神经网络模型等模型。在本实施例中,该降噪模型具体可以是语音降噪网络或语音降噪模型,该降噪模型的输入音频信号可以是带噪的音频信号,例如,输入音频信号是根据样本噪声信号和样本音频信号生成的。该降噪模型对输入音频信号进行降噪处理后得到输出音频信号,即该降噪模型的输出音频信号。其中,样本音频信号可以是无噪声的样本音频信号,或者样本音频信号可以是噪声含量小于或等于预设阈值的样本音频信号。进一步,根据该样本音频信号和该降噪模型的输出音频信号对该降噪模型进行训练。
在本实施例中,该降噪模型的训练过程可以由如图2所示的服务器21来执行,当服务器21将该降噪模型训练完成后,服务器21可以将训练完成的降噪模型部署到终端22中,从而使得终端22可以根据该训练完成的降噪模型实现语音识别、语音增强、音视频通信等功能。或者,当服务器21将该降噪模型训练完成后,服务器21可以将训练完成的降噪模型保存在本地,终端22将待处理的音频信号发送给服务器21,从而使得服务器21可以根据该训练完成的降噪模型对该待处理的音频信号进行语音识别、语音增强等处理。也就是说,该降噪模型的训练阶段和使用阶段可以由不同设备分别执行,也可以由同一设备来执行。另外,可以理解的是,该模型训练方法不限于由服务器21来执行,例如还可以由台式机、笔记本电脑、一体机、智能手机等具有处理功能的设备来执行。此外,如图2所示的终端22具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。
如图2所示,服务器21可以对应有第一数据库和第二数据库,在一种实现方式中,第一数据库和第二数据库可以部署在该服务器21中。在另一种实现方式中,第一数据库和/或第二数据库部署在其他服务器中,其他服务器和服务器21可以通信连接。具体的,第一数据库中可以存储有多个无噪声的样本音频信号,第二数据库中可以存储有多个样本噪声信号。服务器21可以从第一数据库中随机选取一个无噪声的样本音频信号,从第二数据库中随机选取一个样本噪声信号。进一步,服务器21可以将该样本噪声信号和该无噪声的样本音频信号进行混合得到输入音频信号,该输入音频信号是带噪语音信号。其中,该无噪声的样本音频信号可以是无噪声的干净语音,另外,该无噪声的样本音频信号也可以称为参考语音信号。
在另一种可行的实现方式中,将该样本噪声信号和该无噪声的样本音频信号进行混合得到输入音频信号的过程可以由除服务器21之外的其他服务器来执行,进一步,服务器21从其他服务器中获取该输入音频信号。
可选的,根据样本噪声信号和样本音频信号生成输入音频信号,包括:获取样本噪声信号和样本音频信号;对所述样本音频信号和所述样本噪声信号之间的信噪比进行调整,使得调整后的信噪比在预设信噪比范围内;将信噪比调整后的所述样本音频信号和所述样本噪声信号进行叠加,得到所述输入音频信号。
如图3所示为输入音频信号生成过程的示意图,例如,从第一数据库中随机选择一个干净语音作为无噪声的样本音频信号。干净语音可以经过一个房间冲激响应(RoomImpulse Response, RIR)得到经过房间反射后的语音信号,从而模拟环境引入的混响。从第二数据库中随机选择一个噪声作为样本噪声信号。
进一步,计算该样本噪声信号的平均能量和该经过房间反射后的语音信号的平均能量。根据该样本噪声信号的平均能量和该经过房间反射后的语音信号的平均能量可以计算出该语音信号和该样本噪声信号之间的信噪比。可以理解的是,该信噪比可能并不符合要求。进一步,对该语音信号和该样本噪声信号之间的信噪比进行调整,使得调整后的信噪比在预设信噪比范围内。例如,根据真实应用场景中的噪声强度大小,按照预设的信噪比范围计算该语音信号和该样本噪声信号的幅度系数,进一步将该语音信号的幅度系数乘上该语音信号,将该样本噪声信号的幅度系数乘上该样本噪声信号。将信噪比调整后的该语音信号和该样本噪声信号直接叠加之后得到混合的带噪语音,该带噪语音可以是如上所述的输入音频信号。该输入音频信号作为该降噪模型在训练阶段中的输入。
下面结合具体的实施例介绍该降噪模型对输入音频信号进行处理得到输出音频信号的过程。
图4所示为降噪模型的另一种结构示意图。在本实施例中,输入音频信号可以是实 时的音频流,该输入音频信号可以被分割为多个音频片段,此处的音频片段可以记为第一 片段。例如,该输入音频信号可以被分割为
Figure 866281DEST_PATH_IMAGE001
个音频片段即
Figure 379302DEST_PATH_IMAGE001
个第一片段,每个音频片段可 以记为一帧,每个音频片段包括
Figure 387709DEST_PATH_IMAGE002
个采样点,例如该
Figure 706695DEST_PATH_IMAGE001
个音频片段中的第
Figure 487088DEST_PATH_IMAGE003
个音频片段可以 表示为
Figure 171010DEST_PATH_IMAGE004
Figure 401135DEST_PATH_IMAGE005
。也就是说,此处的
Figure 399178DEST_PATH_IMAGE001
个第一片段从第0个第一片段开始起算, 直到第
Figure 296726DEST_PATH_IMAGE006
个第一片段。该
Figure 885971DEST_PATH_IMAGE001
个音频片段可以依次输入到该降噪模型中,例如图4所示的
Figure 196866DEST_PATH_IMAGE007
Figure 795338DEST_PATH_IMAGE001
个音频片段中当前输入到该降噪模型中的音频片段,
Figure 281814DEST_PATH_IMAGE007
记为目标片段。音频编码器可 以将该目标片段
Figure 304609DEST_PATH_IMAGE007
从时域变换为时频语谱图,该时频语谱图记为目标片段
Figure 509326DEST_PATH_IMAGE007
对应的第一时 频语谱图
Figure 380330DEST_PATH_IMAGE008
该语谱编码器可以对目标片段
Figure 190154DEST_PATH_IMAGE007
对应的第一时频语谱图
Figure 386780DEST_PATH_IMAGE008
进行处理,得到
Figure 813213DEST_PATH_IMAGE007
对 应的深度特征
Figure 753487DEST_PATH_IMAGE009
,具体的,该语谱编码器可以将该目标片段
Figure 214556DEST_PATH_IMAGE007
对应的第一时频语谱图
Figure 331152DEST_PATH_IMAGE008
编 码成一个深度特征
Figure 510461DEST_PATH_IMAGE009
。该深度特征
Figure 988847DEST_PATH_IMAGE009
一方面被送入噪声分类器,另一方面被送入语音降噪 器。噪声分类器可以对该深度特征
Figure 304422DEST_PATH_IMAGE009
进行处理,得到
Figure 108430DEST_PATH_IMAGE007
对应的噪声特征。进一步,噪声分类 器将该目标片段
Figure 509455DEST_PATH_IMAGE007
对应的噪声特征提供给语音降噪器,语音降噪器可以根据该深度特征
Figure 525953DEST_PATH_IMAGE009
和该目标片段
Figure 961613DEST_PATH_IMAGE007
对应的噪声特征确定该目标片段
Figure 199172DEST_PATH_IMAGE007
对应的语音特征。
在一种可能的实现方式中,如图4所示,噪声分类器包括噪声编码器和分类层。语音降噪器包括语音编码器、拼接器和掩码生成器。
噪声分类器对该深度特征
Figure 87493DEST_PATH_IMAGE009
进行处理,得到
Figure 579786DEST_PATH_IMAGE007
对应的噪声特征,包括:通过噪声编 码器将目标片段
Figure 401111DEST_PATH_IMAGE007
对应的深度特征
Figure 422288DEST_PATH_IMAGE009
变换为第一目标特征
Figure 532327DEST_PATH_IMAGE010
,将第一目标特征
Figure 955873DEST_PATH_IMAGE010
作为
Figure 100547DEST_PATH_IMAGE007
对应的噪声特征。进一步,
Figure 354942DEST_PATH_IMAGE007
对应的噪声特征可以作为分类层的输入,同时,
Figure 14593DEST_PATH_IMAGE007
对应的噪声 特征可以作为语音降噪器中拼接器的输入。分类层对
Figure 379847DEST_PATH_IMAGE007
对应的噪声特征进行处理,得到
Figure 644606DEST_PATH_IMAGE007
对应的噪声类型。
另外,如图4所示,该目标片段
Figure 866640DEST_PATH_IMAGE007
对应的深度特征
Figure 216850DEST_PATH_IMAGE009
一方面被送入噪声分类器,另 一方面被送入语音降噪器。语音降噪器根据该深度特征
Figure 179602DEST_PATH_IMAGE009
和该目标片段
Figure 298868DEST_PATH_IMAGE007
对应的噪声特征 确定该目标片段
Figure 691803DEST_PATH_IMAGE007
对应的语音特征,包括:语音降噪器中的语音编码器可以将该深度特征
Figure 857205DEST_PATH_IMAGE009
变换为第二目标特征
Figure 360999DEST_PATH_IMAGE011
。语音降噪器中的拼接器将
Figure 600350DEST_PATH_IMAGE007
对应的噪声特征例如
Figure 164187DEST_PATH_IMAGE012
和第二目标 特征
Figure 426672DEST_PATH_IMAGE011
拼接构成
Figure 734156DEST_PATH_IMAGE007
对应的语音特征
Figure 819225DEST_PATH_IMAGE013
进一步,语音降噪器中的掩码生成器可以对
Figure 553963DEST_PATH_IMAGE007
对应的语音特征
Figure 366061DEST_PATH_IMAGE013
进行处理,得到
Figure 211658DEST_PATH_IMAGE007
对应的第一时频语谱图
Figure 160022DEST_PATH_IMAGE008
的掩码。音频编码器可以对第一时频语谱图
Figure 393557DEST_PATH_IMAGE008
和该掩码进行 处理,得到
Figure 427372DEST_PATH_IMAGE007
对应的第二时频语谱图,并对第二时频语谱图进行处理,得到
Figure 76659DEST_PATH_IMAGE007
对应的降噪后 的第二片段。
可以理解的是,由于上述所述的
Figure 410689DEST_PATH_IMAGE001
个音频片段可以依次输入到该降噪模型中,因 此,该
Figure 484300DEST_PATH_IMAGE001
个音频片段中的每个音频片段可对应一个第二片段,从而使得该
Figure 739832DEST_PATH_IMAGE001
个音频片段中 每个音频片段分别对应的第二片段可以构成上述所述的输出音频信号。
在另一种可能的实现方式中,如图5所示,噪声分类器包括:噪声编码器(NoiseEncoder)、噪声注意力机制(Noise Attention)、拼接器和分类层(Classfier)。语音降噪器包括语音编码器(Speech Encoder)、语音注意力机制(Speech Attention)、拼接器和掩码生成器(Mask Generator)。可以理解的是,在一些实施例中,噪声分类器可以包括噪声注意力机制,语音降噪器不包括语音注意力机制。或者,在其他一些实施例中,噪声分类器可以不包括噪声注意力机制,语音降噪器包括语音注意力机制。下面以图5为例进行示意性说明。
噪声分类器对该深度特征
Figure 192810DEST_PATH_IMAGE009
进行处理,得到
Figure 115766DEST_PATH_IMAGE007
对应的噪声特征,包括:通过噪声编 码器将目标片段
Figure 504153DEST_PATH_IMAGE007
对应的深度特征
Figure 778140DEST_PATH_IMAGE009
变换为第一目标特征
Figure 178684DEST_PATH_IMAGE012
,该第一目标特征
Figure 752885DEST_PATH_IMAGE012
可以是一 个高维特征;通过噪声注意力机制对目标片段
Figure 171228DEST_PATH_IMAGE007
之前的预设数量的第一片段分别对应的深 度特征、以及目标片段
Figure 666931DEST_PATH_IMAGE007
对应的深度特征
Figure 196133DEST_PATH_IMAGE009
和第一目标特征
Figure 93682DEST_PATH_IMAGE012
进行处理,得到第一注意力 系数
Figure 682926DEST_PATH_IMAGE014
。其中,目标片段
Figure 400346DEST_PATH_IMAGE007
之前的预设数量的第一片段可以是目标片段
Figure 730309DEST_PATH_IMAGE007
之前的
Figure 685626DEST_PATH_IMAGE015
个第 一片段。
例如,目标片段
Figure 445772DEST_PATH_IMAGE007
之前的
Figure 650488DEST_PATH_IMAGE015
个第一片段记为
Figure 787072DEST_PATH_IMAGE016
,由于目标片段
Figure 393634DEST_PATH_IMAGE007
是如上所述的
Figure 324680DEST_PATH_IMAGE001
个音频片段中的第
Figure 282272DEST_PATH_IMAGE017
帧,因此,音频片段
Figure 237195DEST_PATH_IMAGE018
是第
Figure 698263DEST_PATH_IMAGE019
帧,音频片段
Figure 128107DEST_PATH_IMAGE020
是第
Figure 979520DEST_PATH_IMAGE021
帧,依次类推,音频片段
Figure 785802DEST_PATH_IMAGE022
是第
Figure 101377DEST_PATH_IMAGE023
帧。
由于
Figure 639805DEST_PATH_IMAGE024
依次输入该降噪模型。因此,当
Figure 40831DEST_PATH_IMAGE018
输入该降噪模型时, 音频编码器生成
Figure 588487DEST_PATH_IMAGE018
对应的时频语谱图
Figure 755639DEST_PATH_IMAGE025
,语谱编码器生成
Figure 464969DEST_PATH_IMAGE025
对应的深度特征
Figure 353290DEST_PATH_IMAGE026
。当
Figure 173479DEST_PATH_IMAGE027
输入该降噪模型时,音频编码器生成
Figure 198066DEST_PATH_IMAGE027
对应的时频语谱图
Figure 78298DEST_PATH_IMAGE028
,语谱编码器生成
Figure 657178DEST_PATH_IMAGE028
对 应的深度特征
Figure 690511DEST_PATH_IMAGE029
。以此类推,当
Figure 569606DEST_PATH_IMAGE022
输入该降噪模型时,音频编码器生成
Figure 417476DEST_PATH_IMAGE022
对应的时频 语谱图
Figure 280390DEST_PATH_IMAGE030
,语谱编码器生成
Figure 442381DEST_PATH_IMAGE030
对应的深度特征
Figure 910402DEST_PATH_IMAGE031
。当
Figure 132436DEST_PATH_IMAGE007
输入该降噪模型时,音频编码器 生成
Figure 810542DEST_PATH_IMAGE007
对应的时频语谱图
Figure 773295DEST_PATH_IMAGE008
,语谱编码器生成
Figure 158140DEST_PATH_IMAGE008
对应的深度特征
Figure 551075DEST_PATH_IMAGE009
,噪声编码器将
Figure 123002DEST_PATH_IMAGE009
变 换为第一目标特征
Figure 830058DEST_PATH_IMAGE012
。具体的,噪声注意力机制可以根据
Figure 866147DEST_PATH_IMAGE032
Figure 633246DEST_PATH_IMAGE033
、…、
Figure 692468DEST_PATH_IMAGE031
Figure 991164DEST_PATH_IMAGE009
Figure 350601DEST_PATH_IMAGE012
计算得 到第一注意力系数
Figure 85339DEST_PATH_IMAGE014
进一步,噪声分类器中的拼接器将第一注意力系数
Figure 631858DEST_PATH_IMAGE014
和第一目标特征
Figure 805350DEST_PATH_IMAGE012
进行拼 接,从而构成目标片段
Figure 753715DEST_PATH_IMAGE007
对应的噪声特征
Figure 659354DEST_PATH_IMAGE034
。另外,
Figure 958748DEST_PATH_IMAGE007
对应的噪声特征
Figure 608035DEST_PATH_IMAGE034
可以作为分类层 的输入,同时,
Figure 611239DEST_PATH_IMAGE007
对应的噪声特征
Figure 953359DEST_PATH_IMAGE034
可以作为语音降噪器中拼接器和语音注意力机制的输 入。也就是说,噪声分类器中的拼接器不仅可以将
Figure 474470DEST_PATH_IMAGE007
对应的噪声特征
Figure 927448DEST_PATH_IMAGE034
提供给噪声分类器 中的分类层,同时还可以将
Figure 912721DEST_PATH_IMAGE034
提供给语音降噪器中的拼接器和语音注意力机制。分类层包 括一个线性层和一个柔性最大(Softmax)激活函数,分类层对
Figure 160163DEST_PATH_IMAGE007
对应的噪声特征
Figure 168570DEST_PATH_IMAGE034
进行处 理,得到
Figure 159660DEST_PATH_IMAGE007
对应的噪声类型。
另外,如图5所示,语谱编码器生成的
Figure 937123DEST_PATH_IMAGE032
Figure 764921DEST_PATH_IMAGE033
、…、
Figure 57362DEST_PATH_IMAGE031
Figure 993088DEST_PATH_IMAGE009
不仅可以提供给噪声编 码器,同时还可以提供给语音编码器。语音降噪器根据该深度特征
Figure 952954DEST_PATH_IMAGE009
和该目标片段
Figure 479881DEST_PATH_IMAGE007
对应 的噪声特征确定该目标片段
Figure 525197DEST_PATH_IMAGE007
对应的语音特征,包括:语音降噪器中的语音编码器将该深 度特征
Figure 858090DEST_PATH_IMAGE009
变换为第二目标特征
Figure 872795DEST_PATH_IMAGE035
,第二目标特征
Figure 632940DEST_PATH_IMAGE035
可以是一个高维特征。语音注意力机制 对目标片段
Figure 40919DEST_PATH_IMAGE007
之前的预设数量的第一片段分别对应的深度特征、以及目标片段
Figure 177502DEST_PATH_IMAGE007
对应的噪 声特征
Figure 784064DEST_PATH_IMAGE034
、目标片段
Figure 715111DEST_PATH_IMAGE007
对应的深度特征
Figure 407123DEST_PATH_IMAGE009
和第二目标特征
Figure 347398DEST_PATH_IMAGE035
进行处理,得到第二注意力系 数
Figure 823114DEST_PATH_IMAGE036
例如,目标片段
Figure 190642DEST_PATH_IMAGE007
之前的
Figure 369950DEST_PATH_IMAGE037
个第一片段记为
Figure 176232DEST_PATH_IMAGE038
Figure 757386DEST_PATH_IMAGE038
分别对应的深度特征依次为
Figure 30236DEST_PATH_IMAGE032
Figure 696841DEST_PATH_IMAGE033
、…、
Figure 916600DEST_PATH_IMAGE031
语音注意力机制可以根据
Figure 352261DEST_PATH_IMAGE032
Figure 324241DEST_PATH_IMAGE033
、…、
Figure 212562DEST_PATH_IMAGE031
Figure 32751DEST_PATH_IMAGE009
Figure 322918DEST_PATH_IMAGE034
Figure 531045DEST_PATH_IMAGE035
计算得到第二注意力系数
Figure 906663DEST_PATH_IMAGE036
。例如,语音注意力机制可以将
Figure 264963DEST_PATH_IMAGE034
Figure 940795DEST_PATH_IMAGE032
拼接得到第一序列
Figure 991928DEST_PATH_IMAGE039
,将
Figure 857771DEST_PATH_IMAGE034
Figure 754183DEST_PATH_IMAGE033
拼 接得到第一序列
Figure 159887DEST_PATH_IMAGE040
,以此类推,将
Figure 178659DEST_PATH_IMAGE034
Figure 263290DEST_PATH_IMAGE031
拼接得到第一序列
Figure 228972DEST_PATH_IMAGE041
,将
Figure 17412DEST_PATH_IMAGE034
Figure 472664DEST_PATH_IMAGE009
进行拼接得到第一序列
Figure 575749DEST_PATH_IMAGE042
另外,语音注意力机制还可以将
Figure 79543DEST_PATH_IMAGE034
Figure 318894DEST_PATH_IMAGE035
进行拼接得到第二序列
Figure 820414DEST_PATH_IMAGE043
。进一 步,语音注意力机制计算该第二序列和该多个第一序列之间的第二注意力系数
Figure 145216DEST_PATH_IMAGE036
进一步,语音降噪器中的拼接器将第二注意力系数
Figure 452700DEST_PATH_IMAGE036
、目标片段
Figure 546558DEST_PATH_IMAGE007
对应的噪声特 征
Figure 609192DEST_PATH_IMAGE034
和第二目标特征
Figure 412501DEST_PATH_IMAGE035
进行拼接,从而构成目标片段
Figure 523677DEST_PATH_IMAGE007
对应的语音特征
Figure 472041DEST_PATH_IMAGE044
。该语音降噪器 中的拼接器可以将
Figure 377680DEST_PATH_IMAGE044
提供给掩码生成器,掩码生成器包括一个线性层和一个sigmoid激活 函数。掩码生成器可以对
Figure 614758DEST_PATH_IMAGE007
对应的语音特征
Figure 264045DEST_PATH_IMAGE044
进行处理,得到
Figure 332495DEST_PATH_IMAGE007
对应的第一时频语谱图
Figure 409036DEST_PATH_IMAGE008
的掩码。
音频编码器可以对第一时频语谱图
Figure 287736DEST_PATH_IMAGE008
和该掩码进行处理,得到
Figure 619010DEST_PATH_IMAGE007
对应的第二时 频语谱图,并对第二时频语谱图进行处理,得到
Figure 745229DEST_PATH_IMAGE007
对应的降噪后的第二片段。
Figure 930354DEST_PATH_IMAGE045
个音频片段 中每个音频片段分别对应的第二片段可以构成上述所述的输出音频信号。
图6所示为降噪模型的另一种结构示意图,具体的,图6所示的降噪模型是在图5的基础上进一步细化的结构。下面结合图6对图5所示的降噪模型的各个组成部分进行详细介绍。
图5所示的音频编码器可以由一个一维卷积层(1-D Conv)构成,该一维卷积层为 图6所示的第一卷积层。该降噪模型的输入可以是如上所述的输入音频信号,第一卷积层可 以将该输入音频信号分割为多个音频片段,例如,
Figure 610865DEST_PATH_IMAGE045
个音频片段,每个音频片段包括
Figure 130184DEST_PATH_IMAGE046
个采 样点,
Figure 314172DEST_PATH_IMAGE007
是当前输入到该降噪模型中的音频片段,该音频片段记为目标片段。
Figure 732515DEST_PATH_IMAGE007
为例,该第一卷积层可以将
Figure 962639DEST_PATH_IMAGE007
变换为二维时频语谱图。例如,变换前
Figure 491840DEST_PATH_IMAGE007
包括
Figure 123810DEST_PATH_IMAGE046
个采样点,经过一维卷积之后变成了
Figure 978634DEST_PATH_IMAGE047
个点,该变换类似于短时傅里叶变换,该变换可以表 示为如下公式(1):
Figure 289529DEST_PATH_IMAGE048
(1)
其中,
Figure 902649DEST_PATH_IMAGE049
表示卷积操作,
Figure 389125DEST_PATH_IMAGE050
表示非线性函数。
Figure 618112DEST_PATH_IMAGE051
时,
Figure 822829DEST_PATH_IMAGE052
。当
Figure 959412DEST_PATH_IMAGE053
时,
Figure 565974DEST_PATH_IMAGE054
。依次类推,当
Figure 762600DEST_PATH_IMAGE055
时,
Figure 454613DEST_PATH_IMAGE056
图6所示的语谱编码器可以由一个长短时记忆网络(long short term memory,LSTM)层实现。例如,LSTM层的处理过程可以表示为如下公式(2):
Figure 457204DEST_PATH_IMAGE057
(2)
其中,
Figure 180921DEST_PATH_IMAGE058
表示语谱编码器的输出,即语谱编码器得到的深度特征。
Figure 751711DEST_PATH_IMAGE059
表示语谱编码 器的输入,另外,
Figure 665441DEST_PATH_IMAGE059
也表示音频编码器的输出,即音频编码器的输出是语谱编码器的输入。
Figure 143826DEST_PATH_IMAGE052
时,
Figure 990560DEST_PATH_IMAGE060
。当
Figure 263409DEST_PATH_IMAGE061
时,
Figure 930014DEST_PATH_IMAGE062
。依次类推,当
Figure 274408DEST_PATH_IMAGE056
时,
Figure 710068DEST_PATH_IMAGE063
图5所示的噪声分类器具体可以包括噪声编码器(Noise Encoder)、噪声注意力机制(Noise Attention)和分类层(Classfier)。其中,噪声编码器可以由一个LSTM层构成,该LSTM层可以将深度特征变换为一个高维特征,该变换可以表示为如下公式(3)所示:
Figure 422328DEST_PATH_IMAGE064
(3)
其中,
Figure 779491DEST_PATH_IMAGE065
表示噪声编码器的输出,上标
Figure 865259DEST_PATH_IMAGE066
表示噪声。
Figure 155426DEST_PATH_IMAGE067
表示语谱编码器输出的深度 特征。例如,当
Figure 35657DEST_PATH_IMAGE068
时,
Figure 739171DEST_PATH_IMAGE069
。当
Figure 97471DEST_PATH_IMAGE070
时,
Figure 507724DEST_PATH_IMAGE071
。依次类推,当
Figure 293277DEST_PATH_IMAGE072
时,
Figure 153261DEST_PATH_IMAGE073
噪声注意力机制可以采用标准的计算方式实现。例如,噪声注意力机制可以计算 噪声编码器输出的当前帧的高维特征与语谱编码器输出的
Figure 721777DEST_PATH_IMAGE074
帧的深度特征相似度。其中, 该
Figure 189799DEST_PATH_IMAGE074
帧包括当前帧和当前帧之前的
Figure 146253DEST_PATH_IMAGE075
帧。例如,当前帧为第
Figure 27622DEST_PATH_IMAGE076
帧,当前帧之前的
Figure 125460DEST_PATH_IMAGE075
帧包括 第
Figure 41463DEST_PATH_IMAGE077
帧、第
Figure 168819DEST_PATH_IMAGE078
帧、…、第
Figure 6325DEST_PATH_IMAGE079
帧。其中,第
Figure 775698DEST_PATH_IMAGE080
帧可以是如上所述的音频片段
Figure 483891DEST_PATH_IMAGE081
,第
Figure 47728DEST_PATH_IMAGE078
帧可以是如上所述的音频片段
Figure 41704DEST_PATH_IMAGE082
,依次类推,第
Figure 83609DEST_PATH_IMAGE079
帧可以是如上所述的音频片段
Figure 177467DEST_PATH_IMAGE083
,第
Figure 646626DEST_PATH_IMAGE076
帧可以是如上所述的音频片段
Figure 193145DEST_PATH_IMAGE007
。该
Figure 835479DEST_PATH_IMAGE074
帧的深度特征依次记为
Figure 783843DEST_PATH_IMAGE084
Figure 689482DEST_PATH_IMAGE085
,…,
Figure 726227DEST_PATH_IMAGE086
Figure 782039DEST_PATH_IMAGE087
Figure 381648DEST_PATH_IMAGE088
可以是如上所述的
Figure 458188DEST_PATH_IMAGE089
Figure 713720DEST_PATH_IMAGE085
可以是如上所述的
Figure 901119DEST_PATH_IMAGE090
。该当前帧的高维特征记为
Figure 89655DEST_PATH_IMAGE091
。 第一注意力系数
Figure 740691DEST_PATH_IMAGE092
的计算公式可以表示为如下公式(4):
Figure 280257DEST_PATH_IMAGE093
(4)
公式(4)的具体计算过程可以是:根据
Figure 5768DEST_PATH_IMAGE091
Figure 986493DEST_PATH_IMAGE094
之间的相似度得到系数
Figure 545781DEST_PATH_IMAGE095
,根 据
Figure 134213DEST_PATH_IMAGE091
Figure 335518DEST_PATH_IMAGE096
之间的相似度得到系数
Figure 764225DEST_PATH_IMAGE097
,依次类推,根据
Figure 353469DEST_PATH_IMAGE091
Figure 336469DEST_PATH_IMAGE086
之间的相似度得到系数
Figure 669361DEST_PATH_IMAGE098
,根据
Figure 155837DEST_PATH_IMAGE091
Figure 178633DEST_PATH_IMAGE087
之间的相似度得到系数
Figure 586611DEST_PATH_IMAGE099
。进一步,
Figure 457615DEST_PATH_IMAGE092
可以具体表示为如下公式(5):
Figure 64177DEST_PATH_IMAGE100
(5)
其中,
Figure 260803DEST_PATH_IMAGE092
表示噪声注意力机制得到的第
Figure 687237DEST_PATH_IMAGE076
帧的输出,
Figure 627511DEST_PATH_IMAGE091
表示公式(3)中
Figure 88579DEST_PATH_IMAGE101
的第
Figure 193457DEST_PATH_IMAGE076
帧 输出。
如图6所示的分类层采用一个线性层和一个Softmax激活函数实现。
具体的,该噪声分类器中的拼接器(Concate)可以将
Figure 372766DEST_PATH_IMAGE092
Figure 851151DEST_PATH_IMAGE091
进行拼接得到
Figure 166726DEST_PATH_IMAGE102
对应 的噪声特征
Figure 970734DEST_PATH_IMAGE103
Figure 371760DEST_PATH_IMAGE104
分类层根据
Figure 653836DEST_PATH_IMAGE102
对应的噪声特征
Figure 417393DEST_PATH_IMAGE103
得到
Figure 861144DEST_PATH_IMAGE102
对应的噪声类型,该噪声类型记为
Figure 684219DEST_PATH_IMAGE105
Figure 832304DEST_PATH_IMAGE105
可以表示为如下公式(6):
Figure 794574DEST_PATH_IMAGE106
(6)
其中,
Figure 409227DEST_PATH_IMAGE107
表示分类层中的线性层的权重系数,
Figure 519265DEST_PATH_IMAGE108
表示该线性层的偏移参数。
如图5所示,语音降噪器具体可以包括:语音编码器(Speech Encoder)、语音注意力机制(Speech Attention)和掩码生成器(Mask Generator)。其中,语音编码器可以由图6所示的LSTM层构成,使得语音编码器可以将语谱编码器输出的深度特征变换为一个高维特征,该变换可以表示为如下公式(7):
Figure 143144DEST_PATH_IMAGE109
(7)
其中,
Figure 84556DEST_PATH_IMAGE110
表示语音编码器的输出,上标
Figure 799003DEST_PATH_IMAGE111
表示语音降噪器,
Figure 334021DEST_PATH_IMAGE112
表示语谱编码器输出 的深度特征。
例如,当
Figure 27170DEST_PATH_IMAGE113
时,
Figure 26350DEST_PATH_IMAGE114
。当
Figure 248384DEST_PATH_IMAGE115
时,
Figure 598594DEST_PATH_IMAGE116
。依次类推,当
Figure 561346DEST_PATH_IMAGE117
时,
Figure 680612DEST_PATH_IMAGE118
具体的,噪声编码器生成的
Figure 276810DEST_PATH_IMAGE119
Figure 114316DEST_PATH_IMAGE120
、…、
Figure 618109DEST_PATH_IMAGE121
Figure 591881DEST_PATH_IMAGE122
和语音编码器生成的
Figure 421297DEST_PATH_IMAGE123
Figure 480520DEST_PATH_IMAGE124
、…、
Figure 790934DEST_PATH_IMAGE125
Figure 212688DEST_PATH_IMAGE126
之间的区别是上角标不同,上角标为
Figure 213005DEST_PATH_IMAGE127
表示图6所示左侧的噪声分类器,上角标为
Figure 962787DEST_PATH_IMAGE128
表示 图6所示右侧的语音降噪器。
语音注意力机制可以将噪声分类器得到的
Figure 808383DEST_PATH_IMAGE103
分别与语谱编码器得到的深度特征
Figure 756747DEST_PATH_IMAGE129
Figure 927966DEST_PATH_IMAGE130
、…、
Figure 961781DEST_PATH_IMAGE131
Figure 611068DEST_PATH_IMAGE132
进行拼接,例如,将
Figure 676588DEST_PATH_IMAGE103
Figure 753129DEST_PATH_IMAGE129
拼接得到第一序列
Figure 8661DEST_PATH_IMAGE133
,将
Figure 789535DEST_PATH_IMAGE103
Figure 712492DEST_PATH_IMAGE130
拼 接得到第一序列
Figure 959933DEST_PATH_IMAGE134
,以此类推,将
Figure 968341DEST_PATH_IMAGE103
Figure 959430DEST_PATH_IMAGE131
拼接得到第一序列
Figure 736894DEST_PATH_IMAGE135
,将
Figure 169885DEST_PATH_IMAGE103
Figure 400009DEST_PATH_IMAGE132
进行拼接得到第一序列
Figure 335735DEST_PATH_IMAGE136
另外,语音注意力机制还可以将
Figure 30022DEST_PATH_IMAGE103
与语音编码器输出的
Figure 353687DEST_PATH_IMAGE126
进行拼接得到第二序列
Figure 743211DEST_PATH_IMAGE137
其中,
Figure 404000DEST_PATH_IMAGE138
表示第
Figure 153125DEST_PATH_IMAGE138
帧,
Figure 178850DEST_PATH_IMAGE139
表示第
Figure 586829DEST_PATH_IMAGE139
帧,并且从第
Figure 723412DEST_PATH_IMAGE138
帧到第
Figure 329974DEST_PATH_IMAGE139
帧一共是
Figure 261021DEST_PATH_IMAGE140
帧,
Figure 953033DEST_PATH_IMAGE140
表示语音 注意力机制的窗口大小,或者
Figure 158887DEST_PATH_IMAGE140
表示噪声注意力机制的窗口大小。另外,语音注意力机制和 上述的噪声注意力机制具体可以采用因果局部注意力机制(causal local attention),即 当前帧参考其先前的
Figure 622885DEST_PATH_IMAGE141
帧。
进一步,语音注意力机制计算该第二序列和该多个第一序列之间的第二注意力系 数
Figure 52729DEST_PATH_IMAGE142
Figure 232038DEST_PATH_IMAGE142
可以表示为如下公式(8):
Figure 976003DEST_PATH_IMAGE143
(8)
其中,
Figure 291578DEST_PATH_IMAGE142
的具体计算过程可以参照如上所述的公式(5),此处不再赘述。
Figure 33269DEST_PATH_IMAGE142
表示语 音注意力机制的输出,下角标
Figure 699873DEST_PATH_IMAGE139
表示第
Figure 981950DEST_PATH_IMAGE139
帧,上角标
Figure 479927DEST_PATH_IMAGE144
表示语音降噪器。
语音降噪器中的拼接器可以将语音注意力机制的输出
Figure 189258DEST_PATH_IMAGE142
、语音编码器的输出
Figure 340229DEST_PATH_IMAGE145
、 噪声分类器的输出
Figure 160417DEST_PATH_IMAGE103
进行拼接得到
Figure 653846DEST_PATH_IMAGE102
对应的语音特征
Figure 799657DEST_PATH_IMAGE146
Figure 175275DEST_PATH_IMAGE147
进一步,还可以将
Figure 392629DEST_PATH_IMAGE146
输入一个映射层得到最终的语音特征
Figure 537303DEST_PATH_IMAGE148
,该映射层位于语音 降噪器中的拼接器和掩码生成器之间。
Figure 588436DEST_PATH_IMAGE148
可以表示为如下公式(9):
Figure 451349DEST_PATH_IMAGE149
(9)
其中,
Figure 745497DEST_PATH_IMAGE150
表示
Figure 275835DEST_PATH_IMAGE151
激活函数,该
Figure 497869DEST_PATH_IMAGE152
激活函数包括在该映射层中,
Figure 520183DEST_PATH_IMAGE153
表示该映射层的 权重系数,
Figure 17023DEST_PATH_IMAGE154
表示该映射层的偏移系数。
Figure 539884DEST_PATH_IMAGE148
表示映射得到的高维特征,上角标
Figure 932819DEST_PATH_IMAGE144
表示语音降 噪器,用于区分噪声分类器。进一步,将
Figure 239167DEST_PATH_IMAGE148
输入掩码生成器,该掩码生成器包括一个线性层 和一个sigmoid激活函数。
该掩码生成器可以根据
Figure 742960DEST_PATH_IMAGE148
生成
Figure 247891DEST_PATH_IMAGE155
对应的掩码,
Figure 811728DEST_PATH_IMAGE155
对应的掩码记为
Figure 870951DEST_PATH_IMAGE156
,其中,
Figure 178435DEST_PATH_IMAGE155
表示音频编码器输出的第
Figure 600189DEST_PATH_IMAGE139
帧的时频语谱图,
Figure 337857DEST_PATH_IMAGE157
表示该掩码生 成器中的线性层的权重系数,
Figure 149955DEST_PATH_IMAGE158
表示该掩码生成器中的线性层的偏移系数。
Figure 995551DEST_PATH_IMAGE155
对应的掩码 具体可以是第
Figure 147178DEST_PATH_IMAGE139
帧的时频语谱图
Figure 318396DEST_PATH_IMAGE155
中每个时频点的掩码值。
如图5所示的音频解码器可以由一个一维卷积层来实现,该一维卷积层具体可以 是如图6所示的第二卷积层。该第二卷积层可以将
Figure 680107DEST_PATH_IMAGE155
对应的掩码和
Figure 329395DEST_PATH_IMAGE155
相乘得到第二时频语 谱图的估计
Figure 132266DEST_PATH_IMAGE159
,该第二时频语谱图可以是第
Figure 474385DEST_PATH_IMAGE139
帧的干净语音语谱图,
Figure 992567DEST_PATH_IMAGE159
可以表示为如下公式 (10):
Figure 914386DEST_PATH_IMAGE160
(10)
其中,
Figure 102922DEST_PATH_IMAGE161
表示点乘,
Figure 350364DEST_PATH_IMAGE155
表示音频编码器输出的第
Figure 562033DEST_PATH_IMAGE139
帧的时频语谱图。
公式(10)中的
Figure 553123DEST_PATH_IMAGE162
表示
Figure 330586DEST_PATH_IMAGE155
对应的掩码。
进一步,音频解码器还可以将公式(10)中估计得到的干净语音语谱图变换为时域 的音频信号
Figure 14509DEST_PATH_IMAGE163
,该音频信号
Figure 838108DEST_PATH_IMAGE163
为第
Figure 381958DEST_PATH_IMAGE139
帧即音频片段
Figure 279507DEST_PATH_IMAGE164
对应的降噪后的第二片段。
Figure 134330DEST_PATH_IMAGE163
可以表示 为如下公式(11):
Figure 851751DEST_PATH_IMAGE165
(11)
其中,
Figure 184643DEST_PATH_IMAGE166
表示一维卷积,具体的,
Figure 139961DEST_PATH_IMAGE166
可以是如上公式(1)所示的反变换,即公式(1)的 作用是将时域的音频信号变换为时频语谱图,公式(11)的作用是将时频语谱图变换为时域 的音频信号。
Figure 900106DEST_PATH_IMAGE163
表示估计得到的第
Figure 901560DEST_PATH_IMAGE139
帧的干净语音时域信号。也就是说,当
Figure 441739DEST_PATH_IMAGE164
作为如图5或图 6所示的降噪模型的输入时,该降噪模型的输出是
Figure 579459DEST_PATH_IMAGE163
Figure 917030DEST_PATH_IMAGE164
是带噪的音频信号,
Figure 140201DEST_PATH_IMAGE163
是降噪后的 干净的音频信号。
可以理解的是,在降噪模型的训练过程中,由于降噪模型的输入音频信号可以被 分割为多个音频片段,即多个第一片段。
Figure 18159DEST_PATH_IMAGE164
是该多个第一片段中的一个,由于该多个第一片 段可以依次输入降噪模型,因此,降噪模型可以对该多个第一片段依次进行处理,从而依次 输出每个第一片段对应的第二片段。每个第一片段分别对应的第二片段构成该降噪模型的 输出音频信号。另外,输入音频信号是根据样本噪声信号和样本音频信号生成的,生成过程 参照上述过程,此处不再赘述。进一步,根据该样本音频信号和该输出音频信号,对该降噪 模型进行训练。该训练过程可以是多次迭代过程,在不同迭代过程中,可以选择不同的样本 噪声信号和不同的样本音频信号,从而生成不同的输入音频信号,使得降噪模型针对不同 的输入音频信号输出不同的输出音频信号。如此,每个输入音频信号可以对应一个输出音 频信号,即每个样本音频信号可以对应一个输出音频信号。由于样本音频信号可以是无噪 声的干净语音,输出音频信号是该降噪模型对输入音频信号进行降噪处理后得到的音频信 号,因此,根据多个样本音频信号、以及每个样本音频信号分别对应的输出音频信号,可以 对该降噪模型进行多次迭代训练,在多次迭代训练过程中,该降噪模型涉及到的参数可以 逐渐收敛,当收敛程度达到预设程度时,该降噪模型被训练完成。
本公开实施例通过样本噪声信号和无噪声的样本音频信号生成带噪的输入音频信号,并将该输入音频信号作为降噪模型的输入。由于该降噪模型包括噪声分类器和语音降噪器,噪声分类器用于确定该输入音频信号对应的噪声特征,语音降噪器用于根据该输入音频信号对应的噪声特征确定该输入音频信号对应的语音特征,从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪,更好的引导语音降噪器提取语音特征。也就是说,根据噪声特征可以有针对性的消除带噪信号中的噪声,从而达到更好的语音降噪效果。
下面结合具体的实施例介绍一下根据该样本音频信号和该输出音频信号,对该降噪模型进行一次训练的过程。
具体的,根据该样本音频信号和该输出音频信号,对该降噪模型进行训练,包括:将该样本音频信号分割为多个第三片段,所述多个第三片段和所述多个第一片段一一对应;根据所述多个第一片段中每个第一片段分别对应的第二片段、以及所述多个第三片段,确定第一损失函数;根据降噪模型确定的所述多个第一片段中每个第一片段分别对应的噪声类型、以及每个第一片段对应的真实的噪声类型,确定第二损失函数;根据所述第一损失函数和所述第二损失函数对所述降噪模型进行训练。
例如,对图5或图6所示的降噪模型的训练目标有两个,第一个训练目标是针对样本音频信号即参考的干净语音信号的估计精度,第二个训练目标是噪声分类的精度。其中,样本音频信号和输出音频信号用于实现第一个训练目标。所述输入音频信号对应的噪声类型和所述样本噪声信号的噪声类型用于实现第二个训练目标。
例如,该样本音频信号是无噪声的干净语音。在该样本音频信号中加入样本噪声 信号
Figure 479227DEST_PATH_IMAGE167
得到输入音频信号
Figure 849684DEST_PATH_IMAGE168
。进一步,将该样本音频信号分割为
Figure 294572DEST_PATH_IMAGE169
个第三片段,也就是 说,该样本音频信号被分割成的第三片段的个数与
Figure 507379DEST_PATH_IMAGE168
被分割成的第一片段的个数相同, 并且
Figure 416429DEST_PATH_IMAGE169
个第三片段和
Figure 689278DEST_PATH_IMAGE169
个第一片段一一对应。例如,
Figure 621462DEST_PATH_IMAGE169
个第三片段中的第
Figure 841222DEST_PATH_IMAGE170
个第三片段记 为
Figure 542462DEST_PATH_IMAGE171
Figure 251792DEST_PATH_IMAGE169
个第一片段中的第
Figure 468010DEST_PATH_IMAGE170
个第一片段记为
Figure 285268DEST_PATH_IMAGE172
Figure 841015DEST_PATH_IMAGE171
Figure 721246DEST_PATH_IMAGE172
对应。
Figure 300126DEST_PATH_IMAGE172
输入降噪模型后,该降噪模型的输出是
Figure 924005DEST_PATH_IMAGE173
Figure 334258DEST_PATH_IMAGE173
可以记为
Figure 385391DEST_PATH_IMAGE174
Figure 576201DEST_PATH_IMAGE169
个第一片段依 次输入降噪模型后,降噪模型可以输出
Figure 738192DEST_PATH_IMAGE169
个第二片段,并且
Figure 728583DEST_PATH_IMAGE169
个第二片段是依次输出的。进 一步,根据
Figure 216196DEST_PATH_IMAGE169
个第二片段和
Figure 566406DEST_PATH_IMAGE169
个第三片段,确定第一损失函数。可选的,此处的
Figure 735350DEST_PATH_IMAGE169
个第一片 段、
Figure 120195DEST_PATH_IMAGE169
个第二片段、
Figure 247551DEST_PATH_IMAGE169
个第三片段分别可以从第1个片段开始起算,直到第
Figure 85057DEST_PATH_IMAGE169
个片段。
例如,第一损失函数
Figure 588850DEST_PATH_IMAGE175
可以表示为如下公式(12):
Figure 156098DEST_PATH_IMAGE176
(12)
其中,
Figure 857950DEST_PATH_IMAGE175
表示最小均方误差(minimum mean square error,MSE)。第一损失函 数可以记为MSE损失函数。公式(12)的目标是最小化估计出的输出音频信号与原始干净的 样本音频信号之间的最小均方误差。
可以理解的是,在样本音频信号中加入样本噪声信号时,可以在样本音频信号中加入一种类型的样本噪声信号,或者加入多种类型的样本噪声信号。
例如,如上所述的第二数据库中可以存储有多个样本噪声信号,其中,每个样本噪声信号的噪声类型可以是预先存储在该第二数据库中的。具体的,该第二数据库中包括的噪声类型例如有20种,样本噪声信号的个数可以不限于20个,例如,可以大于20个,也就是说,该第二数据库中的样本噪声信号的个数可以大于20个,但是噪声类型一共可以是20种。此外,该20种噪声类型可以对应有相应的编号,例如,该20种噪声类型依次编号为0、1、2、…、19。从第二数据库中随机选取一个样本噪声信号时,该样本噪声信号的噪声类型是该20种噪声类型中的一种,例如,该样本噪声信号的噪声类型的编号为1,那么该样本噪声信号的噪声类型的分布概率为:该样本噪声信号的噪声类型的编号为1的概率是100%,该样本噪声信号的噪声类型的编号为其他值的概率均为0。
如果在样本音频信号中加入一种类型的样本噪声信号得到输入音频信号,那么将 输入音频信号分割为
Figure 979490DEST_PATH_IMAGE169
个第一片段后,由于
Figure 693499DEST_PATH_IMAGE169
个第一片段依次输入降噪模型,降噪模型中 的噪声分类器可以依次确定出每个第一片段对应的噪声类型,进一步,根据噪声分类器确 定的
Figure 52936DEST_PATH_IMAGE169
个第一片段分别对应的噪声类型、以及每个第一片段对应的真实的噪声类型,确定 第二损失函数。
例如,当某个第一片段输入降噪模型时,该降噪模型中的噪声分类器可以输出该 第一片段对应的噪声类型的分布概率,即该第一片段对应的噪声类型的编号为0的概率、该 第一片段对应的噪声类型的编号为1的概率、…、该第一片段对应的噪声类型的编号为19的 概率。例如,
Figure 522095DEST_PATH_IMAGE177
表示噪声分类器输出的第
Figure 68614DEST_PATH_IMAGE170
个第一片段即
Figure 448298DEST_PATH_IMAGE178
对应的噪声类型的编号为
Figure 396663DEST_PATH_IMAGE179
的 概率。
Figure 302302DEST_PATH_IMAGE180
表示
Figure 539379DEST_PATH_IMAGE178
对应的噪声类型的编号为
Figure 188667DEST_PATH_IMAGE179
的真实概率,该真实概率是该输入音频信号中 包含的样本噪声信号的噪声类型的编号为
Figure 257117DEST_PATH_IMAGE179
的概率。
如果在样本音频信号中加入多种类型的样本噪声信号得到输入音频信号,例如, 在样本音频信号的前三分之一部分加入噪声类型的编号为1的样本噪声信号,在该样本音 频信号的中间三分之一部分加入噪声类型的编号为2的样本噪声信号,在该样本音频信号 的后三分之一部分加入噪声类型的编号为3的样本噪声信号,那么
Figure 333657DEST_PATH_IMAGE180
表示
Figure 182664DEST_PATH_IMAGE178
在该输入音频 信号中对应的样本噪声信号的噪声类型的编号为
Figure 370063DEST_PATH_IMAGE179
的概率。
如上所述的第二个训练目标具体可以是:针对同一个输入该降噪模型的音频片 段,最小化噪声分类器输出的该音频片段的噪声类型的分布概率与该音频片段的真实噪声 类型的分布概率之间的交叉熵损失函数,该交叉熵损失函数可以记为第二损失函数,该第 二损失函数
Figure 555669DEST_PATH_IMAGE181
可以表示为如下公式(13):
Figure 6374DEST_PATH_IMAGE182
(13)
其中,
Figure 14781DEST_PATH_IMAGE183
表示噪声类型的数量,例如,如上所述的20。
进一步,根据如上所述的第一损失函数和第二损失函数可以得到该降噪模型总的 损失函数,该总的损失函数记为
Figure 271450DEST_PATH_IMAGE184
,该总的损失函数是交叉熵损失函数与MSE损失函数 的加权平均结果,
Figure 48913DEST_PATH_IMAGE184
可以表示为如下公式(14):
Figure 795152DEST_PATH_IMAGE185
(14)
其中,
Figure 25276DEST_PATH_IMAGE186
表示权重系数,用于平衡噪声分类和语音降噪两个任务。对分类交叉熵
Figure 820057DEST_PATH_IMAGE187
取log是为了将两种损失函数保持在同一个数量级。在训练过程中可以根据该总的损失函 数对图5或图6所示的降噪模型进行训练。
本公开实施例通过一个降噪模型可以完成两个任务:噪声分类和语音降噪,并且将噪声分类过程中得到的噪声特征提供给语音降噪,使得语音降噪的过程中可以根据噪声特征更好的提取语音特征。例如,在语音注意力机制中参考噪声特征后,可以使得语音注意力机制提取到历史帧中与当前帧相似的帧,所谓的相似是指具有相同类型的噪声,从而使得语音注意力机制可以提取到更加重要的信息,从而可以达到更好的语音降噪目的。另外,将输入音频信号分割为多个音频片段,多个音频片段依次输入该降噪模型时,噪声分类过程可以确定每个音频片段的噪声类型,由于不同音频片段的噪声类型可能是不同的,因此根据不同噪声类型的音频片段对该降噪模型进行训练,可使得该降噪模型能够更好的识别动态噪声,从而可以更好的消除动态噪声。
可以理解的是,当上述的降噪模型被训练完成后,通过降噪模型可以对音频信号进行处理,从而得到降噪后的目标音频信号。下面结合具体的实施例来介绍音频信号处理方法。
图7为本公开实施例提供的音频信号处理方法流程图。该方法具体步骤如下:
S701、获取音频信号。
如图2所示,假设该降噪模型的训练过程由如图2所示的服务器21来执行,当服务器21将该降噪模型训练完成后,服务器21可以将训练完成的降噪模型部署到终端22中。具体的,终端22包括麦克风,麦克风可以采集音频信号,由于终端22周围的环境中可能存在噪声,例如,开关门声、走路声、敲桌子声等复杂的动态噪声,因此,麦克风采集的音频信号是带噪的音频信号。本实施例可以将麦克风采集的音频信号作为该降噪模型在使用阶段或推理阶段中的输入。
S702、利用预先训练的降噪模型确定所述音频信号对应的噪声特征。
当终端22中的麦克风采集到音频信号后,终端22可以利用预先训练的降噪模型确定该音频信号对应的噪声特征。该降噪模型的结构如图4、图5或图6所示,此处不再赘述。
可选的,所述降噪模型包括噪声分类器和语音降噪器;所述噪声分类器用于确定所述音频信号对应的噪声特征。图4、图5或图6所示,该降噪模型包括噪声分类器和语音降噪器,具体的,终端22可以利用该降噪模型中的噪声分类器确定该音频信号对应的噪声特征。
S703、对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征。
可选的,所述语音降噪器用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征。例如,当噪声分类器确定出该音频信号对应的噪声特征之后,噪声分类器可以将该音频信号对应的噪声特征提供给语音降噪器。终端22可以利用该语音降噪器对该音频信号对应的噪声特征进行处理,得到该音频信号对应的语音特征。
进一步,该降噪模型还可以根据第二音频信号对应的语音特征生成该第二音频信号对应的降噪后的输出音频信号,具体过程可以参照上述实施例所述的过程,此处不再赘述。
S704、对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
进一步,终端22还可以利用该降噪模型对该音频信号对应的语音特征进行处理,得到该音频信号对应的降噪后的目标音频信号。
S701-S704的具体过程可以参照如上所述的该降噪模型在训练过程中根据输入音频信号得到输出音频信号的过程,此处不再赘述。
本公开实施例将音频信号输入到预先训练完成的降噪模型中,由于该降噪模型包括噪声分类器和语音降噪器,噪声分类器用于确定音频信号对应的噪声特征,语音降噪器用于根据音频信号对应的噪声特征确定音频信号对应的语音特征,从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪,更好的引导语音降噪器提取语音特征,从而达到更好的语音降噪效果。
可选的,利用预先训练的降噪模型确定所述音频信号对应的噪声特征,包括如图8所示的如下几个步骤:
S801、将所述音频信号分割为多个第一片段。
例如,将麦克风采集到的音频信号分割为多个第一片段的过程类似于上述将输入 音频信号分割为多个第一片段的过程,此处不再赘述。例如,本实施例将该音频信号分割为
Figure 717606DEST_PATH_IMAGE188
个第一片段。
S802、将所述多个第一片段依次输入所述预先训练的降噪模型,以生成目标片段对应的第一时频语谱图,其中,所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段。
Figure 321499DEST_PATH_IMAGE188
个第一片段依次输入到预先训练完成的降噪模型中,假设当前输入到该降噪 模型中的第一片段记为目标片段
Figure 507760DEST_PATH_IMAGE189
可选的,所述降噪模型还包括音频编码器和语谱编码器;所述音频编码器用于生成所述音频信号中目标片段对应的第一时频语谱图。
例如,终端22可以利用该降噪模型中的音频编码器对目标片段
Figure 106232DEST_PATH_IMAGE189
进行处理,从而 生成该目标片段
Figure 592708DEST_PATH_IMAGE189
对应的第一时频语谱图
Figure 946329DEST_PATH_IMAGE190
S803、对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征。
可选的,所述语谱编码器用于对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征。
例如,音频编码器可以将该目标片段
Figure 151045DEST_PATH_IMAGE189
对应的第一时频语谱图
Figure 553208DEST_PATH_IMAGE190
提供给语谱编 码器,从而使得终端22可以利用该语谱编码器对该目标片段
Figure 894190DEST_PATH_IMAGE102
对应的第一时频语谱图
Figure 294079DEST_PATH_IMAGE190
进行处理,从而得到该目标片段
Figure 248741DEST_PATH_IMAGE189
对应的深度特征
Figure 923436DEST_PATH_IMAGE132
S804、对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征。
例如,该语谱编码器不仅可以将该目标片段
Figure 712400DEST_PATH_IMAGE189
对应的深度特征
Figure 752032DEST_PATH_IMAGE132
提供给音频编码 器,同时还可以将
Figure 400182DEST_PATH_IMAGE132
提供给语谱编码器。音频编码器可以对该目标片段
Figure 81830DEST_PATH_IMAGE189
对应的深度特征
Figure 397405DEST_PATH_IMAGE132
进行处理,得到该目标片段
Figure 610867DEST_PATH_IMAGE189
对应的噪声特征。
在一种可行的实现方式中,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征,包括:将所述目标片段对应的深度特征变换为第一目标特征,所述第一目标特征为所述目标片段对应的噪声特征。
可选的,所述噪声分类器包括:噪声编码器和分类层;所述噪声编码器用于将所述目标片段对应的深度特征变换为第一目标特征。所述分类层用于对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
例如图4所示,噪声分类器包括噪声编码器和分类层。通过噪声编码器将目标片段
Figure 277472DEST_PATH_IMAGE189
对应的深度特征
Figure 293969DEST_PATH_IMAGE132
变换为第一目标特征
Figure 995209DEST_PATH_IMAGE191
,将第一目标特征
Figure 438960DEST_PATH_IMAGE191
作为
Figure 920757DEST_PATH_IMAGE189
对应的噪声特征。
进一步,噪声编码器将
Figure 740945DEST_PATH_IMAGE189
对应的噪声特征提供给分类层,由分类层对
Figure 296692DEST_PATH_IMAGE189
对应的噪 声特征进行处理,得到
Figure 377256DEST_PATH_IMAGE189
对应的噪声类型。在另一种可行的实现方式中,对所述目标片段对 应的深度特征进行处理,得到所述目标片段对应的噪声特征,包括:将所述目标片段对应的 深度特征变换为第一目标特征;对所述目标片段之前的预设数量的第一片段分别对应的深 度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意 力系数,所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。
可选的,所述噪声分类器还包括:噪声注意力机制;所述噪声注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意力系数。
如图5或图6所示,噪声分类器包括:噪声编码器(Noise Encoder)、噪声注意力机 制(Noise Attention)、拼接器和分类层(Classfier)。通过噪声编码器将目标片段
Figure 752873DEST_PATH_IMAGE189
对应 的深度特征
Figure 376753DEST_PATH_IMAGE132
变换为第一目标特征
Figure 787005DEST_PATH_IMAGE191
,该第一目标特征
Figure 900455DEST_PATH_IMAGE191
可以是一个高维特征;通过噪声 注意力机制对目标片段
Figure 763369DEST_PATH_IMAGE189
之前的预设数量的第一片段分别对应的深度特征、以及目标片段
Figure 925360DEST_PATH_IMAGE189
对应的深度特征
Figure 455698DEST_PATH_IMAGE132
和第一目标特征
Figure 677732DEST_PATH_IMAGE191
进行处理,得到第一注意力系数
Figure 222415DEST_PATH_IMAGE192
进一步,噪声分类器中的拼接器将第一注意力系数
Figure 188097DEST_PATH_IMAGE192
和第一目标特征
Figure 307363DEST_PATH_IMAGE191
进行拼 接,从而构成目标片段
Figure 293774DEST_PATH_IMAGE189
对应的噪声特征
Figure 131280DEST_PATH_IMAGE103
可选的,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征之后,所述方法还包括:对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
例如图5或图6所示,
Figure 838336DEST_PATH_IMAGE189
对应的噪声特征
Figure 77687DEST_PATH_IMAGE103
可以作为分类层的输入,分类层包括一 个线性层和一个柔性最大(Softmax)激活函数,分类层对
Figure 641523DEST_PATH_IMAGE189
对应的噪声特征
Figure 294222DEST_PATH_IMAGE103
进行处理,得 到
Figure 601706DEST_PATH_IMAGE189
对应的噪声类型。
可选的,对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征,包括:对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征。
例如图4-图6所示,噪声分类器将该目标片段
Figure 692635DEST_PATH_IMAGE189
对应的噪声特征提供给语音降噪 器,语音降噪器可以根据该深度特征
Figure 427372DEST_PATH_IMAGE132
和该目标片段
Figure 177154DEST_PATH_IMAGE189
对应的噪声特征确定该目标片段
Figure 288329DEST_PATH_IMAGE189
对应的语音特征。
在一种可行的实现方式中:对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征,包括:将所述目标片段对应的深度特征变换为第二目标特征,所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
可选的,所述语音降噪器包括:语音编码器和掩码生成器;所述语音编码器用于将所述目标片段对应的深度特征变换为第二目标特征;所述掩码生成器用于对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码。
如图4所示,语音降噪器包括语音编码器、拼接器和掩码生成器。语音编码器可以 将该深度特征
Figure 502273DEST_PATH_IMAGE132
变换为第二目标特征
Figure 407912DEST_PATH_IMAGE193
。语音降噪器中的拼接器将
Figure 176148DEST_PATH_IMAGE189
对应的噪声特征例如
Figure 356593DEST_PATH_IMAGE191
和第二目标特征
Figure 834498DEST_PATH_IMAGE193
拼接构成
Figure 442197DEST_PATH_IMAGE189
对应的语音特征
Figure 963308DEST_PATH_IMAGE194
。掩码生成器可以对
Figure 885128DEST_PATH_IMAGE189
对应的语音特 征
Figure 808084DEST_PATH_IMAGE194
进行处理,得到
Figure 55526DEST_PATH_IMAGE194
对应的第一时频语谱图
Figure 329512DEST_PATH_IMAGE195
的掩码。
在另一种可行的实现方式中:对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征,包括:将所述目标片段对应的深度特征变换为第二目标特征;对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数,所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
所述语音降噪器还包括:语音注意力机制;所述语音注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数。
如图5所示,语音降噪器包括语音编码器(Speech Encoder)、语音注意力机制 (Speech Attention)、拼接器和掩码生成器(Mask Generator)。语音降噪器中的语音编码 器将该深度特征
Figure 520935DEST_PATH_IMAGE132
变换为第二目标特征
Figure 298398DEST_PATH_IMAGE193
,第二目标特征
Figure 982320DEST_PATH_IMAGE193
可以是一个高维特征。语音注 意力机制对目标片段
Figure 212444DEST_PATH_IMAGE189
之前的预设数量的第一片段分别对应的深度特征、以及目标片段
Figure 7225DEST_PATH_IMAGE189
对应的噪声特征
Figure 639195DEST_PATH_IMAGE103
、目标片段
Figure 556335DEST_PATH_IMAGE189
对应的深度特征
Figure 804914DEST_PATH_IMAGE132
和第二目标特征
Figure 341069DEST_PATH_IMAGE193
进行处理,得到第二 注意力系数
Figure 842193DEST_PATH_IMAGE196
进一步,语音降噪器中的拼接器将第二注意力系数
Figure 133497DEST_PATH_IMAGE196
、目标片段
Figure 338214DEST_PATH_IMAGE189
对应的噪声特 征
Figure 537114DEST_PATH_IMAGE103
和第二目标特征
Figure 143676DEST_PATH_IMAGE193
进行拼接,从而构成目标片段
Figure 340302DEST_PATH_IMAGE189
对应的语音特征
Figure 32314DEST_PATH_IMAGE194
可选的,对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数,包括:将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接,以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接,得到多个第一序列;将所述目标片段对应的噪声特征与所述第二目标特征进行拼接,得到第二序列;计算所述第二序列和所述多个第一序列之间的第二注意力系数。
例如,目标片段
Figure 175851DEST_PATH_IMAGE189
之前的
Figure 636919DEST_PATH_IMAGE197
个第一片段记为
Figure 332343DEST_PATH_IMAGE198
Figure 508721DEST_PATH_IMAGE199
分别对应的深度特征依次为
Figure 252687DEST_PATH_IMAGE200
Figure 568261DEST_PATH_IMAGE201
、…、
Figure 106690DEST_PATH_IMAGE202
。语音注意力机制可以根据
Figure 710978DEST_PATH_IMAGE200
Figure 993055DEST_PATH_IMAGE201
、…、
Figure 225453DEST_PATH_IMAGE202
Figure 669204DEST_PATH_IMAGE203
Figure 29296DEST_PATH_IMAGE103
Figure 849485DEST_PATH_IMAGE204
计算得到第二注意力系数
Figure 342914DEST_PATH_IMAGE196
例如,语音注意力机制可以将
Figure 957566DEST_PATH_IMAGE103
Figure 67605DEST_PATH_IMAGE200
拼接得到第一序列
Figure 222643DEST_PATH_IMAGE205
,将
Figure 367316DEST_PATH_IMAGE103
Figure 415519DEST_PATH_IMAGE201
拼接得到第一序列
Figure 278433DEST_PATH_IMAGE206
,以此类推,将
Figure 440424DEST_PATH_IMAGE103
Figure 642866DEST_PATH_IMAGE202
拼接得到第一序列
Figure 864900DEST_PATH_IMAGE207
,将
Figure 949531DEST_PATH_IMAGE103
Figure 915213DEST_PATH_IMAGE203
进行拼接得到第一序列
Figure 697793DEST_PATH_IMAGE208
。另外,语音注意力机制还可 以将
Figure 90729DEST_PATH_IMAGE103
Figure 928235DEST_PATH_IMAGE204
进行拼接得到第二序列
Figure 759924DEST_PATH_IMAGE209
。进一步,语音注意力机制计算该第二序列 和该多个第一序列之间的第二注意力系数
Figure 140221DEST_PATH_IMAGE196
本公开实施例通过将音频信号分割为多个第一片段,多个第一片段依次输入该降噪模型时,该降噪模型可以确定每个第一片段的噪声类型。由于不同的第一片段的噪声类型可能是不同的,因此通过该降噪模型可以更好的识别出该音频信号中的动态噪声,从而可以更好的消除该音频信号中的动态噪声。
可选的,对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号,包括如图9所示的如下几个步骤:
S901、对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码。
S902、对所述第一时频语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图。
S903、对所述第二时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段,所述目标音频信号包括所述多个第一片段中每个第一片段分别对应的第二片段。
可选的,所述降噪模型还包括音频解码器;所述音频解码器用于对所述第一时频 语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图;以及对所述第二 时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段。例如,该语音降噪器中 的拼接器可以将
Figure 704058DEST_PATH_IMAGE194
提供给掩码生成器,掩码生成器包括一个线性层和一个sigmoid激活函 数。
掩码生成器可以对
Figure 560018DEST_PATH_IMAGE189
对应的语音特征
Figure 864573DEST_PATH_IMAGE194
进行处理,得到
Figure 161694DEST_PATH_IMAGE189
对应的第一时频语谱 图
Figure 693169DEST_PATH_IMAGE210
的掩码。音频编码器可以对第一时频语谱图
Figure 646213DEST_PATH_IMAGE210
和该掩码进行处理,得到
Figure 491809DEST_PATH_IMAGE189
对应的第 二时频语谱图。音频编码器进一步还可以对第二时频语谱图进行处理,得到
Figure 174594DEST_PATH_IMAGE189
对应的降噪 后的第二片段。由于音频信号被分割为
Figure 876971DEST_PATH_IMAGE211
个第一片段,该
Figure 648136DEST_PATH_IMAGE211
个第一片段依次作为降噪模型 的输入,并且该降噪模型针对
Figure 969527DEST_PATH_IMAGE211
个第一片段中的每个第一片段可以输出一个第二片段,因 此,每个第一片段分别对应的第二片段可以构成该音频信号对应的降噪后的目标音频信 号。
可以理解的是,在降噪模型的使用阶段,噪声分类器可以提取噪声特征,而不输出噪声类型。
本公开实施例提供的音频信号处理方法可以应用在语音增强和语音识别领域,主要是提高麦克风接收语音信号的质量,进而提高语音识别的准确度。也可以应用在音视频通信领域,提高音频的音质,改善通信体验,特别是针对复杂噪声环境,如开关门声、走路声、敲桌子声等复杂的动态噪声。
图10为本公开实施例提供的音频信号处理装置的结构示意图。本公开实施例提供的音频信号处理装置可以执行音频信号处理方法实施例提供的处理流程,如图10所示,音频信号处理装置100包括:
获取模块101,用于获取音频信号;
确定模块102,用于利用预先训练的降噪模型确定所述音频信号对应的噪声特征;
处理模块103,用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;以及对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
可选的,确定模块102包括分割单元1021、输入单元1022和第一处理单元1023,其中,分割单元1021用于将所述音频信号分割为多个第一片段;输入单元1022用于将所述多个第一片段依次输入所述预先训练的降噪模型,以生成目标片段对应的第一时频语谱图,其中,所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段;第一处理单元1023用于对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征。
可选的,第一处理单元1023具体用于:将所述目标片段对应的深度特征变换为第一目标特征,所述第一目标特征为所述目标片段对应的噪声特征。
可选的,第一处理单元1023具体用于:将所述目标片段对应的深度特征变换为第一目标特征;
对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意力系数,所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。
可选的,第一处理单元1023还用于:对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征之后,对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
可选的,处理模块103具体用于:对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征。
可选的,处理模块103具体用于:将所述目标片段对应的深度特征变换为第二目标特征,所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
可选的,处理模块103包括:变换单元1031和第二处理单元1032,其中,变换单元1031用于将所述目标片段对应的深度特征变换为第二目标特征;第二处理单元1032用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数,所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
可选的,第二处理单元1032具体用于:将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接,以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接,得到多个第一序列;
将所述目标片段对应的噪声特征与所述第二目标特征进行拼接,得到第二序列;
计算所述第二序列和所述多个第一序列之间的第二注意力系数。
可选的,处理模块103在对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号时,具体用于:
对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码;
对所述第一时频语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图;
对所述第二时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段,所述目标音频信号包括所述多个第一片段中每个第一片段分别对应的第二片段。
可选的,所述降噪模型包括噪声分类器和语音降噪器;
所述噪声分类器用于确定所述音频信号对应的噪声特征;
所述语音降噪器用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征。
可选的,所述降噪模型还包括音频编码器和语谱编码器;
所述音频编码器用于生成所述音频信号中目标片段对应的第一时频语谱图;
所述语谱编码器用于对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征。
可选的,所述噪声分类器包括:噪声编码器和分类层;
所述噪声编码器用于将所述目标片段对应的深度特征变换为第一目标特征;
所述分类层用于对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
可选的,所述噪声分类器还包括:噪声注意力机制;
所述噪声注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意力系数。
可选的,所述语音降噪器包括:语音编码器和掩码生成器;
所述语音编码器用于将所述目标片段对应的深度特征变换为第二目标特征;
所述掩码生成器用于对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码。
可选的,所述语音降噪器还包括:语音注意力机制;
所述语音注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数。
可选的,所述降噪模型还包括音频解码器;
所述音频解码器用于对所述第一时频语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图;以及
对所述第二时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段。
图10所示实施例的音频信号处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图11,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,音频信号处理方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频信号处理方法或模型训练方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (20)

1.一种音频信号处理方法,包括:
获取音频信号;
利用预先训练的降噪模型确定所述音频信号对应的噪声特征;
对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;
对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
2.如权利要求1所述的方法,其中,利用预先训练的降噪模型确定所述音频信号对应的噪声特征,包括:
将所述音频信号分割为多个第一片段;
将所述多个第一片段依次输入所述预先训练的降噪模型,以生成目标片段对应的第一时频语谱图,其中,所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段;
对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征;
对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征。
3.如权利要求2所述的方法,其中,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征,包括:
将所述目标片段对应的深度特征变换为第一目标特征,其中,所述第一目标特征为所述目标片段对应的噪声特征。
4.如权利要求2所述的方法,其中,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征,包括:
将所述目标片段对应的深度特征变换为第一目标特征;
对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意力系数,其中,所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。
5.如权利要求2所述的方法,其中,对所述目标片段对应的深度特征进行处理,得到所述目标片段对应的噪声特征之后,所述方法还包括:
对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
6.如权利要求2所述的方法,其中,对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征,包括:
对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征。
7.如权利要求6所述的方法,其中,对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征,包括:
将所述目标片段对应的深度特征变换为第二目标特征,所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
8.如权利要求6所述的方法,其中,对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的语音特征,包括:
将所述目标片段对应的深度特征变换为第二目标特征;
对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数,其中,所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。
9.如权利要求8所述的方法,其中,对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数,包括:
将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接,以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接,得到多个第一序列;
将所述目标片段对应的噪声特征与所述第二目标特征进行拼接,得到第二序列;
计算所述第二序列和所述多个第一序列之间的第二注意力系数。
10.如权利要求2所述的方法,其中,对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号,包括:
对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码;
对所述第一时频语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图;
对所述第二时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段,所述目标音频信号包括所述多个第一片段中每个第一片段分别对应的第二片段。
11.如权利要求1所述的方法,其中,所述降噪模型包括噪声分类器和语音降噪器,
所述噪声分类器用于确定所述音频信号对应的噪声特征;
所述语音降噪器用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征。
12.如权利要求11所述的方法,其中,所述降噪模型还包括音频编码器和语谱编码器,
所述音频编码器用于生成所述音频信号中目标片段对应的第一时频语谱图;
所述语谱编码器用于对所述目标片段对应的第一时频语谱图进行处理,得到所述目标片段对应的深度特征。
13.如权利要求12所述的方法,其中,所述噪声分类器包括:噪声编码器和分类层,
所述噪声编码器用于将所述目标片段对应的深度特征变换为第一目标特征;
所述分类层用于对所述目标片段对应的噪声特征进行处理,得到所述目标片段对应的噪声类型。
14.如权利要求13所述的方法,其中,所述噪声分类器还包括:噪声注意力机制,
所述噪声注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理,得到第一注意力系数。
15.如权利要求12所述的方法,其中,所述语音降噪器包括:语音编码器和掩码生成器,
所述语音编码器用于将所述目标片段对应的深度特征变换为第二目标特征;
所述掩码生成器用于对所述目标片段对应的语音特征进行处理,得到所述目标片段对应的第一时频语谱图的掩码。
16.如权利要求15所述的方法,其中,所述语音降噪器还包括:语音注意力机制,
所述语音注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理,得到第二注意力系数。
17.如权利要求15所述的方法,其中,所述降噪模型还包括音频解码器,
所述音频解码器用于对所述第一时频语谱图和所述掩码进行处理,得到所述目标片段对应的第二时频语谱图;以及对所述第二时频语谱图进行处理,得到所述目标片段对应的降噪后的第二片段。
18.一种音频信号处理装置,包括:
获取模块,用于获取音频信号;
确定模块,用于利用预先训练的降噪模型确定所述音频信号对应的噪声特征;
处理模块,用于对所述音频信号对应的噪声特征进行处理,得到所述音频信号对应的语音特征;以及对所述音频信号对应的语音特征进行处理,得到所述音频信号对应的降噪后的目标音频信号。
19.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-17中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-17中任一项所述的方法。
CN202110895260.XA 2021-08-05 2021-08-05 音频信号处理方法、装置、设备及存储介质 Active CN113345460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110895260.XA CN113345460B (zh) 2021-08-05 2021-08-05 音频信号处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110895260.XA CN113345460B (zh) 2021-08-05 2021-08-05 音频信号处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113345460A true CN113345460A (zh) 2021-09-03
CN113345460B CN113345460B (zh) 2021-11-16

Family

ID=77480780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110895260.XA Active CN113345460B (zh) 2021-08-05 2021-08-05 音频信号处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113345460B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN116597855A (zh) * 2023-07-18 2023-08-15 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
CN110491406A (zh) * 2019-09-25 2019-11-22 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN112289337A (zh) * 2020-11-03 2021-01-29 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
CN110491406A (zh) * 2019-09-25 2019-11-22 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN112289337A (zh) * 2020-11-03 2021-01-29 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蓝天等: "单声道语音降噪与去混响研究综述", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114495968B (zh) * 2022-03-30 2022-06-14 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN116597855A (zh) * 2023-07-18 2023-08-15 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备
CN116597855B (zh) * 2023-07-18 2023-09-29 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备

Also Published As

Publication number Publication date
CN113345460B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
CN111445919B (zh) 结合ai模型的语音增强方法、***、电子设备和介质
Shivakumar et al. Perception optimized deep denoising autoencoders for speech enhancement.
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN110875049B (zh) 语音信号的处理方法及装置
CN112767959B (zh) 语音增强方法、装置、设备及介质
EP4189677B1 (en) Noise reduction using machine learning
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
WO2022213825A1 (zh) 基于神经网络的端到端语音增强方法、装置
CN113707167A (zh) 残留回声抑制模型的训练方法和训练装置
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
CN113299306B (zh) 回声消除方法、装置、电子设备及计算机可读存储介质
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
Kantamaneni et al. Speech enhancement with noise estimation and filtration using deep learning models
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
Astudillo et al. Uncertainty propagation
CN115938346A (zh) 音准评估方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant