CN116612760A - 音频信号处理方法、装置和电子设备 - Google Patents

音频信号处理方法、装置和电子设备 Download PDF

Info

Publication number
CN116612760A
CN116612760A CN202310892837.0A CN202310892837A CN116612760A CN 116612760 A CN116612760 A CN 116612760A CN 202310892837 A CN202310892837 A CN 202310892837A CN 116612760 A CN116612760 A CN 116612760A
Authority
CN
China
Prior art keywords
fft
audio
simulated
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310892837.0A
Other languages
English (en)
Other versions
CN116612760B (zh
Inventor
钟雨崎
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bianfeng Information Technology Co ltd
Original Assignee
Beijing Bianfeng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bianfeng Information Technology Co ltd filed Critical Beijing Bianfeng Information Technology Co ltd
Priority to CN202310892837.0A priority Critical patent/CN116612760B/zh
Publication of CN116612760A publication Critical patent/CN116612760A/zh
Application granted granted Critical
Publication of CN116612760B publication Critical patent/CN116612760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本公开涉及一种音频信号处理方法、装置和电子设备,该方法包括:获取音频信号;通过训练后的仿FFT模型对所述音频信号进行推理,得到仿FFT数据,推理过程仅包含乘法、加法和比较操作;对仿FFT数据执行音频任务的处理,得到音频输出结果。本公开利用基于神经网络的仿FFT模型对音频信号进行处理以实现类似于FFT的功能,由于仿FFT模型的计算只涉及乘法和加法,因此降低了装置的运行功耗,使得采用本公开技术方案的硬件设备在电池供电的情况下能够延长数倍的使用时间。本公开技术方案由已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务所需要的特征,使仿FFT模型输出的特征更优于FFT的计算结果。

Description

音频信号处理方法、装置和电子设备
技术领域
本公开涉及计算机、神经网络及信号处理技术领域,特别涉及一种音频信号处理方法、装置和电子设备。
背景技术
语音领域中,在现有的数字信号处理(DSP)中,FFT(Fast Fourier Transform,快速傅里叶变换)是一种重要的信号变换工具,用于将语音的时域信号转换为频域信号。在此基础上的后续任务对频域信号进行进一步处理得到结果。
然而,FFT的计算复杂度高,需要大量的计算资源和功耗,在小型化装置中,FFT将产生大量功耗,在电池电量有限的情况下限制了设备的使用时间。因此,如何在小型化装置中以低功耗的损失实现FFT功能,延长小型化装置的使用时间,便成为亟待解决的问题。
发明内容
有鉴于此,本公开提供一种音频信号处理方法、装置和电子设备,实现低功耗的FFT功能,进而降低需要实现FFT功能的装置的使用功耗,在有限供电电量的情况下,延长需要实现FFT功能的装置的使用时间。
本公开的技术方案是这样实现的:
一种音频信号处理方法,包括:
获取音频信号;
通过训练后的仿快速傅里叶变换FFT模型对所述音频信号进行推理,得到仿FFT数据;
对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
进一步,所述仿FFT模型的训练过程,包括:
获取音频样本信号;
将所述音频样本信号输入预训练的仿FFT模型,通过所述预训练的仿FFT模型得到仿FFT预测数据;
对所述仿FFT预测数据执行所述音频任务处理,得到音频样本任务预测数据;
对所述音频样本信号进行FFT变换,得到频域信号;
对所述频域信号执行所述音频任务处理,得到音频样本任务处理结果数据;
根据所述音频样本任务预测数据和所述音频样本任务处理结果数据之间的差异,调整所述预训练的仿FFT模型中的参数,得到所述训练后的仿FFT模型。
进一步,所述根据所述音频样本任务预测数据和所述音频样本任务处理结果数据之间的差异,调整所述预训练的仿FFT模型中的参数,包括:
根据所述音频样本任务预测数据和所述音频样本任务处理结果数据,建立均方误差MSE损失函数;
根据所述MSE损失函数,调整所述预训练的仿FFT模型中的参数,直到所述MSE损失函数收敛至期望值或者达到训练的迭代次数。
进一步,所述音频任务包括降噪、增益、回声消除、语音唤醒、语音识别、声纹识别中的至少一种。
进一步,所述仿FFT模型包括串联的至少一个特征提取器;
在所述特征提取器多于一个的情况下,各个所述特征提取器相互串联,任意相邻的两个特征提取器之间的前一个特征提取器输出的特征数据为下一个特征提取器的输入数据,所述音频信号在所述仿FFT模型中输入第一个特征提取器,并且所述仿FFT模型中的最后一个特征提取器输出的特征数据为所述仿FFT数据。
进一步,每个所述特征提取器均包括至少一个卷积神经网络CNN单元和至少一个与所述CNN单元连接的线性整流函数ReLU单元,所述特征提取器的输入数据经过所述CNN单元的处理得到的数据再经过所述ReLU单元的处理得到所述特征提取器输出的特征数据。
进一步,所述特征提取器的数量为10至100个。
进一步,所述音频信号处理方法还包括:
在所述特征提取器的数量达到或超过特征提取器数量阈值、并且执行所述音频任务的处理时的所述音频任务的数量达到或者超过音频任务数量阈值的情况下,当增加新的音频任务时,直接将所述训练后的仿FFT模型对所述音频信号进行推理所得到的仿FFT数据应用于所述新的音频任务,得到对应于所述新的音频任务的音频输出结果。
一种音频信号处理装置,包括:
信号获取模块,被配置为执行获取音频信号;
仿快速傅里叶变换FFT处理模块,被配置为执行通过训练后的仿FFT模型对所述音频信号进行推理,得到仿FFT数据,其中,所述仿FFT模型对所述音频信号的推理过程仅包含乘法、加法和比较操作;
音频任务处理模块,被配置为执行对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
一种音频信号处理装置,包括:
神经网络处理器NPU,所述NPU用于获取音频信号并通过训练后的仿快速傅里叶变换FFT模型对所述音频信号进行推理,得到仿FFT数据,其中,所述仿FFT模型对所述音频信号的推理过程仅包含乘法、加法和比较操作;
音频任务处理芯片单元,所述音频任务处理芯片单元电连接于所述NPU,用于从所述NPU接收所述仿FFT数据并对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
一种电子设备,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如上任一项所述的音频信号处理方法。
从上述方案可以看出,本公开的音频信号处理方法、装置和电子设备,利用基于神经网络的仿FFT模型对音频信号进行处理以实现类似于FFT的功能,由于本公开技术方案中的仿FFT模型中的特征提取器的计算只涉及乘法和加法,进而相对于FFT处理来说能够降低装置的运行功耗,使得功耗从FFT的300mV降低至0.1mV,从而采用本公开技术方案的硬件设备在电池供电的情况下相对于包含FFT处理的音频信号处理方案能够延长数倍的使用时间。本公开技术方案中,并不关注仿FFT模型输出的特征与FFT的结果是否一致,而关注于仿FFT模型输出的特征送入后续任务是否能正常运行并且能够得到与FFT的计算结果送入后续任务后所得到的音频输出结果相当的结果,由已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务所需要的特征,使仿FFT模型所输出的特征更优于FFT本身的计算结果。因此,本公开的技术方案有助于实现功耗更低、结果更好的目的。
附图说明
图1是根据一示意性实施例示出的一种音频信号处理方法流程图;
图2是根据一示意性实施例示出的采用音频信号处理方法的拓扑关系示意图;
图3是根据一示意性实施例示出的特征提取器的结构示意图;
图4是根据一示意性实施例示出的一种仿FFT模型的训练过程流程图;
图5是根据一示意性实施例示出的在仿FFT模型训练过程中根据差异调整仿FFT模型中的参数的过程流程图;
图6是根据一示意性实施例示出的一种音频信号处理装置结构示意图;
图7是根据一示意性实施例示出的音频信号处理方法、装置的应用场景流程示意图;
图8是根据一示意性实施例示出的对仿FFT模块进行训练时的拓扑关系示意图;
图9是根据一示意性实施例示出的一种音频信号处理装置的逻辑结构示意图;
图10是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本公开作进一步详细说明。
傅里叶变换的计算公式如下:
其中,为信号在频域的复数表示,/>为频率,/>为输入信号在时域的函数,/>为时间,/>为虚数符号。
对于离散时间信号,傅里叶变换的计算公式为:
其中,为信号在频域的离散复数,/>为离散频率,/>为输入信号在离散时间序列中的采样值,/>为离散时间序列的总数。
通过上述公式可以看出,傅里叶变换中存在e的次幂计算和复数的计算,对于离散信号还有的计算。由于这些计算的存在,导致现有的语音移动产品以及语音芯片的硬件电路中,必须使用一个DSP(Digital Signal Processing,数字信号处理)单元或者CPU(Central Processing Unit,中央处理器)进行支持,又因为傅里叶变换的计算频率非常高,通常约为100~200次/秒,对于延迟要求较高的产品,需要大约500次/秒的计算频率,从而致使傅里叶变换的功耗显著,通常约为300mW(毫瓦)。在装置小型化的情况下,采用低容量电池进行供电的装置,如TWS(True Wireless Stereo,真无线立体声)耳机、助听器等,将严重影响到装置的使用时间。
本公开实施例的思想是提供一种替代现有FFT功能并结合FFT的后续任务,以实现音频输出结果与现有FFT及其后续任务的音频输出结果相当甚至好于现有FFT及其后续任务的音频输出结果,并且功耗更低的方法和装置,进而在有限供电电量的情况下,延长需要实现FFT功能的装置的使用时间。
图1是根据一示意性实施例示出的一种音频信号处理方法流程图,图2是根据一示意性实施例示出的采用音频信号处理方法的拓扑关系示意图,如图1、图2所示,该方法主要包括以下步骤101至步骤103。
步骤101、获取音频信号;
步骤102、通过训练后的仿FFT模型对音频信号进行推理,得到仿FFT数据,其中,仿FFT模型对音频信号的推理过程仅包含乘法、加法和比较操作;
步骤103、对仿FFT数据执行音频任务的处理,得到音频输出结果。
在示意性实施例中,仿FFT模型是一种神经网络模型,该仿FFT模型包括串联的至少一个特征提取器。在特征提取器多于一个的情况下,各个特征提取器相互串联,其中,各个特征提取器相互串联是指在数据处理过程的逻辑上的串联,任意相邻的两个特征提取器之间的前一个特征提取器输出的特征数据为下一个特征提取器的输入数据,音频信号在仿FFT模型中输入第一个特征提取器,并且仿FFT模型中的最后一个特征提取器输出的特征数据为仿FFT数据。
图3是根据一示意性实施例示出的特征提取器的结构示意图,如图3所示,每个特征提取器均包括至少一个CNN单元和至少一个与CNN单元连接的ReLU单元。例如每个特征提取器均包括一个CNN单元和一个与CNN单元连接的ReLU单元,特征提取器的输入数据经过CNN单元的处理得到的数据再经过ReLU单元的处理得到特征提取器输出的特征数据。
其中,CNN即卷积神经网络(Convolutional Neural Network),是一种用于处理具有网格状结构数据的前馈人工神经网络。它在图像、音频、视频、自然语言处理等领域有着广泛应用。CNN利用卷积层和池化层来逐层学习输入数据的深层次特征,从而提高其对图像等复杂结构数据的处理效率和准确性。
ReLU即线性整流函数或修正线性单元(Rectified Linear Unit),是一种非线性激活函数,常用于神经网络中。对于输入x来说,当x大于0时,ReLU输出x,否则ReLU输出0。在神经网络中,ReLU引入了非线性变换,能够更好地处理复杂的非线性模型,ReLU可以将负值“折叠”成0,保留正值。ReLU的非线性特性能够使得神经网络模型更加灵活和强大,从而提高其准确性和泛化能力。此外,ReLU具有计算速度快、收敛速度快等优点。
本公开实施例中,由CNN单元和ReLU单元组成的特征提取器能够增强仿FFT模型的非线性表达能力,提高其准确性和泛化能力,能够解决梯度消失问题,使得反向传播过程中梯度更加稳定,从而使训练速度更快,对特征的响应更加明确,能够过滤掉一些无用的信息,提高了特征对后续处理的鲁棒性,能够加快仿FFT模型的收敛速度,提高训练效率。并且,CNN单元的数据处理仅包含乘法操作和加法操作,ReLU单元的数据处理仅包含比较操作,比FFT的运算速度更快并且比FFT的功耗更低。
由于本公开实施例中,特征提取器能够增强仿FFT模型的非线性表达能力,提高其准确性和泛化能力,对特征的响应更加明确,能够过滤掉无用的信息,特征对后续处理的鲁棒性更强,因此,在特征提取器的数量较多(例如达到或超过预设的特征提取器数量阈值)并且音频任务的数量较多(例如达到或者超过预设的音频任务数量阈值)的情况下,仿FFT模型在不进行新的训练或者结构调整(如增加或减少特征提取器的数量)的情况下,仿FFT模型推理得到的仿FFT数据用于新增加的音频任务仍然能够得到理想的处理结果。基于此,在示意性实施例中,本公开实施例的音频信号处理方法还可以进一步包括:
在特征提取器的数量达到或超过特征提取器数量阈值、并且执行音频任务处理的音频任务的数量达到或者超过音频任务数量阈值的情况下,当增加新的音频任务时,直接将训练后的仿FFT模型对音频信号进行推理所得到的仿FFT数据应用于新的音频任务,得到对应于新的音频任务的音频输出结果。
也就是说,后续音频任务的数量越多,则仿FFT模型所提取的特征的通用性越好,在此基础上,如果额外再增加新的音频任务可以不必再次对仿FFT模型进行训练或者进行结构调整,直接使用原有训练后的仿FFT模型即可。例如,训练后的仿FFT模型是结合于10个后续音频任务进行训练所获得的,那么,在利用训练后的仿FFT模型以及10个后续音频任务的基础上,再额外增加一个任务,即利用该训练后的仿FFT模型以及11个后续音频任务,仍然能够得到理想的音频输出结果。
由于本公开实施例的音频信号处理方法中采用了训练后的仿FFT模型,因此,在使用该音频信号处理方法之前,还需要对仿FFT模型进行训练。在本公开实施例中,仿FFT模型并非是直接学习逼近FFT的计算结果,而是由在FFT之后的已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务需要的特征,该特征将更优于FFT本身的计算结果。也就是说,本公开实施例中,不需要关注仿FFT模型输出的特征具体是什么,而只关注仿FFT模型输出的特征送入后续任务是否能正常运行,并且关注于能够得到与FFT的计算结果送入后续任务后所得到的音频输出结果相当或者更好的结果。本公开实施例中,以此为目标对仿FFT模型进行训练,最终形成功能。
由于CNN为纯线性计算,其中只有乘法和加法,相比于FFT中存在e的次幂计算、复数的计算、以及的计算来说,能够大幅降低功耗,从实验数据上来看,能够将FFT的功耗300mW降低至0.1mW。因此,本公开实施例的音频信号处理方法能够解决小型化装置的FFT功耗较高的问题,实现了较低功耗的FFT功能,在有限供电电量的情况下,能够延长需要实现FFT功能的装置的使用时间,例如TWS耳机、助听器采用本公开实施例的音频信号处理方法后,与现有采用FFT的方案相比,能够在电池具有同等电量的情况下,延长数倍的使用时间。
图4是根据一示意性实施例示出的一种仿FFT模型的训练过程流程图,如图4所示,仿FFT模型的训练过程包括如下步骤401至步骤406。
步骤401、获取音频样本信号;
步骤402、将音频样本信号输入预训练的仿FFT模型,通过预训练的仿FFT模型得到仿FFT预测数据;
步骤403、对仿FFT预测数据执行音频任务的处理,得到音频样本任务预测数据;
步骤404、对音频样本信号进行FFT变换,得到频域信号;
步骤405、对频域信号执行音频任务的处理,得到音频样本任务处理结果数据;
步骤406、根据音频样本任务预测数据和音频样本任务处理结果数据之间的差异,调整预训练的仿FFT模型中的参数,得到训练后的仿FFT模型。
在示意性实施例中,训练过程中采用MSE损失函数。图5是根据一示意性实施例示出的在仿FFT模型训练过程中根据差异调整仿FFT模型中的参数的过程流程图,如图5所示,步骤406中的根据音频样本任务预测数据和音频样本任务处理结果数据之间的差异,调整预训练的仿FFT模型中的参数,主要包括如下步骤501至步骤502。
步骤501、根据音频样本任务预测数据和音频样本任务处理结果数据,建立MSE损失函数;
步骤502、根据MSE损失函数,调整预训练的仿FFT模型中的参数,直到MSE损失函数收敛至期望值或者达到训练的迭代次数。
其中,MSE即均方误差(Mean Squared Error),它是一种用于衡量回归问题中模型预测值和真实值之间差异程度的损失函数。在线性回归、多项式回归等任务中常被选用。MSE计算方法为:对于给定样本集中的每一个样本,计算它的预测值与真实值之间的差值,然后将差值的平方求和并取均值。即
其中,为样本总数,/>为第/>个样本的真实值,/>为第/>个样本的模型预测值。/>越小,说明模型的预测结果越接近真实值。
从上述仿FFT模型的训练过程能够看出,本公开实施例中,对仿FFT模型的训练采用了类似于无监督训练的方法,将仿FFT模型及后续任务的推理结果与FFT及后续任务的处理结果进行比较,在训练过程中使得二者之间差异最小化,从而使得训练后的仿FFT模型及后续任务的推理结果与FFT及后续任务的处理结果相当甚至更好。
在示意性实施例中,音频任务包括降噪、增益、回声消除、语音唤醒、语音识别、声纹识别中的至少一种。
在示意性实施例中,仿FFT模型的输出可以同时给到多个音频任务,因为仿FFT模型的功能是在训练的过程中配合于多个后续音频任务而形成,仿FFT模型的作用就是提取特征,采用本公开实施例中的训练过程,能够使得训练后的仿FFT模型输出的仿FFT数据包含所有后续音频任务所需要的特征。在训练过程中,仿FFT模型得到的仿FFT预测数据也会同时给到后续所有音频任务,再根据所有音频任务得到的音频样本任务预测数据和音频样本任务处理结果数据的对比来调整仿FFT模型的参数。
另外,后续音频任务的数量越多,则仿FFT模型所提取的特征的通用性越好,在此基础上,如果额外再增加新的音频任务可以不必再次对仿FFT模型进行训练,直接使用原有训练后的仿FFT模型即可。例如,训练后的仿FFT模型是结合于10个后续音频任务进行训练所获得的,那么,在利用训练后的仿FFT模型以及10个后续音频任务的基础上,再额外增加一个任务,即利用该训练后的仿FFT模型以及11个后续音频任务,仍然能够得到理想的音频输出结果。
在仿FFT模型中,特征提取器的数量会影响到仿FFT模型所提取的特征,如果特征提取器的数量过少,则所提取特征可能并不理想,如果特征提取器的数量过多则会降低特征提取效率,为了兼顾提取特征的效果和效率,在示意性实施例中,仿FFT模型中的特征提取器的数量为10至100个。
本公开实施例的音频信号处理方法可以应用于所有涉及语音功能的移动产品、小型化产品中,如蓝牙耳机、录音设备、摄像头等。
本公开实施例的音频信号处理方法,利用基于神经网络的仿FFT模型对音频信号进行处理以实现类似于FFT的功能,由于本公开实施例中的仿FFT模型中的特征提取器的计算只涉及乘法和加法,进而相对于FFT处理来说能够降低装置的运行功耗,使得功耗从FFT的300mV降低至0.1mV,从而采用本公开实施例的硬件设备在电池供电的情况下相对于包含FFT处理的音频信号处理方案能够延长数倍的使用时间。本公开实施例中,并不关注仿FFT模型输出的特征与FFT的结果是否一致,而关注于仿FFT模型输出的特征送入后续任务是否能正常运行并且能够得到与FFT的计算结果送入后续任务后所得到的音频输出结果相当的结果,由已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务所需要的特征,使仿FFT模型所输出的特征更优于FFT本身的计算结果。因此,本公开实施例的音频信号处理方法有助于实现功耗更低、结果更好的目的。
比如说,现有一个处理过程包括依次执行的过程A、过程B和过程C,其中,过程A例如FFT,过程B和过程C例如FFT之后执行的音频任务处理,其中执行过程A的硬件功耗高。
现有的普遍方法是,将过程A替换成过程A’,并且把过程B和过程C换成与过程A’相适配的过程B’和过程C’。
而本公开技术方案中,是将过程A替换为功耗较小的过程D,过程D例如本公开实施例中利用训练后的仿FFT模型执行的推理,并且保持过程B和过程C不变。其中,过程A涉及到较多的次幂计算和复数计算导致了执行过程A的硬件功耗高,而过程D中使用的仿FFT模型对音频信号的推理过程仅包含乘法、加法和比较操作而没有次幂计算和复数计算,因此,在电路设计上实现了简化(因为次幂计算和复数计算的电路比乘法、加法和比较操作要复杂),因此,能够显著降低硬件功耗。
另外,相比于本公开实施例的音频信号处理方法,通常的利用人工智能方法为:仅关注CNN网络的输出并监督CNN网络的学习,使得CNN网络输出指定的特征(如让CNN网络输出与FFT的结果相同的特征),而不是由已经形成功能的后续任务反逼CNN网络学习所有后续任务所需要的特征。相比于通常利用人工智能方法来说,本公开实施例的音频信号处理方法并不关注仿FFT模型输出的特征与FFT的结果是否一致,而关注于仿FFT模型输出的特征送入后续任务是否能正常运行并且能够得到与FFT的计算结果送入后续任务后所得到的音频输出结果相当的结果,由已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务所需要的特征,使仿FFT模型所输出的特征更优于FFT本身的计算结果。因此,本公开的技术方案有助于实现功耗更低、结果更好的目的。
图6是根据一示意性实施例示出的一种音频信号处理装置结构示意图,本实施例的音频信号处理装置为一种硬件装置,其主要包括NPU(Neural network ProcessingUnit,神经网络处理器)601和音频任务处理芯片单元602,NPU601和音频任务处理芯片单元602均为硬件模块,例如处理器硬件、芯片硬件。其中,NPU601用于获取音频信号并通过训练后的仿FFT模型对音频信号进行推理,得到仿FFT数据,其中,仿FFT模型对音频信号的推理过程仅包含乘法、加法和比较操作。音频任务处理芯片单元602电连接于NPU601,用于从NPU601接收仿FFT数据并对仿FFT数据执行音频任务的处理,得到音频输出结果。
本实施例的音频信号处理装置可以是音频设备、产品中的组成部分,音频设备、产品例如TWS耳机、助听器等。本实施例的音频信号处理装置能够降低音频设备、产品的运行功耗,在音频设备、产品由电池供电的情况下能够延长数倍的使用时间,并且能够使得音频设备、产品得到采用原有FFT方案类似或者更优的效果。
图7是根据一示意性实施例示出的音频信号处理方法、装置的应用场景流程示意图,图8是根据一示意性实施例示出的对仿FFT模块进行训练时的拓扑关系示意图,如图7、图8所示,该实施例的应用场景主要包括以下步骤701至步骤712。
步骤701、建立预训练的仿FFT模型,之后执行步骤702。
步骤702、从音频样本训练集中获取一个音频样本信号,之后执行步骤703和步骤705。
步骤703、将音频样本信号输入预训练的仿FFT模型,通过预训练的仿FFT模型得到仿FFT预测数据,之后执行步骤704。
步骤704、对仿FFT预测数据执行音频任务的处理,得到音频样本任务预测数据,之后执行步骤707。
步骤705、对音频样本信号输入FFT模块进行FFT,得到频域信号,之后执行步骤706。
其中,FFT模块为执行FFT的计算模块。
步骤706、对频域信号执行音频任务的处理,得到音频样本任务处理结果数据,之后执行步骤707。
其中,步骤704和步骤706中的音频任务处理相同。
在示意性实施例中,步骤704和步骤706中的音频任务处理均包括降噪、增益、回声消除、语音唤醒、语音识别和声纹识别中至少之一的操作。
步骤707、根据音频样本任务预测数据和音频样本任务处理结果数据,得到损失函数(LOSS),之后执行步骤708。
其中,损失函数表征了音频样本任务预测数据和音频样本任务处理结果数据之间的差异。
步骤708、根据损失函数,调整预训练的仿FFT模型中的参数,之后执行步骤709。
步骤709、判断损失函数是否收敛至期望值,如果是则执行步骤711,否则执行步骤710。
步骤710、判断训练的迭代次数是否达到预设次数,如果是则执行步骤711,否则执行步骤702。
在损失函数收敛至期望值或者训练的迭代次数达到预设次数时,便完成仿FFT模型的训练,得到训练后的仿FFT模型。
步骤711、利用NPU在硬件层面复现训练后的仿FFT模型,并将NPU电连接于音频任务处理模块,得到音频信号处理装置,之后执行步骤712。
其中,音频任务处理芯片单元为硬件电路单元,用于接收仿FFT模型输出的仿FFT数据并对仿FFT数据执行音频任务的处理,得到音频输出结果。
音频任务处理芯片单元执行的音频任务处理包括降噪、增益、回声消除、语音唤醒、语音识别和声纹识别或者更多。
步骤712、获取音频信号并利用NPU得到仿FFT模型输出的仿FFT数据,将仿FFT数据输入音频任务处理芯片单元进而得到音频输出结果。
图9是根据一示意性实施例示出的一种音频信号处理装置的逻辑结构示意图,如图9所示,该音频信号处理装置包括信号获取模块901、仿FFT处理模块902和音频任务处理模块903。其中,信号获取模块901,被配置为执行获取音频信号;仿FFT处理模块902,被配置为执行通过训练后的仿FFT模型对音频信号进行推理,得到仿FFT数据,其中,仿FFT模型对音频信号的推理过程仅包含乘法、加法和比较操作;音频任务处理模块903,被配置为执行对仿FFT数据执行音频任务的处理,得到音频输出结果。
在示意性实施例中,该音频信号处理装置还包括,模型训练模块,被配置为执行:
获取音频样本信号;
将音频样本信号输入预训练的仿FFT模型,通过预训练的仿FFT模型得到仿FFT预测数据;
对仿FFT预测数据执行音频任务的处理,得到音频样本任务预测数据;
对音频样本信号进行FFT变换,得到频域信号;
对频域信号执行音频任务的处理,得到音频样本任务处理结果数据;
根据音频样本任务预测数据和音频样本任务处理结果数据之间的差异,调整预训练的仿FFT模型中的参数,得到训练后的仿FFT模型。
在示意性实施例中,模型训练模块进一步被配置为执行:
根据音频样本任务预测数据和音频样本任务处理结果数据,建立MSE损失函数;
根据MSE损失函数,调整预训练的仿FFT模型中的参数,直到MSE损失函数收敛至期望值或者达到训练的迭代次数。
在示意性实施例中,音频任务包括降噪、增益、回声消除、语音唤醒、语音识别、声纹识别中的至少一种。
在示意性实施例中,仿FFT模型包括串联的至少一个特征提取器;
在特征提取器多于一个的情况下,各个特征提取器相互串联,其中,各个特征提取器相互串联是指在数据处理过程的逻辑上的串联,任意相邻的两个特征提取器之间的前一个特征提取器输出的特征数据为下一个特征提取器的输入数据,音频信号在仿FFT模型中输入第一个特征提取器,并且仿FFT模型中的最后一个特征提取器输出的特征数据为仿FFT数据。
在示意性实施例中,每个特征提取器均包括至少一个CNN单元和至少一个与CNN单元连接的ReLU单元,特征提取器的输入数据经过CNN单元的处理得到的数据再经过ReLU单元的处理得到特征提取器输出的特征数据。
在示意性实施例中,特征提取器的数量为10至100个。
本公开实施例的音频信号处理装置,利用基于神经网络的仿FFT模型对音频信号进行处理以实现类似于FFT的功能,由于本公开实施例中的仿FFT模型中的特征提取器的计算只涉及乘法和加法,进而相对于FFT处理来说能够降低装置的运行功耗,使得功耗从FFT的300mV降低至0.1mV,从而采用本公开实施例的硬件设备在电池供电的情况下相对于包含FFT处理的音频信号处理方案能够延长数倍的使用时间。本公开实施例中,并不关注仿FFT模型输出的特征与FFT的结果是否一致,而关注于仿FFT模型输出的特征送入后续任务是否能正常运行并且能够得到与FFT的计算结果送入后续任务后所得到的音频输出结果相当的结果,由已经形成功能的所有后续任务去反逼仿FFT模型学习所有后续任务所需要的特征,使仿FFT模型所输出的特征更优于FFT本身的计算结果。因此,本公开实施例的音频信号处理装置有助于实现了功耗更低、结果更好的目的。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
关于上述实施例中的音频信号处理装置,其中各个单元执行操作的具体方式已经在有关该音频信号处理方法的实施例中进行了详细描述,此处将不作详细阐述说明。
需要说明的是:上述实施例仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
图10是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中,该电子设备为服务器。该电子设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,该存储器1002中存储有至少一条程序代码,该至少一条程序代码由该处理器1001加载并执行以实现上述各个实施例提供的音频信号处理方法。当然,该电子设备1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括至少一条指令的计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的音频信号处理方法。
可选地,上述计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (11)

1.一种音频信号处理方法,包括:
获取音频信号;
通过训练后的仿快速傅里叶变换FFT模型对所述音频信号进行推理,得到仿FFT数据,其中,所述仿FFT模型对所述音频信号的推理过程仅包含乘法、加法和比较操作;
对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述仿FFT模型的训练过程,包括:
获取音频样本信号;
将所述音频样本信号输入预训练的仿FFT模型,通过所述预训练的仿FFT模型得到仿FFT预测数据;
对所述仿FFT预测数据执行所述音频任务的处理,得到音频样本任务预测数据;
对所述音频样本信号进行FFT变换,得到频域信号;
对所述频域信号执行所述音频任务的处理,得到音频样本任务处理结果数据;
根据所述音频样本任务预测数据和所述音频样本任务处理结果数据之间的差异,调整所述预训练的仿FFT模型中的参数,得到所述训练后的仿FFT模型。
3.根据权利要求2所述的音频信号处理方法,其特征在于,所述根据所述音频样本任务预测数据和所述音频样本任务处理结果数据之间的差异,调整所述预训练的仿FFT模型中的参数,包括:
根据所述音频样本任务预测数据和所述音频样本任务处理结果数据,建立均方误差MSE损失函数;
根据所述MSE损失函数,调整所述预训练的仿FFT模型中的参数,直到所述MSE损失函数收敛至期望值或者达到训练的迭代次数。
4.根据权利要求1所述的音频信号处理方法,其特征在于:
所述音频任务包括降噪、增益、回声消除、语音唤醒、语音识别、声纹识别中的至少一种。
5.根据权利要求1至4任一项所述的音频信号处理方法,其特征在于:
所述仿FFT模型包括串联的至少一个特征提取器;
在所述特征提取器多于一个的情况下,各个所述特征提取器相互串联,任意相邻的两个特征提取器之间的前一个特征提取器输出的特征数据为下一个特征提取器的输入数据,所述音频信号在所述仿FFT模型中输入第一个特征提取器,并且所述仿FFT模型中的最后一个特征提取器输出的特征数据为所述仿FFT数据。
6.根据权利要求5所述的音频信号处理方法,其特征在于:
每个所述特征提取器均包括至少一个卷积神经网络CNN单元和至少一个与所述CNN单元连接的线性整流函数ReLU单元,所述特征提取器的输入数据经过所述CNN单元的处理得到的数据再经过所述ReLU单元的处理得到所述特征提取器输出的特征数据。
7.根据权利要求5所述的音频信号处理方法,其特征在于:
所述特征提取器的数量为10至100个。
8.根据权利要求5所述的音频信号处理方法,其特征在于,所述音频信号处理方法还包括:
在所述特征提取器的数量达到或超过特征提取器数量阈值、并且执行所述音频任务处理时的所述音频任务的数量达到或者超过音频任务数量阈值的情况下,当增加新的音频任务时,直接将所述训练后的仿FFT模型对所述音频信号进行推理所得到的仿FFT数据应用于所述新的音频任务,得到对应于所述新的音频任务的音频输出结果。
9.一种音频信号处理装置,其特征在于,包括:
信号获取模块,被配置为执行获取音频信号;
仿快速傅里叶变换FFT处理模块,被配置为执行通过训练后的仿FFT模型对所述音频信号进行推理,得到仿FFT数据,其中,所述仿FFT模型对所述音频信号的推理过程仅包含乘法、加法和比较操作;
音频任务处理模块,被配置为执行对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
10.一种音频信号处理装置,其特征在于,包括:
神经网络处理器NPU,所述NPU用于获取音频信号并通过训练后的仿快速傅里叶变换FFT模型对所述音频信号进行推理,得到仿FFT数据,其中,所述仿FFT模型对所述音频信号的推理过程仅包含乘法、加法和比较操作;
音频任务处理芯片单元,所述音频任务处理芯片单元电连接于所述NPU,用于从所述NPU接收所述仿FFT数据并对所述仿FFT数据执行音频任务的处理,得到音频输出结果。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至8任一项所述的音频信号处理方法。
CN202310892837.0A 2023-07-20 2023-07-20 音频信号处理方法、装置和电子设备 Active CN116612760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310892837.0A CN116612760B (zh) 2023-07-20 2023-07-20 音频信号处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310892837.0A CN116612760B (zh) 2023-07-20 2023-07-20 音频信号处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN116612760A true CN116612760A (zh) 2023-08-18
CN116612760B CN116612760B (zh) 2023-11-03

Family

ID=87684002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310892837.0A Active CN116612760B (zh) 2023-07-20 2023-07-20 音频信号处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116612760B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180061394A1 (en) * 2016-09-01 2018-03-01 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
CN114283795A (zh) * 2021-12-24 2022-04-05 思必驰科技股份有限公司 语音增强模型的训练、识别方法、电子设备和存储介质
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180061394A1 (en) * 2016-09-01 2018-03-01 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
CN114283795A (zh) * 2021-12-24 2022-04-05 思必驰科技股份有限公司 语音增强模型的训练、识别方法、电子设备和存储介质
CN114882884A (zh) * 2022-07-06 2022-08-09 深圳比特微电子科技有限公司 一种基于深度学习模型的多任务实现方法、装置
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质

Also Published As

Publication number Publication date
CN116612760B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
WO2017219991A1 (zh) 适用于模式识别的模型的优化方法、装置及终端设备
Di Lorenzo et al. Adaptive graph signal processing: Algorithms and optimal sampling strategies
EP3301675B1 (en) Parameter prediction device and parameter prediction method for acoustic signal processing
CN110415686A (zh) 语音处理方法、装置、介质、电子设备
CN111768795A (zh) 语音信号的噪声抑制方法、装置、设备及存储介质
CN109616093A (zh) 端对端语音合成方法、装置、设备及存储介质
CN113241064B (zh) 语音识别、模型训练方法、装置、电子设备和存储介质
CN109658943B (zh) 一种音频噪声的检测方法、装置、存储介质和移动终端
CN111357051B (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN109766476B (zh) 视频内容情感分析方法、装置、计算机设备及存储介质
CN113571078B (zh) 噪声抑制方法、装置、介质以及电子设备
US20230252294A1 (en) Data processing method, apparatus, and device, and computer-readable storage medium
Cerutti et al. Sub-mW keyword spotting on an MCU: Analog binary feature extraction and binary neural networks
CN112289337B (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN116612760B (zh) 音频信号处理方法、装置和电子设备
CN115064160B (zh) 语音唤醒方法以及装置
Ulkar et al. Ultra-low power keyword spotting at the edge
CN114171043B (zh) 回声的确定方法、装置、设备以及存储介质
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
CN113393857B (zh) 一种音乐信号的人声消除方法、设备及介质
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
TWI763975B (zh) 降低類神經網路之運算複雜度的系統與方法
CN113516992A (zh) 一种音频处理方法、装置、智能设备及存储介质
CN117275499B (zh) 自适应神经网络的降噪方法及相关装置
CN113516988B (zh) 一种音频处理方法、装置、智能设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant