CN109346055A - 主动降噪方法、装置、耳机及计算机存储介质 - Google Patents

主动降噪方法、装置、耳机及计算机存储介质 Download PDF

Info

Publication number
CN109346055A
CN109346055A CN201811407883.2A CN201811407883A CN109346055A CN 109346055 A CN109346055 A CN 109346055A CN 201811407883 A CN201811407883 A CN 201811407883A CN 109346055 A CN109346055 A CN 109346055A
Authority
CN
China
Prior art keywords
scene
audio data
noise reduction
audio
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811407883.2A
Other languages
English (en)
Inventor
李时培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anker Innovations Co Ltd
Original Assignee
Anker Innovations Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anker Innovations Co Ltd filed Critical Anker Innovations Co Ltd
Priority to CN201811407883.2A priority Critical patent/CN109346055A/zh
Publication of CN109346055A publication Critical patent/CN109346055A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • G10K11/17854Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3035Models, e.g. of the acoustic system
    • G10K2210/30351Identification of the environment for applying appropriate model characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3048Pretraining, e.g. to identify transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3055Transfer function of the acoustic system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了一种主动降噪方法、装置、耳机及计算机存储介质,所述方法包括:获取音频数据;利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;根据所述分类结果选择主动降噪模式。本发明根据场景类别选择降噪模式,从而避免了降噪带来的不安全性,并且避免了手动切换降噪模式的繁琐性。

Description

主动降噪方法、装置、耳机及计算机存储介质
技术领域
本发明涉及音频处理技术领域,更具体地涉及一种主动降噪方法、装置、耳机及计算机存储介质。
背景技术
环境噪声是影响耳机佩戴者音质感受的一个重要因素。在高噪声环境中佩戴耳机听音频或进行语音通信,会导致使用者的听音质量下降,更严重的会使使用者听力受损。因此,耳机的降噪性能受到耳机设计者和用户的关注。目前,耳机降噪有两种方式:被动降噪和主动降噪。被动降噪一般是通过耳机的结构、材料设计来实现耳机与外界的物理信号隔离,如入耳式设计。而主动降噪是采取模拟或数字信号处理的方法对外界噪声进行抵消,一般是利用信号反向叠加消除原理,用麦克接收环境噪声,计算环境噪声的反向信号,并利用扬声器发射环境噪声的反向信号,来抵消外界噪声。
现有的主动降噪技术存在以下问题:
1、主动降噪算法不会判断某段外界噪声是不是对用户有用,只会对所有接收到的声音进行降噪,因此在户外环境(例如过马路时)使用降噪耳机可能因为听不到路上的声音而发生事故;
2、现有的主动降噪方法大多在不同的环境中使用相同的降噪模式,用户存在在多种复杂场景下无法听到想听到声音的困扰,而手动切换降噪模式的耳机使用繁琐,用户体验不佳。
发明内容
现有的降噪耳机针对所有噪音进行降噪,会给用户带来无法听到有用的声音的困扰,而手动切换降噪模式使用繁琐。
基于现有技术中存在的上述问题,本发明一方面提供一种主动降噪方法,所述方法包括:
获取音频数据;
利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
根据所述分类结果选择主动降噪模式。
在一个实施例中,所述场景分类模型的训练方法包括:
对音频数据库中已经标注场景类别的原始音频数据进行特征提取,得到原始音频数据特征及其对应的类型特征;
将所述原始音频数据特征及其对应的类型特征输入到深度神经网络中进行训练以得到初始的场景分类模型。
在一个实施例中,所述场景分类模型的训练方法还包括:
在得到所述初始的场景分类模型之后,采集拓展音频数据,并收集所述拓展音频数据的相关音频数据;
将所述拓展音频数据和所述拓展音频数据的相关音频数据输入到所述深度神经网络中进行训练,从而对所述初始的场景分类模型进行学习拓展,以得到所述训练好的场景分类模型。
在一个实施例中,所述原始音频数据和/或所述拓展音频数据包括:路面声音和/或高频次重复出现的声音。
在一个实施例中,所述场景类别包括复杂场景和非复杂场景,所述根据所述分类结果选择降噪模式包括:
当所述场景类别为非复杂场景时,选择普通降噪模式,以对全部的噪音进行降噪;
当所述场景类别为复杂场景时,选择复杂场景下的降噪模式。
在一个实施例中,所述复杂场景下的降噪模式包括:
区分所述音频数据中的有用音频和无用音频;
对所述无用音频进行主动降噪处理,对所述有用音频不进行主动降噪处理。
在一个实施例中,所述利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果包括:
对所述音频数据进行特征提取,以获得音频特征;
将所述音频特征输入所述训练好的场景分类模型,以得到所述场景类别的分类结果。
根据本发明另一方面,提供了一种主动降噪装置,所述主动降噪装置包括:
音频获取模块,用于获取音频数据;
场景分类模块,用于利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
模式选择模块,用于根据所述分类结果选择主动降噪模式。
根据本发明又一方面,提供了一种耳机,所述耳机包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行本发明的主动降噪方法。
根据本发明的再一方面,提供了一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据本发明的主动降噪方法及各个示例所述方法的步骤。
本发明的主动降噪方法、装置、耳机及计算机存储介质根据场景类别选择降噪模式,从而避免了降噪带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是根据本发明实施例的主动降噪方法的示意性流程图;
图2是根据本发明实施例的主动降噪方法的另一示意性流程图;
图3是根据本发明的实施例的一种主动降噪装置的示意性框图;
图4是根据本发明的实施例的一种耳机的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。
在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
为了彻底理解本发明,将在下列的描述中提出详细的结构,以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
为了解决前述的技术问题,本发明提供一种主动降噪方法、装置、耳机及计算机存储介质,其中,所述方法包括:获取音频数据;利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及根据所述分类结果选择主动降噪模式。
本发明的主动降噪方法、装置、耳机及计算机存储介质根据场景类别选择降噪模式,从而避免了降噪带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
下面参考图1对本发明的主动降噪方法100进行详细解释和说明。在不冲突的前提下,本申请的各个实施例的特征可以相互结合。如图1所示,主动降噪方法100可以包括如下步骤:
在步骤S110,获取音频数据;
在步骤S120,利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
在步骤S130,根据所述分类结果选择降噪模式。
示例性地,根据本发明实施例的主动降噪方法可以在具有存储器和处理器的降噪耳机中实现。
根据本发明实施例的主动降噪方法可以部署在耳机端,也可以分散地部署在服务器端(或云端)和耳机端。例如,耳机端将接收/采集的音频数据传递至服务器端(或云端),在服务器端(或云端)进行主动降噪,服务器端(或云端)将经过本发明的主动降噪方法处理过的音频数据传递给耳机端,耳机端根据所接收的处理过的音频数据进行播放。
根据本发明实施例的主动降噪方法,能够根据场景类别选择降噪模式,从而避免了降噪带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
在一个实施例中,如图2所示,所述场景类别包括复杂场景和非复杂场景,所述复杂场景的音频数据中包括有用音频和无用音频。
具体地,如图2所示,主动降噪方法200可以具体包括:首先,在步骤S210,收集音频数据;在步骤S220,针对所述音频数据提取音频特征;在步骤S230,利用训练好的场景分类模型进行分类;以及在步骤S240,判断所述场景类别是否是复杂场景。其中,当所述场景类别为非复杂场景时,执行步骤S250,选择普通降噪模式,当所述场景类别为复杂场景时,选择复杂场景下的降噪模式。进一步地,当所述场景类别为复杂场景时,首先执行步骤S260,判断所述复杂场景是否是新的复杂场景,即音频数据库中是否存储有该场景下的噪音;若所述复杂场景是新的复杂场景,则执行步骤S270,在切换为复杂场景下的降噪模式的同时,采集该新的复杂场景中的噪音作为拓展音频数据,输入到神经网络中进行训练,以对场景分类模型进行学习拓展;如果不是新的复杂场景,则执行步骤S280,切换为复杂场景下的降噪模式,但不采集拓展音频数据。
根据本发明实施例,在步骤S210中,可以在颈环式耳机的颈环和耳机处设置若干个拾音器,由所述拾音器收集音频数据,并提取收集到的音频数据中的噪声。
根据本发明实施例,所述利用训练好的场景分类模型输出场景类别的分类结果包括:对所述音频数据进行特征提取,以获得音频特征;将所述音频特征输入所述训练好的场景分类模型,以得到所述音频数据所处的场景类别。
在一个实施例中,对所述音频数据进行特征提取的方式可以包括但不限于短时傅里叶变换(STFT)。示例性地,对所述音频数据进行特征提取所得到的音频特征可以包括频域幅度和/或能量信息。示例性地,对所述音频数据进行特征提取所得到的音频特征还可以包括频谱相位信息。示例性地,对所述音频数据进行特征提取所得到的音频特征也可以是时域特征。在其他示例中,对所述音频数据进行特征提取所得到的数据特征还可以包括任何其他可以表征所述音频数据的特征。
在一个实施例中,在对所述音频数据进行特征提取之前,可以先对其进行分帧处理,并且前述的特征提取针对分帧后得到所述音频数据逐帧进行,从而有效减少数据量,提高处理效率。
在一个实施例中,在步骤S230中,所述场景分类模型的训练方法包括:对音频数据库中已经标注场景类别的原始音频数据进行特征提取,得到原始音频数据特征及其对应的类型特征;以及将所述原始音频数据特征及其对应的类型特征输入到深度神经网络中进行训练,以得到初始的场景分类模型。
示例性地,所述原始音频数据包括路面声音和/或高频次重复出现的声音。具体地,路面声音包括不同路面的车辆喇叭声、马达声、刹车声、轮胎等反应路况信息的音频。高频次重复出现的声音包括高频次重复出现的呼叫词、常用姓名、交谈环境等。对上述音频进行数据收集后录入到音频数据库中,并标注其音频样本数据。
示例性地,音频数据库中的原始音频数据的音频数据特征是通过人工或自动标注方式标注的音频数据的数据特征,包括且不限于音频波形中具有明显类别特色部分的特征;数据特征的提取方法包括且不限于FFT(Fast Fourier Transformation,快速傅里叶变换)、MFCC(Mel-Frequency Cepstral Coefficient,Mel频率倒谱系数)等。
示例性地,所述音频数据的特征提取包括对所述音频数据进行分帧后进行特征提取。示例性地,所述音频数据特征提取的方法包括FFT,STFT,MFCC,一帧或多帧时域波形或人工设计的其他特征中的至少一种。示例性地,所述音频数据特征提取包括时域或频域特征。
示例性地,所述场景分类模型的训练方法还包括基于深度神经网络,将所述音频样本数据特征作为输入,对应的类型特征作为输出训练得到初始的场景分类模型。初始的场景分类模型能够初步分辨音频帧的场景类型。由于初始的场景分类模型是基于深度神经网络训练的,深度神经网络具有在原始数据数据基础上的场景记忆和学习能力,可以通过获取拓展数据不断进行学习拓展。
在一个实施例中,所述学习拓展包括:在得到所述初始的场景分类模型之后,采集拓展音频数据,并收集所述拓展音频数据的相关音频数据;将所述拓展音频数据和所述拓展音频数据的相关音频数据输入到所述深度神经网络中进行训练,从而对所述初始的场景分类模型进行学习拓展,以得到训练好的场景分类模型。示例性地,当识别到新的复杂场景时,采集该复杂场景中的音频数据作为拓展音频数据,并录入所述拓展音频数据的相关音频数据,以拓展出该复杂场景中可能出现的音频的多种可能性,从而在原始音频数据的基础上进行学习拓展。
示例性地,所述拓展音频数据包括:路面声音和/或高频次重复出现的声音。具体地,录入首次出现的路面声音,并学习拓展可能出现的相关性路面声音;录入频繁出现的姓名,并学习拓展出相应的可能存在的小名、英文名、笔名等;录入不同环境中的高频呼叫词,并学习拓展出相应的可能存在的音色和频率;录入不同的交流场景,并学习拓展出相应的可能存在的交流场景等等。综上,将多种场景下的数据结合在一起对神经网络进行拓展学习,后续不断增加的拓展数据会对场景分类模型不断进行拓展,从而提升场景识别的准确性。
在一个实施例中,所述复杂场景下的降噪模式进一步包括:区分音频数据中的有用音频和无用音频;对无用音频进行主动降噪处理,对有用音频不进行主动降噪处理。可以通过训练好的分类模型对音频数据进行分类,以区分其中的有用音频和无用音频,例如路面声音和/或高频次重复出现的声音即为有用音频。所述普通降噪模式包括:对全部的噪音进行降噪。
示例性地,主动降噪处理包括基于训练好的滤波器进行主动降噪处理。其中,所述主动降噪滤波器的训练方法包括:测量设备外部到需进行主动降噪区域,如人耳佩戴处的,声道的传递函数,根据声道传递函数设置滤波器参数。设备采集设备外部的外部环境声音,声音被滤波器处理就能得到需进行主动降噪区域的环境声音的反相信号,反相用扬声器发射出去。设备外部环境声音到达需进行主动降噪区域,如人耳佩戴处,与被发射的反相声音叠加,使环境噪声去除或衰减。
以上示例性地描述了根据本发明实施例的主动降噪方法。示例性地,根据本发明实施例的主动降噪方法可以在具有存储器和处理器的设备、装置或者***中实现。
根据本发明实施例的主动降噪方法通过根据场景类别自动切换降噪模式,可以避免主动降噪处理抵消路面声音所带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
根据本发明的另一方面,提供了一种主动降噪装置。参考图3,图3示出了根据本发明的实施例的一种主动降噪装置300的示意性框图。
主动降噪装置300包括音频获取模块310、场景分类模块320和模式选择模块330。所述各个模块可分别执行上文中所描述的主动降噪方法100的各个步骤/功能。以下仅对主动降噪装置300的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。
音频获取模块310,用于获取音频数据;
场景分类模块320,用于利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
模式选择模块330,用于根据所述分类结果选择主动降噪模式。
音频获取模块310可以包括设置在颈环式耳机的颈环和耳机处的若干个拾音器,由所述拾音器收集音频数据,并提取收集到的音频数据中的噪声。
根据本发明实施例,场景分类模块320配置为:对所述音频数据进行特征提取,以获得音频特征;将所述音频特征输入所述训练好的场景分类模型,以得到所述音频数据所处的场景类别。
在一个实施例中,所述场景类别包括复杂场景和非复杂场景,所述复杂场景的音频数据中包括有用音频和无用音频。
在一个实施例中,对所述音频数据进行特征提取的方式可以包括但不限于短时傅里叶变换(STFT)。示例性地,对所述音频数据进行特征提取所得到的音频特征可以包括频域幅度和/或能量信息。示例性地,对所述音频数据进行特征提取所得到的音频特征还可以包括频谱相位信息。示例性地,对所述音频数据进行特征提取所得到的音频特征也可以是时域特征。在其他示例中,对所述音频数据进行特征提取所得到的数据特征还可以包括任何其他可以表征所述音频数据的特征。
在一个实施例中,在对所述音频数据进行特征提取之前,可以先对其进行分帧处理,并且前述的特征提取针对分帧后得到所述音频数据逐帧进行,从而有效减少数据量,提高处理效率。
在一个实施例中,场景分类模块320所使用的场景分类模型的训练方法包括:对音频数据库中已经标注场景类别的原始音频数据进行特征提取,得到原始音频数据特征及其对应的类型特征;以及将所述原始音频数据特征及其对应的类型特征输入到深度神经网络中进行训练,以得到初始的场景分类模型。
示例性地,所述原始音频数据包括路面声音和/或高频次重复出现的声音。具体地,路面声音包括不同路面的车辆喇叭声、马达声、刹车声、轮胎等反应路况信息的音频。高频次重复出现的声音包括高频次重复出现的呼叫词、常用姓名、交谈环境等。对上述音频进行数据收集后录入到音频数据库中,并标注其音频样本数据。
示例性地,音频数据库中的原始音频数据的音频数据特征是通过人工或自动标注方式标注的音频数据的数据特征,包括且不限于音频波形中具有明显类别特色部分的特征;数据特征的提取方法包括且不限于FFT(Fast Fourier Transformation,快速傅里叶变换)、MFCC(Mel-Frequency Cepstral Coefficient,Mel频率倒谱系数)等。
示例性地,所述音频数据的特征提取包括对所述音频数据进行分帧后进行特征提取。示例性地,所述音频数据特征提取的方法包括FFT,STFT,MFCC,一帧或多帧时域波形或人工设计的其他特征中的至少一种。示例性地,所述音频数据特征提取包括时域或频域特征。
示例性地,所述场景分类模型的训练方法还包括基于深度神经网络,将所述音频样本数据特征作为输入,对应的类型特征作为输出训练得到初始的场景分类模型。初始的的场景分类模型能够初步分辨音频帧的场景类型。由于初始的场景分类模型是基于深度神经网络训练的,深度神经网络具有在原始数据数据基础上的场景记忆和学习能力,可以通过获取拓展数据不断进行学习拓展。
在一个实施例中,装置300还包括模型拓展模块,配置为对所述所述初始的场景分类模型进行学习拓展。具体地,在得到所述初始的场景分类模型之后,采集拓展音频数据,并收集所述拓展音频数据的相关音频数据;将所述拓展音频数据和所述拓展音频数据的相关音频数据输入到所述深度神经网络中进行训练,从而对所述初始的场景分类模型进行学习拓展,以得到训练好的场景分类模型。示例性地,当识别到新的复杂场景时,采集该复杂场景中的音频数据作为拓展音频数据,并录入所述拓展音频数据的相关音频数据,以拓展出该复杂场景中可能出现的音频的多种可能性,从而在原始音频数据的基础上进行学习拓展。
示例性地,所述拓展音频数据包括:路面声音和/或高频次重复出现的声音。具体地,录入首次出现的路面声音,并学习拓展可能出现的相关性路面声音;录入频繁出现的姓名,并学习拓展出相应的可能存在的小名、英文名、笔名等;录入不同环境中的高频呼叫词,并学习拓展出相应的可能存在的音色和频率;录入不同的交流场景,并学习拓展出相应的可能存在的交流场景等等。综上,将多种场景下的数据结合在一起对神经网络进行拓展学习,后续不断增加的拓展数据会对场景分类模型不断进行拓展,从而提升场景识别的准确性。
在一个实施例中,当所述场景类别为非复杂场景时,模式选择模块330采用普通降噪模式,当所述场景类别为复杂场景时,模式选择模块330采用复杂场景下的降噪模式。具体地,所述复杂场景下的降噪模式进一步包括:区分音频数据中的有用音频和无用音频;对无用音频进行主动降噪处理,对有用音频不进行主动降噪处理。可以通过训练好的分类模型对音频数据进行分类,以区分其中的有用音频和无用音频,例如路面声音和/或高频次重复出现的声音即为有用音频。所述普通降噪模式包括:对全部的噪音进行降噪。
示例性地,主动降噪处理包括基于训练好的滤波器进行主动降噪处理。其中,所述主动降噪滤波器的训练方法包括:测量设备外部到需进行主动降噪区域,如人耳佩戴处的,声道的传递函数,根据声道传递函数设置滤波器参数。设备采集设备外部的外部环境声音,声音被滤波器处理就能得到需进行主动降噪区域的环境声音的反相信号,反相用扬声器发射出去。设备外部环境声音到达需进行主动降噪区域,如人耳佩戴处,与被发射的反相声音叠加,使环境噪声去除或衰减。
根据本发明实施例的主动降噪装置通过根据场景类别自动切换降噪模式,可以避免主动降噪处理抵消路面声音所带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
根据本发明的另一方面,提供了一种耳机400。参考图4,图4示出了根据本发明的实施例的耳机400的示意性框图。耳机400可以为诸如蓝牙、WIFI耳机的无线耳机,也可以为有线耳机。
耳机400包括存储装置410以及处理器420。其中,存储装置410存储用于实现根据本发明实施例的主动降噪方法中的相应步骤的程序;处理器420用于运行存储装置410中存储的程序,以执行根据本发明实施例的主动降噪方法的相应步骤,并且用于实现根据本发明实施例的主动降噪装置中的相应模块。
根据本发明的另一方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的主动降噪方法的相应步骤,并且用于实现根据本发明实施例的主动降噪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的主动降噪装置的各个功能模块,并且/或者可以执行根据本发明实施例的主动降噪方法。
根据本发明实施例的主动降噪装置中的各模块可以通过根据本发明实施例的主动降噪的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
综上,本发明提供的主动降噪方法、装置、耳机及计算机存储介质根据场景类别选择降噪模式,从而避免了降噪带来的不安全性,并且避免了手动切换降噪模式的繁琐性。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种主动降噪方法,其特征在于,所述方法包括:
获取音频数据;
利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
根据所述分类结果选择主动降噪模式。
2.如权利要求1所述的主动降噪方法,其特征在于,所述场景分类模型的训练方法包括:
对音频数据库中已经标注场景类别的原始音频数据进行特征提取,得到原始音频数据特征及其对应的类型特征;
将所述原始音频数据特征及其对应的类型特征输入到深度神经网络中进行训练以得到初始的场景分类模型。
3.如权利要求2所述的主动降噪方法,其特征在于,所述场景分类模型的训练方法还包括:
在得到所述初始的场景分类模型之后,采集拓展音频数据,并收集所述拓展音频数据的相关音频数据;
将所述拓展音频数据和所述拓展音频数据的相关音频数据输入到所述深度神经网络中进行训练,从而对所述初始的场景分类模型进行学习拓展,以得到所述训练好的场景分类模型。
4.如权利要求3所述的主动降噪方法,其特征在于,所述原始音频数据和/或所述拓展音频数据包括:路面声音和/或高频次重复出现的声音。
5.如权利要求1所述的主动降噪方法,其特征在于,所述场景类别包括复杂场景和非复杂场景,所述根据所述分类结果选择降噪模式包括:
当所述场景类别为非复杂场景时,选择普通降噪模式,以对全部的噪音进行降噪;
当所述场景类别为复杂场景时,选择复杂场景下的降噪模式。
6.如权利要求5所述的主动降噪方法,其特征在于,所述复杂场景下的降噪模式包括:
区分所述音频数据中的有用音频和无用音频;
对所述无用音频进行主动降噪处理,对所述有用音频不进行主动降噪处理。
7.如权利要求1所述的主动降噪方法,其特征在于,所述利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果包括:
对所述音频数据进行特征提取,以获得音频特征;
将所述音频特征输入所述训练好的场景分类模型,以得到所述场景类别的分类结果。
8.一种主动降噪装置,其特征在于,包括:
音频获取模块,用于获取音频数据;
场景分类模块,用于利用训练好的场景分类模型判断所述音频数据所对应的场景类别,并输出场景类别的分类结果;以及
模式选择模块,用于根据所述分类结果选择主动降噪模式。
9.一种耳机,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN201811407883.2A 2018-11-23 2018-11-23 主动降噪方法、装置、耳机及计算机存储介质 Pending CN109346055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811407883.2A CN109346055A (zh) 2018-11-23 2018-11-23 主动降噪方法、装置、耳机及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811407883.2A CN109346055A (zh) 2018-11-23 2018-11-23 主动降噪方法、装置、耳机及计算机存储介质

Publications (1)

Publication Number Publication Date
CN109346055A true CN109346055A (zh) 2019-02-15

Family

ID=65317350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811407883.2A Pending CN109346055A (zh) 2018-11-23 2018-11-23 主动降噪方法、装置、耳机及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109346055A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110191388A (zh) * 2019-05-31 2019-08-30 深圳市荣盛智能装备有限公司 骨传导耳机降噪方法、装置、电子设备及存储介质
CN110809211A (zh) * 2020-01-08 2020-02-18 恒玄科技(北京)有限公司 对耳机主动降噪的方法、主动降噪***以及耳机
CN110972014A (zh) * 2019-12-11 2020-04-07 歌尔智能科技有限公司 一种有源降噪耳机的参数调整方法、装置及无线耳机
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质
US10834494B1 (en) 2019-12-13 2020-11-10 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
CN112767965A (zh) * 2019-11-01 2021-05-07 上海博泰悦臻电子设备制造有限公司 噪声识别模型的生成/应用方法、***、介质及服务/终端
CN112767908A (zh) * 2020-12-29 2021-05-07 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
WO2021114514A1 (en) * 2019-12-13 2021-06-17 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
CN113160789A (zh) * 2021-03-05 2021-07-23 南京每深智能科技有限责任公司 主动降噪装置及方法
CN113259824A (zh) * 2021-05-14 2021-08-13 谷芯(广州)技术有限公司 一种实时多通道数字助听器降噪方法和***
CN113810814A (zh) * 2021-08-17 2021-12-17 百度在线网络技术(北京)有限公司 耳机模式切换的控制方法及装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616662A (zh) * 2015-01-27 2015-05-13 中国科学院理化技术研究所 主动降噪方法及装置
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106572411A (zh) * 2016-09-29 2017-04-19 乐视控股(北京)有限公司 降噪控制方法及相关装置
US20180254033A1 (en) * 2016-11-01 2018-09-06 Davi Audio Smart Noise Reduction System and Method for Reducing Noise
CN108764304A (zh) * 2018-05-11 2018-11-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616662A (zh) * 2015-01-27 2015-05-13 中国科学院理化技术研究所 主动降噪方法及装置
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106572411A (zh) * 2016-09-29 2017-04-19 乐视控股(北京)有限公司 降噪控制方法及相关装置
US20180254033A1 (en) * 2016-11-01 2018-09-06 Davi Audio Smart Noise Reduction System and Method for Reducing Noise
CN108764304A (zh) * 2018-05-11 2018-11-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833895B (zh) * 2019-04-23 2023-12-05 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质
CN110191388A (zh) * 2019-05-31 2019-08-30 深圳市荣盛智能装备有限公司 骨传导耳机降噪方法、装置、电子设备及存储介质
CN112767965A (zh) * 2019-11-01 2021-05-07 上海博泰悦臻电子设备制造有限公司 噪声识别模型的生成/应用方法、***、介质及服务/终端
CN110972014A (zh) * 2019-12-11 2020-04-07 歌尔智能科技有限公司 一种有源降噪耳机的参数调整方法、装置及无线耳机
CN110972014B (zh) * 2019-12-11 2022-03-01 歌尔智能科技有限公司 一种有源降噪耳机的参数调整方法、装置及无线耳机
US11595748B2 (en) 2019-12-13 2023-02-28 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
US11653141B2 (en) 2019-12-13 2023-05-16 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
WO2021114514A1 (en) * 2019-12-13 2021-06-17 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
US11330359B2 (en) 2019-12-13 2022-05-10 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
US11317192B2 (en) 2019-12-13 2022-04-26 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
US10834494B1 (en) 2019-12-13 2020-11-10 Bestechnic (Shanghai) Co., Ltd. Active noise control headphones
CN111541971A (zh) * 2020-01-08 2020-08-14 恒玄科技(北京)有限公司 对耳机主动降噪的方法、主动降噪***以及耳机
CN110809211A (zh) * 2020-01-08 2020-02-18 恒玄科技(北京)有限公司 对耳机主动降噪的方法、主动降噪***以及耳机
CN112767908A (zh) * 2020-12-29 2021-05-07 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN112767908B (zh) * 2020-12-29 2024-05-21 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN113160789A (zh) * 2021-03-05 2021-07-23 南京每深智能科技有限责任公司 主动降噪装置及方法
CN113259824A (zh) * 2021-05-14 2021-08-13 谷芯(广州)技术有限公司 一种实时多通道数字助听器降噪方法和***
CN113810814A (zh) * 2021-08-17 2021-12-17 百度在线网络技术(北京)有限公司 耳机模式切换的控制方法及装置、电子设备和存储介质
CN113810814B (zh) * 2021-08-17 2023-12-01 百度在线网络技术(北京)有限公司 耳机模式切换的控制方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109346055A (zh) 主动降噪方法、装置、耳机及计算机存储介质
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
CN110246490A (zh) 语音关键词检测方法及相关装置
CN108597498A (zh) 一种多麦克风语音采集方法及装置
CN106486130A (zh) 噪声消除、语音识别方法及装置
CN109121057A (zh) 一种智能助听的方法及其***
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强***及方法
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN111385688A (zh) 一种基于深度学习的主动降噪方法、装置及***
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
CN106878535A (zh) 移动终端位置的提醒方法及装置
CN108847221A (zh) 语音识别方法、装置、存储介质及电子设备
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
CN109308900A (zh) 耳机装置、语音处理***和语音处理方法
CN110910876A (zh) 物品声寻装置及控制方法、语音控制设置方法和***
CN105701686A (zh) 一种声纹广告实现方法和装置
CN112382302A (zh) 婴儿哭声识别方法及终端设备
CN108833648A (zh) 智能终端保护壳
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
Nagatomo et al. Wearable SELD dataset: Dataset for sound event localization and detection using wearable devices around head
CN110718229A (zh) 录音回放攻击的检测方法及对应检测模型的训练方法
Diaconita et al. Do you hear what i hear? using acoustic probing to detect smartphone locations
US20230276165A1 (en) Audio signal processing method, terminal device and storage medium
CN109686359A (zh) 语音输出方法、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215