CN114333894A - 增益补偿方法及相关装置、设备、***和存储介质 - Google Patents
增益补偿方法及相关装置、设备、***和存储介质 Download PDFInfo
- Publication number
- CN114333894A CN114333894A CN202111407894.2A CN202111407894A CN114333894A CN 114333894 A CN114333894 A CN 114333894A CN 202111407894 A CN202111407894 A CN 202111407894A CN 114333894 A CN114333894 A CN 114333894A
- Authority
- CN
- China
- Prior art keywords
- audio
- energy intensity
- equipment
- gain compensation
- pickup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000007613 environmental effect Effects 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 230000001737 promoting effect Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种增益补偿方法及相关装置、设备、***和存储介质,其中,增益补偿方法包括:获取拾音设备在其使用场所下所采集的环境音频;替换环境音频中无效区段为预设频率的音频数据,得到待测音频;发送待测音频至声卡设备;其中,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。上述方案,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
Description
技术领域
本申请涉及音频处理技术领域,特别是涉及一种增益补偿方法及相关装置、设备、***和存储介质。
背景技术
音频在在诸多应用过程中通常需要进行增益处理,以提升后续应用该音频的效果。以语音识别为例,在拾音设备采集到用户语音之后,通过依次利用音频增益、语音识别等技术即可对用户语音进行识别,在多用户场景中,甚至可以区分不同说话人以在识别过程中实现角色分离,最终可以形成会话记录,以便后续存储、查阅、检索以及内部传播。
目前,拾音设备的增益补偿系数通常需要具有一定经验的调试人员在部署相关***时,通过人工分析手动进行调节。这种方式其复杂度、难度、成本均较高,且在部署完成之后,如在后续使用过程中需要调整,则还需专业人员进行现场调教,体验较差。有鉴于此,如何尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性,成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种增益补偿方法及相关装置、设备、***和存储介质,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
为了解决上述技术问题,本申请第一方面提供了一种增益补偿方法,包括:获取拾音设备在其使用场所下所采集的环境音频;替换环境音频中无效区段为预设频率的音频数据,得到待测音频;其中,无效区段中人声信号的能量强度不高于第一强度阈值;发送待测音频至声卡设备;其中,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。
为了解决上述技术问题,本申请第二方面提供了一种增益补偿方法,包括:接收来自各个拾音设备的待测音频;分别检测各个待测音频在预设频率上的第一能量强度;响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到反映拾音设备增益特性的第三能量强度;基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数;其中,拾音设备用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备,无效区段中人声信号的能量强度不高于第一强度阈值。
为了解决上述技术问题,本申请第三方面提供了一种增益补偿装置,包括:音频采集模块、音频替换模块和音频发送模块,音频采集模块,用于获取拾音设备在其使用场所下所采集的环境音频;音频替换模块,用于替换环境音频中无效区段为预设频率的音频数据,得到待测音频;其中,无效区段中人声信号的能量强度不高于第一强度阈值;音频发送模块,用于发送待测音频至声卡设备;其中,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。
为了解决上述技术问题,本申请第四方面提供了一种增益补偿装置,包括:音频接收模块、强度检测模块、强度分析模块和系数计算模块,音频接收模块,用于接收来自各个拾音设备的待测音频;强度检测模块,用于分别检测各个待测音频在预设频率上的第一能量强度;强度分析模块,用于响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到反映拾音设备增益特性的第三能量强度;系数计算模块,用于基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数;其中,拾音设备用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备,无效区段中人声信号的能量强度不高于第一强度阈值。
为了解决上述技术问题,本申请第五方面提供了一种拾音设备,包括麦克风阵列、存储器和处理器,麦克风阵列和存储器耦接至处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的增益补偿方法。
为了解决上述技术问题,本申请第六方面提供了一种声卡设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第二方面中的增益补偿方法。
为了解决上述技术问题,本申请第七方面提供了一种增益补偿系数,包括声卡设备和若干拾音设备,若干拾音设备分别连接至声卡设备;其中,拾音设备用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备,无效区段中人声信号的能量强度不高于第一强度阈值,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。
为了解决上述技术问题,本申请第八方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的增益补偿方法,或实现上述第二方面中的增益补偿方法。
上述方案,获取拾音设备在其使用场所下采集的环境音频,并替换环境音频中无效区段为预设频率的音频数据,得到待测音频,且无效区段中人声信号的能量强度不高于第一强度阈值,以及发送待测音频至声卡设备,且声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
附图说明
图1是本申请增益补偿方法一实施例的流程示意图;
图2是拾音设备的拾音方式一实施例的示意图;
图3是拾音设备一实施例的框架示意图;
图4是图1中步骤S12一实施例的流程示意图;
图5是音频替换一实施例的示意图;
图6是本申请增益补偿方法另一实施例的流程示意图;
图7是本申请增益补偿装置一实施例的框架示意图;
图8是本申请增益补偿装置另一实施例的框架示意图;
图9是本申请拾音设备一实施例的框架示意图;
图10是本申请声卡设备一实施例的框架示意图;
图11是本申请增益补偿***一实施例的框架示意图;
图12是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请增益补偿方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:获取拾音设备在其使用场所下所采集的环境音频。
在一个实施场景中,环境音频可以包括若干音频片段,音频片段的具体数量可以不做限定,如可以为10个、20个、30个等等;或者,在确定增益补偿系数的过程中,拾音设备可以持续进行音频采集,在此情况下,可以将一组一定数量(如,20个、30个等)的连续音频片段的片段集合,作为环境音频,在此基础上,再对其进行后续的替换、发送等操作,并持续采集以获取下一组片段集合,直至确定出各个拾音设备的增益补偿系数为止。
在一个实施场景中,为了便于后续操作,环境音频可以为数字信号,在此基础上再进行后续替换等操作,能够降低由于相邻拾音设备的模拟信号之间易出现串扰而发生增益不一致的可能性,有利于进一步提升增益补偿的一致性。
在一个实施场景中,为了提升环境音频的音频质量,以进一步提升确定增益补偿系数的准确性,拾音设备还可以包括阵列排布的若干麦克风。例如,拾音设备可以包括阵列排布的4个麦克风、6个麦克风、8个麦克风等,在此不做限定。在此基础上,可以将若干麦克风采集到的模拟音频转换为数字音频,并对各个麦克风对应的数字音频进行加窗,得到若干第一片段,以及利用波束形成对若干麦克风对应的第一片段进行融合处理,得到融合音频,且融合音频包括若干第二片段,再对融合片段进行噪声抑制,即可得到环境音频。上述方式,在若干麦克风分别采集到的模拟音频的基础上,进行数字采样、加窗处理、波束形成以及噪声抑制等一系列处理,能够有效抑制使用场所中环境噪声、周边人声等干扰,有利于提升环境音频的音频质量。
在一个具体的实施场景中,请结合参阅图2,图2是拾音设备的拾音方式一实施例的示意图。需要说明的是,图2所示为拾音过程中的俯视示意图。如图2所示,拾音设备可以放置于桌面,用户可以靠近于桌面侧边,实线箭头所形成的夹角表示拾音设备的拾音范围。当然,图2所示仅仅是实际应用过程中,拾音设备的一种可能的布置方式,并不因此而限定拾音设备的实际布置方式。
在一个具体的实施场景中,拾音设备可以设有CODEC(COder-DECoder,即编译码器)芯片,且CODEC芯片可以集成有ADC(Analog to Digital Converter,模数转换器)和DAC(Digitalto Analog Converter,模数转换器)。ADC用于将模拟信号转换为数字信号,而DAC用于将数字信号转换为模拟信号。此外,在模拟信号转换为数字信号的过程中,可以采用预设采样率进行数字采样,预设采样率可以包括但不限于:16kHz、32kHz等等,在此不做限定。以预设采样率设置为16kHz为例,表示每秒对模拟信号采样16000次。在预设采样率为其他数值时,可以以此类推,在此不再一一举例。
在一个具体的实施场景中,请结合参阅图3,图3是拾音设备一实施例的框架示意图。如图3所示,拾音设备可以包括麦克风、模数转换电路(ADC)、处理器(即CentralProcessing Unit,CPU)和数模转换电路(DAC)。其中,ADC的数量与麦克风的数量相同,以拾音设备包括4个麦克风为例,拾音设备对应也包含4个ADC,分别用于对麦克风采集到的模拟音频转换为数字音频。为了便于描述,4路麦克风分别采集到的模拟音频所转换得到的数字音频可以分别记为A1、A2、A3、A4。此外,ADC与CPU之间可以通过I2S接口连接,从而上述4路数字音频A1、A2、A3、A4可以通过I2S接口送往CPU进行处理。
在一个具体的实施场景中,可以采用窗函数对数字音频进行加窗,得到若干第一片段。具体地,窗函数可以根据实际应用需要进行设置,示例性地,窗函数的窗长可以设置为1024(即1024个采样点),窗高可以设置为1(即加窗后不改变数字音频的幅度),当然也可以根据需要设置其他窗函数,在此不做限定。为了便于描述,上述窗函数可以表示为:
通过诸如上述公式(1)所述的窗函数,能够将数字音频切分为一个个固定长度的第一片段进行后续处理,加窗之后的片段集合可以统称为A。在选择其他窗函数进行加窗处理的情况下,可以以此类推,在此不再一一举例。
在一个具体的实施场景中,如前所述,加窗之后的片段集合可以统称为A,则可以采用波束形成对A进行处理,以抑制波束外的干扰信号得到信号B,信号B即为融合音频,且融合音频所包含的第二片段的数量与每一路数字音频加窗之后的第一片段的数量相同。示例性地,每一路数字音频加窗之后可以得到N个第一片段,则可以采用波束形成对各路数字音频中第i个第一片段进行融合处理,以抑制波束外的干扰信号,并将多路信号融为一路,即可得到融合音频中第i个第二片段。需要说明的是,融合处理的具体过程,可以参阅波束形成的技术细节,在此不再赘述。
在一个具体的实施场景中,可以对信号B(即融合音频)进行环境噪声检测并抑制环境噪声,得到信号C(即环境音频)。需要说明的是,环境噪声检测以及抑制环境噪声的过程,并不改变音频片段的数量,即在检测与抑制之前、检测与抑制之后,音频片段的数量保持不变。此外,环境噪声检测以及环境噪声抑制的具体过程,可以参阅诸如最小均方自适应滤波器、递推最小二乘滤波器等技术细节,在此不再赘述。
步骤S12:替换环境音频中无效区段为预设频率的音频数据,得到待测音频。
本公开实施例中,无效区段中人声信号的能量强度不高于第一强度阈值,第一强度阈值具体可以根据实际应用需要进行设置。例如,在对增益补偿系数的准确性要求较高的情况下,第一强度阈值可以设置地适当小一些,如可以设置为0.5、0.4等,甚至还可以设置为0;或者,在对增益补偿系数的准确性要求相对宽松的情况下,第一强度阈值可以设置地适当大一些,如可以设置为0.7、0.8等等,在此不做限定。
在一个实施场景中,预设频率可以根据实际应用需要进行设置,如可以设置为1kHz、2kHz、3kHz等等,在此不做限定。此外,由于待测音频后续需发送至声卡设备进行处理,预设频率还可以根据声卡设备对各种频率的检测敏感性进行设置。例如,声卡设备对1kHz的检测敏感性较好,则可以将预设频率设置为1kHz。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于后续声卡设备处理,无效区段的持续时长可以不长于时长阈值。也就是说,环境音频中可以包含至少一个无效区段,且每个无效区段的持续时长均应不长于时长阈值。具体地,可以对环境音频进行人声信号检测,并将首次检测到人声信号不高于第一强度阈值的时刻,作为无效区段的开始时刻,并持续检测人声信号以及记录当前时刻至开始时刻的持续时长,若持续时长等于时长阈值时,人声信号仍不高于第一强度阈值,则可以直接将该时刻作为该无效区段的结束时刻,或者若持续时长小于时长阈值时,首次检测到人声信号高于第一强度阈值,则将首次检测到人声信号高于第一强度阈值的时刻,作为该无效区段的结束时刻。需要说明的是,时长阈值可以根据实际应用需要进行设置,例如,在对增益补偿系数的准确性要求较高而对增益补偿系数的确定速度要求相对宽松的情况下,时长阈值可以设置地适当大一些,或者,在对增益补偿系数的准确性要求和确定速度要求都较高的情况下,时长阈值可以设置地适中一些,或者,在对增益补偿系数的准确性要求相对宽松而对增益补偿系数的确定速度要求较高的情况下,时长阈值可以设置地适当小一些,时长阈值的具体数值在此不做限定。
在一个实施场景中,如前所述,环境音频可以包括若干音频片段,则无效区段中音频片段的个数不多于数量阈值。也就是说,环境音频中可以包括至少一个无效区段,且每个无效区段中所含音频片段均不多于数量阈值。需要说明的是,数量阈值可以根据实际应用需要进行设置,例如,在对增益补偿系数的准确性要求较高而对增益补偿系数的确定速度要求相对宽松的情况下,数量长阈值可以设置地适当大一些,或者,在对增益补偿系数的准确性要求和确定速度要求都较高的情况下,数量阈值可以设置地适中一些,或者,在对增益补偿系数的准确性要求相对宽松而对增益补偿系数的确定速度要求较高的情况下,数量阈值可以设置地适当小一些,时长阈值的具体数值在此不做限定。示例性地,为了平衡增益补偿系数的准确性要求和对增益补偿系数的确定速度要求,数量阈值可以设置为15、16、17等等,在此不做限定。替换音频的具体过程,可以参阅下述公开实施例中相关描述,在此暂不赘述。
在一个实施场景中,在替换环境音频中无效区段为预设频率的音频数据之前,还可以先检测当前状态是否满足第二条件,并响应于当前状态满足第二条件,替换环境音频中无效区段为音频数据,且当前状态包括当前时间,第二条件包括以下任一者:当前时间处于预设时段、当前时间距上一次执行本申请增益补偿方法实施例超出预设间隔。需要说明的是,为了尽可能地排除噪声干扰,以尽可能地提升增益补偿系数的准确性,预设时段可以设置为正常工作时段以外的时段(如,凌晨、休息日全天等);或者,为了使增益补偿系数始终保持在较为精准的状态,可以预设间隔就执行一次本申请增益补偿方法实施例,以更新拾音设备的增益补偿系数,预设间隔可以根据实际应用需要设置为1周、1个月、1个季度、半年、1年等,在此不做限定。上述方式,在替换音频之前,先检测当前状态是否满足第二条件,并在满足第二条件的情况下,进行音频替换,且当前状态包括当前时间,第二条件包括当前时间处于预设时段、当前时间距上一次执行增益补偿方法超出预设间隔中任一者,故能够尽可能地排除噪声干扰,以尽可能地提升增益补偿系数的准确性,使增益补偿系数始终保持在较为精准的状态。
在一个具体的实施场景中,当前状态还可以包括拾音设备的上电状态,第二条件可以包括:拾音设备从未上电状态切换为上电状态,也就是说,当检测到拾音设备从未上电状态切换为上电状态时,可以触发音频替换操作,以获取拾音设备的增益补偿系数,故上电之后即可自动获取拾音设备的增益补偿系数,有利于进一步提升自动性。
在一个具体的实施场景中,拾音设备还可以设置有触发键(如,按键、旋钮等),用户可以通过触发键(如,按下按键、拨动旋钮等)来触发替换音频操作。也就是说,当前状态还可以包括触发键的触发状态,第二条件可以包括:触发键处于被触发状态(如,前述按下按键、拨动旋钮等),故除了自动触发之外,还可以通过触发键手动触发音频替换,有利于提升自主性。
在一个具体的实施场景中,需要说明的是,在当前状态不满足第二条件的情况下,可以不执行替换环境音频中无效区段为预设频率的音频数据的步骤,也就是说,在当前状态不满足第二条件的情况下,即使环境音频中存在无效区段,也会不进行替换,从而能够在非预设时段,或在未到系数更新时间,或未切换上电状态,或触发键未被手动触发等情况下,拾音设备能够正常工作。
步骤S13:发送待测音频至声卡设备。
本公开实施例中,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数,具体过程可以参阅下述公开实施例,在此暂不赘述。
在一个实施场景中,如图3所示,拾音设备还可以包括DAC,且DAC与声卡设备连接,则在获取到待测音频之后,可以通过DAC将待测音频转换为模拟音频,并将其发送至声卡设备。
此外,相较于通过手动旋钮来调整增益而言,手动旋钮的步长越小,其增益可调范围也越小,而手动旋钮的步长越大,其放大系数也越大,导致误差也越大,故手动旋钮不可避免地存在适用场景受到约束、增益可调范围受限等问题。相较而言,本申请公开实施例无需手动旋钮即可自动计算出各个拾音设备的增益补偿系数,故不存在上述问题,有利于扩大增益可调范围,满足更多的场景需求。
上述方案,获取拾音设备在其使用场所下采集的环境音频,并替换环境音频中无效区段为预设频率的音频数据,得到待测音频,且无效区段中人声信号的能量强度不高于第一强度阈值,以及发送待测音频至声卡设备,且声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
请参阅图4,图4是图1中步骤S12一实施例的流程示意图。本公开实施例中,环境音频包括若干音频片段,且无效区段中音频片段的个数不多于数量阈值。具体而言,本公开实施例包括如下步骤:
步骤S41:将若干音频片段分别作为当前片段。
具体地,以环境音频包括N个音频片段为例,可以将第i个音频片段作为当前片段,且i可以从1开始取值直至i等于N为止。其他情况可以以此类推,在此不再一一举例。
步骤S42:检测当前片段中人声信号的能量强度,并从当前片段的前一音频片段开始统计连续被替换的音频片段的片段数量。
在一个实施场景中,可以通过诸如VAD(Voice Activity Detection,语音活动侦测)等方式对当前片段中人声信号进行检测。具体检测过程,可以参阅诸如VAD等检测方式的技术细节,在此不再赘述。
在一个实施场景中,如前所述,环境音频C可以为以预设采样率采样得到的数字信号,示例性地,以预设采样率为16kHz(即一分钟采样960000次)为例,则连续一分钟内人声信号的能量强度可以表示为:
上述公式(2)中,t表示各个时刻的采样点。类似地,在音频片段包含预设数值(如,1024)个采样点的情况下,上述公式(2)中C(t)可以替换为C’(t),且C’表示音频片段,上述公式(2)中定积分的上限取值可以替换为预设数值(如,1024)。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于描述,可以将当前片段在环境音频中的序位记为i,则可以从第i-1个音频片段开始往前统计连续被替换的音频片段的片段数量。示例性地,若第i-1个音频片段已被替换为预设频率的音频数据,但第i-2个音频片段未被替换为预设频率的音频数据,则片段数量可以记为1,若第i-1个音频片段和第i-2个音频片段均已被替换为预设频率的音频数据,但第i-3个音频片段未被替换为预设频率的音频数据,则片段数量可以记为2,其他情况可以以此类推,在此不再一一举例。
步骤S43:响应于当前片段中人声信号的能量强度满足强度条件且片段数量满足数量条件,将当前片段替换为音频数据。
本公开实施例中,强度条件包括人声信号的能量强度不高于第一强度阈值,数量条件包括片段数量少于数量阈值,第一强度阈值以及数量阈值的具体设置方式,可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,以数量阈值设置为16为例,若当前片段中人声信号的能量强度不高于第一强度阈值(如,0等)且片段数量少于16(如,15、14、13等等),则可以将当前片段替换为预设频率的音频数据。
在一个实施场景中,仍以数量阈值设置为16为例,若当前片段中人声信号的能量强度高于第一强度阈值(如,0等),则不管片段数量如何,都不将当前片段替换为预设频率的音频数据。
在一个实施场景中,仍以数量阈值设置为16为例,若当前片段中人声信号的能量强度不高于第一强度阈值(如,0等)且片段数量等于16,则可以认为已经完成一次完整的增益一致性自动补偿信号发送,且不将当前片段替换为预设频率的音频数据;或者,也可以将片段数量重置为0,再将当前片段替换为预设频率的音频数据之后,将片段数量更新为1,以开始新一轮的增益一致性自动补偿信号发送,直至片段数量再次更新为16。
在一个实施场景中,请结合参阅图5,图5是音频替换一实施例的示意图。如图5所示,当连续替换16个音频片段时,即可视为完成一次完整的增益一致性自动补偿信号发送,反之在连续替换的音频片段不足15个而出现当前片段中人声信号的能量强度不满足强度条件的情况时,当前片段可以不再进行音频替换,并将片段数量重置为0,以及等待下一次音频片段出现其中人声信号的能量强度满足强度条件,再将该音频片段替换为预设频率的音频数据,以及将片段数量更新为1,以此类推,在此不再一一举例。此外,如图5所示,音频片段为包含预设数值个(如,1024个)采样点的数字信号,替换无效区段中音频片段的音频数据也为包含预设数值个(如,1024个)采样点的数字信号。上述方式,音频片段为包含预设数值个采样点的数字信号,替换无效区段中音频片段的音频数据也为包含预设数值个采样点的数字信号,能够有利于提升后续确定增益补偿系数的准确性。
上述方案,将若干音频片段分别作为当前片段,并检测当前片段汇中人声信号的能量强度,以及从当前片段的前一音频片段开始统计连续被替换的音频片段的片段数量,在此基础上,响应于当前片段中人声信号的能量强度满足强度条件且片段数量满足数量条件,将当前片段替换为预设频率的音频数据,故能够在替换过程中,以音频片段为最小单位,逐一进行检测,并根据能量强度和片段数量两者共同决策是否进行替换,有利于提升音频替换的效率和准确性。
请参阅图6,图6是本申请增益补偿方法另一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S61:接收来自各个拾音设备的待测音频。
本公开实施例中,拾音设备用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备,无效区段中人声信号的能量强度不高于第一强度阈值,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S62:分别检测各个待测音频在预设频率上的第一能量强度。
在一个实施场景中,可以采用傅里叶变换将待测音频转换至频域,以在频域上获取预设频率上的第一能量强度。频域转换的具体过程,可以参阅傅里叶变换的技术细节,在此不再赘述。
在一个实施场景中,可以分别将各个拾音设备作为当前设备,并将来自当前设备的待测音频作为当前音频。以共包含4个拾音设备为例,可以分别将第一个拾音设备、第二个拾音设备、第三个拾音设备和第四个拾音设备作为当前设备。其他情况可以以此类推,在此不再一一举例。此外,如前述公开实施例所述,环境音频包括若干音频片段,无效区段中音频片段的个数不多于数量阈值,则在此基础上,可以再检测当前音频中各个音频片段在预设频率上的第一能量强度。
在一个具体的实施场景中,请结合参阅前述公开实施例以及图2所述,待测音频为数字信号,在发送至声卡设备之前通过拾音设备中DAC转换为模拟信号,则进一步地,声卡设备还可以包括ADC,则在接收到拾音设备发送的信号之后,可以先利用ADC转换为数字信号,再利用前述公开实施例中窗函数w(x)对数字信号进行加窗,在此基础上,再进行傅里叶变换。
在一个具体的实施场景中,以包含8路拾音设备为例,声卡设备可以同时拾取8路拾音设备输出的语音信号,送到声卡设备的ADC进行模数转换得到数字信号D1、D2、…、D8。首先对8个通道的信号D1、D2、…、D8加窗w(x),然后针对每一个通道信号Di进行快速傅立叶变化,从而得到信号的频域信息,最后监控每个通道的频域信息,得到各个音频片段在预设频率上的第一能量强度。
步骤S63:响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到反映拾音设备增益特性的第三能量强度。
在一个实施场景中,可以检测连续数量阈值个音频片段的第一能量强度是否均满足第一条件,若满足则可以将连续数量阈值个音频片段作为待分析区段,并基于待分析区段在预设频率上的第一能量强度和待分析区段整体的第二能量强度,得到反映当前设备增益特性的第三能量强度,且第一条件包括第一能量强度高于第二强度阈值。上述方式,响应于连续数量阈值个音频片段的第一能量强度均满足第一条件,将连续数量阈值个音频片段作为待分析区段,并基于待分析区段在预设频率上的第一能量强度和待分析区段整体的第二能量强度,得到反映当前设备增益特性的第三能量强度,且第一条件包括第一能量强度高于第二强度阈值,故声卡设备能够对应于拾音设备一侧发送一次完整的增益一致性自动补偿信号,实施一次增益补偿系数的确定,有利于提升增益一致性。
在一个具体的实施场景中,以数量阈值为16为例,可以检测是否存在连续16个音频片段在预设频率上的第一能量强度均高于第二强度阈值。此外,第二强度阈值可以根据实际应用需要进行设置,如在对增益补偿系数的准确性要求较高的情况下,第二强度阈值可以设置地稍大一些,或者,在对增益补偿系数的准确性要求相对宽松的情况下,第二强度阈值可以设置地适中一些,第二强度阈值的具体数值,在此不做限定。
在一个具体的实施场景中,为了进一步提升增益补偿系数的准确性,还可以对各个音频片段在非谐波频率上进行能量检测,得到音频片段在非谐波频率上的第四能量强度,在此基础上,可以检测连续数量阈值个音频片段的第一能量强度是否均满足第一条件且第四能量强度是否均满足第三条件,且第一条件包括第一能量强度高于第二强度阈值,第三条件包括第四能量强度低于第三强度阈值,若满足,则可以将连续数量阈值个音频片段作为待分析区段。需要说明的是,与第二强度阈值类似地,第三强度阈值也可以根据实际应用需要进行设置,如在对增益补偿系数的准确性要求较高的情况下,第三强度阈值可以设置地稍小一些,或者,在对增益补偿系数的准确性要求相对宽松的情况下,第三强度阈值可以设置地适中一些,第三强度阈值的具体数值,在此不做限定。
在一个具体的实施场景中,可以统计待分析区段的平均能量强度,作为待分析区段整体的第二能量强度。
在一个具体的实施场景中,可以将第一能量强度减去第二能量强度的差值,作为反映当前设备增益特性的第三能量强度。以第i个拾音设备为例,通过对来自第i个拾音设备的待测音频进行分析,可以检测得到该待测音频中连续数量阈值个音频片段的第一能量强度均满足第一条件的待分析区段,并获取该待分析区段在预设频率上的第一能量强度Vx减去该待分析区段整体的第二能量强度Dx,得到表征该拾音设备增益特性的第三能量强度。
在一个实施场景中,如前所述,可以检测连续数量阈值个音频片段的第一能量强度是否均满足第一条件,若当前音频中不存在连续数量阈值个音频片段的第一能量强度均满足第一条件,则可以重新执行上述重新执行接收来自各个拾音设备的待测音频的步骤以及后续步骤,直至得到反映当前设备增益特性的第三能量强度。上述方式,在当前音频中不存在连续数量阈值个音频片段的第一能量强度均满足第一条件的情况下,重新执行接收来自各个拾音设备的待测音频的步骤以及后续步骤,直至得到反映当前设备增益特性的第三能量强度,能够有利于提升增益补偿的鲁棒性。
在一个具体的实施场景中,若本次重新执行过程中获取到当前设备的第三能量强度且在本次重新执行之前已经获取到当前设备的第三能量强度,则可以将当前设备的第三能量强度更新为在本次重新执行过程中获取到的第三能量强度。上述方式,在获取各个拾音设备的第三能量强度的过程中,可以保持各个拾音设备的第三能量强度是最新获取到的,有利于提升增益补偿系数的准确性。
在一个具体的实施场景中,若本次重新执行过程中获取到当前设备的第三能量强度且在本次重新执行之前未曾获取到当前设备的第三能量强度,则可以将当前设备的第三能量强度设置为在本次重新执行过程中获取到的第三能量强度。
步骤S64:基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。
在一个实施场景中,第三能量强度与增益补偿系数为正相关关系,即第三能量强度越大,增益补偿系数越大,反之,第三能量强度越小,增益补偿系数越小,故能够放大有用信号,并抑制无关信号,有利于提升信号质量。
在一个具体的实施场景中,可以选择其中一个拾音设备的第三能量强度作为参考能量强度,并分别将各个拾音设备的第三能量强度与参考能量强度之间的比值,作为对应拾音设备的增益补偿系数。上述方式,通过简单数学运算即可求得各个拾音设备的增益补偿系数,能够有利于降低增益补偿系数计算的复杂度。
在一个具体的实施场景中,仍以包含8个拾音设备为例,当收集到8个拾音设备的第三能量强度I1、I2、……、I8之后,示例性地,可以以I1为参考能量强度计算各个拾音设备的增益补偿系数S1、S2、……、S8,具体可以表示为:
上述公式(3)中,i表示拾音设备的编号,其取值范围为1至8之间。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,在得到各个拾音设备的增益补偿系数之后,可以接收来自各个拾音设备的语音音频,并利用各个拾音设备的增益补偿系数分别对各个拾音设备的语音音频进行增益补偿,得到各个拾音设备的增益音频,以及基于各个拾音设备的增益音频,得到各个拾音设备的语音识别结果。上述方式,通过利用各个拾音设备的增益补偿系数分别对各个拾音设备的语音音频进行增益补偿,在此基础上再进行语音识别,有利于提升语音识别以及角色区分的准确性。
在一个具体的实施场景中,语音识别结果可以包括识别文本以及识别角色,即语音音频对应的文本以及说出该语音音频的角色(人物)。此外,在此基础上,还可以基于语音识别结果,形成会话记录。进一步地,为了提升识别准确性,可以将增益音频发送至服务器进行识别。
在一个具体的实施场景中,仍以包含8个拾音设备为例,8路语音音频可以分别记为D1、D2、……、D8,则各个拾音设备对应的增益音频可以表示为:
Ei=Di×Si……(4)
上述公式(4)中,i表示拾音设备的编号,其取值范围为1至8之间,Ei表示第i个拾音设备对应的增益音频。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
请参阅图7,图7是本申请增益补偿装置70一实施例的框架示意图。增益补偿装置70包括:音频采集模块71、音频替换模块72和音频发送模块73,音频采集模块71,用于获取拾音设备在其使用场所下所采集的环境音频;音频替换模块72,用于替换环境音频中无效区段为预设频率的音频数据,得到待测音频;其中,无效区段中人声信号的能量强度不高于第一强度阈值;音频发送模块73,用于发送待测音频至声卡设备;其中,声卡设备用于检测来自各个拾音设备的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备增益特性的第三能量强度,以及基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
在一些公开实施例中,环境音频包括若干音频片段,无效区段中音频片段的个数不多于数量阈值。
因此,环境音频包括若干音频片段,且无效区段中音频片段的个数不多于数量阈值,能够通过数量阈值平衡增益补偿系数的准确性要求和对增益补偿系数的确定速度要求。
在一些公开实施例中,音频替换模块72包括片段选择子模块,用于将若干音频片段分别作为当前片段;音频替换模块72包括人声检测子模块,用于检测当前片段中人声信号的能量强度,音频替换模块72包括片段统计子模块,用于从当前片段的前一音频片段开始统计连续被替换的音频片段的片段数量;音频替换模块72包括片段替换子模块,用于响应于当前片段中人声信号的能量强度满足强度条件且片段数量满足数量条件,将当前片段替换为音频数据;其中,强度条件包括人声信号的能量强度不高于第一强度阈值,数量条件包括片段数量少于数量阈值。
因此,将若干音频片段分别作为当前片段,并检测当前片段汇中人声信号的能量强度,以及从当前片段的前一音频片段开始统计连续被替换的音频片段的片段数量,在此基础上,响应于当前片段中人声信号的能量强度满足强度条件且片段数量满足数量条件,将当前片段替换为预设频率的音频数据,故能够在替换过程中,以音频片段为最小单位,逐一进行检测,并根据能量强度和片段数量两者共同决策是否进行替换,有利于提升音频替换的效率和准确性。
在一些公开实施例中,音频片段为包含预设数值个采样点的数字信号,替换无效区段中音频片段的音频数据也为包含预设数值个采样点的数字信号。
因此,音频片段为包含预设数值个采样点的数字信号,替换无效区段中音频片段的音频数据也为包含预设数值个采样点的数字信号,能够有利于提升后续确定增益补偿系数的准确性。
在一些公开实施例中,增益补偿装置70还可以包括状态检测模块,用于检测当前状态是否满足第二条件;音频替换模块72具体用于响应于当前状态满足第二条件,替换环境音频中无效区段为音频数据;其中,当前状态包括当前时间,第二条件包括以下任一者:当前时间处于预设时段、当前时间距上一次执行增益补偿方法超出预设间隔。
因此,在替换音频之前,先检测当前状态是否满足第二条件,并在满足第二条件的情况下,进行音频替换,且当前状态包括当前时间,第二条件包括当前时间处于预设时段、当前时间距上一次执行增益补偿方法超出预设间隔中任一者,故能够尽可能地排除噪声干扰,以尽可能地提升增益补偿系数的准确性,使增益补偿系数始终保持在较为精准的状态。
在一些公开实施例中,拾音设备包括阵列排布的若干麦克风,且环境音频包括若干音频片段,音频采集模块71包括模数转换子模块,用于分别将若干麦克风采集到的模拟音频转换为数字音频;音频采集模块71包括加窗处理子模块,用于对各个麦克风对应的数字音频进行加窗,得到若干第一片段;音频采集模块71包括波束形成子模块,用于利用波束形成对若干麦克风对应的第一片段进行融合处理,得到融合音频;其中,融合音频包括若干第二片段;音频采集模块71包括噪声抑制子模块,用于对融合音频进行噪声抑制,得到环境音频。
因此,在若干麦克风分别采集到的模拟音频的基础上,进行数字采样、加窗处理、波束形成以及噪声抑制等一系列处理,能够有效抑制使用场所中环境噪声、周边人声等干扰,有利于提升环境音频的音频质量。
请参阅图8,图8是本申请增益补偿装置80一实施例的框架示意图。增益补偿装置80包括:音频接收模块81、强度检测模块82、强度分析模块83和系数计算模块84,音频接收模块81,用于接收来自各个拾音设备的待测音频;强度检测模块82,用于分别检测各个待测音频在预设频率上的第一能量强度;强度分析模块83,用于响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到反映拾音设备增益特性的第三能量强度;系数计算模块84,用于基于各个拾音设备的第三能量强度,得到各个拾音设备的增益补偿系数;其中,拾音设备用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备,无效区段中人声信号的能量强度不高于第一强度阈值。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
在一些公开实施例中,环境音频包括若干音频片段,无效区段中音频片段的个数不多于数量阈值,强度检测模块82包括设备选择子模块,用于将各个拾音设备分别作为当前设备,并将来自当前设备的待测音频作为当前音频;强度检测模块82包括强度检测子模块,用于检测当前音频中各个音频片段在预设频率上的第一能量强度;强度分析模块83包括区段确定子模块,用于响应于连续数量阈值个音频片段的第一能量强度均满足第一条件,将连续数量阈值个音频片段作为待分析区段;强度分析模块83包括强度计算子模块,用于基于待分析区段在预设频率上的第一能量强度和待分析区段整体的第二能量强度,得到反映当前设备增益特性的第三能量强度;其中,第一条件包括第一能量强度高于第二强度阈值。
因此,响应于连续数量阈值个音频片段的第一能量强度均满足第一条件,将连续数量阈值个音频片段作为待分析区段,并基于待分析区段在预设频率上的第一能量强度和待分析区段整体的第二能量强度,得到反映当前设备增益特性的第三能量强度,且第一条件包括第一能量强度高于第二强度阈值,故声卡设备能够对应于拾音设备一侧发送一次完整的增益一致性自动补偿信号,实施一次增益补偿系数的确定,有利于提升增益一致性。
在一些公开实施例中,增益补偿装置80还包括循环执行模块,用于响应于当前音频中不存在连续数量阈值个音频片段的第一能量强度均满足第一条件,结合前述音频接收模块81、强度检测模块82和强度分析模块83重新执行接收来自各个拾音设备的待测音频的步骤以及后续步骤,直至得到反映当前设备增益特性的第三能量强度。
因此,在当前音频中不存在连续数量阈值个音频片段的第一能量强度均满足第一条件的情况下,重新执行接收来自各个拾音设备的待测音频的步骤以及后续步骤,直至得到反映当前设备增益特性的第三能量强度,能够有利于提升增益补偿的鲁棒性。
在一些公开实施例中,增益补偿装置80还包括强度更新模块,用于响应于在本次重新执行过程中获取到当前设备的第三能量强度且在本次重新执行之前已经获取到当前设备的第三能量强度,将当前设备的第三能量强度更新为在本次重新执行过程中获取到的第三能量强度。
因此,在获取各个拾音设备的第三能量强度的过程中,可以保持各个拾音设备的第三能量强度是最新获取到的,有利于提升增益补偿系数的准确性。
在一些公开实施例中,第三能量强度与增益补偿系数正相关。
因此,能够放大有用信号,并抑制无关信号,有利于提升信号质量。
在一些公开实施例中,系数计算模块84包括强度选择子模块,用于选择其中一个拾音设备的第三能量强度作为参考能量强度;系数计算模块84包括强度比值子模块,用于分别将各个拾音设备的第三能量强度与参考能量强度之间的比值,作为对应拾音设备的增益补偿系数。
因此,通过简单数学运算即可求得各个拾音设备的增益补偿系数,能够有利于降低增益补偿系数计算的复杂度。
在一些公开实施例中,增益补偿装置80还包括语音接收模块,用于接收来自各个拾音设备的语音音频;增益补偿装置80还包括语音增益模块,用于利用各个拾音设备的增益补偿系数分别对各个拾音设备的语音音频进行增益补偿,得到各个拾音设备的增益音频;增益补偿装置80还包括语音识别模块,用于基于各个拾音设备的增益音频,得到各个拾音设备的语音识别结果。
因此,通过利用各个拾音设备的增益补偿系数分别对各个拾音设备的语音音频进行增益补偿,在此基础上再进行语音识别,有利于提升语音识别以及角色区分的准确性。
请参阅图9,图9是本申请拾音设备90一实施例的框架示意图。拾音设备90包括麦克风阵列91、存储器92和处理器93,麦克风阵列91和存储器92耦接至处理器93,存储器92中存储有程序指令,处理器93用于执行程序指令以实现上述增益补偿方法实施例中的步骤。
具体而言,处理器93用于控制其自身以及麦克风阵列91、存储器92以实现上述增益补偿方法实施例中的步骤。处理器93还可以称为CPU(Central Processing Unit,中央处理单元)。处理器93可能是一种集成电路芯片,具有信号的处理能力。处理器93还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器93可以由集成电路芯片共同实现。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
在一些公开实施例中,拾音设备90还包括模数转换器(未图示)和数模转换器(未图示),模数转换器的输入端与麦克风阵列91连接,模数转换器的输出端与处理器93的输入端连接,数模转换器的输入端与处理器93的输出端连接,且数模转换器的输出端用于与声卡设备连接。具体可以结合参阅图2以及前述公开实施例中相关描述,在此不再赘述。
请参阅图10,图10是本申请声卡设备100一实施例的框架示意图。声卡设备100包括相互耦接的存储器101和处理器102,存储器101中存储有程序指令,处理器102用于执行程序指令以实现上述增益补偿方法实施例中的步骤。
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一体况评分方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
请参阅图11,图11是本申请增益补偿***110一实施例的框架示意图。增益补偿***110包括声卡设备111和若干拾音设备112,且若干拾音设备112分别连接至声卡设备111。需要说明的是,拾音设备112用于替换在其使用场所下采集的环境音频中无效区段为预设频率的音频数据得到待测音频,并发送待测音频至声卡设备111,无效区段中人声信号的能量强度不高于第一强度阈值,声卡设备111用于检测来自各个拾音设备112的待测音频在预设频率上的第一能量强度,并响应于第一能量强度满足第一条件,基于第一能量强度与待测音频的第二能量强度,得到用于反映拾音设备112增益特性的第三能量强度,以及基于各个拾音设备112的第三能量强度,得到各个拾音设备112的增益补偿系数。此外,声卡设备111和拾音设备112在增益补偿过程中分别所执行的步骤,可以分别参阅前述公开实施例中相关描述,在此不再赘述。此外,如图11以及前述公开实施例所述,为了实现语音识别以及角色区分,声卡设备111还可以与服务器连接,以通过服务器实现语音识别以及角色区分,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
请参阅图12,图12是本申请计算机可读存储介质120一实施例的框架示意图。计算机可读存储介质120存储有能够被处理器运行的程序指令121,程序指令121用于实现上述任一增益补偿方法实施例中的步骤。
上述方案,一方面无需人工参与即可自动完成增益补偿系数的确定,有利于降低确定增益补偿系数的复杂度、难度和成本,且有利于提升用户体验,另一方面由于各个拾音设备均采用相同方式进行音频替换,且在拾音设备的待测音频在预设频率上的第一能量强度满足一定条件的情况下,声卡设备均采用相同方式对各个拾音设备进行系数分析,有利于提升增益补偿的一致性。故此,能够尽可能地减少增益补偿系数确定过程中人工参与度,并尽可能地提升增益补偿系数的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (20)
1.一种增益补偿方法,其特征在于,包括:
获取拾音设备在其使用场所下所采集的环境音频;
替换所述环境音频中无效区段为预设频率的音频数据,得到待测音频;其中,所述无效区段中人声信号的能量强度不高于第一强度阈值;
发送所述待测音频至声卡设备;其中,所述声卡设备用于检测来自各个所述拾音设备的待测音频在所述预设频率上的第一能量强度,并响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到用于反映所述拾音设备增益特性的第三能量强度,以及基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数。
2.根据权利要求1所述的方法,其特征在于,所述环境音频包括若干音频片段,所述无效区段中所述音频片段的个数不多于数量阈值。
3.根据权利要求2所述的方法,其特征在于,所述替换所述环境音频中无效区段为预设频率的音频数据,得到待测音频,包括:
将所述若干音频片段分别作为当前片段;
检测所述当前片段中人声信号的能量强度,并从所述当前片段的前一所述音频片段开始统计连续被替换的音频片段的片段数量;
响应于所述当前片段中人声信号的能量强度满足强度条件且所述片段数量满足数量条件,将所述当前片段替换为所述音频数据;
其中,所述强度条件包括所述人声信号的能量强度不高于所述第一强度阈值,所述数量条件包括所述片段数量少于所述数量阈值。
4.根据权利要求2所述的方法,其特征在于,所述音频片段为包含预设数值个采样点的数字信号,替换所述无效区段中所述音频片段的音频数据也为包含所述预设数值个所述采样点的数字信号。
5.根据权利要求1所述的方法,其特征在于,在所述替换所述环境音频中无效区段为预设频率的音频数据之前,所述方法还包括:
检测当前状态是否满足第二条件;
响应于所述当前状态满足所述第二条件,替换所述环境音频中所述无效区段为所述音频数据;
其中,所述当前状态包括当前时间,所述第二条件包括以下任一者:所述当前时间处于预设时段、所述当前时间距上一次执行所述增益补偿方法超出预设间隔。
6.根据权利要求1所述的方法,其特征在于,所述拾音设备包括阵列排布的若干麦克风,且所述环境音频包括若干音频片段,所述获取拾音设备在其使用场所下所采集的环境音频,包括:
分别将所述若干麦克风采集到的模拟音频转换为数字音频;
对各个所述麦克风对应的数字音频进行加窗,得到若干第一片段;
利用波束形成对所述若干麦克风对应的第一片段进行融合处理,得到融合音频;其中,所述融合音频包括若干第二片段;
对所述融合音频进行噪声抑制,得到所述环境音频。
7.一种增益补偿方法,其特征在于,包括:
接收来自各个拾音设备的待测音频;
分别检测各个所述待测音频在预设频率上的第一能量强度;
响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到反映所述拾音设备增益特性的第三能量强度;
基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数;
其中,所述拾音设备用于替换在其使用场所下采集的环境音频中无效区段为所述预设频率的音频数据得到待测音频,并发送所述待测音频至声卡设备,所述无效区段中人声信号的能量强度不高于第一强度阈值。
8.根据权利要求7所述的方法,其特征在于,所述环境音频包括若干音频片段,所述无效区段中所述音频片段的个数不多于数量阈值,所述分别检测各个所述待测音频在预设频率上的第一能量强度,包括:
将各个所述拾音设备分别作为当前设备,并将来自所述当前设备的待测音频作为当前音频;
检测所述当前音频中各个所述音频片段在所述预设频率上的第一能量强度;
所述响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到反映所述拾音设备增益特性的第三能量强度,包括:
响应于连续所述数量阈值个所述音频片段的第一能量强度均满足所述第一条件,将连续所述数量阈值个所述音频片段作为待分析区段;
基于所述待分析区段在所述预设频率上的第一能量强度和所述待分析区段整体的第二能量强度,得到反映所述当前设备增益特性的第三能量强度;
其中,所述第一条件包括所述第一能量强度高于第二强度阈值。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于所述当前音频中不存在连续所述数量阈值个所述音频片段的第一能量强度均满足所述第一条件,重新执行所述接收来自各个拾音设备的待测音频的步骤以及后续步骤,直至得到反映所述当前设备增益特性的第三能量强度。
10.根据权利要求9所述的方法,其特征在于,在每一次所述重新执行过程中,所述方法还包括:
响应于在本次所述重新执行过程中获取到所述当前设备的第三能量强度且在本次所述重新执行之前已经获取到所述当前设备的第三能量强度,将所述当前设备的第三能量强度更新为在本次所述重新执行过程中获取到的第三能量强度。
11.根据权利要求7所述的方法,其特征在于,所述第三能量强度与所述增益补偿系数正相关。
12.根据权利要求8所述的方法,其特征在于,所述基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数,包括:
选择其中一个所述拾音设备的第三能量强度作为参考能量强度;
分别将各个所述拾音设备的第三能量强度与所述参考能量强度之间的比值,作为对应所述拾音设备的增益补偿系数。
13.根据权利要求7所述的方法,其特征在于,在所述基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数之后,所述方法还包括:
接收来自各个所述拾音设备的语音音频;
利用各个所述拾音设备的增益补偿系数分别对各个拾音设备的语音音频进行增益补偿,得到各个所述拾音设备的增益音频;
基于各个所述拾音设备的增益音频,得到各个所述拾音设备的语音识别结果。
14.一种增益补偿装置,其特征在于,包括:
音频采集模块,用于获取拾音设备在其使用场所下所采集的环境音频;
音频替换模块,用于替换所述环境音频中无效区段为预设频率的音频数据,得到待测音频;其中,所述无效区段中人声信号的能量强度不高于第一强度阈值;
音频发送模块,用于发送所述待测音频至声卡设备;其中,所述声卡设备用于检测来自各个所述拾音设备的待测音频在所述预设频率上的第一能量强度,并响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到用于反映所述拾音设备增益特性的第三能量强度,以及基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数。
15.一种增益补偿装置,其特征在于,包括:
音频接收模块,用于接收来自各个拾音设备的待测音频;
强度检测模块,用于分别检测各个所述待测音频在预设频率上的第一能量强度;
强度分析模块,用于响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到反映所述拾音设备增益特性的第三能量强度;
系数计算模块,用于基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数;
其中,所述拾音设备用于替换在其使用场所下采集的环境音频中无效区段为所述预设频率的音频数据得到待测音频,并发送所述待测音频至声卡设备,所述无效区段中人声信号的能量强度不高于第一强度阈值。
16.一种拾音设备,其特征在于,包括麦克风阵列、存储器和处理器,所述麦克风阵列和所述存储器耦接至所述处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至6任一项所述的增益补偿方法。
17.根据权利要求16所述的设备,其特征在于,所述拾音设备还包括模数转换器和数模转换器,所述模数转换器的输入端与所述麦克风阵列连接,所述模数转换器的输出端与所述处理器的输入端连接,所述数模转换器的输入端与所述处理器的输出端连接,且所述数模转换器的输出端用于与声卡设备连接。
18.一种声卡设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求7至13任一项所述的增益补偿方法。
19.一种增益补偿***,其特征在于,包括声卡设备和若干拾音设备,所述若干拾音设备分别连接至所述声卡设备;
其中,所述拾音设备用于替换在其使用场所下采集的环境音频中无效区段为所述预设频率的音频数据得到待测音频,并发送所述待测音频至声卡设备,所述无效区段中人声信号的能量强度不高于第一强度阈值,所述声卡设备用于检测来自各个所述拾音设备的待测音频在所述预设频率上的第一能量强度,并响应于所述第一能量强度满足第一条件,基于所述第一能量强度与所述待测音频的第二能量强度,得到用于反映所述拾音设备增益特性的第三能量强度,以及基于各个所述拾音设备的第三能量强度,得到各个所述拾音设备的增益补偿系数。
20.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至13任一项所述的增益补偿方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111407894.2A CN114333894A (zh) | 2021-11-19 | 2021-11-19 | 增益补偿方法及相关装置、设备、***和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111407894.2A CN114333894A (zh) | 2021-11-19 | 2021-11-19 | 增益补偿方法及相关装置、设备、***和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333894A true CN114333894A (zh) | 2022-04-12 |
Family
ID=81046006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111407894.2A Pending CN114333894A (zh) | 2021-11-19 | 2021-11-19 | 增益补偿方法及相关装置、设备、***和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333894A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486833A (zh) * | 2023-06-21 | 2023-07-25 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN103915103A (zh) * | 2014-04-15 | 2014-07-09 | 成都凌天科创信息技术有限责任公司 | 语音质量增强*** |
CN107274907A (zh) * | 2017-07-03 | 2017-10-20 | 北京小鱼在家科技有限公司 | 双麦克风设备上实现指向性拾音的方法和装置 |
CN110349595A (zh) * | 2019-07-22 | 2019-10-18 | 浙江大华技术股份有限公司 | 一种音频信号自动增益控制方法、控制设备及存储介质 |
CN111405416A (zh) * | 2020-03-20 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 立体声录制方法、电子设备及存储介质 |
WO2021114953A1 (zh) * | 2019-12-12 | 2021-06-17 | 华为技术有限公司 | 语音信号的采集方法、装置、电子设备以及存储介质 |
CN113345469A (zh) * | 2021-05-24 | 2021-09-03 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-19 CN CN202111407894.2A patent/CN114333894A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN103915103A (zh) * | 2014-04-15 | 2014-07-09 | 成都凌天科创信息技术有限责任公司 | 语音质量增强*** |
CN107274907A (zh) * | 2017-07-03 | 2017-10-20 | 北京小鱼在家科技有限公司 | 双麦克风设备上实现指向性拾音的方法和装置 |
CN110349595A (zh) * | 2019-07-22 | 2019-10-18 | 浙江大华技术股份有限公司 | 一种音频信号自动增益控制方法、控制设备及存储介质 |
WO2021114953A1 (zh) * | 2019-12-12 | 2021-06-17 | 华为技术有限公司 | 语音信号的采集方法、装置、电子设备以及存储介质 |
CN112992169A (zh) * | 2019-12-12 | 2021-06-18 | 华为技术有限公司 | 语音信号的采集方法、装置、电子设备以及存储介质 |
CN111405416A (zh) * | 2020-03-20 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 立体声录制方法、电子设备及存储介质 |
CN113345469A (zh) * | 2021-05-24 | 2021-09-03 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486833A (zh) * | 2023-06-21 | 2023-07-25 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
CN116486833B (zh) * | 2023-06-21 | 2023-09-22 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US7968786B2 (en) | Volume adjusting apparatus and volume adjusting method | |
CN113766073B (zh) | 会议***中的啸叫检测 | |
DK2306457T3 (en) | Automatic audio recognition based on binary time frequency units | |
JP2019191558A (ja) | 音声を増幅する方法及び装置 | |
CN112767963A (zh) | 一种语音增强方法、装置、***及计算机可读存储介质 | |
CN102543095A (zh) | 用于减少音频处理算法中的非自然信号的方法和装置 | |
CN114333894A (zh) | 增益补偿方法及相关装置、设备、***和存储介质 | |
JP6182895B2 (ja) | 処理装置、処理方法、プログラム及び処理システム | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
US20240127843A1 (en) | Processing and utilizing audio signals according to activation selections | |
CN112151055B (zh) | 音频处理方法及装置 | |
US20220254332A1 (en) | Method and apparatus for normalizing features extracted from audio data for signal recognition or modification | |
CN111105811B (zh) | 声音信号的处理方法、相关设备及可读存储介质 | |
US7424119B2 (en) | Voice matching system for audio transducers | |
CN112235679B (zh) | 适用于耳机的信号均衡方法、处理器及耳机 | |
CN115798493A (zh) | 降噪方法、降噪装置和执法记录仪 | |
CN104581538A (zh) | 消除噪音的方法和装置 | |
KR101952577B1 (ko) | 음성인식 기법을 이용한 전관방송시스템 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN112735455A (zh) | 声音信息的处理方法和装置 | |
KR19980037008A (ko) | 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법 | |
JP2859634B2 (ja) | 雑音除去装置 | |
JP4856559B2 (ja) | 受信音声再生装置 | |
CN117476032A (zh) | 音频处理方法及装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |