CN112634925A - 一种音频调试的方法、装置及计算机设备 - Google Patents
一种音频调试的方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112634925A CN112634925A CN202110243029.2A CN202110243029A CN112634925A CN 112634925 A CN112634925 A CN 112634925A CN 202110243029 A CN202110243029 A CN 202110243029A CN 112634925 A CN112634925 A CN 112634925A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio frame
- echo
- frame
- debugging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000001629 suppression Effects 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 230000003044 adaptive effect Effects 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种音频调试的方法、装置及计算机设备,用于解决音频调试效率低且准确性较差的问题。该方法包括:接收麦克风采集的初始音频,并将初始音频进行拆帧处理,获得音频帧序列;按照帧顺序确定音频帧序列中第一音频帧,并对第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;对处理后的音频帧进行回声残留检测,确定处理后的音频帧的回声残留值以及与麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;若均大于对应的预设阈值,则获取目标音频;其中,目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
Description
本申请要求在2020年11月10日提交中国专利局、申请号为202011249609.4、申请名称为“一种音频调试的方法、装置及计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及语音通讯技术领域,尤其涉及一种音频调试的方法、装置及计算机设备。
背景技术
目前,通过网络视频或者是电话的方式进行会议沟通,逐渐成为新的会议沟通方式。
在网络视频会议或电话会议中,与会各方都需要麦克风设备和扬声器设备,由于每个会场都支持多人同时开会,因此必须采用远场拾音麦克风和声音外放功能,而这样的设置方式,会导致另一方会议声音被扬声器播放后,可能会被本方会场的麦克风回采,而回采声音的幅度高低、是否破音直接影响到回声消除性能。
针对上述回采声音的处理,现有技术中的技术方案为:将采集声音的硬件设备的增益固定,且需要经验丰富的技术人员现场调试播放增益,这样的方式,不仅操作过程繁琐,且人工调整后无法快速获取到回采信号是否破音失真。可见,现有技术中对音频调试的效率较低且准确性较差。
发明内容
本发明实施例提供一种音频调试的方法、装置及计算机设备,用于解决现有技术中对音频调试的效率较低且准确性较差的技术问题。
第一方面,提供一种音频调试的方法,所述方法包括:
接收麦克风采集的初始音频,并将所述初始音频进行拆帧处理,获得音频帧序列,其中,所述音频帧序列包括按照帧顺序排列的多帧音频帧;
按照所述帧顺序确定所述音频帧序列中第一音频帧,并对所述第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;
若均大于对应的预设阈值,则获取目标音频;其中,所述目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
在一种可能的实施方式中,对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值,包括:
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值是否大于所述对应的预设阈值中的第一阈值;
若所述回声残留值大于所述第一阈值,则确定与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于所述对应的预设阈值中第二阈值,若大于,则执行播放增益调试操作。
在一种可能的实施方式中,所述方法还包括:
若所述播放数字音量小于或等于所述第二阈值,则确定所述处理后的音频帧在采集时麦克风的采集数字音量;
若所述采集数字音量大于第三阈值,则执行采集增益调试操作,并获取采集增益调试操作后的第一目标音频;其中,所述第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述方法还包括:
若所述采集数字音量小于或等于所述第三阈值,则执行调试非线性回声抑制等级操作;
获取非线性回声抑制等级操作后的第二目标音频;其中,所述第二目标音频中的第四音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述第一音频帧为所述音频帧序列中按照先后顺序确定的第一顺位,且未经过自适应滤波处理的音频帧。
第二方面,提供一种音频调试的装置,所述装置包括:
第一处理模块,用于接收麦克风采集的初始音频,并将所述初始音频进行拆帧处理,获得音频帧序列,其中,所述音频帧序列包括按照帧顺序排列的多帧音频帧;
第二处理模块,用于按照所述帧顺序确定所述音频帧序列中第一音频帧,并对所述第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;
调试模块,用于对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;
获取模块,用于若均大于对应的预设阈值,则获取目标音频;其中,所述目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
在一种可能的实施方式中,所述调试模块用于:
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值是否大于所述对应的预设阈值中的第一阈值;
若所述回声残留值大于所述第一阈值,则确定与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于所述对应的预设阈值中第二阈值,若大于,则执行播放增益调试操作。
在一种可能的实施方式中,所述调试模块还用于:
若所述播放数字音量小于或等于所述第二阈值,则确定所述处理后的音频帧在采集时所述麦克风的采集数字音量;
若所述采集数字音量大于第三阈值,则执行采集增益调试操作;
所述获取模块,还用于:
获取采集增益调试操作后的第一目标音频;其中,所述第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述调试模块还用于:
若所述采集数字音量小于或等于所述第三阈值,则执行调整非线性回声抑制等级操作;
所述获取模块还用于:
获取非线性回声抑制等级操作后的第二目标音频;其中,所述第二目标音频中的第四音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述第一音频帧为所述音频帧序列中按照先后顺序确定的第一顺位,且未经过自适应滤波处理的音频帧。
第三方面,提供一种计算机设备,所述计算机设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。
第四方面,提供一种存储介质,该存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行第一方面中的任一方法包括的步骤。
第五方面,提供一种计算机程序产品,当所述计算机程序产品在计算机设备运行时,使得计算机设备能够执行第一方面中任一方法包括的步骤。
本发明的实施例提供的技术方案至少带来以下有益效果:
在本发明实施例中,可以接收麦克风采集的初始音频,并将初始音频进行拆帧处理,获得音频帧序列,其中,音频帧序列包括按照帧顺序排列的多帧音频帧,然后可以按照帧顺序确定音频帧序列中第一音频帧,并对第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧。也就是说,在本发明实施例中,可以先对拆帧处理后的音频帧进行初始回声消除处理即前述的自适应滤波处理和非线性回声抑制处理,获得初始回声消除处理后的音频帧。
进一步地,可以对处理后的音频帧进行回声残留检测,确定处理后的音频帧的回声残留值以及与麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;若均大于对应的预设阈值,则获取目标音频;其中,目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
可见,在本发明实施例中,可以对音频帧进行初始回声消除处理,并从回声残留检测处理和播放数字音量影响这两个方面对初始回声消除处理后的音频帧进行实时检测调试,从而获取回声影响较小的目标音频。也就是说,本发明实施例提供的音频调试方法,可以智能化的根据实时实施情况对应调整回声消除策略,且无需人工参与,从而可以快速且准确的获取目标音频。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或通过实施而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1为本发明实施例中的应用场景示意图;
图2为本发明实施例中音频调试***的示意图;
图3为本发明实施例中音频调试的方法的流程图;
图4为本发明实施例中音频调试的装置的结构框图;
图5为本发明实施例中计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述, 在现有技术中,在进行网络视频会议或电话会议室,由于两方或多方视频会议终端由多点控制单元在一个会议中开会,且与会各方均需要设置麦克风设备和具备声音外放的功能的扬声器。并且,由于每个参与会议的会场都支持多人同时开会,因此须采用远场拾音麦克风和声音外放功能。导致每方会议声音被扬声器播放后能够被麦克风回采。回采声音的幅度高低、是否破音直接影响到回声消除性能。麦克风增益设置太低又导致麦克风近端拾音距离太短,无法达到远场拾音效果。
针对前述问题,为达到另一方会场拾音效果较好,现有技术中一般将采集设备的增益固定,且为了适应尽可能多的会场环境,非线性回声抑制等级也设置较高,然而,这样的方式,可能会导致当前会场的拾音效果和双讲效果均较差。并且,虽然会场的播放增益可调,但由于调整播放增益后无法快速获取到回采信号是否破音失真,需要经验丰富的技术人员现场调试。
鉴于此,本发明提供了一种音频调试的方法,通过该方法可以自动对麦克风实时采集的音频进行分析处理,判断音频是否消除回声影响,以获取到消除回声影响的音频,且无需人工操作,简单高效,且准确性较高。
介绍完本发明实施例的设计思想之后,下面对本发明实施例中的技术方案适用的应用场景做一些简单介绍,需要说明的是,本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
在本发明实施例中,该技术方案可以应用于需要进行多方会议且多方视讯会议需要麦克风和扬声器的任何场景,例如远程视频会议,或者是电话会议等等,本发明实施例中不做限定。
在本发明实施例中,请参见图1所示的一种应用场景示意图,图1包括第一空间中设置的扬声器1、麦克风1以及计算机设备1和第二空间中设置的扬声器2、麦克风2以及计算机设备2,以及多点控制单元。其中,第一空间用于表征需要进行视讯双方任一方所处的空间,第二空间用于表征需要进行视讯双方另一方所处的空间。需要说明的是,图1中仅以一个空间和另一个空间进行交互为例进行示出,在具体实施过程中,可以是多个空间与一个空间之间进行交互。
在具体的实施过程中,视讯双方之间可以通过一个或者多个网络进行通信连接。该网络可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(WIreless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本发明实施例对此不做限定。
请参见图2,本发明实施例提供一种音频调试***,该***的结构框图如图2所示。
请参见图2,该音频调试***包括远场拾音麦克风模块、采集增益调节模块、采集数字音频音量计算模块、算法模块、回声残留检测模块、调整模块、播放数字音频音量计算模块以及播放增益调节模块。
在本发明实施例中,远场拾音麦克风模块用于采集当前会场的与会人员的语音,采集增益调节模块用于对麦克风采集的增益进行调节。算法模块包括AEC(Acoustic EchoCancellation,声学回声消除)模块、AES(acoustic echo suppression,回声抑制)模块、以及AGC(Automatic Gain Control,自动增益补偿功能)和ANS(Automatic NoiseSuppression,背景噪音抑制功能模块)。
在具体的实施过程中,AEC模块可以对扬声器信号以及与由它产生的多路径回声进行估计,并不断地修改AEC模块对应的实体结构滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从麦克风的输入信号中减去,从而达到消除回声的目的。
具体的,AEC模块还可以将麦克风的输入与扬声器过去的输出值相比较,从而可以消除延迟的多次反射的声学回声。AGC模块可以自动调麦克风的收音量,使与会者收到保持在一定音量水平的语音信息,不会因发言者与麦克风的距离改变,导致出现声音有忽大忽小的问题。ANS模块可以探测出与会空间中背景固定频率的杂音并消除背景噪音,例如,可以自动滤除会议室中的风扇或者是空调所产生的声音,从而可以呈现出与会者清晰的声音。
在本发明实施例中,远场拾音麦克风采集模块采集当前会场的与会人员的语音信息时,并将语音信息发送给采集增益调节模块,采集增益调节模块将处理后的信息发送给算法模块,算法模块中的AEC模块对该信息进行处理,并将处理后的信息发送给AES模块,AES模块将处理后的信息发送给回声残留检测模块,当回声残留检测模块判断不符合预设要求时,将相应的信息反馈给调整模块,调整模块根据采集数字音频音量模块或播放数字音频音量模块的信息,对应调整采集增益调节模块或播放增益调节模块。
进一步地,当回声残留检测模块检测对应的信息符合预设要求时,该信息将被发送给AGC模块和ANS模块,以获得远端音频信息,并将获得的远端音频信息发送给与会的另一方,从而与会的另一方的扬声器可以播放该语音。需要说明的是,本发明实施例中的***框图中的模块,可以对应设置在参与会议的各方空间的实际设备中。
可见,在本发明实施例中,可以自动且智能的实现对远端拾音麦克风模块中采集的语音信息的回声消除处理,且本发明实施例中回声残留检测模块持续对语音信息进行检测,从而实时的智能调试其它模块,即可以准确且高效的获得调试后的音频信息。
为进一步说明本发明实施例提供的音频调试的方法的方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本发明实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本发明实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的应用环境)。
以下结合图3所示的方法流程图对本发明实施例中音频调试的方法进行说明,图3所示的各步骤可以由如图1所示的计算机设备执行。在具体实施过程中,该计算机设备可以是服务器,例如是个人计算机、大中型计算机、计算机集群,等等。
步骤301:接收麦克风采集的初始音频,并将初始音频进行拆帧处理,获得音频帧序列,其中,音频帧序列包括按照帧顺序排列的多帧音频帧。
在本发明实施例中,可以接收麦克风采集的初始音频,然后对初始音频进行拆帧处理,从而可以获得音频帧序列。
在具体的实施过程中,可以将按照预设帧数对初始音频进行拆帧处理,也可以按照预设频率对初始音频进行拆帧处理,当然,也可以是基于其它方式对初始音频进行拆帧处理,本发明实施例中不做限制。需要说明的是,在本发明实施例中,初始音频可以理解为麦克风第一次采集的语音信息,也可以理解为麦克风一段时间内未获取语音后开始获取的语音信息。
例如,对麦克风采集的初始音频进行拆帧处理,获得5个音频帧,即音频帧序列包括音频帧1、音频帧2、音频帧3、音频帧4以及音频帧5。具体的,可以是将以数字标识音频帧的顺序,也可以是以字母标识音频帧的顺序,当然,也可以是以其它字符标识音频帧的顺序,例如以汉字字符标识音频帧的顺序等,本发明实施例中不做限制。
步骤302:按照帧顺序确定音频帧序列中第一音频帧,并对第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧。
在本发明实施例中,当获得音频帧序列之后,可以按照帧顺序确定音频帧序列中第一音频帧,然后可以对第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧。
在本发明实施例中,若音频帧序列中的第一顺位音频帧未经过自适应滤波处理,即第一次进行调试的音频帧,则将第一顺位的音频帧确定为第一音频帧,然后对使用AEC模块和AES模块对第一音频帧进行处理,从而可以获得处理后的音频帧。
步骤303:对处理后的音频帧进行回声残留检测,确定处理后的音频帧的回声残留值以及与麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值。
步骤304:若均大于对应的预设阈值,则获取目标音频;其中,目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
在本发明实施例中,可以对处理后的音频帧进行回声残留检测,获得处理后的音频帧的回声残留值,然后判断回声残留值是否大于第一阈值,其中,第一阈值为根据残留可容忍程度对应确定的阈值,具体的,可以根据实际实施场景对应确定,例如第一阈值为0.6。
在本发明实施例中,若回声残留值大于第一阈值,则确定与麦克风处于同一空间内的扬声器的播放数字音量是否大于第二阈值,若大于,则执行播放增益调试操作。
需要说明的是,后文中描述的“执行播放增益调试操作、执行调试非线性回声抑制等级操作以及执行采集增益调试操作”可以通过图2中所示的调整模块与采集增益调节模块、采集数字音频音量计算模块、播放数字音频音量计算模块以及播放增益调节模块联动控制实现。
在具体的实施过程中,当确定回声残留值大于第一阈值时,则首先考虑是否为与麦克风处于同一空间内的扬声器的播放音量较大引起的回声影响,即可以判断与麦克风处于同一空间内的扬声器的播放数字音量是否大于第二阈值,其中,第二阈值可以理解为通话模式阈值,例如可以设置为16000。具体的,可以通过播放数字音频音量计算模块确定与麦克风处于同一空间内的扬声器的播放数字音量,进而判断是否大于第二阈值。若播放数字音量大于第二阈值,则确定造成回声影响的为扬声器的播放音量引起的,从而可以执行播放增益调试操作。具体的,执行播放增益调试操作时,可以以预设调节参数进行调节。
在本发明实施例中,可以确定调试后音频帧序列中的第二音频帧,然后当确定对第二音频帧进行对应处理后所对应的回声残留值小于或等于第一阈值时,获取播放增益调试操作后的目标音频。
在具体的实施过程中,当执行播放增益调试操作后,可以确定调试后音频帧序列中的第二音频帧,具体的,该第二音频帧可以理解为音频帧序列中第一音频帧对应的帧顺序后面一个帧顺序对应的音频帧,并对第二音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的第二音频帧。进一步地,可以对处理后的第二音频帧进行回声残留检测处理,获得第二回声残留检测值,并确定第二回声残留检测值小于或等于第一阈值,则获取播放增益调试操作后的目标音频。
在本发明实施例中,当确定音频帧的回声残留值小于等于第一阈值时,则获取对应的音频帧,即该音频帧的回声影响较小。可见,本发明实施例是根据实时获取的信息对应调整各个模块,从而实现目标音频的获取,进而将回声影响较小的目标音频发送给与会另一方,使得与会双方可以清楚的听到对方的发言,即在提高音频调试效率的基础上,还提高了与会双方获取的音频的质量。
在一种可能的实施方式中,若与麦克风处于同一空间内的扬声器的播放数字音量小于或等于第二阈值,则考虑是否是麦克风采集时采集音量引起的回声影响。具体的,可以通过采集数字音频音量计算模块,确定在采集时处理后的音频帧麦克风的采集数字音量,然后判断采集数字音量是否大于第三阈值,若是,则执行采集增益调试操作。具体的,第三阈值可以根据实际实施情况确定,本发明实施例中不做限制。例如,第三阈值可以为16000。以及,采集增益调试操作可以按预设调节参数进行调节。
在本发明实施例中,在执行采集增益调试操作后,可以获取采集增益调试操作后的第一目标音频;其中,第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
在具体的实施过程中,若对第一音频帧进行相应处理后执行采集增益调试操作,则第三音频帧可以理解为前述的第二音频帧;若对第二音频帧进行相应处理后执行采集增益调试操作,则第三音频帧可以理解为帧顺序在第一音频帧后两个帧顺序对应的音频帧。
可见,本发明实施例中,可以持续对音频帧进行检测,且对相应模块进行调整,从而可以获取第一目标音频。
在一种可能的实施方式中,若采集数字音量小于或等于第三阈值,则执行调试非线性回声抑制等级操作。在具体的实施过程中,非线性回声抑制模块初始设置等级为0,当确定执行调试非线性回声抑制等级操作时,可以将非线性回声等级调为1级。
在具体的实施过程中,在执行调试非线性回声抑制等级操作后,可以获取非线性回声抑制等级操作后的第二目标音频;其中,第二目标音频中的第四音频帧所对应的回声残留值小于或等于第一阈值。
可见,在本发明实施例中,可以对音频帧进行回声残留检测处理,并进行回声残留值与第一阈值的比对,以确定是否通过播放增益调节模块执行调试播放增益操作。进一步地,通过播放数字音量与第二阈值的比对,确定是否通过采集增益调节模块执行调试采集增益操作。此外,还通过采集数字音量与第三阈值的比对,确定是否调整回声残留检测模块的回声抑制等级。也就是说,本发明实施例通过三个判断过程确定是否音频帧的回声影响较小,以智能且持续对麦克风采集的音频进行检测,进而获取目标音频。
在具体的实施过程中,当获取目标音频之后,还可以通过音频编码模块对音频进行处理,并将处理后的音频通过多点控制单元发送给与会其它方,从而使得与会其它方获得清晰且回声较小或者无回声的语音信息。
基于同一发明构思,本发明实施例提供了一种用于音频调试的装置,该音频调试的装置能够实现前述的音频调试的方法对应的功能。该音频调试的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该音频调试的装置可以由芯片***实现,芯片***可以由芯片构成,也可以包含芯片和其他分立器件。请参见图4所示,该音频调试的装置包括:
第一处理模块401,用于接收麦克风采集的初始音频,并将所述初始音频进行拆帧处理,获得音频帧序列,其中,所述音频帧序列包括按照帧顺序排列的多帧音频帧;
第二处理模块402,用于按照所述帧顺序确定所述音频帧序列中第一音频帧,并对所述第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;
调试模块403,用于对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;
获取模块404,用于若均大于对应的预设阈值,则获取目标音频;其中,所述目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
在一种可能的实施方式中,所述调试模块403,用于:
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值是否大于所述对应的预设阈值中的第一阈值;
若所述回声残留值大于所述第一阈值,则确定与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于所述对应的预设阈值中第二阈值,若大于,则执行播放增益调试操作。
在一种可能的实施方式中,所述调试模块403还用于:
若所述播放数字音量小于或等于所述第二阈值,则确定所述处理后的音频帧在采集时所述麦克风的采集数字音量;
若所述采集数字音量大于第三阈值,则执行采集增益调试操作;
所述获取模块404,还用于:
获取采集增益调试操作后的第一目标音频;其中,所述第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述调试模块403还用于:
若所述采集数字音量小于或等于所述第三阈值,则执行调整非线性回声抑制等级操作;
所述获取模块404还用于:
获取非线性回声抑制等级操作后的第二目标音频;其中,所述第二目标音频中的第四音频帧所对应的回声残留值小于或等于所述第一阈值。
在一种可能的实施方式中,所述第一音频帧为所述音频帧序列中按照先后顺序确定的第一顺位,且未经过自适应滤波处理的音频帧。
前述的音频调试的方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明实施例中的音频调试的装置所对应的功能模块的功能描述,在此不再赘述。
需要说明的是,图4中示出的调试模块可以理解为图2中示出的回声检测模块和调整模块,并与图2示出的采集增益调节模块、采集数字音频音量计算模块、算法模块、播放数字音频音量计算模块以及播放增益调节模块进行联动控制。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个控制器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本发明实施例提供一种计算机设备,请参见图5所示,该计算机设备包括至少一个处理器501,以及与至少一个处理器连接的存储器502,本发明实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。此外,音频调试的装置还包括通信接口503,用于接收枪球联动摄像机发送的图像信息。
在本发明实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前述的音频调试的方法中所包括的步骤。
其中,处理器501是计算机设备的控制中心,可以利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。
可选的,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器501进行设计编程,可以将前述实施例中介绍的音频调试的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的音频调试的方法的步骤,如何对处理器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本发明实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的音频调试的方法的步骤。
在一些可能的实施方式中,本发明提供的音频调试的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在控制计算机设备上运行时,所述程序代码用于使该控制计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的音频调试的方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种音频调试的方法,其特征在于,所述方法包括:
接收麦克风采集的初始音频,并将所述初始音频进行拆帧处理,获得音频帧序列,其中,所述音频帧序列包括按照帧顺序排列的多帧音频帧;
按照所述帧顺序确定所述音频帧序列中第一音频帧,并对所述第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;
若均大于对应的预设阈值,则获取目标音频;其中,所述目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
2.如权利要求1所述的方法,其特征在于,对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值,包括:
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值是否大于所述对应的预设阈值中的第一阈值;
若所述回声残留值大于所述第一阈值,则确定与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于所述对应的预设阈值中第二阈值,若大于,则执行播放增益调试操作。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
若所述播放数字音量小于或等于所述第二阈值,则确定所述处理后的音频帧在采集时麦克风的采集数字音量;
若所述采集数字音量大于第三阈值,则执行采集增益调试操作,并获取采集增益调试操作后的第一目标音频;其中,所述第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若所述采集数字音量小于或等于所述第三阈值,则执行调试非线性回声抑制等级操作;
获取非线性回声抑制等级操作后的第二目标音频;其中,所述第二目标音频中的第四音频帧所对应的回声残留值小于或等于所述第一阈值。
5.如权利要求1-4任一项所述的方法,其特征在于,所述第一音频帧为所述音频帧序列中按照先后顺序确定的第一顺位,且未经过自适应滤波处理的音频帧。
6.一种音频调试的装置,其特征在于,所述装置包括:
第一处理模块,用于接收麦克风采集的初始音频,并将所述初始音频进行拆帧处理,获得音频帧序列,其中,所述音频帧序列包括按照帧顺序排列的多帧音频帧;
第二处理模块,用于按照所述帧顺序确定所述音频帧序列中第一音频帧,并对所述第一音频帧进行自适应滤波处理和非线性回声抑制处理,获得处理后的音频帧;
调试模块,用于对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值以及与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于对应的预设阈值;
获取模块,用于若均大于对应的预设阈值,则获取目标音频;其中,所述目标音频中的第二音频帧所对应的回声残留值小于或等于对应的预设阈值。
7.如权利要求6所述的装置,其特征在于,所述调试模块还用于:
对所述处理后的音频帧进行回声残留检测,确定所述处理后的音频帧的回声残留值是否大于所述对应的预设阈值中的第一阈值;
若所述回声残留值大于所述第一阈值,则确定与所述麦克风处于同一空间内的扬声器的播放数字音量是否大于所述对应的预设阈值中第二阈值,若大于,则执行播放增益调试操作。
8.如权利要求7所述的装置,其特征在于,所述调试模块还用于:
若所述播放数字音量小于或等于所述第二阈值,则确定所述处理后的音频帧在采集时所述麦克风的采集数字音量;
若所述采集数字音量大于第三阈值,则执行采集增益调试操作;
所述获取模块,还用于:
获取采集增益调试操作后的第一目标音频;其中,所述第一目标音频中的第三音频帧所对应的回声残留值小于或等于所述第一阈值。
9.一种计算机设备,其特征在于,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频调试的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频调试的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249609 | 2020-11-10 | ||
CN2020112496094 | 2020-11-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634925A true CN112634925A (zh) | 2021-04-09 |
CN112634925B CN112634925B (zh) | 2021-06-15 |
Family
ID=75297573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110243029.2A Active CN112634925B (zh) | 2020-11-10 | 2021-03-05 | 一种音频调试的方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634925B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113046A (zh) * | 2021-04-14 | 2021-07-13 | 杭州朗和科技有限公司 | 音频处理的性能检测方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191454A1 (en) * | 2011-01-26 | 2012-07-26 | TrackThings LLC | Method and Apparatus for Obtaining Statistical Data from a Conversation |
US20180350379A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition |
CN109862200A (zh) * | 2019-02-22 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN111556210A (zh) * | 2020-04-23 | 2020-08-18 | 深圳市未艾智能有限公司 | 通话语音处理方法与装置、终端设备和存储介质 |
CN111613235A (zh) * | 2020-05-11 | 2020-09-01 | 浙江华创视讯科技有限公司 | 一种回声消除方法及装置 |
CN111885276A (zh) * | 2020-07-31 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 消除回声的方法及*** |
-
2021
- 2021-03-05 CN CN202110243029.2A patent/CN112634925B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191454A1 (en) * | 2011-01-26 | 2012-07-26 | TrackThings LLC | Method and Apparatus for Obtaining Statistical Data from a Conversation |
US20180350379A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition |
CN109862200A (zh) * | 2019-02-22 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN111556210A (zh) * | 2020-04-23 | 2020-08-18 | 深圳市未艾智能有限公司 | 通话语音处理方法与装置、终端设备和存储介质 |
CN111613235A (zh) * | 2020-05-11 | 2020-09-01 | 浙江华创视讯科技有限公司 | 一种回声消除方法及装置 |
CN111885276A (zh) * | 2020-07-31 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 消除回声的方法及*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113046A (zh) * | 2021-04-14 | 2021-07-13 | 杭州朗和科技有限公司 | 音频处理的性能检测方法、装置、存储介质及电子设备 |
CN113113046B (zh) * | 2021-04-14 | 2024-01-19 | 杭州网易智企科技有限公司 | 音频处理的性能检测方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112634925B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108076226B (zh) | 一种通话质量调整的方法、移动终端及存储介质 | |
CN108391057B (zh) | 摄像头拍摄控制方法、装置、智能设备及计算机存储介质 | |
US9094523B2 (en) | Metric for meeting commencement in a voice conferencing system | |
EP3611897B1 (en) | Method, apparatus, and system for presenting communication information in video communication | |
CN110602327B (zh) | 语音通话方法、装置、电子设备及计算机可读存储介质 | |
EP3882913A1 (en) | Echo elimination method and terminal | |
CN104394286A (zh) | 一种回声消除方法及装置 | |
CN107621933B (zh) | 一种音频播放方法和装置和相关介质产品 | |
CN110782914A (zh) | 信号处理方法、装置、终端设备及存储介质 | |
CN112634925B (zh) | 一种音频调试的方法、装置及计算机设备 | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN111081233B (zh) | 一种音频处理方法及电子设备 | |
CN105100368A (zh) | 信息处理方法及装置 | |
CN107426200B (zh) | 一种多媒体数据处理方法和装置 | |
CN108540680B (zh) | 讲话状态的切换方法及装置、通话*** | |
CN111613235A (zh) | 一种回声消除方法及装置 | |
CN109901811B (zh) | 应用于数字化庭审中的混音方法及装置 | |
US11875800B2 (en) | Talker prediction method, talker prediction device, and communication system | |
US11783837B2 (en) | Transcription generation technique selection | |
CN115410593A (zh) | 音频信道的选择方法、装置、设备及存储介质 | |
CN113395451B (zh) | 视频拍摄方法、装置、电子设备以及存储介质 | |
CN114401350A (zh) | 一种音频处理方法及会议*** | |
CN111355919B (zh) | 一种通信会话控制方法及装置 | |
CN113870871A (zh) | 音频处理方法、装置、存储介质、电子设备 | |
CN108769525B (zh) | 一种图像调整方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |