CN112289340B - 音频检测方法及装置 - Google Patents
音频检测方法及装置 Download PDFInfo
- Publication number
- CN112289340B CN112289340B CN202011211792.9A CN202011211792A CN112289340B CN 112289340 B CN112289340 B CN 112289340B CN 202011211792 A CN202011211792 A CN 202011211792A CN 112289340 B CN112289340 B CN 112289340B
- Authority
- CN
- China
- Prior art keywords
- audio
- wheat spraying
- spraying
- wheat
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 164
- 238000005507 spraying Methods 0.000 claims abstract description 711
- 241000209140 Triticum Species 0.000 claims abstract description 667
- 235000021307 Triticum Nutrition 0.000 claims abstract description 667
- 238000012545 processing Methods 0.000 claims abstract description 85
- 239000012634 fragment Substances 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000004890 malting Methods 0.000 claims description 13
- 239000007921 spray Substances 0.000 claims description 13
- 230000037433 frameshift Effects 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000008030 elimination Effects 0.000 description 5
- 238000003379 elimination reaction Methods 0.000 description 5
- GXCLVBGFBYZDAG-UHFFFAOYSA-N N-[2-(1H-indol-3-yl)ethyl]-N-methylprop-2-en-1-amine Chemical compound CN(CCC1=CNC2=C1C=CC=C2)CC=C GXCLVBGFBYZDAG-UHFFFAOYSA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本说明书提供音频检测方法及装置,其中所述音频检测方法包括:获取待检测音频文件;将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段;通过所述音频检测方法进行喷麦音频片段的检测,不仅可以保证检测效率,还能够保证检测精准度,进一步满足了实际应用场景的音频处理需求。
Description
技术领域
本说明书涉及音频处理技术领域,特别涉及音频检测方法及装置。
背景技术
随着互联网技术的发展,音频的噪声处理被应用到越来越多的场景中,如在直播场景、通话场景、语音播报场景等,都需要实时或离线的完成对音频中的噪声进行消除,从而使得用户能够收听到较为优质的音频。然而,现有技术在实现噪声消除时,大多数实现方案都是对音频中的主要声源和次要声源进行分辨,通过保留主要声源删除次要声源的方式实现消除不需要的噪声,然而因为喷麦是由主要声源在发声过程中产生的噪声,所以该种方式并不能够消除喷麦噪声产生的影响,导致优化后的音频还存在部分不利于收听的其他声音内容,故亟需一种有效的方案以解决该问题。
发明内容
有鉴于此,本说明书实施例提供了一种音频检测方法。本说明书同时涉及一种音频检测装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种音频检测方法,包括:
获取待检测音频文件;
将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
可选的,所述喷麦检测模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
可选的,所述将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,包括:
基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;
按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。
可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;
在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间;
基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
可选的,所述在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间,包括:
确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;
根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;
若是,则将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。
可选的,所述基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段,包括:
对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
可选的,所述在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频序列的持续时长;
根据预设条件确定所述时长阈值;
判断所述喷麦音频序列的持续时长是否大于等于所述时长阈值;
若是,执行所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段的步骤。
可选的,所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
对所述喷麦音频序列进行分帧处理,获得按照时间顺序排序的多个音频帧;
选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及按照时间顺序排序的多个音频帧中所述初始喷麦音频帧后首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;
确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成所述喷麦音频片段。
可选的,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段步骤执行之后,还包括:
根据所述喷麦音频片段对所述待检测音频文件进行标准化处理,获得目标音频文件,并将所述目标音频文件进行播放;
其中,所述标准化处理包括删除所述喷麦音频片段或降低所述喷麦音频片段的能量。
可选的,所述待检测音频文件包括下述至少一项:
客户端上传的音频文件、待播放的音频文件、待处理的音频文件。
根据本说明书实施例的第二方面,提供了一种音频检测装置,包括:
获取模块,被配置为获取待检测音频文件;
处理模块,被配置为将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
确定模块,被配置为根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待检测音频文件;
将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述音频检测方法的步骤。
本说明书提供的音频检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
附图说明
图1是本说明书一实施例提供的一种音频检测方法的流程图;
图2是本说明书一实施例提供的第一种喷麦检测模型的结构示意图;
图3是本说明书一实施例提供的第二种喷麦检测模型的结构示意图;
图4是本说明书一实施例提供的一种应用于音频播放场景中的音频检测方法的处理流程图;
图5是本说明书一实施例提供的另一种应用于音频播放场景中的音频检测方法的处理流程图;
图6是本说明书一实施例提供的一种音频检测装置的结构示意图;
图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
喷麦:是指呼吸或发声时鼻腔、口腔产生的气流直接作用到麦克风而被录制到突发较大气流声的现象。
在本说明书中,提供了一种音频检测方法,本说明书同时涉及一种音频检测装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,用户在使用麦克风录音或者说话时,喷麦问题是一个常见的困扰。针对喷麦现象,常用的消除处理方式主要包括人为控制或者后期审核实现;人为控制是指用户在使用麦克风时,控制嘴巴和麦克风之间的距离、角度、在麦克风上放置海绵等附加装置,以尽量减少气流对麦克风的直接影响,从而减少喷麦现象的发生;后期审核实现是指由技术人员从录制的音频中找出喷麦音频片段,通过对音频帧进行处理实现消除喷麦的影响。然而上述两种方式都存在时效性差、效率低且精准度不高的问题,喷麦现象在音频文件中的消除显着尤为重要。
图1示出了根据本说明书一实施例提供的一种音频检测方法的流程图,具体包括以下步骤:
步骤S102,获取待检测音频文件。
本说明书提供的音频检测方法,为了提高喷麦音频片段的定位精准度,以及提高定位处理效率,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
具体实施时,所述待检测音频文件是指需要进行喷麦音频片段检测的音频,所述待检测音频文件可以是客户端上传的音频文件,如录播场景中,老师通过录播的方式录制教学内容,供学生观看以达成教学的目的,老师在录制完成课程之后,就需要将课程发送给各个学生进行观看或收听,此时为了避免录播内容中的喷麦现象对学生听课造成影响,就需要对老师通过客户端上传的音频文件进行检查和处理,以实现消除喷麦的现象,提高学生收听的效果。
或者,所述待检测音频文件也可以是待播放的音频文件,如在用户收听即时通讯场景中的语音信号(待播放的音频文件)时,为了避免喷麦现象造成播放的语音不清楚的问题,也可以对语音信号进行喷麦检测处理,从而消除语音信息中的喷麦音频片段,使得用户可以收听到清楚地语音信息,提高用户的体验效果。
再或者,所述待检测音频文件也可以是待处理的音频文件,如在模型训练场景中,需要使用大量的音频文件训练翻译模型或语义识别模型等,此时如果音频文件中存在喷麦音频片段,就会导致训练出的模型效果较差,为了能够提高模型预测效果,可以在预处理阶段对音频文件(待处理音频文件)进行喷麦检测,并将检测出的喷麦音频片段去除,从而提高模型的训练效果。
本实施例将以待检测音频文件为客户端录入的音频文件为例,对所述音频检测方法进行描述,其它定位音频文件中的喷麦音频片段的过程均可参见本实施例相应的描述内容,本实施例在此不作过多赘述。
步骤S104,将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率。
具体的,在上述获得所述待检测音频文件的基础上,进一步的,将需要对所述待检测音频文件进行处理,从而得出待检测音频文件中的喷麦音频区间,以及所述喷麦音频区间的喷麦概率。所述喷麦音频区间具体是指所述待检测音频文件中的音频片段,所述喷麦音频区间包含至少一个喷麦音频子区间;所述喷麦概率具体是指该音频片段存在喷麦可能的概率或不存在喷麦可能的概率,以实现后续可以精准的定位所述待检测音频文件中的喷麦音频片段。
基于此,所述喷麦音频区间中包含至少一个音频帧;相应的,所述喷麦检测模型具体是指进行喷麦检测的分类器,可以对输入的音频进行处理后,输出该音频中包含的音频片段存在喷麦的概率或不存在喷麦的概率,从而方便确定待检测音频文件中的喷麦音频片段,所述喷麦检测模型包括但不限于VGGish模型或ResNet(深度残差网络,Deep residualnetwork)模型,其中,VGGish模型的结构如图2所示,ResNet模型的结构如图3所示。
需要说明的是,由于VGGish模型体积较大,喷麦检测速度较慢,精准度高,因此可以将VGGish模型用于实时性要求较低的场景中,如录播视频的喷麦检测处理场景,通过音频文件进行模型训练的喷麦检测处理场景等,同时在向该模型输入特征时,可以将输入特征以设定时长的单位组帧,组成的音频帧之间根据需要可以有不同程度的重叠,且每一帧音频都包含设定数目的stft频点,即以格式为[batch_size,s,p]维度的矩阵作为模型输入特征,其中,batch_size是待检测音频文件中包含待检测帧的个数,与总时长有关,s表示音频帧时长,p表示选取的特征频段幅度谱取值。输出为[batch_size,2]维度的矩阵,分别对应喷麦音频区间中的各音频子区间被预测为包含喷麦的概率和被预测为不包含喷麦的概率。
而ResNet模型体积较小,喷麦检测速度较快,精准度相对VGGish模型欠缺一点,因此可以将所述ResNet模型用于实时性要求高的场景中,如直播喷麦检测处理场景,语音聊天喷麦检测处理场景,同时在向该模型输入特征时,可以将输入特征以设定时长的单位组帧,而且要保证各个音频帧之间没有重叠,且每一帧音频都包含设定数目的stft频点,当模型输出时可以输出格式为[batch_size,L/s,1]维度的矩阵,其中batch_size对应文件个数,(L/s)对应文件中包含s时长帧的个数,1对应当前音频子区间包含喷麦的概率。
此外,由于训练好的VGGish模型和ResNet模型都可以独立实现喷麦检测的目的,其他未提及模型亦可能通过适当的配置和训练实现喷麦检测的功能,因此可以根据实际应用场景进行选择,本实施例在此不作任何限定。
进一步的,为了能够提高喷麦检测模型的预测能力,需要对训练模型使用的音频帧进行预处理,从而避免其他因素对模型的干扰,本实施例中,所述喷麦检测模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
具体的,所述样本音频文件具体是指训练模型所使用的音频文件,该音频文件中包括喷麦音频帧以及不包含喷麦的正常音频帧;所述标准音频文件具体是指对所述样本音频文件进行格式化处理后,能够应用于训练模型使用的音频文件,其中,所述格式化处理具体是指将所述样本音频文件采用16kHz采样16bit量化的单通道PCM音频数据格式保存,从而满足训练模型所使用的音频文件。
基于此,由于所述喷麦检测模型是对音频文件中是否存在喷麦现象的概率进行预测,因此为了能够提高模型对音频文件预测的精准度,可以将一个音频文件切分为多个音频区间,由模型对多个音频区间分别进行预测,进而达到区间层级的预测,从而提高模型对喷麦现象的预测能力。
进一步的,在将所述目标音频文件切分为多个音频区间之后,将按照各个音频区间的属性信息对各个音频区间添加标签,所述属性信息具体是指各个音频区间是否包含喷麦音频帧,若存在,则将该音频区间添加喷麦标签;若不存在,则将该音频区间添加正常语音标签,之后将添加标签的音频区间作为模型的输出,添加标签之前的音频区间作为模型的输入,组成样本音频区间对,对所述初始喷麦检测模型进行训练,从而获得能够满足需求的所述喷麦检测模型。
需要说明的是,由于模型的训练需要不断的迭代才能够获得预测能力较好的模型,因此在训练所述初始喷麦检测模型的过程中,可以根据实际需求设定迭代停止条件,该条件可以基于损失函数设定,或者基于模型的预测精准度确定;每次完成一个阶段的训练之后,就使用检验样本音频对当前模型进行检测,若达到迭代停止条件,即可停止训练模型,将此时获得的模型作为所述喷麦检测模型;若未达到迭代停止条件,就继续训练模型,直至能够获得满足迭代停止条件的模型为止。
更进一步的,由于所述待检测音频文件的长度可能过大,且不符合所述喷麦检测模型的输入标准,因此在输入所述喷麦检测模型之前,可以对所述待检测音频文件进行预处理,从而得到适用的所述喷麦检测模型的输入,本实施例中,具体实现方式如下所述:
基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;
按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。
具体的,由于所述喷麦检测模型的结构需求,可以采用待检测音频文件的短时傅里叶变换的低频部分作为特征输入到所述喷麦检测模型进行处理,基于此,首先按照预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱,之后按照所述幅度谱在所述待检测音频文件中提取相应的低频特征作为所述喷麦检测模型的输入,最后获得所述喷麦检测模型输出的喷麦音频区间和其对应的喷麦概率即可,以实现后续基于所述喷麦音频区间对喷麦音频片段进行定位,其中,所述低频特征采用矩阵形式表达。
需要说明的是,由于所述待检测音频文件可能较长,在对所述待检测音频文件进行短时傅里叶变换时,还可以先将所述待检测音频文件切分为多个音频区间,之后采用预设帧长的处理窗以及预设时间的帧移对多个音频区间进行变换,获得各个音频区间对应的幅度谱,之后更加方便提取各个幅度谱对应的低频特征进行模型的处理过程。
例如,待检测音频文件是老师录制的一段音频文件,此时需要对该音频文件进行喷麦消除处理,从而方便学生进行收听;基于此,通过使用25ms帧长的Hann窗,10ms的帧移对该音频文件进行512阶短时傅里叶变换得到257维的幅度谱,之后取257维的幅度谱中的低频区间,如[2,66)作为模型的输入特征,之后将各音频帧的低频特征输入至喷麦检测模型以进行喷麦音频区间的预测,获得模型输入的格式为[batch_size,96,64]的喷麦音频区间及其喷麦音频区间的喷麦概率,实现通过喷麦检测模型对该音频文件中的喷麦音频区间进行预测,以用于后续确定该音频文件中的喷麦音频片段。
综上,为了能够提高模型的预测能力,以及提高喷麦音频区间检测的精准度,可以采用短时傅里叶变换的方式对输入模型的音频文件进行预处理,从而实现模型可以通过频谱特征对喷麦音频区间进行预测,进一步提高了后续定位喷麦音频片段的精准度。
步骤S106,根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
具体的,在上述获得所述喷麦检测模型输出的喷麦音频区间及其对应的喷麦概率之后,此时则需要基于所述喷麦音频区间和所述喷麦概率分析所述待检测音频文件中的喷麦音频片段,从而实现后续可以根据所述喷麦音频片段对所述待检测音频文件进行处理,以得到满足播放需求的音频文件,其中,所述喷麦音频片段具体是指所述待检测音频文件中喷麦音频帧所对应的音频片段。
并且,由于在不同的应用场景可以针对性选择不同的喷麦检测模型实现喷麦检测的目的,因此在后续定位所述待检测音频文件中的喷麦音频片段时,为了能够契合喷麦检测模型,针对不同的喷麦检测模型将采用不同的方式进行喷麦音频片段的确定。
基于此,一方面在所述喷麦检测模型为ResNet模型的情况下,说明当前喷麦检测场景为实时性要求较高的场景,因此在定位所述喷麦音频片段时也需要尽快完成,以适配当前喷麦检测场景,即通过用检测精度换取检测效率的方式满足喷麦检测需求,本实施例中,具体实现方式如下所述:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
具体的,由于所述ResNet模型在对所述待检测音频文件进行处理中,可能根据模型处理需求将待检测音频文件切分为多个音频子区间,之后再对各个音频子区间分别进行喷麦概率的预测,因此当获取到模型输出的所述喷麦音频区间后,可以通过所述喷麦音频区间确定多个喷麦音频子区间,之后通过对各个喷麦音频子区间进行检测的方式确定所述喷麦音频片段。
基于此,首先对所述喷麦音频区间进行解析,获得所述多个喷麦音频子区间,同时根据所述喷麦检测模型(ResNet模型)输出的喷麦音频区间的喷麦概率(与各个喷麦音频子区间对应的喷麦概率的集合)确定各个喷麦音频子区间的子喷麦概率,其次将每个喷麦音频子区间的子喷麦概率与预设概率阈值进行比较,最后根据比较结果即可分析出所述待检测音频文件中的喷麦音频片段,即根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间作为喷麦概率较高的音频区间,之后基于该部分喷麦音频子区间组成所述喷麦音频片段。
例如,在聊天软件中获得一段音频文件之后,为了能够为用户提供质量更佳的音频,此时将多该音频文件进行切分,获得多个0.96s的音频区间,之后对各个0.96s的音频区间进行短时傅里叶变换获得能够输入模型的257维矩阵,此时将各个音频区间对应的矩阵输入至ResNet模型进行处理,获得模型输出的各个音频区间对应的喷麦概率,分别为第一音频区间喷麦概率55%,第二音频区间喷麦概率80%......第N音频区间喷麦概率15%;此时将各个音频区间的喷麦概率与预设概率阈值78%进行比较,确定第二音频区间存在喷麦的概率大于预设概率阈值,可以确定第二音频区间存在喷麦音频帧的概率较大,则将第二音频区间确定为该音频文件中的喷麦音频片段,以实现后续可以按照第二音频区间对音频文件进行质量提高处理。
综上,在实时性要求较高的场景中,为了能够满足快速的确定所述待检测音频文件中的喷麦音频片段的需求,将采用比对喷麦概率的方式定位所述喷麦音频片段,实现在较短的时间内完成喷麦音频片段的定位,有效的提高了音频检测的效率。
另一方面,在所述喷麦检测模型为VGGish模型的情况下,说明当前喷麦检测场景为实时性要求较低的场景(即喷麦检测精准度较高的场景),因此需要精准的对所述喷麦音频片段进行定位,即通过用检测效率换取检测精度的方式满足喷麦检测需求,本实施例中,具体实现方式如下所述:
(1)确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率。
(2)将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间。
具体的,由于所述VGGish模型在对所述待检测音频文件进行处理中,可能根据模型处理需求将待检测音频文件切分为多个音频子区间,之后再对各个音频子区间进行喷麦概率的预测,因此当获取到模型输出的所述喷麦音频区间后,可以通过所述喷麦音频区间确定多个喷麦音频子区间,之后通过对各个喷麦音频子区间进行检测的方式确定所述喷麦音频片段。
基于此,首先对所述喷麦音频区间进行解析,获得所述多个喷麦音频子区间,同时根据所述喷麦检测模型(VGGish模型)输出的喷麦音频区间的喷麦概率(与各个喷麦音频子区间对应的喷麦概率的集合)确定各个喷麦音频子区间的子喷麦概率,其次将每个喷麦音频子区间的子喷麦概率与预设概率阈值进行比较,最后根据比较结果即可从多个喷麦音频子区间中确定所述多个目标喷麦音频子区间,即选择子喷麦概率大于等于所述预设概率阈值的喷麦音频子区间作为所述目标喷麦音频子区间,其中,所述目标喷麦音频子区间具体是指存在喷麦音频帧的音频区间。
例如,在视听软件中获得一段音频文件之后,为了能够为用户提供质量更佳的音频,此时将多该音频文件进行切分,获得多个0.96s的音频区间,之后对各个0.96s的音频区间进行短时傅里叶变换获得能够输入模型的257维矩阵,此时将各个音频区间对应的矩阵输入至VGGish模型进行处理,获得模型输出的各个音频区间对应的喷麦概率,分别为第一音频区间喷麦概率85%,第二音频区间喷麦概率80%......第N音频区间喷麦概率15%;此时将各个音频区间的喷麦概率与预设概率阈值78%进行比较,确定第一音频区间和第二音频区间存在喷麦的概率大于预设概率阈值,可以确定第一音频区间和第二音频区间存在喷麦音频帧的概率较大,则将第一音频区间和第二音频区间确定为目标喷麦音频子区间,以用于后续精准的定位该段音频文件中的喷麦音频片段。
(3)在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间。
具体的,在上述获得所述目标喷麦音频子区间的基础上,进一步的,为了能够精准的定位所述待检测音频文件中的喷麦音频片段,将采用逐帧分析的方式进行定位,从而提高后续确定喷麦音频片段的精准度,以满足对所述待检测音频文件的处理需求;基于此,在得到目标喷麦音频子区间之后,按照所述目标喷麦音频子区间的属性组成所述持续喷麦音频子区间,以协助定位所述喷麦音频片段;其中,所述持续喷麦音频子区间具体是指所述待检测音频文件中由时间连续的多个所述目标喷麦音频子区间构成的音频区间。
进一步的,在从所述待检测音频文件中提取所述持续喷麦音频子区间的过程中,为了提高后续定位喷麦音频片段的精准度,可以选择相邻的目标喷麦音频子区间组成所述持续喷麦音频子区间,本实施例中,具体实现方式如下所述:
确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;
根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;
若是,则将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。
具体的,首先确定所述目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及所述目标喷麦音频子区间对应的音频时长,其次确定这些目标喷麦音频子区间在时间维度上是否存在连续关系;最后将时间连续的目标喷麦音频子区间合并组成所述持续喷麦音频子区间。
沿用上例,在确定第一音频区间和二音频区间为目标喷麦音频子区间的情况下,由于在时间上这是两个相邻的音频区间(0.00s-0.96s和0.96s-1.92s),故合并两音频区间构成持续喷麦音频子区间(0.00s-1.92s),用于后续定位音频文件中的喷麦音频片段。
(4)基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
具体的,在上述提取到所述目标喷麦音频子区间对应的持续喷麦音频子区间的基础上,进一步的,此时即可通过对所述持续喷麦音频子区间再次检查的方式确定所述待检测音频文件中的喷麦音频片段。
进一步的,基于所述持续喷麦音频子区间确定所述喷麦音频片段的具体实现方式如下所述:对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
确定所述喷麦音频序列的持续时长;根据预设条件确定所述时长阈值;判断所述喷麦音频的持续时长是否大于等于所述时长阈值;
若是,对所述喷麦音频序列进行分帧处理,获得按照时间顺序排序的多个音频帧;选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及按照时间顺序排序的多个音频帧中所述初始喷麦音频帧后首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成所述喷麦音频片段,即所述初始喷麦音频帧、所述中间喷麦音频帧和所述末端喷麦音频帧组成的所述喷麦音频序列即为所述喷麦音频片段;
若否,则此序列不是所述喷麦音频片段。
具体的,首先对所述持续喷麦音频子区间,按照固定帧长和较小帧移重新分帧获得多个音频帧;将所述音频帧的特征分别输入VGGish喷麦检测模型进行处理,获得模型输出的各音频帧对应的输出概率;选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及其后音频帧中首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成喷麦音频序列。
基于此,根据预设条件确定所述时长阈值之后,将对所述喷麦音频序列的持续时长与所述时长阈值进行比较,若所述喷麦音频序列的持续时长大于等于所述时长阈值,则说明当前喷麦音频序列中包含的喷麦音频帧较多或全部音频帧均为喷麦音频帧,此时即可将喷麦音频序列确定为喷麦音频片段。
若所述喷麦音频序列的持续时长小于所述时长阈值,则说明当前喷麦音频序列中包含的喷麦音频帧较少,可能出现误判,则不将所述喷麦音频序列判定为所述喷麦音频片段。
沿用上例,在得到持续音频子区间(0.00s-1.92s)之后,以帧长0.96s帧移0.01s重新划分成包含重叠部分的193个数据帧(数据前端补0),分别输入到模型进行检测,输出概率从第80帧开始大于0.9,在第181帧开始小于0.85,则将第80帧称作初始喷麦音频帧,第181帧称作末端喷麦音频帧,中间的第81帧至第180帧称作中间喷麦音频帧,由第80帧到第181帧组成喷麦音频序列,其持续时长为1.02s。由于根据预设条件确定的时长阈值为0.9s,上述喷麦音频序列的持续时长大于预设时长阈值,则该喷麦音频序列即确定为喷麦音频片段,以用于后续的处理过程。
综上,为了能够精准的对所述喷麦音频片段进行定位,将根据预设条件确定所述时间阈值;此外,通过将持续喷麦音频区间进行分帧之后,通过逐帧分析喷麦音频帧,进而得出喷麦音频片段,实现更进一步的提高了定位喷麦音频片段的精准度,从而更加方便对所述待检测音频文件进行喷麦现象的消除处理。
此外,在完成所述待检测音频文件中的喷麦音频片段的确定之后,可以根据所述喷麦音频片段对所述待检测音频文件进行处理,从而生成不具有喷麦音频片段的目标音频文件进行播放,本实施例中,具体实现方式如下所述:
根据所述喷麦音频片段对所述待检测音频文件进行标准化处理,获得目标音频文件,并将所述目标音频文件进行播放;其中,所述标准化处理包括删除所述喷麦音频片段或降低所述喷麦音频片段的能量。
例如,某老师在直播课上进行语文拼音课程的教学,由于拼音“t”、“p”、“k”等都会产生气流较大的现象,从而引发喷麦的情况发生,为了避免喷麦现象对听课的学生带来不好的影响,此时将对老师录入的音频文件进行喷麦检测,并在检测到喷麦音频片段之后,对喷麦音频片段进行消除处理,从而生成不具有喷麦音频片段的目标音频文件并进行播放,使得学生可以听到播放效果较好的音频。
实际应用中,对所述待检测音频文件中的喷麦音频片段进行处理包括但不限于消除喷麦音频片段、降低喷麦音频片段的能量等,本实施例在此不作过多限定。
本说明书提供的音频检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
下述结合附图4,以本说明书提供的音频检测方法在音频播放场景中的应用为例,对所述音频检测方法进行进一步说明。其中,图4示出了本说明书一实施例提供的一种应用于音频播放场景中的音频检测方法的处理流程图,具体包括以下步骤:
步骤S402,获取待检测音频文件。
本实施例以所述待检测音频文件为录播音频为例对所述音频检测方法进行描述;由于待检测音频文件中存在喷麦的音频帧,将会造成不利于用户收听的问题,为了避免这一问题对用户的收听体验产生影响,将对待检测音频文件中的喷麦音频帧进行检测并消除,从而实现播放便于用户收听的音频文件。
步骤S404,对待检测音频文件进行切分处理,获得多个音频区间。
步骤S406,基于25ms帧长的Hann窗以及10ms的帧移对各个音频区间进行512阶短时傅里叶变换,获得各个音频区间对应的257维幅度谱。
步骤S408,将各个音频区间对应的257维幅度谱中的第[2,66)维低频段作为输入特征,输入至VGGish模型。
具体的,由于在录播场景中,对喷麦检测处理的时效性要求不高,但是对喷麦检测的精准度有一定的要求,因此在进行喷麦检测时,将采用VGGish模型实现对各个音频区间的喷麦概率进行预测,从而提高喷麦检测处理的精准度。
步骤S410,获得VGGish模型输出的各个音频区间对应的喷麦概率。
步骤S412,选择喷麦概率大于预设喷麦概率阈值的音频区间作为喷麦音频区间。
步骤S414,基于喷麦音频区间在待检测音频文件中确定持续喷麦音频区间。
步骤S416,对持续喷麦音频区间进行分帧处理获得多个持续音频帧。
步骤S418,将多个持续音频帧的特征输入模型进行检测,将模型输出概率满足概率阈值的音频帧组成喷麦音频序列。
步骤S420,在喷麦音频序列的持续时长大于时长阈值的情况下,判定喷麦音频序列为喷麦音频片段。
步骤S422,根据喷麦音频片段对待检测音频文件进行处理,并将处理结果进行播放。
本实施例提供的音频检测方法均可参见上述实施例相应的描述内容,在此不作过多赘述。
本说明书提供的音频检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
下述结合附图5,以本说明书提供的音频检测方法在音频播放场景中的应用为例,对所述音频检测方法进行进一步说明。其中,图5示出了本说明书一实施例提供的另一种应用于音频播放场景中的音频检测方法的处理流程图,具体包括以下步骤:
步骤S502,获取待检测音频文件。
本实施例以所述待检测音频文件为直播音频为例对所述音频检测方法进行描述;由于待检测音频文件中存在喷麦的音频帧,将会造成不利于用户收听的问题,为了避免这一问题对用户的收听体验产生影响,将对待检测音频文件中的喷麦音频帧进行检测并消除,从而实现播放便于用户收听的音频文件。
步骤S504,对待检测音频文件进行切分处理,获得多个音频区间。
步骤S506,基于32ms帧长的Hann窗以及16ms的帧移对各个音频区间进行512阶短时傅里叶变换,获得各个音频区间对应的257维幅度谱。
步骤S508,将各个音频区间对应的257维幅度谱中的第[2,66)维低频段作为输入特征,输入至ResNet模型。
具体的,由于在直播场景中,对喷麦检测处理的时效性要求较高,因此为了能够满足及时处理及时反馈的目的,将采用ResNet模型实现对各个音频区间的喷麦概率进行预测,从而提高喷麦检测处理的效率。
步骤S510,获得ResNet模型输出的各个音频区间对应的喷麦概率。
步骤S512,选择喷麦概率大于预设喷麦概率阈值的音频区间作为喷麦音频区间。
步骤S514,对喷麦音频区间进行降噪处理,获得目标音频文件并播放。
本实施例提供的音频检测方法均可参见上述实施例相应的描述内容,在此不作过多赘述。
本说明书提供的音频检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
与上述方法实施例相对应,本说明书还提供了音频检测装置实施例,图6示出了本说明书一实施例提供的一种音频检测装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取待检测音频文件;
处理模块604,被配置为将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
确定模块606,被配置为根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
一个可选的实施例中,所述喷麦检测模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
一个可选的实施例中,所述处理模块604,包括:
变换单元,被配置为基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱;
处理单元,被配置为按照所述幅度谱在所述待检测音频文件中提取低频特征输入至所述喷麦检测模型进行处理,获得所述喷麦音频区间和所述喷麦概率。
一个可选的实施例中,所述确定模块606,包括:
第一确定单元,被配置为确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
第一比较单元,被配置为将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
第一组成单元,被配置为根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
一个可选的实施例中,所述确定模块606,包括:
第二确定单元,被配置为确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
第二比较单元,被配置为将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;
提取单元,被配置为在所述待检测音频文件中提取所述多个目标喷麦音频子区间组成持续喷麦音频子区间;
第二组成单元,被配置为基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
一个可选的实施例中,所述提取单元,包括:
确定音频位置子单元,被配置为确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;
判断子单元,被配置为根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;
若是,运行整合子单元,所述整合子单元,被配置为将所述多个目标喷麦音频子区间进行整合,获得所述持续喷麦音频子区间。
一个可选的实施例中,所述第二组成单元,包括:
分帧处理子单元,被配置对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
喷麦检测子单元,被配置为将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
组成子单元,被配置为在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
一个可选的实施例中,所述组成子单元,包括:
第一确定子模块,被配置为确定所述喷麦音频序列的持续时长;
第二确定子模块,被配置为根据预设条件确定所述时长阈值;
判断子模块,被配置为判断所述喷麦音频序列的持续时长是否大于等于所述时长阈值;
若是,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
一个可选的实施例中,所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
对所述喷麦音频序列进行分帧处理,获得按照时间顺序排序的多个音频帧;选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及按照时间顺序排序的多个音频帧中所述初始喷麦音频帧后首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成所述喷麦音频片段。
一个可选的实施例中,所述音频检测装置,还包括:
播放模块,被配置为根据所述喷麦音频片段对所述待检测音频文件进行标准化处理,获得目标音频文件,并将所述目标音频文件进行播放;
其中,所述标准化处理包括删除所述喷麦音频片段或降低所述喷麦音频片段的能量。
一个可选的实施例中,所述待检测音频文件包括下述至少一项:
客户端上传的音频文件、待播放的音频文件、待处理的音频文件。
本实施例提供的音频检测装置,在获取到所述待检测音频文件之后,将待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率,此时为了能够精准的对喷麦音频片段进行定位,将按照所述喷麦音频区间和其对应的喷麦概率对所述待检测音频文件进行处理,从而得到所述待检测音频文件中的喷麦音频片段,实现不仅可以精准的定位所述喷麦音频片段,还提高了喷麦音频片段的定位处理效率,实现应用更广泛的喷麦处理场景,进而提高用户收听待检测音频文件的体验效果。
上述为本实施例的一种音频检测装置的示意性方案。需要说明的是,该音频检测装置的技术方案与上述的音频检测方法的技术方案属于同一构思,音频检测装置的技术方案未详细描述的细节内容,均可以参见上述音频检测方法的技术方案的描述。
图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令:
获取待检测音频文件;
将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的音频检测方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述音频检测方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待检测音频文件;
将所述待检测音频文件输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的音频检测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述音频检测方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (11)
1.一种音频检测方法,其特征在于,包括:
获取待检测音频文件;
基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱,按照所述幅度谱在所述待检测音频文件中提取低频特征输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段;
其中,根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段包括:确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;若是,则将所述多个目标喷麦音频子区间进行整合,获得持续喷麦音频子区间;基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
2.根据权利要求1所述的音频检测方法,其特征在于,所述喷麦检测模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,按照所述多个音频区间的属性信息对所述多个音频区间添加喷麦标签或正常语音标签;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始喷麦检测模型进行训练,获得所述喷麦检测模型。
3.根据权利要求1所述的音频检测方法,其特征在于,所述方法,还包括:
确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;
将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较;
根据比较结果选择大于等于所述预设概率阈值的喷麦音频子区间组成所述待检测音频文件中的喷麦音频片段。
4.根据权利要求1所述的音频检测方法,其特征在于,所述基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段,包括:
对所述持续喷麦音频子区间进行分帧处理获得多个目标音频帧;
将所述多个目标音频帧分别进行喷麦检测,并将检测结果与喷麦检测阈值进行比较,根据比较结果组成喷麦音频序列;
在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段。
5.根据权利要求4所述的音频检测方法,其特征在于,所述在所述喷麦音频序列的持续时长大于时长阈值的情况下,根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
确定所述喷麦音频序列的持续时长;
根据预设条件确定所述时长阈值;
判断所述喷麦音频序列的持续时长是否大于等于所述时长阈值;
若是,执行所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段的步骤。
6.根据权利要求5所述的音频检测方法,其特征在于,所述根据组成所述喷麦音频序列的音频帧确定所述待检测音频文件中的喷麦音频片段,包括:
对所述喷麦音频序列进行分帧处理,获得按照时间顺序排序的多个音频帧;
选择按照时间顺序排序的多个音频帧中首次输出概率大于第一阈值的音频帧确定为初始喷麦音频帧,以及按照时间顺序排序的多个音频帧中所述初始喷麦音频帧后首次输出概率小于第二阈值的音频帧确定为末端喷麦音频帧;
确定所述初始喷麦音频帧和所述末端喷麦音频帧之间的中间喷麦音频帧,并基于所述初始喷麦音频帧、所述末端喷麦音频帧和所述中间喷麦音频帧组成所述喷麦音频片段。
7.根据权利要求1所述的音频检测方法,其特征在于,所述根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段步骤执行之后,还包括:
根据所述喷麦音频片段对所述待检测音频文件进行标准化处理,获得目标音频文件,并将所述目标音频文件进行播放;
其中,所述标准化处理包括删除所述喷麦音频片段或降低所述喷麦音频片段的能量。
8.根据权利要求1所述的音频检测方法,其特征在于,所述待检测音频文件包括下述至少一项:
客户端上传的音频文件、待播放的音频文件、待处理的音频文件。
9.一种音频检测装置,其特征在于,包括:
获取模块,被配置为获取待检测音频文件;
处理模块,被配置为基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱,按照所述幅度谱在所述待检测音频文件中提取低频特征输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
确定模块,被配置为根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段,其中,根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段包括:确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;若是,则将所述多个目标喷麦音频子区间进行整合,获得持续喷麦音频子区间;基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
10.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待检测音频文件;
基于预设帧长的处理窗以及预设时间的帧移对所述待检测音频文件进行变换,获得所述待检测音频文件对应的幅度谱,按照所述幅度谱在所述待检测音频文件中提取低频特征输入至喷麦检测模型进行处理,获得所述待检测音频文件中的喷麦音频区间和所述喷麦音频区间的喷麦概率;
根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段;
其中,根据所述喷麦音频区间和所述喷麦概率确定所述待检测音频文件中的喷麦音频片段包括:确定所述喷麦音频区间中的多个喷麦音频子区间,以及根据所述喷麦概率确定所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率;将所述多个喷麦音频子区间中的喷麦音频子区间对应的子喷麦概率与预设概率阈值进行比较,根据比较结果确定多个目标喷麦音频子区间;确定所述多个目标喷麦音频子区间在所述待检测音频文件中的音频位置,以及确定所述多个目标喷麦音频子区间对应的音频时长;根据所述音频位置和所述音频时长,判断所述多个目标喷麦音频子区间在时间维度上是否连续;若是,则将所述多个目标喷麦音频子区间进行整合,获得持续喷麦音频子区间;基于所述持续喷麦音频子区间确定所述待检测音频文件中的喷麦音频片段。
11.一种计算机可读存储介质,其特征在于,存储有计算机指令,该指令被处理器执行时实现权利要求1至8任意一项所述音频检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211792.9A CN112289340B (zh) | 2020-11-03 | 2020-11-03 | 音频检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011211792.9A CN112289340B (zh) | 2020-11-03 | 2020-11-03 | 音频检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289340A CN112289340A (zh) | 2021-01-29 |
CN112289340B true CN112289340B (zh) | 2024-05-07 |
Family
ID=74351028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011211792.9A Active CN112289340B (zh) | 2020-11-03 | 2020-11-03 | 音频检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289340B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60319796D1 (de) * | 2003-01-24 | 2008-04-30 | Sony Ericsson Mobile Comm Ab | tsdetektion |
CN104409081A (zh) * | 2014-11-25 | 2015-03-11 | 广州酷狗计算机科技有限公司 | 语音信号处理方法和装置 |
CN107507621A (zh) * | 2017-07-28 | 2017-12-22 | 维沃移动通信有限公司 | 一种噪声抑制方法及移动终端 |
CN108897516A (zh) * | 2018-06-13 | 2018-11-27 | Oppo广东移动通信有限公司 | 一种可穿戴设备音量调整方法及相关产品 |
CN109741758A (zh) * | 2019-01-14 | 2019-05-10 | 杭州微纳科技股份有限公司 | 一种双麦克风语音降噪方法 |
CN110335620A (zh) * | 2019-07-08 | 2019-10-15 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3007170A1 (en) * | 2014-10-08 | 2016-04-13 | GN Netcom A/S | Robust noise cancellation using uncalibrated microphones |
-
2020
- 2020-11-03 CN CN202011211792.9A patent/CN112289340B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60319796D1 (de) * | 2003-01-24 | 2008-04-30 | Sony Ericsson Mobile Comm Ab | tsdetektion |
CN104409081A (zh) * | 2014-11-25 | 2015-03-11 | 广州酷狗计算机科技有限公司 | 语音信号处理方法和装置 |
CN107507621A (zh) * | 2017-07-28 | 2017-12-22 | 维沃移动通信有限公司 | 一种噪声抑制方法及移动终端 |
CN108897516A (zh) * | 2018-06-13 | 2018-11-27 | Oppo广东移动通信有限公司 | 一种可穿戴设备音量调整方法及相关产品 |
CN109741758A (zh) * | 2019-01-14 | 2019-05-10 | 杭州微纳科技股份有限公司 | 一种双麦克风语音降噪方法 |
CN110335620A (zh) * | 2019-07-08 | 2019-10-15 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN112289340A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3254453B1 (en) | Conference segmentation based on conversational dynamics | |
CN107154257B (zh) | 基于客户语音情感的客服服务质量评价方法及*** | |
EP3254435B1 (en) | Post-conference playback system having higher perceived quality than originally heard in the conference | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
EP3254454B1 (en) | Conference searching and playback of search results | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
EP3254455B1 (en) | Selective conference digest | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
CN110782920B (zh) | 音频识别方法、装置及数据处理设备 | |
EP3754961A1 (en) | Post-teleconference playback using non-destructive audio transport | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
US11341986B2 (en) | Emotion detection in audio interactions | |
CN110149805A (zh) | 双向语音翻译***、双向语音翻译方法和程序 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN111883107B (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
CN112133277B (zh) | 样本生成方法及装置 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN106098081B (zh) | 声音文件的音质识别方法及装置 | |
CN112185363A (zh) | 音频处理方法及装置 | |
CN107680584B (zh) | 用于切分音频的方法和装置 | |
CN112151055B (zh) | 音频处理方法及装置 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN112289340B (zh) | 音频检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |