CN113782051B - 广播效果分类方法及***、电子设备和存储介质 - Google Patents
广播效果分类方法及***、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113782051B CN113782051B CN202110858717.XA CN202110858717A CN113782051B CN 113782051 B CN113782051 B CN 113782051B CN 202110858717 A CN202110858717 A CN 202110858717A CN 113782051 B CN113782051 B CN 113782051B
- Authority
- CN
- China
- Prior art keywords
- audio
- feature
- layer
- channel
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 191
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 53
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 25
- 238000004220 aggregation Methods 0.000 claims description 25
- 230000002123 temporal effect Effects 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 17
- 238000009432 framing Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 34
- 238000012360 testing method Methods 0.000 description 24
- 238000011156 evaluation Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 238000009527 percussion Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种广播效果分类方法及***、电子设备和存储介质,方法包括:基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别。能够提高广播效果分类的自动化程度和准确性。
Description
技术领域
本发明涉及音频智能分析技术领域,尤其涉及一种广播效果分类方法及***、电子设备和存储介质。
背景技术
中短波广播传播距离远,是没有边界的宣传阵地。为收测中短波广播电波落地效果,需要对其发播音频进行准确分类。由于广播信号是模拟信号,传输路径较为复杂,增加了对其落地音频效果的分类难度。
以往的中短波广播分类,极度依赖于人工监听,分类准确性主要取决于人员素质和人员经验,并且中短波广播由于信道环境复杂,信噪比往往较低,长时间监听对值班人员的听力造成损伤,迫切需要引入技术手段提升中短波广播效果分类的智能化水平。
现有技术中针对中短波广播效果分类,需要参考源信号进行音频对比,操作复杂,自动化程度低,并且需要依赖于人工对广播效果进行分类,分类的准确性依赖于人工经验,分类的准确性差。
因此,如何提供一种广播效果分类方法及***,提高广播效果分类的自动化程度和准确性,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种广播效果分类方法及***、电子设备和存储介质,至少解决在进行广播效果分类时自动化程度低并且准确性差的技术问题。
提供一种广播效果分类方法,包括:
基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
根据本发明提供的一种广播效果分类方法,所述基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征,具体包括:
基于待分类广播音频数据,根据预设分帧规则,确定音频帧数据集;其中,所述音频帧数据集中相邻帧连续且不重叠;
基于所述傅里叶变换,将所述音频帧数据集中每一帧内的时域信息转换为倒谱频率信息,确定所述初始音频特征。
根据本发明提供的一种广播效果分类方法,所述广播效果分类模型包括:音频特征降维层、模型注意力层和效果分类层;
所述将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别,具体包括:
将所述初始音频特征输入所述音频特征降维层中,基于所述音频特征降维层,确定低维音频特征;
将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征;
将所述目标音频特征输入所述效果分类层中,基于所述效果分类层,确定所述目标广播效果类别。
根据本发明提供的一种广播效果分类方法,所述模型注意力层包括:时间注意力层、通道注意力层、自注意力层和特征融合层;
所述将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征,具体包括:
将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征;
将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征;
将所述第二音频特征输入所述自注意力层中,基于所述自注意力层,根据自注意力机制,确定第三音频特征;
将所述第一音频特征、所述第二音频特征和所述第三音频特征输入所述特征融合层中,基于所述特征融合层,确定所述目标音频特征。
根据本发明提供的一种广播效果分类方法,所述通道注意力层包括:第一通道注意力层、第二通道注意力层和通道特征融合层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第一通道注意力层中,基于所述第一通道注意力层,根据通道注意力机制,确定第一通道音频特征;
将所述第一通道音频特征输入所述第二通道注意力层中,基于所述第二通道注意力层,根据通道注意力机制,确定第二通道音频特征;
将所述第一通道音频特征和所述第二通道音频特征输入所述通道特征融合层中,基于所述通道特征融合层,确定所述第二音频特征。
根据本发明提供的一种广播效果分类方法,所述时间注意力层包括:第一特征分割层、第一特征聚合层和时间子注意力层;
所述将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征,具体包括:
将所述低维音频特征输入所述第一特征分割层中,基于所述第一特征分割层,根据第一预设特征通道分割规则,确定第一初始特征集合;其中,所述第一初始特征集合中包括多个时间子特征;
将所述第一初始特征集合输入所述第一特征聚合层中,基于所述第一特征聚合层,根据第一预设特征处理规则处理所述时间子特征,将处理后的所述时间子特征聚合确定第一初始时间特征;
将所述第一初始时间特征输入所述时间子注意力层中,基于所述时间子注意力层,根据时间注意力机制,确定所述第一音频特征。
根据本发明提供的一种广播效果分类方法,所述通道注意力层包括:第二特征分割层、第二特征聚合层和通道子注意力层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第二特征分割层中,基于所述第二特征分割层,根据第二预设特征通道分割规则,确定第二初始特征集合;其中,所述第二初始特征集合中包括多个通道子特征;
将所述第二初始特征集合输入所述第二特征聚合层中,基于所述第二特征聚合层,根据第二预设特征处理规则处理所述通道子特征,将处理后的所述通道子特征聚合确定第二初始通道特征;
将所述第二初始通道特征输入所述通道子注意力层中,基于所述通道子注意力层,根据通道注意力机制,确定所述第二音频特征。
本发明还提供一种广播效果分类***,包括:音频特征确定单元和广播效果分类单元;
所述音频特征确定单元,用于基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
所述广播效果分类单元,用于将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述广播效果分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述广播效果分类方法的步骤。
本发明提供的广播效果分类方法及***、电子设备和存储介质,通过获取待分类广播音频数据,根据傅里叶变换,确定初始音频特征,利用训练好的广播效果分类模型中,确定目标广播效果类别。使得进行广播效果自动分类时,只需要对收测端采集的音频进行效果评估,不需要对发播端或参考源等额外音频的加工与处理,有效减少广播效果分类的步骤和智能程度,并无需依赖于分类人员的人工经验,通过神经网络统一分类标准,提高效果分类的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的广播效果分类方法流程图;
图2为本发明提供的广播效果分类模型结构示意图;
图3为本发明提供的时间注意力层结构示意图;
图4为本发明提供的广播效果分类方法流程示意图;
图5为本发明提供的广播效果分类模型测试方法流程示意图;
图6本发明提供的按照理想置信度划分免人工干预区间图;
图7为本发明提供的广播效果分类***结构示意图;
图8为本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中针对中短波广播效果分类,主要存在两种技术路线:
第一种是基于音频比对计算收测音频与参考源音频的相似度,相似度高则判断广播落地正常,相似度高则判断广播落地正常,反之则判断该频点广播被严重干扰,借助参考源音频的信息,此类方法通常能够取得不错的评估效果。
第二种是信号发射端对音频嵌入水印,并在收测端进行水印提取,若水印提取正常则表示发播正常。此类方法不依赖于参考源音频,但严重依赖于水印算法的鲁棒性,而中短波广播的信道环境复杂,信号通过电离层反射容易受到干扰,即便正常发播的中短波广播信号,在收测端往往也很难检测出嵌入的水印信息,此类方法尚有待进一步突破。
因此,上述两类方法中,第一类方法的效果的前提是存在参考源信号,然而实际往往因为某些不可预见的原因,发生参考源采集不到或中断导致缺失的问题,无法完成音频比对;第二类方法虽不需要参考源信号,但其技术鲁棒性尚未突破的缺陷。
在对本发明做详细说明之前,首先对本发明中所涉及的相关概念进行说明。
在中短波广播效果评估中,通过对象台广播与该频点正常广播音频质量对比,将结果直观的表达出来,并以此制定分类规则。分别独立评估对象台广播声音质量S1与该频点正常广播声音质量S2。
广播声音质量评分S1,S2由高到低分别为从“5”到“0”,“5”分表示广播声音质量高度清晰,毫无噪音,“0”分表示音频中无此频点广播声音。一条广播音频的评估结果由对象台广播声音质量与该频点广播声音质量对比组成,即S1/S2,其中,S1和S2满足:
S1+S2≤5
S1+S2的值越大噪音越小。例如一段音频的评估结果为“0/5”,表示该频点的正常广播声音高度清晰,完全没有噪音与对象台频点广播声音;“2/0”表示可以听到较弱的对象台广播声音且噪音较大,无该频点正常广播声音。完整的中短波广播效果分类规则对照表如表1所示。
表1为中短波广播效果分类规则对照表,表1中列举了广播效果分类中所有的分类结果。
表1中短波广播效果分类规则对照表
其中,“0/5”、“0/4”、“0/3”、“1/4”、“1/3”和“1/3”属于合格类别,特点是该频点正常广播声音较为清晰,对象台广播声音微弱或者没有,噪音较小;“5/0”、“4/0”、“3/0”、“4/1”、“3/1”和“3/2”、属于不合格类别,特点是可以听清楚对象台广播声音,该频点正常广播声音微弱,噪音较小;“0/0”、“0/1”、“0/2”、“1/0”、“1/1”、“1/2”、“2/0”、“2/1”和“2/2”属于基本合格类别,特点是噪音较大,对象台与该频点正常广播声音均不清晰,无法听清广播内容。以上对于合格,不合格和基本合格类别划分,部分评估结果可能根据实际情况调整类别,如“2/2”结果中的数据实际中可能需要划分为不合格类别。
图1为本发明提供的广播效果分类方法流程图,如图1所示,本发明实施例提供一种广播效果分类方法,包括:
步骤S1,基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
步骤S2,将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
具体的,以中短波(波长为200m~50m,频率1500kHZ~6000kHZ的无线电波)的广播音频效果分类为例对本发明进行说明。可以理解的是,该方法可以广泛的应用于音频的分类。进一步,还可以适应性的应用于其他领域,本发明对此不做限定。
在步骤S1中,基于待分类广播音频数据,根据傅里叶变换提取的音频帧对应的特征信息,确定初始音频特征。
可以理解的是,根据傅里叶变换对对音频信号进行数据处理,实际上是提取音频信号的倒谱域信息。在本发明实际应用过程中,根据傅里叶变化将音频数据转化问音频特征时,预设的分帧规则和傅里叶变换的窗宽均可根据实际情况进行调整,本发明对此不做限定。
在步骤S2中,将所述初始音频特征输入训练好的广播效果分类模型中,确定目标广播效果类别。
可以理解的是,在使用广播效果分类模型之前还需要对模型进行训练,训练模型是所使用的训练样本、训练方法和模型的具体结构均可根据实际需求进行调整,本发明对此不做限定。
本发明提供的广播效果分类方法,通过获取待分类广播音频数据,根据傅里叶变换,确定初始音频特征,利用训练好的广播效果分类模型中,确定目标广播效果类别。使得进行广播效果自动分类时,只需要对收测端采集的音频进行效果评估,不需要对发播端或参考源等额外音频的加工与处理,有效减少广播效果分类的步骤和智能程度,并无需依赖于分类人员的人工经验,通过神经网络统一分类标准,提高效果分类的准确性。
可选的,根据本发明提供的一种广播效果分类方法,所述基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征,具体包括:
基于待分类广播音频数据,根据预设分帧规则,确定音频帧数据集;其中,所述音频帧数据集中相邻帧连续且不重叠;
基于所述傅里叶变换,将所述音频帧数据集中每一帧内的时域信息转换为倒谱频率信息,确定所述初始音频特征。
具体的,基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征,具体包括:
基于待分类广播音频数据,根据预设分帧规则,将音频数据分割成若干相邻帧之间连续且不重叠的音频帧,确定音频帧数据集。
例如:根据预设分帧规则,将音频数据按照1秒1帧且无重叠的方式进行分帧,确定音频帧数据集。
基于傅里叶变换,将音频帧数据集中每一帧内的时域信息转换为倒谱频率信息,确定初始音频特征。
例如:将音频帧数据集内每一帧内数据通过短时傅里叶变换(short-timeFourier transform,或short-term Fourier transform,STFT)函数,将时域信息转换为倒谱域信息,其中傅里叶变换的窗宽为25毫秒窗移为10毫秒,统计帧内的倒谱频率信息得到直方图特征,作为分类模型输入的初始音频特征。
可以理解的是,分帧规则以及所使用的傅里叶变换的具体方法影响根据音频帧提取的音频特征的数量和模型的计算量,在本发明实际应用过程中,预设分帧规则以及所使用的傅里叶变换的具体方法,均可根据实际需求进行设置,本发明对此不做限定。
本发明提供的广播效果分类方法,通过预设分帧规则和傅里叶变换,能够的提取音频数据的高维初始音频特征,充分的反应了音频各个方面的特征信息,将其作为广播效果分类模型的输入进行识别,确定目标广播效果类别,能够有效的提高分类的准确性。并且,分类过程无需人工参与,深度学习强大建模能力使得本发明方法预测类别与人工打分标签的基本一致率大幅提高。
可选的,根据本发明提供的一种广播效果分类方法,所述广播效果分类模型包括:音频特征降维层、模型注意力层和效果分类层;
所述将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别,具体包括:
将所述初始音频特征输入所述音频特征降维层中,基于所述音频特征降维层,确定低维音频特征;
将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征;
将所述目标音频特征输入所述效果分类层中,基于所述效果分类层,确定所述目标广播效果类别。
具体的,由于音频信号的幅度谱是高维的(包括:人声、白噪声和频率等),包含冗余信息的特征,使得根据特征进行分类时,分类器无法从中提取有效的低维和去冗余表示,导致增加后续的计算成本并降低整体分类性能,原数据的样本密度在高维特征空间中大幅减少,对模型分类参数(即其决策边界)的准确估计变得更加困难。
为了解决上述问题,本发明对初始音频特征进行降维,并通过注意力机制确定目标音频特征。通过将音频中信道和上下文相关性特征进行聚集的方式,提高分类的准确性。
广播效果分类模型包括:音频特征降维层、模型注意力层和效果分类层。将初始音频特征输入广播效果分类模型中,确定目标广播效果类别,具体包括:
将初始音频特征输入音频特征降维层中,基于音频特征降维层,对初始音频数据进行降维,以完成音频幅度谱的低维和去冗余表示,确定低维音频特征。
例如:图2为本发明提供的广播效果分类模型结构示意图,如图2所示,根据卷积神经网络能够从混杂的频域信号中提取具有高度判别力和平移不变性的特征,使用一个卷积核为1×1的卷积层搭配Relu激活函数对音频特征进行非线性变换,对初始音频特征进行降维,得到一个512维的低维音频特征的特征向量。
可以理解的是,在将初始音频数据进行降维确定低维音频数据时,所使用的模型的具体结构,以及维度变化规则,可根据实际需求进行调整,本发明对此不做限定。
将低维音频特征输入模型注意力层中,基于模型注意力层,根据注意力机制,突出低维音频特征中更重重要的特征信息,确定目标音频特征。
可以理解的是,注意力机制的类型包括:自注意力机制、空间注意力机制、时间注意力机制、通道注意力机制和混合注意力机制等,在本发明实际应用过程中,所使用的注意力机制类型可根据实际情况进行设置,本发明对此不做限定。
将目标音频特征输入效果分类层中,基于效果分类层,对目标音频特征进行分类,确定待分类广播音频数据对应的目标广播效果类别。
可以理解的是,输出的目标广播效果类别可以是预测概率最大的类别,也可以是输出所有类别以及对应的概率,或者设置预设数量的类别进行输出(输出概率排名前三的类别),具体的输出类型可根据实际需求进行设置,本发明对此不做限定。
需要说明的是,效果分类层所能分类的具体类别是训练广播效果分类模型时确定的,在确定广播效果分类模型的样本集时,确定样本数据的类别,具体的类别可根据实际情况进行设置,本发明对此不做限定。
进一步,可以理解的是,效果分类层可选取多专家分类模型,根据训练数据的来源不同,可以同时训练多专家分类模型并将其通过非线性方式整合到一个单独的任务中。
多专家分类模型的特点是根据数据来源不同分离训练多个不同的分类模型,各个分类模型称为“专家”,并同时训练门控模型来选择调用不同的“专家”分类模型。最终的分类结果是各个“专家”分类模型与门控模型的权重组合。
在本发明实际应用过程中,模型的具体结构可以是基于ResNet模型、Res2Net模型、自注意力网络模型、VGGNet模型、AlexNet模型与GoogleNet模型等确定的,效果分类层可以是基于Moe模型与全连接模型等确定的,训练模型时可以使用焦点损失(FocalLoss)函数与交叉熵损失(Cross-entropy loss)函数等损失函数。广播效果分类模型的具体结构和训练方法可根据实际情况进行设置,本发明对此不做限定。
本发明提供的广播效果分类方法,通过构建广播效果分类模型,模仿人类进行效果评估时采取的打分分类行为,将音频效果评估问题转换成一个特定的音频效果分类问题进行处理,并通过对初始音频特征进行降维,结合注意力机制,提高广播效果分类的准确性。基于深度神经网络强大的非线性建模能力构建各类别音频的基因画像,以此来逼近学习人类的打分行为,最后把机器预测标签映射成人类打分标签。
并且,本发明构建广播效果分类模型对分类结果进行识别,相比于现有技术中其他方案,本发明外部依赖少,支持高内聚、低耦合的***集成,支持插件式灵活开发,本发明方法不规定特定深度神经网络模型,符合接口要求的新模型均可以接入,实现方法的灵活应用。
可选的,根据本发明提供的一种广播效果分类方法,所述模型注意力层包括:时间注意力层、通道注意力层、自注意力层和特征融合层;
所述将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征,具体包括:
将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征;
将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征;
将所述第二音频特征输入所述自注意力层中,基于所述自注意力层,根据自注意力机制,确定第三音频特征;
将所述第一音频特征、所述第二音频特征和所述第三音频特征输入所述特征融合层中,基于所述特征融合层,确定所述目标音频特征。
具体的,本发明提供通过时间注意力层、通道注意力层和自注意力层,实现特征的多维注意力混合处理,完成特征注意力的确定。
如图2所示,模型注意力层包括:时间注意力层、通道注意力层、自注意力层和特征融合层。将低维音频特征输入模型注意力层中,基于模型注意力层,根据注意力机制,确定目标音频特征,具体包括:
将低维音频特征输入时间注意力层中,基于时间注意力层,根据时间注意力机制,对不同的音频帧分配不同的权重,增加关键音频帧在全局中的权重,确定第一音频特征。
将第一音频特征输入通道注意力层中,基于通道注意力层,根据通道注意力机制,对不同的音频特征通道分配权重,从复杂的高维空间中增强重要的特征通道,抑制无用的特征通道,确定第二音频特征。
将第二音频特征输入自注意力层中,基于自注意力层,根据自注意力机制,计算每一时间帧之间相互的联系,增强音频中语义信息的提取能力,确定第三音频特征。
将分别从时间注意力层、通道注意力层和自注意力层中获取的第一音频特征、第二音频特征和第三音频特征输入特征融合层中,基于特征融合层,将三个不同的音频特征进行组合,确定目标音频特征。
可以理解的是,在本发明中时间注意力层、通道注意力层、自注意力层和特征融合层的具体结构可根据实际需求进行设置,本发明对此不做限定。
本发明提供的广播效果分类方法,通过多维注意力机制的地位特征处理方式,能够有效的增加关键音频帧在全局中的权重,增强重要的通道特征,并增强音频中语义信息的提取能力。有效的提高模型性能,增强目标音频特征反应关键音频信息的能力,提高分类结果的准确性。
并且按顺序利用时间注意力机制、通道注意力机制和自注意力机制对低维音频特征进行处理,在时间上对音频帧进行筛选,有效的剔除无关的音频帧,有利于使后续通道注意力机制和自注意力机制的处理更具有针对性,并降低所需的计算资源,提高分类识别的速度。
可选的,根据本发明提供的一种广播效果分类方法,所述通道注意力层包括:第一通道注意力层、第二通道注意力层和通道特征融合层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第一通道注意力层中,基于所述第一通道注意力层,根据通道注意力机制,确定第一通道音频特征;
将所述第一通道音频特征输入所述第二通道注意力层中,基于所述第二通道注意力层,根据通道注意力机制,确定第二通道音频特征;
将所述第一通道音频特征和所述第二通道音频特征输入所述通道特征融合层中,基于所述通道特征融合层,确定所述第二音频特征。
具体的,本发明采用双层通道注意力机制增强音频的通道特征。如图2所示,通道注意力层包括:第一通道注意力层、第二通道注意力层和通道特征融合层。将第一音频特征输入通道注意力层中,基于通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将第一音频特征输入第一通道注意力层中,基于第一通道注意力层,根据通道注意力机制,对不同的音频特征通道分配权重,从复杂的高维空间中增强重要的特征通道,抑制无用的特征通道,确定第一通道音频特征。
将第一通道音频特征输入第二通道注意力层中,基于第二通道注意力层,根据通道注意力机制,进一步,在上一次的基础上,对不同的音频特征通道分配权重,从复杂的高维空间中增强重要的特征通道,抑制无用的特征通道,确定第二通道音频特征。
将第一通道音频特征和第二通道音频特征输入通道特征融合层中,基于通道特征融合层,将三个不同的通道音频特征进行组合,确定第二音频特征。
本发明提供的广播效果分类方法,通过设置双层通道注意力机制的方法,进一步增强音频的通道特征,有效的提高目标音频特征反应关键音频通道信息的能力,提高分类结果的准确性。能够准确分析出中短波广播中该频点正常广播对其他广播干扰情况并给出识别结果,实现自动化广播效果的分类。
可选的,根据本发明提供的一种广播效果分类方法,所述时间注意力层包括:第一特征分割层、第一特征聚合层和时间子注意力层;
所述将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征,具体包括:
将所述低维音频特征输入所述第一特征分割层中,基于所述第一特征分割层,根据第一预设特征通道分割规则,确定第一初始特征集合;其中,所述第一初始特征集合中包括多个时间子特征;
将所述第一初始特征集合输入所述第一特征聚合层中,基于所述第一特征聚合层,根据第一预设特征处理规则处理所述时间子特征,将处理后的所述时间子特征聚合确定第一初始时间特征;
将所述第一初始时间特征输入所述时间子注意力层中,基于所述时间子注意力层,根据时间注意力机制,确定所述第一音频特征。
具体的,为了提高音频特征的非线性表达能力,本发明中时间注意力层包括:第一特征分割层、第一特征聚合层和时间子注意力层。将低维音频特征输入时间注意力层中,基于时间注意力层,根据时间注意力机制,确定第一音频特征,具体包括:
将低维音频特征输入第一特征分割层中,基于第一特征分割层,根据第一预设特征通道分割规则,将低维音频特征分割为多个时间子特征,根据所有时间子特征,确定第一初始特征集合。
例如:图3为本发明提供的时间注意力层结构示意图,如图3所示,低维音频特征为512维,根据第一预设特征通道分割规则,将低维音频特征按照通道数均分为4份,每一份为128维。记第一初始特征集合为xi的集合,其中i∈{1,2,3,4}。
将第一初始特征集合输入第一特征聚合层中,基于第一特征聚合层,根据第一预设特征处理规则处理时间子特征,将处理后的时间子特征聚合确定第一初始时间特征。
例如:第一预设特征处理规则,将xi通过与其对应的3×3卷积进行Ki()映射变换之后得到yi,计算公式如下:
再将得到的yi通过一层1×1卷积层进行特征聚合,确定第一初始时间特征。
将第一初始时间特征输入时间子注意力层中,基于时间子注意力层,根据时间注意力机制,对不同的音频帧分配不同的权重,增加关键音频帧在全局中的权重,确定第一音频特征。
可以理解的是,上述第一预设特征通道分割规则和第一预设特征处理规则,仅作为一个具体的例子对本发明进行说明,除此之外,还可根据实际需求对规则进行调整(例如:调整分类的方式、分类的数量和卷积层的类型等),本发明对此不做限定。
进一步,可以理解的是,上述时间注意力层的网络结构类似Res2Net模型结构,在本发明实际应用过程中,模型的具体结构可根据实际情况进行设置,本发明对此不做限定。
本发明提供的广播效果分类方法,通过第一预设特征通道分割规则,将特征分割为多个子特征,并根据和第一预设特征处理规则对自帖子进行处理,将处理后的子特征进行聚合,能够有效的提高音频特征的非线性表达能力,进而提高模型的识别分类的准确性。
可选的,根据本发明提供的一种广播效果分类方法,所述通道注意力层包括:第二特征分割层、第二特征聚合层和通道子注意力层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第二特征分割层中,基于所述第二特征分割层,根据第二预设特征通道分割规则,确定第二初始特征集合;其中,所述第二初始特征集合中包括多个通道子特征;
将所述第二初始特征集合输入所述第二特征聚合层中,基于所述第二特征聚合层,根据第二预设特征处理规则处理所述通道子特征,将处理后的所述通道子特征聚合确定第二初始通道特征;
将所述第二初始通道特征输入所述通道子注意力层中,基于所述通道子注意力层,根据通道注意力机制,确定所述第二音频特征。
具体的,为了提高音频特征的非线性表达能力,本发明中通道注意力层包括:第二特征分割层、第二特征聚合层和通道子注意力层。将第一音频特征输入通道注意力层中,基于通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将第一音频特征输入第二特征分割层中,基于第二特征分割层,根据第二预设特征通道分割规则,将第一音频特征分割成多个通道子特征,根据所有通道子特征,确定第二初始特征集合。
可以理解的是,第二预设特征通道分割规则设置规则与第一预设特征通道分割规则设置规则可以设置相同也可以不同,具体设置规则可根据实际情况进行调整,本发明对此不做限定。
将第二初始特征集合输入第二特征聚合层中,基于第二特征聚合层,根据第二预设特征处理规则处理通道子特征,将处理后的通道子特征聚合确定第二初始通道特征。
可以理解的是,第二预设特征处理规则与第一预设特征处理规则可以设置相同也可以不同,具体设置规则可根据实际情况进行调整,本发明对此不做限定。
将第二初始通道特征输入通道子注意力层中,基于通道子注意力层,根据通道注意力机制,确定第二音频特征。
可以理解的是,第二预设特征通道分割规则和第二预设特征处理规则的实例与上述第一预设特征通道分割规则和第一预设特征处理规则的实例相同,仅作为一个具体的例子对本发明进行说明,除此之外,还可根据实际需求对规则进行调整(例如:调整分类的方式、分类的数量和卷积层的类型等),本发明对此不做限定。
进一步,可以理解的是,上述通道注意力层的网络结构类似Res2Net模型结构,在本发明实际应用过程中,模型的具体结构可根据实际情况进行设置,本发明对此不做限定。
本发明提供的广播效果分类方法,通过第二预设特征通道分割规则,将特征分割为多个子特征,并根据和第二预设特征处理规则对自帖子进行处理,将处理后的子特征进行聚合,能够有效的提高音频特征的非线性表达能力,进而提高模型的识别分类的准确性。
以下结合本发明对广播效果分类模型的具体方法,对本发明进行详细说明。
可以理解的是,图4为本发明提供的广播效果分类方法流程示意图,如图4所示,在对待分类广播音频进行分类之前,还需要对广播效果分类模型进行训练和测试。
例如:在训练数据准备中,以上述表一对应的分类规则为基础制定训练用分类体系,表2为广播效果分类规则与训练用分类体系对照表,如表2所示,将训练数据分为纯噪音、无法分辨、基本合格、合格、不合格、音乐、外国语与打击乐等8个类别。
其中,纯噪音代表音频中包括较多的白噪音,完全听不见广播声音,或者完全静音;无法分辨代表音频中噪音很大,除噪音外能够听到一点广播声音,但是听不清内容并不能确认说话人是否来自对象台广播;基本合格代表音频含有微弱的来自干扰广播的声音且无法听清讲述内容,噪音较大;合格代表音频中包含较为清晰的该频点正常广播声音并能听清其内容,并且几乎没有对象台广播的声音;不合格代表音频中包含较为清晰的对象台广播声音并能听清其内容;音乐代表音频数据由歌曲,片头曲等组成;外国语代表音频数据由英语,日语和韩语等外国语组成;打击乐代表音频数据由唢呐等打击乐组成。
表2广播效果分类规则与训练用分类体系对照表
广播效果分类规则中的分类结果 | 训练用分类体系中的类别 |
0/0 | 纯噪音 |
0/1,1/0,1/1 | 无法分辨 |
5/0,4/0,3/0,4/1,3/1,3/2 | 不合格语音 |
1/2,2/1,2/0,0/2,2/2,1/2 | 基本合格语音 |
0/5,0/4,0/3,1/4,1/3,2/3 | 合格语音 |
音乐 | 音乐 |
外国语 | 外国语 |
打击乐 | 打击乐 |
由于从不同接收机采集的中短波广播音频质量有所不同,因此为了提高来自不同接收机采集的中短波广播分类准确率,需要保证训练数据分布情况与待测数据分布情况相似,训练阶段使用的数据集包括85%的通用广播音频训练数据与15%该频点广播音频训练数据。
其中通用广播音频训练数据包括从各个频点接收机采集到的具有代表性的广播音频数据,该频点广播音频数据包括专门从该频点接收机采集的广播音频数据。
将数据集随机打乱后按照9:1的比例划分为训练集与测试集,用于神经网络模型的训练和评估,并选取部分该频点广播音频数据作为测试集,通用广播音频训练数据规模及条目统计如表3所示,该频点广播音频训练数据规模及条目统计如表4所示,测试集规模及条目统计如表5所示。
表3通用广播音频训练数据规模及条目统计
表4该频点广播音频训练数据规模及条目统计
表5测试集规模及条目统计
/>
在确定了音频数据集之后,对音频数据进行解码,通过数据增强技术扩充数据集,并将音频数据按照1秒1帧且无重叠的方式进行分帧,帧内数据通过短时傅里叶变换将时域信息转换为倒谱域信息,其中傅里叶变换的窗宽为25毫秒窗移为10毫秒,统计帧内的倒谱频率信息得到直方图特征,作为分类模型的输入的音频特征。
可以理解的是,数据增强可以有效扩大数据集规模,明显提高神经网络模型效果。数据增强的操作中包括随机改变音频速率,随机改变音频节奏和随机对音频数据进行压缩等操作,在不改变原音频信息的前提下对音频进行一定程度的变换。所采用的具体方法可根据实际情况进行设置,本发明对此不做限定。
以训练集对应的音频特征训练广播效果分类模型,在训练完成后,以测试集对应的音频特征对训练好的广播效果分类模型进行测试,根据广播效果分类结果的准确性,确定广播效果分类模型是否训练成功。
进一步,为了验证中短波广播效果分类的准确性,需要对训练的广播效果分类模型测试结果进行验证。将分类结果中不合格类别与外国语类别视为不合格,其他类别视为合格。
如表6所示,忽略合格与不合格音频内部类别差异。在测试集中的整体确率达到97%,各类别的准确率与召回率统计表如表7所示。
表6分类体系中合格音频与不合格音频的划分
/>
表7分类模型测试中各类别的准确率和召回率统计表
图5为本发明提供的广播效果分类模型测试方法流程示意图,如图5所示,测试阶段包括以下步骤:
将经过数据增强和短时傅里叶变换确定测试集音频数据对应的音频特征,并将音频特征输入广播效果分类模型中,计算得到表2分类体系中所有类别的概率分布作为预测结果,并确定置信度。
模型测试结果中包括对该条语音的分类结果与置信度,通过统计不同置信度下的准确率(如表8所示)发现,测试结果的置信度与准确率成正相关。
图6本发明提供的按照理想置信度划分免人工干预区间图,如图6所示,经过大规模测试,根据不同的类别的判别情况,确定该类别下准确率接近100%的置信度区间(如表9、图6所示),以此作为理想置信度阈值,置信度高于理想置信度的数据可以跳过人工评估,从而达到节省工作量的目的。
测试实验中,经过后处理理想置信度阈值以上的数据占全部数据的79%,其准确度为99.5%,无需人工评估。
表8不同置信度下各类别召回率与精确率统计表
表9理想置信度下各类别测试结果统计表
可以理解的是,在实际的评估业务中,可以直接使用该方法预测的得到的结果作为最终分类结果,也可以将模型预测与人工校验结合,即选取后处理中的理想置信度以上数据的测试结果作为最终评估结果,剩下的数据再进行人工校验,减少工作量。
本发明的目的在于,对于前端接收机采集的音频数据,使用神经网络技术准确评估中短波广播效果,并将其中未能成功干扰广播的音频筛选出来,整体准确率高达97%。通过结果后处理操作,使部分类别音频准确率接近100%,从而可以达到节省工作量的目的。
可以理解的是,上述确定广播效果分类模型训练集和测试集的方法仅作为一个具体的例子对本发明进行说明,除此之外,样本中广播音频分类的具体规则、各类别样本数量、测试集训练集比例、模型的结构和模型的训练方法,均可根据实际情况进行设置,本发明对此不做限定。
图7为本发明提供的广播效果分类***结构示意图,如图7所示,本发明还提供一种广播效果分类***,包括:音频特征确定单元710和广播效果分类单元720;
所述音频特征确定单元710,用于基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
所述广播效果分类单元720,用于将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
具体的,以中短波(波长为200m~50m,频率1500kHZ~6000kHZ的无线电波)的广播音频效果分类为例对本发明进行说明。可以理解的是,该方法可以广泛的应用于音频的分类。进一步,还可以适应性的应用于其他领域,本发明对此不做限定。
音频特征确定单元710,用于基于待分类广播音频数据,根据傅里叶变换提取的音频帧对应的特征信息,确定初始音频特征。
可以理解的是,根据傅里叶变换对对音频信号进行数据处理,实际上是提取音频信号的倒谱域信息。在本发明实际应用过程中,根据傅里叶变化将音频数据转化问音频特征时,预设的分帧规则和傅里叶变换的窗宽均可根据实际情况进行调整,本发明对此不做限定。
广播效果分类单元720,用于将所述初始音频特征输入训练好的广播效果分类模型中,确定目标广播效果类别。
可以理解的是,在使用广播效果分类模型之前还需要对模型进行训练,训练模型是所使用的训练样本、训练方法和模型的具体结构均可根据实际需求进行调整,本发明对此不做限定。
本发明提供的广播效果分类方法,通过获取待分类广播音频数据,根据傅里叶变换,确定初始音频特征,利用训练好的广播效果分类模型中,确定目标广播效果类别。使得进行广播效果自动分类时,只需要对收测端采集的音频进行效果评估,不需要对发播端或参考源等额外音频的加工与处理,有效减少广播效果分类的步骤和智能程度,并无需依赖于分类人员的人工经验,通过神经网络统一分类标准,提高效果分类的准确性。
需要说明的是,本发明提供的广播效果分类***用于执行上述广播效果分类方法,其具体的实施方式与方法实施方式一致,在此不再赘述。
图8为本发明提供的广播效果分类***结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行广播效果分类方法,该方法包括:基于待分类广播音频数据,根据预设分帧规则,确定初始音频特征;将初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的广播效果分类方法,该方法包括:基于待分类广播音频数据,根据预设分帧规则,确定初始音频特征;将初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的广播效果分类方法,该方法包括:基于待分类广播音频数据,根据预设分帧规则,确定初始音频特征;将初始音频特征输入广播效果分类模型中,确定目标广播效果类别。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种广播效果分类方法,其特征在于,包括:
基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别;
所述广播效果分类模型包括:音频特征降维层、模型注意力层和效果分类层;
所述将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别,具体包括:
将所述初始音频特征输入所述音频特征降维层中,基于所述音频特征降维层,确定低维音频特征;
将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征;
将所述目标音频特征输入所述效果分类层中,基于所述效果分类层,确定所述目标广播效果类别;
所述模型注意力层包括:时间注意力层、通道注意力层、自注意力层和特征融合层;
所述将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征,具体包括:
将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征;
将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征;
将所述第二音频特征输入所述自注意力层中,基于所述自注意力层,根据自注意力机制,确定第三音频特征;
将所述第一音频特征、所述第二音频特征和所述第三音频特征输入所述特征融合层中,基于所述特征融合层,确定所述目标音频特征。
2.根据权利要求1所述的广播效果分类方法,其特征在于,所述基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征,具体包括:
基于待分类广播音频数据,根据预设分帧规则,确定音频帧数据集;其中,所述音频帧数据集中相邻帧连续且不重叠;
基于所述傅里叶变换,将所述音频帧数据集中每一帧内的时域信息转换为倒谱频率信息,确定所述初始音频特征。
3.根据权利要求1所述的广播效果分类方法,其特征在于,
所述通道注意力层包括:第一通道注意力层、第二通道注意力层和通道特征融合层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第一通道注意力层中,基于所述第一通道注意力层,根据通道注意力机制,确定第一通道音频特征;
将所述第一通道音频特征输入所述第二通道注意力层中,基于所述第二通道注意力层,根据通道注意力机制,确定第二通道音频特征;
将所述第一通道音频特征和所述第二通道音频特征输入所述通道特征融合层中,基于所述通道特征融合层,确定所述第二音频特征。
4.根据权利要求1所述的广播效果分类方法,其特征在于,
所述时间注意力层包括:第一特征分割层、第一特征聚合层和时间子注意力层;
所述将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征,具体包括:
将所述低维音频特征输入所述第一特征分割层中,基于所述第一特征分割层,根据第一预设特征通道分割规则,确定第一初始特征集合;其中,所述第一初始特征集合中包括多个时间子特征;
将所述第一初始特征集合输入所述第一特征聚合层中,基于所述第一特征聚合层,根据第一预设特征处理规则处理所述时间子特征,将处理后的所述时间子特征聚合确定第一初始时间特征;
将所述第一初始时间特征输入所述时间子注意力层中,基于所述时间子注意力层,根据时间注意力机制,确定所述第一音频特征。
5.根据权利要求1所述的广播效果分类方法,其特征在于,所述通道注意力层包括:第二特征分割层、第二特征聚合层和通道子注意力层;
所述将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征,具体包括:
将所述第一音频特征输入所述第二特征分割层中,基于所述第二特征分割层,根据第二预设特征通道分割规则,确定第二初始特征集合;其中,所述第二初始特征集合中包括多个通道子特征;
将所述第二初始特征集合输入所述第二特征聚合层中,基于所述第二特征聚合层,根据第二预设特征处理规则处理所述通道子特征,将处理后的所述通道子特征聚合确定第二初始通道特征;
将所述第二初始通道特征输入所述通道子注意力层中,基于所述通道子注意力层,根据通道注意力机制,确定所述第二音频特征。
6.一种广播效果分类***,其特征在于,包括:音频特征确定单元和广播效果分类单元;
所述音频特征确定单元,用于基于待分类广播音频数据,根据傅里叶变换,确定初始音频特征;
所述广播效果分类单元,用于将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别;
所述广播效果分类模型包括:音频特征降维层、模型注意力层和效果分类层;
所述将所述初始音频特征输入广播效果分类模型中,确定目标广播效果类别,具体包括:
将所述初始音频特征输入所述音频特征降维层中,基于所述音频特征降维层,确定低维音频特征;
将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征;
将所述目标音频特征输入所述效果分类层中,基于所述效果分类层,确定所述目标广播效果类别;
所述模型注意力层包括:时间注意力层、通道注意力层、自注意力层和特征融合层;
所述将所述低维音频特征输入所述模型注意力层中,基于所述模型注意力层,根据注意力机制,确定目标音频特征,具体包括:
将所述低维音频特征输入所述时间注意力层中,基于所述时间注意力层,根据时间注意力机制,确定第一音频特征;
将所述第一音频特征输入所述通道注意力层中,基于所述通道注意力层,根据通道注意力机制,确定第二音频特征;
将所述第二音频特征输入所述自注意力层中,基于所述自注意力层,根据自注意力机制,确定第三音频特征;
将所述第一音频特征、所述第二音频特征和所述第三音频特征输入所述特征融合层中,基于所述特征融合层,确定所述目标音频特征。
7.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一项所述的广播效果分类方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述的广播效果分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110858717.XA CN113782051B (zh) | 2021-07-28 | 2021-07-28 | 广播效果分类方法及***、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110858717.XA CN113782051B (zh) | 2021-07-28 | 2021-07-28 | 广播效果分类方法及***、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782051A CN113782051A (zh) | 2021-12-10 |
CN113782051B true CN113782051B (zh) | 2024-03-19 |
Family
ID=78836229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110858717.XA Active CN113782051B (zh) | 2021-07-28 | 2021-07-28 | 广播效果分类方法及***、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782051B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694685A (zh) * | 2022-04-12 | 2022-07-01 | 北京小米移动软件有限公司 | 语音质量评估方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2926335A1 (en) * | 2012-11-29 | 2015-10-07 | Sony Computer Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN111312288A (zh) * | 2020-02-20 | 2020-06-19 | 阿基米德(上海)传媒有限公司 | 一种广播音频事件处理方法、***和计算机可读存储介质 |
CN112447189A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676405B2 (en) * | 2005-06-01 | 2010-03-09 | Google Inc. | System and method for media play forecasting |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
-
2021
- 2021-07-28 CN CN202110858717.XA patent/CN113782051B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2926335A1 (en) * | 2012-11-29 | 2015-10-07 | Sony Computer Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN111312288A (zh) * | 2020-02-20 | 2020-06-19 | 阿基米德(上海)传媒有限公司 | 一种广播音频事件处理方法、***和计算机可读存储介质 |
CN112447189A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113782051A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
WO2021159902A1 (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN113488063A (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN113782051B (zh) | 广播效果分类方法及***、电子设备和存储介质 | |
CN109903749B (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别*** | |
CN110299133B (zh) | 基于关键字判定非法广播的方法 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
CN116386669A (zh) | 基于分组自动编码器的机器运行声学状态监测方法和*** | |
CN116432664A (zh) | 一种高质量数据扩增的对话意图分类方法及*** | |
CN115050350A (zh) | 标注检查方法及相关装置、电子设备、存储介质 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
Islam et al. | Non-intrusive objective evaluation of speech quality in noisy condition | |
CN114898757A (zh) | 声纹确认模型训练方法、装置、电子设备和存储介质 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN111951786A (zh) | 声音识别模型的训练方法、装置、终端设备及介质 | |
Xie et al. | Image processing and classification procedure for the analysis of australian frog vocalisations | |
CN116403597B (zh) | 用于大屏看板的数据自动抓取及状态更新方法 | |
CN116631406B (zh) | 基于声学特征生成的身份特征提取方法、设备及存储介质 | |
CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 | |
Madhu et al. | SiamNet: Siamese CNN Based Similarity Model for Adversarially Generated Environmental Sounds | |
Martin-Morato et al. | Performance analysis of audio event classification using deep features under adverse acoustic conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |