CN111653290A - 音频场景分类模型生成方法、装置、设备以及存储介质 - Google Patents
音频场景分类模型生成方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111653290A CN111653290A CN202010479961.0A CN202010479961A CN111653290A CN 111653290 A CN111653290 A CN 111653290A CN 202010479961 A CN202010479961 A CN 202010479961A CN 111653290 A CN111653290 A CN 111653290A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- audio
- audio scene
- scene classification
- spectrograms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000008569 process Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002349 favourable effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了音频场景分类模型生成方法、装置、设备以及存储介质,涉及深度学习技术领域。方法包括:基于多个音频样本生成多个频谱图集合;基于多个频谱图集合,生成多个样本数据集;基于多个样本数据集,对待训练的音频场景分类模型进行训练,得到训练后的音频场景分类模型;其中,基于多个频谱图集合中的第一频谱图集合,生成第一样本数据集的过程包括:对第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图;将得到的多个新的频谱图加入第一频谱图集合中,并将第一频谱图集合和第一音频场景标签作为第一样本数据集,第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。本申请提高音频场景预测的准确率。
Description
技术领域
本申请涉及深度学习领域,尤其涉及音频处理技术领域。
背景技术
音频场景分类指根据音频信号输入分辨信号源所处场景或活动类别, 是目前音频信号处理领域的研究热点之一。随着智能移动硬件设备的普及, 被广泛应用于野生户外、家庭室内、工业现场等环境监测中。随着深度学 习的发展,音频场景分类准确率逐渐提升,但也对音频数量提出了较高的 需求。
发明内容
本申请提供了一种用于音频场景分类模型生成方法、装置、设备以及 存储介质。
根据本申请的第一方面,提供了一种音频场景分类模型生成方法,包 括:
基于多个音频样本生成多个频谱图集合;
基于多个频谱图集合,生成多个样本数据集;
基于多个样本数据集,对待训练的音频场景分类模型进行训练,得到 训练后的音频场景分类模型;
其中,基于多个频谱图集合中的第一频谱图集合,生成第一样本数据 集的过程,包括:
对第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个 新的频谱图,其中拼接处理包括将第一频谱图中的第一区域和第二频谱图 的第二区域拼接为一个新的频谱图;
将得到的多个新的频谱图加入第一频谱图集合中,并将第一频谱图集 合和第一音频场景标签作为第一样本数据集,第一音频场景标签为生成第 一频谱图集合的音频样本对应的音频场景标签。
根据本申请的第二方面,提供了一种音频场景分类方法,包括:
基于目标音频生成多个目标频谱图;
将多个目标频谱图输入音频场景分类模型,得到多个目标频谱图的音 频场景分类结果;
根据多个目标频谱图的场景分类结果,确定目标音频所属的音频场景;
其中,音频场景分类模型为上述第一方面的音频场景分类模型生成方 法生成的音频场景分类模型。
根据本申请的第三方面,提供了一种音频场景分类模型生成装置,包 括:
第一生成模块,用于基于多个音频样本生成多个频谱图集合;
第二生成模块,用于基于多个频谱图集合,生成多个样本数据集;
训练模块,用于基于多个样本数据集,对待训练的音频场景分类模型 进行训练,得到训练后的音频场景分类模型;
其中,第一生成模块包括:
频谱图拼接子模块,用于对多个频谱图集合中第一频谱图集合中的每 两个相邻的频谱图进行拼接处理,得到多个新的频谱图,拼接处理包括将 第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱 图;
样本数据集处理子模块,用于将得到的多个新的频谱图加入第一频谱 图集合中,并将第一频谱图集合和第一音频场景标签作为第一样本数据集, 第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标 签。根据本申请的第四方面,提供了一种音频场景分类模型生成装置,包 括:
根据本申请的第四方面,提供了一种音频场景分类装置,包括:
频谱图生成模块,用于根据目标音频转生成多个目标频谱图;
音频场景分类模型,用于对输入的多个目标频谱图进行处理,得到所 述多个目标频谱图的音频场景分类结果;其中,所述音频场景分类模型为 上述第一方面所述的音频场景分类模型生成方法生成的音频场景分类模 型;
场景确定模块,用于根据所述多个目标频谱图的场景分类结果,确定 所述目标音频所属的音频场景。
本申请实施例基于频谱图集合中的多个频谱图,通过图像拼接技术, 得到多个新的频谱图以扩充训练数据的扩展,新的频谱图可以直接沿用原 始音频样本的场景标签,因此,本申请实施例无需增加新的音频样本和人 工标注工作量,扩充了训练数据,提高了训练效果,可提高模型对音频场 景分类的准确度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键 或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的音频场景分类模型生成方法的流程图一;
图2是根据本申请实施例的音频场景分类模型生成方法的流程图二;
图3是根据本申请实施例的拼接处理的示例图;
图4是根据本申请实施例的音频场景分类模型生成方法的流程图三;
图5是根据本申请实施例的音频场景分类模型的结构图;
图6是根据本申请实施例的音频场景分类模型生成方法的一示例图;
图7是根据本申请实施例的音频场景分类方法的流程图一;
图8是根据本申请实施例的音频场景分类方法的流程图二;
图9是根据本申请实施例的音频场景分类模型生成装置的结构图一;
图10是根据本申请实施例的音频场景分类模型生成装置的结构图二;
图11是根据本申请实施例的音频场景分类模型生成装置的结构图三;
图12是根据本申请实施例的音频场景分类装置的结构图一;
图13是根据本申请实施例的音频场景分类装置的结构图二;
图14是用来实现本申请实施例的音频场景分类模型训练以及音频场 景分类的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
参见图1,图1所示为本申请实施例提供一种音频场景分类模型生成 方法,应用于深度学习技术领域,方法包括:
S101、基于多个音频样本生成多个频谱图集合;
S103、基于多个频谱图集合,生成多个样本数据集;
S105、基于多个样本数据集,对待训练的音频场景分类模型进行训练, 得到训练后的音频场景分类模型;
其中,步骤S101中基于多个频谱图集合中的第一频谱图集合,生成 第一样本数据集的过程,可参见图2,包括:
S201、对第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得 到多个新的频谱图,其中拼接处理包括将第一频谱图中的第一区域和第二 频谱图的第二区域拼接为一个新的频谱图;
S203、将得到的多个新的频谱图加入第一频谱图集合中,并将第一频 谱图集合和第一音频场景标签作为第一样本数据集,第一音频场景标签为 生成第一频谱图集合的音频样本对应的音频场景标签。
这样处理的好处是,本实施例根据音频样本生成多个频谱图,得到模 型的训练数据,从而将音频识别问题转换为图像识别问题,有利于实现音 频分类场景模型对特征的提取,进而提高模型的分类效果。在此基础上, 基于频谱图集合中的多个频谱图,通过图像拼接技术,即可得到多个新的 频谱图以扩充训练数据的扩展,而且新的频谱图可以直接沿用原始音频样 本的场景标签。因此,本实施例无需增加新的音频样本和人工标注工作量, 扩充了训练数据,提高了训练效果,提高了模型预测准确度。
本实施例采用的音频样本对应的音频场景可以包括:野生户外、家庭 室内、工业现场、商场超市、公共道路、公园、学校、体育馆、音乐现场 等中的至少一项。
本实施例采用的音频样本,可以为各种环境现场的录音文件、从视频 文件中提取的音频数据以及从网络上下载的各种歌曲、录音等音频数据中 的至少一种。
本实施例训练得到的训练后的音频场景分类模型,可以对音频数据进 行识别,得到该音频数据对应的音频场景。具体的,根据该音频数据生成 多个频谱图,将多个频谱图输入训练后的音频场景分类模型,得到音频场 景分类结果。
在一种实施方式中,步骤S101中,一个音频样本可以得到一个频谱 图集合。同个音频样本所生成的多个频谱图按照时间序列排序。
在一种实施方式中,步骤S101的频谱图集合中,各个频谱图的长度 相同,且宽度也相同。音频样本所生成的频谱图的长度和宽度可以预先设 定。
在一种实施方式中,频谱图为Log Mel频谱图。对应的,步骤S101基 于音频样本生成Log Mel频谱图的过程如下:
首先,将音频样本采样值预设频率,并对采样后的数据归一化值预设 取值区间;通过采样和归一化,可以将不同设备采集的不同音频格式的音 频样本进行统一,以便后续处理。
然后,利用短时傅里叶变换(STFT)将归一化后的音频样本转换为频 谱图:
接着,采用Mel滤波器组将频谱图转换至Mel空间下,并利用log变 换将频谱图生成Log Mel频谱图;
最后,采用预设间隔将Log Mel频谱图切分成多个Log Mel频谱图, 并将切分后的多个Log Mel频谱图按照时间序列排序,得到频谱图集合 M={m0,m1,…,mn-1}。将Log Mel频谱图进行切分,有利于适应不同长 度的音频样本。
举例说明,首先,将音频样本采样至16KHz,并对采样后的数据归一 化至[-1,1]区间;然后利用短时傅里叶变换(STFT)得到频谱图,对于音频 样本,首先将音频样本采样至16KHz,并将采样后的音频样本归一化至[- 1,1]区间;接着,利用短时傅里叶变换(STFT)将归一化后的音频样本转 换为频谱图,其中,短时傅里叶变换滑窗大小为25ms、滑动间隔10ms; 接着采用个数为64的Mel滤波器组将频谱图转换至Mel空间下;再对频 谱图进行log变换,得到Log Mel频谱图;最后,采用960ms为间隔将Log Mel频谱图切分成多个,对于同一音频样本得到的多个Log Mel频谱图须 按照时间序列存储。
上述基于音频样本生成频谱图的相关参数仅为示例,具体可以根据实 际需求预先设定,本实施例对此不作限定。
在一种实施方式中,步骤S201的拼接处理中,第一频谱图和第二频 谱图的横坐标i的取值范围均为[0,i2),频谱图的横坐标i表示时间。
用于拼接的第一区域和第二区域可以设定如下:
第一区域为第一频谱图中横坐标i∈[i1,i2)的区域,第二区域为第二 频谱图中横坐标i∈[0,i1)的区域为第二区域;
其中,第一频谱图为第二频谱图的前一帧频谱图。
可选的,参考图3,图3给出第一区域和第二区域的拼接示例,第一 区域和第二区域按照时间顺序进行连接,得到新的频谱图。
这样处理的好处是,选取第一频谱图中横坐标i∈[i1,i2)的第一区域, 以及第二频谱图横坐标i∈[0,i1)的第二区域进行拼接,得到的新的频谱 图的横坐标i的取值范围仍为[0,i2),从而拼接前后的频谱图的图像尺寸 一致。并且,第一区域和第二区域为时间上连续的两个区域,因此得到的 新的频谱图可以体现一段连续时间内的频谱信息。
这是因为音频样本转换为一个总频谱图时,总频谱图的长度(即横坐 标)表征音频样本的时长,将该总频谱图切分成多个频谱图得到频谱图集 合,频谱图集合中的多个频谱图按照时间顺序排序,因此,选取前一帧频 谱图中横坐标i∈[i1,i2)的第一区域以及后一帧频谱图中i∈[0,i1),可 以得到时间上连续的两个区域。
下述给出步骤S201的一个拼接处理示例:
假设第一音频样本对应生成第一频谱图集合为{M0,M1,…,Mn-1},其 中,频谱图为大小96×64的二维矩阵,用[i,j]表示二维矩阵中的一个元素, 则0≤i<96,0≤j<64。
以i2的取值为96,i1的取值为48为例,对第一频谱图集合M= {M0,M1,…,Mn-1}进行拼接处理,得到多个新的频谱图M‘= {M‘0,M‘1,…,Mn-2}的公式如下:
其中,Mp[i,j]和Mp+1[i,j]均表示拼接处理前的第一频谱图集合M中的 一个频谱图,Mp+1[i,j]为Mp[i,j]后的一个频谱图,Mp[i,j]表示由Mp[i,j]和 Mp+1[i,j]经过拼接处理得到的新的频谱图。
将多个新的频谱图M‘={M‘0,M‘1,…,Mn-2}加入第一频谱图集合M= {M0,M1,…,Mn-1},可以得到加入新的频谱图后的第一频谱图集合为S= {S0,S1,…,Sq,…S2n-1,},0≤q≤2n-1。
在一种实施方式中,参见图4,在步骤S102之后,方法还包括:
S401、根据第一增强概率,对第一频谱图集合中的频谱图进行随机增 强:
其中,第一增强概率是根据多个样本数据集中的第一类样本数据集的 频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的,第 一增强概率与第一占比呈负相关关系,其中,具有与第一音频场景标签相 同的音频场景标签的样本数据集属于第一类样本数据集。
这样处理的好处是,通过对频谱图进行随机增强,有利于提升训练数 据的多样性,有利于解决模型训练的过拟合问题。此外,基于单类音频场 景标签的频谱图帧总数占比设置增强概率,并且两者呈负相关的关系,那 么单类音频场景标签的频谱图帧总数占比越小,则增强概率越高,越有利 于均衡各类音频场景对应的样本数据,避免数据量较少的单类音频场景出 现过拟合现象。
可选地,步骤S401中对频谱图进行的增强可以包括:屏蔽频谱图上 指定时间段的信号、屏蔽频谱图上指定频率段的信号以及屏蔽沿时间方向 扭曲频谱图中的至少一项。
可选地,对于加入新的频谱图后的第一频谱图集合为S= {S0,S1,…,Sq,…S2n-1,}。
其中,pi表示第一增强概率,N表示多个样本数据集包括的音频场景 标签的类别数,每一类音频场景标签对应的样本数据集中频谱图帧总数分 别为{n1、n2、……nN},ni表示单类样本数据集中频谱图帧总数。
以第一增强概率pi对任一Sq进行增强,增强公式如下:
其中,k1、k2、k3、k4为超参数,上述增强公式中的“其它”表示频 谱图中k1>i>k2或k3>j>k4之外的情况。
其中,S′q[i,j]=0实现将频谱图上[i,j]处的信号进行屏蔽。
在一种实施方式中,参见图4,方法还包括:
S403、以帧为单位对第一频谱图集合中的频谱图进行随机排序。
这样处理的好处是,打乱第一频谱图集合中的频谱图顺序,提升训练 数据的多样性。
可选地,先通过步骤S403对频谱图集合中的频谱图进行随机排序后, 再执行步骤S401,对随机排序后的频谱图进行随机增强,更加提升训练数 据的多样性。
可选地,在待训练的音频场景分类模型进行迭代训练时,每代训练前 均可以依据上述步骤S401和S403对样本数据进行处理,以使得每代训练 的训练数据均不同,从而提升训练数据的多样性。
在一种实施方式中,参考图5,待训练的音频场景分类模型包括特征 提取器;
特征提取器包括VGGish模型中的依次连接的四组结构,四组结构中 的每组结构包括卷积层和池化层;
特征提取器还包括全局平均池化层,全局平均池化层与四组结构中最 后一组结构的输出端连接。
这样处理的好处是,本实施例采用VGGish模型为经过音频数据集预 训练的模型,有利于减少训练待训练的音频场景分类模型的训练数据。此 外,采用VGGish模型的四组结构,并且后接全局平均池化层,可以提取 512维特征向量,以提升特征向量维度从而获取更丰富的特征。
在一种实施方式中,继续参考图5,待训练的音频场景分类模型还包 括分类器,分类器连接全局平均池化层,分类器包括两层全连接层(FC, Fully Connected Layer),每层全连接层包括1024个神经元。
这样处理的好处是,分类器由设置两层个数均为1024的全连接层组 成,对上述特征提取器所提取的512维特征向量进行分类处理,所输出的 分类结果准确度较高。
在一种实施方式中,步骤S105中对待训练的音频场景分类模型进行 训练,包括:
在对待训练的待训练的音频场景分类模型进行训练的过程中,如果多 个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或 等于预设阈值,则冻结卷积层C1、卷积层C2和卷积层C3的参数,更新卷积 层C4和分类器的参数;
和/或,
在对待训练的音频场景分类模型进行训练的过程中,如果多个样本数 据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值,则 对特征提取器和分类器的所有参数进行更新。
这样处理的好处是,各类音频场景标签的音频样本数的平均值太少时, 如果对特征提取器的所有卷积层的参数均进行训练时,容易出现过拟合的 问题,因此,此时冻结前三层的卷积层C1、C2和C3,只对最后一层卷积层 C4的参数和分类器的参数进行训练,有利于解决过拟合的问题。
可选地,步骤S105中,对待训练的音频场景分类模型进行训练的过 程中采用的训练优化器为Adam,采用的损失函数为交叉熵函数,学习率 为0.001。每代训练保存当前评估集上准确率最高的模型参数。
参考图6,图6为本实施例的一实际示例的结构框图。具体的:
S601、获取音频数据:
S602、根据音频数据,生成多个Log Mel频谱图;
S603、基于多个Log Mel频谱图进行训练数据扩充,其中,对多个Log Mel频谱图进行拼接处理,得到新的多个Log Mel频谱图,拼接前后的多 个Log Mel频谱图均加入样本数据;
S604、基于单类音频场景的频谱图帧总数的占比确定的增强概率,进 行频谱图数据增强;图6中给出了多个增强后的频谱图的示例;
S605、基于各类音频场景的样本个数的平均值进行训练,其中,在平 均值小于预设数量时,冻结音频场景分类模型的前三层卷积层后进行训练, 在平均值大于预设数量时,开放音频场景分类模型的所有卷积层和分类器 的参数进行训练;
其中,音频场景分类模型包括特征提取器和分类器,特征提取器和分 类器,特征提取器包括VGGish模型的前四组结构,每组结构包括卷积层 和池化层,特征提取器还包括平均全局池化层。分类器采用全连接层F1和 全连接层F2组成。
除此之外,图6还给出了音频场景分类的示例,同样的,采用步骤S601 获取待处理的音频样本,以及采用步骤S602生成对应的多个Log Mel频 谱图,然后执行步骤S603、利用训练得到的音频场景分类模型对多个Log Mel频谱图对进行预测。
本申请实施例中,音频场景分类模型的输入为原始音频数据集,经过 多个频谱图生成,多个频谱图进行拼接扩充训练数据,构建基于VGGish 模型及FC分类器的模型,同一频谱图集合内相邻两帧合成新的频谱图, 的融入选择性数据增强和部分特征层冻结的模型训练、基于音频多个特征 的模型预测步骤完成音频场景检测的需求。
因此,本申请实施例具有下述有益效果的至少一项:可以适应不同音 频数据集,特征表达能力较佳,丰富训练数据的数量和多样性,减少训练 容易出现过拟合的现象,大大提升了模型的训练效果,进而提高实际应用 时的准确率。
对应的,本申请实施例还提供一种音频场景分类方法,参见图7,方 法包括:
S701、根据目标音频生成多个目标频谱图;
S703、将多个目标频谱图输入音频场景分类模型,得到多个目标频谱 图的音频场景分类结果;
S705、根据多个目标频谱图的场景分类结果,确定目标音频所属的音 频场景;
其中,音频场景分类模型为上述实施例提供的音频场景分类模型生成 方法生成的音频场景分类模型。
这样处理的好处是,本实施例提供的音频场景分类方法,根据音频样 本生成多个频谱图,从而将音频识别问题转换为图像识别问题,此外,采 用了上述实施例所提供的音频场景分类模型进行分类,有效地提高了分类 预测结果。
在一种实施方式中,每个目标频谱图的长度和宽度可以预先设定。
在一种实施方式中,多个目标频谱图的场景分类结果包括各帧目标频 谱图分别对应的音频场景的多个概率值;
参考图8,步骤S705,包括:
S801、根据多个目标频谱图中各帧目标频谱图分别对应的多个音频场 景的概率值,确定目标音频对应于多个音频场景的多个概率值;
S803、将目标音频对应于多个音频场景的多个概率值概率值中概率值 最大的概率值所对应的音频场景,确定为目标音频所属的音频场景。
这样处理的好处是,由于多个频谱图是由音频转换切分所得,因此, 场景分类模型输出各帧目标频谱图对应各种音频场景的概率值,可以用来 确定体现音频属于各种音频场景的概率值。因此基于概率值最高的音频场 景即可确定音频的音频场景。
可选的,步骤S801包括:将各帧目标频谱图对应同一种音频场景的 概率值进行相加求平均,得到目标音频的各种音频场景的概率值。
例如,对于音频场景A,n帧目标频谱图的概率值为A1、A2……An, 因此,目标音频对应音频场景A的概率值为(A1+A2+……+An)/n。
对应的,参见图9,图9给出本申请实施例一种音频场景分类模型生 成装置900的示意图,该装置900包括:
第一生成模块901,用于基于多个音频样本生成多个频谱图集合;
第二生成模块903,用于基于多个频谱图集合,生成多个样本数据集;
训练模块905,用于基于多个样本数据集,对待训练的音频场景分类 模型进行训练,得到训练后的音频场景分类模型;
其中,第一生成模块901用于基于第一频谱图集合,生成第一样本数 据集的过程,第一生成模块901包括:
频谱图拼接子模块9011,用于对多个频谱图集合中第一频谱图集合中 的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图,其中拼接处 理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个 新的频谱图;
样本数据集处理子模块9013,用于将得到的多个新的频谱图加入第一 频谱图集合中,并将第一频谱图集合和第一音频场景标签作为第一样本数 据集,第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场 景标签。
在一种实施方式中,参见图10,装置1000还包括:
增强模块1001,用于根据第一增强概率,对第一频谱图集合中的频谱 图进行随机增强;
其中,第一增强概率是根据多个样本数据集中的第一类样本数据集的 频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的,第 一增强概率与第一占比呈负相关关系,其中,具有与第一音频场景标签相 同的音频场景标签的样本数据集属于第一类样本数据集。
在一种实施方式中,参见图10,装置1000还包括:
随机排序模块1003,用于以帧为单位对第一频谱图集合中的频谱图进 行随机排序。
在一种实施方式中,第一频谱图和第二频谱图的横坐标i的取值范围 均为[0,i2);
第一区域为第一频谱图中横坐标i∈[i1,i2)的区域;
第二区域为第二频谱图中横坐标i∈[0,i1)的区域。
在一种实施方式中,待训练的音频场景分类模型包括特征提取器;
待训练的音频场景分类模型包括特征提取器;
特征提取器包括VGGish模型中的依次连接的四组结构,四组结构中 的每组结构包括卷积层和池化层;
特征提取器还包括全局平均池化层,全局平均池化层与四组结构中的 最后一组结构的输出端连接。
在一种实施方式中,待训练的音频场景分类模型还包括分类器,分类 器连接全局平均池化层,分类器包括两层全连接层,每层全连接层包括 1024个神经元。
在一种实施方式中,参见图11,训练模块905包括:
第一训练子模块1101,用于在多个样本数据中各类音频场景标签对应 的音频样本的数量的平均值小于或等于预设阈值的情况下,冻结卷积层 41、卷积层42和卷积层42的参数,更新卷积层43和分类器的参数;
和/或,
第二训练子模块1103,用于在多个样本数据中各类音频场景标签对应 的音频样本的数量的平均值大于预设阈值的情况下,对特征提取器和分类 器的所有参数进行更新。
对应的,参见图12,本申请实施例还提供一种音频场景分类装置1200, 包括:
频谱图生成模块1201,用于根据目标音频转生成多个目标频谱图;
音频场景分类模型1203,用于对输入的多个目标频谱图进行处理,得 到多个目标频谱图的音频场景分类结果;其中,音频场景分类模型为上述 实施例的音频场景分类模型生成方法生成的音频场景分类模型;
场景确定模块1205,用于根据多个目标频谱图的场景分类结果,确定 目标音频所属的音频场景。
在一种实施方式中,多个目标频谱图的场景分类结果包括各帧目标频 谱图对应各种音频场景的概率值;
参见图13,场景确定模块1205,包括:
概率值子模块1301,用于根据多个目标频谱图中各帧目标频谱图分别 对应的多个音频场景的概率值,确定目标音频对应于多个音频场景的多个 概率值;
场景子模块1303,用于将目标音频对应于多个音频场景的多个概率值 中最大的概率值所对应的音频场景,确定为目标音频所属的音频场景。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储 介质。
如图14所示,是根据本申请实施例的音频场景分类模型训练以及音 频场景分类的方法的电子设备的框图。电子设备旨在表示各种形式的数字 计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服 务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可 以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、 可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、 以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求 的本申请的实现。
如图14所示,该电子设备包括:一个或多个处理器1401、存储器1402, 以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不 同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方 式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存 储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设 备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将 多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可 以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器 阵列、一组刀片式服务器、或者多处理器***)。图14中以一个处理器 1401为例。
存储器1402即为本申请所提供的非瞬时计算机可读存储介质。其中, 存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行 本申请所提供的音频场景分类模型训练以及音频场景分类的方法。本申请 的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算 机执行本申请所提供的音频场景分类模型训练以及音频场景分类的方法。
存储器1402作为一种非瞬时计算机可读存储介质,可用于存储非瞬 时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的音 频场景分类模型训练以及音频场景分类的方法对应的程序指令/模块(例如, 附图9所示的第一生成模块901、第二生成模块903和训练模块905)。 处理器1401通过运行存储在存储器1402中的非瞬时软件程序、指令以及 模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实 施例中的音频场景分类模型训练以及音频场景分类的方法。
存储器1402可以包括存储程序区和存储数据区,其中,存储程序区 可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根 据音频场景分类模型训练以及音频场景分类的电子设备的使用所创建的 数据等。此外,存储器1402可以包括高速随机存取存储器,还可以包括 非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固 态存储器件。在一些实施例中,存储器1402可选包括相对于处理器1401 远程设置的存储器,这些远程存储器可以通过网络连接至音频场景分类模 型训练以及音频场景分类的电子设备。上述网络的实例包括但不限于互联 网、企业内部网、局域网、移动通信网及其组合。
音频场景分类模型训练以及音频场景分类的方法的电子设备还可以 包括:输入装置1403和输出装置1404。处理器1401、存储器1402、输入 装置1403和输出装置1404可以通过总线或者其他方式连接,图14中以 通过总线连接为例。
输入装置1403可接收输入的数字或字符信息,以及产生与音频场景 分类模型训练以及音频场景分类的电子设备的用户设置以及功能控制有 关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、 一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1404可 以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发 光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设 备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集 成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和 /或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个 计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理 器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可 编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置 接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入 装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编 程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、 和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读 介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编 程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、 存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机 器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和 /或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术, 该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线 管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠 标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算 机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的 反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉 反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如, 作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、 或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器 的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处 描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部 件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络 的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,基于频谱图集合中的多个频谱图,通 过图像拼接技术,得到多个新的频谱图以扩充训练数据的扩展,新的频谱 图可以直接沿用原始音频样本的场景标签,因此,本申请实施例无需增加 新的音频样本和人工标注工作量,扩充了训练数据,提高了训练效果,可 提高模型对音频场景分类的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执 行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的 结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种音频场景分类模型生成方法,包括:
基于多个音频样本生成多个频谱图集合;
基于所述多个频谱图集合,生成多个样本数据集;
基于所述多个样本数据集,对待训练的音频场景分类模型进行训练,得到训练后的音频场景分类模型;
其中,基于所述多个频谱图集合中的第一频谱图集合,生成第一样本数据集的过程,包括:对所述第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图,其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图;将得到的多个新的频谱图加入所述第一频谱图集合中,并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集,所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。
2.根据权利要求1所述的方法,还包括:
根据第一增强概率,对所述第一频谱图集合中的频谱图进行随机增强;
其中,所述第一增强概率是根据所述多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的,所述第一增强概率与所述第一占比呈负相关关系,其中,具有与所述第一音频场景标签相同的音频场景标签的样本数据集属于所述第一类样本数据集。
3.根据权利要求1所述的方法,还包括:
以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。
4.根据权利要求1所述的方法,其中,
所述第一频谱图和所述第二频谱图的横坐标i的取值范围均为[0,i2);
所述第一区域为所述第一频谱图中横坐标i∈[i1,i2)的区域;
所述第二区域为所述第二频谱图中横坐标i∈[0,i1)的区域。
5.根据权利要求1所述的方法,其中,
所述待训练的音频场景分类模型包括特征提取器;其中,
所述特征提取器包括VGGish模型中的依次连接的四组结构,所述四组结构中的每组结构包括卷积层和池化层;
所述特征提取器还包括全局平均池化层,所述全局平均池化层与所述四组结构中的最后一组结构的输出端连接。
6.根据权利要求5所述的方法,其中,
所述待训练的音频场景分类模型还包括分类器,其中,
所述分类器与所述全局平均池化层连接,且所述分类器包括两层全连接层,每层所述全连接层包括1024个神经元。
7.根据权利要求6所述的方法,其中,
所述四组结构包括的卷积层为卷积层C1、卷积层C2和卷积层C3和卷积层C4;
在对所述待训练的音频场景分类模型进行训练的过程中,如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值,则冻结卷积层C1、卷积层C2和卷积层C3的参数,更新卷积层C4和分类器的参数;
和/或,
在对所述待训练的音频场景分类模型进行训练的过程中,如果所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值,则对所述特征提取器和所述分类器的所有参数进行更新。
8.一种音频场景分类方法,包括:
基于目标音频生成多个目标频谱图;
将所述多个目标频谱图输入音频场景分类模型,得到所述多个目标频谱图的音频场景分类结果;
根据所述多个目标频谱图的场景分类结果,确定所述目标音频所属的音频场景;
其中,所述音频场景分类模型为权利要求1-7中任一项所述的音频场景分类模型生成方法生成的音频场景分类模型。
9.根据权利要求8所述的方法,其中,
所述多个目标频谱图的场景分类结果包括各帧目标频谱图分别对应的音频场景的多个概率值;
所述根据所述多个目标频谱图的场景分类结果,确定所述目标音频所属的音频场景,包括:
根据所述多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值,确定所述目标音频对应于所述多个音频场景的多个概率值;
将所述目标音频对应于所述多个音频场景的多个概率值中最大的概率值所对应的音频场景,确定为所述目标音频所属的音频场景。
10.一种音频场景分类模型生成装置,包括:
第一生成模块,用于基于多个音频样本生成多个频谱图集合;
第二生成模块,用于基于所述多个频谱图集合,生成多个样本数据集;
训练模块,用于基于所述多个样本数据集,对待训练的音频场景分类模型进行训练,得到训练后的音频场景分类模型;
其中,所述第一生成模块包括:
频谱图拼接子模块,用于对所述多个频谱图集合中第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图,其中所述拼接处理包括将第一频谱图中的第一区域和第二频谱图的第二区域拼接为一个新的频谱图;
样本数据集处理子模块,用于将得到的多个新的频谱图加入所述第一频谱图集合中,并将所述第一频谱图集合和第一音频场景标签作为第一样本数据集,所述第一音频场景标签为生成所述第一频谱图集合的音频样本对应的音频场景标签。
11.根据权利要求10所述的装置,还包括:
增强模块,用于根据第一增强概率,对所述第一频谱图集合中的频谱图进行随机增强;
其中,所述第一增强概率是根据所述多个样本数据集中的第一类样本数据集的频谱图总帧数在全部样本数据集的频谱图总帧数中的第一占比确定的,所述第一增强概率与所述第一占比呈负相关关系,其中,具有与所述第一音频场景标签相同的音频场景标签的样本数据集属于所述第一类样本数据集。
12.根据权利要求10所述的装置,还包括:
随机排序模块,用于以帧为单位对所述第一频谱图集合中的频谱图进行随机排序。
13.根据权利要求10所述的装置,其中,
所述第一频谱图和所述第二频谱图的横坐标i的取值范围均为[0,i2);
所述第一区域为所述第一频谱图中横坐标i∈[i1,i2)的区域;
所述第二区域为所述第二频谱图中横坐标i∈[0,i1)的区域。
14.根据权利要求10所述的装置,其中,
所述待训练的音频场景分类模型包括特征提取器;
所述特征提取器包括VGGish模型中的依次连接的四组结构,所述四组结构中的每组结构包括卷积层和池化层;
所述特征提取器还包括全局平均池化层,所述全局平均池化层与所述四组结构中的最后一组结构的输出端连接。
15.根据权利要求14所述的装置,其中,所述待训练的音频场景分类模型还包括分类器,所述分类器连接所述全局平均池化层,所述分类器包括两层全连接层,每层所述全连接层包括1024个神经元。
16.根据权利要求15所述的装置,其中,
所述四组结构包括的卷积层为卷积层C1、卷积层C2和卷积层C3和卷积层C4第一训练子模块,用于在所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值小于或等于预设阈值的情况下,冻结卷积层C1、卷积层C2和卷积层C3的参数,更新卷积层C4和分类器的参数;
和/或,
第二训练子模块,用于在所述多个样本数据中各类音频场景标签对应的音频样本的数量的平均值大于预设阈值的情况下,对所述特征提取器和所述分类器的所有参数进行更新。
17.一种音频场景分类装置,包括:
频谱图生成模块,用于根据目标音频转生成多个目标频谱图;
音频场景分类模型,用于对输入的多个目标频谱图进行处理,得到所述多个目标频谱图的音频场景分类结果;其中,所述音频场景分类模型为权利要求1-7中任一项所述的音频场景分类模型生成方法生成的音频场景分类模型;
场景确定模块,用于根据所述多个目标频谱图的场景分类结果,确定所述目标音频所属的音频场景。
18.根据权利要求17所述的装置,其中,所述多个目标频谱图的场景分类结果包括各帧目标频谱图分别对应的音频场景的多个概率值;
所述场景确定模块,包括:
概率值子模块,用于根据所述多个目标频谱图中各帧目标频谱图分别对应的多个音频场景的概率值,确定所述目标音频对应于所述多个音频场景的多个概率值;
场景子模块,用于将所述目标音频对应于所述多个音频场景的多个概率值中最大的概率值所对应的音频场景,确定为所述目标音频所属的音频场景。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479961.0A CN111653290B (zh) | 2020-05-29 | 2020-05-29 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479961.0A CN111653290B (zh) | 2020-05-29 | 2020-05-29 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111653290A true CN111653290A (zh) | 2020-09-11 |
CN111653290B CN111653290B (zh) | 2023-05-02 |
Family
ID=72348041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010479961.0A Active CN111653290B (zh) | 2020-05-29 | 2020-05-29 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111653290B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112188306A (zh) * | 2020-09-23 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种标签生成方法、装置、设备及存储介质 |
CN112562727A (zh) * | 2020-12-18 | 2021-03-26 | 科大讯飞股份有限公司 | 应用于音频监控的音频场景分类方法、装置以及设备 |
CN113220932A (zh) * | 2021-04-02 | 2021-08-06 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113257283A (zh) * | 2021-03-29 | 2021-08-13 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN113327631A (zh) * | 2021-07-15 | 2021-08-31 | 广州虎牙科技有限公司 | 一种情感识别模型的训练方法、情感识别方法及装置 |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
CN113793624A (zh) * | 2021-06-11 | 2021-12-14 | 上海师范大学 | 一种声学场景分类方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988010540A1 (en) * | 1987-06-24 | 1988-12-29 | Mcs Partners | Broadcast information classification system and method |
WO2006087256A1 (en) * | 2005-02-16 | 2006-08-24 | International Business Machines Corporation | Method and apparatus for voice message editing |
US20070129952A1 (en) * | 1999-09-21 | 2007-06-07 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US20170040016A1 (en) * | 2015-04-17 | 2017-02-09 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN106652986A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲音频拼接方法及设备 |
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN108010538A (zh) * | 2017-12-22 | 2018-05-08 | 北京奇虎科技有限公司 | 音频数据处理方法及装置、计算设备 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、***、装置及可读存储介质 |
CN109710800A (zh) * | 2018-11-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
US20190392851A1 (en) * | 2019-08-09 | 2019-12-26 | Lg Electronics Inc. | Artificial intelligence-based apparatus and method for controlling home theater speech |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
CN110992978A (zh) * | 2019-12-18 | 2020-04-10 | 苏州思必驰信息科技有限公司 | 音视频分离模型的训练方法及*** |
CN111028861A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 频谱掩码模型训练方法、音频场景识别方法及*** |
CN111079794A (zh) * | 2019-11-21 | 2020-04-28 | 华南师范大学 | 一种基于类别间相互融合的声音数据增强方法 |
-
2020
- 2020-05-29 CN CN202010479961.0A patent/CN111653290B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988010540A1 (en) * | 1987-06-24 | 1988-12-29 | Mcs Partners | Broadcast information classification system and method |
US20070129952A1 (en) * | 1999-09-21 | 2007-06-07 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
WO2006087256A1 (en) * | 2005-02-16 | 2006-08-24 | International Business Machines Corporation | Method and apparatus for voice message editing |
CN101120402A (zh) * | 2005-02-16 | 2008-02-06 | 国际商业机器公司 | 用于话音消息编辑的方法和装置 |
US20170040016A1 (en) * | 2015-04-17 | 2017-02-09 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN106652986A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲音频拼接方法及设备 |
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN108010538A (zh) * | 2017-12-22 | 2018-05-08 | 北京奇虎科技有限公司 | 音频数据处理方法及装置、计算设备 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109710800A (zh) * | 2018-11-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109545242A (zh) * | 2018-12-07 | 2019-03-29 | 广州势必可赢网络科技有限公司 | 一种音频数据处理方法、***、装置及可读存储介质 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
US20190392851A1 (en) * | 2019-08-09 | 2019-12-26 | Lg Electronics Inc. | Artificial intelligence-based apparatus and method for controlling home theater speech |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
CN111079794A (zh) * | 2019-11-21 | 2020-04-28 | 华南师范大学 | 一种基于类别间相互融合的声音数据增强方法 |
CN111028861A (zh) * | 2019-12-10 | 2020-04-17 | 苏州思必驰信息科技有限公司 | 频谱掩码模型训练方法、音频场景识别方法及*** |
CN110992978A (zh) * | 2019-12-18 | 2020-04-10 | 苏州思必驰信息科技有限公司 | 音视频分离模型的训练方法及*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112188306B (zh) * | 2020-09-23 | 2022-06-21 | 腾讯科技(深圳)有限公司 | 一种标签生成方法、装置、设备及存储介质 |
CN112188306A (zh) * | 2020-09-23 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种标签生成方法、装置、设备及存储介质 |
CN112562727A (zh) * | 2020-12-18 | 2021-03-26 | 科大讯飞股份有限公司 | 应用于音频监控的音频场景分类方法、装置以及设备 |
CN112562727B (zh) * | 2020-12-18 | 2024-04-26 | 科大讯飞股份有限公司 | 应用于音频监控的音频场景分类方法、装置以及设备 |
CN113257283A (zh) * | 2021-03-29 | 2021-08-13 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN113257283B (zh) * | 2021-03-29 | 2023-09-26 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
CN113220932A (zh) * | 2021-04-02 | 2021-08-06 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113220932B (zh) * | 2021-04-02 | 2022-06-10 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
CN113793624A (zh) * | 2021-06-11 | 2021-12-14 | 上海师范大学 | 一种声学场景分类方法 |
CN113793624B (zh) * | 2021-06-11 | 2023-11-17 | 上海师范大学 | 一种声学场景分类方法 |
CN113327631B (zh) * | 2021-07-15 | 2023-03-21 | 广州虎牙科技有限公司 | 一种情感识别模型的训练方法、情感识别方法及装置 |
CN113327631A (zh) * | 2021-07-15 | 2021-08-31 | 广州虎牙科技有限公司 | 一种情感识别模型的训练方法、情感识别方法及装置 |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111653290B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111653290A (zh) | 音频场景分类模型生成方法、装置、设备以及存储介质 | |
CN113326764B (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN102405495B (zh) | 使用稀疏特征对信息检索进行音频分类 | |
WO2023273769A1 (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
CN107481717B (zh) | 一种声学模型训练方法及*** | |
CN111935537A (zh) | 音乐短片视频生成方法、装置、电子设备和存储介质 | |
CN111918094B (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN111522967A (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
Mironică et al. | A modified vector of locally aggregated descriptors approach for fast video classification | |
CN111582185A (zh) | 用于识别图像的方法和装置 | |
CN112148881B (zh) | 用于输出信息的方法和装置 | |
CN113656581A (zh) | 文本分类及模型训练的方法、装置、设备以及存储介质 | |
CN111950279B (zh) | 实体关系的处理方法、装置、设备及计算机可读存储介质 | |
CN111950254A (zh) | 搜索样本的词特征提取方法、装置、设备以及存储介质 | |
CN110070859A (zh) | 一种语音识别方法及装置 | |
CN112749300B (zh) | 用于视频分类的方法、装置、设备、存储介质和程序产品 | |
Huang et al. | Large-scale weakly-supervised content embeddings for music recommendation and tagging | |
JP2022022080A (ja) | ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN114386503A (zh) | 用于训练模型的方法和装置 | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
Aziguli et al. | A robust text classifier based on denoising deep neural network in the analysis of big data | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
Singh et al. | RETRACTED ARTICLE: Classification of audio signals using SVM-WOA in Hadoop map-reduce framework | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN113312451A (zh) | 文本标签确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |