CN113823323B - 一种基于卷积神经网络的音频处理方法、装置及相关设备 - Google Patents
一种基于卷积神经网络的音频处理方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113823323B CN113823323B CN202111169052.8A CN202111169052A CN113823323B CN 113823323 B CN113823323 B CN 113823323B CN 202111169052 A CN202111169052 A CN 202111169052A CN 113823323 B CN113823323 B CN 113823323B
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- audio
- audio data
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000009467 reduction Effects 0.000 claims abstract description 39
- 239000012634 fragment Substances 0.000 claims abstract description 32
- 238000005520 cutting process Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 51
- 238000001228 spectrum Methods 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- ZAIPMKNFIOOWCQ-UEKVPHQBSA-N cephalexin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@@H]3N(C2=O)C(=C(CS3)C)C(O)=O)=CC=CC=C1 ZAIPMKNFIOOWCQ-UEKVPHQBSA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004244 micellar electrokinetic capillary chromatography Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于卷积神经网络的音频处理方法、装置及相关设备,方法包括:提取视频数据中的音频信息;对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据进行语音端点检测得到话语级音频数据。本发明有效的简化了用户的操作步骤,将音频按预设时间长度切割,将音频碎片化,帮助用户进行音频的剪辑和音视频软件的智能碎片和事件剪辑模式。
Description
技术领域
本发明涉及视频初剪技术领域,尤其涉及一种基于卷积神经网络的音频处理方法、装置及相关设备。
背景技术
音视频时代的到来,使得越来越多的用户倾向于制作视频和剪辑视频。而如何从错综复杂的原视频中得到自己想要的内容,成为一件亟待解决的问题。
智能初剪作为一块新兴的领域,目前主流技术聚焦于对视频的信息量捕捉,主要是针对画面动作能量的叠加,找出能量变化较大的视频片段作为用户可能想初剪的结果,并且可以根据预设参数做一些视频片段时长和内容的调整。
目前的智能初剪技术,虽然可以帮助用户较大程度上减少剪辑时间,但仍存在几个缺点:
1.画面动作理解可能会忽略一些视频中的小细节变化,而这些变化可能在其他模态中是明显的,也就是说视频画面动作理解可能是内容的主要理解,但是仅仅依靠视频画面动作理解无法完全给予用户想要的视频片段;
2.对于一些只有音频需求,需要从音频中找到某些事件,此时无法借助于对视频画面动作的理解。
发明内容
本发明的目的是提供一种基于卷积神经网络的音频处理方法、装置及相关设备,旨在解决现有技术中,只根据视频信息进行初剪、仅仅依靠视频画面动作理解无法完全给予用户想要的视频片段的问题。
第一方面,本发明实施例提供了一种基于卷积神经网络的音频处理方法,包括:
提取视频数据中的音频信息;
对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据进行语音端点检测得到话语级音频数据;
将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
第二方面,本发明实施例提供了一种基于卷积神经网络的音频处理装置,包括:
提取单元,用于提取视频数据中的音频信息;
特征提取降维单元,用于对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
分类单元,用于将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
语音端点检测单元,用于根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据进行语音端点检测得到话语级音频数据;
语音情感检测单元,用于将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
整合单元,用于按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于卷积神经网络的音频处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于卷积神经网络的音频处理方法。
本发明通过对音频信息进行特征提取得到特征数据,并对特征数据进行降维,有利于后续处理中提高处理速度;将音频(降维特征数据)按预设时间长度进行事件切割,并对语音事件进行更精细化的切割,预测出语音情感标签,并对连续的情感标签对应的语音音频数据进行事件和时间点的逻辑合并。
本发明有效的简化了用户的操作步骤,将音频按预设时间长度切割,将音频碎片化,帮助用户进行音频的剪辑和音视频软件的智能碎片和事件剪辑模式。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于卷积神经网络的音频处理方法的流程示意图;
图2为本发明实施例提供的步骤S102的子流程示意图;
图3为本发明实施例提供的步骤S103的子流程示意图;
图4为本发明实施例提供的步骤S304的子流程示意图;
图5为本发明实施例提供的步骤S105的子流程示意图;
图6为本发明实施例提供的步骤S601的子流程示意图;
图7为本发明实施例提供的基于卷积神经网络的音频处理装置的示意性框图;
图8为本发明实施例提供的步骤S501-S507的流程图;
图9为本发明实施例提供的步骤S601-S603的流程图;
图10为本发明实施例提供的DPTM的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,一种基于卷积神经网络的音频处理方法,包括步骤S101-S106。
S101:提取视频数据中的音频信息;
S102:对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
S103:将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
S104:根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据进行语音端点检测得到话语级音频数据;
S105:将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
S106:按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
在本实施例中,通过对音频信息进行特征提取得到特征数据,并对特征数据进行降维,有利于后续处理中提高处理速度;将音频(降维特征数据)按预设时间长度进行事件切割,并对语音事件进行更精细化的切割,预测出语音情感标签,并对连续的情感标签对应的语音音频数据进行事件和时间点的逻辑合并。
本发明有效的简化了用户的操作步骤,将音频按预设时间长度切割,将音频碎片化,帮助用户进行音频的剪辑和音视频软件的智能碎片和事件剪辑模式。
请参阅图2,在一实施例中,步骤S102,包括:
S201:对所述音频信息进行语音数据特征提取,得到语音特征;
S202:对所述语音特征依次进行重采样、预加重、分帧、加窗、FFT、Mel滤波、对数运算和DCT操作,最终得到所述降维特征数据。
在本实施例中,对所述音频信息进行语音数据特征提取,其中特征提取技术可以运用现有技术中公开的音频特征提取技术。
以下以一实施例中的具体实施方式为例对步骤S202操作进行说明(其中的数据可以根据实际进行适应性的变动):
具体的,对语音特征进行重采样操作,将语音特征的时域信息重新采样到16KHz(采样成16Khz的原因是因为yamnet模型的训练集数据的采样率皆为16KHz,所以测试数据在16Khz的时候会得到最优的效果),接着对语音特征进行预加重操作(预加重一般是乘以一个比较小的系数,或者去除直流分量,保证音频数值范围的有效性),紧接着进行分帧操作,以400个数据点为窗口大小,以160个数据点为帧移长度(即前后帧之间的重叠点数为240个数据点),即25ms为音频的一帧,每一次音频点移动10ms的长度,对每一帧音频数据进行汉明窗加窗后,进行FFT(快速傅里叶变化),并使用64个滤波器大小的Mel窗口对每一帧语音特征进行滤波器操作,计算其功率谱(计算功率谱包含对数运算和平方运算),最后经过离散余弦变化(DCT),得到语音特征的MFCC的特征数据,即降维特征数据。
其中,yamnet模型是一个经过预训练的深度网络,可基于AudioSet-YouTube语料库预测521种音频事件类别,并采用Mobilenet_v1深度可分离卷积架构。
请参阅图3,在一实施例中,步骤S103,包括:
S301:以预设时间长度将所述降维特征数据分割成若干份;
S302:将分割后的每一所述降维特征数据作为输入数据输入yamnet模型,得到对应的预测数据;
S303:对所述预测数据进行打分,根据打分结果从大到小进行排序,得到对应的当前时间长度内的声音事件概率,记录所述当前时间和对应的概率最大的若干个事件;
S304:对每一当前时间长度对应的降维特征数据和对应的概率最大的若干个事件进行整合得到语音音频数据和对应的语音事件时间戳。
在本实施例中,分割的长度可以自定义设置。
优选的,预设时间长度为1秒;记录所述当前时间和对应的概率最大的五个事件。
以下以一实施例中的具体实施方式为例对步骤S301-S304的操作进行说明(其中的数据可以根据实际进行适应性的变动):
具体的,以1秒的音频帧长度所组成的MFCC特征(即步骤S301实现分割后的单位降维特征数据)为输入数据依次输入yamnet模型进行预测,得到一个大小为[32,520]的预测数据(32代表yamnet模型对于这个时间长度最后得到的32个打分机制,520代表yamnet模型的标签一共有520个,[32,520]为yamnet训练模型的输出矩阵,是固定值),对32个打分取平均数后,进而对520个事件进行打分结果从大到小的排序,就可以得到当前时间段(由于是以1秒为切割长度,故每一单位降维特征数据都代表了一时间段,当前时间段也代表了当前降维特征数据)内的声音事件概率(声音事件指的是音频中出现的现实生活事件,比如说话,哭,笑,音乐等)。对其他每一个相当长度的降维特征数据都做上述操作(循环操作),记录每一次的时间和对应的前五个最可能的事件。当yamnet模型预测完成以后,对时间段(长度)所代表的降维特征数据和事件进行整合,即如果前后秒级的事件标签相同时,则把两个时间段(长度)对应的降维特征数据进行合并,以此类推,最后把事件标签为演讲(Speech)和交谈(Conversation)的降维特征数据部分加以提取,得到语音音频数据和对应的语音事件时间戳。
请参阅图4,在一实施例中,步骤S304,包括:
S401:当前后的两个事件的事件标签相同时,合并两个事件;
S402:提取出所述事件标签为演讲和交谈的对应的语音音频数据。
在本实施例中,具体操作已在上述对步骤S301-S304的操作说明中写明,可参考。
在一实施例中,步骤S104,包括:
S501:对每一所述语音音频数据中的每一帧进行短时傅里叶变化,以将所述语音音频数据从时域信息转换为频率信息;
S502:计算每一所述语音音频数据中的每一帧的短期能量和光谱差,得到每一所述语音音频数据对应的直方图的分布信息;
S503:采用以下公式计算直方图的阈值:
S504:将每一所述语音音频数据中的每一帧的所述短期能量和光谱差通过连续的五元素移动中位数过滤器进行平滑处理,以在一段时间内平滑;
S505:标记所述直方图中所述短期能量和光谱差中所有大于对应预设阈值的分布值所对应的数据坐标点,并记录所述数据坐标点;
S506:将数据坐标点按大小顺序进行整合,取两个相邻数据坐标点之间的数值长度作为语音段;
S507:当相邻两个语音段之间的时间距离小于预设的合并距离数值时,将两个所述语音段进行合并得到话语级音频数据;
其中,M1和M2分别为直方图中所述短期能量或光谱差中数值最大的两个值,W由平滑过后的所述短期能量和光谱差的数值决定。
在本实施例中,将所述语音音频数据重采样到音频长度与音频信息的音频长度相同,根据所述语音事件时间戳,切割出每一个语音音频数据的碎片数据,紧接着对每一段语音音频数据使用语音端点检测进行话语级的切割(碎片化切割是因为并不是所有的声音事件检测的结果,举例如步骤一最后得到的结果为[[0,10],speech],[[10,12],cry],[[12,14],speech],那么语音的数据碎片其实只有0~10秒和12~14秒,而话语级切割的原因是因为在一段较长的说话内容中如0~10秒中,人的情感可能是有所变化的,但是因为情感变化的时间可能是短暂的,总体的情感是平稳的,但是局部可能会存在情感的较大变化,所以要进行话语级的切割)。
请参阅图8,具体步骤如下:
a)设定好音频audioIn的窗口长度window和帧间的重复长度OverlapLength,将音频从时域信息转换为频率信息,即进行短时傅里叶变化(STFT)(请参阅图8中1代表的步骤),短时傅里叶变化是傅里叶变化的一种变形,可以有效解决傅里叶变化过程中时间信息丢失的问题,达到时域信息和频域信息在时间线上的对应;
b)计算每一所述语音音频数据中的每一帧的短期能量Energy和光谱差Spread;其中光谱差是根据光谱分布计算的;短期能量Energy是可以区分浊音段和情感段,浊音段的短时数值远大于清音段,光谱差可以很好的体现声音的短时变化情况,光谱差越小,说明声音处于一段稳定的清音或者浊音(请参阅图8中2代表的步骤);
c)直方图(Histogram)分布信息由短期能量和光谱分布的数据共同决定(请参阅图8中3代表的步骤);
d)对于每一个直方图,阈值(DetermineThreshold)根据计算,其中M1和M2分别为直方图中所述短期能量或光谱差中数值最大的两个值,并且W的大小为5(直方图会根据设置的bin值,bin值一般设置为15,把所有的短期能量Energy或者是光谱差Spread分布平均分在15个柱上,每一个柱的中心点表示为这一段数值的中位数,每两段柱之间的距离是固定的,W的具体数值由平滑过后的短期能量Energy和光谱差Spread的数值决定)(请参阅图8中4代表的步骤);
e)将光谱差和短期能量都通过连续的五元素移动中位数过滤器进行平滑处理(平滑Smooth)(五元素移动中位数过滤器movmedian为matlab中的一个函数)(请参阅图8中5代表的步骤),五元素移动中位数过滤器相当于跟传统的中位数相比,有效的利用了每一个点的位置信息,传统的中位数如果5个数取中位值,则5个数都会被覆盖为一个数,而移动中位数则会在每一次的移动中增加点的信息使用率,使数据结果更加平滑,比如1、2、3、4、5传统中位数为3、3、3、3、3而1、2、3、4、5、6、7、8移动中位数为2、2.5、3、4、5、6;
f)设置短期能量和光谱分布各自的阈值Create Mask(预设阈值),寻找到相应阈值符合条件的直方图中分布值所对应的短期能量Energy或者是光谱差Spread的对应数值坐标点,标记所述直方图中所述短期能量和光谱差中所有大于对应预设阈值的分布值所对应的数据坐标点,记为标记Mask。即短期能量和光谱差都必须高于各自的阈值,保证包含的时间段必定是语音(请参阅图8中6和7代表的步骤);
g)将上面得到的短期能量Energy和光谱差Spread的数值坐标点按大小顺序进行整合,称为合并Merge,每两个数值坐标点之间的数值长度称为一段语音段,如果Merge中的两个语音段时间的距离差距小于设置的合并距离MergeDistance,当前的两个相邻的语音段将被合并,最终输出结果speechindices(结果的数值为语音段的起始点和终止点,且speechindices数量一定是偶数)(请参阅图8中8代表的步骤)。
请参阅图5,在一实施例中,步骤S105,包括:
S601:对所述AlexNet网络进行模型训练;
S602:将所述AlexNet网络中的全连接层的上一层的输出作为DTPM的输入,所述DTPM的输出作为所述全连接层的输入;
S603:将所述话语级音频数据进行特征提取并通过所述AlexNet网络进行预测,得到语音情感标签和对应的时间段。
在本实施例中,使用柏林情感数据集(EMO-DB),The RyersonAudio-VisualDatabase of Emotional Speech and Song(RAVDESS),MELD:Multimodal EmotionLinesDataset作为本次AlexNet网络所使用的数据集,三个数据集都是一段音频对应一个情感标签,共有情感标签有anger,disgust,neutral,happy,sadness,fear,因此可以使用交叉熵作为损失函数,对AlexNet网络进行学习。三个数据集进行混合后,以数据集总量的70%的数据量为训练集、10%的验证集、20%的为测试集,在AlexNet网络中进行训练模型训练。
其中,AlexNet网络是2012年ImageNet竞赛冠军获得者Hinton和他的学生AlexKrizhevsky设计的。
请参阅图9,具体步骤如下:
因为三个数据集每一个音频的长度不同,数据预处理阶段,把所有的音频数据切割成相同的长度,并计算切割后的每一个音频数据中的每一帧的MFCC、MFCC的一阶差分和MFCC的二阶差分,计算完成后特征的大小为(64,64,3),第一个64为64个Mel滤波器,其中中间的数值64为频率的64个帧,由输入的音频长度决定,3表示MECC、MFCC的一阶差分和MFCC的二阶差分为一组完整的特征数据(Log Mel-spectgram);
采用以下公式计算差分:
其中,N为特征长度,ct+n为当前特征数据的后一个特征数据,ct-n为当前特征数据的前一个特征数据,dt为输出的差分数据;
对所述特征数据进行整理,特征整理的流程为:假设MFCC和MFCC的一阶差分和MFCC的二阶差分的大小都是(64,64,1),其中第一个64为64个Mel滤波器,第二个64是64个帧,第三个为有1个大小为64*64的特征,把得到的三个特征按照第三维度,即具体特征类别维度进行整理,得到的大小为(64,64,3),这是一个音频数据碎片可能的大小,假设如果音频数据的集合有10000个,则总的特征应该表示为四维,即(10000,64,64,3),此为总体数据集,取70%作为训练集(并保证标签和特征对应),即把(7000,64,64,3)的特征按着一定的batch大小依次输入AlexNet网络训练(DCNN),当训练集准确率达到90%时,模型训练就可以结束(batch为每一次模型训练的训练集数量,一般为2的n次方,常取16,32,64)。
将话语级音频数据经过特征提取,将所述AlexNet网络中的全连接层的上一层的输出作为DTPM的输入,所述DTPM的输出作为所述全连接层的输入,将所述话语级音频数据进行特征提取并通过所述AlexNet网络进行预测,得到语音情感标签和对应的时间段(DTPM是一个时间尺度的层,经过DTPM,可以把原本切割成碎片化的特征整合为每一个音频的话语级特征,保证话语级可以通过对时间尺度的学习,得到最优的特征结果,并保证最后的每一个音频的特征长度保持相同)。
其中,MFCC表示经过梅尔倒谱系数提取流程提取后的数据,梅尔倒谱系数提取流程可参考步骤S202。
请参阅图10,其中,DPTM算法全称时域金字塔,目的是将同一个音频相同碎片大小的特征进行话语级的学***均池化的方式得到话语级的音频特征(Utterance-based Features)。即不同长度的音频,最终都可以得到一个相同特征长度的话语级特征。
请参阅图6,在一实施例中,步骤S601,包括:
S701:将所述数据集切割成长度相同的音频数据,并分别计算每一所述音频数据中每一帧的MFCC、MFCC的一阶差分和MFCC的二阶差分,得到完整的特征数据;
S702:对所述特征数据进行整理,输入AlexNet网络进行模型训练。
在本实施例中,可参考上述步骤S601-S603的具体步骤说明。
请参阅图7,一种基于卷积神经网络的音频处理装置10,包括:
提取单元11,用于提取视频数据中的音频信息;
特征提取降维单元12,用于对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
分类单元13,用于将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
语音端点检测单元14,用于根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据进行语音端点检测得到话语级音频数据;
语音情感检测单元15,用于将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
整合单元16,用于按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于卷积神经网络的音频处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于卷积神经网络的音频处理方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求保护范围为准。
Claims (9)
1.一种基于卷积神经网络的音频处理方法,其特征在于,包括:
提取视频数据中的音频信息;
对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据的碎片数据进行语音端点检测得到话语级音频数据;其中,将所述语音音频数据按预设时间长度进行事件切割,以将所述语音音频数据碎片化,得到所述碎片数据;
所述根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据的碎片数据进行语音端点检测得到话语级音频数据,包括:
对每一所述碎片数据中的每一帧进行短时傅里叶变化,以将所述碎片数据从时域信息转换为频率信息;
计算每一所述碎片数据中的每一帧的短期能量和光谱差,得到每一所述碎片数据对应的直方图的分布信息;
采用以下公式计算直方图的阈值:
将每一所述碎片数据中的每一帧的所述短期能量和光谱差通过连续的五元素移动中位数过滤器进行平滑处理,以在一段时间内平滑;
标记所述直方图中所述短期能量和光谱差中所有大于对应预设阈值的分布值所对应的数据坐标点,并记录所述数据坐标点;
将数据坐标点按大小顺序进行整合,取两个相邻数据坐标点之间的数值长度作为语音段;
当相邻两个语音段之间的时间距离小于预设的合并距离数值时,将两个所述语音段合并为一个语音段;
将上述语音段作为话语级音频数据;
其中,M1和M2分别为直方图中所述短期能量或光谱差中数值最大的两个值,W由平滑过后的所述短期能量和光谱差的数值决定;
将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
2.根据权利要求1所述的基于卷积神经网络的音频处理方法,其特征在于,所述对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据,包括:
对所述音频信息依次进行重采样、预加重、分帧、加窗、FFT、Mel滤波、对数运算和DCT操作,最终得到所述降维特征数据;其中,所述加窗为对每一帧音频数据进行汉明窗加窗。
3.根据权利要求1所述的基于卷积神经网络的音频处理方法,其特征在于,所述将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳,包括:
以预设时间长度将所述降维特征数据分割成若干份;
将分割后的每一所述降维特征数据作为输入数据输入yamnet模型,得到对应的预测数据;
对所述预测数据进行打分,根据打分结果从大到小进行排序,得到对应的当前时间长度内的声音事件概率,记录当前时间戳和对应的概率最大的若干个事件;
对每一当前时间长度对应的降维特征数据和对应的概率最大的若干个事件进行整合得到语音音频数据和对应的语音事件时间戳。
4.根据权利要求3所述的基于卷积神经网络的音频处理方法,其特征在于,所述对每一当前时间长度对应的降维特征数据和对应的概率最大的若干个事件进行整合得到语音音频数据,包括:
当前后的两个事件的事件标签相同时,合并两个事件;
提取出所述事件标签为演讲和交谈的对应的语音音频数据。
5.根据权利要求1所述的基于卷积神经网络的音频处理方法,其特征在于,所述将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段,包括:
对所述AlexNet网络进行模型训练;
将所述AlexNet网络中的全连接层的上一层的输出作为DTPM的输入,所述DTPM的输出作为所述全连接层的输入;
将所述话语级音频数据进行特征提取并通过所述AlexNet网络进行预测,得到语音情感标签和对应的时间段。
6.根据权利要求5所述的基于卷积神经网络的音频处理方法,其特征在于,所述对所述AlexNet网络进行模型训练,包括:
将数据集切割成长度相同的音频数据,并分别计算每一所述音频数据中每一帧的MFCC、MFCC的一阶差分和MFCC的二阶差分,得到完整的特征数据;
对所述特征数据进行整理,输入AlexNet网络进行模型训练。
7.一种基于卷积神经网络的音频处理装置,其特征在于,包括:
提取单元,用于提取视频数据中的音频信息;
特征提取降维单元,用于对所述音频信息依次进行语音数据特征提取和降维运算得到降维特征数据;
分类单元,用于将所述降维特征数据以预设时间长度分成若干份,并依次输入yamnet模型进行训练预测得到具有事件标签的语音音频数据和对应的语音事件时间戳;
语音端点检测单元,用于根据所述语音事件时间戳,对每一所述语音音频数据进行切割处理,切割出每一所述语音音频数据的碎片数据,对每一所述语音音频数据的碎片数据进行语音端点检测得到话语级音频数据;其中,将所述语音音频数据按预设时间长度进行事件切割,以将所述语音音频数据碎片化,得到所述碎片数据;
所述语音端点检测单元,包括:
转换单元,用于对每一所述碎片数据中的每一帧进行短时傅里叶变化,以将所述碎片数据从时域信息转换为频率信息;
音频单元,用于计算每一所述碎片数据中的每一帧的短期能量和光谱差,得到每一所述碎片数据对应的直方图的分布信息;
计算单元,用于采用以下公式计算直方图的阈值:
平滑单元,用于将每一所述碎片数据中的每一帧的所述短期能量和光谱差通过连续的五元素移动中位数过滤器进行平滑处理,以在一段时间内平滑;
坐标单元,用于标记所述直方图中所述短期能量和光谱差中所有大于对应预设阈值的分布值所对应的数据坐标点,并记录所述数据坐标点;
整合单元,用于将数据坐标点按大小顺序进行整合,取两个相邻数据坐标点之间的数值长度作为语音段;
合并单元,用于当相邻两个语音段之间的时间距离小于预设的合并距离数值时,将两个所述语音段合并为一个语音段;
输出单元,用于将上述语音段作为话语级音频数据;
其中,M1和M2分别为直方图中所述短期能量或光谱差中数值最大的两个值,W由平滑过后的所述短期能量和光谱差的数值决定;
语音情感检测单元,用于将所述话语级音频数据通过AlexNet网络进行语音情感检测得到预测的语音情感标签,记录所述语音情感标签和对应的时间段;
整合单元,用于按时间先后顺序对所述语音音频数据和对应的语音事件时间戳、所述语音情感标签和对应的时间段进行整合,得到所述音频信息的所有所述事件标签、语音情感标签和对应的时间段。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于卷积神经网络的音频处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于卷积神经网络的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111169052.8A CN113823323B (zh) | 2021-09-30 | 2021-09-30 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111169052.8A CN113823323B (zh) | 2021-09-30 | 2021-09-30 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113823323A CN113823323A (zh) | 2021-12-21 |
CN113823323B true CN113823323B (zh) | 2023-12-12 |
Family
ID=78916235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111169052.8A Active CN113823323B (zh) | 2021-09-30 | 2021-09-30 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113823323B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582366A (zh) * | 2022-03-02 | 2022-06-03 | 浪潮云信息技术股份公司 | 一种基于LapSVM实现音频分段打标签的方法 |
CN114758560B (zh) * | 2022-03-30 | 2023-06-06 | 厦门大学 | 一种基于动态时间规整的哼唱音准评价方法 |
CN116343726B (zh) * | 2023-05-29 | 2023-08-08 | 成都小唱科技有限公司 | 一种点唱机音频切换方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463139A (zh) * | 2014-12-23 | 2015-03-25 | 福州大学 | 一种音频情感驱动下的体育视频精彩事件检测方法 |
JP2018106419A (ja) * | 2016-12-26 | 2018-07-05 | 大日本印刷株式会社 | マーケティング装置 |
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
CN110557589A (zh) * | 2018-05-30 | 2019-12-10 | 百度(美国)有限责任公司 | 用于整合记录的内容的***和方法 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、***、移动终端及存储介质 |
CN110990534A (zh) * | 2019-11-29 | 2020-04-10 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113347491A (zh) * | 2021-05-24 | 2021-09-03 | 北京格灵深瞳信息技术股份有限公司 | 一种视频剪辑方法、装置、电子设备和计算机存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963781B2 (en) * | 2017-08-14 | 2021-03-30 | Microsoft Technology Licensing, Llc | Classification of audio segments using a classification network |
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
US11341186B2 (en) * | 2019-06-19 | 2022-05-24 | International Business Machines Corporation | Cognitive video and audio search aggregation |
US20210158845A1 (en) * | 2019-11-25 | 2021-05-27 | Dell Products L. P. | Automatically segmenting and indexing a video using machine learning |
-
2021
- 2021-09-30 CN CN202111169052.8A patent/CN113823323B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463139A (zh) * | 2014-12-23 | 2015-03-25 | 福州大学 | 一种音频情感驱动下的体育视频精彩事件检测方法 |
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
JP2018106419A (ja) * | 2016-12-26 | 2018-07-05 | 大日本印刷株式会社 | マーケティング装置 |
CN110557589A (zh) * | 2018-05-30 | 2019-12-10 | 百度(美国)有限责任公司 | 用于整合记录的内容的***和方法 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、***、移动终端及存储介质 |
CN110990534A (zh) * | 2019-11-29 | 2020-04-10 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113347491A (zh) * | 2021-05-24 | 2021-09-03 | 北京格灵深瞳信息技术股份有限公司 | 一种视频剪辑方法、装置、电子设备和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
《基于深度网络的多模态视频场景分割算法》;苏筱涵;《中国优秀硕士学位论文全文数据库 信息科技辑》(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113823323A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN110085251B (zh) | 人声提取方法、人声提取装置及相关产品 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN107578775B (zh) | 一种基于深度神经网络的多分类语音方法 | |
Dhanalakshmi et al. | Classification of audio signals using AANN and GMM | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN1860504A (zh) | 用于视听内容合成的***和方法 | |
CN112599152B (zh) | 语音数据标注方法、***、电子设备及存储介质 | |
CN112270933B (zh) | 一种音频识别方法和装置 | |
CN113470698B (zh) | 一种说话人转换点检测方法、装置、设备及存储介质 | |
CN112908301B (zh) | 一种语音识别方法、装置、存储介质及设备 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及*** | |
CN113327586A (zh) | 一种语音识别方法、装置、电子设备以及存储介质 | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN111554270B (zh) | 训练样本筛选方法及电子设备 | |
CN112735466A (zh) | 一种音频检测方法及装置 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
US20070192097A1 (en) | Method and apparatus for detecting affects in speech | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN112581937A (zh) | 一种语音指令的获得方法及装置 | |
CN104715756A (zh) | 音频数据的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |