CN115240709B - 一种音频文件的声场分析方法及装置 - Google Patents

一种音频文件的声场分析方法及装置 Download PDF

Info

Publication number
CN115240709B
CN115240709B CN202210879403.2A CN202210879403A CN115240709B CN 115240709 B CN115240709 B CN 115240709B CN 202210879403 A CN202210879403 A CN 202210879403A CN 115240709 B CN115240709 B CN 115240709B
Authority
CN
China
Prior art keywords
synthesizer
audio file
accompaniment
identified
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210879403.2A
Other languages
English (en)
Other versions
CN115240709A (zh
Inventor
夏妍
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mgjia Beijing Technology Co ltd
Original Assignee
Mgjia Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mgjia Beijing Technology Co ltd filed Critical Mgjia Beijing Technology Co ltd
Priority to CN202210879403.2A priority Critical patent/CN115240709B/zh
Publication of CN115240709A publication Critical patent/CN115240709A/zh
Application granted granted Critical
Publication of CN115240709B publication Critical patent/CN115240709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供了一种音频文件的声场分析方法及装置,其中,音频文件的声场分析方法包括:获取待识别音频文件;将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值;当合成器含量计算结果、伴奏人声比计算结果分别满足各自阈值时,判定待识别音频文件的声场属性为声场窄。在准确计算得到合成器含量以及伴奏人声比的同时,还可以将音频文件的空间感进行有效表征,进而通过音频文件的内在属性对音频文件的调节进行准确指导。

Description

一种音频文件的声场分析方法及装置
技术领域
本发明涉及多媒体音频识别领域,具体涉及一种音频文件的声场分析方法及装置。
背景技术
多媒体音频文件的出现,极大地丰富了人们的日常生活,随着用户对于个性化选择的需求急速增加,如何对音频文件进行针对性的调节成为研究人员关注的重点。声音可以被人所评价的一般包括两个方面,包括音质音色和空间印象,其中,音质是基础,如果播放设备本身的音质不好,那么即便决定空间印象的客观参数没有区别,主观上也会觉得声场变差了,但相关实验表明,声音听起来是否自然(即“自然感”)有一半的权重都与空间印象也就是声场和声像有关,而声音听起来是否舒服——(即“愉悦感”)则一多半都与空间印象有关。目前对于音频文件的调节,多是通过调整播放设备的参数的方式使其达到理想播放效果,但这种调节方式往往忽略了音频文件的声场宽度属性特征,无法对音频文件的音效调节做出更好地指导。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的无法对音频文件的声场宽度进行准确判断,导致无法对调节音频文件进行准确指导的缺陷,从而提供一种音频文件的声场分析方法及装置。
根据第一方面,本发明实施例提供了一种音频文件的声场分析方法,所述方法包括:
获取待识别音频文件;
将所述待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;
对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;
判断所述合成器含量计算结果是否满足合成器含量阈值,以及所述伴奏人声比计算结果是否满足伴奏人声比阈值;
当所述合成器含量计算结果满足所述合成器含量阈值且所述伴奏人声比计算结果满足所述伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄。
可选地,所述将所述待识别音频文件划分为若干音频数据,包括:
对所述待识别音频文件进行划分,得到若干中间音频数据;
对每一中间音频数据进行梅尔标度处理,得到各所述中间音频数据的梅尔谱图数据。
可选地,所述对每一音频数据进行合成器含量计算,得到合成器含量计算结果,包括:
将各所述中间音频数据的梅尔谱图数据输入识别模型,得到每一音频数据中合成器的出现概率;
依次判断每一音频数据中所述合成器的出现概率是否超过预设值;
在当前音频数据中所述合成器的出现概率超过预设值时,判定所述当前音频数据中存在所述合成器;
统计包含所述合成器的对应音频数据的个数;
基于所述合成器对应音频数据的个数及音频数据的总数,计算所述合成器在所述待识别音频文件中的含量。
可选地,所述将每一音频数据输入识别模型,得到每一音频数据中合成器的出现概率,包括:
基于所述识别模型,获取各所述中间音频数据的梅尔谱图数据对应的特征向量;
基于所述识别模型和所述特征向量,计算得到每一音频数据中所述合成器的出现概率。
可选地,所述对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果,包括:
将所述待识别音频文件进行时频域转换,得到伴奏幅值结果和人声幅值结果;
基于能量计算原则和伴奏幅值结果,计算得到伴奏能量结果;
基于所述能量计算原则和人声幅值结果,计算得到人声能量结果;
基于所述伴奏能量结果和所述人声能量结果,计算得到伴奏人声比计算结果。
可选地,在所述将所述待识别音频文件进行时频域转换,得到伴奏和人声的幅值结果之前,所述方法还包括:
将所述待识别音频文件进行伴奏和人声分离。
可选地,在所述将所述待识别音频文件进行时频域转换之前,所述方法还包括:
判断所述待识别音频文件对应的音频频率数值是否超出预设频率范围;
当所述音频频率数值未超出预设频率范围时,将所述待识别音频文件进行时频域转换。
根据第二方面,本发明实施例提供了一种音频文件的声场分析装置,所述装置包括:
获取模块,用于获取待识别音频文件;
第一计算模块,用于将所述待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;
第二计算模块,用于对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;
判断模块,用于判断所述合成器含量计算结果是否满足合成器含量阈值,以及所述伴奏人声比计算结果是否满足伴奏人声比阈值;
处理模块,用于当所述合成器含量计算结果满足所述合成器含量阈值且所述伴奏人声比计算结果满足所述伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄。
根据第三方面,本发明实施例提供了一种电子设备,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
本发明技术方案,具有如下优点:
本发明提供的音频文件的声场分析方法及装置,通过获取待识别音频文件;将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;判断所述合成器含量计算结果是否满足合成器含量阈值,以及所述伴奏人声比计算结果是否满足伴奏人声比阈值;当所述合成器含量计算结果满足所述合成器含量阈值且所述伴奏人声比计算结果满足所述伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄。通过对每一音频数据进行合成器含量计算、对整体待识别音频文件进行伴奏人声比计算,通过判断合成器含量计算结果是否满足合成器含量阈值以及伴奏人声比计算结果是否满足伴奏人声比阈值,当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄,通过设定合理的阈值,将音频文件的声场宽度属性这一依附于主观感觉得出的空间印象转换为可进行客观判断的数量化的音频文件属性,通过将合成器含量以及伴奏人声比进行数量化处理,并与预设阈值进行对比得到音频文件的声场宽度判定结果,在准确计算得到合成器含量以及伴奏人声比的同时,还可以将音频文件的空间感进行有效表征,进而通过音频文件的内在属性对音频文件的调节进行准确指导。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的音频文件的声场分析方法的流程图;
图2为本发明实施例的音频文件的声场分析装置的结构示意图;
图3为本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种音频文件的声场分析方法,如图1所示,该音频文件的声场分析方法具体包括如下步骤:
步骤S101:获取待识别音频文件。
具体地,在实际应用中,声场宽度也被称为感知声场宽度(ASW),是一个声源在空间宽度上的听觉印象。从物理上讲,这种心理声学印象是由声音辐射特性和房间声学特性造成的。听众通过对一定宽度的音源进行倾听,从而达到优质的听觉享受。而声场宽度作为体现音频文件空间感的属性,往往存在于具有感知声音、现场混音以及使用扩声***或广播***的场所,例如歌剧院、音乐会等,在这些场所中,艺术音乐、歌剧、古典音乐、历史性演出和当代古典音乐等演出由于演出场地较为宽阔,因此听众在进行欣赏时,可同时感受到声音的“空间感”,最终使观众收获到一场听觉盛宴。而对于一些基于乐器软件编写或在狭小录音棚完成的音频文件,由于现实录制空间较为狭小,甚至根本不存在录制空间仅依靠乐器软件编写音频文件,这类音频文件往往不具备“空间感”,导致听众的听觉感受很差。针对此类情况,本发明实施例通过将待识别音频文件中的合成器含量和伴奏人声比进行量化计算,将计算结果分别与各自阈值进行比较,最终对待识别音频文件的声场宽度属性进行判断,从而为后续进行待识别音频文件的调音指导提供成熟的前期技术支撑。
具体地,本发明实施例以流行曲风的音频文件为例,对本发明实施例提供的一种音频文件的声场分析方法的具体实施方式进行说明,其他类型音频文件的处理过程类似,在此不再进行赘述。
具体地,在实际应用中,本发明实施例首先将待识别音频文件划分为多个音频数据,通过对每个音频数据内的合成器含量进行计算,在此基础上,对整体待识别音频文件的伴奏人声比进行计算,有效提高了待识别音频文件中合成器含量以及伴奏人声比的识别以及计算的准确性。
优选地,本发明实施例采用小时间粒度对待识别音频文件进行划分,划分时间单元为1秒钟,即待识别音频文件被划分为N个1秒钟的音频数据,对每一音频数据进行短时傅里叶变换,将时域信号转换成频域信号,其中,频域信号包括幅值和相位,后续将基于短时傅里叶变换的音频数据进行合成器含量的计算。短时傅里叶变换属于现有技术,在此不再进行赘述
步骤S102:将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果。
具体地,在实际应用中,本发明实施例为更好地对音频文件的声场宽度属性进行数量化定性,对待识别音频文件中每一音频数据中的合成器含量进行计算,最终得到待识别音频文件的合成器含量。通过将每一音频数据中的合成器含量进行计算,为后续判定待识别音频文件的声场属性是否为声场窄奠定前期数据基础。
步骤S103:对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果。
具体地,在实际应用中,本发明实施例通过将待识别音频文件中的伴奏和人声进行分别计算,根据伴奏能量结果与人声能量的比值,确定该待识别音频文件的伴奏人声比。
示例性地,对于一首1分钟时长的待识别音频文件,在进行短时傅里叶变换,将时频信号转换为频域信号后,得到一个形状为(2609,1024,2)的矩阵,将矩阵切成11段子矩阵,其中,每段子矩阵的形状为(512,1024,2),每一段之间都有(256,1024,2)的重叠。通过把这11段子矩阵堆叠在一起,形成一个(11,512,1024,2)的矩阵,将其输入至对应识别模型中进行后续伴奏人声比计算的步骤。
优选地,在进行短时傅里叶变换时,本发明实施例采用每93毫秒一个窗口,窗口的移动步长是23毫秒。
具体地,在实际应用中,本发明实施例使用Spleeter神经网络模型来进行音乐和人声的分离,Spleeter模型是基于U-nets的12层卷积神经网络模型,含有跳跃连接(skip-connection),使得低级别的信息可以直接从高分辨率的输入流向高分辨率的输出,获得更好的最终输出的效果,并有效防止网络层数增加而导致的梯度弥散问题与退化问题,但实际情况不限于此,为更好地对音频数据进行人声和伴奏分离,而进行分离模型类别和数量的改变也在本发明实施例提供的音频文件的声场分析方法的保护范围之内。
具体地,本发明实施例将待识别音频文件输入至Spleeter模型后,得到对应的一个只含有人声的音频数据和一个只含有伴奏的音频数据。
步骤S104:判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值。
具体地,在实际应用中,本发明实施例的提供的合成器含量阈值和伴奏人声比阈值均是综合大量流行曲风音频文件数理统计结果,数值经专家老师人为斟酌确定。
示例性地,合成器含量阈值可为20%,即当待识别音频文件的合成器含量小于20%时,判定待识别音频文件的合成器含量满足合成器含量阈值要求;伴奏人声比阈值为2,即当待识别音频文件的伴奏人声比小于2时,判定待识别音频文件的伴奏人声比满足伴奏人声比阈值要求,但实际情况不限于此,为保证合成器含量以及伴奏人声比识别的准确性而进行合成器含量阈值或伴奏人声比阈值的数值变化,也在本发明实施例提供的音频文件的声场分析方法的保护范围之内。
通过对大量流行曲风音频文件进行数理统计,得到流行曲风音频文件的合成器含量以及伴奏人声比规律,在基于客观训练结果的前提下,结合专家老师的经验确定合成器含量阈值和伴奏人声比阈值,不仅可以有效保证阈值结果的合理性,还充分考虑了人的主观感受,合理设定阈值为后续进行音频文件声场属性的确定提供了有力保证。
步骤S105:当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。
具体地,在实际应用中,当合成器含量小于合成器含量阈值且伴奏人声比小于伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。后续将对声场窄的音频文件进行调音处理,从而满足不同用户对于音频文件的听觉要求。
通过获取待识别音频文件;将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值;当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。通过对每一音频数据进行合成器含量计算、对整体待识别文件进行伴奏人声比计算,通过判断合成器含量计算结果是否满足合成器含量阈值以及伴奏人声比计算结果是否满足伴奏人声比阈值,当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄,通过设定合理的阈值,将音频文件的声场宽度属性这一依附于主观感觉得出的空间印象转换为可进行客观判断的数量化的音频文件属性,通过将合成器含量以及伴奏人声比进行数量化处理,并与预设阈值进行对比得到音频文件的声场宽度判定结果,在准确计算得到合成器含量以及伴奏人声比的同时,还可以将音频文件的空间感进行有效表征,进而通过音频文件的内在属性对音频文件的调节进行准确指导。
具体地,在一实施例中,在执行上述步骤S102将待识别音频文件划分为若干音频数据,具体包括如下步骤:
步骤S201:对所述待识别音频文件进行划分,得到若干中间音频数据;
步骤S202:对每一中间音频数据进行梅尔标度处理,得到各所述中间音频数据的梅尔谱图数据。
具体地,在实际应用中,本发明实施例通过将经过短时傅里叶变换后的频域信号从频率标度转换为梅尔标度,得到待识别音频文件的若干音频数据以及对应的梅尔谱图数据。
具体地,本发明实施例采用VGG卷积神经网络模型作为计算合成器含量的识别模型的主体模型,本发明实施例采用的VGG模型为现有技术中已有的VGG卷积神经网络模型,其构建、训练和识别过程均可参照现有技术中的相关描述进行实施,在此不再进行赘述。
具体地,在一实施例中,上述步骤S102对每一音频数据进行合成器含量计算,得到合成器含量计算结果,具体包括如下步骤:
步骤S301:将每一音频数据输入识别模型,得到每一音频数据中合成器的出现概率。
具体地,在实际应用中,本发明实施例采用以VGG模型作为识别模型的主体,分类器模型作为辅助模型的方式,通过将梅尔谱图形式的音频数据输入VGG模型中,得到每一音频数据中合成器的出现概率。
步骤S302:依次判断每一音频数据中合成器的出现概率是否超过预设值。
具体地,在实际应用中,为保证计算的合成器相关结果的准确性,本发明实施例对合成器的出现概率进行了判断,当合成器的出现概率超过预设值时,判定当前音频数据中出现了合成器。
具体地,在实际应用中,本发明实施例采用“VGG模型+分类器模型”的识别模型对音频数据中合成器的出现概率以及含量进行计算。优选地,分类器模型选用随机森林模型,通过合理设置随机森林模型内深度和树的数量参数,可以有效防止识别模型过度拟合,并大幅提高识别速度。
优选地,本发明实施例采用的随机森林模型内一共有100棵树,每棵树的输出结果只有出现或不出现两种情况,通过对每棵树的输出结果进行统计,即可得到合成器的出现概率。示例性地,当有85棵树的输出结果为出现,其余输出结果为不出现,则认为合成器在当前音频数据中出现的概率为0.85。
步骤S303:在当前音频数据中合成器的出现概率超过预设值时,判定当前音频数据中存在合成器。
优选地,预设值为0.5,即若当前音频数据中合成器出现的概率大于等于0.5时,判断当前音频数据中出现了合成器,但实际情况不限于此,为保证合成器含量计算的准确性而进行预设值数值的改变,也在本发明实施例提供的音频文件的声场分析方法的保护范围之内。
步骤S304:统计包含合成器的对应音频数据的个数。
步骤S305:基于合成器对应音频数据的个数及音频数据的总数,计算合成器在待识别音频文件中的含量。
具体地,在实际应用中,计算合成器在待识别音频文件中的含量公式如下:
其中,f为合成器在待识别音频文件中的含量,s为合成器对应音频数据的个数,N为音频数据的总数。
具体地,在实际应用中,本发明实施例是基于小粒度的音频数据对合成器进行识别,s可用合成器在当前音频数据的出现秒数进行表示;N可用待识别音频文件的时长进行表示。
本发明实施例通过对待识别音频文件中合成器出现的时间占比进行量化,可以将合成器含量进行数量化统计。为保证合成器含量在待识别音频文件中的影响力度,本发明实施例设置合成器含量阈值对合成器含量进行限定,优选地,合成器含量阈值可为20%,即当待识别音频文件的合成器含量小于20%时,判定待识别音频文件的合成器含量满足合成器含量阈值要求。
具体地,在一实施例中,上述步骤S301将各中间音频数据的梅尔谱图数据输入识别模型,得到每一音频数据中合成器的出现概率,具体包括如下步骤:
步骤S401:基于识别模型,获取各中间音频数据的梅尔谱图数据对应的特征向量。
步骤S402:基于识别模型和特征向量,计算得到每一音频数据中合成器的出现概率。
具体地,在实际应用中,本发明实施例将每段中间音频数据梅尔谱图数据输入至“VGG+随机森林”的识别模型中,通过VGG主体模型即可得到其梅尔谱图数据对应的特征向量,再通过将特征向量输入至随机森林辅助模型,即可得到每一音频数据中合成器的出现概率。随机森林模型是一种由多棵决策树组成的分类器,其输出的类别是由个别树输出的类别的众数而定,随机森林模型的优势包括:不容易过拟合、模型效果更好等等。本发明实施例采用“VGG+随机森林”识别模型对合成器进行有效识别的同时,由于合成器可视作一种乐器,其识别过程与乐器识别过程类似,因此,通过“VGG+随机森林”识别模型,可同时得到每段音频数据中的多种乐器的出现概率,从而有效提高对待识别音频文件的识别效率。
具体地,在一实施例中,上述步骤S103对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果具体包括如下步骤:
步骤S501:将待识别音频文件进行时频域转换,得到伴奏幅值结果和人声幅值结果。
具体地,在实际应用中,本发明实施例将通过进行短时傅里叶变换即可实现时频域转换,得到待识别音频文件音频数据中某个频率对应的幅值和相位,由于幅值与声音响度有着对应关系,因此本发明实施例只对待识别音频文件中伴奏和人声的幅值信号进行计算。具体地,幅值的数值为一个正的浮点数,例如可以为1.5。
具体地,本发明实施例将待识别音频文件的频域信号输入至Spleeter模型进行伴奏和人声的分离,得到一个只含有人声的音频和一个只含有伴奏的音频,其中,伴奏包括各种乐器和合成器等不含人声的所有音频信号。
步骤S502:基于能量计算原则和伴奏幅值结果,计算得到伴奏能量结果。步骤S503:基于能量计算原则和人声幅值结果,计算得到人声能量结果。步骤S504:基于伴奏能量结果和人声能量结果,计算得到伴奏人声比计算结果。
具体地,在实际应用中,通过将伴奏能量结果与人声能量结果进行比较,得到伴奏人声比计算结果。本发明实施例通过分别进行伴奏部分和人声部分的能量强度统计,对待识别音频文件的伴奏人声比情况进行处理,为后续判断待识别音频文件的声场宽度属性提供数据支撑。
具体地,在一实施例中,在执行上述步骤S501将每一音频进行时频域转换,得到伴奏和人声的幅值结果之前,具体还包括如下步骤:
步骤S601:将待识别音频文件进行伴奏和人声分离。
具体地,在实际应用中,本发明实施例为提高对待识别音频文件声场宽度属性的判断效率,在进行伴奏人声比计算之前,首先会通过Spleeter模型对待识别音频文件进行伴奏和人声的分离,其中,Spleeter模型的构建、训练和识别过程均可参照现有技术中Spleeter模型的相关描述进行实施,在此不再进行赘述。
具体地,在一实施例中,在执行上述步骤S501将待识别音频文件进行时频域转换之前,具体还包括如下步骤:
步骤S701:判断待识别音频文件对应的音频频率数值是否超出预设频率范围。
步骤S702:当音频数据的频率数值未超出预设频率范围时,将待识别音频文件进行时频域转换。
具体地,在实际应用中,本发明实施例充分考虑了人耳的听觉范围,将预设频率范围设置为20-22000hz,若待识别音频文件的频率数值处于预设频率范围之内时,则将待识别音频文件进行时频域转换,进行后续计算,通过对音频数据的频率数值是否超出预设频率范围进行判断,有效保证了后续对待识别音频文件中的伴奏和人声的计算结果更加符合用户的听觉感受。
本发明实施例通过采用“VGG+随机森林”识别模型对合成器进行有效识别和准确计算,通过采用Spleeter模型对伴奏人声比进行分离,并基于分离后的结果,分别对伴奏能量和人声能量进行计算,得到最终的伴奏人声比计算结果,在进行有针对性地识别和处理的同时,大幅提高了对待识别音频文件的声场宽度属性的判断准确度。
通过执行上述步骤,本发明实施例提供的音频文件的声场分析方法,通过将获取待识别音频文件;将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值;当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。通过对每一音频数据进行合成器含量计算、对整体待识别音频文件进行伴奏人声比计算,通过判断合成器含量计算结果是否满足合成器含量阈值以及伴奏人声比计算结果是否满足伴奏人声比阈值,当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄,通过设定合理的阈值,将音频文件的声场宽度属性这一依附于主观感觉得出的空间印象转换为可进行客观判断的数量化的音频文件属性,通过将合成器含量以及伴奏人声比进行数量化处理,并与预设阈值进行对比得到音频文件的声场宽度判定结果,在准确计算得到合成器含量以及伴奏人声比的同时,还可以将音频文件的空间感进行有效表征,进而通过音频文件的内在属性对音频文件的调节进行准确指导。
下面将结合具体应用示例,对本发明实施例提供的音频文件的声场分析方法进行详细的说明。
如图1所示,将待识别音频文件进行切分,得到N段1秒钟的音频数据,通过进行短时傅里叶变换,得到频域信号。通过将每一音频数据进行梅尔标度转换得到对应的梅尔谱图数据,将每一梅尔谱图数据输入至VGG+随机森林的识别模型中,对待识别音频文件的合成器含量进行量化计算,得到合成器含量计算结果;再将经过时频域转换的待识别音频文件输入Spleeter模型进行伴奏和人声分离,进行伴奏部分和人声部分的能量强度计算,分别得到伴奏能量结果和人声能量结果,基于伴奏能量结果和人声能量结果,计算得到伴奏人声比结果,当合成器含量计算结果小于合成器含量阈值且伴奏人声比结果小于伴奏人声比阈值时,确定待识别音频文件的声场宽度属性为声场窄,本发明实施例后续还可对此类声场窄音频文件进行调节,为用户带来更优质的听觉享受。
本发明实施例提供了一种音频文件的声场分析装置,如图2所示,该音频文件的声场分析装置包括:
获取模块101,用于获取待识别音频文件。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
第一计算模块102,用于将所述待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
第二计算模块103,用于对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
判断模块104,用于判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。
处理模块105,用于当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。详细内容参见上述方法实施例中步骤S105的相关描述,在此不再进行赘述。
上述的音频文件的声场分析装置的更进一步描述参见上述音频文件的声场分析方法实施例的相关描述,在此不再进行赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的音频文件的声场分析装置,通过获取待识别音频文件;将待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;对待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;判断合成器含量计算结果是否满足合成器含量阈值,以及伴奏人声比计算结果是否满足伴奏人声比阈值;当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄。通过对每一音频数据进行合成器含量计算、对整体待识别音频文件进行伴奏人声比计算,通过判断合成器含量计算结果是否满足合成器含量阈值以及伴奏人声比计算结果是否满足伴奏人声比阈值,当合成器含量计算结果满足合成器含量阈值且伴奏人声比计算结果满足伴奏人声比阈值时,判定待识别音频文件的声场属性为声场窄,通过设定合理的阈值,将音频文件的声场宽度属性这一依附于主观感觉得出的空间印象转换为可进行客观判断的数量化的音频文件属性,通过将合成器含量以及伴奏人声比进行数量化处理,并与预设阈值进行对比得到音频文件的声场宽度判定结果,在准确计算得到合成器含量以及伴奏人声比的同时,还可以将音频文件的空间感进行有效表征,进而通过音频文件的内在属性对音频文件的调节进行准确指导。
本发明实施例提供了一种电子设备,如图3所示,该电子设备包括处理器901和存储器902,存储器902和处理器901之间互相通信连接,其中处理器901和存储器902可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器901的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种音频文件的声场分析方法,其特征在于,包括:
获取待识别音频文件;
将所述待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;所述将所述待识别音频文件划分为若干音频数据,包括:对所述待识别音频文件进行划分,得到若干中间音频数据;对每一中间音频数据进行梅尔标度处理,得到各所述中间音频数据的梅尔谱图数据;所述对每一音频数据进行合成器含量计算,得到合成器含量计算结果,包括:将各所述中间音频数据的梅尔谱图数据输入识别模型,得到每一音频数据中合成器的出现概率;依次判断每一音频数据中所述合成器的出现概率是否超过预设值;在当前音频数据中所述合成器的出现概率超过预设值时,判定所述当前音频数据中存在所述合成器;统计包含所述合成器的对应音频数据的个数;基于所述合成器对应音频数据的个数及音频数据的总数,计算所述合成器在所述待识别音频文件中的含量;
对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;所述对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果,包括:将所述待识别音频文件进行时频域转换,得到伴奏幅值结果和人声幅值结果;基于能量计算原则和伴奏幅值结果,计算得到伴奏能量结果;基于所述能量计算原则和人声幅值结果,计算得到人声能量结果;基于所述伴奏能量结果和所述人声能量结果,计算得到伴奏人声比计算结果;
判断所述合成器含量计算结果是否满足合成器含量阈值,以及所述伴奏人声比计算结果是否满足伴奏人声比阈值;
当所述合成器含量计算结果满足所述合成器含量阈值且所述伴奏人声比计算结果满足所述伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄。
2.根据权利要求1所述的方法,其特征在于,所述将各所述中间音频数据的梅尔谱图数据输入识别模型,得到每一音频数据中合成器的出现概率,包括:
基于所述识别模型,获取各所述中间音频数据的梅尔谱图数据对应的特征向量;
基于所述识别模型和所述特征向量,计算得到每一音频数据中所述合成器的出现概率。
3.根据权利要求1所述的方法,其特征在于,在所述将所述待识别音频文件进行时频域转换,得到伴奏和人声的幅值结果之前,所述方法还包括:
将所述待识别音频文件进行伴奏和人声分离。
4.根据权利要求1所述的方法,其特征在于,在所述将所述待识别音频文件进行时频域转换之前,所述方法还包括:
判断所述待识别音频文件对应的音频频率数值是否超出预设频率范围;
当所述音频频率数值未超出预设频率范围时,将所述待识别音频文件进行时频域转换。
5.一种音频文件的声场分析装置,其特征在于,包括:
获取模块,用于获取待识别音频文件;
第一计算模块,用于将所述待识别音频文件划分为若干音频数据,并对每一音频数据进行合成器含量计算,得到合成器含量计算结果;所述将所述待识别音频文件划分为若干音频数据,包括:对所述待识别音频文件进行划分,得到若干中间音频数据;对每一中间音频数据进行梅尔标度处理,得到各所述中间音频数据的梅尔谱图数据;所述对每一音频数据进行合成器含量计算,得到合成器含量计算结果,包括:将各所述中间音频数据的梅尔谱图数据输入识别模型,得到每一音频数据中合成器的出现概率;依次判断每一音频数据中所述合成器的出现概率是否超过预设值;在当前音频数据中所述合成器的出现概率超过预设值时,判定所述当前音频数据中存在所述合成器;统计包含所述合成器的对应音频数据的个数;基于所述合成器对应音频数据的个数及音频数据的总数,计算所述合成器在所述待识别音频文件中的含量;
第二计算模块,用于对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果;所述对所述待识别音频文件进行伴奏人声比计算,得到伴奏人声比计算结果,包括:将所述待识别音频文件进行时频域转换,得到伴奏幅值结果和人声幅值结果;基于能量计算原则和伴奏幅值结果,计算得到伴奏能量结果;基于所述能量计算原则和人声幅值结果,计算得到人声能量结果;基于所述伴奏能量结果和所述人声能量结果,计算得到伴奏人声比计算结果;
判断模块,用于判断所述合成器含量计算结果是否满足合成器含量阈值,以及所述伴奏人声比计算结果是否满足伴奏人声比阈值;
处理模块,用于当所述合成器含量计算结果满足所述合成器含量阈值且所述伴奏人声比计算结果满足所述伴奏人声比阈值时,判定所述待识别音频文件的声场属性为声场窄。
6.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行如权利要求1-4中任一项所述的方法。
CN202210879403.2A 2022-07-25 2022-07-25 一种音频文件的声场分析方法及装置 Active CN115240709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210879403.2A CN115240709B (zh) 2022-07-25 2022-07-25 一种音频文件的声场分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210879403.2A CN115240709B (zh) 2022-07-25 2022-07-25 一种音频文件的声场分析方法及装置

Publications (2)

Publication Number Publication Date
CN115240709A CN115240709A (zh) 2022-10-25
CN115240709B true CN115240709B (zh) 2023-09-19

Family

ID=83675484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210879403.2A Active CN115240709B (zh) 2022-07-25 2022-07-25 一种音频文件的声场分析方法及装置

Country Status (1)

Country Link
CN (1) CN115240709B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962277A (zh) * 2018-07-20 2018-12-07 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN109828740A (zh) * 2019-01-21 2019-05-31 北京小唱科技有限公司 音频调节方法及装置
WO2020177190A1 (zh) * 2019-03-01 2020-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种处理方法、装置及设备
WO2021245234A1 (en) * 2020-06-05 2021-12-09 Sony Group Corporation Electronic device, method and computer program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
EP2960899A1 (en) * 2014-06-25 2015-12-30 Thomson Licensing Method of singing voice separation from an audio mixture and corresponding apparatus
CN111916039B (zh) * 2019-05-08 2022-09-23 北京字节跳动网络技术有限公司 音乐文件的处理方法、装置、终端及存储介质
CN111326132B (zh) * 2020-01-22 2021-10-22 北京达佳互联信息技术有限公司 音频处理方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962277A (zh) * 2018-07-20 2018-12-07 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN109828740A (zh) * 2019-01-21 2019-05-31 北京小唱科技有限公司 音频调节方法及装置
WO2020177190A1 (zh) * 2019-03-01 2020-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种处理方法、装置及设备
WO2021245234A1 (en) * 2020-06-05 2021-12-09 Sony Group Corporation Electronic device, method and computer program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的器乐分离算法研究;郭毓博;《优秀硕士学位论文全文库》;全文 *
综合性大型演播厅音频***设计方案;林锋;《2005年广播电视技术论文汇编》;全文 *

Also Published As

Publication number Publication date
CN115240709A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
CN107093991A (zh) 基于目标响度的响度归一化方法和设备
CN1897766A (zh) 助听器和调节助听器的相应方法
US9635483B2 (en) System and a method of providing sound to two sound zones
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
Nagathil et al. Spectral complexity reduction of music signals for mitigating effects of cochlear hearing loss
WO2011100802A1 (en) Hearing apparatus and method of modifying or improving hearing
Buyens et al. A stereo music preprocessing scheme for cochlear implant users
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
EP4131250A1 (en) Method and system for instrument separating and reproducing for mixture audio source
CN114067827A (zh) 一种音频处理方法、装置及存储介质
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
EP4158627A1 (en) Method and apparatus for processing an initial audio signal
CN115240709B (zh) 一种音频文件的声场分析方法及装置
Chermaz et al. Evaluating Near End Listening Enhancement Algorithms in Realistic Environments.
CN115119110A (zh) 音效调节方法、音频播放设备以及计算机可读存储介质
CN114743527A (zh) 一种美声滤镜匹配方法
JP2023539121A (ja) オーディオコンテンツの識別
Sakuraba et al. Comparing features for forming music streams in automatic music transcription
Stahl et al. SIDIQ: Computational Quality Assessment of Enhanced Speech Based on Auditory Figure-Ground Segregation, Similarity, and Disturbance
CN217178628U (zh) 油烟机和油烟机***
Akadomari et al. HMM-based speech synthesizer for easily understandable speech broadcasting
CN109947385A (zh) 动态调音方法、装置、可穿戴设备和存储介质
Chen et al. Modified Perceptual Linear Prediction Liftered Cepstrum (MPLPLC) Model for Pop Cover Song Recognition.
Zezario et al. Deep learning-based speech intelligibility prediction model by incorporating Whisper for hearing aids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant