CN113691927B - 音频信号处理方法及装置 - Google Patents

音频信号处理方法及装置 Download PDF

Info

Publication number
CN113691927B
CN113691927B CN202111014196.6A CN202111014196A CN113691927B CN 113691927 B CN113691927 B CN 113691927B CN 202111014196 A CN202111014196 A CN 202111014196A CN 113691927 B CN113691927 B CN 113691927B
Authority
CN
China
Prior art keywords
audio signal
frame
head
beat
impulse response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111014196.6A
Other languages
English (en)
Other versions
CN113691927A (zh
Inventor
范欣悦
张晨
郑羲光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111014196.6A priority Critical patent/CN113691927B/zh
Publication of CN113691927A publication Critical patent/CN113691927A/zh
Priority to EP22191314.8A priority patent/EP4142310A1/en
Priority to US17/898,922 priority patent/US20230070037A1/en
Application granted granted Critical
Publication of CN113691927B publication Critical patent/CN113691927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本公开关于一种音频信号处理方法及装置。该音频信号处理方法包括:检测音频信号的节拍信息;基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声。根据本公开的音频信号处理方法及装置,可提升音乐的动感,并且可提升听众的听觉体验,使得听众声临其境。

Description

音频信号处理方法及装置
技术领域
本公开涉及音视频技术领域。更具体地,本公开涉及一种音频信号处理方法及装置。
背景技术
相关技术中,虚拟环绕声是能够把多声道的信号经过处理,用两个或三个扬声器来模拟真实的物理环绕声的体验,使聆听者感到声音来自不同的方位,这种***在希望享受环绕声体验而又不需要大量扬声器的消费者中很受欢迎。虚拟环绕声技术充分利用了双耳效应、人耳的频率滤波效应、头部相关传输函数Head-Related Transfer Function(HRTF),人为的改变声源定位,使人脑在相应的空间方位上产生对应的声像。虚拟环绕声场常用在游戏3D音效,如计算游戏场景中多个音源(脚步声、远处动物等)与环境相互作用的效果(反射、阻碍)等。在音乐中,虚拟环绕通常也作为一种特殊音效来增强音乐的趣味性和动听性。
发明内容
本公开的示例性实施例在于提供一种音频信号处理方法及装置,以至少解决相关技术中的音频信号处理的问题,也可不解决任何上述问题。
根据本公开的示例性实施例,提供一种音频信号处理方法,包括:检测音频信号的节拍信息;基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声。
可选地,检测音频信号的节拍信息的步骤包括:将音频信号转换为单声道音频信号;检测单声道音频信号的节拍信息作为音频信号的节拍信息。
可选地,检测单声道音频信号的节拍信息作为音频信号的节拍信息的步骤包括:检测单声道音频信号的谱流量;基于所述谱流量检测单声道音频信号的节拍信息。
可选地,检测单声道音频信号的节拍信息作为音频信号的节拍信息的步骤包括:提取单声道音频信号的频域特征;基于频域特征预测音频信号的每帧是拍点的概率;基于所述概率确定音频信号的节拍信息。
可选地,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作的步骤包括:基于音频信号的节拍信息从头部相关传递函数确定音频信号的头部相关频率脉冲响应;将音频信号的头部相关频率脉冲响应与音频信号的每帧进行卷积操作。
可选地,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作的步骤包括:基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应;基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
可选地,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作的步骤包括:获取头部相关传递函数在各个连续方向上的头部相关频率脉冲响应;基于音频信号的节拍信息确定音频信号的每帧旋转的角度;基于每帧旋转的角度确定与音频信号的每帧相应的头部相关频率脉冲响应;将相应的头部相关频率脉冲响应分别与音频信号的相应帧进行卷积操作。
可选地,基于音频信号的节拍信息确定音频信号的每帧旋转的角度的步骤包括:基于音频信号的节拍信息计算音频信号的每拍时长;基于音频信号的每拍时长计算音频信号旋转一周的时间;基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度,其中,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
可选地,检测音频信号的节拍信息的步骤包括:检测音频信号的重拍信息。
可选地,检测音频信号的节拍信息的步骤之后,所述音频信号处理方法还包括:基于重拍信息确定音频信号的初始方位角。
可选地,所述音频信号处理方法还包括:通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
可选地,所述预设的音频效果器包括压限器。
根据本公开的示例性实施例,提供一种音频信号处理装置,包括:节拍检测单元,被配置为检测音频信号的节拍信息;以及音频处理单元,被配置为基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声。
可选地,节拍检测单元被配置为:将音频信号转换为单声道音频信号;检测单声道音频信号的节拍信息作为音频信号的节拍信息。
可选地,节拍检测单元被配置为:检测单声道音频信号的谱流量;基于所述谱流量检测单声道音频信号的节拍信息。
可选地,节拍检测单元被配置为:提取单声道音频信号的频域特征;基于频域特征预测音频信号的每帧是拍点的概率;基于所述概率确定音频信号的节拍信息。
可选地,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定音频信号的头部相关频率脉冲响应;将音频信号的头部相关频率脉冲响应与音频信号的每帧进行卷积操作。
可选地,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应;基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
可选地,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应;基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
可选地,音频处理单元被配置为:基于音频信号的节拍信息计算音频信号的每拍时长;基于音频信号的每拍时长计算音频信号旋转一周的时间;基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度,其中,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
可选地,节拍检测单元被配置为:检测音频信号的重拍信息。
可选地,所述音频信号处理装置还包括:初始方位角确定单元,被配置为:基于重拍信息确定音频信号的初始方位角。
可选地,所述音频信号处理装置还包括:效果处理单元,被配置为:通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
可选地,所述预设的音频效果器包括压限器。
根据本公开的示例性实施例,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开的示例性实施例的音频信号处理方法。
根据本公开的示例性实施例,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使得电子设备执行根据本公开的示例性实施例的音频信号处理方法。
根据本公开的示例性实施例,提供一种计算机程序产品,包括计算机程序/指令,当所述计算机程序/指令被处理器执行时,实现根据本公开的示例性实施例的音频信号处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
1、提升音乐的动感;
2、提升听众的听觉体验,使得听众声临其境。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出本公开的示例性实施例可以应用于其中的示例性***架构100。
图2示出根据本公开的示例性实施例的音频信号处理方法的流程图。
图3示出根据本公开的示例性实施例的音乐的速度谱。
图4示出根据本公开的示例性实施例的虚拟环绕声的生成过程。
图5示出根据本公开的示例性实施例的生成音乐的虚拟环绕声的整体***框图。
图6示出根据本公开的示例性实施例的音频信号处理装置的框图。
图7是根据本公开的示例性实施例的电子设备700的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
随着3D音频技术的发展,双耳录音技术,环绕声技术以及Ambisonic技术已经被充分利用到各种混音、回放场景中,大众对音频的音质和效果的要求也随之提高。如使用HRTF和混响可以模拟从声源到墙壁再反射到耳朵的声音变化,这个效果包括将将声源虚拟放置在三维空间中的任何位置。现在3D音频技术也被应用到游戏和音乐场景中,其中应用相对广泛的就是虚拟环绕声技术,利用虚拟环绕声技术,声源可以被重新定位,营造出声音在头部环绕的感觉。本公开旨在利用节拍检测来控制声源方位变化的速度,使音乐在耳机端播放的时候可以根据音乐节拍动起来,因此来作为一种音乐虚拟环绕声的特殊音效。利用节拍检测来控制声源方位感的变化,会使音乐更有动感,且不会破坏音乐本声的韵律。
下面,将参照图1至图7具体描述根据本公开的示例性实施例的音频信号处理方法及装置。
图1示出本公开的示例性实施例可以应用于其中的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息(例如,音频信号处理请求、音频信号)等。终端设备101、102、103上可以安装有各种音频播放应用。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是能够进行音频播放的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机、耳机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如,用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,对终端设备101、102、103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接收到的音视频数据上传请求等数据进行解析、存储等处理,并且还可以接收终端设备101、102、103所发送的音频信号处理请求,并将该处理后的音频信号反馈至终端设备101、102、103。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的音频信号处理方法通常由终端设备执行,但是也可由服务器执行,或者也可以由终端设备和服务器协作执行。相应地,音频信号处理装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。
图2示出根据本公开的示例性实施例的音频信号处理方法的流程图。这里,音频信号处理可以是生成音频信号的虚拟环绕声。在本公开的实施例中,以生成音频信号的虚拟环绕声为例进行音频信号处理的说明。
参照图2,在步骤S201,检测音频信号的节拍信息。这里,音频信号可以是,例如,但不限于,音乐。在本公开的实施例中,以音乐为例进行说明。
在本公开的示例性实施例中,在检测音频信号的节拍信息时,可首先将音频信号转换为单声道音频信号,然后检测单声道音频信号的节拍信息作为音频信号的节拍信息。也就是说,在本公开中,当音乐(例如,立体声音乐)不是单声道音乐时,首先将音乐转成单声道音乐。
在本公开的示例性实施例中,在检测单声道音频信号的节拍信息作为音频信号的节拍信息时,可首先检测单声道音频信号的谱流量,然后基于所述谱流量检测单声道音频信号的节拍信息。
在本公开的示例性实施例中,在检测单声道音频信号的节拍信息作为音频信号的节拍信息时,可首先提取单声道音频信号的频域特征,基于频域特征预测音频信号的每帧是拍点的概率,然后基于音频信号的每帧是拍点的概率确定音频信号的节拍信息。
作为示例,在检测音乐节拍信息时,在一种实现中,可以通过深度学习进行节拍检测,相关的深度节拍检测的方法一般分为三个步骤:特征提取,深度模型预测概率,全局节拍位置估计。首先特征提取通常使用频域特征,例如,梅尔谱以及其一阶差分通常会用做输入特征。然后可选择CRNN等深度网络作为深度模型来学习局部特征和时序特征,通过深度模型可以计算每一帧音频数据是拍点的概率。
图3示出根据本公开的示例性实施例的音乐的速度谱。最后可通过计算得到的概率计算出速度谱Tempogram(如图3的中间所示),并且利用类似于动态规划的算法计算得到全局最优的节拍位置。在另一种实现中,可以通过检测谱流量(spectral flux)作为检测重拍信息的依据,这里,谱流量可显示频域的瞬态变化。可通过以下公式计算重拍:
Figure BDA0003239913780000071
Figure BDA0003239913780000072
这里,函数H表示半波整流,SFnorm(n)表示重拍。X为对信号做短时傅立叶变化得到的频域信息,n表示第n帧,N表示总帧数,
Figure BDA0003239913780000073
在本公开的示例性实施例中,在检测音频信号的节拍信息时,可检测音频信号的重拍信息。这里,重拍信息表示音频信号的重音的拍的信息。
在步骤S202,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声。
在本公开的示例性实施例中,在基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作时,可首先基于音频信号的节拍信息从头部相关传递函数确定音频信号的头部相关频率脉冲响应,然后将音频信号的头部相关频率脉冲响应与音频信号的每帧进行卷积操作。
在本公开的示例性实施例中,在基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作时,可首先基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应,基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应,然后将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作,并且将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
在本公开的示例性实施例中,在基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作时,可首先获取头部相关传递函数在各个连续方向上的头部相关频率脉冲响应,基于音频信号的节拍信息确定音频信号的每帧旋转的角度,并且基于每帧旋转的角度确定与音频信号的每帧相应的头部相关频率脉冲响应,然后将相应的头部相关频率脉冲响应分别与音频信号的相应帧进行卷积操作。
在本公开的示例性实施例中,在基于音频信号的节拍信息确定音频信号的每帧旋转的角度时,可首先基于音频信号的节拍信息计算音频信号的每拍时长,并且基于音频信号的每拍时长计算音频信号旋转一周的时间,然后基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度。这里,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
在本公开的示例性实施例中,在检测音频信号的节拍信息之后,还可基于重拍信息确定音频信号的初始方位角。
在本公开的示例性实施例中,还可通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
在步骤S201确定音乐的节拍(BPM)信息之后,在步骤S202首先将音乐的BPM或者BPM变化值作为耳机虚拟器(Headphone Virtualizer)的输入来控制HRTF的选择,以达到虚拟环绕声与音乐节拍匹配的目的。虚拟环绕声是利用头部相关传递函数(HRTF)与每帧信号进行卷积来完成的。HRTF通常是在无回声并且低噪声的环境下(例如,消声室中)进行测量的,利用双耳录音技术(Binaural Recording)测量不同方位的左右声道的频率脉冲响应(HRIRs)。测量得到左右声道的信号确定了声音的空间定位。通过傅立叶变换将HRIR从时域变换到频域的结果则为HRTF。
图4示出根据本公开的示例性实施例的虚拟环绕声的生成过程。在图4中,首先HRTFs在不同方向的HRIRs被测量得到,将需要回放的音频信号与某一方向的HRIRs进行卷积,最后再通过耳机播放出来,则人耳感知到声音信号来自于对应的方向。
目前,已经有很多研究者制作出不同的HRIRs的数据库。在本公开中,可以利用已有的HRIRs的数据库对音乐信号进行卷积得到虚拟环绕声。
在一种虚拟环绕声的实现中,可通过以下步骤E1至E3使得音乐在头部四周按照一定速度进行旋转(顺时针逆时针都可以)。
E1:获取连续的HRIRs。首先测量得到的HRIRs是不同角度的离散信号,在一种实现中,我们可以通过线性插值得到连续的HRIRs的值。
E2:通过之前得到音乐的BPM确定音乐的每帧旋转的角度,并且基于每帧旋转的角度确定每帧的HRIRs。为了让旋转速度与音乐速度更匹配,可使得音乐旋转一周的时间是音乐每拍时长的整数倍(例如,4倍)。
每拍的时长计算公式为:TimePerBeat=60/BPM(s),
则旋转一周所需时间为:TimePerRound=a×60/BPM(s),
每帧时长为:TimePerFrame=SamplesPerFrame/SampleRate,
每帧旋转的角度为:
DegreePerFrame=360×TimePerFrame/TimePerRound
=60×BPM×SamplesPerFrame/(SampleRate×a)。
这里,a为音乐旋转一周的时间是音乐每拍时长的倍数。
E3:将每帧音频时域信号与对应的HRIRs进行卷积操作。
此外,可对相邻的帧进行平滑处理,使声音听起来更自然。此外,还可以根据检测到的重拍(downbeat)时间来确定音频在头部旋转的初始方位角(初始位置),使得重拍恰好落在头部正中间位置。这样可以进一步提升听众的听觉体验。
此外,将处理后的音乐通过一些音频效果器(例如,压限器(Limiter)),以使得声音不会爆音。音频效果器还可对音乐添加EQ、压缩等效果、改变音乐的音色和动态、赋予声音更多种可能、让音乐更有趣味性等。
图5示出根据本公开的示例性实施例的生成音乐的虚拟环绕声的整体***框图。如图5所示,首先将音乐从立体声转成单声道,接着检测音乐的BPM,通过耳机虚拟器利用检测得到的BPM控制HRIRs的选择并用每帧信号去卷积对应的HRIRs,最后再经过限制器(limiter)得到与音乐节奏相符的绕头部转动虚拟环绕声。在一个示例中,耳机虚拟器可首先基于音频信号的BPM从头部相关传递函数确定音频信号的头部相关频率脉冲响应,然后将音频信号的头部相关频率脉冲响应与音频信号的每帧进行卷积操作。在另一示例中,耳机虚拟器可首先基于音频信号的BPM从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应,基于音频信号的BPM从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应,然后将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作,并且将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。在另一示例中,耳机虚拟器可首先获取头部相关传递函数在各个连续方向上的头部相关频率脉冲响应,基于音频信号的BPM确定音频信号的每帧旋转的角度,并且基于每帧旋转的角度确定与音频信号的每帧相应的头部相关频率脉冲响应,然后将相应的头部相关频率脉冲响应分别与音频信号的相应帧进行卷积操作。这里,耳机虚拟器在基于音频信号的BPM确定音频信号的每帧旋转的角度时,可首先基于音频信号的BPM计算音频信号的每拍时长,并且基于音频信号的每拍时长计算音频信号旋转一周的时间,然后基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度。这里,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
以上已经结合图1至图5对根据本公开的示例性实施例的音频信号处理方法进行了描述。在下文中,将参照图6对根据本公开的示例性实施例的音频信号处理装置及其单元进行描述。
图6示出根据本公开的示例性实施例的音频信号处理装置的框图。
参照图6,音频信号处理装置包括节拍检测单元61以及音频处理单元62。
节拍检测单元61被配置为检测音频信号的节拍信息。
在本公开的示例性实施例中,节拍检测单元被配置为:将音频信号转换为单声道音频信号;检测单声道音频信号的节拍信息作为音频信号的节拍信息。
在本公开的示例性实施例中,节拍检测单元被配置为:检测单声道音频信号的谱流量;基于所述谱流量检测单声道音频信号的节拍信息。
在本公开的示例性实施例中,节拍检测单元被配置为:提取单声道音频信号的频域特征;基于频域特征预测音频信号的每帧是拍点的概率;基于所述概率确定音频信号的节拍信息。
在本公开的示例性实施例中,节拍检测单元被配置为:检测音频信号的重拍信息。
音频处理单元62被配置为基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声。
在本公开的示例性实施例中,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定音频信号的头部相关频率脉冲响应;将音频信号的头部相关频率脉冲响应与音频信号的每帧进行卷积操作。
在本公开的示例性实施例中,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应;基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
在本公开的示例性实施例中,音频处理单元被配置为:基于音频信号的节拍信息从头部相关传递函数确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应;基于音频信号的节拍信息从头部相关传递函数确定与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
在本公开的示例性实施例中,音频处理单元被配置为:基于音频信号的节拍信息计算音频信号的每拍时长;基于音频信号的每拍时长计算音频信号旋转一周的时间;基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度,其中,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
在本公开的示例性实施例中,所述音频信号处理装置还包括:初始方位角确定单元,被配置为:基于重拍信息确定音频信号的初始方位角。
在本公开的示例性实施例中,所述音频信号处理装置还包括:效果处理单元,被配置为:通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上已经结合图6对根据本公开的示例性实施例的音频信号处理装置进行了描述。接下来,结合图7对根据本公开的示例性实施例的电子设备进行描述。
图7是根据本公开的示例性实施例的电子设备700的框图。
参照图7,电子设备700包括至少一个存储器701和至少一个处理器702,所述至少一个存储器701中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器702执行时,执行根据本公开的示例性实施例的音频信号处理的方法。
在本公开的示例性实施例中,电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备700并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备700中,处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器702可运行存储在存储器701中的指令或代码,其中,存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器701可与处理器702集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器701可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器702能够读取存储在存储器中的文件。
此外,电子设备700还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还提供一种包括指令的计算机可读存储介质,例如包括指令的存储器701,上述指令可由装置700的处理器702执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机程序/指令,当所述计算机程序/指令被处理器执行时,实现根据本公开的示例性实施例的音频信号处理的方法。
以上已参照图1至图7描述了根据本公开的示例性实施例的音频信号处理方法及装置。然而,应该理解的是:图6中所示的音频信号处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合,图7中所示的电子设备并不限于包括以上示出的组件,而是可根据需要增加或删除一些组件,并且以上组件也可被组合。
根据本公开的音频信号处理方法及装置,通过检测音频信号的节拍信息,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声,从而提升了音乐的动感,并且提升了听众的听觉体验,使得听众声临其境。
此外,根据本公开的音频信号处理方法及装置,可利用音乐的BPM来控制虚拟环绕声方位角的变化速度,让音乐在头部动起来,鼓点位置变化与音乐节奏更加贴合。
此外,根据本公开的音频信号处理方法及装置,可在节拍检测的过程中,检测音乐的重拍,确定音频的初始方位角,使音乐旋转到头部中间的位置的时候恰好是重拍。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种音频信号处理方法,其特征在于,包括:
检测音频信号的节拍信息;
基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声,
其中,基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作的步骤包括:
基于音频信号的节拍信息从头部相关传递函数,确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应、以及与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;
将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;
将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
2.根据权利要求1所述的音频信号处理方法,其特征在于,基于音频信号的节拍信息从头部相关传递函数,确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应、以及与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应的步骤包括:
获取头部相关传递函数在各个连续方向上的头部相关频率脉冲响应;
基于音频信号的节拍信息确定音频信号的每帧旋转的角度;
基于每帧旋转的角度确定与音频信号的每帧相应的头部相关频率脉冲响应,将与音频信号的所述至少一帧相应的头部相关频率脉冲响应作为第一头部相关频率脉冲响应,并且将与音频信号的除了所述至少一帧之外的每帧相应的头部相关频率脉冲响应作为第二头部相关频率脉冲响应。
3.根据权利要求2所述的音频信号处理方法,其特征在于,基于音频信号的节拍信息确定音频信号的每帧旋转的角度的步骤包括:
基于音频信号的节拍信息计算音频信号的每拍时长;
基于音频信号的每拍时长计算音频信号旋转一周的时间;
基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度,
其中,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
4.根据权利要求1所述的音频信号处理方法,其特征在于,检测音频信号的节拍信息的步骤包括:
检测音频信号的重拍信息。
5.根据权利要求4所述的音频信号处理方法,其特征在于,检测音频信号的节拍信息的步骤之后,还包括:
基于重拍信息确定音频信号的初始方位角。
6.根据权利要求1所述的音频信号处理方法,其特征在于,还包括:
通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
7.根据权利要求6所述的音频信号处理方法,其特征在于,所述预设的音频效果器包括压限器。
8.一种音频信号处理装置,其特征在于,包括:
节拍检测单元,被配置为检测音频信号的节拍信息;以及
音频处理单元,被配置为基于音频信号的节拍信息控制头部相关传递函数与音频信号进行卷积操作,获得音频信号的虚拟环绕声,
其中,音频处理单元被配置为:
基于音频信号的节拍信息从头部相关传递函数,确定与音频信号的至少一帧相应的第一头部相关频率脉冲响应、以及与音频信号的除了所述至少一帧之外的每帧相应的第二头部相关频率脉冲响应;
将第一头部相关频率脉冲响应与音频信号的所述至少一帧进行卷积操作;
将第二头部相关频率脉冲响应与音频信号的除了所述至少一帧之外的每帧进行卷积操作。
9.根据权利要求8所述的音频信号处理装置,其特征在于,音频处理单元被配置为:
获取头部相关传递函数在各个连续方向上的头部相关频率脉冲响应;
基于音频信号的节拍信息确定音频信号的每帧旋转的角度;
基于每帧旋转的角度确定与音频信号的每帧相应的头部相关频率脉冲响应,将与音频信号的所述至少一帧相应的头部相关频率脉冲响应作为第一头部相关频率脉冲响应,并且将与音频信号的除了所述至少一帧之外的每帧相应的头部相关频率脉冲响应作为第二头部相关频率脉冲响应。
10.根据权利要求9所述的音频信号处理装置,其特征在于,音频处理单元被配置为:
基于音频信号的节拍信息计算音频信号的每拍时长;
基于音频信号的每拍时长计算音频信号旋转一周的时间;
基于音频信号的每帧时长与音频信号旋转一周的时间计算音频信号的每帧旋转的角度,
其中,音频信号旋转一周的时间是音频信号的每拍时长的预设整数倍。
11.根据权利要求8所述的音频信号处理装置,其特征在于,节拍检测单元被配置为:
检测音频信号的重拍信息。
12.根据权利要求11所述的音频信号处理装置,其特征在于,还包括:
初始方位角确定单元,被配置为:基于重拍信息确定音频信号的初始方位角。
13.根据权利要求8所述的音频信号处理装置,其特征在于,还包括:
效果处理单元,被配置为:通过预设的音频效果器对音频信号的虚拟环绕声进行处理。
14.根据权利要求13所述的音频信号处理装置,其特征在于,所述预设的音频效果器包括压限器。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的音频信号处理方法。
16.一种计算机可读存储介质,存储有计算机程序,其特征在于,当所述计算机程序被电子设备的处理器执行时,使得电子设备执行如权利要求1至7中任一项所述的音频信号处理方法。
CN202111014196.6A 2021-08-31 2021-08-31 音频信号处理方法及装置 Active CN113691927B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111014196.6A CN113691927B (zh) 2021-08-31 2021-08-31 音频信号处理方法及装置
EP22191314.8A EP4142310A1 (en) 2021-08-31 2022-08-19 Method for processing audio signal and electronic device
US17/898,922 US20230070037A1 (en) 2021-08-31 2022-08-30 Method for processing audio signal and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111014196.6A CN113691927B (zh) 2021-08-31 2021-08-31 音频信号处理方法及装置

Publications (2)

Publication Number Publication Date
CN113691927A CN113691927A (zh) 2021-11-23
CN113691927B true CN113691927B (zh) 2022-11-11

Family

ID=78584479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111014196.6A Active CN113691927B (zh) 2021-08-31 2021-08-31 音频信号处理方法及装置

Country Status (3)

Country Link
US (1) US20230070037A1 (zh)
EP (1) EP4142310A1 (zh)
CN (1) CN113691927B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017097324A1 (en) * 2015-12-07 2017-06-15 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method
CN107534825A (zh) * 2015-04-22 2018-01-02 华为技术有限公司 音频信号处理装置和方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006500818A (ja) * 2002-09-23 2006-01-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音再生システム、プログラム、及びデータ担体
CN103716748A (zh) * 2007-03-01 2014-04-09 杰里·马哈布比 音频空间化及环境模拟
JP2009206691A (ja) * 2008-02-27 2009-09-10 Sony Corp 頭部伝達関数畳み込み方法および頭部伝達関数畳み込み装置
JP5540581B2 (ja) * 2009-06-23 2014-07-02 ソニー株式会社 音声信号処理装置および音声信号処理方法
CN103325383A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 音频处理方法和音频处理设备
CN104010264B (zh) * 2013-02-21 2016-03-30 中兴通讯股份有限公司 双声道音频信号处理的方法和装置
CN111724757A (zh) * 2020-06-29 2020-09-29 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法及相关产品
CN112399247B (zh) * 2020-11-18 2023-04-18 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、音频处理设备及可读存储介质
US20220291743A1 (en) * 2021-03-11 2022-09-15 Apple Inc. Proactive Actions Based on Audio and Body Movement
US20220391899A1 (en) * 2021-06-04 2022-12-08 Philip Scott Lyren Providing Digital Media with Spatial Audio to the Blockchain

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107534825A (zh) * 2015-04-22 2018-01-02 华为技术有限公司 音频信号处理装置和方法
WO2017097324A1 (en) * 2015-12-07 2017-06-15 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method

Also Published As

Publication number Publication date
EP4142310A1 (en) 2023-03-01
US20230070037A1 (en) 2023-03-09
CN113691927A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
US9560467B2 (en) 3D immersive spatial audio systems and methods
US9131305B2 (en) Configurable three-dimensional sound system
CN109891503B (zh) 声学场景回放方法和装置
WO2019199359A1 (en) Ambisonic depth extraction
US20230100071A1 (en) Rendering reverberation
US10652686B2 (en) Method of improving localization of surround sound
CN111050271B (zh) 用于处理音频信号的方法和装置
US7116788B1 (en) Efficient head related transfer function filter generation
WO2015017914A1 (en) Media production and distribution system for custom spatialized audio
CN113821190B (zh) 音频播放方法、装置、设备及存储介质
Villegas Locating virtual sound sources at arbitrary distances in real-time binaural reproduction
CN113691927B (zh) 音频信号处理方法及装置
Geronazzo et al. Personalization support for binaural headphone reproduction in web browsers
Huopaniemi et al. DIVA virtual audio reality system
CN113302950A (zh) 音频***、音频重放设备、服务器设备、音频重放方法和音频重放程序
CN114501297B (zh) 一种音频处理方法以及电子设备
US11388540B2 (en) Method for acoustically rendering the size of a sound source
McDonnell Development of Open Source tools for creative and commercial exploitation of spatial audio
Filipanits Design and implementation of an auralization system with a spectrum-based temporal processing optimization
CN113194400B (zh) 音频信号的处理方法、装置、设备及存储介质
WO2024094214A1 (zh) 基于自由视角的空间音效实现方法、设备及存储介质
US11304021B2 (en) Deferred audio rendering
CN118264971A (zh) 基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法
Huopaniemi et al. Virtual acoustics—Applications and technology trends
WO2023043963A1 (en) Systems and methods for efficient and accurate virtual accoustic rendering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant