CN110853658B - 音频信号的下混方法、装置、计算机设备及可读存储介质 - Google Patents

音频信号的下混方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN110853658B
CN110853658B CN201911173782.8A CN201911173782A CN110853658B CN 110853658 B CN110853658 B CN 110853658B CN 201911173782 A CN201911173782 A CN 201911173782A CN 110853658 B CN110853658 B CN 110853658B
Authority
CN
China
Prior art keywords
frequency domain
channel frequency
domain signal
signal
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911173782.8A
Other languages
English (en)
Other versions
CN110853658A (zh
Inventor
王薇娜
高五峰
董强国
孙学京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Film Science and Technology Research Institute (Film Technology Quality Inspection Institute of the Central Propaganda Department)
Original Assignee
CHINA FILM SCIENCE AND TECHNOLOGY INST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA FILM SCIENCE AND TECHNOLOGY INST filed Critical CHINA FILM SCIENCE AND TECHNOLOGY INST
Priority to CN201911173782.8A priority Critical patent/CN110853658B/zh
Publication of CN110853658A publication Critical patent/CN110853658A/zh
Application granted granted Critical
Publication of CN110853658B publication Critical patent/CN110853658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种音频信号的下混方法、装置、计算机设备及可读存储介质。该方法包括:将多声道音频信号乘以双声道转换系数,获得左声道音频信号及右声道音频信号;分别对多声道音频信号、左声道音频信号及右声道音频信号进行转换,生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;基于头相关传输模型处理多声道频域信号,获得第二左声道频域信号及第二右声道频域信号;对第一左声道频域信号和第二左声道频域信号进行加权,生成下混左声道频域信号,对第一右声道频域信号和第二右声道频域信号进行加权,生成下混右声道频域信号;对下混左声道频域信号及下混右声道频域信号进行转换,生成下混左声道音频信号及下混右声道音频信号。

Description

音频信号的下混方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及音频处理领域,具体而言,涉及一种音频信号的下混方法、装置、计算机设备及计算机可读存储介质。
背景技术
近年来,随着高清视频技术从2K升级到4K、甚至8K,以及VR(Virtual Reality,虚拟现实)、AR(Augmented Reality,增强现实)的不断发展,人们对音频的听觉要求也逐渐提高。沉浸式音频5.1、7.1甚至更多声道的***开始大量涌现。
随着移动互联网的快速发展,越来越多的用户选择通过耳机体验音频内容。因此,需要将多声道的音频内容转化成双声道或立体声格式(即下混处理,Downmix),以适应耳机或双扬声器播放的场景。然而,当前下混技术并不成熟,获得的双声道音频难以兼备音质和空间渲染效果。
需要说明的是,在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种音频信号的下混方法、装置、计算机设备及计算机可读存储介质。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种音频信号的下混方法,包括:获取多声道音频信号;分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号;分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对所述多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号;根据权重系数,对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理,生成下混右声道频域信号;以及分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
根据本发明的一实施方式,所述左声道转换系数及所述右声道转换系数为所述头相关传输模型对应各声道的滤波阻尼系数。
根据本发明的一实施方式,所述权重系数是根据所述多声道音频信号的音源的移动速度预先确定的。
根据本发明的一实施方式,当所述音源为静止音源时,所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数为0。
根据本发明的一实施方式,所述权重系数是基于卷积神经网络模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。
根据本发明的一实施方式,所述方法还包括:根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值,确定所述权重系数。
根据本发明的一实施方式,根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值,确定所述权重系数包括:当所述比值大于预设阈值时,确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数小于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数;当所述比值小于所述预设阈值时,确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数大于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数。
根据本发明的另一方面,提供一种音频信号的下混装置,包括:信号获取模块,用于获取多声道音频信号;第一处理模块,用于分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号;第一转换模块,用于分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;第二处理模块,用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对所述多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号;第三处理模块,用于根据权重系数,对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理,生成下混右声道频域信号;以及第二转换模块,用于分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
根据本发明的再一方面,提供一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现上述任一种音频信号的下混方法。
根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现上述任一种音频信号的下混方法。
根据本发明提供的音频信号的下混方法,能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施方式示出的一种音频信号的下混方法的流程图。
图2是根据一示例性实施方式示出的另一种音频信号的下混方法的流程图。
图3是根据一示例性实施方式示出的一种音频信号的下混装置的框图。
图4是根据一示例性实施方式示出的一种计算机设备的结构示意图。
图5是根据一示例性实施例示出的一种多声道音频***的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如上所述,为解决下混的双声道音频存在音质缺损或空间失准的问题,本发明提出了一种新的音频信号的下混方法。下面通过本发明的各实施方式进行具体说明。
图1是根据一示例性实施方式示出的一种音频信号的下混方法的流程图。如图1所示的音频信号的下混方法例如可以应用于典型沉浸式5.1***的双耳化(binauralization)处理过程。
如图5所示,典型沉浸式5.1***输出的音频信号包括:左声道(l)音频信号、右声道(r)音频信号、中置声道(c)音频信号、左环绕声道(ls)音频信号及右环绕声道(rs)音频信号。其中,左声道音频信号的方位角为-30°,右声道音频信号的方位角为30°,中置声道音频信号的方位角为0°,左环绕声道音频信号的方位角为-110°,右环绕声道音频信号的方位角为110°。
参考图1,音频信号的下混方法10包括:
在步骤S102中,获取多声道音频信号。
以典型沉浸式5.1***为例进行说明:获取的多声道音频信号可表示为:xin(t)=[xin_l(t),xin_r(t),xin_c(t),xin_ls(t),xin_rs(t)]T。其中,xin_l(t),xin_r(t),xin_c(t),xin_ls(t),xin_rs(t)分别为左声道、右声道、中置声道、左环绕声道以及右环绕声道音频信号。
在步骤S104中,分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号。
在一些实施例中,左声道转换系数及右声道转换系数为头相关传输(HeadRelated Transfer Function,HRTF)模型对应各声道的滤波阻尼系数。
对应于上述5个声道,左声道转换系数可表示为:αl=[αl_l,αr_l,αc_l,αls_l,αrs_l]T,右声道转换系数可表示为:αr=[αl_r,αr_r,αc_r,αls_r,αrs_r]T
承上述,获得的左声道音频信号可表示为:xm_l(t)=[xin_l(t)·αl_l,xin_r(t)·αr_l,xin_c(t)·αc_l,xin_ls(t)·αls_l,xin_rs(t)·αrs_l]T,获得的右声道音频信号可表示为:xm_r(t)=[xin_l(t)·αl_r,xin_r(t)·αr_r,xin_c(t)·αc_r,xin_ls(t)·αls_r,xin_rs(t)·αrs_r]T
在步骤S106中,分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号。
例如,可基于快速傅里叶变换算法(Fast Fourier Transform,FFT),将时域上的多声道音频信号xin(t)、左声道音频信号xm_l(t)及右声道音频信号xm_r(t)分别转换为频域上的多声道频域信号xin(k,n)、第一左声道频域信号xm_l(k,n)及第一右声道频域信号xm_r(k,n)。其中,k和n分别代表离散域的频率和时间。
在步骤S108中,分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号。
头相关传输模型中的左声道频域响应子模型的响应函数可表示为:hl(k,n)=[hl_l(k,n),hr_l(k,n),hc_l(k,n),hls_l(k,n),hrs_l(k,n)]T,头相关传输模型中的右声道频域响应子模型的响应函数可表示为:hr(k,n)=[hl_r(k,n),hr_r(k,n),hc_r(k,n),hls_r(k,n),hrs_r(k,n)]T。因此,处理得到的第二左声道频域信号可表示为:xh_l(k,n)=[xin_l(k,n)·hl_l(k,n),xin_r(k,n)·hr_l(k,n),xin_c(k,n)·hc_l(k,n),xin_ls(k,n)·hls_l(k,n),xin_rs(k,n)·hrs_l(k,n)]T,第二右声道频域信号可表示为:xh_r(k,n)=[xin_l(k,n)·hl_r(k,n),xin_r(k,n)·hr_r(k,n),xin_c(k,n)·hc_r(k,n),xin_ls(k,n)·hls_r(k,n),xin_rs(k,n)·hrs_r(k,n)]T
在步骤S110中,根据权重系数,对第一左声道频域信号和第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对第一右声道频域信号和第二右声道频域信号进行加权处理,生成下混右声道频域信号。
承上述,根据权重系数ω(k,n)及1-ω(k,n),下混左声道频域信号可表示为:yl(k,n)=ω(k,n)·xh_l(k,n)+(1-ω(k,n))·xm_l(k,n),下混右声道频域信号可表示为:yr(k,n)=ω(k,n)·xh_r(k,n)+(1-ω(k,n))·xm_r(k,n)。
需要说明的是,由于不同频段对音质有不同的影响,且生成第一双声道频域信号的方法与生成第二双声道频域信号的方法对不同频率的影响也不相同,因此上述权重系数ω可与频率k相关。
第一双声道频域信号(xm_l(k,n),xm_r(k,n))有效地保留了音质,尤其能够保障高频信号的音质;基于头相关传输模型处理得到的第二双声道频域信号(xh_l(k,n),xh_r(k,n))拥有精准的方位连续性和空间感。因此,下混得到的双声道频域信号(yl(k,n),yr(k,n))可以兼具良好的音质和空间渲染效果。
在步骤S112中,分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
即与步骤S106相对应地,可基于快速傅里叶逆变换算法(Inverse Fast FourierTransform,IFFT),将频域上的下混左声道频域信号yl(k,n)及下混右声道频域信号yr(k,n)分别转换为时域上的下混左声道音频信号yl(t)及下混右声道音频信号yr(t),以支持耳机模式或双扬声器模式的输出。
根据本发明实施方式提供的音频信号的下混方法,能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。
关于步骤S110中使用的权重系数ω(k,n)的确定方案,本发明提供了下面三种实施例进行举例说明。需要说明的是,在本发明方法中,权重系数的取得并不以下述三种实施例为限。
【一】权重系数ω(k,n)是根据多声道音频信号xin(t)的音源的移动速度预先确定的。
具体而言,第二双声道频域信号(xh_l(k,n),xh_r(k,n))对应的权重系数ω(k,n)与音源的移动速度正相关,则第一双声道频域信号(xm_l(k,n),xm_r(k,n))对应的权重系数1-ω(k,n)与音源的移动速度负相关。特别地,当音源为静止音源时,可确定ω(k,n)=0。
此方案一般适用于已知音源是否移动及其移动速度的场景。音源移动地越快,则设置ω(k,n)越趋近于1,以增强下混第二双声道频域信号(xh_l(k,n),xh_r(k,n)),进而保障输出信号的方位连续性。
【二】权重系数ω(k,n)是基于卷积神经网络(Convolutional Neural Networks,CNN)模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。
卷积神经网络具有表征学***移不变性,即能够识别位于空间不同位置的相近特征。在训练样本时,将多声道音频样本信号转换得到的多声道频域信号(例如以多声道语谱图的形式)输入卷积神经网络模型,卷积神经网络模型将输出训练得到的权重系数ω(k,n),用于步骤S110中的加权处理过程。
此方案一般适用于无法预知音源是否移动或无法预知音源移动速度的场景。
【三】权重系数ω(k,n)是通过判断多声道音频信号xin(t)的“主声道”能量占比是否突出进行确定的。
承上述,图2是根据一示例性实施方式示出的另一种音频信号的下混方法的流程图。与图1所示方法10的不同之处在于,图2所示的方法进一步提供了确定权重系数的一种具体方法,即进一步提供了方法10的一实施例。同样地,如图2所示的音频信号的下混方法例如也可以应用于典型沉浸式5.1***的双耳化处理过程。
参考图2,方法10还包括:
在步骤S202中,根据多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值,确定权重系数。
具体而言,在步骤S2022中,当比值大于预设阈值时,确定第一左声道频域信号与第一右声道频域信号对应的权重系数小于第二左声道频域信号与第二右声道频域信号对应的权重系数。
反之,在步骤S2024中,当比值小于预设阈值时,确定第一左声道频域信号与第一右声道频域信号对应的权重系数大于第二左声道频域信号与第二右声道频域信号对应的权重系数。
对于
Figure BDA0002289438680000081
而言,多声道音频信号对应的协方差矩阵为5维方阵,每一行代表1个声道特征。该协方差矩阵存在5个特征值,其中最大特征值所在行对应的声道即为“主声道”。
如果最大特征值与所有特征值之和的比值越接近于1,表明主声道能量占比越突出;反之,如果最大特征值与所有特征值之和的比值越接近于0,表明各声道的能量越均衡,主声道能量占比越不突出。
在本发明中,当判定主声道能量占比突出时(例如,最大特征值与所有特征值之和的比值大于0.5),可以选择增强下混第二双声道频域信号(xh_l(k,n),xh_r(k,n)),即设置ω(k,n)处于0.5~1之间,且比值越接近于1,设置ω(k,n)越接近于1;相应地,弱化下混第一双声道频域信号(xm_l(k,n),xm_r(k,n)),1-ω(k,n)处于0~0.5之间。
反之,当判定主声道能量占比不突出时(例如,最大特征值与所有特征值之和的比值小于0.5),可以选择弱化下混第二双声道频域信号(xj_l(k,n),xh_r(k,n)),即设置ω(k,n)处于0~0.5之间,且比值越接近于0,设置ω(k,n)越接近于0;相应地,增强下混第一双声道频域信号(xm_l(k,n),xm_r(k,n)),1-ω(k,n)处于0.5~1之间。
需要说明的是,本发明并不以预设阈值的大小为限,实际应用中可根据输入音频信号的声道数及具体设计需求进行预先设定。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图3是根据一示例性实施方式示出的一种音频信号的下混装置的框图。
参考图3,音频信号的下混装置30包括:信号获取模块302、第一处理模块304、第一转换模块306、第二处理模块308、第三处理模块310以及第二转换模块312。
其中,信号获取模块302用于获取多声道音频信号。
第一处理模块304用于分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号。
第一转换模块306用于分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号。
第二处理模块308用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号。
第三处理模块310用于根据权重系数,对第一左声道频域信号和第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对第一右声道频域信号和第二右声道频域信号进行加权处理,生成下混右声道频域信号。
第二转换模块312用于分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
根据本发明实施方式提供的音频信号的下混装置,能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
图4是根据一示例性实施方式示出的一种计算机设备的结构示意图。需要说明的是,图4示出的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的设备中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取多声道音频信号;分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号;分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号;根据权重系数,对第一左声道频域信号和第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对第一右声道频域信号和第二右声道频域信号进行加权处理,生成下混右声道频域信号;以及分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种音频信号的下混方法,其特征在于,包括:
获取多声道音频信号;
分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号;
分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;
分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对所述多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号;
根据权重系数,对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理,生成下混右声道频域信号;以及
分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
2.根据权利要求1所述的方法,其特征在于,所述左声道转换系数及所述右声道转换系数为所述头相关传输模型对应各声道的滤波阻尼系数。
3.根据权利要求1或2所述的方法,其特征在于,所述权重系数是根据所述多声道音频信号的音源的移动速度预先确定的。
4.根据权利要求3所述的方法,其特征在于,当所述音源为静止音源时,所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数为0。
5.根据权利要求1或2所述的方法,其特征在于,所述权重系数是基于卷积神经网络模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。
6.根据权利要求1或2所述的方法,其特征在于,还包括:根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值,确定所述权重系数。
7.根据权利要求6所述的方法,其特征在于,根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值,确定所述权重系数包括:
当所述比值大于预设阈值时,确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数小于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数;
当所述比值小于所述预设阈值时,确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数大于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数。
8.一种音频信号的下混装置,其特征在于,包括:
信号获取模块,用于获取多声道音频信号;
第一处理模块,用于分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数,获得左声道音频信号及右声道音频信号;
第一转换模块,用于分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换,对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号;
第二处理模块,用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型,对所述多声道频域信号进行处理,获得第二左声道频域信号及第二右声道频域信号;
第三处理模块,用于根据权重系数,对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理,生成下混左声道频域信号,并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理,生成下混右声道频域信号;以及
第二转换模块,用于分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换,对应生成下混左声道音频信号及下混右声道音频信号。
9.一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
CN201911173782.8A 2019-11-26 2019-11-26 音频信号的下混方法、装置、计算机设备及可读存储介质 Active CN110853658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173782.8A CN110853658B (zh) 2019-11-26 2019-11-26 音频信号的下混方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173782.8A CN110853658B (zh) 2019-11-26 2019-11-26 音频信号的下混方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110853658A CN110853658A (zh) 2020-02-28
CN110853658B true CN110853658B (zh) 2021-12-07

Family

ID=69604505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173782.8A Active CN110853658B (zh) 2019-11-26 2019-11-26 音频信号的下混方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110853658B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
CN112927701A (zh) * 2021-02-05 2021-06-08 商汤集团有限公司 样本生成、神经网络生成、音频信号生成方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20070280485A1 (en) * 2006-06-02 2007-12-06 Lars Villemoes Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US20080052089A1 (en) * 2004-06-14 2008-02-28 Matsushita Electric Industrial Co., Ltd. Acoustic Signal Encoding Device and Acoustic Signal Decoding Device
US20090046864A1 (en) * 2007-03-01 2009-02-19 Genaudio, Inc. Audio spatialization and environment simulation
CN101695151A (zh) * 2009-10-12 2010-04-14 清华大学 多声道音频信号变换为双声道音频信号的方法和设备
CN102172047A (zh) * 2008-07-31 2011-08-31 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成
CN103026406A (zh) * 2010-09-28 2013-04-03 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
US20160198281A1 (en) * 2013-09-17 2016-07-07 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing audio signals
CN107040862A (zh) * 2016-02-03 2017-08-11 腾讯科技(深圳)有限公司 音频处理方法及处理***
CN109644315A (zh) * 2017-02-17 2019-04-16 无比的优声音科技公司 用于缩混多声道音频信号的设备和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052089A1 (en) * 2004-06-14 2008-02-28 Matsushita Electric Industrial Co., Ltd. Acoustic Signal Encoding Device and Acoustic Signal Decoding Device
US20070280485A1 (en) * 2006-06-02 2007-12-06 Lars Villemoes Binaural multi-channel decoder in the context of non-energy conserving upmix rules
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20090046864A1 (en) * 2007-03-01 2009-02-19 Genaudio, Inc. Audio spatialization and environment simulation
CN102172047A (zh) * 2008-07-31 2011-08-31 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成
CN101695151A (zh) * 2009-10-12 2010-04-14 清华大学 多声道音频信号变换为双声道音频信号的方法和设备
CN103026406A (zh) * 2010-09-28 2013-04-03 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
US20160198281A1 (en) * 2013-09-17 2016-07-07 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing audio signals
CN107040862A (zh) * 2016-02-03 2017-08-11 腾讯科技(深圳)有限公司 音频处理方法及处理***
CN109644315A (zh) * 2017-02-17 2019-04-16 无比的优声音科技公司 用于缩混多声道音频信号的设备和方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An improved 5-2 channel downmix algorithm for 3D audio reproduction;XingweiSun, et al.;《Advances in Intelligent Information Hiding and Multimedia Signal Processing, Smart Innovation, Systems and Technologies》;20171231;第183-189页 *
Efficient Primary-Ambient Decomposition Algorithm for Audio Upmix;Yong-Hyun, et al.;《JOURNAL OF BROADCAST ENGINEERING》;20121231;第924-932页 *
Upmixing and Downmixing Two-Channel Stereo Audio for Consumer Electronics;Mingsian R. Bai et al.;《IEEE Transactions on Consumer Electronics》;20071231;第53卷(第3期);第1011-1019页 *
三维声双耳渲染及其评价;张建东 等;《广播与电视技术》;20181031;第45卷(第10期);第32-35页 *
数字电影领域新技术应用与思考;王丰 等;《现代电影技术》;20120831(第8期);第3-7页 *

Also Published As

Publication number Publication date
CN110853658A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
US10469978B2 (en) Audio signal processing method and device
US20180359587A1 (en) Audio signal processing method and apparatus
CN110035376A (zh) 使用相位响应特征来双耳渲染的音频信号处理方法和装置
US11838742B2 (en) Signal processing device and method, and program
US11457310B2 (en) Apparatus, method and computer program for audio signal processing
CN110326310B (zh) 串扰消除的动态均衡
US9264838B2 (en) System and method for variable decorrelation of audio signals
JP2020506639A (ja) オーディオ信号処理方法及び装置
CN110853658B (zh) 音频信号的下混方法、装置、计算机设备及可读存储介质
CN114503606A (zh) 音频处理
US10057702B2 (en) Audio signal processing apparatus and method for modifying a stereo image of a stereo signal
WO2019239011A1 (en) Spatial audio capture, transmission and reproduction
JP6486351B2 (ja) 空間効果を用いる音響空間化
Marelli et al. Efficient approximation of head-related transfer functions in subbands for accurate sound localization
JPWO2020080099A1 (ja) 信号処理装置および方法、並びにプログラム
CN111107481B (zh) 一种音频渲染方法及装置
CN117896666A (zh) 用于回放音频数据的方法、电子设备和存储介质
Song et al. An Efficient Method Using the Parameterized HRTFs for 3D Audio Real-Time Rendering on Mobile Devices
CN118264971A (zh) 基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100086 Beijing city Haidian District Shuangyushu Academy Road No. 44

Patentee after: China Film Science and Technology Research Institute (Film Technology Quality Inspection Institute of the Central Propaganda Department)

Address before: 100086 Beijing city Haidian District Shuangyushu Academy Road No. 44

Patentee before: CHINA FILM SCIENCE AND TECHNOLOGY INST.

CP01 Change in the name or title of a patent holder