CN109410912A - 音频处理的方法、装置、电子设备及计算机可读存储介质 - Google Patents

音频处理的方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109410912A
CN109410912A CN201811400323.4A CN201811400323A CN109410912A CN 109410912 A CN109410912 A CN 109410912A CN 201811400323 A CN201811400323 A CN 201811400323A CN 109410912 A CN109410912 A CN 109410912A
Authority
CN
China
Prior art keywords
audio
frequency information
sound
information
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811400323.4A
Other languages
English (en)
Other versions
CN109410912B (zh
Inventor
马永振
朱旭光
梅航
叶希喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Information Technology Co Ltd
Original Assignee
Shenzhen Tencent Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Information Technology Co Ltd filed Critical Shenzhen Tencent Information Technology Co Ltd
Priority to CN201811400323.4A priority Critical patent/CN109410912B/zh
Publication of CN109410912A publication Critical patent/CN109410912A/zh
Application granted granted Critical
Publication of CN109410912B publication Critical patent/CN109410912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)

Abstract

本申请实施例提供了一种音频处理的方法、装置、电子设备及计算机可读存储介质,涉及多媒体技术领域,该方法包括:获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。本申请实施例可以提升声音的定位感以及空间感,进而可以提升用户在观看视频时的听觉体验。

Description

音频处理的方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及多媒体技术领域,具体而言,本申请涉及一种音频处理的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着信息技术的发展,视频领域也进一步的发展,例如,手游电脑图像CG、虚拟现实VR游戏CG以及动态漫画等,为了使用户可以更好地感受视频内容,需要对合成在视频内容中的音频信息进行相应的处理,因此如何对合成在视频内容中的音频信息进行处理,以使得用户在观看视频内容时可以有更好的听觉体验,成为一个关键问题。
现有技术中,对与视频内容合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理,但是由于Ambisonics技术本身即为模糊化声源定位的技术手段,并且由于声音远场定位较差的限制因素,声音的定位感以及空间感表现不足,进而导致用户在观看视频时的听觉体验较差。
发明内容
本申请提供了一种音频处理的方法、装置、电子设备及计算机可读存储介质,用于解决声音的定位感以及空间感表现不足,以及用户在观看视频时体验较差的问题。所述技术方案如下所示:
第一方面,提供了一种音频处理的方法,该方法包括:
获取待处理的音频信息以及通过人头麦克风录制的音频信息;
从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理。
在一个可能的实现方式中,获取待处理的音频信息以及通过人头麦克风录制的音频信息,之前还包括:
在音频信息录制过程中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风;
通过确定出的麦克风进行录制对应的音频信息。
在一个可能的实现方式中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风;通过确定出的麦克风进行录制对应的音频信息,包括:
当检测到声源与人头麦克风之间的距离满足第一预设条件时,确定当前录制使用的麦克风为人头麦克风,并通过人头麦克风录制对应的音频信息;
当检测到声源与电容麦克风之间的距离满足第二预设条件时,确定当前录制使用的麦克风为电容麦克风,并通过电容麦克风录制对应的音频信息。
在一个可能的实现方式中,将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理,包括:
将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理。
在一个可能的实现方式中,将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理,包括:
将通过人头麦克风录制的音频信息以及处理后的音频信息进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
采用对应的收缩比例分别对各个混音信号强度区间进行音频强度收缩;
将经过音频强度收缩的至少两个混音信号强度区间进行叠加;
其中,混音信号区间所采用的收缩比例与混音信号强度区间对应的音频强度呈反比例关系。
在一个可能的实现方式中,所述将所述通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理,之后还包括:
将混音处理后的音频信息与待合成的视频信息进行合成。
在一个可能的实现方式中,将混音处理后的音频信息与待合成的视频信息进行合成,包括:
将混音处理后的音频信息以及待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息;
将编码处理后的音频信息以及编码处理后的视频信息进行合成。
在一个可能的实现方式中,将混音处理后的音频信息以及待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息,之后还包括:
确定编码后的视频信息对应的视频帧率;
基于编码后视频信息对应的视频帧率对编码后音频信息以及编码后视频信息进行交织,得到编码后交织队列;
将编码处理后的音频信息以及编码处理后的视频信息进行合成,包括:
将编码后交织队列进行合成。
在一个可能的实现方式中,该方法还包括:
预设插件为头相关变换函数HRTF插件。
第二方面,提供了一种音频处理的装置,该装置包括:
获取模块,用于获取待处理的音频信息以及通过人头麦克风录制的音频信息;
第一确定模块,用于从获取模块获取到的待处理的音频信息中确定预设类型的音频信息;
插件处理模块,用于将第一确定模块确定的预设类型的音频信息通过预设插件进行处理;
声音混音处理模块,用于将通过人头麦克风录制的音频信息以及插件处理模块处理后的音频信息进行声音混音处理。
在一种可能的实现方式中,待处理的音频信息中包括以下至少一项:
环境音信息;音效信息;通过电容麦克风录制的音频信息;背景音乐信息。
在一种可能的实现方式中,装置还包括:第二确定模块、录制模块;
第二确定模块,用于在音频信息录制过程中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风;
录制模块,用于通过第二确定模块确定出的麦克风进行录制对应的音频信息。
在一种可能的实现方式中,第二确定模块,具体用于当检测到声源与人头麦克风之间的距离满足第一预设条件时,确定当前录制使用的麦克风为人头麦克风;
录制模块,具体用于通过第二确定模块确定出的人头麦克风录制对应的音频信息;
第二确定模块,具体用于当检测到声源与电容麦克风之间的距离满足第二预设条件时,确定当前录制使用的麦克风为电容麦克风;
录制模块,具体用于通过第二确定模块确定出的电容麦克风录制对应的音频信息。
在一种可能的实现方式中,声音混音处理模块,具体用于将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理。
在一种可能的实现方式中,声音混音处理模块包括:叠加单元、划分单元、音频强度收缩单元;
叠加单元,用于将通过人头麦克风录制的音频信息以及处理后的音频信息进行线性叠加;
划分单元,用于将叠加单元线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
音频强度收缩单元,用于采用对应的收缩比例分别对划分单元划分出的各个混音信号强度区间进行音频强度收缩;
叠加单元,还用于将经过音频强度收缩单元音频强度收缩的至少两个混音信号强度区间进行叠加;
其中,混音信号区间所采用的收缩比例与混音信号强度区间对应的音频强度呈反比例关系。
在一个可能的实现方式中,该装置还包括:合成模块;
合成模块,用于将声音混音处理模块混音处理后的音频信息与待合成的视频信息进行合成。
在一种可能的实现方式中,合成模块包括:编码单元、合成单元;
编码单元,用于将混音处理后的音频信息以及待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息;
合成单元,用于将编码单元编码处理后的音频信息以及编码处理后的视频信息进行合成。
在一种可能的实现方式中,装置还包括:第三确定模块、交织模块;
第三确定模块,用于确定编码后的视频信息对应的视频帧率;
交织模块,用于基于第三确定模块确定出的编码后视频信息对应的视频帧率对编码后音频信息以及编码后视频信息进行交织,得到编码后交织队列;
合成模块,具体用于将交织模块编码后交织队列进行合成。
在一个可能的实现方式中,该装置还包括:
预设插件为头相关变换函数HRTF插件。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的音频处理的方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所示的音频处理的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请提供了一种音频处理的方法、装置、电子设备及计算机可读存储介质,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种音频处理的方法流程示意图;
图2为本申请实施例提供的一种音频处理的装置结构示意图;
图3为本申请实施例提供的另一种音频处理的装置结构示意图;
图4为本申请实施例提供的一种音频处理的电子设备的结构示意图;
图5为人头麦克风的示意图;
图6为通过对分类样本组加载效果器的示意图;
图7为对预设类型的音频信息进行处理的插件示意图;
图8为笛卡耳模型坐标系的示意图;
图9为通过在插件内输入数值以确定声音三维方向上的位置的示意图;
图10为声音与听者位置关系的示意图;
图11为通过调整插件中的增益GAIN按钮,以调整输入声源的音量的示意图;
图12为调整六个面与听者距离的示意图;
图13为优化声音频段的阻尼按钮的示意图;
图14为实时声场听觉化模拟(REALTIME AURALISATION)按钮示意图;
图15为混响处理方式的示意图;
图16a为耳机外放的3D音频的输出的参数调整示意图;
图16b为扬声器外放的3D音频的输出的参数调整示意图;
图17为由双耳声音重拾得到的三维音频与双耳声音合成得到的三维音频的之间过渡程度示意图;
图18为在混音过程中通过调节压缩效果器调节音量的示意图;
图19为本申请实施例中编码前交织队列的示意图;
图20为合成后的多媒体信息中视频格式的参数示意图;
图21为合成之后输出音频信息的格式调整示意图;
图22为本申请实施例中以有声漫画为例整体制作流程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
三维(3Dimensions,3D)音频:3D音频是一个相对而言的概念,如果说现有的环绕声,如5.1制式或者7.1制式,它们是一个二维平面上的声音制式,3D的声音制式将是一个包括听者能感受声音高度和深度的制式。目前主流的观点是将应用了HRTF重放的声音作为3D音频的呈现方式。
高保真度立体声响复制(英文全称:Ambisonics):Ambisnonics的理论基础简单分析来看是在已知某区域内一平面的声压可以通过声压梯度的计算得到任意一点的声压;在立体声场中,三维化的坐标***为球坐标系,而每一层球面称为一阶,Ambisonics就是通过拾取原有声场三维分解后每一个方向(平面)上的声压,最终在重放***中球形结构上合理均匀分布的扬声器中重建原始声场。
双耳录音:双耳录音就是声音从传播到达人耳过程经历人体自身结构的滤波后所得到一种区别于普通立体声拾音的技术;实现方式是通过将话筒放置在人头模型的左右耳道中去拾音。
头部相关传递函数(Head Related Transfer Functions,HRTF):结合双耳录音来看,就是将人体的滤波演化成滤波的编码,HRTF编码的获得可以参考卷积混响的方式:通过在一个空间环境影响很少的环境内,利用双耳录音拾取冲激响应(通常是瞬态脉冲或者扫频信号),得到双耳录音后的冲激响应信号称作头部相关脉冲响应(Head Related ImpulseResponse,HRIR),与原始的冲激响应对比计算就可以获得HRTF编码;这样我们可以通过对录制的单声道声音进行HRTF编码获得左右耳不同的声音,也就是双耳立体声,其中,经过HRTF编码的双耳立体声是包含三维空间信息的。
声音空间化:我们真实的听音环境中是仅仅利用我们的双耳去感知声音在空间中的信息,包括声音的定位和声音的空间感(声源对于我们自身的距离);
电容麦克风:利用电容大小的变化,将声音信号转化为电信号的麦克风;
人头麦克风:人头麦克风即为有耳廓、耳道、头盖骨、头发和肩膀,甚至皮肤和骨头也是采用和人体最为接近的材料制造的麦克风,该麦克风通过“仿真人头”进行双声道的录音方式进行音频录制:把两个微型全指向性话筒安置在一个与真人头几乎一模一样的假人头的耳道内(接近人耳鼓膜的位置),模拟人耳听到声音的整个过程。
现有技术中,在360度可旋转视角的视频或者虚拟现实(Virtual Reality,VR)视频中,通过使用Ambisonics的方式放置声源以及进行编码,根据需求进行声源的离散变换,并通过HRTF进行解码,最终耳机输出重放。
这种技术所制作出的声音效果,具有声音跟随镜头实时旋转而产生实时变化的效果,但是由于Ambisonics本身就是一个模糊化声源定位的技术手段,并且在声音远场定位较差的限制因素下,导致声音的定位以及空间感表现不足。
为了解决上述问题,使得利用声音的表现,还原一个真实场景的听感,让用户在2D平面或者VR视频,甚至摆脱视频内容的表现中,都能感受到一个完整的3D声景,以达到让用户在声音表现中,成为视频故事进行的参与者,而不是倾听者,具体通过以下方式:
本申请实施例以3D音频沉浸体验的形式,并且技术上以人头录音结合HRTF插件的方式来进行声音的后期制作,并配合视频内容的听觉体验。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种音频处理的方法,如图1所示,该方法包括:
步骤S101、获取待处理的音频信息以及通过人头麦克风录制的音频信息。
对于本申请实施例,在通过人头麦克风录制音频信息的过程中即通过仿造人的耳廓、耳道、人的头盖骨、肩部等对声波的折射、绕射和衍射,都会对声音人头录音技术造成一定影响。在声学上,用HRTF,即“头部相关传输函数”来描述这种影响。正是由于HRTF的影响,人的大脑能根据经验判断出声音发出的方位和距离。在本申请实施例中,通过人头录音音频信息的优势主要在于贴耳声音的表现远好于插件的表现,也就是及其近的声音,例如,吹气声音以及“悄悄话”的听感,这类表现可以参考自发性知觉经络反应(AutonomousSensory Meridian Response,ASMR)类声音;缺点:同期录音的方式,对场地环境的要求高;很难进行分期录音;录制内容的声音定位,空间感无法后期更改;录制时的走位和表演要求高,很难预测听感,需要大量的测试;远声场的声音,定位感表现一般。在本申请实施例中,人头麦克风如图5所示。
对于本申请实施例,待处理的音频信息中包括以下至少一项:
环境音信息;音效信息;通过电容麦克风录制的音频信息;背景音乐信息。
对于本申请实施例,通过电容麦克风录制的音频信息可以为通过电容麦克风录制的配音演员的声音;环境音信息、音效信息以及背景音乐信息可以为预先录制好的音频信息,也可以为预先合成的音频信息。在本申请实施例中并不限定。
步骤S102、从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理。
对于本申请实施例,按照工程内的编组将待处理的音频信息可以分为3D类的音频信息以及非3D类的音频信息。例如,3D类的音频信息可以包括:对白音频信息以及动作声音;非3D类的音频信息包括:环境音信息、背景音乐信息以及特殊效果音频信息。例如,在对分类样本进行编组时,如图6所示,从上到下依次分别为对白音频信息、环境音频信息以及特殊效果音频信息三个分组,并且每个分组下还有很多声音轨道,可以仅在每个分组下面加载效果器,并不需要在每个声音轨道下面加载,从而节省资源消耗。
对于本申请实施例,该预设类型的音频信息可以为3D类的音频信息。
对于本申请实施例,将预设类型的音频信息(3D类的音频信息)通过预设插件进行处理,以使得处理后的音频信息具备环绕效果。在申请实施例中,通过预设插件进行处理的优势在于:因为是对点声源的处理,方便后期的定位,空间感调整;缺点:贴耳声音不明显;点声源过多时,后期处理中声源控制的量会比较大。
对于本申请实施例,通过测试选定本申请的环境音采用的是立体声素材。具体地,通过以下两种方式进行测试:
(1)下载B-format格式的环境声音,使用高保真度立体声响复制工具集合(Ambisonics Tool Kit,ATK)和FB360插件解码为双耳立体声,其中,B-format格式为Ambisonics的一种声音标准格式,FB360插件为Facebook出品的一款音频插件;
(2)使用单声道和立体声环境音,使用ATK插件和FB360插件先进行编码、转换过程,并最后解码为双耳立体声;
在这两种方式中,所获得的环境音听感的确有别于直接立体声的声音听感,但其实其声音的包围感一般。首先,基于B-format的四轨声音,并不是一个特别好的表现环境声音定位的录音方式,因为其录音本质是三维的中间/侧面(Mid/Side,MS)方式录音,忽略了声强差;基于四方平面(英文全称:Quad)方式的环境录音的方式会更好。
再者Ambisonics的方式之所以在VR声音的应用比较火热,主要基于其可以声场旋转方便于与头部转动的方式进行结合,同时作为一个模糊化了发声点声源的声场重建的格式,可以用在环境声音中,并且在头部转动时,形成一个整体的声场旋转,节约资源消耗;然而在游戏场景中,接近或远离设定的或某一录制的点声源,声音的变化很小。
但是本申请实施例中这些Ambisonics的优势,环境音多作为过渡的表现,并不是一定需要,因此环境音采用了立体声素材。
步骤S103、将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。
对于本申请实施例,混音处理后的音频信息通过耳机进行输出。
本申请实施例提供了一种音频处理的方法,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请实施例通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请实施例通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
本申请实施例的另一种可能的实现方式,预设插件为头相关变换函数HRTF插件。
对于本申请实施例,通过上述针对通过人头麦克风进行录音的优缺点以及通过插件进行后期处理的优缺点相比,因为人头麦克风录音不能作为作品大量使用的手段,但是人头录音独有的贴耳表现又是亮点,因此我们在针对作品(例如,手游CG、VR游戏CG以及动态漫画)进行录音中,设定几个通过人头麦克风进行录音的环节。
对于本申请实施例,在确定后期制作时使用的插件时,我们对几个主流的插件进行了对比,又由于我们针对的视频内容上的音频信息,因此考虑支持DAW使用的插件,例如,DearVR、Oculus、Ambipan以及FB360,最终基于以下原因确定出使用DearVR作为插件对预设类型的音频信息进行处理,具体如图7所示;本申请实施例主要通过DearVR插件来介绍,但是并不限于DearVR插件。
其中,DearVR作为插件的优点:(1)DearVR在插件中集成了混响和早期反射,并且可以调整阻尼(英文全称:Damping)和增益(英文全称:Gain),混响还可以选择空间形态;
(2)输出模式的选择:DearVR的输出更为灵活,不单只支持双耳立体声输出;
(3)在声音自动化的设定上,比Oculus更好使用,并且随着声源的增多,支持单轨声源的显示;Oculus在DAW的插件作为一个游戏引擎的测试用插件,在DAW里的体验不算特别好。
对于本申请实施例,在上述选用DearVR作为预设插件时,步骤S102中将预设类型的音频信息通过预设插件进行处理,可以具体包括:将预设类型的音频信息通过DearVR插件进行处理:
(1)选用笛卡尔模型(英文全称:Cartesian Mode)其中笛卡尔模型的坐标系如图8所示,如图9所示,区域内的白点表示声源,可以通过拖动鼠标或者在图9中XYZ分别对应的输入框中输入数值,例如X方向对应的输入框中输入数值-9.58,Y方向对应的输入框中输入数值0.00,Z方向对应的输入框中输入数值6.33,其中,图9中的X轴方向、Y轴方向以及Z轴方向相当于图8中坐标系的X方向、Y方向以及Z方向,输入数值的方式确定声音的三维位置,进一步地针对不是一个固定位置的声音对象,声音对象的运动采取自动化的手段对声音对象的运动估计进行设置,例如,如图10所示,XYZ分别表示声音与听者的距离关系,其中,在X方向,声音距离听者为2.48米(m),在Z方向,声音距离听者为0.47米,在Z方向,声音距离听者为0.00米;
(2)调整输入声源的音量Gain(此处的增益不影响后期的早期反射声和混响),进一步地,在不影响空间听感的情况下,调整各个声音间的声音音量平衡,具体地,通过调整如图11所示的GAIN按钮,以调整输入声源的音量。
(3)使用早期反射:DearVR的反射模块根据声源的位置产生早期反射,声音对象进行移动,发射模式也会实时适用于信号的变化,例如可以对六个面(左、前、右、上、后,底部)产生实时变化;
步骤(3)中使用早期反射具体可以包括:a、调整六个面分别与听者的距离,该六个面分别为(左(left)、前(front)、右(right)、上(top)、后(back),底部(bottom)),具体调整方式如图12所示;b、调整早期反射的低通滤波器,避免由于早期反射会产生较多的高频声音,比较刺耳,其中,需要优化声音频段为(500Hz to 19999Hz),其中优化声音频段的方式通过调整图13中的阻尼(英文全称:DAMPING)按钮;c、实时变化选择,如图14所示的实时声场听觉化模拟(REALTIME AURALISATION)按钮,表示声音对象和墙面相对位置的变化,可以实时使听者听到对应产生的早期反射。早期反射的实时变化,会增强声源的三维定位感。
(4)混响处理:对声音加载混响增强空间感。主要在与选取预设的空间设定,设置空间大小,控制低通滤波器,如图15所示,例如,可以在DEAR VR插件的混响(英文全称:REVERB)模块通过选取电影院效果的空间,即实时听觉模拟(英文全称:VIRTUALACOUSTICS)中选取电影院(英文全称:Cinema)效果,并且可以通过调整尺寸(英文全称:Size)设置空间大小,并通过调整阻尼(英文全称:DAMPING)控制低通滤波器。
对于本申请实施例,当通过DearVR对3D类的音频信息进行处理后采用预设方式进行输出。具体地,针对耳机外放的3D音频的输出,选取双声道的立体声(英文全称:Binaural),如图16a所示;针对扬声器外放的3D音频的输出,选取2.0立体声(英文全称:Stereo),如图16b所示,二者的差别仅在于是否加载的HRTF参数。
本申请实施例的另一种可能的实现方式,步骤S101之前还包括步骤Sa(图中未示出)以及步骤Sb(图中未示出),其中,
步骤Sa、在音频信息录制过程中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风。
对于本申请实施例,在设计中,收听者需要近距离收听的声音使用人头麦克风进行录制;在实际录制的过程中,规划配音演员以该人头麦克风为中心,3-5米(m)为半径进行配音,同时录制一部分配音演员与人头麦克风之间的距离小于半径10cm为圆形的声音,作为夸张化的声音表现,达到一定的ASMR效果。
步骤Sb、通过确定出的麦克风进行录制对应的音频信息。
本申请实施例的另一种可能的实现方式,步骤Sa以及步骤Sb包括步骤Sab1(图中未示出)以及步骤Sab2(图中未示出),其中,
步骤Sab1、当检测到声源与人头麦克风之间的距离满足第一预设条件时,确定当前录制使用的麦克风为人头麦克风,并通过人头麦克风录制对应的音频信息。
例如,第一预设条件为不大于5m,则当检测到声源与人头麦克风之间的距离不大于5m时,通过人头麦克风进行音频信息的录制。
步骤Sab2、当检测到声源与电容麦克风之间的距离满足第二预设条件时,确定当前录制使用的麦克风为电容麦克风,并通过电容麦克风录制对应的音频信息。
例如,第二预设条件为大于5m,则当检测到声源与电容麦克风之间的距离大于5m时,通过电容麦克风进行音频信息的录制。
对于本申请实施例,通过人头麦克风进行录音以及通过预设插件对3D类型的音频信息进行处理,均是为了突出3D声音,在声音的表现上,还可以通过以下手段突出3D声音:
(1)声音在身体的后方出现会更能吸引听众注意力,因此会在情节中设定很多声音的发声(声源)在身体后方出现;
(2)高频声音,类似金属,高跟鞋类的声音,在距离表现和定位表现会更明显;
(3)如果基于想要特别引起听众的恐惧感或者特殊听感,可以采取声音的突然由远变近(最好是贴耳听感);
(4)如果有一段时间长度较长的声音需要表现声音方位和空间感,可以使用画圆形或者包围走向的轨迹(就是同时包含前后左右声像的变化),会让听众更能听出3D声音的表现,这个手段通常要求声音的音量表现要比较均衡情况下,类似于一段动态比较小的轻音乐或者独白;
(5)DearVR使用中,如果要表现出3D声音的轨迹变化,通常要选用较大的距离变化。
本申请实施例的另一种可能的实现方式,在步骤S103之前可以包括:将双耳声音合成(即处理后的音频信息)以及双耳声音重拾得到的三维音频(人头麦克风录制的音频信息)进行频段调整,以达到听感匹配。
具体地,针对运动的声音对象从双耳声音合成得到的三维音频过渡到双耳声音重拾得到的三维音频,或则是双耳声音重拾得到的三维音频过渡到双耳声音合成得到的三维音频。这一类声音因为获取方式不同,需要对频段进行一定的优化,才可以使听感的过渡比较平滑。因为HRTF的本质是一个音频滤波器,在过渡优化的处理上我们采用EQ效果器,但同时应避免过分使用EQ效果,将定位效果削弱,如图17所示,通过调整频率(英文缩写:FREQ)、增益(英文全称:GAIN)、Q以使得从双耳声音合成得到的三维音频过渡到双耳声音重拾得到的三维音频,或由双耳声音重拾得到的三维音频过渡到双耳声音合成得到的三维音频,其中图中频谱线表征从三维音频过渡到双耳声音重拾得到的三维音频,或由双耳声音重拾得到的三维音频过渡到双耳声音合成得到的三维音频的过渡程度。
对于本申请实施例,步骤S103为将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理,在进行声音混音处理的过程中,包括三维音频信息以及非三维音频信息进行声音混音处理。在本申请实施例中,在进行声音混音的过程中,主要是对于突出三维音频效果的声音部分,降低非三维音频效果的音量,使用压缩效果器,动态调整音量,如图18所示,当非三维声音轨道接收到三维轨道音量时、非三维声音轨道按照压缩效果器设定、音量进行变化,图18中的频谱表征音量的变化。
本申请实施例的另一种可能的实现方式,步骤S103具体可以包括“步骤S1031(图中未示出),其中,
步骤S1031、将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理。
对于本申请实施例,步骤S1031可以具体为:将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加求平均的方式进行声音混音处理;也可以通过步骤S10311-步骤S10314进行声音混音处理,其中步骤S10311-步骤S10314进行声音混音处理的方式详见下文,在此不再赘述。
对于本申请实施例,为了避免线性叠加后失真,对线性求和后的结果求平均,也就是如果有N路混音,求和的结果除以N,相当于每路数据乘以一个权重系数1/N。这种处理有效的避免了失真问题。
本申请实施例的另一种可能的实现方式,步骤S1031具体可以包括步骤S10311(图中未示出)、步骤S10312(图中未示出)、步骤S10313(图中未示出)、步骤S10314(图中未示出),其中,
步骤S10311、将通过人头麦克风录制的音频信息以及处理后的音频信息进行线性叠加。
步骤S10312、将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
对于本申请实施例,步骤S10312具体可以包括:根据预先划分的多个等长度的音频强度分布区间,将混音信号处于不同音频强度分布区间的信号确定为至少两个混音信号强度区间。
其中,所述预先划分的多个等长度的音频强度分布区间中,第n个音频强度分布区间为:
[(n-1)×2Q-1,n×2Q-1],其中n≥1,Q为预设常数。
步骤S10313、采用对应的收缩比例分别对各个混音信号强度区间进行音频强度收缩。
其中,混音信号区间所采用的收缩比例与混音信号强度区间对应的音频强度呈反比例关系。
对于本申请实施例,步骤S10313可以包括:处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子。
对于本申请实施例,由于语音信号中的中低强度的信号出现的几率比高强度的信号更高,本申请实施例可以采用对高强度信号和中低强度信号采用不同的收缩处理方案,即对经过混音后线性叠加的音频信号进行分区间压缩,较低强度的信号采用较大的收缩比例,确保较低强度信号的可识别性同时有一定的收缩,高强度的信号采用较小收缩比例,以确保不会出现音频信号溢出,同时也保留一定的可识别性。所述收缩比例为收缩后的信号强度与原信号强度之间的比值,例如原信号强度为100,收缩后为50,那么收缩比例为50%。
例如,以上述划分第n个音频强度分布区间为:[(n-1)×2Q-1,n×2Q-1]将线性叠加后的混音信号划分成多个强度区间信号为例,处于第n个音频强度分布区间的混音信号强度区间对应的收缩比例为[(k-1)/k]*(1/k)n,其中k为预设的收缩因子,通常取2的倍数,例如8或16。在一较佳实施例中,k取8,Q取值16。
步骤S10314、将经过音频强度收缩的至少两个混音信号强度区间进行叠加。
对于本申请实施例,通过采用上述混音处理方法,通过对线性叠加的混音信号进行强度分区,进而对不同混音信号强度区间采用不同的收缩比例进行收缩处理,以实现避免溢出失真,同时区间收缩的处理,收缩比例跟混音路数的规模,时间等都是无关的,所以不会出现忽大忽小,不清晰等问题。
对于本申请实施例,步骤S103还可以包括:将人头麦克风录制的音频信息以及处理后的音频信息发送至终端设备;终端设备通过与音频信息数目相同数目的目标播放器进行混音解码,其中,目标播放器与使用该目标播放器进行混音解码的目标格式相同。
其中,该目标格式可以为流媒体(FLASH VIDEO,FLV)格式。
对于本申请实施例,对于声音混音处理时的音量调整,针对需要突出3D音效的声音部分,通过降低非3D音频信息的音量。具体地,通过利用压缩效果器动态调整音量。
本申请实施例的另一种可能的实现方式,步骤S103之后还可以包括步骤S104(图中未示出),其中,
步骤S104、将混音处理后的音频信息与待合成的视频信息进行合成。
对于本申请实施例,将混音处理后的音频信息与待合成的视频信息进行合成,得到多媒体信息进行输出,例如有声漫画等。
本申请实施例的另一种可能的实现方式,步骤S104具体可以包括步骤S1041(图中未示出)以及步骤S1042(图中未示出),其中,
步骤S1041、将混音处理后的音频信息以及待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息。
步骤S1042、将编码处理后的音频信息以及编码处理后的视频信息进行合成。
对于本申请实施例,步骤S1041之前还可以包括:基于待合成的视频信息的视频帧率对该混音处理后的音频信息和待合成的视频信息进行交织以形成编码前交织队列。
对于本申请实施例,通过在编码前对该混音处理后的音频信息和待合成的视频信息进行交织以形成编码前交织队列,可以使播放的媒体文件中音频和视频保持同步。如图19所示,在编码前交织队列中,视频信息帧Vi和音频信息帧Ai依次交替排列,其中,任一帧视频信息Vi均具有其对应的一帧音频信息Ai,具体而言,一帧视频信息V2具有其对应的一帧音频信息A2。
对于本申请实施例,通过公式(1)进行交织,并得到编码前交织队列,其中,
nBitA=nChannel×nSampleRate×nBit*(1/nFramerate)/8(1);
计算编码前交织队列中任一帧视频信息Vi对应的一帧音频信息Ai内包含的字节数nBitA,其中,nChannel为混音后的音频信息的声道个数,nSamplerate为混音后的音频信息的采样率,nBit为每个混音后的音频信息的量化比特数,nFramerate为待合成的视频信息的视频帧率。例如,假设待合成的视频信息的视频帧率nFramerate为30帧/秒,其它参数不考虑;混音后的音频信息的参数为:声道nChannel为2声道,采样率nSamplerate为48000Hz;量化比特数nBit为24bit,则根据公式(1)可计算获得任一帧待合成的音频信息Ai内包含的字节数nBitA=2*48000*24*(1/30)/8。
本申请实施例的另一种可能的实现方式,步骤S1041之后还可以包括:步骤Sc(图中未示出)以及步骤Sd(图中未示出),其中,
步骤Sc、确定编码后的视频信息对应的视频帧率。
步骤Sd、基于编码后视频信息对应的视频帧率对编码后音频信息以及编码后视频信息进行交织,得到编码后交织队列。
对于本申请实施例,步骤Sc以及步骤Sd可以包括:分别采集编码后音频视频队列中的每一帧编码后音频信息和每一帧编码后视频信息消耗的字节数,以分别获得每一帧编码后音频信息的持续时长和每一帧编码后视频信息的持续时长;以及基于每一帧编码后音频信息的持续时长和每一帧编码后视频信息的持续时长对编码后音频视频队列中的编码后音频信息和编码后视频信息进行交织以获得编码后交织队列。
其中,编码后交织队列中任一帧编码后视频信息的持续时长与其对应的一帧编码后音频信息的持续时长之差小于或等于预设阈值。
对于本申请实施例,通过对编码后音频信息以及编码后视频信息进行交织,能够避免视频音频的合成文件中不同步的问题,从而可以提升用户体验。
本申请实施例的另一种可能的实现方式,步骤S1042具体可以包括:步骤S10421(图中未示出),其中,
步骤S10421、将编码后交织队列进行合成。
对于本申请实施例,合成后的多媒体信息(包括视频信息以及音频信息)可以采用技术即运动静止图像(或逐帧)压缩技术(Motion Joint Photographic Experts Group,MJPEG)压缩格式以及MOV封装格式进行封装,如图20所示,即视频编码(英文全称:Videocodec)为MJPEG,模式(format)为MOV。
对于本申请实施例,在合成之后输出音频信息时,针对整体声音的输出,采用48Khz、24BitPCM、WAV格式,并通过立体声输出,如图21所示,采样频率(英文全称:SampleRate)为48000,输出格式(英文全称:Output format)为WAV,波位深度为24Bit脉冲编码调制(英文全称:Pulse Code Modulation,英文缩写:PCM),频道为立体声(英文全称:Stereo)。
上述实施例可以应用于各个领域,包括但不限于:手游、VR游戏以及动态漫画等领域,具体地,
以有声漫画为例,如图22所示,在取得有声漫画的知识产权(IntellectualProperty,IP)授权之后,针对该有声漫画对应的音频进行设计、改编,针对每一帧图像,获取该帧图像待合成的音频信息(包括:通过人头麦克风录制的配音演员的音频信息、通过电容麦克风录制的配音演员的音频信息、背景音乐音频信息、环境音信息、音效音频信息中的至少一项),然后将通过电容麦克风录制的配音演员的音频信息、背景音乐信息、环境音信息、音效音频信息中的至少一项通过预设插件进行处理,将插件处理后的音频信息与通过人头麦克风录制的配音演员的音频信息进行声音混音处理,然后将混音处理后的音频信息与该帧图像进行合成,以完成有声漫画的制作。
对于本申请实施例,以有声漫画为例,介绍在产品侧的涉及,有声漫画是一种使用多张静态的图片,通过特效处理产生在图片间切换的动态效果,并配以音频表现的视频,具体地,
通过以下手段设计有声漫画的音频信息:
(1)合理规划声音的声源移动方向和静态画面的对应关系;
(2)保证画面切换,场景切换时,声音移动的连贯性和合理性;
(3)巧妙的设计近身贴耳声音,听感上感觉与真实世界无异。将传统声音表达演化成临场的声音表现;
(4)在声音类型上,避免旁白独白的形式推进故事剧情,更多的转换为对白的方式,来重现出故事的场景内容。
在上述针对音频信息进行处理以及针对音频信息进行设计,有声漫画的产品可以实现以下效果:
(1)故事以真实场景还原的方式来表现,故事的进行以人物场景内的对话表现,以及通过动作声音,环境声音的表现来丰富声音内容;类似于电影化的声音表现,还原更真实的听觉体验,仅在一些特定的段落,使用超现实的声音艺术表现手法;
(2)以耳机收听为媒介,用沉浸式的声音表现剧情,摆脱了传统旁白,独白的模式,以真实距离的语音元素,让观众“身临其境”,来体验故事的进行。其近身贴耳听感体验、位置判定体验超越传统影视作品;
(3)在场景重现方面,除了丰富化声音表现元素之外,全部声音表现以3D音频作为表现形式,利用了人头录音和HRTF插件作为制作手段,使声音的表现不再是2D平面化,3D化的声音表现进一步达到真实场景声音的设计目的。
本申请实施例提供的一种音频处理的装置结构示意图,如图2所示,本申请实施例的音频处理的装置20可以包括:获取模块21、第一确定模块22、插件处理模块23、声音混音处理模块24、合成模块25,其中,
获取模块21,用于获取待处理的音频信息以及通过人头麦克风录制的音频信息。
第一确定模块22,用于从获取模块21获取到的待处理的音频信息中确定预设类型的音频信息;
插件处理模块23,用于将第一确定模块22确定的预设类型的音频信息通过预设插件进行处理。
声音混音处理模块24,用于将获取模块21获取到的通过人头麦克风录制的音频信息以及插件处理模块23处理后的音频信息进行声音混音处理。
本申请实施例提供了一种音频处理的装置,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请实施例通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请实施例通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
本申请实施例的音频处理的装置可执行上述方法实施例提供的一种音频处理的方法,其实现原理相类似,此处不再赘述。
本申请实施例提供的另一种音频处理的装置的结构示意图,如图3所示,本申请实施例的音频处理的装置30可以包括:获取模块31、第一确定模块32、插件处理模块33、声音混音处理模块34,其中,
获取模块31,用于获取待处理的音频信息以及通过人头麦克风录制的音频信息。
其中,图3中的获取模块31与图2中获取模块21的功能相同或者相似。
第一确定模块32,用于从获取模块31获取到的待处理的音频信息中确定预设类型的音频信息。
其中,图3中的第一确定模块32与图2中第一确定模块22的功能相同或者相似。
插件处理模块33,用于将第一确定模块32确定的预设类型的音频信息通过预设插件进行处理。
其中,图3中的插件处理模块33与图2中插件处理模块23的功能相同或者相似。
声音混音处理模块34,用于将获取模块31获取到的通过人头麦克风录制的音频信息以及插件处理模块33处理后的音频信息进行声音混音处理。
其中,图3中的声音混音处理模块34与图2中声音混音处理模块24的功能相同或者相似。
本申请实施例的另一种可能的实现方式,待处理的音频信息中包括以下至少一项:
环境音信息;音效信息;通过电容麦克风录制的音频信息;背景音乐信息。
进一步地,如图3所示,该装置30还包括:第二确定模块36、录制模块37,其中,
第二确定模块36,用于在音频信息录制过程中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风。
对于本申请实施例,第二确定模块36与第一确定模块32可以为同一个确定模块,也可以为两个不同的确定模块。在本申请实施例不做限定。
录制模块37,用于通过第二确定模块36确定出的麦克风进行录制对应的音频信息。
本申请实施例的一种可能的实现方式,第二确定模块36,具体用于当检测到声源与人头麦克风之间的距离满足第一预设条件时,确定当前录制使用的麦克风为人头麦克风。
录制模块37,具体用于通过第二确定模块36确定出的人头麦克风录制对应的音频信息。
第二确定模块36,具体用于当检测到声源与电容麦克风之间的距离满足第二预设条件时,确定当前录制使用的麦克风为电容麦克风。
录制模块37,具体用于通过第二确定模块36确定出的电容麦克风录制对应的音频信息。
本申请实施例的另一种可能的实现方式,声音混音处理模块34,具体用于将通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理。
本申请实施例的另一种可能的实现方式,如图3所示,声音混音处理模块34包括:叠加单元341、划分单元342、音频强度收缩单元343,其中,
叠加单元341,用于将通过人头麦克风录制的音频信息以及处理后的音频信息进行线性叠加。
划分单元342,用于将叠加单元341线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间。
音频强度收缩单元343,用于采用对应的收缩比例分别对划分单元342划分出的各个混音信号强度区间进行音频强度收缩。
叠加单元341,还用于将经过音频强度收缩单元343音频强度收缩的至少两个混音信号强度区间进行叠加。
其中,混音信号区间所采用的收缩比例与混音信号强度区间对应的音频强度呈反比例关系。
进一步地,如图3所示,该装置30还包括:合成模块35,其中,
合成模块35,用于将声音混音处理模块34混音处理后的音频信息与待合成的视频信息进行合成。
本申请实施例的另一种可能的实现方式,如图3所示,合成模块35包括:编码单元351、合成单元352,其中,
编码单元351,用于将混音处理后的音频信息以及待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息。
合成单元352,用于将编码单元351编码处理后的音频信息以及编码处理后的视频信息进行合成。
本申请实施例的另一种可能的实现方式,如图3所示,该装置30还包括:第三确定模块38、交织模块39,其中,
第三确定模块38,用于确定编码后的视频信息对应的视频帧率。
对于本申请实施例,第三确定模块38与第二确定模块36以及第一确定模块32可以为同一个确定模块,也可以分别为不同的确定模块,也可以与其中任一个确定模块为同一个确定模块。在本申请实施例不做限定。
图3中展示第三确定模块38、第二确定模块36以及第一确定模块32分别为不同的确定模块,但是不限定图3这一种方式。
交织模块39,用于基于第三确定模块38确定出的编码后视频信息对应的视频帧率对编码后音频信息以及编码后视频信息进行交织,得到编码后交织队列;
合成模块35,具体用于将交织模块39编码后交织队列进行合成。
本申请实施例的另一种可能的实现方式,预设插件为头相关变换函数HRTF插件。
本申请实施例提供了另一种音频处理的装置,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请实施例通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请实施例通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音的定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
本申请实施例的音频处理的装置可执行上述方法实施例所示的音频处理的方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
其中,处理器4001应用于本申请实施例中,用于实现图2或图3所示的获取模块、第一确定模块、插件处理模块、声音混音处理模块的功能和/或图3所示的合成模块、第二确定模块、录制模块、第三确定模块以及交织模块的功能。收发器4004包括接收机和发射机,收发器4004应用于本申请实施例中,用于其它电子设备进行信息交互。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现图2或图3所示实施例提供的音频处理的装置的动作。
本申请实施例提供了一种电子设备,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请实施例通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请实施例通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音的定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所述的音频处理的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术中对与视频合成的音频信息通过高保真立体声响复制Ambisonics的方式进行处理相比,本申请实施例通过获取待处理的音频信息以及通过人头麦克风录制的音频信息,然后从待处理的音频信息中确定预设类型的音频信息,并将预设类型的音频信息通过预设插件进行处理,然后将通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。即本申请实施例通过将属于预设类型的音频信息通过预设插件进行处理后,然后与通过人头麦克风录制的音频信息进行合成,由于通过人头麦克风进行录音以及通过预设插件对音频信息进行处理,均可以提高音频信息的空间定位效果,从而可以提高音频信息的声音的定位感以及空间感,进而可以提高用户的听觉体验,尤其是在观看视频时的听觉体验。
本申请实施例提供了一种计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种音频处理的方法,其特征在于,包括:
获取待处理的音频信息以及通过人头麦克风录制的音频信息;
从待处理的音频信息中确定预设类型的音频信息,并将所述预设类型的音频信息通过预设插件进行处理;
将所述通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理。
2.根据权利要求1所述的方法,其特征在于,所述待处理的音频信息中包括以下至少一项:
环境音信息;音效信息;通过电容麦克风录制的音频信息;背景音乐信息。
3.根据权利要求1或2所述的方法,其特征在于,获取待处理的音频信息以及通过人头麦克风录制的音频信息,之前还包括:
在音频信息录制过程中,基于声源与各个麦克风之间的距离确定当前录制使用的麦克风;
通过确定出的麦克风进行录制对应的音频信息。
4.根据权利要求3所述的方法,其特征在于,所述基于声源与各个麦克风之间的距离确定当前录制使用的麦克风;通过确定出的麦克风进行录制对应的音频信息,包括:
当检测到声源与人头麦克风之间的距离满足第一预设条件时,确定当前录制使用的麦克风为所述人头麦克风,并通过所述人头麦克风录制对应的音频信息;
当检测到声源与电容麦克风之间的距离满足第二预设条件时,确定当前录制使用的麦克风为所述电容麦克风,并通过所述电容麦克风录制对应的音频信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理,包括:
将所述通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理。
6.根据权利要求5所述的方法,其特征在于,所述将所述通过人头麦克风录制的音频信息以及处理后的音频信息通过线性叠加的方式进行声音混音处理,包括:
将所述通过人头麦克风录制的音频信息以及处理后的音频信息进行线性叠加;
将线性叠加后的混音信号按照音频强度大小划分为至少两个混音信号强度区间;
采用对应的收缩比例分别对各个混音信号强度区间进行音频强度收缩;
将经过音频强度收缩的所述至少两个混音信号强度区间进行叠加;
其中,混音信号区间所采用的收缩比例与混音信号强度区间对应的音频强度呈反比例关系。
7.根据权利要求1所述的方法,其特征在于,所述将所述通过人头麦克风录制的音频信息以及处理后的音频信息进行声音混音处理,之后还包括:
将混音处理后的音频信息与待合成的视频信息进行合成。
8.根据权利要求7所述的方法,其特征在于,将混音处理后的音频信息与待合成的视频信息进行合成,包括:
将所述混音处理后的音频信息以及所述待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息;
将所述编码处理后的音频信息以及所述编码处理后的视频信息进行合成。
9.根据权利要求8所述的方法,其特征在于,将所述混音处理后的音频信息以及所述待合成的视频信息分别进行编码,得到编码处理后的音频信息以及编码处理后的视频信息,之后还包括:
确定所述编码后的视频信息对应的视频帧率;
基于所述编码后视频信息对应的视频帧率对所述编码后音频信息以及所述编码后视频信息进行交织,得到编码后交织队列;
所述将所述编码处理后的音频信息以及所述编码处理后的视频信息进行合成,包括:
将编码后交织队列进行合成。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述预设插件为头相关变换函数HRTF插件。
11.一种音频处理的装置,其特征在于,包括:
获取模块,用于获取待处理的音频信息以及通过人头麦克风录制的音频信息;
第一确定模块,用于从所述获取模块获取到的待处理的音频信息中确定预设类型的音频信息;
插件处理模块,用于将所述第一确定模块确定的所述预设类型的音频信息通过预设插件进行处理;
声音混音处理模块,用于将所述通过人头麦克风录制的音频信息以及所述插件处理模块处理后的音频信息进行声音混音处理。
12.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~10任一项所述的音频处理的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-10任一项所述的音频处理的方法。
CN201811400323.4A 2018-11-22 2018-11-22 音频处理的方法、装置、电子设备及计算机可读存储介质 Active CN109410912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811400323.4A CN109410912B (zh) 2018-11-22 2018-11-22 音频处理的方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811400323.4A CN109410912B (zh) 2018-11-22 2018-11-22 音频处理的方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109410912A true CN109410912A (zh) 2019-03-01
CN109410912B CN109410912B (zh) 2021-12-10

Family

ID=65474610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811400323.4A Active CN109410912B (zh) 2018-11-22 2018-11-22 音频处理的方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109410912B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法
CN111866664A (zh) * 2020-07-20 2020-10-30 深圳市康冠商用科技有限公司 一种音频处理方法、装置、设备及计算机可读存储介质
CN112530589A (zh) * 2020-12-01 2021-03-19 中国科学院深圳先进技术研究院 触发asmr的方法、装置、***、电子设备及存储介质
CN112951199A (zh) * 2021-01-22 2021-06-11 杭州网易云音乐科技有限公司 音频数据生成方法及装置、数据集构建方法、介质、设备
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
WO2021212287A1 (zh) * 2020-04-20 2021-10-28 深圳市大疆创新科技有限公司 音频信号处理方法、音频处理装置及录音设备
CN113971969A (zh) * 2021-08-12 2022-01-25 荣耀终端有限公司 一种录音方法、装置、终端、介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404573A (zh) * 2011-11-28 2012-04-04 深圳市万兴软件有限公司 音频视频同步处理方法及装置
US20120328107A1 (en) * 2011-06-24 2012-12-27 Sony Ericsson Mobile Communications Ab Audio metrics for head-related transfer function (hrtf) selection or adaptation
CN105263093A (zh) * 2015-10-12 2016-01-20 深圳东方酷音信息技术有限公司 一种全方位声音采集装置、编辑装置及***
CN105719653A (zh) * 2016-01-28 2016-06-29 腾讯科技(深圳)有限公司 一种混音处理方法和装置
CN106531177A (zh) * 2016-12-07 2017-03-22 腾讯科技(深圳)有限公司 一种音频处理的方法、移动终端以及***
KR101725952B1 (ko) * 2015-12-21 2017-04-11 서울대학교산학협력단 사용자의 hrtf 정보를 이용하여 n채널의 음원을 사용자에 최적화된 바이노럴 음원으로 다운 믹스하는 방법 및 시스템
CN108777832A (zh) * 2018-06-13 2018-11-09 上海艺瓣文化传播有限公司 一种基于视频对象追踪的实时3d声场构建和混音***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120328107A1 (en) * 2011-06-24 2012-12-27 Sony Ericsson Mobile Communications Ab Audio metrics for head-related transfer function (hrtf) selection or adaptation
CN102404573A (zh) * 2011-11-28 2012-04-04 深圳市万兴软件有限公司 音频视频同步处理方法及装置
CN105263093A (zh) * 2015-10-12 2016-01-20 深圳东方酷音信息技术有限公司 一种全方位声音采集装置、编辑装置及***
KR101725952B1 (ko) * 2015-12-21 2017-04-11 서울대학교산학협력단 사용자의 hrtf 정보를 이용하여 n채널의 음원을 사용자에 최적화된 바이노럴 음원으로 다운 믹스하는 방법 및 시스템
CN105719653A (zh) * 2016-01-28 2016-06-29 腾讯科技(深圳)有限公司 一种混音处理方法和装置
CN106531177A (zh) * 2016-12-07 2017-03-22 腾讯科技(深圳)有限公司 一种音频处理的方法、移动终端以及***
CN108777832A (zh) * 2018-06-13 2018-11-09 上海艺瓣文化传播有限公司 一种基于视频对象追踪的实时3d声场构建和混音***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
WO2021212287A1 (zh) * 2020-04-20 2021-10-28 深圳市大疆创新科技有限公司 音频信号处理方法、音频处理装置及录音设备
CN111866664A (zh) * 2020-07-20 2020-10-30 深圳市康冠商用科技有限公司 一种音频处理方法、装置、设备及计算机可读存储介质
CN112530589A (zh) * 2020-12-01 2021-03-19 中国科学院深圳先进技术研究院 触发asmr的方法、装置、***、电子设备及存储介质
CN112530589B (zh) * 2020-12-01 2024-05-28 中国科学院深圳先进技术研究院 触发asmr的方法、装置、***、电子设备及存储介质
CN112951199A (zh) * 2021-01-22 2021-06-11 杭州网易云音乐科技有限公司 音频数据生成方法及装置、数据集构建方法、介质、设备
CN112951199B (zh) * 2021-01-22 2024-02-06 杭州网易云音乐科技有限公司 音频数据生成方法及装置、数据集构建方法、介质、设备
CN113971969A (zh) * 2021-08-12 2022-01-25 荣耀终端有限公司 一种录音方法、装置、终端、介质及产品
CN113971969B (zh) * 2021-08-12 2023-03-24 荣耀终端有限公司 一种录音方法、装置、终端、介质及产品

Also Published As

Publication number Publication date
CN109410912B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN109410912A (zh) 音频处理的方法、装置、电子设备及计算机可读存储介质
EP2205007B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
RU2736274C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
CN105379309B (zh) 用于再现声学场景的音频数据的安排和方法
US7590249B2 (en) Object-based three-dimensional audio system and method of controlling the same
TWI517028B (zh) 音訊空間定位和環境模擬
US20050080616A1 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
TW201810249A (zh) 使用近場/遠場渲染之距離聲相偏移
US20080004729A1 (en) Direct encoding into a directional audio coding format
CN107533843A (zh) 用于捕获、编码、分布和解码沉浸式音频的***和方法
Wiggins An investigation into the real-time manipulation and control of three-dimensional sound fields
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
Rafaely et al. Spatial audio signal processing for binaural reproduction of recorded acoustic scenes–review and challenges
Llorach et al. Towards realistic immersive audiovisual simulations for hearing research: Capture, virtual scenes and reproduction
CN114067810A (zh) 音频信号渲染方法和装置
Suzuki et al. 3D spatial sound systems compatible with human's active listening to realize rich high-level kansei information
EP4055840A1 (en) Signalling of audio effect metadata in a bitstream
San Martín et al. Influence of recording technology on the determination of binaural psychoacoustic indicators in soundscape investigations
Paterson et al. Producing 3-D audio
KR101319892B1 (ko) 3차원 가상 음향 구현을 위한 머리전달함수 모델링 방법,및 이를 이용한 3차원 가상 음향 구현 방법 및 장치
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
KR101534295B1 (ko) 멀티 뷰어 영상 및 3d 입체음향 제공방법 및 장치
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Llopis et al. Effects of the order of Ambisonics on localization for different reverberant conditions in a novel 3D acoustic virtual reality system
San Martín Murugarren et al. Influence of recording technology on the determination of binaural psychoacoustic indicators in soundscape investigations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant