CN107562402A - 控制音频信号参数 - Google Patents

控制音频信号参数 Download PDF

Info

Publication number
CN107562402A
CN107562402A CN201710518110.0A CN201710518110A CN107562402A CN 107562402 A CN107562402 A CN 107562402A CN 201710518110 A CN201710518110 A CN 201710518110A CN 107562402 A CN107562402 A CN 107562402A
Authority
CN
China
Prior art keywords
audio
source
parameter
signal
deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710518110.0A
Other languages
English (en)
Other versions
CN107562402B (zh
Inventor
J·阿拉斯维奥里
A·埃罗南
A·勒蒂涅米
J·勒帕南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN107562402A publication Critical patent/CN107562402A/zh
Application granted granted Critical
Publication of CN107562402B publication Critical patent/CN107562402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于校正包括多个音频源的表演中的偏离的方法和对应的***,该方法包括检测与音频源相关的参数,确定参数是否偏离预定特性,并且响应于确定参数偏离预定特性,引起被配置为控制参数的用户界面的显示,以允许用户校正偏离。

Description

控制音频信号参数
技术领域
本公开涉及控制空间音频和虚拟现实(VR)领域中的音频信号参数。具体地但不排他地,本公开还涉及用于空间音频混合的***和用户界面。
背景技术
空间音频是指利用声音定位的可播放音频数据。在现实世界空间中,例如在音乐厅,会有位于舞台上的不同位置处的多个音频源,例如管弦乐队或乐队的不同成员。音频源的位置和移动是所捕获的音频的参数。在将音频渲染为空间音频以用于回放时,可以使用处理算法将这样的参数并入数据中,使得向倾听者提供沉浸式的和空间定向的体验。
空间音频的示例应用在虚拟现实(VR)中,由此视频和音频数据都在真实世界空间内被捕获。在空间的渲染版本中,即在虚拟空间中,用户通过VR耳机可以观看并收听具有空间感知的所捕获的视频和音频。
发明内容
在第一方面,本说明书描述了一种方法,其包括检测与音频源有关的参数,确定参数是否偏离预定特性,并且响应于确定参数偏离预定特性,引起被配置为控制参数的用户界面的显示。
可以引起音频源的空间位置被显示在显示器上,该方法还包括引起与音频源相关联地在显示器上显示用户界面。
确定参数是否偏离预定特性可以包括确定与参数相关联的水平是否落在预定范围之外。
确定参数是否偏离预定特性可以包括确定与音频源相关联的不想要的信号的存在,不想要的信号落在与参数相关联的预定范围之外。
确定参数是否偏离预定特性可以包括确定在与所捕获的音频信号相对应的文本与预定脚本之间是否检测到差异。
确定参数是否偏离预定特性可以包括确定在所捕获的音频信号与对应于预定脚本的音频信号之间是否检测到差异。
用户界面可以包括具有第一部分和第二部分的控制界面,第一部分包括用于控制期望参数水平的第一控制元件,第二部分包括用于在参数偏离预定特性时控制参数的第二控制元件。
该方法可以包括响应于接收到指示在显示音频源的屏幕上的用户交互的信号来引起第一控制元件的显示,以及仅响应于参数偏离预定特性来引起第二控制元件的显示。
该方法还可以包括引起与音频源相邻的指示符的显示,该指示符被布置为指示与音频源相关的参数偏离预定特性。
该方法可以包括取决于偏离的量来改变指示符的大小。
该方法还可以包括放大具有偏离预定特性的参数的音频源。
该方法还可以包括响应于确定参数偏离预定特性,确定偏离的类型并且生成对应于所确定的偏离类型的用户界面。
该方法还可以包括响应于确定音频源的位置偏离预定位置范围,生成被布置为控制音频源的控制器。
控制音频源可以包括以下之一:使音频源静音和去除音频源的方向性。
该方法可以包括确定音频源的移动在预定时间段内是否落在许可移动范围之外。
该方法可以包括使用高精度室内定位HAIP信号来确定音频源的位置。
该方法可以包括确定HAIP信号中的噪声,并且使用用户界面进行以下中至少一项:平滑信号以及将音频源的位置固定在期望的位置。
该方法还可以包括响应于确定参数偏离预定特性,确定音频源的空间位置,并且生成在显示器内与音频源的所确定的空间位置相邻的用户界面。
该参数可以包括以下中的至少一项:来自音频源的音频信号的音量、音高、音高的波动水平、音频源的位置、来自音频源的音频信号中的反馈的存在或背景噪声的水平、对话、脚本和乐句(musical phrase)。
该方法可以包括检测与一个或多个音频源相关的多个参数,并且确定是否多个参数中的多于一个参数偏离预定特性,并且响应于确定多个参数中的多于一个参数偏离预定特性,引起参数按照预定优先级顺序被显示。
该方法还可以包括为从所显示的参数中选择的参数生成用户界面。
该方法还可以包括为每个所显示的参数生成用户界面。
该方法还可以包括将预先记录的音频信号与所接收的信号相比较,并且响应于预先记录的信号与所接收的信号之间的偏离,引起与偏离相关的通知。
该方法可以包括引起用户界面的显示以用预先记录的信号替换所接收的信号。
该方法可以包括预测参数的偏离,并且响应于预测偏离,引起用户界面的显示。
该方法可以包括预测参数的偏离,并且响应于预测偏离,请求与是否显示用户界面有关的用户输入。
在第二方面,本说明书描述了一种被配置为执行参考第一方面描述的任何方法的装置。
该装置可以包括用于从多个音频源捕获音频的VR捕获装置。
该装置可以包括用于显示多个音频源并且用于接受与每个音频源相关的用户输入的触摸屏。
在第三方面,本说明书描述了一种包括指令的计算机程序,指令在由计算机装置执行时引起计算机装置执行参考第一方面描述的任何方法。
在第四方面,本说明书描述了一种装置,其包括用于检测与音频源相关的参数的部件、用于确定参数是否偏离预定特性的部件、以及用于引起被配置为控制参数的用户界面的显示的部件,响应于确定参数偏离预定特性而引起用户界面被显示。第四方面的装置还可以包括用于引起参考第一方面的方法描述的任何操作的执行的部件。
在第五方面,本说明书描述了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,计算机程序代码在由至少一个处理器执行时引起该装置检测与音频源相关的参数,确定参数是否偏离预定特性,并且响应于确定参数偏离预定特性,显示被配置为控制参数的用户界面。
计算机程序代码在由至少一个处理器执行时可以引起该装置在显示器上显示音频源的空间位置,并且与音频源相关联地在显示器上显示用户界面。
计算机程序代码在由至少一个处理器执行时可以引起该装置通过确定与参数相关联的水平是否落在预定范围之外来确定参数是否偏离预定特性。
计算机程序代码在由至少一个处理器执行时可以引起该装置通过确定与音频源相关联的不想要的信号的存在来确定参数是否偏离预定特性,不想要的信号落在与参数相关联的预定范围之外。
计算机程序代码在由至少一个处理器执行时可以引起该装置通过确定在与所捕获的音频信号相对应的文本与预定脚本之间是否检测到差异来确定参数是否偏离预定特性。
计算机程序代码在由至少一个处理器执行时可以引起该装置通过确定在所捕获的音频信号与对应于预定脚本的音频信号之间是否检测到差异来确定参数是否偏离预定特性。
用户界面可以包括具有第一部分和第二部分的控制界面,第一部分包括用于控制期望参数水平的第一控制元件,第二部分包括用于在参数偏离预定特性时控制参数的第二控制元件。计算机程序代码在由至少一个处理器执行时可以引起该装置响应于在显示音频源的屏幕上的用户交互来显示第一控制元件,以及仅响应于参数偏离预定特性来显示第二控制元件。
计算机程序代码在由至少一个处理器执行时可以引起该装置显示与音频源相邻的指示符,该指示符被布置为指示与音频源相关的参数偏离预定特性。计算机程序代码在由至少一个处理器执行时可以引起该装置取决于偏离的量来改变指示符的大小。
计算机程序代码在由至少一个处理器执行时可以引起该装置放大具有偏离预定特性的参数的音频源。
计算机程序代码在由至少一个处理器执行时可以引起该装置响应于确定参数偏离预定特性来确定偏离的类型并且生成与所确定的偏离类型相对应的用户界面。
计算机程序代码在由至少一个处理器执行时可以引起该装置响应于确定音频源的位置偏离预定位置范围来生成被布置为控制音频源的控制器。控制音频源可以包括以下之一:使音频源静音和去除音频源的方向性。
计算机程序代码在由至少一个处理器执行时可以引起该装置确定音频源的移动在预定时间段内是否落在许可移动范围之外。
计算机程序代码在由至少一个处理器执行时可以引起该装置使用高精度室内定位HAIP信号来确定音频源的位置。计算机程序代码在由至少一个处理器执行时可以引起该装置确定HAIP信号中的噪声,并且使用用户界面进行以下中至少一项:平滑信号以及将音频源的位置固定在期望的位置。
计算机程序代码在由至少一个处理器执行时可以引起该装置响应于确定参数偏离预定特性来确定音频源的空间位置,并且生成在显示器内与音频源的所确定的空间位置相邻的用户界面。
该参数可以包括以下中的至少一项:来自音频源的音频信号的音量、音高、音高的波动水平、音频源的位置、来自音频源的音频信号中的反馈的存在或背景噪声的水平、对话、脚本和乐句。
计算机程序代码在由至少一个处理器执行时可以引起该装置检测与一个或多个音频源相关的多个参数,并且确定是否多个参数中的多于一个参数偏离预定特性,以及响应于确定多个参数中的多于一个参数偏离预定特性,按照预定优先级顺序显示参数。
计算机程序代码在由至少一个处理器执行时可以引起该装置为从所显示的参数中选择的参数生成用户界面。计算机程序代码在由至少一个处理器执行时可以引起该装置为每个所显示的参数生成用户界面。
计算机程序代码在由至少一个处理器执行时可以引起该装置将预先记录的音频信号与所接收的信号相比较,并且响应于预先记录的信号与所接收的信号之间的偏离来通知偏离。计算机程序代码在由至少一个处理器执行时可以引起该装置显示用户界面以用预先记录的信号替换所接收的信号。
计算机程序代码在由至少一个处理器执行时可以引起该装置预测参数的偏离,并且响应于预测偏离,引起用户界面的显示。计算机程序代码在由至少一个处理器执行时可以引起该装置预测参数的偏离,并且响应于预测偏离,请求与是否显示用户界面有关的用户输入。
在第六方面,本说明书描述了一种包括其上存储有计算机可读代码的一个或多个计算机可读介质的计算机程序产品,计算机可读代码在由至少一个处理器执行时引起至少以下各项的执行:检测与音频源有关的参数,确定参数是否偏离预定特性,并且响应于确定参数偏离预定特性,引起被配置为控制参数的用户界面的显示。存储在第六方面的介质上的计算机可读代码还可以引起参考第一方面的方法描述的任何操作的执行。
附图说明
现在将参考附图通过非限制性示例来描述实施例,在附图中:
图1是分布式音频捕获场景的示意性表示;
图2是示出图1所示的捕获和渲染***(CRS)的部件的示意图;
图3是示出根据实施例的音频捕获、混合和渲染的方法步骤的流程图;
图4a至4c示出了指示音频源和为音频源中的一个音频源生成的控制器单元的位置的用户界面(UI)的图形表示;
图5是示出根据实施例的音频捕获、校正、混合和渲染的方法步骤的流程图;
图6a和6b示出了指示音频源以及在检测到偏离时为音频源生成的控制器单元和校正控制器单元的位置的用户界面(UI)的图形表示;
图7是示出根据实施例的图5中的校正的方法步骤的流程图;
图8a至8c示出了指示音频源的位置的用户界面(UI)和用以指示从其检测到偏离事件的音频源的用户界面(UI)的修改的图形表示;
图9是指示针对音高校正定制的校正控制器单元的示例的UI的图形表示;
图10是指示被定制用于校正音频频谱中不想要的信号的存在的校正控制器单元的示例的UI的图形表示;
图11a和11b是指示被定制用于校正音频源的位置偏离的校正控制器单元的示例的UI的图形表示;
图12是指示被定制用于校正音频源的对话的讲错台词(misspoken line)的校正控制器单元的示例的UI的图形表示;
图13a和13b示出了检测到多个偏离事件的偏离通知UI的示例;以及
图14a和14b示出了在多个偏离事件同时出现的情况下生成校正控制器1400的示例。
具体实施方式
实施例涉及用于在捕获和混合空间音频数据用于现场表演和后处理的上下文中经由用户界面来控制与音频源相关的参数的方法和***。具体地,实施例涉及在虚拟空间内存在多个音频源的捕获和混合方法。
示例应用在VR捕获和渲染***中,其中还捕获和渲染视频以提供沉浸式的用户体验。诺基亚的OZO(RTM)VR相机被用作VR捕获设备的示例,VR捕获设备也被称为存在捕获设备,其包括提供空间音频信号的麦克风阵列,但是应当理解,实施例既不限于VR应用,也不限于在捕获点使用麦克风阵列。
参考图1,示出了音频捕获场景1的概述连同具有相关联的用户界面16的捕获和渲染***(CRS)15的第一实施例。图1示意性地示出了现实世界空间3,其可以是例如音乐厅或其他音乐场地。然而,CRS 15适用于任何现实世界空间。在多个音频源(其在这种情况下是乐队)前面的空间3的地板5上支持用于视频和空间音频捕获的VR设备6,例如诺基亚OZO(RTM)VR相机;VR设备6的位置是已知的,例如,通过从VR设备上的定位标签(未示出)导出的预定的位置数据或信号。VR设备6包括被配置为提供空间音频捕获的麦克风阵列。然而,本文中的实施例不限于需要由VR设备6捕获的音频和/或视频的应用。替代地或另外地,可以提供在每个音频源的位置处的个体麦克风。
乐队可以包括多个成员,每个成员具有相关联的外部麦克风,或者(例如,在吉他手的情况下)具有提供音频信号的拾音馈送(pick-up feed)。因此,为了方便,每个成员可以被称为音频源。在其他实施例中,可以使用其他类型的音频源。这种情况下的音频源可以包括主唱7、鼓手8、主唱吉他手9、低音吉他手10、以及在空间上组合在一起的合唱团或和声歌手11、12、13的三个成员。
除了具有相关联的麦克风或音频馈送之外,音频源7-13可以携带定位标签,其可以是能够向CRS 15指示其相应空间位置的任何模块。例如,定位标签可以是高精度室内定位(HAIP)标签,其与空间3内的一个或多个HAIP***20相关联地工作。HAIP***使用标签与一个或多个***20之间的蓝牙低能量(BLE)通信。例如,可以有四个HAIP***20安装在VR设备6上或相对于VR设备6被放置。相应的HAIP***可以在VR设备6前边、左边、后边和右边。然而,取决于空间3的情况,可以使用更小数目的HAIP***。在图1所示的示例中,一个HAIP***20被放置在空间3的角落中。每个标签发送BLE信号,HAIP***从该BLE信号导出标签并且因此导出音频源位置。
通常,这样的到达方向(DoA)定位***基于(i)每个***的已知的位置和定向以及(ii)在***的本地坐标系中从相应的标签到***的信号的DoA角度的测量。基于来自一个或多个***的位置和角度信息,可以使用几何学来计算标签的位置。
CRS 15是具有相关联的用户界面(UI)16的处理***,UI 16将在下面进一步详细说明。如图1所示,CRS 15通过信号线17从捕获设备6接收空间视频数据和/或音频数据以及定位数据作为输入。替代地,可以从HAIP***20接收定位数据。CRS 15还通过单独的信号线18从每个音频源7-13接收音频数据并且从相应的定位标签或HAIP***20接收定位数据作为输入。CRS 15生成空间音频数据以用于输出到用户设备19,诸如具有视频和音频输出的VR耳机。混合人员21使用用户设备19和UI 16执行捕获、混合和渲染过程以用于现场表演或后处理。
输入音频数据可以是扬声器格式的多声道音频,例如,立体声信号、4.0信号、5.1信号、杜比Atmos(RTM)信号等。如果用于捕获设备6,代替扬声器格式音频,输入可以是多麦克风信号格式,诸如从OZO VR相机输入的原始八信号。
图2示出了CRS 15的部件的示例示意图。CRS 15可以包括控制器(或控制或处理装置)22、包括显示部分26和触觉接口部分28的触敏显示器24、硬件键30、存储器32、RAM 34和输入接口36。控制器22可以连接到每个其它部件以便控制其操作。触敏显示器24是可选的,并且作为替代,传统的显示器可以与用于通过传统手段控制CRS 15的硬件键30和/或鼠标***设备一起使用。
存储器32可以是任何合适类型(或类型的组合)的非暂态计算机可读存储介质。例如,存储器32可以是非易失性存储器,诸如只读存储器(ROM)、硬盘驱动器(HDD)或固态驱动器(SSD)。除了其他事物以外,存储器32存储操作***38和一个或多个软件应用40。RAM 34由控制器22使用用于临时存储数据。操作***38可以包含在由控制器22结合RAM 34执行时控制终端的每个硬件部件的操作的代码。
控制器22可以采取任何合适的形式。例如,它可以是微控制器、多个微控制器、处理器(包括双核和多核处理器)或多个处理器。
在本文中的实施例中,一个软件应用40被配置为提供视频和分布式空间音频捕获、混合和渲染以生成包括所渲染的空间音频的VR环境或虚拟空间。软件应用40还通过其向显示器24的输出提供图1所示的UI 16,并且通过触觉接口28或其他输入***设备(诸如硬件键30或鼠标(未示出))接收用户输入。UI 16可以对应于由VR设备6捕获的视频图像。在这种情况下,音频源7至13的空间位置由表演者或音频源的图像表示。替代地,UI 16可以对应于指示音频源7至13在空间3的平面视图图像上的空间位置的任何其它可能的格式。在这种情况下,音频源7至13的空间位置通过空间3的平面视图的示意图上的符号来表示。混合阶段可以由混合人员21通过UI 16手动执行,或者全部或部分混合阶段可以自动执行。软件应用40可以使用基于混合阶段的已知的信号处理技术和算法来渲染包括空间音频的虚拟空间。
输入接口36从诸如诺基亚的OZO(RTM)设备的捕获设备6接收视频和音频数据,并且从每个音频源7-13接收音频数据。输入接口36还从捕获装置6和音频源7-13中的每个上的定位标签接收定位信号(或者从定位标签导出的定位信号),从所接收的定位信号,可以准确地确定捕获装置6和音频源7-13在现实世界空间3中的相应位置。
软件应用40可以被配置为使用预先存储的捕获数据以任何实时、接近实时地或甚至离线地操作。
图3示出了软件应用40的捕获、混合和渲染阶段的概述流程图。可以组合混合和渲染阶段。首先,在步骤3.1中执行视频和音频捕获;在步骤3.2中执行下一混合,然后在步骤3.3中渲染。混合(步骤3.2)可以取决于可以基于所捕获的视频和/或音频的各种参数的控制步骤3.4。
对于手动或自动控制步骤3.4,软件应用40可以在UI 16内提供控制器单元,以控制与音频信号和表演相关的各种参数。
可以为每个音频源提供控制器单元,以用于控制与捕获、混合和渲染过程相关的音频信号的参数。如图4a-4c所示,UI 16可以采用现实世界空间3的平面视图的形式,其用表示每个表演者或声源的符号或图像来指示音频源的位置(图1中的7至13)。例如,当混合人员21点击、触摸或以其它方式与音频源的一个或多个符号或图像交互时,控制器单元可以对混合人员可见。然后,可以在所选择的音频源的位置附近生成控制器单元。
在图4a所示的示例中,混合人员点击对应于主唱的音频源7,并且控制器单元400在UI 16中与音频源7接近或相邻地被显示。在该示例中,控制器单元400是用于控制主唱7的音量的滑杆。UI 16可以使混合人员能够确定要显示的控制器单元的类型。例如,控制器单元400可以初始地显示下拉菜单,混合人员可以从该下拉菜单中选择要控制的参数,诸如混响、延迟、音量、压缩、失真、过驱动、均衡、音高、空间位置、对话、歌词或乐句,但不限于这些示例。然后,控制器单元400随后可以生成允许混合人员控制对应参数的接口。控制器单元400可以是滑杆、旋钮、曲线图的形式、或者可以接收用以控制对应参数的用户输入的任何形式的输入接口。
虽然上面描述了控制器单元被描述为与被控制的音频源7接近或相邻地被显示,但是可以在UI 16内的任何位置处生成控制器单元400。每个控制器单元400与对应的音频源7至13的关联可以例如通过用线连接或以相似颜色示出来指示,但不限于这些示例。在图4b的示例中,当混合人员在UI 16中点击音频源7时,用于控制音频源7的音量的控制器单元400出现在混合人员21的视图的左手侧。例如,控制器400的顶部405的部分被标记为“源7”,以表示控制器单元400控制来自音频源7的音频信号。图4b还示出了替代实施例,其中连接控制器单元400和音频源7的虚线410指示控制器单元400控制来自音频源7的音频信号的参数。
替代地,控制器400可以总是可用于在UI的一个或多个部分中可见,例如,以具有旋钮和滑杆的阵列的传统声控台的形式。在这种情况下,每个控制器单元400可以被标记,使得对于混合人员显而易见的是,哪个音频源由相应的控制器单元400控制。例如,当混合人员触摸、点击或以其他方式与控制器单元阵列中的控制器单元之一交互时,UI 16中的对应音频源可以被突出显示,反之亦然。但是,实现不限于这些示例。技术人员将知道如何取决于应用根据需要来修改用户界面。
参考图4c,控制器单元400还可以包括显示部分420,显示部分420显示或可视化音频信号的音频属性,诸如音高、声音波形、频谱、或示出关于声音波形的统计的曲线图、对话的脚本或者歌词,但不限于这些示例。控制器单元400的显示部分420还可以显示或可视化相关控制参数、每个控制参数的状态、或关于音频源7至13的位置的统计。控制器单元400的显示部分420还可以显示或可视化在混合阶段之前确定的表演特性,其是目标值和标准以及可接受音频参数范围。表演特性将在稍后更详细地讨论。当显示器能够分别显示来自多个音频源的参数或属性时,这样的显示部分420中的一个可以由多个控制器单元400共享。在图4c所示的示例中,控制器单元400包括显示音频源7的音量的时间轨迹的显示部分420。显示部分420还示出了两个水平条425,其设置在表演特性中确定的可接受音量范围。当音频源7的音量落在由这两个水平条表示的范围之外时,软件应用40将检测到音频源7的音量的参数偏离表演特性的正常或可接受水平,这将在下面更详细地讨论。
在控制器单元400处输入的设置或参数可以影响音频源的捕获、混合和渲染,直到输入参数被修改,或者直到自动程序有效地改变到控制器单元400的输入值。
软件应用40可以被配置为生成用于控制一组相关联的音频源的控制器单元400。例如,参考图1,合唱团成员11至13在空间上彼此靠近并且可以在UI 16中被识别为组,例如通过拖动光标以包围包含音频源11到13的区域来选择它们,或取决于与音频源交互的方式以任何其他方式。这在混合人员21希望用相同的控制参数集合来控制多于一个音频源的情况下可以是期望的。
控制器单元400可以被配置为使得参数的调节可以被预先编程为自动化。例如,作用在音频源7至13上的低通滤波器的截止频率可以被编程为相对于正在表演的音乐节拍而改变。
音频源7至13的控制器单元400可以被配置为接受来自其他音频源7至13或视频源的输入。例如,来自一个音频源的音频信号的压缩程度可以被配置为取决于来自另一音频源的音频信号的音量,或者取决于视频信号的平均亮度。
软件应用40和UI 16的混合阶段的另一示例方面是使得混合人员21能够定义表演特性并且从定义目标表演或标准的表演特性来检测和报告来自音频源7至13的信号的偏离。表演特性可以表示对在混合阶段之前确定的一个或多个音频信号和音频信号的一个或多个参数的要求。
这些表演特性可以是以下形式:数字、数字范围、音频信号或音频源的参数的阈值、音频信号或音频源7至13应该满足的条件、用于语音到文本技术的输入的形式的对话的脚本、或者甚至排练的所捕获的音频信号。例如,表演特性可以定义以下要求:音频信号的频谱的形状不应该落入一定形状类别,诸如在窄的频率范围附近的过于尖锐的峰值,这可以表示反馈现象。表演特性可以包括混合人员对音频源7至13的参数期望的任何要求,只要它们可以被公式化为适合于软件应用40和/或操作***38的输入、命令或脚本。因此,表演特性不限于上述示例。
软件应用40或操作***38可以在UI 16内提供被配置为以输入、命令或脚本的形式接收表演特性集合的表演特性UI。表演特性可以在表演之前经由输入接口36来提供。替代地,表演特性可以使用控制器单元400来设置。表演特性可以存储在存储器32或RAM 34中。当CRS 15***作时,表演特性可以由操作***38或软件应用40来访问。操作***38或软件应用40还可以被配置为在混合阶段之前没有输入表演条件的情况下访问存储在存储器32或RAM 34中的默认表演特性集合。当混合人员21可以选择操作CRS 15以捕获、混合和渲染而不设置任何表演特性时,混合人员21也可以将表演特性的这些默认值覆盖。
CRS 15和/或软件应用40和/或操作***38可以被布置为仅当在表演特性中定义的条件针对预定的持续时间(例如100ms)不满足时触发偏离事件。这可以防止其中CRS 15对表演反应太频繁并且混合人员被不必要地分心的情况。
图5示出了由CRS 15通过软件应用40执行的处理步骤。捕获步骤5.1之后是决定所捕获的音频信号是否偏离预定的表演特性的步骤5.2。如果所捕获的音频信号没有偏离预定的表演特性,则在步骤5.4中对音频信号混合。如果所捕获的音频信号偏离预定的表演特性,则在步骤5.3中校正音频信号,并且在步骤5.4中对校正后的音频信号混合。根据混合步骤5.4,在步骤5.5中进行渲染。反馈箭头460指示可以随着时间重复步骤5.1-5.5。以下将更详细地讨论用于校正音频信号的步骤5.3。
与表演特性的偏离可以对应于各种事件,诸如从音高或调谐音阶(tuning scale)掉落,存在诸如限幅(clip)或反馈的不想要的杂散音频现象,存在背景噪声,信号丢失,音频源的位置或行为的过度波动,以及对话或歌词与脚本或排练的差异,但不限于这些示例。
参考图6a和6b,当检测到与表演特性的偏离时,软件应用40可以在UI 16中为从其检测到异常或偏离的音频源生成校正控制器单元600。类似于上述控制器单元400(其替代地被称为正常或标准控制器单元),校正控制器单元600可以在UI 16的平面视图中的靠近表示相关音频源7至13的符号或图像的位置处生成,或者校正控制器单元600可以被标记以清楚地指示其被分配用于控制哪个音频源。校正控制器单元600可以使得混合人员21能够校正由表演特性定义的音频信号的参数。
参考图6a,当标准控制器单元500和校正控制器单元600并排显示时,校正控制器单元600可以具有与标准控制器单元500相同的形式和功能,但是在外观上不同(例如通过使用不同的颜色),以区分它们。校正控制器单元600可以包括显示部分620。
再次参考图6a,当检测到与音频源7至13的偏离时,如果用于音频源的标准控制器单元500已经打开,则校正控制器单元600可以与控制器单元500接近或相邻地生成,使得它们可以并排比较。如果用于音频源的控制器单元尚未打开,则校正控制器单元600可以与标准控制器单元500同时一起生成并且与标准控制器单元500接近或相邻地生成,使得它们可以并排比较。所生成的标准控制器单元500和校正控制器单元600可以共享显示部分620,使得混合人员21的部分上的比较更直观。在调节校正控制器单元600的同时使标准控制器单元500可见可以帮助混合人员考虑在标准控制器单元500中设置的值,使得表演的不连续性或干扰被最小化。
图6a示出了其中在由软件应用40检测到与表演特性的偏离之前用于控制音频源7的音量的控制器单元500已经打开的示例。当检测到音频源7的音量的偏离时,在控制器单元500附近生成校正控制器单元600。在图6b的示例中,显示部分520和620被组合。此外,改变标准显示以在中央刻度的任一侧示出正常滑块500和校正滑块600。
校正控制器单元600可以仅在音频参数与表演特性的偏离持续的时间段期间有效。用校正控制器单元500进行的任何改变可以仅在该时段期间有效。替代地,用控制器单元500在该时段期间进行的任何改变甚至可以在该时段之后有效,直到来自混合人员的另外的输入。
校正控制器单元600可以消失,只要音频信号的参数如表演特性中定义地返回。当校正控制器单元600消失时,音频信号7至13的参数可以返回到在控制器单元500中设置的值。替代地,只要音频信号的参数在校正控制器单元600处被调节为在表演特性中定义的可接受范围或设置内,则校正控制器单元600可以改变为控制器单元500,并且音频信号的参数可以被立即传送到控制器单元500,使得混合人员可以继续调节它而不引起任何不连续性。替代地,控制器单元500可以被配置为只要参数在校正控制器单元600处被调节为在该范围内或者满足由表演特性定义的条件,则再现校正控制器单元600的行为。
替代地,当校正控制器单元600被触觉接口28控制时,校正控制器单元600可以有效直到混合人员释放触觉压力,而不管偏离持续的时间段。在偏离持续的时段内从校正控制器单元到标准控制器单元的特定模式的效果转换不限于这些示例。技术人员将能够取决于应用根据需要进行调节。
图7示出了由CRS 15通过用于图5的步骤5.3的软件应用40执行的用校正控制器单元进行校正的详细处理步骤。当在步骤5.2中检测到偏离时,可以通过参考在步骤7.1中在表演特性中指定的具体参数来确定偏离类型。如果表演特性容易量化,诸如数字范围,则也可以在步骤7.1中确定偏离程度。在步骤7.2中,软件应用40可以确定校正控制器单元600的适当形式,其包含用以校正在步骤7.1中确定的所指示的一个或多个参数的必要部件。然后在步骤7.3中,软件应用40确定所确定的音频源在UI 16的平面视图中的位置。在步骤7.4中,软件应用40可以在UI 16中与音频源的位置接近或相邻地生成校正控制器单元600。
取决于该设置,在步骤7.4中,软件应用40可以首先仅采取措施以通过放大音频源、使音频源闪烁或与音频源接近或相邻地显示标志来吸引混合人员的注意,并且在生成校正控制器单元之前等待混合人员响应,如下所述。
至此描述的一些示例性实施例涉及当检测到与表演特性的偏离时生成校正控制器单元600的情况。替代地,在检测到偏离的情况下,操作***38或软件应用40可以修改UI16以引起混合人员的注意,而不立即生成校正控制器单元600。UI 16可以放大在UI 16的平面视图中的对应音频源7至13中的一个或多个音频源的符号或图像周围的区域。替代地,在生成校正控制器单元时,可以引起对应音频源7至13中的一个或多个音频源的符号或图像闪烁。替代地,在生成校正控制器单元时,可以与对应音频源中的一个或多个音频源的符号或图像接近地示出指示符。在音频参数的种类容易地通过诸如音频源的音量的数字可量化的情况下,UI可以指示异常程度。例如,用以突出显示具有偏离的音频源的感叹号的大小可以与偏离程度成正比。
图8a示出了其中当在音频源7中检测到偏离时UI 16放大音频源7的示例。在图8b中,与音频源7接近地示出感叹号810以指示偏离期望的表演特性的音频源7的一个或多个参数。在图8c中,与音频源7的符号或图像接近或相邻地显示符号或图像的虚图像820以指示相同的情况。
混合人员随后可以触摸、点击或以其它方式与被指示为具有偏离的音频源7至13的符号或图像交互,以生成如图6所示的校正控制器单元600。该实施例可以在从两个或更多个音频源同时检测到偏离时辅助混合人员,在这种情况下,多个校正控制器单元600和/或控制器单元400可以挤满UI 16的平面视图。当多于一个音频源被指示为经历偏离时,混合人员可以选择性地生成对应于所期望的音频源7至13的校正控制器单元以进行工作。稍后将更详细地讨论检测到多个偏离或异常事件的情况。
替代地,在UI 16关于偏离事件提醒混合人员之后的预定时段之后,操作***38或软件应用40可以被配置为:如果混合人员针对预定时间段没有响应,则生成校正控制器单元。
在下面的描述中,提供了偏离事件和CRS 15的对应操作的一些示例。
例如,在表演特性中,对于音符A,表演的目标音高可以被设置为恰好440Hz。然而,在由乐队首席或乐队指挥进行表演的情况下,可以设定略高或者略低的音高。在这种情况下,音阶的整体乐律变化。当表演者引入过多的震音或颤音时,音高的偏离也可能出现。混合人员可以在表演特性中定义可接受音高范围,例如对于音符A,在440Hz左右的+-2Hz。当在表演期间检测到音频源7的音阶和音符落在该范围之外时,通知混合人员关于偏离预定范围(“7”和“音高”)的音频源和音频参数,或者操作***38可以在表示音频源的符号或图像附近生成校正控制器单元使得混合人员可以校正音频源7的音高。
图9示出了该示例。只要从音频源7检测到音高的偏离,则与音频源7相邻地生成校正控制器单元900。校正控制器单元900可以被定制用于音高校正,并且可以包括示出偏离程度的显示部分920。校正控制器单元900可以与标准控制器单元800一起生成用于比较。对于所捕获的音频信号被混合而不进行音高校正的情况,例如在控制器单元800处将音高校正设置为0。显示部分920可以示出A音符的音高偏离例如+3Hz,其超过在表演特性中限定的范围。然后,混合人员21可以通过调节校正控制器单元900来选择偏移该值。如上所述,校正控制器单元900也可以被自动化,以在检测到偏离时或当偏离针对预定时间段持续时执行该任务。替代地,校正控制器单元900还可以被配置为等待混合人员关于是否应当执行预编程的校正任务的决定。
类似地,每个音频源的音量级别范围或每个音频源的音频信号是否被限幅或失真也可以被设置为表演特性。在这种情况下,校正控制器单元可被定制成具有声音压缩器、扩展器或限制器的元件。
表演特性可以被定义为频率空间中的音频频谱的形状。当音频信号在窄频率范围内具有过大幅度时,这可以作为反馈源向混合人员提醒,并且使用校正控制器单元来抑制。当在已知对应于不想要的噪声源的频带的预定频带内检测到信号时,可以用校正控制器单元监测和抑制信号。在这种情况下,校正控制器单元可以具有低通滤波器、高通滤波器和带通滤波器的形式。校正控制器单元的显示部分可以具有频谱分析器的形式。
图10示出了校正与关于音频频谱定义的表演特性的偏离的示例。可以针对在预定频率范围内的信号的存在来定义表演特性。混合人员21可以已知预定频率范围是有问题的范围,其中由于硬件、场地结构等问题而可能出现啸声、反馈或任何其它不想要的噪声信号。例如,当贝斯手的音频信号的频率范围已知为大约500Hz时,主唱为2KHz和吉他手为5KHz,并且在表演之前预先知道在大约1.1KHz可能出现啸声,则可以定义表演特性,使得例如当检测到来自1.1KHz±100Hz的范围的信号比来自任何音频源的音频信号强-5dB时,偏离事件将被触发并且校正控制器1000被生成。当生成校正控制器1000时,校正控制器1000的显示部分1020显示用感叹号1005指示有问题的信号1010的频谱。校正控制器1000可以由混合人员21用例如对应于陷波滤波器的不同带宽和深度的几个选项1030、1040、1050进行预编程。混合人员21可以根据有问题的信号1010的严重性来选择这些选项之一。
软件应用40的混合阶段的另一示例方面是响应于在所捕获的真实世界空间3中检测到的移动来控制音频源如何在渲染的虚拟空间中移动或改变位置。在这方面,在捕获期间有时是音频源移动的情况。例如,在图1的情况下,音频源7-13中的任何一个可以随着时间移动,因此它们相对于捕获设备6以及相对于彼此的相应音频位置将随着时间移动。通常,用户可能习惯于音频源通常在中心的静态源。当音频源移动时,渲染的结果可能是压倒性的和分心的。因此,由HAIP标签读取的每个音频源的可接受移动范围可以被包括在表演特性中。
对于另一示例,可以在排练期间记录表演者的位置,并且可以基于该记录在表演特性中定义定义音频源的可接受移动范围的表演特性。在现场事件期间,可以监测表演者的位置,并且如果存在偏离,则可以生成校正控制器单元。使用校正控制器单元,例如,混合人员21可以使从表演特性偏离的音频源静音。替代地,使用校正控制器单元的混合人员可以在偏离事件持续的同时控制声音的位置或方向性。例如,在偏离事件持续的同时,通过去除方向性可以使声音变为环境(ambient)。
图11a示出了该示例。在表演特性中,可以定义每个音频源7至9的可接受移动区域。可以使可接受移动区域在UI 16中可见作为区域1110。如果与主唱相对应的音频源7偏离在表演特性中定义的该区域,则与音频源7接近地生成校正控制器单元1100。校正控制器单元的显示部分1120示出音频源7相对于在表演特性中定义的音频源7的可接受移动区域的位置。混合人员21可以通过点击第一区域1130来选择使音频源7静音,或者通过点击第二区域1140来从音频源7的音频信号中去除方向性,使得收听者将其感知为环境。
对于另一示例,可以关于音频源7至13的检测位置中的波动或噪声程度来定义表演特性。音频源的检测位置的波动或噪声可以源于每个表演者的实际移动、HAIP标签与HAIP***20之间的通信的缺陷、或HAIP***20的处理内的意外错误,但不限于这些示例。当音频源7至13的位置以过大的噪声或波动程度移动时,所渲染的结果可能对于收听者是压倒性的和分心的。可以通过在混合和渲染过程之前处理每个音频源7至13的位置来改善收听体验。
将介绍如何在表演特性中定义检测位置中的波动或噪声程度的两个示例。
在音频源的移动预期包括一系列离散移动的情况下,可以通过例如定义具有最小半径的特性区域、在该特性区域内的最小停留时间段和移动的阈值出现频率来定义表演特性。图11b描述了这种情况的示例。在表演特性中,音频源7的特性区域1150可以被定义为具有例如1米半径的圆。当音频源7远离初始特性区域时,可以在新的位置定义新的特性区域1151。在特性区域中的最小停留时间段可以被定义为例如1s。阈值出现频率可以被定义为例如在10秒内的3次移动,高于其则确定偏离。图11b描述了音频源7以例如10秒内5次的频率将位置改变大于特性区域1150的半径而在每个特性区域中不停留超过1秒的情况(1150至1155)。由于这超过了在表演特性中定义的阈值频率,所以可以由软件应用40生成校正控制器1160。校正控制器1160的显示部分1170可以显示在最近10秒内的音频源7的位置轨迹。
在音频源的移动预期在时间上连续的情况下,可以关于在一定时间段内检测和累积的位置的分布中的统计来定义表演特性。如图11b所示,可以显示显示部分1171和1172作为显示部分1170的替代。显示部分1171和1172分别显示在由混合人员21预定的时间间隔(例如10秒)内累积的音频源7的位置的分布1174和1175。这些位置分布1174和1175可以每隔预定时间间隔刷新,或者替代地以比预定时间间隔更短或更长的时间间隔刷新。软件应用40可以被配置为评估位置分布1174和1175的统计。例如,音频源7的位置的波动可以被混合人员21假定为是随机的,并且高斯分布可以由软件应用40使用以拟合位置分布1174和1175。在这种情况下设置音频源7的位置的噪声或波动的阈值的表演特性可以被定义为这些分布的最大允许宽度。当拟合的高斯分布中的一个的宽度超过某个阈值时,该事件可以被软件应用40检测为异常或偏离。
当关于任何音频源的位置中的波动或噪声检测到偏离时,可以生成校正控制器1160。
混合人员21可以点击、触摸或以其他方式与按钮1180交互以平滑音频源7的移动。平滑功能1180可以是音频源7的位置的时间平均。例如,过去的3秒的轨迹的平均位置可以由软件应用40评估,并且为了混合和渲染的目的,音频源7的位置可以被指定为该平均位置。这样,收听者将觉得音频源7的位置更稳定。在后期制作的情况下,混合人员21可以决定特定音频源的位置可以被时间平均的时间间隔。在现场表演的情况下,平滑功能1180可以针对由混合人21预定的持续时间持续,或者在经由触觉接口控制校正控制器1160的情况下,平滑功能1180可以持续,只要混合人员21保持触摸。关于平滑功能1180的持续时间的实现不限于这些示例。
替代地,平滑功能1180可以从拟合的分布曲线1176和1177来评估音频源7的时间平均位置。例如,拟合的分布曲线1176和1177的平均值可以被定义为音频源7的时间平均位置。然而,平滑功能1180的确切算法可以不限于时间平均或使用位置分布的拟合曲线。
替代平滑功能1180,混合人员21可以选择点击、触摸或以其他方式与位置固定功能1190交互。例如,该选项可以在显示部分1170内提供位置固定UI 1191,如图11b所示。位置固定UI 1191可以使得用户能够在UI 16的平面视图内指定音频源7的特定位置,其可以用于混合和渲染过程。例如,这可以通过将位置固定UI 1191拖动到期望的位置来完成。在示出位置分布的显示部分1171和1172中,可以提供位置固定UI 1192和1193作为标记来指定音频源7的期望位置。例如,标记1192、1193可以是用于指示期望位置的可拖动的线。
当来自附接到音频源中的相应音频源的给定HAIP标签的检测信号太弱而无法确定其位置时,也可能在音频源7至13的位置方面出现偏离或异常。表演特性可以定义HAIP标签的信号幅度的最小阈值。在这样的偏离的情况下,可以生成校正控制器以给予混合人员21合适的选项,诸如使声音为环境,或者在UI 16的平面视图中规定期望位置。
软件应用40的混合阶段的另一示例方面是控制音频源7至13中的一个或多个,使得当音频信号的某个时间间隔偏离表演特性时,备用音频信号可以“开始工作(punchin)”。换言之,混合人员21可以使偏离表演特性的音频信号切换出,同时使预先存储的替代音频信号切换入到针对音频源的声道中用于混合。在音频源的参数是人的对话或歌曲的歌词的情况下,表演特性可以是从排练中捕获的音频信号、或机器可读形式的脚本,例如与语音到文本技术兼容。也可以定义表演特性,使得所接收的音频信号的预定间隔可以与在表演特性中定义的预先存储的音频源中的对应时间间隔相比较。当确定音频源的所捕获的音频信号偏离表演特性时,生成校正控制器。校正控制器可以包括从表演特***叉切换所捕获的音频信号和所存储的音频信号的控制元件。校正控制器还可以包括与排练音频信号或脚本中的检测到的对话或单词相比较地显示所捕获的音频信号中的歌曲的检测到的对话或单词的显示部分。在感兴趣的音频源的参数是没有单词或歌词的音乐表演的情况下,音乐表演的波形可以被示出在校正控制器的显示部分中。
图12示出了该方面的示例。语音到文本技术功能可以装备在软件应用40中,并且从来自主唱的所捕获的音频源分析的文本是“Good morning Helsingborg!(早上好,赫尔辛堡!)”,而脚本中的行是“Good morning Helsinki!(早上好,赫尔辛基!)”。如果通过主唱的对话的脚本已经定义了表演特性,并且由软件应用40检测到两个文本之间的差异,在这种情况下是“Helsingborg(赫尔辛堡)”和“Helsinki(赫尔辛基)”,则软件应用40可以生成校正控制器1200。显示部分1220可以显示从音频信号识别的文本和来自脚本的文本。混合人员21可以通过点击、触摸或以其他方式与界面1210交互来简单地选择用例如在排练期间根据脚本表演的预先存储的音频源来替换该音频信号的间隔。接口1210可以被配置有交换音频源的两个剪辑的预先存储的设置,诸如交叉切换的时间常数以及最小和最大音量的比率,但不限于这些属性。替代地,混合人员21可以使用第一滑杆1220和第二滑杆1230用于分别控制所捕获的音频信号和预先存储的音频信号用于交叉切换。两个滑杆1225、1230可以在预定的设置中彼此耦合,使得混合人员21可以仅调节两个滑杆中的一个用于交叉切换操作。例如,可以设置两个滑杆的音量的总和是守恒的。当第一滑杆1225增加时,第二滑杆1230可以响应于第一滑杆1225而减小。当混合人员21正在进行所捕获的音频源的后期制作时,使用两个滑杆工作可以在以最小不连续***换音频剪辑时是有用的。在其中混合人员21具有很少时间作出反应的现场表演的情况下,界面1210可以被自动执行。
基于来自根据脚本的表演的预先存储的音频信号,例如在排练期间记录的音频信号,软件应用40可以被配置为预测偏离或异常事件,或者在现场表演期间预先生成校正控制器。例如,在排练期间,可以发现HAIP标签信号为在舞台上距HAIP***20最远的鼓手的音频源8提供错误的噪声信号。软件应用40可以被配置为预测可能的偏离和混合人员21关于是否在实时表演之前与音频源8接近地生成校正控制器(例如,图11b的1160)的询问。对于另一示例,如果在排练期间,和声歌手11、12、13之一在歌曲的某个乐句处唱歌偏离了音高,则软件应用40可以被配置为当现场表演接近歌曲的乐句时用消息UI或者通过预先生成校正控制器来提醒混合人员21。
至此描述的实施例主要涉及一个音频源内的单个偏离或异常事件。然而,在现场表演或记录的表演的后期处理期间,混合人员21可能必须处理多个偏离或异常事件。例如,同时地在对应于主唱的音频源7处,可能出现音高偏离,如图9所示,可能出现由HAIP标签检测到的位置偏离,如图11a所示,以及可能出现与排练的脚本的单词的偏离,如图12所示。同时,和声歌手11之一的音量水平可能低于在表演特性中定义的阈值,并且可能会在主吉他手9的声道中检测到反馈现象。在这种情况下,混合人员21可能必须对任务划分优先级,特别是在现场表演的情况下。
软件应用40可以被配置为使得混合人员21可以定义优先级特性,其定义偏离事件被通知以及校正控制器的生成的详细优先级顺序。以下将详细说明软件应用40的这一方面。
在优先级特性中,混合人员21可以能够在混合阶段之前为属于音频源7至13中的相应音频源的每个音频参数分配优先级的等级。在图13a所示的示例中,作为音高、位置和脚本的属于主唱的所有音频参数可以由混合人员21设置为具有比被考虑的其他音频参数(诸如和声歌手11的音量水平)更高的优先级。在属于主唱的音频参数中,可以将音高的优先级设置为最高,并且可以将针对位置和脚本的优先级设置为相同但低于例如音高的优先级。主吉他手9的所有音频参数的优先级可以被设置为低于所有其它音频源的音频参数的优先级。一些音频参数可以被设置为通常是高优先级。例如,可以将检测到反馈信号的偏离事件设置为在所有音频源中具有同等最高的优先级。与表演特性一样,可以使用由软件应用40或操作***38提供的优先级特性UI来设置优先级特性。优先级特性UI可以被配置为作为根据预定的数字标度从混合人员21输入的数字来接收音频源7至13中的相应音频源的每个音频参数的优先级顺序,或者接收由混合人员21按照期望顺序对表示每个音频参数的优先级特性UI内的符号或图像形式的子UI的重新排列。然而,优先级特性UI的确切格式不限于这些示例。
替代地,可以使用属于每个音频源的正常或标准控制器单元来设置优先级特性。
可以为表演的每个个体部分(诸如歌曲、电影或音乐会的部分)定义单独的优先级特性。例如,具有主导角色的音频源可能针对表演的每个部分而变化,诸如主唱、主乐器或主演。这些主导音频源可以被定义为在优先级特性中比其他音频源具有更高的优先级。在后处理情况下,软件应用40可以被配置为确定在给定的时间点中的主导音频源,并且将它们建议为优先级特性UI中对混合人员21的默认选项。
在存在来自多于一个音频源的相同音频参数的多个偏离事件的情况下,可以配置优先级特性UI,使得偏离程度被自动地反映在优先级顺序中。例如,如果和声歌手11和13中两个都唱歌偏离了音高,则如果由混合人员21为两个声道设定的优先顺序否则相同,则比另一和声歌手唱歌更多偏离音高的和声歌手可以被设置为具有较高优先级。
与表演特性一样,优先级特性可以存储在存储器32或RAM 34中,并且当CRS 15***作时可以由操作***38或软件应用40访问。操作***38或软件应用40还可以被配置为在混合阶段之前没有优先级顺序信息被输入的情况下访问存储在存储器32或RAM 34中的默认优先级特性集合。
图13a示出了在检测到多个偏离事件的情况下的偏离通知UI1300的示例。由于任何音频源声道中的反馈信号的偏离事件的优先级被设置为最高优先级,所以在主吉他手9的声道中检测到的反馈信号位于偏离通知UI 1300的最高处。然后从主唱7检测到的偏离通过比位置和脚本优先的音高来列出。然后,在偏离通知UI 1300中列出从和声歌手11之一检测到的偏离事件。从偏离通知UI 1300看,混合人员21可以能够按照偏离事件列表的顺序来对任务进行优先级排序。
图13b示出了偏离通知UI的替代实施例的示例。偏离通知UI1310仅示出了在优先级特性中优先级最高的主吉他手9的音频声道中的反馈现象。在主唱7和和声歌手11附近,分别生成感叹号1320和1330,以指示在音频源7和11中存在偏离事件。主唱7附近的感叹号大于和声歌手11的感叹号以指示音频源7的偏离事件的优先级高于音频源11的偏离事件的优先级。如果两个声道中的优先级分配相同,则感叹号的大小或以上在图8中提及的任何其他指示符可以表示偏离程度,例如在任何给定的音频源的偏离类型相同的情况下的偏离事件的数目或偏离程度。
软件应用40可以生成对应于具有最高优先级的偏离事件的音频源9的偏离通知UI1310。然而,在任何时间点,混合人员21可以点击、触摸或以其他方式与音频源7附近的其它音频源的符号或图像或感叹号或任何指示符交互以生成另一偏离通知UI,其示出对所选择的音频源的偏离事件的细节。替代地,软件应用40可以被配置为使得当在偏离通知UI中显示的偏离事件不再持续时,在偏离通知UI中显示按照优先级顺序的下一偏离事件。
根据在优先级特性中定义的顺序显示偏离事件的实现不限于这些示例。技术人员将知道如何取决于应用来配置软件应用40,使得混合人员21可以以有效的方式应对多个偏离事件。
图14a和14b示出了在多个偏离事件同时出现的情况下生成校正控制器的示例实施例。软件应用40可以被配置为自动生成与最高优先级的偏离事件相对应的校正控制器。替代地,软件应用40可以被配置为当混合人员21触摸、点击或以其他方式与偏离通知UI中显示的偏离事件的条目之一交互时生成校正控制器。
图14a示出了如下情况:其中用于反馈信号的校正控制器1400自动显示或由混合人员21与显示在偏离通知UI 1410中的第一偏离事件(源9中的反馈)交互来显示。校正控制器1400可以被配置为只要偏离事件被去除则消失,或者可以被配置为仅在混合人员21的命令(例如,触摸、点击或以其他方式与关闭图标1405交互)下消失。
对应于在偏离通知UI 1410中显示的下一偏离事件的校正控制器可以被配置为在校正控制器1400之后自动出现。替代地,对应于在偏离通知UI 1410中显示的下一偏离事件的校正控制器可以被配置为仅在混合人员21触摸、点击或以其他方式与偏离通知UI 1410中显示的偏离事件的条目之一交互时出现。
图14b示出了其中关于反馈信号的偏离事件被校正的情况。在该示例中,对应于音高、位置和脚本的校正控制器1420、1430、1440分别可以同时出现。校正控制器1420、1430、1440可以在反馈信号被校正时或当混合人员触摸、点击或以其它方式与音频源7的偏离事件交互时自动出现。软件应用40可以被配置为使得对应于相同音频源的所有校正控制器(在该示例中为音频源7)可以同时出现。这在可能需要同时操纵多个音频参数的情况下可能是有用的。例如,更改音频源的一个音频参数可能影响同一音频源的其他音频参数。
替代地,对应于偏离通知UI 1410中显示的偏离事件中的相应偏离事件的所有校正控制器可以被配置为同时出现。
在任何时间点,混合人员21可以触摸、点击或以其他方式与任何音频源交互,以在存在与音频源相关联的偏离事件的情况下生成标准控制器或校正控制器。例如,在和声歌手11或音频源11的符号或图像附近的指示符1430本身可以被混合人员21触摸、点击或以其他方式与混合人员21交互,以生成对应于和声歌手的音高的校正控制器,即使没有处理较高优先级的偏离事件。
校正控制器1400、1420、1430、1440可以使得混合人员21能够手动地校正偏离或异常情况。替代地,校正控制器可以是自动的。在优先级特性中,混合人员21可以指定可以由对应的校正控制器自动校正的音频参数。例如,可以对具有低优先级的音频参数或小于预定偏移的偏离程度设置自动校正。例如,在所有音频源中,当与表演特性的音高偏离小于0.5Hz时,可以在个体校正控制器或者优先级特性中指定以自动校正音高。当音高偏离大于0.5Hz时,可以向混合人员21提醒偏离事件。对于另一示例,具有低优先级的所有音频参数(例如对应于低音吉他手的音频源10的所有音频参数)可以在优先级特性中被定义为自动校正而不通知混合人员21。
关于在偏离通知UI中以优先级顺序显示的偏离事件生成校正控制器的序列、布局或方法不限于上述示例。技术人员将知道取决于具体应用来配置软件应用40,使得混合人员21可以以有效的方式应对多个偏离事件。
应当理解,上述实施例纯粹是说明性的,而不限制范围。在阅读本申请之后,其他变型和修改对于本领域技术人员将是显而易见的。
此外,本申请的公开应当被理解为包括本文中明确地或隐含地公开的任何新颖特征或特征的任何新颖组合或其任何一般化,以及在本申请或由此导出的任何应用的申请期间,新的权利要求可以被制定以涵盖任何这样的特征和/或这样的特征的组合。
本文中描述的实施例可以用软件、硬件、应用逻辑、或者软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。应用逻辑、软件或指令集可以保持在各种传统计算机可读介质中的任何一个上。在本文档的上下文中,“存储器”或“计算机可读介质”可以是可以包含、存储、通信、传播或传送指令以由指令执行***、装置或设备(诸如计算机)使用或与指令执行***、装置或设备(诸如计算机)结合使用的任何介质或手段。
应当理解,对“计算机可读存储介质”/“计算机程序产品”和“控制器”/“处理器”/“处理装置”的引用不仅包括具有不同架构(诸如单/多处理器架构和串行/并行架构)的计算机,还应当包括专业电路,诸如现场可编程门阵列FPGA、专用电路ASIC、信号处理设备和其他设备。

Claims (15)

1.一种用于控制音频信号参数的方法,包括:
检测与音频源相关的参数;
确定所述参数是否偏离预定特性;以及
响应于确定所述参数偏离所述预定特性,引起被配置为控制所述参数的用户界面的显示。
2.根据权利要求1所述的方法,其中引起所述音频源的空间位置被显示在显示器上,所述方法还包括引起所述用户界面在所述显示器上与所述音频源相关联的显示。
3.根据权利要求1或2所述的方法,其中确定所述参数是否偏离所述预定特性包括确定与所述参数相关联的水平是否落在预定范围之外。
4.根据权利要求1或2所述的方法,其中确定所述参数是否偏离所述预定特性包括确定与所述音频源相关联的不想要的信号的存在,所述不想要的信号落在与所述参数相关联的所述预定范围之外,或者
其中确定所述参数是否偏离所述预定特性包括确定在与所捕获的音频信号相对应的文本和预定脚本之间是否检测到差异,或者
其中确定所述参数是否偏离所述预定特性包括确定在所述所捕获的音频信号和与预定脚本相对应的音频信号之间是否检测到差异。
5.根据权利要求1或2所述的方法,其中所述用户界面包括具有第一部分和第二部分的控制界面,所述第一部分包括用于控制期望参数水平的第一控制元件,并且所述第二部分包括用于在所述参数偏离所述预定特性时控制所述参数的第二控制元件。
6.根据权利要求5所述的方法,包括响应于接收到指示在显示所述音频源的屏幕上的用户交互的信号来引起所述第一控制元件的显示,以及仅响应于所述参数偏离所述预定特性来引起所述第二控制元件的显示。
7.根据权利要求1或2所述的方法,还包括引起与所述音频源相邻的指示符的显示,所述指示符被布置为指示与所述音频源相关的所述参数偏离所述预定特性,所述方法可选地还包括取决于所述偏离的量来改变所述指示符的大小。
8.根据权利要求1或2所述的方法,还包括:
响应于确定所述参数偏离所述预定特性,确定偏离的类型;以及
生成与所确定的偏离类型相对应的用户界面。
9.根据权利要求1或2所述的方法,还包括:
响应于确定所述音频源的位置偏离预定位置范围,
生成被布置为控制所述音频源的控制器,并且可选地其中控制所述音频源包括以下之一:使所述音频源静音以及去除所述音频源的方向性。
10.根据权利要求1或2所述的方法,包括确定所述音频源的移动在预定时间段内是否落在许可的移动范围之外。
11.根据权利要求1或2所述的方法,还包括:
响应于确定所述参数偏离所述预定特性,确定所述音频源的空间位置;以及
生成在所述显示器内与所述音频源的所确定的所述空间位置相邻的所述用户界面。
12.根据权利要求1或2所述的方法,包括:
检测与一个或多个音频源相关的多个参数;以及
确定是否所述多个参数中的多于一个参数偏离预定特性;以及
响应于确定所述多个参数中的多于一个参数偏离所述预定特性,引起所述参数按照预定优先级顺序被显示。
13.根据权利要求1或2所述的方法,还包括将预先记录的音频信号与所接收的信号相比较,并且响应于所述预先记录的信号与所述所接收的信号之间的偏离,引起与所述偏离相关的通知和/或引起所述用户界面的显示用于使得所述所接收的信号能够用所述预先记录的信号替换。
14.一种用于控制音频信号参数的装置,被配置为执行根据前述权利要求中的任一项所述的方法。
15.一种被嵌入有指令的计算机可读存储介质,所述指令在由计算机装置执行时控制所述计算机装置执行根据权利要求1到13中的任一项所述的方法。
CN201710518110.0A 2016-06-30 2017-06-29 控制音频信号参数 Active CN107562402B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16177185.2A EP3264734B1 (en) 2016-06-30 2016-06-30 Controlling audio signal parameters
EP16177185.2 2016-06-30

Publications (2)

Publication Number Publication Date
CN107562402A true CN107562402A (zh) 2018-01-09
CN107562402B CN107562402B (zh) 2020-12-11

Family

ID=56360204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710518110.0A Active CN107562402B (zh) 2016-06-30 2017-06-29 控制音频信号参数

Country Status (3)

Country Link
US (1) US10129683B2 (zh)
EP (1) EP3264734B1 (zh)
CN (1) CN107562402B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698637A (zh) * 2019-03-13 2020-09-22 诺基亚技术有限公司 设备外部位置处的可听干扰

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
GB2592610A (en) * 2020-03-03 2021-09-08 Nokia Technologies Oy Apparatus, methods and computer programs for enabling reproduction of spatial audio signals

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101176382A (zh) * 2005-05-17 2008-05-07 西门子技术至商业中心有限责任公司 创建个人化声音区的***和方法
US20090098860A1 (en) * 2007-10-15 2009-04-16 Verizon Data Services Inc. Method and system of providing navigation service with directory assistance
CN102088911A (zh) * 2008-06-17 2011-06-08 皇家飞利浦电子股份有限公司 利用声音分类器和麦克风的声学患者监测
WO2013144417A1 (en) * 2012-03-29 2013-10-03 Nokia Corporation A method, an apparatus and a computer program for modification of a composite audio signal
CN103414988A (zh) * 2013-05-21 2013-11-27 杭州联汇数字科技有限公司 一种室内扩声录音设备及语音追踪调整方法
CN103546109A (zh) * 2012-07-09 2014-01-29 鸿富锦精密工业(深圳)有限公司 远程多方会议音量调整***及方法
US20140189510A1 (en) * 2012-12-29 2014-07-03 Nokia Corporation Method and apparatus for generating audio information
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
CN105247892A (zh) * 2013-05-31 2016-01-13 弗兰霍菲尔运输应用研究公司 用于空间选择性音频播放的设备和方法
CN105264915A (zh) * 2013-05-24 2016-01-20 弗兰霍菲尔运输应用研究公司 混合控制台、音频信号发生器、用于提供音频信号的方法和计算机程序

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149173A1 (en) * 2013-11-26 2015-05-28 Microsoft Corporation Controlling Voice Composition in a Conference
US9344821B2 (en) * 2014-03-21 2016-05-17 International Business Machines Corporation Dynamically providing to a person feedback pertaining to utterances spoken or sung by the person
US9785323B2 (en) * 2014-07-23 2017-10-10 Adobe Systems Incorporated Touch-based user interface control tiles

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101176382A (zh) * 2005-05-17 2008-05-07 西门子技术至商业中心有限责任公司 创建个人化声音区的***和方法
US20090098860A1 (en) * 2007-10-15 2009-04-16 Verizon Data Services Inc. Method and system of providing navigation service with directory assistance
CN102088911A (zh) * 2008-06-17 2011-06-08 皇家飞利浦电子股份有限公司 利用声音分类器和麦克风的声学患者监测
WO2013144417A1 (en) * 2012-03-29 2013-10-03 Nokia Corporation A method, an apparatus and a computer program for modification of a composite audio signal
CN103546109A (zh) * 2012-07-09 2014-01-29 鸿富锦精密工业(深圳)有限公司 远程多方会议音量调整***及方法
US20140189510A1 (en) * 2012-12-29 2014-07-03 Nokia Corporation Method and apparatus for generating audio information
CN103414988A (zh) * 2013-05-21 2013-11-27 杭州联汇数字科技有限公司 一种室内扩声录音设备及语音追踪调整方法
CN105264915A (zh) * 2013-05-24 2016-01-20 弗兰霍菲尔运输应用研究公司 混合控制台、音频信号发生器、用于提供音频信号的方法和计算机程序
CN105247892A (zh) * 2013-05-31 2016-01-13 弗兰霍菲尔运输应用研究公司 用于空间选择性音频播放的设备和方法
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698637A (zh) * 2019-03-13 2020-09-22 诺基亚技术有限公司 设备外部位置处的可听干扰

Also Published As

Publication number Publication date
EP3264734A1 (en) 2018-01-03
CN107562402B (zh) 2020-12-11
EP3264734B1 (en) 2022-03-02
US20180007491A1 (en) 2018-01-04
US10129683B2 (en) 2018-11-13

Similar Documents

Publication Publication Date Title
US10514885B2 (en) Apparatus and method for controlling audio mixing in virtual reality environments
US9064480B2 (en) Methods and systems for an object-oriented arrangement of musical ideas
US10062367B1 (en) Vocal effects control system
US9190042B2 (en) Systems and methods for musical sonification and visualization of data
US10200805B2 (en) Changing spatial audio fields
US11604922B2 (en) System for generating an output file
CN107562402A (zh) 控制音频信号参数
US9877129B2 (en) Device and method for playing sound
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
JP5887941B2 (ja) フェーダを備える電子機器
EP3255905A1 (en) Distributed audio mixing
EP3255904A1 (en) Distributed audio mixing
JP5194985B2 (ja) 制御装置
US11086586B1 (en) Apparatuses and methodologies relating to the generation and selective synchronized display of musical and graphic information on one or more devices capable of displaying musical and graphic information
EP2924898B1 (en) Signal processing device and computer program for signal processing
US10448186B2 (en) Distributed audio mixing
JP5035090B2 (ja) 制御装置
JP2016174225A (ja) 表示制御装置及びミキシングコンソール
JP2014041680A (ja) マルチトラックレコーダ
JP6784588B2 (ja) 楽譜表示・演奏プログラム
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
US20170330544A1 (en) Method and system for creating an audio composition
US20210375244A1 (en) Apparatus and methods for generating music
US20190021153A1 (en) Lighting control device, lighting control method and lighting control program
CN107391075A (zh) 音频信号处理装置及程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant