CN117043851A

CN117043851A - 电子设备、方法和计算机程序

Info

Publication number: CN117043851A
Application number: CN202280022435.9A
Authority: CN
Inventors: 斯特凡·乌利希; 乔治·法布罗; 迈克尔·埃嫩克尔; 光藤祐基
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-03-26
Filing date: 2022-03-15
Publication date: 2023-11-10
Also published as: WO2022200136A1; JP2024512493A

Abstract

一种电子设备，包括电路，所述电路被配置为根据现场模式处理(17)来处理伴奏信号(s_acc(n))以获得增强伴奏信号(s_acc*(n))。

Description

电子设备、方法和计算机程序

技术领域

本公开内容总体上涉及音频处理领域，并且具体地，涉及使得用户能够随着歌曲唱歌的用于卡拉OK(Karaoke)的设备、方法和计算机程序。

背景技术

在卡拉OK设备中，再现歌曲的演唱部分之外的伴奏音乐，并且歌手与再现的伴奏音乐一起唱歌。为了向歌手告知歌词，歌词被显示在诸如监视器的显示设备上。卡拉OK设备通常包括用于回放伴奏音乐的音乐播放器、用于连接捕获歌手的声音的麦克风的一个或多个麦克风输入、用于改变所播放音乐的音高以使伴奏音乐的音高范围适应歌手的音域的手段、以及用于输出伴奏音乐和捕获的声音的音频输出。

尽管通常存在用于卡拉OK设备的技术，但是希望改善卡拉OK设置中的用户体验。

发明内容

根据第一方面，本公开提供了一种电子设备，该电子设备包括电路，该电路被配置为根据现场模式处理来处理伴奏信号，以获得增强伴奏信号。

根据第二方面，本公开提供了一种根据现场模式处理来处理伴奏信号，以获得增强伴奏信号的方法。

在从属权利要求、下面的描述和附图中阐述了进一步的方面。

附图说明

参考附图通过示例的方式说明实施方式，其中：

图1示意性地示出了“现场模式”处理的目标；

图2示意性地示出了具有现场模式处理的卡拉OK***的示例；

图3示意性地示出了通过盲源分离(BSS)进行音频向上混音/重新混音的一般方法；

图4示意性地示出了现场模式处理的实施方式(图2中的17)；

图5示意性地示出了现场模式处理的替代实施方式(图2中的17)；

图6示意性地示出了人群歌唱模拟的处理的实施方式(图4和图5中的41)；

图7示意性地示出了人群歌唱模拟的处理的第二实施方式(图4和图5中的41)；

图8示意性地示出了现场音效处理的实施方式(图4和图5中的42)；

图9示意性地示出了麦克风串音模拟82的实施方式；

图10示意性地示出了抖动模拟83的实施方式；

图11a示意性地示出了均衡器83的第一实施方式；

图11b示意性地示出了均衡器83的第二实施方式；

图12a示出了样本数据库46的第一实施方式；

图12b示出了样本数据库46的第二实施方式；

图13示意性地示出了主要环境提取(PAE)的实施方式(图4中的43)；

图14示意性地示出了谐波打击源分离(HPSS)的实施方式(图4中的48)；

图15示意性地示出了其中房间模拟器44通过环绕混响实现的实施方式；

图16示出了使用双耳渲染技术的渲染器45的实施方式；

图17示出了基于2至5声道向上混音的渲染器的实施方式；

图18示意性地示出了扩展的现场音效处理的实施方式(图4和图5中的42)；以及

图19示意性地示出了通过图18中的3D音频渲染器89执行的处理的示例；

图20提供了基于数字化单极子合成算法的3D音频渲染技术的实施方式；

图21示意性地描述了能够实现具有现场模式处理的卡拉OK***的电子设备的实施方式。

具体实施方式

在给出参考图1的实施方式的详细描述之前，进行一些一般性说明。

实施方式公开了一种电子设备，该电子设备包括被配置为根据现场模式处理来处理伴奏信号以获得增强伴奏信号的电路。

现场模式处理可以被配置为给予增强伴奏信号的听众好像他是音乐会的一部分的感觉。

电子设备例如可以是任何音乐或电影再现设备，诸如，卡拉OK盒子、智能手机、PC、TV、合成器、混音控制台等。

电子设备的电路可以包括处理器，例如，可以是CPU、存储器(RAM、ROM等)、存储器和/或储存装置、接口等。电路可以包括或者可以连接到对于电子设备(计算机、智能手机等)众所周知的输入手段(鼠标、键盘、相机等)、输出手段(显示器(例如，液晶、(有机)发光二极管等)、扬声器等、(无线)接口等。此外，电路可以包括或可以连接到用于感测静止图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)。

伴奏可以是从音频输入信号中分离人声信号而得到的残留信号(residualsignal)。例如，音频输入信号可以是包括人声、吉他、键盘和鼓的音乐片段，并且作为从音频输入信号中分离人声的残留，伴奏信号可以是包括吉他、键盘和鼓的信号。

现场模式处理可以被配置为通过房间模拟器处理伴奏信号，以获得混响信号。使用房间模拟器，可以创建真实混响信号，该真实混响信号也被添加到卡拉OK输出中。

现场模式处理可以被配置为通过渲染器(45)处理混响信号，以获得经渲染的混响信号。渲染器可以是3D音频渲染器、双耳渲染器或向上混音器。使用合适的渲染器，可以创建真实混响信号，该真实混响信号也被添加到卡拉OK输出中。

现场模式处理可以被配置为通过主要环境提取或者通过谐波打击源分离来处理伴奏信号，以分别获得伴奏信号(s_acc(n))的环境部分或者谐波部分。

现场模式处理可以被配置为通过房间模拟器处理环境部分或者谐波部分，以分别获得环境混响或者谐波混响。

现场模式处理可以通过描述歌手的位置的现场模式参数和/或描述舞台的现场模式参数来控制。

现场模式处理可以被配置为通过人群歌唱模拟处理人声信号，以获得人群人声信号。人群歌唱模拟可能会创建听起来像是一大群人跟着歌手一起歌唱的信号。例如，人群歌唱模拟可以包括多个音高和/或共振峰移位分支。

现场模式处理可以被配置为基于现场音效处理伴奏信号，以获得现场伴奏信号。

现场音效处理可以包括源分离。

可以应用任何源分离技术。例如，盲源分离(blind source separation，BSS)(也称为盲信号分离)可以用于源分离。盲源分离(BSS)可以包括从一组混音信号中分离一组源信号。盲源分离(BSS)的一个应用是将音乐分离成单个乐器轨道，使得原始内容的向上混音(upmix)或重新混音(remix)成为可能。

作为盲源分离(BSS)的替代，也可以使用其他源分离的技术，例如异相立体声(OutOf Phase Stereo，OOPS)技术等。

代替在完全混音记录上使用源分离技术，实施方式还可以使用以分离形式出现的素材，例如，作为“人声/伴奏”或仅作为“伴奏”(例如，由于它们是特殊的卡拉OK制作)。

现场音效处理还可以包括麦克风串音模拟。麦克风串音模拟可以应用于单个乐器轨道上，以模拟现场表演期间由于麦克风同样捕获来自其他乐器的信号而发生的麦克风“串音”效果。

现场音效处理还可以包括抖动模拟。抖动模拟可以模拟现场表演通常没有乐器完美时间对齐的事实。

现场音效处理还可以包括音频均衡化。均衡化可以通过使用“主EQ”到“现场EQ”处理来修改均衡。

现场模式处理可以包括从样本数据库获得样本。样本***器可以从预先记录的样本数据库中获得欢呼、鼓掌和人群噪声的样本，并将样本随机***到样本音频流中。

渲染器可以使用关于在房间中的用户的当前位置的信息和/或关于他凝视或倾斜的方向的信息。

电子设备还可以包括混音器，混音器被配置为将增强伴奏信号与用户的人声信号进行混音。

实施方式还涉及一种根据现场模式处理来处理伴奏信号以获得如上所述的增强伴奏信号的方法。

实施方式还涉及一种包括指令的计算机程序，指令在由处理器执行时，指示处理器执行实施方式中描述的方法。

在音频源分离中，包括多个源(例如，乐器、声音等)的输入信号被分解成分离部分。音频源分离可以是无监督的(称为“盲源分离”，BSS)或部分监督的。“盲”意味着盲源分离不一定具有关于原始源的信息。例如，可能不一定知道原始信号包含多少个源，或者输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在事先不知道分离部分的情况下对原始信号分离部分进行分解。盲源分离单元可以使用技术人员已知的任何盲源分离技术。在(盲)源分离中，可以搜索在概率论或信息论意义上最小相关或最大独立的源信号或基于非负矩阵分解找到对音频源信号的结构约束。执行(盲)源分离的方法是技术人员已知的，并且是基于例如主成分分析、奇异值分解、(非)依赖成分分析、非负矩阵分解、人工神经网络等。

尽管，一些实施方式使用盲源分离来生成分离的音频源信号，但是本公开不限于不使用更多信息来分离音频源信号的实施方式，而是在一些实施方式中，使用更多信息来生成分离的音频源信号。这些更多信息可以是例如关于混音处理的信息、关于包括在输入音频内容中的音频源的类型的信息、关于包括在输入音频内容中的音频源的空间位置的信息等。

根据一些实施方式，电路可进一步被配置为基于音高比移调音频输出信号，使得移调值对应于半音的整数倍。

现在通过参考附图描述实施方式。

图1中示出了“现场模式”的目标。图1的左侧示出了随着伴奏音乐唱歌的卡拉OK设备的用户。在这里显示的示例中，歌手在家里独自使用该设备。没有人与他分享卡拉OK的体验这一事实减损了用户的体验。图1的右侧示意性地演示了根据实施方式的改进的卡拉OK设备可以对用户产生的效果。在图1的右侧的场景中，给用户一种好像他是音乐会的一部分、许多其他人与他一起分享体验的感觉。

具有现场模式处理的卡拉OK***

图2示意性地示出了具有现场模式处理的卡拉OK***的示例。从单声道或立体声音频输入13接收的音频输入信号x(n)包含多个源的混音(见图2中的1，2，…，K)。音频输入信号x(n)例如是应该在其上执行卡拉OK演唱的歌曲，音频输入信号x(n)包括原始人声以及包括多个乐器的伴奏。音频输入信号x(n)被输入到源分离14的处理，并被分解成分离部分(见图3中分离的源2和残留信号3)，这里分解成原始人声s_vocals(n)和残留信号3(即伴奏s_acc(n))。在下面的图3中描述了源分离14的处理的示例性实施方式。

用户的麦克风11获取音频输入信号y(n)。音频输入信号y(n)例如是卡拉OK信号，音频输入信号y(n)包括用户的人声和背景声音。背景声音可以是已被卡拉OK歌手的麦克风捕获的任何噪声，例如街道噪声、人群噪声、如果用户没有戴耳机而是使用扬声器时卡拉OK***的播放引起的回声(feedback)等。音频输入信号y(n)被输入到源分离12处理，并被分解成分离部分(见图2中的分离的源2和残留信号3)，这里分解成分离的源2(即用户人声s_user(n))以及后面不需要的残留信号(图2中未示出)。在下面的图3中描述了源分离12处理的示例性实施方式。

伴奏s_acc(n)被提供给现场模式处理17(在下面的图4中更详细地描述)。现场模式处理17接收原始人声s_vocals(n)和伴奏s_acc(n)作为输入。现场模式处理17处理原始人声s_vocals(n)和伴奏s_acc(n)，并将卡拉OK输出信号s_acc*(n)输出到信号加法器18。信号加法器18接收卡拉OK输出信号s_acc*(n)和用户人声s_user(n)，并将它们相加，并将相加的信号输出到扬声器***19。现场模式处理进一步将现场模式参数输出到显示单元20，在显示单元中将现场模式参数呈现给用户。显示单元20进一步接收歌词21并将其呈现给用户。

可以通过例如音效(图2中未示出)来处理用户人声s_user(n)。例如，可以在人声中添加混响，使它们听起来更“湿”，因此，听起来更适合伴奏。

在图2的***中，实时对音频输入信号y(n)执行源分离。可替代地，例如当音频输入信号x(n)存储在音乐库中时，可以预先处理音频输入信号x(n)。

在图2的***中，音频输入信号x(n)可以例如通过盲源分离(BSS)的处理来处理，如下面图3中更详细描述的。在替代实施方式中，可以使用诸如异相立体声(OOPS)技术的其他人声分离算法来从伴奏中分离人声。

音频输入x(n)可以是音频记录，例如WAV文件、MP3文件、AAC文件、WMA文件、AIFF文件等。这意味着音频输入x(n)是实际音频，意味着来自例如歌曲的商业表演的未准备的原始音频。卡拉OK素材不需要任何人工准备，并且可以完全自动地在线进行处理，并且具有良好的质量和高真实感，因此在该实施方式中不需要预先准备的音频素材。

在其他实施方式中，音频输入x(n)是MIDI文件。在这种情况下，卡拉OK***可以例如在MIDI域中移调，并且用MIDI合成器渲染伴奏s_acc(n)。

输入信号可以是任何类型的音频信号。可以是模拟信号、数字信号的形式，可以源自光盘、数字视频盘等，可以是数据文件(诸如波形文件、mp3文件等)，并且本公开不限于特定格式的输入音频内容。输入音频内容例如可以是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号，而本公开内容不限于具有两个音频声道的输入音频内容。在其他实施方式中，输入音频内容可以包括任意数量的声道，诸如5.1音频信号的重新混音等。

输入信号可以包括一个或多个源信号。特别地，输入信号可以包括几个音频源。音频源可以是产生声波的任何实体，例如，乐器、声音、声乐、人工生成的声音(例如，合成器的原始形式)等。

盲源分离

图3示意性地示出了通过盲源分离(BSS)进行音频向上混音/重新混音的一般方法。首先，执行音频源分离(也称为“去混音”)，其将包括多个声道I和来自多个音频源源1、源2、…、源K(例如，乐器、声音等)的音频的源音频信号1(此处是音频输入信号x(n))，分解成“分离部分”，此处是每个声道i的分离的源2(例如，人声s_vocals(n))和残留信号3(例如，伴奏s_acc(n))，其中，K是整数，表示音频源的数量。此处的残留信号是将人声与音频输入信号分离后获得的信号。即，残留信号是在去除输入音频信号的人声之后的“剩余”音频信号。然而，实施方式不限制于这种场景。例如，一般来说，也可以使用两个DNN具有两个分离部分(“人声”、“伴奏”)和其他残留(＝DNN造成的错误)。

在此处的实施方式中，源音频信号1是具有两个声道i＝1和i＝2的立体声信号。随后，分离的源2和残留信号3被重新混音并渲染为新的扬声器信号4，此处是包括五个声道4a至4e的信号，即5.0声道***。例如，音频源分离处理可以按照发表的论文中更详细的描述来实现：Uhlich，Stefan等人，“通过数据增强和网络混合改进基于深度神经网络的音乐源分离(Improving music source separation based on deep neural networks throughdata augmentation and network blending)”，2017IEEE声学、语音和信号处理国际会议(ICASSP)，IEEE，2017。

由于音频源信号的分离可能是不完美的，例如，由于音频源的混音，除了分离的音频源信号2a至2d之外，还生成残留信号3(r(n))。残留信号可以例如表示输入音频内容与所有分离的音频源信号之和之间的差异。由每个音频源发出的音频信号在输入音频内容1中由其相应记录的声波来表示。对于具有多于一个音频声道的输入音频内容，诸如，立体声或环绕声输入音频内容，音频源的空间信息通常也由输入音频内容包括或表示，例如，由不同音频声道中包括的音频源信号的比例表示。基于盲源分离或能够分离音频源的其他技术来执行将输入音频内容1分离成分离的音频源信号2a至2d和残留3。

在第二步骤中，分离部分2a至2d和可能的残余3重新混音并渲染为新的扬声器信号4，此处是包括五个声道4a至4e的信号，即5.0声道***。基于分离的音频源信号和残留信号，通过基于空间信息对分离的音频源信号和残留信号进行混音，来生成输出音频内容。输出音频内容在图3中示例性地示出并且用附图标记4表示。

音频输入x(n)和音频输入y(n)可以通过图3中描述的方法来分离，其中，音频输入y(n)被分离成用户人声s_user(n)和未使用的背景声音，并且音频输入x(n)被分离成原始人声s_user(n)和伴奏s_acc(n)。伴奏s_acc(n)可以进一步被分离成相应的轨道，例如鼓、钢琴、弦乐等(见图8和图18中的81)。人声的分离使得伴奏和人声的处理方式有了很大的改进。

从音频输入y(n)中去除伴奏的另一种方法例如是串扰消除(crosstalkcancellation)方法，其中例如通过使用自适应滤波从麦克风信号同相地减去伴奏的参考。

现场模式处理

图4示意性地示出了现场模式处理的实施方式(图2中的17)。现场模式处理接收通过源分离(图2中的14)获得的原始人声s_vocals(n)和伴奏s_acc(n)作为输入。现场模式处理处理原始人声s_vocals(n)和伴奏s_acc(n)，并输出可以通过扬声器***(图2中的19)输出的卡拉OK输出信号s_acc*(n)。

通过人群歌唱模拟41处理通过源分离(图2中的14)获得的原始人声s_vocals(n)，以获得人群人声s_crowd(n)。人群歌唱模拟41创建听起来像(大的)人群跟着歌唱的信号(见图6和相应的描述)。为了创建增强的伴奏信号，通过现场音效42处理通过源分离(图2中的14)获得的伴奏s_acc(n)，以获得现场伴奏s_{acc_live}(n)。通过主要环境提取(Primary AmbientExtraction，PAE)43进一步处理伴奏s_acc(n)，以获得伴奏s_acc(n)的环境部分s_amb(n)。通过房间模拟器44进一步处理环境部分s_amb(n)，以获得环境混响s_{amb_rev}(n)。通过渲染器45(例如，如图16中描述的双耳渲染器，或如图17中描述的向上混音器)进一步处理环境混响s_{amb_rev}(n)，以获得渲染的环境混响s_{amb_rev,3D}(n)。使用房间模拟器44和合适的渲染器45，创建真实混响信号，该真实混响信号也被添加到卡拉OK输出中。

通过人群歌唱模拟41获得的人群人声s_crowd(n)在增益/延迟1(GAIN/DELAY1)处进行增益和延迟调整。原始人声s_vocals(n)在增益/延迟2处进行增益和延迟调整。通过将现场音效42应用于伴奏s_acc(n)而获得的现场伴奏s_{acc_live}(n)在增益/延迟3(GAIN/DELAY3)处进行增益和延迟调整。环境混响s_{amb_rev}(n)在增益/延迟4(GAIN/DELAY4)处进行增益和延迟调整。从样本数据库46获得的样本s_samples(n)在增益/延迟5(GAIN/DELAY5)处进行增益和延迟调整。应当注意的是，用于人声s_vocals(n)的直接路径的增益(增益/延迟2)通常非常小，因为在卡拉OK***中，应该去除人声。然而，可以在输出中保留一点点人声s_vocals(n)，以便帮助用户跟唱，或者在用户决定与人群一起跟着原歌手唱的情况下。

经增益/延迟调整的人群人声s_crowd(n)、经增益/延迟调整的原始人声s_vocals(n)、经增益/延迟调整的现场伴奏s_{acc_live}(n)、经增益/延迟调整的环境混响s_{amb_rev}(n)和经增益/延迟调整的s_samples(n)通过混音器47进行混音，以获得卡拉OK输出信号s_acc*(n)，该卡拉OK输出信号s_acc*(n)可以通过扬声器***(图2中的19)与用户人声s_user(n)一起输出(见图2)。

图5示意性地示出了现场模式处理的替代实施方式(图2中的17)。图4的实施方式和图5的实施方式的现场模式处理之间的区别在于，图5的实施方式用谐波打击源分离(Harmonic Percussive Source Separation，HPSS)代替了图4的实施方式的主要环境提取(PAE)。

通过谐波打击源分离(HPSS)48处理伴奏s_acc(n)，以获得伴奏s_acc(n)的谐波部分s_harm(n)。通过房间模拟器44进一步处理谐波部分s_harm(n)，以获得谐波混响s_{harm_rev}(n)。通过渲染器45(例如，如图16中描述的双耳渲染器，或如图17中描述的向上混音器)进一步处理谐波混响s_{harm_rev}(n)，以获得渲染的谐波混响s_{harm_rev,3D}(n)。

经增益/延迟调整的人群人声s_crowd(n)、经增益/延迟调整的原始人声s_vocals(n)、经增益/延迟调整的现场伴奏s_{acc_live}(n)、经增益/延迟调整的谐波混响s_{harm_rev}(n)和经增益/延迟调整的s_samples(n)通过混音器47进行混音，以获得卡拉OK输出信号s_acc*(n)，该卡拉OK输出信号s_acc*(n)可以通过扬声器***(图2中的19)与用户人声s_user(n)一起输出(见图2)。

上面关于图4和图5描述的现场模式处理可以通过卡拉OK***的用户经由用户界面通过现场模式参数预设来控制。

例如，第一现场模式参数SINGER LOCATION(歌手位置)可以允许选择歌手位置。例如，SINGER LOCATION＝“在舞台上”，或者“在观众中”。在“在舞台上”状态下，现场模式给人一种作为乐队歌手的感觉，欢呼声来自前面，乐器来自侧面/背面。在“在观众中”状态下，现场模式给人一种与人群一起唱歌的感觉，乐器感知来自前面，欢呼声来自侧面/背面。

第二现场模式参数VENUE(场地)可以定义舞台位置，并且可以影响感知的人群大小(人数)以及舞台/音乐厅的大小(信号的混响时间)。例如，VENUE＝“温布利体育场”、“皇家阿尔伯特音乐厅”、“俱乐部”或“酒吧”。状态“温布利体育场”可以模仿大型体育场的氛围(最多90000名访客)，状态“皇家阿尔伯特音乐厅”可以模仿大型音乐厅的氛围(最多9500名访客)，状态“俱乐部”可以模仿中型俱乐部的氛围(最多200名访客)，状态“酒吧”可以模仿酒吧的氛围(最多50名访客)。

人群歌唱模拟

人群歌唱模拟从提取的人声轨道s_vocals(n)创建“人群歌唱”音频信号s_crowd(n)。这可以通过使用强烈的混响和创建具有叠加的音高移位+延迟(类似于“人声加倍”)的许多不同版本来实现。

图6示意性地示出了人群歌唱模拟处理的实施方式(图4和图5中的41)。人群歌唱模拟41处理原始人声s_vocals(n)，以获得人群人声s_crowd(n)。原始人声s_vocals(n)被馈送到数量N＝N_crowd的音高移位器61-1至61-N。每个音高移位器61-1至61-N将原始人声s_vocals(n)的音高移位相应的预定百分比p_i(i＝1-N)。音高移位的人声被馈送到数量N个共振峰移位器62-1至62-N。每个共振峰移位器61-1至61-N对音高移位的人声执行共振峰移位预定量f_i(i＝1-N)的处理。音高和共振峰移位的人声被馈送到数量N个增益/延迟级63-1至63-N。每个增益/延迟级63-1到63-N分别将人声的增益和延迟调整预定义的增益g_i和延迟δt_i(i＝1-N)。通过混响65处理混音的人声，以向混音的人声添加混响。以这种方式处理的人声随后通过混音器64进行混音，以获得人群人声s_crowd(n)。

平行音高/共振峰移位分支的数量N_crowd例如可以根据预定义的现场模式参数VENUE来选择，该参数定义舞台位置并且影响感知的人群大小(人数)以及舞台/音乐厅的大小(信号的混响时间)。例如，如果VENUE＝“温布利体育场”，则N_crowd可以设置为N_crowd＝200，如果VENUE＝“皇家阿尔伯特音乐厅”，则N_crowd可以设置为N_crowd＝100，如果VENUE＝“俱乐部”，则N_crowd可以设置为N_crowd＝50，如果VENUE＝“酒吧”，则N_crowd可以设置为N_crowd＝20。

例如，可以根据以p_i＝1(无音高移位)为中心的高斯分布随机选择用于音高移位的百分比p_i(i＝1-N)，其预定标准偏差为100分(cent)。类似地，例如，可以根据以p_i＝1(无共振峰移位)为中心的高斯分布随机选择用于共振峰移位的参数f_i(i＝1-N)，具有取决于所选择的共振峰移位算法的预定标准偏差。

每个音高/共振峰移位分支的延迟δt_i可以例如在[0,0.5s]的间隔内随机选择，其中0表示非常接近舞台上的歌手的人，并且0.5s表示远离舞台上的歌手的人或唱得有点太晚的人。为了模拟与舞台上的歌手相距r距离的人数大约随着r²而增加的事实(假设场地中的人数均匀分布)，根据r²特性，随机数生成器可以被配置为优选较大的延迟而不是较小的延迟。此外，选择δt_i的区间可以取决于场地。例如，如果VENUE＝“温布利体育场”，则可以从区间[0,0.5s]中选择δt_i，如果VENUE＝“皇家阿尔伯特音乐厅”，则可以从区间[0,0.3s]中选择δt_i，如果VENUE＝“俱乐部”，则可以从区间[0,0.2s]中选择δt_i，并且如果VENUE＝“酒吧”，则可以从区间[0,0.1s]中选择δt_i。

例如，增益g_i(i＝1-N)可以随机设置为0.5和1.5之间的数字，其中g_i>1表示人声响度的增加，并且g_i<1表示人声响度的降低。增益g_i也可以与延迟δt_i相关，以模拟位置较远的人被听到的声音较小并且延迟较大的效果，例如通过对于较大的延迟δt_i降低增益g_i。

控制人群歌唱模拟的参数也可以受到现场模式参数“SINGER LOCATION”的影响。例如，如果SINGER LOCATION＝“在舞台上”，则每个音高/共振峰移位分支的延迟δt_i可以例如在[0.1,0.5s]的间隔内随机选择，以考虑歌手在舞台上并因此从人群偏移一定距离的效果，而如果SINGER LOCATION＝“在观众中”，则每个音高/共振峰移位分支的延迟δt_i可以例如在[0,0.3s]的间隔内随机选择，以考虑歌手被人群包围并且人群中的一些人非常接近歌手的效果。

混响65的处理可以取决于现场模式参数VENUE，该参数定义舞台位置，并且影响舞台/音乐厅的感知大小(信号的混响时间)。例如，如果VENUE＝“温布利体育场”，则可以应用基于预先记录的温布利体育场脉冲响应的卷积混响，如果VENUE＝“皇家阿尔伯特音乐厅”，则可以应用基于预先记录的皇家阿尔伯特音乐厅脉冲响应的卷积混响，如果VENUE＝“俱乐部”，则可以应用基于预先记录的俱乐部脉冲响应的卷积混响，并且如果VENUE＝“酒吧”，则可以应用基于预先记录的酒吧脉冲响应的卷积混响。作为卷积混响的替代，可以使用具有适当大小参数设置的算法混响。

在图6的实施方式中，混响器65处理混音的信号。在图7中所示的替代实施方式中，环绕混响66应用于音高/共振峰移位分支上。环绕混响算法允许将每个单独的源(每个音高/共振峰移位分支)放置在模拟场地的特定位置。利用环绕混响66，可以根据真实场地内人的真实位置将人群中的模拟个体放置在场地内。这使得混响音效更加真实。

现场音效

图8示意性地示出了现场音效处理的实施方式(图4和图5中的42)。现场音效42处理伴奏s_acc(n)，以获得现场伴奏s_acclive(n)。

通过源分离81处理伴奏s_acc(n)，以获得伴奏s_acc(n)内的各个源(乐器)的分离轨道s_inst,1(n)至s_inst,N(n)。麦克风“串音”模拟82应用于单个乐器轨道上，以模拟现场表演期间由于麦克风同样捕获来自其他乐器的信号而发生的麦克风“串音”效果。所产生的乐器轨道s_inst-bleed,1(n)至s_inst-bleed,N(n)通过抖动模拟83进一步处理，抖动模拟模拟现场表演通常没有乐器完美时间对齐的事实。然后通过混音器84对所产生的乐器轨道s_{inst-jitter,1}(n)至s_{inst-jitter,N}(n)重新混音。然后由均衡器85通过使用“主EQ”到“现场EQ”处理来修改均衡来进一步处理重新混音的信号s_inst-mix(n)。

图9示意性地示出了麦克风串音模拟82的实施方式。麦克风串音模拟82从源分离(图8中的81)接收乐器信号s_inst,1(n)至s_inst,N(n)。通过混音器91-1将乐器信号s_inst,1(n)与乐器信号s_inst,2(n)至s_inst,N(n)进行混音，添加-12dB的麦克风串音，以获得包括模拟麦克风串音的乐器信号s_inst-bleed,1(n)。通过混音器91-2将乐器信号s_inst,2(n)与乐器信号s_inst,1(n)、S_inst，3(n)至s_inst,N(n)进行混音，添加-12dB的麦克风串音，以获得包括模拟麦克风串音的乐器信号s_inst-bleed,2(n)。通过混音器91-N对乐器信号s_inst,N(n)与乐器信号s_inst,1(n)至s_inst,N-1(n)进行混音，添加-12dB的麦克风串音，以获得包括模拟麦克风串音的乐器信号s_inst-bleed,N(n)。

图10示意性地示出了抖动模拟83的实施方式。通过麦克风串音模拟(图8中的82)获得的乐器信号s_inst-bleed,1(n)通过延迟101-1进行延迟，以获得乐器信号s_{inst-jitter,1}(n)。通过麦克风串音模拟获得的乐器信号s_inst-bleed,2(n)通过延迟101-2进行延迟，以获得乐器信号s_{inst-jitter,2}(n)。通过麦克风串音模拟获得的乐器信号s_inst-bleed,N(n)通过延迟101-N进行延迟，以获得乐器信号s_{inst-jitter,N}(n)。延迟101-1至101-N被配置为将每个乐器稍微延迟/提前随机时间跨度。时间跨度可以例如从间隔[-100ms,+100ms]中随机选择。应当注意的是，该时间跨度可能在歌曲期间改变，即，不是恒定的，而是可能随时间变化，以增加现场表演的感觉。

图11a示意性地示出了均衡器85的第一实施方式。由静态均衡器111处理通过重新混音(图8中的84)获得的乐器混音s_inst-mix(n)，以获得现场伴奏s_{acc_live}(n)。静态均衡器111使用参数/图形EQ修改均衡，以将均衡从“主EQ”改变为“现场EQ”。

图11b示意性地示出了均衡器85的第二实施方式。由动态均衡器112处理通过重新混音(图8中的84)获得的乐器混音s_inst-mix(n)，以获得现场伴奏s_{acc_live}(n)。动态均衡器112由DNN 113控制，该DNN 113学习以将“主EQ”转换为“现场EQ”。

上面所示的处理伴奏s_acc(n)以获得现场伴奏s_{acc_live}(n)的现场音效仅作为示例给出。单独的现场音效(串音模拟82、抖动模拟83、现场EQ 85)可以单独地或组合地应用。实施方式不限制于选择图8的实施方式中所示的现场音效。

另外，可以将其他现场音效(图8中未示出)应用于伴奏s_acc(n)，以获得现场伴奏s_{acc_live}(n)。例如，加速模块可以被配置为加速伴奏s_acc(n)，以便模拟现场表演通常比用作卡拉OK***基础的录音稍快地播放的效果。然而，应当注意，如果现场音效(图4和图5中的42)包括对伴奏s_acc(n)进行加速，那么同样的加速也应该应用于(被馈送到图4和图5中的混音器47的)人声轨道s_vocals(n)，并且人群歌唱模拟41基于人声轨道来保持人声与伴奏同步。这同样适用于图4和图5中的混响路径(43、44、45)，这些路径也应该接收已经被加速的伴奏s_acc(n)。

样本数据库

图12a示出了样本数据库46的第一实施方式。样本***器142从预先记录的样本数据库143中获得欢呼、鼓掌和人群噪声的样本，并且将样本随机***到样本音频流s_samples(n)中。样本***器142可以被配置为在歌曲回放期间以及歌曲之间随机添加欢呼、鼓掌、人群噪声等样本。然后可以将采样音频流s_samples(n)直接添加到卡拉OK输出信号(见图4和图5中的混音器47)。

样本***器142可进一步被配置为评估现场模式参数SINGER LOCATION。例如，如果SINGER LOCATION＝“在观众中”，那么样本***器142可以选择比SINGER LOCATION＝“在舞台上”更强烈的样本。此外，样本***器142可以根据SINGER LOCATION参数将样本渲染到不同的位置(例如：“拍手”是从前面感知到的，相对于“拍手”是从周围感知到的)。样本***器142可进一步被配置为评估现场模式参数场地，该参数定义舞台位置，并且可以影响感知的人群大小(人数)以及舞台/音乐厅的大小(信号的混响时间)。例如，如果VENUE＝“温布利体育场”，则样本***器142可以从第一组样本中选择样本，如果VENUE＝“皇家阿尔伯特音乐厅”，则样本***器142可以从第二组样本中选择样本，如果VENUE＝“俱乐部”，则样本***器142可以从第三组样本中选择样本，如果VENUE＝“酒吧”，则样本***器142可以从第四组样本中选择样本。

图12b示出了样本数据库46的第二实施方式。事件检测器141检测伴奏s_acc(n)中的事件。这样的事件例如可以是歌曲的开始、歌曲的结束、合唱的开始、歌曲中的强度高潮等。基于检测到的事件，样本***器142从预先记录的样本数据库143中获得欢呼、鼓掌和人群噪声的样本，并将样本***到样本音频流s_samples(n)中。以这种方式，样本***器可以选择适合于当前情况(例如，歌曲开始前的人群呼喊、歌曲结束后的疯狂鼓掌和尖叫)的背景样本来混音到卡拉OK输出信号中。

主要环境提取(PAE)

图13示意性地示出了主要环境提取(PAE)的实施方式(图4中的43)。主要环境提取(PAE)43被配置为分别基于它们的方向和扩散空间特征将伴奏s_acc(n)分解成主要分量s_acc-primary(n)和环境分量s_{acc_ambien}(n)。常见的多声道PAE方法是主成分分析(PCA)。PAE 43的实现例如可见于CARLOS AVENDANO，“多声道向上混音的频域方法(AFrequency-DomainApproach to Multichannel Upmix)”，J.Audio Eng.Soc.，Vol.52，No.7/8，2004年7月/8月(参考文献[1])。

谐波打击源分离(HPSS)

图14示意性地示出了谐波打击源分离(HPSS)的实施方式(图4中的48)。谐波打击源分离(HPSS)48被配置为将伴奏s_acc(n)分解成由所有谐波声音组成的信号和由所有打击声音组成的另一信号。HPSS 48利用了这样的观察，即在输入信号的频谱图表示中，谐波声音倾向于形成水平结构(在时间方向上)，而打击声音形成竖直结构(在频率方向上)。HPSS48可以实现例如可见于Fitzgerald,Derry，“使用中值滤波的谐波/打击分离(Harmonic/percussive separation using median filtering)”，《国际数字音频效果会议论文集(DAFx)》，第13卷，2010。

房间模拟器

可以通过添加真实的混响来增强现场模式。使用具有合适的渲染算法的房间模拟器44可以将房间/音乐厅的感觉给到用户。

如分别在图4和图5的实施方式中所示的，仅为伴奏的环境/谐波部分创建混响信号可能是有益的。然而，房间模拟器44也可以直接在伴奏上操作，而不应用环境或谐波分离(PAE或HPSS)。

房间模拟器44被配置为根据是否应用了PAE或HPSS(或都未应用)，将混响添加到伴奏s_acc(n)、到伴奏的环境部分s_{acc_amb}(n)或者到伴奏的谐波部分s_{acc_harm}(n)。可以使用卷积混响，或者可以使用具有适当大小参数设置的算法混响。

房间模拟器44的处理可以取决于现场模式参数VENUE，该参数定义舞台位置，并且影响舞台/音乐厅的感知大小(信号的混响时间)。例如，如果VENUE＝“温布利体育场”，则可以应用基于预先记录的温布利体育场脉冲响应的卷积混响，如果VENUE＝“皇家阿尔伯特音乐厅”，则可以应用基于预先记录的皇家阿尔伯特音乐厅脉冲响应的卷积混响，如果VENUE＝“俱乐部”，则可以应用基于预先记录的俱乐部脉冲响应的卷积混响，并且如果VENUE＝“酒吧”，则可以应用基于预先记录的酒吧脉冲响应的卷积混响。

图15示意性地示出了其中房间模拟器44通过环绕混响实现的实施方式。环绕混响算法153允许将通过源分离151和PAE 152获得的每个单独的源s_inst,1(n)至s_inst,N(n)放置在模拟的场地的特定位置。在环绕混响153被用作房间模拟器44的情况下，伴奏s_acc(n)内的乐器的环境部分(或谐波部分，或完整信号本身)可以根据乐器在舞台上的真实位置被放置在场地内。这使得混响效果更加真实。

双耳渲染器

如果使用耳机回放，则可以使用双耳渲染对来自特定方向的音频源进行建模。

图16示出了使用双耳渲染技术的渲染器45的实施方式。由双耳渲染器45处理通过房间模拟器44获得的混响源s_{amb_rev}(n)(见图4的实施方式)或s_{harm_rev}(n)(见图5的实施方式)，以获得环境混响s_{amb_rev}(n)或谐波混响s_{harm_rev}(n)。双耳渲染器45包括双耳处理器162，双耳处理器162基于头部相关脉冲响应(HRIR)161执行双耳处理，该头部相关脉冲响应(HRIR)161已经基于卡拉OK***的用户的测量或建模的头部预先确定。双耳处理162涉及源信号源s_rev,1(n)至s_rev,N(n)与测量的或建模的头部相关脉冲响应(HRIR)161的卷积。

作为头部相关脉冲响应(HRIR)的替代，也可以使用双耳房间脉冲响应(BRIR)。

双耳处理音频通常经由立体声耳机播放。

2至5声道向上混音

图17示出了基于2至5声道向上混音的渲染器45的实施方式。伴奏s_acc(n)由左立体声声道s_acc,L(n)和右立体声声道s_acc,R(n)组成。通过2-3向上混音171处理伴奏的左立体声声道s_acc,L(n)和右立体声声道s_acc,R(n)，以获得用于左前扬声器SKP1的输出声道s_acc,SPK1(n)、获得用于中央扬声器SKP2的输出声道s_acc,SPK2(n)、以及获得右前扬声器SKP3的输出声道s_acc,SPK3(n)。为了导出前声道，可以使用参考文献[1]的第4节的解混音(unmix)和再定位(repanning)技术。

通过主要环境提取(PAE)43进一步处理伴奏的左立体声声道s_acc,L(n)和右立体声声道s_acc,R(n)。主要环境提取(PAE)43被配置为从伴奏的左立体声声道s_acc,L(n)和右立体声声道s_acc,R(n)提取环境分量s_amb,L(n)和s_amb,R(n)。通过全通滤波器G_L(Z)Z^-D处理环境分量s_amb,L(n)，并且通过全通滤波器G_R(Z)Z^-D处理环境分量s_amb,R(n)，以将它们与前声道中的环境分量进行去相关，如参考文献[1]的第5节中所述。这样可以最大限度地减少在侧面创建幻影图像。然后，经滤波的环境分量s_amb,L(n)和s_amb,R(n)分别通过左后扬声器SPK4和右后扬声器SPK5输出。

定位和朝向信息的使用

图18示意性地示出了扩展的现场音效处理的实施方式(图4和图5中的42)。如在图8的实施方式中，现场音效41处理伴奏s_acc(n)，以获得现场伴奏s_{acc_live}(n)。通过源分离81处理伴奏s_acc(n)，以获得伴奏s_acc(n)内的单个源(乐器)的分离轨道s_inst,1(n)至s_inst,N(n)。麦克风“串音”模拟82应用于单个乐器轨道上，以模拟现场表演期间由于麦克风同时捕获来自其他乐器的信号而发生的麦克风“串音”效果。通过抖动模拟83进一步处理所产生的乐器轨道s_inst-bleed,1(n)至s_inst-bleed,N(n)，抖动模拟模拟现场表演通常没有乐器完美时间对齐的事实。然后通过3D音频渲染器89处理所产生的乐器轨道s_{inst-jitter,1}(n)至s_{inst-jitter,N}(n)，3D音频渲染器89从乐器轨道s_inst-bleed,1(n)至s_inst-bleed_,N(n)产生3D音频伴奏s_acc-3D(n)。3D音频渲染器89使用关于在房间中的用户的当前位置或他凝视或倾斜的方向的信息来将用户定位在虚拟舞台上。通过使用关于在房间中的用户的当前位置或他凝视或倾斜的方向的信息，可以影响单个乐器的渲染。例如，假设歌手(＝用户)右边有吉他。如果他现在凝视/倾斜朝向右方向，那么吉他轨道的振幅就会增加，就像现实世界中的情况一样。这样，由于他还可以与单个乐器进行交互，改善了用户的体验。

然后，通过3D音频渲染器89获得的3D音频伴奏s_acc-3D(n)可以与来自卡拉OK***的其他分支的适当3D音频信号混音。在这种情况下，例如，可以应用图7的人群歌唱模拟，其使用产生与通过图18的现场音效获得的3D音频伴奏s_acc-3D(n)相当的3D音频伴奏的环绕混响。同样，合适的3D音频渲染器可以应用于混响路径中(图4和图5中的45)。3D音频渲染可以例如用双耳技术(如果卡拉OK输出是通过耳机)或通过5.1或7.1向上混音(如果卡拉OK输出是通过5.1或7.1扬声器***)来实现。

图19示意性地示出了通过图18中的3D音频渲染器89执行的处理的示例。卡拉OK***的用户191位于房间内的位置并朝向特定方向。例如，可以由卡拉OK***从传感器信息(诸如来自用户佩戴的陀螺仪和加速度传感器的信息)、通过诸如用于室内环境的SLAM(同时定位和映射)之类的对象识别和跟踪技术从相机图像获得的信息或其他技术来获得用户191的位置和朝向(凝视或倾斜的方向)。例如，这种传感器可以集成在用户拿在手中的智能手机或mp3播放器中，或者它们可以集成在用户佩戴的智能手表中，或者它们可以集成在用户佩戴的耳机中(这也将允许获得凝视方向)。例如，可以通过凝视检测技术或头部跟踪技术(例如，基于SLAM)获得用户191的朝向。通过传感器获得的用户位置和朝向被转换成在定义虚拟舞台的坐标系199中的用户191的位置p_u和方向d。此外，参照坐标系199定义用户头部的局部坐标系198。如图19中所示，在该用户坐标系198中，用户头部的位置定义了坐标系的原点，并且头部的朝向定义了坐标系的一个轴。通过乐器分离(图18中的81)获得的每个乐器在虚拟舞台上被赋予相应的位置。第一乐器192，这里例如节奏吉他，位于位置p₁。第二乐器193，这里例如主音吉他，位于位置p₂。第三乐器194，这里例如鼓，位于位置p₃。第四乐器195，这里例如低音吉他，位于位置p₄。

应当注意，为了简化附图，图19是二维图示，其中虚拟舞台上在x、y方向上的位置通过二维坐标系199表示(虚拟舞台的鸟瞰透视图)。在实际实现方式中，3D音频渲染技术还可以覆盖声音对象的高度作为第三维度(图19中未示出)。

在该示例中，渲染器89被配置为借助于3D音频渲染技术(诸如下面关于图20更详细描述的虚拟单极合成)将分离的乐器192至195渲染为虚拟声源(3D对象)。在图19的示例中，用户位于由虚拟舞台上的乐器192至195组成的乐队的中心，并朝向人群196(例如，通过图6的人群歌唱模拟41和/或图12a、图12b的样本数据库46模拟)。例如，乐器192至195的放置p₁、p₂、p₃、p₄可以基于乐器在乐队中的预定义的标准放置。例如，根据标准放置，节奏吉他192的位置p₁可以在虚拟舞台的左前侧，主音吉他193的位置p₂可以在虚拟舞台的右前侧，鼓194的位置p₃可以在虚拟舞台的后面，低音吉他195的位置p₄也可以在虚拟舞台的后面。可替代地，也可以通过例如分析每个乐器的音频信号的平移、混响、声道间延迟或声道间相干性来从音频中提取这种位置信息(静态或动态)。

乐器192至195的放置p₁、p₂、p₃、p₄在整个卡拉OK表演期间可以是静态的，或者可以是动态的，这种动态是根据模拟乐队成员(鼓：静态的，主音吉他：动态的，等等)的真实运动的预定运动模式或运动模型。

当执行音频渲染时，3D音频渲染器89考虑用户191的位置p_u和朝向d。例如，当执行音频渲染时，3D音频渲染器89将虚拟舞台上的乐器192至195的位置p₁、p₂、p₃、p₄转换成用户头部的局部坐标系198。然后，根据他们在用户头部的局部坐标系198中的位置，在用户佩戴的耳机上例如用双耳技术创建相应的虚拟声源。

3D音频渲染

图20提供了基于数字化单极子合成算法的3D音频渲染技术的实施方式。例如，可以通过图18的渲染器89或者图4和图5的渲染器45应用这种渲染技术。

在专利申请US2016/0037282 A1中更详细地描述这种渲染技术的理论背景，该专利申请通过引用结合于此。

在US2016/0037282 A1的实施方式中实现的技术在概念上类似于波场合成，其使用有限数量的声学外壳来生成定义的声场。然而，实施方式的生成原理的基本基础是特定的，因为合成并不试图精确地建模声场，而是基于最小二乘法。

目标声场被建模为放置在定义的目标位置的至少一个目标单极。在一个实施方式中，目标声场被建模为一个单个目标单极。在其他实施方式中，目标声场被建模为放置在相应定义的目标位置的多个目标单极。目标单极的位置可能正在移动。例如，目标单极可以适应要衰减的噪声源的运动。如果使用多个目标单极来表示目标声场，则基于一组定义的合成单极(如以下将描述的)来合成目标单极的声音的方法可以独立地应用于每个目标单极，并且可以对每个目标单极获得的合成单极的贡献进行求和，以重构目标声场。

源信号x(n)被馈送到由标记的延迟单元和放大单元a_p，其中，p＝1,…,N是用于合成目标单极信号的相应合成单极的索引。根据该实施方式的延迟和放大单元可以应用US2016/0037282 A1的等式(117)来计算产生的信号y_p(n)＝s_p(n)，其用于合成目标单极信号。产生的信号s_p(n)被功率放大并馈送到扬声器s_p。

在该实施方式中，因此，以源信号x的延迟和放大分量的形式执行合成。

根据该实施例，索引为p的合成单极的延迟n_p对应于目标单极r₀和发生器r_p之间的欧几里德距离r＝R_p0＝|r_p-r₀|的声音的传播时间。对于聚焦声源的合成，延迟是反转的(n_p为负值)。由于这导致了非因果***，在实践中，这是通过使用缓冲解决方案来实现的，其中缓冲大小被选择为覆盖将源放置在扬声器的区域内所必需的假定延迟范围。例如，如果从扬声器到聚焦源的最大距离是Rmax，则缓冲大小应该是整数值其中c是声速，并且f_s是***的采样率。/>

此外，根据该实施方式，放大系数与距离r＝R_p0成反比。

在***的替代实施方式中，可以使用根据US2016/0037282 A1的等式(118)的修改的放大因子。

在该***的又一替代实施方式中，关于US2016/0037282 A1的图9所述的映射因子可以用于修改放大。

实现方式

图21示意性地描述了能够实现具有如上所述的现场模式处理的卡拉OK***的电子设备的实施方式。电子设备1200包括作为处理器的CPU 1201。电子设备1200还包括连接到处理器1201的麦克风阵列1210、扬声器阵列1211和卷积神经网络单元1220。例如，处理器1201可以实现音高移位器、共振峰移位器、混响、源分离、串音模拟、抖动模拟或均衡器，其实现关于图4至图17更详细描述的处理。例如，DNN 1220可以是硬件中的人工神经网络，例如，GPU上的神经网络或专用于实现人工神经网络的任何其他硬件。例如，DNN 1220可以实现源分离(图2中的12、图8中的81)或动态均衡(图11b中的112)。扬声器阵列1211(诸如，关于图2描述的扬声器***19)通过分布在预定空间上的一个或多个扬声器组成，并且被配置为呈现任何种类的音频(诸如，3D音频)。电子设备1200还包括连接到处理器1201的用户界面1212。该用户界面1212用作人机界面，并且实现用户和电子***之间的对话。例如，用户可以使用该用户界面1212对***进行配置。电子设备1200还包括以太网接口1221、蓝牙接口1204和WLAN接口1205。这些单元1204、1205充当与外部设备进行数据通信的I/O接口。例如，具有以太网、WLAN或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口1221、1204和1205耦接到处理器1201。电子设备1200还包括数据存储装置1202和数据存储器1203(此处是RAM)。数据存储器1203被设置为临时存储或缓存数据或计算机指令，以供处理器1201处理。数据存储装置1202被设置为长期存储装置，例如，用于记录从麦克风阵列1210获得的并被提供给DNN 1220或从DNN 1220检索的传感器数据。数据存储器1202还可以存储音频样本(例如，图12a和12b中的样本数据库143)。

应当注意，上面的描述仅仅是示例配置。可以使用附加的或其他的传感器、储存装置、接口等来实现替代配置。

应该认识到，实施方式以方法步骤的示例性顺序描述了方法。然而，方法步骤的特定顺序仅仅是出于说明的目的而给出，不应该被解释为具有约束力。

还应注意，将图21的电子设备划分成单元仅出于说明目的，并且本公开不限于特定单元中的任何特定功能划分。例如，至少部分电路可以通过分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。

如果没有另外说明，在本说明书中描述的和在所附权利要求中要求保护的所有单元和实体可以被实现为例如芯片上的集成电路逻辑，并且如果没有另外说明，由这样的单元和实体提供的功能可以通过软件实现。

就上述本公开的实施方式而言，至少部分地使用软件控制的数据处理装置来实施，应当理解，将提供这样的软件控制的计算机程序以及通过其提供这样的计算机程序的传输、存储或其他介质设想为本公开的方面。

注意，本技术也可以被配置为如下所述。

(1)一种电子设备，包括电路，所述电路被配置为根据现场模式处理(17)来处理伴奏信号(s_acc(n))，以获得增强伴奏信号(s_acc*(n))。

(2)根据(1)所述的电子设备，其中，现场模式处理(17)被配置为给予增强伴奏信号(s_acc*(n))的听众好像他是音乐会的一部分的感觉。

(3)根据(1)或(2)所述的电子设备，其中，现场模式处理(17)被配置为通过房间模拟器(44)处理伴奏信号(s_acc(n))，以获得混响信号(s_{amb_rev}(n)，s_{harm_rev}(n))。

(4)根据(3)所述的电子设备，其中，现场模式处理(17)被配置为通过渲染器(45)处理混响信号(s_{amb_rev}(n)，s_{harm_rev}(n))，以获得渲染混响信号(s_{amb_rev,3D}(n)，s_{harm_rev,3D}(n))。

(5)根据(4)所述的电子设备，其中，渲染器(45)是3D音频渲染器(45；43,171)、双耳渲染器(45)或向上混音器(43,171)。

(6)根据(1)至(5)中任一项所述的电子设备，其中，现场模式处理(17)被配置为通过主要环境提取(43)或通过谐波打击源分离(48)来处理伴奏信号(s_acc(n))，以分别获得伴奏信号(s_acc(n))的环境部分(s_amb(n))或谐波部分(s_harm(n))。

(7)根据(6)所述的电子设备，其中，现场模式处理(17)被配置为通过房间模拟器(44)处理环境部分(s_amb(n))或者谐波部分(s_harm(n))，以分别获得环境混响(s_{amb_rev}(n))或者谐波混响(s_{harm_rev}(n))。

(8)根据(1)至(7)中任一项所述的电子设备，其中，现场模式处理(17)通过描述歌手的位置的现场模式参数(SINGER LOCATION)和/或描述舞台的现场模式参数(VENUE)来控制。

(9)根据(1)至(8)中任一项所述的电子设备，其中，现场模式处理(17)被配置为通过人群歌唱模拟(41)处理人声信号(s_vocals(n))，以获得人群人声信号(s_crowd(n))。

(10)根据(9)所述的电子设备，其中，人群歌唱模拟(41)包括多个音高和/或共振峰移位分支。

(11)根据(1)至(10)中任一项所述的电子设备，其中，现场模式处理(17)被配置为基于现场音效(42)处理伴奏信号(s_acc(n))，以获得现场伴奏信号(s_{acc_live}(n))。

(12)根据(11)所述的电子设备，其中，现场音效处理(42)包括源分离(81)。

(13)根据(11)所述的电子设备，其中，现场音效处理(42)包括麦克风串音模拟(82)。

(14)根据(11)所述的电子设备，其中，现场音效处理(42)包括抖动模拟(83)。

(15)根据(11)所述的电子设备，其中，现场音效处理(42)包括均衡化(85)。

(16)根据(1)至(15)中任一项所述的电子设备，其中，现场模式处理(17)包括从样本数据库(143)获得样本。

(17)根据(4)至(16)中任一项所述的电子设备，该电子设备被配置为在渲染增强伴奏信号(s_acc*(n))时，使用关于在房间中的用户的当前位置(p_u)的信息和/或关于他凝视或倾斜的方向的信息(d)。

(18)根据(1)至(17)中任一项所述的电子设备，还包括混音器(18)，该混音器(18)被配置为将增强伴奏信号(s_acc*(n))与用户的人声信号(s_user(n))进行混音。

(19)根据(12)至(18)中任一项所述的电子设备，其中，现场音效处理(42)包括渲染器(89)，该渲染器(89)被配置为渲染通过源分离(81)获得的源(s_{inst-jitter,1}(n)，…，s_{inst-jitter,N}(n))。

(20)根据(19)所述的电子设备，其中，渲染器(89)被配置为从传感器接收信息，并且基于这种传感器信息确定用户的当前位置(p_u)和/或关于他凝视或倾斜的方向(d)的信息。

(21)根据(20)所述的电子设备，其中，渲染器(89)被配置为使用关于用户的当前位置的信息和/或关于他凝视或倾斜的方向的信息。

(22)一种根据现场模式处理(17)来处理伴奏信号(s_acc(n))以获得增强伴奏信号(s_acc*(n))的方法。

(23)一种包括指令的计算机程序，该指令在由处理器执行时，指示处理器执行(19)所述的方法。

Claims

1.一种电子设备，包括电路，所述电路被配置为根据现场模式处理(17)来处理伴奏信号(s_acc(n))，以获得增强伴奏信号(s_acc*(n))。

2.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)被配置为给予所述增强伴奏信号(s_acc*(n))的听众仿佛他是音乐会的一部分的感觉。

3.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)被配置为通过房间模拟器(44)处理所述伴奏信号(s_acc(n))，以获得混响信号(s_{amb_rev}(n)，s_{harm_rev}(n))。

4.根据权利要求3所述的电子设备，其中，所述现场模式处理(17)被配置为通过渲染器(45)处理所述混响信号(s_{amb_rev}(n)，s_{harm_rev}(n))，以获得经渲染的混响信号(s_{amb_rev,3D}(n)，s_{harm_rev,3D}(n))。

5.根据权利要求4所述的电子设备，其中，所述渲染器(45)是3D音频渲染器(45；43，171)、双耳渲染器(45)或者向上混音器(43，171)。

6.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)被配置为通过主要环境提取(43)或者通过谐波打击源分离(48)来处理所述伴奏信号(s_acc(n))，以分别获得所述伴奏信号(s_acc(n))的环境部分(s_amb(n))或谐波部分(s_harm(n))。

7.根据权利要求6所述的电子设备，其中，所述现场模式处理(17)被配置为通过房间模拟器(44)处理所述环境部分(s_amb(n))或者所述谐波部分(s_harm(n))，以分别获得环境混响(s_{amb_rev}(n))或者谐波混响(s_{harm_rev}(n))。

8.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)通过描述歌手位置的现场模式参数(歌手位置)和/或描述舞台的现场模式参数(场地)来控制。

9.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)被配置为通过人群歌唱模拟(41)处理人声信号(s_vocals(n))，以获得人群人声信号(s_crowd(n))。

10.根据权利要求9所述的电子设备，其中，所述人群歌唱模拟(41)包括多个音高和/或共振峰移位分支。

11.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)被配置为基于现场音效(42)处理所述伴奏信号(s_acc(n))，以获得现场伴奏信号(s_{acc_live}(n))。

12.根据权利要求11所述的电子设备，其中，现场音效处理(42)包括源分离(81)。

13.根据权利要求11所述的电子设备，其中，现场音效处理(42)包括麦克风串音模拟(82)。

14.根据权利要求11所述的电子设备，其中，现场音效处理(42)包括抖动模拟(83)。

15.根据权利要求11所述的电子设备，其中，现场音效处理(42)包括均衡化(85)。

16.根据权利要求1所述的电子设备，其中，所述现场模式处理(17)包括从样本数据库(143)获得样本。

17.根据权利要求4所述的电子设备，被配置为在渲染所述增强伴奏信号(s_acc*(n))时，使用关于在房间中的用户的当前位置(p_u)的信息和/或关于他凝视或倾斜的方向的信息(d)。

18.根据权利要求1所述的电子设备，还包括混音器(18)，所述混音器(18)被配置为将所述增强伴奏信号(s_acc*(n))与用户的人声信号(s_user(n))进行混音。

19.根据权利要求12所述的电子设备，其中，所述现场音效处理(42)包括渲染器(89)，所述渲染器(89)被配置为渲染通过所述源分离(81)获得的源(s_{inst-jitter,1}(n)，…，s_{inst-jitter,N}(n))。

20.根据权利要求19所述的电子设备，其中，所述渲染器(89)被配置为从传感器接收信息，并且基于这种传感器信息确定用户的当前位置(p_u)和/或关于他凝视或倾斜的方向(d)的信息。

21.根据权利要求20所述的电子设备，其中，所述渲染器(89)被配置为使用关于所述用户的所述当前位置的信息和/或关于他凝视或倾斜的所述方向的信息。

22.一种根据现场模式处理(17)来处理伴奏信号(s_acc(n))以获得增强伴奏信号(s_acc*(n))的方法。

23.一种包括指令的计算机程序，所述指令在由处理器执行时，指示所述处理器执行权利要求19所述的方法。