CN113039815A

CN113039815A - 声音生成方法及执行其的装置

Info

Publication number: CN113039815A
Application number: CN201980073791.1A
Authority: CN
Inventors: 裴永植
Original assignee: Whoborn Inc
Current assignee: Whoborn Inc
Priority date: 2018-11-09
Filing date: 2019-11-08
Publication date: 2021-06-25
Anticipated expiration: 2039-11-08
Also published as: US20220021998A1; CN113039815B

Abstract

公开一种声音生成方法及执行其的装置。一个实施例的声音生成方法包括：获得实际空间发生的实际声音及虚拟空间发生的播放声音的步骤；将所述实际声音及所述播放声音组合而生成在所述实际空间与所述虚拟空间混合的混合现实中发生的组合声音的步骤。

Description

声音生成方法及执行其的装置

技术领域

以下实施例涉及声音生成方法及执行其的装置。

背景技术

最近，可以向使用者提供多样的3D音频专用内容。例如，最近可以输出独立地录音的3D声音，向使用者提供3D音频专用内容。

3D音频专用内容作为3D声音，可以是利用如上所述独立录音的3D声音而生成的多样内容。例如，最近正在对普通2D声音(或音响)执行方向性和自动化计算而生成多样的3D音频专用内容。3D音频专用内容可以是对普通2D声音应用了3D音响变换及输出技术的声音内容。

3D音频专用内容相比原有3D声音内容，具有高沉浸和现实感可再现的优点。

发明内容

实施例可以提供一种将在实际空间发生的实际声音与在虚拟空间发生的虚拟声音组合而生成在实际空间与虚拟空间混合的混合现实中发生的组合声音的技术。

另外，实施例可以提供一种将2D声轨的多个2D客体声音分别变换成3D客体声音而生成反映3D客体声音的3D声轨的技术。

一个实施例的声音生成方法可以包括：获得实际空间发生的实际声音及虚拟空间发生的播放声音的步骤；将所述实际声音及所述播放声音组合而生成在所述实际空间与所述虚拟空间混合的混合现实中发生的组合声音的步骤。

所述生成的步骤可以包括：在所述实际声音包括的多个实际客体声音中选择至少一个实际客体声音的步骤；在所述播放声音包括的多个虚拟客体声音中选择至少一个虚拟客体声音的步骤；将所述至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音的步骤。

所述多个实际客体声音可以是从位于所述实际空间的多个实际客体发生的声音。

所述多个虚拟客体声音可以是从位于所述虚拟空间的多个虚拟客体发生的声音。

所述选择至少一个实际客体声音的步骤可以包括：基于客体声音的特性来识别所述多个实际客体声音的步骤；基于实际声音选择条件而在所述多个实际客体声音中选择性地提取所述至少一个实际客体声音的步骤。

所述识别的步骤可以包括：基于噪声过滤技法而从所述实际声音中去除噪声声音的步骤；基于所述客体声音的频率及音量中至少一者而从所述去除噪声声音的实际声音中识别所述多个实际客体声音的步骤。

所述生成的步骤可以包括：基于与所述至少一个实际客体声音对应的实际客体的位置来调节所述至少一个实际客体声音的音量的步骤；将调节了音量的至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音的步骤。

所述调节的步骤可以包括：基于所述至少一个实际客体声音的声音获得时间而在所述实际空间中决定所述实际客体的位置的步骤；基于所述使用者的位置与所述实际客体的位置间的隔开距离来调节所述至少一个实际客体声音的音量的步骤。

一个实施例的装置可以包括包含指令的存储器、用于运行所述指令的处理器，所述处理器可以获得实际空间发生的实际声音及虚拟空间发生的播放声音，将所述实际声音及所述播放声音组合而生成在所述实际空间与所述虚拟空间混合的混合现实中发生的组合声音。

所述处理器可以在所述实际声音包括的多个实际客体声音中选择至少一个实际客体声音，在所述播放声音包括的多个虚拟客体声音中选择至少一个虚拟客体声音，将所述至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音。

所述处理器可以基于客体声音的特性来识别所述多个实际客体声音，基于实际声音选择条件而在所述多个实际客体声音中选择性地提取所述至少一个实际客体声音。

所述处理器可以基于噪声过滤技法而从所述实际声音中去除噪声声音，基于所述客体声音的频率及音量中至少一者而从所述去除噪声声音的实际声音中识别所述多个实际客体声音。

所述处理器可以基于与所述至少一个实际客体声音对应的实际客体的位置来调节所述至少一个实际客体声音的音量，将调节了音量的至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音。

所述处理器可以基于所述至少一个实际客体声音的声音获得时间而在所述实际空间中决定所述实际客体的位置，基于所述使用者的位置与所述实际客体的位置间的隔开距离来调节所述至少一个实际客体声音的音量。

另一实施例的声音生成方法包括：提取2D声轨包含的多个2D客体声音的步骤；对所述多个2D客体声音分别应用多个双耳效应而将所述多个2D客体声音变换成多个3D客体声音的步骤；基于所述多个3D客体声音而生成3D声轨的步骤。

所述多个2D客体声音可以是按所述2D声轨中的频率及客体中某一者分离的声音。

所述提取的步骤可以包括：利用均衡器效应(equalizer effect)，按频带分离所述2D声轨，提取所述多个2D客体声音的步骤。

所述提取的步骤可以包括：利用声音探测(sound detecting)，按客体分离所述2D声轨，提取所述多个2D客体声音的步骤。

所述变换的步骤可以包括：在所述多个2D客体声音中，对第一2D客体声音应用第一双耳效应而生成第一3D客体声音的步骤；在所述多个2D客体声音中，对第二2D客体声音应用第二双耳效应而生成第二3D客体声音的步骤。

所述第一双耳效应及所述第二双耳效应可以是彼此不同或彼此相同的双耳效应。

所述生成第一3D客体声音的步骤可以包括：决定对所述第一2D客体声音的第一3D定位的步骤；对第一2D客体声音应用所述第一3D定位及所述第一双耳效应而生成所述第一3D客体声音的步骤。

所述生成第二3D客体声音的步骤可以包括：与所述第一3D定位不同地决定对所述第二2D客体声音的第二3D定位的步骤；对所述第二2D客体声音应用所述第二3D定位及所述第二双耳效应而生成所述第二3D客体声音的步骤。

所述生成的步骤可以包括统合所述多个3D客体声音而生成所述3D声轨的步骤。

另一实施例的声音生成装置可以包括包含指令的存储器、用于运行所述指令的处理器，所述处理器可以提取2D声轨包括的多个2D客体声音，对所述多个2D客体声音分别应用多个双耳效应，将所述多个2D客体声音变换成多个3D客体声音，基于所述多个3D客体声音而生成3D声轨。

所述多个2D客体声音可以是在所述2D声轨中按频率及客体中某一者分离的声音。

所述处理器可以利用均衡器效应(equalizer effect)，按频带分离所述2D声轨，提取所述多个2D客体声音。

所述处理器可以利用声音探测(sound detecting)，按客体分离所述2D声轨，提取所述多个2D客体声音。

所述处理器可以在所述多个2D客体声音中对第一2D客体声音应用第一双耳效应而生成第一3D客体声音，在所述多个2D客体声音中对第二2D客体声音应用第二双耳效应而生成第二3D客体声音。

所述处理器可以决定对所述第一2D客体声音的第一3D定位，对第一2D客体声音应用所述第一3D定位及所述第一双耳效应而生成所述第一3D客体声音。

所述处理器可以与所述第一3D定位不同地决定对所述第二2D客体声音的第二3D定位，对所述第二2D客体声音应用所述第二3D定位及所述第二双耳效应而生成所述第二3D客体声音。

所述处理器可以统合所述多个3D客体声音生成所述3D声轨。

附图说明

图1示出一个实施例的声音生成***的概略框图。

图2示出图1所示的声音生成装置的概略框图。

图3示出用于说明图1所示的声音提供装置的一个示例。

图4示出用于说明图1所示的声音提供装置的一个示例或用于说明图3所示的第一提供装置的一个示例。

图5示出用于说明图1所示的声音生成装置的一个示例或用于说明图3所示的第二提供装置的一个示例。

图6示出用于说明图1所示的声音输出装置的一个示例。

图7示出用于说明图1所示的声音输出装置的另一示例。

图8示出用于说明作为入耳式耳机的声音输出装置的一个示例。

图9示出用于说明作为入耳式耳机的声音输出装置的另一示例。

图10示出用于说明一个实施例的组合声音的一个示例。

图11示出用于说明图1所示的声音生成装置的动作的顺序图。

图12示出另一实施例的声音生成***。

图13示出用于说明图12所示的声音生成装置的动作的一个示例。

图14示出用于说明图13所示的处理器的动作的顺序图。

最佳实施方式

下面参照附图，详细说明实施例。但是，可以对实施例施加多样变更，专利申请的权利范围并非由这种实施例限制或限定。应理解为对实施例的所有变更、均等物以及替代物包含于权利范围。

实施例中使用的术语只用于说明的目的，不得解释为要限定之意。只要在文理上未明确地表示不同，单数的表现包括复数的表现。在本说明书中，“包括”或“具有”等术语是要指定在说明书上记载的特征、数字、步骤、动作、构成要素、部件或它们的组合的存在，应理解为不预先排除一个或一个以上的其它特征或数字、步骤、动作、构成要素、部件或它们的组合的存在或附加可能性。

第一、第二等术语可以用于说明多样的构成要素，但构成要素不得由术语所限定。术语只用于将一个构成要素区别于其他构成要素的目的，例如在不超出实施例概念的权利范围情况下，第一构成要素可以命名为第二构成要素，类似地，第二构成要素也可以命名为第一构成要素。

只要未不同地定义，包含技术性或科学性术语在内，在此使用的所有术语具有与实施例所属技术领域普通技术人员一般理解的内容相同的意义。诸如一般使用的字典中定义的术语，应解释为具有与相关技术的文理上具有的意义一致的意义，只要在本申请中未明确定义，不得过于地或过度地解释为形式上的意义。

另外，在参照附图进行说明方面，与附图标号无关，相同的构成要素赋予相同的附图标记，省略对此的重复说明。在说明实施例方面，当判断认为对相关公知技术的具体说明可能不必要地混淆实施例要旨时，省略该详细说明。

本说明书中的模块(module)既可以意味着能够执行本说明书中说明的各名称的功能和动作的硬件，也可以意味着能够执行特定功能和动作的计算机程序代码，或者可以意味着搭载了可执行特定功能和动作的计算机程序代码的电子记录介质，例如处理器或微处理器。

换言之，所谓模块，可以意味着用于执行本发明技术思想的硬件及/或用于驱动所述硬件的软件的功能性及/或结构性结合。

下面参照附图，详细说明实施例。但是，并非专利申请的范围由这些实施例所限制或限定。各附图中提示的相同的附图标记代表相同的构件。

图1示出一个实施例的声音生成***的概略框图。

声音生成***10包括声音提供装置100及声音生成装置300。

声音提供装置100可以在生成(或录制)将向使用者(或听者)提供的播放声音(play sound)后，将播放声音提供给声音生成装置300。播放声音可以多种多样，如3D音源及3D虚拟现实(VR：virtual reality)声音内容等。

播放声音可以是虚拟空间发生的声音。虚拟空间可以是为了提供反映空间感及现场感的3D声音而体现的3D虚拟空间(或3D虚拟现实)。

声音提供装置100可以在生成(或录制)2D声轨后，将2D声轨提供给声音生成装置300。

2D声轨可以是听者能够以立体声或单声轨的单方向性声轨收听的声音。例如，2D声轨可以多种多样，如2D音源、2D语音及2D虚拟现实(VR：virtual reality)声音等。

2D声轨可以包括多个客体声音。多个客体声音分别作为2D声音，可以是从多个客体分别发生的客体声音。

声音生成装置300可以将实际空间发生的实际声音与虚拟空间发生的虚拟声音组合，生成在实际空间与虚拟空间混合的混合现实中发生的组合声音(或混合声音：mixedreality sound)。

因此，声音生成装置300可以提供使使用者认为置身于实际空间与虚拟空间混合的混合空间的高沉浸感的声音。

声音生成装置300选择性地组合实际声音及虚拟声音而提供多样的立体声音，从而可以提供面向使用者定制化(或个人化)的3D声音。

声音生成装置300不完全去除实际声音，而是将实际声音与播放声音混合提供，从而让使用者认知在实际空间发生的状况，可以确保使用者的安全。

声音生成装置300可以将2D声轨的多个2D客体声音分别变换成3D客体声音，生成反应3D客体声音的3D声轨。

因此，声音生成装置300可以将3D效果的3D方向性反应于各个2D客体声音，提供多样形态的高沉浸感的3D声音(或3D内容)。

声音生成装置300只利用2D声轨来生成3D声轨，从而可以容易地生成3D声轨。

声音生成装置300可以通过作为3D声音(或3D音频)特征的3D声轨的方向再现，生成在耳鸣治疗或耳鸣诊断等中也能够利用的3D声轨。例如，声音生成装置300可以将基于频带的位置再现反应于3D声轨，生成可用于实质性耳鸣治疗及耳鸣诊断的3D声轨。

声音输出装置500可以获得实际空间发生的实际声音(real sound)。实际空间可以是要收听组合声音的使用者所在的空间。

例如，声音输出装置500可以追踪使用者的头部(或进行头部追踪(headtracking))，感知(或传感、获得)使用者的头部方向(或使用者的注视点、使用者的视线)。

声音输出装置500可以通过位于使用者两侧方向的声音输出装置500的麦克风，获得基于使用者头部方向的3D实际声音。两侧方向作为与使用者的双耳对应的方向，可以是右耳方向及左耳方向。

声音输出装置500可以将实际声音、关于实际声音的声音获得信息及/或使用者的头部方向信息传输给声音生成装置300。

声音输出装置500可以接收从声音生成装置300传输的组合声音并输出(提供)给使用者。

因此，使用者可以通过声音输出装置500，收听在实际空间及虚拟空间混合的混合现实中发生的组合声音。

声音提供装置100、声音生成装置300和声音输出装置500独立地区别构成，但并非限定于此。例如，声音提供装置100可以包含于声音生成装置300而体现，声音生成装置300可以包含于音输出装置500而体现。

图2示出图1所示的声音生成装置的概略框图。

声音生成装置300可以包括通信模块310、存储器330及处理器350。

通信模块310可以接收从声音提供装置100传输的2D声轨或播放声音并传输给处理器350。

通信模块310可以接收从声音输出装置100传输的实际声音、关于实际声音的声音获得时间信息及/或关于使用者头部方向的信息并传输给处理器350。

通信模块310可以接收从处理器350传输的组合声音并传输给声音输出装置100。

存储器330可以存储能借助于处理器350而运行的指令(或者程序)。例如，指令可以包括用于运行处理器350的动作及/或处理器350的各构成的动作的指令。

处理器350可以处理存储器330中存储的数据。处理器350可以运行存储器330中存储的计算机可读代码(例如，软件)及借助于处理器350而诱发的指令(instruction)。

处理器350可以是用具有电路的硬件体现的数据处理装置，其中，所述电路具有用于运行所希望的动作(desired operations)的物理结构。例如，所希望的动作可以包括程序包含的代码(code)或指令(instructions)。

例如，用硬件体现的数据处理装置可以包括微处理器(microprocessor)、中央处理器(central processing unit)、处理器内核(processor core)、多核处理器(multi-core processor)、多处理器(multiprocessor)、专用集成电路(ASIC：Application-Specific Integrated Circuit)、现场可编程门阵列(FPGA：Field ProgrammableGateArray)。

处理器350可以控制声音生成装置300的全面动作。例如，处理器350可以控制声音生成装置300的各构成(310及330)的动作。

处理器350可以获得从声音输出装置500传输的实际声音、关于实际声音的声音获得时间信息及/或关于使用者头部方向的信息。

实际声音可以包括多个实际客体声音。多个实际客体声音分别可以是从位于实际空间的多个实际客体分别发生的声音。从实际客体发生的声音可以是与实际客体对应的客体声音。实际客体可以多种多样，如位于实际空间的人物、动物、器物等。与实际客体对应的客体声音可以多种多样，如位于实际空间的人物的话音、动物的叫声及脚步声、车辆的鸣笛声等。

关于实际声音的声音获得时间信息可以包括多个实际客体声音各自的声音获得时间。在右耳方向获得的实际客体声音与在左耳方向获得的实际客体声音的声音获得时间可以彼此不同。

处理器350可以获得从声音提供装置100传输的播放声音。

播放声音可以包括多个虚拟客体声音。多个虚拟客体声音可以分别是从配置于虚拟空间的多个虚拟客体分别发生的声音。从虚拟客体发生的声音可以是作为与虚拟客体对应的客体声音而预先录制的及/或预先生成的客体声音(object sound)。当播放声音为3D音源时，虚拟客体可以是鼓、吉它、贝斯、歌唱等构成音源的多样客体。当播放声音为3D VR声音内容时，虚拟客体可以是与3D VR声音内容对应的构成3D虚拟现实中包含的人物、动物、器物等3D VR声音内容的多样客体。当播放声音为3D音源时，与虚拟客体对应的客体声音可以是预先录制的鼓声、吉它声、贝斯声及歌唱声等构成音源的多样声音。当播放声音为3D VR声音内容时，与虚拟客体对应的客体声音可以为预先录制的人物话音、动物叫声及脚步声、车辆的鸣笛声等构成3D VR声音内容的多样声音。

处理器350可以选择性地组合实际声音及播放声音而生成组合声音。

首先，处理器350可以在实际声音包含的多个实际客体声音中选择至少一个实际客体声音。

例如，处理器350可以基于已存储的客体声音的特性来识别实际声音包含的多个实际客体声音。客体声音的特性可以为客体声音的频率特性及音量特性。

处理器350可以基于噪声过滤技法，从实际声音中去除噪声声音。例如，处理器350可以分析实际空间发生的噪声，去除与普通噪声声音相应的声音。噪声声音可以是与普通噪声对应的声音。噪声声音可以是比与普通可听频率对应的声音高许多的声音。

处理器350可以基于预先存储的客体声音的频率及/或音量，在去除了噪声声音的实际声音中识别多个实际客体声音。例如，处理器350可以在去除了噪声声音的实际声音中，检测与预先存储的客体声音的频率及/或音量对应的声音，将检测的声音识别为多个实际客体声音。

处理器350可以基于实际声音选择条件，在多个实际客体声音中，选择性地提取从对使用者有危险的危险客体及/或使用者关注的关注客体发生的至少一个实际客体声音。实际声音选择条件可以设置成在多个实际客体声音中，选择与危险客体及关注客体对应的客体声音。危险客体及关注客体可以由使用者预先设置。

之后，处理器350可以在播放声音包含的多个虚拟客体声音中选择至少一个虚拟客体声音。

例如，处理器350可以基于使用者的动作，选择全部多个虚拟客体声音或选择一部分。使用者的动作可以多种多样，如使用者的头部旋转数、头部旋转速度等。

当使用者的头部旋转数为临界旋转数以上及/或使用者的头部旋转速度为临界旋转速度以上时，处理器350可以选择全部多个虚拟客体声音。

当使用者的头部旋转数不足临界旋转数及/或使用者的头部旋转速度不足临界旋转速度时，处理器350可以在多个虚拟客体声音中选择一部分。

如上所述，记载了选择全部多个虚拟客体声音或一部分的方式，但并非限定于此。处理器350可以彼此相反地应用选择全部多个虚拟客体声音或一部分的方式，选择虚拟客体声音。例如，处理器350可以在头部旋转数不足临界旋转数及/或头部旋转速度不足临界旋转速度的情况下，选择全部多个虚拟客体声音。处理器350可以在头部旋转数为临界旋转数以上及/或头部旋转速度为临界旋转速度以上的情况下，在多个虚拟客体声音中选择一部分。

当在多个虚拟客体声音中选择一部分时，处理器350可以基于使用者的头部方向，在多个虚拟客体声音中选择与位于使用者的头部方向的虚拟客体对应的虚拟客体声音。

最后，处理器350可以将至少一个实际客体声音与至少一个虚拟客体声音组合而生成组合声音。

例如，处理器350可以基于与至少一个实际客体声音对应的实际客体的位置来调节至少一个实际客体声音的音量。

处理器350可以基于关于至少一个实际客体声音的声音获得时间，在实际空间中决定与至少一个实际客体声音对应的实际客体的位置。

处理器350可以基于使用者的位置与实际客体的位置间的隔开距离，调节至少一个实际客体声音的音量。

例如，处理器350可以基于与隔开距离对应的临界音量与至少一个实际客体声音的音量来调节至少一个实际客体声音的音量。与隔开距离对应的临界音量可以预先设置。临界音量作为按使用者与客体间的隔开距离设置的音量范围，可以是对使用者无危险的音量范围。

至少一个实际客体声音的音量高于临界音量时，处理器350可以调低至少一个实际客体声音的音量，以便处于临界音量范围内。

至少一个实际客体声音的音量低于临界音量时，处理器350可以调高至少一个实际客体声音的音量，以便处于临界音量范围内。

处理器350可以将调节了音量的至少一个实际客体声音与至少一个虚拟客体声音组合而生成组合声音。

处理器350可以在通过通信模块310获得2D声轨后，提取2D声轨包含的多个2D客体声音。多个2D客体声音可以是从2D声轨中，按频率及客体中某一者分离的声音。

作为一个示例，处理器350可以利用均衡器效应(EQ：equalizer effect)，按频带分离2D声轨，提取2D声轨包含的多个2D客体声音。

作为另一示例，处理器350可以利用声音探测(sound detecting)，按客体分离2D声轨，提取2D声轨包含的多个2D客体声音。

处理器350可以对多个2D客体声音分别应用多个双耳效应(binaural effect)而将多个2D客体声音变换成多个3D客体声音。多个3D客体声音分别可以是将2D客体声音变换成3D客体声音的3D双耳声音。

处理器350可以在多个2D客体声音中，对第一2D客体声音应用第一双耳效应而生成第一3D客体声音。

例如，处理器350可以决定对第一2D客体声音的第一3D定位。处理器350可以对第一2D客体声音应用第一3D定位及第一双耳效应而生成第一3D客体声音。第一3D客体声音可以是将第一2D客体声音变换成3D声音的3D声音。

处理器350可以在多个2D客体声音中，对第二2D客体声音应用第二双耳效应而生成第二3D客体声音。

例如，处理器350可以与第一3D定位不同地决定对第二2D客体声音的第二3D定位。处理器350可以对第二2D客体声音应用第二3D定位及第二双耳效应而生成第二3D客体声音。第二3D客体声音可以是将第二2D客体声音变换成3D声音的3D声音。

上述的第一双耳效应及第二双耳效应可以是彼此不同或彼此相同的双耳效应。

处理器350可以基于多个3D客体声音而生成3D声轨。3D声轨可以是将2D声轨的2D声音变换成3D声音的声轨。

例如，处理器350可以统合(muxing)多个3D客体声音而生成多个3D客体声音统合的3D声轨。

下面为了便于说明，假定声音生成装置300在声音输出装置500内体现，将2D声轨假定为2D音源。

图3示出用于说明图1所示的声音提供装置的一个示例，图4示出用于说明图3所示的第一提供装置的一个示例，图5示出用于说明图3所示的第二提供装置的一个示例。

声音提供装置100作为生成逼真型3D音响内容的播放声音并提供给使用者使用的声音生成装置300的电子装置，可以为MP3播放器。播放声音可以多种多样，例如3D音源、3D语音及3D虚拟现实(VR：virtual reality)声音等。

电子装置可以是多种多样的装置，例如个人计算机(PC：personal computer)、数据服务器或便携电子装置等。便携电子装置可以用膝上型(laptop)计算机、移动电话、智能手机(smartphone)、平板(tablet)PC、移动互联网装置(mobile internet device(MID))、个人数码助理(PDA：personal digital assistant)、企业数字助理(EDA：enterprisedigital assistant)、数码相机(digital still camera)、数码摄像机(digital videocamera)、便携式多媒体播放器(PMP：portable multimedia player)、PND(个人导航仪或便携式导航仪)、掌上游戏机(handheld game console)、电子书(e-book)、智能设备(smartdevice)体现。此时，智能设备可以用智能手表(smart watch)或智能手环(smartband)体现。

声音提供装置100包括第一提供装置110及第二提供装置130。

第一提供装置110可以将预先录制的客体声音或普通的2D音频专用声音提供给第二提供装置130。例如，第一提供装置110可以以有线方式及/或无线方式，将客体声音或普通的2D音频专用声音提供给第二提供装置130。普通的2D音频专用声音可以为普通的单声轨或立体声及多声道音频。有线方式可以为USB(通用串行总线)、显示端口及HDMI(高清晰度多媒体接口)等多样的有线方式。无线方式可以为Wi-Fi(无线保真)、蓝牙等多样的无线方式。

第二提供装置130可以将客体声音反应于3D虚拟空间或将普通的2D音频专用声音变换成3D声音而生成播放声音。

例如，第二提供装置130可以利用双耳录制(binaural recoding)技术及/或双耳效应(binalural effect)技术来生成播放声音。双耳录制技术可以是利用3D麦克风来录制3D声音的技术。3D麦克风可以多种多样，例如360度麦克风及由多个构成的麦克风等。双耳效应可以是基于通过因人类双耳位置造成的声音传递差异的声音方向空间识别技术，通过立体扬声器来生成3D声音的技术。

第二提供装置130可以利用罗盘Mems及加速器Mems的声音信息，将虚拟客体配置于3D虚拟空间，使得与虚拟客体对应的客体声音可以反映于3D虚拟空间。第二提供装置110可以生成在反映了客体声音的3D虚拟空间发生的播放声音。

第二提供装置130可以将普通的2D音频专用声音变换成3D音频专用声音，生成变换成3D音频专用声音的播放声音。例如，变换成3D音频专用声音的播放声音可以是将非3D声音(或非3D音频、非3D音源)或5.1声道等多声道声音(或多声道音频)变换(或转换)成3D声音(或3D音频)的3D内容。3D内容可以多种多样，例如3D 5.1声道、3D 10.1声道等。

第二提供装置130可以以多样方式提供播放声音。

例如，第二提供装置130可以以1：N方式，向多个使用者分别使用的声音输出装置500提供播放声音。1：N方式可以是使播放声音提供给多个使用者的广播型方式。

第二提供装置130可以以N：N方式，选择性地向多个使用者分别使用的声音输出装置500提供多个播放声音。N：N方式可以是使多个播放声音选择性地提供给多个使用者的定制型方式。

第二提供装置130可以以N：1方式，将多个播放声音全部提供给单一使用者使用的声音输出装置500。N：1方式可以是使多个播放声音提供给单一使用者的服务密集型多路访问方式。

第二提供装置130可以以上述有线方式及/或无线方式，将播放声音提供给声音输出装置500。

图6示出用于说明图1所示的声音输出装置的一个示例，图7示出用于说明图1所示的声音输出装置的另一示例。

声音输出装置500可以是使用者为了收听播放声音或组合声音而使用的装置。

声音输出装置500可以以可穿戴(wearable)型、入耳(in-ear)型、贴耳(on-ear)型及脑波翻译(brain trans)型体现。

例如，声音输出装置500可以为以可穿戴型、入耳型、贴耳型及脑波翻译型体现的MP3播放器。MP3播放器可以以内置有独立运营的电池的形态，包括无线通信及处理器。可穿戴型可以是结合于使用者便利地佩戴的制品的类型。可穿戴型可以为发带、肩部附着型装置、套头衫及/或夹克及/或太空服等上衣附着型装置、护目镜及眼镜等。入耳型可以为耳机。贴耳型可以为头戴式耳机及头盔等。脑波翻译类型可以为脑波传输装置。

另外，声音输出装置500可以在利用HMD、智能眼镜、透视(See-thru)显示装置、多模态(例如，五感传感)等的感官型装置、骨传导音频装置中体现。

当声音输出装置500为入耳型、贴耳型时，声音输出装置500可以直接向使用者的耳朵输出播放声音或组合声音，让使用者直接收听。

当声音输出装置500为可穿戴型、脑波翻译型时，声音输出装置500可以感知使用者耳朵的位置，间接向使用者的耳朵输出播放声音或组合声音，让使用者间接收听。

声音输出装置500使用罗盘Mems、陀螺仪及加速器Mems等，对使用者的头部进行精密的头部追踪，从而可以以三维获得实际空间发生的实际声音。

另外，声音输出装置500可以提供能量收集(energyharvesting)功能、黑匣子(blackbox)功能等多样功能作为附加功能。例如，声音输出装置500具有将使用者接触部分的热转换成电能或将周边射频(RF：radio frequency)、周边声音转换成电能、将收听者移动的运动能量转换成电能的能量收集功能，无需另外的能量供应源便可驱动。

当声音输出装置500提供黑匣子功能时，黑匣子可以在内部及/或外部体现实质性的存储地位置。黑匣子可以通过利用内部存储器存储地及/或外部存储地和区块链的存储等多样方法来存储数据。外部存储地可以为诸如云连接的外部存储地。黑匣子可以利用诸如PKI的安全密钥作为安全性所需的接入者权限。

黑匣子可以为照相机内置型黑匣子及/或音频黑匣子及/或基于物理传感器的黑匣子。音频黑匣子可以实时存储周边声音及/或存储驱动中收发的音频数据，可以按存储时位置判读声音。音频黑匣子可以是包括危险及危险之后容易分析的3D音频存储及各客***置信息存储等在内的通过基于音频判读位置的基于声音的黑匣子。

黑匣子可以是拥有多样功能的黑匣子。黑匣子可以具有实时存储功能。例如，黑匣子可以包括实时通话、实时流媒体、实时周边录音功能，包括能够在必要时播放的功能。另外，黑匣子可以还包括存储保管实时信息的功能。

作为一个示例，黑匣子可以感知作为周边声音的事件，每隔特定时间实时存储。例如，黑匣子可以感知通话对话、重要对话、事故发生等，在感知发生时间起点前后几分钟存储(或记录)数据。此时，黑匣子可以不是始终存储的方式，而是执行基于事件的存储。

作为另一示例，黑匣子可以存储客体的位置信息。例如，黑匣子可以感知特定空间的器物或有声音的器物、动物及/或人物并判读为客体，将客体的位置信息存储为3D信息。此时，黑匣子可以反映感知发生时间起点前后几分钟及特定时间等进行存储。

作为另一示例，黑匣子可以实时存储在驱动中收发的收发通话内容或播放中的音源、流音频等音频数据及信息数据，或反映特定时间等进行存储。

作为又一示例，黑匣子也可以针对语音识别等通过声音的识别，通过空间及客体识别而进行基于3D位置的客体识别判读，用作空间存储或指示者控制等的界面。当多人在一个空间进行对话时，识别谁是使用者的使用者识别困难，因而黑匣子可以基于声音，执行3D空间识别，判别指示者，执行控制识别。此时，黑匣子可以用于实时以三维存储空间，并按客体进行存储。

下面为了便于说明，假定声音输出装置500为入耳式耳机。

图8示出用于说明作为入耳式耳机的声音输出装置的一个示例，图9示出用于说明作为入耳式耳机的声音输出装置的另一示例。

声音输出装置500可以为使用者佩戴的多个耳机510、530。

第一耳机510作为佩戴于使用者左耳的耳机，可以包括第一麦克风511、第一扬声器513及第一处理器515。

第二耳机530作为佩戴于使用者右耳的耳机，可以包括第二麦克风531、第二扬声器533及第二处理器535。

第一耳机510及第二耳机530可以包括声音生成装置300。

第一处理器515及第二处理器535可以彼此共享数据。

第一处理器515及第二处理器535可以通过第一麦克风511及第二麦克风531，过滤实际空间的噪声，获得实际声音。例如，第一处理器515及第二处理器535可以分析使用者周边的噪声信息，通过降噪功能，获得去除了噪声的实际声音。此时，通过第一麦克风511获得的实际声音的声音获得时间与通过第二麦克风513获得的实际声音的声音获得时间可以不同。

第一处理器515及第二处理器535可以基于通过第一麦克风511及第二麦克风531获得的实际声音的声音获得时间差异，将实际声音识别为与实际空间对应的3D实际声音。

第一处理器515及第二处理器535可以利用罗盘Mems追踪使用者的头部，获得使用者的头部方向。此时，第一处理器515及第二处理器535除罗盘Mems之外，也可以利用陀螺仪、加速器Mems等，执行更精密的头部追踪(head tracking)。

第一处理器515及第二处理器535可以将实际声音、通过第一麦克风511获得的实际声音的声音获得时间、通过第二麦克风513获得的实际声音的声音获得时间及使用者头部方向相关信息传输给声音生成装置300。

第一处理器515及第二处理器535可以通过第一扬声器513及第二扬声器533，输出播放声音或组合声音。

当输出播放声音时，第一处理器515及第二处理器535在通过作为声音提供装置100的MP3播放器获得播放声音后，可以通过3D音频转换，输出应用了3D音响效果的播放声音。应用了3D音响效果的播放声音可以为应用了诸如双耳效应的3D音频效果的声音。应用了3D音频效果的声音可以是根据扬声器个数而反映了多声道3D音频效果的声音。反映了多声道3D音频效果的声音可以多种多样，例如5.1声道声音、7.1声道声音及10.1声道声音等。

如图8所示，麦克风511、531)及扬声器531、533虽然图示为2个，但并非限定于此。例如，麦克风可以体现为多个，获得实际声音。扬声器可以体现为多个，输出播放声音或组合声音。

图10示出用于说明一个实施例的组合声音的一个示例。

组合声音可以是在虚拟空间及实际空间混合的混合空间发生的3D声音。虚拟空间可以多种多样，例如街道模式、森林、旅行地、追忆空间、宇宙空间等。实际空间可以是咖啡厅、餐厅等当前收听者所在的空间。混合空间可以多种多样，例如位于街道的咖啡厅、位于森林中的餐厅等。

具体而言，当使用者位于咖啡厅、使用者收听在宇宙空间发生的虚拟现实声音时，混合空间可以是咖啡厅与宇宙空间混合的空间。

当使用者位于餐厅、使用者收听在夏威夷发生的虚拟现实声音时，混合空间可以是餐厅与夏威夷混合的空间。

虚拟空间发生的虚拟客体声音可以是反映了位于虚拟空间内的虚拟客体的距离(声音大小)、位置(声音方向)及移动(声音大小及方向的变化)的3D声音。

实际空间发生的实际客体声音可以是反映了实际空间内实际客体的距离(声音大小)、位置(声音方向)及移动(声音大小及方向的变化)的3D声音。

图11示出用于说明图1所示的声音生成装置的动作的顺序图。

处理器350可以通过声音输出装置500的第一麦克风511及第二麦克风531获得实际声音1110。

处理器350可以基于过滤器(filter)，在实际声音中过滤多个实际客体声音1120。过滤器(filter)可以为实时过滤器(real time filter)等多样方式的音频过滤器。例如，处理器350可以基于噪声过滤技法，从实际声音中去除噪声声音1130。

处理器350可以基于客体声音的频率及音量中至少一者，在去除了噪声的实际声音中，检测与客体声音的频率及音量对应的声音1140。

处理器350可以将检测的声音识别为多个实际客体声音1140。

处理器350可以获得从声音提供装置500传输的播放声音1160。

处理器350可以将实际声音的多个实际客体声音中的至少一个实际客体声音与播放声音的多个虚拟客体声音中的至少一个虚拟客体声音组合而生成组合声音1170。

处理器350可以通过声音输出装置500的第一扬声器513及第二扬声器533，将组合声音提供给使用者1180。

下面参照图12至图14，对另一实施例的声音生成***进行说明。

图12示出另一实施例的声音生成***。

参照图1至图12说明的技术事项也可相同地适用于图12至图14的各构成。

声音生成***20包括声音提供装置100及声音生成装置300。

声音提供装置100可以将作为普通的2D音频专用声音的2D声轨提供给声音生成装置300。普通的2D音频专用声音可以是未应用3D声音效果录制的2D声音。

例如，声音提供装置100可以生成由多个客体声音构成的2D声轨。

声音提供装置100可以录制由多样乐器分别演奏的声音而生成2D声轨。

声音提供装置100可以将预先录制(或预先生成)的各乐器的客体声音组合而生成2D声轨。

声音提供装置100可以以有线通信方法及/或无线通信方法，将2D声轨传输给声音生成装置300。有线通信方式可以为利用USB(通用串行总线)、显示端口及HDMI(高清晰度多媒体接口)等多样的有线通信方式的通信方式。无线通信方式可以为利用Wi-Fi(无线保真)、蓝牙等多样的无线通信方式的通信方式。

声音生成装置300可以利用双耳效应技术，将多个2D客体声音分别配置于3D虚拟空间，将2D声轨变换成反映了3D虚拟空间的3D声轨。

双耳效应可以是基于通过因人类双耳位置造成的声音传递差异的声音方向空间识别技术，通过立体扬声器来生成3D声音的技术。

3D声轨可以是反映了声音的空间感、现场感及方向性的3D音频专用声音。3D音频专用声音可以是将非3D声音(或非3D音频、非3D音源)或5.1声道等多声道2D声音(或多声道2D音频)变换成3D的3D声音。3D音频专用声音可以是3D 2声道、3D 5.1声道、3D 10.1声道等多样声道的3D声音。

声音生成装置300可以以多样方式将3D声轨提供给电子装置。

电子装置可以为声音输出装置、个人计算机(PC：personal computer)、数据服务器或便携电子装置等多样的装置。便携电子装置可以用膝上型(laptop)计算机、移动电话、智能手机(smartphone)、平板(tablet)PC、移动互联网装置(mobile internet device(MID))、个人数码助理(PDA：personal digital assistant)、企业数字助理(EDA：enterprise digital assistant)、数码相机(digital still camera)、数码摄像机(digital video camera)、便携式多媒体播放器(PMP：portable multimedia player)、PND(个人导航仪或便携式导航仪)、掌上游戏机(handheld game console)、电子书(e-book)、智能设备(smart device)体现。此时，智能设备可以以智能手表(smart watch)或智能手环(smartband)体现。

例如，声音生成装置300可以以1：N方式，向多个收听者分别使用的声音输出装置提供3D声轨。1：N方式可以是使3D声轨提供给多个收听者的广播型方式。

声音生成装置300可以以N：N方式，选择性地向多个收听者分别使用的声音输出装置提供3D声轨。N：N方式可以是使多个3D声轨选择性地提供给多个收听者的定制型方式。

声音生成装置300可以以N：1方式，将多个3D声轨全部提供给单一收听者使用的声音输出装置。N：1方式可以是使多个3D声轨提供给单一使用者的服务密集型多路访问方式。

声音生成装置300可以以上述的有线通信方式及/或无线通信方式，将3D声轨提供给声音输出装置。

上述声音输出装置可以以可穿戴型、入耳型、贴耳型及脑波翻译型体现。

可穿戴型可以是结合(或佩戴)于收听者便利地佩戴的制品的类型。可穿戴型可以为发带、肩部附着型装置、套头衫及/或夹克及/或太空服等上的附着型装置、护目镜及眼镜等。入耳型可以为耳机。贴耳型可以为头戴式耳机及头盔等。脑波翻译类型可以为脑波传输装置。

另外，声音输出装置可以在利用HMD、智能眼镜、透视(See-thru)显示装置、多模态(例如，五感传感)等的感官型装置、骨传导音频装置中体现。

图13是示出用于说明图12所示的声音生成装置的动作的一个示例。

声音生成装置300可以包括通信模块310、存储器330及处理器350。关于各构成310、330及350的基本技术事项与图3中说明的事项实质上相同。

处理器350可以获得2D声轨。2D声轨可以为2声道立体声或1声道单声轨型的声音。

处理器350可以按客体及频率分离2D声轨，提取2D声轨包含的多个2D客体声音。

例如，处理器350可以利用声音检测而检测出2D声轨包含的多个2D客体声音。处理器350可以按与所检测的2D客体声音对应的客体分离2D声轨，分别提取作为各客体声音的多个2D客体声音。多个2D客体声音可以是小提琴声音、鼓声音、吉它声音、贝斯声音、电子琴声音及小号声音等多样的乐器声音。

处理器350可以对多个2D客体声音分别索引与多个2D客体声音分别对应的客体名称(或名字)，作为声轨(或音轨)进行管理(或存储)。例如，处理器350可以将小提琴索引到小提琴声音并作为第一2D声轨进行管理。处理器350可以将鼓索引到鼓声音并作为第二2D声轨进行管理。处理器350可以将吉它索引到吉它声音并作为第三2D声轨进行管理。处理器350可以将贝斯索引到贝斯声音并作为第四2D声轨进行管理。处理器350可以将电子琴索引到电子琴声音并作为第五2D声轨进行管理。处理器350可以将小号索引到小号声音并作为第六2D声轨进行管理。

处理器350可以不同地决定第一2D声轨至第六2D声轨的3D定位。

处理器350可以对第一2D声轨至第六2D声轨应用不同的3D定位及双耳效应，将第一2D声轨至第六2D声轨变换成第一3D声轨至第六3D声轨。此时，处理器350可以在将第一2D声轨至第六2D声轨分离为多个声道后，对分离为多个声道的第一2D声轨至第六2D声轨应用(或者渲染)双耳效应。

处理器350可以统合第一3D声轨至第六3D声轨而生成3D声轨。3D声轨可以是变换立体声或单声轨的2D声轨并应用了双耳效应的多声道3D声音。

图14示出用于说明图13所示的处理器的动作的顺序图。

处理器350可以获得从声音提供装置100传输的2D声轨610。

处理器350可以利用均衡器效应及/或声音检测技术，按频率及/或客体分离2D声轨，提取2D声轨包含的多个2D客体声音630。

处理器350可以通过双耳效应技术，对多个2D客体声音分别应用多个双耳效应，将多个2D客体声音变换成多个3D客体声音650。

处理器350可以统合多个3D客体声音，生成使2D声轨变换成3D声音的3D声轨670。

实施例的方法可以以能通过多样计算机装置而执行的程序命令形态体现，记录于计算机可读介质。所述计算机可读介质可以单独或组合包括程序命令、数据文件、数据结构等。在所述介质中记录的程序命令可以是为了实施例而特别设计构成的，或者也可以是计算机软件技术人员公知并可使用的。在计算机可读记录介质的示例中，包括诸如硬盘、软盘及磁带的磁介质(magnetic media)，诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质(optical media)，诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media)，及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中，不仅有借助于编译程序而制成的机器语言代码，还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行实施例的动作，可以构成得作为一个以上的软件模块运转，反之亦然。

软件可以包括计算机程序(computer program)、代码(code)、命令(instruction)或他们中一者以上的组合，构成处理装置以便使之按需要运转，或者独立地或联合(collectively)地命令处理装置。软件及/或数据为了被处理装置解析或者向处理装置提供命令或数据，可以在某种类型的机械、构成要素(component)、物理装置、虚拟装置(virtual equipment)、计算机存储介质或装置、或进行传输的信号波(signal wave)中永久地或暂时地具体化(embody)。软件也可以分布于通过网络连接的计算机***上，以分布方法存储或运行。软件及数据可以存储于一个以上的计算机可读记录介质。

如上所述，实施例虽然根据限定的附图进行了说明，但只要是相应技术领域的普通技术人员，便可以以上述为基础进行多样的技术修订及变形。例如，说明的技术可以按照不同于所说明方法的顺序执行，或者及/或说明的***、结构、装置、电路等构成要素可以按不同于说明的方法的形态进行结合或组合，或者可以被其他构成要素或均等物替代或置换，或者即使置换也可以达成适当的结果。

因此，不同的体现、不同的实施例及与权利要求书均等的内容也属于后述权利要求书的范围。

Claims

1.一种声音生成方法，包括：

获得实际空间发生的实际声音及虚拟空间发生的播放声音的步骤；及

将所述实际声音及所述播放声音组合而生成在所述实际空间与所述虚拟空间混合的混合现实中发生的组合声音的步骤。

2.根据权利要求1所述的声音生成方法，其中，

所述生成的步骤包括：

在所述实际声音包括的多个实际客体声音中选择至少一个实际客体声音的步骤；

在所述播放声音包括的多个虚拟客体声音中选择至少一个虚拟客体声音的步骤；及

将所述至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音的步骤。

3.根据权利要求2所述的声音生成方法，其中，

所述多个实际客体声音是从位于所述实际空间的多个实际客体发生的声音。

4.根据权利要求2所述的声音生成方法，其中，

所述多个虚拟客体声音是从位于所述虚拟空间的多个虚拟客体发生的声音。

5.根据权利要求2所述的声音生成方法，其中，

所述选择至少一个实际客体声音的步骤包括：

基于客体声音的特性来识别所述多个实际客体声音的步骤；及

基于实际声音选择条件而在所述多个实际客体声音中选择性地提取所述至少一个实际客体声音的步骤。

6.根据权利要求5所述的声音生成方法，其中，

所述识别的步骤包括：

基于噪声过滤技法而从所述实际声音中去除噪声声音的步骤；及

基于所述客体声音的频率及音量中至少一者而从所述去除噪声声音的实际声音中识别所述多个实际客体声音的步骤。

7.根据权利要求2所述的声音生成方法，其中，

所述生成的步骤包括：

基于与所述至少一个实际客体声音对应的实际客体的位置来调节所述至少一个实际客体声音的音量的步骤；及

将调节了音量的至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音的步骤。

8.根据权利要求7所述的声音生成方法，其中，

所述调节的步骤包括：

基于所述至少一个实际客体声音的声音获得时间而在所述实际空间中决定所述实际客体的位置的步骤；及

基于所述使用者的位置与所述实际客体的位置间的隔开距离来调节所述至少一个实际客体声音的音量的步骤。

9.一种装置，包括：

包含指令的存储器；及

用于运行所述指令的处理器；

所述处理器获得实际空间发生的实际声音及虚拟空间发生的播放声音，将所述实际声音及所述播放声音组合而生成在所述实际空间与所述虚拟空间混合的混合现实中发生的组合声音。

10.根据权利要求9所述的装置，其中，

所述处理器在所述实际声音包括的多个实际客体声音中选择至少一个实际客体声音，在所述播放声音包括的多个虚拟客体声音中选择至少一个虚拟客体声音，将所述至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音。

11.根据权利要求10所述的装置，其中，

12.根据权利要求10所述的装置，其中，

13.根据权利要求10所述的装置，其中，

所述处理器基于客体声音的特性来识别所述多个实际客体声音，基于实际声音选择条件而在所述多个实际客体声音中选择性地提取所述至少一个实际客体声音。

14.根据权利要求13所述的装置，其中，

所述处理器基于噪声过滤技法而从所述实际声音中去除噪声声音，基于所述客体声音的频率及音量中至少一者而从所述去除噪声声音的实际声音中识别所述多个实际客体声音。

15.根据权利要求10所述的装置，其中，

所述处理器基于与所述至少一个实际客体声音对应的实际客体的位置来调节所述至少一个实际客体声音的音量，将调节了音量的至少一个实际客体声音与所述至少一个虚拟客体声音组合而生成所述组合声音。

16.根据权利要求15所述的装置，其中，

所述处理器基于所述至少一个实际客体声音的声音获得时间而在所述实际空间中决定所述实际客体的位置，基于所述使用者的位置与所述实际客体的位置间的隔开距离来调节所述至少一个实际客体声音的音量。

17.根据权利要求9所述的装置，其中，

还包括具有实时存储功能的黑匣子。

18.根据权利要求17所述的装置，其中，

所述黑匣子包括实时通话、实时流媒体、实时周边录音功能，包括必要时能播放的功能。

19.根据权利要求17所述的装置，其中，

所述黑匣子包括存储保管实时信息的功能。