CN107710187A - 数字音频补充 - Google Patents

数字音频补充 Download PDF

Info

Publication number
CN107710187A
CN107710187A CN201680020316.4A CN201680020316A CN107710187A CN 107710187 A CN107710187 A CN 107710187A CN 201680020316 A CN201680020316 A CN 201680020316A CN 107710187 A CN107710187 A CN 107710187A
Authority
CN
China
Prior art keywords
sound
content
complementarity
audio
audible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201680020316.4A
Other languages
English (en)
Inventor
J·威尔逊
J·汤姆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fidelis Quist Co Ltd
Original Assignee
Fidelis Quist Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fidelis Quist Co Ltd filed Critical Fidelis Quist Co Ltd
Publication of CN107710187A publication Critical patent/CN107710187A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Stored Programmes (AREA)
  • Theoretical Computer Science (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)

Abstract

公开了一种由计算机实现的方法,所述方法包括:标识包含用于产生可听声音内容的数据的数字声音文件;标识并选择补充性声音内容的数字源;以及将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。

Description

数字音频补充
相关申请的交叉引用
本申请要求2015年2月13日提交的美国临时序列号62/115,732以及2016年1月19日提交的美国临时序列号62/280,582的权益。在先申请的本公开是本申请的公开的被考虑的部分(并且通过引用结合在其中)。
技术领域
本文献总体上描述了与处理数字音频文件(无论是固定的文件还是流)相关的技术,包括用于增强所感知到的音乐声音或来自此类文件的其他声音的计算机操作的改进。
背景技术
音乐、电影、以及其他媒体的发烧友和普通收听者永远追求完美录制的声音——完全且真实地重现现场效果的声音。以数字的方式录制的声音由于其精确度以及没有干扰噪声(例如,砰砰声、磁带嘶嘶声等)而通常被认为比模拟声音优良。与此同时,很多人不喜欢数字声音,因为其缺少温暖以及的现场、原始来源或甚至模拟录音中出现的其他难以量化的质量。
因而,数字录音与声音的认知性感知之间存在脱离。录制并再现的声音(尤其是以数字的方式录制的声音)针对相同的声音不能使收听者的大脑与亲自收听原始现场表演时收听者将体验的有同样的神经活动。音响工程师的一般意见是用模拟技术录制并再现的声音比用数字技术录制并再现的声音产生更逼真的再现。为了解决此类问题,尤其是对于数字录音,一些工程师在其录音时数字地仿真模拟录音器械的失真,比如录音磁带饱和和真空管非线性。工程师还可以通过将模拟器械(例如,模拟求和总线)***数字录音通路来将此类失真添加至另外的数字录音。另外,在通过增加录音中的数据内容来解决这个问题时,录音工程师可以简单地提高位深和样本率。
发明内容
本文献总体上描述了用于借助附加数字音频内容来补充、或标记原始数字音频内容(例如,来自电影的音乐或声音)的基于计算机的技术,所述附加数字音频内容在被播放给收听者时改善了收听者对音频的认知性感知。补充性素材被在亚声(sub-audible)级别***录音,并且可以采取各种形式,包括各种形式的非和谐声音、定制的随机噪声、以及被确定为对收听者有具体感知效果的其他类型的内容。此类感知效果可以包括使得音频信号的某个部分相对于其他声音对收听者突出,为具体声音创造更温暖的感觉,相对于录音中的其他声音提供收听者对具体声音的更大分辨率,再现与现场音乐收听者头脑中所实现的效果类似的其他效果,以及其他类似的积极效果。
所述技术触发人脑以大脑将对现场表演反应的方式相似的方式对录制的声音反应所必需的大脑活动。在某些实施例中,这是通过在录音中引入附加声音,处于附加声音在录音中不能被人听到的如此低的音量(“亚声”),但处于可以触发收听者的特定大脑活动的足够高的水平。补充性内容可以是亚声的,因为当在正常音量水平播放一个音频时它本质上低于听到的水平,或者当在提高的音量水平播放录音时它被主内容淹没。在某些情况下,补充性内容在音量上可以随着被补充的内容的音量的变化而成比例地变化。
补充性内容可以是各种形式的非和谐声音。仅作为一个示例,定制的白噪声或其他形式的定制的随机噪声可以在亚声级被添加至音乐或其他音频信号,从而为收听者提供更加愉悦的听觉体验。亚声内容在具体时间可以跨信号改变,比如通过应用于具体频率水平(例如,口语对话)或应用于多声道信号的具体声道(例如,应用于环绕声信号的中心声道从而比音频信号中的其他内容更多地影响收听者对口语对话的感知),从而使得信号的这种部分相对于信号的不那么重要的部分有“砰砰声”。被作为信号补充提供的亚声内容还可以随着时间而改变,比如通过当存在电影的对话部分时将亚声内容应用于此类部分,并且当不存在时将亚声内容应用于其他部分,和/或通过在不同时间改变亚声内容的类型(例如,将定制的白噪声应用于某些点,或应用于某些类型的主导主内容,并将定制的粉红噪声应用于其他类型的主内容,其中,噪声的定制可以尤其包括与主内容信号的音量变化成比例地调整噪声的音量水平)。补充性亚声内容的音量水平还可以与信号的可听主内容的音量水平呈正比例(无论是线性还是非线性)地变化——例如从而使得当音乐或其他内容更大声时亚声内容更大声(这可以逐声道地应用)。
所添加的亚声内容在本文献中的某些位置被称为音频“事件标记”和音频“声道标记”,并且它被包括从而使得大脑对声音的细节更加敏感,从而帮助大脑掌握单独的声音并且不将其混淆,并且从而使得大脑对声场传播更加敏感。如在此所讨论的音频事件标记应用于音频信号内的具体(一般为短期的)分量(例如,具体对话实例、或铜钹的具体敲击,与几乎同时发生的其他分量隔离,比如当打击铜钹时出现的声乐演唱),而音频声道标记更普遍并且一般持续更久(例如,经过整个录音,比如歌曲的开始到结束或电影或电视节目中场景的开始到结束)。作为示例,音频事件标记对于具体录音可以平均为五秒长或更短,而音频声道标记对于同样的录音可以平均超过十秒长、超过30秒长、或超过一分钟长。这两个标记一起产生音频录制/回放,所述音频录制/回放可以紧密地复制现场亲自收听体验,并且可以更好地使重要的声音对用户有“砰砰声”。
在一种实施方式中,公开了一种用于增强数字声音的由计算机实现的方法。所述方法包括:标识包含用于产生可听声音内容的数据的数字声音文件;标识并选择补充性声音内容的数字源;以及将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。所述数字声音文件可以包括可视和可听分量两者。在一些方面,补充性声音内容可以包括随机噪声,包括定制的白噪声或粉红噪声。
在某些方面,所述方法还包括:标识多声道声音信号的要被施加补充的一个或多个声道;以及将所述补充性声音内容仅添加至所标识的一个或多个声道。所述过程还可以包括:标识所述可听声音内容中的特定声音项;以及添加在与所标识的特定声音项的频率范围相对应的所选频率范围内的补充性内容。此外,所述方法可以另外包括:将所述经补充声音内容传输至多个不同客户端音频播放器以便向用户播放所述音频,从而使得所述用户有意识地听到所述可听声音内容但并不有意识地听到所述补充性音频内容。
在某些方面,所述经补充声音内容被安排用于在收听者处产生当仅向所述收听者呈现所述可听声音内容时未实现的认知效果。所述补充性声音内容可以例如包括:第一声音内容源,所述第一声音内容源在所述经补充声音内容中的幅值随着时间与所述可听内容的幅值变化相关地改变;以及第二声音内容源,所述第二声音内容源被选择并添加至原始内容,并且与所述第一声音内容来源分开。
在另一实施方式中,公开了一种声音文件,所述声音文件通过包括以下各项的步骤的过程来制作:标识包含用于产生可听声音内容的数据的数字声音文件;标识并选择补充性声音内容的数字源;以及将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。
在又另一实施方式中,公开了一种设备,所述设备包含存储有指令的一个或多个有形非暂态机器可读存储介质,所述指令在被一个或多个计算机处理器执行时执行一定的操作。所述操作包括:标识包含用于产生可听声音内容的数据的数字声音文件;标识并选择补充性声音内容的数字源;以及将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。
在某些实施方式中,在此所讨论的***和技术可以提供一个或多个优点。例如,可以为音乐、电视、或电影的收听者提供改善的声音,这将改善他们对他们所获取的数字内容的享受程度。这种改善可以引起数字内容的供应商提高其销售量和/或价格,将其本身定位为优质内容的提供商,以及另外将其自身与其竞争者区分开的能力。在具体实施方式中,提供这种改善的补充还可以被无缝地***现有分配网络,比如通过更改声音文件的内容(无论是作为完整文件或传输还是被流送)而不改变文件的格式,并因而使得可以使用可以播放原始文件的媒体播放器收听文件。
以下附图和说明阐述了一个或多个实施例的细节。通过本说明书和附图以及权利要求书,其他特征和优点将变得明显。
附图说明
图1A和图1B是用于补充音频信号以改善性能的***的概念图。
图2A是根据某些示例实施例的事件标记器的图。
图2B是根据某些示例实施例的声道标记器的图。
图2C是根据某些示例实施例的示出了对立体音频源进行标记的图。
图2D是根据某些示例实施例的示出了对5.1声道环绕声音频源进行标记的图。
图2E是根据某些示例实施例的示出了在混合并筛选成立体声之前对多音轨混合中的单独音轨进行事件标记的图。
图2F是根据某些示例实施例的示出了在混合并筛选成5.1环绕声音频之前对多音轨混合中的单独音轨进行事件标记的图。
图3是示出了用于用亚声噪声补充音频文件的示例过程的流程图。
图4示出了可以单独地或成倍地使用以执行在此所述的技术的示例计算机***。
各附图中相同的附图标记表示相同的元素。
具体实施方式
本文献总体上描述了用于处理数字声音文件的基于计算机的***和技术,从而改善在播放声音文件时典型的收听者所感知的声音。一般地,与已经是原始录音的一部分的可听声音(例如,对话、声乐演唱、音效、和/或乐器演奏)相比,所做的改善包括在亚声别有意地***数字内容。所***的亚声内容可以是例如典型定制噪声格式的形式,包括定制的白噪声(具有恒定的功率频谱密度的本质随机信号,并且包括高斯白噪声)、粉红噪声(其功率频谱密度信号频率成反比的信号)、红噪声、褐噪声、或蓝噪声。所***的内容还可以是其他形式的非和谐声音,其内容独立于原始内容(例如,它并非是通过将原始内容从一个分辨率转换成另一个分辨率而创造的人工效果)。这种附加内容被认为触发收听者的大脑,从而使得收听者的大脑更轻易地接受和区分信号中的主可听内容,并因而使得这种可听内容听起来对录制的声音的收听者更令人愉悦和真实。
所***的亚声内容(下文中频繁地被称为被添加至声音文件的“标记”)可以经过时间平等地应用于代表声音的信号并应用于整个声音,或者可以随着时间而变化并在具体时间点随着总声音信号的不同部分而变化。随着时间的变化性可以通过切换亚声声音的来源而实现,无论是通过改变被补充至具有主内容的信号的声音的格式(例如,从白噪声切换成粉红噪声)还是通过改变具体格式的声音被定制的方式(例如,改变其频率或幅值水平)。同样,所添加的亚声内容的幅值可以与添加亚声内容时(下文被称为“甜化”或“事件标记”)所述信号的主内容的幅值直接相关。例如,当在主内容中钢琴键被敲击时,亚声补充性内容的幅值会伴随可听原始内容的幅值突然上升并降低。在某些情况下,亚声内容的幅值上升和下降可以与主内容的幅值上升和下降同相,并且在其他情况下,所述上升和/或下降可以相对于主内容的幅值上升和/或下降稍微提前或稍微推迟(其中,上升和下降都可以提前或推迟,或一个可以提前并且另一个可以推迟,比如使上升提前并使下降推迟,从而使得信号的亚声部分在时间上比信号的可听部分“更宽”)。
随着时间而改变(例如,在幅值上)的亚声内容以及不改变的亚声内容、或随着时间改变较不频繁或较不严重的亚声内容都可以同样被采用。这样的第二种形式的亚声内容在下文可以被成为“声道标记”。这种多层次补充(其中,处于一个层次的事件标记与原始内容中的特定事件绑定,并且处于另一层次的声道标记更一般地被应用于录音)可以在用媒体播放器(例如,iPod、DVD播放器、CD播放器、媒体流app等)播放经补充内容时提供收听经补充内容的人的多种形式的认知效果。
通过使用仅在具体频率范围或仅在多声道信号的具体声道施加的补充,可以实现在具体时间跨信号的变化性。例如,可以针对原始内容对信号进行分析,并且可以使用处于与当前原始内容的频率相对应的频率的内容提供补充。作为一个示例,在原始内容在500Hz至1KHz频率范围内的时间段内,补充性内容可以被选择为使得它也在同一范围内,在以同一范围为中心的稍微更宽的范围内,或在检测到的0.5至1KHz范围基础上的另一范围。
明显地,可以在不对原始内容本身进行改变的情况下进行此类改变。相反,这种原始内容(正被改善的歌曲或正被改善的电影音轨)可以被分析,并且然后被简单地补充并放回具有原始格式(或不同的格式,例如,其中,原始(未经处理)WAV文件被读取以进行分析并且然后被用来产生经补充WAV文件、经补充MP3文件、经补充FLAC文件和/或ELAC文件等)的文件中。在某些情况下,可以对分开的原始内容进行改变并且所述改变可以独立于补充过程,比如通过对原始内容应用传统音频处理技术,包括通过对原始内容的声场进行压缩或扩展,对原始内容进行均衡化,或其他此类传统声音处理过程。但这种传统处理一般独立于在此所讨论的补充,并用于不同效果。在一些实施方式中,补充过程会对原始内容有较小的意外影响,并且在此所讨论的处理可以作用以使这些效果为零(作为处理的一部分),从而使得最终的经补充文件(实际上并如收听者所感知的)是除了所添加的亚声内容以外没有改变的原始声音文件。
同样,针对在此所述的亚声介绍添加所选数字内容将区别于向录音有意或无意地添加模拟噪声、或添加对录音(无论是数字的还是模拟的)进行的某种其他变换而引起的人工效果。这种所添加的噪声的内容未被选择、控制、或已知,但相反一般是如产生录音的模拟磁带副本而引起的增加的磁带嘶嘶声等操作的副产品。例如,在此所讨论的亚声补充不是由于只是试图对录音进行转换而进入所述录音的人工效果,比如通过将可能由数字录音造成的人工效果混叠、或由于数字采样率转换(这是试图得到更干净的信号,而不是为了创造增加声场以及录音中分量之间的区别的认知效果)引起的抖动。在此所讨论的技术也不是可以作为产生音乐播放器上的最终声音的一部分而生成的噪声,比如来自录音带的磁带调制噪声、嘶嘶声和砰砰声,来自磁带头磁化的噪声,转盘隆隆声,电子回放设备的电路***所生成的噪声。
图1A和图1B是用于补充音频信号以改进性能的***的概念图。图1A具体示出了捕捉声音文件然后在亚声级用存储的附加数字内容对声音文件内被捕捉的可听内容进行补充的***100和过程。
如该图中所示,***100中的声音是由对着录音室中的麦克风104唱歌并弹奏吉他的音乐家102所创造的。技术人员可以获得此声音、以及来自其他来源(比如其他音乐家)的声音(无论此声音是否之前或同时作为来自音乐家102的声音被捕捉)并且可以通过混合板106将其混合以便用磁带机108存储。这种捕捉和存储可以通过适用于具体录音场次的各种已知方式产生。在其他实施例中,音频可以与视频文件一起被捕捉或被添加至所述视频文件,比如在混合和编辑有声电影时,并且其中,声音可能已经与视频一起被捕捉或可以稍后添加比如视频上应用的声过滤或旁白。在任何一种情况下,提及声音文件或声音信号在此旨在指以各种形式存储和提供的声音,并作为单独的声音或伴随视频或其他内容(例如,用于旁白的移动或固定图形)的声音。在此所讨论的补充可以被作为初始声音处理过程(例如,在音轨被组合之前或之后)的一部分执行或可以在所有的声音处理发生之后被执行(例如,从而改善可能是几年前制作和发行的录音的声音)。
最终的声音文件可以采取各种形式和格式。例如,声音可以具有单声道(单声道的)、一对声道(立体声的)、或更多声道(比如5.1、7.1、9.1、或全景声(Atmos)环绕声)。还可以通过组合以下各项来形成声音文件:从麦克风捕捉的声音、之前捕捉并保存的声音、以数字姓氏生成或合成的声音、以及其他声源。声音文件可以是单个文件,比如MP3、MP4、WMA、或WAV文件,或在被一起播放时一起被访问以产生人类可辨别的声音的文件的集合。文件的传递可以通过传递并且然后播放整个文件、或作为在网络(比如互联网)上对文件的实时流送而发生(虽然存在缓存和其他存储的可能性)。对文件的补充可以在其被播放之前或在其被播放时、或几乎实时地发生。
数据库110示出了对一个或多个声音文件(如刚刚讨论的那些)的存储。例如,技术人员可能已经混合了唱片专辑的各首歌曲的各个音轨,并且可以将每首歌的数字文件保存在用于每首这样的歌曲的有形存储(例如,硬盘驱动器、光学驱动器、或闪盘驱动器)上,或者单个文件可以表示专辑上捆绑在一起的所有歌曲。可以使用各种不同文件格式,并且对于不同的实施方式,用于存储所述文件的具体机制将自然地不同。
提供了音频处理设备112,比如在录音室内或其他地方,用于对数据库110中所存储的音频文件进行处理,从而改进当它们被播放时它们被收听者感知的方式。在图2A至图2G中以及下文相应的描述中示出了这种设备112的示例的细节。一般地,设备112访问与数据库110中的刚刚讨论的源文件分开的声音内容的数字表示,并在亚声级将这样的内容添加至那些其他文件,所述亚声级是在以正常音量播放时太过安静以至于收听者不能有意识地听到并且非常低以至于当在特别高的音量播放时它至少被主内容淹没的级别。这种补充性内容可以来自各种来源,包括数据库110中存储的或来自实时声音发生器(比如可以被***100访问并被数字地添加至原始内容的白噪声或粉红噪声发生器,尽管是在亚声音量级)的声音文件。
用具有部分116A、116B的两部分的图形示意性地示出了用亚声内容对原始内容的补充。所述图形示出了对照时间图示的信号,其中,出于展示的目的,所述信号被示为具有变化的值比如幅值,虽然所述信号可以采取各种形式。可听线118示意性地表示了被确定为当以标准方式播放声音文件时对声音的典型收听者来说可察觉的增益级。虽然所述线在此被示为平的,在某些实施方式中,它可以随着原始内容的音量而变化,因为较大声的原始内容将使得收听者更难以听到补充性内容,从而使得可以使这种补充性内容相对大声并且它仍然可以是亚声的。左侧部分116A示出了高于可听线118的原始音乐或其他可听内容,而右侧部分116B示出了添加的亚声内容。虽然所述表示示出了两个单独的信号以便于展示,组合的信号在实践中可以是单个信号(或多声道总体信号中的每个声道的单个信号)。
经补充的信号然后被示为作为数据库114中的文件存储。经补充的文件的格式可以与原始文件的格式相同,从而使得原始文件打算的任何数字音乐播放器将同样适用于播放经补充的文件。所述文件还可以采取其他形式,并且具有格式A的单个输入文件可以被补充并且然后作为具有格式A、格式B等的不同文件输出。数据库114可以与数据库110相同,或可以是用于更好地保持各经补充文件远离原始文件的单独数据库,从而避免不同文件类型的意外混合或误用。经补充的文件的名称可以与原始文件的名称相同,或者可以是除了添加的前缀或后缀以外相同的从而向检验所述名称的人或设备指示已经通过这种补充对所述文件进行了处理。
***100然后可以使得经补充的文件可访问从而以各种方式分布,如出自数据库114的箭头示意性地指示的。接下来在图1B中示出了可以产生对文件的补充的各种不同示例情形、以及可以分配内容的方式
图1B示意性地示出了各种用于补充数字音频内容以改善所述数字音频内容的用户感知声音的***。总体***130以互联网132或可以连接更广阔网络中的各节点(包括客户端和服务器)的其他网络为中心。
在第一示例中,录音室134被示为与刚才针对图1A所讨论的录音室相似。录音室包括用于捕捉、组合、存储、编辑、和另外操纵数字和模拟声音表示的各种机制。录音室134还包括像上文和下文所描述的那些的音频补充设备,用于向信号添加亚声或其他非可听内容从而改善信号在被播放时的被感知声音。还可以提供合适的数据库和其他组件以用于这种创建者侧音频补充。因而,在本示例中,通过亚声补充对声音的处理可以在录音来源的附近进行,比如由传统音响师在录音室134内。
声音文件可以在补充之前或之后被传递给唱片公司和/或加工厂136。加工厂136可以将声音文件转化成像CD、DVD、和黑胶唱片等物理音乐媒介。在这种物理媒介上进行录音之前,加工厂136还可以或可替代地具有音频补充设备和相关组件用于向信号添加亚声内容(比如定制随机噪声或其他非和谐内容)或用于创建之后可以被出版的经补充数字文件。因而,唱片公司可以用上文和下文所讨论的方式对声音进行处理,甚至当具体的音轨被录制时未经处理时。例如,具体的唱片公司可能希望它通过CD分销的所有音乐具有这个具体的过程,并且可以将其CD作为应用了这种处理来做广告。
在另一示例中,流式磁带机(被称为STRME)138可以从录音室134、唱片公司、或处于未经补充形式的另一来源接收文件。流式磁带机138可能希望广告的是,其流送的歌曲、或其流送的电影比其竞争者所流送的那些更高质量。结果,流式磁带机138可以采取一个或多个音频补充设备来添加亚声音频,或者在文件被流送(例如,通过进行经过库中的每个文件、对其进行处理、并对其与其中的被补充的音频内容保存在一起)之前或者在它们被流送时。这种处理还可以针对流式磁带机138进行,比如由可以被允许访问流式磁带机的音乐或电影目录中的数字文件的第三方公司,并且可以输出它遇到的文件中的每个文件的经改善经补充的版本。这种第三方处理可以允许第三方在过程中增加其处理专长并且还维持具体设置上的对某些特殊类型的处理会有利的保密级别。流式磁带机138还可以具有一个或多个媒体播放服务器,所述一个或多个媒体播放服务器连接至互联网132从而对来自合适的客户端设备的请求进行响应,从而接收具体歌曲、电影、或电视节目的流。
可能发生声音文件补充的另一位置,示出了由最终用户操作、并执行媒体播放器应用的音乐播放器140。音乐播放器140可以是通用的或可以直接与具体的流送或其他类似服务相关联,并且可以播放MP3、WAV、以及对声音编码的其他文件格式。所述应用可以包括(直接或作为插件)子应用,所述子应用执行对音乐播放器140的用户播放信号之前向所述信号***亚声声音内容的处理。再次,所述处理可以在用户请求收听具体媒体文件之前发生(例如,通过一旦文件被下载至用户的设备上就对所述文件进行处理或通过对多个已经下载的文件整批地进行处理),或可以在向所述用户播放具体文件时发生。
图2A至图2F示出了用于借助亚声声音内容对可听声音内容进行补充的机制的结构的各种安排。在此所示的***可以用两种类型的亚声标记:(1)音频事件标记、和(2)音频声道标记对声音文件进行标记。如上文所提及的,音频事件标记与音频信号内的具体成分相关联,比如录音中乐器演奏的具体音符或和弦。音频事件标记使得大脑对声音中的细节更加敏感。它们还有助于大脑跟踪单独的声音并且不将其混淆。音频声道标记与音频事件标记相比更一般地与信号相关联,并因此持续更久(通常经过整个信号)。音频声道标记使得大脑对录音师放入录音的声场传播更敏感。这两个标记一起产生音频录制/回放,所述音频录制/回放可以紧密地复制现场亲自收听体验。
音频事件标记——针对每个音频事件(即,针对每个声音,比如乐器演奏的每个音符),生成亚声内容并将其附加至录音。因而,亚声声音“标记”录音中的声音事件从而触发伴随的大脑活动。通过分析现有存储的信号以得到所述信号的具体声道中并且在具体频率范围的幅值变化,可以标识所述事件。可以提前确立具体幅值阈值,并且当超过具体阈值时可以将事件标识为在开始和结束时间之间发生。所述过程然后可以在这个时间窗内并向其中事件被标识为已经发生的音轨添加所选类型的补充性内容。
音频声道标记——除了音频事件标记以外,生成亚声声音并将其添加至每个声道。音频声道标记通常持续经过大部分或全部录音。具体选择的声道标记可以取决于录音的原始内容或与其独立。例如,定制的白噪声总是可以被具体操作者用于补充音乐内容或具体类型的音乐内容(例如,与古典乐相对的摇滚乐)。可替代地,可以最初对一些或全部录音进行分析,并且作为这种分析的结果,可以选择有待作为音频声道标记添加的内容的格式。例如,当录音的音量水平大幅度变化时,可以使用一种类型的音频声道标记,而当原始内容的音量没有太大改变或不随着大速度改变(例如,当声音更悦耳且不那么有冲击性时)时可以选择不同的类型。
音频事件标记被精巧地制作成使得人脑将标记与音频事件联系,并因此,大脑被刺激以提高其对具体音频事件的所有频率分量的敏感度。
为了精巧地制作音频事件标记,对音频事件进行分析从而确定事件中存在的所有频率分量、机器对应的幅值,例如通过以频率解构信号并对经解构的分量进行分析。音频事件的每个检测到的分量有助于创建音频事件标记的一部分,从而使得音频事件标记是信号的彼此分离以便分析并且均在信号中同时产生的多个不同部分的函数。
标记的创建开始于定制的随机噪声源或其他非和谐噪声源(“种子噪声”)。种子噪声可以包括随着频率稍微地上升的幅值(例如,跨所有音频频率具有平坦幅值的分红噪声与每八度上升3dB的白噪声之间)。对于音频事件中发现的每个频率分量,种子噪声的限带部分被添加标记,所述标记处于与音频事件中发现的分量的幅值相对的幅值——但处于亚声幅值。
可以使用滤波器将种子噪声限值为近似低于分量二分之一八度到高于分量二又二分之一八度(由于人耳的高频率响应斜率以及温和的滤波器曲线,低音区域中的频带为从低二分之一八度到高一又二分之一八度)。因而,标记的总幅值相对于音频事件一般在-45dB到-50dB范围内。根据某些实施例的音频事件标签可以比处于高频率的音频事件宽约10毫秒,并且在低音频率更宽了约150毫秒,并且可以在高频与低频之间按比例。所述标记在时间上可以以音频事件为中心。在其他情况下,所述标记相对于音频事件可以在时间上稍微提前或稍微推迟。在又其他实施例中,所述标记可以比事件更宽或更窄,并在时间上偏移(提前或推迟)从而不准确地以所述事件为中心。在具有不只一个声道的录音中,当每个声道具有其自身种子噪声,该种子噪声与其他声道的种子噪声不同且是与其独立地选择的时,所述标记最有效,其中,不同的种子彼此不相关(例如,一个声道被种入来自第一来源的白噪声,并且另一声道被种入来自单独的来源或与所述第一来源充分异相的噪声(例如,如果使用了单环路声音文件))。在其他情况下,针对每个声道对种子噪声的选择可以不同于针对一个或多个其他声道的种子噪声选择,但可以是与针对那些其他不同声道选择的噪声种子相互依赖的(虽然仍然不同)。
对于音频声道标记,在每个具体音频声道标记将被使用时的幅值,种子噪声可以大致上是弗来奇-蒙松曲线(Fletcher-Munson curves)的反相。即,对其频谱进行调整以得到所有频率处相等的听觉灵敏度。音频声道标记是整个录音中的种子噪声的恒定应用,除了当录制的声音变得非常安静时。然后种子噪声在幅值上会下降,从而使得它不变得可听。为了最大有效性,音频声道标记的种子噪声对于每个声道不通(即,一个声道的种子噪声与其他声道的种子噪声不相关)。它们还与音频事件标记中的任何一个的种子噪声不相关,同样是为了最大有效性。
当数字声音文件仍然是多音轨录音的形式时,可以在此类多个音轨上执行对信号的处理。在这种情形下,在录音的早期阶段与在后期阶段中相比,可以用不同的方式应用所述标记。当录音师正创造多音轨录音时,每种乐器一般起初是单独的录音。录音师通过将不同量的每种乐器混合至不同声道中来制作最终的立体或环绕录音,从而调整其在最终录音中的对应响度,以及将所感知的声音放置在不同位置。在多音轨录音的情况下,可以在混合之前将音频事件标记应用于单独的音轨,并且可以将音频声道标记应用于最终已混合录音的每个声道。
用于音频事件标记的种子或用于音频声道标记的种子可以来自具有噪声的单环绕声文件。通过简单地在声音文件中的不同位置开始,可以将种子彼此解除相关。当前测试表明500毫秒的最小扩展对于大脑而言显得完全解除相关。所述种子还可以通过数字或模拟技术实时的产生,而非被从之前存储的文件访问。
具体地参照图2A,事件标记器将事件标记添加至音频的一个声道或一个音轨。到来的音频通过被馈送至具有多个滤波器(5-1至5-N)的排而被分析,其中,每个滤波器限定与其他范围不同的频率范围(虽然可能存在一些重叠),每一个滤波器紧接着的是对应的多个电平探测器(7-1至7-N)。结果是到来的音频的频率对时间对电平图——录音中具体时间时的幅值电平与多个不同的分离的频率范围的相互关系。
对于到来的音频的每个频带,存在针对这个频带优化的特制部分标记。因此,对于到来的音频的每个频带,来自事件种子噪声发生器的噪声被传递经过对应的滤波器(6-1至6-N),从而优化噪声的频率扩展,以针对相关联的音频带得到所述部分事件标记的最大有效性。
对应的多个包络发生器(8-1至8-N)获得来自电平探测器的信息并精巧地制作音量包络从而将噪声转化成部分事件标记。所述部分事件标记相对于相关联的音频频带在时间、持续时间、以及电平上是可调整的。
所有的部分事件标记在第一音频加法器(9)中被相加在一起从而创建总事件标记。第二加法器(10)将所述总事件标记与到来的音频相加从而创建经事件标记的音频(11)输出。
参照图2B,声道标记器将声道标记与经事件标记的音频(20)相加。这种操作可以在事件标记的生成之前、之后、或与其并行地发生。声道标记器将声道种子噪声(21)与音频源20(同样是图1的框11)相加。声道种子噪声(21)被与事件标记种子噪声(它在同一时间点上不是同一信号——即,它是不同的且独立的信号或者是同一信号弹在时间上充分地偏移,比如通过使用偏移若干秒的一个白噪声环路)解除相关,并且通常携带不同的频谱。声道标记应用一般处于稳定幅值的噪声,除了当源音频下降至声道标记可能变得可听的电平。然后,电平探测器(22)指导增益控制装置(23)在去到音频加法器(24)以与经事件标记的音频相加从而创造经事件和声道标记的音频(25)之前减小声道噪声的电平。
参照图2C,示出了对立体音频源进行标记(例如,通过用为录音中的信号定制的亚声内容进行补充)的步骤。为了对立体音频进行标记,每个声道传递经过对应的事件标记器(1-1和1-2)和对应的声道标记器(2-1和2-2)。在本示例中,为了最佳效果,将所有的噪声发生器彼此解除相关。
参照图2D,示出了对5.1声道环绕声音频源进行标记的步骤。为了对5.1环绕声音频进行标记,每个声道传递经过对应的事件标记器(1-1至1-6)和对应的声道标记器(2-1至2-6)。为了最佳效果,将所有的噪声发生器彼此解除相关。
针对更多声道或更少声道的录音可以遵循如上文所述的同一标记方案。具体地,可以用刚刚所讨论的方式对每个声道进行处理,在处理带宽允许时通常彼此并行。
参照图2E,示出了在混合并筛选成立体声之前对多音轨混合中的单独音轨的事件标记的步骤。此类行动可以由录音师执行(通常在录音室),并且在时间上接近各个音乐家所制定的音轨。以类似的方式,电影的音轨可以具有多个音轨,比如对话、背景噪声、音效、以及背景音乐,并且这些音轨可以混合有对其音量以及其在环绕声空间中位置的调整。在其他示例(例如,杜比全景声(Dolby Atmos))中,音轨中的对象可以被保持彼此分开,并且在播放电影时可以分解其位置。在其他情形下,在此所讨论的单独处理可以应用于声音对象而非具体声道。
大多数现代录音是作为“多音轨”录音完成的。多音轨录音以录音的不同声音分量的多个单独的同步录音开始。例如,在音乐录音中,每种乐器和/或每种嗓音具有其自己的对应录音音轨。“混合”过程将所述不同的声音或音轨混合至最终的录音中。多音轨录音技术的优点是,在任何后期时间,最终混合中的每个声音的电平都是可以调整,以及在立体图像中的放置被改变。
多音轨录音为进行标记提供了独特的机会,在于:当可以对单独的乐器或嗓音进行标记时,标记过程甚至在人脑中的触发响应中甚至更有效。在多音轨录音的情况下,在应用混合器之前将事件标记器应用于每个单独的音轨(1-1至1-N)(即,应用于每种乐器或嗓音),并且在应用混合器之后将声道标记器(2-1和2-2)应用于混合器所创造的每个声道。为了最佳效果,可以将所有的噪声发生器彼此解除相关。
参照图2F,示出了在混合并筛选成5.1环绕声音频之前对多音轨混合中的单独音轨的事件标记的步骤。与立体声多音轨录音用同样的方式处理环绕声多音轨录音。每个音轨在混合器之前获得事件标记器(1-1至1-N),并且然后每个在混合器之后获得声道标记器(2-1至2-6)。
声道标记器的数量可以与混合器和筛选器所创造的声道数量的提高或降低相应地提高或降低。例如,7.1环绕声将包括8个声道,因此将采取八个对应的声道标记器。然而,并非所有的声道需要以这种方式被标记,比如通过标记所述声道中的七个但不对超低音声道进行标记被确定为对收听者有较小的影响。因而,在源录音中,一个过程可以对所有或不到所有声道进行标记。
图3是示出了用于用亚声噪声补充音频文件的示例过程的流程图。一般地,所述过程涉及向音频信号添加在亚声级提供的额外量的内容,从而使得最终收听者不能有意识地听到它,但它使得收听者的达到改变音频信号的主内容被感知的方式。
所述过程开始于步骤302,其中,音频信号被标识为需要处理。如上所述,所述信号可以是被存储的文件的形式,并且所述处理可以是整批的,在于:具有歌曲、电影、或其他类型的内容的库正在被处理并且然后被保存为新的形式以便后期由观众和收听者访问。所述信号还可以是正在播放的实时流的形式,比如收听者的私人音乐设备上或作为流送服务的一部分,比如流送电影或音乐服务。
在框304,可选地对音频信号进行分析从而确定增强类别,所述增强被最佳地部署以在音频信号被播放时改善其被感知的声音。例如,可以最初对文件类型进行分析从而确定所涉及的音频文件的类别,计入基础MP3文件、具有相关联的5.1音频的视频文件、或文件的其他这种“类型”信息。还可以读取并分析文件内的元数据从而确定音频信号的特性(例如,它是立体声、2.1、5.1、还是7.1声)。这种分析可以使得所述过程选择多声道信号的哪些声道来应用处理、并选择具体类型的处理,例如添加具体类型的亚声噪声对电影、以及音乐的另一类型会是最合适的。同样,可以使用元数据来访问关于所述信号的其他数据,比如通过使用元数据来标识文件所代表的歌曲或专辑的标题(例如,访问互联网可访问的数据库),并且然后通过互联网访问数据从而确定所述歌曲的听觉指纹,比如所述歌曲在声乐演唱或乐器演奏方面是否较重、以及其他信息。对将遇见的声音类型的这种理解还可以用来标识用于借助亚声内容对信号进行补充(例如用于选择进行亚声添加的具体类型的内容)的具体策略。
在添加补充性亚声内容之前,之前在信号中的亚声内容可以保持或可以被移除。例如,录音可以具有通过作为录音过程的一部分的模拟或其他过程添加的(例如,通过在磁带上录制而***的)亚声内容。在一些情形下,这种原始亚声内容可能对改进的声音有益,并且在其他情况下,它可能是有害的并且因此可能被移除(作为所描述的过程对信号执行的音频处理第一部分)。
在某些情况下,所述过程可以辨别信号中的亚声内容是通过在此所描述的过程之前添加的,作为用于改善来自信号的声音的补充性内容设计。例如,文件中的头信息可能是已经通过对所述过程的在先实例化以已知的方式更改过的,并且最初可以通过对所述过程的后期实例化而被标识。或者,所述过程可以识别信号中的亚声内容的指纹。在此类情形下,所述过程可以结束,并且可以针对用户生成信号已经被增强的指示。可替代地,可以将亚声内容移除,并且可以将新的亚声内容添加至信号。或者,可以将新的亚声内容添加至已经处理的信号。这种添加一般将对已经让同样形式的亚声内容添加到其的信号有相对较小影响,并且所述信号后续每次传递经过这种过程会对所述信号有逐渐更小的影响。
在框306,对有待添加至信号的数字内容进行标识。所述数字内容对于信号的任何处理可以是相同的,或者对于不同情形可以不同。例如,一种类型的随机噪声可以确定对对话具有更好的效果,同时另一种类型的随机噪声可以对音乐(或“软”音乐对“硬”音乐和大声的音乐)具有更积极的效果。
在框308,数字内容被在亚声级添加至信号。在简单的场景中,例如,定制的白噪声可以被融合到从歌曲的MP3取得的信号中,并且结果可以被作为MP3文件的新版本被记录。在其他情形下,亚声内容可以作为来自音乐内容的单独分量——例如作为多音轨录音中其自身的数字“音轨”被添加至文件(虽然这种方式可能需要对声音文件的输出形式相对于输入进行更改,并且还可能需要对将允许在回放时间将亚声音轨融合至主音轨的回放软件的更改。)。在又其他情形下,在回放时可以通过对电路***进行解码来添加亚声内容,并且因此不需要制作存储的或流化的声音文件的实际部分。
亚声内容的实际增加可以以适合具体文件格式的各种方式发生。例如,在其他示例中,音频文件(例如,对于WAV文件)可以被拆包并且可以将其中的表示主内容的数据传递经过(对于每个音轨)一个或多个滤波器或幅值检测器。幅值探测器的输出例如可以用来确定亚声内同被添加时的幅值,其中,所添加的亚声内容的幅值直接随着主内容的幅值、并且在一些情况下与其成线性比例地变化。另外,此类滤波器可以用来标识在任何给定时间点声音的主导部分的频率范围,并且可以基于此类已标识的频率范围选择补充性亚声内容,或者声音的实际特点可以基于此类已标识的频率范围被形成(例如,过程可以以全频谱白噪声开始,并且可以将其过滤下降至具体频率范围)。
在某些情形下,可以在这种分析和补充发生之前改变文件格式。例如,MP3文件可以被转换成WAV文件,可以对WAV文件执行所述分析和补充,并且经补充的文件在被所述过程输出之前可以被转换成MP3文件。在某些情形下,会可能的是,这种转变会影响内容的可听部分,从而使得所述过程可以在转换回第一文件格式之前或之后对可听内容执行修正性操作,以便抵消或消除那些改变。
被添加的具体亚声内容以及其被添加的方式可以跨声音文件随着时间而变化——动态“标记”选择。例如,亚声内容可以仅被添加至多声道信号的目前是主导声道的声道。或者,可以仅在信号(或信号的具体声道)在具体频率范围内运转(例如,针对“高音”但不针对“低音”增强,或者反之亦然)时添加亚声内容。作为另一示例,对增强的使用或对针对亚声内容要从中抽出的补充性内容的选择可以取决于对信号的主内容的更深入的分析,比如通过进行分析从而确定内容的类型(例如,音乐、对话、***噪声、背景噪声等),并选择用于补充的内容,所述用于补充的内容是已知用于与已标识类型的主内容特别好地交互的一类内容。
在对声音文件进行处理时可以实时地执行这种动态调整。可替代地,可以对声音文件进行两遍处理。首先,分析器工具可以单步通过文件从而标识表示具体类型的声音的签名,并且可以将那些签名与制定文件的具体时间相关联。所述过程然后可以选择要充当亚声补充的声音,并且可以将其在具体时间***声音信号,作为第二次经过。在其他情况下,对声音文件的基础内容的分析、对补充性内容的选择、以及将这个补充性内容向来自声音文件的主内容的添加可以同时发生,并且可以贯穿文件连续地发生,不管这是在向收听者播放文件之前还是在向收听者播放文件的同时发生的。
在框310,可以用各种方式可选地调整经补充的音频信号。例如,可以执行过过滤以移除内容的高或低或其他品类,从而减少可能具有足够的音量但在人类听觉的频率范围以外的不可听声音,如果已经确定了这种移除将不伤害或可以甚至有助于经补充内容的声音的话。同样,可以对信号的总体增益进行调整从而保证当文件被用户播放时它将在合适的音量播放(即,与具有同一风格的其他录音的音量一致的音量)。而且,当已知具体的补充用于改变原始可听内容的已限定部分时,这些改变可以在后处理中被反向(例如,通过与诸如将音频文件从一种格式转换成另一种格式等处理有关的过程或步骤添加可能损失的反向瞬变)。
还可以进行非基于内容的调整,比如通过针对拥有已经以在此所讨论的方式被补充的内容的文件更新元数据。例如,可以编辑声音文件中的头信息从而向后续阅读器/播放器指示已经发生了这种具体类型的补充(例如,从而使得这种播放器可以调整其设置从而使经补充信号的效果最大化,或者可以向播放器的用户提供正在播放经补充的内容的可视或可听指示,从而使得可能用户范围会选择访问未经补充的文件)。
在框312,经补充的声音文件被播放或存储或两者。当声音文件正简单地被处理以改善其声音但所述文件当前没有收听者时,可以保存所述文件以供将来访问。所保存的经补充的文件可以与原始声音的文件具有相同的类型(MP3、WAV等),从而使得可以有益地在可以播放原始文件的任何设备上对其进行播放。当用户正通过流送体验文件时,所述文件可以被提前处理、保存、并且然后通过播放它来将其流化,或者可以在它被播放时对其进行补充,其中,所述补充和其他处理可以在提供流的服务器或向用户播放流的客户端设备处发生。在上文的图1B中,这样的各种处理/补充和播放场景作为示例被示出。
在某些实施方式中,可以用与具有同样格式的未经补充的文件将被播放的方式一样的方式播放声音文件(例如,私人音乐设备可以用常规方式播放MP3文件,虽然所述文件因为已经被补充过而是非常规的)。在其他实施方式中,可以提供附加元数据(例如,在文件本身中,比如在其头信息中)从而影响受支持的解码器/播放器播放声音文件的方式。例如,在元数据中可以提供与对文件应用的处理有关的某些参数,并且播放器/解码器可以使用这种参数信息改变其回放设置,其方式为使播放的声音的质量和对收听者的影响最大。
示例
在受限的试验中,健康男性被试的大脑活动被标识为根据通过耳机播放的不同可听输入。所述被试被提供了佩戴的头部辔带,所述头部辔带具有248个SQUID并且附接至杜瓦机器(dewar machine)从而测量被试的大脑的电磁拨动。在以这种方式被监测时,被试被播放长度各为10秒的各不同音乐选择的片段。每个片段以其原始未经处理形式被播放一次,并以使用在此所讨论的技术处理的形式播放一次。在所述音乐片段中的每一个之间,被试还被播放具有十秒长的白噪声的片段。脑磁图描记术(MEG)读数是在播放所述片段时对被试获得的。播放的顺序是拟随机的,一般是随机的,除了同一片段的经处理和未经处理的副本从未彼此连续地播放。
音乐是由位于测试房间外部的放大器和换能器生成的,并且被通过长气送管传递至被试从而按位置定位远离SQUID的磁性活动。被试在收听时一般处于躺下的位置并且一般伴随其眼睛闭着。每个音乐片段都是十秒长,与白噪声片段一样。播放共40个片段,20个白噪声和20个音乐(其中10个经处理且10个未经处理)。所述音乐是乐器演奏(不是人嗓音)。
在杜瓦机器中以毫微微-特斯拉为单位测量的被试的大脑活动被跨每个片段平均,并且每个未处理片段的平均然后被平均从而形成平均值的估计平均值。类似地,对每个经处理片段的平均MEG读数取平均。
在播放经处理的片段时比在播放未经处理的片段时,结果只是显著更高的大脑平均活动。在播放或者经处理的或者未经处理的音乐片段时比在播放白噪声时,结果也指示显著更高的平均大脑活动。
结果指示对用在此所述的技术处理的录音的显著更大的总体MEG大脑激活。结论则是人脑对用定制的亚声内容补充的数字化音乐录音以不同的方式响应。需要进一步的研究从而确定这种处理的行为效果和其他心理效果。
图4是计算机***400的示意图,可以用来提供在此所讨论种类的录音补充。根据一种实施方式,***400可以用来联系之前所述的由计算机实现的方法中的任意一种来执行所描述的操作。***400旨在包括各种形式的数字计算机,比如膝上计算机、台式计算机、工作站、私人数字助手、服务器、刀片式服务器、主机、以及其他合适的计算机。***400还可以包括移动设备,比如私人数字助手、蜂窝电话、智能电话、以及其他类似的计算设备。另外,***可以包括便携式存储介质,比如通用串行总线(USB)闪盘驱动器。例如,USB闪盘驱动器可以存储操作***和其他应用。USB闪盘驱动器可以包括输入/输出部件,比如可以被***另一计算设备的USB端口的无线发射器或USB连接器。
***400包括处理器410、存储器420、存储设备430、以及输入/输出设备440。部件410、420、430、和440中的每一个使用***总线450互连。处理器410能够处理用于在***400内执行的指令。可以使用多种体系结构中的任何一种来设计处理器。例如,处理器410可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器、或MISC(最小指令集计算机)处理器。
在一种实施方式中,处理器410是单线程处理器。在另一种实施方式中,处理器410是多线程处理器。处理器410能够对存储器420内或存储设备430上所存储的指令进行处理,从而在输入/输出设备440上显示针对用户的图形信息。
存储器420在***400内存储信息。在一种实施方式中,存储器420是计算机可读介质。在一种实施方式中,存储器420是易失性存储器单元。在另一种实施方式中,存储器420是非易失性存储器单元。
存储设备430能够为***400提供大容量存储。在一种实施方式中,存储设备430是计算机可读介质。在各种不同实施方式中,存储设备430可以是软磁盘设备、硬磁盘设备、光学磁盘设备、或磁带设备。
输入/输出设备440提供对***400的输入/输出操作。在一种实施方式中,输入/输出设备440包括键盘和/或指点设备。在另一种实施方式中,输入/输出设备440包括用于显示图形用户界面的显示单元。
所描述的特征可以在数字电子电路***中,或在计算机硬件、固件、软件中,或在其组合中实施。所述装置可以在计算机程序产品中实施,所述计算机程序产品被有形地实施在信息载体中(例如机器可读存储设备中)以便由可编程处理器执行;并且,可以由执行具有指令的程序的可编程处理器来执行步骤方法,从而通过作用于输入数据并生成输出来执行所描述的实施方式的功能。所描述的特征可以有利地在一个或多个计算机程序中实施,所述一个或多个计算机程序在可编程***上可执行,所述可编程***包括至少一个可编程处理器,所述至少一个可编程处理器被耦合用于从数据存储***、至少一个输入装置和至少一个输出装置接收数据和指令并且向其传输数据和指令。计算机程序是可以在计算机中直接或间接地使用以执行一定活动或带来一定结果的指令集。计算机程序可以以包括编译或解释语言的任何形式的编程语言来编写,并且其可以以包括作为独立程序或者作为模块、组件、子例程或适于在计算环境中使用的其他单元的任何形式来部署。
用于执行具有指令的程序的合适处理器举例来讲包括通用微处理器和专用微处理器两者、以及任何种类的数字计算机的唯一处理器或多个处理器之一。通常来说,处理器将从只读存储器或随机存取存储器或二者中接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器。一般地,计算机还将包括、或***作性地耦合从而与一个或多个用于存储数据文件的大容量存储设备通信;此类设备包括磁盘,诸如内部硬盘和可移除磁盘;磁光盘;以及光盘。适用于有形地实施计算机程序指令和数据的存储设备包括所有形式非易失性存储器,举例来说包括半导体存储器设备,比如EPROM、EEPROM、和闪速存储器设备;磁盘,如内置硬盘和可移除磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。处理器和存储器可以由ASIC(专用集成电路)补充或者合并在其中。
为了提供与用户的交互,所述特征可以在具有用于向用户显示信息的显示器设备(比如CRT(阴极射线管)或LCD(液晶显示器)监视器等)以及通过其用户可以向计算机提供输入的键盘和指点设备(比如鼠标或轨迹球)的计算机上实现。另外,可以通过触屏平板显示器或其他合适的机制实施此类活动。
所述特征可以在计算机***中实施,所述计算机***包括后端部件比如数据服务器,或者所述计算机***包括中间件部件比如应用服务器或互联网服务器,或者所述计算机***包括前端部件比如具有图形用户界面或互联网浏览器的客户端计算机,或它们的任意组合。***的部件可以通过数字数据通信(比如通信网络)的任何形式或介质来进行连接。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、对等网络(具有自组网或静态构件)、网格计算基础设施、以及互联网。
计算机***可以包括客户端与服务器。客户端和服务器通常远离彼此并且通常通过网络(比如所描述的网络)进行交互。客户端与服务器的关系借助于在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
尽管本说明书包含许多特定实施细节,但是这些细节不应被解读为是对任何发明或者可能要求保护的内容的范围的限制,而应被解读为是对具体发明的具体实施方式特有的特征的描述。在单独的实施方式的背景下在本说明书中所描述的某些特征还可以组合地实现在单个实施方式中。相反,在单一实施方式的背景下描述的各个特征也可以被单独的或以任何合适的子组合的方式实现在多个实施方式中。而且,虽然特征在上文可以被描述为以某些组合起作用并且甚至如此最初被要求,但来自所要求保护的组合的一个或多个特征在某些情况下可以与组合离体,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然附图中以具体顺序描绘了操作,但这不应被理解成要求这种操作以所示出的具体顺序或以有序顺序执行,或者所有展示的操作可以被执行,以实现令人希望的结果。在某些情况下,多重任务处理和并行处理可能是有利的。而且,上述实施方式中的不同***部件的分离不应被理解成在所有实施方式中都要求这种分离,并且应理解的是,所描述的程序部件和***通常可以一起整合在单个软件产品中或封装进多个软件产品中。
因此,己经描述了主题的具体实施方式。其他实施方式在下述权利要求书的范围内。在一些情况下,权利要求书中所列举的动作可以用不同顺序来执行,并且仍然获得期望结果。此外,在附图中描绘的过程不一定需要所示出的特定顺序或相继顺序来实现所希望的结果。在某些实施方式中,多重任务处理和并行处理可能是有利的。

Claims (21)

1.一种用于增强数字音频的由计算机实现的方法,所述方法包括:
标识包含用于产生可听声音内容的数据的数字声音文件;
标识并选择补充性声音内容的数字源;以及
将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。
2.如权利要求1所述的由计算机实现的方法,其中,所述数字声音文件包括可视分量和可听分量两者。
3.如权利要求1所述的由计算机实现的方法,其中,所述补充性声音内容包括随机噪声。
4.如权利要求3所述的由计算机实现的方法,其中,所述随机噪声包括白噪声或粉红噪声。
5.如权利要求1所述的由计算机实现的方法,进一步包括:
标识多声道声音信号的要被施加补充的一个或多个声道;以及
将所述补充性声音内容仅添加至所标识的一个或多个声道。
6.如权利要求1所述的由计算机实现的方法,进一步包括:
标识所述可听声音内容中的特定声音项;以及
添加在与所标识的特定声音项的频率范围相对应的所选频率范围内的补充性内容。
7.如权利要求1所述的由计算机实现的方法,进一步包括:将所述经补充声音内容传输至多个不同客户端音频播放器以便向用户播放所述音频,从而使得所述用户有意识地听到所述可听声音内容但并不有意识地听到所述补充性音频内容。
8.如权利要求1所述的由计算机实现的方法,其中,所述经补充声音内容被安排用于在收听者处产生当仅向所述收听者呈现所述可听声音内容时未实现的认知效果。
9.如权利要求1所述的由计算机实现的方法,其中,所述补充性声音内容包括:
第一声音内容源,所述第一声音内容源在所述经补充声音内容中的幅值随着时间与所述可听内容的幅值变化相关地改变;以及
第二声音内容源,所述第二声音内容源被选择并添加至原始内容,并且与所述第一声音内容源分开。
10.一种数字声音文件,所述数字声音文件存储在有形非暂态介质上并且通过包括以下各项的步骤的过程来制作:
标识包含用于产生可听声音内容的数据的数字声音文件;
标识并选择补充性声音内容的数字源;以及
将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。
11.如权利要求10所述的数字声音文件,其中,所述步骤进一步包括:
标识多声道声音信号的要被施加补充的一个或多个声道;以及
将所述补充性声音内容仅添加至所标识的一个或多个声道。
12.如权利要求10所述的数字声音文件,其中,所述步骤进一步包括:
标识所述可听声音内容中的特定声音项,所述特定声音项不同于所述可听声音内容中的其他不同声音项;以及
添加在与所标识的特定声音项的频率范围相对应的所选频率范围内的补充性内容。
13.如权利要求10所述的数字声音文件,其中,所述步骤进一步包括:将所述经补充声音内容传输至多个不同客户端音频播放器以便向用户播放所述音频,从而使得所述用户有意识地听到所述可听声音内容但并不有意识地听到所述补充性音频内容。
14.如权利要求10所述的数字声音文件,其中,所述经补充声音内容被安排用于在收听者处产生当仅向所述收听者呈现所述可听声音内容时未实现的认知效果。
15.如权利要求10所述的数字声音文件,其中,所述补充性声音内容包括:
第一声音内容源,所述第一声音内容源在所述经补充声音内容中的幅值随着时间与所述可听内容的幅值变化相关地改变;以及
第二声音内容源,所述第二声音内容源被选择并添加至原始内容,并且与所述第一声音内容源分开。
16.一种设备,包含存储有指令的一个或多个有形非暂态机器可读存储介质,所述指令在被一个或多个计算机处理器执行时执行包括以下各项的操作:
标识包含用于产生可听声音内容的数据的数字声音文件;
标识并选择补充性声音内容的数字源;以及
将所述补充性声音内容添加至所述可听声音内容从而产生经补充声音内容,其中,在亚声强度级别上添加所述补充性声音内容从而引起对收听所述经补充声音内容的用户的独特大脑激活。
17.如权利要求16所述的设备,其中,所述操作进一步包括:
标识所述数字声音文件中的多声道声音信号的要被施加补充的一个或多个声道;以及
将所述补充性声音内容仅添加至所标识的一个或多个声道。
18.如权利要求16所述的设备,其中,所述操作进一步包括:
标识所述可听声音内容中的特定声音项,所述特定声音项不同于所述可听声音内容中的其他不同声音项;以及
添加在所选频率范围内的补充性内容,所述所选频率范围被选择为与所标识的特定声音项的频率范围相对应。
19.如权利要求16所述的设备,其中,所述操作进一步包括:将所述经补充声音内容传输至多个不同客户端音频播放器以便向用户播放所述音频,从而使得所述用户有意识地听到所述可听声音内容但并不有意识地听到所述补充性音频内容。
20.如权利要求16所述的设备,其中,所述经补充声音内容被安排用于在收听者处产生当仅向所述收听者呈现所述可听声音内容时未实现的认知效果。
21.如权利要求16所述的设备,其中,所述补充性声音内容包括:
第一声音内容源,所述第一声音内容源在所述经补充声音内容中的幅值随着时间与所述可听内容的幅值变化相关地改变;以及
第二声音内容源,所述第二声音内容源在亚声级别被选择并添加至原始内容,并且与所述第一声音内容源分开。
CN201680020316.4A 2015-02-13 2016-02-12 数字音频补充 Withdrawn CN107710187A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562115732P 2015-02-13 2015-02-13
US62/115,732 2015-02-13
US201662280582P 2016-01-19 2016-01-19
US62/280,582 2016-01-19
PCT/US2016/017811 WO2016130954A1 (en) 2015-02-13 2016-02-12 Digital audio supplementation

Publications (1)

Publication Number Publication Date
CN107710187A true CN107710187A (zh) 2018-02-16

Family

ID=56614952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680020316.4A Withdrawn CN107710187A (zh) 2015-02-13 2016-02-12 数字音频补充

Country Status (10)

Country Link
US (1) US10433089B2 (zh)
EP (1) EP3256955A4 (zh)
JP (1) JP2018513424A (zh)
KR (1) KR20180008393A (zh)
CN (1) CN107710187A (zh)
AU (1) AU2016219043A1 (zh)
BR (1) BR112017017327A2 (zh)
CA (1) CA3014430A1 (zh)
MX (1) MX2017010433A (zh)
WO (1) WO2016130954A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10951985B1 (en) * 2016-07-01 2021-03-16 Gebre Waddell Method and system for audio critical listening and evaluation
WO2019060298A1 (en) 2017-09-19 2019-03-28 Neuroenhancement Lab, LLC METHOD AND APPARATUS FOR NEURO-ACTIVATION
US10733987B1 (en) * 2017-09-26 2020-08-04 Amazon Technologies, Inc. System and methods for providing unplayed content
US11717686B2 (en) 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
WO2019133997A1 (en) 2017-12-31 2019-07-04 Neuroenhancement Lab, LLC System and method for neuroenhancement to enhance emotional response
US11364361B2 (en) 2018-04-20 2022-06-21 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
EP3849410A4 (en) 2018-09-14 2022-11-02 Neuroenhancement Lab, LLC SLEEP ENHANCEMENT SYSTEM AND METHOD
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
US11295758B2 (en) * 2020-03-20 2022-04-05 Seagate Technology Llc Trusted listening

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0706299A2 (en) * 1994-10-06 1996-04-10 Fidelix Y.K. A method for reproducing audio signals and an apparatus therefor
EP1630790A1 (en) * 2003-05-20 2006-03-01 Matsushita Electric Industrial Co., Ltd. Method and device for extending the audio signal band
EP1653627A1 (en) * 2003-07-29 2006-05-03 Matsushita Electric Industrial Co., Ltd. Audio signal band expansion apparatus and method
CA2683311A1 (en) * 2007-02-09 2008-08-14 Able Planet, Incorporated Method and apparatus for modifying an audio signal
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
US20110172793A1 (en) * 2006-06-08 2011-07-14 Robert Alan Richards Enhancing perceptions of the sensory content of audio and audio-visual media

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3784750A (en) * 1972-02-25 1974-01-08 Shalako Resource Systems Apparatus and prosthetic device for providing electronic correction of auditory deficiencies for aurally handicapped persons
US5487113A (en) * 1993-11-12 1996-01-23 Spheric Audio Laboratories, Inc. Method and apparatus for generating audiospatial effects
DE19645105A1 (de) * 1996-10-31 1998-05-07 Basf Ag Verfahren zur Herstellung von sulfonsäuregruppenhaltigen Cu-Phthalocyaninfarbstoffen
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6770042B2 (en) * 2001-10-01 2004-08-03 Richard H. Lee Therapeutic signal combination
US7189913B2 (en) * 2003-04-04 2007-03-13 Apple Computer, Inc. Method and apparatus for time compression and expansion of audio data with dynamic tempo change during playback
JP2010515290A (ja) * 2006-09-14 2010-05-06 エルジー エレクトロニクス インコーポレイティド ダイアログエンハンスメント技術のコントローラ及びユーザインタフェース
US20080130908A1 (en) * 2006-12-05 2008-06-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Selective audio/sound aspects
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US9536514B2 (en) * 2013-05-09 2017-01-03 Sound Barrier, LLC Hunting noise masking systems and methods
CN105378826B (zh) 2013-05-31 2019-06-11 诺基亚技术有限公司 音频场景装置
WO2015038546A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Selective watermarking of channels of multichannel audio
US9445190B2 (en) 2013-12-20 2016-09-13 Plantronics, Inc. Masking open space noise using sound and corresponding visual

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0706299A2 (en) * 1994-10-06 1996-04-10 Fidelix Y.K. A method for reproducing audio signals and an apparatus therefor
EP1630790A1 (en) * 2003-05-20 2006-03-01 Matsushita Electric Industrial Co., Ltd. Method and device for extending the audio signal band
EP1653627A1 (en) * 2003-07-29 2006-05-03 Matsushita Electric Industrial Co., Ltd. Audio signal band expansion apparatus and method
US20110172793A1 (en) * 2006-06-08 2011-07-14 Robert Alan Richards Enhancing perceptions of the sensory content of audio and audio-visual media
CA2683311A1 (en) * 2007-02-09 2008-08-14 Able Planet, Incorporated Method and apparatus for modifying an audio signal
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置

Also Published As

Publication number Publication date
JP2018513424A (ja) 2018-05-24
KR20180008393A (ko) 2018-01-24
MX2017010433A (es) 2018-06-06
CA3014430A1 (en) 2016-08-18
US10433089B2 (en) 2019-10-01
EP3256955A4 (en) 2018-03-14
BR112017017327A2 (pt) 2018-04-03
EP3256955A1 (en) 2017-12-20
WO2016130954A1 (en) 2016-08-18
AU2016219043A1 (en) 2017-09-28
US20160240212A1 (en) 2016-08-18

Similar Documents

Publication Publication Date Title
CN107710187A (zh) 数字音频补充
US11087730B1 (en) Pseudo—live sound and music
US11132984B2 (en) Automatic multi-channel music mix from multiple audio stems
US8457977B2 (en) Advanced encoding of music files
US6683241B2 (en) Pseudo-live music audio and sound
US8173883B2 (en) Personalized music remixing
US7732697B1 (en) Creating music and sound that varies from playback to playback
TW201010450A (en) Apparatus and method for generating audio output signals using object based metadata
US20030085930A1 (en) Graphical user interface for a remote operated vehicle
Shelvock Audio mastering as musical practice
Kalliris et al. Media management, sound editing and mixing
Malecki et al. Electronic music production in ambisonics-case study
Shelvock Audio Mastering as a Musical Competency
Cafaro The Evolution of Singing in the Age of Audio Technology.
Bruel Remastering Music and Cultural Heritage: Case Studies from Iconic Original Recordings to Modern Remasters
Dang Exploring the value of binaural audio format for contemporary pop music
McGuire et al. Mixing
Campbell The effect of dynamic range compression on the psychoacoustic quality and loudness of commercial music
Phillips The Technological Limitations of Recorded Media and How These Limitations Influence or Affect the Recording of Popular Music
Wheeler The construction of liveness in rock recordings
Matsakis Mastering Object-Based Music with an Emphasis on Philosophy and Proper Techniques for Streaming Platforms
Richmond HIGH RESOLUTION AUDIO PRODUCTION
De Villiers Mastering Paradigms: A South African Perspective
Buckley Exploring the Multichannel Pop Record: A series of compositions entitled ‘Iron and Ivory’produced for 5.1 surround sound accompanied by an analytical research paper
Waldrep Creating and Delivering High-Resolution Multiple 5.1 Surround Music Mixes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180216