CN114830693A - 频谱正交音频分量处理 - Google Patents
频谱正交音频分量处理 Download PDFInfo
- Publication number
- CN114830693A CN114830693A CN202080085638.3A CN202080085638A CN114830693A CN 114830693 A CN114830693 A CN 114830693A CN 202080085638 A CN202080085638 A CN 202080085638A CN 114830693 A CN114830693 A CN 114830693A
- Authority
- CN
- China
- Prior art keywords
- component
- residual
- hyper
- intermediate component
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 216
- 230000003595 spectral effect Effects 0.000 title claims abstract description 155
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 88
- 238000001914 filtration Methods 0.000 claims description 60
- 230000001419 dependent effect Effects 0.000 claims description 34
- 238000010801 machine learning Methods 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000003111 delayed effect Effects 0.000 claims description 10
- 238000004091 panning Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 24
- 230000001755 vocal effect Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 13
- 238000004088 simulation Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 238000007792 addition Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000003447 ipsilateral effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
- H04R3/14—Cross-over networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种使用频谱正交的声音分量来处理音频信号的***。该***包括从音频信号的左声道和右声道生成中间分量和侧分量的电路装置。该电路装置生成超中间分量,超中间分量包括从中间分量的频谱能量中移除侧分量的频谱能量。该电路装置对超中间分量进行滤波,诸如以提供空间提示处理,包括平移或双耳处理、动态范围处理或其他类型的处理。该电路装置使用滤波后的超中间分量生成左输出声道和右输出声道。
Description
技术领域
本公开总体上涉及音频处理,并且更具体地涉及空间音频处理。
背景技术
从概念上讲,左右立体声信号的侧(或“空间”)分量可以被认为是左右声道中包括空间信息的部分(即,立体声信号中出现在声场中心左右任意位置的声音)。相反,左右立体声信号的中间(或“非空间”)分量可以被认为是左右声道中包括非空间信息的部分(即,立体声信号中出现在声场中心的声音)。虽然中间分量包含立体声信号中被感知为非空间的能量,但它通常也具有来自立体声信号中在感知上没有位于声场中心的元素的能量。类似地,虽然侧分量包含立体声信号中被感知为空间的能量,但它通常也具有来自立体声信号中在感知上位于声场中心的元素的能量。为了增强处理音频的可能性范围,需要对在频谱上彼此“正交”的中间分量和侧分量的部分进行隔离和操作。
发明内容
实施例涉及使用频谱正交音频分量的音频处理,诸如立体声音频信号或其他多声道音频信号的超中间分量、超侧分量、残余中间分量或残余侧分量。超中间分量和超侧分量在频谱上彼此正交,并且残余中间分量和残余侧分量在频谱上彼此正交。
一些实施例包括一种用于处理音频信号的***。该***包括从音频信号的左声道和右声道生成中间分量和侧分量的电路装置。该电路装置生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量。该电路装置对超中间分量进行滤波,诸如以提供空间提示处理,包括平移或双耳处理、动态范围处理或其他类型的处理。该电路装置使用滤波后的超中间分量生成左输出声道和右输出声道。
在一些实施例中,该电路装置对中间分量和侧分量应用傅里叶变换以将中间分量和侧分量转换到频域。该电路装置通过从频域中的中间分量的大小中减去频域中的侧分量的大小来生成超中间分量。
在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量应用动态范围处理。在一些实施例中,该电路装置对超中间分量进行滤波以调节超中间分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量应用基于机器学习的风格转移、转换或重新合成。
在一些实施例中,该电路装置生成包括从中间分量的频谱能量中移除超中间分量的频谱能量的残余中间分量,对残余中间分量进行滤波,并且使用滤波后的残余中间分量生成左输出声道和右输出声道。
在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量应用动态范围处理。在一些实施例中,该电路装置对残余中间分量进行滤波以调节残余中间分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量应用基于机器学习的风格转移、转换或重新合成。
在一些实施例中,该电路装置对中间分量应用傅里叶变换以将中间分量转换到频域。该电路装置通过从频域中的中间分量的大小中减去频域中的超中间分量的大小来生成残余中间分量。
在一些实施例中,该电路装置对超中间分量应用傅里叶逆变换以将频域中的超中间分量转换到时域,通过对中间分量进行时间延迟来生成延迟中间分量,通过从时域中的延迟中间分量中减去时域中的超中间分量来生成残余中间分量,对残余中间分量进行滤波,并且使用滤波后的残余中间分量生成左输出声道和右输出声道。
在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,对超侧分量进行滤波,并且使用滤波后的超侧分量生成左输出声道和右输出声道。
在一些实施例中,该电路装置对中间分量和侧分量应用傅里叶变换以将中间分量和侧分量转换到频域。该电路装置通过从频域中的侧分量的大小中减去频域中的中间分量的大小来生成超侧分量。
在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量应用动态范围处理。在一些实施例中,该电路装置对超侧分量进行滤波以调节超侧分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量应用基于机器学习的风格转移、转换或重新合成。
在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,生成包括从侧分量的频谱能量中移除超侧分量的频谱能量的残余侧分量,对残余侧分量进行滤波,并且使用滤波后的残余侧分量生成左输出声道和右输出声道。
在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量应用动态范围处理。在一些实施例中,该电路装置对残余侧分量进行滤波以调节残余侧分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量应用基于机器学习的风格转移、转换或重新合成。
在一些实施例中,该电路装置对侧分量应用傅里叶变换以将侧分量转换到频域。该电路装置通过从频域中的侧分量的大小中减去频域中的超侧分量的大小来生成残余侧分量
在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,对超侧分量应用傅里叶逆变换以将超中间分量转换到时域,通过对侧分量进行时间延迟来生成延迟侧分量,通过从时域中的延迟侧分量中减去时域中的超侧分量来生成残余侧分量,对残余侧分量进行滤波,并且使用滤波后的残余侧分量生成左输出声道和右输出声道。
一些实施例包括一种包括存储的程序代码的非暂态计算机可读介质。该程序代码在由至少一个处理器执行时将至少一个处理器配置为从音频信号的左声道和右声道生成中间分量和侧分量,生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量,对超中间分量进行滤波,并且使用滤波后的超中间分量生成左输出声道和右输出声道。
一些实施例包括一种用于由电路装置处理音频信号的方法。该方法包括从音频信号的左声道和右声道生成中间分量和侧分量,生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量,对超中间分量进行滤波,并且使用滤波后的超中间分量生成左输出声道和右输出声道。
附图说明
所公开的实施例具有从详细描述、所附权利要求和附图(或图)将更容易很清楚的其他优点和特征。下面是对附图的简要介绍。
图(FIG.)1是根据一个或多个实施例的音频处理***的框图。
图2A是根据一个或多个实施例的正交分量生成器的框图。
图2B是根据一个或多个实施例的正交分量生成器的框图。
图2C是根据一个或多个实施例的正交分量生成器的框图。
图3是根据一个或多个实施例的正交分量处理器的框图。
图4是根据一个或多个实施例的子带空间处理器的框图。
图5是根据一个或多个实施例的串扰补偿处理器的框图。
图6是根据一个或多个实施例的串扰模拟处理器的框图。
图7是根据一个或多个实施例的串扰消除处理器的框图。
图8是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行空间处理的过程的流程图。
图9是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行子带空间处理和串扰补偿处理的过程的流程图。
图10-图19是描绘根据一个或多个实施例的示例白噪声信号的中间分量和侧分量的频谱能量的图。
图20是根据一个或多个实施例的计算机***的框图。
具体实施方式
附图和以下描述仅通过说明的方式涉及优选实施例。应当注意,从以下讨论中,本文中公开的结构和方法的备选实施例将容易地被认为是可行的备选方案,该备选方案可以被采用而不背离所要求保护的原理。
现在将详细参考若干实施例,该实施例的示例在附图中示出。注意,只要可行,类似或相似的附图标记可以用于附图中并且可以指示类似或相似的功能。附图仅出于说明的目的而描绘了所公开的***(或方法)的实施例。本领域技术人员将从以下描述中容易地认识到,可以采用本文中示出的结构和方法的备选实施例而不背离本文中描述的原理。
实施例涉及使用在频谱上彼此正交的中间和侧分量的空间音频处理。例如,音频处理***生成超中间分量或超侧分量,该超中间分量隔离中间分量的、仅与存在于声场中心的频谱能量相对应的部分,该超侧分量隔离侧分量的、仅与不存在于声场中心的频谱能量相对应的部分。超中间分量包括从中间分量的频谱能量中移除侧分量的频谱能量,并且超侧分量包括从侧分量的频谱能量中移除中间分量的频谱能量。音频处理***还可以生成残余中间分量和残余侧分量,该残余中间分量对应于移除了超中间分量(例如,通过从中间分量的频谱能量中减去超中间分量的频谱能量)的中间分量的频谱能量,该残余侧分量对应于移除了超中间分量(例如,通过从侧分量的频谱能量中减去超侧分量的频谱能量)的侧分量的频谱能量。通过隔离这些正交分量并且使用这些分量执行各种类型的音频处理,音频处理***能够提供有针对性的音频内容增强。超中间分量表示声场中心的非空间(即,中间)频谱能量。例如,声场中心的非空间频谱能量可以包括电影的对话或音乐中的主要声乐内容。对超中间应用信号处理操作使得能够在不改变存在于声场其他地方的频谱能量的情况下调节这样的音频内容。例如,在一些实施例中,可以通过对超中间分量应用降低典型人类声乐范围内的频谱能量的滤波器来部分地和/或完全地移除声音声乐。在其他实施例中,可以通过增加典型人类声乐范围内的能量的滤波器(例如,经由压缩、混响和/或其他音频处理技术)来对声乐内容应用有针对性的声乐增强或效果。残余中间分量表示不在声场中心的非空间频谱能量。对残余中间应用信号处理技术允许类似变换从其他分量正交地发生。例如,在一些实施例中,为了在总体感知增益的最小变化和声乐存在的最小损失的情况下对音频内容提供空间加宽效果,可以部分地和/或完全地移除残余中间分量中的有针对性的频谱能量,同时增加残余侧分量中的频谱能量。
示例音频处理***
图1是根据一个或多个实施例的音频处理***100的框图。音频处理***100是处理输入音频信号以生成空间增强的输出音频信号的电路装置。输入音频信号包括左输入声道103和右输入声道105,并且输出音频信号包括左输出声道121和右输出声道123。音频处理***100包括L/R到M/S转换器模块107、正交分量生成器模块113、正交分量处理器模块117、M/S到L/R转换器模块119和串扰处理器模块141。在一些实施例中,音频处理***100包括上述组件的子集和/或除上述组件之外的附加组件。在一些实施例中,音频处理***100以不同于图1所示的顺序处理输入音频信号。例如,音频处理***100可以在使用正交分量生成器模块113和正交分量处理器模块117进行处理之前利用串扰处理来处理输入音频。
L/R到M/S转换器模块107接收左输入声道103和右输入声道105,并且从输入声道103和105生成中间分量109(例如,非空间分量)和侧分量111(例如,空间分量)。在一些实施例中,中间分量109基于左输入声道103和右输入声道105之和而被生成,并且侧分量111基于左输入声道103和右输入声道105之差而被生成。在一些实施例中,从多声道输入音频信号(例如,环绕声)生成若干中间分量和侧分量。可以使用其他L/R到M/S类型的变换来生成中间分量109和侧分量111。
正交分量生成器模块113处理中间分量109和侧分量111以生成以下中的至少一项:超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2。超中间分量M1是移除了侧分量111的中间分量109。超侧分量S1是移除了中间分量109的频谱能量的侧分量111的频谱能量。残余中间分量M2是移除了超中间分量M1的频谱能量的中间分量109的频谱能量。残余侧分量S2是移除了超侧分量S1的频谱能量的侧分量111的频谱能量。在一些实施例中,音频处理***100通过处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的至少一项来生成左输出声道121和右输出声道123。正交分量生成器模块113关于图2A-图2C进一步描述。
正交分量处理器模块117处理超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2中的一项或多项。对分量M1、M2、S1和S2的处理可以包括各种类型的滤波,诸如空间提示(spatial cue)处理(例如,基于幅度或延迟的平移、双耳处理等)、动态范围处理、基于机器学习的处理、增益应用、混响、添加音频效果或其他类型的处理。在一些实施例中,正交分量处理器模块117使用超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2来执行子带空间处理和/或串扰补偿处理,以生成经处理的中间分量131和经处理的侧分量139。子带空间处理是对音频信号的中间分量和侧分量的频率子带执行的、用于在空间上增强音频信号的处理。串扰补偿处理是对音频信号执行的处理,该处理用于调节由串扰处理引起的频谱伪影,诸如扬声器的串扰补偿或耳机的串扰模拟。正交分量处理器模块117关于图3进一步描述。
M/S到L/R转换器模块119接收经处理的中间分量131和经处理的侧分量139,并且生成经处理的左分量151和经处理的右分量159。在一些实施例中,经处理的左分量151基于经处理的中间分量131和经处理的侧分量139之和而被生成,并且经处理的右分量159基于经处理的中间分量131与经处理的侧分量139之差而被生成。可以使用其他M/S到L/R变换类型来生成经处理的左分量151和经处理的右分量159。
串扰处理器模块141接收经处理的左分量151和经处理的右分量159并且对其执行串扰处理。串扰处理包括例如串扰模拟或串扰消除。串扰模拟是对音频信号(例如,经由耳机输出的)执行的、用于模拟扬声器的效果的处理。串扰消除是对被配置为经由扬声器输出的音频信号执行的、用于消除由扬声器引起的串扰的处理。串扰处理器模块141输出左输出声道121和右输出声道123。
示例正交分量生成器
图2A-图2C分别是根据一个或多个实施例的正交分量生成器模块213、223和243的框图。正交分量生成器模块213、223和243是正交分量生成器模块113的示例。
参考图2A,正交分量生成器模块213包括减法单元205、减法单元209、减法单元215和减法单元219。如上所述,正交分量生成器模块113接收中间分量109和侧分量111,并且输出超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的一项或多项。
减法单元205从中间分量109的频谱能量中移除侧分量111的频谱能量,以生成超中间分量M1。例如,减法单元205从频域中的中间分量109的大小中减去频域中的侧分量111的大小,同时不考虑相位,以生成超中间分量M1。可以使用傅里叶变换对时域信号执行频域减法以生成频域信号,然后是频域信号的减法。在其他示例中,频域减法可以以其他方式执行,诸如使用小波变换而不是傅里叶变换。减法单元209通过从中间分量109的频谱能量中移除超中间分量M1的频谱能量来生成残余中间分量M2。例如,减法单元209从频域中的中间分量109的大小中减去频域中的超中间分量M1的大小,同时不考虑相位,以生成残余中间分量M2。虽然在时域中从中间减去侧会得到信号的原始右声道,但频域中的上述操作隔离并且在如下之间区分:中间分量的、与侧分量(称为M1、或超中间)的频谱能量不同的频谱能量的一部分,以及中间分量的、与侧分量(称为M2、或残余中间)的频谱能量相同的频谱能量的一部分。
在一些实施例中,当从中间分量109的频谱能量中减去侧分量111的频谱能量得到超中间分量M1的负值时(例如,对于频域中的区间中的一个或多个区间),可以使用附加处理。在一些实施例中,当从中间分量109的频谱能量中减去侧分量111的频谱能量得到负值时,超中间分量M1被钳位在0值。在一些实施例中,通过将负值的绝对值作为超中间分量M1的值来返转(wrapped around)超中间分量M1。当从中间分量109的频谱能量中减去侧分量111的频谱能量导致M1为负值时,可以使用其他类型的处理。当生成超侧分量S1、残余侧分量S2或残余中间分量M2的减法结果为负时,可以使用类似的附加处理,诸如钳位在0处、返转或其他处理。当减法得到负值时,将超中间分量M1钳位在0处将保证M1与两个侧分量之间的频谱正交性。同样,当减法得到负值时,将超侧分量S1钳位在0处将保证S1与两个中间分量之间的频谱正交性。通过在超中间和侧分量及其适当中间/侧对应分量之间创建正交性(即,用于超中间的侧分量、用于超侧的中间分量),导出的残余中间M2和残余侧S2分量包含不与其适当中间/侧对应分量正交(即,与其共有)的频谱能量。也就是说,当在0处对超中间应用钳位,并且使用该M1分量导出残余中间时,生成频谱能量不与侧分量共有的超中间分量和频谱能量与侧分量完全共有的残余中间分量。当将超侧钳位为0时,相同的关系适用于超侧和残余侧。在应用频域处理时,通常需要在频率与定时信息之间的分辨率上进行权衡。随着频率分辨率的增加(即,随着FFT窗口大小和频率区间数目的增加),时间分辨率降低,反之亦然。上述频谱减法发生在每个频率区间的基础上,因此在某些情况下,诸如从超中间分量中移除声乐能量时,优选地使用较大FFT窗口大小(例如,8192个样本,在给定实值输入信号的情况下产生4096个频率区间)。其他情况可能需要更高的时间分辨率并且因此需要更低的整体延迟和更低的频率分辨率(例如,512个样本FFT窗口大小,在给定实值输入信号的情况下产生256个频率区间)。在后一种情况下,中间和侧的低频分辨率在彼此相减以导出超中间M1和超侧S1分量时可以产生可听的频谱伪影,因为每个频率区间的频谱能量是在过大的频率范围内的能量的平均表示。在这种情况下,在导出超中间M1或超侧S1时取中间与侧之间的差值的绝对值可以通过允许每个频率区间与分量中的真实正交性发散来帮助减轻感知伪影。除了或代替返转0,可以将系数应用于减数值,在0与1之间缩放该值,因此提供了一种用于在以下极端之间进行插值的方法:在一个极端(即,值为1),超和残余中间/侧分量的完全正交性;以及在另一极端(即,值为0),与其对应原始中间和侧分量相同的超中间M1和超侧S1。
减法单元215从频域中的侧分量111的频谱能量中移除频域中的中间分量109的频谱能量,同时不考虑相位,以生成超侧分量S1。例如,减法单元215从频域中的侧分量111的大小中减去频域中的中间分量109的大小,同时不考虑相位,以生成超侧分量S1。减法单元219从侧分量111的频谱能量中移除超侧分量S1的频谱能量以生成残余侧分量S2。例如,减法单元219从频域中的侧分量111的大小中减去频域中的超侧分量S1的大小,同时不考虑相位,以生成残余侧分量S2。
在图2B中,正交分量生成器模块223与正交分量生成器模块213的相似之处在于,它接收中间分量109和侧分量111并且生成超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2。正交分量生成器模块223与正交生成器模块213的不同之处在于,在频域中生成超中间分量M1和超侧分量S1,然后将这些分量转换回时域以生成残余中间分量M2和残余侧分量S2。正交分量生成器模块223包括前向FFT单元220、带通单元222、减法单元224、超中间处理器225、逆FFT单元226、时间延迟单元228、减法单元230、前向FFT单元232、带通单元234、减法单元236、超侧处理器237、逆FFT单元240、时间延迟单元242和减法单元244。
前向快速傅里叶变换(FFT)单元220对中间分量109应用前向FFT,以将中间分量109转换到频域。频域中的转换后的中间分量109包括大小和相位。带通单元222对频域中间分量109应用带通滤波器,其中带通滤波器指定超中间分量M1中的频率。例如,为了隔离典型人类声乐范围,带通滤波器可以指定300到8000Hz之间的频率。在另一示例中,为了移除与典型人类声乐范围相关联的音频内容,带通滤波器可以保持超中间分量M1中的较低频率(例如,由低音吉他或鼓生成)和较高频率(例如,由钹生成)。在其他实施例中,除了和/或代替由带通单元222应用的带通滤波器,正交分量生成器模块223对频域中间分量109应用各种其他滤波器。在一些实施例中,正交分量生成器模块223不包括带通单元222并且不对频域中间分量109应用任何滤波器。在频域中,减法单元224从滤波后的中间分量中减去侧分量111以生成超中间分量M1。在其他实施例中,除了和/或代替由正交分量处理器模块(例如,图3的正交分量处理器模块)执行的应用于超中间分量M1的稍后处理,正交分量生成器模块223对频域超中间分量M1应用各种音频增强。超中间处理器225在超中间分量M1转换到时域之前在频域中对其执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超中间处理器225对超中间分量M1执行处理。逆FFT单元226对超中间分量M1应用逆FFT,以将超中间分量M1转换回时域。频域中的超中间分量M1包括M1的大小和中间分量109的相位,逆FFT单元226将其转换到时域。时间延迟单元228对中间分量109应用时间延迟,使得中间分量109和超中间分量M1同时到达减法单元230。减法单元230从时域中的时间延迟中间分量109中减去时域中的超中间分量M1,以生成残余中间分量M2。在该示例中,使用时域中的处理从中间分量109的频谱能量中移除超中间分量M1的频谱能量。
前向FFT单元232对侧分量111应用前向FFT,以将侧分量111转换到频域。频域中的转换后的侧分量111包括大小和相位。带通单元234对频域侧分量111应用带通滤波器。带通滤波器指定超侧分量S1中的频率。在其他实施例中,除了和/或代替带通滤波器,正交分量生成器模块223对频域侧分量111应用各种其他滤波器。在频域中,减法单元236从滤波后的侧分量111中减去中间分量109以生成超侧分量S1。在其他实施例中,除了和/或代替由正交分量处理器(例如,图3的正交分量处理器模块)执行的应用于超侧分量S1的稍后处理,正交分量生成器模块223对频域超侧分量S1应用各种音频增强。超侧处理器237在超侧分量S1转换到时域之前在频域中对其执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超侧处理器237对超侧分量S1执行处理。逆FFT单元240对频域中的超侧分量S1应用逆FFT,以生成时域中的超侧分量S1。频域中的超侧分量S1包括S1的大小和侧分量111的相位,逆FFT单元226将其转换到时域。时间延迟单元242对侧分量111进行时间延迟,使得侧分量111与超侧分量S1同时到达减法单元244。减法单元244随后从时域中的时间延迟的侧分量111中减去时域中的超侧分量S1,以生成残余侧分量S2。在该示例中,使用时域中的处理从侧分量111的频谱能量中移除超侧分量S1的频谱能量。
在一些实施例中,如果由这些组件执行的处理由正交分量处理器模块117执行,则可以省略超中间处理器225和超侧处理器237。
在图2C中,正交分量生成器模块245与正交分量生成器模块223的相似之处在于,它接收中间分量109和侧分量111并且生成超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2,不同之处在于,正交分量生成器模块245在频域中生成分量M1、M2、S1和S2中的每项,然后将这些分量转换到时域。正交分量生成器模块245包括前向FFT单元247、带通单元249、减法单元251、超中间处理器252、减法单元253、残余中间处理器254、逆FFT单元255、逆FFT单元257、前向FFT单元261、带通单元263、减法单元265、超侧处理器266、减法单元267、残余侧处理器268、逆FFT单元269和逆FFT单元271。
前向FFT单元247对中间分量109应用前向FFT,以将中间分量109转换到频域。频域中的转换后的中间分量109包括大小和相位。前向FFT单元261对侧分量111应用前向FFT,以将侧分量111转换到频域。频域中的转换后的侧分量111包括大小和相位。带通单元249对频域中间分量109应用带通滤波器,带通滤波器指定超中间分量M1的频率。在一些实施例中,除了和/或代替带通滤波器,正交分量生成器模块245对频域中间分量109应用各种其他滤波器。减法单元251从频域中间分量109中减去频域侧分量111,以生成频域中的超中间分量M1。超中间处理器252在超中间分量M1转换到时域之前在频域中对其执行处理。在一些实施例中,超中间处理器252执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超中间处理器252对超中间分量M1执行处理。逆FFT单元257对超中间分量M1应用逆FFT,以将其转换回时域。频域中的超中间分量M1包括M1的大小和中间分量109的相位,逆FFT单元257将其转换到时域。减法单元253在频域中从中间分量109中减去超中间分量M1以生成残余中间分量M2。残余中间处理器254在残余中间分量M2转换到时域之前在频域中对其执行处理。在一些实施例中,残余中间处理器254对残余中间分量M2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,残余中间处理器254对残余中间分量M2执行处理。逆FFT单元255应用逆FFT以将残余中间分量M2转换到时域。频域中的残余中间分量M2包括M2的大小和中间分量109的相位,逆FFT单元255将其转换到时域。
带通单元263对频域侧分量111应用带通滤波器。带通滤波器指定超侧分量S1中的频率。在其他实施例中,除了和/或代替带通滤波器,正交分量生成器模块245对频域侧分量111应用各种其他滤波器。在频域中,减法单元265从滤波后的侧分量111中减去中间分量109以生成超侧分量S1。超侧处理器266在超侧分量S1转换到时域之前在频域中对其执行处理。在一些实施例中,超侧处理器266对超侧分量S1执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超侧处理器266对超侧分量S1执行处理。逆FFT单元271应用逆FFT以将超侧分量S1转换回时域。频域中的超侧分量S1包括S1的大小和侧分量111的相位,逆FFT单元271将其转换到时域。减法单元267在频域中从侧分量111中减去超侧分量S1,以生成残余侧分量S2。残余侧处理器268在残余侧分量S2转换到时域之前在频域中对其执行处理。在一些实施例中,残余侧处理器268对残余侧分量S2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,残余侧处理器268对残余侧分量S2执行处理。逆FFT单元269对残余侧分量S2应用逆FFT,以将其转换到时域。频域中的残余侧分量S2包括S2的大小和侧分量111的相位,逆FFT单元269将其转换到时域。
在一些实施例中,如果由超中间处理器252、超侧处理器266、残余中间处理器254或残余侧处理器268执行的处理由正交分量处理器模块117执行,则可以省略这些组件。
示例正交分量处理器
图3是根据一个或多个实施例的正交分量处理器模块317的框图。正交分量处理器模块317是正交分量处理器模块117的示例。正交分量处理器模块317可以包括子带空间处理和/或串扰补偿处理单元320、加法单元325和加法单元330。正交分量处理器模块317对超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2中的至少一项执行子带空间处理和/或串扰补偿处理。作为子带空间处理和/或串扰补偿处理320的结果,正交分量处理器模块317输出经处理的M1、经处理的M2、经处理的S1和经处理的S2中的至少一项。加法单元325将经处理的M1和经处理的M2相加以生成经处理的中间分量131,并且加法单元330将经处理的S1和经处理的S2相加以生成经处理的侧分量139。
在一些实施例中,正交分量处理器模块317在频域中对超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2中的至少一项执行子带空间处理和/或串扰补偿处理320,以在频域中生成经处理的中间分量131和经处理的侧分量139。正交分量生成器模块113可以将频域中的分量M1、M2、S1或S2提供给正交分量处理器,其中执行逆FFT。在生成经处理的中间分量131和经处理的侧分量139之后,正交分量处理器模块317可以对经处理的中间分量131和经处理的侧分量139执行逆FFT,以将这些分量转换回时域。在一些实施例中,正交分量处理器模块317对经处理的M1、经处理的M2、经处理的S1和经处理的S1执行逆FFT,以在时域中生成经处理的中间分量131和经处理的侧分量139。
正交分量处理器模块317的示例在图4和图5中示出。在一些实施例中,正交分量处理器模块317执行子带空间处理和串扰补偿处理。由正交分量处理器模块317执行的处理不限于子带空间处理或串扰补偿处理。使用中间/侧空间的任何类型的空间处理都可以由正交分量处理器模块317执行,诸如通过使用超中间分量代替中间分量或使用超侧分量代替侧分量。一些其他类型的处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、以及其他线性或非线性音频处理技术和效果,范围从合唱或镶边到基于机器学习的声乐或器乐风格转移、转换或重新合成等方法。
示例子带空间处理器
图4是根据一个或多个实施例的子带空间处理器模块410的框图。子带空间处理器模块410是正交分量处理器模块317的示例。子带空间处理器模块410包括中间EQ滤波器404(1)、中间EQ滤波器404(2)、中间EQ滤波器404(3)、中间EQ滤波器404(4)、侧EQ滤波器406(1)、侧EQ滤波器406(2)、侧EQ滤波器406(3)和侧EQ滤波器406(4)。在一些实施例中,除了和/或代替本文中描述的组件,子带空间处理器模块410包括其他组件。
子带空间处理器模块410接收非空间分量Ym和空间分量Ys并且对这些分量中的一项或多项的子带进行增益调节以提供空间增强。非空间分量Ym可以是超中间分量M1或残余中间分量M2。空间分量Ys可以是超侧分量S1或残余侧分量S2。
子带空间处理器模块410接收非空间分量Ym并且将中间EQ滤波器404(1)至404(4)应用于Ym的不同子带以生成增强的非空间分量Em。子带空间处理器模块410还接收空间分量Ys并且将侧EQ滤波器406(1)至406(4)应用于Ys的不同子带以生成增强的空间分量Es。子带滤波器可以包括峰值滤波器、陷波滤波器、低通滤波器、高通滤波器、低架滤波器、高架滤波器、带通滤波器、带阻滤波器和/或全通滤波器的各种组合。子带滤波器也可以将增益应用于相应子带。更具体地,子带空间处理器模块410包括用于非空间分量Ym的n个频率子带中的每个的子带滤波器和用于空间分量Ys的n个子带中的每个的子带滤波器。例如,对于n=4个子带,子带空间处理器模块410包括用于非空间分量Ym的一系列子带滤波器,包括用于子带(1)的中间均衡(EQ)滤波器404(1)、用于子带(2)的中间EQ滤波器404(2)、用于子带(3)的中间EQ滤波器404(3)和用于子带(4)的中间EQ滤波器404(4)。每个中间EQ滤波器404将滤波器应用于非空间分量Ym的频率子带部分以生成增强的非空间分量Em。
子带空间处理器模块410还包括用于空间分量Ys的频率子带的一系列子带滤波器,包括用于子带(1)的侧均衡(EQ)滤波器406(1)、用于子带(2)的侧EQ滤波器406(2)、用于子带(3)的侧EQ滤波器406(3)和用于子带(4)的侧EQ滤波器406(4)。每个侧EQ滤波器406将滤波器应用于空间分量Ys的频率子带部分以生成增强的空间分量Es。
非空间分量Ym和空间分量Ys的n个频率子带中的每个频率子带可以对应于一定范围的频率。例如,频率子带(1)可以对应于0到300Hz,频率子带(2)可以对应于300到510Hz,频率子带(3)可以对应于510到2700Hz,并且频率子带(4)可以对应于2700Hz到奈奎斯特频率。在一些实施例中,n个频率子带是合并的一组临界频带。临界频带可以使用来自多种音乐流派的音频样本的语料库来确定。从样本中确定24个Bark尺度(Bark scale)临界频带之上的中间到侧分量的长期平均能量比。然后具有相似长期平均比率的连续频带组合在一起以形成该组临界频带。频率子带的范围以及频率子带的数目可以是可调节的。
在一些实施例中,子带空间处理器模块410将残余中间分量M2处理为非空间分量Ym,并且使用侧分量、超侧分量S1或残余侧分量S2中的一项作为空间分量Ys。
在一些实施例中,子带空间处理器模块410处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的一项或多项。应用于这些分量中的每个的子带的滤波器可以不同。超中间分量M1和残余中间分量M2每个可以如针对非空间分量Ym所讨论的那样进行处理。超侧分量S1和残余侧分量S2每个可以如针对空间分量Ys所讨论的那样进行处理。
示例串扰补偿处理器
图5是根据一个或多个实施例的串扰补偿处理器模块510的框图。串扰补偿处理器模块510是正交分量处理器模块317的示例。串扰补偿处理器模块510包括中间分量处理器520和侧分量处理器530。串扰补偿处理器模块510接收非空间分量Ym和空间分量Ys,并且将滤波器应用于这些分量中的一项或多项,以补偿由(例如,后续或先前)串扰处理引起的频谱缺陷。非空间分量Ym可以是超中间分量M1或残余中间分量M2。空间分量Ys可以是超侧分量S1或残余侧分量S2。
串扰补偿处理器模块510接收非空间分量Ym并且中间分量处理器520应用一组滤波器以生成增强的非空间串扰补偿分量Zm。串扰补偿处理器模块510还接收空间子带分量Ys,并且在侧分量处理器530中应用一组滤波器以生成增强的空间子带分量Es。中间分量处理器520包括多个滤波器540,诸如m个中间滤波器540(a)、540(b)至540(m)。这里,m个中间滤波器540中的每个处理非空间分量Xm的m个频带中的一个。中间分量处理器520相应地通过处理非空间分量Xm来生成中间串扰补偿声道Zm。在一些实施例中,中间滤波器540使用非空间Xm的频率响应图来配置,并且通过模拟进行串扰处理。此外,通过分析频率响应图,可以估计作为串扰处理的伪影而出现的任何频谱缺陷,诸如频率响应图中超过预定阈值(例如,10dB)的峰或谷。这些伪影主要是由于在串扰处理中延迟和可能反相的对侧信号与其对应同侧信号相加的结果,从而有效地将类似梳状滤波器的频率响应引入到最终渲染结果。中间串扰补偿声道Zm可以由中间分量处理器520生成以补偿所估计的峰或谷,其中m个频带中的每个对应于峰或谷。具体地,基于在串扰处理中应用的特定延迟、滤波频率和增益,峰和谷在频率响应中上下移动,导致频谱的特定区域的能量的可变放大和/或衰减。中间滤波器540中的每个可以被配置为针对峰和谷中的一个或多个进行调节。
侧分量处理器530包括多个滤波器550,诸如m个侧滤波器550(a)、550(b)至550(m)。侧分量处理器530通过处理空间分量Xs来生成侧串扰补偿声道Zs。在一些实施例中,可以通过模拟得到具有串扰处理的空间Xs的频率响应图。通过分析频率响应图,可以估计作为串扰处理的伪影而出现的任何频谱缺陷,诸如频率响应图中超过预定阈值(例如,10dB)的峰或谷。侧串扰补偿声道Zs可以由侧分量处理器530生成以补偿所估计的峰或谷。具体地,基于在串扰处理中应用的特定延迟、滤波频率和增益,峰和谷在频率响应中上下移动,导致频谱的特定区域的能量的可变放大和/或衰减。侧滤波器550中的每个可以被配置为针对峰和谷中的一个或多个进行调节。在一些实施例中,中间分量处理器520和侧分量处理器530可以包括不同数目的滤波器。
在一些实施例中,中间滤波器540和侧滤波器550可以包括具有由等式1限定的传递函数的双二阶滤波器:
其中z是复变量,a0、a1、a2、b0、b1和b2是数字滤波器系数。实现这种滤波器的一种方法是由等式2限定的直接形式I拓扑:
其中X是输入向量,Y是输出。可以使用其他拓扑,具体取决于它们的最大字长和饱和行为。然后,可以使用双二阶实现具有实值输入和输出的二阶滤波器。为了设计离散时间滤波器,设计了一个连续时间滤波器,然后经由双线性变换将其变换为离散时间。此外,可以使用频率扭曲来补偿中心频率和带宽的最终偏移。
例如,峰值滤波器可以具有由等式3限定的S平面传递函数:
其中s是复变量,A是峰值的幅度,并且Q是滤波器“质量”,数字滤波器系数由下式限定:
b0=1+αA
b1=-2*cos(ω0)
b2=1-αA
a1=-2cos(ω0)
其中Δf是带宽并且fc是中心频率。中间滤波器540示出为串联,侧滤波器550示出为串联。在一些实施例中,中间滤波器540并行地应用于中间分量Xm,并且侧滤波器540并行地应用于侧分量Xs。
在一些实施例中,串扰补偿处理器模块510处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的每个。应用于这些分量中的每个分量的滤波器可以不同。
示例串扰处理器
图6是根据一个或多个实施例的串扰模拟处理器模块600的框图。如关于图1所述,在一些实施例中,音频处理***100包括串扰处理器模块141,串扰处理器模块141对经处理的左分量151和经处理的右分量159应用串扰处理。串扰处理包括例如串扰模拟和串扰消除。在一些实施例中,串扰处理器模块141包括串扰模拟处理器模块600。串扰模拟处理器模块600生成对侧声音分量以输出到立体声耳机,从而在耳机上提供类似扬声器的倾听体验。左输入声道XL可以是经处理的左分量151,右输入声道XR可以是经处理的右分量159。在一些实施例中,可以在正交分量处理之前执行串扰模拟。
串扰模拟处理器模块600包括左头影(left head shadow)低通滤波器602、左头影高通滤波器624、左串扰延迟604和左头影增益610以处理左输入声道XL。串扰模拟处理器模块600还包括右头影低通滤波器606、右头影高通滤波器626、右串扰延迟608和右头影增益612以处理右输入声道XR。左头影低通滤波器602和左头影高通滤波器624对左输入声道XL应用调制,该调制模拟信号在通过倾听者的头部之后的频率响应。左头影高通滤波器624的输出被提供给左串扰延迟604,左串扰延迟604应用时间延迟。时间延迟表示对侧声音分量相对于同侧声音分量穿过的跨壁(transmural)距离。左头影增益610对左串扰延迟604的输出应用增益以生成右左模拟声道WL。
类似地,对于右输入声道XR,右头影低通滤波器606和右头影高通滤波器626对右输入声道XR应用调制,该调制模拟倾听者的头部的频率响应。右头影高通滤波器626的输出被提供给右串扰延迟608,右串扰延迟608应用时间延迟。右头影增益612对右串扰延迟608的输出应用增益以生成右串扰模拟声道WR。
对左右声道中的每个应用头影低通滤波器、头影高通滤波器、串扰延迟和头影增益可以以不同顺序执行。
图7是根据一个或多个实施例的串扰消除处理器模块700的框图。串扰处理器模块141可以包括串扰消除处理器模块700。串扰消除处理器模块700接收左输入声道XL和右输入声道XR,并且对声道XL、XR执行串扰消除以生成左输出声道OL和右输出声道OR。左输入声道XL可以是经处理的左分量151,并且右输入声道XR可以是经处理的右分量159。在一些实施例中,可以在正交分量处理之前执行串扰消除。
串扰消除处理器模块700包括带内外划分器710、反相器720和722、对侧估计器730和740、组合器750和752、以及带内外组合器760。这些组件一起操作以将输入声道TL、TR划分为带内分量和带外分量,并且对带内分量执行串扰消除以生成输出声道OL、OR。
通过将输入音频信号T划分成不同频带分量并且通过对选择性分量(例如,带内分量)执行串扰消除,可以针对特定频带执行串扰消除,同时避免其他频带中的劣化。如果在不将输入音频信号T划分为不同频带的情况下执行串扰消除,则经过这种串扰消除之后的音频信号在低频(例如,低于350Hz)、高频(例如,高于12000Hz),或这两者中表现出非空间和空间分量的显著衰减或放大。通过对绝大多数有影响的空间线索所在的带内(例如,在250Hz到14000Hz之间)执行串扰消除,可以在混合的整个频谱中保留平衡的整体能量,特别是在非空间分量中。
带内外划分器710将输入声道TL、TR分别分离为带内声道TL,In、TR,In和带外声道TL,Out、TR,Out。具体地,带内外划分器710将左增强补偿声道TL划分为左带内声道TL,In和左带外声道TL,Out。类似地,带内外划分器710将右增强补偿声道TR分离成右带内声道TR,In和右带外声道TR,Out。每个带内声道可以包含与一定频率范围相对应的相应输入声道的一部分,该频率范围包括例如250Hz到14kHz。该频带范围可以是可调节的,例如根据扬声器参数。
反相器720和对侧估计器730一起操作以生成左对侧消除分量SL,以补偿由于左带内声道TL,In引起的对侧声音分量。类似地,反相器722和对侧估计器740一起操作以生成右对侧消除分量SR,以补偿由于右带内声道TR,In引起的对侧声音分量。
在一种方法中,反相器720接收带内声道TL,In并且将接收的带内声道TL,In的极性反相以生成反相的带内声道TL,In'。对侧估计器730接收反相的带内声道TL,In',并且通过滤波提取与对侧声音分量相对应的反相的带内声道TL,In'的一部分。因为滤波是对反相的带内声道TL,In'执行的,所以由对侧估计器730提取的部分变为归因于对侧声音分量的带内声道TL,In的一部分的倒数。因此,由对侧估计器730提取的部分变成左对侧消除分量SL,其可以被添加到对应的带内声道TR,In以减少由于带内声道TL,In引起的对侧声音分量。在一些实施例中,反相器720和对侧估计器730以不同顺序实现。
反相器722和对侧估计器740对带内声道TR,In执行类似的操作以生成右对侧消除分量SR。因此,为简洁起见,在此省略其详细描述。
在一个示例实现中,对侧估计器730包括滤波器732、放大器734和延迟单元736。滤波器732接收反相的输入声道TL,In′,并且通过滤波函数提取与对侧声音分量相对应的反相的带内声道TL,In′的一部分。示例滤波器实现是陷波或高架滤波器,其中心频率在5000到10000Hz之间选择,Q在0.5到1.0之间选择。以分贝为单位的增益(GdB)可以从等式5得出:
GdB=-3.0-log1.333(D) 等式(5)
其中D是延迟单元736和646在样本中的延迟量,例如,以48KHz的采样率。一个备选实现是低通滤波器,其中转角频率在5000到10000Hz之间选择,并且Q在0.5到1.0之间选择。此外,放大器734将提取的部分放大对应增益系数GL,In,并且延迟单元736根据延迟函数D延迟放大器734的放大输出以生成左对侧消除分量SL。对侧估计器740包括滤波器742、放大器744和延迟单元746,延迟单元746对反相的带内声道TR,In′执行类似操作以生成右对侧消除分量SR。在一个示例中,对侧估计器730、740根据以下等式生成左对侧消除分量SL和右对侧消除分量SR:
SL=D[GL,In*F[TL,In’]] 等式(6)
SR=D[GR,In*F[TR,In’]] 等式(7)
其中F[]是滤波器函数,D[]是延迟函数。
串扰消除的配置可以由扬声器参数确定。在一个示例中,滤波器中心频率、延迟量、放大器增益和滤波器增益可以根据两个扬声器之间相对于倾听者而形成的角度来确定。在一些实施例中,扬声器角度之间的值用于对其他值进行插值。
组合器750将右对侧消除分量SR组合到左带内声道TL,In以生成左带内串扰声道UL,并且组合器752将左对侧消除分量SL组合到右带内声道TR,In以生成右带内串扰声道UR。带内外组合器760将左带内串扰声道UL与带外声道TL,Out组合以生成左输出声道OL,并且将右带内串扰声道UR与带外声道TR,Out组合以生成右输出声道OR。
因此,左输出声道OL包括与归因于对测声音的带内声道TR的一部分的反相相对应的右对侧消除分量SR,并且右输出声道OR包括与归因于对侧声音的带内声道TL,In的一部分的反相相对应的左对侧消除分量SL。在该配置中,到达右耳的由右扬声器根据右输出声道OR输出的同侧声音分量的波阵面可以抵消由左扬声器根据左输出声道OL输出的对侧声音分量的波阵面。类似地,到达左耳的由左扬声器根据左输出声道OL输出的同侧声音分量的波阵面可以抵消由右扬声器根据右输出声道OR输出的对侧声音分量的波阵面。因此,可以减少对侧声音分量以增强空间可检测性。
正交分量空间处理
图8是根据一个或多个实施例的使用超中间、残余中间、超侧或残余侧分量中的至少一项进行空间处理的过程的流程图。空间处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果、合唱效果、镶边效果、基于机器学习的声乐或器乐风格转移、转换或重新合成等方法。可以执行该过程以向用户的设备提供空间增强的音频。该过程可以包括更少或更多的步骤,并且步骤可以以不同顺序执行。
音频处理***(例如,音频处理***100)接收810输入音频信号(例如,左输入声道103和右输入声道105)。在一些实施例中,输入音频信号可以是包括多个左右声道对的多声道音频信号。对于左右输入声道,可以如本文中讨论的那样处理每个左右声道对。
音频处理***从输入音频信号生成820非空间中间分量(例如,中间分量109)和空间侧分量(例如,侧分量111)。在一些实施例中,L/R到M/S转换器(例如,L/R到M/S转换器模块107)执行输入音频信号到中间和侧分量的转换。
音频处理***生成830超中间分量(例如,超中间分量M1)、超侧分量(例如,超侧分量S1)、残余中间分量(例如,残余中间分量M2)和残余侧分量(例如,残余侧分量S2)中的至少一项。音频处理***可以生成以上列出的分量中的至少一个分量和/或所有分量。超中间分量包括从中间分量的频谱能量中移除侧分量的频谱能量。残余中间分量包括从中间分量的频谱能量中移除超中间分量的频谱能量。超侧分量包括从侧分量的频谱能量中移除中间分量的频谱能量。残余侧分量包括从侧分量的频谱能量中移除超侧分量的频谱能量。用于生成M1、M2、S1或S2的处理可以在频域或时域中执行。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项进行滤波840以增强音频信号。滤波可以包括空间提示处理,诸如通过调节超中间分量、残余中间分量、超侧分量或残余侧分量的频率相关幅度或频率相关延迟。空间提示处理的一些示例包括基于幅度或延迟的平移或双耳处理。
滤波可以包括动态范围处理,诸如压缩或限制。例如,当超过用于压缩的阈值水平时,可以根据压缩比压缩超中间分量、残余中间分量、超侧分量或残余侧分量。在另一示例中,当超过用于限制的阈值水平时,可以将超中间分量、残余中间分量、超侧分量或残余侧分量限制为最大水平。
滤波可以包括对超中间分量、残余中间分量、超侧分量或残余侧分量的基于机器学习的改变。一些示例包括基于机器学习的声乐或器乐风格转移、转换或重新合成。
超中间分量、残余中间分量、超侧分量或残余侧分量的滤波可以包括增益应用、混响、以及其他线性或非线性音频处理技术和效果(合唱和/或镶边)或其他类型的处理。在一些实施例中,滤波可以包括用于子带空间处理和串扰补偿的滤波,如下面结合图9更详细讨论的。
滤波可以在频域或时域中执行。在一些实施例中,将中间分量和侧分量从时域转换到频域,在频域中生成超和/或残余分量,在频域中执行滤波,并且将滤波后的分量转换到时域。在其他实施例中,将超和/或残余分量转换到时域,并且在时域中对这些分量执行滤波。
音频处理***使用滤波后的超/残余分量中的一个或多个分量生成850左输出声道(例如,左输出声道121)和右输出声道(例如,右输出声道123)。例如,从M/S到L/R的转换可以使用从滤波后的超中间分量、滤波后的残余中间分量、滤波后的超侧分量或滤波后的残余侧分量中的至少一项生成的中间分量(例如,经处理的中间分量131)或侧分量(例如,经处理的侧分量139)来执行。在另一示例中,滤波后的超中间分量或滤波后的残余中间分量可以用作M/S到L/R转换的中间分量,或者滤波后的超侧分量或残余侧分量可以用作M/S到L/R转换的侧分量。
正交分量子带空间和串扰处理
图9是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行子带空间处理和串扰补偿处理的过程的流程图。串扰处理可以包括串扰消除或串扰模拟。可以执行子带空间处理以提供具有增强的空间可检测性的音频内容,诸如通过创建声音从大区域而不是与扬声器位置相对应的空间中的特定点定向到倾听者的感觉(例如,声场增强),从而为倾听者带来更身临其境的倾听体验。串扰模拟可以用于耳机的音频输出,以模拟具有对侧串扰的扬声器体验。串扰消除可以用于到扬声器的音频输出,以消除串扰干扰的影响。串扰补偿可以补偿由串扰消除或串扰模拟引起的频谱缺陷。该过程可以包括更少或更多的步骤,并且步骤可以以不同顺序执行。可以出于不同目的以不同方式操纵超和残余中间/侧分量。例如,在串扰补偿的情况下,有针对性的子带滤波可以仅应用于超中间分量M1(很多电影内容中的大部分声乐对话能量发生在该处),以努力消除仅该分量中的串扰处理产生的频谱伪影。在具有或不具有串扰处理的声场增强的情况下,可以将有针对性的子带增益应用于残余中间分量M2和残余侧分量S2。例如,可以衰减残余中间分量M2,并且可以反向放大残余侧分量S2,以从增益的角度增加这些分量之间的距离(如果做得好,可以增加空间可检测性),而不会产生最终L/R信号中的感知响度的剧烈的整体变化,同时还避免了超中间M1分量的衰减(例如,信号中通常包含大部分声乐能量的部分)。
音频处理***接收910输入音频信号,输入音频信号包括左声道和右声道。在一些实施例中,输入音频信号可以是包括多个左右声道对的多声道音频信号。对于左右输入声道,可以如本文中讨论的那样处理每个左右声道对。
音频处理***对接收的输入音频信号应用920串扰处理。串扰处理包括串扰模拟和串扰消除中的至少一项。
在步骤930到960中,音频处理***使用超中间、超侧、残余中间或残余侧分量中的一项或多项来执行子带空间处理和串扰处理的串扰补偿。在一些实施例中,串扰处理可以在步骤930到960中的处理之后执行。
音频处理***从(例如,经串扰处理的)音频信号生成930中间分量和侧分量。
音频处理***生成940超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项。音频处理***可以生成以上列出的分量中的至少一个和/或所有分量。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项的子带进行滤波950,以对音频信号应用子带空间处理。每个子带可以包括一定范围的频率,诸如可以由一组临界频带限定。在一些实施例中,子带空间处理还包括对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项的子带进行时间延迟。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项进行滤波960,以补偿来自输入音频信号的串扰处理的频谱缺陷。频谱缺陷可以包括作为串扰处理的伪影而出现的超过预定阈值(例如,10dB)的超中间分量、残余中间分量、超侧分量或残余侧分量的频率响应图中的峰或谷。频谱缺陷可以是估计的频谱缺陷。
在一些实施例中,步骤950中用于子带空间处理的频谱正交分量的滤波和步骤960中的串扰补偿可以被集成到针对为滤波而选择的每个频谱正交分量的单个滤波操作中。
在一些实施例中,用于子带空间处理或串扰补偿的超/残余中间/侧分量的滤波可以结合用于其他目的的滤波来执行,诸如增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果,范围从合唱和/或镶边、基于机器学习的声乐或乐器风格转移、转换或重新合成等方法、或者使用超中间分量、残余中间分量、超侧分量和残余侧分量中的任何一项的其他类型的处理。
滤波可以在频域或时域中执行。在一些实施例中,将中间分量和侧分量从时域转换到频域,在频域中生成超和/或残余分量,在频域中执行滤波,并且将滤波后的分量转换到时域。在其他实施例中,将超和/或残余分量转换到时域,并且在时域中对这些分量执行滤波。
音频处理***从滤波后的超中间分量生成970左输出声道和右输出声道。在一些实施例中,左输出声道和右输出声道另外基于滤波后的残余中间分量、滤波后的超侧分量和滤波后的残留侧分量中的至少一项。
示例正交分量音频处理
图10-图19是描绘根据一个或多个实施例的示例白噪声信号的中间分量和侧分量的频谱能量的图。
图10示出了平移到最左(hard left)的白噪声信号1000的图。使用恒定功率正弦/余弦平移定律将左右白噪声信号转换为中间分量1005和侧分量1010并且平移到最左。当白噪声信号平移到最左1000时,位于左右扬声器对之间的用户将感知到声音出现在左扬声器处和/或周围。可以使用L/R到M/S转换器模块107将白噪声信号(拆分为白噪声信号的左输入声道和右输入声道)转换为中间分量1005和侧分量1010。如图10所示,当白噪声信号平移到最左1000时,中间分量1005和侧分量1010具有大致相等的能量。类似地,当白噪声信号平移到最右时(图10中未示出),中间分量和侧分量将具有大致相等的能量。
图11示出了平移到中左的白噪声信号1100的图。当使用常见的恒定功率正弦/余弦平移定律将白噪声信号平移到中左1100时,位于左右扬声器对之间的用户将感知到声音出现在用户前面与左扬声器之间的中间。图11描绘了平移到中左的白噪声信号1100的中间分量1105和侧分量1110、以及平移到最左的白噪声信号1000。与平移到最左的白噪声信号1000相比,中间分量1105增加约3dB,而侧分量1110减少约6dB。当白噪声信号平移到中右时,中间分量1105和侧分量1110将具有与图11所示相似的能量。
图12示出了平移到中心的白噪声信号1200的图。当使用常见的恒定功率正弦/余弦平移定律将白噪声信号平移到中心1200时,位于左右扬声器对之间的用户将感知到声音出现在用户面前(例如,在左右扬声器之间)。如图12所示,平移到中心的白噪声信号1200仅具有中间分量1205。
从图10、图11和图12中的上述示例,可以看出,尽管对于如图12所示的平移到中心的声音,中间分量包含信号中的唯一能量(即,左右声道相同),在原始L/R流中的声音通常被感知为偏离中心的情况下,如图10和图11所示(即,中心向左右平移的声音),也存在中间分量能量。
值得注意的是,表示绝大多数L/R音频用例的上述三个场景不包括侧包含唯一能量的场景。仅当左右声道相差180度(即,符号反相)时才会出现这种情况,这在用于音乐和娱乐的双声道音频中是罕见的。因此,虽然中间分量在几乎所有双声道左/右音频流中无处不在,并且还包括平移到中心内容中的唯一能量,但侧分量存在于除平移到中心内容之外的所有内容中,而且很少(如果有的话)作为信号中的唯一能量。
正交分量处理隔离中间分量和侧分量的、在频谱上彼此“正交”的部分并且对其进行操作。也就是说,使用正交分量处理,可以隔离仅与存在于声场中心的能量相对应的中间分量的一部分(即,超中间分量),同样可以隔离仅与不存在于声场中心的能量相对应的侧分量的一部分(即,超侧分量)。从概念上讲,超中音分量是与在声场中心处感知到的细声柱相对应的能量,扬声器和耳机都是如此。此外,使用简单的标量,可以控制该柱的“细”的程度,以提供从超中间到中间以及从超侧到侧的插值空间。此外,作为导出我们的超中间/侧分量信号的副产品,还可以对残余信号(例如,残余中间和侧分量)进行操作,该残余信号与超中间/超侧分量一起组合以形成原始完整的中间和侧分量。中间和侧的这四个子分量中的每个可以通过各种操作方式独立处理,从简单的增益分级到多频带均衡器,再到自定义和特殊效果。
图13至图19示出了白噪声信号的正交分量处理。图13示出了平移到中心并且在20到100Hz之间带通的白噪声信号1305(例如,使用8阶巴特沃斯滤波器)以及平移到最左并且在5000到10000Hz之间带通的白噪声信号1310(例如,使用8阶巴特沃斯滤波器)的图,并且没有正交分量处理。该图描绘了平移的白噪声信号1305和1310中的每个的中间分量1315和侧分量1320。平移到中心的白噪声信号1305仅在其中间分量1315中具有能量,而平移到最左的白噪声信号在其中间分量1315和侧分量1320中具有相等量的能量。这类似于图10和图12所示的结果。
图14示出了图13的平移白噪声信号1305和1310,其中侧分量1320的能量被移除。平移到中心的低频带白噪声信号1305没有改变。平移到最左的高频带白噪声信号1310现在具有零侧能量,而由中间分量1315表示的能量的一部分仍然存在。即使移除了侧向能量,中间信号中仍然存在非平移到中心的能量,如信号1310所示。
图15示出了使用正交分量处理1500的图13的平移的白噪声信号。具体地,正交分量处理用于隔离超中间分量1510并且移除音频信号的其他能量。这里,平移到最左的信号被移除,只剩下平移到中间的信号1500。这表明,超中间分量1510仅隔离信号中的、占据声场的最中心的能量,并且没有其他任何东西。
因为可以隔离音频信号的超中间分量,所以音频信号可以***纵以控制原始信号的哪些元素最终出现在各种M1/M2/S1/S2分量中。这种预处理操作的范围可以从简单的幅度和延迟调节到更复杂的滤波技术。然后可以随后反相这些预处理操作以恢复原始声场。
图16示出了使用正交分量处理1600的图13的平移的白噪声信号的另一实施例。L/R音频信号以如下方式被旋转,该方式使得将平移到最左的高频带白噪声(例如,如图13中的信号1310所示)置于声场中心并且将平移到中心的低频带噪声(例如,如图13中的信号1305所示)移离中心。然后可以通过隔离旋转后的L/R信号的超中间分量1610来提取最初平移到最左的并且在5000到10000Hz之间带通的白噪声信号1600并且对其进行进一步处理。
图17示出了去相关白噪声信号1700。输入白噪声信号1700可以是包括右声道分量1710、左声道分量1720的两声道正交白噪声信号。该图还示出了从白噪声信号生成的中间分量1730和侧分量1740。左声道分量1720的频谱能量与右声道分量1710的频谱能量相匹配,中间分量1730的频谱能量与侧分量1740的频谱能量相匹配。与右声道分量1710和左声道分量1720相比,中间分量1730和侧分量1740的信号电平大约低3dB。
图18示出了被分解为超中间分量1810和残余中间分量1820的中间分量1730。中间分量1730表示声场中的输入音频信号的非空间信息。超中间分量1810包括直接在声场中心发现的非空间信息的子分量;残余中间分量1820是残余非空间信息。在典型立体声音频信号中,超中间分量1810可以包括音频信号的关键特征,诸如对话或声乐。在图18中,残余中间分量1820比中间分量1730低大约3dB,而超中间分量1810比中间分量1730低大约8-9dB。
图19示出了被分解为超侧分量1910和残余侧分量1920的侧分量1740。侧分量1740表示声场中的输入音频信号中的空间信息。超侧分量1910包括在声场边缘发现的空间信息的子分量;残余侧分量1920是残余空间信息。在典型立体声音频信号中,残余侧分量1920包括由处理产生的关键特征,诸如双耳处理的效果、平移技术、混响和/或去相关处理。如图19所示,侧分量1740、超侧分量1910与残余侧分量1920之间的关系类似于中间分量1730、超中间分量1810和残余侧分量1820的关系。
计算机架构
图20是根据一个或多个实施例的计算机***2000的框图。计算机***2000是实现音频处理***的电路装置的示例。示出了耦合到芯片组2004的至少一个处理器2002。芯片组2004包括存储器控制器集线器2020和输入/输出(I/O)控制器集线器2022。存储器2006和图形适配器2012耦合到存储器控制器集线器2020,并且显示设备2018耦合到图形适配器2012。存储设备1008、键盘2010、定点设备2014和网络适配器2016耦合到I/O控制器集线器2022。计算机***2000可以包括各种类型的输入或输出设备。计算机***2000的其他实施例具有不同架构。例如,在一些实施例中,存储器2006直接耦合到处理器2002。
存储设备2008包括一个或多个非暂态计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器2006保存由处理器2002使用的程序代码(由一个或多个指令组成)和数据。程序代码可以对应于结合图1-图19描述的处理方面。
定点设备2014与键盘2010结合使用以将数据输入计算机***2000。图形适配器2012在显示设备2018上显示图像和其他信息。在一些实施例中,显示设备2018包括用于接收用户输入和选择的触摸屏幕能力。网络适配器2016将计算机***2000耦合到网络。计算机***2000的一些实施例具有与图20中所示的组件不同和/或其他的组件。
电路装置可以包括一个或多个处理器,该处理器执行存储在非暂态计算机可读中的程序代码,该程序代码在由一个或多个处理器执行时将一个或多个处理器配置为实现音频处理***或音频处理***的模块。实现音频处理***或音频处理***的模块的电路装置的其他示例可以包括集成电路装置,诸如专用集成电路装置(ASIC)、现场可编程门阵列(FPGA)或其他类型的计算机电路装置。
附加注意事项
所公开的配置的示例好处和优点包括因为增强的音频***适应设备和相关联的音频渲染***而产生的动态音频增强、以及设备OS提供的其他相关信息,诸如用例信息(例如,表明音频信号用于音乐播放而不是游戏)。增强的音频***可以集成到设备中(例如,使用软件开发工具包)或存储在远程服务器上以便按需访问。以这种方式,设备不需要将存储或处理资源用于维护特定于其音频渲染***或音频渲染配置的音频增强***。在一些实施例中,增强的音频***能够对渲染***信息进行不同级别的查询,从而可以跨不同级别的可用设备特定渲染信息来应用有效的音频增强。
贯穿本说明书,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的个体操作被图示和描述为单独的操作,但是一个或多个个体操作可以同时执行,并且没有什么要求这些操作以所示的顺序执行。在示例配置中呈现为单独组件的结构和功能可以实现为组合结构或组件。类似地,呈现为单个组件的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进落入本文中的主题的范围内。
本文中将某些实施例描述为包括逻辑或多个组件、模块或机制。模块可以构成软件模块(例如,包含在机器可读介质上或在传输信号中的代码)或硬件模块。硬件模块是能够执行某些操作的有形单元,并且可以以某种方式配置或布置。在示例实施例中,一个或多个计算机***(例如,独立的客户端或服务器计算机***)或计算机***的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用或应用部分)配置为用于执行本文所述的某些操作的硬件模块。
本文中描述的示例方法的各种操作可以至少部分由一个或多个处理器执行,这些处理器被临时配置(例如,通过软件)或永久配置为执行相关操作。无论是临时配置的还是永久配置的,这样的处理器都可以构成处理器实现的模块,这些模块用于执行一个或多个操作或功能。在一些示例实施例中,本文中提到的模块可以包括处理器实现的模块。
类似地,本文中描述的方法可以至少部分由处理器实现。例如,一种方法的操作中的至少一些可以由一个或多个处理器或处理器实现的硬件模块来执行。某些操作的执行可以分布在一个或多个处理器之间,不仅驻留在单个机器内,而且部署在多个机器上。在一些示例实施例中,一个或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境中或作为服务器群),而在其他实施例中,处理器可以分布在多个位置。
除非另有明确说明,否则本文中使用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“呈现”、“显示”等词语的讨论可以指代机器(例如,计算机)的动作或过程,该动作或过程操纵或变换在一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器、或接收、存储、传输或显示信息的其他机器组件内表示为物理(电子、磁性或光学)量的数据。
如本文中使用的,对“一个实施例”或“实施例”的任何提及表示结合该实施例描述的特定元素、特征、结构或特性被包括在至少一个实施例中。在说明书的各个地方出现的短语“在一个实施例中”不一定都是指同一实施例。
一些实施例可以使用表述“耦合”和“连接”连同它们的派生词来描述。应当理解,这些术语不旨在作为彼此的同义词。例如,可以使用术语“连接”来描述一些实施例以指示两个或更多个元件彼此直接物理或电接触。在另一示例中,可以使用术语“耦合”来描述一些实施例以指示两个或更多个元件直接物理或电接触。然而,术语“耦合”也可以表示两个或更多个元件彼此不直接接触,但仍彼此合作或相互作用。实施例不限于此上下文。
如本文中使用的,术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其他变体旨在涵盖非排他性包括。例如,包括元素列表的过程、方法、物品或设备不一定仅限于那些元素,而是可以包括未明确列出的或这样的过程、方法、物品或设备固有的其他元素。此外,除非有明确的相反说明,否则“或”是指包括性的或,而不是排他性的或。例如,以下中的任何一项满足条件A或B:A为真(或存在)并且B为假(或不存在),A为假(或不存在)并且B为真(或存在),A和B都为真(或存在)。
此外,使用“一个(a)”或“一个(an)”来描述本文中的实施例的元素和组件。这样做仅仅是为了方便并且给出本发明的一般意义。该描述应当理解为包括一个或至少一个,并且单数也包括复数,除非很明显它另有含义。
本说明书的一些部分根据算法和对信息的操作的符号表示来描述实施例。这些算法描述和表示通常被数据处理领域的技术人员用来将他们工作的实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行了描述,但被理解为由计算机程序或等效电路装置、微代码等来实现。此外,在不失一般性的情况下,有时将这些操作布置称为模块也被证明是方便的。所描述的操作及其相关模块可以体现在软件、固件、硬件或其任何组合中。
本文中描述的任何步骤、操作或过程可以单独或与其他设备结合使用一个或多个硬件或软件模块来执行或实现。在一个实施例中,软件模块用计算机程序产品实现,该计算机程序产品包括包含计算机程序代码的计算机可读介质,该计算机程序代码可以由计算机处理器执行以执行任何或所有描述的步骤、操作或过程。
实施例还可以涉及用于执行本文中的操作的装置。该装置可以为所需要的目的而专门构造,和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非暂态的有形的计算机可读存储介质中,或者在用于存储电子指令的任何类型的适合介质中,介质可以耦合到计算机***总线。此外,本说明书中提及的任何计算***可以包括单个处理器,或者可以是采用多个处理器设计以增加计算能力的架构。
实施例还可以涉及由本文中描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中该信息存储在非暂态的有形的计算机可读存储介质上并且可以包括计算机程序产品的任何实施例或本文中描述的其他数据组合。
在阅读本公开内容之后,本领域技术人员将理解用于通过本文中公开的原理使用设备特定元数据进行音频增强的***和过程的另外的备选结构和功能设计。因此,虽然已经说明和描述了特定实施例和应用,但是应当理解,所公开的实施例不限于本文中公开的精确构造和组件。在不背离所附权利要求限定的精神和范围的情况下,可以对本文中公开的方法和装置的布置、操作和细节做出本领域技术人员很清楚的各种修改、改变和变化。
最后,说明书中使用的语言主要是为了可读性和指导目的而选择的,而不是为了描述或限制专利权而选择的。因此,意图在于,专利权的范围不受该详细描述的限制,而是受在基于此的申请上发布的任何权利要求限制。因此,实施例的公开旨在说明而非限制在所附权利要求中阐述的专利权的范围。
Claims (78)
1.一种用于处理音频信号的***,包括:
电路装置,被配置为:
从所述音频信号的左声道和右声道生成中间分量和侧分量;
生成包括从所述中间分量的频谱能量中移除所述侧分量的频谱能量的超中间分量;
对所述超中间分量进行滤波;以及
使用滤波后的所述超中间分量生成左输出声道和右输出声道。
2.根据权利要求1所述的***,其中:
所述电路装置还被配置为对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
所述电路装置被配置为生成所述超中间分量包括:所述电路装置被配置为从所述频域中的所述中间分量的大小中减去所述频域中的所述侧分量的大小。
3.根据权利要求1所述的***,其中所述电路装置被配置为对所述超中间分量进行滤波包括:所述电路装置被配置为对所述超中间分量的子带进行增益调节或时间延迟中的至少一项。
4.根据权利要求1所述的***,其中所述电路装置被配置为对所述超中间分量进行滤波包括:所述电路装置被配置为对所述超中间分量应用动态范围处理。
5.根据权利要求1所述的***,其中所述电路装置被配置为对所述超中间分量进行滤波包括:所述电路装置被配置为调节所述超中间分量的频率相关幅度或频率相关延迟。
6.根据权利要求1所述的***,其中所述电路装置被配置为对所述超中间分量进行滤波包括:所述电路装置被配置为对所述超中间分量应用基于机器学习的风格转移、转换或重新合成。
7.根据权利要求1所述的***,其中所述电路装置还被配置为:
生成残余中间分量,所述残余中间分量包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
8.根据权利要求7所述的***,其中所述电路装置被配置为对所述残余中间分量进行滤波包括:所述电路装置被配置为对所述残余中间分量的子带进行增益调节或时间延迟中的至少一项。
9.根据权利要求7所述的***,其中所述电路装置被配置为对所述残余中间分量进行滤波包括:所述电路装置被配置为对所述残余中间分量应用动态范围处理。
10.根据权利要求7所述的***,其中所述电路装置被配置为对所述残余中间分量进行滤波包括:所述电路装置被配置为调节所述残余中间分量的频率相关幅度或频率相关延迟。
11.根据权利要求7所述的***,其中所述电路装置被配置为对所述残余中间分量进行滤波包括:所述电路装置被配置为对所述残留中间分量应用基于机器学习的风格转移、转换或重新合成。
12.根据权利要求7所述的***,其中:
所述电路装置还被配置为对所述中间分量应用傅里叶变换以将所述中间分量转换到频域;以及
所述电路装置被配置为生成包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量的所述残余中间分量包括:所述电路装置被配置为从所述频域中的所述中间分量的大小中减去所述频域中的所述超中间分量的大小。
13.根据权利要求1所述的***,其中所述电路装置还被配置为:
对所述超中间分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述中间分量进行时间延迟来生成延迟中间分量;
通过从所述时域中的所述延迟中间分量中减去所述时域中的所述超中间分量来生成残余中间分量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
14.根据权利要求1所述的***,其中所述电路装置还被配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量进行滤波;以及
使用滤波后的所述超侧分量生成所述左输出声道和所述右输出声道。
15.根据权利要求14所述的***,其中:
所述电路装置还被配置为对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
所述电路装置被配置为生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的所述超侧分量包括:所述电路装置被配置为从所述频域中的所述侧分量的大小中减去所述频域中的所述中间分量的大小。
16.根据权利要求14所述的***,其中所述电路装置被配置为对所述超侧分量进行滤波包括:所述电路装置被配置为对所述超侧分量的子带进行增益调节或时间延迟中的至少一项。
17.根据权利要求14所述的***,其中所述电路装置被配置为对所述超侧分量进行滤波包括:所述电路装置被配置为对所述超侧分量应用动态范围处理。
18.根据权利要求14所述的***,其中所述电路装置被配置为对所述超侧分量进行滤波包括:所述电路装置被配置为调节所述超侧分量的频率相关幅度或频率相关延迟。
19.根据权利要求14所述的***,其中所述电路装置被配置为对所述超侧分量进行滤波包括:所述电路装置被配置为对所述超侧分量应用基于机器学习的风格转移、转换或重新合成。
20.根据权利要求1所述的***,其中所述电路装置还被配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的频谱能量的残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
21.根据权利要求20所述的***,其中所述电路装置被配置为对所述残余侧分量进行滤波包括:所述电路装置被配置为对所述残余侧分量的子带进行增益调节或时间延迟中的至少一项。
22.根据权利要求20所述的***,其中所述电路装置被配置为对所述残余侧分量进行滤波包括:所述电路装置被配置为对所述残余侧分量应用动态范围处理。
23.根据权利要求20所述的***,其中所述电路装置被配置为对所述残余侧分量进行滤波包括:所述电路装置被配置为调节所述残余侧分量的频率相关幅度或频率相关延迟。
24.根据权利要求20所述的***,其中所述电路装置被配置为对所述残余侧分量进行滤波包括:所述电路装置被配置为对所述残余侧分量应用基于机器学习的风格转移、转换或重新合成。
25.根据权利要求20所述的***,其中:
所述电路装置还被配置为对所述侧分量应用傅里叶变换以将所述侧分量转换到频域;以及
所述电路装置被配置为生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的所述频谱能量的所述残余侧分量包括:所述电路装置被配置为从所述频域中的所述侧分量的大小中减去所述频域中的所述超侧分量的大小。
26.根据权利要求1所述的***,其中所述电路装置还被配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述侧分量进行时间延迟来生成延迟侧分量;
通过从所述时域中的所述延迟侧分量中减去所述时域中的所述超侧分量来生成残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
27.一种非暂态计算机可读介质,包括存储的程序代码,所述程序代码在由至少一个处理器执行时将所述至少一个处理器配置为:
从音频信号的左声道和右声道生成中间分量和侧分量;
生成包括从所述中间分量的频谱能量中移除所述侧分量的频谱能量的超中间分量;
对所述超中间分量进行滤波;以及
使用滤波后的所述超中间分量生成左输出声道和右输出声道。
28.根据权利要求27所述的非暂态计算机可读介质,其中:
所述程序代码还将所述至少一个处理器配置为对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
将所述至少一个处理器配置为生成所述超中间分量的所述程序代码包括正交分量生成器还将所述至少一个处理器配置为:从所述频域中的所述中间分量的大小中减去所述频域中的所述侧分量的大小。
29.根据权利要求27所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述超中间分量的子带进行增益调节或时间延迟中的至少一项。
30.根据权利要求27所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述超中间分量应用动态范围处理。
31.根据权利要求27所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:调节所述超中间分量的频率相关幅度或频率相关延迟。
32.根据权利要求27所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述超中间分量应用基于机器学习的风格转移、转换或重新合成。
33.根据权利要求27所述的非暂态计算机可读介质,其中所述程序代码还将所述至少一个处理器配置为:
生成包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量的残余中间分量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
34.根据权利要求33所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残余中间分量的子带进行增益调节或时间延迟中的至少一项。
35.根据权利要求33所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残余中间分量应用动态范围处理。
36.根据权利要求33所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:调节所述残余中间分量的频率相关幅度或频率相关延迟。
37.根据权利要求33所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余中间分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残留中间分量应用基于机器学习的风格转移、转换或重新合成。
38.根据权利要求33所述的非暂态计算机可读介质,其中:
所述程序代码还将所述至少一个处理器配置为:对所述中间分量应用傅里叶变换以将所述中间分量转换到频域;
将所述至少一个处理器配置为生成包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量的所述残余中间分量的所述程序代码还将所述至少一个处理器配置为:从所述频域中的所述中间分量的大小中减去所述频域中的所述超中间分量的大小。
39.根据权利要求27所述的非暂态计算机可读介质,其中所述程序代码还将所述至少一个处理器配置为:
对所述超中间分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述中间分量进行时间延迟来生成延迟中间分量;
通过从所述时域中的所述延迟中间分量中减去所述时域中的所述超中间分量来生成残余中间分量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
40.根据权利要求27所述的非暂态计算机可读介质,其中所述程序代码还将所述至少一个处理器配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量进行滤波;以及
使用滤波后的所述超侧分量生成所述左输出声道和所述右输出声道。
41.根据权利要求40所述的非暂态计算机可读介质,其中:
所述程序代码还将所述至少一个处理器配置为对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
将所述至少一个处理器配置为生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的所述超侧分量的所述程序代码还将所述至少一个处理器配置为:从所述频域中的所述侧分量的大小中减去所述频域中的所述中间分量的大小。
42.根据权利要求40所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超侧分量进行滤波的所述程序代码包括:将所述至少一个处理器配置为对所述超侧分量的子带进行增益调节或时间延迟中的至少一项的程序代码。
43.根据权利要求40所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超侧分量进行滤波的所述程序代码包括:将所述至少一个处理器配置为对所述超侧分量应用动态范围处理的程序代码。
44.根据权利要求40所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超侧分量进行滤波的所述程序代码包括:将所述至少一个处理器配置为调节所述超侧分量的频率相关幅度或频率相关延迟的程序代码。
45.根据权利要求40所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述超侧分量进行滤波的所述程序代码包括:将所述至少一个处理器配置为对所述超侧分量应用基于机器学习的风格转移、转换或重新合成的程序代码。
46.根据权利要求27所述的非暂态计算机可读介质,其中所述程序代码还将所述至少一个处理器配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的频谱能量的残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
47.根据权利要求46所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余侧分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残余侧分量的子带进行增益调节或时间延迟中的至少一项。
48.根据权利要求46所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余侧分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残余侧分量应用动态范围处理。
49.根据权利要求46所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余侧分量进行滤波的所述程序代码还将所述至少一个处理器配置为:调节所述残余侧分量的频率相关幅度或频率相关延迟。
50.根据权利要求46所述的非暂态计算机可读介质,其中将所述至少一个处理器配置为对所述残余侧分量进行滤波的所述程序代码还将所述至少一个处理器配置为:对所述残余侧分量应用基于机器学习的风格转移、转换或重新合成。
51.根据权利要求46所述的非暂态计算机可读介质,其中:
所述程序代码还将所述至少一个处理器配置为对所述侧分量应用傅里叶变换以将所述侧分量转换到频域;以及
将所述至少一个处理器配置为生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的所述频谱能量的所述残余侧分量的所述程序代码还将所述至少一个处理器配置为:从所述频域中的所述侧分量的大小中减去所述频域中的所述超侧分量的大小。
52.根据权利要求27所述的非暂态计算机可读介质,其中所述程序代码还将所述至少一个处理器配置为:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述侧分量进行时间延迟来生成延迟侧分量;
通过从所述时域中的所述延迟侧分量中减去所述时域中的所述超侧分量来生成残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
53.一种用于处理音频信号的方法,包括由电路装置:
从音频信号的左声道和右声道生成中间分量和侧分量;
生成包括从所述中间分量的频谱能量中移除所述侧分量的频谱能量的超中间分量;
对所述超中间分量进行滤波;以及
使用滤波后的所述超中间分量生成左输出声道和右输出声道。
54.根据权利要求53所述的方法,其中:
所述方法还包括:由所述电路装置对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
生成所述超中间分量包括:从所述频域中的所述中间分量的大小中减去所述频域中的所述侧分量的大小。
55.根据权利要求53所述的方法,其中对所述超中间分量进行滤波包括:对所述超中间分量的子带进行增益调节或时间延迟中的至少一项。
56.根据权利要求53所述的方法,其中对所述超中间分量进行滤波包括:对所述超中间分量应用动态范围处理。
57.根据权利要求53所述的方法,其中对所述超中间分量进行滤波包括:调节所述超中间分量的频率相关幅度或频率相关延迟。
58.根据权利要求53所述的方法,其中对所述超中间分量进行滤波包括:对所述超中间分量应用基于机器学习的风格转移、转换或重新合成。
59.根据权利要求53所述的方法,还包括由所述电路装置:
生成包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量的残余中间分量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
60.根据权利要求59所述的方法,其中对所述残余中间分量进行滤波包括:对所述残余中间分量的子带进行增益调节或时间延迟中的至少一项。
61.根据权利要求59所述的方法,其中对所述残余中间分量进行滤波包括:对所述残余中间分量应用动态范围处理。
62.根据权利要求59所述的方法,其中对所述残余中间分量进行滤波包括:调节所述残余中间分量的频率相关幅度或频率相关延迟。
63.根据权利要求59所述的方法,其中对所述残余中间分量进行滤波包括:对所述残留中间分量应用基于机器学习的风格转移、转换或重新合成。
64.根据权利要求59所述的方法,其中:
所述方法还包括:
对所述中间分量应用傅里叶变换以将所述中间分量转换到频域;以及
生成包括从所述中间分量的所述频谱能量中移除所述超中间分量的频谱能量的所述残余中间分量包括:从所述频域中的所述中间分量的大小中减去所述频域中的所述超中间分量的大小。
65.根据权利要求53所述的方法,还包括由所述电路装置:
对所述超中间分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述中间分量进行时间延迟来生成延迟中间分量;
通过从所述时域中的所述延迟中间分量中减去所述时域中的所述超中间分量来生成残余中间分量;
对所述残余中间分量进行滤波;以及
使用滤波后的所述残余中间分量生成所述左输出声道和所述右输出声道。
66.根据权利要求53所述的方法,还包括由所述电路装置:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量进行滤波;以及
使用滤波后的所述超侧分量生成所述左输出声道和所述右输出声道。
67.根据权利要求66所述的方法,其中:
所述方法还包括由电路装置:
对所述中间分量和所述侧分量应用傅里叶变换以将所述中间分量和所述侧分量转换到频域;以及
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的所述超侧分量包括:从所述频域中的所述侧分量的大小中减去所述频域中的所述中间分量的大小。
68.根据权利要求66所述的方法,其中对所述超侧分量进行滤波包括:对所述超侧分量的子带进行增益调节或时间延迟中的至少一项。
69.根据权利要求66所述的方法,其中对所述超侧分量进行滤波包括:对所述超侧分量应用动态范围处理。
70.根据权利要求66所述的方法,其中对所述超侧分量进行滤波包括:调节所述超侧分量的频率相关幅度或频率相关延迟。
71.根据权利要求66所述的方法,其中对所述超侧分量进行滤波包括:对所述超侧分量应用基于机器学习的风格转移、转换或重新合成。
72.根据权利要求53所述的方法,还包括:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的频谱能量的残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
73.根据权利要求72所述的方法,其中对所述残余侧分量进行滤波还包括:对所述残余侧分量的子带进行增益调节或时间延迟中的至少一项。
74.根据权利要求72所述的方法,其中对所述残余侧分量进行滤波还包括:对所述残余侧分量应用动态范围处理。
75.根据权利要求72所述的方法,其中对所述残余侧分量进行滤波还包括:调节所述残余侧分量的频率相关幅度或频率相关延迟。
76.根据权利要求72所述的方法,其中对所述残余侧分量进行滤波还包括:对所述残余侧分量应用基于机器学习的风格转移、转换或重新合成。
77.根据权利要求72所述的方法,其中:
所述方法还包括:对所述侧分量应用傅里叶变换以将所述侧分量转换到频域;以及
生成包括从所述侧分量的所述频谱能量中移除所述超侧分量的所述频谱能量的所述残余侧分量还包括:从所述频域中的所述侧分量的大小中减去所述频域中的所述超侧分量的大小。
78.根据权利要求53所述的方法,还包括:
生成包括从所述侧分量的所述频谱能量中移除所述中间分量的所述频谱能量的超侧分量;
对所述超侧分量应用傅里叶逆变换以将频域中的所述超中间分量转换到时域;
通过对所述侧分量进行时间延迟来生成延迟侧分量;
通过从所述时域中的所述延迟侧分量中减去所述时域中的所述超侧分量来生成残余侧分量;
对所述残余侧分量进行滤波;以及
使用滤波后的所述残余侧分量生成所述左输出声道和所述右输出声道。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962913661P | 2019-10-10 | 2019-10-10 | |
US62/913,661 | 2019-10-10 | ||
US201962939364P | 2019-11-22 | 2019-11-22 | |
US62/939,364 | 2019-11-22 | ||
US16/983,817 US11432069B2 (en) | 2019-10-10 | 2020-08-03 | Spectrally orthogonal audio component processing |
US16/983,817 | 2020-08-03 | ||
US16/983,827 US11032644B2 (en) | 2019-10-10 | 2020-08-03 | Subband spatial and crosstalk processing using spectrally orthogonal audio components |
US16/983,827 | 2020-08-03 | ||
PCT/US2020/045669 WO2021071576A1 (en) | 2019-10-10 | 2020-08-10 | Spectrally orthogonal audio component processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114830693A true CN114830693A (zh) | 2022-07-29 |
Family
ID=75382323
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080085475.9A Pending CN114846820A (zh) | 2019-10-10 | 2020-08-10 | 使用频谱正交音频分量的子带空间和串扰处理 |
CN202080085638.3A Pending CN114830693A (zh) | 2019-10-10 | 2020-08-10 | 频谱正交音频分量处理 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080085475.9A Pending CN114846820A (zh) | 2019-10-10 | 2020-08-10 | 使用频谱正交音频分量的子带空间和串扰处理 |
Country Status (7)
Country | Link |
---|---|
US (3) | US11432069B2 (zh) |
EP (2) | EP4042721A4 (zh) |
JP (3) | JP7410282B2 (zh) |
KR (3) | KR102660704B1 (zh) |
CN (2) | CN114846820A (zh) |
TW (2) | TWI750781B (zh) |
WO (2) | WO2021071576A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11432069B2 (en) * | 2019-10-10 | 2022-08-30 | Boomcloud 360, Inc. | Spectrally orthogonal audio component processing |
US11832079B2 (en) * | 2021-03-30 | 2023-11-28 | Harman Becker Automotive Systems Gmbh | System and method for providing stereo image enhancement of a multi-channel loudspeaker setup |
KR20240023210A (ko) * | 2021-07-08 | 2024-02-20 | 붐클라우드 360 인코포레이티드 | 올패스 필터 네트워크를 사용한 고도 지각적 큐의 무색 생성 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120076307A1 (en) * | 2009-06-05 | 2012-03-29 | Koninklijke Philips Electronics N.V. | Processing of audio channels |
US20140270185A1 (en) * | 2013-03-13 | 2014-09-18 | Dts Llc | System and methods for processing stereo audio content |
US20140355773A1 (en) * | 2013-05-28 | 2014-12-04 | Audio Design Experts, Inc. | Broad sound loudspeaker system |
US20140369504A1 (en) * | 2013-06-12 | 2014-12-18 | Anthony Bongiovi | System and method for stereo field enhancement in two-channel audio systems |
US20150117649A1 (en) * | 2013-10-31 | 2015-04-30 | Conexant Systems, Inc. | Selective Audio Source Enhancement |
GB201707953D0 (en) * | 2017-05-18 | 2017-07-05 | Nokia Technologies Oy | Spatial audio processing |
CN108293165A (zh) * | 2015-10-27 | 2018-07-17 | 无比的优声音科技公司 | 增强音场的装置和方法 |
WO2018151858A1 (en) * | 2017-02-17 | 2018-08-23 | Ambidio, Inc. | Apparatus and method for downmixing multichannel audio signals |
US20190191247A1 (en) * | 2017-12-15 | 2019-06-20 | Boomcloud 360, Inc. | Subband spatial processing and crosstalk cancellation system for conferencing |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6118876A (en) * | 1995-09-07 | 2000-09-12 | Rep Investment Limited Liability Company | Surround sound speaker system for improved spatial effects |
US8619998B2 (en) | 2006-08-07 | 2013-12-31 | Creative Technology Ltd | Spatial audio enhancement processing method and apparatus |
JP4315180B2 (ja) | 2006-10-20 | 2009-08-19 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びに記録媒体 |
US20080232601A1 (en) | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8064624B2 (en) * | 2007-07-19 | 2011-11-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for generating a stereo signal with enhanced perceptual quality |
EP2144228A1 (en) * | 2008-07-08 | 2010-01-13 | Siemens Medical Instruments Pte. Ltd. | Method and device for low-delay joint-stereo coding |
US8379940B2 (en) * | 2009-06-02 | 2013-02-19 | George Mason Intellectual Properties, Inc. | Robust human authentication using holistic anthropometric and appearance-based features and boosting |
JP5493817B2 (ja) * | 2009-12-17 | 2014-05-14 | 沖電気工業株式会社 | エコーキャンセラ |
JP5604275B2 (ja) | 2010-12-02 | 2014-10-08 | 富士通テン株式会社 | 相関低減方法、音声信号変換装置および音響再生装置 |
US9031268B2 (en) | 2011-05-09 | 2015-05-12 | Dts, Inc. | Room characterization and correction for multi-channel audio |
EP2544466A1 (en) * | 2011-07-05 | 2013-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor |
US9883318B2 (en) * | 2013-06-12 | 2018-01-30 | Bongiovi Acoustics Llc | System and method for stereo field enhancement in two-channel audio systems |
CN105917674B (zh) * | 2013-10-30 | 2019-11-22 | 华为技术有限公司 | 用于处理音频信号的方法和移动装置 |
JP6251809B2 (ja) | 2013-12-13 | 2017-12-20 | アンビディオ,インコーポレイテッド | サウンドステージ拡張用の装置及び方法 |
EP3132617B1 (en) | 2014-08-13 | 2018-10-17 | Huawei Technologies Co. Ltd. | An audio signal processing apparatus |
WO2016054098A1 (en) * | 2014-09-30 | 2016-04-07 | Nunntawi Dynamics Llc | Method for creating a virtual acoustic stereo system with an undistorted acoustic center |
EP3251116A4 (en) | 2015-01-30 | 2018-07-25 | DTS, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
EP3067889A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
EP3067887A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP6479287B1 (ja) * | 2016-01-18 | 2019-03-06 | ブームクラウド 360 インコーポレイテッド | オーディオ再生のためのサブバンド空間クロストークキャンセル |
US10225657B2 (en) | 2016-01-18 | 2019-03-05 | Boomcloud 360, Inc. | Subband spatial and crosstalk cancellation for audio reproduction |
EP3406085B1 (en) | 2016-01-19 | 2024-05-01 | Boomcloud 360, Inc. | Audio enhancement for head-mounted speakers |
AU2017219696B2 (en) | 2016-02-17 | 2018-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
US10511909B2 (en) * | 2017-11-29 | 2019-12-17 | Boomcloud 360, Inc. | Crosstalk cancellation for opposite-facing transaural loudspeaker systems |
US10499153B1 (en) * | 2017-11-29 | 2019-12-03 | Boomcloud 360, Inc. | Enhanced virtual stereo reproduction for unmatched transaural loudspeaker systems |
US10547926B1 (en) | 2018-07-27 | 2020-01-28 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices |
US10547927B1 (en) * | 2018-07-27 | 2020-01-28 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices |
EP3693846A1 (en) * | 2019-02-06 | 2020-08-12 | Nokia Technologies Oy | An apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user |
US11432069B2 (en) * | 2019-10-10 | 2022-08-30 | Boomcloud 360, Inc. | Spectrally orthogonal audio component processing |
-
2020
- 2020-08-03 US US16/983,817 patent/US11432069B2/en active Active
- 2020-08-03 US US16/983,827 patent/US11032644B2/en active Active
- 2020-08-10 WO PCT/US2020/045669 patent/WO2021071576A1/en unknown
- 2020-08-10 EP EP20875327.7A patent/EP4042721A4/en active Pending
- 2020-08-10 KR KR1020227015442A patent/KR102660704B1/ko active IP Right Grant
- 2020-08-10 JP JP2022521288A patent/JP7410282B2/ja active Active
- 2020-08-10 EP EP20874711.3A patent/EP4042719A4/en active Pending
- 2020-08-10 JP JP2022521286A patent/JP7437493B2/ja active Active
- 2020-08-10 WO PCT/US2020/045670 patent/WO2021071577A1/en unknown
- 2020-08-10 CN CN202080085475.9A patent/CN114846820A/zh active Pending
- 2020-08-10 KR KR1020227015445A patent/KR20220080146A/ko unknown
- 2020-08-10 CN CN202080085638.3A patent/CN114830693A/zh active Pending
- 2020-08-10 KR KR1020247013048A patent/KR20240060678A/ko active Application Filing
- 2020-08-26 TW TW109129071A patent/TWI750781B/zh active
- 2020-08-26 TW TW109129072A patent/TWI765325B/zh active
-
2022
- 2022-08-17 US US17/890,213 patent/US20220408188A1/en active Pending
-
2023
- 2023-12-21 JP JP2023215971A patent/JP2024026465A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120076307A1 (en) * | 2009-06-05 | 2012-03-29 | Koninklijke Philips Electronics N.V. | Processing of audio channels |
US20140270185A1 (en) * | 2013-03-13 | 2014-09-18 | Dts Llc | System and methods for processing stereo audio content |
US20140355773A1 (en) * | 2013-05-28 | 2014-12-04 | Audio Design Experts, Inc. | Broad sound loudspeaker system |
US20140369504A1 (en) * | 2013-06-12 | 2014-12-18 | Anthony Bongiovi | System and method for stereo field enhancement in two-channel audio systems |
US20150117649A1 (en) * | 2013-10-31 | 2015-04-30 | Conexant Systems, Inc. | Selective Audio Source Enhancement |
CN108293165A (zh) * | 2015-10-27 | 2018-07-17 | 无比的优声音科技公司 | 增强音场的装置和方法 |
US20180249268A1 (en) * | 2015-10-27 | 2018-08-30 | Ambidio, Inc. | Apparatus and method for sound stage enhancement |
WO2018151858A1 (en) * | 2017-02-17 | 2018-08-23 | Ambidio, Inc. | Apparatus and method for downmixing multichannel audio signals |
GB201707953D0 (en) * | 2017-05-18 | 2017-07-05 | Nokia Technologies Oy | Spatial audio processing |
US20190191247A1 (en) * | 2017-12-15 | 2019-06-20 | Boomcloud 360, Inc. | Subband spatial processing and crosstalk cancellation system for conferencing |
Non-Patent Citations (4)
Title |
---|
KAZUHIRO KONDO ET AL: "A Data Hiding Method for Stereo Audio Signals Using the Polarity of the Inter-Channel Decorrelator", 2009 FIFTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, 14 September 2009 (2009-09-14), pages 86 - 89, XP031569499 * |
宫琴 等: "麦克风特性研究的教学实验***搭建", 实验技术与管理, vol. 30, no. 10, 20 October 2013 (2013-10-20), pages 100 - 103 * |
温佳: "电力通信通道单侧信号监听装置的制作及应用", 《内蒙古电力技术》, vol. 36, no. 01, 26 February 2018 (2018-02-26), pages 49 - 51 * |
罗森林 等: "特定类型音频流泛化识别方法", 《北京理工大学学报》, vol. 31, no. 10, 15 October 2011 (2011-10-15), pages 1231 - 1235 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022551873A (ja) | 2022-12-14 |
WO2021071576A1 (en) | 2021-04-15 |
KR20240060678A (ko) | 2024-05-08 |
TWI765325B (zh) | 2022-05-21 |
US20210112340A1 (en) | 2021-04-15 |
JP7410282B2 (ja) | 2024-01-09 |
US11032644B2 (en) | 2021-06-08 |
US11432069B2 (en) | 2022-08-30 |
JP7437493B2 (ja) | 2024-02-22 |
KR102660704B1 (ko) | 2024-04-24 |
EP4042719A1 (en) | 2022-08-17 |
WO2021071577A1 (en) | 2021-04-15 |
JP2024026465A (ja) | 2024-02-28 |
US20220408188A1 (en) | 2022-12-22 |
TWI750781B (zh) | 2021-12-21 |
CN114846820A (zh) | 2022-08-02 |
EP4042719A4 (en) | 2023-10-18 |
US20210112339A1 (en) | 2021-04-15 |
EP4042721A1 (en) | 2022-08-17 |
TW202116077A (zh) | 2021-04-16 |
JP2022551872A (ja) | 2022-12-14 |
KR20220076518A (ko) | 2022-06-08 |
TW202115715A (zh) | 2021-04-16 |
KR20220080146A (ko) | 2022-06-14 |
EP4042721A4 (en) | 2023-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9407993B2 (en) | Latency reduction in transposer-based virtual bass systems | |
US20220408188A1 (en) | Spectrally orthogonal audio component processing | |
CN112313970B (zh) | 增强具有左输入通道和右输入通道的音频信号的方法和*** | |
EP2907324B1 (en) | System and method for reducing latency in transposer-based virtual bass systems | |
CN111492669B (zh) | 用于相反朝向跨耳扬声器***的串扰消除 | |
CN112566008A (zh) | 音频上混方法、装置、电子设备和存储介质 | |
US10524052B2 (en) | Dominant sub-band determination | |
US20230022072A1 (en) | Colorless generation of elevation perceptual cues using all-pass filter networks | |
CN117678014A (zh) | 使用全通滤波器网络的仰角感知线索的无色生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |