CN1748246A - 信号处理 - Google Patents
信号处理 Download PDFInfo
- Publication number
- CN1748246A CN1748246A CNA2004800036991A CN200480003699A CN1748246A CN 1748246 A CN1748246 A CN 1748246A CN A2004800036991 A CNA2004800036991 A CN A2004800036991A CN 200480003699 A CN200480003699 A CN 200480003699A CN 1748246 A CN1748246 A CN 1748246A
- Authority
- CN
- China
- Prior art keywords
- signal
- information signal
- treated
- watermark
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000004048 modification Effects 0.000 claims abstract description 49
- 238000012986 modification Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 62
- 239000012634 fragment Substances 0.000 claims description 39
- 238000010348 incorporation Methods 0.000 claims description 18
- 238000011002 quantification Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 abstract description 4
- 238000007906 compression Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00007—Time or data compression or expansion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
- G11B20/00884—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm
- G11B20/00891—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm embedded in audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Editing Of Facsimile Originals (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
一种处理信息信号的方法,包括:将信号修改处理应用于信息信号,从而得到经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;将该经处理的信号与该信息信号作比较,以确定该经处理的信号的感知品质的量度;以及响应于所确定的感知品质的量度来调整所述至少一个控制参数。该方法有利地用在加水印和压缩***中,所述***使用人类听觉或视觉***的模型来控制水印嵌入深度或压缩比并且经常不能保持恒定的信号品质,这是因为它们忽略了除屏蔽-噪声比以外的其它伪信号。
Description
本发明涉及对信息信号的处理,如对音频信号的编码或在信息信号中嵌入水印。
在信息信号(如音频信号、视频信号等等)的信号处理领域中,通常的问题在于得到该处理的预期效果与不将可察觉的失真引入到信号中的一般目标之间的适当的折衷。信号处理的例子包括信息信号的编码和在信息信号中嵌入水印。
在音频编码领域中,当从已编码信号中重构音频信号的时候,希望对音频信号的有效编码,同时不过度地降低该音频信号的感知品质。
在加水印领域中,通常的问题在于控制所嵌入水印的鲁棒性及其透明性之间的折衷:一方面,希望得到对于信号处理(如编码、压缩等等)来说是鲁棒的所嵌入的水印。另一方面,该嵌入的水印不应当以造成可察觉失真(例如,可听或可见失真)的方式修改主信号。因此,不应当影响信息信号的感知品质。
特别地,用于音频信号的许多加水印方案使用人类听觉***的屏蔽模型,其中对应于最大允许嵌入强度确定一个屏蔽阈值,该最大允许嵌入强度仍然确保听不见的嵌入。因此,要添加到主音频信号的水印能量的数量通过可以由该信号屏蔽的噪声量确定。通常将这种余度系数(headroom)称作屏蔽-噪声比。
大多数加水印***使用某种嵌入模型来确定该屏蔽-噪声比,以及控制水印产生或者将水印混合入主信号。可以将其描述成一个两阶段处理:a)确定可用于嵌入水印的余度系数,以及b)导出一个特定的成本函数并将其应用于水印产生和混合阶段。这两个阶段都是所谓的水印嵌入模型的一部分。
美国专利No.6,345,100公开了一种在音频信号中嵌入水印的方法。该方法包括从音频信号中确定基础信号(basis signal),人类收听者将察觉不到包括该信号。将水印嵌入到该基础信号中,并且将所得到的水印信号混合入该音频信号。
这种现有技术方法的一个缺点在于:由于模型的近似和不完善,对于给定的嵌入模型来说,它们不能保持信息信号的恒定感知品质。
本发明的一个目的是提高经处理的信息信号的感知品质。
通过一种处理信息信号的方法来解决上述以及其它问题,该方法包括:
-将一个信号修改处理应用于信息信号,从而得到一个经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;
-将该经处理的信号与该信息信号作比较,以确定该经处理的信号的感知品质的量度;
-响应于所确定的感知品质的量度来调整所述至少一个控制参数。
通过确定该经处理的信号的感知品质的量度以及调整控制该信号修改处理的参数,该经处理的信号的感知品质得到改进。
本发明的一个优点在于其提供对控制信号处理的参数的自动控制,由此提供经处理的信号的统一的感知品质。
术语“信息信号”包括任何表示可察觉信息的信号,其可能由于信号处理而产生可察觉的失真。这种信号的例子包括音频信号、视频信号、多媒体信号、表示图像的信号等等。该信息信号可以体现为模拟信号或数字信号。
术语“信号修改处理”包括任何修改信息信号以及可能造成由该信息信号表示的信息内容的可察觉失真的处理。这种信号修改处理可以包括对信号的编码、该信息信号与其它信号的组合(如信息的嵌入,例如水印)等等。所述修改处理可以包括一个或多个子处理,诸如分割、傅立叶变换或其它信号变换、滤波、混合等等。
感知品质的量度可以包括任何适当的量、参数等等,其代表由信号修改处理造成的信息信号的信息内容中的可察觉变化。这种量度的例子包括适当的成本函数,该成本函数量化所讨论的信号处理的伪信号。在Thilo Thiede等人的“PEAQ-The ITU Standard for Objective Measurement of Perceived Quality(PEAQ:针对感知质量的客观测量的ITU标准)”(J.Audio Eng.Soc.,Vol.48,No.1/2,2000)中描述了一种测量音频信号的感知品质的方法的例子。
本发明的另一个优点在于所述自动控制是基于感知量度的,由此考虑了影响该感知品质的信号处理的伪信号。这种伪信号的例子包括带宽的变化、噪声响度不对称性、时间屏蔽行为等等。
因此,其优点在于可以考虑除了实际信号处理所考虑的那些以外的伪信号。
将经处理的信号与信息信号作比较的步骤可以包括对所述一个或两个信号的一个或多个处理步骤,如滤波步骤、信号变换(例如傅立叶变换)、编码步骤等等。而且,该比较步骤可以包括任何适当的处理步骤,以便确定感知品质的量度。
对控制参数的调整可以包括任何适当的控制机构,例如控制回路,该控制回路将感知品质的量度与相应的目标值作比较,并且相应地调整该控制参数。所述调整可以包括参数的增加、参数的减少,或者所述调整可以包括将该参数保持不变。
控制参数的例子包括水印信号的嵌入强度、在水印信号的基于帧的嵌入处理中的嵌入帧大小、频率/时间分配、控制音频编码器中的量化器的位分配的参数等等。
在一个优选的实施例中,该方法进一步包括将信息信号划分成信息信号的片段序列;
其中应用信号修改处理的步骤包括将该信号修改处理应用于所述信息信号片段中的第一个,从而得到经处理的信号的第一个片段;
其中将经处理的信号与信息信号作比较的步骤包括将所述经处理的信号的第一个片段与所述信息信号的第一个片段作比较;
以及其中该方法进一步包括将该信号修改处理的至少一部分应用于所述信息信号片段中的第二个,从而得到经处理的信号的第二个片段,其中通过所述经调整的至少一个控制参数来控制该信号修改处理的至少一部分。
因此,对于信息信号的各片段执行信号处理。例如,当信息信号表示作为时间函数的信号(如音频信号、视频信号等等)时,可以在帧的基础上执行该信号处理。因此,将该信号划分成一个片段序列(即所谓的帧),并且处理各单独帧,并且将经处理的帧组合成最终得到的经处理的信号。在其它的实施例中,例如其中该信息信号是空间参数的函数,则可以执行类似的分割,例如通过将表示图像像素的信号划分成一个像素行序列。
因此,通过将经处理的信号片段与相应的信息信号片段作比较,可以为每个片段单独地调整控制所述信号处理的控制参数。
应当理解,信息信号的第一和第二片段可以具有相同或不同的长度。
可以将经调整的参数应用于对随后片段的处理中,优选地是该片段序列中的下一个片段。因此,在这种情况下,信息信号的第二个片段是该信息信号片段序列中的该信息信号的第一个片段之后的片段,由此提供了自校准控制机构的一个特别简单的实现方式。
在另一优选实施例中,信息信号的第二个片段是该信息信号的第一个片段,其中延迟该信息信号的第一个片段,以便补偿将经处理的信号与信息信号作比较以及调整所述至少一个控制参数这两个步骤的持续时间。因此,根据该两级前馈实施例,延迟了作为所述控制参数的调整基础的片段,并且将基于经调整的控制参数的信号处理应用于第一信号片段。因此,该调整已经影响当前信号片段,而不是将该调整的影响延迟到下一个片段。
因此,去除了对控制参数的调整与所得到的经处理信号的品质改变之间的相对延迟,由此进一步提高了经处理的信号的感知品质。本实施例的另一个优点在于:其避免了控制反馈的可能存在的不稳定性(例如非稳定信号(如音频)的情况),由此进一步提高了信号处理的品质。
根据另一优选实施例,该方法进一步包括:
-延迟信息信号以补偿将经处理的信号与该信息信号作比较以及调整所述至少一个控制参数这两个步骤的持续时间;以及
-将该信号修改处理的至少一部分应用于该延迟的信息信号,从而得到经修改的已处理信号,其中通过已调整的该至少一个控制参数来控制该信号修改处理的至少一部分。
因此,通过应用该信号修改处理的至少一部分(其中对于延迟的信息信号使用经调整的控制参数),去除了对控制参数的调整与所得到的经处理信号的品质改变之间的相对延迟,由此进一步提高了该经处理的信号的感知品质。
该信号修改处理的至少一部分可以包括基于经调整的参数执行的整个信号修改处理。或者,其可以包括该信号修改处理的一个或多个子处理(例如混合或嵌入阶段),同时再次使用一个或多个其它子处理的结果,所述其它子处理例如是水印产生阶段,该水印产生阶段没有受到控制参数的影响。在这种情况下,可以使用较少的组件实现更有效的处理。
如上所述,根据本发明的一个实施例,对信息信号的处理包括在该信息信号中嵌入水印,其中根据一个水印嵌入模型来产生水印,所述水印嵌入模型优选地包括人类听觉***的心理声学模型。
因此,在本发明的一个优选实施例中,该信号修改处理包括:
-根据水印嵌入模型确定水印信号;
-在该信息信号中嵌入所确定的该水印信号。
可以通过一个或多个控制参数来控制水印嵌入模型和/或所述嵌入,所述控制参数可以根据本发明调整,由此提高了嵌入处理的品质。
本发明的一个优点在于提供了具有统一的感知品质的水印嵌入,而不管主信号(即该水印所嵌入的信号)的具体特性。
根据另一个优选实施例,该信号修改处理包括:
-根据水印嵌入模型确定水印信号;
-在信息信号中嵌入所确定的该水印信号;
-其中通过所述至少一个控制参数来控制嵌入所确定的该水印信号的步骤;
以及其中将信号修改处理的至少一部分应用于信息信号的步骤包括:
-延迟该信息信号,从而得到延迟的信号;以及
-在经延迟的信号中嵌入所确定的该水印信号,其中通过所述经调整的至少一个控制参数来控制所述嵌入。
因此,根据本实施例,使用如上所述的两级前馈处理,其中通过控制参数来控制所述嵌入子处理,由此提供高效且稳定的嵌入处理,从而得到具有较高的统一感知品质的信息信号。
根据本发明的另一个优选实施例,所述信息信号是音频信号,并且所述信号修改处理包括音频编码处理。
因此,提供一种音频编码方法,该音频编码方法得到具有较高的统一品质的编码的音频信号。
根据另一个优选实施例,所述信息信号是音频信号,并且所述信号修改处理包括音频编码处理,该音频编码处理包括:
-为编码音频信号而确定一个位分配模式;以及
-根据所确定的该位分配执行对该音频信号的量化,从而得到一个经量化的信号;
其中将经处理的信号与信息信号作比较的步骤包括:
-从该量化的信号重构音频信号;以及
-将该重构的信号与所述音频信号作比较;
其中调整所述至少一个控制参数的步骤包括调整该位分配;
以及其中将该信号修改处理的至少一部分应用于该信息信号的步骤包括:
-延迟该音频信号,从而得到经延迟的信号;以及
-根据该经调整的位分配来执行对该延迟的信号的量化,从而得到经处理的量化信号。
因此,提供一种高效且稳定的两级前馈编码处理。
应当注意到,在上面和下文中所述的方法的特征可以在软件中实现,并且可以在数据处理***或者由计算机可执行指令的执行引起的其它处理装置中实施。所述指令可以是程序代码装置,该程序代码装置被从存储介质或通过计算机网络从另一个计算机加载入存储器(如RAM)。或者,所述特征可以通过代替软件或者和软件组合的硬连线电路实现。
本发明可以以不同的方式实现,包括上面和下文中所述的方法、装置以及其它产品装置,其中的每一个产生连同首先提到的方法所描述的一个或多个益处和优点,并且其中的每一个具有一个或多个优选实施例,所述优选实施例相应于连同首先提到的方法所述的以及在各从属权利要求中公开的优选实施例。
本发明进一步涉及一种用于处理信息信号的装置,该装置包括:
-信号处理装置,用于将信号修改处理应用于信息信号,从而得到经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;
-用于将该经处理的信号与该信息信号作比较、以确定该经处理的信号的感知品质的量度的装置;以及
-用于响应于所确定的感知品质的该量度来调整所述至少一个控制参数的装置。
在此,术语信号处理装置、用于将该经处理的信号与该信息信号作比较的装置、以及用于调整所述控制参数的装置包括适当的电路和/或设备,所述电路和/或设备适于执行上述功能。特别地,上述术语包括通用或专用可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、专用电子电路等等,或者包括它们的组合。
本发明进一步涉及包括如上面和下文所述的装置的设备。
本发明进一步涉及通过执行如上面和下文所述的方法步骤而产生的经处理的信息信号。
该经处理的信息信号可以体现为载波(如电磁波)上的信号。该信息信号可以进一步体现在存储介质上。
存储介质的例子包括磁带、光盘、数字视频盘(DVD)、紧致盘(CD或CD-ROM)、小型盘、硬盘、软盘、铁电存储器、电可擦可编程只读存储器(EEPROM)、闪存器、EPROM、只读存储器(ROM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、铁磁存储器、光存储器、电荷耦合设备、智能卡、PCMCIA卡等等。
通过下面参照附图描述的实施例,本发明的这些和其它方面将变得显而易见,并且得到阐明,其中:
附图1表示根据本发明一个实施例的信号处理装置的示意性方框图;
附图2a-b表示根据本发明另一实施例的信号处理装置的例子的示意性方框图;
附图3表示根据本发明一个实施例的、在信息信号中嵌入水印的装置的方框图;
附图4表示根据本发明另一实施例的、在信息信号中嵌入水印的装置的方框图;
附图5表示根据本发明一个实施例的音频编码的装置的方框图。
应当注意到,在附图中,方框之间的虚线通常表示控制线,而方框之间的实线通常表示数据线。
附图1表示根据本发明一个实施例的信号处理装置的示意性方框图。该装置包括信号处理单元101,该信号处理单元接收信息信号x、对该信息信号x应用信号修改处理从而得到输出信号y、并且输出信号y。通过一个或多个控制参数来控制该信号处理单元的信号修改,所述控制参数由品质评估单元102产生并且被馈送入该信号处理单元。将信息信号x和输出信号y馈送入品质评估单元102。品质评估单元102将经处理的信号y与信息信号x作比较,并且确定经处理的信号与信息信号x相比的感知品质,也就是对于信息信号的接收者将察觉到经处理的信号y的失真程度或其它品质下降程度的量度。可以通过一个或更多个参数将信息信号的感知品质量化,所述参数例如是非线性失真、谐波失真、调制差异、屏蔽-噪声比、音频信号的响度不对称性等等。
基于所确定的经处理的信号y的感知品质,该品质评估单元产生控制信号103,该控制信号表示用于控制该信号处理单元的控制参数。因此,提供了一种在线自校准信号处理。
附图2a-b表示根据本发明另一个实施例的信号处理装置的示意性方框图。
根据附图2a的装置被实现为一个两级前馈电路,该两级前馈电路包括第一信号处理单元201、品质评估单元202以及第二信号处理单元203。第一信号处理单元201接收信息信号x并且产生相应的经处理的信号204。信号处理单元201由一组默认的控制参数p控制。将经处理的信号馈送入品质评估单元202,该品质评估单元202还接收信息信号x,并且基于经处理的信号204的感知品质的确定来产生控制信号206,正如上面所描述的那样。
根据本实施例,将由品质评估单元202产生的控制信号馈送入第二信号处理单元203。第二信号处理单元203还接收信息信号x,并且对其应用与第一信号处理单元201相同的信号修改处理。然而,第二信号处理单元203由控制信号206控制,而不是由默认参数p控制。这样,第二信号处理单元应用了相对于所得到的经处理信号的感知品质而被优化的修改处理。这样,由第二信号处理单元产生的经处理的信号y构成了所述装置的输出。
应当注意到,在一个实施例中,默认参数p可以被动态地选择而不是静态地选择,例如,基于品质评估单元202的输出或者通过某种其它的控制机构来选择。
根据附图2b的装置被实现为一个两级前馈电路,该两级前馈电路包括两个不同的信号处理单元201和207。第一信号处理单元201对信息信号x执行如上所述的信号处理,并且将所得到的经处理的信号前送到品质评估单元202,该品质评估单元基于经处理的信号204的感知品质的确定来产生控制信号206。
根据本实施例,第二信号处理单元207仅执行由信号处理单元201执行的信号处理的一部分。因此,根据本实施例,第一信号处理单元201将信号205前送到第二信号处理单元207,其中该信号205表示第一处理级的结果,并且其不受控制参数p和206的影响。第二信号处理单元207仅执行由经优化的参数206控制的信号处理的第二部分,并且得到最终经处理的信号y。本实施例的一个优点在于:避免了信号处理步骤的不必要的重复,由此减少了处理时间以及所需的组件的复杂度。
应当理解,上述实施例可以包括附加的组件,诸如用于补偿由不同组件引入的延迟的延迟电路。
附图3表示根据本发明一个实施例的、在信息信号中嵌入水印的装置的方框图。该装置包括水印嵌入器301,该水印嵌入器接收音频信号x、在该音频信号中嵌入水印、并且产生最终得到的加水印的音频信号y。水印嵌入器301包括水印产生模块302,该水印产生模块接收音频信号x,并且基于表示要嵌入的信息的水印w来产生水印信号304。水印产生模块302由嵌入模型模块305控制,该嵌入模型模块接收音频信号x、确定从该音频信号x导出的预定成本函数、并且产生控制水印产生模块302的控制信号306。例如,该控制信号可以包括控制水印产生处理的一个或多个属性(诸如在不同频率下嵌入的相对水印能量、信号分割的窗口尺寸等等)的参数。该水印嵌入器还包括混合模块303,该混合模块接收音频信号x以及由水印产生模块302产生的水印信号304。该混合模块将音频信号x和水印信号304组合,从而得到加水印的信号y。嵌入模型305进一步产生控制信号313,该控制信号被馈送入混合模块303并且控制该水印信号和音频信号的混合。例如,该嵌入模型可以基于该音频信号的属性来确定要添加到该音频信号的水印能量的数量,所述属性例如是可以由该信号屏蔽的噪声量。该余度系数通常称作屏蔽-噪声比。
根据本发明,将音频信号x延迟一个延迟314,以便补偿由嵌入器301引入的延迟。将延迟的音频信号315和加水印的信号y馈送入品质评估单元307。该品质评估单元将该加水印的信号y与延迟的音频信号315作比较,并且将相应的一组品质参数309传递给控制单元308。例如,品质评估单元307可以实现一个成本函数,该成本函数量化了该水印***或更复杂***的伪信号,例如,如在Thilo Thiede等人的“PEAQ-The ITU Standard for Objective Measurement ofPerceived Quality(PEAQ:针对感知质量的客观测量的ITU标准)”(J.Audio Eng.Soc.,Vol.48,No.1/2,2000)中所公开的那样。品质参数309量化了加水印的音频信号y的感知品质。这种品质参数的例子包括非线性失真、谐波失真、调制差异、屏蔽-噪声比、响度不对称性等等。
控制单元308将该品质参数309转换成用来控制嵌入器301的设置的适当的控制参数。该控制单元分别将控制信号310、311和312馈送到混合模块303、水印产生模块302和嵌入模块305。每个控制信号包括一个或多个由该控制单元产生的控制参数。例如,所述控制参数可以控制嵌入参数(如水印嵌入强度、帧大小、时间/频率分配等等,或者上述参数的组合)。例如,如果所测量的品质较低,则可以向着提高加水印的信号的品质的方向调整该嵌入模型和/或水印产生模块和/或混合模块的设置。另一方面,如果该品质足够高以至于允许更强的嵌入,则调整所述设置,以便允许将更多水印能量嵌入在该音频信号中,从而提高所嵌入的水印的鲁棒性。
上述从品质参数到控制参数的变换可以包括简单的缩放、其它简单的变换函数(如混合矩阵)和/或更复杂的变换(如神经网络、统计方法等等)。
因此,在本实施例中,将经调整的控制参数用于确定嵌入器设置,以用于该音频信号的随后部分。例如,在基于帧的嵌入***中(其中将音频信号划分成帧,并且将水印嵌入在每个帧中),基于加了水印的信号的给定帧的品质调整控制参数,并且将所述控制参数应用于随后帧的水印嵌入。
应当注意到,在一个替换实施例中,所述嵌入模型仅控制水印产生模块和混合模块二者之一。同样地,在替换实施例中,该控制单元可以仅将控制参数前送到该水印嵌入器的一个或两个模块。
附图4表示根据本发明另一实施例的、在信息信号中嵌入水印的装置的方框图。根据本实施例,该装置实现了一个两级前馈机构。
该装置包括水印嵌入器401,该水印嵌入器包括嵌入模型405、水印产生模块402以及混合模块403。嵌入器401在音频信号x中嵌入水印w,从而得到加水印的信号y’,正如上面连同附图3中的嵌入器301所描述的那样。将该加水印的信号y’馈送入品质评估单元407,该品质评估单元将该加水印的信号y’与延迟的音频信号415作比较,该延迟的音频信号通过适当的延迟414从音频信号x中产生。品质评估单元407产生一组品质参数409,并且将它们馈送到控制单元408中,该控制单元又产生一组控制参数410,正如上面连同附图3中的品质评估单元307和控制单元308所描述的那样。
根据本实施例,该控制单元不控制嵌入器401,而是控制一个分开的混合模块421。该混合模块421接收延迟的音频信号420,该延迟的音频信号由延迟414和425适当地延迟,以便补偿由嵌入器401、品质评估单元407以及控制单元408引入的延迟。混合模块421进一步接收延迟的水印信号423,该延迟的水印信号相应于由水印产生模块产生并由延迟424延迟的水印信号404。延迟424补偿由品质评估单元407和控制单元408引入的延迟,并且将延迟的水印信号423馈送入混合模块421。混合模块421进一步接收控制信号413,该控制信号由嵌入模块405产生,以便控制该混合处理。同样地,该控制信号由延迟424延迟,从而得到延迟的控制信号422。根据控制参数410和来自该嵌入模块的延迟的控制信号422,该混合模块将延迟的音频信号420与延迟的水印信号423进行组合,从而得到加水印的信号y,该加水印的信号构成该装置的输出。
因此,根据本实施例,重复嵌入处理的混合阶段,其中根据在初始混合之后确定的感知参数,由控制电路设置该重复阶段的混合参数。
本实施例的一个优点在于提供了对嵌入***的改进控制,这是由于其去除了控制参数和受控***之间的相对延迟。因此,进一步提高了加了水印的信号的感知品质,并且消除了不稳定反馈***的风险。
应当注意到,这种前馈***等效于一次迭代反馈***,其中补偿了控制参数和信号本身之间的延迟。
因此,在上述实施例中,公开了自校准水印嵌入***,其提供了加水印的信号的统一品质。使用品质评估单元不断地调整水印的强度和/或嵌入算法的设置,以便保持统一的音频品质。
附图5表示根据本发明一个实施例的音频编码的装置的方框图。该装置包括对音频信号x进行编码的音频编码器501。该音频编码器包括一个编码器模型505,例如基于人类听觉***的心理声学模型。该编码器模型505产生一个位分配模式506,该位分配模式被馈送入量化模块502。该音频编码器进一步包括一个重构模块503,该重构模块从量化模块502的输出重构该音频信号。应当理解,该重构模块还从该编码器模型505接收该位分配模式。将重构的音频信号x’馈送入品质评估单元507,该品质评估单元507将通过延迟电路514适当延迟的原始音频信号与该重构的音频信号x’作比较,并且产生相应的品质参数509,所述品质参数被馈送入控制单元508。该控制单元将所述品质参数转换成量化控制参数510。所述量化控制参数被馈送入第二量化模块521。该第二量化模块接收通过延迟514和525适当延迟之后的音频信号x。该第二量化模块还接收在由延迟524适当延迟之后的来自编码器模型505的输出506。第二量化模块521基于从控制单元508接收的控制参数来执行具有改进的位分配的改进量化。最后,在编码器530中对第二量化模块的输出529进行编码,从而得到一个位流信号y。
因此,在上述内容中,公开了一种自校准音频编码器。应当注意到,上述装置可以实现为通用或专用可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、专用电子电路等等或者它们的组合。
应当注意到,上述实施例是举例说明而不是限制本发明,并且在不脱离所附的权利要求书的范围的情况下,本领域的技术人员能够设计出许多替换实施例。
例如,在上述内容中,主要结合音频信号描述了本发明。然而,应当理解,也可以将本发明应用于其它信息信号,诸如视频信号、多媒体信号、图像等等。
可以将本发明概括如下。公开了一种处理信息信号的方法,包括:将信号修改处理应用于信息信号,从而得到经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;将该经处理的信号与该信息信号作比较,以确定该经处理的信号的感知品质的量度;以及响应于所确定的感知品质的量度来调整所述至少一个控制参数。本方法有利地在加水印和压缩***中使用,所述***使用人类听觉或视觉***的模型来控制水印嵌入深度或压缩比并且经常不能保持恒定的信号品质,这是因为它们忽略了除屏蔽-噪声比以外的其它伪信号。
在权利要求书中,放置在括号之间的任何附图标记都不应当理解为限制该权利要求。“包括”一词不排除在权利要求中列出的元件或者步骤以外的元件或步骤的存在。元件前的“一个”不排除多个这种元件的存在。
本发明可以通过包括几个不同的元件的硬件以及通过适当编程的计算机实现。在列举了几种装置的设备权利要求中,可以将这些装置中的几个体现成同一项硬件。在彼此不同的从属权利要求中引述某些措施这一事实不表示不能有利地使用这些措施的组合。
Claims (13)
1、一种处理信息信号的方法,该方法包括:
—将信号修改处理应用于一个信息信号,从而得到一个经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;
—将该经处理的信号与该信息信号作比较,以确定该经处理的信号的感知品质的量度;
—响应于所确定的感知品质的量度来调整所述至少一个控制参数。
2、根据权利要求1所述的方法,进一步包括将该信息信号划分成该信息信号的一个片段序列;
其中应用该信号修改处理的步骤包括将该信号修改处理应用于所述信息信号片段中的第一个,从而得到该经处理的信号的第一个片段;
其中将该经处理的信号与该信息信号作比较的步骤包括将所述经处理的信号的第一个片段与所述信息信号的第一个片段作比较;
以及其中该方法进一步包括将该信号修改处理的至少一部分应用于所述信息信号片段中的第二个,从而得到该经处理的信号的第二个片段,其中通过所述经调整的至少一个控制参数来控制该信号修改处理的至少一部分。
3、根据权利要求2所述的方法,其中该信息信号的第二个片段是在该信息信号片段序列中的该信息信号的第一个片段之后的片段。
4、根据权利要求2所述的方法,其中该信息信号的第二个片段是该信息信号的第一个片段,其中延迟该信息信号的第一个片段,以补偿将该经处理的信号与该信息信号作比较以及调整该至少一个控制参数这两个步骤的持续时间。
5、根据权利要求1所述的方法,进一步包括:
—延迟该信息信号,以补偿将该经处理的信号与该信息信号比较以及调整该至少一个控制参数这两个步骤的持续时间;以及
—将该信号修改处理的至少一部分应用于该延迟的信息信号,从而得到一个已修改的经处理的信号,其中通过该经调整的至少一个控制参数来控制该信号修改处理的至少一部分。
6、根据权利要求1至5中的任意一项权利要求所述的方法,其中该信号修改处理包括:
—根据一个水印嵌入模型确定一个水印信号;
—在该信息信号中嵌入所确定的该水印信号。
7、根据权利要求4或5所述的方法,其中该信号修改处理包括:
—根据一个水印嵌入模型确定一个水印信号;
—在该信息信号中嵌入所确定的该水印信号;
其中通过该至少一个控制参数来控制嵌入所确定的水印信号的步骤;
以及其中将该信号修改处理的至少一部分应用于该信息信号的步骤包括:
—延迟该信息信号,从而得到一个延迟的信号;以及
—在该延迟的信号中嵌入所确定的该水印信号,其中通过该经调整的至少一个控制参数来控制该嵌入。
8、根据权利要求6或7所述的方法,其中该信息信号是音频信号,并且该水印嵌入模型包括人类听觉***的心理声学模型。
9、根据权利要求1至5中的任意一项权利要求所述的方法,其中该信息信号是音频信号,并且该信号修改处理包括音频编码处理。
10、根据权利要求4或5所述的方法,其中该信息信号是音频信号,并且该信号修改处理包括音频编码处理,该音频编码处理包括:
—为编码音频信号而确定一个位分配模式;以及
—根据所确定的该位分配执行对该音频信号的量化,从而得到一个量化的信号;
其中将该经处理的信号与该信息信号作比较的步骤包括:
—从该量化的信号重构该音频信号;以及
—将该重构的信号与该音频信号作比较;
其中调整所述至少一个控制参数的步骤包括调整该位分配;
以及其中将该信号修改处理的至少一部分应用于该信息信号的步骤包括:
—延迟该音频信号,从而得到一个延迟的信号;以及
—根据该经调整的位分配执行对该延迟的信号的量化,从而得到一个经处理的量化的信号。
11、一种用于处理信息信号的装置,该装置包括:
—信号处理装置,用于将信号修改处理应用于一个信息信号,从而得到一个经处理的信号,其中通过至少一个控制参数来控制所述信号修改处理;
—用于将该经处理的信号与该信息信号作比较、以确定该经处理的信号的感知品质的量度的装置;以及
—用于响应于所确定的感知品质的量度来调整所述至少一个控制参数的装置。
12、一种包括如权利要求11所述的装置的设备。
13、通过根据权利要求1至10中的任意一项权利要求所述的方法而产生的经处理的信息信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03100259.5 | 2003-02-07 | ||
EP03100259 | 2003-02-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1748246A true CN1748246A (zh) | 2006-03-15 |
Family
ID=32842821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800036991A Pending CN1748246A (zh) | 2003-02-07 | 2004-01-20 | 信号处理 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20060140406A1 (zh) |
EP (1) | EP1595246B1 (zh) |
JP (1) | JP2006517035A (zh) |
KR (1) | KR20050098893A (zh) |
CN (1) | CN1748246A (zh) |
AT (1) | ATE391987T1 (zh) |
DE (1) | DE602004012971T2 (zh) |
WO (1) | WO2004070704A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004036352A2 (en) * | 2002-10-15 | 2004-04-29 | Verance Corporation | Media monitoring, management and information system |
JPWO2008114432A1 (ja) * | 2007-03-20 | 2010-07-01 | 富士通株式会社 | データ埋め込み装置、データ抽出装置、及び音声通信システム |
TWI332367B (en) * | 2007-07-02 | 2010-10-21 | Inventec Corp | Method and equipment for monitoring tone quality of audio player and broadcast system |
US8718145B1 (en) * | 2009-08-24 | 2014-05-06 | Google Inc. | Relative quality score for video transcoding |
KR101223163B1 (ko) | 2011-05-17 | 2013-01-17 | 래드손(주) | 재처리를 방지하는 오디오 신호 처리 장치, 오디오 인코딩 및 디코딩 시스템 |
US10984808B2 (en) * | 2019-07-09 | 2021-04-20 | Blackberry Limited | Method for multi-stage compression in sub-band processing |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5559900A (en) * | 1991-03-12 | 1996-09-24 | Lucent Technologies Inc. | Compression of signals for perceptual quality by selecting frequency bands having relatively high energy |
US7289643B2 (en) * | 2000-12-21 | 2007-10-30 | Digimarc Corporation | Method, apparatus and programs for generating and utilizing content signatures |
FR2749723B1 (fr) * | 1996-06-06 | 1998-09-04 | France Telecom | Procede et dispositif de codage en compression d'un signal numerique |
US6061793A (en) * | 1996-08-30 | 2000-05-09 | Regents Of The University Of Minnesota | Method and apparatus for embedding data, including watermarks, in human perceptible sounds |
US5848155A (en) * | 1996-09-04 | 1998-12-08 | Nec Research Institute, Inc. | Spread spectrum watermark for embedded signalling |
US7373513B2 (en) * | 1998-09-25 | 2008-05-13 | Digimarc Corporation | Transmarking of multimedia signals |
US6219634B1 (en) * | 1998-10-14 | 2001-04-17 | Liquid Audio, Inc. | Efficient watermark method and apparatus for digital signals |
US6345100B1 (en) * | 1998-10-14 | 2002-02-05 | Liquid Audio, Inc. | Robust watermark method and apparatus for digital signals |
US7142691B2 (en) * | 2000-03-18 | 2006-11-28 | Digimarc Corporation | Watermark embedding functions in rendering description files |
WO2002015587A2 (en) * | 2000-08-16 | 2002-02-21 | Dolby Laboratories Licensing Corporation | Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information |
US6763067B2 (en) * | 2000-10-10 | 2004-07-13 | Sarnoff Corporation | Rate control for bitstream re-encoding |
-
2004
- 2004-01-20 KR KR1020057014456A patent/KR20050098893A/ko not_active Application Discontinuation
- 2004-01-20 JP JP2006502529A patent/JP2006517035A/ja not_active Withdrawn
- 2004-01-20 CN CNA2004800036991A patent/CN1748246A/zh active Pending
- 2004-01-20 AT AT04703454T patent/ATE391987T1/de not_active IP Right Cessation
- 2004-01-20 US US10/544,203 patent/US20060140406A1/en not_active Abandoned
- 2004-01-20 DE DE602004012971T patent/DE602004012971T2/de not_active Expired - Fee Related
- 2004-01-20 WO PCT/IB2004/050036 patent/WO2004070704A1/en active IP Right Grant
- 2004-01-20 EP EP04703454A patent/EP1595246B1/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
US11462207B1 (en) | 2021-11-03 | 2022-10-04 | Institute Of Automation, Chinese Academy Of Sciences | Method and apparatus for editing audio, electronic device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
US20060140406A1 (en) | 2006-06-29 |
EP1595246A1 (en) | 2005-11-16 |
EP1595246B1 (en) | 2008-04-09 |
JP2006517035A (ja) | 2006-07-13 |
DE602004012971D1 (de) | 2008-05-21 |
WO2004070704A1 (en) | 2004-08-19 |
DE602004012971T2 (de) | 2009-05-20 |
KR20050098893A (ko) | 2005-10-12 |
ATE391987T1 (de) | 2008-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1030129C (zh) | 高效数字数据编码和译码装置 | |
CN1244904C (zh) | 声频信号编码方法和设备 | |
CN1293509C (zh) | 以无损的方式编码数字图像数据的设备和方法 | |
CN1184579C (zh) | 数据处理装置与方法 | |
US9275649B2 (en) | Method and system for encoding audio data with adaptive low frequency compensation | |
US20090067506A1 (en) | Method and System for Weighted Encoding | |
CN1647156A (zh) | 参数多声道音频表示 | |
CN1968419A (zh) | 利用人类视觉特性对图像进行编码及解码的方法和设备 | |
CN1234572A (zh) | 图像处理方法和装置 | |
CN1926610A (zh) | 基于编码的多声道音频信号合成单声道音频信号 | |
CN1531347A (zh) | 图象信号编码装置及图象信号编码方法 | |
CN1478250A (zh) | 图象处理装置、图象处理方法、存储介质和程序 | |
CN1525436A (zh) | 可伸缩地编解码音频数据的方法和装置 | |
CN1957596A (zh) | 可扩缩编码方法和装置、可扩缩解码方法和装置 | |
CN101080929A (zh) | 图像处理装置与图像处理方法 | |
CN1748246A (zh) | 信号处理 | |
CN1170203A (zh) | 音频数据解码装置及音频数据编码解码*** | |
CN1615580A (zh) | 一种用于减小信号的动态范围的方法和电子电路 | |
CN1967594A (zh) | 一种自适应的扩展变换抖动调制水印方法 | |
CN1918629A (zh) | 音频编码中的短窗分组方法 | |
CN1247002A (zh) | 一个数字化图象编码和解码的方法和装置 | |
CN1534919A (zh) | 数字音频处理 | |
CN1109993C (zh) | 利用统计特性的数据隐藏方法和*** | |
US11373664B2 (en) | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program | |
CN1276406C (zh) | 可伸缩地编解码音频数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060315 |