CN101789252A - 音频再现装置、信息再现***、音频再现方法 - Google Patents
音频再现装置、信息再现***、音频再现方法 Download PDFInfo
- Publication number
- CN101789252A CN101789252A CN201010001199A CN201010001199A CN101789252A CN 101789252 A CN101789252 A CN 101789252A CN 201010001199 A CN201010001199 A CN 201010001199A CN 201010001199 A CN201010001199 A CN 201010001199A CN 101789252 A CN101789252 A CN 101789252A
- Authority
- CN
- China
- Prior art keywords
- discontinuous
- correcting
- data
- treatment
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000012937 correction Methods 0.000 claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 238000001914 filtration Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明提供一种音频再现装置、信息再现***、音频再现方法,其中,所述音频再现装置包括对输入语音数据进行解码的解码处理器;判断数据包与前面数据包之间是否不连续的不连续判断单元,重置解码信息的重置处理单元;对解码后数据进行频率分析的频率分析单元;计算解码后数据的包络的包络计算单元;计算解码后数据的电平差的电平差计算单元;如果校正处理是必要时对解码后数据进行具体校正处理的校正处理单元;和判断是否执行校正处理、判断数据包数据是否不连续、判断执行哪项校正处理以及输出执行校正处理指令的处理判断单元。本发明可以减少由于静音而在语音再现中出现的停顿,并使再现的语音听上去更舒服。
Description
相关申请的交叉引用
本申请包括与2009年1月16日在日本专利局申请的JP2009-008250号的日本在先专利申请相关的主题并要求其优先权,其全部内容通过引用并入此处。
技术领域
本发明涉及一种用于CD播放器、DVD播放器、电视机或类似设备的音频再现的音频再现装置、信息再现***、音频再现方法和程序。
背景技术
在音频(语音)再现装置中,如果再现了不连续的语音数据流,就会在不连续点处产生噪声,令收听者感觉不适。
为解决该问题,通常,如图1所示,在不连续点前后对语音信号进行静音控制以防止噪音的产生(例如,见日本未经审查的专利申请公报2002-204221号)。
但是,通常由于要对多个样本数据片段进行静音处理,所以就会影响部分语音数据,并会导致不能理解的语音再现。
特别是,如果不连续点频繁产生,这种倾向就较明显。
发明内容
本发明希望提供一种音频再现装置、信息再现***、音频再现方法和程序,它们可以减少由于静音而在语音再现中出现的停顿,并使再现的语音听上去更舒服。
根据本发明实施例,提供一种音频再现装置,其包括:解码处理器,其用于对输入的语音数据进行解码;不连续判断单元,其用于从输入的数据包信息中判断数据包与前面的数据包之间是否不连续;重置处理单元,如果所述不连续判断单元判断出数据包不连续,该重置处理单元用于对解码信息进行重置;频率分析单元,其用于对由所述解码处理器解码后的数据进行频率分析;包络计算单元,其用于计算由所述解码处理器解码后的数据的包络;电平差计算单元,其用于计算由所述解码处理器解码后的数据的电平差;校正处理单元,其可以执行多个校正处理,并且如果所述校正处理是必要时就对所述解码后的数据进行具体的校正处理;和处理判断单元,其用于从频率分析的结果中判断是否执行所述校正处理、判断数据包数据是否不连续、如果所述数据包数据不连续就根据所述包络和电平差判断执行哪项校正处理,并根据所述判断结果输出指令以执行校正处理。
根据本发明的另一个实施例,提供一种信息再现***,其包括用于从传送来的信息中再现语音数据的音频再现装置,其中,所述音频再现装置包括:解码处理器,其用于对输入的语音数据进行解码;不连续判断单元,其用于从输入的数据包信息中判断数据包与前面数据包之间是否不连续;重置处理单元,如果所述不连续判断单元判断出数据包不连续,该重置处理单元用于对解码信息进行重置;频率分析单元,其用于对由所述解码处理器解码后的数据进行频率分析;包络计算单元,其用于计算由所述解码处理器解码后的数据的包络;电平差计算单元,其用于计算由所述解码处理器解码后的数据的电平差;校正处理单元,其可以执行多个校正处理,并且如果所述校正处理是必要时就对所述解码后的数据进行具体的校正处理;和处理判断单元,其用于从频率分析的结果中判断是否执行校正处理、判断数据包数据是否不连续、如果所述数据包数据不连续就根据所述包络和电平差判断执行哪项校正处理,并根据所述判断结果输出指令以执行校正处理。
根据本发明另一个实施例,提供一种音频再现方法,该方法包括以下步骤:对输入的语音数据进行解码;从输入的数据包信息中判断数据包与前面的数据包之间是否不连续;如果在所述不连续判断步骤中判断出数据包是不连续的,就对解码信息进行重置;对所述解码后的数据进行频率分析;计算所述解码后的数据的包络;计算所述解码后的数据的电平差;根据所述频率分析的结果判断是否执行校正处理,判断数据包数据是否不连续,如果所述数据包数据不连续时就根据所述包络和电平差判断执行哪项校正处理,根据所述判断结果输出指令以执行所述校正处理;以及如果所述校正处理是必要的,就对解码后的数据进行具体的校正处理。
根据本发明另一个实施例,提供了一种用于在计算机上实施音频再现方法的程序,所述方法包括以下步骤:对输入的语音数据进行解码;从输入的数据包信息中判断数据包与前面的数据包之间是否不连续;如果在所述不连续判断步骤中判断出数据包是不连续的,就对解码信息进行重置;对所述解码后的数据进行频率分析;计算所述解码后的数据的包络;计算所述解码后的数据的电平差;根据所述频率分析的结果判断是否执行校正处理,判断数据包数据是否不连续,如果所述数据包数据不连续时就根据所述包络和电平差判断执行哪项校正处理,根据所述判断结果输出指令以执行所述校正处理;以及如果所述校正处理是必要的,就对解码后的数据进行具体的校正处理。
根据本发明,不连续判断单元从输入的数据包信息中判断数据包与前面的数据包之间是否不连续。如果判断出数据包不连续,就由重置处理单元对解码信息进行重置。
频率分析单元对由解码处理器解码后的数据进行频率分析,包络计算单元计算解码后的数据的包络,电平差计算单元计算解码后的数据的电平差。
处理判断单元根据频率分析的结果判断是否执行校正处理并判断数据包数据是否不连续。此外,如果数据包数据不连续,则处理判断单元根据包络和电平差判断执行哪项校正处理,并根据判断结果输出指令以执行校正处理。
如果校正处理是必要的,校正处理单元就对解码后的数据进行具体的校正处理。
根据本发明,可以减少由于静音而在语音再现中出现的停顿,并使再现的语音听上去更舒服。
附图说明
图1是在一般的音频(语音)再现装置中对不连续点进行静音控制的示意图;
图2是根据本发明实施例的音频再现装置的配置示例的方框图;
图3是根据所给实施例的不连续标记信息的结构示例的图;
图4是说明通过频率分析进行不连续检测的示意图;
图5A和图5B是根据所给实施例的解码重置处理的概念示意图;
图6是表示等响度曲线的图;
图7是根据所给实施例的处理判断单元的校正处理切换的判断处理的示意图;
图8A和图8B是说明根据包络进行处理判断的图;
图9是说明根据不连续点处的电平差来判断是否执行静音处理或帧合成处理的判断处理的图;
图10是表示设置静音时间常数的示例的图;
图11是表示根据电平差设置静音时间常数的示例的图;
图12是根据所给实施例的帧合成处理的示意图;
图13是根据所给实施例的音频再现装置的操作流程图;
图14是使用根据第一实施例的音频再现装置的网络型监控摄像***的全部配置的示意图;
图15是使用根据第一实施例的音频再现装置的基于广播的***的全部配置的示意图;
图16是使用根据第一实施例的音频再现装置的由网络实现的再现***的全部配置的示意图;和
图17是使用根据第一实施例的音频再现装置的移动电话***的全部配置的示意图。
具体实施方式
下文将参考相应附图描述本发明的实施例。描述按以下顺序进行:
1、第一实施例(音频再现装置的配置示例)
2、第二实施例(处理***的第一示例)
3、第三实施例(处理***的第二示例)
4、第四实施例(处理***的第三示例)
5、第五实施例(处理***的第四示例)
1、第一实施例
图2是根据本发明实施例的音频再现装置的配置示例的方框图。
根据本实施例的音频再现装置100基于输入信号中的不连续点前后的语音电平、电平差和频率分析来判断应用于不连续点的校正处理的类型,以减少由于静音而在语音再现中出现的停顿。
图2中的音频再现装置100包括数据包分离单元101、输入缓冲器单元102、解码处理器(或解码处理单元)103、不连续判断单元104和解码重置处理单元105。
音频再现装置100包括频率分析单元106、包络计算单元107、电平差计算单元108、处理判断单元109、切换单元110、校正处理单元111和输出缓冲器112。
校正处理单元111包括静音参数设置单元1111、静音处理单元1112、帧合成参数设置单元1113和帧合成处理单元1114。
数据包分离单元101将输入的数据包分离成语音数据和数据包信息。
数据包分离单元101向输入缓冲器单元102提供分离后的语音数据且向不连续判断单元104输出数据包信息。
输入缓冲器单元102将语音数据保持预定的时间,然后向解码处理器103输出被保持的语音数据。
解码处理器103对输入的语音数据进行解码。
解码处理器103向频率分析单元106、包络计算单元107、电平差计算单元108和切换单元110提供解码后的语音数据。
不连续判断单元104从数据包信息中判断该数据包与前面的数据包之间是否不连续。
不连续判断单元104向解码重置处理单元105输出数据包是否不连续的判断结果。
下面描述不连续判断单元104判断不连续的过程。
不连续判断单元104基于设置在高一级装置侧的不连续标记信息或根据频率分析执行不连续检测。
下文描述由高一级电平装置设置的不连续标记信息。
用于表示连续的标记作为附属信息被提供给输入语音数据。
数据包的丢失主要由网络传输协议来判断,在数据包丢失时将标记信息设置为“不连续”。
图3是根据本实施例的不连续标记信息的结构示例的图。
具体地,在提供输入语音数据时,按图3中所示结构提供信息。
在本示例中,由语音数据头地址201、语音数据大小202和不连续标记203构成输入信息结构200。
例如,在连续时段将不连续标记203设置为“0”,而在不连续时段将其设置为“1”。
下文描述根据频率分析进行的不连续检测。
不连续判断单元104根据频谱的形状变化检测语音帧的不连续。
图4是说明根据频率分析进行不连续检测的示意图。
例如,参考附图4描述日语″A″[a:]的频谱。
在图4中,比较连续帧A和不连续帧B,可在频谱的谷值(***振峰)(图中(b)点和(c)点)中看出增益的变化。
具体地,如果可以获得第一共振峰F1和第一***振峰UF1之间的差值,连续帧和不连续帧如下:
等式1
在连续帧的情况下:Diff1=F1-UF1=28db
在不连续帧的情况下:Diff1=F1-UF1=22db
作为用来调节Gth的增益的阀值,如果满足下列关系,则判断(检测)为不连续帧:
等式2
Diff1+Gth<28db
不连续判断单元104的检测单元不限于第一共振峰和第一***振峰,第二共振峰和第二***振峰或更高共振峰和***振峰的结合都可以使用。
检测单元以共振峰和***振峰之间的电平差为基础,于是不依靠输入信号电平。
如果通过不连续判断单元104判断出不连续,解码重置处理单元105就重置解码处理器103的解码信息。
如果不连续判断单元104判断出数据包不连续,解码重置处理单元105对解码处理器(解码器)103执行重置处理。
这是因为,如果在没有根据编解码器的类型进行修正的情况下对不连续数据进行解码,编解码器的类型例如是AMR或AAC,例如与解码处理有关的滤波处理的各项系数的值就要变化,因此就很难保证解码处理的结果。
依照编解码器类型,由于重置处理可能不是必要的,因此就需要根据编解码器类型判断是否执行重置处理。
通过在不连续点处执行解码处理器103的重置处理,就可在确定不连续点后返回语音数据。
此外,如果是根据频率分析单元106的分析结果判断为不连续,就将不连续信息反馈给不连续判断单元104以在下次解码时执行重置处理。
在通过来自高一级装置的标记进行不连续判断时发生错误时,可以有效地运用上述方法。
图5A和图5B是根据本实施例的解码重置处理的示意图。
图5A图示了使用系数表的一般解码处理。
图5B图示了在不连续时段接收重置指令的解码处理。
在图5A和图5B中,举例来说,系数表被初始化为0。
频率分析单元106对解码后的语音数据执行频率分析,并向处理判断单元109输出分析结果。
包络计算单元107计算解码后的语音数据的包络并向处理判断单元109输出计算结果。
包络是任何一段语音信号电平的绝对值的最大值。
电平差计算单元108从解码后的语音数据中计算语音电平差,并向处理判断单元109输出计算结果。
处理判断单元109具有根据频率分析结果判断是否执行校正处理以及判断数据包是否不连续的功能。
如果数据包数据不连续,处理判断单元109就根据包络和电平差判断执行哪项校正处理。
切换单元110向校正处理单元111和输出缓冲器112输出解码后的数据,以在根据处理判断单元109的判断结果的基础上切换校正处理。
现在,详细描述处理判断单元109的判断处理过程。
[第一判断处理]
图6是表示等响度曲线(equal-loudness curve)的图。
首先,如果通过频率分析单元106获得语音频谱,且频谱低于图6中所示等响度曲线的最小可听范围,处理判断单元109就判断人耳不能听见而且不存在不连续点造成的噪声影响。
在这种情形下,在不执行校正处理的情况下,处理判断单元109指示切换单元110向输出缓冲器112输出数据。
本发明不限于最小可听范围,可以使用20方(phon)的曲线作为判断界线。
此外,等响度曲线还指可听到的与人耳具有同样音量的曲线。
如果语音频谱等于或小于最小可听范围,其就不能被人耳听见。
[第二判断处理]
如果在第一处理判断中判断出频谱大于最小可听范围,则处理判断单元109就执行下列校正处理判断。
如果解码后的数据不连续,就根据不连续点的语音电平切换处理内容。
图7是根据本实施例的处理判断单元进行校正处理切换的判断处理的示意图。
图7中,垂直轴表示包络,水平轴表示不连续点的电平差。
如果不连续点前后的包络小于任何第一阀值VT1,则噪声的影响较小,于是可判断出对不连续点的处理是不必要的。
如果包络大于阀值VT1且不连续点的语音电平差小于任何第二阀值VT2,则执行帧合成处理以使不连续点变得柔和。如果电平差大于第二阀值VT2,就利用静音处理可靠地避免噪声的生成。
图8A和图8B是说明根据包络和电平差进行处理判断的图。
图9是说明根据不连续点处的电平差判断是否执行静音处理或帧合成处理的判断处理的图。
现在,参照图8A、图8B和图9描述根据包络和电平差进行的处理判断。
如图8A和8B中所示,计算含有语音信号的每段的包络和音量,如果包含信号的不连续点的包络的电平小于阀值VT,则不执行对不连续点的静音处理或类似处理。
相反,如果包络的电平大于阀值VT,由于可能在不连续点处产生不适的噪声,因此要执行校正处理。
校正处理执行下文描述的静音处理或帧(滤波)合成。
例如,如图8A和8B中所示,由于包络电平小于阀值VT,所以处理判断单元109将主要包含小电平的语音的A段设置成校正处理的非目标段。而由于B段的包络电平大于阀值VT,处理判断单元109将B段设置成校正处理的目标段。
包络指代任何一段语音信号电平的绝对值的最大值。
如果不连续点处于包络计算段的中断处,则判断不连续点前后是包络。
如图9所示,即使在执行校正处理时,也根据不连续点的电平差对执行静音处理还是执行帧合成处理进行判断。
图9中,因为不连续点A前后的电平差小,所以进行滤波合成。而因为不连续点B前后的电平差大,就执行静音处理。
校正处理单元111通过处理判断单元109判断是否有必要进行校正处理,且如果通过切换单元110接受到相关信息,就执行针对解码后的数据的校正处理。
校正处理单元111具有根据计算出的频率分析、包络和电平差来选择适当校正处理的功能。
校正处理单元111包括静音参数设置单元1111、用于执行静音处理的静音处理单元1112、帧合成参数设置单元1113和用于执行帧合成的帧合成处理单元1114。
如上所述,如果电平差大于阀值,校正处理单元111就执行静音处理。如果电平差小于阀值,校正处理单元111就执行帧合成处理。
校正处理单元111还可根据电平差对各项处理的参数进行调整,这通过改变由静音参数设置单元1111和帧合成参数设置单元1113所设置的参数来实现。
此外,还可以进行语音数据的简单滤波处理,例如进行FIR或IIR,以此来代替帧合成处理。
[静音处理]
图10是表示设置静音时间常数的示例的图。
图11是根据电平差设置静音时间常数的示例的图。
在校正处理单元111中,在静音处理时通过静音参数设置单元1111根据语音电平差将静音时间常数设置为静音控制参数。
例如,如果不连续点的电平差大到一定程度,就将时间常数设置为大,而如果电平差小到一定程度,就将时间常数设置为小。
因此,如果电平差小,就会迅速进行控制,而如果电平差大,就可以可靠地避免噪声。
[帧合成处理]
图12是根据本发明的帧合成处理的示意图。
帧合成处理单元1114利用下列等式计算和合成不连续点前后的帧A和帧B的样本并生成帧C:
等式3
Ci=αAi+(1-α)Bi
如果不连续点的电平差大于任何阀值,不连续的影响就不会在一个帧中被吸收,于是要对多个帧执行帧合成。
可以根据电平差来改变合成系数α。
[解码后校正处理的效果]
可以根据频率分析、包络或电平差来切换对不连续点的校正处理,以根据不连续点的类型进行控制。
因此,就可减少由于静音而在语音再现中出现的停顿,使再现的语音听着舒服。
此外,如果信号电平或不连续点的电平差大到一定程度,就可以通过帧合成或静音处理避免生成噪声,从而保持语音品质的平衡。
图13是根据本实施例的音频再现装置的操作流程图。
下面,将参照图13描述图2中的配置所进行的操作。
首先,数据包分离单元101将输入的数据包分离成语音数据和数据包信息(ST1)。将分离后的语音数据提供给输入缓冲器单元102并向不连续判断单元104输出数据包信息。
输入缓冲器单元102按照预设的时间保持语音数据,并向解码处理器103输出被保持的语音数据。
不连续判断单元104从数据包信息中判断该数据包与前面的数据包之间是否不连续(ST2)。
向解码重置处理单元105提供数据包是否不连续的判断结果。
解码重置处理单元105接收来自不连续判断单元104的判断结果,并判断重置处理是否必要(ST3)。
在步骤ST3中,如果判断出重置处理是必要的,就对解码处理器103的解码信息进行重置(ST4)。
即,如果不连续判断单元104判断出数据包不连续,就由解码重置处理单元105执行对解码处理器103的重置处理。
此外,在步骤ST4的处理后,如果在判断步骤ST2中判断出数据包是连续的,或如果在判断步骤ST3中判断出重置处理是不必要的,就由解码处理器103执行解码处理(ST5)。
向频率分析单元106、包络计算单元107、电平差计算单元108、处理判断单元109和切换单元110提供解码后的语音数据。
包络计算单元107计算解码后的语音数据的包络,并向处理判断单元109输出计算结果(ST6)。
电平差计算单元108从解码后的语音数据中计算语音电平差,并向处理判断单元109输出计算结果(ST7)。
频率分析单元106对解码后的语音数据进行频率分析,并向处理判断单元109输出分析结果(ST8)。
处理判断单元109根据频率分析的结果判断是否执行校正处理,并判断数据包是否是不连续的(ST9)。
在步骤ST9中,如果判断出数据包是不连续的,处理判断单元109就判断频谱是等于还是大于最小可听范围(ST10)。
在步骤ST10中,如果判断出频谱等于或大于最小可听范围,处理判断单元109就判断包络是等于还是大于阀值VT1(ST11)。
在步骤ST11中,如果判断出包络等于或大于阀值VT1,就判断电平差是等于还是大于阀值VT2(ST12)。
在步骤ST12中,如果判断出电平差等于或大于阀值VT2,处理判断单元109就指令切换单元110执行静音处理以作为校正处理。
切换单元110向校正处理单元111输出解码后的数据,以基于处理判断单元109所作出的判断结果将校正处理切换成静音处理。
在校正处理单元111中,静音参数设置单元1111设置静音参数(ST13),且静音处理单元1112根据所设置的参数执行静音处理(ST14)。
在步骤ST12中,如果判断出电平差小于阀值VT2,处理判断单元109就指令切换单元110执行帧合成处理以作为校正处理。
切换单元110向校正处理单元111输出解码后的数据,以基于处理判断单元109所作出的判断结果将校正处理切换成帧合成处理。
在校正处理单元111中,帧合成参数设置单元1113设置帧合成参数(ST15),且帧合成处理单元1114根据所设置的参数执行帧合成处理(ST16)。
如果在步骤ST9中判断出数据包是连续的,如果在步骤ST10中判断出频谱小于最小可听范围,或如果在步骤ST11中判断出包络小于阀值VT1,则可以判断校正处理是不必要的。
根据以上处理,从输出缓冲器112输出没有校正或经过校正处理的解码后的语音数据。
根据上述提供的实施例,音频再现装置100有下述配置。
音频再现装置100包括用于将输入数据包分离成语音数据和数据包信息的数据包分离单元101、用于按预定时间保持语音数据的输入缓冲器单元102、以及对输入的语音数据进行解码的解码处理器103。
音频再现装置100包括用于从数据包信息中判断该数据包与前面的数据包之间是否不连续的不连续判断单元104、以及如果数据包不连续时用于重置解码信息的重置处理单元105。
音频再现装置100包括对解码后的数据进行频率分析的频率分析单元106,以及用于计算包络和电平差的包络计算单元107和电平差计算单元108。
音频再现装置100包括处理判断单元109,该处理判断单元109用于从频率分析的结果中判断是否执行校正处理、判断数据包是否不连续、如果数据包数据不连续时就根据包络和电平差判断执行哪项校正处理。
音频再现装置100包括基于处理判断单元109的判断结果来对校正处理进行切换的切换单元110以及如果校正处理是必要时就执行指定的校正处理的校正处理单元111。
因此,根据本实施例,可以获得下述效果。
可减少由于静音而在语音再现中出现的停顿,使再现的语音听着舒服。
如果不连续点的信号电平大,可通过静音处理避免噪音的生成,且因此维持语音品质的平衡。
可将根据第一实施例的音频再现装置100例如应用于诸如监控摄像***的信息再现***。
下文以第二至第五实施例来描述使用根据第一实施例的音频再现装置100的信息再现***。
2、第二实施例
图14是使用根据第一实施例的音频再现装置的网络型监控摄像***的全部配置的示意图。
图14的网络型监控摄像***300是具有再现功能的网络型摄像***的示例,监控摄像机310可通过网络320与监控服务器330通信。
监控摄像机310具有数据包接收单元311和解码单元312。
在监控摄像机310的一侧接受数据包后,根据第一实施例的音频再现装置100可应用于解码单元312的内部。
此处描述的解码单元为图2所示的全部框图。
3、第三实施例
图15是使用根据第一实施例的音频再现装置的基于广播的***的全部配置的示意图。
图15的基于广播的***400具有电视接收器410和广播站420。
电视接收器410具有广播接收单元411和解码单元412。
在电视接收器410接收广播后,在解码单元412的内部可应用根据第一实施例的音频再现装置100。
即,在接收和再现TV广播的装置或类似设备中,当接收并解码广播时,就将根据第一实施例的音频再现装置100应用于语音的不连续点的校正处理。
4、第四实施例
图16是使用根据第一实施例的音频再现装置的由网络实现的再现***的全部配置的示意图。
在图16的由网络实现的再现***500中,再现装置510可通过网络520与流媒体服务器530通信。
再现装置510具有数据包接收单元511和解码单元512。
在再现装置510的一侧接收音乐数据包后,将根据第一实施例的音频再现装置100应用于解码单元512中的音乐的不连续点的校正处理。
5、第五实施例
图17是使用根据第一实施例的音频再现装置的移动电话***的全部配置的示意图。
图17的移动电话***600是移动电话610和620之间进行无线通信的示例。
在图17的示例中,移动电话620具有数据包接收单元621和解码单元622。
当移动电话的语音数据包被接收以及解码时,将根据第一实施例的音频再现装置100应用于对语音的不连续点的校正处理。
上述方法可以用依照上述步骤的程序来实现,并可通过例如CPU的计算机来执行。
可通过如半导体存储器、磁盘、光盘或floppy(注册商标)盘的记录媒介或设置有此类记录媒介的计算机存取这样的程序,以运行所述程序。
本领域技术人员应该明白,在所附权利要求或其等同方案的范围内,可以根据设计要求和其他因素,进行各种修改、组合、子组合和替换。
Claims (11)
1.一种音频再现装置,其包括:
解码处理器,其用于对输入的语音数据进行解码;
不连续判断单元,其用于从输入的数据包信息中判断数据包与前面的数据包之间是否不连续;
重置处理单元,如果所述不连续判断单元判断出数据包不连续,该重置处理单元用于对解码信息进行重置;
频率分析单元,其用于对由所述解码处理器解码后的数据进行频率分析;
包络计算单元,其用于计算由所述解码处理器解码后的数据的包络;
电平差计算单元,其用于计算由所述解码处理器解码后的数据的电平差;
校正处理单元,其可以执行多个校正处理,并且如果所述校正处理是必要时就对所述解码后的数据进行具体的校正处理;和
处理判断单元,其用于从频率分析的结果中判断是否执行所述校正处理、判断数据包数据是否不连续、如果所述数据包数据不连续就根据所述包络和电平差判断执行哪项校正处理,并根据所述判断结果输出指令以执行校正处理。
2.根据权利要求1所述的音频再现装置,其中,如果所述数据包数据不连续,所述处理判断单元就判断作为频率分析结果的频谱是否等于或大于预定的可听范围,并且,如果所述频谱小于预定的可听范围,就在不执行校正处理的情况下指示所述解码处理器输出解码后的数据。
3.根据权利要求1或2所述的音频再现装置,其中,如果所述数据包数据不连续,所述处理判断单元就判断作为频率分析结果的频谱是否等于或大于预定的可听范围,并且,如果所述频谱等于或大于所述预定的可听范围,就根据不连续点的语音电平指示所述校正处理单元改变校正处理的内容。
4.根据权利要求3所述的音频再现装置,其中,如果所述不连续点前后的包络小于第一阀值,则所述处理判断单元判断不连续点的校正处理是不必要的。
5.根据权利要求4所述的音频再现装置,其中:
所述校正处理单元可根据指令选择静音处理还是帧合成处理作为校正处理;并且
如果所述包络大于所述第一阀值且所述不连续点的语音电平差小于第二阀值,则所述处理判断单元输出执行所述帧合成处理的指令以平滑所述不连续点,如果所述电平差大于所述第二阀值,则输出执行所述静音处理的指令以抑制噪声。
6.根据权利要求5所述的音频再现装置,其中所述校正处理单元可根据所述电平差调整每项处理的参数。
7.根据权利要求1至6中任何一项所述的音频再现装置,其中,所述不连续判断单元基于由高一级装置所设定的不连续标记信息来执行不连续检测。
8.根据权利要求1至6中任何一项所述的音频再现装置,其中,所述不连续判断单元通过频谱的形状变化对语音帧的不连续进行检测。
9.根据权利要求1至8中任何一项所述的音频再现装置,其中,如果通过来自高一级装置的标记信息或所述频率分析单元的分析结果判断出所述数据包数据不连续,则所述处理判断单元将标示不连续的信息反馈给所述不连续判断单元,并且,
所述不连续判断单元向所述重置处理单元输出指令以在下个解码时段执行重置处理。
10.一种信息再现***,其包括:
音频再现装置,其用于从传送来的信息中再现语音数据,
其中,所述音频再现装置包括:
解码处理器,其用于对输入的语音数据进行解码;
不连续判断单元,其用于从输入的数据包信息中判断数据包与前面数据包之间是否不连续;
重置处理单元,如果所述不连续判断单元判断出数据包不连续,该重置处理单元用于对解码信息进行重置;
频率分析单元,其用于对由所述解码处理器解码后的数据进行频率分析;
包络计算单元,其用于计算由所述解码处理器解码后的数据的包络;
电平差计算单元,其用于计算由所述解码处理器解码后的数据的电平差;
校正处理单元,其可以执行多个校正处理,并且如果所述校正处理是必要时就对所述解码后的数据进行具体的校正处理;和
处理判断单元,其用于从频率分析的结果中判断是否执行校正处理、判断数据包数据是否不连续、如果所述数据包数据不连续就根据所述包络和电平差判断执行哪项校正处理,并根据所述判断结果输出指令以执行校正处理。
11.一种音频再现方法,其包括以下步骤:
对输入的语音数据进行解码;
从输入的数据包信息中判断数据包与前面的数据包之间是否不连续;
如果在所述不连续判断步骤中判断出数据包是不连续的,就对解码信息进行重置;
对所述解码后的数据进行频率分析;
计算所述解码后的数据的包络;
计算所述解码后的数据的电平差;
根据所述频率分析的结果判断是否执行校正处理,判断数据包数据是否不连续,如果所述数据包数据不连续时就根据所述包络和电平差判断执行哪项校正处理,根据所述判断结果输出指令以执行所述校正处理;以及
如果所述校正处理是必要的,就对解码后的数据进行具体的校正处理。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-008250 | 2009-01-16 | ||
JP2009008250A JP2010164859A (ja) | 2009-01-16 | 2009-01-16 | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101789252A true CN101789252A (zh) | 2010-07-28 |
CN101789252B CN101789252B (zh) | 2012-05-30 |
Family
ID=42337923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010100011991A Expired - Fee Related CN101789252B (zh) | 2009-01-16 | 2010-01-15 | 音频再现装置、信息再现***、音频再现方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8370724B2 (zh) |
JP (1) | JP2010164859A (zh) |
CN (1) | CN101789252B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111988727A (zh) * | 2015-10-08 | 2020-11-24 | 班安欧股份公司 | 扬声器***中的主动式房间补偿 |
CN112802453A (zh) * | 2020-12-30 | 2021-05-14 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、***、终端及存储介质 |
CN113542765A (zh) * | 2021-07-13 | 2021-10-22 | 海信电子科技(深圳)有限公司 | 一种媒体数据跳变续播方法及显示设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6303340B2 (ja) * | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
EP2996352B1 (en) * | 2014-09-15 | 2019-04-17 | Nxp B.V. | Audio system and method using a loudspeaker output signal for wind noise reduction |
JP6133454B2 (ja) * | 2016-02-01 | 2017-05-24 | 株式会社Nttドコモ | 音声信号処理方法及び音声信号処理装置 |
JP6352487B2 (ja) * | 2017-04-19 | 2018-07-04 | 株式会社Nttドコモ | 音声信号処理方法及び音声信号処理装置 |
DE102020114547B4 (de) * | 2020-05-29 | 2023-12-28 | Infineon Technologies Ag | Vorrichtung und verfahren zum abwickeln eines eingehenden kommunikations-datenrahmens |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01306897A (ja) | 1988-06-06 | 1989-12-11 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出回路 |
KR950010337B1 (ko) * | 1993-05-18 | 1995-09-14 | 엘지전자주식회사 | 디지탈 브이씨알의 배속영상 구현방법 및 그 장치 |
JPH09284706A (ja) | 1996-04-18 | 1997-10-31 | Sony Corp | 信号処理方法及び装置 |
US5835486A (en) * | 1996-07-11 | 1998-11-10 | Dsc/Celcore, Inc. | Multi-channel transcoder rate adapter having low delay and integral echo cancellation |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
JP2002204221A (ja) | 2000-12-28 | 2002-07-19 | Nec Eng Ltd | パケット信号欠落補正回路 |
US8077707B2 (en) * | 2005-11-18 | 2011-12-13 | Sri International | Systems and methods for digital stream denting |
WO2008022207A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Time-warping of decoded audio signal after packet loss |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
JP2010062663A (ja) * | 2008-09-01 | 2010-03-18 | Sony Ericsson Mobilecommunications Japan Inc | 音声信号処理装置、音声信号処理方法、及び、通信端末 |
-
2009
- 2009-01-16 JP JP2009008250A patent/JP2010164859A/ja active Pending
-
2010
- 2010-01-13 US US12/686,586 patent/US8370724B2/en active Active
- 2010-01-15 CN CN2010100011991A patent/CN101789252B/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111988727A (zh) * | 2015-10-08 | 2020-11-24 | 班安欧股份公司 | 扬声器***中的主动式房间补偿 |
CN112802453A (zh) * | 2020-12-30 | 2021-05-14 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、***、终端及存储介质 |
CN112802453B (zh) * | 2020-12-30 | 2024-04-26 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、***、终端及存储介质 |
CN113542765A (zh) * | 2021-07-13 | 2021-10-22 | 海信电子科技(深圳)有限公司 | 一种媒体数据跳变续播方法及显示设备 |
CN113542765B (zh) * | 2021-07-13 | 2023-09-15 | 海信电子科技(深圳)有限公司 | 一种媒体数据跳变续播方法及显示设备 |
Also Published As
Publication number | Publication date |
---|---|
US8370724B2 (en) | 2013-02-05 |
US20100185916A1 (en) | 2010-07-22 |
JP2010164859A (ja) | 2010-07-29 |
CN101789252B (zh) | 2012-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101789252B (zh) | 音频再现装置、信息再现***、音频再现方法 | |
CN101808208B (zh) | 电视机音效模式设置的方法及电视机 | |
KR100934460B1 (ko) | 제 1 미디어 서비스와 제 2 미디어 서비스 사이의 재생을 자동으로 동기화하기 위한 방법 및 장치 | |
CA2566345C (en) | Method for correcting metadata affecting the playback loudness and dynamic range of audio information | |
TW201042637A (en) | Signal clipping protection using pre-existing audio gain metadata | |
WO2008056622A1 (en) | Receiver | |
WO2006090852A1 (ja) | データ再生装置 | |
KR20180040716A (ko) | 음질 향상을 위한 신호 처리방법 및 장치 | |
JP4944250B2 (ja) | Amr−wbdtx同期化を提供するためのシステムおよび方法 | |
JP2008035118A (ja) | 情報処理装置および情報処理方法 | |
EP1506692A2 (en) | Method and apparatus for preserving matrix surround information in encoded audio/video | |
CN103620678B (zh) | 比特流发送装置及方法、比特流收发***、比特流接收装置及方法、以及比特流 | |
US8090585B2 (en) | Audio decoding device | |
GB2427338A (en) | Restoring corrupted audio signals | |
US9077783B2 (en) | Sound data transmitting apparatus, sound data transmitting method, sound data receiving apparatus, and sound data receiving apparatus | |
KR100708123B1 (ko) | 자동으로 오디오 볼륨을 조절하는 방법 및 장치 | |
JP4894896B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP2001309273A (ja) | ディジタル放送受信装置 | |
TWI701922B (zh) | 訊號處理裝置、及訊號處理方法、以及記錄程式之非暫時性電腦可讀取之記錄媒體 | |
KR20070015755A (ko) | 이동 통신 단말기의 오디오 이퀄라이징 장치와 방법 | |
JPH11340853A (ja) | ディジタル放送受信機 | |
JP3400240B2 (ja) | デジタルオーディオ放送受信装置 | |
KR100609173B1 (ko) | Aac복호화 방법 | |
US20060156159A1 (en) | Audio data interpolation apparatus | |
JP2013041197A (ja) | デジタル放送受信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120530 |
|
CF01 | Termination of patent right due to non-payment of annual fee |