CN103258552B

CN103258552B - 调整播放速度的方法

Info

Publication number: CN103258552B
Application number: CN201210038338.7A
Authority: CN
Inventors: 陈亘志; 陈昭宇
Original assignee: Ali Corp
Current assignee: Ali Corp
Priority date: 2012-02-20
Filing date: 2012-02-20
Publication date: 2015-12-16
Anticipated expiration: 2032-02-20
Also published as: CN103258552A

Abstract

本发明提供一种调整播放速度的方法，其利用一听觉感知解码过程中分析音频数据的频率的相关数据，判断是否舍弃或复制部分的音频数据，以于解码过程同时也达成播放速度的改变。如此一来，本发明不需要大量的寄存器寄存音频数据。

Description

调整播放速度的方法

技术领域

本发明关于一种媒体处理方法及其装置，尤指一种调整媒体播放速度的方法及其装置。

背景技术

使用者利用多媒体播放平台聆听如MP3/WMA/AAC(MPEG-1AudioLayer3/WindowsMediaAudio/AdvancedAudioCoding)等音频压缩档时，可能加速播放速度寻找所希望聆听的片段，或者放慢播放速度仔细聆听某片段的细节(expansion)。为了播放品质不因为播放速度改变而大幅失真，时长调整方法(TimeScaleModification，TSM)为业界广泛地采用。传统时域上时长调整方法，如重叠相加法(OverlapAdd，OLA)或同步重叠相加法(SynchronizedOLA)，主要是将输入音频信号分成许多片段信号，重叠在时间上邻近的两个片段信号，并将重叠的区域作淡出淡入的加权处理。然而，这样的时长调整方法需要大量的寄存器寄存片段信号。

此外，现有时长调整方法也有利用短时傅立叶转换(Short-TimeDiscreteFourierTransform，ST-DFT)将输入音频信号从时域转到频域上作分析，但是在分析后再转回到时域时，会遇到相位失真的问题。

美国专利公开号20050010397揭示一利用短时傅立叶转换的时长调整方法，其主要根据人类听觉感知频率响应的变动，选择音频数据的特定频谱带(SpectralBand)，这些频谱带根据关于人类听觉感知模型的Bark量度，使用于相位锁定。每一个频谱带皆标示出一频谱波峰(SpectralPeak)。频谱波峰及靠近或远离频谱波峰的频谱线进行不同的相位处理，也因此于后续音频数据必须转回时域而进行信号窗重建(Reconstruction)时，容易造成相位失真，影响播放品质。

发明内容

因此，本发明主要提供一种不需要大量的寄存器的调整播放速度的方法及其装置。

本发明揭露一种调整播放速度的方法，包括有：一听觉感知解码装置接收一音频数据；该听觉感知解码装置进行该音频数据的一第一音频框的频率分析；取得关于该频率分析的一第一频域分析数据；接收一速度调整信号；于该速度调整信号指示加快该音频数据的播放速度时，根据该第一频域分析数据，判断是否舍弃该第一音频框；于该速度调整信号指示放慢该音频数据的播放速度时，根据该第一频域分析数据，判断是否复制该第一音频框；于该第一音频框被判断为可以舍弃时，该听觉感知解码装置舍弃该第一音频框的至少一部分数据；以及于该第一音频框被判断为可以复制时，该听觉感知解码装置复制该第一音频框的至少一部分数据。

本发明另揭露一种调整播放速度的方法，包括有：一听觉感知解码装置接收一音频数据，该音频数据包括多个音频框；该听觉感知解码装置进行该多个音频框的频率分析；接收一速度调整信号；于该速度调整信号指示加快该音频数据的播放速度至(N/(N-M))倍时，对该多个音频框中的N个连续音频框的每一音频框执行用来判断所处理的音频框是否可以舍弃的一调整判断程序，其中N、M为正整数；于通过该调整判断程序，判断该N个连续音频框中有M个音频框可以舍弃时，该听觉感知解码装置舍弃该M个音频框的至少一部分数据；于该速度调整信号指示放慢该音频数据的播放速度至(N/(N+M))倍时，对该多个音频框中的N个连续音频框的每一音频框执行用来判断所处理的音频框是否可以复制的一调整判断程序；以及于通过该调整判断程序，判断该N个连续音频框中有M个音频框可以复制时，该听觉感知解码装置复制该M个音频框的至少一部分数据。其中，该调整判断程序包括：取得对应于所处理的一第一音频框、关于该频率分析的一第一频域分析数据；于该速度调整信号指示加快该音频数据的播放速度时，根据该第一频域分析数据，判断是否舍弃该第一音频框的至少一部分数据；以及于该速度调整信号指示放慢该音频数据的播放速度时，根据该第一频域分析数据，判断是否复制该第一音频框的至少一部分数据。

本发明另揭露一种加速播放速度的方法，包括有一听觉感知解码装置接收一音频数据；该听觉感知解码装置进行该音频数据的一第一音频框的频率分析；取得关于该频率分析的一第一频域分析数据；接收一加速调整信号；根据该第一频域分析数据，判断是否舍弃该第一音频框；以及于该第一音频框被判断为可以舍弃时，该听觉感知解码装置根据该加速调整信号所指示的一播放速度，舍弃该第一音频框的至少一部分数据。

本发明另揭露一种放慢播放速度的方法，包括有一听觉感知解码装置接收一音频数据；该听觉感知解码装置进行该音频数据的一第一音频框的频率分析；取得关于该频率分析的一第一频域分析数据；接收一放慢速度调整信号；根据该第一频域分析数据，判断是否复制该第一音频框；以及于该第一音频框被判断为可以复制时，该听觉感知解码装置根据该放慢速度调整信号所使指示的一播放速度，复制该第一音频框的至少一部分数据。

本发明所的提供调整播放速度的方法及其装置，不需要大量的寄存器。

附图说明

图1为本发明实施例一流程的流程图。

图2为本发明实施例一流程的流程图。

图3为本发明实施例一流程的流程图。

图4A及图4B为本发明实施例一流程的流程图。

图5为本发明实施例一流程的流程图。

图6为本发明实施例一强制复制/舍弃的流程的流程图。

图7为本发明实施例一速度调整装置的方块示意图。

附图标号：

10、20、30、40、60流程

50速度调整装置

500音频读取装置

510处理器单元

520储存单元

530输入单元

540输出单元

522程序代码

100、102、104、106、108、110、112、114、116、118、200、202、204、206、208、210、212、300、302、304、306、308、310、312、314、316、318、320、322、324、400、402、404、406、408、410、412、414、416、418、S910、S920、S930、S940、S950、602、604、606、608、610、612、614、616、618、620、622、624、626步骤

具体实施方式

图1是本发明一实施例用于使声音播放变速不变调的速度调整流程图。请参照图1，本实施例适用于电视机、机顶盒、数字视频光盘播放器、MP3播放器等多媒体播放装置，用以根据播放装置可用的缓冲容量，决定播放时所读取的音效数据的音频框数目，并根据这些音频框的差值总和的分布，决定所播放的音频数据的内容，而提供较好的播放效果。

首先，取得切分为多个音频框的音频数据(步骤S910)。其中，所述的音频数据包括电视节目或多媒体档的音频数据，而此音频数据中的每一个音频框均包括多个频率分量。

在取得音频框的音频数据之后，接着即可进行音频框的频域分析处理(步骤S920)。其中，在对音频框做频域分析时会进行一频率分量的计算，频率分量的计算方式可以是利用快速傅利叶转换(FastFourierTransform，FFT)，而获得各个频点的频域复数值，藉以将一个音频框区分为多个FFT频点，然后再分别计算这些FFT频点的能量值以作为其各个频率分量的能量。另一种方式则是利用滤波器组(FilterBank)将一个音频框区分为多个子带(Sub-band)，并计算各个子带的能量值以作为其各个频率分量的能量。

当播放装置在接收到使用者输入的变更播放速度指令之后，即会判断使用者是要快速播放或是慢速播放(步骤S930)，根据播放速度的倍数A以及上述多个音频框以动态调整所播放音频数据的音频框的比例，播放出音频数据，其中A为正数。

其中，当使用者欲执行快速播放，此时播放装置会依据一调整判断流程(将于下文详述其原理)将符合舍弃条件的音频框删除，以达成快速播放(步骤S950)(例如音频框1、2、3，其中2被删除，则播放1、3)；反之，当使用者欲执行慢速播放，此时播放装置即会依据调整判断流程将符合复制条件的音频框复制，以达成慢速播放(步骤S940)(例如音频框1、2、3，其中2被重复，则播放1、2、2、3)。在实际应用中，播放速度的倍数A可以是个小数，例如1.75倍或者0.75倍。

举例来说，当播放装置执行2倍速的快速播放时，即可将B个音频框中，依据判断流程将符合舍弃条件的B/2音频框扔掉，藉以播放出音频数据中变化较大的音频框内容，而能够让使用者在快速播放的过程中，仍可听到音频数据中的重要讯息。另一方面，当播放装置执行0.66倍速的慢速播放时，则可将所述B个音频框中，依据判断流程将符合复制条件的B/2音频框各重复一次，藉以重复播放出音频数据中变化较小的音频框内容，而能够让使用者在慢速播放的过程中，听到延长而不变调的音频内容。通过上述方法，播放装置即可利用原有的可用的缓冲容量来进行音频框数据复制与舍弃，而不会影响到音频数据的正常播放，换句话说，播放装置可节省缓冲寄存器的使用且可维持声音绝大部分的细节特性，提供使用者快速浏览以及重点播放的聆听效果。

值得一提的是，上述区分频率分量及计算其能量的方式仅为本发明的一实施例，熟知本领域技术人员当可视实际需要，改变FFT长度或者滤波器组子带个数，或者使用小波变换、离散余弦变换(DiscreteCosineTransform，DCT)或其他技术来区分频率分量与计算其能量，本实施例不限制其范围。

对于已压缩过的音频数据来说，如：MPEG、AC3、DTS、WMA、AAC等，其在压缩时就已经先切分成一个个音频框，并且是在其每一个音频框中各个频率分量均计算出来之后才进行压缩。因此，在播放以上规格的压缩音频数据时，播放装置只需要将所接收的压缩音频数据解压缩，即可获得已切分成多个音频框的音频数据以及各个音频框中所有频率分量，可以直接计算这些频率分量的能量。

请参考图2、图3、图4A及图4B，图2为本发明一实施例的速度调整流程图，图3、图4A及图4B为本发明另一实施例的调整判断流程图。速度调整流程10可实现于一听觉感知解码(PerceptualAudiodecoding)装置上，以配合调整判断流程20，在听觉感知解码程序下调整音频播放速度。速度调整流程10包括以下步骤：

步骤100：开始。

步骤102：接收一音频数据的一音频框。

步骤104：进行该音频框的熵解码(EntropyDecoding)。

步骤106：进行该音频框的反量化(InverseQuantization)。

步骤108：根据一听觉感知模块，进行该音频框的频率分析，且执行调整判断流程20。

步骤110：根据调整判断流程20所输出的一判断结果，判断是否舍弃该音频框？若是，则执行步骤118；若否，则执行步骤112。

步骤112：根据该音频框的窗型，进行该音频框的逆改良型离散余弦转换(InverseModifiedDiscreteCosineTransform，IMDCT)。

步骤114：根据调整判断流程20的该判断结果，判断是否复制该音频框？若是，则执行步骤116；若否，则执行步骤118。

步骤116：复制该音频框且预设下回的判断结果为“不复制”，并执行步骤112。

步骤118：于有下一个音频框存在时，接收此音频框的下一个音频框，并进行步骤104。

由上可知，速度调整流程10逐一对音频数据的每一音频框进行听觉感知解码，音频数据可为MP3/WMA/AAC等压缩格式的音频数据。首先，每一音频框进行熵解码，例如霍夫曼(Huffman)解码。接着，音频框进行反量化，其可包括解码当初编码端用来量化时所用的比例因子(ScaleFactor)。反量化完成之后，调整判断流程20根据频域分析的数据(以下简称频域分析数据)及一速度调整信号指示，判断音频框是否需要被复制、舍弃或无须复制及舍弃的处理，并产生相关判断结果。于速度调整信号指示加快音频数据的播放速度时，调整判断流程20根据频域分析数据，判断是否舍弃该音频框；于速度调整信号指示放慢音频数据的播放速度时，调整判断流程20则根据频域分析数据，判断是否复制该音频框。速度调整信号指示可根据使用者利用音频播放***改变播放速度而产生。调整判断流程20的详细操作原理将于后文说明。

听觉感知解码装置根据判断结果，先判断音频框是否需要舍弃，若需舍弃，则如步骤118所述，转而解码下一个音频框，如此一来，在音频数据的播放过程中，此音频框数据不会被播放，以达到播放速度加快的目的。相反地，若音频框不需舍弃，则听觉感知解码装置根据音频框的窗型，进行该音频框的逆改良型离散余弦转换及合成，其为一种反向时频转换，可以长窗或短窗为单位，将音频框的频域数据(可包括于频域分析数据)转成时域数据。于一次逆改良型离散余弦转换完成之后，听觉感知解码装置会判断该音频框是否需要复制，若需复制，则预设下回判断结果为“否”，即遇下回判断时不需要复制，此外复制的音频框进行逆改良型离散余弦转换，如此一来，在音频数据的播放过程中，此音频框数据会被播放两次，以达到播放速度减缓的目的。由于判断结果被设定成此音频框遇下回判断时不需要复制，速度调整流程10转至解码下一个音频框。因此，根据调整判断流程20的判断结果，速度调整流程10可对音频数据的每一音频框进行舍弃/复制动作，以加快/放慢播放速度。

未被舍弃的短窗数据仍然会经由步骤112的逆改良型离散余弦转换及分窗，并于听觉感知解码完成后播放。

请注意，在本发明中的音频框为数据舍弃与复制的最小单元，依据每一种音频格式会含有不同的长短窗相对比例；例如：在A格式中，一个长窗长度视为一音频框，而一个长窗的长度可能为4个短窗或数个短窗的长度组合，即4个短窗或数个短窗将视为一音频框；另一例，在B格式中，一音频框需视其长短窗的匹配性而定。在听觉感知编码中，由长窗所组成的音频框数据表示一段较平稳的信号范围，而由短窗组成的音频框数据表示一段变化较剧烈的信号范围。因此，在调整播放速度上，仅复制或舍弃属于长窗的数据较不会影响拨放品质。

因此，前述的频域分析数据可包括一窗型指标，其用来指示音频框用于逆改良型离散余弦转换的窗型为长窗或短窗。在此情况下，图3调整判断流程20包括以下步骤：

步骤200：接收一速度调整信号指示。

步骤202：取得包括该音频框的一窗型指标的频域分析数据。

步骤204：判断该窗型指标是否指示该音频框属于长窗型？若是，则进行步骤208；若否，则进行步骤206。

步骤206：产生一“不舍弃/不复制”的判断结果。

步骤208：判断该速度调整信号是否指示加快该音频数据的播放速度？若是，则进行步骤210；若否，则进行步骤212。

步骤210：产生一“舍弃”的判断结果。

步骤212：产生一“复制”的判断结果。

图3调整判断流程20主要利用音频框的窗型作为音频框是否需要舍弃/复制的准则。由上可知，于速度调整信号指示加快音频数据的播放速度，且窗型指标指示音频框属于长窗时，调整判断流程20判断可以舍弃。于速度调整信号指示放慢音频数据的播放速度，且窗型指标指示长窗时，调整判断流程20判断可以复制。换句话说，于窗型指标指示音频框属于其他窗型(如短窗、长转短窗等等)时，则调整判断流程20指示速度调整流程10此音频框不需要舍弃也不需要复制。

除了窗型指标以外，前述的频域分析数据另可包括音频框的一频谱线(SpectralLine)数据。图4A及图4B调整判断流程20同时利用音频框的窗型及频谱线数据作为音频框是否需要舍弃/复制的准则，其包括以下步骤：

步骤300：接收一速度调整信号指示。

步骤302：取得该音频框的频域分析数据，其包括一窗型指标与一频谱线数据。

步骤304：判断该窗型指标是否指示该音频框属于长窗型？若是，则进行步骤308；若否，则进行步骤306。

步骤306：产生一“不舍弃/不复制”的判断结果。

步骤308：将该频谱线数据划分出多个频带单位，且计算该多个频带单位的一能量总合Pcurr。

步骤310：取得该音频框的前一音频框对应于该多个频带单位的一能量总合Pprev。

步骤312：计算一能量总合差Pdiff＝Pprev-Pcurr。

步骤314：判断|Pdiff|＜THa？若是，则进行步骤316；若否，则进行步骤306。

步骤316：判断Pdiff＞THb？若是，则进行步骤318；若否，则进行步骤306。

步骤318：判断Pprev＜THc且Pcurr＜THc？若是，则进行步骤320；若否，则进行步骤306。

步骤320：判断该速度调整信号是否指示加快该音频数据的播放速度？若是，则进行步骤322；若否，则进行步骤324。

步骤322：产生一“舍弃”的判断结果。

步骤324：产生一“复制”的判断结果。

由上可知，对长窗之外的其他音频框窗型，图4A及图4B调整判断流程20亦指示速度调整流程10此音频框不需要舍弃也不需要复制。在图4A及图4B调整判断流程20中，频谱线数据的频带单位划分可以根据***需求而有所不同，例如频谱线数据可直接划分出连续且占满所有音频框的频率范围的频带单位，如此一来，能量总合Pcurr及Pprev计算出来分别为音频框及前一音频框的总能量。或是，频谱线数据可根据信号平坦性，划分出归类为类单频信号(Tone-like)或类噪声(noise-like)的频带单位。频带单位的划分及其能量运算可参考频率分量的方式，详细操作于此不赘述。另外，图4A及图4B调整判断流程20定义了门槛值THa、THb及THc，其分别是***根据类单频信号、听觉感知中的后遮蔽(Post-masking)效应及静音(Silence)信号的特性所给予的门槛值，其特性应为本领域的技术人员所熟知，于此不赘述。因此，图4A及图4B调整判断流程20在以下条件皆符合时才会指示音频框需要舍弃或复制，其条件为：(i)能量总合差Pdiff的绝对值小于相关于类单频信号能量总合差的门槛值THa；(ii)能量总合差Pdiff大于相关于后遮蔽效应的门槛值THb；(iii)能量总合Pprev小于相关于静音频号的门槛值THc且能量总合Pcurr也小于门槛值THc。不符合以上任一条件的情况下，图4A及图4B调整判断流程20指示速度调整流程10此音频框不需要舍弃也不需要复制。在符合以上(i)、(ii)及(iii)所有条件的情况下，调整判断流程20根据速度调整信号的加快/放慢指示，指示速度调整流程10此音频框需要舍弃/复制。

在图4A及图4B调整判断流程20中，本领域的技术人员可将长短窗及条件(i)～(iii)中四者任一或四者的组合作为判断是否需要舍弃/复制的准则，并不限于需完全符合此四个条件。举例来说，音频框可在被判断长窗时，即被舍弃或复制。前述听觉感知解码流程，如熵解码、反量化、音频框的频率分析及逆改良型离散余弦转换，应为本领域的技术人员所熟知，本发明主要是利用听觉感知解码中既有的频率分析资讯，作为复制或舍弃音频框的基准，因此不会遭遇听觉感知解码后续信号重建(Reconstruction)时会出现相位失真的问题。此外，本发明可以即时判断须复制或舍弃的音频框，因此在调整播放速度过程，不需要大量的寄存器储存前后的音频框数据，进而节省生产成本。

请参考图5，图5为本发明实施例一速度调整流程40的流程图。速度调整流程40可实现于听觉感知解码装置上，利用速度调整流程10舍弃、复制或正常处理每一音频框，进而调整音频数据的播放速度到使用者预期的播放速度，其包括以下步骤：

步骤400：接收一音频数据，其音频数据为连续的音频框输入。

步骤402：接收并判断一速度调整信号。于该速度调整信号指示加快该音频数据的播放速度至(N/(N-M))倍时，执行步骤404；于该速度调整信号指示放慢该音频数据的播放速度至(N/(N+M))倍时，执行步骤410。

步骤404：通过速度调整流程10，判断该多个音频框中的N个连续音频框的每一音频框是否可以舍弃。

步骤406：判断该N个连续音频框中是否有M个音频框可以舍弃？若有，则进行步骤408；若无，则进行步骤420。

步骤408：该听觉感知解码装置舍弃该M个音频框的至少一部分数据。

步骤410：取得该音频数据的下一组N个连续音频框，并进行步骤404。

步骤412：通过速度调整流程10，判断该多个音频框中的N个连续音频框的每一音频框是否可以复制。

步骤414：判断该N个连续音频框中是否有M个音频框可以复制？若有，则进行步骤416；若无，则进行步骤424。

步骤416：该听觉感知解码装置复制该M个音频框的至少一部分数据。

步骤418：取得该音频数据的下一组N个连续音频框，并进行步骤412。

步骤420：判断是否已处理K组的N个连续音频框，且此K组的N个连续音频框中是否总共不到K×M个音频框可以舍弃？若有，则进行步骤422；若无，则进行步骤410。

步骤422：舍弃之后的音频框的全部或一部分数据。

步骤424：判断是否已处理K组的N个连续音频框，且此K组的N个连续音频框中是否总共不到K×M个音频框可以复制？若有，则进行步骤426；若无，则进行步骤418。

步骤426：复制之后的音频框的全部或一部分数据。

根据速度调整流程40，于速度调整信号指示加快播放速度至(N/(N-M))倍时，每一组N个连续音频框的每一音频框会由速度调整流程10判断是否可以舍弃。当N个连续音频框中有M个音频框被判断可以舍弃时，听觉感知解码装置可舍弃M个音频框的至少一部分数据，例如舍弃M个音频框全部或其长窗类型数据。同样地，于速度调整信号指示放慢播放速度至(N/(N+M))倍时，每一音频框执行会由速度调整流程10判断是否可以复制。当N个连续音频框中有M个音频框被判断可以复制时，听觉感知解码装置可复制M个音频框的至少一部分数据。速度调整流程40在N个音频框下，复制或者舍弃M个音频框数据(或长窗数据)，以得到使用者所期望的播放速度为N/(N±M)倍。

此外，速度调整流程40中可能有连续多组N个音频框中都没有M个音频框可舍弃或复制。在此情况下，如步骤420～422及424～426所示，本实施例可设定一最大限组值K，当连续K组N个音频框中没有K×M个音频框可舍弃或复制时，该听觉感知解码装置开始强制舍弃或复制之后的音频框的全部或一部分数据，以使播放速度能达到使用者预期的速度。举例来说，当连续K组N个音频框中仅有(K×M-L)个音频框符合可舍弃或复制的条件时，该听觉感知解码装置舍弃或复制之后所接收的L个音频框的全部或一部分数据，以维持播放速度于(N/(N-M))倍或(N/(N+M))倍。

在本发明实施例中，判断连续K组N个音频框中有没有K×M个音频框可舍弃或复制的过程不一定只限定每一组N个音频框要有M个音频框，只要总共有K×M个音频框即可。举例来说，K设定为2的情况下，若第一组N个音频框有(M-1)个音频框可舍弃或复制，则第二组N个音频框需要有(M+1)个音频框，以使播放速度能达到使用者预期的速度。

请参考图6，图6为本发明实施例一流程60的方块示意图。流程60用于实现上述强制舍弃或复制音频框的概念，其包括以下步骤：

步骤602：接收并判断一速度调整信号。于该速度调整信号指示加快该音频数据的播放速度至(N/(N-M))倍时，执行步骤604；于该速度调整信号指示放慢该音频数据的播放速度至(N/(N+M))倍时，执行步骤616。

步骤604：设定一参数i＝1。

步骤606：判断新接收的N个音频框中可以舍弃的音频框数目。

步骤608：判断一总计可以舍弃的音频框数目Ndiscard是否有i×M个？若无，则进行步骤610；若有，则进行步骤614。

步骤610：i＝i+1。

步骤612：判断i是否大于一门槛值K？若无，则进行步骤606；若有，则进行步骤614。

步骤614：执行一重设流程，其包括设定i＝1、舍弃Ndiscard个音频框且于后续新接收的音频框中强制舍弃(K×M-Ndiscard)个音频框，或仅舍弃Ndiscard个音频框，但不于后续新接收的音频框中强制舍弃(K×M-Ndiscard)个音频框。

步骤616：设定i＝1。

步骤618：判断新接收的N个音频框中可以复制的音频框数目。

步骤620：判断一总计可以复制的音频框数目Ncopy是否有i×M个？若无，则进行步骤622；若有，则进行步骤626。

步骤622：i＝i+1。

步骤624：判断i是否大于门槛值K？若无，则进行步骤618；若有，则进行步骤626。

步骤626：执行一重设流程，其包括设定i＝1、复制Ncopy个音频框且于后续新接收的音频框中强制复制(K×M-Ncopy)个音频框，或仅复制Ncopy个音频框，但不于后续新接收的音频框中强制复制(K×M-Ncopy)个音频框。

根据流程60，本发明实施例可以为了不过度降低音频播放的品质，而不于后续新接收的音频框中强制复制或舍弃不足K×M个的音频框，即(K×M-Ndiscard)或(K×M-Ncopy)个音频框。其他流程60的详细操作原理已于前文揭露，故不再赘述。

请参考图7，图7为本发明实施例一速度调整装置50的方块示意图。速度调整装置50包括一音频读取装置500、一处理器单元510、一储存单元520、一输入单元530及一输出单元540。音频读取装置500可为一CD/DVD播放器或网路卡装置，用来取得一音频数据AU_DATA并通过储存单元520传送给处理器单元510作处理。输入单元530可为键盘、滑鼠、声音输入或其他使用者得以与速度调整装置50达成互动的装置，用以根据使用者输入信号，产生一速度调整信号PLR_ADJ给处理器单元510。储存单元520可为非挥发性记忆体，用来储存程序代码522，其通过处理器单元510处理，可实现前述任一流程(如调整判断流程20、速度调整流程40等)或其流程组合。输出单元540可为一喇叭，会播放经由处理器单元510处理的音频数据。举例来说，当使用者通过输入单元530加快播放速度时，处理器单元510可根据对应的速度调整信号PLR_ADJ，利用速度调整流程40舍弃所播放的音频数据的音频框，并将有音频框被舍弃的音频数据传送至播放单元540播放，让使用者感知到音频加速。由于速度调整装置50主要用来实现前述任一流程(如调整判断流程20、速度调整流程40等)或其流程组合，因此主要操作原理请参考前述。

综上所述，本发明实施例利用一听觉感知解码过程中分析音频数据的频率的相关数据(如窗型/频谱线数据)，判断是否舍弃或复制部分的音频数据，以于解码过程同时也达成播放速度的改变。如此一来，本发明不需要大量的寄存器寄存音频数据。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种调整播放速度的方法，其特征在于，所述调整播放速度的方法包括有：

一听觉感知解码装置接收一音频数据；

所述听觉感知解码装置进行所述音频数据的一第一音频框的频率分析；

取得关于所述频率分析的一第一频域分析数据；

接收一速度调整信号，判断须加快播放速度或放慢播放速度以进行调整播放速度；

其特征在于包括：

当所述速度调整信号指示加快所述音频数据的播放速度时，根据所述第一频域分析数据，判断是否舍弃所述第一音频框；

于所述第一音频框被判断为可以舍弃时，所述听觉感知解码装置舍弃所述第一音频框；以及

当所述速度调整信号指示放慢所述音频数据的播放速度时，根据所述第一频域分析数据，判断是否复制所述第一音频框；

于所述第一音频框被判断为可以复制时，所述听觉感知解码装置复制所述第一音频框；

所述第一频域分析数据包括用来指示所述第一音频框用于所述听觉感知解码装置中所使用的一频域至时域转换的窗型的一窗型指标；

于所述速度调整信号指示加快所述音频数据的播放速度时根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：于所述速度调整信号指示加快所述音频数据的播放速度，且所述窗型指标指示所述第一音频框属于长窗型时，判断可以舍弃所述第一音频框；以及于所述速度调整信号指示放慢所述音频数据的播放速度时根据所述第一频域分析数据判断是否复制所述第一音频框包括：于所述速度调整信号指示放慢所述音频数据的播放速度，且所述窗型指标指示所述第一音频框属于长窗型时，判断可以复制所述第一音频框。

2.如权利要求1所述的方法，其特征在于，所述第一频域分析数据另包括所述第一音频框的频谱线数据。

3.如权利要求2所述的方法，其特征在于，于所述速度调整信号指示加快所述音频数据的播放速度时根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：

于所述窗型指标指示所述第一音频框属于长窗型时，将所述频谱线数据划分出多个频带单位；

计算所述多个频带单位的一第一能量总合；

取得所述音频数据的一第二音频框对应于所述多个频带单位的一第二能量总合，所述第二音频框为所述第一音频框的前一个由所述听觉感知解码装置处理的音频框；

计算一能量总合差，所述能量总合差＝所述第二能量总合－所述第一能量总合；

于所述能量总合差的绝对值小于相关于类单频信号能量总合差的一第一门槛值、所述能量总合差大于相关于听觉感知后遮蔽的一第二门槛值、所述第二能量总合小于相关于静音频号的一第三门槛值且所述第一能量总合小于所述第三门槛值的以上三个条件的至少其一条件符合时，判断可以舍弃所述第一音频框或所述第一音频框中属于长窗型的数据；以及

于所述速度调整信号指示放慢所述音频数据的播放速度时根据所述第一频域分析数据判断是否复制所述第一音频框包括：

于所述窗型指标指示所述第一音频框属于长窗型时，将所述频谱线数据划分出所述多个频带单位；

计算所述第一能量总合；

取得所述第二能量总合；

计算所述能量总合差；

于所述能量总合差的绝对值小于相关于类单频信号能量总合差的一第一门槛值、所述能量总合差大于相关于听觉感知后遮蔽的一第二门槛值、所述第二能量总合小于相关于静音频号的一第三门槛值且所述第一能量总合小于所述第三门槛值的以上三个条件的至少其一条件符合时，判断可以复制所述第一音频框或所述第一音频框中属于长窗型的数据。

4.如权利要求3所述的方法，其特征在于，于所述窗型指标指示所述第一音频框属于长窗型时将所述频谱线数据划分出所述多个频带单位包括，于所述窗型指标指示所述第一音频框属于长窗型时，根据频谱线数据的平坦性，将所述频谱线数据划分出归类为类单频信号或为类噪声的所述多个频带单位。

5.一种调整播放速度的方法，其特征在于，所述调整播放速度的方法包括有：

一听觉感知解码装置接收一音频数据，所述音频数据包括多个音频框；

所述听觉感知解码装置进行所述多个音频框的频率分析；

接收一速度调整信号；

所述方法的特征在于包括：

于所述速度调整信号指示加快所述音频数据的播放速度至(N/(N-M))倍时，对所述多个音频框中的N个连续音频框的每一音频框执行用来判断所处理的音频框是否可以舍弃的一调整判断程序，其中N、M为正整数；

于通过所述调整判断程序，判断所述N个连续音频框中有M个音频框可以舍弃时，所述听觉感知解码装置舍弃所述M个音频框的至少一部分数据；

于所述速度调整信号指示放慢所述音频数据的播放速度至(N/(N+M))倍时，对所述多个音频框中的N个连续音频框的每一音频框执行用来判断所处理的音频框是否可以复制的一调整判断程序；以及

于通过所述调整判断程序，判断所述N个连续音频框中有M个音频框可以复制时，所述听觉感知解码装置复制所述M个音频框的至少一部分数据；

所述调整判断程序包括：

取得对应于所处理的一第一音频框、关于所述频率分析的一第一频域分析数据；

于所述速度调整信号指示加快所述音频数据的播放速度时，根据所述第一频域分析数据，判断是否舍弃所述第一音频框的至少一部分数据；以及

于所述速度调整信号指示放慢所述音频数据的播放速度时，根据所述第一频域分析数据，判断是否复制所述第一音频框的至少一部分数据；

所述第一频域分析数据包括用来指示所述第一音频框用于所述听觉感知解码装置中的一频域至时域转换的窗型的一窗型指标；

于所述速度调整信号指示加快所述音频数据的播放速度时根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：于所述速度调整信号指示加快所述音频数据的播放速度，且所述窗型指标指示所述第一音频框属于长窗型时，判断可以舍弃所述第一音频框或所述第一音频框中属于长窗型的数据；以及于所述速度调整信号指示放慢所述音频数据的播放速度时根据所述第一频域分析数据判断是否复制所述第一音频框包括：于所述速度调整信号指示放慢所述音频数据的播放速度，且所述窗型指标指示所述第一音频框属于长窗型时，判断可以复制所述第一音频框或所述第一音频框中属于长窗型的数据。

6.如权利要求5所述的方法，其特征在于，所述第一频域分析数据另包括所述第一音频框的频谱线数据。

7.如权利要求6所述的方法，其特征在于，于所述速度调整信号指示加快所述音频数据的播放速度时根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：

计算所述多个频带单位的一第一能量总合；

计算一能量总合差，所述能量总合差＝所述第一能量总合－所述第二能量总合；

于所述能量总合差的绝对值小于相关于类单频信号能量总合差的一第一门槛值、所述能量总合差大于相关于听觉感知后遮蔽的一第二门槛值、所述第二能量总合小于相关于静音频号的一第三门槛值且所述第一能量总合小于所述第三门槛值的三个条件的至少其一条件符合时，判断可以舍弃所述第一音频框或所述第一音频框中属于长窗型的数据；以及

计算所述第一能量总合；

取得所述第二能量总合；

计算所述能量总合差；

8.如权利要求7所述的方法，其特征在于，于所述窗型指标指示所述第一音频框属于长窗型时将所述频谱线数据划分出所述多个频带单位包括，于所述窗型指标指示所述第一音频框属于长窗型时，根据频谱线数据的平坦性，将所述频谱线数据划分出所述多个频带单位，每一频带单位归类为一类单频信号类别或一类噪声类别。

9.如权利要求5所述的方法，其特征在于，所述调整播放速度的方法另包括：

于通过所述调整判断程序，判断K组的N个连续音频框中没有K×M个音频框可以舍弃时，所述听觉感知解码装置舍弃于所述K组的N个连续音频框之后的至少一音频框的至少一部分数据，其中K为正整数；以及

于通过所述调整判断程序，判断K组的N个连续音频框中没有K×M个音频框可以复制时，所述听觉感知解码装置复制于所述K组的N个连续音频框之后的至少一音频框的至少一部分数据。

10.一种加速播放速度的方法，其特征在于，所述加速播放速度的方法包括有：

一听觉感知解码装置接收一音频数据；

取得关于所述频率分析的一第一频域分析数据；

接收一加速调整信号；

所述方法的特征在于包括：

根据所述第一频域分析数据，判断是否舍弃所述第一音频框；以及

于所述第一音频框被判断为可以舍弃时，所述听觉感知解码装置根据所述加速调整信号所指示的一播放速度，舍弃所述第一音频框的至少一部分数据；

所述第一频域分析数据包括用来指示所述第一音频框用于所述听觉感知解码装置中所使用的一频频域至时域转换的窗型的一窗型指标；

根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：于所述窗型指标指示所述第一音频框属于长窗型时，判断可以舍弃所述第一音频框。

11.如权利要求10所述的方法，其特征在于，所述第一频域分析数据另包括所述第一音频框的频谱线数据。

12.如权利要求11所述的方法，其特征在于，根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：

计算所述多个频带单位的一第一能量总合；

计算一能量总合差，所述能量总合差＝所述第二能量总合－所述第一能量总合；以及

于所述能量总合差的绝对值小于相关于类单频信号能量总合差的一第一门槛值、所述能量总合差大于相关于听觉感知后遮蔽的一第二门槛值、及所述第二能量总合小于相关于静音频号的一第三门槛值且所述第一能量总合小于所述第三门槛值的以上三个条件的至少其一条件符合时，判断可以舍弃所述第一音频框或所述第一音频框中属于长窗型的数据。

13.如权利要求12所述的方法，其特征在于，于所述窗型指标指示所述第一音频框属于长窗型时将所述频谱线数据划分出所述多个频带单位包括，于所述窗型指标指示所述第一音频框属于长窗型时，根据频谱线数据的平坦性，将所述频谱线数据划分出归类为类单频信号或为类噪声的所述多个频带单位。

14.一种放慢播放速度的方法，其特征在于，所述放慢播放速度的方法包括有：

一听觉感知解码装置接收一音频数据；

取得关于所述频率分析的一第一频域分析数据；

接收一放慢速度调整信号；

所述方法的特征在于包括：

根据所述第一频域分析数据，判断是否复制所述第一音频框；以及

于所述第一音频框被判断为可以复制时，所述听觉感知解码装置根据所述放慢速度调整信号所使指示的一播放速度，复制所述第一音频框的至少一部分数据；

根据所述第一频域分析数据判断是否复制所述第一音频框包括：于所述窗型指标指示所述第一音频框属于长窗型时，判断可以复制所述第一音频框。

15.如权利要求14所述的方法，其特征在于，所述第一频域分析数据另包括所述第一音频框的频谱线数据。

16.如权利要求15所述的方法，其特征在于，根据所述第一频域分析数据判断是否舍弃所述第一音频框包括：

计算所述多个频带单位的一第一能量总合；

17.如权利要求16所述的方法，其特征在于，于所述窗型指标指示所述第一音频框属于长窗型时将所述频谱线数据划分出所述多个频带单位包括，于所述窗型指标指示所述第一音频框属于长窗型时，根据频谱线数据的平坦性，将所述频谱线数据划分出归类为类单频信号或为类噪声的所述多个频带单位。