JP6888051B2 - 音声符号化方法および関連装置 - Google Patents

音声符号化方法および関連装置 Download PDF

Info

Publication number
JP6888051B2
JP6888051B2 JP2019106061A JP2019106061A JP6888051B2 JP 6888051 B2 JP6888051 B2 JP 6888051B2 JP 2019106061 A JP2019106061 A JP 2019106061A JP 2019106061 A JP2019106061 A JP 2019106061A JP 6888051 B2 JP6888051 B2 JP 6888051B2
Authority
JP
Japan
Prior art keywords
subband
audio frame
khz
current audio
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019106061A
Other languages
English (en)
Other versions
JP2019164379A (ja
Inventor
▲澤▼新 ▲劉▼
▲澤▼新 ▲劉▼
磊 苗
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2019164379A publication Critical patent/JP2019164379A/ja
Application granted granted Critical
Publication of JP6888051B2 publication Critical patent/JP6888051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrolytic Production Of Non-Metals, Compounds, Apparatuses Therefor (AREA)
  • Stereophonic System (AREA)

Description

本願は、発明の名称を「音声符号化方法および関連装置」とした、2014年7月28日に中国特許庁に出願された中国特許出願第201410363905.5号に対する優先権を主張し、引用により全体として本明細書に組み込む。
本発明は音声符号化技術に関し、特に、音声符号化方法および関連装置に関する。
既存の音声(例えば、音楽)符号化アルゴリズムでは、同一のビット・レートにおいて、幾つかの音声符号化アルゴリズムは特定の符号化帯域幅に制限され、主に、比較的低い帯域幅を有する音声フレームを符号化するために使用され、幾つかの音声符号化アルゴリズムは符号化帯域幅に制限されず、主に、比較的高い帯域幅を有する音声フレームを符号化するために使用される。確かに、音声符号化アルゴリズムのこの2つのカテゴリの両方は利点と欠点を有する。
しかし先行技術では、音声フレーム符号化において、音声フレームを符号化するために、固定された符号化アルゴリズムが直接使用されている。このように、使用される音声符号化アルゴリズムは良好な符号化品質または符号化効率を保証することは殆どできない。
本発明の諸実施形態では、音声フレーム符号化の符号化品質または符号化効率を改善するための音声符号化方法および関連装置を提供する。
本発明の諸実施形態の第1の態様では、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得するステップと、現在の音声フレームの基準符号化パラメータを取得するステップと、現在の音声フレームの取得された基準符号化パラメータが第1のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を変換符号化励起アルゴリズムに基づいて符号化するか、または、現在の音声フレームの取得された基準符号化パラメータが第2のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を高品質変換符号化アルゴリズムに基づいて符号化するステップとを含む、音声符号化方法を提供する。
第1の態様を参照して、第1の態様の第1の可能な実装方式では、基準符号化パラメータは、以下のパラメータ、即ち、現在の音声フレームの符号化率、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差およびサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープおよびサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープ、またはサブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値のうち少なくとも1つを含み、
サブバンドzの最大周波数ビンは臨界周波数ビンF1より大きく、サブバンドwの最大周波数ビンは臨界周波数ビンF1より大きく、サブバンドjの最大周波数ビンは臨界周波数ビンF2より大きく、サブバンドnの最大周波数ビンは臨界周波数ビンF2より大きく、
臨界周波数ビンF1の値範囲は6.4kHz乃至12kHzであり、
臨界周波数ビンF2の値範囲は4.8kHz乃至8kHzであり、
サブバンドiの最大周波数ビンはサブバンドjの最大周波数ビンより小さく、サブバンドmの最大周波数ビンはサブバンドnの最大周波数ビンより小さく、サブバンドxの最大周波数ビンはサブバンドyの最小周波数ビン以下であり、サブバンドpの最大周波数ビンはサブバンドqの最小周波数ビン以下であり、サブバンドrの最大周波数ビンはサブバンドsの最小周波数ビン以下であり、サブバンドeの最大周波数ビンはサブバンドfの最小周波数ビン以下である。
第1の態様の第1の可能な実装方式を参照して、第1の態様の第2の可能な実装方式では、以下の条件、即ち、サブバンドwの最小周波数ビンが臨界周波数ビンF1以上であること、サブバンドzの最小周波数ビンが臨界周波数ビンF1以上であること、サブバンドiの最大周波数ビンがサブバンドjの最小周波数ビン以下であること、サブバンドmの最大周波数ビンがサブバンドnの最小周波数ビン以下であること、サブバンドjの最小周波数ビンが臨界周波数ビンF2より大きいこと、またはサブバンドnの最小周波数ビンが臨界周波数ビンF2より大きいこと、のうち少なくとも1つが満たされる。
第1の態様の第1の可能な実装方式または第1の態様の第2の可能な実装方式を参照して、第1の態様の第3の可能な実装方式では、第1のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1より小さいこと、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2以下であること、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3以下であること、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4以上であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5以上であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6以上であること、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7以上であること、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1の中に入ること、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8以下であること、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2の中に入ること、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9以下であること、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入ること、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの差の絶対値が閾値T10以下であること、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以上であること
のうち少なくとも1つを含む。
第1の態様の第1の可能な実装方式、第1の態様の第2の可能な実装方式、または第1の態様の第3の可能な実装方式を参照して、第1の態様の第4の可能な実装方式では、第1のパラメータ条件は、以下の条件、即ち、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より大きいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より小さいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より大きいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より小さいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より大きいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T64より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より小さいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T66より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69以下であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71以下であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73以下であること、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75以下であること、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77以下であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79以下であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81以下であること、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83以下であること
のうち1つを含む。
第1の態様の第1の可能な実装方式、第1の態様の第2の可能な実装方式、第1の態様の第3の可能な実装方式、または第1の態様の第4の可能な実装方式を参照して、第1の態様の第5の可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1以上であること、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2より大きいこと、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4より小さいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5より小さいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6より小さいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らないこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らないこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3に入らないこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きいこと、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11より小さいこと
のうち少なくとも1つを含む。
第1の態様の第1の可能な実装方式、第1の態様の第2の可能な実装方式、第1の態様の第3の可能な実装方式、第1の態様の第4の可能な実装方式、または第1の態様の第5の可能な実装方式を参照して、第1の態様の第6の可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より小さいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より大きいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より小さいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より大きいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より小さいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T64より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より大きいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T66より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より小さいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73より大きいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81より大きいこと、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83より大きいこと
のうち1つを含む。
第1の態様の第3の可能な実装方式、第1の態様の第4の可能な実装方式、第1の態様の第5の可能な実装方式、または第1の態様の第6の可能な実装方式を参照して、第1の態様の第7の可能な実装方式では、以下の条件、即ち、
閾値T2が2以上であること、
閾値T4が1/1.2以下であること、
間隔R1が[1/2.25、2.25]であること、
閾値T44が1/2.56以下であること、
閾値T45が1.5以上であること、
閾値T46が1/2.56以上であること、
閾値T47が1.5以下であること、
閾値T68が1.25以下であること、または
閾値T69が2以上であること
のうち少なくとも1つが満たされる。
本発明の諸実施形態の第2の態様では、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得するように構成された時間周波数変換ユニットと、現在の音声フレームの基準符号化パラメータを取得するように構成された取得ユニットと、当該取得ユニットにより取得された現在の音声フレームの基準符号化パラメータが第1のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を変換符号化励起アルゴリズムに基づいて符号化するか、または、当該取得ユニットにより取得された現在の音声フレームの基準符号化パラメータが第2のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を高品質変換符号化アルゴリズムに基づいて符号化するように構成された符号化ユニットと、を備える音声符号化器を提供する。
第2の態様を参照して、第2の態様の第1の可能な実装方式では、基準符号化パラメータは、以下のパラメータ、即ち、現在の音声フレームの符号化率、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差およびサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープおよびサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープ、またはサブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値のうち少なくとも1つを含み、
サブバンドzの最大周波数ビンは臨界周波数ビンF1より大きく、サブバンドwの最大周波数ビンは臨界周波数ビンF1より大きく、サブバンドjの最大周波数ビンは臨界周波数ビンF2より大きく、サブバンドnの最大周波数ビンは臨界周波数ビンF2より大きく、臨界周波数ビンF1の値範囲は6.4kHz乃至12kHzであり、臨界周波数ビンF2の値範囲は4.8kHz乃至8kHzであり、
サブバンドiの最大周波数ビンはサブバンドjの最大周波数ビンより小さく、サブバンドmの最大周波数ビンはサブバンドnの最大周波数ビンより小さく、サブバンドxの最大周波数ビンはサブバンドyの最小周波数ビン以下であり、サブバンドpの最大周波数ビンはサブバンドqの最小周波数ビン以下であり、サブバンドrの最大周波数ビンはサブバンドsの最小周波数ビン以下であり、サブバンドeの最大周波数ビンはサブバンドfの最小周波数ビン以下である。
第2の態様の第1の可能な実装方式を参照して、第2の態様の第2の可能な実装方式では、以下の条件、即ち、サブバンドwの最小周波数ビンが臨界周波数ビンF1以上であること、サブバンドzの最小周波数ビンが臨界周波数ビンF1以上であること、サブバンドiの最大周波数ビンがサブバンドjの最小周波数ビン以下であること、サブバンドmの最大周波数ビンがサブバンドnの最小周波数ビン以下であること、サブバンドjの最小周波数ビンが臨界周波数ビンF2より大きいこと、またはサブバンドnの最小周波数ビンが臨界周波数ビンF2より大きいことのうち少なくとも1つが満たされる。
第2の態様の第1の可能な実装方式または第2の態様の第2の可能な実装方式を参照して、第2の態様の第3の可能な実装方式では、第1のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1より小さいこと、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2以下であること、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3以下であること、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4以上であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5以上であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6以上であること、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7以上であること、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1の中に入ること、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8以下であること、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2の中に入ること、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9以下であること、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入ること、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの差の絶対値が閾値T10以下であること、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以上であること
のうち少なくとも1つを含む。
第2の態様の第1の可能な実装方式、第2の態様の第2の可能な実装方式、または第2の態様の第3の可能な実装方式を参照して、第2の態様の第4の可能な実装方式では、第1のパラメータ条件は、以下の条件、即ち、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より大きいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より小さいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より大きいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より小さいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より大きいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T64より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より小さいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T66より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69以下であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71以下であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73以下であること、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75以下であること、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77以下であること、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79以下であること、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81以下であること、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83以下であること
のうち1つを含む。
第2の態様の第1の可能な実装方式、第2の態様の第2の可能な実装方式、第2の態様の第3の可能な実装方式、または第2の態様の第4の可能な実装方式を参照して、第2の態様の第5の可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1以上であること、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2より大きいこと、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4より小さいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5より小さいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6より小さいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らないこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らないこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3に入らないこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きいこと、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11より小さいこと
のうち少なくとも1つを含む。
第2の態様の第1の可能な実装方式、第2の態様の第2の可能な実装方式、第2の態様の第3の可能な実装方式、第2の態様の第4の可能な実装方式、または第2の態様の第5の可能な実装方式を参照して、第2の態様の第6の可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より小さいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より大きいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より小さいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より大きいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より小さいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T64より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より大きいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T66より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より小さいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73より大きいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81より大きいこと、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83より大きいこと
のうち1つを含む。
第2の態様の第3の可能な実装方式、第2の態様の第4の可能な実装方式、第2の態様の第5の可能な実装方式、または第2の態様の第6の可能な実装方式を参照して、第2の態様の第7の可能な実装方式では、
以下の条件、即ち、
閾値T2が2以上であること、
閾値T4が1/1.2以下であること、
間隔R1が[1/2.25、2.25]であること、
閾値T44が1/2.56以下であること、
閾値T45が1.5以上であること、
閾値T46が1/2.56以上であること、
閾値T47が1.5以下であること、
閾値T68が1.25以下であること、または
閾値T69が2以上であること
のうち少なくとも1つが満たされる。
分かるように、本発明の幾つかの実施形態における技術的解決策では、現在の音声フレームの基準符号化パラメータが取得された後、TCXアルゴリズムまたはHQアルゴリズムが、現在の音声フレームのスペクトル係数を符号化するために、現在の音声フレームの取得された基準符号化パラメータに基づいて選択される。現在の音声フレームの基準符号化パラメータは現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これにより、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善が支援され、さらに、現在の音声フレームの符号化品質または符号化効率の改善が支援される。
本発明の諸実施形態における技術的解決策をより明確に説明するために、以下では当該実施形態を説明するのに必要な添付図面を簡単に導入する。明らかに、以下の説明における添付図面は本発明の幾つかの実施形態を示すにすぎず、当業者は依然として創造的努力なしにこれらの添付図面から他の図面を導出することができる。
本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う幾つかの音声符号化方法の略流れ図である。 本発明の諸実施形態に従う二種類の音声符号化器の略図である。 本発明の諸実施形態に従う二種類の音声符号化器の略図である。
本発明の諸実施形態では、音声フレーム符号化の符号化品質または符号化効率を改善するための音声符号化方法および関連装置を提供する。
本発明の技術的解決策を当業者により良く理解させるために、以下では本発明の諸実施形態における添付図面を参照して本発明の諸実施形態における技術的解決策を明確に説明する。明らかに、説明する実施形態は本発明の諸実施形態の全部ではなく一部にすぎない。当業者が創造的努力なしに本発明の諸実施形態に基づいて得る他の全ての実施形態は本発明の保護範囲に入るものとする。
以下で詳細な説明を与える。
本発明の明細書、特許請求の範囲、および添付図面では、「第1の」、「第2の」、「第3の」、「第4の」等の用語は異なるオブジェクトを区別するためのものであり、特定の順序を説明しようとするものではない。さらに、「含む」、「有する」という用語、およびその任意の変形は非包括的な包含をカバーしようとするものである。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、列挙したステップまたはユニットに限定されず、列挙しないステップまたはユニットを任意選択でさらに含み、または、当該プロセス、当該方法、当該製品、または当該装置の別の固有なステップまたはユニットを任意選択でさらに含む。
以下では先ず、本発明の当該実施形態で提供する音声符号化方法を説明する。本発明の当該実施形態で提供する音声符号化方法を音声符号化器により実行してもよい。当該音声符号化器が、音声信号を収集、格納、または送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
本発明における当該音声符号化方法の1実施形態では、当該音声符号化方法が、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得するステップと、現在の音声フレームの基準符号化パラメータを取得するステップと、現在の音声フレームの取得された基準符号化パラメータが第1のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を変換符号化励起アルゴリズムに基づいて符号化するか、または、現在の音声フレームの取得された基準符号化パラメータが第2のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を高品質変換符号化アルゴリズムに基づいて符号化するステップとを含む。
図1を参照すると、図1は本発明の1実施形態に従う音声符号化方法の略流れ図である。図1に示すように、本発明の当該実施形態で提供する音声符号化方法が以下の内容を含んでもよい。
101:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
102:現在の音声フレームの基準符号化パラメータを取得する。
103:現在の音声フレームの取得された基準符号化パラメータが第1のパラメータ条件を満たす場合、変換符号化励起(英語:transform coded excitation、略してTCX)符号化アルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
104:現在の音声フレームの取得された基準符号化パラメータが第2のパラメータ条件を満たす場合、高品質変換符号化(英語:high quality transform coding、略してHQ)アルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームの基準符号化パラメータが取得された後、TCXアルゴリズムまたはHQアルゴリズムが、現在の音声フレームのスペクトル係数を符号化するために、現在の音声フレームの取得された基準符号化パラメータに基づいて選択される。現在の音声フレームの基準符号化パラメータは現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これにより、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善が支援され、さらに、現在の音声フレームの符号化品質または符号化効率の改善が支援される。
TCXアルゴリズムでは、剥離処理が通常、現在の音声フレームの時間領域信号に実施される。例えば、剥離処理を現在の音声フレームの時間領域信号に実施するために直交ミラー・フィルタが使用される。HQアルゴリズムでは、剥離処理は現在の音声フレームの時間領域信号に実施されない。
適用シナリオの要件に従って、ステップ102で取得した現在の音声フレームの基準符号化パラメータを変更してもよい。
例えば、基準符号化パラメータが、以下のパラメータ、即ち、現在の音声フレームの符号化率、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差およびサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープおよびサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープ、またはサブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値の少なくとも1つを含んでもよい。
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のより大きなパラメータ値は、サブバンドp内に配置されたスペクトル係数とサブバンドq内に配置されたスペクトル係数との間のより強いスペクトル相関を示す。当該スペクトル相関のパラメータ値が、例えば、正規化された相互相関パラメータ値であってもよい。
当該サブバンドの周波数ビン範囲を実際のニーズにしたがって決定してもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドzの最大周波数ビンが臨界周波数ビンF1より大きくてもよく、サブバンドwの最大周波数ビンが臨界周波数ビンF1より大きくてもよい。臨界周波数ビンF1の値範囲が、例えば、6.4kHz乃至12kHzであってもよい。例えば、臨界周波数ビンF1の値が6.4kHz、8kHz、9kHz、10kHz、または12kHzであってもよい。確かに、臨界周波数ビンF1が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドjの最大周波数ビンが臨界周波数ビンF2より大きくてもよく、サブバンドnの最大周波数ビンは臨界周波数ビンF2より大きい。例えば、臨界周波数ビンF2の値範囲が4.8kHz乃至8kHzであってもよい。特に、例えば、臨界周波数ビンF2の値が6.4kHz、4.8kHz、6kHz、8kHz、5kHz、または7kHzであってもよい。確かに、臨界周波数ビンF2が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドiの最大周波数ビンがサブバンドjの最大周波数ビンより小さくてもよく、サブバンドmの最大周波数ビンがサブバンドnの最大周波数ビンより小さくてもよく、サブバンドxの最大周波数ビンがサブバンドyの最小周波数ビン以下であってもよく、サブバンドpの最大周波数ビンがサブバンドqの最小周波数ビン以下であってもよく、サブバンドrの最大周波数ビンがサブバンドsの最小周波数ビン以下であってもよく、サブバンドeの最大周波数ビンがサブバンドfの最小周波数ビン以下であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドwの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドzの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドiの最大周波数ビンはサブバンドjの最小周波数ビン以下であること、サブバンドmの最大周波数ビンはサブバンドnの最小周波数ビン以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドnの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドiの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドmの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、またはサブバンドnの最小周波数ビンは臨界周波数ビンF2以上であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドeの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドxの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドpの最大周波数ビンは臨界周波数ビンF2以下であること、またはサブバンドrの最大周波数ビンは臨界周波数ビンF2以下であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドfの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドfの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドqの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドqの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドsの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドsの最小周波数ビンが臨界周波数ビンF2以上であってもよい。
例えば、サブバンドzの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよいサブバンドzの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。サブバンドzの帯域幅の値範囲が1.6kHz乃至8kHzであってもよい。特に、例えば、サブバンドzの周波数ビン範囲が8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、または12kHz乃至14kHzであってもよい。確かに、サブバンドzの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドwの周波数ビン範囲を実際のニーズにしたがって決定してもよい。例えば、サブバンドwの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよく、サブバンドwの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。特に、例えば、サブバンドwの周波数ビン範囲は8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、12kHz乃至14kHz、または12.2kHz乃至14.5kHzである。確かに、サブバンドwの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドwの周波数ビン範囲がサブバンドzの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドiの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドiの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドjの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドjの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドmの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドmの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドmの周波数ビン範囲がサブバンドiの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドnの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドnの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドnの周波数ビン範囲がサブバンドjの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2kHz乃至3.2kHz、または2.5kHz乃至3.4kHzであってもよい。確かに、サブバンドxの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.4kHz乃至6.4kHz、または4.5kHz乃至6.2kHzであってもよい。確かに、サブバンドyの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドpの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.1kHz乃至3.2kHz、または2.5kHz乃至3.5kHzであってもよい。確かに、サブバンドpの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドpの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドqの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.2kHz乃至6.4kHz、または4.7kHz乃至6.2kHzであってもよい。確かに、サブバンドqの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドqの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドrの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.05kHz乃至3.27kHz、または2.59kHz乃至3.51kHzであってもよい。確かに、サブバンドrの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドrの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドsの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.4kHz乃至7.1kHz、または4.55kHz乃至6.29kHzであってもよい。確かに、サブバンドsの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドsの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドeの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、0.8kHz乃至3kHz、または1.9kHz乃至3.8kHzであってもよい。確かに、サブバンドeの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドeの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドfの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.3kHz乃至7.15kHz、または4.58kHz乃至6.52kHzであってもよい。確かに、サブバンドfの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドfの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
第1のパラメータ条件を変更してもよい。
例えば、本発明の幾つかの可能な実装方式では、第1のパラメータ条件が例えば、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1より小さいこと(閾値T1が、例えば、24.4kbps、32kbps、64kbps、または別の速度以上であってもよい)、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2以下であること(閾値T2が、例えば、1、2、3、5、または別の値以上であってもよい)、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3以下であること(閾値T3が、例えば、10、20、35、または別の値以上であってもよい)、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4以上であること(閾値T4が、例えば、0.5、1、2、3、または別の値以上であってもよい)、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5以上であること(閾値T5が、例えば、10、20、51、100、または別の値以上であってもよい)、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6以上であること(閾値T6が、例えば、0.5、1.1、2、3、または別の値以上であってもよい)、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7以上であること(閾値T7が、例えば、11、20、50、101、または別の値以上であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1の中に入ること(間隔R1が例えば、[0.5、2]、[0.4、2.5]、または別の値であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8以下であること(閾値T8が、例えば、1、2、3、または別の値以上であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2の中に入ること(間隔R2が、例えば、[0.5、2]、[0.4、2.5]、または別の値であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9以下であること(閾値T9が、例えば、10、20、35、または別の値以上であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入ること(間隔R3が、例えば、[0.5、2]、[0.4、2.5]、または別の値であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの差の絶対値が閾値T10以下であること(閾値T10が、例えば、11、20、50、101、または別の値以上であってもよい)、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以上であること(閾値T11が、例えば、0.5、0.8、0.9、1、または別の値であってもよい)
のうち少なくとも1つを含んでもよい。
別の例として、本発明の幾つかの可能な実装方式では、第1のパラメータ条件が、例えば、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T12以上であること(閾値T12が、例えば、閾値T4以上であってもよく、閾値T12が、例えば、2、3、5、8、または別の値以上であってもよい)、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T13以上であること(閾値T13が、例えば、閾値T6以上であってもよく、閾値T13が、例えば、2、3、9、7、または別の値以上であってもよい)、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T14以下であること(閾値T14が、例えば、閾値T2以下であってもよく、閾値T14が、例えば、0.5、2、3、1.5、4、または別の値以下であってもよい)、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T15以下であること(閾値T15が、例えば、閾値T3以下であってもよく、閾値T15が、例えば、5、8、10、20、または別の値以下であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T16以上であること(閾値T16が、例えば、閾値T4以上であってもよく、閾値T16が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T17以上であること(閾値T17が例えば、閾値T6以上であってもよく、閾値T17が例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T18以下であること(閾値T18が、例えば、閾値T2以下であってもよく、閾値T18が、例えば、以下0.5、2、3、1.5、4、5、または別の値であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T19以下であること(閾値T19が、例えば、閾値T3以下であってもよく、閾値T19が、例えば、5、8、10、20、または別の値以下であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T20以上であること(閾値T20が、例えば、閾値T4以上であってもよく、閾値T20が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との間の差の絶対値が閾値T8より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T21以上であること(閾値T21が、例えば、閾値T6以上であってもよく、閾値T21が、例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との間の差の絶対値が閾値T8より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T22以下であること(閾値T22が、例えば、閾値T2以下であってもよく、閾値T22が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T23以下であること(閾値T23が、例えば、閾値T3以下であってもよく、閾値T23が、例えば、5、8、10、20、または別の値以下であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T24以上であること(閾値T24が、例えば、閾値T4以上であってもよく、閾値T24が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T25以上であること(閾値T25が、例えば、閾値T6以上であってもよく、閾値T25が、例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T26以下であること(閾値T26が、例えば、閾値T2以下であってもよく、閾値T26が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T27以下であること(閾値T27が、例えば、閾値T3以下であってもよく、閾値T27が、例えば、5、8、10、20、または別の値以下であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T28以上であること(閾値T28が、例えば、閾値T4以上であってもよく、閾値T28が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T29以上であること(閾値T29が、例えば、閾値T6以上であってもよく、閾値T29が、例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T30以下であること(閾値T30が、例えば、閾値T2以下であってもよく、閾値T30が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との間の差の絶対値が閾値T9より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T31以下であること(閾値T31が、例えば、閾値T3以下であってもよく、閾値T31が、例えば、5、8、10、20、または別の値以下であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T32以上であること(閾値T32が、例えば、閾値T4以上であってもよく、閾値T32が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T33以上であること(閾値T33が、例えば、閾値T6以上であってもよく、閾値T33が、例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T34以下であること(閾値T34が、例えば、閾値T2以下であってもよく、閾値T34が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T35以下であること(閾値T35が、例えば、閾値T3以下であってもよく、閾値T35が、例えば、5、8、9.5、10、15、20、または別の値以下であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T36以上であること(閾値T36が、例えば、閾値T4以上であってもよく、閾値T36が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T37以上であること(閾値T37が、例えば、閾値T6以上であってもよく、閾値T37が、例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T38以下であること(閾値T38が、例えば、閾値T2以下であってもよく、閾値T38が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T39以下であること(閾値T39が、例えば、閾値T3以下であってもよく、閾値T39が、例えば、5、8、9.5、10、15、20、または別の値以下であってもよい)、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T40以上であること(閾値T40が、例えば、閾値T4以上であってもよく、閾値T40が、例えば、2、3、5、8、または別の値以上であってもよい)、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T41以上であること(閾値T41が例えば、閾値T6以上であってもよく、閾値T41が例えば、2、3、9、7、または別の値以上であってもよい)、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T42以下であること(閾値T42が、例えば、閾値T2以下であってもよく、閾値T42が、例えば、0.5、2、3、1.5、4、5、または別の値以下であってもよい)、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T43以下であること(閾値T43が、例えば、閾値T3以下であってもよく、閾値T43が、例えば、5、8、9.5、10、15、20、または別の値以下であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく(閾値T44の値範囲が、例えば、1.5乃至3であってもよい)、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より小さいこと(閾値T45の値範囲が、例えば、1乃至3であってもよい)、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく(閾値T46の値範囲が、例えば、1.5乃至3であってもよい)、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より大きいこと(閾値T47の値範囲が、例えば、1乃至3であってもよい)、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく(閾値T48の値範囲が、例えば、−1乃至3であってもよい)、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より小さいこと(閾値T49の値範囲が、例えば、1乃至3であってもよい)、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく(閾値T50の値範囲が、例えば、−1乃至3であってもよい)、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より大きいこと(閾値T51の値範囲が、例えば、1乃至3であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく(閾値T52の値範囲が、例えば、1乃至3であってもよい)、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より小さいこと(閾値T53が、例えば、10、20、30、または別の値であってもよい)、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく(閾値T54の値範囲が、例えば、1乃至3であってもよい)、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より大きいこと(閾値T55が、例えば、10、20、30、または別の値であってもよい)、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく(閾値T56の値範囲が、例えば、−40乃至40であってもよい)、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より小さいこと(閾値T57が、例えば、10、20、30、または別の値であってもよい)、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく(閾値T58の値範囲が、例えば、−40乃至40であってもよい)、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より大きいこと(閾値T59が、例えば、10、20、30、または別の値であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく(閾値T60の値範囲が、例えば、1乃至3であってもよい)、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より小さいこと(閾値T61が、例えば、10、20、30、または別の値であってもよい)、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく(閾値T62の値範囲が、例えば、1乃至3であってもよい)、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より大きいこと(閾値T63が、例えば、10、20、30、または別の値であってもよい)、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープからサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープを引いた差が閾値T64より小さく(閾値T64の値範囲が、例えば、−40乃至40であってもよい)、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より小さいこと(閾値T65が、例えば、10、20、30、または別の値であってもよい)、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープからサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープを引いた差が閾値T66より大きく(閾値T66の値範囲が、例えば、−40乃至40であってもよい)、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より大きいこと(閾値T67が、例えば、10、20、30、または別の値であってもよい)、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり(閾値T68が、例えば、0.5、1、2、3、または別の値以下であってもよい)、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69以下であること(閾値T69が、例えば、1、2、3、5、または別の値以下であってもよい)、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり(閾値T70が、例えば、10、20、51、100、または別の値以下であってもよい)、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71以下であること(閾値T71が、例えば、1、2、3、5、または別の値以下であってもよい)、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり(閾値T72が、例えば、0.5、1.1、2、3、または別の値以上であってもよい)、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73以下であること(閾値T73が、例えば、1、2、3、5、または別の値以下であってもよい)、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり(閾値T74が、例えば、11、20、50、101、または別の値以上であってもよい)、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75以下であること(閾値T75が、例えば、1、2、3、5、または別の値以下であってもよい)、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり(閾値T76が、例えば、0.5、1、2、3、または別の値以下であってもよい)、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77以下であること(閾値T77が、例えば、10、20、35、または別の値以上であってもよい)、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり(閾値T78が、例えば、10、20、51、100、または別の値以下であってもよい)、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79以下であること(閾値T79が、例えば、10、20、35、または別の値以上であってもよい)、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり(閾値T80が、例えば、0.5、1.1、2、3、または別の値以上であってもよい)、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81以下であること(閾値T81が、例えば、10、20、35、または別の値以上であってもよい)、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり(閾値T82が、例えば、11、20、50、101、または別の値以上であってもよい)、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83以下であること(閾値T83が、例えば、10、20、35、または別の値以上であってもよい)
のうち1つを含んでもよい。
第1のパラメータ条件は以上の例に限定されず、複数の他の可能な実装方式を上述の例に基づいて拡張してもよいことは理解されうる。
例えば、本発明の幾つかの可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1以上であること、
サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T2より大きいこと、
サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T3より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4より小さいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T5より小さいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6より小さいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T7より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らないこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らないこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3に入らないこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きいこと、または
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11より小さいこと
のうち少なくとも1つを含む。
別の例として、本発明の幾つかの可能な実装方式では、第2のパラメータ条件は、以下の条件、即ち、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T12より小さいこと、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T13より小さいこと、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T14より大きいこと、
現在の音声フレームの符号化率が閾値T1以上であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T15より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T16より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T17より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T18より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1に入らず、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T19より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T20より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T21より小さいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T22より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との差の絶対値が閾値T8より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T23より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T24より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T25より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T26より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との比が間隔R2に入らず、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T27より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T28より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T29より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T30より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差とサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差との差の絶対値が閾値T9より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T31より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T32より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T33より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T34より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの比が間隔R3の中に入り、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T35より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T36より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T37より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T38より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープとサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープとの間の差の絶対値が閾値T10より大きく、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T39より大きいこと、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T40より小さいこと、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T41より小さいこと、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T42より大きいこと、
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値が閾値T11以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T43より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T44より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T45より大きいこと、
サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より小さいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T48より小さく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T49より大きいこと、
サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比から引いた差が閾値T50より大きく、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T51より小さいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T52より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T53より大きいこと、
サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差で除した商が閾値T54より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T55より小さいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T56より小さく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T57より大きいこと、
サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差をサブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差から引いた差が閾値T58より大きく、サブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T59より小さいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T60より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T61より大きいこと、
サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープで除した商が閾値T62より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T63より小さいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T64より小さく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T65より大きいこと、
サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープをサブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープから引いた差が閾値T66より大きく、サブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープが閾値T67より小さいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T70以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T71より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T72以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T73より大きいこと、
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T74以下であり、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T75より大きいこと、
サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T76以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T77より大きいこと、
サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均から引いた差が閾値T78以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T79より大きいこと、
サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T80以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T81より大きいこと、または
サブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均から引いた差が閾値T82以下であり、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差が閾値T83より大きいこと
のうち1つを含む。
第2のパラメータ条件は以上の例に限定されず、複数の他の可能な実装方式を上述の例に基づいて拡張してもよいことは理解されうる。
第1のパラメータ条件および第2のパラメータ条件の例は全ての可能な実装方式ではないことは理解されうる。実際の適用では、上述の例を拡張して、第1のパラメータ条件および第2のパラメータ条件の可能な実装方式を強化してもよい。
本発明の諸実施形態をより良く理解するために、以下では幾つかの特定の適用シナリオを参照して例示的な説明を与える。
図2を参照すると、図2は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図2に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均に基づいて決定される。
図2に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
201:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
高速フーリエ変換(英語:fast fourier transform、略してFFT)アルゴリズム、修正離散余弦変換(英語:modified discrete cosine transform、略してMDCT)アルゴリズム、または別の時間周波数変換アルゴリズムを用いることによって、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
202:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均を取得する。
203:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T4以上であるかどうかを判定する。
そうである場合、ステップ204が実施され、そうでない場合、ステップ205が実施される。
閾値T4が0.5以上であってもよく、閾値T4は、例えば、0.5、1、1.5、2、3、または別の値である。
例えば、サブバンドiの周波数ビン範囲が3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、または0.4kHz乃至6.4kHzであってもよい。
例えば、サブバンドjの周波数ビン範囲が6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、または4.8kHz乃至9.6kHzであってもよい。
204:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
205:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均が取得された後、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムが、サブバンドi内に配置された現在の音声フレームのスペクトル係数の取得されたエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数の取得されたエネルギ平均に基づいて選択される。サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均とサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均との間の関係は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図3を参照すると、図3は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図3に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて決定される。
図3に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
301:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
302:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均を取得する。
303:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T68以上であるかどうかを判定する。
そうでない場合、ステップ304が実施され、そうである場合、ステップ306が実施される。
閾値T68が閾値T4以上である。例えば、閾値T68が0.6以上であってもよく、閾値T68は、例えば、0.8、0.6、1、1.5、2、3、5、または別の値であること
例えば、サブバンドiの周波数ビン範囲が3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、または0.4kHz乃至6.4kHzであってもよい。
例えば、サブバンドjの周波数ビン範囲が6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、または4.8kHz乃至9.6kHzであってもよい。
304:サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比を取得する。
305:サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T69より大きいかどうかを判定する。
そうである場合、ステップ307が実施され、そうでない場合、ステップ306が実施される。
閾値T69が1以上であってもよく、閾値T69は、例えば、1、1.1、1.5、2、3.5、6、4.6、または別の値である。
例えば、サブバンドzの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよく、サブバンドzの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。特に、例えば、サブバンドzの周波数ビン範囲が8kHz乃至12kHz、9kHz乃至11kHz、または8kHz乃至9.6kHzであってもよい。
306:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
307:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムが主に、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて選択される。サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均とサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均との間の関係、およびサブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図4を参照すると、図4は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図4に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて決定される。
図4に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
401:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
402:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比を取得する。
403:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1の中に入るかどうかを判定する。
そうである場合、ステップ404が実施され、そうでない場合、ステップ405が実施される。
間隔R1が、例えば、[0.5、2]、[0.8、1.25]、[0.4、2.5]、または別の範囲であってもよい。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、または1.6kHz乃至3.2kHzであってもよく、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、または4.8kHz乃至6.4kHzであってもよい。
404:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
405:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて選択される。サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図5を参照すると、図5は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図5に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて決定される。
図5に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
501:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
502:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比を取得する。
503:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比をサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比で除した商が閾値T46以上であるかどうかを判定する。
そうである場合、ステップ504が実施され、そうでない場合、ステップ505が実施される。
閾値T46が0.5以上であってもよく、閾値T46は、例えば、0.5、1、1.5、2、3、または別の値である。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、または1.6kHz乃至3.2kHzであってもよく、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、または4.8kHz乃至6.4kHzであってもよい。
504:サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47以上であるかどうかを判定する。
そうである場合、ステップ506が実施され、そうでない場合、ステップ507が実施される。
505:サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比が閾値T47より小さいかどうかを判定する。
そうである場合、ステップ506が実施され、そうでない場合、ステップ507が実施される。
506:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
507:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比に基づいて選択される。サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図6を参照すると、図6は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図6に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均に基づいて決定される。
図6に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
601:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
602:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比を取得する。
603:サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比とサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比との比が間隔R1の中に入るかどうかを判定する。
そうでない場合、ステップ604が実施され、そうである場合、ステップ606が実施される。
間隔R1が、例えば、[0.5、2]、[0.8、1.25]、[0.4、2.5]、または別の範囲であってもよい。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、または1.6kHz乃至3.2kHzであってもよく、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、または4.8kHz乃至6.4kHzであってもよい。
604:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均を取得する。
605:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T16以上であるかどうかを判定する。
そうである場合、ステップ606が実施され、そうでない場合、ステップ607が実施される。
サブバンドiの周波数ビン範囲が、例えば、0kHz乃至1.6kHzまたは1kHz乃至2.6kHzであってもよく、サブバンドjの周波数ビン範囲が、例えば、6.4kHz乃至8kHz、4.8kHz乃至6.4kHz、または7.4kHz乃至9kHzであってもよい。
閾値T16が閾値T4より大きい。例えば、閾値T16が2以上であってもよく、閾値T16は、例えば、2、2.5、3、3.5、5、5.1、または別の値である。
606:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
607:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムは主に、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均に基づいて選択される。サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図7を参照すると、図7は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図7に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、現在の音声フレームの符号化率、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均を用いて決定される。
図7に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
701:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
702:現在の音声フレームの符号化率が閾値T1以上であるかどうかを判定する。
そうである場合、ステップ703が実施され、そうでない場合、ステップ705が実施される。
閾値T1は、例えば、24.4kbps以上である。例えば、閾値T1は24.4kbps、32kbps、64kbps、または別の速度に等しい。
703:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均を取得する。
704:サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均をサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均で除した商が閾値T12以上であるかどうかを判定する。
そうである場合、ステップ705が実施され、そうでない場合、ステップ706が実施される。
サブバンドiの周波数ビン範囲が、例えば、0kHz乃至1.6kHzまたは1kHz乃至2.6kHzであってもよく、サブバンドjの周波数ビン範囲が、例えば、6.4kHz乃至8kHz、4.8kHz乃至6.4kHz、または7.4kHz乃至9kHzであってもよい。
閾値T12が閾値T4より大きくてもよい。例えば、閾値T12が2以上であってもよく、閾値T12は、例えば、2、2.5、3、3.5、5、5.2、または別の値である。
705:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
706:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムが主に、現在の音声フレームの符号化率、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均に基づいて選択される。現在の音声フレームの符号化率、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図8を参照すると、図8は、本発明の別の実施形態に従う別の音声符号化方法の略流れ図である。図8に示した例では、現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムは主に、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均に基づいて決定される。
図8に示すように、本発明の別の実施形態で提供する別の音声符号化方法が以下の内容を含んでもよい。
801:時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得する。
本発明の諸実施形態で述べた音声フレームが会話フレームまたは音楽フレームであってもよい。
現在の音声フレームの時間領域信号の帯域幅が16kHzであると仮定する。
802:サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均を取得する。
803:サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均をサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均で除した商が閾値T6以上であるかどうかを判定する。
そうである場合、ステップ804が実施され、そうでない場合、ステップ805が実施される。
閾値T6が0.3以上であってもよく、閾値T6は、例えば、0.5、1、1.5、2、3.2、または別の値である。
例えば、サブバンドmの周波数ビン範囲が3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、または0.4kHz乃至6.4kHzであってもよい。
例えば、サブバンドnの周波数ビン範囲が6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、または4.8kHz乃至9.6kHzであってもよい。
804:TCXアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
805:HQアルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化する。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、TCXアルゴリズムまたはHQアルゴリズムは主に、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均に基づいて選択される。サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均とサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均との間の関係、およびサブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比は現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これが、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善を支援し、さらに、現在の音声フレームの符号化品質または符号化効率の改善を支援する。
図2乃至図8における例示的な実装方式は本発明の幾つかの実装方式にすぎないことは理解されうる。実際の適用では、複数の他の可能な実装方式を、図1に対応する実施形態における関連する例示的な説明に基づいて拡張してもよい。
幾つかのシナリオでは、サブバンドの選択において以下を考慮してもよい。
2つのサブバンド内に配置されたスペクトル係数のプロパティ・パラメータの間の類似性が計算されると、2つの一致するサブバンドを選択してもよく、例えば、当該2つのサブバンドは0kHz乃至1.6kHzおよび6.4kHz乃至8kHzである。幾つかのシナリオでは、0乃至1kHzにおけるスペクトル係数のプロパティは1乃至1.6kHzにおけるスペクトル係数のプロパティと大きく異なるので、0kHz乃至1.6kHzのスペクトルは、スペクトル係数のプロパティ・パラメータの間の類似性が計算されたときに選択されないかもしれない。例えば、1kHz乃至2.6kHz内のスペクトル係数を選択して、0乃至1.6kHz内のスペクトル係数を置き換え、低周波スペクトル係数のプロパティ・パラメータを計算してもよい。この場合、1kHz乃至2.6kHz内の低周波数スペクトル係数が高周波数にコピーされる場合、対応するスペクトル係数は7.4kHz乃至9kHz内の高周波スペクトル係数である。高周波数スペクトル係数のプロパティ・パラメータが計算されると、7.4kHz乃至9kHz内のスペクトル係数がスペクトル・プロパティの計算により適している。しかし、幾つかのシナリオでは、0kHz乃至6.4kHz内のスペクトル係数の解像度が非常に高くてもよく、0kHz乃至6.4kHz内のスペクトル係数がプロパティ・パラメータの計算に適している。6.4kHz乃至16kHz内のスペクトル係数の解像度が比較的低い場合、6.4kHz乃至16kHz内のスペクトル係数は、スペクトル係数のプロパティ・パラメータの計算には適していないかもしれない。したがって、高周波数スペクトル係数のプロパティ・パラメータが計算されると、4.8kHz乃至6.4kHz内のスペクトル係数を、プロパティ・パラメータを計算するために選択してもよく、当該プロパティ・パラメータは高周波数プロパティ・パラメータとして使用される。
変換符号化励起アルゴリズムに基づいて現在の音声フレームのスペクトル係数を符号化するステップが特に、スペクトル係数をN個のサブバンドに分割するステップと、各サブバンドのエンベロープを計算し量子化するステップと、量子化されたエンベロープ値および利用可能なビットの量に従ってサブバンドごとにビット割当てを実施するステップと、当該サブバンドに割り当てられたビットの量に従って各サブバンドのスペクトル係数を量子化するステップと、スペクトル・エンベロープの量子化されたスペクトル係数およびインデックス値をビットストリームに書き込むステップとを含んでもよい。
以下ではさらに、上述の解決策を実装するように構成された関連装置を提供する。
図9を参照すると、本発明の1実施形態ではさらに音声符号化器900を提供する。音声符号化器900が時間周波数変換ユニット910、取得ユニット920、および符号化ユニット930を備えてもよい。
時間周波数変換ユニット910は、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得するように構成される。
取得ユニット920は、現在の音声フレームの基準符号化パラメータを取得するように構成される。
符号化ユニット930は、取得ユニット920により取得された現在の音声フレームの基準符号化パラメータが第1のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を変換符号化励起アルゴリズムに基づいて符号化するか、または、当該取得ユニットにより取得された現在の音声フレームの基準符号化パラメータが第2のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を高品質変換符号化アルゴリズムに基づいて符号化するように構成される。
適用シナリオの要件に従って、取得ユニット920により取得された現在の音声フレームの基準符号化パラメータを変更してもよい。
例えば、基準符号化パラメータが、以下のパラメータ、即ち、現在の音声フレームの符号化率、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差およびサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープおよびサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープ、またはサブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値の少なくとも1つを含んでもよい。
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のより大きなパラメータ値は、サブバンドp内に配置されたスペクトル係数とサブバンドq内に配置されたスペクトル係数との間のより強いスペクトル相関を示す。当該スペクトル相関のパラメータ値が、例えば、正規化された相互相関パラメータ値であってもよい。
サブバンドの周波数ビン範囲を実際のニーズにしたがって決定してもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドzの最大周波数ビンが臨界周波数ビンF1より大きくてもよく、サブバンドwの最大周波数ビンが臨界周波数ビンF1より大きくてもよい。臨界周波数ビンF1の値範囲が、例えば、6.4kHz乃至12kHzであってもよい。例えば、臨界周波数ビンF1の値が6.4kHz、8kHz、9kHz、10kHz、または12kHzであってもよい。確かに、臨界周波数ビンF1が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドjの最大周波数ビンが臨界周波数ビンF2より大きくてもよく、サブバンドnの最大周波数ビンは臨界周波数ビンF2より大きい。例えば、臨界周波数ビンF2の値範囲が4.8kHz乃至8kHzであってもよい。特に、例えば、臨界周波数ビンF2の値が6.4kHz、4.8kHz、6kHz、8kHz、5kHz、または7kHzであってもよい。確かに、臨界周波数ビンF2が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドiの最大周波数ビンがサブバンドjの最大周波数ビンより小さくてもよく、サブバンドmの最大周波数ビンがサブバンドnの最大周波数ビンより小さくてもよく、サブバンドxの最大周波数ビンがサブバンドyの最小周波数ビン以下であってもよく、サブバンドpの最大周波数ビンがサブバンドqの最小周波数ビン以下であってもよく、サブバンドrの最大周波数ビンがサブバンドsの最小周波数ビン以下であってもよく、サブバンドeの最大周波数ビンがサブバンドfの最小周波数ビン以下であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドwの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドzの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドiの最大周波数ビンはサブバンドjの最小周波数ビン以下であること、サブバンドmの最大周波数ビンはサブバンドnの最小周波数ビン以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドnの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドiの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドmの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、またはサブバンドnの最小周波数ビンは臨界周波数ビンF2以上であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドeの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドxの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドpの最大周波数ビンは臨界周波数ビンF2以下であること、またはサブバンドrの最大周波数ビンは臨界周波数ビンF2以下であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドfの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドfの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドqの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドqの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドsの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドsの最小周波数ビンが臨界周波数ビンF2以上であってもよい。
例えば、サブバンドzの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよい。サブバンドzの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。サブバンドzの帯域幅の値範囲が1.6kHz乃至8kHzであってもよい。特に、例えば、サブバンドzの周波数ビン範囲が8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、または12kHz乃至14kHzであってもよい。確かに、サブバンドzの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドwの周波数ビン範囲を実際のニーズにしたがって決定してもよい。例えば、サブバンドwの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよく、サブバンドwの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。特に、例えば、サブバンドwの周波数ビン範囲は8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、12kHz乃至14kHz、または12.2kHz乃至14.5kHzである。確かに、サブバンドwの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドwの周波数ビン範囲がサブバンドzの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドiの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドiの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドjの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドjの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドmの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドmの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドmの周波数ビン範囲がサブバンドiの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドnの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドnの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドnの周波数ビン範囲がサブバンドjの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2kHz乃至3.2kHz、または2.5kHz乃至3.4kHzであってもよい。確かに、サブバンドxの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.4kHz乃至6.4kHz、または4.5kHz乃至6.2kHzであってもよい。確かに、サブバンドyの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドpの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.1kHz乃至3.2kHz、または2.5kHz乃至3.5kHzであってもよい。確かに、サブバンドpの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドpの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドqの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.2kHz乃至6.4kHz、または4.7kHz乃至6.2kHzであってもよい。確かに、サブバンドqの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドqの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドrの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.05kHz乃至3.27kHz、または2.59kHz乃至3.51kHzであってもよい。確かに、サブバンドrの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドrの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドsの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.4kHz乃至7.1kHz、または4.55kHz乃至6.29kHzであってもよい。確かに、サブバンドsの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドsの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドeの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、0.8kHz乃至3kHz、または1.9kHz乃至3.8kHzであってもよい。確かに、サブバンドeの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドeの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドfの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.3kHz乃至7.15kHz、または4.58kHz乃至6.52kHzであってもよい。確かに、サブバンドfの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドfの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
第1のパラメータ条件および第2のパラメータ条件を変更してもよい。
例えば、本発明の幾つかの可能な実装方式では、当該実施形態における第1のパラメータ条件が、例えば、方法の実施形態における第1のパラメータ条件であってもよく、当該実施形態における第2のパラメータ条件が、例えば、方法の実施形態における第2のパラメータ条件であってもよい。関連説明については、方法の実施形態における記録を参照されたい。
当該実施形態における音声符号化器900の各機能モジュールの機能を特に上述の方法の実施形態の方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは説明しない。
音声符号化器900が音声信号を収集、格納、または送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、現在の音声フレームの基準符号化パラメータを取得した後、音声符号化器900はTCXアルゴリズムまたはHQアルゴリズムを現在の音声フレームの取得された基準符号化パラメータに基づいて選択する。現在の音声フレームの基準符号化パラメータは現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これにより、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善が支援され、さらに、現在の音声フレームの符号化品質または符号化効率の改善が支援される。
図10を参照すると、図10は本発明の別の実施形態に従う音声符号化器1000の構造ブロック図である。
音声符号化器1000が少なくとも1つのプロセッサ1001、メモリ1005、および少なくとも1つの通信バス1002を備えてもよい。通信バス1002は当該構成要素間の接続および通信を実装するように構成される。
任意選択で、音声符号化器1000がさらに、少なくとも1つのネットワーク・インタフェース1004、ユーザ・インタフェース1003等を備えてもよい。任意選択で、ユーザ・インタフェース1003は、ディスプレイ(例えば、タッチ・スクリーン、液晶ディスプレイ、ホログラフィック撮像デバイス(英語:Holographic)、またはプロジェクタ(英語:Projector))、クリック・デバイス(例えば、マウス、トラックボール(英語:trackball)、タッチ・パネル、またはタッチ・スクリーン)、カメラ、および/またはピックアップ・デバイスを備える。
メモリ1005が読取り専用メモリおよびランダム・アクセス・メモリを含んでもよく、命令とデータをプロセッサ1001に提供してもよい。メモリ1005の一部がさらに不揮発性ランダム・アクセス・メモリを含んでもよい
幾つかの実装方式では、メモリ1005は、以下の要素、実行可能モジュールまたはデータ構造、またはそのサブセット、またはその拡張セット、即ち、時間周波数変換ユニット910、取得ユニット920、および符号化ユニット930を格納する。
本発明の当該実施形態では、プロセッサ1001は、時間周波数変換処理を現在の音声フレームの時間領域信号に実施して、現在の音声フレームのスペクトル係数を取得し、現在の音声フレームの基準符号化パラメータを取得し、現在の音声フレームの取得された基準符号化パラメータが第1のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を変換符号化励起アルゴリズムに基づいて符号化するか、または、現在の音声フレームの取得された基準符号化パラメータが第2のパラメータ条件を満たす場合、現在の音声フレームのスペクトル係数を高品質変換符号化アルゴリズムに基づいて符号化するためのメモリ1005内のコードまたは命令を実行する。
適用シナリオの要件に従って、プロセッサ1001により取得された現在の音声フレームの基準符号化パラメータを変更してもよい。
例えば、基準符号化パラメータが、以下のパラメータ、即ち、現在の音声フレームの符号化率、サブバンドz内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドw内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドi内に配置された現在の音声フレームのスペクトル係数のエネルギ平均およびサブバンドj内に配置された現在の音声フレームのスペクトル係数のエネルギ平均、サブバンドm内に配置された現在の音声フレームのスペクトル係数の振幅平均およびサブバンドn内に配置された現在の音声フレームのスペクトル係数の振幅平均、サブバンドx内に配置された現在の音声フレームのスペクトル係数のピーク対平均比およびサブバンドy内に配置された現在の音声フレームのスペクトル係数のピーク対平均比、サブバンドr内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差およびサブバンドs内に配置された現在の音声フレームのスペクトル係数のエンベロープ偏差、サブバンドe内に配置された現在の音声フレームのスペクトル係数のエンベロープおよびサブバンドf内に配置された現在の音声フレームのスペクトル係数のエンベロープ、またはサブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のパラメータ値の少なくとも1つを含んでもよい。
サブバンドp内に配置された現在の音声フレームのスペクトル係数とサブバンドq内に配置された現在の音声フレームのスペクトル係数との間のスペクトル相関のより大きなパラメータ値は、サブバンドp内に配置されたスペクトル係数とサブバンドq内に配置されたスペクトル係数との間のより強いスペクトル相関を示す。当該スペクトル相関のパラメータ値が、例えば、正規化された相互相関パラメータ値であってもよい。
サブバンドの周波数ビン範囲を実際のニーズにしたがって決定してもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドzの最大周波数ビンが臨界周波数ビンF1より大きくてもよく、サブバンドwの最大周波数ビンが臨界周波数ビンF1より大きくてもよい。臨界周波数ビンF1の値範囲が、例えば、6.4kHz乃至12kHzであってもよい。例えば、臨界周波数ビンF1の値が6.4kHz、8kHz、9kHz、10kHz、または12kHzであってもよい。確かに、臨界周波数ビンF1が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドjの最大周波数ビンが臨界周波数ビンF2より大きくてもよく、サブバンドnの最大周波数ビンは臨界周波数ビンF2より大きい。例えば、臨界周波数ビンF2の値範囲が4.8kHz乃至8kHzであってもよい。特に、例えば、臨界周波数ビンF2の値が6.4kHz、4.8kHz、6kHz、8kHz、5kHz、または7kHzであってもよい。確かに、臨界周波数ビンF2が別の値であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドiの最大周波数ビンがサブバンドjの最大周波数ビンより小さくてもよく、サブバンドmの最大周波数ビンがサブバンドnの最大周波数ビンより小さくてもよく、サブバンドxの最大周波数ビンがサブバンドyの最小周波数ビン以下であってもよく、サブバンドpの最大周波数ビンがサブバンドqの最小周波数ビン以下であってもよく、サブバンドrの最大周波数ビンがサブバンドsの最小周波数ビン以下であってもよく、サブバンドeの最大周波数ビンがサブバンドfの最小周波数ビン以下であってもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドwの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドzの最小周波数ビンは臨界周波数ビンF1以上であること、サブバンドiの最大周波数ビンはサブバンドjの最小周波数ビン以下であること、サブバンドmの最大周波数ビンはサブバンドnの最小周波数ビン以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドnの最小周波数ビンは臨界周波数ビンF2以上であること、サブバンドiの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドmの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドjの最小周波数ビンは臨界周波数ビンF2以上であること、またはサブバンドnの最小周波数ビンは臨界周波数ビンF2以上であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、以下の条件、即ち、サブバンドeの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドxの最大周波数ビンは臨界周波数ビンF2以下であること、サブバンドpの最大周波数ビンは臨界周波数ビンF2以下であること、またはサブバンドrの最大周波数ビンは臨界周波数ビンF2以下であることのうち少なくとも1つが満たされてもよい。
任意選択で、本発明の幾つかの可能な実装方式では、サブバンドfの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドfの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドqの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドqの最小周波数ビンが臨界周波数ビンF2以上であってもよい。サブバンドsの最大周波数ビンが臨界周波数ビンF2以下であってもよく、確かにサブバンドsの最小周波数ビンが臨界周波数ビンF2以上であってもよい。
例えば、サブバンドzの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよい。サブバンドzの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。サブバンドzの帯域幅の値範囲が1.6kHz乃至8kHzであってもよい。特に、例えば、サブバンドzの周波数ビン範囲が8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、または12kHz乃至14kHzであってもよい。確かに、サブバンドzの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドwの周波数ビン範囲を実際のニーズにしたがって決定してもよい。例えば、サブバンドwの最大周波数ビンの値範囲が12kHz乃至16kHzであってもよく、サブバンドwの最小周波数ビンの値範囲が8kHz乃至14kHzであってもよい。特に、例えば、サブバンドwの周波数ビン範囲は8kHz乃至12kHz、9kHz乃至11kHz、8kHz乃至9.6kHz、12kHz乃至14kHz、または12.2kHz乃至14.5kHzである。確かに、サブバンドwの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドwの周波数ビン範囲がサブバンドzの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドiの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドiの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドjの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドjの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドmの周波数ビン範囲は3.2kHz乃至6.4kHz、3.2kHz乃至4.8kHz、4.8kHz乃至6.4kHz、0.4kHz乃至6.4kHz、または0.4kHz乃至3.6kHzであってもよい。確かに、サブバンドmの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドmの周波数ビン範囲がサブバンドiの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドnの周波数ビン範囲は6.4kHz乃至9.6kHz、6.4kHz乃至8kHz、8kHz乃至9.6kHz、4.8kHz乃至9.6kHz、または4.8kHz乃至8kHzであってもよい。確かに、サブバンドnの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドnの周波数ビン範囲がサブバンドjの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドxの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2kHz乃至3.2kHz、または2.5kHz乃至3.4kHzであってもよい。確かに、サブバンドxの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドyの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.4kHz乃至6.4kHz、または4.5kHz乃至6.2kHzであってもよい。確かに、サブバンドyの周波数ビン範囲は以上の例に限定されない。
例えば、サブバンドpの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.1kHz乃至3.2kHz、または2.5kHz乃至3.5kHzであってもよい。確かに、サブバンドpの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドpの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドqの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、4.2kHz乃至6.4kHz、または4.7kHz乃至6.2kHzであってもよい。確かに、サブバンドqの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドqの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドrの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、2.05kHz乃至3.27kHz、または2.59kHz乃至3.51kHzであってもよい。確かに、サブバンドrの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドrの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドsの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.4kHz乃至7.1kHz、または4.55kHz乃至6.29kHzであってもよい。確かに、サブバンドsの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドsの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドeの周波数ビン範囲が0kHz乃至1.6kHz、1kHz乃至2.6kHz、1.6kHz乃至3.2kHz、0.8kHz乃至3kHz、または1.9kHz乃至3.8kHzであってもよい。確かに、サブバンドeの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドeの周波数ビン範囲がサブバンドxの周波数ビン範囲と同じかまたは同様であってもよい。
例えば、サブバンドfの周波数ビン範囲が6.4kHz乃至8kHz、7.4kHz乃至9kHz、4.8kHz乃至6.4kHz、5.3kHz乃至7.15kHz、または4.58kHz乃至6.52kHzであってもよい。確かに、サブバンドfの周波数ビン範囲は以上の例に限定されない。幾つかの可能な実装方式では、サブバンドfの周波数ビン範囲がサブバンドyの周波数ビン範囲と同じかまたは同様であってもよい。
第1のパラメータ条件および第2のパラメータ条件を変更してもよい。
例えば、本発明の幾つかの可能な実装方式では、当該実施形態における第1のパラメータ条件が、例えば、方法の実施形態における第1のパラメータ条件であってもよく、当該実施形態における第2のパラメータ条件が、例えば、方法の実施形態における第2のパラメータ条件であってもよい。関連説明については、方法の実施形態における記録を参照されたい。
当該実施形態における音声符号化器1000の各機能モジュールの機能を特に上述の方法の実施形態の方法に従って実装してもよいことは理解されうる。具体的な実装プロセスについては、上述の方法の実施形態の関連説明を参照されたい。詳細についてはここでは説明しない。
音声符号化器1000が、音声信号を収集、格納、または送信する必要がある任意の装置、例えば、携帯電話、タブレット・コンピュータ、パーソナル・コンピュータ、またはノートブック・コンピュータであってもよい。
分かるように、当該実施形態の解決策では、現在の音声フレームのスペクトル係数を符号化するために、現在の音声フレームの基準符号化パラメータを取得した後、音声符号化器1000は、TCXアルゴリズムまたはHQアルゴリズムを現在の音声フレームの取得された基準符号化パラメータに基づいて選択する。現在の音声フレームの基準符号化パラメータは現在の音声フレームのスペクトル係数を符号化するために使用される符号化アルゴリズムに関連付けられ、これにより、現在の音声フレームの符号化アルゴリズムと基準符号化パラメータとの間の適応性および一致性の改善が支援され、さらに、現在の音声フレームの符号化品質または符号化効率の改善が支援される。
さらに、複数の任意選択の基準符号化パラメータが使用され、これは複数のシナリオにおけるアルゴリズム選択要件を満たすのを支援する。
本発明の1実施形態ではさらにコンピュータ記憶媒体を提供する。当該コンピュータ記憶媒体はプログラムを格納してもよい。当該プログラムが実行されたとき、上述の方法の実施形態で記録した音声符号化方法におけるステップの一部または全部が実施される。
説明を簡単にするために、上述の方法の実施形態は一連の動作として表現されていることに留意すべきである。しかし、本発明によれば幾つかのステップを他の順序で実施するかまたは同時に実施してもよいので、本発明は説明した動作の順序に限定されないことは当業者は理解すべきである。さらに、当業者はまた、本明細書で説明された実施形態は全て例示的な実施形態に属し、関連する動作とモジュールは必ずしも本発明により要求されないことも理解すべきである。
上述の実施形態では、各実施形態の説明はそれぞれの焦点を有する。1実施形態で詳細に説明されていない部分については、他の実施形態の関連説明を参照されたい。
本願で提供した幾つかの実施形態において、開示した装置を他の方式で実装してもよいことは理解されるべきである。例えば、説明した装置の実施形態は例示的なものにすぎない。例えば、当該ユニット分割は論理的な機能分割にすぎず、実際の実装では他の分割であってもよい。例えば、複数のユニットまたはコンポーネントを別のシステムに組み合わせるかまたは統合してもよく、または幾つかの機能を無視するかまたは実施しなくてもよい。さらに、幾つかのインタフェースを通じて、表示または議論した相互結合または直接結合または通信接続を実装してもよい。当該装置またはユニット間の間接結合または通信接続を、電気、機械、または他の形で実装してもよい。
別々の部分として説明されたユニットが物理的に分離されていてもいなくてもよく、ユニットとして表示した部分が物理ユニットであってもなくてもよく、1つの位置に配置されてもよく、または、複数のネットワーク・ユニットに分散されてもよい。当該ユニットの一部または全部を、当該諸実施形態の解決策の目的を実現するための実際のニーズに従って選択してもよい。
さらに、本発明の諸実施形態における機能ユニットを1つの処理ユニットに統合してもよく、または、当該ユニットの各々が物理的に単体で存在してもよく、または、2つまたは複数のユニットが1つのユニットに統合される。統合されたユニットをハードウェアの形態で実装してもよく、または、ソフトウェア機能ユニットの形で実装してもよい。
統合されたユニットがソフトウェア機能ユニットの形態で実装され、独立な製品として販売または使用されるとき、当該統合されたユニットをコンピュータ可読記憶媒体に格納してもよい。かかる理解に基づいて、本発明の技術的解決策を本質的に、または先行技術に寄与する部分、または当該技術的解決策の全部もしくは一部をソフトウェア製品の形で実装してもよい。当該ソフトウェア製品は記憶媒体に格納され、本発明の諸実施形態で説明した方法のステップの全部または一部を実施するように(パーソナル・コンピュータ、サーバ、またはネットワーク装置であってもよい)コンピュータ装置に指示するための幾つかの命令を含む。上述の記憶媒体は、USBフラッシュ・ドライブ、取外し可能ハード・ディスク、読取専用メモリ(ROM、Read−Only Memory)、ランダム・アクセス・メモリ(RAM、Random Access Memory)、磁気ディスク、または光ディスクのようなプログラム・コードを格納できる任意の媒体を含む。
上述の実施形態は、本発明を限定するためのものではなく、本発明の技術的解決策を説明するためのものにすぎない。上述の実施形態を参照して本発明を詳細に説明したが、当業者は本発明の諸実施形態の技術的解決策の範囲から逸脱せずに、上述の実施形態で説明した技術的解決策に依然として修正を行ってもよく、または、その幾つかの技術的特徴に均等な置換えを行ってもよいことを当業者は理解すべきである。
900 音声符号化器
910 時間周波数変換ユニット
920 取得ユニット
930 符号化ユニット
1000 音声符号化器
1001 プロセッサ
1003 ユーザ・インタフェース
1004 ネットワーク・インタフェース
1005 メモリ

Claims (15)

  1. 音声信号を、音声信号符号化器によって、取得するステップであって、前記音声信号が現在のフレームを備え、前記現在のフレームがサブバンドi、サブバンドj、サブバンドx、および、サブバンドyを備えるものであり、前記サブバンドiの最大周波数ビンが前記サブバンドjの最小周波数ビンより小さく、前記サブバンドxの最大周波数ビンが前記サブバンドyの最小周波数ビンより小さい、ステップと、
    前記音声信号符号化器によって、前記サブバンドiの平均エネルギーと、前記サブバンドjの平均エネルギーと、前記サブバンドxのスペクトルピークと、前記サブバンドxのスペクトル平均と、前記サブバンドyのスペクトルピークと、前記サブバンドyのスペクトル平均と、を得るステップと、
    所定の条件のセットが満たされる場合に、前記音声信号符号化器によって、高品質変換符号化(HQ)アルゴリズムを用いて前記現在のフレームを符号化するステップであって、前記所定の条件のセットが、前記サブバンドiの平均エネルギーが前記サブバンドjの平均エネルギーを第1の定数(T4)によって乗算した積より小さいこと、および、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが前記サブバンドxのスペクトル平均によって乗算されかつ第1の間隔(R1)の最も大きい値によって乗算された積より大きいか、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが前記サブバンドxのスペクトル平均によって乗算されかつ前記R1の最も小さい値によって乗算された積よりも小さい場合、を含む、ステップ、あるいは、前記所定の条件のセットが満たされない場合には、前記音声信号符号化器によって、変換符号化励起(TCX) 符号化アルゴリズムを用いて前記現在のフレームを符号化する、ステップ
    を備える、音声符号化方法。
  2. 前記サブバンドjの最大周波数ビンが8キロヘルツ(kHz)より大きい、請求項1に記載の音声信号符号化方法。
  3. 前記定数T4が1/1.2より小さく、かつ、0.5以上である、請求項1または2に記載の音声信号符号化方法。
  4. 前記サブバンドiの周波数ビン範囲の最小周波数ビンは0.4キロヘルツ(kHz)であり、前記サブバンドjの周波数ビン範囲は4.8kHzから9.6kHzであり、前記サブバンドxの周波数ビン範囲は1kHzから2.6kHzであり、前記サブバンドyの周波数ビン範囲は4.8kHzから6.4kHzである、請求項1から3のいずれか1項に記載の音声信号符号化方法。
  5. 音声信号を、音声信号符号化器によって、取得するステップであって、前記音声信号が現在のフレームを備え、前記現在のフレームがサブバンドx、および、サブバンドyを備えるものであり、前記サブバンドxの最大周波数ビンが前記サブバンドyの最小周波数ビンより小さい、ステップと、
    前記音声信号符号化器によって、前記サブバンドxのスペクトルピークと、前記サブバンドxのスペクトル平均と、前記サブバンドyのスペクトルピークと、前記サブバンドyのスペクトル平均と、を得るステップと、
    所定の条件のセットが満たされる場合に、前記音声信号符号化器によって、高品質変換符号化(HQ)アルゴリズムを用いて前記現在のフレームを符号化するステップであって、前記所定の条件のセットが、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが、第1の定数(T44)によって乗算された前記サブバンドxのスペクトル平均によって乗算された積より小さく、前記サブバンドyのスペクトルピークが、第2の定数(T45)によって前記サブバンドyのスペクトル平均が乗算さた積よりも大きいこと、または、前記サブバンドyのスペクトル平均によって乗算された前記サブバンドxのスペクトルピークが、前記サブバンドyのスペクトルピークが、第3の定数(T46)によって乗算された前記サブバンドxのスペクトル平均によって乗算された積より大きく、前記サブバンドyのスペクトルピークが、第4の定数(T47)によって前記サブバンドyのスペクトル平均が乗算された積よりも小さいこと、を含む、ステップ、あるいは、前記所定の条件のセットが満たされないときには、前記音声信号符号化器によって、変換符号化励起(TCX) 符号化アルゴリズムを用いて前記現在のフレームを符号化する、ステップ
    を備える、音声信号符号化方法。
  6. T47が1.5であって、かつ、T45が1.5である、請求項5に記載の音声信号符号化方法。
  7. 前記サブバンドxの周波数ビン範囲は1kHzから2.6kHzであり、前記サブバンドyの周波数ビン範囲は4.8kHzから6.4kHzである、請求項5または6のいずれかに記載の音声信号符号化方法。
  8. プログラム命令を格納するメモリと、
    前記メモリに接続された少なくとも1つのプロセッサであって、前記プログラム命令が、前記少なくとも1つのプロセッサに請求項1から7のいずれか1項に記載の方法を実行するよう構成される、ようにする、
    音声信号符号化器。
  9. 音声信号を取得するよう構成されたユニットであって、前記音声信号が現在のフレームを備え、前記現在のフレームがサブバンドi、サブバンドj、サブバンドx、および、サブバンドyを備えるものであり、前記サブバンドiの最大周波数ビンが前記サブバンドjの最小周波数ビンより小さく、前記サブバンドxの最大周波数ビンが前記サブバンドyの最小周波数ビンより小さい、ユニットと、
    前記サブバンドiの平均エネルギーと、前記サブバンドjの平均エネルギーと、前記サブバンドxのスペクトルピークと、前記サブバンドxのスペクトル平均と、前記サブバンドyのスペクトルピークと、前記サブバンドyのスペクトル平均と、を得るよう構成されたユニットと、
    所定の条件のセットが満たされる場合に、高品質変換符号化(HQ)アルゴリズムを用いて前記現在のフレームを符号化するよう構成されたユニットであって、前記所定の条件のセットが、前記サブバンドiの平均エネルギーが前記サブバンドjの平均エネルギーを第1の定数(T4)によって乗算した積より小さいこと、および、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが前記サブバンドxのスペクトル平均によって乗算されかつ第1の間隔(R1)の最も大きい値によって乗算された積より大きいか、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが前記サブバンドxのスペクトル平均によって乗算されかつ前記R1の最も小さい値によって乗算された積よりも小さい場合、を含む、ユニット、もしくは、前記所定の条件のセットが満たされない場合には、変換符号化励起(TCX) 符号化アルゴリズムを用いて前記現在のフレームを符号化する、ように構成されたユニット
    を備える、音声信号符号化器。
  10. 前記サブバンドjの最大周波数ビンが8キロヘルツ(kHz)より大きい、請求項9に記載の音声信号符号化器。
  11. 前記T4が1/1.2より小さく、かつ、0.5以上である、請求項9または10に記載の音声信号符号化器。
  12. 前記サブバンドiの周波数ビン範囲の最小周波数ビンは0.4キロヘルツ(kHz)であり、前記サブバンドjの周波数ビン範囲は4.8kHzから9.6kHzであり、前記サブバンドxの周波数ビン範囲は1kHzから2.6kHzであり、前記サブバンドyの周波数ビン範囲は4.8kHzから6.4kHzである、請求項9から11のいずれか1項に記載の音声信号符号化器。
  13. 音声信号を取得するよう構成されたユニットであって、前記音声信号が現在のフレームを備え、前記現在のフレームがサブバンドx、および、サブバンドyを備えるものであるユニットと、
    前記サブバンドxのスペクトルピークと、前記サブバンドxのスペクトル平均と、を得るよう構成されたユニットであって、前記現在のフレームがサブバンドx、および、サブバンドyを備えるものであり、前記サブバンドxの最大周波数ビンが前記サブバンドyの最小周波数ビンより低い、ユニットと、
    所定の条件のセットが満たされる場合に、高品質変換符号化(HQ)アルゴリズムを用いて前記現在のフレームを符号化するよう構成されたユニットであって、前記所定の条件のセットが、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された積が、前記サブバンドyのスペクトルピークが第1の定数(T44)によって乗算された前記サブバンドxのスペクトル平均によって乗算された積より小さいく、前記サブバンドyのスペクトルピークが、第2の定数(T45)によって前記サブバンドyのスペクトル平均が乗算さた積よりも大きいこと、もしくは、前記サブバンドyのスペクトル平均によって前記サブバンドxのスペクトルピークが乗算された前記積が、前記サブバンドyのスペクトルピークが前記サブバンドxのスペクトル平均によって乗算され、第3の定数(T46)によって乗算さた積より大きく、前記サブバンドyのスペクトルピークが、第4の定数(T47)によって前記サブバンドyのスペクトル平均が乗算さた積よりも小さいこと、を含むものである、ユニット、あるいは、前記所定の条件のセットが満たされない場合には、前記音声信号符号化器によって、変換符号化励起(TCX) 符号化アルゴリズムを用いて前記現在のフレームを符号化するように構成されたユニット
    を備える、音声信号符号化器。
  14. T47が1.5であって、かつ、T45が1.5である、請求項13に記載の音声信号符号化器。
  15. 前記サブバンドxの周波数ビン範囲は1kHzから2.6kHzであり、前記サブバンドyの周波数ビン範囲は4.8kHzから6.4kHzである、請求項13または14に記載の音声信号符号化器。
JP2019106061A 2014-07-28 2019-06-06 音声符号化方法および関連装置 Active JP6888051B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410363905.5 2014-07-28
CN201410363905.5A CN104143335B (zh) 2014-07-28 2014-07-28 音频编码方法及相关装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017505140A Division JP6538822B2 (ja) 2014-07-28 2015-04-01 音声符号化方法および関連装置

Publications (2)

Publication Number Publication Date
JP2019164379A JP2019164379A (ja) 2019-09-26
JP6888051B2 true JP6888051B2 (ja) 2021-06-16

Family

ID=51852493

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017505140A Active JP6538822B2 (ja) 2014-07-28 2015-04-01 音声符号化方法および関連装置
JP2019106061A Active JP6888051B2 (ja) 2014-07-28 2019-06-06 音声符号化方法および関連装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017505140A Active JP6538822B2 (ja) 2014-07-28 2015-04-01 音声符号化方法および関連装置

Country Status (15)

Country Link
US (4) US10056089B2 (ja)
EP (2) EP3790007B1 (ja)
JP (2) JP6538822B2 (ja)
KR (2) KR102022500B1 (ja)
CN (2) CN104143335B (ja)
AU (2) AU2015296447B2 (ja)
BR (1) BR112016029904B1 (ja)
CA (3) CA3064092C (ja)
ES (2) ES2938742T3 (ja)
MX (1) MX360606B (ja)
MY (1) MY174461A (ja)
PL (1) PL3790007T3 (ja)
RU (1) RU2670790C9 (ja)
SG (2) SG11201610047RA (ja)
WO (1) WO2016015485A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143335B (zh) * 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US20220254331A1 (en) * 2021-02-05 2022-08-11 Cambium Assessment, Inc. Neural network and method for machine learning assisted speech recognition
CN112767956B (zh) * 2021-04-09 2021-07-16 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质
WO2023274507A1 (en) * 2021-06-29 2023-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Spectrum classifier for audio coding mode selection

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
US6721280B1 (en) 2000-04-19 2004-04-13 Qualcomm Incorporated Method and apparatus for voice latency reduction in a voice-over-data wireless communication system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
DE60230856D1 (de) 2001-07-13 2009-03-05 Panasonic Corp Audiosignaldecodierungseinrichtung und audiosignalcodierungseinrichtung
CN1308913C (zh) * 2002-04-11 2007-04-04 松下电器产业株式会社 编码设备、解码设备及其方法
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN101185127B (zh) * 2005-04-01 2014-04-23 高通股份有限公司 用于编码和解码语音信号的高频带部分的方法和设备
KR20080101872A (ko) 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
CN101496099B (zh) * 2006-07-31 2012-07-18 高通股份有限公司 用于对有效帧进行宽带编码和解码的***、方法和设备
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
JP5244971B2 (ja) 2008-07-11 2013-07-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号合成器及びオーディオ信号符号器
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
JP5551695B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010003545A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. An apparatus and a method for decoding an encoded audio signal
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
KR20130069833A (ko) 2008-10-08 2013-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
AU2010309838B2 (en) * 2009-10-20 2014-05-08 Dolby International Ab Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
EP2491555B1 (en) * 2009-10-20 2014-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011158485A2 (ja) 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置
WO2011156905A2 (en) 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102074242B (zh) * 2010-12-27 2012-03-28 武汉大学 语音音频混合分级编码中核心层残差提取***及方法
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103477388A (zh) * 2011-10-28 2013-12-25 松下电器产业株式会社 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
ES2661504T3 (es) * 2012-05-30 2018-04-02 Nippon Telegraph And Telephone Corporation Método de codificación, codificador, programa y medio de grabación
CN104143335B (zh) * 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置

Also Published As

Publication number Publication date
RU2670790C9 (ru) 2018-11-23
US20180268832A1 (en) 2018-09-20
EP3790007A1 (en) 2021-03-10
US20200066290A1 (en) 2020-02-27
BR112016029904B1 (pt) 2023-04-18
KR101947127B1 (ko) 2019-02-12
CA3064092A1 (en) 2016-02-04
CA2951321A1 (en) 2016-02-04
CA2951321C (en) 2019-12-31
PL3790007T3 (pl) 2023-05-02
RU2017101806A (ru) 2018-08-30
WO2016015485A1 (zh) 2016-02-04
KR20170010822A (ko) 2017-02-01
RU2670790C2 (ru) 2018-10-25
CN106448688A (zh) 2017-02-22
EP3790007B1 (en) 2023-01-04
EP3157010A1 (en) 2017-04-19
CA3058990A1 (en) 2016-02-04
MY174461A (en) 2020-04-20
US10706866B2 (en) 2020-07-07
JP2019164379A (ja) 2019-09-26
US20190164562A1 (en) 2019-05-30
KR20190014603A (ko) 2019-02-12
CN104143335A (zh) 2014-11-12
ES2814154T3 (es) 2021-03-26
SG11201610047RA (en) 2017-01-27
JP6538822B2 (ja) 2019-07-03
US10504534B2 (en) 2019-12-10
AU2018201411A1 (en) 2018-03-22
KR102022500B1 (ko) 2019-11-25
SG10201805102PA (en) 2018-08-30
ES2938742T3 (es) 2023-04-14
AU2015296447A1 (en) 2017-01-05
CN104143335B (zh) 2017-02-01
RU2017101806A3 (ja) 2018-08-30
US20170125031A1 (en) 2017-05-04
BR112016029904A2 (pt) 2017-08-22
CA3064092C (en) 2022-04-19
US10056089B2 (en) 2018-08-21
CN106448688B (zh) 2019-11-05
EP3157010B1 (en) 2020-06-10
JP2017522608A (ja) 2017-08-10
AU2015296447B2 (en) 2018-01-18
EP3157010A4 (en) 2017-10-25
AU2018201411B2 (en) 2019-08-22
MX360606B (es) 2018-11-09
US10269366B2 (en) 2019-04-23
MX2017001039A (es) 2017-05-04

Similar Documents

Publication Publication Date Title
JP6888051B2 (ja) 音声符号化方法および関連装置
US11990150B2 (en) Method and device for audio repair and readable storage medium
AU2014360038A1 (en) Encoding method and apparatus
RU2014134459A (ru) Вещественное-в-комплексное преобразование с малой задержкой в банках фильтров с перекрытием для частично комплексной обработки
AU2017272204A1 (en) Signal processing method and device
AU2014286765A1 (en) Signal encoding and decoding methods and devices
JP5783395B2 (ja) 信号処理方法およびデバイス
US10165362B2 (en) Automated equalization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210519

R150 Certificate of patent or registration of utility model

Ref document number: 6888051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250