JP5727018B2 - 過渡フレームの符号化及び復号化 - Google Patents
過渡フレームの符号化及び復号化 Download PDFInfo
- Publication number
- JP5727018B2 JP5727018B2 JP2013529208A JP2013529208A JP5727018B2 JP 5727018 B2 JP5727018 B2 JP 5727018B2 JP 2013529208 A JP2013529208 A JP 2013529208A JP 2013529208 A JP2013529208 A JP 2013529208A JP 5727018 B2 JP5727018 B2 JP 5727018B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- encoding mode
- transient
- excitation
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001052 transient effect Effects 0.000 title claims description 517
- 230000005284 excitation Effects 0.000 claims description 196
- 238000000034 method Methods 0.000 claims description 123
- 230000002194 synthesizing effect Effects 0.000 claims description 63
- 230000015572 biosynthetic process Effects 0.000 claims description 43
- 238000003786 synthesis reaction Methods 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000003252 repetitive effect Effects 0.000 claims 7
- 230000005236 sound signal Effects 0.000 description 92
- 238000010586 diagram Methods 0.000 description 19
- 238000013139 quantization Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Description
本出願は、本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、2010年9月13日に出願された「CODING A TRANSIENT SPEECH FRAME」と題する仮特許出願第61/382,460号の優先権を主張する。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
過渡フレームを符号化するための電子機器であって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
を具備し、
前記メモリに記憶された命令は
現在過渡フレームを取得することと、
前記現在過渡フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピーク位置のセットを決定することと、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、
前記第1の符号化モードが決定された場合、前記第1の符号化モードに基づいて励起を合成することと、
前記第2の符号化モードが決定された場合、前記第2の符号化モードに基づいて励起を合成することと
を行うように実行可能である、電子機器。
[2]
前記命令が、前記励起と前記現在過渡フレームとに基づいて複数のスケーリング係数を決定するようにさらに実行可能である、上記[1]に記載の電子機器。
[3]
ピーク位置のセットを決定することは、
前記残差信号及びウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1の閾値を下回る位置インデックスの第1のセットを選択することと、
包絡線値が包絡線中の最大値に対する第2の閾値を下回る位置インデックスをなくすことによって、位置インデックスの前記第1のセットから位置インデックスの第2のセットを決定することと、
近隣位置インデックスに対する差閾値を満たさない位置インデックスを削除することによって、位置インデックスの前記第2のセットから位置インデックスの第3のセットを決定することとを備える、上記[1]に記載の電子機器。
[4]
前記命令が、
線形予測係数のセットを取得するために、前記現在過渡フレームと前記現在過渡フレームより前の信号とを使用して線形予測分析を実行することと、
線形予測係数の前記セットに基づいて量子化線形予測係数のセットを決定することとを行うようにさらに実行可能である、上記[1]に記載の電子機器。
[5]
前記残差信号を取得することが、量子化線形予測係数の前記セットにさらに基づく、上記[4]に記載の電子機器。
[6]
前記第1の符号化モードが「有声過渡」符号化モードであり、前記第2の符号化モードが「他の過渡」符号化モードである、上記[1]に記載の電子機器。
[7]
第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することが、ピッチラグと、前フレームタイプと、エネルギー比とにさらに基づく、上記[1]に記載の電子機器。
[8]
前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、上記[1]に記載の電子機器。
[9]
前記第1の距離がピッチラグに基づいて決定され、前記第2の距離が前記ピッチラグに基づいて決定される、上記[8]に記載の電子機器。
[10]
前記第1の符号化モードに基づいて励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、前記現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、上記[1]に記載の電子機器。
[11]
前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、上記[1]に記載の電子機器。
[12]
前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、上記[11]に記載の電子機器。
[13]
過渡フレームを復号するための電子機器であって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
を具備し、
前記メモリに記憶された命令は、
フレームタイプを取得することと、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得することと、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、
前記第1の符号化モードを使用すべきであると決定された場合、前記第1の符号化モードに基づいて励起を合成することと、
前記第2の符号化モードを使用すべきであると決定された場合、前記第2の符号化モードに基づいて励起を合成することとを行うように実行可能である、電子機器。
[14]
前記命令が、
ピッチラグパラメータを取得することと、
前記ピッチラグパラメータに基づいてピッチラグを決定することとを行うようにさらに実行可能である、上記[13]に記載の電子機器。
[15]
前記命令が、
複数のスケーリング係数を取得することと、
前記複数のスケーリング係数に基づいて前記励起をスケーリングすることとを行うようにさらに実行可能である、上記[13]に記載の電子機器。
[16]
前記命令が、
量子化線形予測係数パラメータを取得することと、
前記量子化線形予測係数パラメータに基づいて量子化線形予測係数のセットを決定することとを行うようにさらに実行可能である、上記[13]に記載の電子機器。
[17]
前記命令が、前記励起と量子化線形予測係数の前記セットとに基づいて、合成音声信号を生成するようにさらに実行可能である、上記[16]に記載の電子機器。
[18]
前記第1の符号化モードに基づいて前記励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、上記[13]に記載の電子機器。
[19]
前記第2の符号化モードに基づいて励起を合成することが、
第1のピーク位置を取得することと、
第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、上記[13]に記載の電子機器。
[20]
前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、上記[19]に記載の電子機器。
[21]
電子機器上で過渡フレームを符号化するための方法であって、
現在過渡フレームを取得することと、
前記現在過渡フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピーク位置のセットを決定することと、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、
前記第1の符号化モードが決定された場合、前記第1の符号化モードに基づいて励起を合成することと、
前記第2の符号化モードが決定された場合、前記第2の符号化モードに基づいて励起を合成することとを備える、方法。
[22]
前記励起と前記現在過渡フレームとに基づいて複数のスケーリング係数を決定することをさらに備える、上記[21]に記載の方法。
[23]
ピーク位置のセットを決定することは、
前記残差信号及びウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1の閾値を下回る位置インデックスの第1のセットを選択することと、
包絡線値が包絡線中の最大値に対する第2の閾値を下回る位置インデックスをなくすことによって、位置インデックスの前記第1のセットから位置インデックスの第2のセットを決定することと、
近隣位置インデックスに対する差閾値を満たさない位置インデックスを削除することによって、位置インデックスの前記第2のセットから位置インデックスの第3のセットを決定することとを備える、上記[21]に記載の方法。
[24]
線形予測係数のセットを取得するために、前記現在過渡フレームと前記現在過渡フレームより前の信号とを使用して線形予測分析を実行することと、
線形予測係数の前記セットに基づいて量子化線形予測係数のセットを決定することとをさらに備える、上記[21]に記載の方法。
[25]
前記残差信号を取得することが、量子化線形予測係数の前記セットにさらに基づく、上記[24]に記載の方法。
[26]
前記第1の符号化モードが「有声過渡」符号化モードであり、前記第2の符号化モードが「他の過渡」符号化モードである、上記[21]に記載の方法。
[27]
第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することが、ピッチラグと、前フレームタイプと、エネルギー比とにさらに基づく、上記[21]に記載の方法。
[28]
前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、上記[21]に記載の方法。
[29]
前記第1の距離がピッチラグに基づいて決定され、前記第2の距離が前記ピッチラグに基づいて決定される、上記[28]に記載の方法。
[30]
前記第1の符号化モードに基づいて励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、前記現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、上記[21]に記載の方法。
[31]
前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、上記[21]に記載の方法。
[32]
前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、上記[31]に記載の方法。
[33]
電子機器上で過渡フレームを復号するための方法であって、フレームタイプを取得することと、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得することと、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、
前記第1の符号化モードを使用すべきであると決定された場合、前記第1の符号化モードに基づいて励起を合成することと、
前記第2の符号化モードを使用すべきであると決定された場合、前記第2の符号化モードに基づいて励起を合成することとを備える、方法。
[34]
ピッチラグパラメータを取得することと、
前記ピッチラグパラメータに基づいてピッチラグを決定することとをさらに備える、上記[33]に記載の方法。
[35]
複数のスケーリング係数を取得することと、
前記複数のスケーリング係数に基づいて前記励起をスケーリングすることとをさらに備える、上記[33]に記載の方法。
[36]
量子化線形予測係数パラメータを取得することと、
前記量子化線形予測係数パラメータに基づいて量子化線形予測係数のセットを決定することとをさらに備える、上記[33]に記載の方法。
[37]
前記励起と量子化線形予測係数の前記セットとに基づいて、合成音声信号を生成することをさらに備える、上記[36]に記載の方法。
[38]
前記第1の符号化モードに基づいて前記励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、上記[33]に記載の方法。
[39]
前記第2の符号化モードに基づいて励起を合成することは、
第1のピーク位置を取得することと、
第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、上記[33]に記載の方法。
[40]
前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、上記[39]に記載の方法。
[41]
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、過渡フレームを符号化するためのコンピュータプログラム製品であって、前記命令は、
電子機器に、現在過渡フレームを取得させるためのコードと、
前記電子機器に、前記現在過渡フレームに基づいて残差信号を取得させるためのコードと、
前記電子機器に、前記残差信号に基づいてピーク位置のセットを決定させるためのコードと、
前記電子機器に、少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定させるためのコードと、
前記電子機器に、前記第1の符号化モードが決定された場合、前記第1の符号化モードに基づいて励起を合成させるためのコードと、
前記電子機器に、前記第2の符号化モードが決定された場合、前記第2の符号化モードに基づいて励起を合成させるためのコードとを備える、コンピュータプログラム製品。
[42]
前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、上記[41]に記載のコンピュータプログラム製品。
[43]
前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、上記[41]に記載のコンピュータプログラム製品。
[44]
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、過渡フレームを復号するためのコンピュータプログラム製品であって、前記命令は、電子機器に、フレームタイプを取得させるためのコードと、前記フレームタイプが過渡フレームを示す場合、
前記電子機器に、過渡符号化モードパラメータを取得させるためのコードと、
前記電子機器に、前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定させるためのコードと、
前記電子機器に、前記第1の符号化モードを使用すべきであると決定された場合、前記第1の符号化モードに基づいて励起を合成させるためのコードと、
前記電子機器に、前記第2の符号化モードを使用すべきであると決定された場合、前記第2の符号化モードに基づいて励起を合成させるためのコードとを備える、コンピュータプログラム製品。
[45]
前記第2の符号化モードに基づいて励起を合成することは、
第1のピーク位置を取得することと、
第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、上記[44]に記載のコンピュータプログラム製品。
[46]
現在過渡フレームを取得するための手段と、
前記現在過渡フレームに基づいて残差信号を取得するための手段と、
前記残差信号に基づいてピーク位置のセットを決定するための手段と、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定するための手段と、
前記第1の符号化モードが決定された場合、前記第1の符号化モードに基づいて励起を合成するための手段と、
前記第2の符号化モードが決定された場合、前記第2の符号化モードに基づいて励起を合成するための手段とを備える、過渡フレームを符号化するための装置。
[47]
前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定するための前記手段は、
ピークの推定された数を決定するための手段と、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択するための手段と、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択するための手段と、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択するための手段と、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択するための手段とを備える、上記[46]に記載の装置。
[48]
前記第2の符号化モードに基づいて励起を合成するための前記手段が、第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成するための手段を備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、上記[46]に記載の装置。
[49]
過渡フレームを復号するための装置であって、フレームタイプを取得するための手段と、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得するための手段と、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定するための手段と、
前記第1の符号化モードを使用すべきであると決定された場合、前記第1の符号化モードに基づいて励起を合成するための手段と、
前記第2の符号化モードを使用すべきであると決定された場合、前記第2の符号化モードに基づいて励起を合成するための手段とを備える、装置。
[50]
前記第2の符号化モードに基づいて励起を合成するための手段は、
第1のピーク位置を取得するための手段と、
第1の位置において開始してプロトタイプ波形を繰り返し配置することによって前記励起を合成するための手段であって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成するための手段とを備える、上記[49]に記載の装置。
Claims (50)
- 過渡フレームを符号化するための電子機器であって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
を具備し、
前記メモリに記憶された命令は
現在過渡フレームを取得することと、
前記現在過渡フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピーク位置のセットを決定することと、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、ここにおいて、前フレームに対して連続していると検出される過渡フレームを符号化するための前記第1の符号化モードを選択することと、または、前フレームに対して連続性を有さないと検出される過渡フレームを符号化するための前記第2の符号化モードを選択することとを具備し、
前記第1の符号化モードが決定された場合、波形補間を使用して励起を合成することと、
前記第2の符号化モードが決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成することと
を行うように実行可能である、電子機器。 - 前記命令が、前記励起と前記現在過渡フレームとに基づいて複数のスケーリング係数を決定するようにさらに実行可能である、請求項1に記載の電子機器。
- ピーク位置のセットを決定することは、
前記残差信号及びウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1の閾値を下回る位置インデックスの第1のセットを選択することと、
包絡線値が包絡線中の最大値に対する第2の閾値を下回る位置インデックスをなくすことによって、位置インデックスの前記第1のセットから位置インデックスの第2のセットを決定することと、
近隣位置インデックスに対する差閾値を満たさない位置インデックスを削除することによって、位置インデックスの前記第2のセットから位置インデックスの第3のセットを決定することとを備える、請求項1に記載の電子機器。 - 前記命令が、
線形予測係数のセットを取得するために、前記現在過渡フレームと前記現在過渡フレームより前の信号とを使用して線形予測分析を実行することと、
線形予測係数の前記セットに基づいて量子化線形予測係数のセットを決定することとを行うようにさらに実行可能である、請求項1に記載の電子機器。 - 前記残差信号を取得することが、量子化線形予測係数の前記セットにさらに基づく、請求項4に記載の電子機器。
- 前記第1の符号化モードが「有声過渡」符号化モードであり、前記第2の符号化モードが「他の過渡」符号化モードである、請求項1に記載の電子機器。
- 第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することが、ピッチラグと、前フレームタイプと、エネルギー比とにさらに基づく、請求項1に記載の電子機器。
- 前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、請求項1に記載の電子機器。 - 前記第1の距離がピッチラグに基づいて決定され、前記第2の距離が前記ピッチラグに基づいて決定される、請求項8に記載の電子機器。
- 前記第1の符号化モードに基づいて励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、前記現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した前記波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、請求項1に記載の電子機器。 - 前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、請求項1に記載の電子機器。
- 前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、請求項11に記載の電子機器。
- 過渡フレームを復号するための電子機器であって、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
を具備し、
前記メモリに記憶された命令は、
フレームタイプを取得することと、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得することと、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、前記第1の符号化モードは、前フレームに対して連続していると符号化の間検出される過渡フレームを符号化するために使用され、及び、前記第2の符号化モードは、前記前フレームに対して連続性を有さないと符号化の間検出される過渡フレームを符号化するために使用される、
前記第1の符号化モードを使用すべきであると決定された場合、波形補間を使用して励起を合成することと、
前記第2の符号化モードを使用すべきであると決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成することとを行うように実行可能である、電子機器。 - 前記命令が、
ピッチラグパラメータを取得することと、
前記ピッチラグパラメータに基づいてピッチラグを決定することとを行うようにさらに実行可能である、請求項13に記載の電子機器。 - 前記命令が、
複数のスケーリング係数を取得することと、
前記複数のスケーリング係数に基づいて前記励起をスケーリングすることとを行うようにさらに実行可能である、請求項13に記載の電子機器。 - 前記命令が、
量子化線形予測係数パラメータを取得することと、
前記量子化線形予測係数パラメータに基づいて量子化線形予測係数のセットを決定することとを行うようにさらに実行可能である、請求項13に記載の電子機器。 - 前記命令が、前記励起と量子化線形予測係数の前記セットとに基づいて、合成音声信号を生成するようにさらに実行可能である、請求項16に記載の電子機器。
- 前記第1の符号化モードに基づいて前記励起を合成することが、
現在過渡フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した前記波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、請求項13に記載の電子機器。 - 前記第2の符号化モードに基づいて励起を合成することが、
第1のピーク位置を取得することと、
第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、請求項13に記載の電子機器。 - 前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、請求項19に記載の電子機器。
- 電子機器上で過渡フレームを符号化するための方法であって、
現在過渡フレームを取得することと、
前記現在過渡フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピーク位置のセットを決定することと、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、ここにおいて、前フレームに対して連続していると検出される過渡フレームを符号化するための前記第1の符号化モードを選択することと、または、前フレームに対して連続性を有さないと検出される過渡フレームを符号化するための前記第2の符号化モードを選択することとを具備し、
前記第1の符号化モードが決定された場合、波形補間を使用して励起を合成することと、
前記第2の符号化モードが決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成することとを備える、方法。 - 前記励起と前記現在過渡フレームとに基づいて複数のスケーリング係数を決定することをさらに備える、請求項21に記載の方法。
- ピーク位置のセットを決定することは、
前記残差信号及びウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1の閾値を下回る位置インデックスの第1のセットを選択することと、
包絡線値が包絡線中の最大値に対する第2の閾値を下回る位置インデックスをなくすことによって、位置インデックスの前記第1のセットから位置インデックスの第2のセットを決定することと、
近隣位置インデックスに対する差閾値を満たさない位置インデックスを削除することによって、位置インデックスの前記第2のセットから位置インデックスの第3のセットを決定することとを備える、請求項21に記載の方法。 - 線形予測係数のセットを取得するために、前記現在過渡フレームと前記現在過渡フレームより前の信号とを使用して線形予測分析を実行することと、
線形予測係数の前記セットに基づいて量子化線形予測係数のセットを決定することとをさらに備える、請求項21に記載の方法。 - 前記残差信号を取得することが、量子化線形予測係数の前記セットにさらに基づく、請求項24に記載の方法。
- 前記第1の符号化モードが「有声過渡」符号化モードであり、前記第2の符号化モードが「他の過渡」符号化モードである、請求項21に記載の方法。
- 第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することが、ピッチラグと、前フレームタイプと、エネルギー比とにさらに基づく、請求項21に記載の方法。
- 前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、請求項21に記載の方法。 - 前記第1の距離がピッチラグに基づいて決定され、前記第2の距離が前記ピッチラグに基づいて決定される、請求項28に記載の方法。
- 前記第1の符号化モードに基づいて励起を合成することが、
前フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、前記現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した前記波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、請求項21に記載の方法。 - 前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、請求項21に記載の方法。
- 前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、請求項31に記載の方法。
- 電子機器上で過渡フレームを復号するための方法であって、フレームタイプを取得することと、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得することと、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定することと、前記第1の符号化モードは、前フレームに対して連続していると符号化の間検出される過渡フレームを符号化するために使用され、及び、前記第2の符号化モードは、前記前フレームに対して連続性を有さないと符号化の間検出される過渡フレームを符号化するために使用される、
前記第1の符号化モードを使用すべきであると決定された場合、波形補間を使用して励起を合成することと、
前記第2の符号化モードを使用すべきであると決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成することとを備える、方法。 - ピッチラグパラメータを取得することと、
前記ピッチラグパラメータに基づいてピッチラグを決定することとをさらに備える、請求項33に記載の方法。 - 複数のスケーリング係数を取得することと、
前記複数のスケーリング係数に基づいて前記励起をスケーリングすることとをさらに備える、請求項33に記載の方法。 - 量子化線形予測係数パラメータを取得することと、
前記量子化線形予測係数パラメータに基づいて量子化線形予測係数のセットを決定することとをさらに備える、請求項33に記載の方法。 - 前記励起と量子化線形予測係数の前記セットとに基づいて、合成音声信号を生成することをさらに備える、請求項36に記載の方法。
- 前記第1の符号化モードに基づいて前記励起を合成することが、
現在過渡フレーム中の最後のピーク位置と前記現在過渡フレームのピッチラグとに基づいて、現在過渡フレーム中の最後のピークの位置を決定することと、
前記ピッチラグとスペクトル形状とに基づくプロトタイプ波形を使用した前記波形補間を使用して、前記前フレームの最後のサンプルと、前記現在過渡フレーム中の前記最後のピークの第1のサンプル位置との間で前記励起を合成することとを備える、請求項33に記載の方法。 - 前記第2の符号化モードに基づいて励起を合成することは、
第1のピーク位置を取得することと、
第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、請求項33に記載の方法。 - 前記プロトタイプ波形がピッチラグとスペクトル形状とに基づき、前記プロトタイプ波形が、前記ピッチラグと前記第1の位置とフレームサイズとに基づく回数だけ繰り返し配置される、請求項39に記載の方法。
- 電子機器に、現在過渡フレームを取得させるためのコードと、
前記電子機器に、前記現在過渡フレームに基づいて残差信号を取得させるためのコードと、
前記電子機器に、前記残差信号に基づいてピーク位置のセットを決定させるためのコードと、
前記電子機器に、少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定させるためのコードと、ここにおいて、前フレームに対して連続していると検出される過渡フレームを符号化するための前記第1の符号化モードを選択することと、または、前フレームに対して連続性を有さないと検出される過渡フレームを符号化するための前記第2の符号化モードを選択することとを具備し、
前記電子機器に、前記第1の符号化モードが決定された場合、波形補間を使用して励起を合成させるためのコードと、
前記電子機器に、前記第2の符号化モードが決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成させるためのコードとを備える、コンピュータプログラム。 - 前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定することは、
ピークの推定された数を決定することと、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択することと、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択することと、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択することと、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択することとを備える、請求項41に記載のコンピュータプログラム。 - 前記第2の符号化モードに基づいて励起を合成することが、第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することを備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、請求項41に記載のコンピュータプログラム。
- 電子機器に、フレームタイプを取得させるためのコードと、前記フレームタイプが過渡フレームを示す場合、
前記電子機器に、過渡符号化モードパラメータを取得させるためのコードと、
前記電子機器に、前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定させるためのコードと、前記第1の符号化モードは、前フレームに対して連続していると符号化の間検出される過渡フレームを符号化するために使用され、及び、前記第2の符号化モードは、前記前フレームに対して連続性を有さないと符号化の間検出される過渡フレームを符号化するために使用される、 前記電子機器に、前記第1の符号化モードを使用すべきであると決定された場合、波形補間を使用して励起を合成させるためのコードと、
前記電子機器に、前記第2の符号化モードを使用すべきであると決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成させるためのコードとを備える、コンピュータプログラム。 - 前記第2の符号化モードに基づいて励起を合成することは、
第1のピーク位置を取得することと、
第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成することであって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成することとを備える、請求項44に記載のコンピュータプログラム。 - 現在過渡フレームを取得するための手段と、
前記現在過渡フレームに基づいて残差信号を取得するための手段と、
前記残差信号に基づいてピーク位置のセットを決定するための手段と、
少なくともピーク位置の前記セットに基づいて、前記現在過渡フレームを符号化するために第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定するための手段と、ここにおいて、前フレームに対して連続していると検出される過渡フレームを符号化するための前記第1の符号化モードを選択することと、または、前フレームに対して連続性を有さないと検出される過渡フレームを符号化するための前記第2の符号化モードを選択することとを具備し、
前記第1の符号化モードが決定された場合、波形補間を使用して励起を合成するための手段と、
前記第2の符号化モードが決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成するための手段とを備える、過渡フレームを符号化するための装置。 - 前記第1の符号化モードを使用すべきか前記第2の符号化モードを使用すべきかを決定するための前記手段は、
ピークの推定された数を決定するための手段と、
ピーク位置の数がピークの前記推定された数よりも大きいかそれに等しい場合、前記第1の符号化モードを選択するための手段と、
ピーク位置の前記セット中の最後のピークが前記現在過渡フレームの終了から第1の距離内にあり、ピーク位置の前記セット中の第1のピークが前記現在過渡フレームの開始から第2の距離内にある場合、前記第1の符号化モードを選択するための手段と、
前フレームと前記現在過渡フレームとの間のエネルギー比が所定の範囲の外にある場合、前記第2の符号化モードを選択するための手段と、
前記前フレームのフレームタイプが無声又は無音である場合、前記第2の符号化モードを選択するための手段とを備える、請求項46に記載の装置。 - 前記第2の符号化モードに基づいて励起を合成するための前記手段が、第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成するための手段を備え、前記第1の位置が、ピーク位置の前記セットからの第1のピーク位置に基づいて決定される、請求項46に記載の装置。
- 過渡フレームを復号するための装置であって、フレームタイプを取得するための手段と、前記フレームタイプが過渡フレームを示す場合、
過渡符号化モードパラメータを取得するための手段と、
前記過渡符号化モードパラメータに基づいて、第1の符号化モードを使用すべきか第2の符号化モードを使用すべきかを決定するための手段と、前記第1の符号化モードは、前フレームに対して連続していると符号化の間検出される過渡フレームを符号化するために使用され、及び、前記第2の符号化モードは、前記前フレームに対して連続性を有さないと符号化の間検出される過渡フレームを符号化するために使用される、
前記第1の符号化モードを使用すべきであると決定された場合、波形補間を使用して励起を合成するための手段と、
前記第2の符号化モードを使用すべきであると決定された場合、ピッチラグと所定のスペクトル形状とに基づくプロトタイプ波形の1つまたは繰り返し配置の何れかを使用して励起を合成するための手段とを備える、装置。 - 前記第2の符号化モードに基づいて励起を合成するための手段は、
第1のピーク位置を取得するための手段と、
第1の位置において開始して前記プロトタイプ波形を繰り返し配置することによって前記励起を合成するための手段であって、前記第1の位置が前記第1のピーク位置に基づいて決定される、合成するための手段とを備える、請求項49に記載の装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38246010P | 2010-09-13 | 2010-09-13 | |
US61/382,460 | 2010-09-13 | ||
US13/228,210 | 2011-09-08 | ||
US13/228,210 US8990094B2 (en) | 2010-09-13 | 2011-09-08 | Coding and decoding a transient frame |
PCT/US2011/051039 WO2012036988A1 (en) | 2010-09-13 | 2011-09-09 | Coding and decoding a transient frame |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013541731A JP2013541731A (ja) | 2013-11-14 |
JP5727018B2 true JP5727018B2 (ja) | 2015-06-03 |
Family
ID=44652037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013529208A Expired - Fee Related JP5727018B2 (ja) | 2010-09-13 | 2011-09-09 | 過渡フレームの符号化及び復号化 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8990094B2 (ja) |
EP (1) | EP2617032B1 (ja) |
JP (1) | JP5727018B2 (ja) |
KR (1) | KR101545792B1 (ja) |
CN (1) | CN103098127B (ja) |
TW (1) | TWI459377B (ja) |
WO (1) | WO2012036988A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
CN104254886B (zh) * | 2011-12-21 | 2018-08-14 | 华为技术有限公司 | 自适应编码浊音语音的基音周期 |
PL2869557T3 (pl) | 2012-06-29 | 2024-02-19 | Electronics And Telecommunications Research Institute | Sposób i urządzenie do kodowania/dekodowania obrazów |
US9842598B2 (en) | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
CN104301064B (zh) * | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
US20150100318A1 (en) * | 2013-10-04 | 2015-04-09 | Qualcomm Incorporated | Systems and methods for mitigating speech signal quality degradation |
KR101782278B1 (ko) * | 2013-10-18 | 2017-10-23 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 스펙트럼의 피크 위치의 코딩 및 디코딩 |
US10140316B1 (en) * | 2014-05-12 | 2018-11-27 | Harold T. Fogg | System and method for searching, writing, editing, and publishing waveform shape information |
FR3024581A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
EP3541022A4 (en) * | 2016-11-10 | 2020-06-17 | Lac Co., Ltd. | COMMUNICATION CONTROLLER, COMMUNICATION CONTROL METHOD AND PROGRAM |
CN110619881B (zh) * | 2019-09-20 | 2022-04-15 | 北京百瑞互联技术有限公司 | 一种语音编码方法、装置及设备 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4991213A (en) * | 1988-05-26 | 1991-02-05 | Pacific Communication Sciences, Inc. | Speech specific adaptive transform coder |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
US5864795A (en) * | 1996-02-20 | 1999-01-26 | Advanced Micro Devices, Inc. | System and method for error correction in a correlation-based pitch estimator |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
US6226604B1 (en) * | 1996-08-02 | 2001-05-01 | Matsushita Electric Industrial Co., Ltd. | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JPH10105194A (ja) | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6029133A (en) * | 1997-09-15 | 2000-02-22 | Tritech Microelectronics, Ltd. | Pitch synchronized sinusoidal synthesizer |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640209B1 (en) | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6438518B1 (en) * | 1999-10-28 | 2002-08-20 | Qualcomm Incorporated | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
ES2269112T3 (es) | 2000-02-29 | 2007-04-01 | Qualcomm Incorporated | Codificador de voz multimodal en bucle cerrado de dominio mixto. |
JP2004109803A (ja) | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
US7519530B2 (en) * | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
GB2398983B (en) * | 2003-02-27 | 2005-07-06 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
WO2005024784A1 (en) * | 2003-09-09 | 2005-03-17 | Koninklijke Philips Electronics N.V. | Encoding of transient audio signal components |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
TWI358056B (en) * | 2005-12-02 | 2012-02-11 | Qualcomm Inc | Systems, methods, and apparatus for frequency-doma |
JP5052514B2 (ja) | 2006-07-12 | 2012-10-17 | パナソニック株式会社 | 音声復号装置 |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
CN101465122A (zh) * | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和*** |
KR101441896B1 (ko) * | 2008-01-29 | 2014-09-23 | 삼성전자주식회사 | 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치 |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US20090319261A1 (en) | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US8214201B2 (en) * | 2008-11-19 | 2012-07-03 | Cambridge Silicon Radio Limited | Pitch range refinement |
-
2011
- 2011-09-08 US US13/228,210 patent/US8990094B2/en active Active
- 2011-09-09 WO PCT/US2011/051039 patent/WO2012036988A1/en active Application Filing
- 2011-09-09 EP EP11757729.6A patent/EP2617032B1/en active Active
- 2011-09-09 KR KR1020137009115A patent/KR101545792B1/ko active IP Right Grant
- 2011-09-09 CN CN201180043611.9A patent/CN103098127B/zh active Active
- 2011-09-09 JP JP2013529208A patent/JP5727018B2/ja not_active Expired - Fee Related
- 2011-09-13 TW TW100132894A patent/TWI459377B/zh active
Also Published As
Publication number | Publication date |
---|---|
TW201216254A (en) | 2012-04-16 |
EP2617032A1 (en) | 2013-07-24 |
KR101545792B1 (ko) | 2015-08-19 |
WO2012036988A1 (en) | 2012-03-22 |
CN103098127B (zh) | 2015-08-19 |
TWI459377B (zh) | 2014-11-01 |
US8990094B2 (en) | 2015-03-24 |
US20120065980A1 (en) | 2012-03-15 |
EP2617032B1 (en) | 2014-12-31 |
KR20130086609A (ko) | 2013-08-02 |
JP2013541731A (ja) | 2013-11-14 |
CN103098127A (zh) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5727018B2 (ja) | 過渡フレームの符号化及び復号化 | |
JP5792311B2 (ja) | ピッチラグを推定すること | |
KR102248252B1 (ko) | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 | |
RU2418323C2 (ru) | Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом | |
US9053702B2 (en) | Systems, methods, apparatus, and computer-readable media for bit allocation for redundant transmission | |
KR101699138B1 (ko) | 리던던트 프레임 코딩 및 디코딩을 위한 디바이스들 | |
KR101548846B1 (ko) | 워터마킹된 신호의 적응적 인코딩 및 디코딩을 위한 디바이스 | |
CN105745703B (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
US7142559B2 (en) | Packet converting apparatus and method therefor | |
JP5639273B2 (ja) | ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること | |
US20150100318A1 (en) | Systems and methods for mitigating speech signal quality degradation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5727018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |