JPWO2005057550A1 - 音声圧縮伸張装置 - Google Patents
音声圧縮伸張装置 Download PDFInfo
- Publication number
- JPWO2005057550A1 JPWO2005057550A1 JP2005516130A JP2005516130A JPWO2005057550A1 JP WO2005057550 A1 JPWO2005057550 A1 JP WO2005057550A1 JP 2005516130 A JP2005516130 A JP 2005516130A JP 2005516130 A JP2005516130 A JP 2005516130A JP WO2005057550 A1 JPWO2005057550 A1 JP WO2005057550A1
- Authority
- JP
- Japan
- Prior art keywords
- compression
- audio data
- decompression apparatus
- circuit
- lpf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000007906 compression Methods 0.000 title claims abstract description 276
- 230000006835 compression Effects 0.000 title claims abstract description 274
- 230000006837 decompression Effects 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000003044 adaptive effect Effects 0.000 claims description 59
- 238000001514 detection method Methods 0.000 claims description 41
- 230000000903 blocking effect Effects 0.000 claims description 24
- 238000013139 quantization Methods 0.000 abstract description 50
- 230000005236 sound signal Effects 0.000 description 40
- 239000004065 semiconductor Substances 0.000 description 30
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 238000005070 sampling Methods 0.000 description 18
- 230000035939 shock Effects 0.000 description 8
- 230000001934 delay Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本発明の音声圧縮伸張装置は、ADPCM方式でデジタル音声データを圧縮伸張する際に、ADPCM回路(101)に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断するLPF(102)を備えることで、圧縮率を高めたことによって伸張後のデジタル音声データに発生する高周波数帯域の量子化ノイズを低減する。また、ADPCM回路(101)の圧縮ビットレートに応じてLPF(102)の特性を変えることのできるコントローラー(103)を備えることで、圧縮ビットレートに応じた最適な特性を持つLPFを構成することができ、使用者の好みに合わせた音質で音声データを再生することができる。
Description
本発明は、音声データの圧縮及び圧縮音声データの伸張を行う音声圧縮伸張装置に関し、特に、適応差分パルス符号変調(Adaptive Differential Pulse Code Modulation;ADPCM)方式により、音声データの圧縮及び圧縮音声データの伸張を行う音声圧縮伸張装置に関する。
音声信号を原音声信号に近い形で蓄積する際に行なう代表的な音声信号の変調方式として、パルスコード符号変調(Pulse Code Modulation;PCM)方式、デルタ変調(Delta Modulation;DM)方式、差分パルス符号変調(Differential Pulse Code Modulation;DPCM)方式、ADPCM方式がある。
PCM方式は、音声波形をある周期ごとにサンプリングして各サンプリング点での音声信号値をアナログ/デジタル変換(A/D変換)し、その値を0と1の符号別で表示する方式であり、音声信号値をデジタル符号化するときに必要とするビット数は、初めのアナログ信号をどの程度忠実に記録したいかの要求により決まる。ビット数を増やせば増やすほど信号の細かな変化も記録され、デジタル誤差に基づく雑音が少なくなり、実際の音の波形に近い音になるため、音質は良くなる。しかし、ビット数を増やすほど音声データが大きくなり、音声データを記録するメモリの容量が増加するという欠点がある。そこで、ある限られた容量のメモリに多くの音声データを記録するために、効率的に音声データを圧縮する必要がある。
その方法の1つとして、1サンプルの音声信号の情報に対し、量子化して変調するデータ量を最低限の1ビットとしたDM方式がある。DM方式は、あるタイミングの信号とその次のタイミングの信号とを比較して、現在のタイミングの音声信号値が次のタイミングの音声信号値より高いか低いかを判定して、高ければ符号1、低ければ符号0を与えることによって音声信号を符号化することを特徴とする。従って、メモリは各サンプリングクロックに対して1ビットずつデータを記録すればよい。こうすればメモリの容量が少なくてすむので、音声データを長時間記録することが可能となる。例えば、音声データを圧縮せずに変調する方式ではメモリに限度があるので10秒位しか音声データを記録できないところを、このDM方式では約10倍の100秒位まで音声データを記録できる。しかし、DM方式は、1クロックに対して音声信号値(アナログ値)が1ステップしか変化しないので音質が悪くなるという欠点がある。
DM方式とPCM方式の中間ともいうべき方式がDPCM方式である。DPCM方式は、DM方式における1ビット量子化の部分を複数のビットに置き換えたもので、あるサンプリングクロックでの音声信号値と、その次のサンプリングクロックの音声信号値との残差信号値を直接記憶することを特徴とする。しかし、DPCM方式では音声信号の波形がどのような傾斜で上っているかを記録することができないという欠点がある。
この問題を解決し、DPCM方式で適応予測を行なう方式をADPCM方式と呼んでいる。ADPCM方式は、あるサンプリングクロックの音声信号値とその次のサンプリングクロックの音声信号値とを比較して、入力された信号と予測信号との差分を複数ビットで量子化することで、音声データを圧縮することを特徴とする。
従来、ADPCM方式を用いて音声データを圧縮して、圧縮データを記録再生する音声記録再生装置が提案されている(特許文献1参照)。以下、特許文献1に記載の音声記録再生装置について図9を用いて説明する。この音声記録再生装置は、ローパスフィルター(LPF)901で高周波数帯域を遮断したアナログ音声信号をA/D変換回路902でデジタル信号にA/D変換する。そして、ADPCM回路903でデジタル信号をADPCM方式により圧縮する。圧縮された音声データは半導体メモリ907に記録される。記録した音声データを再生するときは、半導体メモリ907から圧縮データを読み出し、ADPCM回路903で伸張した後、D/A変換回路904でアナログ信号に変換する。なお、ADPCM回路903は、圧縮処理と逆の処理を行うことで、圧縮した音声データを伸張する。そして、D/A変換回路904から出力されるアナログ信号の高周波数帯域をLPF905で遮断し、そのアナログ信号に対して再生用増幅回路906で再生処理を行う。なお、図9において、制御部908は、ADPCM回路903の圧縮伸張動作と、半導体メモリ907への圧縮データの記録及び半導体メモリ907からの圧縮データの読み出しを制御する。
特開昭63−259700号公報 特開平6−85607号公報
上述のように、ADPCM方式を用いることによって、高音質を維持しつつ、音声データの圧縮を図ることができる。しかし、ADPCM方式は、量子化ノイズのパワースペクトルの分布が周波数的に一様ではないため、高周波数帯域に量子化ノイズが発生しやすいという欠点がある。例えば、同一のサンプリング周波数で比較すると、符号ビット数を1ビット減少させると、ノイズの周波数帯域は約1/2となってしまう。このため、符号ビット数を減少させて行き、ある圧縮ビットレートを超えてしまうと、量子化ノイズが発生する周波数帯域が人間の可聴帯域(22kHz程度まで)に入ってしまう。この場合、可聴な量子化ノイズが音声に混入し、耳障りな音となってしまう。したがって、ADPCM方式では、低い圧縮率で音声データを圧縮する場合は、量子化ノイズはほとんど目立たないが、音声データの圧縮率を高くしすぎると、特に高周波数帯域において目立った量子化ノイズが発生してしまう。以上のことから、従来のADPCM方式では、ある一定以上の圧縮率で音声データを圧縮するのは困難であった。
図9に示す音声記録再生装置では、A/D変換前に高周波数成分をLPF901で除去しているが、このLPFは、アナログ信号をデジタル化するためにデータとしては現れない成分、又は原音と異なる波形として現れる成分を除去するだけであり、音声データをADPCM方式で圧縮する際に発生する高周波数帯域の量子化ノイズを低減することはできない。また、この音声記録再生装置は、アナログ信号を取り込んで圧縮するため、記録媒体に、例えば、CD−DA(Compact Disk−Digital Audio)方式で記録されているデジタル音声データを処理することはできない。
以上のことから、本発明では、ADPCM方式でデジタル音声データを圧縮伸張する際に、高周波数帯域に発生する量子化ノイズを低減する音声圧縮伸張装置を提供することを目的とする。
前記課題を解決するために、本発明(請求項1)に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする。
また、本発明(請求項2)に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする。
また、本発明(請求項3)に係る音声圧縮伸張装置は、請求項1または請求項2に記載の音声圧縮伸張装置において、前記高音域成分遮断部がローパスフィルターであることを特徴とする。
また、本発明(請求項4)に係る音声圧縮伸張装置は、請求項2に記載の音声圧縮伸張装置において、前記高音域成分遮断部がノイズシェーパーであることを特徴とする。
また、本発明(請求項5)に係る音声圧縮伸張装置は、請求項1または請求項2に記載の音声圧縮伸張装置において、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーを備えることを特徴とする。
また、本発明(請求項6)に係る音声圧縮伸張装置は、請求項1に記載の音声圧縮伸張装置において、前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データに対し、前記高音域成分遮断部によって遮断された高音域成分に相当するノイズ成分を付加するノイズ付加回路を備えることを特徴とする。
また、本発明(請求項7)に係る音声圧縮伸張装置は、請求項6に記載の音声圧縮伸張装置において、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性と、前記ノイズ成分、前記ノイズ成分を付加する周波数帯域、及びノイズの音量のうちの少なくとも1つを変えるコントローラーを備えることを特徴とする。
また、本発明(請求項8)に係る音声圧縮伸張装置は、請求項1または請求項2に記載の音声圧縮伸張装置において、前記高音域成分遮断部が、入力デジタル音声データを遅延する複数の第1遅延回路と、前記複数の第1遅延回路の出力に予め設定された係数を乗算する複数の第1乗算器と、前記入力デジタル音声データと前記複数の第1乗算器の出力とを加算する第1加算器と、前記第1加算器の出力に予め設定された係数を乗算する第2乗算器と、出力デジタル音声データを遅延する複数の第2遅延回路と、前記複数の第2遅延回路の出力に予め設定された係数を乗算する複数の第3乗算器と、前記第2乗算器の出力と前記複数の第3乗算器の出力とを加算する第2加算器と、前記第2加算器の出力に予め設定された係数を乗算する第4乗算器と、を備えるローパスフィルターであることを特徴とする。
また、本発明(請求項9)に係る音声圧縮伸張装置は、請求項8に記載の音声圧縮伸張装置において、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記ローパスフィルターの遮断周波数特性を変えるコントローラーを備え、前記コントローラーが、前記複数の第1乗算器の各係数と前記複数の第3乗算器の各係数とを、乗算器毎に変えることを特徴とする。
また、本発明(請求項10)に係る音声圧縮伸張装置は、請求項1に記載の音声圧縮伸張装置において、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高音域の振幅を検出する振幅検出回路と、前記振幅検出回路により検出された振幅としきい値とを比較し、その比較結果に基づいて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備えることを特徴とする。
また、本発明(請求項11)に係る音声圧縮伸張装置は、請求項10に記載の音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、しきい値を超えた場合、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする。
また、本発明(請求項12)に係る音声圧縮伸張装置は、請求項10に記載の音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えた場合、または前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えなかった場合に、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする。
本発明に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする。これにより、適応差分パルス符号変調方式にてデジタル音声データを圧縮伸張する際に、圧縮率を高めたことによって発生する伸張後のデジタル音声データの高周波数帯域における量子化ノイズを低減することができる。
また、本発明に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする。これにより、適応差分パルス符号変調方式にてデジタル音声データを圧縮伸張する際に、圧縮率を高めたことによって発生する伸張後の音声データの高周波数帯域における量子化ノイズを低減することができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記高音域成分遮断部がノイズシェーパーであることを特徴とする。これにより、量子化ノイズを効果的に除去して、デジタル音声データを高音質で再生することができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーを備えることを特徴とする。これにより、前記高音域成分遮断部の遮断周波数特性を、適応差分パルス符号変調回路の圧縮ビットレートに応じた最適な特性に変えることができ、その結果、使用者の好みに合わせた音質で、デジタル音声データを再生することができる。
また、本発明に係る音声圧縮伸張装置は前記音声圧縮伸張装置において、前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データに対し、前記高音域成分遮断部によって遮断された高音域成分に相当するノイズ成分を付加するノイズ付加回路を備えることを特徴とする。これにより、適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データを前記高音域成分遮断部に通したことによって抑制された高音域成分を擬似的に再現することができる。その結果、高音域が抑制されることが原因で生じる再生時の音声データの不自然さをなくし、人間にとって快適な音声データの再生を実現することができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性と、前記ノイズ成分、前記ノイズ成分を付加する周波数帯域、及びノイズの音量のうちの少なくとも1つを変えるコントローラーを備えることを特徴とする。これにより、圧縮ビットレートに応じて、付加する前記ノイズ成分、前記ノイズ成分を付加する周波数帯域、またはノイズの音量を制御することができ、音声データを高音質で再生することができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記高音域成分遮断部が、入力デジタル音声データを遅延する複数の第1遅延回路と、前記複数の第1遅延回路の出力に予め設定された係数を乗算する複数の第1乗算器と、前記入力デジタル音声データと前記複数の第1乗算器の出力とを加算する第1加算器と、前記第1加算器の出力に予め設定された係数を乗算する第2乗算器と、出力デジタル音声データを遅延する複数の第2遅延回路と、前記複数の第2遅延回路の出力に予め設定された係数を乗算する複数の第3乗算器と、前記第2乗算器の出力と前記複数の第3乗算器の出力とを加算する第2加算器と、前記第2加算器の出力に予め設定された係数を乗算する第4乗算器とを備えるローパスフィルターであることを特徴とする。これにより、LPFの遮断周波数特性をより細かく調整することができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高音域の振幅を検出する振幅検出回路と、前記振幅検出回路により検出された振幅としきい値とを比較し、その比較結果に基づいて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備え、前記コントローラーが、前記振幅検出回路により検出された振幅が、しきい値を超えた場合、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする。これにより、前記高音域成分遮断部の遮断周波数特性を、音声データの性質に応じて変えることができる。その結果、音声データの性質に応じて、使用者が高音域成分遮断部の遮断周波数特性を変えることなく、または初めて聴く音声データにおいても、高音域成分遮断部の遮断周波数特性を音声データに合った特性に変えることができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えた場合、または前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えなかった場合に、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする。これにより、高音域の長さが異なる様々な種類の音声データに対応して、前記高音域成分遮断部の遮断周波数特性を変えることができる。
101、806、903 ADPCM回路
102、202、805、901、905 LPF
103 コントローラー
104 ノイズ付加回路
105 振幅検出回路
501a〜501c、508a〜508c、701、812 遅延回路
502a〜502c、504、506、507a〜507c、702、704、813、815 乗算器
503、505、703、814 加算器
801 CD
802 ピックアップ
803 ヘッドアップ
804 デジタル信号処理回路
808、907半導体 メモリ
809、904 D/A変換回路
810 アンプ
811 スピーカー
902 A/D変換回路
908 制御部
102、202、805、901、905 LPF
103 コントローラー
104 ノイズ付加回路
105 振幅検出回路
501a〜501c、508a〜508c、701、812 遅延回路
502a〜502c、504、506、507a〜507c、702、704、813、815 乗算器
503、505、703、814 加算器
801 CD
802 ピックアップ
803 ヘッドアップ
804 デジタル信号処理回路
808、907半導体 メモリ
809、904 D/A変換回路
810 アンプ
811 スピーカー
902 A/D変換回路
908 制御部
(実施の形態1)
以下、本発明の実施の形態1に係る音声圧縮伸張装置について図1を用いて説明する。図1に示す音声圧縮伸張装置は、ADPCM回路101と、LPF102とを備え、入力したデジタル音声データをADPCM方式で圧縮伸張する。入力するデジタル音声データは、例えば、記録媒体にCD−DA方式で記録されているデジタル音声データである。
以下、本発明の実施の形態1に係る音声圧縮伸張装置について図1を用いて説明する。図1に示す音声圧縮伸張装置は、ADPCM回路101と、LPF102とを備え、入力したデジタル音声データをADPCM方式で圧縮伸張する。入力するデジタル音声データは、例えば、記録媒体にCD−DA方式で記録されているデジタル音声データである。
図1において、音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部を備える。本発明の実施の形態1に係る音声圧縮伸張装置は、この高音域成分遮断部としてLPF102を備え、このLPF102によって高音域成分を直接的に遮断する。
図7にLPF102の簡単な構成例を示す。図7において、LPF102は、入力したデジタル音声データを遅延回路701で遅延し、遅延データに乗算器702で乗算係数α1を乗算し、入力したデジタル音声データと乗算器702の出力とを加算器703で加算し、加算器703の出力に、乗算係数α1に1を加算した加算結果の逆数を乗算器704で乗算する。そして、この乗算器704の出力がADPCM回路101に入力される。
このようにして、高周波数帯域上に存在する高音域成分を遮断したデジタル音声データをADPCM回路101でADPCM方式により圧縮する。ADPCM方式による圧縮処理及び伸張処理については従来の技術で説明したので、ここでの説明は省略する。
以上のように、本発明の実施の形態1に係る音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF102で遮断するようにした。これにより、ADPCM方式によりデジタル音声データを圧縮する際に、圧縮率を高めたことによって、伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを低減することができる。
その結果、本発明の実施の形態1に係る音声圧縮伸張装置は、ショックプルーフ再生に対して有用なものになる。ショックプルーフ再生とは、例えば、CDからCD−DA方式で記録されたPCM信号を読み出し、その音声データを再生させるときに、何らかの外的要因によって信号を読み出せなかった場合に備えて、音声データを圧縮して半導体メモリに記録しておく方法である。本発明の実施の形態1に係る音声圧縮伸張装置は、音声データの圧縮率を高めても高周波数帯域に発生する量子化ノイズを抑えることができることから、ショックプルーフ再生において、音声データの圧縮率を高くして半導体メモリの容量を有効に利用することができる。
(実施の形態2)
以下、本発明の実施の形態2に係る音声圧縮伸張装置について図2を用いて説明する。図2に示す音声圧縮伸張装置が、図1に示す音声圧縮伸張装置と異なる点は、ADPCM回路101の後段に高音域成分遮断部としてLPF202を備える点である。すなわち、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202で直接的に遮断する。
以下、本発明の実施の形態2に係る音声圧縮伸張装置について図2を用いて説明する。図2に示す音声圧縮伸張装置が、図1に示す音声圧縮伸張装置と異なる点は、ADPCM回路101の後段に高音域成分遮断部としてLPF202を備える点である。すなわち、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202で直接的に遮断する。
以上のように、本発明の実施の形態2に係る音声圧縮伸張装置は、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202により直接的に遮断するようにした。これにより、ADPCM方式によりデジタル音声データを圧縮する際に、圧縮率を高めたことによって、伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを低減することができる。
なお、本発明の実施の形態2では、ADPCM回路の後段に高音域成分遮断部としてLPFを備えるようにしたが、本発明はこれに限るものではなく、高音域成分遮断部としてADPCM回路の後段にノイズシェイパーを備え、このノイズシェーパーによってADPCM回路から出力される伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを除去するようにしても良い。この場合、ノイズシェーパー自体の構成が複雑なこともあり、回路構成全体も複雑化してしまうが、量子化ノイズを効果的に除去することができるため、デジタル音声データを高音質で再生することが可能となる。
(実施の形態3)
以下、本発明の実施の形態3に係る音声圧縮伸張装置について図3を用いて説明する。図3に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にさらにコントローラー103を備えることを特徴とする。コントローラー103は、ADPCM回路101の圧縮ビットレートに応じてLPF102の特性(遮断周波数特性)を変える。
以下、本発明の実施の形態3に係る音声圧縮伸張装置について図3を用いて説明する。図3に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にさらにコントローラー103を備えることを特徴とする。コントローラー103は、ADPCM回路101の圧縮ビットレートに応じてLPF102の特性(遮断周波数特性)を変える。
例えば、ADPCM回路101の圧縮ビットレートのビット数を大きくして、圧縮率を低くすると、伸張後のデジタル音声データの量子化ノイズがあまり目立たず、LPFを通すことによって高周波数帯域を過剰に遮断してしまい、音質の低下を招いてしまう場合がある。この場合、コントローラー103は、デジタル音声データをLPF102に通さないように制御するか、またはLPF102の特性をカットオフの立下りが緩やかなものにする。なお、LPF102の構成が図7に示す構成の場合、コントローラー103は乗算係数α1を0にすることで、デジタル音声データがLPF102を通過しないことにできる。また、乗算係数α1を変えることで、LPF102の特性をカットオフの立下りが緩やかなものになるように制御しても良い。なお、カットオフとは、どの周波数帯域から音声データを遮断するかを意味し、カットオフの立ち下がりとは、音声データを遮断する周波数帯域からの立ち下がりを意味する。
これに対して、ADPCM回路101の圧縮ビットレートのビット数を小さくして、圧縮率を高めることで、伸張後のデジタル音声データの高周波数帯域に目立った量子化ノイズが発生してしまう場合は、LPF102の特性をカットオフの立下りが急峻なものにして、音声データを再生する際の音質の低下を抑える。LPF102の構成が図7に示す構成である場合、コントローラー103は乗算係数α1を変えることでLPF102の特性をカットオフの立下りが急峻なものにできる。
さらに、コントローラー103は、LPF102の特性だけでなく、ADPCM回路101の圧縮ビットレートを変えるようにする。ADPCM回路の圧縮ビットレートを変えるには、デジタル音声データを圧縮する階調の段階を変化させる。例えば、デジタル音声データが16ビット(65536種類のデータ)で、圧縮ビットレートを4ビット(16階調のデータ)にする場合には、デジタル音声データを±8段階(16種類)の階調に割り当て、圧縮ビットレートを3ビット(8階調のデータ)にする場合には、デジタル音声データを±4段階(8種類)の階調に割り当てる。そして、音声の値がある範囲の間にあれば、X階調目、というように、データを振り分ける。すなわち、音声の値に応じて、データを振り分ける階調を決定する。なお、音声の値に応じてデータを振り分ける階調を決める基準となるデータは、圧縮ビットレート(例えば、4ビットや、3ビット)に応じて、それぞれ予め設定しておく。
また、コントローラー103は、使用者からの指示を受け付ける機能を有するようにしても良い。これにより、LPF102の特性を使用者が変えることができる。使用者の好みに応じて手動でLPF102の特性を変えることによって、音声データを使用者の好みの音質で再生できる。再生した音声データの音質が良いか悪いかという判断についてはすべて使用者の好みが反映されるため、使用者の好みに合わせてLPF102の特性を変えることは有効である。さらに、コントローラー103が使用者からの指示に基づいてLPF102の特性と共にADPCM回路101の圧縮ビットレートを変えるようにしても良い。これにより、メモリに保存する音声データの時間も使用者が手動で変えることができる。LPF102の特性と圧縮ビットレートの両方を変えることができることで、音質を重視するか、より多くの音声データをメモリ(例えば、半導体メモリ)に記録するかを、使用者が選択することができる。
また、コントローラー103が自動でLPF102の特性を変化させることも有効である。例えば、使用者が一度聴いた音声データに合った好みのLPF102の特性を記憶しておき、次回からは自動的にそのLPF102の特性を選択するといった機能をコントローラー103に持たせることで、利便性を上げることもできる。同様に、使用者が設定した圧縮ビットレートを記憶しておき、次回からその圧縮ビットレートを自動的にコントローラー103が選択するようにしても良い。
以上のように、本発明の実施の形態3に係る音声圧縮伸張装置は、ADPCM回路101と、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断するLPF102と、LPF102の特性をADPCM回路101の圧縮ビットレートに応じて変えるコントローラー103とを備えるようにした。これにより、ADPCM回路101の圧縮ビットレートに応じた最適なLPFの特性を選択することができ、その結果、使用者の好みに合わせた音質で、音声データを再生することができる。さらに、コントローラー103がADPCM回路101の圧縮ビットレートも変えるようにすることで、使用者の好みに合わせてメモリに記録できる音声データの時間を変えることができる。
なお、実施の形態3では、図1に示す音声圧縮伸張装置にコントローラー103を備える場合について説明したが、本発明はこれに限るものでなく、図2に示す音声圧縮伸張装置にコントローラー103を備えることでも良い。
(実施の形態4)
以下、本発明の実施の形態4に係る音声圧縮伸張装置について図4を用いて説明する。図4に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にノイズ付加回路104を備えることを特徴とする。ノイズ付加回路104は、ADPCM回路101から出力される伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズ成分を付加する。具体的には、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加する。以下、ノイズ付加回路104の一例について説明する(特許文献2参照)。特許文献2に記載のノイズ付加回路は、原音声信号の周波数分析を行い、分析結果から原音声信号帯域中の基音と倍音が組みで存在する音色成分を抽出する。そして、抽出した音色成分を用いて、原音声信号帯域より高音域側の倍音成分を予測し、予測した倍音成分を原音声信号に挿入する。なお、ノイズ付加回路104は、これに限るものではなく、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加するものであれば何でも良い。
以下、本発明の実施の形態4に係る音声圧縮伸張装置について図4を用いて説明する。図4に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にノイズ付加回路104を備えることを特徴とする。ノイズ付加回路104は、ADPCM回路101から出力される伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズ成分を付加する。具体的には、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加する。以下、ノイズ付加回路104の一例について説明する(特許文献2参照)。特許文献2に記載のノイズ付加回路は、原音声信号の周波数分析を行い、分析結果から原音声信号帯域中の基音と倍音が組みで存在する音色成分を抽出する。そして、抽出した音色成分を用いて、原音声信号帯域より高音域側の倍音成分を予測し、予測した倍音成分を原音声信号に挿入する。なお、ノイズ付加回路104は、これに限るものではなく、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加するものであれば何でも良い。
さらに、図4に示す音声圧縮伸張装置は、図3に示すコントローラー103を備え、このコントローラーが、ADPCM回路101の圧縮ビットレートに応じて、LPF102の特性と共にノイズ付加回路104を制御するようにしても良い。具体的には、付加するノイズ成分や、ノイズを付加する周波数帯域や、ノイズの音量等を制御する。これにより、圧縮ビットレートに応じて、付加するノイズ成分、ノイズを付加する周波数帯域、ノイズの音量等を最適なものに変えて、音声データを高音質で再生することができる。
さらに、コントローラーは、ADPCM回路101の圧縮ビットレートを変えるようにしても良い。
以上のように本発明の実施の形態4に係る音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データをLPF102に通して、高周波数帯域上に存在する高音域成分を遮断する際に、ADPCM回路101が出力する伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズを付加するノイズ付加回路104を備えるようにした。これにより、LPF102によって遮断された高音域成分を擬似的に再現することができる。その結果、高音域が遮断されてしまうことによる再生音声データの不自然さをなくし、人間にとって快適な音声データの再生を実現することができる。
(実施の形態5)
以下、本発明の実施の形態5に係る音声圧縮伸張装置について図5を用いて説明する。実施の形態5に係る音声圧縮伸張装置は、図1〜図4のいずれかに示すLPFを、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高周波数帯域上の高音域成分を遮断する構成とする。具体的には、図5に示すように、入力側の遅延回路及び乗算器をそれぞれ複数備え、さらに、出力側にも遅延回路及び乗算器をそれぞれ複数備える。
以下、本発明の実施の形態5に係る音声圧縮伸張装置について図5を用いて説明する。実施の形態5に係る音声圧縮伸張装置は、図1〜図4のいずれかに示すLPFを、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高周波数帯域上の高音域成分を遮断する構成とする。具体的には、図5に示すように、入力側の遅延回路及び乗算器をそれぞれ複数備え、さらに、出力側にも遅延回路及び乗算器をそれぞれ複数備える。
以下、図5に示すLPF500の動作について説明する。まず、入力側の複数の第1遅延回路(遅延回路501a〜501c)が数サンプル分の入力デジタル音声データを遅延する。次に、複数の第1乗算器が複数の第1遅延回路の出力に対して予め設定した係数を乗算する。すなわち、遅延回路501aの出力に乗算器502aが乗算係数α1を、遅延回路501bの出力に乗算器502bが乗算係数α2を、遅延回路501cの出力に乗算器502cが乗算係数α3を乗算する。次に、第1加算器(加算器503)が乗算器502a〜502cの出力と入力デジタル音声データを加算する。次に、第2乗算器(乗算器504)が加算器503の出力に対して、予め設定した係数として、乗算係数α1〜α3の合計に1を加算した加算結果の逆数(1/1+α1+α2+α3)を乗算する。この乗算器504の係数は、正確に(1/1+α1+α2+α3)の値でなくても良く、おおよそ(1/1+α1+α2+α3)の値で良い。次に、出力側の複数の第2遅延回路(遅延回路508a〜508c)が出力デジタル音声データを数サンプル分遅延する。次に、複数の第3乗算器が複数の第2遅延回路の出力に対して予め設定した係数を乗算する。すなわち、遅延回路508aの出力に乗算器507aが乗算係数β1を、遅延回路508bの出力に乗算器507bが乗算係数β2を、遅延回路508cの出力に乗算器508cが乗算係数β3を乗算する。次に、第2加算器(加算器505)が乗算器507a〜507cの出力と乗算器504の出力とを加算する。次に、第4乗算器(乗算器506)が加算器505の出力に対して、予め設定した係数として、乗算係数β1〜β3の合計に1を加算した加算結果の逆数(1/1+β1+β2+β3)を乗算する。この乗算器506の係数は、正確に(1/1+β1+β2+β3)の値でなくても良く、おおよそ(1/1+β1+β2+β3)の値で良い。そして、乗算器506の出力が高周波数帯域上の高音域成分が除去されたデジタル音声データとして外部に出力される。
また、コントローラーを用いて、ADPCM回路101の圧縮ビットレートに応じてLPF500の特性を変えるようにしても良い。その場合は、乗算器501a〜501bの乗算係数α1,2,3と、乗算器507a〜507cの乗算係数β1,2,3とをそれぞれ変えるだけで良い。
以上のように、本発明の実施の形態5に係る音声圧縮伸張装置によれば、ADPCM回路101で圧縮前のデジタル音声データまたはADPCM回路101で伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断するLPFの構成を、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高音域成分を遮断する構成としたことから、LPFの特性をより細かく調整できる。
なお、本発明の実施の形態5において、LPF500は、入力側と出力側に3個の遅延回路と乗算器をそれぞれ備えるようにしたが、遅延回路及び乗算器の数はこれに限るものではなく、複数であれば良い。さらに、入力側及び出力側のうちのいずれか一方の側の遅延回路及び乗算器を複数備えることでも良い。
(実施の形態6)
以下、本発明の実施の形態6に係る音声圧縮伸張装置について図6を用いて説明する。図6に示す音声圧縮伸張装置は、図3に示す音声圧縮伸張装置に振幅検出回路105をさらに備えることを特徴とする。
以下、本発明の実施の形態6に係る音声圧縮伸張装置について図6を用いて説明する。図6に示す音声圧縮伸張装置は、図3に示す音声圧縮伸張装置に振幅検出回路105をさらに備えることを特徴とする。
振幅検出回路105はデジタル音声データの高音域における予め設定された周波数帯域の振幅を検出する。コントローラー103は、振幅検出回路105が検出した振幅に基づいてLPF102の特性を変える。具体的には、振幅検出回路105が検出した振幅が予め設定されたしきい値を超えるとLPF102の特性を変える。振幅が大きくなると、伸張後のデジタル音声データの量子化ノイズが大きくなることが想定されるので、LPF102の特性をカットオフの立ち下がりが急峻なものに変える。
また、音声データはその種類によって高音域の長さが異なるので、コントローラー103は、振幅検出回路105が検出した振幅が予め設定した時間(数サンプル分)、しきい値を超えた場合に、自動的にLPF102の特性を変えるようにしても良い。この場合、コントローラー103は、LPF102の特性をカットオフの立ち下がりが急峻なものに変える。また、振幅検出回路105が検出した振幅が、予め設定した時間、しきい値を超えなかった場合に、LPF102の特性を変えるようにしても良い。この場合、コントローラー103はLPF102の特性をカットオフの立ち下がりが緩やかなものに変える。
以上のように本発明の実施の形態6に係る音声圧縮伸張装置は、デジタル音声データの高音域における予め設定された周波数帯域の振幅を検出する振幅検出回路105を備え、この振幅に応じて、デジタル音声データの高周波数帯域を遮断するLPF102の特性をコントローラー103が変えるようにした。これにより、音声データの違いによって使用者がその都度LPF102の特性を変える必要がなくなる。また、初めて視聴する音声データに対しても、その音声データの特性に最適なLPF102の特性を設定することが可能となる。
以下、本発明に係る音声圧縮伸張装置の実施例について図8を用いて説明する。本実施例では、本発明の音声圧縮伸張装置をショックプルーフ再生に適応する場合について説明する。
図8に示す再生装置は、CD801からピックアップ802を介して読み出したRF信号をヘッドアンプ803にて増幅し、デジタル信号処理回路804でRF信号をサンプリング周波数44.1kHzの16ビットのPCM信号に復調する。そしてこの信号をLPF805に通した後、ADPCM回路806で圧縮、すなわち、16ビットのPCM信号を4ビット又は3ビットの圧縮音声データに圧縮し、半導体メモリ808に記録する。また同時に再生も行い、半導体メモリ808に記録された圧縮音声データをADPCM回路806で伸張した後、D/A変換回路809でアナログ信号に変換し、このアナログ信号をアンプ(AMP)810で増幅してスピーカー(SP)811で再生する。このような構成により、何らかの原因でCDからの音声データを得ることができなかった場合、例えば外部からの振動によってCDからデータを読み取っているピックアップが外れた場合においても、半導体メモリ808に記憶している圧縮音声データを利用して再生を続行させ、その間にCDから音声データを読み出すことができなくなった原因を取り除いて、再生を中断させることなく元の状態に復帰させることができる。実際に、半導体メモリに16MビットのDRAM(Dynamic RAM)を用いた時、ADPCM回路806にて4ビットの圧縮を行なった場合には約45秒の音声データを、3ビットの圧縮を行った場合には約60秒の音声データを半導体メモリに記録することができる。
ここで、音声データを半導体メモリに長時間記録しておく方法として、半導体メモリの容量を増やすか、又は音声データの圧縮率を高めるという方法が考えられる。ところが、メモリ容量の増加はコストアップや装置の増大を招くことにつながり、また圧縮率を高めすぎると、音声データの高周波数帯域の量子化ノイズが増大するという問題が生じる。実際に、デジタル信号処理回路804にて復調された16ビットのPCM信号を、LPF805を通さずに直接ADPCM回路806に入力し、3ビットで圧縮を行なったとき、伸張後の音声データを再生すると、高周波数帯域において可聴な量子化ノイズが目立ったものとなった。
そこで、本実施例では、この可聴な量子化ノイズを抑制するために、ADPCM回路806に入力する圧縮前のPCM信号をLPF805に通し、高周波数帯域上に存在する高音域成分を遮断する。なお、LPF805の動作は、図7に示すLPFの動作と同様であるで説明を省略する。また、LPF805の構成は図5に示すLPF500と同様の構成であっても良い。
ここで、ADPCM回路806の圧縮ビットレートが3ビットであり、3ビットでPCM信号を圧縮すると量子化ノイズが発生したとする。この場合、コントローラー807は、この圧縮ビットレートで量子化ノイズを抑制する最適な乗算係数α1をLPF805内の乗算器813に設定する。例えば乗算係数α1の値を1と設定すると、入力PCM信号と、その1サンプリングクロック前に入力されたPCM信号との中間値を取ることになり、PCM信号の高周波数帯域上に存在する高音域成分が遮断される。本実施例ではα1=1としたが、α1の値は1以外でも値でも良い。なお、乗算係数α1は整数でなくても良い。
一方、圧縮率を低くして高音質で音声データを再生させる場合には、PCM信号をLPF805に通さずに直接ADPCM回路806に入力したとしても、可聴な量子化ノイズがそれほど目立たないことがある。この場合においてもPCM信号をLPF805に通すと、PCM信号から高周波数帯域上に存在する高音域成分を過剰に遮断してしまい、再生時の音声データの音質を低下させてしまうことになる。例えば、上述のように3ビットの圧縮ビットレートに応じてLPF805の乗算係数α1を設定しておくと、ADPCM回路806の圧縮ビットレートを4ビットにした場合、再生時の音声データの音質を低下させてしまうことになる。よって、圧縮率を低くすることで、LPF805にPCM信号を通す必要がない場合には、コントローラー807により、α1の値を0とし、元のPCM信号のままADPCM回路806で圧縮を行なうようにする。また、乗算係数α1の値を変えて、LPF805の特性をカットオフの立ち下がりがより緩やかなものになるようにしても良い。
なお、本実施例では、ADPCM回路806に入力される圧縮前のPCM信号をLPF805に通す場合について説明したが、ADPCM回路806の後段にLPF805を備え、ADPCM回路806が出力する音声データをLPF805に通すことでも良い。
本発明は、デジタル音声データをADPCM方式によって圧縮し、圧縮データを記録しながら再生(例えば、ショックプルーフ再生)する装置及び方法に好適である。また、デジタル音声データをメモリに記憶する場合だけでなく、デジタル音声データを圧縮して伝送する場合にも有用である。
本発明は、音声データの圧縮及び圧縮音声データの伸張を行う音声圧縮伸張装置に関し、特に、適応差分パルス符号変調(Adaptive Differential Pulse Code Modulation;ADPCM)方式により、音声データの圧縮及び圧縮音声データの伸張を行う音声圧縮伸張装置に関する。
音声信号を原音声信号に近い形で蓄積する際に行なう代表的な音声信号の変調方式として、パルスコード符号変調(Pulse Code Modulation;PCM)方式、デルタ変調(Delta Modulation;DM)方式、差分パルス符号変調(Differential Pulse Code Modulation;DPCM)方式、ADPCM方式がある。
PCM方式は、音声波形をある周期ごとにサンプリングして各サンプリング点での音声信号値をアナログ/デジタル変換(A/D変換)し、その値を0と1の符号別で表示する方式であり、音声信号値をデジタル符号化するときに必要とするビット数は、初めのアナログ信号をどの程度忠実に記録したいかの要求により決まる。ビット数を増やせば増やすほど信号の細かな変化も記録され、デジタル誤差に基づく雑音が少なくなり、実際の音の波形に近い音になるため、音質は良くなる。しかし、ビット数を増やすほど音声データが大きくなり、音声データを記録するメモリの容量が増加するという欠点がある。そこで、ある限られた容量のメモリに多くの音声データを記録するために、効率的に音声データを圧縮する必要がある。
その方法の1つとして、1サンプルの音声信号の情報に対し、量子化して変調するデータ量を最低限の1ビットとしたDM方式がある。DM方式は、あるタイミングの信号とその次のタイミングの信号とを比較して、現在のタイミングの音声信号値が次のタイミングの音声信号値より高いか低いかを判定して、高ければ符号1、低ければ符号0を与えることによって音声信号を符号化することを特徴とする。従って、メモリは各サンプリングクロックに対して1ビットずつデータを記録すればよい。こうすればメモリの容量が少なくてすむので、音声データを長時間記録することが可能となる。例えば、音声データを圧縮せずに変調する方式ではメモリに限度があるので10秒位しか音声データを記録できないところを、このDM方式では約10倍の100秒位まで音声データを記録できる。しかし、DM方式は、1クロックに対して音声信号値(アナログ値)が1ステップしか変化しないので音質が悪くなるという欠点がある。
DM方式とPCM方式の中間ともいうべき方式がDPCM方式である。DPCM方式は、DM方式における1ビット量子化の部分を複数のビットに置き換えたもので、あるサンプリングクロックでの音声信号値と、その次のサンプリングクロックの音声信号値との残差信号値を直接記憶することを特徴とする。しかし、DPCM方式では音声信号の波形がどのような傾斜で上っているかを記録することができないという欠点がある。
この問題を解決し、DPCM方式で適応予測を行なう方式をADPCM方式と呼んでいる。ADPCM方式は、あるサンプリングクロックの音声信号値とその次のサンプリングクロックの音声信号値とを比較して、入力された信号と予測信号との差分を複数ビットで量子化することで、音声データを圧縮することを特徴とする。
従来、ADPCM方式を用いて音声データを圧縮して、圧縮データを記録再生する音声記録再生装置が提案されている(特許文献1参照)。以下、特許文献1に記載の音声記録再生装置について図9を用いて説明する。この音声記録再生装置は、ローパスフィルター(LPF)901で高周波数帯域を遮断したアナログ音声信号をA/D変換回路902でデジタル信号にA/D変換する。そして、ADPCM回路903でデジタル信号をADPCM方式により圧縮する。圧縮された音声データは半導体メモリ907に記録される。記録した音声データを再生するときは、半導体メモリ907から圧縮データを読み出し、ADPCM回路903で伸張した後、D/A変換回路904でアナログ信号に変換する。なお、ADPCM回路903は、圧縮処理と逆の処理を行うことで、圧縮した音声データを伸張する。そして、D/A変換回路904から出力されるアナログ信号の高周波数帯域をLPF905で遮断し、そのアナログ信号に対して再生用増幅回路906で再生処理を行う。なお、図9において、制御部908は、ADPCM回路903の圧縮伸張動作と、半導体メモリ907への圧縮データの記録及び半導体メモリ907からの圧縮データの読み出しを制御する。
特開昭63−259700号公報
特開平6−85607号公報
上述のように、ADPCM方式を用いることによって、高音質を維持しつつ、音声データの圧縮を図ることができる。しかし、ADPCM方式は、量子化ノイズのパワースペクトルの分布が周波数的に一様ではないため、高周波数帯域に量子化ノイズが発生しやすいという欠点がある。例えば、同一のサンプリング周波数で比較すると、符号ビット数を1ビット減少させると、ノイズの周波数帯域は約1/2となってしまう。このため、符号ビット数を減少させて行き、ある圧縮ビットレートを超えてしまうと、量子化ノイズが発生する周波数帯域が人間の可聴帯域(22kHz程度まで)に入ってしまう。この場合、可聴な量子化ノイズが音声に混入し、耳障りな音となってしまう。したがって、ADPCM方式では、低い圧縮率で音声データを圧縮する場合は、量子化ノイズはほとんど目立たないが、音声データの圧縮率を高くしすぎると、特に高周波数帯域において目立った量子化ノイズが発生してしまう。以上のことから、従来のADPCM方式では、ある一定以上の圧縮率で音声データを圧縮するのは困難であった。
図9に示す音声記録再生装置では、A/D変換前に高周波数成分をLPF901で除去しているが、このLPFは、アナログ信号をデジタル化するためにデータとしては現れない成分、又は原音と異なる波形として現れる成分を除去するだけであり、音声データをADPCM方式で圧縮する際に発生する高周波数帯域の量子化ノイズを低減することはできない。また、この音声記録再生装置は、アナログ信号を取り込んで圧縮するため、記録媒体に、例えば、CD−DA(Compact Disk−Digital Audio)方式で記録されているデジタル音声データを処理することはできない。
以上のことから、本発明では、ADPCM方式でデジタル音声データを圧縮伸張する際に、高周波数帯域に発生する量子化ノイズを低減する音声圧縮伸張装置を提供することを目的とする。
前記課題を解決するために、本発明(請求項1)に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データ、または前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部と、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備えることを特徴とする。
また、本発明(請求項2)に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高音域の振幅を検出する振幅検出回路と、前記振幅検出回路により検出された振幅としきい値とを比較し、その比較結果に基づいて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備えることを特徴とする。
また、本発明(請求項3)に係る音声圧縮伸張装置は、請求項2に記載の音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、しきい値を超えた場合、前記高音域成分遮断部の遮断周波数特性を変えることを特徴とする。
また、本発明(請求項4)に係る音声圧縮伸張装置は、請求項2に記載の音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えた場合、または前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えなかった場合に、前記高音域成分遮断部の遮断周波数特性を変えることを特徴とする。
本発明に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データ、または前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部と、前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備えることを特徴とする。これにより、前記高音域成分遮断部の遮断周波数特性を、適応差分パルス符号変調回路の圧縮ビットレートに応じた最適な特性に変えることができ、その結果、使用者の好みに合わせた音質で、デジタル音声データを再生することができる。
本発明に係る音声圧縮伸張装置は、デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部と、前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高音域の振幅を検出する振幅検出回路と、前記振幅検出回路により検出された振幅としきい値とを比較し、その比較結果に基づいて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備え、前記コントローラーが、前記振幅検出回路により検出された振幅が、しきい値を超えた場合、前記高音域成分遮断部の遮断周波数特性を変えることを特徴とする。これにより、前記高音域成分遮断部の遮断周波数特性を、音声データの性質に応じて変えることができる。その結果、音声データの性質に応じて、使用者が高音域成分遮断部の遮断周波数特性を変えることなく、または初めて聴く音声データにおいても、高音域成分遮断部の遮断周波数特性を音声データに合った特性に変えることができる。
また、本発明に係る音声圧縮伸張装置は、前記音声圧縮伸張装置において、前記コントローラーが、前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えた場合、または前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えなかった場合に、前記高音域成分遮断部の遮断周波数特性を変えることを特徴とする。これにより、高音域の長さが異なる様々な種類の音声データに対応して、前記高音域成分遮断部の遮断周波数特性を変えることができる。
(実施の形態1)
以下、本発明の実施の形態1に係る音声圧縮伸張装置について図1を用いて説明する。図1に示す音声圧縮伸張装置は、ADPCM回路101と、LPF102とを備え、入力したデジタル音声データをADPCM方式で圧縮伸張する。入力するデジタル音声データは、例えば、記録媒体にCD−DA方式で記録されているデジタル音声データである。
以下、本発明の実施の形態1に係る音声圧縮伸張装置について図1を用いて説明する。図1に示す音声圧縮伸張装置は、ADPCM回路101と、LPF102とを備え、入力したデジタル音声データをADPCM方式で圧縮伸張する。入力するデジタル音声データは、例えば、記録媒体にCD−DA方式で記録されているデジタル音声データである。
図1において、音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部を備える。本発明の実施の形態1に係る音声圧縮伸張装置は、この高音域成分遮断部としてLPF102を備え、このLPF102によって高音域成分を直接的に遮断する。
図7にLPF102の簡単な構成例を示す。図7において、LPF102は、入力したデジタル音声データを遅延回路701で遅延し、遅延データに乗算器702で乗算係数α1を乗算し、入力したデジタル音声データと乗算器702の出力とを加算器703で加算し、加算器703の出力に、乗算係数α1に1を加算した加算結果の逆数を乗算器704で乗算する。そして、この乗算器704の出力がADPCM回路101に入力される。
このようにして、高周波数帯域上に存在する高音域成分を遮断したデジタル音声データをADPCM回路101でADPCM方式により圧縮する。ADPCM方式による圧縮処理及び伸張処理については従来の技術で説明したので、ここでの説明は省略する。
以上のように、本発明の実施の形態1に係る音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF102で遮断するようにした。これにより、ADPCM方式によりデジタル音声データを圧縮する際に、圧縮率を高めたことによって、伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを低減することができる。
その結果、本発明の実施の形態1に係る音声圧縮伸張装置は、ショックプルーフ再生に対して有用なものになる。ショックプルーフ再生とは、例えば、CDからCD−DA方式で記録されたPCM信号を読み出し、その音声データを再生させるときに、何らかの外的要因によって信号を読み出せなかった場合に備えて、音声データを圧縮して半導体メモリに記録しておく方法である。本発明の実施の形態1に係る音声圧縮伸張装置は、音声データの圧縮率を高めても高周波数帯域に発生する量子化ノイズを抑えることができることから、ショックプルーフ再生において、音声データの圧縮率を高くして半導体メモリの容量を有効に利用することができる。
(実施の形態2)
以下、本発明の実施の形態2に係る音声圧縮伸張装置について図2を用いて説明する。図2に示す音声圧縮伸張装置が、図1に示す音声圧縮伸張装置と異なる点は、ADPCM回路101の後段に高音域成分遮断部としてLPF202を備える点である。すなわち、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202で直接的に遮断する。
以下、本発明の実施の形態2に係る音声圧縮伸張装置について図2を用いて説明する。図2に示す音声圧縮伸張装置が、図1に示す音声圧縮伸張装置と異なる点は、ADPCM回路101の後段に高音域成分遮断部としてLPF202を備える点である。すなわち、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202で直接的に遮断する。
以上のように、本発明の実施の形態2に係る音声圧縮伸張装置は、ADPCM回路101が出力する伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分をLPF202により直接的に遮断するようにした。これにより、ADPCM方式によりデジタル音声データを圧縮する際に、圧縮率を高めたことによって、伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを低減することができる。
なお、本発明の実施の形態2では、ADPCM回路の後段に高音域成分遮断部としてLPFを備えるようにしたが、本発明はこれに限るものではなく、高音域成分遮断部としてADPCM回路の後段にノイズシェイパーを備え、このノイズシェーパーによってADPCM回路から出力される伸張後のデジタル音声データの高周波数帯域に発生する量子化ノイズを除去するようにしても良い。この場合、ノイズシェーパー自体の構成が複雑なこともあり、回路構成全体も複雑化してしまうが、量子化ノイズを効果的に除去することができるため、デジタル音声データを高音質で再生することが可能となる。
(実施の形態3)
以下、本発明の実施の形態3に係る音声圧縮伸張装置について図3を用いて説明する。図3に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にさらにコントローラー103を備えることを特徴とする。コントローラー103は、ADPCM回路101の圧縮ビットレートに応じてLPF102の特性(遮断周波数特性)を変える。
以下、本発明の実施の形態3に係る音声圧縮伸張装置について図3を用いて説明する。図3に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にさらにコントローラー103を備えることを特徴とする。コントローラー103は、ADPCM回路101の圧縮ビットレートに応じてLPF102の特性(遮断周波数特性)を変える。
例えば、ADPCM回路101の圧縮ビットレートのビット数を大きくして、圧縮率を低くすると、伸張後のデジタル音声データの量子化ノイズがあまり目立たず、LPFを通すことによって高周波数帯域を過剰に遮断してしまい、音質の低下を招いてしまう場合がある。この場合、コントローラー103は、デジタル音声データをLPF102に通さないように制御するか、またはLPF102の特性をカットオフの立下りが緩やかなものにする。なお、LPF102の構成が図7に示す構成の場合、コントローラー103は乗算係数α1を0にすることで、デジタル音声データがLPF102を通過しないことにできる。また、乗算係数α1を変えることで、LPF102の特性をカットオフの立下りが緩やかなものになるように制御しても良い。なお、カットオフとは、どの周波数帯域から音声データを遮断するかを意味し、カットオフの立ち下がりとは、音声データを遮断する周波数帯域からの立ち下がりを意味する。
これに対して、ADPCM回路101の圧縮ビットレートのビット数を小さくして、圧縮率を高めることで、伸張後のデジタル音声データの高周波数帯域に目立った量子化ノイズが発生してしまう場合は、LPF102の特性をカットオフの立下りが急峻なものにして、音声データを再生する際の音質の低下を抑える。LPF102の構成が図7に示す構成である場合、コントローラー103は乗算係数α1を変えることでLPF102の特性をカットオフの立下りが急峻なものにできる。
さらに、コントローラー103は、LPF102の特性だけでなく、ADPCM回路101の圧縮ビットレートを変えるようにする。ADPCM回路の圧縮ビットレートを変えるには、デジタル音声データを圧縮する階調の段階を変化させる。例えば、デジタル音声データが16ビット(65536種類のデータ)で、圧縮ビットレートを4ビット(16階調のデータ)にする場合には、デジタル音声データを±8段階(16種類)の階調に割り当て、圧縮ビットレートを3ビット(8階調のデータ)にする場合には、デジタル音声データを±4段階(8種類)の階調に割り当てる。そして、音声の値がある範囲の間にあれば、X階調目、というように、データを振り分ける。すなわち、音声の値に応じて、データを振り分ける階調を決定する。なお、音声の値に応じてデータを振り分ける階調を決める基準となるデータは、圧縮ビットレート(例えば、4ビットや、3ビット)に応じて、それぞれ予め設定しておく。
また、コントローラー103は、使用者からの指示を受け付ける機能を有するようにしても良い。これにより、LPF102の特性を使用者が変えることができる。使用者の好みに応じて手動でLPF102の特性を変えることによって、音声データを使用者の好みの音質で再生できる。再生した音声データの音質が良いか悪いかという判断についてはすべて使用者の好みが反映されるため、使用者の好みに合わせてLPF102の特性を変えることは有効である。さらに、コントローラー103が使用者からの指示に基づいてLPF102の特性と共にADPCM回路101の圧縮ビットレートを変えるようにしても良い。これにより、メモリに保存する音声データの時間も使用者が手動で変えることができる。LPF102の特性と圧縮ビットレートの両方を変えることができることで、音質を重視するか、より多くの音声データをメモリ(例えば、半導体メモリ)に記録するかを、使用者が選択することができる。
また、コントローラー103が自動でLPF102の特性を変化させることも有効である。例えば、使用者が一度聴いた音声データに合った好みのLPF102の特性を記憶しておき、次回からは自動的にそのLPF102の特性を選択するといった機能をコントローラー103に持たせることで、利便性を上げることもできる。同様に、使用者が設定した圧縮ビットレートを記憶しておき、次回からその圧縮ビットレートを自動的にコントローラー103が選択するようにしても良い。
以上のように、本発明の実施の形態3に係る音声圧縮伸張装置は、ADPCM回路101と、ADPCM回路101に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断するLPF102と、LPF102の特性をADPCM回路101の圧縮ビットレートに応じて変えるコントローラー103とを備えるようにした。これにより、ADPCM回路101の圧縮ビットレートに応じた最適なLPFの特性を選択することができ、その結果、使用者の好みに合わせた音質で、音声データを再生することができる。さらに、コントローラー103がADPCM回路101の圧縮ビットレートも変えるようにすることで、使用者の好みに合わせてメモリに記録できる音声データの時間を変えることができる。
なお、実施の形態3では、図1に示す音声圧縮伸張装置にコントローラー103を備える場合について説明したが、本発明はこれに限るものでなく、図2に示す音声圧縮伸張装置にコントローラー103を備えることでも良い。
(実施の形態4)
以下、本発明の実施の形態4に係る音声圧縮伸張装置について図4を用いて説明する。図4に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にノイズ付加回路104を備えることを特徴とする。ノイズ付加回路104は、ADPCM回路101から出力される伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズ成分を付加する。具体的には、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加する。以下、ノイズ付加回路104の一例について説明する(特許文献2参照)。特許文献2に記載のノイズ付加回路は、原音声信号の周波数分析を行い、分析結果から原音声信号帯域中の基音と倍音が組みで存在する音色成分を抽出する。そして、抽出した音色成分を用いて、原音声信号帯域より高音域側の倍音成分を予測し、予測した倍音成分を原音声信号に挿入する。なお、ノイズ付加回路104は、これに限るものではなく、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加するものであれば何でも良い。
以下、本発明の実施の形態4に係る音声圧縮伸張装置について図4を用いて説明する。図4に示す音声圧縮伸張装置は、図1に示す音声圧縮伸張装置にノイズ付加回路104を備えることを特徴とする。ノイズ付加回路104は、ADPCM回路101から出力される伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズ成分を付加する。具体的には、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加する。以下、ノイズ付加回路104の一例について説明する(特許文献2参照)。特許文献2に記載のノイズ付加回路は、原音声信号の周波数分析を行い、分析結果から原音声信号帯域中の基音と倍音が組みで存在する音色成分を抽出する。そして、抽出した音色成分を用いて、原音声信号帯域より高音域側の倍音成分を予測し、予測した倍音成分を原音声信号に挿入する。なお、ノイズ付加回路104は、これに限るものではなく、可聴周波数帯の上限やその上限以上の周波数帯域にノイズ成分を付加するものであれば何でも良い。
さらに、図4に示す音声圧縮伸張装置は、図3に示すコントローラー103を備え、このコントローラーが、ADPCM回路101の圧縮ビットレートに応じて、LPF102の特性と共にノイズ付加回路104を制御するようにしても良い。具体的には、付加するノイズ成分や、ノイズを付加する周波数帯域や、ノイズの音量等を制御する。これにより、圧縮ビットレートに応じて、付加するノイズ成分、ノイズを付加する周波数帯域、ノイズの音量等を最適なものに変えて、音声データを高音質で再生することができる。
さらに、コントローラーは、ADPCM回路101の圧縮ビットレートを変えるようにしても良い。
以上のように本発明の実施の形態4に係る音声圧縮伸張装置は、ADPCM回路101に入力される圧縮前のデジタル音声データをLPF102に通して、高周波数帯域上に存在する高音域成分を遮断する際に、ADPCM回路101が出力する伸張後のデジタル音声データに対して、LPF102で遮断された高音域成分に相当するノイズを付加するノイズ付加回路104を備えるようにした。これにより、LPF102によって遮断された高音域成分を擬似的に再現することができる。その結果、高音域が遮断されてしまうことによる再生音声データの不自然さをなくし、人間にとって快適な音声データの再生を実現することができる。
(実施の形態5)
以下、本発明の実施の形態5に係る音声圧縮伸張装置について図5を用いて説明する。実施の形態5に係る音声圧縮伸張装置は、図1〜図4のいずれかに示すLPFを、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高周波数帯域上の高音域成分を遮断する構成とする。具体的には、図5に示すように、入力側の遅延回路及び乗算器をそれぞれ複数備え、さらに、出力側にも遅延回路及び乗算器をそれぞれ複数備える。
以下、本発明の実施の形態5に係る音声圧縮伸張装置について図5を用いて説明する。実施の形態5に係る音声圧縮伸張装置は、図1〜図4のいずれかに示すLPFを、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高周波数帯域上の高音域成分を遮断する構成とする。具体的には、図5に示すように、入力側の遅延回路及び乗算器をそれぞれ複数備え、さらに、出力側にも遅延回路及び乗算器をそれぞれ複数備える。
以下、図5に示すLPF500の動作について説明する。まず、入力側の複数の第1遅延回路(遅延回路501a〜501c)が数サンプル分の入力デジタル音声データを遅延する。次に、複数の第1乗算器が複数の第1遅延回路の出力に対して予め設定した係数を乗算する。すなわち、遅延回路501aの出力に乗算器502aが乗算係数α1を、遅延回路501bの出力に乗算器502bが乗算係数α2を、遅延回路501cの出力に乗算器502cが乗算係数α3を乗算する。次に、第1加算器(加算器503)が乗算器502a〜502cの出力と入力デジタル音声データを加算する。次に、第2乗算器(乗算器504)が加算器503の出力に対して、予め設定した係数として、乗算係数α1〜α3の合計に1を加算した加算結果の逆数(1/1+α1+α2+α3)を乗算する。この乗算器504の係数は、正確に(1/1+α1+α2+α3)の値でなくても良く、おおよそ(1/1+α1+α2+α3)の値で良い。次に、出力側の複数の第2遅延回路(遅延回路508a〜508c)が出力デジタル音声データを数サンプル分遅延する。次に、複数の第3乗算器が複数の第2遅延回路の出力に対して予め設定した係数を乗算する。すなわち、遅延回路508aの出力に乗算器507aが乗算係数β1を、遅延回路508bの出力に乗算器507bが乗算係数β2を、遅延回路508cの出力に乗算器507cが乗算係数β3を乗算する。次に、第2加算器(加算器505)が乗算器507a〜507cの出力と乗算器504の出力とを加算する。次に、第4乗算器(乗算器506)が加算器505の出力に対して、予め設定した係数として、乗算係数β1〜β3の合計に1を加算した加算結果の逆数(1/1+β1+β2+β3)を乗算する。この乗算器506の係数は、正確に(1/1+β1+β2+β3)の値でなくても良く、おおよそ(1/1+β1+β2+β3)の値で良い。そして、乗算器506の出力が高周波数帯域上の高音域成分が除去されたデジタル音声データとして外部に出力される。
また、コントローラーを用いて、ADPCM回路101の圧縮ビットレートに応じてLPF500の特性を変えるようにしても良い。その場合は、乗算器501a〜501bの乗算係数α1,2,3と、乗算器507a〜507cの乗算係数β1,2,3とをそれぞれ変えるだけで良い。
以上のように、本発明の実施の形態5に係る音声圧縮伸張装置によれば、ADPCM回路101で圧縮前のデジタル音声データまたはADPCM回路101で伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断するLPFの構成を、過去数サンプル分の入力デジタル音声データと出力デジタル音声データを用いて、高音域成分を遮断する構成としたことから、LPFの特性をより細かく調整できる。
なお、本発明の実施の形態5において、LPF500は、入力側と出力側に3個の遅延回路と乗算器をそれぞれ備えるようにしたが、遅延回路及び乗算器の数はこれに限るものではなく、複数であれば良い。さらに、入力側及び出力側のうちのいずれか一方の側の遅延回路及び乗算器を複数備えることでも良い。
(実施の形態6)
以下、本発明の実施の形態6に係る音声圧縮伸張装置について図6を用いて説明する。図6に示す音声圧縮伸張装置は、図3に示す音声圧縮伸張装置に振幅検出回路105をさらに備えることを特徴とする。
以下、本発明の実施の形態6に係る音声圧縮伸張装置について図6を用いて説明する。図6に示す音声圧縮伸張装置は、図3に示す音声圧縮伸張装置に振幅検出回路105をさらに備えることを特徴とする。
振幅検出回路105はデジタル音声データの高音域における予め設定された周波数帯域の振幅を検出する。コントローラー103は、振幅検出回路105が検出した振幅に基づいてLPF102の特性を変える。具体的には、振幅検出回路105が検出した振幅が予め設定されたしきい値を超えるとLPF102の特性を変える。振幅が大きくなると、伸張後のデジタル音声データの量子化ノイズが大きくなることが想定されるので、LPF102の特性をカットオフの立ち下がりが急峻なものに変える。
また、音声データはその種類によって高音域の長さが異なるので、コントローラー103は、振幅検出回路105が検出した振幅が予め設定した時間(数サンプル分)、しきい値を超えた場合に、自動的にLPF102の特性を変えるようにしても良い。この場合、コントローラー103は、LPF102の特性をカットオフの立ち下がりが急峻なものに変える。また、振幅検出回路105が検出した振幅が、予め設定した時間、しきい値を超えなかった場合に、LPF102の特性を変えるようにしても良い。この場合、コントローラー103はLPF102の特性をカットオフの立ち下がりが緩やかなものに変える。
以上のように本発明の実施の形態6に係る音声圧縮伸張装置は、デジタル音声データの高音域における予め設定された周波数帯域の振幅を検出する振幅検出回路105を備え、この振幅に応じて、デジタル音声データの高周波数帯域を遮断するLPF102の特性をコントローラー103が変えるようにした。これにより、音声データの違いによって使用者がその都度LPF102の特性を変える必要がなくなる。また、初めて視聴する音声データに対しても、その音声データの特性に最適なLPF102の特性を設定することが可能となる。
以下、本発明に係る音声圧縮伸張装置の実施例について図8を用いて説明する。本実施例では、本発明の音声圧縮伸張装置をショックプルーフ再生に適応する場合について説明する。
図8に示す再生装置は、CD801からピックアップ802を介して読み出したRF信号をヘッドアンプ803にて増幅し、デジタル信号処理回路804でRF信号をサンプリング周波数44.1kHzの16ビットのPCM信号に復調する。そしてこの信号をLPF805に通した後、ADPCM回路806で圧縮、すなわち、16ビットのPCM信号を4ビット又は3ビットの圧縮音声データに圧縮し、半導体メモリ808に記録する。また同時に再生も行い、半導体メモリ808に記録された圧縮音声データをADPCM回路806で伸張した後、D/A変換回路809でアナログ信号に変換し、このアナログ信号をアンプ(AMP)810で増幅してスピーカー(SP)811で再生する。このような構成により、何らかの原因でCDからの音声データを得ることができなかった場合、例えば外部からの振動によってCDからデータを読み取っているピックアップが外れた場合においても、半導体メモリ808に記憶している圧縮音声データを利用して再生を続行させ、その間にCDから音声データを読み出すことができなくなった原因を取り除いて、再生を中断させることなく元の状態に復帰させることができる。実際に、半導体メモリに16MビットのDRAM(Dynamic RAM)を用いた時、ADPCM回路806にて4ビットの圧縮を行なった場合には約45秒の音声データを、3ビットの圧縮を行った場合には約60秒の音声データを半導体メモリに記録することができる。
ここで、音声データを半導体メモリに長時間記録しておく方法として、半導体メモリの容量を増やすか、又は音声データの圧縮率を高めるという方法が考えられる。ところが、メモリ容量の増加はコストアップや装置の増大を招くことにつながり、また圧縮率を高めすぎると、音声データの高周波数帯域の量子化ノイズが増大するという問題が生じる。実際に、デジタル信号処理回路804にて復調された16ビットのPCM信号を、LPF805を通さずに直接ADPCM回路806に入力し、3ビットで圧縮を行なったとき、伸張後の音声データを再生すると、高周波数帯域において可聴な量子化ノイズが目立ったものとなった。
そこで、本実施例では、この可聴な量子化ノイズを抑制するために、ADPCM回路806に入力する圧縮前のPCM信号をLPF805に通し、高周波数帯域上に存在する高音域成分を遮断する。なお、LPF805の動作は、図7に示すLPFの動作と同様であるで説明を省略する。また、LPF805の構成は図5に示すLPF500と同様の構成であっても良い。
ここで、ADPCM回路806の圧縮ビットレートが3ビットであり、3ビットでPCM信号を圧縮すると量子化ノイズが発生したとする。この場合、コントローラー807は、この圧縮ビットレートで量子化ノイズを抑制する最適な乗算係数α1をLPF805内の乗算器813に設定する。例えば乗算係数α1の値を1と設定すると、入力PCM信号と、その1サンプリングクロック前に入力されたPCM信号との中間値を取ることになり、PCM信号の高周波数帯域上に存在する高音域成分が遮断される。本実施例ではα1=1としたが、α1の値は1以外でも値でも良い。なお、乗算係数α1は整数でなくても良い。
一方、圧縮率を低くして高音質で音声データを再生させる場合には、PCM信号をLPF805に通さずに直接ADPCM回路806に入力したとしても、可聴な量子化ノイズがそれほど目立たないことがある。この場合においてもPCM信号をLPF805に通すと、PCM信号から高周波数帯域上に存在する高音域成分を過剰に遮断してしまい、再生時の音声データの音質を低下させてしまうことになる。例えば、上述のように3ビットの圧縮ビットレートに応じてLPF805の乗算係数α1を設定しておくと、ADPCM回路806の圧縮ビットレートを4ビットにした場合、再生時の音声データの音質を低下させてしまうことになる。よって、圧縮率を低くすることで、LPF805にPCM信号を通す必要がない場合には、コントローラー807により、α1の値を0とし、元のPCM信号のままADPCM回路806で圧縮を行なうようにする。また、乗算係数α1の値を変えて、LPF805の特性をカットオフの立ち下がりがより緩やかなものになるようにしても良い。
なお、本実施例では、ADPCM回路806に入力される圧縮前のPCM信号をLPF805に通す場合について説明したが、ADPCM回路806の後段にLPF805を備え、ADPCM回路806が出力する音声データをLPF805に通すことでも良い。
本発明は、デジタル音声データをADPCM方式によって圧縮し、圧縮データを記録しながら再生(例えば、ショックプルーフ再生)する装置及び方法に好適である。また、デジタル音声データをメモリに記憶する場合だけでなく、デジタル音声データを圧縮して伝送する場合にも有用である。
101、806、903 ADPCM回路
102、202、805、901、905 LPF
103 コントローラー
104 ノイズ付加回路
105 振幅検出回路
501a〜501c、508a〜508c、701、812 遅延回路
502a〜502c、504、506、507a〜507c、702、704、813、815 乗算器
503、505、703、814 加算器
801 CD
802 ピックアップ
803 ヘッドアンプ
804 デジタル信号処理回路
808、907 半導体メモリ
809、904 D/A変換回路
810 アンプ
811 スピーカー
902 A/D変換回路
908 制御部
102、202、805、901、905 LPF
103 コントローラー
104 ノイズ付加回路
105 振幅検出回路
501a〜501c、508a〜508c、701、812 遅延回路
502a〜502c、504、506、507a〜507c、702、704、813、815 乗算器
503、505、703、814 加算器
801 CD
802 ピックアップ
803 ヘッドアンプ
804 デジタル信号処理回路
808、907 半導体メモリ
809、904 D/A変換回路
810 アンプ
811 スピーカー
902 A/D変換回路
908 制御部
Claims (12)
- デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、
前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする音声圧縮伸張装置。 - デジタル音声データを適応差分パルス符号変調方式で変調する適応差分パルス符号変調回路と、
前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データの高周波数帯域上に存在する高音域成分を遮断する高音域成分遮断部とを備えることを特徴とする音声圧縮伸張装置。 - 請求項1または請求項2に記載の音声圧縮伸張装置において、
前記高音域成分遮断部はローパスフィルターであることを特徴とする音声圧縮伸張装置。 - 請求項2に記載の音声圧縮伸張装置において、
前記高音域成分遮断部はノイズシェーパーであることを特徴とする音声圧縮伸張装置。 - 請求項1または請求項2に記載の音声圧縮伸張装置において、
前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーを備えることを特徴とする音声圧縮伸張装置。 - 請求項1に記載の音声圧縮伸張装置において、
前記適応差分パルス符号変調回路から出力される伸張後のデジタル音声データに対し、前記高音域成分遮断部によって遮断された高音域成分に相当するノイズ成分を付加するノイズ付加回路を備えることを特徴とする音声圧縮伸張装置。 - 請求項6に記載の音声圧縮伸張装置において、
前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記高音域成分遮断部の遮断周波数特性と、前記ノイズ成分、前記ノイズ成分を付加する周波数帯域、及びノイズの音量のうちの少なくとも1つを変えるコントローラーを備えることを特徴とする音声圧縮伸張装置。 - 請求項1または請求項2に記載の音声圧縮伸張装置において、
前記高音域成分遮断部は、
入力デジタル音声データを遅延する複数の第1遅延回路と、
前記複数の第1遅延回路の出力に予め設定された係数を乗算する複数の第1乗算器と、
前記入力デジタル音声データと前記複数の第1乗算器の出力とを加算する第1加算器と、
前記第1加算器の出力に予め設定された係数を乗算する第2乗算器と、
出力デジタル音声データを遅延する複数の第2遅延回路と、
前記複数の第2遅延回路の出力に予め設定された係数を乗算する複数の第3乗算器と、
前記第2乗算器の出力と前記複数の第3乗算器の出力とを加算する第2加算器と、
前記第2加算器の出力に予め設定された係数を乗算する第4乗算器と、を備えるローパスフィルターであることを特徴とする音声圧縮伸張装置。 - 請求項8に記載の音声圧縮伸張装置において、
前記適応差分パルス符号変調回路の圧縮ビットレートに応じて、前記ローパスフィルターの遮断周波数特性を変えるコントローラーを備え、
前記コントローラーは、前記複数の第1乗算器の各係数と、前記複数の第3乗算器の各係数とを、乗算器毎に変えることを特徴とする音声圧縮伸張装置。 - 請求項1に記載の音声圧縮伸張装置において、
前記適応差分パルス符号変調回路に入力される圧縮前のデジタル音声データの高音域の振幅を検出する振幅検出回路と、
前記振幅検出回路により検出された振幅としきい値とを比較し、その比較結果に基づいて、前記高音域成分遮断部の遮断周波数特性を変えるコントローラーとを備えることを特徴とする音声圧縮伸張装置。 - 請求項10に記載の音声圧縮伸張装置において、
前記コントローラーは、前記振幅検出回路により検出された振幅が、しきい値を超えた場合、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする音声圧縮伸張装置。 - 請求項10に記載の音声圧縮伸張装置において、
前記コントローラーは、前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えた場合、または前記振幅検出回路により検出された振幅が、予め設定された時間しきい値を超えなかった場合に、前記高音域成分遮断部の遮断周波数特性を変えること特徴とする音声圧縮伸張装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003416192 | 2003-12-15 | ||
JP2003416192 | 2003-12-15 | ||
PCT/JP2004/018222 WO2005057550A1 (ja) | 2003-12-15 | 2004-12-07 | 音声圧縮伸張装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2005057550A1 true JPWO2005057550A1 (ja) | 2007-12-13 |
Family
ID=34675158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005516130A Withdrawn JPWO2005057550A1 (ja) | 2003-12-15 | 2004-12-07 | 音声圧縮伸張装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20070118362A1 (ja) |
JP (1) | JPWO2005057550A1 (ja) |
CN (1) | CN1894742A (ja) |
WO (1) | WO2005057550A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5053712B2 (ja) * | 2007-05-29 | 2012-10-17 | 京セラ株式会社 | 無線端末および無線端末の音声再生方法 |
JP5489431B2 (ja) * | 2008-08-11 | 2014-05-14 | 京セラ株式会社 | 無線通信モジュールおよび無線端末、無線通信方法 |
WO2010093224A2 (ko) * | 2009-02-16 | 2010-08-19 | 한국전자통신연구원 | 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 |
JP5816992B2 (ja) * | 2013-10-31 | 2015-11-18 | 株式会社アクセル | フィルタの設計方法及びそのフィルタを備えた音響再生装置 |
JP2016105188A (ja) * | 2016-01-12 | 2016-06-09 | 株式会社アクセル | 音声信号圧縮装置及び音声信号圧縮方法 |
US10756755B2 (en) | 2016-05-10 | 2020-08-25 | Immersion Networks, Inc. | Adaptive audio codec system, method and article |
CA3024167A1 (en) * | 2016-05-10 | 2017-11-16 | Immersion Services LLC | Adaptive audio codec system, method, apparatus and medium |
US10699725B2 (en) | 2016-05-10 | 2020-06-30 | Immersion Networks, Inc. | Adaptive audio encoder system, method and article |
US10770088B2 (en) | 2016-05-10 | 2020-09-08 | Immersion Networks, Inc. | Adaptive audio decoder system, method and article |
US11281312B2 (en) | 2018-01-08 | 2022-03-22 | Immersion Networks, Inc. | Methods and apparatuses for producing smooth representations of input motion in time and space |
US11380343B2 (en) | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3889108A (en) * | 1974-07-25 | 1975-06-10 | Us Navy | Adaptive low pass filter |
FR2336005A1 (fr) * | 1975-12-18 | 1977-07-15 | Ibm France | Filtre numerique auto-adaptatif |
JPS60101769A (ja) * | 1983-11-09 | 1985-06-05 | Hitachi Ltd | 信号伝送装置 |
JPS63300300A (ja) * | 1987-05-29 | 1988-12-07 | 日本電気株式会社 | Adpcm符号化装置 |
US4829299A (en) * | 1987-09-25 | 1989-05-09 | Dolby Laboratories Licensing Corporation | Adaptive-filter single-bit digital encoder and decoder and adaptation control circuit responsive to bit-stream loading |
US5225904A (en) * | 1987-10-05 | 1993-07-06 | Intel Corporation | Adaptive digital video compression system |
JP3089476B2 (ja) * | 1990-07-13 | 2000-09-18 | ソニー株式会社 | オーディオ信号の量子化誤差低減装置 |
JP3089477B2 (ja) * | 1990-08-03 | 2000-09-18 | ソニー株式会社 | 量子化器及び量子化方法 |
GB2257606B (en) * | 1991-06-28 | 1995-01-18 | Sony Corp | Recording and/or reproducing apparatuses and signal processing methods for compressed data |
JP3064522B2 (ja) * | 1991-06-28 | 2000-07-12 | ソニー株式会社 | 信号処理方法及び圧縮データ記録再生装置 |
JPH0685607A (ja) * | 1992-08-31 | 1994-03-25 | Alpine Electron Inc | 高域成分復元装置 |
US5451954A (en) * | 1993-08-04 | 1995-09-19 | Dolby Laboratories Licensing Corporation | Quantization noise suppression for encoder/decoder system |
JP3398457B2 (ja) * | 1994-03-10 | 2003-04-21 | 沖電気工業株式会社 | 量子化スケールファクタ生成方法、逆量子化スケールファクタ生成方法、適応量子化回路、適応逆量子化回路、符号化装置及び復号化装置 |
US5687189A (en) * | 1994-09-19 | 1997-11-11 | Motorola, Inc. | Method of noise reduction for an ADPCM signal |
ATE284121T1 (de) * | 1994-10-06 | 2004-12-15 | Fidelix Y K | Verfahren zur wiedergabe von audiosignalen und vorrichtung dafür |
JP3605706B2 (ja) * | 1994-10-06 | 2004-12-22 | 伸 中川 | 音響信号再生方法及び装置 |
US5920840A (en) * | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JP3727689B2 (ja) * | 1995-08-08 | 2005-12-14 | オリンパス株式会社 | ディジタル音声記録再生装置 |
US5907622A (en) * | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
EP0956555B1 (en) * | 1997-11-29 | 2006-04-26 | Koninklijke Philips Electronics N.V. | Method and device for recording audio information, a record carrier and playback device |
JPH11205166A (ja) * | 1998-01-19 | 1999-07-30 | Mitsubishi Electric Corp | ノイズ検出装置 |
US6625226B1 (en) * | 1999-12-03 | 2003-09-23 | Allen Gersho | Variable bit rate coder, and associated method, for a communication station operable in a communication system |
-
2004
- 2004-12-07 US US10/582,962 patent/US20070118362A1/en not_active Abandoned
- 2004-12-07 JP JP2005516130A patent/JPWO2005057550A1/ja not_active Withdrawn
- 2004-12-07 CN CN200480037410.8A patent/CN1894742A/zh active Pending
- 2004-12-07 WO PCT/JP2004/018222 patent/WO2005057550A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN1894742A (zh) | 2007-01-10 |
WO2005057550A1 (ja) | 2005-06-23 |
US20070118362A1 (en) | 2007-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7369906B2 (en) | Digital audio signal processing | |
JP3334419B2 (ja) | ノイズ低減方法及びノイズ低減装置 | |
JPWO2004104987A1 (ja) | オーディオ信号の帯域を拡張するための方法及び装置 | |
JP2001142498A (ja) | ディジタル信号処理装置および処理方法、ディジタル信号記録装置および記録方法、並びに記録媒体 | |
JP4760278B2 (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
JPWO2005057550A1 (ja) | 音声圧縮伸張装置 | |
JPH10313251A (ja) | オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体 | |
US6759585B2 (en) | Musical-file-processing apparatus, musical-file-processing method and musical-file-processing method program | |
US6034315A (en) | Signal processing apparatus and method and information recording apparatus | |
US6038369A (en) | Signal recording method and apparatus, recording medium and signal processing method | |
US7305346B2 (en) | Audio processing method and audio processing apparatus | |
JP4311541B2 (ja) | オーディオ信号圧縮装置 | |
JP2965788B2 (ja) | 音声用利得制御装置および音声記録再生装置 | |
JP2002109824A (ja) | ディジタル音声信号の記録方法、およびその装置 | |
JPH0863901A (ja) | 信号記録方法及び装置、信号再生装置、並びに記録媒体 | |
JP2006350132A (ja) | オーディオ再生装置、オーディオ再生方法及びオーディオ再生プログラム | |
JP4556866B2 (ja) | 高能率符号化プログラム及び高能率符号化装置 | |
JPH11283332A (ja) | 圧縮データ記憶装置 | |
JP3947191B2 (ja) | 予測係数生成装置及び予測係数生成方法 | |
JP2007334173A (ja) | オーディオ信号の帯域を拡張するための装置および信号処理プログラム | |
JP2000347697A (ja) | 音声記録再生装置および記録媒体 | |
JPH08115098A (ja) | 音声編集方法および装置 | |
JPH075900A (ja) | 音声記録装置 | |
JP2002268687A (ja) | 情報量変換装置及び情報量変換方法 | |
JPH1083198A (ja) | ディジタル信号処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080630 |