JP2013076871A - 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム - Google Patents

音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム Download PDF

Info

Publication number
JP2013076871A
JP2013076871A JP2011217070A JP2011217070A JP2013076871A JP 2013076871 A JP2013076871 A JP 2013076871A JP 2011217070 A JP2011217070 A JP 2011217070A JP 2011217070 A JP2011217070 A JP 2011217070A JP 2013076871 A JP2013076871 A JP 2013076871A
Authority
JP
Japan
Prior art keywords
speech
code
noise
additional information
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011217070A
Other languages
English (en)
Inventor
Katsuyuki Takahashi
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2011217070A priority Critical patent/JP2013076871A/ja
Priority to US13/619,029 priority patent/US20130085751A1/en
Publication of JP2013076871A publication Critical patent/JP2013076871A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 送信符号に付加情報を埋め込んで伝送しても音質の劣化を抑えることができる音声符号化システムを提供する。
【解決手段】 音声符号化装置では、音声区間と背景雑音区間とを分け、それぞれ符号化する。背景雑音区間では、背景雑音の特徴パラメータを抽出して符号化する。そして、この抽出された特徴パラメータの値に応じて、付加情報の埋め込み位置を決定する。音声復号装置においては、受信符号の区間を、音声区間と背景雑音区間とを分けて復号する。背景雑音区間の復号では特徴パラメータの値が得られる。そして、この特徴パラメータの値に応じて、付加情報の埋め込み位置を認識し、受信符号の認識した埋め込み位置のデータを取り出すことを通じて付加情報を取得する。
【選択図】 図1

Description

本発明は音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムに関し、例えば、符号化音声データに他のデータ(付加情報)を埋め込んで伝送する場合に適用し得るものである。
近年、通信パケットの一部に付加情報を埋め込み、復号時に付加情報を再構成することで、通信回線の負荷を抑えつつ、より多くの情報を伝送することが可能になってきた。例えば、「電話のときに音声パケットだけではなく、データファイルを分割して音声パケットに埋め込み、受け側で音声の再構成と同時にデータファイルを復元する」といったことが可能になってきている。
しかし、情報埋め込み技術は、有用な反面、付加情報の埋め込みにより、元の情報を劣化させてしまうという副作用も持つ。そのため、付加情報を埋め込んでも劣化が小さい位置を探し出すことが重要である。元情報が音声の場合、音声波形あるいはパラメータの一部が付加情報の上書きによって音質が変化し、通話品質に大きな影響が出るため、この問題は特に重要となる。そのため、劣化の小さい最適位置に付加情報を埋め込む機能を備えた音声符号化方法が求められている。
音質の劣化を抑えつつ情報を埋め込む技術の先行技術として、特許文献1や非特許文献1の記載技術が挙げられる。これらは、例えば、ピッチゲインの値が所在の閾値より小さいか否かという判定条件によって、付加情報の埋め込みによる劣化が小さいかどうかを判定し、小さい場合には予め定めた特定の埋め込み位置に付加情報を埋め込む、という処理によって音質の劣化を抑制するものである。
特開2003−295879号公報
西村明著、「AMR音声コーデックにおけるピッチディレイパラメータヘのデータハイディング」、日本音響学会春季研究発表会講演論文集、3−6−10、pp1399−1402、2009年3月 3G TS 26.090 version3. 1.0 AMR speech codec;Transcoding functions 3G TS 26.094 version3.0.0 AMR speech codec;Voice Activity Detector(VAD) 3G TS 26.092 version 3.0.1 AMR speech codec;Comfort noise aspects 3G TS 21101 version 3.3.0 AMR Speech codec Frame Structure
しかしながら、非特許文献2〜非特許文献5で規定されるAMR(Adaptive Multi−Rate;適応多重レート)のようなACELP(Algebraic Code Excited Linear Prediction;代数符号励振線形予測)信号に基づく音声符号化方式では、背景雑音の特性によって音質劣化を最小にする埋め込み位置が異なる。そのため、従来の方法のような雑音特性を考慮せずに特定の位置に埋め込む方式では、設計者の想定以上に音質の劣化が大きくなるという問題がある。
そのため、符号に他のデータ(付加情報)を埋め込んで伝送しても、音質の劣化を抑えることができる音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムが望まれている。
第1の本発明は、入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置において、(1)入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、(2)音声区間の入力信号から音声符号を生成する音声符号生成手段と、(3)背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、(4)雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、(5)音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段とを有することを特徴とする。
第2の本発明の音声符号化プログラムは、入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置に搭載されるコンピュータを、(1)入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、(2)音声区間の入力信号から音声符号を生成する音声符号生成手段と、(3)背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、(4)雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、(5)音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段として機能させることを特徴とする。
第3の本発明は、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置において、(1)受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、(2)音声区間の受信符号から音声信号を復号する音声復号手段と、(3)背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、(4)区間判定手段の結果に応じて音声信号または雑音信号を出力する信号出力手段と、(5)雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、(6)受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段とを有することを特徴とする。
第4の本発明の音声復号プログラムは、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置に搭載されるコンピュータを、(1)受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、(2)音声区間の受信符号から音声信号を復号する音声復号手段と、(3)背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、(4)区間判定手段の結果に応じて音声信号または雑音信号を出力する信号出力手段と、(5)雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、(6)受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段として機能させることを特徴とする。
第5の本発明は、入力信号を符号化すると共に生成された符号に付加情報を埋め込む音声符号化装置と、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置とが対向している音声符号化システムにおいて、上記音声符号化装置として第1の本発明の音声符号化装置を適用すると共に、上記音声復号装置として第3の本発明の音声復号装置を適用したことを特徴とする。
本発明によれば、背景雑音特性に応じて埋め込み位置を制御するようにしたので、送信符号に付加情報を埋め込んで伝送しても、音質の劣化を抑えることができる。
実施形態に係る音声符号化装置の構成を示すブロック図である。 図1の音声符号生成部の詳細構成を示すブロック図である。 図1の快適雑音符号生成部の詳細構成を示すブロック図である。 図1の情報埋め込み位置制御部の詳細構成を示すブロック図である。 図1の情報埋め込み位置制御部内の情報埋め込み位置記憶部における記憶内容を示す説明図である。 実施形態に係る音声復号装置の構成を示すブロック図である。 実施形態から派生した変形実施形態に係る音声符号化装置の構成を示すブロック図である。
(A)主たる実施形態
以下、本発明による音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムの一実施形態を、図面を参照しながら詳述する。この実施形態は、雑音特性に応じて情報埋め込み位置を制御することを特徴としている。
(A−1)実施形態の構成
実施形態の音声符号化システムは、実施形態の音声符号化装置10と実施形態の音声復号装置60とでなる。実施形態の音声符号化装置10及び実施形態の音声復号装置60は、音声符号化方式としてAMR方式を適用しているものである。
図1は、実施形態の音声符号化装置10の構成を示すブロック図である。図1において、この実施形態の音声符号化装置10は、音声検出部11、音声符号生成部12、快適雑音符号生成部13、情報埋め込み位置制御部14、情報埋め込み部15及び符号送信部16を有する。なお、音声符号化装置を、CPUと、CPUが実行するプログラムで実現することもできるが、機能的には、図1で表すことができる。
音声検出部11は、入力信号(入力されたデジタル音声信号)inputが与えられると、所定期間(例えば20ms;フレーム)ごとに、入力信号inputが音声か背景雑音なのかを判定するものである。この判定方法は、既存のどのような方法を適用しても良い。例えば、非特許文献3に記載されている判定方法を適用できる。音声検出部11は、入力信号inputが音声であれば音声符号生成部12に与え、入力信号inputが背景雑音であれば快適雑音符号生成部13に与える。
音声符号生成部12は、与えられた音声信号から音声符号Voice_codeを生成して、情報埋め込み部15に与えるものである。図2は、音声符号生成部12の詳細構成例を示しており、非特許文献3で規定されてものに応じている。
音声符号生成部12は、前処理部21、LPC・LSP係数計算部22、励振信号生成部S1、合成フィルタ部28、歪み計算部29、符号帳・加算ゲイン制御部30、音声符号構成部31を有する。
音声符号生成部12は、声帯振動を音源とし声道で周波数特性を整えるという人間の発声機構を模擬しており、入力音声を分析して声帯振動や声道特性に相当するパラメータを抽出し、符号化している。声帯振動に相当するパラメータを得るのが、励振信号生成部S1であり、声道特性に相当するパラメータを抽出するのがLPC・LSP係数計算部22である。
前処理部21は、音声と判定された入力信号inputから直流成分を除去すると共に、オーバーフローを防止するために振幅を縮小する(例えば2で除算する)ものであり、得られた信号pre_inputを、LPC・LSP係数計算部22及び歪み計算部29に与えるものである。
LPC・LSP係数計算部22は、線形予測係数lpc_coefとLSP係数lsp_coefを算出し、合成フィルタ部28には線形予測係数lpc_coefを与え、音声符号構成部31にはLSP係数lsp_coefを与えるものである。
励振信号生成部S1は、励振信号xを、最適な励振信号の探索動作を通じて生成するものである。励振信号生成部S1は、適応符号帳23、適応符号帳ゲイン乗算部24、代数符号帳25、代数符号帳ゲイン乗算部26及び加算部27を有する。
適応符号帳23は、音声のピッチのように規則性を有する音源信号波形acを過去の入力信号から抽出して複数格納しており、探索時には、符号帳・加算ゲイン制御部30の制御下で、格納しているものを候補として次々と出力するものである。
適応符号帳ゲイン乗算部24は、適応符号帳23からの音源信号波形acに、符号帳・加算ゲイン制御部30から与えられた重み付けゲインagを乗算するものである。
代数符号帳25は、明確な規則性のない音源信号波形や雑音を再現するために特定の位置にパルスを有する信号波形fcを複数格納しており、探索時には、符号帳・加算ゲイン制御部30の制御下で、格納しているものを候補として次々と出力するものである。
代数符号帳ゲイン乗算部26は、代数符号帳25からの信号波形fcに、符号帳・加算ゲイン制御部30から与えられた重み付けゲインfgを乗算するものである。
加算部27は、適応符号帳ゲイン乗算部24からの乗算出力と、代数符号帳ゲイン乗算部26からの乗算出力を加算するものであり、この加算出力が励振信号xとなる。
以上から明らかなように、励振信号x(t)は、(1)式で表現される(但し、tは時刻を表している。
x(t)=ag×ac(t)+fg×fc(t) …(1)
(1)式の右辺を構成する4つのパラメータac(t)、fc(t)、ag、fgをそれぞれ変化させ、後述する評価値が、最も評価が高くなる4つのパラメータを探索することで、時刻tについての励振信号x(t)を定める。
このような探索では、合成フィルタ部28、歪み計算部29及び符号帳・加算ゲイン制御部30が機能する。
合成フィルタ部28は、線形予測係数lpc_coefと励振信号x(t)との畳み込み演算を行い、そのときに候補の励振信号x(t)を用いて復号した場合の局部復号の信号(前処理後の信号pre_inputに対応する)y(t)を得るものである。
歪み計算部29は、前処理後の信号preinput(t)と局部復号の信号y(t)との誤差distを計算するものである。
符号帳・加算ゲイン制御部30は、この誤差distが最小(若しくは所定の閾値以下となる)となる4つのパラメータac(t)、fc(t)、ag、fgを決定できるように、各パラメータの候補を切り換える制御を行うものである。
音声符号構成部31は、誤差distが最小となる4つのパラメータac(t)、fc(t)、ag、fgを決定できたときに、4つのパラメータac(t)、fc(t)、ag、fgとLSP係数lsp_coefとから、音声復号装置60側に与える音声符号Voice_codeを生成するものである。
図1に戻り、快適雑音符号生成部13は、入力信号inputが背景雑音であるときに、快適雑音符号CN_codeを生成するものである。ここで、快適雑音とは、無音圧縮時に通話が切れたと受信者が勘違いしないよう発生させる擬似的な背景雑音のことである。送信側の背景雑音特徴量を符号として送り、受信側で、背景雑音特性を近似するような雑音を生成することで、音声復号装置60が出力する雑音を快適雑音とする。
快適雑音符号生成部13としては、例えば、非特許文献4に規定のものを適用できる。この規定の方法では、送信側は、背景雑音の周波数特性を表す平均LSF(Line Spectral Frequency;線スペクトル周波数)パラメータベクトルと、背景雑音のレベルを表す平均対数フレームエネルギーという2種の特徴量を算出し、符号化している。受信側では、乱数を発生させ、平均LSFパラメータベクトルに基づいて周波数特性を、平均対数フレームエネルギーに基づいてレベルを、それぞれ調整することで、送信側の背景雑音の特性を反映した快適雑音を得る。
図3は、快適雑音符号生成部13の詳細構成例を示しており、上述した非特許文献4で規定されてものに応じている。
図3において、快適雑音生成部13は、平均対数フレームエネルギー算出部41、平均LSFパラメータベクトル算出部42及び快適雑音符号構成部43を有する。
平均対数フレームエネルギー算出部41は、平均対数フレームエネルギーENを算出するものである。平均対数フレームエネルギーENの算出方法としては、例えば、非特許文献4のセクション5.2に記載された方法を適用できる。
平均LSFパラメータベクトル算出部42は、平均LSFパラメータベクトルLSFを算出するものである。平均LSFパラメータベクトルLSFの算出方法としては、例えば、非特許文献4のセクション5.1に記載された方法を適用できる。
快適雑音符号構成部43は、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFを用いて、快適雑音符号CN_codeを生成するものである。快適雑音符号CN_codeの生成方法としては、例えば、非特許文献5のTable A.2を利用する方法を適用できる。
図1に戻り、情報埋め込み部15は、音声符号Voice_code及び快適雑音符号CN_codeの中の、情報埋め込み位置制御部14から指定された情報埋め込み位置info_posに、外部から与えられた付加情報を埋め込むものである。
情報埋め込み位置制御部14は、快適雑音符号生成部13において算出された平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFを利用して、情報埋め込み位置info_posを定めて、その位置を、情報を埋め込む位置として情報埋め込み部15に指定するものである。
図4は、情報埋め込み位置制御部14の詳細構成を示すブロック図である。図4において、情報埋め込み位置制御部14は、快適雑音特性照合部51、情報埋め込み位置記憶部52及び情報埋め込み位置送信部53を有する。
情報埋め込み位置記憶部52は、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値の範囲と、情報埋め込み位置との対応関係を記憶しているものである。情報埋め込み位置は、対応する平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値の範囲において、音質劣化が最小になる位置である。例えば、シミュレーションによって決定し、予め、記憶させる。
図5(A)は、情報埋め込み位置記憶部52の記憶内容の一例を示す説明図である。例えば、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値の範囲が0≦EN<20、1000≦LSF<2000の場合には、埋め込み位置info_posが「第2オクテット、埋め込みビット1」であることが規定されている。「第2オクテット、埋め込みビット1」は、フレーム内での位置で表すと、図5(B)における●の位置に相当する。また例えば、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値の範囲が20≦EN≦40、0≦LSF<1000の場合には、埋め込み位置info_posが「第3オクテット、埋め込みビット8」であることが規定されている。「第3オクテット、埋め込みビット8」は、フレーム内での位置で表すと、図5(B)における◎の位置に相当する。
なお、AMRの場合には、ビットレートごとに音声符号Voice_codeの構成は異なるので、実施形態の音声符号化装置10が複数のビットレートに対応できるものである場合には、図5の対応関係をビットレートごとに用意しておく。
快適雑音特性照合部51は、快適雑音符号生成部13において算出された平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値を、情報埋め込み位置記憶部52に与えて、該当する埋め込み位置info_posを取得するものである。
例えば、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値がそれぞれ15、1200である場合には、埋め込み位置info_posとして「第2オクテット、埋め込みビット1」が取得される。
情報埋め込み位置送信部53は、快適雑音特性照合部51が得た、背景雑音の特性に応じた埋め込み位置info_posを情報埋め込み部15に与えるものである。
図1に戻り、情報埋め込み部15は、音声符号Voice_code及び快適雑音符号CN_codeを一系列の符号に多重すると共に(音声符号と快適雑音符号とを区別するパラメータがそれぞれの符号に含まれている)、上述のように、情報埋め込み位置制御部14から与えられた埋め込み位置info_posで定まる位置に付加情報を埋め込むものである。上述のように、埋め込み位置の制御(決定)は背景雑音区間でのみ行い、情報埋め込み部15は、背景雑音区間では、決定された埋め込み位置info_posに付加情報を埋め込み、音声区間では、最近の背景雑音区間において定まった埋め込み位置info_posを流用し、その埋め込み位置info_posに付加情報を埋め込む。ここで、流用するとは、音声区間も、フレームを単位に処理しており、そのフレームにおいて、埋め込み位置info_posで定まるオクテットの埋め込みビット位置に付加情報を埋め込むことを表している。音声区間の信号は、音声と背景雑音とが重畳された区間の信号であり、音声でどの位置が埋め込むのに好適かを定めることは困難を伴うが、重畳された背景雑音に応じて、どの位置が埋め込むのに好適かは情報埋め込み位置制御部14によって定められている。そのため、音声区間でも、最近の背景雑音区間において定まった埋め込み位置info_posを流用することとしている。
符号送信部16は、埋め込み位置info_posに付加情報が埋め込まれた、音声符号Voice_code及び快適雑音符号CN_codeが多重された符号codeを、対向する音声復号装置60に向けて送信するものである。
図6は、実施形態に係る音声復号装置60の構成を示すブロック図である。なお、音声復号装置60を、CPUと、CPUが実行するプログラムで実現することもできるが、機能的には、図6で表すことができる。
図6において、この実施形態の音声復号装置60は、符号受信部61、区間判定部62、音声復号部63、快適雑音復号部64、情報埋め込み位置照合部65、情報埋め込み位置記憶部66、付加情報抽出部67、付加情報出力部68及び音声出力部69を有する。
符号受信部61は、音声符号化装置10が送信した符号code(音声符号Voice_code及び快適雑音符号CN_code)を受信するものである。
区間判定部62は、符号codeに含まれている、当該符号が音声符号Voice_codeの区間(音声区間)か快適雑音符号CN_codeの区間(背景雑音区間)かを意味するパラメータを参照して、音声区間か、背景雑音区間かを判定するものである。
音声復号部63は、音声区間の場合に、音声符号生成部12に対応する音声復号処理を実行するものである。音声復号部63は、例えば、音声符号Voice_codeに含まれている、信号源ac、fcや重み付けゲインag、fgに基づいて励振信号を再構成し、この励振信号と、音声符号Voice_codeに含まれているLSP係数lsp_coefから算出した線形予測係数lpc_coefとを、合成フィルタで畳み込み演算して音声信号を再構成し、きらに聴感を向上するためにフォルマン強調処理を施し、直流成分を除去するハイパスフィルタを通過させ、最後に、符号化器の前処理部(図2の符号21参照)において圧縮された振幅を元に戻す(例えば、2を乗算する)という処理を施すことで、最終的な出力音声Voice_sigを得る。
快適雑音復号部64は、背景雑音区間の場合に、乱数を発生させ、快適雑音符号CN_codeに含まれている平均LSFパラメータベクトルLSFに基づいて周波数特性を調整すると共に、快適雑音符号CN_codeに含まれている平均対数フレームエネルギーENに基づいてレベルを調整し、送信側の背景雑音の特性を反映した雑音信号(快適雑音)CN_sigを得るものである。また、快適雑音復号部64は、快適雑音符号CN_codeから取り出した平均LSFパラメータベクトルLSF及び平均対数フレームエネルギーENを、情報埋め込み位置照合部65を与えるものである。
音声出力部69は、音声区間ならば出力音声Voice_sigを、雑音区間であれば雑音信号(快適雑音)CN_sigを出力するものである。
情報埋め込み位置記憶部66は、音声符号化装置10における情報埋め込み位置記憶部52と同様に、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値の範囲と、情報埋め込み位置との対応関係を記憶しているものである(図5参照)。
情報埋め込み位置照合部65は、快適雑音復号部64から与えられた平均LSFパラメータベクトルLSF及び平均対数フレームエネルギーENを情報埋め込み位置記憶部66に渡して埋め込み位置info_posを問い合わせて埋め込み位置info_posを取得し、付加情報抽出部67に与えるものである。
付加情報抽出部67は、符号受信部61が受信した符号code(音声符号Voice_code及び快適雑音符号CN_code)の中の、埋め込み位置info_posが指示する位置からビット値(付加情報を構成するビット値)を抽出して付加情報出力部68に与えるものである。
付加情報出力部68は、付加情報抽出部67によって抽出されたビット値の系列を付加情報として出力するものである。
(A−2)実施形態の動作
次に、以上のような構成を有する実施形態の音声符号化装置10と実施形態の音声復号装置60とでなる実施形態の音声符号化システムの動作を説明する。以下では、付加情報を埋め込んで伝送する面から動作を説明する。
入力信号(入力されたデジタル音声信号)inputは、音声検出部11によって、所定期間(例えば20ms)ごとに、音声か背景雑音なのかを判定され、音声区間の入力信号は音声符号生成部12に与えられ、背景雑音区間の入力信号は快適雑音符号生成部13に与えられる。
音声符号生成部12によって、音声区間の入力信号から音声符号Voice_codeが生成されて情報埋め込み部15に与えられ、快適雑音符号生成部13によって、背景雑音区間の入力信号から快適雑音符号CN_codeが生成されて情報埋め込み部15に与えられる。
快適雑音符号生成部13が快適雑音符号CN_codeを生成するために算出した平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFは、情報埋め込み位置制御部14に与えられる。
情報埋め込み位置制御部14においては、快適雑音特性照合部51から情報埋め込み位置記憶部52に、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値が与えられて、対応する埋め込み位置info_posが取り出され、この埋め込み位置info_posが、情報埋め込み位置送信部53から情報埋め込み部15に与えられる。
音声符号Voice_code及び快適雑音符号CN_codeは、情報埋め込み部15によって一系列の符号に多重され、この際に、音声符号Voice_code及び快適雑音符号CN_codeのそれぞれに対し、埋め込み位置info_posで定まる位置に付加情報が埋め込まれる。
埋め込み位置info_posに付加情報が埋め込まれた、音声符号Voice_code及び快適雑音符号CN_codeの多重符号codeは、符号送信部16によって、対向する通信端末に向けて送信される。
音声符号化装置10が送信した符号code(音声符号Voice_code及び快適雑音符号CN_code)は、受話側通信端末内の音声復号装置60の符号受信部61によって受信される。
受信符号codeに含まれている音声符号Voice_codeの区間(音声区間)か快適雑音符号CN_codeの区間(背景雑音区間)かを意味するパラメータが参照されて、音声区間か背景雑音区間かが、区間判定部62によって判定される。
音声区間の場合に、音声復号部63によって、音声符号生成部12に対応する音声復号処理が実行され、出力音声Voice_sigが得られる。また、背景雑音区間の場合に、快適雑音復号部64によって、乱数が発生され、快適雑音符号CN_codeに含まれている平均LSFパラメータベクトルLSFに基づいて周波数特性が調整されると共に、快適雑音符号CN_codeに含まれている平均対数フレームエネルギーENに基づいてレベルが調整され、送信側の背景雑音の特性が反映された雑音信号(快適雑音)CN_sigが得られる。そして、音声出力部69から、区間判定部62の判定の結果、音声区間であれば出力音声Voice_sigが、雑音区間であれば雑音信号(快適雑音)CN_sigが出力される。
快適雑音復号部64によって、快適雑音符号CN_codeから取り出した平均LSFパラメータベクトルLSF及び平均対数フレームエネルギーENは、情報埋め込み位置照合部65に与えられる。
情報埋め込み位置照合部65から情報埋め込み位置記憶部66に、平均対数フレームエネルギーEN及び平均LSFパラメータベクトルLSFの値が与えられて、対応する埋め込み位置info_posが取り出され、この埋め込み位置info_posが、付加情報抽出部67に与えられる。
符号受信部61が受信した符号code(音声符号Voice_code及び快適雑音符号CN_code)の中の、埋め込み位置info_posが指示する位置からビット値(付加情報を構成するビット値)が、付加情報抽出部67によって抽出され、付加情報出力部68によって、付加情報抽出部67によって抽出されたビット値がビット系列にまとめられて付加情報として出力される。
(A−3)実施形態の効果
上記実施形態によれば、音声符号化装置及び音声復号装置の双方で、背景雑音パラメータを用いて参照できる同一構成の情報埋め込み位置記憶部を保持することにより、背景雑音特性に応じて劣化の少ない埋め込み位置に付加情報を埋め込むことができ、音声復号装置側で本来の伝送信号(音声区間及び背景雑音区間の信号)を精度良く再現することができる。すなわち、背景雑音特性によらずに常に音質劣化を最小限に抑制しつつ、音声符号や快適雑音符号のフレームに付加情報を埋め込むことができる。そのため、一定以上の通話品質を常に維持しつつ、通信帯域を有効に活用できるようになる。
(B)他の実施形態
上記実施形態においては、音声符号化装置から音声復号装置にリアルタイムで伝送する伝送路を介するイメージで説明したが(例えば、電話機やテレビ会議装置など)、伝送路は広義の伝送路であって良い。例えば、音声符号化装置からの符号を記録媒体に書込み、その記録媒体から読み出した符号を音声復号装置が復号する場合にも、本発明の技術思想を適用することができる。
また、上記実施形態においては、音声符号及び快適雑音符号の双方に付加情報を埋め込むものを示したが、音声符号及び快適雑音符号の少なくとも一方にのみ付加情報を埋め込むようにしても良い。
さらに、上記実施形態においては、音声符号化方式としてAMR方式を適用した場合を説明したが、音声符号化方式はAMR方式に限定されるものではない。要は、音声区間と背景雑音区間とを区別して符号化するものであり、背景雑音についてはその特徴パラメータを符号化し、音声符号化装置と音声復号装置の双方で背景雑音の特徴パラメータを共有できる音声符号化方式であれば、本発明の技術思想を適用することができる。
さらに、上記実施形態においては、埋め込む付加情報の種類を限定しなかったが、テキスト情報や、入力音声レベルのような音声の特徴量など、設計者の必要に応じて任意の付加情報を埋め込んでも良い。
ここで、音声の特徴量のように、入力信号になんらかの演算を施すことではじめて得ることができる情報を埋め込む場合には、音声特徴量抽出・付加情報生成部を別途設ければ良い。この場合の構成を図7に示している。この場合の音声符号化装置10Aは、音声検出部11、音声符号生成部12、快適雑音符号生成部13、情報埋め込み位置制御部14、情報埋め込み部15及び符号送信部16に加え、音声特徴量抽出・付加情報生成部75を有する。音声特徴量抽出・付加情報生成部75以外の動作は、上記実施形態と同様なので、以下では、音声特徴量抽出・付加情報生成部75の動作のみを説明する。なお、音声特徴量として、特定の周波数帯域の音声レベルを用いる場合を例とし、また、音声特徴量抽出・付加情報生成部75は入力信号N個のサンプルから構成されるフレーム単位で動作するものとする。
まず、音声特徴量抽出・付加情報生成部75は、入力信号input(t)がN個から構成されるフレームを取得し、(2)式に示すように、所定の周波数帯域の成分を抽出するフィルタ係数FILTER_COEFと畳み込み処理した信号fil_out(t)を算出する。但し、(2)式において、「*」は畳み込み演算を表している。
fil_out(t)=FILTER_COEF*input(t) …(2)
このようにして得た信号の平均レベルLVを(3)式のように計算する。この演算はフレーム内のfil_out(t)の絶対値の算術平均を計算していることに相当するが、平均レベルの算出方法は(3)式に限定されず、例えば、絶対値ではなく二乗値の平均を取る、算術平均ではなく重み付き平均を計算する、など装置設計者が任意に変更しても良い。
Figure 2013076871
そして、後段の情報埋め込み部15で符号に埋め込める形式に変換するために、平均レベルLVを10進数から2進数に変換し、これを付加情報add_infとして情報埋め込み部15に与える。最後に、情報埋め込み部15で、音声特徴量抽出・付加情報生成部75から取得した付加情報add_infoを、情報埋め込み位置制御部14で指定された埋め込み位置info_posに埋め込み、符号送信部16から送信させる。
例えば、(2)式のフィルタ演算によって抽出する周波数成分を4kHz以上の高域とし、これから付加情報を生成し、一方、0〜4kHzの周波数成分については、音声符号化して受信側に送信する。受信側では、復号された音声信号(低域成分)から高域成分を推定し、推定した高域成分を、付加情報として埋め込まれていた高域信号レベルと同じ大きさになるように調整した上で、復号された音声信号(低域成分)と合成し、広域な音声信号を再生する。
以上が付加情報として音声特徴量を用いる場合の音声符号化装置の動作例である。なお、ここでは音声特徴量として特定の周波数帯域の平均レベルを例としたが、これに限定されるものではなく、装置設計者の必要に応じて、例えば、公知のフォルマント抽出方法を適用してフォルマント成分を得る、などの変更をしても良い。
10、10A…音声符号化装置、11…音声検出部、12…音声符号生成部、13…快適雑音符号生成部、14…情報埋め込み位置制御部、15…情報埋め込み部、41…平均対数フレームエネルギー算出部、42…平均LSFパラメータベクトル算出部、43…快適雑音符号構成部、51…快適雑音特性照合部、52…情報埋め込み位置記憶部、60…音声復号装置、62…区間判定部、63…音声復号部、64…快適雑音復号部、65…情報埋め込み位置照合部、66…情報埋め込み位置記憶部、67…付加情報抽出部、75…音声特徴量抽出・付加情報生成部。

Claims (7)

  1. 入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置において、
    入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
    音声区間の入力信号から音声符号を生成する音声符号生成手段と、
    背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
    雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
    音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
    を有することを特徴とする音声符号化装置。
  2. 上記入力信号から所定の特徴量を抽出し、当該特徴量を付加情報として適切な形態に変換することで上記付加情報を生成する音声特徴量抽出・付加情報生成手段をさらに有することを特徴とする請求項1に記載の音声符号化装置。
  3. 上記音声特徴量抽出・付加情報生成手段は、
    上記入力信号から所定の周波数成分を抽出するフィルタ部と、
    このフィルタ部が抽出した成分信号のレベルを算出するレベル計算部と、
    算出された成分信号レベルを付加情報として適切な形態に変換する変換部とを有する
    ことを特徴とする請求項2に記載の音声符号化装置。
  4. 入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置に搭載されるコンピュータを、
    入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
    音声区間の入力信号から音声符号を生成する音声符号生成手段と、
    背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
    雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
    音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
    して機能させることを特徴とする音声符号化プログラム。
  5. 付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置において、
    受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
    音声区間の受信符号から音声信号を復号する音声復号手段と、
    背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
    復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
    雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
    受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
    を有することを特徴とする音声復号装置。
  6. 付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置に搭載されるコンピュータを、
    受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
    音声区間の受信符号から音声信号を復号する音声復号手段と、
    背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
    復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
    雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
    受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
    して機能させることを特徴とする音声復号プログラム。
  7. 入力信号を符号化すると共に生成された符号に付加情報を埋め込む音声符号化装置と、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置とが対向している音声符号化システムにおいて、
    上記音声符号化装置として請求項1〜3のいずれかに記載の音声符号化装置を適用すると共に、上記音声復号装置として請求項5に記載の音声復号装置を適用したことを特徴とする音声符号化システム。
JP2011217070A 2011-09-30 2011-09-30 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム Pending JP2013076871A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011217070A JP2013076871A (ja) 2011-09-30 2011-09-30 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
US13/619,029 US20130085751A1 (en) 2011-09-30 2012-09-14 Voice communication system encoding and decoding voice and non-voice information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011217070A JP2013076871A (ja) 2011-09-30 2011-09-30 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム

Publications (1)

Publication Number Publication Date
JP2013076871A true JP2013076871A (ja) 2013-04-25

Family

ID=47993410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011217070A Pending JP2013076871A (ja) 2011-09-30 2011-09-30 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム

Country Status (2)

Country Link
US (1) US20130085751A1 (ja)
JP (1) JP2013076871A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018509786A (ja) * 2014-12-08 2018-04-05 サムスン エレクトロニクス カンパニー リミテッド 無欠性検査データ提供方法及びその装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN107545899B (zh) * 2017-09-06 2021-02-19 武汉大学 一种基于清音基音延迟抖动特性的amr隐写方法
US11854571B2 (en) * 2019-11-29 2023-12-26 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
TWI790682B (zh) * 2021-07-13 2023-01-21 宏碁股份有限公司 聲音浮水印的處理方法及語音通訊系統
CN113837305B (zh) * 2021-09-29 2022-09-23 北京百度网讯科技有限公司 目标检测及模型训练方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6226672A (ja) * 1985-05-21 1987-02-04 ポリグラム・インタ−ナシヨナル・ホ−ルデイング・ビ−・ベ− オ−デイオ情報をデイジタル形式で伝送する方法
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP2007504513A (ja) * 2003-05-15 2007-03-01 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ キャリア信号にバイナリペイロードを埋込む装置および方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
JP4997833B2 (ja) * 2006-05-30 2012-08-08 沖電気工業株式会社 自動利得制御装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6226672A (ja) * 1985-05-21 1987-02-04 ポリグラム・インタ−ナシヨナル・ホ−ルデイング・ビ−・ベ− オ−デイオ情報をデイジタル形式で伝送する方法
JP2007504513A (ja) * 2003-05-15 2007-03-01 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ キャリア信号にバイナリペイロードを埋込む装置および方法
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015003630; Yong Feng Huang, et al.: 'Steganography in Inactive Frames of VoIP Streams Encoded by Source Codec' IEEE Transactions on Information Forensics and Security Vol.6, No.2, 201106, pp.296-306, IEEE *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018509786A (ja) * 2014-12-08 2018-04-05 サムスン エレクトロニクス カンパニー リミテッド 無欠性検査データ提供方法及びその装置
US10516677B2 (en) 2014-12-08 2019-12-24 Samsung Electronics Co., Ltd. Method and apparatus for providing integrity check data

Also Published As

Publication number Publication date
US20130085751A1 (en) 2013-04-04

Similar Documents

Publication Publication Date Title
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
CN108352163B (zh) 用于解码立体声声音信号的左和右声道的方法和***
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP2017078870A (ja) フレームエラー隠匿装置
CN103299365B (zh) 用于自适应地编码和解码带水印信号的装置
US10607624B2 (en) Signal codec device and method in communication system
MX2013009305A (es) Generacion de ruido en codecs de audio.
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
KR102302012B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
JP2009539132A (ja) オーディオ信号の線形予測符号化
JP2013076871A (ja) 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
CN105814629A (zh) 带宽扩展模式选择
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
TW521265B (en) Relative pulse position in CELP vocoding
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
JP2004138756A (ja) 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム
UA114233C2 (uk) Системи та способи для визначення набору коефіцієнтів інтерполяції
JPWO2014034697A1 (ja) 復号方法、復号装置、プログラム、及びその記録媒体
EP2617034A1 (en) Determining pitch cycle energy and scaling an excitation signal
KR20100084632A (ko) 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장
JP4764956B1 (ja) 音声符号化装置及び音声符号化方法
JP2004061558A (ja) 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150403

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150908