JP2013076871A

JP2013076871A - 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム

Info

Publication number: JP2013076871A
Application number: JP2011217070A
Authority: JP
Inventors: Katsuyuki Takahashi; 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-04-25
Also published as: US20130085751A1

Abstract

【課題】送信符号に付加情報を埋め込んで伝送しても音質の劣化を抑えることができる音声符号化システムを提供する。
【解決手段】音声符号化装置では、音声区間と背景雑音区間とを分け、それぞれ符号化する。背景雑音区間では、背景雑音の特徴パラメータを抽出して符号化する。そして、この抽出された特徴パラメータの値に応じて、付加情報の埋め込み位置を決定する。音声復号装置においては、受信符号の区間を、音声区間と背景雑音区間とを分けて復号する。背景雑音区間の復号では特徴パラメータの値が得られる。そして、この特徴パラメータの値に応じて、付加情報の埋め込み位置を認識し、受信符号の認識した埋め込み位置のデータを取り出すことを通じて付加情報を取得する。
【選択図】図１

Description

本発明は音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムに関し、例えば、符号化音声データに他のデータ（付加情報）を埋め込んで伝送する場合に適用し得るものである。

近年、通信パケットの一部に付加情報を埋め込み、復号時に付加情報を再構成することで、通信回線の負荷を抑えつつ、より多くの情報を伝送することが可能になってきた。例えば、「電話のときに音声パケットだけではなく、データファイルを分割して音声パケットに埋め込み、受け側で音声の再構成と同時にデータファイルを復元する」といったことが可能になってきている。

しかし、情報埋め込み技術は、有用な反面、付加情報の埋め込みにより、元の情報を劣化させてしまうという副作用も持つ。そのため、付加情報を埋め込んでも劣化が小さい位置を探し出すことが重要である。元情報が音声の場合、音声波形あるいはパラメータの一部が付加情報の上書きによって音質が変化し、通話品質に大きな影響が出るため、この問題は特に重要となる。そのため、劣化の小さい最適位置に付加情報を埋め込む機能を備えた音声符号化方法が求められている。

音質の劣化を抑えつつ情報を埋め込む技術の先行技術として、特許文献１や非特許文献１の記載技術が挙げられる。これらは、例えば、ピッチゲインの値が所在の閾値より小さいか否かという判定条件によって、付加情報の埋め込みによる劣化が小さいかどうかを判定し、小さい場合には予め定めた特定の埋め込み位置に付加情報を埋め込む、という処理によって音質の劣化を抑制するものである。

特開２００３−２９５８７９号公報

西村明著、「ＡＭＲ音声コーデックにおけるピッチディレイパラメータヘのデータハイディング」、日本音響学会春季研究発表会講演論文集、３−６−１０、ｐｐ１３９９−１４０２、２００９年３月３ＧＴＳ２６．０９０ｖｅｒｓｉｏｎ３．１．０ＡＭＲｓｐｅｅｃｈｃｏｄｅｃ；Ｔｒａｎｓｃｏｄｉｎｇｆｕｎｃｔｉｏｎｓ３ＧＴＳ２６．０９４ｖｅｒｓｉｏｎ３．０．０ＡＭＲｓｐｅｅｃｈｃｏｄｅｃ；ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ（ＶＡＤ）３ＧＴＳ２６．０９２ｖｅｒｓｉｏｎ３．０．１ＡＭＲｓｐｅｅｃｈｃｏｄｅｃ；Ｃｏｍｆｏｒｔｎｏｉｓｅａｓｐｅｃｔｓ３ＧＴＳ２１１０１ｖｅｒｓｉｏｎ３．３．０ＡＭＲＳｐｅｅｃｈｃｏｄｅｃＦｒａｍｅＳｔｒｕｃｔｕｒｅ

しかしながら、非特許文献２〜非特許文献５で規定されるＡＭＲ（ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ;適応多重レート）のようなＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ；代数符号励振線形予測）信号に基づく音声符号化方式では、背景雑音の特性によって音質劣化を最小にする埋め込み位置が異なる。そのため、従来の方法のような雑音特性を考慮せずに特定の位置に埋め込む方式では、設計者の想定以上に音質の劣化が大きくなるという問題がある。

そのため、符号に他のデータ（付加情報）を埋め込んで伝送しても、音質の劣化を抑えることができる音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムが望まれている。

第１の本発明は、入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置において、（１）入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、（２）音声区間の入力信号から音声符号を生成する音声符号生成手段と、（３）背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、（４）雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、（５）音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段とを有することを特徴とする。

第２の本発明の音声符号化プログラムは、入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置に搭載されるコンピュータを、（１）入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、（２）音声区間の入力信号から音声符号を生成する音声符号生成手段と、（３）背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、（４）雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、（５）音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段として機能させることを特徴とする。

第３の本発明は、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置において、（１）受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、（２）音声区間の受信符号から音声信号を復号する音声復号手段と、（３）背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、（４）区間判定手段の結果に応じて音声信号または雑音信号を出力する信号出力手段と、（５）雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、（６）受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段とを有することを特徴とする。

第４の本発明の音声復号プログラムは、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置に搭載されるコンピュータを、（１）受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、（２）音声区間の受信符号から音声信号を復号する音声復号手段と、（３）背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、（４）区間判定手段の結果に応じて音声信号または雑音信号を出力する信号出力手段と、（５）雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、（６）受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段として機能させることを特徴とする。

第５の本発明は、入力信号を符号化すると共に生成された符号に付加情報を埋め込む音声符号化装置と、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置とが対向している音声符号化システムにおいて、上記音声符号化装置として第１の本発明の音声符号化装置を適用すると共に、上記音声復号装置として第３の本発明の音声復号装置を適用したことを特徴とする。

本発明によれば、背景雑音特性に応じて埋め込み位置を制御するようにしたので、送信符号に付加情報を埋め込んで伝送しても、音質の劣化を抑えることができる。

実施形態に係る音声符号化装置の構成を示すブロック図である。図１の音声符号生成部の詳細構成を示すブロック図である。図１の快適雑音符号生成部の詳細構成を示すブロック図である。図１の情報埋め込み位置制御部の詳細構成を示すブロック図である。図１の情報埋め込み位置制御部内の情報埋め込み位置記憶部における記憶内容を示す説明図である。実施形態に係る音声復号装置の構成を示すブロック図である。実施形態から派生した変形実施形態に係る音声符号化装置の構成を示すブロック図である。

（Ａ）主たる実施形態
以下、本発明による音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムの一実施形態を、図面を参照しながら詳述する。この実施形態は、雑音特性に応じて情報埋め込み位置を制御することを特徴としている。

（Ａ−１）実施形態の構成
実施形態の音声符号化システムは、実施形態の音声符号化装置１０と実施形態の音声復号装置６０とでなる。実施形態の音声符号化装置１０及び実施形態の音声復号装置６０は、音声符号化方式としてＡＭＲ方式を適用しているものである。

図１は、実施形態の音声符号化装置１０の構成を示すブロック図である。図１において、この実施形態の音声符号化装置１０は、音声検出部１１、音声符号生成部１２、快適雑音符号生成部１３、情報埋め込み位置制御部１４、情報埋め込み部１５及び符号送信部１６を有する。なお、音声符号化装置を、ＣＰＵと、ＣＰＵが実行するプログラムで実現することもできるが、機能的には、図１で表すことができる。

音声検出部１１は、入力信号（入力されたデジタル音声信号）ｉｎｐｕｔが与えられると、所定期間（例えば２０ｍｓ；フレーム）ごとに、入力信号ｉｎｐｕｔが音声か背景雑音なのかを判定するものである。この判定方法は、既存のどのような方法を適用しても良い。例えば、非特許文献３に記載されている判定方法を適用できる。音声検出部１１は、入力信号ｉｎｐｕｔが音声であれば音声符号生成部１２に与え、入力信号ｉｎｐｕｔが背景雑音であれば快適雑音符号生成部１３に与える。

音声符号生成部１２は、与えられた音声信号から音声符号Ｖｏｉｃｅ＿ｃｏｄｅを生成して、情報埋め込み部１５に与えるものである。図２は、音声符号生成部１２の詳細構成例を示しており、非特許文献３で規定されてものに応じている。

音声符号生成部１２は、前処理部２１、ＬＰＣ・ＬＳＰ係数計算部２２、励振信号生成部Ｓ１、合成フィルタ部２８、歪み計算部２９、符号帳・加算ゲイン制御部３０、音声符号構成部３１を有する。

音声符号生成部１２は、声帯振動を音源とし声道で周波数特性を整えるという人間の発声機構を模擬しており、入力音声を分析して声帯振動や声道特性に相当するパラメータを抽出し、符号化している。声帯振動に相当するパラメータを得るのが、励振信号生成部Ｓ１であり、声道特性に相当するパラメータを抽出するのがＬＰＣ・ＬＳＰ係数計算部２２である。

前処理部２１は、音声と判定された入力信号ｉｎｐｕｔから直流成分を除去すると共に、オーバーフローを防止するために振幅を縮小する（例えば２で除算する）ものであり、得られた信号ｐｒｅ＿ｉｎｐｕｔを、ＬＰＣ・ＬＳＰ係数計算部２２及び歪み計算部２９に与えるものである。

ＬＰＣ・ＬＳＰ係数計算部２２は、線形予測係数ｌｐｃ＿ｃｏｅｆとＬＳＰ係数ｌｓｐ＿ｃｏｅｆを算出し、合成フィルタ部２８には線形予測係数ｌｐｃ＿ｃｏｅｆを与え、音声符号構成部３１にはＬＳＰ係数ｌｓｐ＿ｃｏｅｆを与えるものである。

励振信号生成部Ｓ１は、励振信号ｘを、最適な励振信号の探索動作を通じて生成するものである。励振信号生成部Ｓ１は、適応符号帳２３、適応符号帳ゲイン乗算部２４、代数符号帳２５、代数符号帳ゲイン乗算部２６及び加算部２７を有する。

適応符号帳２３は、音声のピッチのように規則性を有する音源信号波形ａｃを過去の入力信号から抽出して複数格納しており、探索時には、符号帳・加算ゲイン制御部３０の制御下で、格納しているものを候補として次々と出力するものである。

適応符号帳ゲイン乗算部２４は、適応符号帳２３からの音源信号波形ａｃに、符号帳・加算ゲイン制御部３０から与えられた重み付けゲインａｇを乗算するものである。

代数符号帳２５は、明確な規則性のない音源信号波形や雑音を再現するために特定の位置にパルスを有する信号波形ｆｃを複数格納しており、探索時には、符号帳・加算ゲイン制御部３０の制御下で、格納しているものを候補として次々と出力するものである。

代数符号帳ゲイン乗算部２６は、代数符号帳２５からの信号波形ｆｃに、符号帳・加算ゲイン制御部３０から与えられた重み付けゲインｆｇを乗算するものである。

加算部２７は、適応符号帳ゲイン乗算部２４からの乗算出力と、代数符号帳ゲイン乗算部２６からの乗算出力を加算するものであり、この加算出力が励振信号ｘとなる。

以上から明らかなように、励振信号ｘ（ｔ）は、（１）式で表現される（但し、ｔは時刻を表している。

ｘ（ｔ）＝ａｇ×ａｃ（ｔ）＋ｆｇ×ｆｃ（ｔ） …（１）
（１）式の右辺を構成する４つのパラメータａｃ（ｔ）、ｆｃ（ｔ）、ａｇ、ｆｇをそれぞれ変化させ、後述する評価値が、最も評価が高くなる４つのパラメータを探索することで、時刻ｔについての励振信号ｘ（ｔ）を定める。

このような探索では、合成フィルタ部２８、歪み計算部２９及び符号帳・加算ゲイン制御部３０が機能する。

合成フィルタ部２８は、線形予測係数ｌｐｃ＿ｃｏｅｆと励振信号ｘ（ｔ）との畳み込み演算を行い、そのときに候補の励振信号ｘ（ｔ）を用いて復号した場合の局部復号の信号（前処理後の信号ｐｒｅ＿ｉｎｐｕｔに対応する）ｙ（ｔ）を得るものである。

歪み計算部２９は、前処理後の信号ｐｒｅｉｎｐｕｔ（ｔ）と局部復号の信号ｙ（ｔ）との誤差ｄｉｓｔを計算するものである。

符号帳・加算ゲイン制御部３０は、この誤差ｄｉｓｔが最小（若しくは所定の閾値以下となる）となる４つのパラメータａｃ（ｔ）、ｆｃ（ｔ）、ａｇ、ｆｇを決定できるように、各パラメータの候補を切り換える制御を行うものである。

音声符号構成部３１は、誤差ｄｉｓｔが最小となる４つのパラメータａｃ（ｔ）、ｆｃ（ｔ）、ａｇ、ｆｇを決定できたときに、４つのパラメータａｃ（ｔ）、ｆｃ（ｔ）、ａｇ、ｆｇとＬＳＰ係数ｌｓｐ＿ｃｏｅｆとから、音声復号装置６０側に与える音声符号Ｖｏｉｃｅ＿ｃｏｄｅを生成するものである。

図１に戻り、快適雑音符号生成部１３は、入力信号ｉｎｐｕｔが背景雑音であるときに、快適雑音符号ＣＮ＿ｃｏｄｅを生成するものである。ここで、快適雑音とは、無音圧縮時に通話が切れたと受信者が勘違いしないよう発生させる擬似的な背景雑音のことである。送信側の背景雑音特徴量を符号として送り、受信側で、背景雑音特性を近似するような雑音を生成することで、音声復号装置６０が出力する雑音を快適雑音とする。

快適雑音符号生成部１３としては、例えば、非特許文献４に規定のものを適用できる。この規定の方法では、送信側は、背景雑音の周波数特性を表す平均ＬＳＦ（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ；線スペクトル周波数）パラメータベクトルと、背景雑音のレベルを表す平均対数フレームエネルギーという２種の特徴量を算出し、符号化している。受信側では、乱数を発生させ、平均ＬＳＦパラメータベクトルに基づいて周波数特性を、平均対数フレームエネルギーに基づいてレベルを、それぞれ調整することで、送信側の背景雑音の特性を反映した快適雑音を得る。

図３は、快適雑音符号生成部１３の詳細構成例を示しており、上述した非特許文献４で規定されてものに応じている。

図３において、快適雑音生成部１３は、平均対数フレームエネルギー算出部４１、平均ＬＳＦパラメータベクトル算出部４２及び快適雑音符号構成部４３を有する。

平均対数フレームエネルギー算出部４１は、平均対数フレームエネルギーＥＮを算出するものである。平均対数フレームエネルギーＥＮの算出方法としては、例えば、非特許文献４のセクション５．２に記載された方法を適用できる。

平均ＬＳＦパラメータベクトル算出部４２は、平均ＬＳＦパラメータベクトルＬＳＦを算出するものである。平均ＬＳＦパラメータベクトルＬＳＦの算出方法としては、例えば、非特許文献４のセクション５．１に記載された方法を適用できる。

快適雑音符号構成部４３は、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦを用いて、快適雑音符号ＣＮ＿ｃｏｄｅを生成するものである。快適雑音符号ＣＮ＿ｃｏｄｅの生成方法としては、例えば、非特許文献５のＴａｂｌｅＡ．２を利用する方法を適用できる。

図１に戻り、情報埋め込み部１５は、音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅの中の、情報埋め込み位置制御部１４から指定された情報埋め込み位置ｉｎｆｏ＿ｐｏｓに、外部から与えられた付加情報を埋め込むものである。

情報埋め込み位置制御部１４は、快適雑音符号生成部１３において算出された平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦを利用して、情報埋め込み位置ｉｎｆｏ＿ｐｏｓを定めて、その位置を、情報を埋め込む位置として情報埋め込み部１５に指定するものである。

図４は、情報埋め込み位置制御部１４の詳細構成を示すブロック図である。図４において、情報埋め込み位置制御部１４は、快適雑音特性照合部５１、情報埋め込み位置記憶部５２及び情報埋め込み位置送信部５３を有する。

情報埋め込み位置記憶部５２は、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値の範囲と、情報埋め込み位置との対応関係を記憶しているものである。情報埋め込み位置は、対応する平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値の範囲において、音質劣化が最小になる位置である。例えば、シミュレーションによって決定し、予め、記憶させる。

図５（Ａ）は、情報埋め込み位置記憶部５２の記憶内容の一例を示す説明図である。例えば、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値の範囲が０≦ＥＮ＜２０、１０００≦ＬＳＦ＜２０００の場合には、埋め込み位置ｉｎｆｏ＿ｐｏｓが「第２オクテット、埋め込みビット１」であることが規定されている。「第２オクテット、埋め込みビット１」は、フレーム内での位置で表すと、図５（Ｂ）における●の位置に相当する。また例えば、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値の範囲が２０≦ＥＮ≦４０、０≦ＬＳＦ＜１０００の場合には、埋め込み位置ｉｎｆｏ＿ｐｏｓが「第３オクテット、埋め込みビット８」であることが規定されている。「第３オクテット、埋め込みビット８」は、フレーム内での位置で表すと、図５（Ｂ）における◎の位置に相当する。

なお、ＡＭＲの場合には、ビットレートごとに音声符号Ｖｏｉｃｅ＿ｃｏｄｅの構成は異なるので、実施形態の音声符号化装置１０が複数のビットレートに対応できるものである場合には、図５の対応関係をビットレートごとに用意しておく。

快適雑音特性照合部５１は、快適雑音符号生成部１３において算出された平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値を、情報埋め込み位置記憶部５２に与えて、該当する埋め込み位置ｉｎｆｏ＿ｐｏｓを取得するものである。

例えば、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値がそれぞれ１５、１２００である場合には、埋め込み位置ｉｎｆｏ＿ｐｏｓとして「第２オクテット、埋め込みビット１」が取得される。

情報埋め込み位置送信部５３は、快適雑音特性照合部５１が得た、背景雑音の特性に応じた埋め込み位置ｉｎｆｏ＿ｐｏｓを情報埋め込み部１５に与えるものである。

図１に戻り、情報埋め込み部１５は、音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅを一系列の符号に多重すると共に（音声符号と快適雑音符号とを区別するパラメータがそれぞれの符号に含まれている）、上述のように、情報埋め込み位置制御部１４から与えられた埋め込み位置ｉｎｆｏ＿ｐｏｓで定まる位置に付加情報を埋め込むものである。上述のように、埋め込み位置の制御（決定）は背景雑音区間でのみ行い、情報埋め込み部１５は、背景雑音区間では、決定された埋め込み位置ｉｎｆｏ＿ｐｏｓに付加情報を埋め込み、音声区間では、最近の背景雑音区間において定まった埋め込み位置ｉｎｆｏ＿ｐｏｓを流用し、その埋め込み位置ｉｎｆｏ＿ｐｏｓに付加情報を埋め込む。ここで、流用するとは、音声区間も、フレームを単位に処理しており、そのフレームにおいて、埋め込み位置ｉｎｆｏ＿ｐｏｓで定まるオクテットの埋め込みビット位置に付加情報を埋め込むことを表している。音声区間の信号は、音声と背景雑音とが重畳された区間の信号であり、音声でどの位置が埋め込むのに好適かを定めることは困難を伴うが、重畳された背景雑音に応じて、どの位置が埋め込むのに好適かは情報埋め込み位置制御部１４によって定められている。そのため、音声区間でも、最近の背景雑音区間において定まった埋め込み位置ｉｎｆｏ＿ｐｏｓを流用することとしている。

符号送信部１６は、埋め込み位置ｉｎｆｏ＿ｐｏｓに付加情報が埋め込まれた、音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅが多重された符号ｃｏｄｅを、対向する音声復号装置６０に向けて送信するものである。

図６は、実施形態に係る音声復号装置６０の構成を示すブロック図である。なお、音声復号装置６０を、ＣＰＵと、ＣＰＵが実行するプログラムで実現することもできるが、機能的には、図６で表すことができる。

図６において、この実施形態の音声復号装置６０は、符号受信部６１、区間判定部６２、音声復号部６３、快適雑音復号部６４、情報埋め込み位置照合部６５、情報埋め込み位置記憶部６６、付加情報抽出部６７、付加情報出力部６８及び音声出力部６９を有する。

符号受信部６１は、音声符号化装置１０が送信した符号ｃｏｄｅ（音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅ）を受信するものである。

区間判定部６２は、符号ｃｏｄｅに含まれている、当該符号が音声符号Ｖｏｉｃｅ＿ｃｏｄｅの区間（音声区間）か快適雑音符号ＣＮ＿ｃｏｄｅの区間（背景雑音区間）かを意味するパラメータを参照して、音声区間か、背景雑音区間かを判定するものである。

音声復号部６３は、音声区間の場合に、音声符号生成部１２に対応する音声復号処理を実行するものである。音声復号部６３は、例えば、音声符号Ｖｏｉｃｅ＿ｃｏｄｅに含まれている、信号源ａｃ、ｆｃや重み付けゲインａｇ、ｆｇに基づいて励振信号を再構成し、この励振信号と、音声符号Ｖｏｉｃｅ＿ｃｏｄｅに含まれているＬＳＰ係数ｌｓｐ＿ｃｏｅｆから算出した線形予測係数ｌｐｃ＿ｃｏｅｆとを、合成フィルタで畳み込み演算して音声信号を再構成し、きらに聴感を向上するためにフォルマン強調処理を施し、直流成分を除去するハイパスフィルタを通過させ、最後に、符号化器の前処理部（図２の符号２１参照）において圧縮された振幅を元に戻す（例えば、２を乗算する）という処理を施すことで、最終的な出力音声Ｖｏｉｃｅ＿ｓｉｇを得る。

快適雑音復号部６４は、背景雑音区間の場合に、乱数を発生させ、快適雑音符号ＣＮ＿ｃｏｄｅに含まれている平均ＬＳＦパラメータベクトルＬＳＦに基づいて周波数特性を調整すると共に、快適雑音符号ＣＮ＿ｃｏｄｅに含まれている平均対数フレームエネルギーＥＮに基づいてレベルを調整し、送信側の背景雑音の特性を反映した雑音信号（快適雑音）ＣＮ＿ｓｉｇを得るものである。また、快適雑音復号部６４は、快適雑音符号ＣＮ＿ｃｏｄｅから取り出した平均ＬＳＦパラメータベクトルＬＳＦ及び平均対数フレームエネルギーＥＮを、情報埋め込み位置照合部６５を与えるものである。

音声出力部６９は、音声区間ならば出力音声Ｖｏｉｃｅ＿ｓｉｇを、雑音区間であれば雑音信号（快適雑音）ＣＮ＿ｓｉｇを出力するものである。

情報埋め込み位置記憶部６６は、音声符号化装置１０における情報埋め込み位置記憶部５２と同様に、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値の範囲と、情報埋め込み位置との対応関係を記憶しているものである（図５参照）。

情報埋め込み位置照合部６５は、快適雑音復号部６４から与えられた平均ＬＳＦパラメータベクトルＬＳＦ及び平均対数フレームエネルギーＥＮを情報埋め込み位置記憶部６６に渡して埋め込み位置ｉｎｆｏ＿ｐｏｓを問い合わせて埋め込み位置ｉｎｆｏ＿ｐｏｓを取得し、付加情報抽出部６７に与えるものである。

付加情報抽出部６７は、符号受信部６１が受信した符号ｃｏｄｅ（音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅ）の中の、埋め込み位置ｉｎｆｏ＿ｐｏｓが指示する位置からビット値（付加情報を構成するビット値）を抽出して付加情報出力部６８に与えるものである。

付加情報出力部６８は、付加情報抽出部６７によって抽出されたビット値の系列を付加情報として出力するものである。

（Ａ−２）実施形態の動作
次に、以上のような構成を有する実施形態の音声符号化装置１０と実施形態の音声復号装置６０とでなる実施形態の音声符号化システムの動作を説明する。以下では、付加情報を埋め込んで伝送する面から動作を説明する。

入力信号（入力されたデジタル音声信号）ｉｎｐｕｔは、音声検出部１１によって、所定期間（例えば２０ｍｓ）ごとに、音声か背景雑音なのかを判定され、音声区間の入力信号は音声符号生成部１２に与えられ、背景雑音区間の入力信号は快適雑音符号生成部１３に与えられる。

音声符号生成部１２によって、音声区間の入力信号から音声符号Ｖｏｉｃｅ＿ｃｏｄｅが生成されて情報埋め込み部１５に与えられ、快適雑音符号生成部１３によって、背景雑音区間の入力信号から快適雑音符号ＣＮ＿ｃｏｄｅが生成されて情報埋め込み部１５に与えられる。

快適雑音符号生成部１３が快適雑音符号ＣＮ＿ｃｏｄｅを生成するために算出した平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦは、情報埋め込み位置制御部１４に与えられる。

情報埋め込み位置制御部１４においては、快適雑音特性照合部５１から情報埋め込み位置記憶部５２に、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値が与えられて、対応する埋め込み位置ｉｎｆｏ＿ｐｏｓが取り出され、この埋め込み位置ｉｎｆｏ＿ｐｏｓが、情報埋め込み位置送信部５３から情報埋め込み部１５に与えられる。

音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅは、情報埋め込み部１５によって一系列の符号に多重され、この際に、音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅのそれぞれに対し、埋め込み位置ｉｎｆｏ＿ｐｏｓで定まる位置に付加情報が埋め込まれる。

埋め込み位置ｉｎｆｏ＿ｐｏｓに付加情報が埋め込まれた、音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅの多重符号ｃｏｄｅは、符号送信部１６によって、対向する通信端末に向けて送信される。

音声符号化装置１０が送信した符号ｃｏｄｅ（音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅ）は、受話側通信端末内の音声復号装置６０の符号受信部６１によって受信される。

受信符号ｃｏｄｅに含まれている音声符号Ｖｏｉｃｅ＿ｃｏｄｅの区間（音声区間）か快適雑音符号ＣＮ＿ｃｏｄｅの区間（背景雑音区間）かを意味するパラメータが参照されて、音声区間か背景雑音区間かが、区間判定部６２によって判定される。

音声区間の場合に、音声復号部６３によって、音声符号生成部１２に対応する音声復号処理が実行され、出力音声Ｖｏｉｃｅ＿ｓｉｇが得られる。また、背景雑音区間の場合に、快適雑音復号部６４によって、乱数が発生され、快適雑音符号ＣＮ＿ｃｏｄｅに含まれている平均ＬＳＦパラメータベクトルＬＳＦに基づいて周波数特性が調整されると共に、快適雑音符号ＣＮ＿ｃｏｄｅに含まれている平均対数フレームエネルギーＥＮに基づいてレベルが調整され、送信側の背景雑音の特性が反映された雑音信号（快適雑音）ＣＮ＿ｓｉｇが得られる。そして、音声出力部６９から、区間判定部６２の判定の結果、音声区間であれば出力音声Ｖｏｉｃｅ＿ｓｉｇが、雑音区間であれば雑音信号（快適雑音）ＣＮ＿ｓｉｇが出力される。

快適雑音復号部６４によって、快適雑音符号ＣＮ＿ｃｏｄｅから取り出した平均ＬＳＦパラメータベクトルＬＳＦ及び平均対数フレームエネルギーＥＮは、情報埋め込み位置照合部６５に与えられる。

情報埋め込み位置照合部６５から情報埋め込み位置記憶部６６に、平均対数フレームエネルギーＥＮ及び平均ＬＳＦパラメータベクトルＬＳＦの値が与えられて、対応する埋め込み位置ｉｎｆｏ＿ｐｏｓが取り出され、この埋め込み位置ｉｎｆｏ＿ｐｏｓが、付加情報抽出部６７に与えられる。

符号受信部６１が受信した符号ｃｏｄｅ（音声符号Ｖｏｉｃｅ＿ｃｏｄｅ及び快適雑音符号ＣＮ＿ｃｏｄｅ）の中の、埋め込み位置ｉｎｆｏ＿ｐｏｓが指示する位置からビット値（付加情報を構成するビット値）が、付加情報抽出部６７によって抽出され、付加情報出力部６８によって、付加情報抽出部６７によって抽出されたビット値がビット系列にまとめられて付加情報として出力される。

（Ａ−３）実施形態の効果
上記実施形態によれば、音声符号化装置及び音声復号装置の双方で、背景雑音パラメータを用いて参照できる同一構成の情報埋め込み位置記憶部を保持することにより、背景雑音特性に応じて劣化の少ない埋め込み位置に付加情報を埋め込むことができ、音声復号装置側で本来の伝送信号（音声区間及び背景雑音区間の信号）を精度良く再現することができる。すなわち、背景雑音特性によらずに常に音質劣化を最小限に抑制しつつ、音声符号や快適雑音符号のフレームに付加情報を埋め込むことができる。そのため、一定以上の通話品質を常に維持しつつ、通信帯域を有効に活用できるようになる。

（Ｂ）他の実施形態
上記実施形態においては、音声符号化装置から音声復号装置にリアルタイムで伝送する伝送路を介するイメージで説明したが（例えば、電話機やテレビ会議装置など）、伝送路は広義の伝送路であって良い。例えば、音声符号化装置からの符号を記録媒体に書込み、その記録媒体から読み出した符号を音声復号装置が復号する場合にも、本発明の技術思想を適用することができる。

また、上記実施形態においては、音声符号及び快適雑音符号の双方に付加情報を埋め込むものを示したが、音声符号及び快適雑音符号の少なくとも一方にのみ付加情報を埋め込むようにしても良い。

さらに、上記実施形態においては、音声符号化方式としてＡＭＲ方式を適用した場合を説明したが、音声符号化方式はＡＭＲ方式に限定されるものではない。要は、音声区間と背景雑音区間とを区別して符号化するものであり、背景雑音についてはその特徴パラメータを符号化し、音声符号化装置と音声復号装置の双方で背景雑音の特徴パラメータを共有できる音声符号化方式であれば、本発明の技術思想を適用することができる。

さらに、上記実施形態においては、埋め込む付加情報の種類を限定しなかったが、テキスト情報や、入力音声レベルのような音声の特徴量など、設計者の必要に応じて任意の付加情報を埋め込んでも良い。

ここで、音声の特徴量のように、入力信号になんらかの演算を施すことではじめて得ることができる情報を埋め込む場合には、音声特徴量抽出・付加情報生成部を別途設ければ良い。この場合の構成を図７に示している。この場合の音声符号化装置１０Ａは、音声検出部１１、音声符号生成部１２、快適雑音符号生成部１３、情報埋め込み位置制御部１４、情報埋め込み部１５及び符号送信部１６に加え、音声特徴量抽出・付加情報生成部７５を有する。音声特徴量抽出・付加情報生成部７５以外の動作は、上記実施形態と同様なので、以下では、音声特徴量抽出・付加情報生成部７５の動作のみを説明する。なお、音声特徴量として、特定の周波数帯域の音声レベルを用いる場合を例とし、また、音声特徴量抽出・付加情報生成部７５は入力信号Ｎ個のサンプルから構成されるフレーム単位で動作するものとする。

まず、音声特徴量抽出・付加情報生成部７５は、入力信号ｉｎｐｕｔ（ｔ）がＮ個から構成されるフレームを取得し、（２）式に示すように、所定の周波数帯域の成分を抽出するフィルタ係数ＦＩＬＴＥＲ＿ＣＯＥＦと畳み込み処理した信号ｆｉｌ＿ｏｕｔ（ｔ）を算出する。但し、（２）式において、「＊」は畳み込み演算を表している。

ｆｉｌ＿ｏｕｔ（ｔ）＝ＦＩＬＴＥＲ＿ＣＯＥＦ＊ｉｎｐｕｔ（ｔ） …（２）
このようにして得た信号の平均レベルＬＶを（３）式のように計算する。この演算はフレーム内のｆｉｌ＿ｏｕｔ（ｔ）の絶対値の算術平均を計算していることに相当するが、平均レベルの算出方法は（３）式に限定されず、例えば、絶対値ではなく二乗値の平均を取る、算術平均ではなく重み付き平均を計算する、など装置設計者が任意に変更しても良い。

そして、後段の情報埋め込み部１５で符号に埋め込める形式に変換するために、平均レベルＬＶを１０進数から２進数に変換し、これを付加情報ａｄｄ＿ｉｎｆとして情報埋め込み部１５に与える。最後に、情報埋め込み部１５で、音声特徴量抽出・付加情報生成部７５から取得した付加情報ａｄｄ＿ｉｎｆｏを、情報埋め込み位置制御部１４で指定された埋め込み位置ｉｎｆｏ＿ｐｏｓに埋め込み、符号送信部１６から送信させる。

例えば、（２）式のフィルタ演算によって抽出する周波数成分を４ｋＨｚ以上の高域とし、これから付加情報を生成し、一方、０〜４ｋＨｚの周波数成分については、音声符号化して受信側に送信する。受信側では、復号された音声信号（低域成分）から高域成分を推定し、推定した高域成分を、付加情報として埋め込まれていた高域信号レベルと同じ大きさになるように調整した上で、復号された音声信号（低域成分）と合成し、広域な音声信号を再生する。

以上が付加情報として音声特徴量を用いる場合の音声符号化装置の動作例である。なお、ここでは音声特徴量として特定の周波数帯域の平均レベルを例としたが、これに限定されるものではなく、装置設計者の必要に応じて、例えば、公知のフォルマント抽出方法を適用してフォルマント成分を得る、などの変更をしても良い。

１０、１０Ａ…音声符号化装置、１１…音声検出部、１２…音声符号生成部、１３…快適雑音符号生成部、１４…情報埋め込み位置制御部、１５…情報埋め込み部、４１…平均対数フレームエネルギー算出部、４２…平均ＬＳＦパラメータベクトル算出部、４３…快適雑音符号構成部、５１…快適雑音特性照合部、５２…情報埋め込み位置記憶部、６０…音声復号装置、６２…区間判定部、６３…音声復号部、６４…快適雑音復号部、６５…情報埋め込み位置照合部、６６…情報埋め込み位置記憶部、６７…付加情報抽出部、７５…音声特徴量抽出・付加情報生成部。

Claims

入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置において、
入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
音声区間の入力信号から音声符号を生成する音声符号生成手段と、
背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
を有することを特徴とする音声符号化装置。
上記入力信号から所定の特徴量を抽出し、当該特徴量を付加情報として適切な形態に変換することで上記付加情報を生成する音声特徴量抽出・付加情報生成手段をさらに有することを特徴とする請求項１に記載の音声符号化装置。
上記音声特徴量抽出・付加情報生成手段は、
上記入力信号から所定の周波数成分を抽出するフィルタ部と、
このフィルタ部が抽出した成分信号のレベルを算出するレベル計算部と、
算出された成分信号レベルを付加情報として適切な形態に変換する変換部とを有する
ことを特徴とする請求項２に記載の音声符号化装置。
入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置に搭載されるコンピュータを、
入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
音声区間の入力信号から音声符号を生成する音声符号生成手段と、
背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
して機能させることを特徴とする音声符号化プログラム。
付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置において、
受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
音声区間の受信符号から音声信号を復号する音声復号手段と、
背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
を有することを特徴とする音声復号装置。
付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置に搭載されるコンピュータを、
受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
音声区間の受信符号から音声信号を復号する音声復号手段と、
背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
して機能させることを特徴とする音声復号プログラム。
入力信号を符号化すると共に生成された符号に付加情報を埋め込む音声符号化装置と、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置とが対向している音声符号化システムにおいて、
上記音声符号化装置として請求項１〜３のいずれかに記載の音声符号化装置を適用すると共に、上記音声復号装置として請求項５に記載の音声復号装置を適用したことを特徴とする音声符号化システム。