JP2013076871A - 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム - Google Patents
音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム Download PDFInfo
- Publication number
- JP2013076871A JP2013076871A JP2011217070A JP2011217070A JP2013076871A JP 2013076871 A JP2013076871 A JP 2013076871A JP 2011217070 A JP2011217070 A JP 2011217070A JP 2011217070 A JP2011217070 A JP 2011217070A JP 2013076871 A JP2013076871 A JP 2013076871A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- code
- noise
- additional information
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 14
- 230000015556 catabolic process Effects 0.000 abstract description 2
- 238000006731 degradation reaction Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 24
- 230000005284 excitation Effects 0.000 description 14
- 230000006866 deterioration Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】 音声符号化装置では、音声区間と背景雑音区間とを分け、それぞれ符号化する。背景雑音区間では、背景雑音の特徴パラメータを抽出して符号化する。そして、この抽出された特徴パラメータの値に応じて、付加情報の埋め込み位置を決定する。音声復号装置においては、受信符号の区間を、音声区間と背景雑音区間とを分けて復号する。背景雑音区間の復号では特徴パラメータの値が得られる。そして、この特徴パラメータの値に応じて、付加情報の埋め込み位置を認識し、受信符号の認識した埋め込み位置のデータを取り出すことを通じて付加情報を取得する。
【選択図】 図1
Description
以下、本発明による音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システムの一実施形態を、図面を参照しながら詳述する。この実施形態は、雑音特性に応じて情報埋め込み位置を制御することを特徴としている。
実施形態の音声符号化システムは、実施形態の音声符号化装置10と実施形態の音声復号装置60とでなる。実施形態の音声符号化装置10及び実施形態の音声復号装置60は、音声符号化方式としてAMR方式を適用しているものである。
(1)式の右辺を構成する4つのパラメータac(t)、fc(t)、ag、fgをそれぞれ変化させ、後述する評価値が、最も評価が高くなる4つのパラメータを探索することで、時刻tについての励振信号x(t)を定める。
次に、以上のような構成を有する実施形態の音声符号化装置10と実施形態の音声復号装置60とでなる実施形態の音声符号化システムの動作を説明する。以下では、付加情報を埋め込んで伝送する面から動作を説明する。
上記実施形態によれば、音声符号化装置及び音声復号装置の双方で、背景雑音パラメータを用いて参照できる同一構成の情報埋め込み位置記憶部を保持することにより、背景雑音特性に応じて劣化の少ない埋め込み位置に付加情報を埋め込むことができ、音声復号装置側で本来の伝送信号(音声区間及び背景雑音区間の信号)を精度良く再現することができる。すなわち、背景雑音特性によらずに常に音質劣化を最小限に抑制しつつ、音声符号や快適雑音符号のフレームに付加情報を埋め込むことができる。そのため、一定以上の通話品質を常に維持しつつ、通信帯域を有効に活用できるようになる。
上記実施形態においては、音声符号化装置から音声復号装置にリアルタイムで伝送する伝送路を介するイメージで説明したが(例えば、電話機やテレビ会議装置など)、伝送路は広義の伝送路であって良い。例えば、音声符号化装置からの符号を記録媒体に書込み、その記録媒体から読み出した符号を音声復号装置が復号する場合にも、本発明の技術思想を適用することができる。
このようにして得た信号の平均レベルLVを(3)式のように計算する。この演算はフレーム内のfil_out(t)の絶対値の算術平均を計算していることに相当するが、平均レベルの算出方法は(3)式に限定されず、例えば、絶対値ではなく二乗値の平均を取る、算術平均ではなく重み付き平均を計算する、など装置設計者が任意に変更しても良い。
Claims (7)
- 入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置において、
入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
音声区間の入力信号から音声符号を生成する音声符号生成手段と、
背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
を有することを特徴とする音声符号化装置。 - 上記入力信号から所定の特徴量を抽出し、当該特徴量を付加情報として適切な形態に変換することで上記付加情報を生成する音声特徴量抽出・付加情報生成手段をさらに有することを特徴とする請求項1に記載の音声符号化装置。
- 上記音声特徴量抽出・付加情報生成手段は、
上記入力信号から所定の周波数成分を抽出するフィルタ部と、
このフィルタ部が抽出した成分信号のレベルを算出するレベル計算部と、
算出された成分信号レベルを付加情報として適切な形態に変換する変換部とを有する
ことを特徴とする請求項2に記載の音声符号化装置。 - 入力信号を符号化すると共に、生成された符号に付加情報を埋め込む音声符号化装置に搭載されるコンピュータを、
入力信号が音声区間か背景雑音区間かを判定する音声検出手段と、
音声区間の入力信号から音声符号を生成する音声符号生成手段と、
背景雑音区間の入力信号から、対向する音声復号装置が背景雑音を再構築する際に利用する雑音特徴パラメータを抽出して符号化し、雑音符号を生成する雑音符号生成手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、抽出された雑音特徴パラメータに応じて情報埋め込み位置を決定する情報埋め込み位置制御手段と、
音声符号又は雑音符号の中の、上記情報埋め込み位置制御手段が決定した情報埋め込み位置に付加情報を埋め込む情報埋め込み手段と
して機能させることを特徴とする音声符号化プログラム。 - 付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置において、
受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
音声区間の受信符号から音声信号を復号する音声復号手段と、
背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
を有することを特徴とする音声復号装置。 - 付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置に搭載されるコンピュータを、
受信符号が音声区間か背景雑音区間かを判定する区間判定手段と、
音声区間の受信符号から音声信号を復号する音声復号手段と、
背景雑音区間の受信符号から雑音特徴パラメータを得て、音声符号化装置側の背景雑音特性に近似させた雑音信号を生成する雑音復号手段と、
復号により得られた音声信号及び雑音信号を出力する信号出力手段と、
雑音特徴パラメータと情報埋め込み位置との対応関係が予め設定されており、上記雑音復号手段が取得した雑音特徴パラメータに応じて情報埋め込み位置を特定する埋め込み位置特定手段と、
受信符号の、特定された埋め込み位置にある付加情報のデータを抽出する付加情報抽出手段と
して機能させることを特徴とする音声復号プログラム。 - 入力信号を符号化すると共に生成された符号に付加情報を埋め込む音声符号化装置と、付加情報が埋め込まれた受信符号から、付加情報を抽出すると共に、対向する音声符号化装置が意図した信号を復元する音声復号装置とが対向している音声符号化システムにおいて、
上記音声符号化装置として請求項1〜3のいずれかに記載の音声符号化装置を適用すると共に、上記音声復号装置として請求項5に記載の音声復号装置を適用したことを特徴とする音声符号化システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011217070A JP2013076871A (ja) | 2011-09-30 | 2011-09-30 | 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム |
US13/619,029 US20130085751A1 (en) | 2011-09-30 | 2012-09-14 | Voice communication system encoding and decoding voice and non-voice information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011217070A JP2013076871A (ja) | 2011-09-30 | 2011-09-30 | 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013076871A true JP2013076871A (ja) | 2013-04-25 |
Family
ID=47993410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011217070A Pending JP2013076871A (ja) | 2011-09-30 | 2011-09-30 | 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130085751A1 (ja) |
JP (1) | JP2013076871A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018509786A (ja) * | 2014-12-08 | 2018-04-05 | サムスン エレクトロニクス カンパニー リミテッド | 無欠性検査データ提供方法及びその装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN107545899B (zh) * | 2017-09-06 | 2021-02-19 | 武汉大学 | 一种基于清音基音延迟抖动特性的amr隐写方法 |
US11854571B2 (en) * | 2019-11-29 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method, device and electronic apparatus for transmitting and receiving speech signal |
TWI790682B (zh) * | 2021-07-13 | 2023-01-21 | 宏碁股份有限公司 | 聲音浮水印的處理方法及語音通訊系統 |
CN113837305B (zh) * | 2021-09-29 | 2022-09-23 | 北京百度网讯科技有限公司 | 目标检测及模型训练方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6226672A (ja) * | 1985-05-21 | 1987-02-04 | ポリグラム・インタ−ナシヨナル・ホ−ルデイング・ビ−・ベ− | オ−デイオ情報をデイジタル形式で伝送する方法 |
WO2006008932A1 (ja) * | 2004-07-23 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
JP2007504513A (ja) * | 2003-05-15 | 2007-03-01 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | キャリア信号にバイナリペイロードを埋込む装置および方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP4997833B2 (ja) * | 2006-05-30 | 2012-08-08 | 沖電気工業株式会社 | 自動利得制御装置 |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
-
2011
- 2011-09-30 JP JP2011217070A patent/JP2013076871A/ja active Pending
-
2012
- 2012-09-14 US US13/619,029 patent/US20130085751A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6226672A (ja) * | 1985-05-21 | 1987-02-04 | ポリグラム・インタ−ナシヨナル・ホ−ルデイング・ビ−・ベ− | オ−デイオ情報をデイジタル形式で伝送する方法 |
JP2007504513A (ja) * | 2003-05-15 | 2007-03-01 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | キャリア信号にバイナリペイロードを埋込む装置および方法 |
WO2006008932A1 (ja) * | 2004-07-23 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
Non-Patent Citations (1)
Title |
---|
JPN6015003630; Yong Feng Huang, et al.: 'Steganography in Inactive Frames of VoIP Streams Encoded by Source Codec' IEEE Transactions on Information Forensics and Security Vol.6, No.2, 201106, pp.296-306, IEEE * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018509786A (ja) * | 2014-12-08 | 2018-04-05 | サムスン エレクトロニクス カンパニー リミテッド | 無欠性検査データ提供方法及びその装置 |
US10516677B2 (en) | 2014-12-08 | 2019-12-24 | Samsung Electronics Co., Ltd. | Method and apparatus for providing integrity check data |
Also Published As
Publication number | Publication date |
---|---|
US20130085751A1 (en) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101513184B1 (ko) | 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉 | |
CN108352163B (zh) | 用于解码立体声声音信号的左和右声道的方法和*** | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
JP2017078870A (ja) | フレームエラー隠匿装置 | |
CN103299365B (zh) | 用于自适应地编码和解码带水印信号的装置 | |
US10607624B2 (en) | Signal codec device and method in communication system | |
MX2013009305A (es) | Generacion de ruido en codecs de audio. | |
KR20070028373A (ko) | 음성음악 복호화 장치 및 음성음악 복호화 방법 | |
KR102302012B1 (ko) | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 | |
JP2009539132A (ja) | オーディオ信号の線形予測符号化 | |
JP2013076871A (ja) | 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム | |
CN105814629A (zh) | 带宽扩展模式选择 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
TW521265B (en) | Relative pulse position in CELP vocoding | |
CN115171709B (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
JP2004138756A (ja) | 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム | |
UA114233C2 (uk) | Системи та способи для визначення набору коефіцієнтів інтерполяції | |
JPWO2014034697A1 (ja) | 復号方法、復号装置、プログラム、及びその記録媒体 | |
EP2617034A1 (en) | Determining pitch cycle energy and scaling an excitation signal | |
KR20100084632A (ko) | 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장 | |
JP4764956B1 (ja) | 音声符号化装置及び音声符号化方法 | |
JP2004061558A (ja) | 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150403 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150403 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150908 |