JP4047475B2 - Noise insertion device - Google Patents

Noise insertion device Download PDF

Info

Publication number
JP4047475B2
JP4047475B2 JP03744399A JP3744399A JP4047475B2 JP 4047475 B2 JP4047475 B2 JP 4047475B2 JP 03744399 A JP03744399 A JP 03744399A JP 3744399 A JP3744399 A JP 3744399A JP 4047475 B2 JP4047475 B2 JP 4047475B2
Authority
JP
Japan
Prior art keywords
noise
spectrum
section
cell
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03744399A
Other languages
Japanese (ja)
Other versions
JP2000236341A (en
Inventor
世光 友竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP03744399A priority Critical patent/JP4047475B2/en
Publication of JP2000236341A publication Critical patent/JP2000236341A/en
Application granted granted Critical
Publication of JP4047475B2 publication Critical patent/JP4047475B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a noise inserting device for improving hearing characteristics in the case of cell-assembling only a sounded block (packetizing), transmitting it to the side of reception and inserting a pseudo noise into a soundless block. SOLUTION: A reproduced voice in the part of hang-over time is stored in a memory 20, the spectrum of a background noise just before the soundless block is analyzed by a spectrum analysis circuit 21, and the noise of the most similar spectrum is selected from a generation noise switcher 22 and inserted to the soundless block by a swicher 14. Namely, the spectrum structure of the background noise is analyzed by using fast Fourier transformation(FFT) and cepstrum analysis, etc., while using the data of a part corresponding to a final sounded cell at the time of long hang-over and on the basis of this analyzed result, the spectrum characteristics of a source sound generator are close to the spectrum of noise source. Thus, the noise close to the real background noise can be generated, the hearing characteristics are improved and transmission efficiency can be kept high.

Description

【0001】
【発明の属する技術分野】
本発明は、雑音挿入装置、特にパケット通信等の伝送装置に雑音(ノイズ)を挿入する雑音挿入装置に関する。
【0002】
【従来の技術】
パケット通信、ATM(非同期伝送モード)通信及びDSI装置等の伝送装置において、音声信号を有音区間のみ伝送し、無音区間には疑似雑音を挿入する雑音挿入装置が使用される。
【0003】
斯る装置では、入力音声信号の有無/無音判定を行い、有音区間と判定された部分の音声信号のみを伝送し、無音と判定された区間の信号データは転送しない。その為に、無音区間を全くの無音とすると、有音区間に存在する背景雑音とのレベル差によって聴感上の違和感が生じ得る。このような違和感を防止する為に、無音区間は、背景雑音相当レベルの疑似雑音で補間する雑音挿入装置を受信側で使用するのが一般的である。
【0004】
斯る従来の雑音挿入装置の一例は、特開平5−83285号公報の「無音区間雑音挿入制御方式」に開示されている。送信側では、無音検出器により音声信号の有無を検出する。また、セル組立部により有音セル又は無音セルを組立て、無音セルは有音セルの送信感覚に比較して充分長い間隔で送出する。即ち、無音セルを受信側で作成し、有音セルがないとき無音するを受信側へ送信する。受信側では、セル分離部を有し、有音/無音セルを分離してセル分解部へ送り、平均パワー算出部、周波数特性解析部、可変雑音発生部及び挿入部を有し、無音セル区間に可変雑音発生部からの雑音を挿入する。
【0005】
また、別の従来例を図6及び図7を参照して説明する。この例にあっては、音声送信側は図6に示す如く有音/無音検出器1、音声符号器2、ロング/ショートハングオーバー時間設定器3及びセル化器4を有する。音声を符号化(A/D)した結果と、有音/無音検出器1によって検出した有音/無音判定情報(セル情報)の結果をセル化器4でセル化して有音と判断されたセル信号のみを伝送する。このとき伝送効率を優先する為に、ハングオーバー時間を有音区間の長さに基づき適応的に時間長を切り替えながらショート/ロングハングオーバー時間設定器3にて付加する。ショートハングオーバーは、伝送効率を考慮して連続する有音区間が短い場合に付加する。他方、ロングハングオーバーは、語尾の言葉切れをなくす為に比較的有音区間が長く続いた場合に付加する。
【0006】
ところで、音声入力レベル等に依存し、有音から無音に変化する過程においては、有音検出器の該検出によって語尾が切れてしまうことが頻発する。そこで、有音検出器により、有音区間を長くする為の保護時間をハングオーバー時間とする。保護時間を長く設定する場合をロングハングオーバーと称し、短く設定した場合をショートハングオーバーと称する。
【0007】
音声受信側の従来の雑音挿入装置を図7のブロック図に示す。この受信側の雑音挿入装置は、有音/無音セル判定器5、有音セルカウント回路6、音声復号器7、ロングハングオーバー予測器8、ロングハングオーバー最終区間rms値保持回路9、rms値計算器10、雑音発生器11、雑音レベル制御器12、増幅器13、切替器14、有音平均rms値計算器15及びセル分離器16で構成される。
【0008】
ロングハングオーバーが付加された場合、有音区間の最終セル部分については、語尾の発音切れを防止する冗長な部分である為と、仮に音声送出側の有音/無音検出器で該検出があったとしても十分なハングオーバー時間が確保されている為に、この部分は略完全に背景雑音が支配しているものと思われる。しかし、ショートハングオーバーが付加された場合は、有音/無音検出器1の該検出等によって音声部分が支配的である場合が多い。
【0009】
従って、受信側でより正確に背景雑音を出力する為には、有音区間の音声セルの連続回数を有音セルカウント回路6で計測し、この情報に基づいてロングハングオーバー予測器8で判定し、ロングハングオーバー時間が付加された部分の最終有音セルのrms(実効)値をロングハングオーバー最終区間rms保持回路9に一時的に蓄え、雑音レベル決定時にこれを参照する。また、有音平均rms値計算器15で得た結果も参照して、雑音レベル制御器12において雑音の音圧レベルを決定し、雑音発生器11から送出される雑音を増幅器13によって調整して無音区間に疑似背景雑音として送出する。有音区間には、音声復号器7の出力が送出されるよう切替(セレクタ)14が動作する。
【0010】
【発明が解決しようとする課題】
上述した従来技術にあっては、無音区間に補間する背景雑音の音圧を制御することにより聴覚特性の向上を図っている。しかし、背景雑音源そのものについては単一である為にどうしても実際に有音区間に存在している背景雑音の特性(雑音の音色)と無音区間に補間挿入される疑似背景雑音との相違により音質(耳障り感)が発生してしまう。
【0011】
また、上述した特開平5−83285号公報の従来技術では、無音状態においても、送信側から受信側へセルが転送されるので、通信効率は、無音区間中にセル転送されない場合に比して悪いという問題点がある。
【0012】
本発明の目的は、無音区間の背景雑音を有音セル区間中に存在すると思われる雑音特性により近づけることにより聴感上の音質(音声品質)を改善すると共に通信効率を高める雑音挿入装置を提供することである。
【0013】
【課題を解決するための手段】
前述の課題を解決するため、本発明による雑音挿入装置は、次のような特徴的な構成を採用している。
【0014】
(1)複数の有音セルを含む有音区間と複数の無音セルを含む無音区間が交互に存在し、有音区間中の背景雑音に対応する雑音を雑音発生器から無音区間中に挿入し聴感を改善する雑音挿入装置において、
前記有音区間中の有音セルを記憶するメモリと、
該メモリに記憶されたデータのスペクトルを分析するスペクトル解析回路と、
該スペクトル解析回路の解析結果に基づき前記無音区間中に挿入する雑音のスペクトル特性を制御する発生雑音切替器とを備える雑音挿入装置。
【0015】
(2)前記メモリは、前記有音区間の最後の1以上の有音セルを記憶する上記(1)の雑音挿入装置。
【0016】
(3)送信側からのセル信号には、有音区間の有音セルのみが送信される上記(1)又は(2)の雑音挿入装置。
【0017】
(4)前記有音区間の音声データのrms値を計算するrms値計算器を設け、rms値計算器による前記有音区間の最終部のrms値が予め設定したしきい値以下の場合には、前記スペクトル解析回路のスペクトル解析動作を行わない上記(1)、(2)又は(3)の雑音挿入装置。
【0018】
(5)前記発生雑音切替器は、予め複数の雑音パターンを用意し、前記スペクトル解析回路の解析結果により選択切替える上記(1)の雑音挿入装置。
【0019】
(6)前記スペクトル解析回路は、前記背景雑音のFFTを行う上記(1)の雑音挿入装置。
【0020】
【発明の実施の形態】
以下、本発明による雑音挿入装置の好適実施形態例の構成及び動作を添付図1乃至図5を参照して詳細に説明する。
【0021】
先ず、図1を参照して説明する。図1は本発明の受信側の雑音挿入装置の好適実施形態例のブロック図である。尚、図1の雑音挿入装置は、図7の雑音挿入装置と同様の構成要素を多く使用するので、対応構成要素には同様参照符号を使用することとする。
【0022】
即ち、本発明による雑音挿入装置は、セル信号を受けるセル分離器16、音声復号器7、有音/無音セル判定器5、有音セルカウント回路6、ロングハングオーバー予測器8、ロングハングオーバー最終区間rms値保持回路9、rms値計算器10、有音平均rms値計算器15、雑音発生器11、雑音レベル制御器12,増幅器13及び切替器14を有する。更に、この雑音挿入装置は、メモリ20、スペクトル解析回路21及び発生雑音切替器22を備える。
【0023】
本発明による雑音挿入装置にあっては、斯るメモリ20、スペクトル解析回路21及び発生雑音切替器22を付加することにより、ロングハングオーバー時間が付加されていると予測できる最終有音セル相当の部分は、上述のとおり背景雑音が支配的になっている為に、この部分のスペクトル特性を解析することによって、このスペクトル特性に近い雑音を雑音発生器11で発生させている。
【0024】
次に、図1の雑音挿入装置の動作を説明する。音声送出側から転送されたセル信号は、セル分離器16にて、有音/無音判定結果等が格納されたセル情報と音声データに分離される。但し、ここで分離された無音セルは、送信側と無音時間を合わせる為に受信側のセル分離器16が疑似的に生成したものとする。送信側から送信されるのは有音セルのみであるから、セル分離器16は有効な有音セルを抽出するものであり、無音/有音セルを分離するものではない。
【0025】
有音/無音セル判定器5は、上述したセル情報に基づいて、有音セルと判定した場合は有音セルカウント回路6にて、無音セルと無音セルに挟まれた有音セル区間のセル数をカウントする。このカウント結果は、ロングハングオーバー予測器8へ転送する。ここでは、有音セル数を有音判定基準値としきい値判定し、しきい値以上の場合はロングハングオーバーが付加されている有音区間とみなすことにする。しきい値は「ロングハングオーバー時間+ロングハングオーバーを付加する場合の最短連続有音時間」で決定すればよい。
【0026】
一方、音声データは、有音/無音セル判定器5において有音と判定された場合のみ音声復号器7で復号される。この再生された信号からrms計算器10においてセルフレーム毎にrms値を計算する。このrms値は、セルフレーム毎に更新されるが、ロングハングオーバー予測器8でロングハングオーバーと判定された場合のみ、有音/無音セル判定器5で有音から無音に切り替わる直前のrms値をロングハングオーバー最終区間rms値保持回路9で保持する。このrms値に基づき、背景雑音レベルがrms値に相当するように雑音レベル制御回路12を制御し、出力する雑音レベルを調整する。またrms計算器10で計算されたrms値は、有音平均rms値計算器15において、有音区間中の平均rms値を計算する。平均rms値が予め設定しているしきい値以下であれば、音声信号自体は、比較的小さいと判断して無音区間中に出力する背景雑音を抑圧するよう雑音レベル制御器12で補正する。
【0027】
次に、メモリ20は、音声復号器7で復号(デコード)した音声信号の1セル分の合成出力単位に蓄積する。1セルで20msの再生できる量を確保すると仮定すると、8kHzのサンプリングレートの場合には、160サンプルが1セル分に相当する。
【0028】
但し、メモリ20は、有音/無音セル判定器5の情報を受け取り、有音区間の音声信号のみ蓄積する。このメモリ20に蓄積された音声信号に基づき、スペクトル解析回路21にてFFT(高速フーリュ変換)処理及びケプストラム分析等によりスペクトル解析処理を行う。ここで、スペクトル解析が行われる信号がかなり小さい、人間の耳に聞こえないレベルであれば、特に雑音源の切替は不要であるので、スペクトル解析を行う必要はない。
【0029】
スペクトル解析処理を行うか否かの判断は、rms値計算器10の結果に基づきスペクトル解析回路21で決定される。この解析結果に基づき、予め想定したタイプと比較して最も近いタイプを決定して発生雑音切替器22へ通知する。そこで、発生雑音切替器22は、雑音発生器11の雑音の周波数重み付け用のパラメータを制御することによって出力される雑音のスペクトル特性を切り替える。また、別の例では、雑音発生器11を複数個用意し、発生雑音切替器22によって切替選択することも可能である。
【0030】
背景雑音の挿入は、有音から無音に切り替った瞬間から疑似雑音を出力する必要がある為に、正確に最終有音セル区間と同じようなスペクトルを持った雑音を挿入しようとするとスペクトル解析処理を行う時間分の処理遅延を生じる。しかし、その1つ前の有音セル区間も同様に雑音の方が支配的になっていると考えられる。そこで、メモリ20を2セル相当分確保できる量とする。最終有音セル直前の有音セル部分におけるスペクトル特性の近似の背景雑音を無音への変化点から出力すると、最終有音セル処理と並列処理できる為に処理遅延は、特に必要としないこととなる。
【0031】
最後に切替器14にて、有音区間は音声復号器7側に、無音区間は疑似背景雑音を発生する雑音発生器11の出力を増幅する増幅器13の出力側に有音/無音セル判定器5の出力に応じて切替え選択される。これにより、無音区間中には疑似雑音が挿入される。
【0032】
図2は、雑音挿入装置への受信側入力構成を示し有音区間と無音区間とが交互に存在する。有音区間には、有音セルa−a’、b−b’、c−c’…が含まれ、無音区間に無音セルA−A’、B−B’、C−C’…が含まれることを示している。
【0033】
図3は、本発明の雑音挿入装置による雑音挿入の基本原理を示す。また、図4には、ロングハングオーバー時の疑似背景雑音出力例が示されている。
【0034】
図5は、図1のスペクトル解析回路21による雑音スペクトルのピーク推移傾向パターン例を示す周波数対スペクトル強度図である。タイプ1は広い周波数範囲のスペクトルが略均等に含まれる白色ノイズの例である。タイプ2は、低周波数成分が高周波成分より少し多いノイズの例である。タイプ3は、低周波スペクトルが高周波スペクトルよりも充分大きいノイズの例である。発生雑音切替器22は、スペクトル解析回路21の解析結果に基づいて斯る複数のタイプのノイズを発生するよう構成されている。
【0035】
以上、本発明による雑音挿入装置の好適実施形態例を図示し、その構成及び動作を説明した。しかし、本発明は斯かる特定例のみに限定されるべきではなく、特定用途に応じて適宜変形変更が可能であることが当業者には容易に理解できよう。
【0036】
【発明の効果】
上述の説明から理解される如く、本発明の雑音挿入装置によると、ロングハングオーバー時の最終有音セル相当部分のデータを使用して、FFT(高速フーリエ変換)及びケプストラム分析等を用い背景雑音のスペクトラム構造を分析し、この分析結果に基づいて源音発生器のスペクトル特性を雑音源のスペクトルに近付ける。従って実際の背景雑音に近い雑音を発生することが可能になり、聴感特性を改善すると共に、伝送効率を高く維持することが可能になる。
【図面の簡単な説明】
【図1】本発明による雑音挿入装置の好適実施形態例のブロック図である。
【図2】雑音挿入装置への入力データ構成例である。
【図3】雑音挿入装置による雑音挿入の基本原理図である。
【図4】ロングハングオーバー時の疑似背景雑音出力例である。
【図5】雑音スペクトルの複数のタイプを示すパターン例である。
【図6】音声送信側の従来の雑音挿入装置のブロック図である。
【図7】音声受信側の従来の雑音挿入装置のブロック図である。
【符号の説明】
5 有音/無音セル判定器
6 有音セルカウント回路
7 音声復号器
8 ロングハングオーバー予測器
9 ロングハングオーバー最終区間rms値保持回路
10 rms値計算器
11 雑音発生器
12 雑音レベル制御器
13 増幅器
14 切替器
20 メモリ
21 スクトル解析回路
22 発生雑音切替器
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a noise insertion device, and more particularly to a noise insertion device that inserts noise into a transmission device such as packet communication.
[0002]
[Prior art]
In transmission devices such as packet communication, ATM (asynchronous transmission mode) communication, and DSI devices, a noise insertion device is used that transmits a voice signal only in a voiced section and inserts pseudo noise in a silent section.
[0003]
In such a device, the presence / absence of an input audio signal is determined, and only the portion of the audio signal determined to be a sound section is transmitted, and the signal data of the section determined to be silent is not transferred. Therefore, if the silent section is completely silent, a sense of incongruity may occur due to a level difference from the background noise existing in the voiced section. In order to prevent such a sense of incongruity, it is common to use a noise insertion device that interpolates with a pseudo noise of a level equivalent to background noise in the silent period on the receiving side.
[0004]
An example of such a conventional noise insertion device is disclosed in “silent section noise insertion control system” of Japanese Patent Laid-Open No. 5-83285. On the transmission side, the presence or absence of an audio signal is detected by a silence detector. In addition, the cell assembling unit assembles a voiced cell or a silent cell, and the silent cell is transmitted at a sufficiently long interval as compared with the transmission sense of the voiced cell. That is, a silent cell is created on the receiving side, and when there is no voiced cell, silence is transmitted to the receiving side. On the receiving side, it has a cell separation unit, separates voiced / silent cells and sends them to the cell decomposition unit, has an average power calculation unit, a frequency characteristic analysis unit, a variable noise generation unit, and an insertion unit, and a silent cell section Insert the noise from the variable noise generator.
[0005]
Another conventional example will be described with reference to FIGS. In this example, the voice transmitting side includes a voice / silence detector 1, a voice encoder 2, a long / short hangover time setting unit 3, and a cellizer 4, as shown in FIG. The result of encoding (A / D) the voice and the result of the voice / silence determination information (cell information) detected by the voice / silence detector 1 is converted into a cell by the cellizer 4 and determined to be voiced. Only cell signals are transmitted. At this time, in order to give priority to the transmission efficiency, the hangover time is added by the short / long hangover time setting unit 3 while adaptively switching the time length based on the length of the sound section. The short hangover is added when continuous sound sections are short in consideration of transmission efficiency. On the other hand, long hangover is added when a relatively long sound section lasts for the purpose of eliminating the end of words.
[0006]
By the way, depending on the voice input level or the like, in the process of changing from sound to silence, the ending of the word frequently occurs due to the detection of the sound detector. Therefore, the protection time for lengthening the sound section by the sound detector is defined as the hangover time. A case where the protection time is set to be long is referred to as long hangover, and a case where the protection time is set to be short is referred to as short hangover.
[0007]
A conventional noise insertion device on the voice receiving side is shown in the block diagram of FIG. The receiving side noise insertion device includes a voiced / silent cell determination unit 5, a voiced cell count circuit 6, a voice decoder 7, a long hangover predictor 8, a long hangover final interval rms value holding circuit 9, and an rms value. It comprises a calculator 10, a noise generator 11, a noise level controller 12, an amplifier 13, a switch 14, a voiced average rms value calculator 15 and a cell separator 16.
[0008]
When long hangover is added, the last cell part of the voiced section is a redundant part that prevents the ending of the utterance from being lost. Even if enough hangover time is secured, this part seems to be almost completely dominated by background noise. However, when a short hangover is added, the voice part is often dominant by the detection of the sound / silence detector 1 or the like.
[0009]
Therefore, in order to output background noise more accurately on the receiving side, the number of consecutive voice cells in a voiced section is measured by the voiced cell count circuit 6 and determined by the long hangover predictor 8 based on this information. Then, the rms (effective) value of the last voiced cell to which the long hangover time is added is temporarily stored in the long hangover final interval rms holding circuit 9 and is referred to when determining the noise level. Further, referring to the result obtained by the voiced average rms value calculator 15, the noise level controller 12 determines the sound pressure level of the noise, and the noise transmitted from the noise generator 11 is adjusted by the amplifier 13. Transmit as pseudo background noise during silent period. In the voiced section, the switch (selector) 14 operates so that the output of the speech decoder 7 is sent out.
[0010]
[Problems to be solved by the invention]
In the above-described prior art, the auditory characteristics are improved by controlling the sound pressure of the background noise interpolated in the silent section. However, since the background noise source itself is single, the sound quality is inevitably due to the difference between the characteristics of background noise (noise timbre) actually present in the voiced section and the pseudo background noise interpolated in the silent section. (A feeling of harshness) occurs.
[0011]
Further, in the above-described prior art disclosed in Japanese Patent Laid-Open No. 5-83285, since the cell is transferred from the transmission side to the reception side even in the silent state, the communication efficiency is higher than that in the case where the cell is not transferred during the silent period. There is a problem of being bad.
[0012]
An object of the present invention is to provide a noise insertion device that improves the sound quality (voice quality) on hearing and improves the communication efficiency by bringing the background noise of a silent section closer to the noise characteristics that are considered to exist in a voiced cell section. That is.
[0013]
[Means for Solving the Problems]
In order to solve the above-described problem, the noise insertion device according to the present invention employs the following characteristic configuration.
[0014]
(1) A voiced section including a plurality of voiced cells and a voiceless section containing a plurality of silent cells exist alternately, and noise corresponding to background noise in the voiced section is inserted into the silent section from the noise generator. In a noise insertion device that improves hearing,
A memory for storing voice cells in the voice section;
A spectrum analysis circuit for analyzing a spectrum of data stored in the memory;
A noise insertion device comprising: a generated noise switching device that controls a spectral characteristic of noise to be inserted into the silent period based on an analysis result of the spectrum analysis circuit.
[0015]
(2) The noise insertion device according to (1), wherein the memory stores at least one voiced cell at the end of the voiced section.
[0016]
(3) The noise insertion device according to (1) or (2) above, wherein only the sound cell in the sound section is transmitted to the cell signal from the transmission side.
[0017]
(4) An rms value calculator for calculating the rms value of the voice data of the voiced section is provided, and when the rms value of the last part of the voiced section by the rms value calculator is less than a preset threshold value The noise insertion device according to (1), (2) or (3), wherein the spectrum analysis operation of the spectrum analysis circuit is not performed.
[0018]
(5) The noise insertion device according to (1), wherein the generated noise switch prepares a plurality of noise patterns in advance and selectively switches based on an analysis result of the spectrum analysis circuit.
[0019]
(6) The noise insertion device according to (1), wherein the spectrum analysis circuit performs FFT of the background noise.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the configuration and operation of a preferred embodiment of the noise insertion apparatus according to the present invention will be described in detail with reference to FIGS.
[0021]
First, a description will be given with reference to FIG. FIG. 1 is a block diagram of a preferred embodiment of a receiving side noise insertion apparatus according to the present invention. The noise insertion device in FIG. 1 uses many of the same components as the noise insertion device in FIG. 7, and therefore the same reference numerals are used for the corresponding components.
[0022]
That is, the noise insertion apparatus according to the present invention includes a cell separator 16 that receives a cell signal, a speech decoder 7, a voiced / silent cell determination unit 5, a voiced cell count circuit 6, a long hangover predictor 8, a long hangover. It has a final interval rms value holding circuit 9, an rms value calculator 10, a voiced average rms value calculator 15, a noise generator 11, a noise level controller 12, an amplifier 13, and a switch 14. The noise insertion device further includes a memory 20, a spectrum analysis circuit 21, and a generated noise switch 22.
[0023]
In the noise insertion device according to the present invention, by adding such a memory 20, a spectrum analysis circuit 21 and a generated noise switching unit 22, it is possible to predict that a long hangover time has been added. Since the background noise is dominant in the portion as described above, the noise generator 11 generates noise close to the spectrum characteristic by analyzing the spectrum characteristic of this portion.
[0024]
Next, the operation of the noise insertion device in FIG. 1 will be described. The cell signal transferred from the voice transmission side is separated by the cell separator 16 into cell information and voice data in which the sound / silence determination result is stored. However, the silence cells separated here are assumed to be generated in a pseudo manner by the cell separator 16 on the reception side in order to match the silence time with the transmission side. Since only the sound cells are transmitted from the transmission side, the cell separator 16 extracts effective sound cells, and does not separate silence / sound cells.
[0025]
When the sound / silence cell determination unit 5 determines that the cell is a sound cell based on the cell information described above, the cell in the sound cell section sandwiched between the sound cell and the silence cell by the sound cell count circuit 6. Count the number. This count result is transferred to the long hangover predictor 8. Here, the number of voiced cells is determined to be a threshold value with the voiced judgment reference value, and if it is equal to or greater than the threshold value, it is regarded as a voiced section to which a long hangover is added. The threshold value may be determined by “long hang over time + shortest continuous sound duration when long hang over is added”.
[0026]
On the other hand, the speech data is decoded by the speech decoder 7 only when the speech / silence cell determination unit 5 determines that the speech data is speech. From this reproduced signal, the rms calculator 10 calculates the rms value for each cell frame. This rms value is updated for each cell frame, but only when the long hangover predictor 8 determines that a long hangover has occurred, the rms value immediately before the voice / silent cell decision unit 5 switches from voice to silence. Is held by the long hangover last interval rms value holding circuit 9. Based on the rms value, the noise level control circuit 12 is controlled so that the background noise level corresponds to the rms value, and the output noise level is adjusted. The rms value calculated by the rms calculator 10 calculates the average rms value in the sound section in the sound average rms value calculator 15. If the average rms value is less than or equal to a preset threshold value, it is determined that the speech signal itself is relatively small and is corrected by the noise level controller 12 so as to suppress background noise output during the silent period.
[0027]
Next, the memory 20 stores the synthesized output unit for one cell of the audio signal decoded (decoded) by the audio decoder 7. Assuming that an amount of 20 ms that can be reproduced by one cell is secured, in the case of a sampling rate of 8 kHz, 160 samples correspond to one cell.
[0028]
However, the memory 20 receives the information of the sound / silence cell determination unit 5 and stores only the sound signal in the sound section. Based on the audio signal stored in the memory 20, the spectrum analysis circuit 21 performs spectrum analysis processing by FFT (fast Fourier transform) processing, cepstrum analysis, and the like. Here, if the signal to be subjected to spectrum analysis is quite small and cannot be heard by human ears, it is not particularly necessary to switch the noise source, and therefore it is not necessary to perform spectrum analysis.
[0029]
Whether to perform the spectrum analysis processing is determined by the spectrum analysis circuit 21 based on the result of the rms value calculator 10. Based on this analysis result, the closest type compared with the assumed type is determined and notified to the generated noise switching unit 22. Therefore, the generated noise switching unit 22 switches the spectral characteristics of the output noise by controlling the noise frequency weighting parameters of the noise generator 11. In another example, a plurality of noise generators 11 can be prepared and switched by the generated noise switch 22.
[0030]
Since the background noise needs to be output from the moment when the voice is switched to silent, it is necessary to output pseudo noise, so if you try to insert noise with the same spectrum as the last voiced cell section, spectrum analysis A processing delay corresponding to the processing time occurs. However, it is considered that the noise is also dominant in the previous voiced cell section. Therefore, the memory 20 is set to an amount that can secure two cells. If the background noise of the approximate spectral characteristics in the voiced cell part immediately before the final voiced cell is output from the point of change to silence, processing delay is not required because it can be processed in parallel with the final voiced cell processing. .
[0031]
Finally, in the switcher 14, a voiced / silent cell discriminator is provided on the output side of the amplifier 13 for amplifying the output of the noise generator 11 that amplifies the output of the noise generator 11 that generates the pseudo background noise in the voiced section in the voiced section. 5 is selected according to the output of 5. Thereby, pseudo noise is inserted in the silent section.
[0032]
FIG. 2 shows a receiving side input configuration to the noise insertion device, where a voiced section and a silent section exist alternately. The voiced section includes the voiced cells aa ′, bb ′, cc ′..., And the silent section includes the silent cells AA ′, BB ′, CC ′. It is shown that.
[0033]
FIG. 3 shows the basic principle of noise insertion by the noise insertion device of the present invention. FIG. 4 shows an example of pseudo background noise output at the time of long hangover.
[0034]
FIG. 5 is a frequency vs. spectrum intensity diagram showing an example of a peak transition tendency pattern of the noise spectrum by the spectrum analysis circuit 21 of FIG. Type 1 is an example of white noise in which a spectrum in a wide frequency range is included substantially evenly. Type 2 is an example of noise in which the low frequency component is slightly higher than the high frequency component. Type 3 is an example of noise in which the low frequency spectrum is sufficiently larger than the high frequency spectrum. The generated noise switch 22 is configured to generate such a plurality of types of noise based on the analysis result of the spectrum analysis circuit 21.
[0035]
The preferred embodiment of the noise insertion device according to the present invention has been shown above, and the configuration and operation thereof have been described. However, it should be readily understood by those skilled in the art that the present invention should not be limited to only such specific examples, but can be appropriately modified and changed according to specific applications.
[0036]
【The invention's effect】
As can be understood from the above description, according to the noise insertion device of the present invention, background noise using FFT (Fast Fourier Transform), cepstrum analysis, etc., using data corresponding to the last voiced cell at the time of long hangover. The spectrum structure of the sound source is analyzed, and the spectrum characteristic of the source sound generator is brought close to the spectrum of the noise source based on the analysis result. Therefore, it is possible to generate noise close to the actual background noise, and it is possible to improve auditory characteristics and maintain high transmission efficiency.
[Brief description of the drawings]
FIG. 1 is a block diagram of a preferred embodiment of a noise insertion device according to the present invention.
FIG. 2 is a configuration example of input data to a noise insertion device.
FIG. 3 is a basic principle diagram of noise insertion by a noise insertion device.
FIG. 4 is an example of pseudo background noise output during a long hangover.
FIG. 5 is an example pattern showing multiple types of noise spectrum.
FIG. 6 is a block diagram of a conventional noise insertion device on the voice transmission side.
FIG. 7 is a block diagram of a conventional noise insertion device on the voice receiving side.
[Explanation of symbols]
5 voiced / silent cell decision unit 6 voiced cell count circuit 7 speech decoder 8 long hangover predictor 9 long hangover final interval rms value holding circuit 10 rms value calculator 11 noise generator 12 noise level controller 13 amplifier 14 Switching Device 20 Memory 21 Scout Analysis Circuit 22 Generated Noise Switching Device

Claims (6)

複数の有音セルを含む有音区間と複数の無音セルを含む無音区間が交互に存在し、有音区間中の背景雑音に対応する雑音を雑音発生器から無音区間中に挿入し聴感を改善する雑音挿入装置において、
前記有音区間中の有音セルを記憶するメモリと、
該メモリに記憶されたデータのスペクトルを分析するスペクトル解析回路と、
該スペクトル解析回路の解析結果に基づき前記無音区間中に挿入する雑音のスペクトル特性を制御する発生雑音切替器とを備えることを特徴とする雑音挿入装置。
The voiced section containing multiple voiced cells and the silent section containing multiple silent cells exist alternately, and noise corresponding to the background noise in the voiced section is inserted into the silent section from the noise generator to improve hearing. In the noise insertion device
A memory for storing voice cells in the voice section;
A spectrum analysis circuit for analyzing a spectrum of data stored in the memory;
A noise insertion device comprising: a generated noise switching unit that controls a spectral characteristic of noise to be inserted into the silent period based on an analysis result of the spectrum analysis circuit.
前記メモリは、前記有音区間の最後の1以上の有音セルを記憶することを特徴とする請求項1に記載の雑音挿入装置。The noise insertion apparatus according to claim 1, wherein the memory stores one or more sound cells at the end of the sound section. 送信側からのセル信号には、有音区間の有音セルのみが送信されることを特徴とする請求項1又は2に記載の雑音挿入装置。3. The noise insertion device according to claim 1, wherein only the sound cell in the sound section is transmitted to the cell signal from the transmission side. 前記有音区間の音声データのrms値を計算するrms値計算器を設け、rms値計算器による前記有音区間の最終部のrms値が予め設定したしきい値以下の場合には、前記スペクトル解析回路のスペクトル解析動作を行わないことを特徴とする請求項1、2又は3に記載の雑音挿入装置。An rms value calculator for calculating the rms value of the voice data of the sound section is provided, and when the rms value of the final part of the sound section by the rms value calculator is equal to or less than a preset threshold value, the spectrum 4. The noise insertion device according to claim 1, wherein the spectrum analysis operation of the analysis circuit is not performed. 前記発生雑音切替器は、予め複数の雑音パターンを用意し、前記スペクトル解析回路の解析結果により選択切替えることを特徴とする請求項1に記載の雑音挿入装置。The noise insertion device according to claim 1, wherein the generated noise switching unit prepares a plurality of noise patterns in advance and selectively switches based on an analysis result of the spectrum analysis circuit. 前記スペクトル解析回路は、前記背景雑音のFFTを行うことを特徴とする請求項1に記載の雑音挿入装置。The noise insertion apparatus according to claim 1, wherein the spectrum analysis circuit performs an FFT of the background noise.
JP03744399A 1999-02-16 1999-02-16 Noise insertion device Expired - Fee Related JP4047475B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03744399A JP4047475B2 (en) 1999-02-16 1999-02-16 Noise insertion device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03744399A JP4047475B2 (en) 1999-02-16 1999-02-16 Noise insertion device

Publications (2)

Publication Number Publication Date
JP2000236341A JP2000236341A (en) 2000-08-29
JP4047475B2 true JP4047475B2 (en) 2008-02-13

Family

ID=12497662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03744399A Expired - Fee Related JP4047475B2 (en) 1999-02-16 1999-02-16 Noise insertion device

Country Status (1)

Country Link
JP (1) JP4047475B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2143103A4 (en) * 2007-03-29 2011-11-30 Ericsson Telefon Ab L M Method and speech encoder with length adjustment of dtx hangover period

Also Published As

Publication number Publication date
JP2000236341A (en) 2000-08-29

Similar Documents

Publication Publication Date Title
US6889187B2 (en) Method and apparatus for improved voice activity detection in a packet voice network
KR100924576B1 (en) Individual channel temporal envelope shaping for binaural cue coding schemes and the like
EP1346553B1 (en) Audio signal quality enhancement in a digital network
EP2030199B1 (en) Linear predictive coding of an audio signal
KR100302370B1 (en) Speech interval detection method and system, and speech speed converting method and system using the speech interval detection method and system
KR101427863B1 (en) Audio signal coding method and apparatus
JP2002237785A (en) Method for detecting sid frame by compensation of human audibility
KR20000010930A (en) Speaking speed changing method and device
JP2004177978A (en) Method of generating comfortable noise of digital speech transmission system
WO2005109401A1 (en) Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
ZA200303829B (en) Method and system for comfort noise generation in speech communication.
US5553192A (en) Apparatus for noise removal during the silence periods in the discontinuous transmission of speech signals to a mobile unit
KR20040028932A (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US20120323585A1 (en) Artifact Reduction in Time Compression
JPH0730496A (en) Sound signal decoding device
US8612239B2 (en) Apparatus and method for coding audio data based on input signal distribution characteristics of each channel
JPS62274941A (en) Audio coding system
RU2440674C1 (en) Method and apparatus for encoding background noise information
JP2005094356A (en) System and method for transmitting sound signal
JP4047475B2 (en) Noise insertion device
JP2003157100A (en) Voice communication method and equipment, and voice communication program
JP2900987B2 (en) Silence compressed speech coding / decoding device
JP3166797B2 (en) Voice coding method, voice decoding method, and voice codec
JP3593183B2 (en) Voice decoding device
JPH10111699A (en) Voice reproducer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees