JP5915240B2 - Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method - Google Patents

Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method Download PDF

Info

Publication number
JP5915240B2
JP5915240B2 JP2012034190A JP2012034190A JP5915240B2 JP 5915240 B2 JP5915240 B2 JP 5915240B2 JP 2012034190 A JP2012034190 A JP 2012034190A JP 2012034190 A JP2012034190 A JP 2012034190A JP 5915240 B2 JP5915240 B2 JP 5915240B2
Authority
JP
Japan
Prior art keywords
peak
frequency
spectrum
unit
peak spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012034190A
Other languages
Japanese (ja)
Other versions
JP2013171130A (en
Inventor
孝朗 山邊
孝朗 山邊
永井 俊明
俊明 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2012034190A priority Critical patent/JP5915240B2/en
Priority to PCT/JP2013/050469 priority patent/WO2013125257A1/en
Publication of JP2013171130A publication Critical patent/JP2013171130A/en
Priority to US14/300,005 priority patent/US9734841B2/en
Application granted granted Critical
Publication of JP5915240B2 publication Critical patent/JP5915240B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、特殊信号検出装置と雑音信号抑制装置に関し、特に、サイレン音や報知音、自動車等のエンジン音のように人工的に作られた特殊信号の存在を検出する特殊信号検出装置と、このような特殊性雑音信号に対する抑制を行う雑音信号抑制装置に関する。   The present invention relates to a special signal detection device and a noise signal suppression device, and in particular, a special signal detection device that detects the presence of a special signal that is artificially produced, such as siren sound, notification sound, and engine sound of an automobile, The present invention relates to a noise signal suppressing device that suppresses such a special noise signal.

雑音信号抑制法は、音声認識や移動体通信の分野で広く利用されている。音声認識の分野では、音声認識の精度を向上させるため、音声認識処理前に雑音信号抑制処理を行うことで音声信号以外の余分な雑音を抑制している。また、移動体通信の分野では、低ビットレートで音声符号化をする際に雑音が混入することで音声の明瞭度が著しく劣化することを避けるため、音声符号化処理前に雑音信号抑制処理が行われている。   Noise signal suppression methods are widely used in the fields of speech recognition and mobile communication. In the field of speech recognition, in order to improve the accuracy of speech recognition, extra noise other than speech signals is suppressed by performing noise signal suppression processing before speech recognition processing. Also, in the field of mobile communication, noise signal suppression processing is performed before speech coding processing in order to avoid significant degradation of speech intelligibility due to noise mixing when speech coding is performed at a low bit rate. Has been done.

雑音スペクトル検出を用いた代表的な雑音低減処理方法にスペクトルサブトラクション法が存在する。スペクトルサブトラクション法とは、雑音スペクトルを推定し、雑音を含んだ入力信号から雑音成分を差し引くことで雑音の低減を行う方法である。   A spectrum subtraction method exists as a typical noise reduction processing method using noise spectrum detection. The spectral subtraction method is a method of reducing noise by estimating a noise spectrum and subtracting a noise component from an input signal including noise.

当該スペクトルサブトラクション法では、白色雑音や空調機器のようにエネルギーが定常的な信号は雑音として認識することが比較的容易であり、高い雑音抑制効果を有する。一方で、トーン信号(サイン波信号)に近く、エネルギー成分が高いサイレン音のような警告音や特に甲高いエンジン音などについては雑音信号として分類することが困難である。これらの特殊な音は、音声の特徴である倍音構造を成した周波数成分を持つため、人間の音声の成分に非常に近似しており、雑音スペクトルを推定することが困難であるためである。   In the spectral subtraction method, a signal with a constant energy such as white noise or air-conditioning equipment is relatively easy to recognize as noise, and has a high noise suppression effect. On the other hand, a warning sound such as a siren sound having a high energy component, which is close to a tone signal (sine wave signal), particularly a high-pitched engine sound, is difficult to classify as a noise signal. This is because these special sounds have frequency components having a harmonic structure, which is a feature of speech, and thus are very close to human speech components and it is difficult to estimate the noise spectrum.

このサイレン音やエンジン音などの雑音スペクトルは、短時間(数10msec〜数100msec)で解析すると、音声スペクトルの特徴である基本周波数と高調波を持つ倍音構造が明確に観察される。このように、音声スペクトルと雑音スペクトルの区分けが困難であるがゆえ、特別な分析方法が必要となる。   When the noise spectrum such as the siren sound and the engine sound is analyzed in a short time (several tens of milliseconds to several hundreds of milliseconds), a harmonic structure having a fundamental frequency and harmonics that are characteristic of the speech spectrum is clearly observed. Thus, since it is difficult to distinguish between the speech spectrum and the noise spectrum, a special analysis method is required.

上記の解析時間幅は、ハードウェアにかかる音声信号の一般的な蓄積量や、例えば音声符号化処理のような各種信号処理における処理時間幅とほぼ同じであり、実時間処理が必要な分野に係る周波数分析時間幅としては妥当な範囲である。つまり極めて短い信号処理遅延しか許されない移動体通信のような装置へ応用する場合、上記の処理時間幅以内に音声信号の分析を終えなければならない。   The above analysis time width is almost the same as the general accumulation amount of audio signals applied to hardware and the processing time width in various signal processing such as audio encoding processing, and in fields where real-time processing is required. The frequency analysis time width is within a reasonable range. In other words, when applying to a device such as mobile communication in which only a very short signal processing delay is allowed, the analysis of the audio signal must be completed within the above processing time width.

特許文献1には、雑音の周波数スペクトルやスペクトル強度の変化周期を予め設定したパターンと比較することで、対象となる特殊な雑音信号(警告音等)を検出し、雑音信号を抑制する雑音抑圧装置が開示されている。当該雑音抑圧装置は、周波数信号が時間経過に応じて変動するサイレン音のような長期的周期信号であっても、周波数分析において基本周波数を抽出し、抽出した基本周波数情報を時間経過と共に変動する周波数変移情報(基本周波数の時間的な軌跡)とを比較することにより、サイレン音等の雑音信号を検出して抑制を行っている。   In Patent Document 1, noise suppression that suppresses a noise signal by detecting a target special noise signal (warning sound, etc.) by comparing the frequency spectrum of noise and the period of change of spectrum intensity with a preset pattern. An apparatus is disclosed. The noise suppression device extracts a basic frequency in frequency analysis even if the frequency signal is a long-term periodic signal such as a siren sound that fluctuates with the passage of time, and fluctuates the extracted fundamental frequency information with the passage of time. By comparing the frequency shift information (temporal trajectory of the fundamental frequency), noise signals such as siren sounds are detected and suppressed.

また、特許文献2には、雑音の周波数スペクトル解析を行い、極大値を示すピーク周波数を抽出し、そのピーク周波数の鋭さが予め定められた所定条件を満たす場合、対象となる雑音信号を警告音と判定する警報音源認識装置が開示されている。当該警報音源認識装置は、人工的なサイレン音や警告音の特徴として極めて狭い帯域幅にエネルギーが集中するといった特徴を基に、極大値を示すピーク周波数の鋭さを隣接する周波数帯とのエネルギー比から導出することにより、サイレン音等の雑音信号を検出している。   Further, in Patent Document 2, a frequency spectrum analysis of noise is performed, a peak frequency showing a maximum value is extracted, and when a sharpness of the peak frequency satisfies a predetermined condition, a target noise signal is displayed as a warning sound. An alarm sound source recognizing device that determines that the The alarm sound source recognition device is characterized by the fact that energy is concentrated in a very narrow bandwidth as a feature of artificial siren sound and warning sound, and the sharpness of the peak frequency showing the maximum value is compared with the energy ratio of the adjacent frequency band. By deriving from, noise signals such as siren sounds are detected.

また、特許文献3には、個人用警報安全システム(PASS)から発せられる報知音を検出するための検出装置が開示されている。当該検出装置では、収音した音声の最大音圧レベルと最小音圧レベルの差が所定の基準値を超えているかを分析し、更に、当該音声の周波数分析及び時間領域におけるビートパターン分析を行うことでPASS特有の報知音であるかを判定する。当該検出方法によれば信頼性の高い報知音検出を可能としている(図4、図5及び該当説明箇所を参照)。   Patent Document 3 discloses a detection device for detecting a notification sound emitted from a personal alarm safety system (PASS). The detection apparatus analyzes whether the difference between the maximum sound pressure level and the minimum sound pressure level of the collected sound exceeds a predetermined reference value, and further performs frequency analysis of the sound and beat pattern analysis in the time domain. Thus, it is determined whether the notification sound is peculiar to PASS. According to the detection method, highly reliable notification sound detection is possible (see FIGS. 4 and 5 and the corresponding explanation part).

特開2002-258899号公報JP 2002-258899 A 特開2005−77875号公報Japanese Patent Laid-Open No. 2005-77875 米国特許第7639147号明細書US Pat. No. 7,639,147

特許文献1に開示の雑音抑圧装置は、警告音の検出にパターン分析を用いており、長期周期性を判定するために一定時間(数秒間)必要であるため、雑音信号の抑制が実行されるまでの遅延が生じると共に、パターン分析による信号処理負荷量の増大を招いていた。   The noise suppression device disclosed in Patent Document 1 uses pattern analysis to detect a warning sound, and since it requires a certain time (several seconds) to determine long-term periodicity, noise signal suppression is executed. Delay and a signal processing load due to pattern analysis is increased.

また、パターン分析を用いた検出方法では、基本的にパターン分析用に登録された信号以外は検出できず、更には音声信号と警告音信号が重複する際には、音声信号の成分を抑制する可能性が高いため、音声信号の明瞭性が損なわれる恐れがある。   In addition, in the detection method using pattern analysis, it is basically impossible to detect signals other than those registered for pattern analysis. Furthermore, when the audio signal and the warning sound signal overlap, the component of the audio signal is suppressed. Since the possibility is high, the clarity of the audio signal may be impaired.

ここで、特許文献2に開示の警報音源認識装置では、パターン分析を使用していないため、検出可能な警告音を限定するものではないものの、警告音の判定には周波数領域における非常に鋭いエネルギーのピーク特性が求められる。比較的に静かな環境や、警告音以外の強い音圧レベルを持った音源が存在しない場合は、上記の鋭いエネルギーのピーク特性は比較的容易に検出されると考えられる。     Here, since the alarm sound source recognition device disclosed in Patent Document 2 does not use pattern analysis, the alarm sound that can be detected is not limited. Peak characteristics are required. If there is no sound source having a relatively quiet environment or a strong sound pressure level other than the warning sound, it is considered that the sharp energy peak characteristics can be detected relatively easily.

しかしながら、警告音以外の雑音が混入する場合、ピーク特性は雑音成分の影響で鈍化されてしまう。また通常の周波数分析は数10msecから数100msecの時間幅で解析されるため、極めて短時間による特性を示すことになり、警告音とは無関係の雑音信号が瞬間的に鋭いピーク特性を持つ可能性もある。特に音声信号は瞬間的な鋭いピーク特性を要しており誤検出の可能性が高まる。   However, when noise other than the warning sound is mixed, the peak characteristic is dull due to the influence of the noise component. In addition, since normal frequency analysis is performed with a time width of several tens of milliseconds to several hundreds of milliseconds, it shows characteristics in an extremely short time, and noise signals that are unrelated to warning sounds may have sharp peak characteristics instantaneously. There is also. In particular, an audio signal requires an instantaneous sharp peak characteristic, which increases the possibility of erroneous detection.

加えて、特許文献2に開示の警報音源認識装置で検出可能な警告音は、鋭いピーク特性の特徴を備えた固定周波数を持った警告音に限られる。例えば長期周期にて周波数が変動するようなサイレン音や、そもそも固定周波数を持たないエンジン音、更には、音源の移動や収音部の移動によって生じる周波数変動により、鋭いピーク特性が得られず、このような条件下では対象である警告音を検出できない。   In addition, the warning sound that can be detected by the alarm sound source recognition device disclosed in Patent Document 2 is limited to a warning sound having a fixed frequency having sharp peak characteristics. For example, a siren sound whose frequency fluctuates in a long period, an engine sound that does not have a fixed frequency in the first place, and a sharp peak characteristic cannot be obtained due to a frequency fluctuation caused by the movement of the sound source or the movement of the sound collection unit. Under such conditions, the target warning sound cannot be detected.

また、特許文献3に開示の警報音検出装置では、収音した音声の周波数とビートパターンがPASSの周波数とビートパターンと一致するかのパターン分析を行うことで報知音の検出を行う。従って、予め複数のパターンを記憶しておく必要があり、回路規模が大きくなるという課題に加え、報知音のタイプを特定するために分析時間が極めて長くなるといった課題を有していた。   In the alarm sound detection device disclosed in Patent Document 3, the notification sound is detected by performing pattern analysis to determine whether the frequency and beat pattern of the collected sound coincide with the PASS frequency and beat pattern. Therefore, it is necessary to store a plurality of patterns in advance, and in addition to the problem that the circuit scale becomes large, there is a problem that the analysis time becomes extremely long in order to specify the type of the notification sound.

上記課題に鑑み、本発明は、警告音の種類や使用条件に限定されることなく、少ないメモリ量と演算量で、短時間に特殊信号の有無を検出する特殊信号検出装置及び特殊性信号検出方法を提供し、更に、検出される特殊信号を特殊性雑音信号として抑制する雑音信号抑制装置及び雑音信号抑制方法を提供することを目的とする。   In view of the above problems, the present invention is not limited to the type of warning sound or usage conditions, and a special signal detection device and special signal detection that detect the presence or absence of a special signal in a short time with a small amount of memory and a calculation amount. It is an object of the present invention to provide a noise signal suppression apparatus and a noise signal suppression method that suppress a detected special signal as a special noise signal.

本発明の一態様に係る雑音信号抑制装置は、周囲の音声を収音して音声信号を出力する収音部(201)と、前記音声信号を時間領域から周波数領域の周波数信号に変換する時間/周波数変換部(202)と、変換された前記周波数信号の中から独立性を有するピークスペクトルを抽出する独立ピークスペクトル抽出部(290)と、前記独立ピークスペクトル抽出部で抽出される前記ピークスペクトルに基づいて雑音信号を抑制する雑音信号抑制部(206)と、を具備する。当該構成によればピークスペクトルの独立性を利用して雑音信号を抑制することで、収音される音声信号の内、人間の発話に基づく音声を適切に残しつつ、特殊性の雑音を抑制することが可能となる。
また、前記独立ピークスペクトル抽出部は、周囲の周波数信号に対し高いエネルギーを有するピークスペクトルを抽出する第1ピーク抽出部と、前記第1ピーク抽出部で抽出された前記ピークスペクトルの中から、隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、前記独立性を有するピークスペクトルとして抽出する第2ピーク抽出部と、を備えても良い。
また、前記第2ピーク抽出部は、前記隣接するピークスペクトルに対して400Hz以上の周波数間隔を保持するピークスペクトルを、前記独立性を有するピークスペクトルとして抽出しても良い。
また、前記第1ピーク抽出部は、前記収音部で収音された音声信号の音圧レベルが80dB以上であり、かつ全周波数スペクトルの平均信号レベルに対するレベル差が音圧レベルとして12dB以上のスペクトルを前記ピークスペクトルとして抽出しても良い。
また、前記時間/周波数変換部は、100Hz以内の周波数分解能で前記時間領域の音声信号を周波数領域に変換しても良い。
また、前記独立ピークスペクトル抽出部で抽出される前記独立性を有するピークスペクトルが所定期間以上持続して存在しているかを判定する持続性判定部を更に具備し、前記雑音信号抑制部は、前記持続性判定部で所定の期間以上持続して存在していると判定されたピークスペクトルに基づいて雑音信号を抑制しても良い。
また、前記持続性判定部は、前記独立ピークスペクトル抽出部で抽出される複数の前記独立性を有するピークスペクトルの中から所定の条件を満たすピークスペクトルに関して前記所定期間以上持続して存在しているかを判定し、前記雑音信号抑制部は、前記持続性判定部で前記ピークスペクトルが所定期間以上持続して存在していると判定された場合に、前記独立ピークスペクトル抽出部で抽出される前記独立性を有するピークスペクトルを雑音信号として抑制しても良い。
また、前記持続性判定部は、前記独立ピークスペクトル抽出部で抽出される複数の前記独立性を有するピークスペクトルの中の最低域のピークスペクトルに関して前記所定期間以上持続して存在しているかの判定を行っても良い。
また、前記持続性判定部は、前記最低域のピークスペクトルを中心とする所定の帯域幅内に、次の周波数変換処理で得られた前記最低域のピークスペクトルが存在している場合に、持続して存在していると判定しても良い。
また、前記雑音信号抑制部が前記雑音信号を抑制するかしないかを決定する動作モード決定部を更に具備し、前記雑音信号抑制部は、前記動作モード決定部における前記決定に基づいて前記雑音信号を抑制しても良い。
また、前記独立ピークスペクトル抽出部で抽出される前記独立性を有するピークスペクトルが持続する場合に設定値を加算し、持続しない場合に前記設定値を減算する設定値管理部を更に具備し、前記動作モード決定部は、前記設定値の値が所定の閾値を超えているか超えていないかに基づいて、前記雑音信号抑制部が前記雑音信号を抑制するかしないかを決定しても良い。
また、前記雑音信号抑制部は、前記時間/周波数変換部で変換された前記周波数信号の中から前記独立ピークスペクトル抽出部で抽出される前記ピークスペクトルに基づいて雑音信号を抑制しても良い。
また、前記雑音信号抑制部で雑音信号が抑制された周波数信号を時間領域の音声信号に変換する周波数/時間変換部と、前記変換された音声信号に対して音声符号化を行う音声符号化部と、前記音声符号化された音声信号を出力する出力部と、を更に具備しても良い。
ここで、本発明の一態様である雑音信号抑制方法は、周囲の音声を収音する収音部より出力される時間領域の音声信号を周波数領域の周波数信号に変換する時間/周波数変換ステップと、変換された前記周波数信号の中から独立性を有するピークスペクトルを抽出する独立ピークスペクトル抽出ステップと、前記独立ピークスペクトル抽出ステップで抽出される前記ピークスペクトルに基づいて雑音信号を抑制する雑音信号抑制ステップと、を有する。当該構成によればピークスペクトルの独立性を利用して雑音信号を抑制することで、収音される音声信号の内、人間の発話に基づく音声を適切に残しつつ、特殊性の雑音を抑制することが可能となる。
ここで、本発明の一態様である特殊信号検出装置は、周囲の音声を収音して音声信号を出力する収音部と、前記音声信号を時間領域から周波数領域の周波数信号に変換する時間/周波数変換部と、変換された前記周波数信号の中から独立性を有するピークスペクトルを抽出する独立ピークスペクトル抽出部と、前記独立ピークスペクトル抽出部で抽出される前記ピークスペクトルに基づいて特殊信号を検出する特殊信号検出部と、を具備する。当該構成によればピークスペクトルの独立性を利用して特殊信号を検出するため、収音される音声信号の内、人間の発話に基づく音声を適切に除外しつつ、特殊信号を検出することが可能となる。
ここで、本発明の一態様である特殊信号検出方法は、周囲の音声を収音する収音部より出力される時間領域の音声信号を周波数領域の周波数信号に変換する時間/周波数変換ステップと、変換された前記周波数信号の中から独立性を有するピークスペクトルを抽出する独立ピークスペクトル抽出ステップと、前記独立ピークスペクトル抽出ステップで抽出される前記ピークスペクトルに基づいて特殊信号を検出する特殊信号検出ステップと、を有する。当該構成によればピークスペクトルの独立性を利用して特殊信号を検出するため、収音される音声信号の内、人間の発話に基づく音声を適切に除外しつつ、特殊信号を検出することが可能となる。
A noise signal suppression device according to an aspect of the present invention includes a sound collection unit (201) that collects ambient sound and outputs a sound signal, and a time for converting the sound signal from a time domain to a frequency signal in the frequency domain. / Frequency conversion unit (202), an independent peak spectrum extraction unit (290) for extracting an independent peak spectrum from the converted frequency signal, and the peak spectrum extracted by the independent peak spectrum extraction unit And a noise signal suppression unit (206) for suppressing a noise signal based on the above. According to the configuration, by suppressing the noise signal by utilizing the independence of the peak spectrum, the noise based on the human speech is appropriately left out of the collected voice signal, and the noise of the special characteristic is suppressed. It becomes possible.
In addition, the independent peak spectrum extraction unit includes a first peak extraction unit that extracts a peak spectrum having high energy with respect to surrounding frequency signals, and an adjacent peak spectrum extracted by the first peak extraction unit. And a second peak extraction unit that extracts a peak spectrum having a frequency interval equal to or greater than a predetermined value with respect to the peak spectrum as the peak spectrum having independence.
The second peak extraction unit may extract a peak spectrum having a frequency interval of 400 Hz or more with respect to the adjacent peak spectrum as the peak spectrum having independence.
The first peak extraction unit has a sound pressure level of 80 dB or more of the sound signal collected by the sound collection unit, and a level difference with respect to an average signal level of all frequency spectra is 12 dB or more as a sound pressure level. A spectrum may be extracted as the peak spectrum.
Further, the time / frequency conversion unit may convert the time-domain audio signal into the frequency domain with a frequency resolution within 100 Hz.
In addition, it further comprises a persistence determining unit that determines whether or not the peak spectrum having the independence extracted by the independent peak spectrum extracting unit exists for a predetermined period or longer, and the noise signal suppressing unit includes the The noise signal may be suppressed based on the peak spectrum determined to be present for a predetermined period or longer by the sustainability determination unit.
Whether the persistence determining unit exists for a peak spectrum that satisfies a predetermined condition among the plurality of independent peak spectra extracted by the independent peak spectrum extracting unit for a predetermined period or more. The noise signal suppression unit is extracted by the independent peak spectrum extraction unit when the persistence determination unit determines that the peak spectrum exists for a predetermined period or longer. May be suppressed as a noise signal.
Further, the persistence determining unit determines whether or not the peak spectrum in the lowest range among the plurality of independent peak spectra extracted by the independent peak spectrum extracting unit exists for the predetermined period or longer. May be performed.
In addition, the persistence determination unit is configured to maintain the peak spectrum of the lowest band obtained by the next frequency conversion process within a predetermined bandwidth centered on the peak spectrum of the lowest band. And may be determined to exist.
The noise signal suppression unit further includes an operation mode determination unit that determines whether or not to suppress the noise signal, the noise signal suppression unit based on the determination in the operation mode determination unit May be suppressed.
In addition, when the independent peak spectrum extracted by the independent peak spectrum extraction unit persists, a setting value is added, and if not, a setting value management unit that subtracts the setting value is further provided, The operation mode determination unit may determine whether the noise signal suppression unit suppresses the noise signal based on whether the value of the set value exceeds or does not exceed a predetermined threshold value.
The noise signal suppression unit may suppress the noise signal based on the peak spectrum extracted by the independent peak spectrum extraction unit from the frequency signal converted by the time / frequency conversion unit.
Also, a frequency / time conversion unit that converts a frequency signal in which the noise signal is suppressed by the noise signal suppression unit into a time domain speech signal, and a speech encoding unit that performs speech encoding on the converted speech signal And an output unit for outputting the voice-encoded voice signal.
Here, the noise signal suppression method according to an aspect of the present invention includes a time / frequency conversion step of converting a time domain audio signal output from a sound collection unit that collects surrounding sounds into a frequency signal in the frequency domain; An independent peak spectrum extraction step for extracting an independent peak spectrum from the converted frequency signal, and a noise signal suppression for suppressing a noise signal based on the peak spectrum extracted in the independent peak spectrum extraction step Steps. According to the configuration, by suppressing the noise signal by utilizing the independence of the peak spectrum, the noise based on the human speech is appropriately left out of the collected voice signal, and the noise of the special characteristic is suppressed. It becomes possible.
Here, the special signal detection device according to one aspect of the present invention includes a sound collection unit that collects ambient sound and outputs a sound signal, and a time for converting the sound signal from a time domain to a frequency signal in the frequency domain. / Frequency conversion unit, an independent peak spectrum extraction unit that extracts an independent peak spectrum from the converted frequency signal, and a special signal based on the peak spectrum extracted by the independent peak spectrum extraction unit And a special signal detector for detecting. According to this configuration, since the special signal is detected by utilizing the independence of the peak spectrum, it is possible to detect the special signal while appropriately excluding the voice based on the human speech from the collected voice signals. It becomes possible.
Here, the special signal detection method according to an aspect of the present invention includes a time / frequency conversion step of converting a time-domain sound signal output from a sound collecting unit that picks up surrounding sound into a frequency signal in the frequency domain; An independent peak spectrum extracting step for extracting an independent peak spectrum from the converted frequency signal, and a special signal detection for detecting a special signal based on the peak spectrum extracted in the independent peak spectrum extracting step Steps. According to this configuration, since the special signal is detected by utilizing the independence of the peak spectrum, it is possible to detect the special signal while appropriately excluding the voice based on the human speech from the collected voice signals. It becomes possible.

本発明によれば、警告音の種類や使用条件に限定されることなく、少ないメモリ量と演算量で、短時間に特殊信号の有無を検出する特殊信号検出装置及び特殊性信号検出方法を提供することができる。また本発明の雑音信号抑制装置及び雑音信号抑制方法によれば、警告音の種類、使用条件に限定されることなく、少ないメモリ量と演算量で、短時間に特殊性雑音信号の有無を推定して雑音信号成分を抑制することが出来る。   According to the present invention, there is provided a special signal detection device and a special signal detection method for detecting the presence / absence of a special signal in a short time with a small amount of memory and a calculation amount, without being limited to the type of warning sound and usage conditions. can do. According to the noise signal suppression device and noise signal suppression method of the present invention, the presence or absence of a special noise signal can be estimated in a short time with a small amount of memory and a calculation amount without being limited to the type of warning sound and usage conditions. Thus, the noise signal component can be suppressed.

実施の形態1に係る特殊信号検出装置の構成を示すブロック図である。1 is a block diagram illustrating a configuration of a special signal detection device according to a first embodiment. 実施の形態1に係る特殊信号検出装置の動作を示すフローチャート図である。FIG. 5 is a flowchart showing the operation of the special signal detection device according to the first embodiment. 実施の形態1に係る雑音信号抑制装置の構成を示すブロック図である。1 is a block diagram illustrating a configuration of a noise signal suppression device according to Embodiment 1. FIG. 実施の形態1に係る雑音信号抑制装置の動作を示すフローチャート図である。FIG. 3 is a flowchart showing an operation of the noise signal suppression device according to the first embodiment. 実施の形態1に係るピークスペクトル抽出動作を示すフローチャート図である。6 is a flowchart showing a peak spectrum extraction operation according to Embodiment 1. FIG. サイレン音を収音した場合の周波数分布図である。It is a frequency distribution map at the time of collecting a siren sound. サイレン音と人間の発話音声とを同時に収音した場合の周波数分布図である。It is a frequency distribution map at the time of picking up siren sound and human speech voice simultaneously. 実施の形態2に係る特殊信号検出装置の構成を示すブロック図である。FIG. 6 is a block diagram illustrating a configuration of a special signal detection device according to a second embodiment. 実施の形態2に係る特殊信号検出装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing the operation of the special signal detection device according to the second embodiment. 実施の形態2に係る雑音信号抑制装置の構成を示すブロック図である。6 is a block diagram illustrating a configuration of a noise signal suppression device according to Embodiment 2. FIG. 実施の形態2に係る雑音信号抑制装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing the operation of the noise signal suppression device according to the second embodiment. サイレン音と人間の発話音声とを同時に収音した場合の信号レベルとスペクトログラム波形とを示した図である。It is the figure which showed the signal level and spectrogram waveform at the time of picking up siren sound and human speech voice simultaneously. 実施の形態2に係る雑音信号抑制装置における通常モードと特殊信号抑制モードとの切り替わりタイミングを説明する図である。It is a figure explaining the switching timing of the normal mode and special signal suppression mode in the noise signal suppression apparatus which concerns on Embodiment 2. FIG. 実施の形態2に係る別の雑音信号抑制装置における通常モードと特殊信号抑制モードとの切り替わりタイミングを説明する図である。It is a figure explaining the switching timing of the normal mode and special signal suppression mode in another noise signal suppression apparatus which concerns on Embodiment 2. FIG. 実施の形態3に係る雑音信号抑制装置の構成を示すブロック図である。FIG. 10 is a block diagram illustrating a configuration of a noise signal suppression device according to a third embodiment. 実施の形態3に係る雑音信号抑制装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing the operation of the noise signal suppression device according to the third embodiment. 実施の形態3に係る雑音信号抑制装置における通常モードと特殊信号抑制モードとの切り替わりタイミングを説明する図である。It is a figure explaining the switching timing of the normal mode and special signal suppression mode in the noise signal suppression apparatus which concerns on Embodiment 3. FIG. (a)雑音抑制処理無しの混合音声信号に対して音声符号化を行った場合のスペクトログラム波形と、(b)雑音抑制処理済みの混合音声信号に対して音声符号化を行った場合のスペクトログラム波形とを示した図である。(A) Spectrogram waveform when speech coding is performed on a mixed speech signal without noise suppression processing, and (b) Spectrogram waveform when speech coding is performed on a mixed speech signal after noise suppression processing FIG. 生命維持装置等の報知音のスペクトログラム図である。It is a spectrogram figure of notification sounds, such as a life support device. 実施の形態4に係る雑音信号抑制装置の構成を示すブロック図である。FIG. 10 is a block diagram illustrating a configuration of a noise signal suppression device according to a fourth embodiment. 実施の形態4に係る雑音信号抑制装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing the operation of the noise signal suppression device according to the fourth embodiment. 実施の形態4の変形例に係る雑音信号抑制装置の構成を示すブロック図である。FIG. 10 is a block diagram illustrating a configuration of a noise signal suppression device according to a modification of the fourth embodiment. 実施の形態4に係る報知信号検出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the alerting | reporting signal detection apparatus which concerns on Embodiment 4. FIG. 実施の形態4に係る報知信号検出装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing an operation of a notification signal detection apparatus according to Embodiment 4. 実施の形態5に係る報知信号検出装置の動作を示すフローチャート図である。FIG. 10 is a flowchart showing an operation of a notification signal detection apparatus according to the fifth embodiment. 本発明に係る報知信号検出装置の動作を示すフローチャート図である。It is a flowchart figure which shows operation | movement of the alerting signal detection apparatus which concerns on this invention.

本発明の実施の形態について以下に図面を参照して説明する。以下の説明は、本発明の好適な実施の形態を示すものであって、本発明の範囲が以下の実施の形態に限定されるものではない。以下の説明において、同一の符号が付されたものは実質的に同様の内容を示している。     Embodiments of the present invention will be described below with reference to the drawings. The following description shows preferred embodiments of the present invention, and the scope of the present invention is not limited to the following embodiments. In the following description, the same reference numerals indicate substantially the same contents.

(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態1に係る特殊信号検出装置の構成を示すブロック図である。特殊信号検出装置100は、収音部101と、時間/周波数変換部102と、ピーク抽出部103と、ピーク独立性判定部104と、特殊信号検出部105と、を具備する。
(Embodiment 1)
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the special signal detection apparatus according to the first embodiment. The special signal detection apparatus 100 includes a sound collection unit 101, a time / frequency conversion unit 102, a peak extraction unit 103, a peak independence determination unit 104, and a special signal detection unit 105.

収音部101は、音声や雑音を収音する。収音部101は、具体的に装置100に設置されたマイクロホンである。収音部101で収音された目的音を含む周囲の音声は、時間領域の音声信号として時間/周波数変換部102に送られる。   The sound collection unit 101 collects voice and noise. The sound collection unit 101 is specifically a microphone installed in the apparatus 100. Surrounding sounds including the target sound collected by the sound collection unit 101 are sent to the time / frequency conversion unit 102 as a time domain audio signal.

時間/周波数変換部102は、収音部101にて取得された音声信号を時間領域から周波数領域の周波数信号へ変換する処理を行う。   The time / frequency conversion unit 102 performs a process of converting the audio signal acquired by the sound collection unit 101 from a time domain to a frequency signal in the frequency domain.

ピーク抽出部103は、時間/周波数変換部102にて周波数領域に変換された周波数信号の中からエネルギー成分が極めて高いスペクトルを抽出する。具体的には、ピーク抽出部103は、変換された周波数信号の内、周囲の周波数信号に対し高いエネルギーを有するピーク特性を持つピークスペクトルを抽出する。   The peak extraction unit 103 extracts a spectrum having an extremely high energy component from the frequency signal converted into the frequency domain by the time / frequency conversion unit 102. Specifically, the peak extraction unit 103 extracts a peak spectrum having a peak characteristic having high energy with respect to surrounding frequency signals from the converted frequency signals.

ピーク独立性判定部104は、ピーク抽出部103でピークスペクトルが抽出されているかを判定する。また、ピーク独立性判定部104は、ピーク抽出部103にて抽出されたピークスペクトル同士が所定値以上の周波数間隔を保持しているかを判定する。ピーク独立性判定部104は、これらの判定結果を特殊信号検出部105に出力する。   The peak independence determination unit 104 determines whether the peak extraction unit 103 has extracted a peak spectrum. The peak independence determination unit 104 determines whether the peak spectra extracted by the peak extraction unit 103 have a frequency interval equal to or greater than a predetermined value. The peak independence determination unit 104 outputs these determination results to the special signal detection unit 105.

特殊信号検出部105は、ピーク独立性判定部104において所定値以上の周波数間隔を保持していると判定されたピークスペクトルを特殊信号として検出する。すなわち、特殊信号検出部105は、ピーク抽出部103で抽出されたピークスペクトルの中に、所定値以上の周波数間隔が離れたピークスペクトルがある場合に、当該ピークスペクトルを特殊信号として検出する。   The special signal detection unit 105 detects, as a special signal, a peak spectrum determined by the peak independence determination unit 104 as having a frequency interval equal to or greater than a predetermined value. That is, the special signal detection unit 105 detects the peak spectrum as a special signal when the peak spectrum extracted by the peak extraction unit 103 includes a peak spectrum separated by a frequency interval equal to or greater than a predetermined value.

次に、特殊信号検出装置100の動作について説明する。図2は、特殊信号検出装置100の動作の流れを示すフローチャート図である。   Next, the operation of the special signal detection device 100 will be described. FIG. 2 is a flowchart showing an operation flow of the special signal detection apparatus 100.

収音部101は、周囲の音声を収音し、収音した音声を時間領域の音声信号として時間/周波数変換部102に出力する(ステップS1001)。   The sound collection unit 101 collects ambient sound and outputs the collected sound to the time / frequency conversion unit 102 as a time-domain sound signal (step S1001).

時間/周波数変換部102は、入力信号に対して時間/周波数変換処理を行うことで、周波数領域の信号である周波数信号に変換し、変換後の周波数信号をピーク抽出部103に出力する(ステップS1002)。   The time / frequency conversion unit 102 converts the input signal into a frequency signal that is a frequency domain signal by performing a time / frequency conversion process on the input signal, and outputs the converted frequency signal to the peak extraction unit 103 (step). S1002).

ピーク抽出部103は、入力した周波数信号に対するスペクトル分析を行い、ピークスペクトルを抽出する(ステップS1003)。具体的に、ピーク抽出部103は、スペクトル全体のエネルギー平均値と各ポイントのスペクトルのエネルギーとを比較することでピーク特性を備えているかを判断してピークスペクトルを抽出する。   The peak extraction unit 103 performs spectrum analysis on the input frequency signal and extracts a peak spectrum (step S1003). Specifically, the peak extraction unit 103 extracts the peak spectrum by determining whether the peak characteristic is provided by comparing the average energy value of the entire spectrum with the energy of the spectrum of each point.

ピーク独立性判定部104は、ステップS1003においてピークスペクトルが抽出されているかを判定する(ステップS1004)。ピークスペクトルが抽出されていない場合、特殊信号検出部105は、特殊信号は検出されていないと判断する(ステップS1007)。   The peak independence determination unit 104 determines whether a peak spectrum is extracted in step S1003 (step S1004). When the peak spectrum is not extracted, the special signal detection unit 105 determines that no special signal is detected (step S1007).

一方、ステップS1003において、ピークスペクトルが抽出されている場合、当該抽出されたピークスペクトルの独立性を判定する(ステップS1005)。具体的には、ステップS1003で抽出されたピークスペクトル同士が所定値以上の周波数間隔を保持しているかを判定する。   On the other hand, when the peak spectrum is extracted in step S1003, the independence of the extracted peak spectrum is determined (step S1005). Specifically, it is determined whether the peak spectra extracted in step S1003 maintain a frequency interval equal to or greater than a predetermined value.

ステップS1005において、独立性を有するピークスペクトルが無いと判定された場合、特殊信号検出部105は、特殊信号は検出されていないと判断する(ステップS1007)。一方、ステップS1005において、独立性を有するピークスペクトルがあると判定された場合、特殊信号検出部105は、当該ピークスペクトルを特殊信号によるものとみなすことで特殊信号を検出する(ステップS1006)。   If it is determined in step S1005 that there is no peak spectrum having independence, the special signal detection unit 105 determines that no special signal has been detected (step S1007). On the other hand, when it is determined in step S1005 that there is a peak spectrum having independence, the special signal detection unit 105 detects the special signal by regarding the peak spectrum as a special signal (step S1006).

以上のように、本実施の形態1に係る特殊信号検出装置は、ピークスペクトルを抽出し、更に独立性の判定を加えることで特殊信号を検出する。当該構成とすることで、少ないメモリ量と演算量で、短時間に特殊信号の有無を検出することができる。   As described above, the special signal detection apparatus according to the first embodiment detects the special signal by extracting the peak spectrum and further adding independence determination. With this configuration, it is possible to detect the presence or absence of a special signal in a short time with a small amount of memory and a large amount of calculation.

ここで、ピーク抽出部103とピーク独立性判定部104は、一つで独立性を有するピークスペクトルを抽出する処理を行っているため、以下の説明では、これら2つを合せて独立ピークスペクトル抽出部190と呼ぶことがある。特殊信号検出部105は、当該独立ピークスペクトル抽出部190で抽出される独立性を有するピークスペクトルに基づいて特殊信号を検出することになる。   Here, since the peak extraction unit 103 and the peak independence determination unit 104 perform processing for extracting a single independent peak spectrum, in the following description, these two are combined to extract an independent peak spectrum. It may be called the part 190. The special signal detection unit 105 detects the special signal based on the peak spectrum having independence extracted by the independent peak spectrum extraction unit 190.

上記特殊信号検出装置は、様々な用途に応用することが可能となる。例えば、上記特殊信号検出装置を用いて警報音等の特殊信号を検出し、特殊信号が検出された場合に、警報音が鳴っていることを別の場所に待機するオペレータに通知する通知装置に応用することができる。また、上記特殊信号検出装置を道路脇に設置し、車のエンジン音等の特殊信号を検出し、検出結果を時系列でメモリに記録していくことで、車の交通量を測定する測定装置に応用することも可能である。   The special signal detection device can be applied to various uses. For example, a notification device that detects a special signal such as an alarm sound using the special signal detection device and notifies an operator who is on standby in another place that the alarm sound is sounding when the special signal is detected. Can be applied. Also, a measuring device that measures the traffic volume of a car by installing the special signal detection device on the side of the road, detecting a special signal such as a car engine sound, and recording the detection result in a memory in time series. It is also possible to apply to.

また、上記特殊信号検出装置で検出された特殊信号を特殊性の雑音として捉え、収音した音声の中から当該特殊性雑音を取り除いた上で音声を送信する雑音信号抑制装置として応用することも可能である。   In addition, the special signal detected by the special signal detection device may be regarded as noise of speciality, and may be applied as a noise signal suppression device that transmits the sound after removing the special noise from the collected sound. Is possible.

図3は、当該特殊信号検出方法を利用した本実施の形態1に係る雑音信号抑制装置200の構成を示すブロック図である。   FIG. 3 is a block diagram showing a configuration of noise signal suppression apparatus 200 according to the first embodiment using the special signal detection method.

雑音信号抑制装置200は、収音部201と、時間/周波数変換部202と、ピーク抽出部203と、ピーク独立性判定部204と、ピークスペクトル決定部205と、雑音信号抑制部206と、周波数/時間変換部207と、出力部208と、を備える。   The noise signal suppression apparatus 200 includes a sound collection unit 201, a time / frequency conversion unit 202, a peak extraction unit 203, a peak independence determination unit 204, a peak spectrum determination unit 205, a noise signal suppression unit 206, a frequency A time conversion unit 207 and an output unit 208 are provided.

ここで、雑音信号抑制装置200が備える収音部201、時間/周波数変換部202、ピーク抽出部203、及びピーク独立性判定部204は、それぞれ上述した特殊信号検出装置100が備える収音部101、時間/周波数変換部102、ピーク抽出部103、及びピーク独立性判定部104に相互に対応している。   Here, the sound collection unit 201, the time / frequency conversion unit 202, the peak extraction unit 203, and the peak independence determination unit 204 included in the noise signal suppression device 200 are respectively the sound collection unit 101 included in the special signal detection device 100 described above. The time / frequency conversion unit 102, the peak extraction unit 103, and the peak independence determination unit 104 correspond to each other.

収音部201は、音声や雑音を収音する。収音部201は、具体的に装置200に設置されたマイクロホンである。収音部201で収音された目的音を含む周囲の音声は、時間領域の音声信号として時間/周波数変換部202に送られる。   The sound collection unit 201 collects voice and noise. The sound collection unit 201 is a microphone specifically installed in the apparatus 200. Surrounding sounds including the target sound collected by the sound collection unit 201 are sent to the time / frequency conversion unit 202 as a time domain sound signal.

時間/周波数変換部202は、収音部201にて取得された音声信号を時間領域から周波数領域の周波数信号へ変換する処理を行う。   The time / frequency conversion unit 202 performs a process of converting the audio signal acquired by the sound collection unit 201 from a time domain to a frequency signal in the frequency domain.

ピーク抽出部203は、時間/周波数変換部202にて周波数領域に変換された周波数信号の中からエネルギー成分が極めて高いスペクトルを抽出する。   The peak extraction unit 203 extracts a spectrum having an extremely high energy component from the frequency signal converted into the frequency domain by the time / frequency conversion unit 202.

ピーク独立性判定部204は、ピーク抽出部203にて抽出されたピークスペクトル同士が所定の周波数間隔を保持しているかを判定する。   The peak independence determination unit 204 determines whether the peak spectra extracted by the peak extraction unit 203 hold a predetermined frequency interval.

ピークスペクトル決定部205は、ピーク独立性判定部204より独立性を保持するスペクトルを特殊性雑音信号として抽出する。   The peak spectrum determination unit 205 extracts a spectrum that retains independence from the peak independence determination unit 204 as a peculiar noise signal.

雑音信号抑制部206は、時間/周波数変換部202より出力される周波数領域の周波数信号からピークスペクトル決定部205で特殊性雑音信号として抽出されたピークスペクトルを取り除く。雑音信号抑制部206は、雑音抑制を行った後の周波数信号を周波数/時間変換部207に出力する。   The noise signal suppression unit 206 removes the peak spectrum extracted as a special noise signal by the peak spectrum determination unit 205 from the frequency domain frequency signal output from the time / frequency conversion unit 202. The noise signal suppression unit 206 outputs the frequency signal after noise suppression to the frequency / time conversion unit 207.

周波数/時間変換部207は、雑音信号抑制部206より入力する周波数信号を時間領域の音声信号に変換する。周波数/時間変換部207は、変換後の音声信号を出力部208に出力する。   The frequency / time conversion unit 207 converts the frequency signal input from the noise signal suppression unit 206 into an audio signal in the time domain. The frequency / time conversion unit 207 outputs the converted audio signal to the output unit 208.

出力部208は、周波数/時間変換部207から入力した音声信号に必要に応じて音声符号化を行い、外部に出力する。出力部208は、上記入力した音声信号を外部に無線送信する無線送信手段であっても良い。   The output unit 208 performs speech coding as necessary on the speech signal input from the frequency / time conversion unit 207 and outputs the speech signal to the outside. The output unit 208 may be a wireless transmission unit that wirelessly transmits the input audio signal to the outside.

ここで、ピーク抽出部203とピーク独立性判定部204とピークスペクトル決定部205は、一つで周波数変換された周波数信号の中から独立性を有するピークスペクトルを抽出する機能を有する。従って、以下の説明では、これら3つを一纏めとして、独立ピークスペクトル抽出部290と呼ぶことがある。独立ピークスペクトル抽出部290は、変換された周波数信号の中から独立性を有するピークスペクトルを抽出する機能を有する。ここで、独立性を有するとは、隣接ピークスペクトルに対して所定値以上の周波数間隔を保持している場合に独立性を有するものとする。ここで、上記所定値としては、音声が100Hz〜400Hzに基本周波数を有することを鑑み、400Hz程度を採用することが好ましい。   Here, the peak extraction unit 203, the peak independence determination unit 204, and the peak spectrum determination unit 205 have a function of extracting a peak spectrum having independence from one frequency signal that has been frequency-converted. Therefore, in the following description, these three may be collectively referred to as an independent peak spectrum extraction unit 290. The independent peak spectrum extraction unit 290 has a function of extracting a peak spectrum having independence from the converted frequency signal. Here, having independence means having independence when a frequency interval of a predetermined value or more is maintained with respect to the adjacent peak spectrum. Here, it is preferable to adopt about 400 Hz as the predetermined value in view of the fact that audio has a fundamental frequency in the range of 100 Hz to 400 Hz.

また、独立ピークスペクトル抽出部290において、ピーク抽出部203は、全スペクトルの中から独立性を無視して第1段階目のピーク抽出を行うのに対し、ピーク独立性判定部204及びピークスペクトル決定部205は、第1段階目で抽出されたピークスペクトルの中から独立性を考慮した第2段階目のピークスペクトルを抽出する。従って、以下の説明では、当該ピーク独立性判定部204及びピークスペクトル決定部205を一纏めにして第2ピーク抽出部250と称することがある。同時にピーク抽出部203を特に第1ピーク抽出部203と称することがある。   Further, in the independent peak spectrum extraction unit 290, the peak extraction unit 203 ignores the independence from all the spectra and performs the first stage peak extraction, whereas the peak independence determination unit 204 and the peak spectrum determination The unit 205 extracts the peak spectrum of the second stage considering independence from the peak spectra extracted in the first stage. Therefore, in the following description, the peak independence determination unit 204 and the peak spectrum determination unit 205 may be collectively referred to as a second peak extraction unit 250. At the same time, the peak extraction unit 203 may be particularly referred to as a first peak extraction unit 203.

第1ピーク抽出部203は、収音部201で収音された音声信号の音圧レベルが第1基準値(例えば80dB)以上であり、かつ全周波数スペクトルの平均信号レベルに対するレベル差が音圧レベルで第2基準値(例えば12dB)以上のスペクトルをピークスペクトルとして抽出すると、適切な特殊性雑音のピークを拾うことができるため好ましい。   The first peak extraction unit 203 has a sound pressure level of the sound signal collected by the sound collection unit 201 that is equal to or higher than a first reference value (for example, 80 dB), and a level difference with respect to the average signal level of the entire frequency spectrum is a sound pressure. It is preferable to extract a spectrum having a level equal to or higher than the second reference value (for example, 12 dB) as a peak spectrum because an appropriate special noise peak can be picked up.

続いて雑音信号抑制装置200の動作について説明する。図4は、雑音信号抑制装置200の動作の流れを示すフローチャート図である。   Next, the operation of the noise signal suppression device 200 will be described. FIG. 4 is a flowchart showing the operation flow of the noise signal suppression apparatus 200.

収音部201は、周囲の音声を収音し、収音した音声を時間領域の音声信号として時間/周波数変換部202に出力する(ステップS2001)。   The sound collection unit 201 collects the surrounding sound and outputs the collected sound to the time / frequency conversion unit 202 as a time domain sound signal (step S2001).

時間/周波数変換部202は、入力信号に対して時間/周波数変換処理を行うことで、周波数領域の信号である周波数信号に変換する(ステップS2002)。   The time / frequency conversion unit 202 converts the input signal into a frequency signal that is a frequency domain signal by performing time / frequency conversion processing on the input signal (step S2002).

ここで、時間/周波数変換部202は、所定の時間幅で形成されたサンプル群を単位として時間/周波数変換処理を行う。当該変換処理における周波数分解能は、収音部201から入力する音声信号のサンプリングレートと時間/周波数変換部202のサンプル数によって決定され、以下の式(1)で求めることができる。
一例として、サンプリングレートが32000[Hz]、時間/周波数変換部202のサンプル数が512[Sample]の場合、(式1)に従い、周波数分解能は、31.25[Hz]となる。この場合の周波数変換にかかる時間幅は、
の(式2)で求めることができる。上記の例では、周波数変換時間幅は0.016[Sec]となる。よって雑音信号抑制装置200における時間/周波数変換処理は、512サンプルを単位として、0.016[Sec]周期で繰り返し行われる。
Here, the time / frequency conversion unit 202 performs time / frequency conversion processing in units of samples formed with a predetermined time width. The frequency resolution in the conversion process is determined by the sampling rate of the audio signal input from the sound collection unit 201 and the number of samples of the time / frequency conversion unit 202, and can be obtained by the following equation (1).
As an example, when the sampling rate is 32000 [Hz] and the number of samples of the time / frequency conversion unit 202 is 512 [Sample], the frequency resolution is 31.25 [Hz] according to (Equation 1). The time span required for frequency conversion in this case is
(Equation 2). In the above example, the frequency conversion time width is 0.016 [Sec]. Therefore, the time / frequency conversion process in the noise signal suppression apparatus 200 is repeatedly performed at a cycle of 0.016 [Sec] in units of 512 samples.

次に、ピーク抽出部203は、時間/周波数変換部202で変換された周波数信号の内、周囲の周波数信号に対し高いエネルギーを有するピーク特性を持つピークスペクトルを抽出する(ステップS2003)。   Next, the peak extraction unit 203 extracts a peak spectrum having a peak characteristic having high energy with respect to surrounding frequency signals from the frequency signals converted by the time / frequency conversion unit 202 (step S2003).

具体的には、ピーク抽出部203は、スペクトル全体のエネルギーの平均値を算出し、求めたスペクトル全体の平均値と個々のスペクトルのエネルギーとを比較していく。なお、スペクトル全体の平均エネルギーは周波数変換に係るサンプル数をnとすると、以下の(式3)で求めることができる。
Specifically, the peak extraction unit 203 calculates an average value of the energy of the entire spectrum, and compares the obtained average value of the entire spectrum with the energy of each spectrum. The average energy of the entire spectrum can be obtained by the following (Equation 3), where n is the number of samples related to frequency conversion.

ピーク抽出部203は、注目するスペクトルが周囲のスペクトルのエネルギー(平均的なスペクトルのエネルギー)に対して高いエネルギー比率を有しているか、すなわちピーク特性を備えているかを見ることでスペクトルのピークを抽出することができる。   The peak extraction unit 203 determines the peak of the spectrum by checking whether the spectrum of interest has a high energy ratio to the energy of the surrounding spectrum (average spectrum energy), that is, has a peak characteristic. Can be extracted.

通常、音声信号を伝達するために必要な明瞭度は音声対雑音のエネルギー比(SNR)で少なくとも12dB以上(振幅値で換算すると雑音信号に対し音声信号は4倍以上)が目安とされる。サイレン音のような警告音は周波数領域における集中度は極めて高く(トーン性雑音、つまりサイン波の集まり)、音声符号化過程でその過大な周波数成分により音声信号に必要な符号化情報量を警告音の符号化に費やしてしまう。結果として、音声信号の品質劣化を招く。   In general, the intelligibility necessary to transmit an audio signal is a voice-to-noise energy ratio (SNR) of at least 12 dB or more (when converted to an amplitude value, the audio signal is four times or more the noise signal). Warning sounds such as sirens are extremely concentrated in the frequency domain (tone noise, that is, a collection of sine waves), and the amount of encoded information required for audio signals is warned by excessive frequency components during the audio encoding process. It is spent on the encoding of sound. As a result, the quality of the audio signal is degraded.

通常の音声符号化処理では、音声信号の基本周波数成分が警告音の主要周波数成分のエネルギーを上回れば優先的に音声信号へと情報が割り当てられ、反対に音声信号の基本周波数成分が警告音の主要周波数成分のエネルギーを下回れば、トーン性の高い警告音を音声成分とみなし、優先的に警告音へと情報が割り当てられる傾向がある。   In normal speech coding processing, if the fundamental frequency component of the audio signal exceeds the energy of the main frequency component of the warning sound, information is preferentially assigned to the audio signal, and conversely, the basic frequency component of the audio signal is the warning sound. If the energy is lower than the energy of the main frequency component, a warning tone having high tone characteristics is regarded as a voice component, and information tends to be preferentially assigned to the warning tone.

この特性から、上記の必要なSNRである12dBを基準とし、警告音としてエネルギー成分が過大であるかを判定する指標は、平均エネルギーに対し12dB以上エネルギーが高いスペクトルをピークスペクトルとして抽出することが好ましい。   Based on this characteristic, an index for determining whether the energy component is excessive as a warning sound based on the above required SNR of 12 dB is that a spectrum having a higher energy than the average energy by 12 dB or more is extracted as a peak spectrum. preferable.

また、本例では全スペクトルの平均エネルギーを比較対象としたが、周囲雑音の様々な周波数分布も鑑みる場合は、全周波数帯域を細分化した所定の帯域幅による帯域分割後の平均エネルギーを用いて判定しても良い。   In this example, the average energy of the entire spectrum is used as a comparison target. However, when considering various frequency distributions of the ambient noise, the average energy after band division by a predetermined bandwidth obtained by subdividing the entire frequency band is used. You may judge.

上記ステップS2003におけるピーク抽出処理について、図5を参照して詳しく説明する。図5は、ピーク抽出部203におけるピーク抽出処理の流れを示すフローチャート図である。   The peak extraction process in step S2003 will be described in detail with reference to FIG. FIG. 5 is a flowchart showing the flow of peak extraction processing in the peak extraction unit 203.

ピーク抽出部203は、入力されたスペクトル信号の全体平均値を算出する(ステップS3001)。次に、ピーク抽出部203は、ステップS3001で計算したスペクトル信号の全体平均値に上記SNRの基準である+12dBを加算した値を超えるスペクトルであるかを個々のスペクトルを1つずつ比較する(ステップS3002)。比較の結果、スペクトル全体平均値に+12dB加算した値より、比較したスペクトル信号の値が強い場合はステップS3003へ進み、それ以外の場合にはステップS3004へ進む。   The peak extraction unit 203 calculates the overall average value of the input spectrum signal (step S3001). Next, the peak extraction unit 203 compares each spectrum one by one to determine whether the spectrum exceeds a value obtained by adding +12 dB, which is the SNR criterion, to the overall average value of the spectrum signal calculated in step S3001 (step S3001). S3002). As a result of the comparison, if the value of the compared spectrum signal is stronger than the value obtained by adding +12 dB to the average value of the entire spectrum, the process proceeds to step S3003. Otherwise, the process proceeds to step S3004.

ピーク抽出部203は、ステップS3002における比較の結果、スペクトル全体平均値に+12dB加算した値より大きいと判定された個々のスペクトルを参照用ピークスペクトルとして記録する(ステップS3003)。   As a result of the comparison in step S3002, the peak extraction unit 203 records each spectrum determined to be larger than the value obtained by adding +12 dB to the entire spectrum average value as a reference peak spectrum (step S3003).

ピーク抽出部203は、個々のスペクトルの比較処理において全てのスペクトルを比較した場合にはステップS3005へ進み、全てのスペクトルの比較をしていない場合には次のスペクトルを比較するためステップS3002へ進む(ステップS3004)。   The peak extraction unit 203 proceeds to step S3005 when all the spectra are compared in the individual spectrum comparison process, and proceeds to step S3002 to compare the next spectrum when not comparing all the spectra. (Step S3004).

次に、ピーク抽出部203は、ステップS3003で仮抽出した参照用ピークスペクトルの中からエネルギー量の高い上位のピークスペクトルを所定数抽出し、それらをピークスペクトルとする(ステップS3005)。   Next, the peak extraction unit 203 extracts a predetermined number of higher-order peak spectra having a high energy amount from the reference peak spectrum provisionally extracted in step S3003, and sets these as peak spectra (step S3005).

後述するように、ピークスペクトルの登録処理では、ピークの周波数間隔が400Hz以上のものを最終的にピークとして登録をしている。音声信号をデジタル信号に変換し、その周波数範囲を一般的な100〜3500Hzとして扱う場合、400Hz以上の倍音構成を持つ信号を抽出するならば、約8ポイント程度となる。よって、抽出するべきピークの数はこの程度でよい。複数の混合音、また音声信号の混合音の影響を加味して、10〜20本程度のピークスペクトルを抽出すれば十分である。仮抽出した参照用ピークスペクトルの中から必要数のピークスペクトルを選択することで、後続の処理負荷を軽減することができる。   As will be described later, in the peak spectrum registration process, a peak whose frequency interval is 400 Hz or more is finally registered as a peak. When an audio signal is converted into a digital signal and the frequency range is handled as a general 100 to 3500 Hz, if a signal having a harmonic overtone structure of 400 Hz or more is extracted, it becomes about 8 points. Therefore, the number of peaks to be extracted may be this level. It is sufficient to extract about 10 to 20 peak spectra in consideration of the influence of a plurality of mixed sounds and mixed sound of an audio signal. By selecting the required number of peak spectra from the temporarily extracted reference peak spectra, the subsequent processing load can be reduced.

以上のように、ピーク抽出部203がステップS3001〜ステップS3005の処理フローに従い、周囲の周波数信号に対し高いエネルギーを有するピーク特性を持つピークスペクトルを抽出する。   As described above, the peak extraction unit 203 extracts a peak spectrum having a peak characteristic having high energy with respect to the surrounding frequency signal in accordance with the processing flow of steps S3001 to S3005.

続いて、図4のフローに戻り、ピーク独立性判定処理の説明を行う。まず、ピーク独立性判定部204は、ピーク抽出部203におけるピーク抽出処理に従い、全周波数スペクトルの中からピーク特性を持つピークスペクトルが抽出されたかを判定する(ステップS2004)。ピーク抽出部203においてピークスペクトルが抽出されていない場合は、警告音等の特殊性雑音が存在しないか、又は存在してもエネルギー成分が十分低いものとして、後述の雑音信号抑制部206における雑音抑制処理は行われず、ステップS2012へ進む。   Subsequently, returning to the flow of FIG. 4, the peak independence determination process will be described. First, the peak independence determination unit 204 determines whether a peak spectrum having peak characteristics is extracted from all frequency spectra in accordance with the peak extraction process in the peak extraction unit 203 (step S2004). When the peak spectrum is not extracted by the peak extraction unit 203, it is assumed that there is no special noise such as a warning sound or the energy component is sufficiently low even if it exists, and noise suppression in the noise signal suppression unit 206 described later is performed. Processing is not performed, and the process proceeds to step S2012.

一方、ステップS2004における判定の結果、ピークスペクトルが抽出されていると判定した場合は、ピーク独立性判定部204は、当該抽出されているピークスペクトルが警告音等の特殊性雑音であるかの判定処理に移行する。抽出されたピークスペクトルの中には、音声信号が混入している可能性があるため、直ちに抽出されたピークスペクトルをもって特殊性雑音であると決定することができないためである。   On the other hand, if it is determined as a result of the determination in step S2004 that the peak spectrum has been extracted, the peak independence determination unit 204 determines whether the extracted peak spectrum is special noise such as a warning sound. Transition to processing. This is because there is a possibility that a voice signal is mixed in the extracted peak spectrum, and therefore it cannot be determined that the extracted peak spectrum is special noise immediately.

そこで、音声の特徴である倍音成分が密度高く分布している状態に着目し、ピーク独立性判定部204は、ピーク独立性判定を行うことで、抽出されたピークスペクトルが、音声信号によるピークスペクトルであるか、特殊性雑音であるかを判定する(ステップS2005)。すなわち、ピーク独立性判定部204は、ピーク信号自身の独立性、言い換えると他の抽出されたピーク信号との周波数の距離に基づいて音声信号と特殊性雑音との分離を試みる。   Therefore, paying attention to the state where the harmonic component that is a feature of the voice is distributed with high density, the peak independence determination unit 204 performs the peak independence determination so that the extracted peak spectrum becomes the peak spectrum by the voice signal. Or special noise is determined (step S2005). That is, the peak independence determination unit 204 attempts to separate the speech signal from the special noise based on the independence of the peak signal itself, in other words, based on the frequency distance from the other extracted peak signals.

ここで、サイレン音のような警告音、レーシングカーのような甲高いエンジン音も、基本周波数を基にした倍音成分が重なり合って形成されている点では、音声と共通の特徴を有する。ただし、上記警告音等の特殊性雑音と人間の音声との大きな違いはその基本周波数の高さにある。音声はおおよそ100〜400Hzに基本周波数が存在するのに対し、上記特殊性雑音はその多くは400Hz以上(エンジン音で低域成分が強いものは除く)である。   Here, a warning sound such as a siren sound and a high-pitched engine sound such as a racing car also have the same characteristics as the sound in that they are formed by overlapping harmonic components based on the fundamental frequency. However, the major difference between the special noise such as the warning sound and the human voice is the height of the fundamental frequency. While voice has a fundamental frequency of approximately 100 to 400 Hz, most of the above-mentioned special noise is 400 Hz or more (except for engine sounds that have strong low frequency components).

このような特徴を鑑み、ピーク独立性判定部204は、例えば、ステップS2005において、基準となる周波数間隔を400Hzに設定し、検出されたピークスペクトル同士の周波数の距離が400Hz以上であるかを判定する。   In view of such characteristics, for example, in step S2005, the peak independence determination unit 204 sets the reference frequency interval to 400 Hz and determines whether the frequency distance between detected peak spectra is 400 Hz or more. To do.

ここで、最小単位で400Hzの帯域幅内に他のピークスペクトルを検出するには、400Hzの帯域幅の両側をピーク(山)とすると、中間の200Hz付近にピーク(山)、そしてその両側(山と山の間)に低い音圧レベル(谷)が観察できるような周波数分解能が必要である。よってピークスペクトルの距離が400Hz以上であるかを正確に観察するためには、時間/周波数変換部202が、最低1個分の他のピーク(山)が観察できる100Hzの周波数分解能を有することが好ましい。   Here, in order to detect another peak spectrum within the bandwidth of 400 Hz in the minimum unit, if both sides of the bandwidth of 400 Hz are peaks (crests), the peak (crest) is around 200 Hz in the middle, and both sides ( A frequency resolution is required so that a low sound pressure level (valley) can be observed between the mountains. Therefore, in order to accurately observe whether the distance of the peak spectrum is 400 Hz or more, the time / frequency conversion unit 202 has a frequency resolution of 100 Hz at which at least one other peak (mountain) can be observed. preferable.

ピーク独立性判定部204は、隣接するピークスペクトルの周波数間隔が400Hz未満であれば音声のスペクトル信号であるとみなし、400Hz以上であれば特殊性雑音信号のスペクトルとみなす。   The peak independence determination unit 204 considers a spectrum signal of speech if the frequency interval between adjacent peak spectra is less than 400 Hz, and regards it as a spectrum of a special noise signal if it is 400 Hz or more.

ピークスペクトル決定部205は、ピーク独立性判定部204が行うステップS2005の判定の結果、周波数間隔が400Hz以上離れていると判定されたピークスペクトルを登録する(ステップS2006)。一方、ピークスペクトル決定部205は、ステップS2005の判定の結果、周波数間隔が400Hz未満であると判定されたピークスペクトルを排除する(ステップS2007)。   The peak spectrum determination unit 205 registers the peak spectrum determined to have a frequency interval of 400 Hz or more as a result of the determination in step S2005 performed by the peak independence determination unit 204 (step S2006). On the other hand, the peak spectrum determination unit 205 excludes the peak spectrum determined as the frequency interval is less than 400 Hz as a result of the determination in step S2005 (step S2007).

なお、音声と特殊性雑音信号が同時に入力された場合は、特殊性雑音信号の低域部分のスペクトルが音声信号の分布と重なりあう。従って、上記ピークの独立性に基づいて音声と特殊性雑音とを分離する方法では、ピーク独立性判定の結果、低域部分の特殊性雑音成分が音声と共に排除されることになり、完全な特殊性雑音の分離はできない。しかしながら、特殊性雑音信号の中高域のピークスペクトルを抑制できれば、上記のように音声符号化時に音声信号の品質劣化へ与える影響を緩和することができる。   Note that when the voice and the special noise signal are input simultaneously, the spectrum of the low frequency part of the special noise signal overlaps with the distribution of the voice signal. Therefore, in the method of separating speech and special noise based on the above independence of peaks, as a result of the peak independence determination, the special noise component in the low frequency part is excluded together with the speech, and the complete special Sexual noise cannot be separated. However, if the peak spectrum in the middle and high range of the special noise signal can be suppressed, the influence on the quality degradation of the speech signal during speech coding can be reduced as described above.

このように、ステップS2005において、ピーク独立性判定部204は、隣り合うピークスペクトルの間隔が、予め設定されている所定の周波数間隔(ここでは400Hz)以上離れているか否かを判定する。当該判定の結果、ピークスペクトルの周波数間隔が400Hz以上離れている場合は、近隣に他のピークスペクトルが存在しないため「独立性あり」となる。そこで、ピークスペクトル決定部205は、ステップS2006において該当するスペクトル情報を正式なピークスペクトルとして登録する。その逆に、スペクトルの周波数間隔が400Hz未満である場合は、近隣に他のピークスペクトルが存在するため「独立性なし」となる。この場合、ピークスペクトル決定部205は、ステップS2007において該当するスペクトル情報を特殊性ノイズのスペクトル候補から除外する。   As described above, in step S2005, the peak independence determination unit 204 determines whether or not the interval between adjacent peak spectra is greater than or equal to a predetermined frequency interval (400 Hz in this case) set in advance. As a result of the determination, when the frequency interval of the peak spectrum is 400 Hz or more, there is no other peak spectrum in the vicinity, and “independence” is obtained. Therefore, the peak spectrum determination unit 205 registers the corresponding spectrum information as an official peak spectrum in step S2006. On the contrary, when the frequency interval of the spectrum is less than 400 Hz, since there is another peak spectrum in the vicinity, it becomes “no independence”. In this case, the peak spectrum determination unit 205 excludes the corresponding spectrum information from the spectrum candidates for the special noise in step S2007.

ピーク独立性判定部204は、全てのピークスペクトルについて独立性有無の判断処理が終了したか否かを判定する(ステップS2008)。当該判定の結果、処理途中であれば次のピークスペクトルの判定のためステップS2005へ戻る。一方、全てのピークスペクトルについて処理が終了していれば、ステップS2009の登録されたピークスペクトルがあるか否かの判定へ進む。   The peak independence determining unit 204 determines whether or not the independence presence / absence determination processing has been completed for all peak spectra (step S2008). If it is determined that the process is in progress, the process returns to step S2005 to determine the next peak spectrum. On the other hand, if the processing has been completed for all peak spectra, the process proceeds to step S2009 to determine whether there is a registered peak spectrum.

ピークスペクトル決定部205は、全ピーク判定が終了した段階で、ステップS2006において独立性の有するピークスペクトルが登録されているかを判定する(ステップS2009)。当該判定の結果、独立性の有するピークスペクトルが登録されていない場合は、ピークスペクトル決定部205は、ステップS2004で抽出されたピークスペクトルはすべて音声に係るピークスペクトルであり、特殊性雑音信号は存在しないものとみなしてステップS2012へ進む。   The peak spectrum determination unit 205 determines whether or not a peak spectrum having independence is registered in step S2006 when all peak determinations are completed (step S2009). As a result of the determination, if an independent peak spectrum is not registered, the peak spectrum determination unit 205 determines that the peak spectrum extracted in step S2004 is a peak spectrum related to speech and that there is a special noise signal. It is assumed that no, and the process proceeds to step S2012.

一方、独立性の有するピークスペクトルが登録されている場合は、ピークスペクトル決定部205は、当該ピークスペクトルに関する情報を雑音信号抑制部206に送る(ステップS2010)。   On the other hand, when an independent peak spectrum is registered, the peak spectrum determination unit 205 sends information related to the peak spectrum to the noise signal suppression unit 206 (step S2010).

雑音信号抑制部206は、時間/周波数変換部202で既に抽出してあるピークスペクトルに対し、特殊性雑音信号として抑制すべきピークスペクトルに関する情報を用いて雑音抑制処理を行う(ステップS2011)。当該雑音抑制処理は、従来のノイズ低減処理と同様に所定のレベル低減量を与える。雑音信号抑制部206が行う抑制処理における抑制量は、前段で検出した周波数変換処理単位における平均スペクトルエネルギーとピークスペクトルとの差分でも良いし、ピークスペクトルして抽出するための基準であった12dBを超える抑制量でも良い。   The noise signal suppression unit 206 performs noise suppression processing on the peak spectrum that has already been extracted by the time / frequency conversion unit 202 using information on the peak spectrum that should be suppressed as a special noise signal (step S2011). The noise suppression process gives a predetermined level reduction amount as in the conventional noise reduction process. The amount of suppression in the suppression processing performed by the noise signal suppression unit 206 may be the difference between the average spectral energy and the peak spectrum in the frequency conversion processing unit detected in the previous stage, or 12 dB that was the reference for extracting the peak spectrum. The amount of suppression exceeding may be sufficient.

周波数/時間変換部207は、ピークスペクトルに対し抑制処理が行われた周波数信号に対して、再び周波数/時間変換を行い、時間領域の音声出力信号を取得して出力部208へ出力する(ステップS2012)。   The frequency / time conversion unit 207 performs frequency / time conversion again on the frequency signal that has been subjected to the suppression processing on the peak spectrum, acquires a time-domain audio output signal, and outputs the signal to the output unit 208 (step). S2012).

なお、ピークスペクトルが検出されていない場合は、ピークスペクトル決定部205よりピークスペクトル情報が雑音信号抑制部206に伝えられない。この場合は、雑音信号抑制部206は、雑音抑制処理を行うことなく時間/周波数変換部202から入力する周波数信号をそのまま周波数/時間変換部207へ送ることになる。   When the peak spectrum is not detected, the peak spectrum information is not transmitted from the peak spectrum determining unit 205 to the noise signal suppressing unit 206. In this case, the noise signal suppression unit 206 sends the frequency signal input from the time / frequency conversion unit 202 to the frequency / time conversion unit 207 without performing noise suppression processing.

次に、ピーク抽出部203、ピーク独立性判定部204、及びピークスペクトル決定部205の機能について更に詳しく説明する。   Next, the functions of the peak extraction unit 203, peak independence determination unit 204, and peak spectrum determination unit 205 will be described in more detail.

図6は、周囲の雑音レベルが低く音圧レベルが高いサイレン音が収音部201で収音された場合の時間/周波数変換後の周波数分布図である。横軸は0〜4kHzの範囲の周波数を示し、縦軸は音圧レベルを示している。   FIG. 6 is a frequency distribution diagram after time / frequency conversion when a siren sound with a low ambient noise level and a high sound pressure level is collected by the sound collection unit 201. The horizontal axis indicates the frequency in the range of 0 to 4 kHz, and the vertical axis indicates the sound pressure level.

この例では最も高い音圧レベルを有するスペクトルは100dBを超え、平均的な音圧レベルより12dB以上のピークを持つピークスペクトルが3本(○印)検出される。当該検出されたピークスペクトルをP1、P2、P3と呼ぶことにする。ピーク抽出部203によって当該P1〜P3のピークスペクトルが抽出される。また、P1〜P3のピークスペクトル同士は400Hz以上の周波数間隔を保持しているため、独立性が保たれている。従って、ピーク独立性判定部204は、P1〜P3のピークスペクトルは独立していると判定する。従って、ピークスペクトル決定部205は、P1〜P3のピークスペクトルは特殊性雑音によるものとみなし、当該ピークスペクトルに関する情報が雑音信号抑制部206に送られる。従って、雑音信号抑制部206において、P1〜P3の3か所のピークスペクトルに対して抑制処理が行われる。   In this example, the spectrum having the highest sound pressure level exceeds 100 dB, and three peak spectra (circles) having a peak of 12 dB or more from the average sound pressure level are detected. The detected peak spectra will be referred to as P1, P2, and P3. The peak extraction unit 203 extracts the peak spectra of the P1 to P3. Moreover, since the peak spectra of P1 to P3 maintain a frequency interval of 400 Hz or more, independence is maintained. Therefore, the peak independence determination unit 204 determines that the peak spectra of P1 to P3 are independent. Therefore, the peak spectrum determination unit 205 regards the peak spectra of P1 to P3 as being due to special noise, and sends information related to the peak spectrum to the noise signal suppression unit 206. Accordingly, the noise signal suppression unit 206 performs suppression processing on the three peak spectra P1 to P3.

一方、図7は周囲の雑音レベルは低いものの音圧レベルが高いサイレン音と、同時に発せられた音声信号とが収音部201で収音された場合の時間/周波数変換後の周波数分布図である。図6で観察できるサイレン音に加え、音声のスペクトルが観察でき、サイレン音の最低域のスペクトルと重なり合っているのがわかる。検出されたピークは同様に○印で示す。図7のように、この場合は、ピーク抽出部203によって当該Q1〜Q7の7本のピークスペクトルが抽出される。ここで、低域側のピークスペクトルであるQ1〜Q6は、お互い400Hz以上の周波数間隔を有しておらず独立性が保たれていない。従って、ピークスペクトル決定部205にてQ1〜Q6のピークは除外され、Q7のピークのみピークスペクトルとして登録される。ピークスペクトル決定部205は、当該Q7をピークスペクトルは特殊性雑音によるものとみなし、当該ピークスペクトルに関する情報が雑音信号抑制部206に送られる。従って、雑音信号抑制部206において、一番高域側に独立して存在しているQ7の1か所のピークスペクトルに対して抑制処理が行われる。一方、Q1〜Q6は、音声によるピークスペクトルであるとして抑制処理が行われることは無い。   On the other hand, FIG. 7 is a frequency distribution diagram after time / frequency conversion in the case where a siren sound having a low ambient noise level but a high sound pressure level and a sound signal emitted simultaneously are collected by the sound collection unit 201. is there. In addition to the siren sound that can be observed in FIG. 6, the spectrum of the voice can be observed, and it can be seen that it overlaps with the spectrum of the lowest range of the siren sound. The detected peak is similarly indicated by a circle. As shown in FIG. 7, in this case, the peak extraction unit 203 extracts the seven peak spectra Q1 to Q7. Here, Q1 to Q6, which are peak spectra on the low band side, do not have a frequency interval of 400 Hz or more and are not kept independent. Therefore, the peak spectrum determination unit 205 excludes the peaks of Q1 to Q6, and only the peak of Q7 is registered as the peak spectrum. The peak spectrum determination unit 205 regards Q7 as the peak spectrum due to special noise, and sends information related to the peak spectrum to the noise signal suppression unit 206. Therefore, the noise signal suppression unit 206 performs suppression processing on one peak spectrum of Q7 that exists independently on the highest frequency side. On the other hand, Q1 to Q6 are not subjected to suppression processing because they are peak spectra due to voice.

実際は、Q1〜Q6の中には、サイレン音によるピークスペクトルが混在しているが、当該低周波数範囲のサイレン音ピークスペクトルは除外しない。当該構成でも、Q7のピークスペクトルを抑制できるため、短時間でかつ少ない処理量で、音声改善効果を実現することができるためである。   Actually, the peak spectrum due to the siren sound is mixed in Q1 to Q6, but the siren sound peak spectrum in the low frequency range is not excluded. This is because the Q7 peak spectrum can be suppressed even in this configuration, and the voice improvement effect can be realized in a short time and with a small amount of processing.

なお、上記説明した本実施の形態1に係る雑音信号抑制装置では、特殊性雑音信号の抑制処理についてのみ説明したが、従来の周波数差し引き法に代表されるような周波数領域上における雑音信号抑制処理を合せて行っても良い。また、本実施の形態1の特殊性雑音信号の抑制処理技術を、従来の周波数差し引き法に代表されるような周波数領域上における装置へ追加で導入することも可能である。この組み合わせにより、従来の雑音信号抑制効果を加えた特殊性雑音信号抑制装置が実現でき、サイレン音のような警告音と共に周囲雑音をも軽減可能な雑音抑制装置を提供できる。   In the noise signal suppression apparatus according to the first embodiment described above, only the suppression process of the special noise signal has been described. However, the noise signal suppression process on the frequency domain represented by the conventional frequency subtraction method. You may also go together. In addition, the special noise signal suppression processing technique of the first embodiment can be additionally introduced into a device on a frequency domain represented by a conventional frequency subtraction method. By this combination, it is possible to realize a special noise signal suppression device with a conventional noise signal suppression effect, and to provide a noise suppression device that can reduce ambient noise as well as warning sounds such as siren sounds.

なお、上述した具体的に示した数値は本発明の効果が得られる最適な数値であるが、音圧レベルは周囲の雑音環境、周波数分解能(分解能が低い場合は周囲の周波数成分と平均化され低下傾向にある)に応じて最適値も変化する。従って、本発明は上述した具体的数値に限定されるものではない。例えば、ピーク独立性判定部204は、400Hzを独立性判定の基準とするのではなく、300Hzや500Hzを基準値として採用しても良い。   Note that the numerical values specifically shown above are optimum values for obtaining the effects of the present invention, but the sound pressure level is averaged with the surrounding noise environment and frequency resolution (if the resolution is low, the surrounding frequency components are averaged). The optimum value also changes according to the tendency to decrease. Therefore, the present invention is not limited to the specific numerical values described above. For example, the peak independence determination unit 204 may adopt 300 Hz or 500 Hz as a reference value instead of using 400 Hz as a reference for independence determination.

また、特殊信号検出装置100及び雑音信号抑制装置200において、収音部101で収音された音声信号の音圧レベルを測定する音圧レベル測定手段を更に備えていても良い。音圧レベル測定手段において測定された音圧レベルが所定の基準値を超えている場合に、特殊信号検出処理や特殊性雑音抑制処理を行っても良い。   The special signal detection device 100 and the noise signal suppression device 200 may further include sound pressure level measurement means for measuring the sound pressure level of the sound signal collected by the sound collection unit 101. When the sound pressure level measured by the sound pressure level measuring means exceeds a predetermined reference value, special signal detection processing or special noise suppression processing may be performed.

また、上記説明では雑音信号抑制部206は、時間/周波数変換部202で変換された周波数信号から独立ピークスペクトル抽出部290で抽出される独立性を有するピークスペクトルを雑音信号として抑制する場合について説明したがこれに限定されるものではない。雑音信号抑制部206は、収音部201で収音された時間領域の音声信号から、当該抽出される独立性を有するピークスペクトルを周波数/時間変換部207によって時間領域の信号に変換したものを差し引くことで雑音抑制を行っても良い。   Further, in the above description, the noise signal suppression unit 206 describes a case where the peak spectrum having independence extracted by the independent peak spectrum extraction unit 290 from the frequency signal converted by the time / frequency conversion unit 202 is suppressed as a noise signal. However, it is not limited to this. The noise signal suppression unit 206 converts the extracted peak spectrum having independence from the time domain audio signal collected by the sound collection unit 201 into a time domain signal by the frequency / time conversion unit 207. Noise suppression may be performed by subtracting.

また、言うまでもなく、上記雑音信号抑制装置200について説明した特殊性雑音の具体的検出方法を図1の特殊信号検出装置100に利用することができる。
(実施の形態2)
Needless to say, the specific noise specific detection method described for the noise signal suppression apparatus 200 can be used in the special signal detection apparatus 100 of FIG.
(Embodiment 2)

実施の形態1の特殊信号検出装置では、独立性のあるピークスペクトルが検出された場合にサイレン音や警報音等の特殊信号として検出している。しかしながら、突発的なパルス雑音が収音部で収音された場合に、当該雑音を特殊信号として検出してしまう。そこで、本実施の形態2に係る特殊信号検出装置は、より適切に特殊信号を検出できることを特徴としている。以下図面を参照して詳細に説明する。但し、実施の形態1で既に説明した部分については、発明の明確化のため一部説明を省略する。   In the special signal detection device of the first embodiment, when an independent peak spectrum is detected, it is detected as a special signal such as a siren sound or an alarm sound. However, when sudden pulse noise is collected by the sound collection unit, the noise is detected as a special signal. Therefore, the special signal detection apparatus according to the second embodiment is characterized in that the special signal can be detected more appropriately. Hereinafter, it will be described in detail with reference to the drawings. However, a part of the description already given in Embodiment 1 is omitted for the sake of clarification.

図8は、本実施の形態2に係る特殊信号検出装置300の構成を示すブロック図である。特殊信号検出装置300は、収音部101と、時間/周波数変換部102と、ピーク抽出部103と、ピーク独立性判定部104と、特殊信号検出部305と、ピークスペクトル決定部306と、持続性判定部307と、を備える。   FIG. 8 is a block diagram showing a configuration of special signal detection apparatus 300 according to the second embodiment. The special signal detection apparatus 300 includes a sound collection unit 101, a time / frequency conversion unit 102, a peak extraction unit 103, a peak independence determination unit 104, a special signal detection unit 305, a peak spectrum determination unit 306, a continuous A sex determination unit 307.

ピークスペクトル決定部306は、ピーク独立性判定部104で独立性を保持していると判定されたピークスペクトルを特殊信号に起因するピークスペクトル候補として決定する。   The peak spectrum determination unit 306 determines the peak spectrum determined to have the independence by the peak independence determination unit 104 as a peak spectrum candidate caused by the special signal.

持続性判定部307は、ピークスペクトル決定部306で特殊信号に起因するピークスペクトル候補として決定されたピークスペクトルの持続性を判定する。すなわち、持続性判定部307は、ピークスペクトル決定部306で特殊信号に起因するピークスペクトル候補として決定されたピークスペクトルが所定の期間立ち続けているかを判定する。   The persistence determination unit 307 determines the persistence of the peak spectrum determined by the peak spectrum determination unit 306 as a peak spectrum candidate caused by the special signal. That is, the sustainability determination unit 307 determines whether or not the peak spectrum determined as the peak spectrum candidate caused by the special signal by the peak spectrum determination unit 306 continues for a predetermined period.

特殊信号検出部305は、持続性判定部307においてピークスペクトルが所定期間持続性を保持している場合に当該ピークスペクトルは特殊信号によるピークスペクトルとみなすことで特殊信号を検出する。   The special signal detection unit 305 detects the special signal by regarding the peak spectrum as a peak spectrum due to the special signal when the persistence determination unit 307 holds the peak spectrum for a predetermined period.

なお、ピーク抽出部103とピーク独立性判定部104とピークスペクトル決定部305とを合せて、独立ピークスペクトル抽出部390と称する。独立ピークスペクトル抽出部390は、周波数変換された周波数信号の中から独立性を有するピークスペクトルを抽出する。   The peak extraction unit 103, the peak independence determination unit 104, and the peak spectrum determination unit 305 are collectively referred to as an independent peak spectrum extraction unit 390. The independent peak spectrum extraction unit 390 extracts a peak spectrum having independence from the frequency signal subjected to frequency conversion.

また、ピーク独立性判定部104及びピークスペクトル決定部305を一纏めにして第2ピーク抽出部350と称することがある。同時にピーク抽出部103を特に第1ピーク抽出部103と称することがある。第2ピーク抽出部350は、第1ピーク抽出部103で抽出されたピークスペクトルの中から隣接するピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する。   Further, the peak independence determination unit 104 and the peak spectrum determination unit 305 may be collectively referred to as a second peak extraction unit 350. At the same time, the peak extraction unit 103 may be particularly referred to as a first peak extraction unit 103. The second peak extraction unit 350 uses, as an independent peak spectrum, a peak spectrum that holds a frequency interval of a predetermined value or more with respect to an adjacent peak spectrum from among the peak spectra extracted by the first peak extraction unit 103. Extract.

次に特殊信号検出装置300の動作について説明する。図9は、特殊信号検出装置300の動作の流れを示すフローチャート図である。但し、ステップS4001〜ステップS4005及びステップS4008〜ステップS4009は、図2で説明したステップS1001〜ステップS1005及びステップS1006〜ステップS1007と略同一であるため説明を省略し、ステップS4006〜ステップS4007について詳しく説明する。   Next, the operation of the special signal detection device 300 will be described. FIG. 9 is a flowchart showing an operation flow of the special signal detection apparatus 300. However, step S4001 to step S4005 and step S4008 to step S4009 are substantially the same as step S1001 to step S1005 and step S1006 to step S1007 described in FIG. To do.

ピークスペクトル決定部306は、ステップS4005で独立性があるピークスペクトルであると判定された場合、当該ピークスペクトルを特殊信号に起因するピークスペクトル候補と決定し、当該ピークスペクトルをメモリに登録する(ステップS4006)。   When it is determined in step S4005 that the peak spectrum determination unit 306 is an independent peak spectrum, the peak spectrum determination unit 306 determines the peak spectrum as a peak spectrum candidate caused by the special signal, and registers the peak spectrum in a memory (step S4005). S4006).

次に、持続性判定部307は、ステップS4006で登録されたピークスペクトルが所定期間以上持続しているかを判定する(ステップS4007)。当該持続性判定の結果、所定期間以上持続している場合、特殊信号検出部305は、当該持続しているピークスペクトルは特殊信号によるものと判断する(ステップS4008)。一方、当該持続性判定の結果、所定期間以上持続していない場合、特殊信号検出部305は、特殊信号は未だ検出されていないものと判断する(ステップS4009)。   Next, the sustainability determination unit 307 determines whether or not the peak spectrum registered in step S4006 continues for a predetermined period or longer (step S4007). As a result of the sustainability determination, if the signal persists for a predetermined period or longer, the special signal detection unit 305 determines that the sustained peak spectrum is due to the special signal (step S4008). On the other hand, if the result of the sustainability determination is that the signal has not been maintained for a predetermined period or longer, the special signal detection unit 305 determines that the special signal has not been detected yet (step S4009).

以上のように、本実施の形態2に係る特殊信号検出装置300は、所定値以上の周波数間隔を保持していると判定されたピークスペクトルが所定期間以上持続しているかを判定した上で、ピークスペクトルが特殊信号によるものかどうかの判断を行い、特殊信号を検出する。従って、突発的な雑音を特殊信号として誤検出することを防ぐことができる。   As described above, the special signal detection device 300 according to the second embodiment determines whether the peak spectrum determined to hold the frequency interval equal to or greater than the predetermined value has continued for a predetermined period or longer. It is determined whether the peak spectrum is due to a special signal, and the special signal is detected. Therefore, erroneous detection of sudden noise as a special signal can be prevented.

次に、上記説明した持続性判定機能を更に備える雑音信号抑制装置について説明する。図10は、本実施の形態2に係る雑音信号抑制装置400の構成を示すブロック図である。   Next, a noise signal suppression device further provided with the above-described persistence determination function will be described. FIG. 10 is a block diagram showing a configuration of noise signal suppression apparatus 400 according to the second embodiment.

雑音信号抑制装置400は、収音部201と、時間/周波数変換部202と、ピーク抽出部203と、ピーク独立性判定部204と、ピークスペクトル決定部205と、雑音信号抑制部206と、周波数/時間変換部207と、出力部208と、持続性判定部409と、動作モード決定部410と、を備える。   The noise signal suppression apparatus 400 includes a sound collection unit 201, a time / frequency conversion unit 202, a peak extraction unit 203, a peak independence determination unit 204, a peak spectrum determination unit 205, a noise signal suppression unit 206, a frequency / Time conversion unit 207, output unit 208, sustainability determination unit 409, and operation mode determination unit 410.

持続性判定部409は、ピークスペクトル決定部205で抽出されたピークスペクトルの持続性を判定する。すなわち、持続性判定部409は、ピークスペクトル決定部205で独立性を有するピークスペクトルとして登録されたピークスペクトルが所定の期間継続的に立ち続けているかを判定する。持続性判定部409は、当該判定結果を動作モード決定部410に出力する。   The persistence determination unit 409 determines the persistence of the peak spectrum extracted by the peak spectrum determination unit 205. That is, the sustainability determination unit 409 determines whether or not the peak spectrum registered as an independent peak spectrum by the peak spectrum determination unit 205 continues for a predetermined period. The sustainability determination unit 409 outputs the determination result to the operation mode determination unit 410.

動作モード決定部410は、持続性判定部409から入力する判定結果に基づいて特殊性雑音の抑制に関する動作モードを決定する。動作モード決定部410は、特殊性雑音の抑制を行う抑制モードと特殊性雑音の抑制を行わない通常モードとの2つの動作モードを有し、持続性判定部409から入力する判定結果に基づいて判定結果を切り替える。雑音信号抑制部206は、当該動作モード決定部410における動作モードに従って特殊性雑音の抑制処理を行うことになる。   The operation mode determination unit 410 determines an operation mode related to suppression of special noise based on the determination result input from the persistence determination unit 409. The operation mode determination unit 410 has two operation modes, a suppression mode that suppresses special noise and a normal mode that does not suppress special noise, and is based on a determination result input from the persistence determination unit 409. Switch judgment results. The noise signal suppression unit 206 performs the special noise suppression process according to the operation mode in the operation mode determination unit 410.

なお、ピーク抽出部203とピーク独立性判定部204とピークスペクトル決定部205とを合せて、独立ピークスペクトル抽出部490と称する。独立ピークスペクトル抽出部490は、周波数変換された周波数信号の中から独立性を有するピークスペクトルを抽出する。   The peak extraction unit 203, the peak independence determination unit 204, and the peak spectrum determination unit 205 are collectively referred to as an independent peak spectrum extraction unit 490. The independent peak spectrum extraction unit 490 extracts a peak spectrum having independence from the frequency signal subjected to frequency conversion.

また、ピーク独立性判定部204及びピークスペクトル決定部205を一纏めにして第2ピーク抽出部450と称することがある。同時にピーク抽出部203を特に第1ピーク抽出部203と称することがある。第2ピーク抽出部450は、第1ピーク抽出部203で抽出されたピークスペクトルの中から隣接するピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する。   In addition, the peak independence determination unit 204 and the peak spectrum determination unit 205 may be collectively referred to as a second peak extraction unit 450. At the same time, the peak extraction unit 203 may be particularly referred to as a first peak extraction unit 203. The second peak extraction unit 450 uses, as an independent peak spectrum, a peak spectrum that maintains a frequency interval of a predetermined value or more with respect to an adjacent peak spectrum from among the peak spectra extracted by the first peak extraction unit 203. Extract.

次に、雑音信号抑制装置400の動作について説明する。図11は、雑音信号抑制装置400の動作の流れを示すフローチャートである。なお、ステップS5001〜ステップS5009は、図4のステップS2001〜ステップS2009と略同一であるため説明を省略し、ステップS5010からの処理について詳しく説明する。   Next, the operation of the noise signal suppression device 400 will be described. FIG. 11 is a flowchart showing an operation flow of the noise signal suppression device 400. Note that steps S5001 to S5009 are substantially the same as steps S2001 to S2009 in FIG. 4, and thus description thereof is omitted, and the processing from step S5010 will be described in detail.

ピークスペクトル決定部205は、ピーク独立性判定部204で独立していると判定されたピークスペクトルを持続性観測用のピークスペクトルとして登録する(ステップS5010)。   The peak spectrum determination unit 205 registers the peak spectrum determined to be independent by the peak independence determination unit 204 as a peak spectrum for continuous observation (step S5010).

次に、持続性判定部409は、ステップS5010で登録されたピークスペクトルについて所定の期間以上持続しているかを判定する(ステップS5011)。ステップS5011の判定結果は、動作モード決定部410に送られる。   Next, the sustainability determination unit 409 determines whether or not the peak spectrum registered in step S5010 continues for a predetermined period or longer (step S5011). The determination result of step S5011 is sent to the operation mode determination unit 410.

動作モード決定部410は、ステップS5011の判定結果、観測用ピークスペクトルが所定の期間以上持続していない場合は、動作モードを特殊性雑音の抑制を行わない通常モードに設定する(ステップS5012)。一方、ステップS5011の判定結果、観測用ピークスペクトルが所定の期間以上持続している場合は、動作モード決定部410は、動作モードを特殊性雑音の抑制を行う抑制モードに移行する(ステップS5013)。
動作モード決定部410は、抑制モードの場合は、ステップS5006で登録された独立性を有するピークスペクトルに関する情報を雑音信号抑制部206に送る(ステップS5014)。
The operation mode determination unit 410 sets the operation mode to the normal mode in which the special noise is not suppressed (step S5012) when the observation peak spectrum does not continue for a predetermined period or longer as a result of the determination in step S5011. On the other hand, if the result of determination in step S5011 is that the observation peak spectrum has continued for a predetermined period or longer, the operation mode determination unit 410 shifts the operation mode to a suppression mode in which special noise is suppressed (step S5013). .
In the suppression mode, the operation mode determination unit 410 sends information on the peak spectrum having independence registered in step S5006 to the noise signal suppression unit 206 (step S5014).

雑音信号抑制部206は、時間/周波数変換部202で既に抽出してあるピークスペクトルに対し、動作モード決定部410より送られてくる特殊性雑音信号として抑制すべきピークスペクトルに関する情報を用いて雑音抑制処理を行う(ステップS5015)。   The noise signal suppression unit 206 uses the information regarding the peak spectrum to be suppressed as the special noise signal sent from the operation mode determination unit 410 with respect to the peak spectrum that has already been extracted by the time / frequency conversion unit 202. A suppression process is performed (step S5015).

抑制モードに従って雑音抑制処理が行われた周波数信号又は通常モードに従い雑音抑制処理が行われなかった周波数信号は、周波数/時間変換部207で時間領域の音声信号に再変換される(ステップS5016)。   The frequency signal that has been subjected to noise suppression processing according to the suppression mode or the frequency signal that has not been subjected to noise suppression processing according to the normal mode is reconverted into a time domain audio signal by the frequency / time conversion unit 207 (step S5016).

図12は、人間の音声とサイレン音とが同時に収音された場合における(a)入力信号の振幅レベルの時間波形図と、(b)入力信号のスペクトログラム波形とを並べて示している。図12(b)において、縦軸が周波数で、濃淡がスペクトルの強さを示し、横軸は時間推移を示している。   FIG. 12 shows (a) a time waveform diagram of the amplitude level of the input signal and (b) a spectrogram waveform of the input signal side by side when human voice and siren sound are simultaneously picked up. In FIG. 12B, the vertical axis represents the frequency, the shading represents the intensity of the spectrum, and the horizontal axis represents the time transition.

図12(b)から分かるように時間t0〜t9の区間において倍音構造を有するサイレン音が観測される。また、t1〜t4、t5〜t8の区間において音声が観測される。図12において点線楕円で囲まれた部分は、ピーク独立性判定部204で独立なピークスペクトルとして判定されるピークスペクトル領域を示している。   As can be seen from FIG. 12 (b), a siren sound having a harmonic structure is observed in the interval from time t0 to t9. In addition, speech is observed in the sections t1 to t4 and t5 to t8. In FIG. 12, a portion surrounded by a dotted ellipse indicates a peak spectrum region that is determined as an independent peak spectrum by the peak independence determination unit 204.

図12で示される状態における持続性判定部409の動作と動作モード決定部410の動作について図13を参照して説明する。図13は、ピークスペクトルの持続性と動作モードの切り替わりを説明する図を更に並べて示している。   The operation of the sustainability determination unit 409 and the operation of the operation mode determination unit 410 in the state shown in FIG. 12 will be described with reference to FIG. FIG. 13 further shows a diagram for explaining the persistence of the peak spectrum and the switching of the operation mode.

t0〜t1の区間は、独立したピークスペクトルが持続して観測され続ける。ここで、時刻T1になった時、所定期間以上ピークスペクトルが持続しているとして、持続性判定部409より動作モード決定部410に動作モード切り替え指示が出される。当該動作モード切り替え指示を受け取った動作モード決定部410は、動作モードを通常モードから抑制モードに切り替える。   In the interval from t0 to t1, an independent peak spectrum is continuously observed. Here, when the time T1 is reached, it is assumed that the peak spectrum has continued for a predetermined period or longer, and the operation mode switching instruction is issued from the sustainability determination unit 409 to the operation mode determination unit 410. The operation mode determination unit 410 that has received the operation mode switching instruction switches the operation mode from the normal mode to the suppression mode.

音声が収音されたt1のタイミング以降、ピーク抽出部203でピーク抽出は行われるものの、t2のタイミングまで各ピークスペクトルは独立していないとピーク独立性判定部204において判定される。持続性判定部409は、t1のタイミングでピークスペクトルの持続性が維持されなくなったと判断し、動作モード決定部410に通常モードに戻るよう動作モード切り替え指示を出す。動作モード決定部410は、当該動作モード切り替え指示に基づいて動作モードを抑制モードから通常モードに戻す。   Although the peak extraction unit 203 performs peak extraction after the time t1 when the sound is collected, the peak independence determination unit 204 determines that each peak spectrum is not independent until the timing t2. The sustainability determination unit 409 determines that the sustainability of the peak spectrum is no longer maintained at the timing t1, and issues an operation mode switching instruction to the operation mode determination unit 410 to return to the normal mode. The operation mode determination unit 410 returns the operation mode from the suppression mode to the normal mode based on the operation mode switching instruction.

このような処理により、t2〜t6、t7〜t9の区間は独立したピークスペクトルが抽出され、持続性判定部409において各ピークスペクトルが持続していると判定される。T1のタイミングと同様、閾値を超えるT2とT3のタイミングで持続性判定部409から動作モード決定部410へ動作モードを通常モードから抑制モードへ移行させるための動作モード切り替え指示が出され、通常モードから抑制モードへの移行が行われる。また、t6とt9のタイミングでは、持続性判定部409から動作モード決定部410へ動作モードを抑制モードから通常モードへ移行させるための動作モード切り替え指示が出され、抑制モードから通常モードへの移行が行われる。   Through such processing, independent peak spectra are extracted from t2 to t6 and t7 to t9, and the persistence determination unit 409 determines that each peak spectrum is sustained. Similar to the timing of T1, the operation mode switching instruction for shifting the operation mode from the normal mode to the suppression mode is issued from the sustainability determination unit 409 to the operation mode determination unit 410 at the timings T2 and T3 exceeding the threshold, and the normal mode To the suppression mode. In addition, at the timing of t6 and t9, an operation mode switching instruction for shifting the operation mode from the suppression mode to the normal mode is issued from the sustainability determination unit 409 to the operation mode determination unit 410, and the transition from the suppression mode to the normal mode is performed. Is done.

以上のように、本実施の形態2に係る雑音信号抑制装置400は、所定値以上の周波数間隔を保持していると判定されたピークスペクトルが所定期間以上持続しているかを判定した上で、ピークスペクトルが特殊信号によるものかどうかの判断を行う。独立性の有するピークスペクトルが所定期間以上持続している場合に、当該ピークスペクトル成分を抑制する処理を行う。当該構成とすることで、サイレン音等の特殊性雑音ではない突発的な音声を誤って抑制することを防ぐことができる。   As described above, the noise signal suppression apparatus 400 according to the second embodiment determines whether the peak spectrum determined to hold the frequency interval equal to or greater than the predetermined value has continued for a predetermined period or longer. It is determined whether the peak spectrum is due to a special signal. When the peak spectrum having independence continues for a predetermined period or longer, processing for suppressing the peak spectrum component is performed. By adopting such a configuration, it is possible to prevent erroneous voices that are not special noises such as sirens from being suppressed by mistake.

なお、上記説明では、ピークスペクトル決定部205は、ピーク独立性判定部204で所定周波数以上離れていることにより独立していると判定されたピークスペクトルを持続性測定用に用いるピークスペクトルとして登録する場合について説明したがこれに限るものではない。ピークスペクトル決定部205は、ピーク独立性判定部204で複数のピークスペクトルが独立していると判定されている場合は、その中から一部のピークスペクトルを持続性測定用ピークスペクトルとして登録しても良い。   In the above description, the peak spectrum determination unit 205 registers the peak spectrum determined to be independent by being separated by a predetermined frequency or more by the peak independence determination unit 204 as the peak spectrum used for sustainability measurement. Although the case has been described, the present invention is not limited to this. If the peak independence determining unit 204 determines that the plurality of peak spectra are independent, the peak spectrum determining unit 205 registers some of the peak spectra as the peak spectrum for sustainability measurement. Also good.

図14は、独立性を有するとして判定されるピークスペクトルの内、最低周波数を有する1つのピークスペクトルを持続性測定用ピークスペクトルとして持続性判定を行う場合におけるピークスペクトルの持続性と動作モードの切り替わりを説明する図である。   FIG. 14 shows the switching of the peak spectrum persistence and the operation mode when the persistence determination is performed using one peak spectrum having the lowest frequency among the peak spectra determined to have independence as the peak spectrum for sustainability measurement. FIG.

図14(b)において、点線楕円で囲まれた部分のピークスペクトルが持続性測定用ピークスペクトルとしてピークスペクトル決定部205にて抽出される。図14に示す持続性判定では、1つのピークスペクトルに着目するため、図13の場合と比較して動作モードを切り替える閾値、すなわち抑制モードへ切り替わるまでの時間間隔が短めに設定されている。   In FIG. 14B, the peak spectrum of the portion surrounded by the dotted ellipse is extracted by the peak spectrum determining unit 205 as the peak spectrum for sustainability measurement. In the sustainability determination shown in FIG. 14, in order to focus on one peak spectrum, the threshold for switching the operation mode, that is, the time interval until switching to the suppression mode is set shorter than in the case of FIG.

図14(b)、(c)からわかるように、t0〜t1、t2〜t6、t7〜t9の区間では独立性を有するピークスペクトルが検出されている。しかしt3、t4、t5、t8のタイミングにおいて着目するピークスペクトルが変更されるため、持続性判定部409において持続性のカウントがリセットされる。従って、図14の場合において、動作モード決定部410が動作モードを抑制モードにセットし、雑音信号抑制部206で特殊性雑音の抑制処理が行われる区間は、T1〜t1、T2〜t3、T3〜t5、T4〜t6、T5〜t8、T6〜t9の区間となる。   As can be seen from FIGS. 14B and 14C, independent peak spectra are detected in the sections t0 to t1, t2 to t6, and t7 to t9. However, since the peak spectrum of interest is changed at the timings t3, t4, t5, and t8, the sustainability determination unit 409 resets the sustainability count. Accordingly, in the case of FIG. 14, the operation mode determination unit 410 sets the operation mode to the suppression mode, and the noise signal suppression unit 206 performs the special noise suppression processing as T1 to t1, T2 to t3, and T3. ˜t5, T4 to t6, T5 to t8, and T6 to t9.

図14の処理方法によれば、図13の処理方法と比較して特殊性雑音を検出して抑制する区間が短くなってしまう一方で、1つのピークスペクトルに着目して持続性を判断できるため、少ない処理量で特殊性雑音の検出及び抑制処理を行うことができる。   According to the processing method of FIG. 14, the section for detecting and suppressing the peculiar noise is shortened compared to the processing method of FIG. 13, while the sustainability can be determined by focusing on one peak spectrum. Therefore, it is possible to detect and suppress special noise with a small amount of processing.

なお、言うまでもなく、上記雑音信号抑制装置400について説明した中で具体的に使用した検出方法を特殊信号検出装置300に応用できる。   Needless to say, the detection method specifically used in the description of the noise signal suppression device 400 can be applied to the special signal detection device 300.

(実施の形態3)   (Embodiment 3)

上記図13で説明した特殊性雑音抑制方法では、複数のピークスペクトルを対象として持続性判定処理を行うため、装置に対する処理負荷が増大してしまうもののより適切に特殊性雑音の存在を検出して雑音抑制処理を行うことができる。一方、上記図14で説明した特殊性雑音抑制方法では、1つのピークスペクトルに着目して持続性判定を行うため、処理負荷を軽減できる一方で、特殊性雑音信号の抑制処理ができない区間が増えてしまう場合がある。   In the special noise suppression method described in FIG. 13 above, since the sustainability determination process is performed on a plurality of peak spectra, the processing load on the apparatus increases, but the presence of the special noise is detected more appropriately. Noise suppression processing can be performed. On the other hand, in the special noise suppression method described with reference to FIG. 14, since the sustainability determination is performed by focusing on one peak spectrum, the processing load can be reduced, while the number of sections in which the special noise signal suppression process cannot be performed increases. May end up.

そこで、本実施の形態3に係る雑音信号抑制装置では、処理負荷を抑えつつ、適切に特殊性雑音信号の存在を検出して雑音抑制処理を行うことができる装置を提供することを目的としている。以下、図面を参照して詳細に説明する。但し、実施の形態1、2で既に説明した部分については発明の明確化のため一部説明を省略する。   Therefore, the noise signal suppression device according to the third embodiment aims to provide a device that can appropriately detect the presence of a special noise signal and perform noise suppression processing while suppressing processing load. . Hereinafter, it will be described in detail with reference to the drawings. However, the description of the parts already described in the first and second embodiments is omitted for the sake of clarification of the invention.

図15は、本実施の形態3に係る雑音信号抑制装置500の構成を示すブロック図である。雑音信号抑制装置500は、収音部201と、時間/周波数変換部202と、ピーク抽出部203と、ピーク独立性判定部204と、雑音信号抑制部206と、周波数/時間変換部207と、出力部208と、ピークスペクトル決定部505と、持続性判定部509と、動作モード決定部510と、エネルギー算出部511と、を備える。   FIG. 15 is a block diagram showing a configuration of noise signal suppression apparatus 500 according to the third embodiment. The noise signal suppression apparatus 500 includes a sound collection unit 201, a time / frequency conversion unit 202, a peak extraction unit 203, a peak independence determination unit 204, a noise signal suppression unit 206, a frequency / time conversion unit 207, An output unit 208, a peak spectrum determination unit 505, a sustainability determination unit 509, an operation mode determination unit 510, and an energy calculation unit 511 are provided.

エネルギー算出部511は、時間/周波数変換部202より入力する周波数信号について処理単位である複数のサンプルで形成されたサンプル群のエネルギー量(音圧レベル)を算出する。また、エネルギー算出部511は、算出したエネルギー量が所定の基準エネルギー量を超えているかを判定する。当該判定結果は、持続性判定部509に出力される。   The energy calculation unit 511 calculates the amount of energy (sound pressure level) of a sample group formed by a plurality of samples that are processing units for the frequency signal input from the time / frequency conversion unit 202. The energy calculation unit 511 determines whether the calculated energy amount exceeds a predetermined reference energy amount. The determination result is output to the sustainability determination unit 509.

ピークスペクトル決定部505は、ピーク独立性判定部204で独立していると判定された複数のピークスペクトルの中から最低周波数のピークスペクトルを持続性測定用のピークスペクトルとして決定する。ピークスペクトル決定部505は、決定したピークスペクトルを持続性判定部509に送る。   Peak spectrum determining section 505 determines the peak spectrum of the lowest frequency as the peak spectrum for sustainability measurement from among the plurality of peak spectra determined to be independent by peak independence determining section 204. The peak spectrum determination unit 505 sends the determined peak spectrum to the sustainability determination unit 509.

持続性判定部509は、エネルギー算出部511におけるエネルギー算出結果(エネルギー測定結果)や、ピークスペクトル決定部505より送られる測定用ピークスペクトルの持続判定に基づいて、ピークスペクトルが持続しているかの判定を行う。   The sustainability determination unit 509 determines whether the peak spectrum is sustained based on the energy calculation result (energy measurement result) in the energy calculation unit 511 and the determination of the peak spectrum for measurement sent from the peak spectrum determination unit 505. I do.

具体的には、持続性判定部509は、エネルギー算出部511からのエネルギー算出結果や、ピークスペクトル決定部505からの測定用ピークスペクトルの持続判定に基づいて内部カウンタで保持する持続性ポイントという値の増減を行う。ここで、持続性ポイントとは、特殊性雑音成分の抑制処理を行うか行わないかを決める持続性判断に関する設定値である。持続性判定部509が計測・管理する持続性ポイントの値は動作モード決定部510に送られる。   Specifically, the sustainability determination unit 509 is a value called a persistence point that is held by an internal counter based on the energy calculation result from the energy calculation unit 511 and the determination of the peak spectrum for measurement from the peak spectrum determination unit 505. Increase or decrease. Here, the sustainability point is a set value related to the sustainability determination that determines whether or not to perform the process of suppressing the special noise component. The value of the sustainability point measured and managed by the sustainability determination unit 509 is sent to the operation mode determination unit 510.

動作モード決定部510は、持続性判定部509より入力する持続性ポイントの値と基準となるポイント閾値とを比較して特殊信号抑制モードと通常モードとを切り替える。すなわち、動作モード決定部510は、持続性ポイントの値が閾値を上回っている場合は、動作モードを特殊信号抑制モードに設定し、ピーク独立性判定部204で独立したピークスペクトルと判定されて抽出されているピークスペクトルに関する情報を雑音信号抑制部206へ出力する。雑音信号抑制部206は、動作モード決定部510より指定された抑制動作モードに応じ、対象のピークスペクトル信号を入力したピークスペクトルに関する情報に基づいて抑圧する特殊性雑音抑制処理を行う。   The operation mode determination unit 510 switches the special signal suppression mode and the normal mode by comparing the value of the sustain point input from the sustainability determination unit 509 with the reference point threshold value. That is, the operation mode determination unit 510 sets the operation mode to the special signal suppression mode when the value of the persistence point exceeds the threshold value, and the peak independence determination unit 204 determines that the spectrum is an independent peak spectrum and extracts it. Information regarding the peak spectrum being output is output to the noise signal suppression unit 206. The noise signal suppression unit 206 performs a specific noise suppression process that suppresses the target peak spectrum signal based on the information related to the input peak spectrum according to the suppression operation mode specified by the operation mode determination unit 510.

なお、ピーク抽出部203とピーク独立性判定部204とピークスペクトル決定部505とを合せて、独立ピークスペクトル抽出部590と称する。独立ピークスペクトル抽出部590は、周波数変換された周波数信号の中から独立性を有するピークスペクトルを抽出する。   The peak extraction unit 203, the peak independence determination unit 204, and the peak spectrum determination unit 505 are collectively referred to as an independent peak spectrum extraction unit 590. The independent peak spectrum extraction unit 590 extracts a peak spectrum having independence from the frequency signal subjected to frequency conversion.

また、ピーク独立性判定部204及びピークスペクトル決定部505を一纏めにして第2ピーク抽出部550と称することがある。同時にピーク抽出部203を特に第1ピーク抽出部203と称することがある。第2ピーク抽出部550は、第1ピーク抽出部203で抽出されたピークスペクトルの中から隣接するピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する。   Further, the peak independence determining unit 204 and the peak spectrum determining unit 505 may be collectively referred to as a second peak extracting unit 550. At the same time, the peak extraction unit 203 may be particularly referred to as a first peak extraction unit 203. The second peak extraction unit 550 uses, as an independent peak spectrum, a peak spectrum that maintains a frequency interval of a predetermined value or more with respect to an adjacent peak spectrum from among the peak spectra extracted by the first peak extraction unit 203. Extract.

また、持続性判定部509は、独立ピークスペクトル抽出部590で抽出される独立性を有するピークスペクトルが持続する場合に加算され、持続しない場合に減算される設定値を管理する。従って、当該持続性判定部509を設定値管理部509と称することがある。設定値管理部509は、独立ピークスペクトル抽出部590で抽出される独立性を有するピークスペクトルが持続する場合に設定値を加算し、持続しない場合に設定値を減算する。動作モード決定部510は、設定値管理部509で管理される設定値の値が所定の閾値を超えているか超えていないかに基づいて、雑音信号抑制部206が雑音信号を抑制するかしないかを決定する。   Further, the sustainability determination unit 509 manages setting values that are added when the peak spectrum having the independence extracted by the independent peak spectrum extraction unit 590 is continued and are subtracted when the peak spectrum is not sustained. Therefore, the persistence determination unit 509 may be referred to as a set value management unit 509. The set value management unit 509 adds the set value when the independent peak spectrum extracted by the independent peak spectrum extracting unit 590 is sustained, and subtracts the set value when the peak spectrum is not sustained. The operation mode determination unit 510 determines whether or not the noise signal suppression unit 206 suppresses the noise signal based on whether or not the value of the setting value managed by the setting value management unit 509 exceeds a predetermined threshold value. decide.

次に、雑音信号抑制装置500の動作について説明する。図16は、雑音信号抑制装置500の動作の流れを示すフローチャート図である。ここで、ステップS6001〜S6002、S6006〜S6009、S6017〜S6021は、それぞれ図11のステップS5001〜S5002、S5005〜S5008、S5012〜S5014と略同一であるため説明を省略する。   Next, the operation of the noise signal suppression device 500 will be described. FIG. 16 is a flowchart showing an operation flow of the noise signal suppression device 500. Here, steps S6001 to S6002, S6006 to S6009, and S6017 to S6021 are substantially the same as steps S5001 to S5002, S5005 to S5008, and S5012 to S5014 of FIG.

まず、ステップS6003〜S6005について説明する。エネルギー算出部511は、時間/周波数変換部202より入力する周波数信号について処理単位である複数のサンプルで形成されたサンプル群のエネルギー量(音圧レベル)を求め、所定のエネルギー量を超えているかを判定する(ステップS6003)。当該ステップS6003は、目的とする音声符号化過程における音声信号が雑音の影響を受けるかどうかを入力信号のエネルギーから判断するために行われる。当該判定結果は、持続性判定部509に送られ、持続性判定部509は、ステップS6003の判定結果において入力信号のエネルギー量が基準値を下回っている場合は、持続性ポイントにマイナス値を付与する(ステップS6012)。   First, steps S6003 to S6005 will be described. The energy calculation unit 511 obtains an energy amount (sound pressure level) of a sample group formed of a plurality of samples as processing units for the frequency signal input from the time / frequency conversion unit 202, and whether the energy amount exceeds a predetermined energy amount. Is determined (step S6003). Step S6003 is performed in order to determine from the energy of the input signal whether the speech signal in the target speech encoding process is affected by noise. The determination result is sent to the sustainability determination unit 509. The sustainability determination unit 509 gives a negative value to the sustainability point when the energy amount of the input signal is lower than the reference value in the determination result of step S6003. (Step S6012).

入力信号に含まれる特殊性雑音、すなわち警告音等の雑音信号は、音圧レベルが低い場合は音声符号化時の音声信号に与える影響は軽微であり、十分な音声品質が保たれる。よって、過大な警告音が存在する場合に限り抑制処理を行えば良い。本実施の形態では、エネルギー算出部511は、入力信号の音圧レベルが80dB以上であるかを判定する。80dB以上であれば、特殊性雑音信号の抑制処理(結果的に処理しない場合もある)を行い、80dB未満であれば、特殊性雑音成分の抑制処理を行うか行わないかを決める持続性判断に関する設定値に対しマイナスの値を付与する。なお、エネルギー算出部511が行うエネルギー量の算出は周波数変換前でも後でも良い。ここで、基準値として設定される音圧レベル80dBとは電車の高架下や工場の騒音などに相当し、音声符号化時に雑音抑制処理が必要なレベルである。   Special noise included in the input signal, that is, a noise signal such as a warning sound, has a small influence on the voice signal at the time of voice coding when the sound pressure level is low, and sufficient voice quality is maintained. Therefore, the suppression process may be performed only when there is an excessive warning sound. In the present embodiment, the energy calculation unit 511 determines whether the sound pressure level of the input signal is 80 dB or more. If it is 80 dB or more, a special noise signal suppression process (which may not be processed as a result) is performed, and if it is less than 80 dB, it is determined whether or not a special noise component suppression process is performed. A negative value is assigned to the setting value for. The energy amount calculation performed by the energy calculation unit 511 may be performed before or after frequency conversion. Here, the sound pressure level 80 dB set as the reference value corresponds to noise under an overpass of a train or factory, and is a level that requires noise suppression processing at the time of speech coding.

次に、ピーク抽出部203は、入力した周波数信号の中からピーク特性を有するピークを抽出する(ステップS6004)。具体的な抽出方法は、既に説明済みであるため説明を省略する。   Next, the peak extraction unit 203 extracts a peak having peak characteristics from the input frequency signal (step S6004). Since a specific extraction method has already been described, description thereof will be omitted.

ピーク独立性判定部204は、ピーク抽出部203でピークスペクトルが抽出されているかを判定し、判定結果を持続性判定部509へ送る(ステップS6005)。ピーク独立性判定部204における判定の結果、ピークとなるスペクトルが存在しない、つまり警告音が存在しないまたは存在してもエネルギー成分が低いと判定されている場合は、持続性判定部509は、持続性ポイントに対しマイナスの値を付与する(ステップS6012)。   The peak independence determining unit 204 determines whether or not the peak spectrum is extracted by the peak extracting unit 203, and sends the determination result to the sustainability determining unit 509 (step S6005). As a result of the determination by the peak independence determining unit 204, if the peak spectrum does not exist, that is, if it is determined that there is no warning sound or the energy component is low even if it exists, the persistence determining unit 509 A negative value is assigned to the sex point (step S6012).

次にステップS6010〜S6016について説明する。ピークスペクトル決定部505は、ピーク独立性判定部204におけるピーク判定に基づいて独立性の有するピークスペクトルが抽出されて登録されているかを判定する(ステップS6010)。判定の結果、独立性の有するピークスペクトルが登録されていない場合、持続性判定部509は、持続性ポイントに対してマイナス値を付与する(ステップS6012)。   Next, steps S6010 to S6016 will be described. The peak spectrum determination unit 505 determines whether a peak spectrum having independence is extracted and registered based on the peak determination in the peak independence determination unit 204 (step S6010). As a result of the determination, if an independent peak spectrum is not registered, the sustainability determination unit 509 assigns a negative value to the sustainability point (step S6012).

一方、ステップS6010の判定の結果、独立性の有するピークスペクトルが登録されている場合は、ピークスペクトル決定部505は、当該登録されているピークスペクトルの中から持続性測定用のピークスペクトルを選び出して登録する(ステップS6011)。ここで、ピークスペクトル決定部505は、独立性を有する複数のピークスペクトルが抽出されている場合、その中から最低域ピークスペクトルを選び出し、持続性測定用ピークスペクトルとして登録する。   On the other hand, if the result of determination in step S6010 is that an independent peak spectrum is registered, the peak spectrum determination unit 505 selects a peak spectrum for sustainability measurement from the registered peak spectra. Registration is performed (step S6011). Here, when a plurality of independent peak spectra are extracted, the peak spectrum determining unit 505 selects the lowest peak spectrum from among them and registers it as the peak spectrum for sustainability measurement.

例えば、図6に示す状態であれば、ピーク独立性判定部204で独立していると判定されるP1〜P3のピークスペクトルのうち、ピークスペクトル決定部505は、最低周波数を有するP1を持続性測定用ピークスペクトルとして決定する。また、図7に示す状態であれば、ピーク独立性判定部204で独立していると判定されるQ7のピークスペクトルがそのまま持続性測定用ピークスペクトルとして決定される。   For example, in the state shown in FIG. 6, among the peak spectra of P1 to P3 determined to be independent by the peak independence determination unit 204, the peak spectrum determination unit 505 maintains P1 having the lowest frequency as sustainability. It is determined as a peak spectrum for measurement. In the state shown in FIG. 7, the peak spectrum of Q7 determined to be independent by the peak independence determining unit 204 is determined as it is as the peak spectrum for sustainability measurement.

次に、持続性判定部509は、ステップS6011で選択された測定用ピークスペクトルが持続しているかを判定する(ステップS6013)。すなわち、最低域ピークスペクトルとして選択されたピークスペクトルが時間経過と共に継続して最低域ピークスペクトルに選択されているかを判定する。   Next, the sustainability determination unit 509 determines whether or not the measurement peak spectrum selected in step S6011 continues (step S6013). That is, it is determined whether the peak spectrum selected as the lowest band peak spectrum is continuously selected as the lowest band peak spectrum over time.

具体的には、持続性判定部509は、持続性測定用として登録された最低域ピークスペクトルと前回登録済みの最低域ピークスペクトルを用いて、時間的な持続性があるか否かを2つの時間的に隣り合った周波数変換処理にて得られたピークスペクトル情報から判定することで特殊性雑音の時間的な持続性を観察する。   Specifically, the sustainability determination unit 509 uses the lowest range peak spectrum registered for sustainability measurement and the previously registered lowest range peak spectrum to determine whether or not there is temporal sustainability. The temporal persistence of the peculiar noise is observed by judging from the peak spectrum information obtained by temporally adjacent frequency conversion processes.

多くのサイレン音や、甲高いエンジン音は、その周波数成分が時間と共に変化しても、
極めて短時間であれば周波数変移幅も限定される。特に周波数変換時間幅は上記のように数10msecから数100msecであるため、時間分解能が高ければ高いほど周波数変移は少ない。よって持続性判定部509は、最低域ピークスペクトルに周波数変換時間幅に応じた所定の許容周波数範囲を与え、その範囲内に次の最低域ピークスペクトルが収まっているかを判定することで持続性を判定する。許容範囲は、例えば選択した周波数変換によって得られたスペクトルの前後のスペクトルを含む帯域幅を与える。
Many sirens and high-pitched engine sounds, even if their frequency components change over time,
If the time is extremely short, the frequency shift width is also limited. In particular, since the frequency conversion time width is from several tens of milliseconds to several hundreds of milliseconds as described above, the higher the time resolution, the smaller the frequency shift. Therefore, the sustainability determination unit 509 gives a predetermined allowable frequency range corresponding to the frequency conversion time width to the lowest band peak spectrum, and determines whether the next lowest band peak spectrum is within that range. judge. The tolerance range gives, for example, a bandwidth including the spectrum before and after the spectrum obtained by the selected frequency conversion.

持続性判定部509は、ステップS6013における判定の結果、持続していると判定した場合は、持続性ポイントにプラス値を付与し(ステップS6014)、持続していないと判定した場合は、持続性ポイントにマイナス値を付与する(ステップS6015)。当該持続性ポイントは、更新される毎に動作モード決定部510に送られる。   As a result of the determination in step S6013, the sustainability determination unit 509 assigns a positive value to the sustainability point if determined to be persistent (step S6014). A negative value is assigned to the point (step S6015). The persistence point is sent to the operation mode determination unit 510 every time it is updated.

具体的に、持続性判定部509は、前回登録の最低域ピークスペクトルの前後のスペクトルを含めた帯域に現在登録された最低域ピークスペクトルが存在するか否かを判定する。当該判定の結果、前回登録の最低域ピークスペクトルと今回登録の最低域ピークスペクトルの周波数差が指定の範囲内である場合には持続性があるものと判断し、持続性があることを示すプラスの値を持続性ポイントへ付与する。一方、持続性判定部509は、今回の最低域ピークスペクトルが所定の範囲に収まらない場合には、持続性がないのと判断し、持続性がないことを示すマイナスの値を持続性ポイントへ付与する。この持続性判断によって、突発的な雑音成分によって誤って検出されたピークスペクトルの影響を排除できる。   Specifically, the sustainability determination unit 509 determines whether or not the currently registered lowest peak spectrum exists in the band including the spectrum before and after the lowest registered peak spectrum. As a result of the determination, if the frequency difference between the lowest peak spectrum registered last time and the lowest peak spectrum registered this time is within the specified range, it is determined that there is persistence, and a positive sign indicating that there is persistence. Is assigned to the persistence point. On the other hand, the sustainability determination unit 509 determines that there is no sustainability when the current lowest peak spectrum does not fall within a predetermined range, and sets a negative value indicating that there is no sustainability to the sustainability point. Give. This persistence determination can eliminate the influence of the peak spectrum erroneously detected by the sudden noise component.

動作モード決定部510は、送られてくる現在の持続性ポイントの値と動作モード切り替えの閾値となる値との比較を行うことで、持続性ポイントが所定数以上であるかを判定する(ステップS6016)。動作モード決定部510は、当該判定結果に基づいて動作モードを抑制モード又は通常モードにセットする。   The operation mode determination unit 510 determines whether or not the number of sustain points is equal to or greater than a predetermined number by comparing the value of the current sustain point that is sent and a value that is a threshold value for switching the operation mode (step) S6016). The operation mode determination unit 510 sets the operation mode to the suppression mode or the normal mode based on the determination result.

次に、雑音信号抑制装置500における時間経過による持続性ポイントの変化の様子を、図17に示すピークスペクトルの持続性と動作モードの切り替わりを説明する図と図16のフローチャート図とを参照して説明する。図17(c)は、抑制動作モードの移行を決定する持続性ポイント値を示している。   Next, the state of change of the sustainability point with the passage of time in the noise signal suppressing apparatus 500 will be described with reference to the peak spectrum persistence diagram and the operation mode switching shown in FIG. 17 and the flowchart of FIG. explain. FIG. 17C shows the persistence point value that determines the transition of the suppression operation mode.

図17から分かるように、t0〜t1、t2〜t6、t7〜t9は、ステップS6014に従って持続性ポイントにプラス値が付与される区間である。一方、持続性測定用ピークスペクトルが存在しないt1〜t2、t6〜t7、及びt9以降は、ステップS6012に従って持続性ポイントにマイナス値が付与される区間である。但し、t3、t4、t5、t8のタイミングは、持続性測定用のピークスペクトルが変更されるタイミングであるため、ステップS6015に従って一時的にマイナス値が付与される。   As can be seen from FIG. 17, t0 to t1, t2 to t6, and t7 to t9 are sections in which a positive value is given to the sustainability point according to step S6014. On the other hand, t1 to t2, t6 to t7, and t9 and thereafter after the peak spectrum for sustainability measurement is a section in which a negative value is given to the sustainability point in accordance with step S6012. However, since the timings t3, t4, t5, and t8 are timings when the peak spectrum for sustainability measurement is changed, a negative value is temporarily given according to step S6015.

なお、図17からわかるように、持続性ポイントには上限値が設定されており、持続性判定部509は、当該上限値以上に持続性ポイントをプラスしない。すなわち、持続性判定部509は、ステップS6014でプラス値を付与する場合に、既に持続性ポイントが上限値であるかどうかのサブ判定を行い、上限値である場合にはプラス値を付与しない。同様に、持続性判定部509は、ステップS6015でマイナス値を付与する場合に、既に持続性ポイントが下限値0であるかどうかのサブ判定を行い、下限値の0である場合にマイナス値を付与しないとすることができる。   As can be seen from FIG. 17, an upper limit value is set for the sustainability point, and the sustainability determination unit 509 does not add the sustainability point beyond the upper limit value. That is, the sustainability determination unit 509 performs sub-determination as to whether or not the sustainability point is already the upper limit value when giving a positive value in step S6014, and does not give a positive value if it is the upper limit value. Similarly, the sustainability determination unit 509 performs a sub-determination as to whether or not the sustainability point is already the lower limit value 0 when giving a negative value in step S6015. Can not be granted.

このように持続性ポイント値には上限値と下限値を設けることで、動作モードの移行に対し所定の保持時間を働かせることができる。これは動作モードの安定化によって出力信号の急激な変化から生じる違和感を抑える上で効果的である。このような上限値を設定しておくことで、特殊信号が存在しなくなってから通常モードに戻るまでに時間を適正化することができる。   Thus, by providing the upper limit value and the lower limit value for the sustainability point value, a predetermined holding time can be used for the transition of the operation mode. This is effective in suppressing a sense of incongruity caused by a sudden change in the output signal due to stabilization of the operation mode. By setting such an upper limit value, it is possible to optimize the time until the return to the normal mode after the special signal no longer exists.

図17からわかるように、持続性判定処理は、1つのピークスペクトルをターゲットとして処理を行うため処理負荷が少ないという利点を有しつつ、特殊信号が存在する区間においては適切に特殊信号抑制モードが維持され、雑音信号抑制部206で当該特殊信号に起因する特殊性雑音の抑制処理が行われる。従って、図13で説明した処理と図14で説明した処理の両方の利点を備えた雑音信号抑制処理を実現することができる。   As can be seen from FIG. 17, the sustainability determination processing has an advantage that the processing load is small because processing is performed with one peak spectrum as a target, and the special signal suppression mode is appropriately set in a section where the special signal exists. The noise signal suppression unit 206 performs processing for suppressing the special noise caused by the special signal. Therefore, it is possible to realize a noise signal suppression process having the advantages of both the process described in FIG. 13 and the process described in FIG.

図18(a)は、音声が含まれるサイレン音の区間に対して特殊性雑音抑制処理を施さない状態で音声符号化復号化装置に入力し、得られた出力信号をスペクトログラムで示した例である。図18(b)は、音声が含まれるサイレン音の区間に対して特殊性雑音抑制処理を施した信号を音声符号化復号化装置に入力し、出力信号をスペクトログラムで示した例である。入力した音声信号に対して音声符号化等を行う当該音声符号化復号化装置は、出力部208内に設けられても良いし、出力部208の出力先に配置されていても良い。当該音声符号化復号化装置(音声符号化復号化部)において行われる音声符号化における音声符号化方式は、例えば携帯電話で採用されるCELP(Code-Excited Linear Prediction)や無線機などに採用されるVocoder等を用いることができる。   FIG. 18A shows an example in which the input signal is input to the speech coding / decoding apparatus in a state where the special noise suppression process is not performed on the siren sound section including the speech, and the obtained output signal is shown as a spectrogram. is there. FIG. 18B is an example in which a signal obtained by performing a special noise suppression process on a siren sound section including speech is input to a speech encoding / decoding device, and an output signal is represented by a spectrogram. The speech coding / decoding apparatus that performs speech coding or the like on the input speech signal may be provided in the output unit 208 or may be disposed at the output destination of the output unit 208. A speech coding method in speech coding performed in the speech coding / decoding apparatus (speech coding / decoding unit) is employed in, for example, CELP (Code-Excited Linear Prediction) and wireless devices employed in mobile phones. Vocoder etc. can be used.

図18(a)(b)の対比から明らかなように、特殊性雑音抑制処理を行わない場合は、サイレン音成分(太い横縞)の影響により音声波形の明瞭性が低下しているのがわかる。一方、特殊性雑音抑制処理を行うことで音声波形の縞模様が明確に観察できる。これは音声符号化復号化の過程で音声信号成分の復元作用が働くからである。   As is clear from the comparison between FIGS. 18A and 18B, it is understood that the clarity of the speech waveform is lowered due to the influence of the siren sound component (thick horizontal stripes) when the special noise suppression process is not performed. . On the other hand, by performing the special noise suppression process, the striped pattern of the speech waveform can be clearly observed. This is because the restoring operation of the speech signal component works in the process of speech coding / decoding.

以上のように本実施の形態3に係る雑音信号抑制装置は、特殊性雑音成分の抑制処理を行うか行わないかを決める持続性判断に関する設定値を増減させて切り替えることを特徴としている。   As described above, the noise signal suppression device according to the third embodiment is characterized in that the setting value related to the sustainability determination that determines whether or not to perform the suppression process for the special noise component is increased or decreased and switched.

当該雑音信号抑制装置において、独立性を有するピークスペクトルがある場合は、持続性判定部509は、時間的な持続性を観察するための周波数範囲を決定する基準とするため最低域ピークスペクトルを登録した上で持続性判定処理を行う。この時に、持続性判定部509は、前回登録した最低域ピークスペクトル情報を前登録最低域ピークスペクトル情報として別途記録する。そして持続性判定部509は、当該前登録最低域ピークスペクトル情報と今回登録した最低域ピークスペクトル情報とが所定の周波数範囲内であるかどうかを判定することで持続性の判定を行い、判定結果に応じて持続性ポイントにプラス値又はマイナス値が付与される。また、前段の独立性判定により最終的にピークスペクトルが登録されなかった場合は、特殊性雑音が存在しなかったものとみなし、特殊性雑音成分の抑制処理を行うか行わないかを決める持続性判断に関する設定値である持続性ポイントに対しマイナスの値を付与する。   In the noise signal suppression apparatus, when there is a peak spectrum having independence, the sustainability determination unit 509 registers the lowest peak spectrum to be a reference for determining a frequency range for observing temporal sustainability. After that, the sustainability judgment process is performed. At this time, the sustainability determination unit 509 separately records the previously registered lowest band peak spectrum information as previously registered lowest band peak spectrum information. The sustainability determination unit 509 determines sustainability by determining whether or not the previously registered lowest-range peak spectrum information and the currently registered lowest-range peak spectrum information are within a predetermined frequency range. Depending on, a positive value or a negative value is assigned to the sustainability point. In addition, if the peak spectrum is not finally registered by the independence judgment in the previous stage, it is considered that there is no special noise, and the sustainability that determines whether or not to perform the special noise component suppression processing A negative value is assigned to the sustainability point, which is a setting value related to judgment.

上記持続性ポイントに対するプラスの値またはマイナスの値が付与は周波数変換毎に行われる。この持続性ポイントが所定数に達した場合、動作モード決定部410は、特殊性雑音の特徴である持続性が認められたと判断し、特殊性雑音信号の抑制を行う特殊信号抑制モードに移行する。所定数未満であれば、特殊性雑音信号の抑制は行わない通常モードとして処理される。   A positive value or a negative value for the sustainability point is assigned for each frequency conversion. When the persistence point reaches a predetermined number, the operation mode determination unit 410 determines that the persistence that is a characteristic of the special noise is recognized, and shifts to the special signal suppression mode for suppressing the special noise signal. . If it is less than the predetermined number, it is processed as a normal mode in which no special noise signal is suppressed.

このように、持続性を観察する指標に持続性ポイントを導入することで、警告音の検出にかかる時間及び警告音が止み警告音の非検出にかかる時間を、時間軸上の信号波形によるパターン分析と比較して短縮することができ、すばやく警告音を抑制可能である。また、同時に、警告音が止んだことも(非検出)すばやく判断し、余分な信号成分の抑制をせずに済むため音声信号の品質も保たれる。   In this way, by introducing the persistence point into the index for observing the persistence, the time required to detect the warning sound and the time required for the warning sound to stop and the non-detection of the warning sound can be represented by a pattern based on the signal waveform on the time axis. Compared with analysis, it can be shortened and warning sound can be quickly suppressed. At the same time, it is quickly determined that the warning sound has stopped (non-detection), and unnecessary signal components need not be suppressed, so that the quality of the audio signal is maintained.

通常の会話は文節で見れば長い場合もあるが、一つ一つの単語は短時間であり、数100msec程度の時間幅を持っている。一つの単語の時間幅が500msecを超えることはほとんどない。倍音構造を持ち高い音圧レベルのピークスペクトルからなる信号成分を持つ音声信号とサイレンやエンジン音のような特殊性雑音信号との差は、上述の倍音成分の周波数間隔に加えて、一つ一つの音における持続性も重要な要素となる。ある範囲に限定した周波数変移を許容した上で、その特徴的な周波数成分(最低域ピークスペクトル)の推移を一定時間に渡り観察することにより、より正確に特殊性雑音信号の存在を把握できる。一定時間は上記観点から1秒程度で十分である。これは長い周期性サイレン音(5〜10秒)に対して極めて短時間であり、時間信号1周期分によるパターン分析法と比べて、すばやくサイレン音の存在を検出可能であり、雑音成分に対する対策を講じることができる。   Ordinary conversations may be long in terms of phrases, but each word is short and has a duration of about several hundred msec. The time width of one word rarely exceeds 500 msec. The difference between a sound signal having a harmonic structure and a signal component consisting of a peak spectrum of a high sound pressure level and a special noise signal such as a siren or engine sound is in addition to the frequency interval of the harmonic component described above. Sustainability in one sound is also an important factor. By allowing the frequency shift limited to a certain range and observing the transition of the characteristic frequency component (lowest peak spectrum) over a certain period of time, the existence of the special noise signal can be grasped more accurately. About 1 second is sufficient for the fixed time from the above viewpoint. This is an extremely short time for long periodic siren sounds (5-10 seconds). Compared with the pattern analysis method using one period of the time signal, the presence of siren sounds can be detected quickly, and countermeasures against noise components are possible. Can be taken.

特殊性雑音信号に混入した音声信号の影響により、最低域ピークスペクトルはその都度抽出されるスペクトルが変更されて安定しない場合もあるが、本実施の形態における雑音信号抑制装置は、持続性の判定を持続性ポイントとして長期タームで観察するため、特殊性雑音信号を抑制する特殊信号抑制モードが維持される。従って、過度なピークスペクトルを抑制することができ、結果として音声符号化過程における音声品質は維持される。   Due to the influence of the audio signal mixed in the special noise signal, the lowest peak spectrum may be unstable because the extracted spectrum is changed each time, but the noise signal suppression device in the present embodiment determines the persistence. Therefore, the special signal suppression mode for suppressing the special noise signal is maintained. Therefore, an excessive peak spectrum can be suppressed, and as a result, the voice quality in the voice coding process is maintained.

なお、上記説明では、持続性ポイントに付与されるプラス値やマイナス値が一定であり、線形的に推移する場合について説明したがこれに限定されるものではない。例えば、図16において、ステップS6003、ステップS6005、ステップS6010、及びステップS6013における判定結果に基づいて付与されるマイナス値の値を異なるように設定しても良い。例えば、ステップS6003で所定のエネルギー量以上のピークスペクトルが観測されない場合は、特殊信号が存在しなくなったとして、大きいマイナス値を付与するよう構成しても良い。当該構成とすることで、図17に示すt9以降の通常モードへの抜けを早めることができる。   In the above description, the case where the positive value or the negative value given to the sustainability point is constant and changes linearly has been described. However, the present invention is not limited to this. For example, in FIG. 16, the negative value given based on the determination results in step S6003, step S6005, step S6010, and step S6013 may be set differently. For example, when a peak spectrum of a predetermined energy amount or more is not observed in step S6003, it may be configured to give a large negative value, assuming that there is no special signal. By adopting such a configuration, it is possible to accelerate the escape to the normal mode after t9 shown in FIG.

また、言うまでもなく、上記説明した雑音信号抑制装置で用いた特殊性雑音検出機能を取り出して特殊信号検出装置として他の用途に応用することが可能である。   Needless to say, the special noise detection function used in the above-described noise signal suppression device can be taken out and applied to other applications as a special signal detection device.

(実施の形態4)
火災現場等で消防士が用いる生命維持装置の機能が低下する場合や消防士自身の生体反応が低下する際に発せられる報知音として、高域に極めて強いスペクトルを有する報知音が用いられる。図19は、このような緊急性を要する生命維持装置等の報知音のスペクトログラム図を示している。図19から分かるように、高域に強いエネルギーを持ったスペクトル群の存在が見て取れる。この強い成分の影響で、サイレン音のような警報音と同様、通信装置に用いられる音声符号化方式の処理過程で音声情報に費やされる情報量が低下し、音声信号が正しく伝達されず、また、高域の強い周波数成分が耳障りな音となり聞き取れないといった状況が発生する。
(Embodiment 4)
A notification sound having a very strong spectrum in the high range is used as a notification sound that is emitted when the function of a life support device used by a firefighter at a fire site or the like is deteriorated or when the biological reaction of the firefighter itself is reduced. FIG. 19 shows a spectrogram of a notification sound of such a life support device requiring urgency. As can be seen from FIG. 19, the existence of a spectrum group having strong energy in the high region can be seen. Due to the influence of this strong component, the amount of information spent on audio information in the process of the audio encoding method used in the communication device is reduced, and the audio signal is not transmitted correctly, as is the case with alarm sounds such as sirens. A situation occurs in which strong frequency components in the high frequency range are irritating and cannot be heard.

そこで、本実施の形態4に係る雑音信号抑制装置は、特殊な特徴を有する報知音を適切に検出して抑制することを特徴とする。以下図面を参照して詳細に説明する。   Therefore, the noise signal suppression device according to the fourth embodiment is characterized by appropriately detecting and suppressing a notification sound having special characteristics. Hereinafter, it will be described in detail with reference to the drawings.

図20は、本実施の形態4に係る雑音信号抑制装置600の構成を示すブロック図である。雑音信号抑制装置600は、収音部601と、時間/周波数変換部602と、ピーク抽出部603と、最低域ピーク周波数分析部604と、持続性判定部605と、動作モード決定部606と、雑音信号抑制部607と、周波数/時間変換部608と、出力部609と、を備える。   FIG. 20 is a block diagram showing a configuration of noise signal suppression apparatus 600 according to the fourth embodiment. The noise signal suppression apparatus 600 includes a sound collection unit 601, a time / frequency conversion unit 602, a peak extraction unit 603, a lowest band peak frequency analysis unit 604, a sustainability determination unit 605, an operation mode determination unit 606, A noise signal suppression unit 607, a frequency / time conversion unit 608, and an output unit 609 are provided.

収音部601は、音声や雑音を収音する。収音部601で収音された目的音を含む周囲の音声は、時間領域の音声信号として時間/周波数変換部602に送られる。   The sound collection unit 601 collects voice and noise. Surrounding sounds including the target sound collected by the sound collection unit 601 are sent to the time / frequency conversion unit 602 as a time domain sound signal.

時間/周波数変換部602は、収音部601にて取得された音声信号を時間領域から周波数領域の周波数信号へ変換する処理を行う。なお、時間/周波数変換部602は、報知音を検出できればよいので100Hz以上の周波数分解能であってもよい。   The time / frequency conversion unit 602 performs processing to convert the audio signal acquired by the sound collection unit 601 from a time domain to a frequency signal in the frequency domain. Note that the time / frequency conversion unit 602 only needs to be able to detect the notification sound, and thus may have a frequency resolution of 100 Hz or more.

ピーク抽出部603は、時間/周波数変換部602にて周波数領域信号に変換されたスペクトル信号の中からエネルギー成分が極めて高いスペクトルを抽出する。   The peak extraction unit 603 extracts a spectrum having an extremely high energy component from the spectrum signal converted into the frequency domain signal by the time / frequency conversion unit 602.

最低域ピーク周波数分析部604は、ピーク抽出部603で抽出されたピークスペクトルのうち、最低域のピークスペクトルが所定の周波数以上であるかを判定する。具体的には、最低域ピーク周波数分析部604は、最低域のピークスペクトルが2kHz以上であるかを判定する。   The lowest band peak frequency analysis unit 604 determines whether the lowest peak spectrum of the peak spectrum extracted by the peak extraction unit 603 is equal to or higher than a predetermined frequency. Specifically, the lowest band peak frequency analysis unit 604 determines whether the lowest peak spectrum is 2 kHz or higher.

持続性判定部605は、最低域ピーク周波数分析部604で所定の周波数以上と判定された最低域のピークスペクトルが持続しているかを判定する。すなわち、抽出されたピークスペクトルの最低域周波数が2kHz以上であるかを時間経過と共に継続して抽出されたかを判定する。   The sustainability determination unit 605 determines whether or not the lowest peak spectrum determined by the lowest frequency peak frequency analysis unit 604 to be equal to or higher than a predetermined frequency is sustained. That is, it is determined whether the lowest frequency of the extracted peak spectrum is 2 kHz or more and whether it has been extracted continuously over time.

動作モード決定部606は、持続性判定部605における判定結果に基づいて雑音信号を抑制するかしないかを決定する。具体的に、動作モード決定部606は、自身が有する通常モードと特殊信号抑制モードのいずれかのモードに、持続性判定結果に基づいて切り替える。   The operation mode determination unit 606 determines whether or not to suppress the noise signal based on the determination result in the persistence determination unit 605. Specifically, the operation mode determination unit 606 switches to one of a normal mode and a special signal suppression mode that the operation mode determination unit 606 has based on the result of the persistence determination.

雑音信号抑制部607は、動作モード決定部606において特殊信号抑制モードとして雑音信号を抑制すると決定されている場合は、時間/周波数変換部602より出力される周波数領域の周波数信号から特殊性雑音信号を取り除く。雑音信号抑制部607は、雑音抑制を行った後の周波数信号を周波数/時間変換部608に出力する。   When the operation mode determination unit 606 determines to suppress the noise signal as the special signal suppression mode, the noise signal suppression unit 607 determines the special noise signal from the frequency domain frequency signal output from the time / frequency conversion unit 602. Remove. The noise signal suppression unit 607 outputs the frequency signal after noise suppression to the frequency / time conversion unit 608.

周波数/時間変換部608は、雑音信号抑制部607より入力する周波数信号を時間領域の音声信号に変換する。周波数/時間変換部608は、変換後の音声信号を出力部609に出力する。   The frequency / time conversion unit 608 converts the frequency signal input from the noise signal suppression unit 607 into a time domain audio signal. The frequency / time conversion unit 608 outputs the converted audio signal to the output unit 609.

出力部208は、周波数/時間変換部207から入力した音声信号に必要に応じて音声符号化を行い、外部に出力する。出力部208は、上記入力した音声信号を外部に無線送信する無線送信手段であっても良い。   The output unit 208 performs speech coding as necessary on the speech signal input from the frequency / time conversion unit 207 and outputs the speech signal to the outside. The output unit 208 may be a wireless transmission unit that wirelessly transmits the input audio signal to the outside.

次に、雑音信号抑制装置600の動作について説明する。図21は、雑音信号抑制装置600の動作の流れを示すフローチャート図である。   Next, the operation of the noise signal suppression device 600 will be described. FIG. 21 is a flowchart showing a flow of operations of the noise signal suppression device 600.

収音部601で収音される音声は時間領域の音声信号として時間/周波数変換部602へ送られる(ステップS7001)。次に、時間/周波数変換部602は入力した時間領域の音声信号を周波数領域の周波数信号に変換する(ステップS7002)。周波数変換及び逆周波数変換は所定の時間幅で形成されたサンプル群を単位として処理される。そして入力信号のサンプリングレートと周波数変換部のサンプル数によって周波数分解能が決定される。   The sound collected by the sound collection unit 601 is sent to the time / frequency conversion unit 602 as a time domain audio signal (step S7001). Next, the time / frequency conversion unit 602 converts the input time domain audio signal into a frequency domain frequency signal (step S7002). Frequency conversion and inverse frequency conversion are processed in units of sample groups formed with a predetermined time width. The frequency resolution is determined by the sampling rate of the input signal and the number of samples of the frequency conversion unit.

続いて、ピーク抽出部603は、時間/周波数変換部602より入力したスペクトル全体の平均値を算出する。求めたスペクトル全体の平均値と個々のスペクトルのエネルギーを比較し、注目するスペクトルが周囲のスペクトルのエネルギー(平均的なスペクトルのエネルギー)に対し、高いエネルギー比率を有しているか、すなわちピーク特性を備えているかを見て、スペクトルのピークを抽出する。(ステップS7003)ピーク特性の有無の判定基準は前述のように平均エネルギーに対し12dB以上の差を持ったスペクトルとすることができる。   Subsequently, the peak extraction unit 603 calculates the average value of the entire spectrum input from the time / frequency conversion unit 602. Compare the average value of the obtained whole spectrum with the energy of each spectrum, and check that the spectrum of interest has a high energy ratio to the energy of the surrounding spectrum (average spectrum energy). A peak of a spectrum is extracted by checking whether it is provided. (Step S7003) The criterion for determining the presence or absence of peak characteristics can be a spectrum having a difference of 12 dB or more with respect to the average energy as described above.

続いて、最低域ピーク周波数分析部604は、全周波数スペクトルの内、ピーク特性を持つスペクトルが抽出されたかを判定する(ステップS7004)。判定の結果、抽出ピークが存在しない、つまり報知音が存在しないか、または、存在してもエネルギー成分が低い場合は、報知音は無いものとして処理を終了する。一方、抽出ピークがある場合は、最低域ピーク周波数分析部604は、抽出されたピークスペクトルのうち最低域のピークスペクトルが基準値である2kHz以上であるかを判定する(ステップS7005)。   Subsequently, the lowest band peak frequency analysis unit 604 determines whether a spectrum having a peak characteristic is extracted from all frequency spectra (step S7004). As a result of the determination, if the extraction peak does not exist, that is, the notification sound does not exist or if the energy component is low even if it exists, the processing is terminated as the absence of the notification sound. On the other hand, if there is an extracted peak, the lowest band peak frequency analysis unit 604 determines whether the lowest peak spectrum in the extracted peak spectrum is equal to or higher than the reference value of 2 kHz (step S7005).

報知音は人工的な信号であり、かつ高域に分布し、デジタル信号の帯域が一般的な音声処理で用いられる0〜4000Hzの帯域であれば、倍音成分を含まない2kHz以上の帯域に分布する。更に図19に示すように、周波数が一定ではなく、早い周波数変化を伴った帯状の周波数分布であるという特徴を有している。   The notification sound is an artificial signal and distributed in a high frequency range, and if the digital signal band is 0 to 4000 Hz used in general audio processing, it is distributed in a band of 2 kHz or higher that does not include overtone components. To do. Furthermore, as shown in FIG. 19, the frequency is not constant, but has a characteristic of a band-shaped frequency distribution accompanied by a rapid frequency change.

従って、これら特有の報知音を検出するには低域に基本周波数となる成分を持たず、高域に継続してピーク特性を持った周波数成分の存在を観察すれば良い。このような観点により、最低域ピーク周波数分析部604は、報知音の検出に当たり、最低域のピークスペクトルが2kHz以上であるかを判定する。   Therefore, in order to detect these specific notification sounds, it is only necessary to observe the presence of a frequency component having a peak characteristic continuously in the high range without having a component that becomes the fundamental frequency in the low range. From such a viewpoint, the lowest band peak frequency analysis unit 604 determines whether the peak spectrum of the lowest band is 2 kHz or more when detecting the notification sound.

ステップS7005における判定の結果、2kHz以上の周波数を有する最低域ピークスペクトルが存在する場合、当該最低域ピークスペクトルが持続しているかを判定する(ステップS7006)。具体的には、持続性判定部605は、最低域のピークスペクトルを中心とする所定の帯域幅内に、次の周波数変換処理で得られた最低域のピークスペクトルが存在している場合に、持続して存在していると判定する。このように、持続性判定部605は、倍音成分を持たない2kHz以上のピークスペクトルが継続的に抽出されたかを前周波数変換処理にて取得したピークスペクトル情報と比較することで行うことができる。   As a result of the determination in step S7005, if there is a lowest band peak spectrum having a frequency of 2 kHz or more, it is determined whether the lowest band peak spectrum is sustained (step S7006). Specifically, the sustainability determination unit 605 has a lowest peak spectrum obtained by the next frequency conversion process within a predetermined bandwidth centered on the lowest peak spectrum. It is determined that it exists continuously. As described above, the sustainability determination unit 605 can perform the comparison by comparing with the peak spectrum information acquired by the previous frequency conversion process whether the peak spectrum of 2 kHz or higher having no overtone component is continuously extracted.

次に、動作モード決定部606は、前記最低域ピーク周波数分析部604で所定の周波数以上と判定された最低域のピークスペクトルが所定期間以上持続しているかを判定する(ステップS7007)。当該判定の結果、持続していると判定した場合は、動作モード決定部606は、雑音信号抑制部607において雑音信号の抑制を行うと決定し、当該動作モード決定部606における前記決定に基づいて前記雑音信号が抑制される(ステップS7008)。その後、周波数/時間変換部608で逆変換されて音声信号が取得される(ステップS7009)。当該取得された音声信号は出力部609より出力される。   Next, the operation mode determination unit 606 determines whether or not the lowest peak spectrum determined by the lowest frequency peak frequency analysis unit 604 to be equal to or higher than a predetermined frequency continues for a predetermined period (step S7007). As a result of the determination, if it is determined that the operation mode is maintained, the operation mode determination unit 606 determines to suppress the noise signal in the noise signal suppression unit 607, and based on the determination in the operation mode determination unit 606. The noise signal is suppressed (step S7008). Thereafter, the frequency / time conversion unit 608 performs inverse conversion to obtain an audio signal (step S7009). The acquired audio signal is output from the output unit 609.

当該構成とすることで、強力なパワーを有する報知音を適切に特殊性雑音信号として抑制することができる。なお、上記説明では、特殊性雑音信号の抑制処理についてのみ説明したが、従来の周波数差し引き法に代表されるような周波数領域上にて雑音信号を抑制する装置に、特殊性雑音信号の抑制装置を導入することも可能である。この組み合わせにより、従来の雑音信号抑制効果を加えた特殊性雑音信号抑制装置が実現でき、報知音と共に周囲雑音をも軽減可能な雑音抑制装置を提供できる。報知音抑制装置に関しては、本例のようにFFTやDCTに代表される周波数変換方法を用いても良いし、FIRやIIRのような多段フィルタ構成による周波数分割法を用いても良い。   By setting it as the said structure, the notification sound which has powerful power can be suppressed appropriately as a special noise signal. In the above description, only the suppression process of the special noise signal has been described. However, the apparatus for suppressing the noise signal on the frequency domain represented by the conventional frequency subtraction method is not limited to the apparatus for suppressing the special noise signal. It is also possible to introduce. With this combination, it is possible to realize a specific noise signal suppression device with a conventional noise signal suppression effect, and to provide a noise suppression device that can reduce ambient noise as well as notification sounds. As for the notification sound suppression device, a frequency conversion method represented by FFT or DCT may be used as in this example, or a frequency division method using a multistage filter configuration such as FIR or IIR may be used.

また、当該説明では、雑音信号抑制部607は、これまでの実施の形態と同様、ピーク抽出部603で抽出されたピークスペクトル信号を用いて抑制処理を行う場合について説明したが、これに限定されるものではない。図22に示すように、新たにピークスペクトル決定部610を設けても良い。   Further, in the description, the noise signal suppression unit 607 has been described with respect to the case where the suppression process is performed using the peak spectrum signal extracted by the peak extraction unit 603, as in the above embodiments, but is not limited thereto. It is not something. As shown in FIG. 22, a peak spectrum determination unit 610 may be newly provided.

図22において、ピークスペクトル決定部610は、ピーク抽出部603で抽出されたピークスペクトルの最低域周波数と最高域周波数とを登録する。より正確には、ピークスペクトル決定部610は、最低域ピーク周波数分析部604で2kHz以上と判定された最低域のピークスペクトルの周波数を最低域周波数として登録し、最高域のピークスペクトルの周波数を最高域周波数として登録する。   In FIG. 22, the peak spectrum determination unit 610 registers the lowest frequency and the highest frequency of the peak spectrum extracted by the peak extraction unit 603. More precisely, the peak spectrum determination unit 610 registers the frequency of the lowest peak spectrum determined as 2 kHz or more by the lowest peak frequency analysis unit 604 as the lowest frequency, and sets the highest peak spectrum frequency to the highest. Register as a frequency.

ここで、雑音信号抑制部607は、動作モード決定部606からの決定に従って、雑音抑制を行う場合に、上記ピークスペクトル決定部610で登録された最低域周波数と最高域周波数との間に挟まれた帯域全てのスペクトルを雑音信号として抑制する。   Here, the noise signal suppression unit 607 is sandwiched between the lowest frequency and the highest frequency registered in the peak spectrum determination unit 610 when performing noise suppression according to the determination from the operation mode determination unit 606. The spectrum in the entire band is suppressed as a noise signal.

図19のスペクトログラム図からも解かるように、対象となる報知音は周波数変化量が早いため、スペクトル単位で抑制するより、広帯域で抑制処理を施す方が効果的である。音声信号の成分の多くは2kHz未満に存在するため、音声の重要な要素に対する影響は限定される。よって抑制対象とする帯域はピークスペクトル抽出結果から最低域ピークスペクトルと最高域ピークスペクトルで挟まれた帯域全てのスペクトルを指定する。このように強いスペクトルが存在する帯域に限定することで音声に与える影響を最小限に抑えることができる。例えば図19のような報知音であれば、2kHz全体を抑制するのではなく、濃い縞模様の下限及び上限に挟まれた帯域を対象として抑制効果が働くため、特に音声信号の中でも子音のように高域にエネルギー成分が偏る単語でも、部分的な損傷で済み、音声品質は維持される可能性が高い。   As can be seen from the spectrogram diagram of FIG. 19, since the target notification sound has a fast frequency change amount, it is more effective to perform the suppression process in a wide band rather than suppressing it in units of spectrum. Many of the components of the audio signal are present below 2 kHz, so the impact on important audio components is limited. Therefore, the band to be suppressed is designated as a spectrum of all bands sandwiched between the lowest peak spectrum and the highest peak spectrum from the peak spectrum extraction result. By limiting to such a band where a strong spectrum exists, the influence on the voice can be minimized. For example, in the case of the notification sound as shown in FIG. 19, since the suppression effect works not on the entire 2 kHz band but on the band between the lower and upper limits of the dark stripe pattern, it seems to be particularly consonant in the audio signal. Even a word whose energy component is biased to a high frequency can be partially damaged, and the voice quality is likely to be maintained.

最低域ピーク周波数が2kHzということはそれ自体が倍音構造を成していない音(人工的な報知音)であることが推定できる。このような人工的な強い高周波成分が継続して存在する状態を検知して、高周波成分全体を抑制することができる。   It can be estimated that the lowest peak frequency of 2 kHz is a sound (artificial notification sound) that does not itself form a harmonic structure. It is possible to detect the state in which such a strong artificial high-frequency component is continuously present and suppress the entire high-frequency component.

なお、上記説明では雑音信号抑制装置について説明したが、同様の原理を利用した報知音検出装置とすることも可能である。図23は、当該報知音検出装置700の構成を示すブロック図である。報知音検出装置700は、収音部701と、時間/周波数変換部702と、ピーク抽出部703と、最低域ピーク周波数分析部704と、持続性判定部705と、報知音検出部706と、を具備する。ここで、収音部701〜持続性判定部705は、図20に示す収音部601〜持続性判定部605と略同一であるため一部説明を省略する。   In the above description, the noise signal suppressing device has been described. However, a notification sound detecting device using the same principle may be used. FIG. 23 is a block diagram showing a configuration of the notification sound detection apparatus 700. The notification sound detection apparatus 700 includes a sound collection unit 701, a time / frequency conversion unit 702, a peak extraction unit 703, a lowest band peak frequency analysis unit 704, a sustainability determination unit 705, a notification sound detection unit 706, It comprises. Here, the sound collection unit 701 to the sustainability determination unit 705 are substantially the same as the sound collection unit 601 to the sustainability determination unit 605 shown in FIG.

最低域ピーク周波数分析部704は、ピーク抽出部703で抽出されたピークスペクトルのうち、最低域のピークスペクトルが所定の周波数以上であるかを判定する。ここで、当該所定の周波数は、2kHzか、又はその付近の値に設定することが好ましい。   The lowest band peak frequency analysis unit 704 determines whether the peak spectrum of the lowest band among the peak spectra extracted by the peak extraction unit 703 is equal to or higher than a predetermined frequency. Here, the predetermined frequency is preferably set to 2 kHz or a value in the vicinity thereof.

持続性判定部705は、最低域ピーク周波数分析部704で所定の周波数以上と判定された前記の最低域のピークスペクトルが持続しているかを判定する。ここで、持続性判定部705は、最低域ピーク周波数分析部704で所定の周波数(ここでは2kHzとする)以上と判定された前記の最低域のピークスペクトルを中心とする所定の帯域幅内に、次の周波数変換処理で得られた前記の最低域のピークスペクトルが存在している場合に、最低域のピークスペクトルが持続していると判定することができる。   The sustainability determination unit 705 determines whether or not the peak spectrum in the lowest range determined to be equal to or higher than a predetermined frequency by the lowest range peak frequency analysis unit 704 is maintained. Here, the sustainability determination unit 705 has a predetermined bandwidth centered on the peak spectrum of the lowest band determined by the lowest band peak frequency analysis unit 704 to be equal to or higher than a predetermined frequency (here, 2 kHz). When the peak spectrum in the lowest range obtained by the next frequency conversion process exists, it can be determined that the peak spectrum in the lowest range is sustained.

なお、持続性判定部705は、最低域ピーク周波数分析部704で所定の周波数以上と判定された最低域のピークスペクトルを中心とする所定の帯域幅内に、次の周波数変換処理で得られた前記の最低域のピークスペクトルが存在している場合に、最低域のピークスペクトルが持続していると判定するのではなく、次の周波数変換処理で得られた前記の最低域のピークスペクトルが、所定の周波数以上に存在する場合に、最低域のピークスペクトルが持続していると判定してもよい。   The sustainability determination unit 705 is obtained by the next frequency conversion process within a predetermined bandwidth centered on the peak spectrum of the lowest band determined by the lowest band peak frequency analysis unit 704 to be equal to or higher than the predetermined frequency. Rather than determining that the lowest peak spectrum is sustained when the lowest peak spectrum is present, the lowest peak spectrum obtained in the next frequency conversion process is When the frequency is higher than a predetermined frequency, it may be determined that the peak spectrum in the lowest range is sustained.

報知音検出部706は、最低域ピーク周波数分析部704で所定の周波数以上と判定された最低域のピークスペクトルが所定期間以上持続している場合に、最低域のピークスペクトルは報知音によるものであるとみなして報知音を検出する。報知音検出部706は、報知音を検出した場合に、報知音を検出したことを示す報知音検出情報を送信部708に出力する。   The notification sound detection unit 706, when the lowest peak spectrum determined by the lowest peak frequency analysis unit 704 is equal to or higher than a predetermined frequency continues for a predetermined period or longer, the lowest peak spectrum is due to the notification sound. It is assumed that there is a notification sound. When the notification sound is detected, the notification sound detection unit 706 outputs notification sound detection information indicating that the notification sound has been detected to the transmission unit 708.

なお、報知音検出装置700は、更にID記憶部707と送信部708とを具備している。ID記憶部707は、装置又はユーザを識別する識別IDを記憶する。送信部708は、前記報知音検出部706で報知音が検出された場合に、当該IDと報知音が検出されたことを示す報知音検出情報とを外部に送信する。   Note that the notification sound detection device 700 further includes an ID storage unit 707 and a transmission unit 708. The ID storage unit 707 stores an identification ID for identifying a device or a user. When the notification sound is detected by the notification sound detection unit 706, the transmission unit 708 transmits the ID and notification sound detection information indicating that the notification sound has been detected to the outside.

図24は、当該報知音検出装置700の動作の流れを示すフローチャート図である。ここでステップS8001〜ステップS8006は、図21で説明したステップS7001〜ステップS7006と略同一であるため説明を省略する。   FIG. 24 is a flowchart showing the operation flow of the notification sound detection apparatus 700. Here, steps S8001 to S8006 are substantially the same as steps S7001 to S7006 described in FIG.

報知音検出部706は、持続性判定部705によるステップS8006の判定結果に基づき、最低域ピーク周波数分析部704で所定の周波数以上と判定された最低域のピークスペクトルが所定期間以上持続しているかを判定する(ステップS8007)。所定期間以上持続している場合は、報知音検出部706は、報知音が鳴っていると判断し、ID言記憶部より端末(装置)又はユーザを一意に識別する識別情報であるIDを読み出す(ステップS8008)。   Based on the determination result of step S8006 by the sustainability determination unit 705, the notification sound detection unit 706 has the peak spectrum in the lowest range determined to be equal to or higher than the predetermined frequency by the lowest frequency peak frequency analysis unit 704 continued for a predetermined period or longer. Is determined (step S8007). If the notification sound is detected for a predetermined period or longer, the notification sound detection unit 706 determines that the notification sound is sounding, and reads an ID, which is identification information for uniquely identifying the terminal (device) or the user, from the ID word storage unit. (Step S8008).

続いて送信部708は、当該読み出されたIDと対応付けて報知音を検出していることを示す報知音検出情報を外部に送信する(ステップS8009)。   Subsequently, the transmission unit 708 transmits notification sound detection information indicating that the notification sound is detected in association with the read ID to the outside (step S8009).

なお、外部に送信するIDは音声送信時に音声情報にIDが付加され、音声情報と共に報知音検出情報を送信する場合は、改めてIDを読み込まなくともよい。この場合は、ステップS8008をスキップし、ステップS8007において所定期間以上持続していると判定された場合に、ステップS8009に進む構成であっても良い。また、例えば音声送信の相手先に送信する場合、IDを付けなくともよい場合もある。また、IDとしては通信機器に割り当てられた識別番号などが考えられる。   In addition, ID transmitted outside is added to audio | voice information at the time of audio | voice transmission, and when notifying information detection information is transmitted with audio | voice information, ID does not need to be read anew. In this case, the configuration may be such that step S8008 is skipped and the process proceeds to step S8009 when it is determined in step S8007 that the process has continued for a predetermined period or longer. In addition, for example, when transmitting to a voice transmission destination, there is a case where it is not necessary to attach an ID. Further, the ID may be an identification number assigned to a communication device.

また、報知音検出部706は、検出した報知音の種類を判定する構成であっても良い。送信部706は、報知音検出部706で判定された上記報知音の種類とIDとを関連付けて送信しても良い。   Further, the notification sound detection unit 706 may be configured to determine the type of the detected notification sound. The transmission unit 706 may transmit the type of the notification sound determined by the notification sound detection unit 706 in association with the ID.

報知音検出部706で検出される2k以上のスペクトルによる報知音は、生命維持装置などに用いられる。従って、報知音検出装置700は、生命維持装置が作動していると判定し、通信相手に、端末に対応付けられたIDと共に送信する構成とすることで、第3者が適切な対応を取ることが可能となる。なお、報知音検出情報は、予め定めた送信先に送信しても良い。   A notification sound with a spectrum of 2k or more detected by the notification sound detection unit 706 is used in a life support device or the like. Therefore, the notification sound detection device 700 determines that the life support device is operating and transmits the information to the communication partner together with the ID associated with the terminal, so that the third party can take an appropriate response. It becomes possible. The notification sound detection information may be transmitted to a predetermined transmission destination.

(実施の形態5)
本実施の形態5に係る雑音信号抑制装置は、実施の形態3の雑音信号抑制装置と同様、持続性ポイントの増減を行うことで動作モードを切り替えることを特徴とする。なお、本実施の形態5に係る雑音信号抑制装置及び報知音検出装置のブロック図は、それぞれ図22と図23とを流用して説明する。
(Embodiment 5)
The noise signal suppression device according to the fifth embodiment is characterized in that the operation mode is switched by increasing / decreasing the persistence point, similarly to the noise signal suppression device according to the third embodiment. Note that the block diagrams of the noise signal suppression device and the notification sound detection device according to Embodiment 5 will be described with reference to FIGS. 22 and 23, respectively.

本実施の形態5に係る雑音信号抑制装置及び報知音検出装置において、持続性判定部605、持続性判定部705は、それぞれ最低域のピークスペクトルが持続していると判定した場合に加算し、前記最低域のピークスペクトルが持続していないと判定した場合に減算する設定値を更に管理する。雑音信号抑制装置600にあっては、当該設定値が所定の閾値を超えているか否かに基づいて動作モードが切り替えられる。   In the noise signal suppression device and the notification sound detection device according to the fifth embodiment, the sustainability determination unit 605 and the sustainability determination unit 705 are added when it is determined that the peak spectrum in the lowest region is maintained, A setting value to be subtracted when it is determined that the peak spectrum in the lowest range is not maintained is further managed. In noise signal suppressing apparatus 600, the operation mode is switched based on whether or not the set value exceeds a predetermined threshold.

また報知音検出装置700にあっては、報知音検出部706は、前記設定値が所定の閾値を超えている場合に報知音を検出する。ここで、ピーク抽出部703においてピークスペクトルが検出されない場合、及び、最低域ピーク周波数分析部704において最低域のピークスペクトルが所定の周波数以上では無いと判定される場合、持続性判定部705は、前記設定値を減算する。   In the notification sound detection apparatus 700, the notification sound detection unit 706 detects the notification sound when the set value exceeds a predetermined threshold. Here, when a peak spectrum is not detected by the peak extraction unit 703, and when it is determined by the lowest band peak frequency analysis unit 704 that the lowest peak spectrum is not equal to or higher than a predetermined frequency, the sustainability determination unit 705 The set value is subtracted.

図25は、本実施の形態5に係る雑音信号抑制装置の動作の流れを示すフローチャート図である。収音部601は、音声を収音して時間領域の音声信号を出力する(ステップS9001)。時間/周波数変換部602は、入力した音声信号を周波数領域の周波数信号へ変換する(ステップS9002)。   FIG. 25 is a flowchart showing an operation flow of the noise signal suppression apparatus according to the fifth embodiment. The sound collection unit 601 collects sound and outputs a time-domain sound signal (step S9001). The time / frequency conversion unit 602 converts the input audio signal into a frequency signal in the frequency domain (step S9002).

次に、ピーク抽出部603は、処理単位である複数のサンプルで形成されたサンプル群のエネルギー量(音圧レベル)を求め、所定のエネルギー量を超えているかを判定する(ステップS9003)。当該判定は、目的とする音声符号化過程における音声信号が雑音の影響を受けるかどうかを入力信号のエネルギーから判断するために行われる。入力信号に含まれる特殊性雑音、すなわち、報知音の雑音信号は、音圧レベルが低い場合は音声符号化時の音声信号に与える影響は軽微であり、十分な音声品質が保たれる。よって、過大な報知音が存在する場合に限り抑制処理を行えば良い。従って、ピーク抽出部603は、入力信号の音圧レベルが80dB以上であるかを判定する。80dB以上であれば、特殊性雑音信号の抑制処理(結果的に処理しない場合もある)を行い、80dB未満であれば、特殊性雑音成分の抑制処理を行うか行わないかを決める持続性判断に関する設定値である持続性ポイントに対しマイナスの値を付与する(ステップS9009)。エネルギー量の算出は周波数変換前でも後でも良い。   Next, the peak extraction unit 603 obtains an energy amount (sound pressure level) of a sample group formed by a plurality of samples as processing units, and determines whether or not a predetermined energy amount is exceeded (step S9003). This determination is performed to determine from the energy of the input signal whether or not the speech signal in the target speech encoding process is affected by noise. When the sound pressure level is low, the special noise included in the input signal, that is, the noise signal of the notification sound, has little influence on the voice signal at the time of voice coding, and sufficient voice quality is maintained. Therefore, the suppression process may be performed only when there is an excessive notification sound. Therefore, the peak extraction unit 603 determines whether the sound pressure level of the input signal is 80 dB or higher. If it is 80 dB or more, a special noise signal suppression process (which may not be processed as a result) is performed, and if it is less than 80 dB, it is determined whether or not a special noise component suppression process is performed. A negative value is assigned to the persistence point, which is a set value for (Step S9009). The energy amount may be calculated before or after frequency conversion.

続いて、ピーク抽出部603はピークスペクトルを抽出する(ステップS9004)。次に、ピーク抽出部603は、ステップS9004において抽出したピークスペクトルがあるかを判定する(ステップS9005)。抽出ピークが無い場合は(ステップS9005のNo)、持続性ポイントにマイナス値を付与する(ステップS9009)。一方、抽出ピークがある場合(ステップS9005のYes)、最低域ピーク周波数分析部704は、抽出されたピークスペクトルのうち最低域のピークスペクトルが基準値である2kHz以上であるかを判定する(ステップS9006)。判定の結果、2kHz以下である場合は、持続性ポイントに対しマイナスの値を付与する(ステップS9009)。一方、2kHz以上であれば、最低域ピークスペクトルの新旧比較を行い、当該ピークスペクトルが持続しているかを判定する(ステップS9007)。持続していない場合、持続性ポイントに対しマイナスの値を付与する(ステップS9009)。持続している場合、持続性ポイントに対しプラスの値を付与する(ステップS9008)。動作モード決定部606は、持続性ポイントが所定の閾値以上であるかを判定する(ステップS9010)。閾値以下である場合は、雑音抑制処理を行わない通常モードへ移行する(ステップS9011)。一方、閾値以上である場合は、報知音が鳴っているとして、第1にID記憶部よりIDを読み込み(ステップS9012)、当該IDと対応付けて、報知音を検出していることを示す報知音情報を外部に送信する(ステップS9013)。続いて、動作モード決定部606は、特殊信号抑制モードへ移行し(ステップS9014)、ピークスペクトル決定部610で登録された最低域周波数と最高域周波数との間のスペクトルに関するスペクトル情報が雑音信号抑制部607に伝送され(ステップS9015)、当該範囲を指定スペクトルとして、雑音信号抑制部607は、雑音抑制処理を行う(ステップS9016)。最後に周波数/時間変換処理が行われて音声信号が出力される(ステップS9017)。このように報知音を抑制し、音声品質の改善を図る一方、音声信号を受信する側に報知音の存在を知らせることができるため、必要な情報である音声信号と緊急情報(報知音の存在)の送信を両立することが可能である。   Subsequently, the peak extraction unit 603 extracts a peak spectrum (step S9004). Next, the peak extraction unit 603 determines whether there is a peak spectrum extracted in step S9004 (step S9005). If there is no extraction peak (No in step S9005), a negative value is assigned to the persistence point (step S9009). On the other hand, when there is an extracted peak (Yes in step S9005), the lowest band peak frequency analysis unit 704 determines whether the lowest peak spectrum in the extracted peak spectrum is equal to or higher than 2 kHz which is a reference value (step). S9006). If the result of determination is 2 kHz or less, a negative value is assigned to the sustainability point (step S9009). On the other hand, if it is 2 kHz or higher, the newest and oldest peak spectra are compared to determine whether the peak spectrum is sustained (step S9007). If not, a negative value is assigned to the persistence point (step S9009). If it is sustained, a positive value is assigned to the persistence point (step S9008). The operation mode determination unit 606 determines whether the persistence point is equal to or greater than a predetermined threshold (step S9010). If it is equal to or less than the threshold value, the process proceeds to the normal mode in which noise suppression processing is not performed (step S9011). On the other hand, if it is equal to or greater than the threshold value, it is assumed that the notification sound is sounding, first, the ID is read from the ID storage unit (step S9012), and the notification indicating that the notification sound is detected in association with the ID. The sound information is transmitted to the outside (step S9013). Subsequently, the operation mode determination unit 606 shifts to the special signal suppression mode (step S9014), and the spectrum information regarding the spectrum between the lowest frequency and the highest frequency registered by the peak spectrum determination unit 610 is noise signal suppression. The noise signal suppression unit 607 performs noise suppression processing using the range as the designated spectrum (step S9016). Finally, a frequency / time conversion process is performed and an audio signal is output (step S9017). In this way, while suppressing the notification sound and improving the sound quality, it is possible to notify the side receiving the sound signal of the presence of the notification sound, so the necessary information such as the sound signal and the emergency information (the presence of the notification sound) ) Can be compatible.

続いて、上述した最低域ピークに基づく判定処理と独立性に基づく判定処理を組み合わせた雑音信号抑制装置について説明する。当該装置では3つの動作モードを切り替えて雑音信号抑制を行う。ここで、最低域ピークに基づく判定処理は、報知音を検出するために、また、独立性に基づく判定処理は、主に警告音を検出するためにそれぞれ行われる。   Next, a noise signal suppression device that combines the above-described determination process based on the lowest peak and the determination process based on independence will be described. In this apparatus, noise signal suppression is performed by switching three operation modes. Here, the determination process based on the lowest peak is performed in order to detect a notification sound, and the determination process based on independence is performed mainly to detect a warning sound.

ここで、報知音とは、高周波成分からなる報知音(パスアラーム:Personal Alert Safety System Alarms)、生命維持診断、酸素ボンベ残量等の報知に用いるパスアラームなどである。一方、警告音とは、サイレン音、甲高いエンジン音などの倍音成分からなるトーン性の人工的な信号であり、共に長期的周期性雑音である。   Here, the notification sound is a notification sound composed of high-frequency components (path alarm: Personal Alert Safety System Alarms), a life alarm, a path alarm used for notification of the remaining amount of oxygen cylinders, and the like. On the other hand, the warning sound is a tonal artificial signal composed of overtone components such as a siren sound and a high-pitched engine sound, both of which are long-term periodic noises.

第1に、抽出ピークがあるかの判定処理が行われる(ステップS11)。ピークが抽出されていない場合は、通常モードに設定される(ステップS16)。一方ピークが抽出されている場合、抽出されたピークのうち最低域ピークスペクトルが2kHz以上であるかを判定する(ステップS12)。2kHz以上である場合は報知音検出モードに移行する(ステップS14)。一方、2kHz以下である場合は独立性ピークスペクトルがあるかを判定する(ステップS13)。独立性ピークスペクトルがある場合は、警報音検出モードに移行する(ステップS15)。一方、独立性ピークスペクトルが無い場合は通常モードへ移行する(ステップS16)。   First, a process for determining whether there is an extracted peak is performed (step S11). If no peak is extracted, the normal mode is set (step S16). On the other hand, when the peak is extracted, it is determined whether the lowest peak spectrum is 2 kHz or more among the extracted peaks (step S12). If the frequency is 2 kHz or higher, the operation proceeds to the notification sound detection mode (step S14). On the other hand, if it is 2 kHz or less, it is determined whether there is an independent peak spectrum (step S13). If there is an independent peak spectrum, the process proceeds to the alarm sound detection mode (step S15). On the other hand, if there is no independent peak spectrum, the process proceeds to the normal mode (step S16).

上記判定処理でいずれかの動作モードにセットされた後、動作モードが現フレームと同一かどうかを判定することで動作モードの持続性を判定する(ステップS17)。各動作モードが持続していない場合は、持続性ポイントにマイナス値が付与される(ステップS20)。一方、動作モードが持続している場合は、動作モード別にピークスペクトルの持続性を判定する(ステップS18)。各動作モード内でピークスペクトルが持続している場合は、持続性ポイントにプラス値が付与され(ステップS19)、持続していない場合はマイナス値が付与される(ステップS20)。   After any operation mode is set in the determination process, it is determined whether the operation mode is the same as the current frame, thereby determining the persistence of the operation mode (step S17). If each operation mode is not sustained, a minus value is assigned to the persistence point (step S20). On the other hand, if the operation mode is continued, the persistence of the peak spectrum is determined for each operation mode (step S18). When the peak spectrum is sustained in each operation mode, a positive value is assigned to the persistence point (step S19), and when the peak spectrum is not sustained, a negative value is assigned (step S20).

続いて、持続性ポイントが所定数以上であるかを判定する(ステップS21)。判定の結果、所定値以下であれば通常モードに移行し(ステップS23)、所定値以上であれば、直前の処理ブロックで使用していた検出モードである前動作モードを継続する(ステップS22)。   Subsequently, it is determined whether or not the number of persistence points is a predetermined number or more (step S21). As a result of the determination, if the value is equal to or smaller than the predetermined value, the process proceeds to the normal mode (step S23). If the value is equal to or larger than the predetermined value, the previous operation mode that is the detection mode used in the immediately preceding processing block is continued (step S22). .

このように、報知音と警告音の両方を検出する報知音検出装置(特殊信号検出装置)にあっては、最低域ピーク周波数分析部の後段にピーク独立性判定部が配置されることになる。このピーク独立性判定部は、最低域ピーク周波数分析部において、ピーク抽出部で抽出されたピークスペクトルのうち、最低域のピークスペクトルが所定の周波数以上ではないと判定された場合、前記抽出されたピークスペクトルが隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持しているかを判定する。ここで持続性判定部は、当該ピーク独立性判定部において隣接するピークスペクトルに対して所定値以上の周波数間隔を保持していると判定された前記ピークスペクトルが持続しているかに関する第2の判定を行う。報知音検出部は、持続性判定部における前記第2の判定の結果に基づいて警告音を検出する。当該構成とすることで、報知音検出装置は、報知音を優先的に検出しながらも、報知音と比べて低周波数領域にピークスペクトルを有する警告音も合わせて検出することができる。   As described above, in the notification sound detection device (special signal detection device) that detects both the notification sound and the warning sound, the peak independence determination unit is arranged after the lowest band peak frequency analysis unit. . The peak independence determination unit is extracted when the lowest peak frequency analysis unit determines that the peak spectrum of the lowest region is not equal to or higher than a predetermined frequency among the peak spectra extracted by the peak extraction unit. It is determined whether or not the peak spectrum holds a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum. Here, the sustainability determination unit performs a second determination regarding whether or not the peak spectrum determined to hold a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum in the peak independence determination unit is continued. I do. The notification sound detection unit detects a warning sound based on the result of the second determination in the sustainability determination unit. By setting it as the said structure, the notification sound detection apparatus can detect also the warning sound which has a peak spectrum in a low frequency area | region compared with a notification sound, detecting a notification sound preferentially.

以上各実施の形態で説明したように、本発明は、例えば、移動体通信にて要求される雑音低減処理には、低遅延信号分析、即時応答特性(雑音低減効果の即時実効性)、周囲雑音も含む雑音低減性能、低消費電力、などの要素が求められる点に着目し、これらの要求を満たす解決手段を提供している。すなわち、従来の特殊な信号であるサイレン音のような警告音を検出及び抑制する方法では、特殊性雑音信号を検出するために警告音の基本周波数を導く上で調和解析や参照バッファを備えたパターン分析等を必要とし、分析するための処理時間が必要であった。また、調和解析、倍音判定、パターン分析は複雑な信号処理が必要であり、利便性や回路規模の増大などの課題があった。また、対象である警告音以外の成分、例えば音声や周囲の雑音信号による影響も加味しなければならない。このような課題に対し、適切な対処を行っている。   As described above in each embodiment, the present invention is applicable to, for example, low delay signal analysis, immediate response characteristics (immediate effectiveness of noise reduction effect), and surroundings for noise reduction processing required in mobile communication. Focusing on the fact that factors such as noise reduction performance including noise and low power consumption are required, a solution means that satisfies these requirements is provided. That is, in the conventional method for detecting and suppressing warning sound such as siren sound, which is a special signal, a harmonic analysis and reference buffer are provided for deriving the fundamental frequency of the warning sound in order to detect the special noise signal. A pattern analysis or the like is required, and a processing time for analysis is required. Further, harmonic analysis, harmonic overtone determination, and pattern analysis require complicated signal processing, and there are problems such as convenience and increase in circuit scale. In addition, it is necessary to take into account the influence of components other than the target warning sound, such as voice and ambient noise signals. Appropriate measures are taken to address such issues.

音声信号は符号化する際に、非常に高い音圧レベルのサイレン音や報知音、エンジン音等が混入すると、音声信号の符号化品質が著しく低下する。これは音声の特徴である声道の振動をモデル化することによって高効率な符号化を成しえていることに起因し、トーン性を有する信号と音声信号との区別が困難なことにある。音声信号と雑音信号の区別がつかないため、雑音信号に情報量が配分され音声品質が低下する。上記の特殊な信号の検出には、これまで数秒間の分析時間や調和解析、参照バッファを備えたパターン分析等の複雑な信号処理が必要であり、利便性に課題があった。また、音声信号との区別が困難なため、音声信号が混入する際には特殊性信号の検出性能の低下、更には音声信号を誤って判定したことによる音声信号の欠落(音声を間違って抑制してしまう)を招いていた。   When a speech signal is encoded, if a very high sound pressure level siren sound, notification sound, engine sound, or the like is mixed, the encoding quality of the speech signal is significantly lowered. This is because high-efficiency encoding is achieved by modeling vocal tract vibration, which is a feature of speech, and it is difficult to distinguish between a tone signal and a speech signal. Since the voice signal and the noise signal cannot be distinguished from each other, the amount of information is allocated to the noise signal and the voice quality is deteriorated. The detection of the special signal described above requires complicated signal processing such as analysis time for several seconds, harmonic analysis, and pattern analysis with a reference buffer, which has been problematic in terms of convenience. In addition, since it is difficult to distinguish the audio signal from the audio signal, when the audio signal is mixed, the detection performance of the peculiar signal is deteriorated. Furthermore, the audio signal is missing due to the erroneous determination of the audio signal (the audio is erroneously suppressed. Was invited).

音声符号化方式の特徴として、主成分である基本周波数付近の周波数要素を保護することにより、符号化復号化の過程にて高域成分が復元される可能性があり、非主成分である中高域(約400Hz以上)に存在する強い雑音スペクトルを、幾つかでも抑制することで音声符号化品質を著しく改善することができる。従って完全に特殊性雑音(サイレン等)を抑制せずとも簡易な方法である程度抑制できれば、用途によって(低レートの音声符号化方式を用いる通信装置など)は十分効果が発揮される。   As a feature of the speech coding system, by protecting the frequency components near the fundamental frequency, which is the main component, there is a possibility that the high frequency component may be restored in the process of encoding / decoding. Speech coding quality can be remarkably improved by suppressing even some of the strong noise spectrum existing in the region (about 400 Hz or more). Therefore, if it can be suppressed to some extent by a simple method without completely suppressing special noise (such as a siren), the effect (communication apparatus using a low-rate speech encoding method, etc.) is sufficiently effective.

本発明の一態様では、音声入力信号を周波数領域信号に変換後、全体の音量及び近傍周波数帯のスペクトルとの比較により極めて高いエネルギーを持つ独立性を有するスペクトルを抽出することで、音声信号スペクトルが誤って削減対象であるピークスペクトルとして抽出される可能性を排除している。音声の基本周波数である100〜400Hzのスペクトル信号を独立性(ピークスペクトル同士の接近度)の観点から排除することで、音声信号と特殊信号(約400Hz以上のトーン性の信号)との区別が可能となる。倍音判定、パターン判定は必要なく、ある程度の特殊性スペクトル(高域成分)を抽出できる。(多少残っていても、音声符号化に与える深刻な影響は低減される)。   In one aspect of the present invention, an audio signal spectrum is extracted by converting an audio input signal into a frequency domain signal and then extracting an independent spectrum having extremely high energy by comparison with the entire volume and a spectrum in a nearby frequency band. Eliminates the possibility of accidental extraction as a peak spectrum to be reduced. By eliminating the spectrum signal of 100 to 400 Hz, which is the fundamental frequency of speech, from the standpoint of independence (degree of proximity between peak spectra), the distinction between a speech signal and a special signal (a signal with a tone characteristic of about 400 Hz or more) can be made. It becomes possible. Overtone determination and pattern determination are not necessary, and a certain degree of special spectrum (high frequency component) can be extracted. (Even if some remain, the serious impact on speech coding is reduced).

また、本発明の一態様では、特殊性ノイズ信号として着目するスペクトルをピークスペクトルの内、最低域のピークスペクトルに限定し、持続性を判定するための持続性の判定処理負荷を軽減している。着目する周波数は1箇所で良い。例え何らかの要因(音声が混入したときなど)によって最低域ピークスペクトルが移動したとしても、持続性計測数に所定の閾値を設け、持続性を長期タームで観察するため、特殊性ノイズ信号の混入は短時間で済むか、又は検出されないスペクトルは低域に限定される(高域のスペクトルは特殊性ノイズと判断され検出及び低減される)。   Further, in one aspect of the present invention, the spectrum focused on as the special noise signal is limited to the lowest peak spectrum in the peak spectrum, and the sustainability determination processing load for determining sustainability is reduced. . The frequency of interest may be one place. Even if the lowest peak spectrum moves due to some factor (such as when audio is mixed), a predetermined threshold is set for the number of sustained measurements, and the persistence is observed in a long term. A spectrum that can be completed in a short time or is not detected is limited to a low frequency range (a high frequency spectrum is determined as special noise and detected and reduced).

また、本発明の一態様では、音声信号を含まないピークスペクトル信号の持続性を観察することで、長い周期性を有する特殊信号の調和構造やパターン分析を実施しなくとも(通常5秒程度は必要、少なくともサイレン音であれば1パターン分の時間)、一定時間の持続性(1秒以内で十分)を検出することで音声符号化の妨げとなる特定の過大信号を抑制する抑制動作モードにすばやく移行する。持続性は最低域ピークスペクトルの持続性が検出された場合プラスに、非検出の際はマイナスの数値を付与し、音声信号による影響(音声信号と明確に区別がつかない非独立性を持つピークスペクトルを排除)を回避しながら持続性を観察する。また最低域ピークスペクトルを中心とする所定の帯域幅へと観察範囲(50〜100Hz程度:周波数分解時間幅による)を拡張することで、周波数が変化する特殊性ノイズに対しても追従できる。   Further, in one aspect of the present invention, by observing the persistence of a peak spectrum signal that does not include an audio signal, a harmonic structure or pattern analysis of a special signal having a long periodicity is not performed (usually about 5 seconds). Necessary, at least for one pattern if siren sound), and a suppression operation mode that suppresses certain excessive signals that hinder voice coding by detecting the persistence of a certain time (sufficient within 1 second) Migrate quickly. Persistence is positive when the persistence of the lowest peak spectrum is detected, and a negative value is assigned when it is not detected, and the influence of the audio signal (peak with non-independence that cannot be clearly distinguished from the audio signal) Observe persistence while avoiding (exclusion of spectrum). In addition, by expanding the observation range (about 50 to 100 Hz: depending on the frequency resolution time width) to a predetermined bandwidth centered on the lowest peak spectrum, it is possible to follow special noises that change in frequency.

また、本発明の一態様では、音声信号のデジタル化にて一般的に用いられる8kHzサンプリング(有効帯域0〜4kHz)において、2kHzを超える帯域に強い周波数成分が存在し、その存在が持続することにより人工的な報知音が入力されている可能性が高いことを検知し抑制動作に移行する。2kHz以上にピークがあるということは、検出されたピークは倍音に相当するピークではなく、ある特殊な信号(人工的な報知音)の基本周波数であることが推測できる。このような2kHzにピークが存在し更に持続性を観察することで、調和解析、パターン分析、倍音判定をせずとも報知音の有無を判定できる。音声符号化に妨げとなる強い高域成分の分布を抽出されたピークの下限上限から推定し下限から上限までの周波数全体を抑制する。高域成分の広範囲な抑制により音質変化は伴うが意思疎通を図る上で音声の重要な要素である中低域部分の保全が図られる効果は大きい。   Further, in one aspect of the present invention, in 8 kHz sampling (effective band 0 to 4 kHz) generally used in the digitization of an audio signal, a strong frequency component exists in a band exceeding 2 kHz, and the existence thereof continues. Therefore, it is detected that there is a high possibility that an artificial notification sound is being input, and the operation proceeds to the suppression operation. If there is a peak at 2 kHz or more, it can be inferred that the detected peak is not a peak corresponding to a harmonic, but a fundamental frequency of a special signal (artificial notification sound). By observing the sustainability at such a peak at 2 kHz, the presence or absence of the notification sound can be determined without performing harmonic analysis, pattern analysis, and harmonic determination. The distribution of strong high-frequency components that hinder speech coding is estimated from the lower and upper limits of the extracted peak, and the entire frequency from the lower limit to the upper limit is suppressed. Although the sound quality changes due to a wide range of suppression of high frequency components, the effect of preserving the middle and low frequency region, which is an important element of speech for communication, is great.

なお、上記説明では最低域ピークスペクトルを検出する閾値として2kHzである場合について説明したが、これに限定されるものではない。報知音より低い周波数であって、音声よりも高い周波数を閾値として設定しても良い。最低域ピーク周波数分析部は、前段のピーク抽出部で抽出された複数のピークスペクトルの中で最低域のピークスペクトルが上記閾値よりも高い周波数を有するかを判定することになる。   In the above description, the case in which the threshold value for detecting the lowest band peak spectrum is 2 kHz has been described. However, the present invention is not limited to this. A frequency lower than the notification sound and higher than the sound may be set as a threshold value. The lowest band peak frequency analysis unit determines whether or not the lowest peak spectrum has a frequency higher than the threshold value among the plurality of peak spectra extracted by the preceding peak extraction unit.

なお、言うまでもなく、上記各実施の形態1〜5をお互い組み合わせることが可能である。また、本発明の報知音検出装置、雑音信号抑制装置、報知音検出方法、雑音信号抑制方法は、例えば、通信機器または、通信機器の外部マイクロホンなどに適用する。   Needless to say, Embodiments 1 to 5 can be combined with each other. The notification sound detection device, noise signal suppression device, notification sound detection method, and noise signal suppression method of the present invention are applied to, for example, a communication device or an external microphone of the communication device.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記の処理は、メインプロセッサのROM等に格納されたコンピュータプログラムによって実行可能である。上述の例において、各処理をコンピュータ(プロセッサ)に行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention. For example, the above processing can be executed by a computer program stored in a ROM or the like of the main processor. In the above-described example, a program including a group of instructions for causing a computer (processor) to perform each process is stored using various types of non-transitory computer readable media. Can be supplied to. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

100 特殊信号検出装置 101 収音部
102 周波数変換部 103 ピーク抽出部
104 ピーク独立性判定部 105 特殊信号検出部
105 ピークスペクトル決定部 190 独立ピークスペクトル抽出部
200 雑音信号抑制装置
201 収音部 202 周波数変換部
203 ピーク抽出部 204 ピーク独立性判定部
205 ピークスペクトル決定部 206 雑音信号抑制部
207 周波数/時間変換部 208 出力部
250 ピーク抽出部 290 独立ピークスペクトル抽出部
300 特殊信号検出装置 305 特殊信号検出部
306 ピークスペクトル決定部 307 持続性判定部
350 ピーク抽出部 390 独立ピークスペクトル抽出部
400 雑音信号抑制装置 409 持続性判定部
410 動作モード決定部 450 第2ピーク抽出部
490 独立ピークスペクトル抽出部 500 雑音信号抑制装置
505 ピークスペクトル決定部 509 持続性判定部(設定値管理部)
510 動作モード決定部 511 エネルギー算出部
550 第2ピーク抽出部 590 独立ピークスペクトル抽出部
600 雑音信号抑制装置 601 収音部
602 時間/周波数変換部 603 ピーク抽出部
604 最低域ピーク周波数分析部 605 持続性判定部
606 動作モード決定部 607 雑音信号抑制部
608 周波数/時間変換部 609 出力部
610 ピークスペクトル決定部 700 報知音検出装置
701 収音部 702 周波数変換部
703 ピーク抽出部 704 最低域ピーク周波数分析部
705 持続性判定部 706 報知音検出部
707 ID記憶部 708 送信部
DESCRIPTION OF SYMBOLS 100 Special signal detection apparatus 101 Sound collection part 102 Frequency conversion part 103 Peak extraction part 104 Peak independence determination part 105 Special signal detection part 105 Peak spectrum determination part 190 Independent peak spectrum extraction part 200 Noise signal suppression apparatus 201 Sound collection part 202 Frequency Conversion unit 203 Peak extraction unit 204 Peak independence determination unit 205 Peak spectrum determination unit 206 Noise signal suppression unit 207 Frequency / time conversion unit 208 Output unit 250 Peak extraction unit 290 Independent peak spectrum extraction unit 300 Special signal detection device 305 Special signal detection Unit 306 peak spectrum determination unit 307 persistence determination unit 350 peak extraction unit 390 independent peak spectrum extraction unit 400 noise signal suppression device 409 persistence determination unit 410 operation mode determination unit 450 second peak extraction unit 490 independent peak Spectrum extraction unit 500 a noise signal suppression unit 505 peak spectrum determining unit 509 persistence determination unit (setting value management unit)
510 operation mode determination unit 511 energy calculation unit 550 second peak extraction unit 590 independent peak spectrum extraction unit 600 noise signal suppression device 601 sound collection unit 602 time / frequency conversion unit 603 peak extraction unit 604 lowest peak frequency analysis unit 605 sustainability Determination unit 606 Operation mode determination unit 607 Noise signal suppression unit 608 Frequency / time conversion unit 609 Output unit 610 Peak spectrum determination unit 700 Notification sound detection device 701 Sound collection unit 702 Frequency conversion unit 703 Peak extraction unit 704 Lowest frequency peak frequency analysis unit 705 Persistence determining unit 706 Notification sound detecting unit 707 ID storage unit 708 transmitting unit

Claims (9)

周囲の音声を収音して音声信号を出力する収音部と、
前記音声信号を時間領域から周波数領域の周波数信号に変換する時間/周波数変換部と、
変換された前記周波数信号の中から周囲の周波数信号に対し高いエネルギーを有するピークスペクトルを抽出する第1ピーク抽出部と、
前記第1ピーク抽出部で抽出された前記ピークスペクトルの中から、隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する第2ピーク抽出部と、
前記独立性を有するピークスペクトルの中の最低域のピークスペクトルが所定期間以上持続して存在しているかを判定する持続性判定部と、
前記持続性判定部で前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定された場合、前記独立性を有するピークスペクトル雑音信号として抑制する雑音信号抑制部と、
を具備し、
前記持続性判定部は、前記最低域のピークスペクトルを中心とする所定の周波数帯域幅に、次の周波数変換処理で得られた前記最低域のピークスペクトルが存在している場合に、前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定する、
雑音信号抑制装置。
A sound collection unit that picks up surrounding sound and outputs a sound signal;
A time / frequency converter that converts the audio signal from a time domain to a frequency signal in the frequency domain;
A first peak extraction unit for extracting a peak spectrum having high energy with respect to surrounding frequency signals from the converted frequency signals;
A second peak that extracts, from among the peak spectra extracted by the first peak extraction unit, a peak spectrum having a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum as an independent peak spectrum. An extractor;
A persistence determining unit that determines whether a peak spectrum in the lowest region of the peak spectrum having independence exists for a predetermined period or longer; and
If the peak spectrum of the lowest band in the persistent determination unit determines that there persists more than a predetermined time period, and suppress the noise signal suppression unit a peak spectrum with the independence of the noise signal,
Equipped with,
The sustainability determination unit, when the peak spectrum of the lowest band obtained by the next frequency conversion process exists in a predetermined frequency bandwidth centered on the peak spectrum of the lowest band, the lowest band It is determined that the peak spectrum of exists for a predetermined period or longer.
Noise signal suppression device.
前記雑音信号抑制部が前記雑音信号を抑制するかしないかを決定する動作モード決定部
を更に具備し、
前記雑音信号抑制部は、前記動作モード決定部における前記決定に基づいて前記雑音信
号を抑制する、
請求項に記載の雑音信号抑制装置。
An operation mode determination unit for determining whether or not the noise signal suppression unit suppresses the noise signal;
The noise signal suppression unit suppresses the noise signal based on the determination in the operation mode determination unit;
The noise signal suppression device according to claim 1 .
前記第2ピーク抽出部で抽出される前記独立性を有するピークスペクトルが持続する場合に設定値を加算し、持続しない場合に前記設定値を減算する設定値管理部を更に具備し、
前記動作モード決定部は、前記設定値の値が所定の閾値を超えているか超えていないかに基づいて、前記雑音信号抑制部が前記雑音信号を抑制するかしないかを決定する、
請求項に記載の雑音信号抑制装置。
Adding the set value when the peak spectrum having the independence to be extracted by the second peak Extraction unit persists, further comprising a setting value management unit that subtracts the set value when not persist,
The operation mode determination unit determines whether or not the noise signal suppression unit suppresses the noise signal based on whether the value of the setting value exceeds a predetermined threshold value or not.
The noise signal suppression device according to claim 2 .
前記第2ピーク抽出部は、前記隣接するピークスペクトルに対して400Hz以上の周波数間隔を保持するピークスペクトルを、前記独立性を有するピークスペクトルとして抽出することを特徴とする、
請求項に記載の雑音信号抑制装置。
The second peak extraction unit extracts a peak spectrum having a frequency interval of 400 Hz or more with respect to the adjacent peak spectrum as the peak spectrum having the independence,
The noise signal suppression device according to claim 1 .
前記第1ピーク抽出部は、前記収音部で収音された音声信号の音圧レベルが80dB以上であり、かつ全周波数スペクトルの平均信号レベルに対するレベル差が音圧レベルとして12dB以上のスペクトルを前記ピークスペクトルとして抽出することを特徴とする、
請求項に記載の雑音信号抑制装置。
The first peak extraction unit has a spectrum in which the sound pressure level of the sound signal collected by the sound collection unit is 80 dB or more and the level difference with respect to the average signal level of all frequency spectra is 12 dB or more as the sound pressure level. It is extracted as the peak spectrum,
The noise signal suppression device according to claim 1 .
前記時間/周波数変換部は、100Hz以内の周波数分解能で前記時間領域の音声信号を周波数領域に変換することを特徴とする、
請求項1に記載の雑音信号抑制装置。
The time / frequency conversion unit converts the time domain audio signal into a frequency domain with a frequency resolution within 100 Hz,
The noise signal suppression device according to claim 1 .
周囲の音声を収音する収音部より出力される時間領域の音声信号を周波数領域の周波数信号に変換する時間/周波数変換ステップと、
変換された前記周波数信号の中から周囲の周波数信号に対し高いエネルギーを有するピークスペクトルを抽出する第1ピーク抽出ステップと、
前記第1ピーク抽出ステップで抽出された前記ピークスペクトルの中から、隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する第2ピーク抽出ステップと、
前記独立性を有するピークスペクトルの中の最低域のピークスペクトルが所定期間以上持続して存在しているかを判定する持続性判定ステップと、
前記持続性判定ステップで前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定された場合、前記独立性を有するピークスペクトル雑音信号として抑制する雑音信号抑制ステップと、
を有し、
前記持続性判定ステップは、前記最低域のピークスペクトルを中心とする所定の周波数帯域幅に、次の周波数変換処理で得られた前記最低域のピークスペクトルが存在している場合に、前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定する、
雑音信号抑制方法。
A time / frequency conversion step for converting a time-domain sound signal output from a sound collecting unit that picks up surrounding sound into a frequency signal in the frequency domain;
A first peak extracting step of extracting a peak spectrum having high energy with respect to surrounding frequency signals from the converted frequency signals;
A second peak that extracts, from among the peak spectra extracted in the first peak extraction step, a peak spectrum having a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum as an independent peak spectrum. An extraction step;
A sustainability determining step of determining whether a peak spectrum in the lowest range among the peak spectra having independence exists for a predetermined period or longer; and
If the peak spectrum of the lowest band in the persistent determination step determines that there persists more than a predetermined time period, and suppress the noise signal suppression step the peak spectrum with the independence of the noise signal,
I have a,
In the sustainability determining step, the lowest range peak spectrum obtained by the next frequency conversion process is present in a predetermined frequency bandwidth centered on the lowest range peak spectrum. It is determined that the peak spectrum of exists for a predetermined period or longer.
Noise signal suppression method.
周囲の音声を収音して音声信号を出力する収音部と、
前記音声信号を時間領域から周波数領域の周波数信号に変換する時間/周波数変換部と、
変換された前記周波数信号の中から周囲の周波数信号に対し高いエネルギーを有するピークスペクトルを抽出する第1ピーク抽出部と、
前記第1ピーク抽出部で抽出された前記ピークスペクトルの中から、隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する第2ピーク抽出部と、
前記独立性を有するピークスペクトルの中の最低域のピークスペクトルが所定期間以上持続して存在しているかを判定する持続性判定部と、
前記持続性判定部で前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定された場合、前記独立性を有するピークスペクトルに基づいて特殊信号を検出する特殊信号検出部と、
を具備し、
前記持続性判定部は、前記最低域のピークスペクトルを中心とする所定の周波数帯域幅に、次の周波数変換処理で得られた前記最低域のピークスペクトルが存在している場合に、前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定する、
特殊信号検出装置。
A sound collection unit that picks up surrounding sound and outputs a sound signal;
A time / frequency converter that converts the audio signal from a time domain to a frequency signal in the frequency domain;
A first peak extraction unit for extracting a peak spectrum having high energy with respect to surrounding frequency signals from the converted frequency signals;
A second peak that extracts, from among the peak spectra extracted by the first peak extraction unit, a peak spectrum having a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum as an independent peak spectrum. An extractor;
A persistence determining unit that determines whether a peak spectrum in the lowest region of the peak spectrum having independence exists for a predetermined period or longer; and
A special signal detection unit that detects a special signal based on the peak spectrum having independence when it is determined by the persistence determination unit that the peak spectrum of the lowest range exists for a predetermined period or longer; and ,
Equipped with,
The sustainability determination unit, when the peak spectrum of the lowest band obtained by the next frequency conversion process exists in a predetermined frequency bandwidth centered on the peak spectrum of the lowest band, the lowest band It is determined that the peak spectrum of exists for a predetermined period or longer.
Special signal detector.
周囲の音声を収音する収音部より出力される時間領域の音声信号を周波数領域の周波数信号に変換する時間/周波数変換ステップと、
変換された前記周波数信号の中から周囲の周波数信号に対し高いエネルギーを有するピークスペクトルを抽出する第1ピーク抽出ステップと、
前記第1ピーク抽出ステップで抽出された前記ピークスペクトルの中から、隣接する前記ピークスペクトルに対して所定値以上の周波数間隔を保持するピークスペクトルを、独立性を有するピークスペクトルとして抽出する第2ピーク抽出ステップと、
前記独立性を有するピークスペクトルの中の最低域のピークスペクトルが所定期間以上持続して存在しているかを判定する持続性判定ステップと、
前記持続性判定ステップで前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定された場合、前記独立性を有するピークスペクトルに基づいて特殊信号を検出する特殊信号検出ステップと、
を有し、
前記持続性判定ステップは、前記最低域のピークスペクトルを中心とする所定の周波数帯域幅に、次の周波数変換処理で得られた前記最低域のピークスペクトルが存在している場合に、前記最低域のピークスペクトルが所定の期間以上持続して存在していると判定する、
特殊信号検出方法。
A time / frequency conversion step for converting a time-domain sound signal output from a sound collecting unit that picks up surrounding sound into a frequency signal in the frequency domain;
A first peak extracting step of extracting a peak spectrum having high energy with respect to surrounding frequency signals from the converted frequency signals;
A second peak that extracts, from among the peak spectra extracted in the first peak extraction step, a peak spectrum having a frequency interval equal to or greater than a predetermined value with respect to the adjacent peak spectrum as an independent peak spectrum. An extraction step;
A sustainability determining step of determining whether a peak spectrum in the lowest range among the peak spectra having independence exists for a predetermined period or longer; and
A special signal detection step of detecting a special signal based on the peak spectrum having independence when it is determined in the persistence determination step that the peak spectrum of the lowest range is present for a predetermined period or longer; and ,
I have a,
In the sustainability determining step, the lowest range peak spectrum obtained by the next frequency conversion process is present in a predetermined frequency bandwidth centered on the lowest range peak spectrum. It is determined that the peak spectrum of exists for a predetermined period or longer.
Special signal detection method.
JP2012034190A 2012-02-20 2012-02-20 Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method Active JP5915240B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012034190A JP5915240B2 (en) 2012-02-20 2012-02-20 Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method
PCT/JP2013/050469 WO2013125257A1 (en) 2012-02-20 2013-01-11 Noise signal suppression apparatus, noise signal suppression method, special signal detection apparatus, special signal detection method, informative sound detection apparatus, and informative sound detection method
US14/300,005 US9734841B2 (en) 2012-02-20 2014-06-09 Device and method for suppressing noise signal, device and method for detecting special signal, and device and method for detecting notification sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012034190A JP5915240B2 (en) 2012-02-20 2012-02-20 Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method

Publications (2)

Publication Number Publication Date
JP2013171130A JP2013171130A (en) 2013-09-02
JP5915240B2 true JP5915240B2 (en) 2016-05-11

Family

ID=49265098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012034190A Active JP5915240B2 (en) 2012-02-20 2012-02-20 Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method

Country Status (1)

Country Link
JP (1) JP5915240B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103915102B (en) * 2014-03-12 2017-01-18 哈尔滨工程大学 Method for noise abatement of LFM underwater sound multi-path signals
SG11201808684TA (en) 2016-04-12 2018-11-29 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
CN106814670A (en) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 A kind of river sand mining intelligent supervision method and system
US10249319B1 (en) * 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
JP7169473B1 (en) 2022-02-17 2022-11-10 アルインコ株式会社 Digital radio transmitter and digital radio communication system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH036797A (en) * 1989-06-05 1991-01-14 Alpine Electron Inc Alarm tone detector
JPH0883090A (en) * 1994-09-09 1996-03-26 Matsushita Electric Ind Co Ltd Environmental sound detecting device
JP4238224B2 (en) * 2005-01-25 2009-03-18 リオン株式会社 Alarm sound automatic detection method and apparatus, and hearing aid using the same
JP4682916B2 (en) * 2005-10-11 2011-05-11 株式会社デンソー Communication system and communication apparatus
JP4757158B2 (en) * 2006-09-20 2011-08-24 富士通株式会社 Sound signal processing method, sound signal processing apparatus, and computer program
JP4868999B2 (en) * 2006-09-22 2012-02-01 富士通株式会社 Speech recognition method, speech recognition apparatus, and computer program
JP2008300894A (en) * 2007-05-29 2008-12-11 Smk Corp External section specified sound recognition method of headset with microphone and headset with microphone

Also Published As

Publication number Publication date
JP2013171130A (en) 2013-09-02

Similar Documents

Publication Publication Date Title
WO2013125257A1 (en) Noise signal suppression apparatus, noise signal suppression method, special signal detection apparatus, special signal detection method, informative sound detection apparatus, and informative sound detection method
JP5874431B2 (en) Notification sound detection device, noise signal suppression device, notification sound detection method, noise signal suppression method
JP5915240B2 (en) Special signal detection device, noise signal suppression device, special signal detection method, noise signal suppression method
US10777213B2 (en) Audio bandwidth selection
FI118195B (en) Speech Activity Indicator
KR100455826B1 (en) Method and apparatus for selecting encoding rate of variable rate vocoder
KR101437830B1 (en) Method and apparatus for detecting voice activity
US8818806B2 (en) Speech processing apparatus and speech processing method
US9749021B2 (en) Method and apparatus for mitigating feedback in a digital radio receiver
JP2013156524A (en) Specific phoning detection device, specific phoning detection method and specific phoning detecting computer program
KR20150127041A (en) Device and method for reducing quantization noise in a time-domain decoder
KR20130116917A (en) Signal classification method and device, and coding/decoding method and device
KR101444099B1 (en) Method and apparatus for detecting voice activity
KR101899436B1 (en) Safety Sensor Based on Scream Detection
US20110091043A1 (en) Method and apparatus for detecting audio signals
EP3136389B1 (en) Noise detection method and apparatus
KR20160044363A (en) Apparatus and Method for recognizing horn using sound signal process
KR20190111134A (en) Methods and devices for improving call quality in noisy environments
EP2198424B1 (en) A method and an apparatus for processing a signal
KR20120130371A (en) Method for recogning emergency speech using gmm
CN108074587B (en) Method and device for detecting call interruption
CN115050380A (en) Audio signal processing method, earphone, and computer-readable storage medium
US20140032212A1 (en) Evaluation of the voice quality of a coded speech signal
JPH08305388A (en) Voice range detection device
JP3345534B2 (en) hearing aid

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160321

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5915240

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150