JP2006072163A - Disturbing sound suppressing device - Google Patents
Disturbing sound suppressing device Download PDFInfo
- Publication number
- JP2006072163A JP2006072163A JP2004257836A JP2004257836A JP2006072163A JP 2006072163 A JP2006072163 A JP 2006072163A JP 2004257836 A JP2004257836 A JP 2004257836A JP 2004257836 A JP2004257836 A JP 2004257836A JP 2006072163 A JP2006072163 A JP 2006072163A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- unit
- target
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、例えば複数のマイクロホン素子で観測した音声や音楽や各種雑音が混合した信号から、目的とする音のみを復元する音源分離技術に属する。 The present invention belongs to a sound source separation technique for restoring only a target sound, for example, from a signal obtained by mixing voice, music, and various noises observed with a plurality of microphone elements.
従来より、複数のマイクロホン素子を用いて目的音のみを強調する技術として、目的音にビームをあわせる遅延和アレーや、妨害音到来音方向に死角を合わせる死角形成型ビームフォーマなどがあった。しかし遅延和アレーは精度良く目的音を分離するためには、莫大なマイク素子が必要となり、また死角形成型ビームフォーマは妨害音数がマイク素子-1個より少ないときは精度良く分離できるが、妨害音数がマイク素子以上の時は精度が劣化することが良く知られている。
そこで、死角形成型ビームフォーマを2つ使うことで、従来の死角形成型ビームフォーマ1つを使う場合よりも多くの妨害音を抑圧する複数チャネルスペクトルサブトラクション法が提案されている。
Conventionally, as a technique for emphasizing only a target sound using a plurality of microphone elements, there are a delay-and-sum array that aligns the beam with the target sound, and a blind spot forming beamformer that aligns the blind spot in the direction of the interference sound arrival sound. However, the delay sum array requires a huge number of microphone elements to accurately separate the target sound, and the blind spot forming beamformer can accurately separate when the number of disturbing sounds is less than one microphone element. It is well known that the accuracy deteriorates when the number of disturbing sounds is greater than or equal to the microphone element.
In view of this, a multi-channel spectral subtraction method has been proposed in which two blind spot forming beamformers are used to suppress more disturbing sounds than when one conventional blind spot forming beamformer is used.
例えば、各妨害音について、死角形成型ビームフォーマ2つのうち、少なくともどちらかの線形フィルタが死角を形成する死角形成型ビームフォーマ対を用いる相補的複数チャネルスペクトルサブトラクション方式がある(非特許文献1参照)。この相補的複数チャネルスペクトルサブトラクション方式では、目的音抽出後の信号のパワーの期待値と目的音の信号パワーの期待値を一致させることができる。 For example, for each interfering sound, there is a complementary multi-channel spectral subtraction method using a blind spot forming beamformer pair in which at least one of the two linear filters forms a blind spot among the two blind spot forming beamformers (see Non-Patent Document 1). ). In this complementary multi-channel spectral subtraction method, the expected value of the signal power after the target sound extraction can be matched with the expected value of the signal power of the target sound.
又、目的音を強調し、妨害音を抑圧するビームフォーマと目的音を抑圧し、最もパワーの大きい妨害音を強調するビームフォーマを用いた複数チャネルスペクトルサブトラクション方式もある(例えば、特許文献2参照)。
一方で、入力された画像情報を処理して複数の人物位置を求め、ユーザーに複数の人物位置の中から、特定の人物位置を選択させ、選択された人物位置の音声のみを抽出する技術がある(例えば特許文献1、参照)
There is also a multi-channel spectral subtraction method that uses a beamformer that emphasizes the target sound, suppresses the interference sound, and a beamformer that suppresses the target sound and emphasizes the interference power with the highest power (see, for example, Patent Document 2). ).
On the other hand, there is a technique for processing input image information to obtain a plurality of person positions, allowing a user to select a specific person position from among a plurality of person positions, and extracting only the sound of the selected person position. Yes (see Patent Document 1, for example)
相補的複数チャネルスペクトルサブトラクション法では、目的音抽出後の信号のパワーの期待値と目的音の信号パワーの期待値を一致させることはできるが、各時間ごとにみると、目的音抽出後の信号のパワーと目的音の信号パワーとが一致することを保証せず、目的音抽出後の信号パワーと目的音の信号パワーがずれるという課題がある。
また目的音収集の際に目的音と妨害音の空間情報だけでなく、更に、目的音と妨害音の周波数特性が分からないと、目的音の抽出性能が劣化する。
In the complementary multi-channel spectral subtraction method, the expected value of the signal power after the target sound extraction can be matched with the expected value of the signal power of the target sound. However, it is not guaranteed that the power of the target sound matches the signal power of the target sound, and the signal power after extraction of the target sound and the signal power of the target sound shift.
Further, when not only the spatial information of the target sound and the disturbing sound but also the frequency characteristics of the target sound and the disturbing sound are not known at the time of collecting the target sound, the target sound extraction performance deteriorates.
本発明では、帯域ごとに各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対の全ての組み合わせの中で、2つの線形フィルタの出力パワーの期待値の積が最も小さくなるような線形フィルタ対を用いる。更に、本発明では、人間がシステムに目的音と妨害音の位置情報、周波数特性を入力するユーザーインターフェースを提供する。 In the present invention, among all combinations of linear filter pairs in which at least one linear filter forms a blind spot for each interfering sound for each band, the product of the expected values of the output powers of the two linear filters is minimized. Use linear filter pairs. Furthermore, the present invention provides a user interface that allows a human to input position information and frequency characteristics of target sound and interference sound into the system.
本発明の構成によれば、各時間ごとの目的音抽出後の信号パワーと目的音の信号パワーのずれを抑えることができる。さらに、妨害音と目的音の位置情報、周波数特性をユーザーインターフェースを用いて、システムに与えることができるため、妨害音や目的音の位置の推定を行わなくても、妨害音と目的音の位置を知ることができ、高精度な目的音抽出が可能となる。 According to the configuration of the present invention, it is possible to suppress the difference between the signal power after the target sound extraction for each time and the signal power of the target sound. In addition, since the location information and frequency characteristics of the interference sound and the target sound can be given to the system using the user interface, the position of the interference sound and the target sound can be determined without estimating the position of the interference sound and the target sound. Thus, the target sound can be extracted with high accuracy.
本発明の実施の形態について図面を用いて説明する。図1は、本発明の音声処理装置の基本構成図である。カメラ1で取り込んだ周囲の風景などを写した画像がカメラ画像取り込み部2に送られる。その画像を表示装置3に表示する。表示装置3に表示された画像をユーザーが見て、ユーザーは画像の中に写っている音源を見つけ、外部入力デバイス4を用いて、音源の位置を指定する。さらにユーザは音源の位置と音源が目的音か妨害音のどちらであるか又は音源の種類を指定することにする。指定された位置は画面上での位置であるため、入力処理部6で実際の環境での空間情報に変換する。また入力処理部6は、記憶部7に記憶されている音源の種類ごとの周波数特性の情報を用いて、音源の種類を周波数特性に変換する。また入力処理部6は、音源の空間情報と周波数特性と音源が目的音源か妨害音のどちらであるかを示すフラグを記憶部7に記憶する。入力処理部6での記憶処理はユーザーによって選択された全ての音源について行う。入力処理部6での記憶処理で記憶された情報は、音源分離部8に送られる。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a basic configuration diagram of a speech processing apparatus according to the present invention. An image obtained by capturing the surrounding landscape captured by the camera 1 is sent to the camera
またマイクロホンアレー10の信号は帯域分割部9に送られ、短時間フーリエ変換を施され、チャネルごとに帯域分割された形で、音源分離部8に送られる。
音源分離部8では送られてきたチャネルごとの帯域分割された信号を入力処理部6での記憶処理で記憶部7に記憶した目的音や妨害音の空間情報や周波数特性の情報を用いて分離し、目的音を抽出し出力する。
The signal of the
The sound
次に図2を用いて音源分離部8の詳細な説明をする。記憶部7から送られてきた目的音と妨害音の空間情報や音源が目的音か妨害音のどちらであるか、また音源の周波数特性は、まず線形フィルタ候補作成部8aに送られる。線形フィルタ候補作成部8aでは、フラグが目的音となっている音源を目的音とみなし、フラグが妨害音となっている音源を妨害音とみなし、妨害音の周波数特性の情報から帯域ごとの妨害音数を計算する。周波数特性下限値以上の特性を示す帯域で妨害音としてカウントされ、それ以外の帯域では、妨害音としてはカウントされないこととする。周波数特性下限値はシステム定数として予め定義、もしくは任意に設定できるようにしても良い。これら周波数ごとの妨害音数の情報を用いて、線形フィルタ候補作成部8aでは、帯域ごとに目的音方向には指向性を保ちつつ、各妨害音方向について少なくとも1つの線形フィルタが死角を作るような線形フィルタ対を複数対出力する。目的音の周波数特性が下限値を下回る帯域では、出力が0となる線形フィルタ対を出力する。この線形フィルタを作成するためには、目的音や各妨害音の方向が既知であることが前提となる。
Next, the sound
本願構成では、ユーザーが入力した目的音方向、妨害音方向に関する情報を保持しているため、目的音や各妨害音の方向が既知となる。線形フィルタ決定部8bでは線形フィルタ候補作成部8aが出力した複数対の線形フィルタ対のそれぞれについて、線形フィルタ対の各線形フィルタと帯域分割後の信号との積及び各積のパワーを計算し、それらパワーの積を計算する。その積が最も小さくなる線形フィルタ対を出力する。このように出力された線形フィルタ対を用いることで、目的音抽出後の信号のパワーと目的音の信号パワーとの差の2乗値の期待値を従来技術と比較し、小さくできるため、高精度な目的音の抽出を行うことができる。本発明で各時間ごとの目的音抽出後の信号パワーと目的音の信号パワーのずれを抑えることができる理由について以下説明する。
指向性を持った音源がD個存在すると仮定すると、マイクロホンアレーまでの音の伝播系は
In the configuration of the present application, since the information regarding the target sound direction and the disturbing sound direction input by the user is held, the target sound and the direction of each disturbing sound are known. The linear filter determination unit 8b calculates the product of each linear filter of the linear filter pair and the signal after the band division and the power of each product for each of the plural pairs of linear filters output from the linear filter
Assuming that there are D directional sound sources, the sound propagation system to the microphone array is
と表すことができる。
ここで、rd,iは音源dからマイクiまでの距離で、τd,i音源dから発せられた音がマイクiに到達するまでにかかる時間である。
Ωを妨害音集合とし、d0を目的音、S0(f)を目的音成分、N0(f)をd番目の妨害音成分とする。目的音方向に指向性を持つ二つの線形フィルタg,hを入力信号にかけた後の出力信号は、
It can be expressed as.
Here, rd, i is the distance from the sound source d to the microphone i, and is the time taken for the sound emitted from the τd, i sound source d to reach the microphone i.
Ω is an interference sound set, d0 is a target sound, S0 (f) is a target sound component, and N0 (f) is a d-th interference sound component. The output signal after applying two linear filters g and h with directivity in the target sound direction to the input signal is
と表すことができる。複数チャンネルスペクトルサブトラクション法では、これら二つの線形フィルタg,hの出力信号を用いて、 It can be expressed as. In the multi-channel spectral subtraction method, using the output signals of these two linear filters g and h,
で、目的音だけを分離し、抽出する。
目的音と妨害音が無相関であり、妨害音同士も無相関であり、目的音パワーが雑音パワーと比べて大きいとすると、複数チャンネルスペクトルサブトラクション法の出力信号のパワーの期待値を4倍したものは、
Then, only the target sound is separated and extracted.
If the target sound and the interfering sound are uncorrelated, the interfering sounds are also uncorrelated, and the target sound power is larger than the noise power, the expected value of the output signal power of the multi-channel spectral subtraction method is quadrupled. Things
となる。ここで、もし It becomes. Where, if
が成立すれば、 If
となる。つまり、複数チャンネルスペクトルサブトラクション法において、帯域ごとに各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対g,hを用いることで、出力信号と目的信号のパワーの期待値を一致させることができる。つまり平均的にみるとパワーの誤差は0ということである。
しかし死角を形成する線形フィルタ対g,hを用いるという条件だけでは、各時間ごとにみると、
It becomes. That is, in the multi-channel spectral subtraction method, the expected value of the power of the output signal and the target signal is matched by using a linear filter pair g, h in which at least one linear filter forms a blind spot for each interfering sound for each band. be able to. That is, on average, the power error is zero.
However, just using the linear filter pair g, h that forms the blind spot,
で表される誤差が残る。この誤差の二乗値の時間平均値は、 The error represented by remains. The time average value of the square of this error is
で表される。つまり、g,hが各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対であり、かつ2つの線形フィルタの出力パワーの期待値の積が最も小さくなるような線形フィルタ対であるとき、平均的に誤差を0にするとともに、時間毎の誤差も抑えることができるため、高精度な目的音の分離が可能となる。 It is represented by That is, g and h are a linear filter pair in which at least one linear filter forms a blind spot for each interference sound, and a linear filter pair in which the product of the expected values of the output power of the two linear filters is the smallest. At the same time, the error can be reduced to 0 on average, and the error for each time can be suppressed, so that the target sound can be separated with high accuracy.
主信号作成部8c、参照信号作成部8d、スペクトルサブトラクション部8eは、(数3)の処理を行う。主信号作成部8cでは、線形フィルタ決定部8bが出力した線形フィルタ対の各線形フィルタと帯域分割後の信号との積を取り、その各積の和を取ることで、目的音のみが強調され、妨害音が抑圧された信号を出力する。参照信号作成部8dでは、線形フィルタ決定部8bが出力した線形フィルタ対の各線形フィルタと帯域分割後の信号との積を取り、その各積の差を取ることで、目的音のみが強調され、妨害音が抑圧された信号を出力する。スペクトルサブトラクション部8eでは主信号作成部8cが出力した信号のパワーと参照信号作成部8dが出力した信号のパワーの差を取ったものの平方根をパワーとし、主信号作成部8cが出力した信号の位相成分を位相とする信号を出力する。尚、サブストラクション部のみ別の装置で行うこととし、フィルタ対決定装置としても本願構成は利用することができる。
The main signal creation unit 8c, the reference
次に図3を用いてユーザーインターフェース部5の処理フローを説明する。ユーザーは表示装置3に表示された画像の中から音源を見つける。外部入力デバイス4を用いて、それら音源の位置を指定する。またユーザーが指定した音源が目的音か妨害音であるかを指定するためのメッセージボックスを表示装置3に表示する。次にユーザーが目的音か妨害音かをそのメッセージボックスを使い選択する。又、指定した音源の種類を指定するためのメッセージボックスを表示装置3に表示する。この際の音源の種類とは、例えば「成人男性の声」、「成人女性の声」、「子供の声」、「音楽」、「風の音」、「水の音」など人か自然音の別、又個人を特定するものであってもよい。音源が目的音か妨害音であるかどうか、又その種類は少なくとも一方位置情報とともに入力すれば、高精度な目的音抽出が可能となる。
Next, the processing flow of the user interface unit 5 will be described with reference to FIG. The user finds a sound source from the image displayed on the
もちろん両方の情報をともに入力するようにすればより精度をあげることができる。ユーザーインターフェース部5との入力のやりとりのために、ユーザーは、表示装置3上に表示された3つのウィンドウを使用する。図4に表示装置3のウィンドウを図示する。3aはユーザーが音源を指定するためのカメラ画像表示部で、3bは、指定した音源が目的音か妨害音であるかを指定するための目的音、妨害音設定画面であり、3cは、指定した音源の種類を指定する音源種類指定画面である。上記のインターフェイスを介して音源が目的音か妨害音のどちらかであるかのフラグ立てを行うことで、妨害音のほうが目的音よりパワーが大きかったとしても、目的音方向をシステムが知ることができ、本願に関するシミュレーション結果を図5に例示する。
Of course, if both information are input together, the accuracy can be improved. The user uses three windows displayed on the
図5は、聴覚上の歪みに相当する対数スペクトル距離を用いて、目的音の歪みを手法毎に示している。また男1、男2、女1、女2とあるのは、目的音の話者の性別と番号である。従来手法として3つの手法を例示した。遅延和アレー、MVBF、相補性の制約のみとあるのが従来手法である。提案手法とあるのが、本発明で用いる方法である。本発明で用いる方法が、対数スペクトル距離の観点で、全話者で最も歪みが小さく、効果が高いことがわかる。
上記実施例は装置構成を説明したが、本願はプログラムとしてコンピュータに読み込むことで実行されるようにしても良い。
FIG. 5 shows the distortion of the target sound for each method using the logarithmic spectral distance corresponding to the auditory distortion. In addition, male 1,
Although the above embodiment has described the device configuration, the present application may be executed by being read into a computer as a program.
1・・・カメラ、2・・・カメラ画像取り込み部、3・・・表示装置、3a・・・カメラ画像表示部、3b・・・目的音、妨害音設定画面、3c・・・音源種類指定画面、4・・・外部入力デバイス、5・・・ユーザーインターフェース部、6・・・入力処理部、7・・・記憶部、8・・・音源分離部、8a・・・線形フィルタ候補作成部、8b・・・線形フィルタ決定部、8c・・・腫信号作成部、8d・・・参照信号作成部、8e・・・スペクトルサブトラクション部、9・・・帯域分割部、10・・・マイクロホンアレー。
DESCRIPTION OF SYMBOLS 1 ... Camera, 2 ... Camera image capture part, 3 ... Display apparatus, 3a ... Camera image display part, 3b ... Target sound, interference sound setting screen, 3c ... Sound source type designation | designated
Claims (4)
前記マイクロホンアレー部が出力する信号をチャネル毎に複数の周波数帯域に分割する帯域分割部と、
前記周波数帯域毎に複数対の線形フィルタを作成し、該複数対の線形フィルタを上記帯域分割部からの出力に作用させて得られる出力信号のパワーの積を算出し、該積の値が最も小さい線形フィルタ対を帯域ごとに1つ出力する音源分離部を有することを特徴とする音声処理装置。 A microphone array having at least two channels of microphone elements;
A band dividing unit that divides a signal output from the microphone array unit into a plurality of frequency bands for each channel;
Create a plurality of pairs of linear filters for each frequency band, calculate the product of the power of the output signal obtained by applying the plurality of pairs of linear filters to the output from the band dividing unit, and the value of the product is the largest An audio processing apparatus comprising a sound source separation unit that outputs one small linear filter pair for each band.
前記ユーザーインターフェース部で選択させた音源の画面上の位置を実際の環境での空間情報に変換し、上記選択された音源の種類を音源の周波数特性に変換し、前記音源の空間情報と該音源が目的音か妨害音のどちらであるかを示すフラグと該音源の周波数特性とを記憶部に記憶する入力処理部を有し、
上記音源分離部は上記記憶される情報を用いて上記線形フィルタ対を帯域ごとに1つ出力することを特徴とする請求項1又は2に記載の音声処理装置。 Input of at least one of a display unit for displaying image information, a position of a sound source existing in the image displayed on the display unit, and whether the sound source is a target sound or an interfering sound, or a type of the sound source Receiving user interface part,
The position on the screen of the sound source selected by the user interface unit is converted into spatial information in an actual environment, the type of the selected sound source is converted into frequency characteristics of the sound source, and the spatial information of the sound source and the sound source An input processing unit that stores a flag indicating whether the sound is a target sound or an interfering sound and a frequency characteristic of the sound source in a storage unit;
The sound processing apparatus according to claim 1, wherein the sound source separation unit outputs one linear filter pair for each band using the stored information.
音声を入力する入力部と、
上記表示部に表示される画像上で音源の位置と該音源が目的音か妨害音のいずれであるか、又は該音源の種類の少なくとも一方の入力を受けるユーザーインターフェース部と、
前記ユーザーインターフェース部で選択させた音源の画面上の位置を実際の環境での空間情報に変換する入力処理部を有し、
該入力処理部は前記音源が目的音であるか妨害音であるかの入力を受けた場合は、その識別フラグを記憶し、前記目的音の種類の入力を受けた場合には該選択された音源の種類を音源の周波数特性に変換して記憶し、
上記記憶された情報を用いて上記入力された音声から目的音を抽出することを特徴とする音声処理装置。 A display for displaying image information;
An input unit for inputting voice;
A user interface unit that receives an input of at least one of the position of the sound source on the image displayed on the display unit and whether the sound source is a target sound or an interfering sound, or the type of the sound source;
An input processing unit that converts the position on the screen of the sound source selected by the user interface unit into spatial information in an actual environment;
When the input processing unit receives an input indicating whether the sound source is a target sound or an interfering sound, the input processing unit stores the identification flag, and when the input of the type of the target sound is received, the input processing unit Converts the type of sound source into the frequency characteristics of the sound source and stores it,
A speech processing apparatus that extracts a target sound from the input speech using the stored information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257836A JP2006072163A (en) | 2004-09-06 | 2004-09-06 | Disturbing sound suppressing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257836A JP2006072163A (en) | 2004-09-06 | 2004-09-06 | Disturbing sound suppressing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072163A true JP2006072163A (en) | 2006-03-16 |
Family
ID=36152836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004257836A Pending JP2006072163A (en) | 2004-09-06 | 2004-09-06 | Disturbing sound suppressing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006072163A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025714A (en) * | 2007-07-23 | 2009-02-05 | Xanavi Informatics Corp | In-vehicle device and speech recognition method |
WO2010079526A1 (en) * | 2009-01-06 | 2010-07-15 | 三菱電機株式会社 | Noise cancellation device and noise cancellation program |
WO2014125791A1 (en) | 2013-02-13 | 2014-08-21 | Sony Corporation | Voice recognition device, voice recognition method, and program |
US9318124B2 (en) | 2011-04-18 | 2016-04-19 | Sony Corporation | Sound signal processing device, method, and program |
US9357298B2 (en) | 2013-05-02 | 2016-05-31 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
-
2004
- 2004-09-06 JP JP2004257836A patent/JP2006072163A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025714A (en) * | 2007-07-23 | 2009-02-05 | Xanavi Informatics Corp | In-vehicle device and speech recognition method |
WO2010079526A1 (en) * | 2009-01-06 | 2010-07-15 | 三菱電機株式会社 | Noise cancellation device and noise cancellation program |
JP5377518B2 (en) * | 2009-01-06 | 2013-12-25 | 三菱電機株式会社 | Noise removal apparatus and noise removal program |
US9318124B2 (en) | 2011-04-18 | 2016-04-19 | Sony Corporation | Sound signal processing device, method, and program |
WO2014125791A1 (en) | 2013-02-13 | 2014-08-21 | Sony Corporation | Voice recognition device, voice recognition method, and program |
US9357298B2 (en) | 2013-05-02 | 2016-05-31 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
JP6074263B2 (en) | Noise suppression device and control method thereof | |
US8654990B2 (en) | Multiple microphone based directional sound filter | |
EP3133833B1 (en) | Sound field reproduction apparatus, method and program | |
JP6187626B1 (en) | Sound collecting device and program | |
US20220141612A1 (en) | Spatial Audio Processing | |
JP5375400B2 (en) | Audio processing apparatus, audio processing method and program | |
CN103811023B (en) | Apparatus for processing audio and audio-frequency processing method | |
JP6482173B2 (en) | Acoustic signal processing apparatus and method | |
JP2014215461A (en) | Speech processing device, method, and program | |
JP2009518684A (en) | Extraction of voice channel using inter-channel amplitude spectrum | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
JP5565552B2 (en) | Audiovisual processing apparatus, audiovisual processing method, and program | |
KR102008745B1 (en) | Surround sound recording for mobile devices | |
Dadvar et al. | Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target | |
WO2020129231A1 (en) | Sound source direction estimation device, sound source direction estimation method and sound source direction estimation program | |
JP2006072163A (en) | Disturbing sound suppressing device | |
JP2006227328A (en) | Sound processor | |
JP2012058314A (en) | Acoustic processing system and machine employing the same | |
KR101658001B1 (en) | Online target-speech extraction method for robust automatic speech recognition | |
JP2015138100A (en) | Sound processing device and sound processing method | |
EP4161105A1 (en) | Spatial audio filtering within spatial audio capture | |
JP5658588B2 (en) | Hearing presence evaluation device and hearing presence evaluation program | |
EP3513573B1 (en) | A method, apparatus and computer program for processing audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060425 |