JP6789455B2 - 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム - Google Patents
音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム Download PDFInfo
- Publication number
- JP6789455B2 JP6789455B2 JP2020537984A JP2020537984A JP6789455B2 JP 6789455 B2 JP6789455 B2 JP 6789455B2 JP 2020537984 A JP2020537984 A JP 2020537984A JP 2020537984 A JP2020537984 A JP 2020537984A JP 6789455 B2 JP6789455 B2 JP 6789455B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- time
- series data
- separation
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 362
- 238000013528 artificial neural network Methods 0.000 claims description 127
- 239000013598 vector Substances 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
《1−1》構成
図1は、実施の形態1に係る音声分離システム1の構成を概略的に示す機能ブロック図である。図1に示されるように、音声分離システム1は、音声分離モデル学習装置11と、音声分離装置12とを備えている。
以下に、音声分離モデル学習装置11による音声分離モデルの学習について説明する。図6は、音声分離モデル学習装置11の動作を示すフローチャートである。
次に、音声分離装置12の動作について説明する。図8は、実施の形態1に係る音声分離装置12の動作を示すフローチャートである。
以上に説明したように、実施の形態1においては、音声分離モデル学習装置11は音声分離NN1bを学習する。また、音声分離装置12は、抽出した音声特徴量の時系列データを時間軸方向のブロックに分割する。音声特徴量のブロックは、LC−BLSTMニューラルネットワークである音声分離NN1bを伝播してマスクの時系列データに変換される。音声分離装置12は、このようにして得られたマスクの時系列データを用いて、各話者の音声データを復元する。音声分離NN1bは、時間軸方向のブロック単位で処理を行うので、音声分離装置12は、全ての音声データの入力後に処理を行うBLSTMニューラルネットワークを用いる装置に比べて、処理遅延を減らすことができる。つまり、実施の形態1によれば、音声分離に必要な各話者のマスクと埋め込みベクトルを、処理遅延を短縮したLC−BLSTMニューラルネットワークで構成された音声分離NN1bで推定するため、処理遅延を減らすことができる。
実施の形態1に係る音声分離システム1においては、音声分離装置12は、音声分離時にLC−BLSTMニューラルネットワークで構成された音声分離NN1bを用いている。LC−BLSTMニューラルネットワークを用いる場合、音声の分離精度は、LC−BLSTMニューラルネットワークのブロック長に応じて変化する。実施の形態2に係る音声分離システムにおいては、音声分離装置は、入力された音声特徴量に適したブロック長のLC−BLSTMニューラルネットワークを選択する機能を備えている。
《3ー1》構成
LSTMニューラルネットワーク及びLC−BLSTMニューラルネットワークによって取得することができる情報の量は、BSLTMニューラルネットワークによって取得することができる情報の量より少ない。このため、LC−BLSTMニューラルネットワークによって構成された音声分離NNを用いた音声分離装置では、音声の分離精度が低下するおそれがある。
図14は、実施の形態3に係る音声分離システムの音声分離モデル学習装置31の動作を示すフローチャートである。図14において、図6に示される処理ステップと同一又は対応する処理ステップには、図6に示されるステップ番号と同じステップ番号が付される。図14において、ステップS1101〜S1103の処理は、図6における対応する処理と同じである。
以上に説明したように、実施の形態3に係る音声分離システムの音声分離モデル学習装置31では、モデル学習部115が教師音声分離NN1cを学習し、生徒NN学習部116が、教師音声分離NN1cの中間層1b2の出力を模倣するようTeacher−student学習で生徒音声分離NN1dを学習する。実施の形態3においては、教師音声分離NN1cの情報が生徒音声分離NN1dに模倣されることから、実施の形態1で学習した音声分離NN1bに比べて、音声の分離精度が向上する。
実施の形態4に係る音声分離システムは、実施の形態3に係る音声分離システムの音声分離モデル学習装置31の教師音声分離NN1cから得られる教師データを、教師音声分離NN1cから得られる埋め込みベクトルに変更し、それに伴い生徒NN学習部116のロス関数を変更したものである。実施の形態4の説明に際しては、図13及び図14をも参照する。
実施の形態5に係る音声分離システムは、実施の形態3に係る音声分離システムの音声分離モデル学習装置31が用いる教師音声分離NN1cから得られる教師データを、教師音声分離NN1cの中間層の出力と教師音声分離NN1cから得られる埋め込みベクトルの両方に変更し、それに伴い生徒NN学習部116のロス関数を変更したものである。実施の形態5の説明に際しては、図13から図16をも参照する。
Claims (9)
- 複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離装置であって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出部と、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割部と、
時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成され、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成する音声分離ニューラルネットワークと、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元部と
を備え、
前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
ことを特徴とする音声分離装置。 - 前記音声特徴量の時系列データを時間軸方向に1個以上の前記ブロックに分割するにあたり、前記音声特徴量に応じて前記ブロックの前記時間幅を指定するブロック長を選択するブロック長選択部をさらに備え、
前記音声分離ニューラルネットワークとして、複数の音声分離ニューラルネットワークが備えられ、
前記複数の音声分離ニューラルネットワークのうちの、前記ブロック長に対応した音声分離ニューラルネットワークを用いて、前記複数の話者の各々の前記マスクの時系列データが作成される
ことを特徴とする請求項1に記載の音声分離装置。 - 請求項1又は2に記載の音声分離装置と、
前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
を備えた音声分離システムであって、
前記音声分離モデル学習装置は、
複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習するモデル学習部と、
を備えたことを特徴とする音声分離システム。 - 前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に1個以上のブロックに分割する学習用のブロック分割部をさらに備え、
前記モデル学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習する
ことを特徴とする請求項3に記載の音声分離システム。 - 請求項1又は2に記載の音声分離装置と、
前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
を備えた音声分離システムであって、
前記音声分離モデル学習装置は、
複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、教師音声分離ニューラルネットワークを学習するモデル学習部と、
生徒音声分離ニューラルネットワークである前記音声分離ニューラルネットワークを学習する生徒ニューラルネットワーク学習部と、
を備え、
前記混合音声の音声特徴量の時系列データと、前記単独音声の音声特徴量の時系列データと、前記教師音声分離ニューラルネットワークで作成された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
ことを特徴とする音声分離システム。 - 前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に1個以上のブロックに分割する学習用のブロック分割部をさらに備え、
前記生徒ニューラルネットワーク学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
ことを特徴とする請求項5に記載の音声分離システム。 - 前記音声分離ニューラルネットワークは、
前記混合音声の音声特徴量が入力される入力層と、
前記マスク及び前記混合音声の音声特徴量の埋め込みベクトルの少なくとも一方を作成する中間層と、
前記中間層で作成されたマスクを出力するマスク出力層と、
前記埋め込みベクトルを出力する埋め込みベクトル出力層と
を有することを特徴とする請求項3から6のいずれか1項に記載の音声分離システム。 - 複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離方法であって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出ステップと、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割ステップと、
時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークが、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成するマスク作成ステップと、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元ステップと
を有し、
前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
ことを特徴とする音声分離方法。 - コンピュータに、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する処理を実行させる音声分離プログラムであって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出処理と、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割処理と、
時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークによって、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データが作成されるマスク作成処理であって、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる処理と、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元処理と、
をコンピュータに実行させる音声分離プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/031294 WO2020039571A1 (ja) | 2018-08-24 | 2018-08-24 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6789455B2 true JP6789455B2 (ja) | 2020-11-25 |
JPWO2020039571A1 JPWO2020039571A1 (ja) | 2020-12-17 |
Family
ID=69592003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020537984A Active JP6789455B2 (ja) | 2018-08-24 | 2018-08-24 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11798574B2 (ja) |
JP (1) | JP6789455B2 (ja) |
CN (1) | CN112567459B (ja) |
DE (1) | DE112018007846B4 (ja) |
WO (1) | WO2020039571A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7392259B2 (ja) * | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
US11551083B2 (en) | 2019-12-17 | 2023-01-10 | Soundhound, Inc. | Neural network training from private data |
CN111640422A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语音人声分离方法、装置、终端及存储介质 |
KR20220061467A (ko) * | 2020-11-06 | 2022-05-13 | 삼성전자주식회사 | 전자 장치 및 이의 오디오 신호 처리 방법 |
JPWO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | ||
US20220406324A1 (en) * | 2021-06-18 | 2022-12-22 | Samsung Electronics Co., Ltd. | Electronic device and personalized audio processing method of the electronic device |
WO2023276235A1 (ja) * | 2021-06-29 | 2023-01-05 | ソニーグループ株式会社 | プログラム、情報処理方法、記録媒体および情報処理装置 |
WO2023047620A1 (ja) * | 2021-09-24 | 2023-03-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN117133294B (zh) * | 2023-10-26 | 2024-01-05 | 中铁四局集团有限公司 | 基于lstm模型的语音特征单元提取的改进型智慧工单*** |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119791A (ja) * | 1991-10-29 | 1993-05-18 | Sekisui Chem Co Ltd | 話者認識方式 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US9368110B1 (en) * | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
CN105141987B (zh) | 2015-08-14 | 2019-04-05 | 京东方科技集团股份有限公司 | 广告植入方法和广告植入*** |
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
US9818431B2 (en) * | 2015-12-21 | 2017-11-14 | Microsoft Technoloogy Licensing, LLC | Multi-speaker speech separation |
US10249305B2 (en) | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
CN107452389B (zh) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
-
2018
- 2018-08-24 CN CN201880096367.4A patent/CN112567459B/zh active Active
- 2018-08-24 JP JP2020537984A patent/JP6789455B2/ja active Active
- 2018-08-24 WO PCT/JP2018/031294 patent/WO2020039571A1/ja active Application Filing
- 2018-08-24 DE DE112018007846.9T patent/DE112018007846B4/de active Active
-
2021
- 2021-01-12 US US17/146,834 patent/US11798574B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11798574B2 (en) | 2023-10-24 |
WO2020039571A1 (ja) | 2020-02-27 |
US20210233550A1 (en) | 2021-07-29 |
CN112567459A (zh) | 2021-03-26 |
JPWO2020039571A1 (ja) | 2020-12-17 |
CN112567459B (zh) | 2023-12-12 |
DE112018007846T5 (de) | 2021-04-08 |
DE112018007846B4 (de) | 2022-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6789455B2 (ja) | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム | |
CN110709924B (zh) | 视听语音分离 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
JP6480644B1 (ja) | マルチチャネル音声認識のための適応的オーディオ強化 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
CN112289342A (zh) | 使用神经网络生成音频 | |
JP5227393B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 | |
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
JP2014041308A (ja) | 信号処理装置、方法及びプログラム | |
JPWO2020121590A1 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
JP6987509B2 (ja) | コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP2019008206A (ja) | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム | |
JP5669036B2 (ja) | 信号分離のためのパラメータ推定装置、信号分離装置、信号分離のためのパラメータ推定方法、信号分離方法、および、プログラム | |
JP7348812B2 (ja) | 雑音抑制装置、雑音抑制方法及び音声入力機器 | |
KR20170088165A (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
KR20230124266A (ko) | 적대적 학습 기법을 이용한 음성 합성 방법 및 장치 | |
JPH10133688A (ja) | 音声認識装置 | |
Roma et al. | Remixing musical audio on the web using source separation | |
Mousavi et al. | Blind speech dereverberation using sparse decomposition and multi-channel linear prediction | |
KR102505653B1 (ko) | 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200824 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200824 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6789455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |