JP7214726B2 - ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム - Google Patents
ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム Download PDFInfo
- Publication number
- JP7214726B2 JP7214726B2 JP2020523777A JP2020523777A JP7214726B2 JP 7214726 B2 JP7214726 B2 JP 7214726B2 JP 2020523777 A JP2020523777 A JP 2020523777A JP 2020523777 A JP2020523777 A JP 2020523777A JP 7214726 B2 JP7214726 B2 JP 7214726B2
- Authority
- JP
- Japan
- Prior art keywords
- spectral
- raw signal
- frequency range
- signal
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 108
- 230000005236 sound signal Effects 0.000 title claims description 93
- 238000000034 method Methods 0.000 title claims description 74
- 238000004590 computer program Methods 0.000 title claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 149
- 238000012545 processing Methods 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 35
- 230000009021 linear effect Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 31
- 230000002123 temporal effect Effects 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000002087 whitening effect Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000006837 decompression Effects 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006386 memory function Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 24
- 238000012360 testing method Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 239000004606 Fillers/Extenders Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
のコミュニケーションデバイスの変化を要求するであろう。これは大きな努力で、数年前から知られている。ブラインド周波数拡張(BBWE-人工の帯域幅拡張またはブラインド帯域幅拡張としても知られている)は付加的なビットの必要なく信号の周波数幅を拡張できる。これらはデコードされた信号にのみ適用されネットワーク又は送信デバイスのいずれの適応も必要ではない。狭帯域コーデック帯域幅が限られているという問題の魅力的な解決策である一方、多くのシステムではオーディオシグナルの品質を改善することができない。最新の帯域幅機能拡張の共同の評価において、すべてのテストされた言語で知覚品質を顕著に改善することができたのは12のシステム中わずか4つだけであった[4]。
道の非常に非線形な特性をモデル化するのに十分な大きさのモデルを構築するためには、トレーニングセットを大きくし、膨大な種類のデータ、すなわち、異なる言語の異なる話者が、異なる部屋で異なる録音機材を使って録音されたデータを含む必要がある。400分に及ぶトレーニングセットは、一般に公開されている複数の音声コーパス[21]と社内録音から編集されている。トレーニングセットには、以下の言語を含むネイティブの話し言葉が含まれている:ネイティブのアメリカ英語、アラビア語、中国語(北京語)、オランダ語、英語(イギリス)、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語(ブラジル)、ロシア語、スペイン語(カスティーリャ語)、スウェーデン語。評価セットには、トレーニングセットの話者も、トレーニングセットで使用された録音セットアップも含まれておらず、長さは8分である。
-現在のフレームと前のフレームのスペクトログラムに基づいて、第1の層の畳込み演算を実行する。
-前の層の出力に基づいて、次の層の遅延畳込み演算を行う。
-最後の畳込み層のフレームあたりの出力は,回帰(LSTM,GRU)層に入力される1次元ベクトルである。
LSTM/GRU層の出力は、欠落した信号のエンベロープの推定値であるか、または代替的に、最終的に欠落した信号のエンベロープを出力する1つ以上の完全に接続された層に入力される。
R-NBはほぼ半分のdB性能を低下させる。
-コアコーダが10ミリ秒以上のフレームで動作する場合、追加のアルゴリズム遅延がない。
-DNN構造は複雑ではない
畳込み層と回帰層またはTNC層の組み合わせは、欠落信号の良い予測因子である。従って、システムの知覚された品質は、最新の状態のブラインド帯域幅拡張と比較して増加する。単純な完全結合層のような他のDNN構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。
[1] Patrick Bauer, Rosa-Linde Fischer, Martina Bellanova, Henning Puder, and Tim Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4
[2] Patrick Bauer, Jennifer Jones, and Tim Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, pp. 7039-7043.
[3] Stefan Bruhn, Harald Pobloth, Markus Schnell, Bernhard Grill, Jon Gibbs, Lei Miao, Kari Jaervinen, Lasse Laaksonen, Noboru Harada, N. Naka, Stephane Ragot, Stephane Proust, T. Sanda, Imre Varga, C. Greer, Milan Jelinek, M. Xie, and Paolo Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707
[4] Johannes Abel, Magdalena Kaniewska, Cyril Guillaume, Wouter Tirry, Hannu Pulakka, Ville Myllylae, Jari Sjoberg, Paavo Alku, Itai Katsir, David Malah, Israel Cohen, M. A. Tugtekin Turan, Engin Erzin, Thomas Schlien, Peter Vary, Amr H. Nour-Eldin, Peter Kabal, and Tim Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in English, Chinese, German, and Korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919.
[5] Peter Jax and Peter Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.
[6] Patrick Bauer, Johannes Abel, and Tim Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop o
n Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5.
[7] Hannu Pulakka and Paavo Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011.
[8] Kehuang Li and Chin-Hui Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399.
[9] Yu Gu, Zhen-Hua Ling, and Li-Rong Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301.
[10] YuGu and Zhen-Hua Ling,"Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127.
[11] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, and Koray Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.
[12] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016.
[13] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, and Oliver Kunz, "Spectral band replication, a novel approach in audio coding," in Audio Engineering Society Convention 112, Apr 2002.
[14] Konstantin Schmidt and Christian Neukam, "Low complexity tonality control in the intelligent gap filling tool," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 644-648.
[15] Hugo Fastl and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[16] Yann Lecun, Leon Bottou, Yoshua Bengio, and Patrick Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278- 2324, Nov 1998.
[17] Sepp Hochreiter and Juergen Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.
[18] Junyoung Chung, Caglar Guelcehre, KyungHyun Cho, and Yoshua Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014.
[19] John C. Duchi, Elad Hazan, and Yoram Singer, "Adaptive subgradient methods for online learning and stochastic optimization," in COLT 2010 - The 23rd Conference on Learning Theory, Haifa, Israel, June 27-29, 2010, 2010, pp. 257-269.
[20] Francois Chollet et al., "Keras 1.2.2," https://github. com/fchollet/keras, 2015.
[21] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE Internati
onal Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210.
[22] ITU-T, "ITU-T recommendation P.800. methods for objective and subjective assessment of quality," 1996.
[23] ITU-T, "ITU-T recommendation P.810. modulated noise reference unit (MNRU)," 1996.
Claims (32)
- 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成するための装置であって、
拡張周波数範囲を有する生信号(60)を生成するように構成された生信号生成器(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれず、前記生信号生成器(10)は、前記入力オーディオ信号(50)のスペクトル部分を前記拡張周波数範囲にパッチ処理するためのパッチャ(18)を備え、前記パッチ処理は1回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号(50)の特定のスペクトル部分が前記拡張周波数範囲の2つ以上のスペクトル部分にパッチ処理される、生信号生成器(10)と、
前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲及び学習済みのニューラルネットワーク(31)を用いて前記拡張周波数範囲のためのパラメトリック表現(70)を生成するように構成されたニューラルネットワークプロセッサ(30)と、
前記拡張周波数範囲のための前記パラメトリック表現(70)を用いて前記生信号(60)を処理して、前記拡張周波数範囲に周波数コンポーネントを有する処理済生信号(80)を得るための生信号プロセッサ(20)と、
を備え、
前記処理済生信号(80)または前記処理済生信号(80)及び前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、装置。 - 前記生信号生成器(10)は、
第1の調性を有する初期生信号を生成し(11a)、
前記初期生信号をスペクトル白色化処理して(11b)、前記初期生信号(60)、前記第1の調性よりも低い第2の調性を有する前記生信号(60)を得る
ように構成される、請求項1に記載の装置。 - 前記生信号生成器(10)は、第1の時間分解能(12)を用いて前記初期生信号のスペクトル白色化処理を実行するように構成される、あるいは前記生信号生成器(10)は、第1の周波数分解能(12)を用いて前記初期生信号のスペクトル白色化処理を実行するように構成され、
前記ニューラルネットワークプロセッサ(30)は前記第1の時間分解能より高い第2の時間分解能で前記パラメトリック表現(70)を生成する(32)ように構成される、または、前記ニューラルネットワークプロセッサ(30)は、前記第1の周波数分解能より低い第2の周波数分解能で前記パラメトリック表現(70)を生成する(32)ように構成され、
前記生信号プロセッサ(20)は、前記処理済生信号(80)を得るために、前記パラメトリック表現(70)を前記第2の時間分解能または前記第2の周波数分解能と共に使用して(22)前記生信号(60)を処理するように構成される、
請求項2に記載の装置。 - 前記生信号プロセッサ(20)は、前記生信号(60)をスペクトル表現に変換するための時間-周波数コンバータ(22)であって、前記スペクトル表現はスペクトルフレームの時系列を含み、スペクトルフレームはスペクトル値を有する、時間-周波数コンバータ(22)を具備し、
前記ニューラルネットワークプロセッサ(30)は、前記スペクトルフレームを前記学習済みニューラルネットワーク(31)に供給する、または前記スペクトルフレームを処理して(32)、前記スペクトル値が関数xyを用いてパワー領域に変換される処理済みスペクトルフレームが得られるように構成され、ここでxは前記スペクトル値を表しyは前記パワー領域のパワー値を表し、前記パワー値は1.5と4.5の間の値に設定され、
前記学習済みのニューラルネットワーク(31)は前記パワー領域に関するパラメトリック表現(70)を出力するように構成され、
前記生信号プロセッサ(20)は、前記パラメトリック表現(70)を線形領域に変換し(26)、前記線形領域のパラメトリック表現をスペクトルフレームの前記時系列に適用する(27)ように構成される、
請求項1~3のいずれか1項に記載の装置。 - 前記ニューラルネットワークプロセッサ(30)は前記パラメトリック表現(70)を、0.9未満のべきを関連付けた対数表現または圧縮表現で出力するように構成され、
前記生信号プロセッサ(20)は、前記対数表現または前記圧縮表現からの前記パラメトリック表現(70)を線形表現に変換する(26)ように構成される、
請求項1~4のいずれか1項に記載の装置。 - 前記生信号生成器(10)は、
前記入力オーディオ信号(50)をスペクトルフレームのシーケンスに変換するための時間-周波数コンバータ(17)であって、スペクトルフレームのシーケンスは値のシーケンスを有し、
前記パッチャ(18)は前記時間-周波数コンバータ(17)の出力を用いてそれぞれのスペクトルフレームのためのパッチ処理済信号を生成するように構成される、時間-周波数コンバータ(17)と、
それぞれのスペクトルフレームのための前記パッチ処理済信号をスペクトル白色化処理するため、または前記パッチャによるパッチ処理動作を実行する前に、前記時間-周波数コンバータ(17)からの対応する信号を白色化処理するための白色化処理ステージ(11b)と、
パッチ処理済みかつスペクトル白色化処理済みのフレームを含むフレームのシーケンスを時間領域に変換して前記生信号(60)を得るための周波数-時間コンバータ(19)であって、前記周波数-時間コンバータは前記拡張周波数範囲を適応させるように構成される、周波数-時間コンバータ(19)と、
を備えた、請求項1~5のいずれか1項に記載の装置。 - 前記生信号プロセッサ(20)内の白色化処理ステージ(11b)は、
スペクトルフレーム又は前記スペクトルフレームのパワー表現(13)をローパスフィルタ処理して(14)、前記スペクトルフレームのためのエンベロープ推定を得るためのローパスフィルタと、
前記エンベロープ推定によって前記スペクトルフレームを除算することによって白色化処理済み信号を計算する(16)ための計算機であって、前記エンベロープ推定は前記パワー表現から導出される場合、分割器はスペクトル値(15)のための線形加重係数を計算して前記スペクトル値を前記線形加重係数によって除算する、計算機と
を備えた、請求項1~6のいずれか1項に記載の装置。 - 前記生信号プロセッサ(20)は、前記入力オーディオ信号(50)または前記入力オーディオ信号(50)から導出された信号および前記生信号(60)をスペクトル表現に変換するための時間-周波数コンバータ(22)を備え、
前記ニューラルネットワークプロセッサ(30)は、前記入力オーディオ信号周波数範囲のスペクトル表現を受信するように構成され、
前記生信号プロセッサ(20)は、前記入力オーディオ信号周波数範囲のスペクトル表現に応答して前記ニューラルネットワークプロセッサ(30)が提供する前記パラメトリック表現(70)を前記生信号(60)の前記スペクトル表現に適用するためのスペクトルプロセッサ(23)を備え、
前記生信号プロセッサ(20)はさらに、前記生信号(60)の処理済みのスペクトル表現を時間領域に変換するための周波数-時間コンバータ(24)をさらに備え、
前記装置は、前記入力オーディオ信号周波数範囲の前記処理済みのスペクトル表現と前記スペクトル表現を前記周波数-時間コンバータ(24)に供給することによって、または時間領域において、前記入力オーディオ信号周波数範囲の時間表現と前記処理済の生信号(80)の時間表現とを結合することによって、前記処理済みの生信号(80)と前記入力オーディオ信号周波数範囲の結合を実行するように構成される、
請求項1~7のいずれか1項に記載の装置。 - 前記ニューラルネットワークプロセッサ(30)は、入力層(32)と出力層(34)とを備える前記学習済みのニューラルネットワーク(31)を備え、前記ニューラルネットワークプロセッサ(30)は、前記入力層(32)において、前記入力オーディオ信号(50)から導出されたスペクトログラムを受信するように構成され、前記スペクトログラムはスペクトルフレームの時系列を含み、スペクトルフレームは多数のスペクトル値を有し、また前記ニューラルネットワークプロセッサ(30)は前記出力層(34)においては、前記パラメトリック表現(70)の個々のパラメータを出力するように構成され、
前記スペクトル値は
リニアスペクトル値、または
パワースペクトル値であって、前記パワースペクトル値をリニアスペクトルから得るための処理は関数x y を用いるステップを含み、ここでxは前記リニアスペクトル値を表しyはパワー領域のパワー値を表し、前記パワー領域の前記パワー値は1.5~4.5の間の値に設定されている、パワースペクトル値、または
処理済みのパワー値であって、前記処理済みのパワー値を前記パワースペクトル値から得るための処理は対数関数または関数u v を使用した圧縮を含み、ここでuは前記パワースペクトル値を表し、vは1よりも小さい、処理済みのパワー値である、
請求項1~8のいずれか1項に記載の装置。 - 前記入力層(32)または1つ以上の中間層(33)は、1つ以上の畳込みカーネルを含む畳込み層として形成され、畳込みカーネルは前記スペクトルフレームの時系列内の少なくとも2つの異なるフレームから多数のスペクトル値の畳込み処理を実行するように構成される、請求項9に記載の装置。
- 前記畳込みカーネルは、フレームごとに第1の数のスペクトル値と前記フレームの時系列内の第2の数のフレームにまつわる二次元の畳込み処理を実行するように構成され、前記第1の数および前記第2の数は2以上5未満である、請求項10に記載の装置。
- 前記入力層(32)または第1の前記中間層(33)は少なくとも1つのカーネルを含み、前記少なくとも1つのカーネルは周波数において隣接しかつ時間において隣接する処理スペクトル値を含み、
前記学習済みのニューラルネットワーク(31)はさらに、伸張関数に基づいて動作する中間畳込み層(33b)を含み、時間指数に関して、前記畳み込み層が層のスタックの中の前の層の1つおきの結果すべてまたは2つおきの結果のみを入力として受信するようになっている、
請求項10または11に記載の装置。 - 前記学習済みのニューラルネットワーク(31)は、前記出力層(34)として、または前記出力層(34)に加えて、回帰層を含み、前記回帰層は、時間指数のための畳み込み層の出力ベクトルを受信し、前記回帰層は出力ベクトルを出力し、前記出力ベクトルはメモリを有する回帰層機能を用いて生成される、請求項9~12のいずれか1項に記載の装置。
- 前記回帰層は、長/短期記憶(LSTM)機能を含む、またはゲート付き回帰型ユニット(GRU)機能を含む、またはIIRフィルタ機能である、請求項13に記載の装置。
- 前記入力層(32)または1つ以上の中間層(33)は、計算するために、それぞれの入力について、畳込み層の畳込み機能を用いる出力を含み、前記畳込み層は残差結合を含んでいて、前記入力層(32)または前記1つ以上の中間層(33)の出力の少なくとも一群は前記畳込み機能の出力と前記畳込み機能への入力との線形結合であるようになっている、請求項9~14のいずれか1項に記載の装置。
- 前記出力層(34)は全結合層を含み、前記全結合層は、出力において、前記生信号(60)の現在の時間フレームのための前記パラメトリック表現(70)のパラメータを供給し、また前記全結合層は、前記全結合層の入力において、前記現在の時間フレームのための入力層(32)の出力値又は中間層の出力値を受信するように構成される、請求項9~15のいずれか1項に記載の装置。
- 前記入力層(32)または中間層(33)は、整数の時間指数のそれぞれについて出力データベクトルを有する畳込み層であり、
前記学習済みのニューラルネットワーク(31)はさらに、伸張された畳込み処理のための1つ以上のカーネルを有する追加の畳込み層を含み、
前記追加の畳込み層のための1つ以上のカーネルは、1整数値以上互いに異なる時間指数について少なくとも2つのデータベクトルを前記入力層(32)または前記中間層から受信して、時間指数のための出力ベクトルを計算し、
次の時間指数のための出力ベクトルを計算するために、前記1つ以上のカーネルは、前記時間指数からインターリーブされている別の時間指数のための少なくとも2つのデータベクトルを前記入力層(32)または前記中間層から受信する、
請求項9~16のいずれか1項に記載の装置。 - 前記学習済みのニューラルネットワークは、
現在の時間指数に相当する、前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲を含む現在のフレームを受信するための入力層としての第1の畳込み層であって、前記第1の畳込み層は前のフレームを1つ以上さらに使用するように構成される、第1の畳込み層と、
前記第1の畳込み層の出力を受信するための少なくとも1つの第2の畳込み層であって、前記少なくとも1つの第2の畳込み層は拡張畳込み動作を実行して現在の時間指数のためのベクトルを得るように構成される、少なくとも1つの第2の畳込み層と、
前記現在の時間指数に先行する少なくとも5個の時間指数をカバーするメモリ機能を伴う回帰機能を使用して、前記現在の時間指数のための前記ベクトルを処理するための、少なくとも1つの回帰層と、
を含み、
前記回帰層は前記出力層(34)を形成する、または前記出力層(34)は回帰層の出力を受信し、前記パラメトリック表現(70)のパラメータを出力する全結合層である、請求項9~17のいずれか1項に記載の装置。 - 前記パラメトリック表現(70)は、複数の拡張周波数範囲帯域のそれぞれの帯域のためのスペクトルエンベローブ値を有し、前記複数の拡張周波数範囲帯域は全体で前記拡張周波数範囲を形成し、
各々の拡張周波数範囲帯域は少なくとも2つのスペクトル値を含み、
前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域のための前記スペクトルエンベローブ値を使用して、前記拡張周波数範囲帯域内の前記生信号(60)の前記少なくとも2つのスペクトル値をスケーリングする(27、23)ように構成される、
請求項1~18のいずれか1項に記載の装置。 - 前記スペクトルエンベローブ値は、前記スペクトルエンベローブ値が関連付けられている前記拡張周波数範囲帯域の絶対エネルギーの大きさを示し、
前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域内の前記生信号(60)のエネルギーの大きさを計算する(25)ように構成され、
前記生信号プロセッサ(20)は、前記絶対エネルギーの大きさを使用して振幅値をスケーリングして(27)、前記拡張周波数範囲内のスケーリングされた前記スペクトル値が前記絶対エネルギーの大きさによって示されるエネルギーを有するように構成される、請求項19に記載の装置。 - 前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域内の信号のエネルギーの大きさ、および前記パラメトリック表現(70)から導出された前記拡張周波数範囲帯域の絶対エネルギーの大きさから、スケーリング係数を計算する(27)ように構成される、
請求項20に記載の装置。 - 前記入力オーディオ信号周波数範囲は狭帯域周波数範囲であり、
前記拡張周波数範囲は、前記狭帯域周波数範囲における最大周波数より大きい周波数を含む、請求項1~22のいずれか1項に記載の装置。 - 前記ニューラルネットワークプロセッサ(30)は、パラメータ群のうちの少なくとも1つのパラメータを前記パラメトリック表現(70)のパラメータとして提供するように構成され、前記パラメータ群は調性パラメータ、時間エンベローブパラメータ、スペクトルエンベローブパラメータ、スケーリング係数帯域エネルギーのセット、分布量子化値のセット、エネルギーパラメータおよびスペクトル傾斜パラメータを含み、
前記生信号プロセッサ(20)は、前記パラメータを前記生信号(60)に適応して前記処理済み生信号(80)を得るように構成される、請求項1~23のいずれか1項に記載の装置。 - 前記生信号生成器(10)は、第1の時間分解能を用いて前記生信号(60)を生成するように構成される、あるいは前記生信号生成器(10)は、第1の周波数分解能を用いて前記生信号(60)を生成するように構成され、
前記ニューラルネットワークプロセッサ(30)は前記第1の時間分解能より高い第2の時間分解能で前記パラメトリック表現(70)を生成する(32)ように構成される、または、前記ニューラルネットワークプロセッサ(30)は、前記第1の周波数分解能より低い第2の周波数分解能で前記パラメトリック表現(70)を生成する(32)ように構成され、
前記生信号プロセッサ(20)は、前記処理済生信号(80)を得るために、前記パラメトリック表現(70)を前記第2の時間分解能または前記第2の周波数分解能と共に使用して(22)前記生信号(60)を処理するように構成される、
請求項1に記載の装置。 - オーディオ信号を処理するためのシステムであって、
フレームに編成されたコアオーディオ信号を復号化するためのコアオーディオデコーダ(140)であって、前記コアオーディオデコーダ(140)はフレーム損失又はエラーフレームを伴うエラー状況を検出するように構成され、
前記コアオーディオデコーダ(140)はエラー隠蔽動作を実行して前記エラー状況のための代替フレームを得るように構成される、コアオーディオデコーダ(140)と、
請求項1~25のいずれか1項に記載の装置(100)であって、前記装置(100)は前記代替フレームを、前記入力オーディオ信号(50)として、かつ前記エラー状況のための帯域幅拡張オーディオ信号を生成するために使用するように構成される、システム。 - オーディオ信号を処理するためのシステムであって、
入力オーディオ信号(50)および前記拡張周波数範囲のためのパラメトリックサイド情報を受信するための入力インターフェース(150)と、
請求項1~25のいずれか1項に記載の帯域幅拡張オーディオ信号を生成するための装置(100)と、
を備え、
前記生信号プロセッサ(20)は、前記帯域幅拡張オーディオ信号を生成するために、前記ニューラルネットワークプロセッサ(30)が提供する前記パラメトリック表現(70)に加えて、前記パラメトリックサイド情報を使用するように構成される、
システム。 - 前記パラメトリックサイド情報は、前記ニューラルネットワークプロセッサ(30)が提供するパラメータに関連付けられた1つのビットを含み、
前記生信号プロセッサ(20)は、所定のパラメータのための前記ビットの値に従った増加によって、前記ニューラルネットワークプロセッサ(30)が提供するパラメータを修正する(160)ように構成される、
請求項27に記載のシステム。 - 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成する方法であって、前記方法は、
拡張周波数範囲を有する生信号(60)を生成するステップ(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれず、前記生成するステップ(10)は、前記入力オーディオ信号(50)のスペクトル部分を前記拡張周波数範囲にパッチ処理するステップを含み、前記パッチ処理するステップは1回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号(50)の特定のスペクトル部分が、前記拡張周波数範囲の2つ以上のスペクトル部分にパッチ処理される、生成するステップと、
前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲および学習済みのニューラルネットワーク(31)を使用して、前記拡張周波数範囲のためのパラメトリック表現(70)を生成するステップ(30)と、
前記拡張周波数範囲のための前記パラメトリック表現(70)を使用して前記生信号(60)を処理して、前記拡張周波数範囲に周波数成分を有する処理済みの生信号(80)を得るステップと、を含み、
前記処理済みの生信号(80)または前記処理済みの生信号および前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲は前記帯域幅拡張オーディオ信号を表す、方法。 - オーディオ信号を処理するための方法であって、
フレームに編成されたコアオーディオ信号を復号化するステップ(140)であって、前記復号化するステップ(140)はフレームロスまたはエラーフレームを伴うエラー状況を検出するステップを含み、
前記復号化するステップ(140)は、エラー隠蔽動作を実行してエラー状況のための代替フレームを取得する、復号化するステップ(140)と、
請求項29に記載の方法(100)であって、前記方法(100)は前記代替フレームを前記入力オーディオ信号(50)として使用して、前記エラー状況のための前記帯域幅拡張オーディオ信号を生成する、請求項29に記載の方法(100)と、
を含む、方法。 - オーディオ信号を処理する方法であって、
入力オーディオ信号(50)と拡張周波数範囲のためのパラメトリックサイド情報を受信するステップ(150)と、
請求項29に記載の方法に従って帯域幅拡張オーディオ信号を生成するステップ(100)と、
を含み、
前記生信号(60)を処理するステップ(20)は、前記帯域幅拡張オーディオ信号を生成するために、前記学習済みのニューラルネットワーク(31)が提供するパラメトリック表現(70)に加えてパラメトリックサイド情報を使用するステップを含む、
方法。 - コンピュータまたはプロセッサ上で動作するときに、請求項29~31のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17198997 | 2017-10-27 | ||
EP17198997.3 | 2017-10-27 | ||
PCT/EP2018/059593 WO2019081070A1 (en) | 2017-10-27 | 2018-04-13 | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021502588A JP2021502588A (ja) | 2021-01-28 |
JP7214726B2 true JP7214726B2 (ja) | 2023-01-30 |
Family
ID=60268209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020523777A Active JP7214726B2 (ja) | 2017-10-27 | 2018-04-13 | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US11562764B2 (ja) |
EP (1) | EP3701527B1 (ja) |
JP (1) | JP7214726B2 (ja) |
CN (1) | CN111386568B (ja) |
BR (1) | BR112020008216A2 (ja) |
RU (1) | RU2745298C1 (ja) |
WO (1) | WO2019081070A1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017222356A1 (ko) * | 2016-06-24 | 2017-12-28 | 삼성전자 주식회사 | 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치 |
US10432240B1 (en) | 2018-05-22 | 2019-10-01 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise |
JP7024687B2 (ja) * | 2018-11-07 | 2022-02-24 | 日本電信電話株式会社 | データ分析システム、学習装置、方法、及びプログラム |
CN110415686B (zh) * | 2019-05-21 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
US10763905B1 (en) | 2019-06-07 | 2020-09-01 | Micron Technology, Inc. | Wireless devices and systems including examples of mismatch correction scheme |
CN110265053B (zh) * | 2019-06-29 | 2022-04-19 | 联想(北京)有限公司 | 信号降噪控制方法、装置及电子设备 |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
KR20210003514A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 |
CN110322891B (zh) * | 2019-07-03 | 2021-12-10 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
US11005689B2 (en) * | 2019-07-11 | 2021-05-11 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for bandwidth filtering based on deep learning, server and storage medium |
CN110491407B (zh) * | 2019-08-15 | 2021-09-21 | 广州方硅信息技术有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110556121B (zh) * | 2019-09-18 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112530446B (zh) * | 2019-09-18 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
WO2021088569A1 (en) * | 2019-11-05 | 2021-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Convolution method and device, electronic device |
CN110991619A (zh) * | 2019-12-09 | 2020-04-10 | Oppo广东移动通信有限公司 | 神经网络处理器、芯片和电子设备 |
CN113140225A (zh) * | 2020-01-20 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
EP4100947A1 (en) * | 2020-02-03 | 2022-12-14 | Pindrop Security, Inc. | Cross-channel enrollment and authentication of voice biometrics |
US10972139B1 (en) * | 2020-04-15 | 2021-04-06 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating power amplifier noise with neural networks or recurrent neural networks |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
EP4169017A1 (en) * | 2020-06-19 | 2023-04-26 | Rtx A/S | Low latency audio packet loss concealment |
US11496341B2 (en) | 2020-08-13 | 2022-11-08 | Micron Technology, Inc. | Wireless devices and systems including examples of compensating I/Q imbalance with neural networks or recurrent neural networks |
EP4229629A2 (en) | 2020-10-15 | 2023-08-23 | Dolby International AB | Real-time packet loss concealment using deep generative networks |
KR102492212B1 (ko) * | 2020-10-19 | 2023-01-27 | 주식회사 딥히어링 | 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
CN112562702B (zh) * | 2020-11-30 | 2022-12-13 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
KR20220151953A (ko) * | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
CN113423005B (zh) * | 2021-05-18 | 2022-05-03 | 电子科技大学 | 一种基于改进神经网络的智能音乐生成方法及*** |
US11978466B2 (en) * | 2021-06-02 | 2024-05-07 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
US20230162725A1 (en) * | 2021-11-23 | 2023-05-25 | Adobe Inc. | High fidelity audio super resolution |
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027255A (ja) | 2010-07-23 | 2012-02-09 | Oki Electric Ind Co Ltd | 帯域拡張装置及びプログラム、並びに、音声通信装置 |
WO2013098885A1 (ja) | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP2016530548A (ja) | 2013-06-21 | 2016-09-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
JP2005501278A (ja) * | 2001-08-31 | 2005-01-13 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声信号の帯域幅拡張 |
US20050267739A1 (en) * | 2004-05-25 | 2005-12-01 | Nokia Corporation | Neuroevolution based artificial bandwidth expansion of telephone band speech |
US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
ES2642906T3 (es) * | 2008-07-11 | 2017-11-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador |
ES2678415T3 (es) * | 2008-08-05 | 2018-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica |
JP4818335B2 (ja) * | 2008-08-29 | 2011-11-16 | 株式会社東芝 | 信号帯域拡張装置 |
JP5310494B2 (ja) * | 2009-11-09 | 2013-10-09 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011097903A1 (zh) * | 2010-02-11 | 2011-08-18 | 华为技术有限公司 | 多声道信号编码、解码方法、装置及编解码*** |
CN102237959B (zh) * | 2010-04-30 | 2015-08-12 | 中兴通讯股份有限公司 | ***消息的更新方法及无线通信*** |
ES2924427T3 (es) * | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
ES2626809T3 (es) * | 2013-01-29 | 2017-07-26 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepto para compensación de conmutación del modo de codificación |
AU2014211520B2 (en) * | 2013-01-29 | 2017-04-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
BR122020016403B1 (pt) * | 2013-06-11 | 2022-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Aparelho de decodificação de sinal de áudio, aparelho de codificação de sinal de áudio, método de decodificação de sinal de áudio e método de codificação de sinal de áudio |
EP2830065A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
CN103778920B (zh) * | 2014-02-12 | 2016-03-09 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
-
2018
- 2018-04-13 JP JP2020523777A patent/JP7214726B2/ja active Active
- 2018-04-13 EP EP18716314.2A patent/EP3701527B1/en active Active
- 2018-04-13 WO PCT/EP2018/059593 patent/WO2019081070A1/en active Search and Examination
- 2018-04-13 CN CN201880070135.1A patent/CN111386568B/zh active Active
- 2018-04-13 BR BR112020008216-3A patent/BR112020008216A2/pt unknown
- 2018-04-13 RU RU2020117200A patent/RU2745298C1/ru active
-
2020
- 2020-04-17 US US16/851,680 patent/US11562764B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027255A (ja) | 2010-07-23 | 2012-02-09 | Oki Electric Ind Co Ltd | 帯域拡張装置及びプログラム、並びに、音声通信装置 |
WO2013098885A1 (ja) | 2011-12-27 | 2013-07-04 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
JP2016530548A (ja) | 2013-06-21 | 2016-09-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器 |
Also Published As
Publication number | Publication date |
---|---|
US11562764B2 (en) | 2023-01-24 |
EP3701527C0 (en) | 2023-08-30 |
JP2021502588A (ja) | 2021-01-28 |
RU2745298C1 (ru) | 2021-03-23 |
WO2019081070A1 (en) | 2019-05-02 |
BR112020008216A2 (pt) | 2020-10-27 |
EP3701527A1 (en) | 2020-09-02 |
US20200243102A1 (en) | 2020-07-30 |
CN111386568A (zh) | 2020-07-07 |
CN111386568B (zh) | 2023-10-13 |
EP3701527B1 (en) | 2023-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7214726B2 (ja) | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム | |
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
US10062390B2 (en) | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information | |
TW201009812A (en) | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs | |
Schmidt et al. | Blind bandwidth extension based on convolutional and recurrent deep neural networks | |
KR101801758B1 (ko) | 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류 | |
Motlicek et al. | Wide-band audio coding based on frequency-domain linear prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210601 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220802 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220802 |
|
C11 | Written invitation by the commissioner to file amendments |
Free format text: JAPANESE INTERMEDIATE CODE: C11 Effective date: 20220816 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220920 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7214726 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |