JP7214726B2 - ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム - Google Patents

ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム Download PDF

Info

Publication number
JP7214726B2
JP7214726B2 JP2020523777A JP2020523777A JP7214726B2 JP 7214726 B2 JP7214726 B2 JP 7214726B2 JP 2020523777 A JP2020523777 A JP 2020523777A JP 2020523777 A JP2020523777 A JP 2020523777A JP 7214726 B2 JP7214726 B2 JP 7214726B2
Authority
JP
Japan
Prior art keywords
spectral
raw signal
frequency range
signal
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020523777A
Other languages
English (en)
Other versions
JP2021502588A (ja
Inventor
コンスタンティン シュミット
クリスティアン ウーレ
ベルント エドラー
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2021502588A publication Critical patent/JP2021502588A/ja
Application granted granted Critical
Publication of JP7214726B2 publication Critical patent/JP7214726B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本願発明は、音声処理及び、特に、帯域の拡張又はインテリジェントギャップ充填のようなオーディオ信号ための帯域幅拡張技術に関する。
モバイルスピーチコミュケーションのために今日最も使用されているコーデックは、いまだ200~3400Hz(通常狭帯域(NB)と称される)の周波数のみをエンコードするAMR-NBである。人間の音声信号は非常により広い帯域幅を持っているけれども、特に摩擦音には4kHzを越えるエネルギーがしばしばある。会話の周波数範囲を制限することはより楽しく聞こないばかりか、よりわかりやすくもない[1,2]。
EVS[3]のような最先端のオーディオコーデックは、信号のより広範な周波数範囲の符号化を可能にするが、しかしこれらのコーデックの使用は、受信デバイスを含んだ全体
のコミュニケーションデバイスの変化を要求するであろう。これは大きな努力で、数年前から知られている。ブラインド周波数拡張(BBWE-人工の帯域幅拡張またはブラインド帯域幅拡張としても知られている)は付加的なビットの必要なく信号の周波数幅を拡張できる。これらはデコードされた信号にのみ適用されネットワーク又は送信デバイスのいずれの適応も必要ではない。狭帯域コーデック帯域幅が限られているという問題の魅力的な解決策である一方、多くのシステムではオーディオシグナルの品質を改善することができない。最新の帯域幅機能拡張の共同の評価において、すべてのテストされた言語で知覚品質を顕著に改善することができたのは12のシステム中わずか4つだけであった[4]。
音声生成のソースフィルタモデルに従うと、ほとんどの周波数幅拡張(ブラインド又はノンブラインド)は、2つの主要な構成要素を有する-それは刺激信号の生成と声道形状の評価である。これはまた、これは、提示されたシステムが従うアプローチでもある。励起信号を生成するために一般的に用いられる技術は、スペクトルのフォールディング、変換または非線形処理である。声道形状は、混合ガウスモデル(GMM)、隠れマルコフモデル(HMM)、ニューラルネットワークまたはディープニューラルネットワーク(DNN)によって発生することができる。これらのモデルは、スピーチ信号に基づいて計算される特徴から、声道形状を予測する。
[5]及び[6]において、励起信号は、スペクトルフォールディングによって発生し、そして、HMMによって時間領域における全極フィルタとして、声道フィルタは実現される。まず、音声信号の上側帯域を含むフレームに関して計算された線形予測係数(LPC)のコードブックは、ベクトル量子化によって作成される。デコーダ側で、特徴量はデコードされた音声信号に関して計算され、そして、HMMは特徴量を与えられるコードブック入力の条件付き確率をモデル化するのに使用される。最終的なエンベロープは、すべてのコードブック入力の加重和であり、確率は重みである。[6]では、摩擦で生じる音は、ニューラルネットワークによってさらに強調される。
[7]において、励起信号はスペクトルフォールディングによっても生成され、そして、声道はニューラルネットワークによってモデル化され、メルフィルタバンク領域でフォールドされた信号に適用されるゲインを出力する。
[8]において、DNNは、スペクトルフォールディングされた励起信号(ここではイメージ位相と呼ぶ)のスペクトルエンベロープを予測するのに用いられる。[9]のシステムも、スペクトルフォールドされた励起信号を使って、LSTM層から成っているDNNによって、エンベロープを形成する。DNNの入力としていくつかのフレームを用いるこれらの2つのシステムは、リアルタイム通信のためにはアルゴリズムの遅延があまりに大きすぎる。
最近のアプローチでは、WaveNet[11]に類似したアーキテクチャで、0~32msのアルゴリズムの遅延で、時間-領域[10]における欠落信号を直接モデル化する。
音声が送信されるとき、通常その周波数範囲は例えば帯域制限やダウンサンプリングによって制限される。この帯域制限が信号から帯域幅を除去しすぎている場合、音声の知覚品質はかなり低下する。これを克服する1つの方法は、より多くの帯域幅を送ることによってコーデックを変更する必要がある。これは、非常にコストを要し、数年を要するネットワークインフラ全体の変更が含まれる。
周波数を広げるもう一つの方法は、帯域幅拡張によって人工的に周波数レンジを広げることによってである。帯域幅拡張がブラインドの場合に備えて、エンコーダからデコーダへのサイド情報の送信は行われない。変化は、送信インフラ構造に変更を加える必要は無い。
本願発明の目的は、帯域幅が拡張されたオーディオ信号を生成するための改善された概念を提供することにある。
この目的は、請求項1の帯域幅が拡張されたオーディオ信号、請求項25または請求項26のオーディオ信号、請求項28の帯域幅が拡張されたオーディオ信号を生成する方法または請求項29または請求項30のオーディオ信号を処理する方法、または請求項31のコンピュータプログラムにより、達成される。
本願発明は、ニューラルネットワークが帯域幅拡張したオーディオ信号を生成するために有利に使用できるという発見に基づく。しかしながら、ニューラルネットワークを実装しているニューラルネットワークプロセッサが、完全な拡張周波数範囲、すなわち、拡張周波数範囲の個々のスペクトル線を生成するために使用されない。その代わりに、ニューラルネットワークプロセッサは、入力として、入力されたオーディオ信号周波数範囲を受けて、拡張周波数範囲のためにパラメトリック表現を出力する。このパラメトリック表現が、別々の生信号発生器で発生した生信号の生信号処理を実行するために使用される。生信号発生器は、スペクトル帯域複製手順のような帯域幅拡張から、または、インテリジェントギャップ充填手順からわかるように、パッチャのような拡張周波数範囲のための任意の種類の信号シンセサイザであってもよい。それから、パッチングされた信号はその後スペクトル的に白色化することができ、または、あるいは、信号はパッチングされる前にスペクトル的に白色化することができる。そして、それから、スペクトル的に白色化されたパッチングされた信号であるこの生信号は、拡張周波数範囲に周波数構成要素を持っている処理された生信号を得るためにニューラルネットワークから提供されるパラメータ表現を用いて、生信号プロセッサでさらに処理される。拡張周波数範囲は、入力された音声信号が狭帯域または低帯域信号であるストレートな帯域幅拡張のアプリケーションシナリオの高い帯域である。あるいは、拡張周波数範囲は、インテリジェントギャップ充填手順によって充填される最大周波数と特定の最小周波数の間の特定のスぺクルホールを指す。
あるいは、生信号生成器は、どんな種類の非線形性処理または雑音処理または雑音生成を使用してでも拡張周波数帯域信号を生成するために、実装されることもできる。
ニューラルネットワークは、完全な高帯域または完全な拡張周波数範囲ではなく、高帯域のパラメトリック表現を提供するためにのみ使用されるので、ニューラルネットワークは、完全な高帯域信号を生成するためにニューラルネットワークが使用される他の手順と比較して、より複雑でなく、したがって効率的にすることができる。一方、ニューラルネットワークは、低帯域信号を供給され、したがって、ニューラルネットワーク制御帯域幅拡張手順からも知られているような、低帯域信号からの追加の特徴抽出は必要とされない。さらに、拡張周波数範囲のための生信号の生成は、ニューラルネットワーク処理なしで、簡単な方法で、従って、非常に効率的に行うことができ、この生信号の後続のスケーリング、または一般的には、後続の生信号処理も、特定のニューラルネットワークの支援なしで行うことができることがわかっている。代わりに、ニューラルネットワークのサポートは、拡張周波数範囲の信号のためのパラメトリック表現を生成するためにのみ必要であり、従って、拡張周波数範囲のための生信号を生成するための一方での従来の信号処理と、生信号のシェーピングまたは処理と、さらに、最終的には、生信号プロセッサによって使用されるパラメトリック表現を生成する従来のものでないニューラルネットワーク処理との間で最適な妥協点が見出される。
従来の処理とニューラルネットワーク処理との間のこの分布は、音声品質に関する最適の妥協とどんな帯域幅拡張プロセッサででも実行されなければならないニューラルネットワークトレーニングならびにニューラルネットワークアプリケーションに関するニューラルネットワークの複雑さに関する最適の妥協を提供する。
好ましい実施形態では、白色化された生信号を生成するために、異なる時間分解能、すなわち、かなり低い時間分解能、好ましくはかなり高い周波数分解能に依存している。一方、ニューラルネットワークプロセッサおよび生信号プロセッサは、高い時間分解能、したがって、好ましくは低い周波数分解能に基づいて動作する。しかしながら、低時間分解能が高周波数分解能または高時間分解能を伴う場合もあり得る。従って、ニューラルネットワークが、例えば周波数に関して、全振幅表現よりも粗いパラメトリック分解能を有するという事実との間で、最適な妥協点が再び見出される。さらに、ニューラルネットワークプロセッサは、より高い時間分解能で動作することで、時間履歴を最適に利用することができる。つまり、オーディオ処理、特に帯域幅の拡張または帯域幅の拡張手順に特に有用なパラメトリック表現のパラメータの時間変化に高い効率で依存することができる。
本願発明のさらなる好ましい態様は、すべてのタップが1のみに設定される3タップ、4タップまたは5タップのローパスフィルタのような非常に簡単なローパスフィルタを用いてパワースペクトルをローパスまたは一般的にFIRフィルタリングすることによって生成されたスペクトルエンベロープによって元々生成された生信号を分割する、ある種の有用な白色化手順に依存している。この手順には2つの目的がある。第1の目的は、元の生信号からフォルマント構造が除去されることであり、第2の目的は、ノイズに対する高調波のエネルギーの比率が低下することである。このようにして、このような白色化された信号は、例えば、LPC残差信号よりもはるかに自然に聞こえ、そのような信号は、ニューラルネットワークプロセッサによって生成されたパラメトリック表現を用いたパラメトリック処理に特に適する。
本願発明の更なる態様は、有利な実施形態に依存しており、この実施形態では、ニューラルネットワークプロセッサは、振幅スペクトルを供給するのではなく、入力オーディオ信号のパワースペクトルを供給する。さらに、この実施形態では、ニューラルネットワークプロセッサは、パラメトリック表現、および例えば、対数領域、平方根領域、または()1/3領域のような圧縮領域でのスペクトルエンベロープパラメータを出力する。人間の知覚は線形領域ではなく圧縮領域で動作するので、ニューラルネットワークプロセッサの訓練は人間の知覚とより関連している。一方、このようにして生成されたパラメータは、生信号プロセッサによって線形領域に変換されるので、ニューラルネットワークは、パワースペクトルまたはラウドネススペクトル(振幅は3のべき乗に引き上げられる)で動作し、パラメトリック表現パラメータまたはパラメトリック表現パラメータの少なくとも一部は、対数領域または()1/3領域のような圧縮領域で出力されるが、最終的には、拡張周波数範囲信号の処理された線形スペクトル表現が得られる。
本願発明のさらなる有利な態様は、ニューラルネットワーク自体の実施形態に関する。一実施形態では、ニューラルネットワークの入力層は、振幅スペクトル、好ましくはパワーまたはラウドネススペクトルの二次元時間/周波数表現を受信する。従って、ニューラルネットワークへの入力層は、入力されたオーディオ信号の全周波数範囲を有し、さらに、一定数の先行フレームも有する二次元層である。この入力は、好ましくは、1つ以上の畳込みカーネルを有する畳込み層として実装され、この畳込みカーネルは、しかしながら、例えば、5個以下の周波数ビンと5個以下の時間フレーム、すなわち、5個以下の時間フレームのみからの5個以下の周波数ビンのみを畳込む、かなり小さな畳込みカーネルである。この畳込み入力層は、好ましくは、残差結合によって拡張され得るかまたは拡張され得ない更なる畳込み層または更なる遅延された畳込み層に続く。一実施形態では、例えば、特定の値範囲の値でパラメトリック表現のためのパラメータを出力するニューラルネットワークの出力層は、任意の回帰層がニューラルネットワークで使用されないように、畳込み層または畳込み層に接続された完全に接続された層であることができる。このようなニューラルネットワークは、例えば、S. by Baiらによる "An empiric evaluation of generic convolutional and recurrent networks for sequence modeling"、2018年3月4日、arXiv: 1803.0127 lvl [cs. LG]に記載されている。この出版物に記載されているそのようなネットワークは、回帰層に全く依存しておらず、特定の畳込み層にのみ依存している。
しかしながら、さらなる実施形態では、1つ以上の畳込み層に加えて、LSTM-層(またはGRU-層)などの回帰層が使用される。ネットワークの最後の層または出力層は、線形出力関数を有する完全に結合された層であってもよいし、そうでなくてもよい。この線形出力関数により、ネットワークは無制限の連続値を出力することができる。しかしながら、そのような完全結合層は必ずしも必要ではなく、2次元(大)入力層の時間指数あたりの1次元出力パラメータ層への低減は、2つ以上のより高い畳込み層を仕立てることによって、またはLSTM層またはGRU層のような2つ以上の回帰層を特異的に仕立てることによっても行うことができるので、そのような完全結合層は、必ずしも必要ではない。
本願発明のさらなる態様は、隠蔽のためだけのブラインド帯域幅拡張、すなわちフレーム損失が発生した場合のような本願発明の帯域幅拡張装置の具体的な適用に関する。ここで、オーディオコーデックは、非ブラインド帯域幅拡張を有していてもよいし、全く帯域幅拡張を有していなくてもよく、本願発明の概念は、フレーム損失により欠落した信号の一部を予測するか、または欠落した信号全体を予測する。
あるいは、ニューラルネットワークプロセッサを使用する本願発明の処理は、完全なブラインド帯域幅拡張として使用されるだけでなく、非ブラインド帯域幅拡張またはインテリジェントギャップ充填の一部として使用され、ここで、ニューラルネットワークプロセッサによって生成されたパラメトリック表現は、例えば、スペクトルエンベロープパラメータのような選択されたパラメータごとに1ビットのような追加のサイド情報として送信される非常に少ないビット数によって制御される何らかのデータ量子化によって、パラメータ領域において改良された第1の近似として使用される。このようにして、極低ビットレートのガイド付き拡張が得られるが、それは、しかしながら、追加の低ビットレートサイド情報を生成するためにエンコーダ内のニューラルネットワーク処理に依存し、同時に、入力オーディオ信号からパラメトリック表現を提供するためにデコーダ内で動作し、その後、このパラメトリック表現は、追加の極低ビットレートサイド情報によって改良される。
さらなる実施形態では、しばしば0.2~3.4kHzに制限される電話音声の帯域幅を拡張するブラインド帯域幅拡張(BBWE)が提供される。その利点は、知覚される品質の向上だけでなく、明瞭度の向上である。ある実施形態では、インテリジェントギャップ充填や帯域幅拡張、スペクトル帯域複製のような最先端の帯域幅拡張に似たブラインド拡張が提示されているが、余分なビットを送信する必要がなく、すべての処理がデコーダで行われるという違いがある。スペクトルエンベロープパラメータのようなパラメータは、長期短期記憶(LSTM)を持つ回帰畳込みディープニューラルネットワーク(CNN)によって推定される。実施形態では、この手順は、アルゴリズムの追加の遅延なしに20ミリ秒のフレーム上で動作し、最先端の音声および音声コーデックに適用することができる。これらの実施形態は、畳込みネットワークおよび回帰ネットワークの性能を利用して、音声信号のスペクトルエンベロープをモデル化する。
本願発明の好ましい実施形態は、添付の図面とともに以下に示す。
図1は、入力された音声信号に対して帯域幅強調された音声信号を生成するための装置の一実施形態のブロック図である。 図2aは、図1の生信号生成装置の好ましい機能を示す図である。 図2bは、図1の装置の好ましい実施形態であって、一方では生信号発生器、他方ではニューラルネットワークプロセッサおよび生信号プロセッサに異なる時間分解能が適用されている状態を示す図である。 図2cは、周波数以上のローパスフィルタを使用して生信号発生器内でスペクトル白色化動作を実行するための好ましい実施形態を示す図である。 図2dは、好ましい2回のコピーアップ動作のスペクトル状況を示すスケッチを示す図である。 図2eは、生信号生成の目的で使用され、ニューラルネットワークプロセッサによって出力されるパラメトリック表現を使用して生信号処理の目的で使用されるスペクトルベクトルを示す図である。 図3は、生信号発生器の好ましい実施形態を示す図である。 図4は、本願発明に従った帯域幅拡張オーディオ信号を生成するための装置の好ましい実施形態を示す図である。 図5は、ニューラルネットワークプロセッサの好ましい実施形態を示す図である。 図6は、生信号プロセッサの好ましい実施形態を示す図である。 図7は、ニューラルネットワークの好ましいレイアウトを示す図である。 図8aは、異なるDNN構成の性能を比較するスケッチを示す図である。 図8bは、データ量に依存する訓練集合と試験集合の誤差を示す説明図である。 図8cは、MOS値として表示されたACRリスニングテストの結果を示す図である。 図9aは、畳込み層の原理を説明するための図である。 図9bは、複数の畳込み層とLSTM層とを用いたニューラルネットワークを示す図である。 図10は、畳込み層のみを用いたニューラルネットワークを、係数iの削除を用いて説明する図である。 図11は、畳込み層の上に適用された2つのLSTM層の適用を説明する図である。 図12は、畳込み層と少なくとも1つのLSTM層とを用いた更なる好ましいニューラルネットワークを示し、最後に、次元削減のための完全結合層がニューラルネットワークの出力層であるニューラルネットワークを示す図である。 図13は、3つのフィルタカーネルを持つ畳込み層の応用例を示す図である。図10cは、直進音ぼやけを説明するための繰り返し直進音の遅延時間関数を示すグラフである。 図14は、エラー隠蔽を目的とした図1の実施形態の応用のための応用システムを説明するための図である。 図15aは、非常に低いビットレートのパラメトリックサイド情報を有する誘導帯域幅拡張における図1のシステムの適用例を示す図である。 図15bは、図15aのシステムの文脈における生信号プロセッサの好ましい実施形態を示す図である。
図1は、入力されたオーディオ信号周波数範囲がある入力されたオーディオ信号50から帯域幅拡張されたオーディオ信号を生成する装置のために、好ましい実施例を例示している。入力されたオーディオ信号周波数範囲は、低い周波数範囲または全周波数範囲であってもよいが、より小さいかより大きなスペクトルホールを有する。
本装置は、拡張周波数範囲を有する生信号60を生成するための生信号生成器10からなり、拡張周波数範囲は入力オーディオ信号の周波数範囲に含まれない。本装置は、さらに、入力オーディオ信号の入力オーディオ信号周波数範囲を使用して、訓練されたニューラルネットワークを使用して、拡張周波数範囲のパラメトリック表現70を生成するように構成されたニューラルネットワークプロセッサ30を含む。本装置はさらに、拡張周波数範囲のパラメトリック表現70を用いて生信号60を処理し、拡張周波数範囲の周波数成分を有する処理済み生信号80を得るための生信号プロセッサ20を含む。さらに、本装置は、ある実施形態では、入力オーディオ信号50と比較して、低帯域および高帯域を有する信号、またはスペクトルホールのない全帯域信号、または以前よりもスペクトルホールが少ない信号などの帯域幅拡張されたオーディオ信号を出力するオプションの結合器40を含む。
処理された生信号80は、処理された生信号と入力されたオーディオ信号の周波数範囲との組合せが、例えば図4に関して議論されているように、例えばスペクトル-時間変換内で実行される場合、生信号プロセッサの処理に応じて、帯域幅拡張信号であることが既に可能である。そうすると、この組合せは、このスペクトル-時間コンバータによって既に実行されており、図1の結合器40は、このスペクトル-時間コンバータの一部である。あるいは、処理された生信号は、次に2つの時間領域信号のサンプルごとの加算を実行するであろう別個の結合器によって時間領域入力オーディオ信号と結合される時間領域拡張信号であってもよい。拡張信号と元の入力信号とを結合するための他の手順は、当業者にとって周知である。
さらに、生信号発生器10につながる点線50で例示されるように、生信号発生器は生信号を生成するために入力された音声信号を使用することが好ましい。入力されたオーディオ信号を使用して操作する手順は、活動、例えばコピーアップ操作、高調波パッチ操作、コピーアップ操作と高調波パッチ操作の混合などのパッチ操作、または、同時にスペクトルのミラーリングを行う他のパッチ操作である。
あるいは、生信号発生器は、入力された音声信号を参照することなく動作することができる。そうすると、生信号生成器10によって生成された生信号は、ノイズ様の信号であってもよく、生信号生成器は、ある種のノイズ発生器またはある種のランダム関数がノイズを発生するように構成されるであろう。代替的に、入力オーディオ信号50を使用することができ、sgn(x)のx2倍、ここでsgn()はxの符号であるような、時間領域における何らかの非線形処理によって処理されるであろう。代替的に、他の非線形処理は、クリッピング手順または他の時間領域の手順であろう。さらなる処理は、コピーアップ、スペクトル領域でのミラーリングなどのように、帯域制限された入力信号の周波数シフトされたバージョンを実行する好ましい周波数領域の処理であろう。しかしながら、スペクトル領域でのミラーリングは、ゼロがサンプル間に挿入され、例えば、2つのサンプル間に1つのゼロが挿入されると、スペクトルのミラーリングが得られる時間領域処理操作によっても実行され得る。2つのサンプル間に2つのゼロが挿入された場合には、より高いスペクトル領域等での非ミラーリングコピーアップ演算を構成することになる。したがって、生信号生成器は、図2aに関して図示されているように、好ましくは白色化された信号であるエンハンスメント周波数範囲内の生信号を生成するために、時間領域またはスペクトル領域で動作することができることが明らかになる。しかしながら、この白色化は、必ずしもスペクトル領域で実行される必要はなく、LPCフィルタリングのような時間領域で実行されてもよく、その場合、LPC残留信号は、白色化された時間領域信号となるであろう。しかし、後述するように、本願発明の目的のためには、特定のスペクトル領域の白色化動作が好ましい。
好ましい実施形態では、ニューラルネットワークプロセッサは、入力として、オーディオ信号、特にオーディオ信号のスペクトル値のフレームのシーケンスを受信し、ここで、スペクトル値は、振幅値であるが、より好ましくは、パワー値、すなわち、あるパワーまで引上げられたスペクトル値または振幅であり、パワーは、例えば、2(パワー領域)または3(ラウドネス領域)であるが、一般的には、1.5~4.5の間のパワーを、ニューラルネットワークに供給する前に、スペクトル値を処理するために使用することができる。これは、例えば、低帯域振幅スペクトルフレームの系列をスペクトルフレームの時間系列に変換するためのパワースペクトルコンバータを図5の項目32に例示し、次いで、スペクトルフレームの時間シーケンスが線形振幅であるかパワー振幅であるかラウドネス振幅であるかを問わず、好ましくは圧縮領域でパラメトリックデータを出力する訓練されたニューラルネットワーク31に入力される。これらのパラメトリックデータは、調性パラメータ、時間エンベロープパラメータ、スケーリング係数帯域エネルギー、分布量子化値、エネルギー値または傾斜値などのスペクトルエンベロープパラメータのような、欠落または帯域幅拡張信号を記述する任意のパラメトリックデータであってもよい。例えば、スペクトル帯域複製処理から知られている他のパラメータは、逆フィルタリングパラメータ、ノイズ付加パラメータまたは欠落高調波パラメータであり、スペクトルエンベロープパラメータに加えて使用することもできる。好ましいスペクトルエンベロープパラメータまたは一種の「ベースライン」パラメトリック表現は、スペクトルエンベロープパラメータであり、好ましくは、いくつかの帯域の絶対エネルギーまたはパワーである。入力オーディオ信号が狭帯域信号のみである真の帯域幅拡張の文脈では、拡張範囲は、例えば、4つまたは5つの帯域のみ、またはせいぜい10個の拡張帯域を有することができ、その場合、パラメトリック表現は、帯域ごとに単一のエネルギーまたはパワーまたは振幅に関連する値、すなわち、例示的な10個の帯域のための10個のパラメータのみで構成されることになるであろう。
一実施の形態では、帯域幅拡張が、例えば3GPPの拡張された音声サービス(EVS)またはMPEG・ACCの任意のスピーチと音声コーデックの拡張として使用することができる。図1に図示される帯域幅拡張処理への入力は、復号され、かつ、例示的に帯域制限されたオーディオ信号である。出力は、欠落した信号の推定である。推定は、波形としての信号または例えばFFTまたは修正離散コサイン変換(MDCT)等の変換の係数でありえた。ニューラルネットワークプロセッサ30で生成されるパラメータは、以前例示的に議論されたパラメトリック表現70のパラメータである。
信号が若干の粗いパラメータによって記述されている場合、人工的な信号が発生し、それから、ニューラルネットワークプロセッサ30によって推定されるパラメータによって修正される。
図2aは、生信号発生器10で実行される好ましい手順を例示している。ステップ11aにおいて、生信号発生器は最初の調性で信号を生成し、そして、更なるステップ11bにおいて、生信号発生器は第2の低い調性で信号を得るために最初の調性で信号をスペクトル的に白色化する。換言すると、第2の信号の調性は、第1の信号の調性より低く、および/またはステップ11bによって得られる信号は、ステップ11aによって生成される信号よりより白いかより白くなる。
さらに、図2bは、一方では生信号発生器10と、他方ではニューラルネットワークプロセッサ30と生信号プロセッサ20との間の協働のある好ましい実施形態を図示している。図12で概説されているように、生信号生成器は、第1の(低い)時間分解能を有する生信号を生成し、図32で概説されているように、ニューラルネットワークプロセッサ30は、第2の(高い)時間分解能を有するパラメトリックデータを生成し、生信号プロセッサ20は、次に、パラメトリック表現の時間分解能に応じて、第2のまたは高い時間分解能を有する生信号をスケーリングするかまたは処理する。好ましくは、ブロック32および22の時間分解能は同じであるが、代替的に、これらのブロックは、ブロック32の時間分解能がステップ12で使用されるスペクトル白色化時間分解能よりも高い限り、および生信号をスケーリング/処理するために使用される時間分解能が図2bのブロック12で図示される生信号の生成の時間分解能よりも高い限り、異なる時間分解能に依存することさえ可能である。従って、一般的には、生信号が低い時間分解能で生成され、処理およびニューラルネットワークが高い時間分解能で行われる、または生信号が高い周波数分解能で生成され、処理およびニューラルネットワークが低い周波数分解能で行われる、という2つの実施形態が存在する。
図2dは、入力信号が例えば200Hzから3.4kHzの間の狭帯域入力信号であり、帯域幅拡張動作が真の帯域幅拡張である実施形態におけるスペクトルの状況を示している。ここで、入力された音声信号は、図3に図示した時間-周波数コンバータ17に入力される。そして、パッチャ18によるパッチングが行われ、その後、白色化ステップ11bが行われ、その結果が周波数-時間コンバータによって時間領域に変換される。図3のブロック19の出力は、時間領域の生信号のみであってもよいし、時間領域の生信号と入力音声信号とであってもよい。さらに、白色化器11bとパッチャ18との間の動作順序を交換することができること、すなわち、時間-周波数コンバータによって出力された信号、すなわち低帯域信号または入力オーディオ信号であり、その後、既に白色化された信号は、1回、または図2dに図示されているように2回、すなわち第1のコピーアップ動作と第2のコピーアップ動作によって、完全な拡張周波数範囲が第1のコピーアップ動作と第2のコピーアップ動作の周波数範囲によって構成されるように、パッチされる。当然のことながら、図3のパッチャ18は、必ずしもコピーアップ動作を行わなくてもよいが、スペクトルミラーリング動作、または生成前または生成後に白色化された拡張周波数範囲の信号を生成するための他の任意の動作を行ってもよい。
好ましい実施形態では、図2bの11bで図示された、または図3の11bで図示されたスペクトル白色化操作は、図2cで図示された手順からなる。時間領域表現をスペクトル表現に変換するためのFFTプロセッサ、MDCTプロセッサ、または他の任意のプロセッサであり得る図3の時間-周波数コンバータ17によって生成されたような線形スペクトルフレームは、リニア-パワーコンバータ13に入力される。リニア-パワーコンバータ13の出力は、パワースペクトルである。ブロック13は、ブロック13の出力でパワースペクトルを得るためには、2の値が好ましいが、2の値、3の値、一般的には1.5から4.5の間の値などのパワー(べき)を有する演算など、任意のパワー演算を適用することができる。次いで、パワーフレームをローパスフィルタで周波数にわたってローパスフィルタリングして、パワースペクトルエンベロープ推定値を得る。
次いで、ブロック15において、パワー-リニアコンバータ15を用いて、パワースペクトルエンベロープ推定値を線形領域に戻変換を行い、リニアスペクトルエンベロープ推定値は、好ましい実施形態において、生信号または生信号のスペクトルフレームに対応する白色化されたスペクトルフレームを出力するために、線形スペクトルフレームも受信する白色化計算機16に入力される。特に、リニアスペクトルエンベロープ推定値は、リニアスペクトルフレームの各スペクトル値に対して所定の線形係数であり、したがって、リニアスペクトルフレームの各スペクトル値は、ブロック15によって出力されるリニアスペクトルエンベロープ推定値に含まれる対応する重み付け係数で除算される。
好ましくは、ローパスフィルタ14は、たとえば、3つ、4つまたは、5つのタップのみ有するFIRフィルタで、または、最高でも、8つのタップを有し、そして、好ましくは、少なくとも3つのタップは同じ値を持って、1に等しいか、または5個の全てのフィルタタップ、または、通常、すべてのフィルタ・タップはローパスフィルタ動作を得るために1等しい。
図2eは、図4の中でシステムの動作の文脈で実行される処理を示す。
人間の音声生成プロセスの基本的な音響モデルは、喉頭上声道の形状によって決定される伝達フィルタによって変調された周期的なパルス状の励起信号(喉頭信号)を組み合わせたものである。さらに、声道や***の収縮による乱流空気の流れに起因するノイズ様信号も存在する。このモデルに基づいて、スペクトル的に平坦な励起信号を拡張し、声道フィルタの推定値を用いて整形することで、欠落している周波数範囲を拡張する。図1に提案されたシステムを示す。デコードされた時間領域の信号から、20msのブロックがDFTによって周波数領域に変換される。隣接するフレームのフレーム増分(ホップサイズ)は10msである。周波数領域では、信号はゼロパディングによって16kHzにアップサンプリングされ、3.4kHz以上の欠落した周波数コンテンツは、インテリジェントギャップ充填(IGF)やSBR [12,13]のような帯域幅拡張と同じ方法で生成される:低いビンは欠落信号を生成するためにコピーアップされる。AMR-NBのようなコーデックは200~3400Hzの間のコア周波数のみを符号化するので、この信号は80003200=4800Hzの欠落した範囲を埋めるのに十分ではない。そのため、この操作は2回行わなければならない。1回目は3400~6600Hzの範囲を埋めるためであり、もう1回目は6600~8000Hzの範囲を埋めるためである。
この人工的に生成された信号は、元の励起信号と比較して非常に調性が高い。IGFで使われる低い複雑な方法は、調性[14]を減らすのに使用される。パワースペクトルにFIRフィルタリングを実行することによって生成されたそのスペクトルエンベローブによって信号を分割するためのアイデアがここに存在する。これには2つの目的がある-第1に、フォルマント構造はコピーされた信号(これは残りのLPCを用いて達成ることもできる)から除去され、第2には、雑音への高調波のエネルギーの比率は下げられる。従って、この信号は、より自然に聞こえる。
初期のDFTの2倍の大きさの逆DFTを行った後、50%オーバーラップのオーバーラップ加算ブロックにより、サンプリング周波数16kHzの時間領域信号を生成する。この3400Hz以上の平坦な励起信号を有する時間領域信号は、今度は、元の信号のフォルマント構造に似た形状になる。これは、10msのブロックで動作するより高い時間分解能を有するDFTの周波数領域で行われる。ここでは、3400Hzから8000Hzの範囲の信号は、約1バーク幅の5つの帯域に分割され[15]、帯域b内の各DFT-binXiは、スケーリング係数fbによってスケーリングされている。
Figure 0007214726000001
スケーリング係数fbは、対数関数的エネルギー推定Lbと帯域bにおけるビンiの合計又は平均エネルギーとの比率であり:
Figure 0007214726000002
Figure 0007214726000003
Figure 0007214726000004
Figure 0007214726000005
Figure 0007214726000006
従って、図4に示されるように、狭帯域入力オーディオ信号50は、スペクトルベクトルがサンプリングレートの半分までの周波数、すなわち8kHzまでの周波数のみを有することを意味する「短い」変換または変換を実行する第1の時間-周波数コンバータに入力される。時間窓の長さは20ミリ秒、または一般的には一定の値である。有用なスペクトルは3.4kHzまでしか到達しないので、3.4kHzと4kHzの間のスペクトルベクトルの上位部分は、70で図示されているように未使用である。次に、スペクトルベクトル71を得るために、このスペクトルベクトル70に対してゼロパディングが行われる。次いで、スペクトルベクトル71のゼロパディング部のゼロは、コピーアップ手順によって有用な値で埋められ、さらに、コピーアップ部のスペクトル値は、図4のブロック11bによってスペクトル的に白色化される。その後、スペクトルベクトル72を用いて逆FFTを行う。変換アルゴリズムに入力される値の数は、スペクトルベクトル70によって図示される図4のブロック17によって実行される時間-周波数変換によって生成されるスペクトル値の数の2倍であるので、変換アルゴリズムは長い変換アルゴリズムである。
そして、重要なことに、例えば、ブロック50への入力での信号が8kHzのサンプリングレートを持っている点に注意すべきであり、そして、ブロック19による信号出力は、現在倍のサンプリングに、すなわち、16kHzを有するが、現在、スペクトル範囲は、8kHzまで上昇する。
さて、生信号プロセッサ20は、さらなる時間-周波数変換を実行するが、再び短いアルゴリズムカーネルを使用する。好ましくは、ウィンドウ長は10msであるので、スペクトルベクトル72に関して、図4のブロック22によって得られた現在生成されたスペクトルベクトル73は、より短いウィンドウ長のためにスペクトル値の数が少なく、スペクトル値の数は、3.4~4kHzの間の範囲を離れて、スペクトルベクトル70に関して議論されたものと再び等しい。
このように、スペクトルベクトル73に関して、低帯域のスペクトル値の数はブロック72の低帯域のスペクトル値の数に関して半分であり、そして、ブロック73の高帯域値の数は、より高い時間分解能以外の低い周波数分解能を例示しているブロック72の高帯域値の数に関して半分でもある。
それから、スペクトルベクトル74で例示されるように、コピーアップ範囲はニューラルネットワークプロセッサ30からパラメータ表現を用いて計測され、そして、特に、スケーリングブロック23内のディープニューラルネットワーク31から、ブロック74は最終的に広帯域音声が得られるように、短いカーネルで再び時間領域に戻すように変換する。
すべての変換動作で、FFT動作またはMDCT動作、50%の重複部分が実行される。このように、スペクトルベクトル73と74に対応する2つの10msの時間フレームは、低いサンプリングレートの一つのスペクトルベクトル70または高いサンプリングレートのスペクトルベクトル71および72と同じ時間範囲を構成する。
変換アルゴリズム22または24によって処理されるブロックの時間長は、図4のプロセッサ17または19によって処理されるブロックの時間長の1/2であることが好ましく、または、その代わりに、1/3、1/4、1/5などの関係であってもよい。このように、時間フレームは、必ずしも生信号生成器における処理が20ms、生信号プロセッサ20における処理が10msである必要はない。その代わりに、例えば、生信号プロセッサ10が10msを使用する場合には、生信号プロセッサ20が5msを使用するか、または、生信号生成器10が40msを使用する場合には、生信号プロセッサ20が20ms、10ms、または5msを使用することができる。
さらに、図4に関して留意すべきことは、コンバータ22の出力の低帯域がニューラルネットワーク31に入力され、高帯域がスケーラ23に転送され、逆周波数-時間コンバータ24は、それにもかかわらず、図2eに図示されているように、ブロック31にも入力された低帯域とスケーラ23の出力での高帯域とを結合するであろうということである。当然のことながら、DNNプロセッサ31のための低帯域もまた、ブロック17の出力から到来することができ、または入力50から直接到来することができる。一般に、生信号発生器に入力されるような特定の入力オーディオ信号がニューラルネットワークプロセッサに入力されるのではなく、低サンプリングレートにあるか高サンプリングレートにあるかにかかわらず、入力オーディオ信号の周波数範囲がニューラルネットワークプロセッサに入力される必要のみがあるが、図4の実施形態では、高サンプリングレートの入力オーディオ信号の周波数範囲が、図4に図示された「ローバンド」としてニューラルネットワークプロセッサ31に入力されることが好ましい。
図6は、生信号プロセッサ20の好ましい実を示す。生信号プロセッサは、生信号生成器10から生信号を受信する生信号パワー推定器25を含む。次に、生信号パワー推定器は、生信号のパワーを推定し、この推定値をスケーリング係数計算機27に転送する。スケーリング係数計算機27には、ニューラルネットワークプロセッサから供給された広帯域信号の特定帯域のエネルギーの推定値などのパラメトリックデータを、対数または()1/3領域からパワー領域に変換するための領域コンバータ26がさらに接続されている。次いで、スケーリング係数計算機27は、各帯域についてスケーリング係数fbを計算し、この値をリニアコンバータ28によって線形領域に変換し、次いで、生信号60の実数または複素数値の振幅を、スケーリング係数を用いてブロック29で図示されているようにスペクトル領域で動作する生信号スケーラによってスケーリングする。したがって、例えば、帯域内に5つの実数または複素数の振幅がある場合、それら5つの振幅はすべて、ブロック28によって生成された同じ線形スケーリング係数によってスケーリングされ、このスケーリングは、ブロック29において行われ、ブロック29の出力においてスケーリングされた生信号を得る。このように、ある実施形態では、スケーリング係数計算機27は、式(2)の計算を行い、生信号スケーラ29は、ある実施形態では、式(1)の演算を行う。領域コンバータ26の演算は、上記式(2)の分子内の指数関数によって行われ、ブロック25によって行われる生信号パワー推定は、上記式(2)の分母内で行われる。
図6が概略スケッチを例示するだけである点に注意すべきであり、そして、それが式(2)に関してすでに論したように、ブロック25、26、27の機能は、式(2)で例示される一回の計算動作の範囲内で実行することができることは当業者にとって明白である。同時に、ブロック28と29の機能は、上記の式(1)に関して例示されるように、一回の計算の範囲内で実行されることができる。
図7は、図1のニューラルネットワークプロセッサ30で使用されるような、特に図5のブロック31で使用されるようなニューラルネットワークの好ましい実施形態を示す。好ましくは、ニューラルネットワークは、入力層32と出力層34と、特定の実施形態では、1つ以上の中間層33とからなる。特に、ニューラルネットワークプロセッサ30は、入力層32において、入力オーディオ信号から導出されたスペクトログラムを受信するように構成されており、このスペクトログラムは、スペクトルフレームの時系列を含み、ここで、スペクトルフレームは、スペクトル値の数を有し、ニューラルネットワークは、出力層において、パラメトリック表現70の個々のパラメータを出力する。特に、入力層32に入力されるスペクトル値は、リニアスペクトル値、または、好ましくは、1.5と4.5の間のパワー(べき)を用いて処理されたパワースペクトル値、さらに好ましくは、2のパワー(パワー領域)または3のパワー(ラウドネス領域)を用いて処理されたパワースペクトル値、または、最も好ましくは、1.5と4.5の間のパワー(べき)を用いて処理されたパワースペクトル値、さらに好ましくは2(パワー領域)または3(ラウドネス領域)のパワー(べき)を使用して処理されたパワースペクトル値を、対数関数のような圧縮関数、または()1/3関数、または一般的に1.0よりも低いパワー(べき)を有する関数を使用して、ラウドネス領域または圧縮領域の値を持つように処理される。線形スペクトル値が実数/虚数(実数+j虚数)表現で与えられる場合、処理されたパワースペクトル値を得るための好ましい処理は、log(real2+imag2)または(real2+imag2)1/3であろう。
ある実施形態では、例えば図9aまたは図9bに図示されているように、入力層のみ、または入力層と1つ以上の中間層は、畳込み層を構成し、畳込み層は、1つ以上の畳込みフィルタカーネルを構成し、ここで、2つは図9aに図示されている。特に、図9aでは、オーディオ信号のスペクトログラムは、時間が左から右に行き、周波数が上から下に行く2次元の形態で図示されている。
フレームiのためのフィルタカーネルは、基本的な正方形として例示され、フレームi+1のためのフィルタカーネルが右側の正方形で例示され、そして、周波数f+1のためのフィルタカーネルが上側の小さい四角形で例示されることを示した。
基本層のための個々の畳込み層は第1の層であり、第2の層33a,33bも同様に図示されており、この実施形態では、畳込み層は、LSTM層34のような少なくとも1つの回帰層に続いている。この層は、この態様では、既に出力層34を表している。
さらに、図9bは、本実施形態では目標エンベロープ、または一般的にはスペクトル表現が80で図示されている訓練状況を示しており、目標エンベロープと出力層34によって行われるエンベロープ推定値との間の誤差は、この誤差を最小化することによって訓練成功率を高めるために使用される。
図10は、更なるニューラルネットワークを例示する。出力層34が畳込み層と、図10の実施例において、第2の畳込み層であるという点で、図10におけるニューラルネットワークは図9bにおけるニューラルネットワークと異なる。
さらに、入力層32は、図9bに関して既に議論されているように、スペクトログラムを受信する層であり、入力層データは、第1の畳込み層33の出力結果を生成するために動作する1つ以上の畳込みカーネルによって処理される。図10の出力層34である第2の畳込み層34は、同時に、係数iの削除を実行する。これは、例えば、第2の畳込み層34における時間指数i+1のデータが、第1の畳込み層32のi+1のデータと、i-1およびi-3のデータとを用いて計算されることを意味する。
これに対応して、第2の畳込み層34の時間指数iのデータは、第1の畳込み層の時間指数iのデータ、第1の畳込み層の時間指数i-1のデータ、および第1の畳込み層の時間指数i-4のデータから計算される。このように、第1の畳込み層の特定の結果は、第2の畳込み層を計算する際にダウンサンプリングされるが、典型的には、第1の畳込み層からのすべてのデータは、図10で議論され、図示されたインターリーブ処理により、最終的に第2の畳込み層の特定のデータを計算するために使用される。
図10は、時間指数のみを図示しているが、周波数指数または周波数次元は、図10には図示されていないことに留意されたい。周波数次元は、図10の平面内に入るか、または図10の平面外に出る。周波数処理に関して、層から層への次元の縮小もまた、最終的に、すなわち、最も高い畳込み層または出力層に関して、学習のための目標エンベロープを例示する、または一般的に、学習目的のための目標スペクトル表現を例示する層80において図10の上部に図示されているように、誤差を最小化するために、目標パラメータと比較されるパラメータのセットのみが発生するように、実行されてもよい。
図11は、2つの異なるLSTMセルで最も高いか「最後の」畳込み層33aと以降のLSTM層との間での組合せを例示する。このように、図11は、2つのLSTMセル、LSTM1, LSTM2が使われるときにLSTM層はどのように見えるかという状況を例示する。このように、LSTMセルを1つだけ持つ場合に比べて、LSTM層の次元が大きくなることがわかる。
実施形態では、回帰層内で動作する回帰層プロセッサは、IIRフィルタとして実装される。IIRフィルタのフィルタ係数は、ニューラルネットワークの訓練によって決定され、入力音声信号の過去の状況は、IIRフィルタの記憶状態によって反映される。このように、回帰プロセッサのIIR(無限インパルス応答)の性質により、過去に深くまで及ぶ情報、すなわち、現在のフレームよりも例えば30秒または1分前のスペクトルフレームからの情報は、それにもかかわらず、現在の状況に影響を与える。
図12は、入力層32、2つの畳込み層33a、33b、および上位LSTM層33dからなるニューラルネットワークのさらなる実施形態を示す。しかしながら、先に説明したニューラルネットワークとは対照的に、出力層は、次元削減を実行するための、すなわち、入力層32からの2次元の高次元を低次元、すなわち、時間フレームあたりのパラメトリック表現のパラメータ数が少ないものに削減するための、完全に結合された層である。さらに、図13は、畳込み層の2次元入力または出力が、例えば3つの畳込みフィルタカーネルによって処理される場合を例示している。この場合、一方は、各層について、最終的に、加算器90によって一緒に加算された複数の行列を受取り、その後、その結果は、再び、加算器90のサンプルごとの加算操作によって単一の行列に圧縮された層出力を示す93に示された単一の出力行列を生成するために、RELU関数92のような関数に入力され、各操作または追加の結果について、関数演算子92による後続の関数処理が行われる。当然のことながら、関数演算子92は、ニューラルネットワーク処理の技術分野で知られているように、RELUとは異なる任意の他の演算子であってもよい。
Figure 0007214726000007
CNNは、目の中の受容野の組織に着想を得た多層パーセプトロンのバリエーションである。CNN層は、訓練中に学習されたカーネル係数を持つフィルタカーネルの層である[16]。CNNは完全に接続された層よりも局所的な依存性をより良く、より少ない学習可能な係数で利用することができる。フィルタカーネルの次元は原則として任意であるが,入力データの次元を超えてはならない。ここでは、2次元のフィルタカーネルが時間および周波数次元の入力スペクトログラムに畳込まれている。これらのフィルタは、スペクトルセントロイドやメル周波数ケプストラム係数のような特徴に似た信号の抽象的なパターンを検出することができる。
畳込み層の後に回帰層が続く。回帰層は、より長い時間依存性を学習するのに適する。回帰層にはさまざまなタイプがあり、ここではLSTM層が最も優れた性能を示した。LSTMは長い時間構造だけでなく短い時間構造も利用できる[17]。ゲートリカレントユニット(GRU)の層を使用しても、同様の性能を達成することができるが、わずかに性能が低下する[18]。
ネットワークの最後の層は、線形出力機能を持つ完全に結合された層である。線形出力関数により、ネットワークは無制限の連続値を出力することができる。
Figure 0007214726000008
重要な点は、損失関数の定義である。システムは最終的に人間のリスナーによって判断されるので、知覚的に動機づけられた損失は有益である。さらに、学習はKeras[20]のようなディープラーニングライブラリを用いて行われ、そのため、損失とその導関数はCPUやGPU上で効率的に計算できなければならない。この著作では、式3の対数は粗いラウドネスモデルを実装している。の利点は、誤差関数がユークリッド距離まで小さくなることである。式3の対数を()1/3に置換えることも試みたが、非公式のリスニングでは効果が見られなかった。
提示されたシステムは、リアルタイムアプリケーションで使用されるべきであるので、もう一つの重要な側面として、DNNのアルゴリズム遅延がある。DNNは1フレームのフレーム増分で連結されたフレームで動作するため、遅延の主な原因は最初の畳込み層から来ている。遅延を可能な限り低く抑えるために、カーネルの時間次元を、カーネルが3つのフレームをカバーすることを意味する3に設定した。DNNは2のアップサンプリングと励起生成よりも短いフレームで動作するので、畳込み層は追加のアルゴリズムの遅延を増さない。周波数方向では、カーネルは250Hzをカバーする。他のカーネルサイズもテストしたが、性能は向上しなかった。
DNNのトレーニングの重要な側面の1つは、トレーニングセットの汎用性である。声
道の非常に非線形な特性をモデル化するのに十分な大きさのモデルを構築するためには、トレーニングセットを大きくし、膨大な種類のデータ、すなわち、異なる言語の異なる話者が、異なる部屋で異なる録音機材を使って録音されたデータを含む必要がある。400分に及ぶトレーニングセットは、一般に公開されている複数の音声コーパス[21]と社内録音から編集されている。トレーニングセットには、以下の言語を含むネイティブの話し言葉が含まれている:ネイティブのアメリカ英語、アラビア語、中国語(北京語)、オランダ語、英語(イギリス)、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語(ブラジル)、ロシア語、スペイン語(カスティーリャ語)、スウェーデン語。評価セットには、トレーニングセットの話者も、トレーニングセットで使用された録音セットアップも含まれておらず、長さは8分である。
さらに、ニューラルネットワーク処理のさらなる説明は、後述する。
最初の畳込み層の入力は、tが時間インデックス、fが周波数インデックスであるスペクトログラム行列S[t,f]である。Sは,あらかじめ定義されたカーネルサイズ(例えば,3×2)のフィルタカーネルkで畳込まれる。Sを単一のフィルタカーネルで畳込むと新しい行列Cが生成される。Cの1つのエントリは、以下のベクトル積の結果である。
Figure 0007214726000009
ここで,シグマはある種の非線形関数,例えばRELUである。パディングが使用されないので、行列Cの次元は、フィルタカーネルの大きさに応じて縮小される。
第2の畳込み層およびそれに続く畳込み層は、畳込み演算が遅延畳込みであるという違いをもって、第1の畳込み層と同様に動作する。遅延畳込みの入力は、前の層のダウンサンプリングされたバージョンである。数学的には:
Figure 0007214726000010
ここでn,mが2,3....のような正の整数値である。n,mが1の場合、畳込み演算は単純な畳込み演算となる。
図10は、1次元信号を用いた遅延畳込み処理の一例を示す図である。重要なのは、後続の2つのオーディオフレームi、i+1の処理である。この処理により、リアルタイムオーディオ動作に必要な低遅延処理が保証される。
前節で説明した畳込みは、Sの変換Fと見なすことができる。
Figure 0007214726000011
残りの結合を追加すると、入力のバイパスを追加するだけで式(4)が変化する。
Figure 0007214726000012
バイパスの利点は、Kaiming He:Deep Residual Learning for Image Recognition, 2015に記載されているように、訓練後のネットワークのパフォーマンスがはるかに優れていることである。
LTSM/GRU層の動作は非常に単純で,単一フレームの畳込み層の出力ベクトルを入力とし、同じ次元の出力ベクトルを生成する:
Figure 0007214726000013
Figure 0007214726000014
その後、実施例における一つの音声フレームの処理が、記述される。
1つの音声フレームは以下の方法で処理される。
-現在のフレームと前のフレームのスペクトログラムに基づいて、第1の層の畳込み演算を実行する。
-前の層の出力に基づいて、次の層の遅延畳込み演算を行う。
-最後の畳込み層のフレームあたりの出力は,回帰(LSTM,GRU)層に入力される1次元ベクトルである。
LSTM/GRU層の出力は、欠落した信号のエンベロープの推定値であるか、または代替的に、最終的に欠落した信号のエンベロープを出力する1つ以上の完全に接続された層に入力される。
そのように、全部の構造のアルゴリズム的な遅れは、一つの音声フレームだけである。
単純な完全に接続された層のような他のDNN構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。
信号の予測に使用されるDNNには、2つのバリエーションがある。最初のものは上記の論文には記載されておらず、S. Bai et. Al.:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling.に記載されている時間畳み込みネットワーク(TNC)である。このネットワークは、削除と残りの結合を有する畳込みネットワークである。
第2の変形版は、LTSMやGRUのような1つ以上の回帰層に続く1つ以上の畳込み層で構成されるDNNである。第1の層は、任意で1つ以上の畳込み層である。出力層(最後の層)の活性化関数は、推定されたパラメータの値範囲を表すことができる(例えば、無制限の範囲の値を推定するための線形関数、または正の値のためのRELU関数)。DNNはバックプロパゲーションまたは何らかの変形版(ADA grad ADAMなど)を用いて訓練され、誤差は元の信号への反復あたりの距離である。
その後、別のシステムについて評価を行う。このために、図8aは、異なるDNN構成の性能を比較したものである。システムOPT(テストしたシステムの中で最適なシステム)は、2つの畳込み層(4つのカーネル)に続いて2つのLSTM層(各16ユニット)を持つ。システムAは単一のCNN層(4カーネル)と単一のLSTM層(16ユニット)を持つ。システムBはCNN層を持たず、2つのLSTM層(32と16ユニット)を持つ。システムCは2つのCNN層(各4カーネル)を持っている。
図8bは、データ量に依存する訓練集合(破線)と試験集合(実線)の誤差を示したものである。学習データが少ない(100分以下)と、強いオーバーフィットが発生する。訓練データが400分以上の場合には、オーバーフィットは解消される。
図8cは、94%の信頼区間を持つMOS値として表示されたACRリスニングテストの結果を示している。テスト対象のコーデックは、左から順に、1) ダイレクトホワイトバンド、2) ダイレクトナローバンド、3-5) MNRU 10-30 dBノイズ、6)AMR-NB 7.4kbps、7)拡張を有するブラインド帯域を有するAMR-NB 7.4kbps、8)オラクルBWEによるAMR-NB 7.4kbps、9)AMR-NB 12.2kbps、10)BBWEによるAMR-NB 12.2kbps、10)オラクルBWEによるAMR-NB 12.2kbpsである。
提示されたシステムは、客観的および主観的な試験によって評価された。まず、対数スペクトル歪(LSD)を最大化することで、ネットワークの構造を最適化した。LSDは、線形予測係数の量子化に関して多くの出版物で使用されているよく知られた尺度であり、主観的知覚とよい相関がある。
Figure 0007214726000015
Figure 0007214726000016
図8aは、異なるDNN構成の性能を比較したものである。最も性能の良いシステム(Opt)は、1層あたり4個のフィルタを持つ2つの畳込み層を持ち、続いて、各層に16個のユニットを持つ2つのLSTM層を持つ。システムAは、4つのカーネルを持つ単一のCNN層と16ユニットの単一のLSTM層を持っている。システムBはCNN層を全く持たず、2つのLSTM層(32,16ユニット)を持つ。システムCは2つのCNN層(1層あたり4つのフィルタカーネル)を持ち、LSTM層はない。ここでは、LSTM層が性能に最も大きな影響を与えることがわかる。LSTM層を持たないシステムは、LSTM層を持つシステムよりも性能が非常に悪い。畳込みレイヤの性能への影響は小さく、畳込みレイヤを持たないシステムでは、最高のシステムよりも0.5dBだけ性能が低下する。
図8bは、訓練データの量が性能に与える影響を示している。小さな訓練セットは、訓練セットでは非常に良好な性能を発揮するが、未知のデータでは性能を発揮しないモデルにつながることがある。ここでは、400分以上の訓練セットで、オーバーフィットがほとんどないモデルを作成するのに十分であることを示している。もちろん、これははるかに高い容量のモデルには一般化されないかもしれない。
表1は、AMR-NBで符号化された音声と符号化されていない音声のミスマッチの訓練セットとテストセットの性能を評価したものである。左の列はAMR-NBでコード化された音声で訓練されたDNNの性能を示し、右の列はコード化されていない音声で訓練されたDNNの性能を示す。上段はAMR-NBでコード化されたテストセット、下段はコード化されていないテストセットである。明らかに、AMR-NBでコード化された音声に対して訓練されたDNNは、その逆よりも、コード化されていない音声に対してシステムが適用されるような状況では、より良い性能を発揮することがわかる。さらに、AM
R-NBはほぼ半分のdB性能を低下させる。
Figure 0007214726000017
上記の表は、AMR-NBで符号化された音声(左列)と符号化されていない音声(右列)を用いて訓練したDNNの性能を、AMR-NBで符号化された音声(上段)と符号化されていない音声(下段)であるテストセットで評価したものである。性能は対数スペクトル歪(log spectral distortion:LSD)として示されている。
図8cは、ACRリスニングテストの結果を95%信頼区間のMOS値で表示したものを示す。試験対象のコーデックは、左から順に、1) ダイレクトワイドバンド 2) ダイレクトナローバンド 3-5) MNRU 10-30 dB ノイズ 6) AMR-NB 7.4kbps 7) ブラインド帯域幅拡張8による7.4kbps AMR-NB 8) オラクルBWE 9によるAMR-NB7.4kbps 9) BBWEによるAMR-NB 12.2kbps 10) BBWEによるAMR-NB 12.2kbps 10) オラクルBWEによるAMR-NB 12.2kbps
最後に、[4]と同様のテスト方法でリスニングテストを行い、提示されたシステムを評価した。このテストはAbsolute Category Rating (ACR) テスト [22]であり、ここでは何の参考もなしに刺激がリスナーに提示される。リスナーはその刺激を1から5までの尺度で評価する(平均意見スコア、MOS)。29名の未経験の聞き手がテストに参加し、テスト材料はバックグラウンドノイズのない女性と男性の発話を30回録音したものである。各録音は1つの文のペアを含み、長さは8秒であった。各条件は、女性3人と男性3人の話者の6つの異なる音声ファイルを用いてテストを行った。本試験が始まる前に、参加者が試験で体験する質の範囲に慣れるために、処理条件と話者が異なる6つの音声ファイルが提示された。
Figure 0007214726000018
その結果、AMR-NBの品質を0.8MOS(7kbps)から0.9MOS(12.2kbps)へと0.8MOS向上させることで、提示された帯域拡張が効果を発揮することがわかった。また、12.2kbpsでのBBWEは、直接NB条件よりも有意に改善されている。とはいえ、オラクルBWEの結果が示すように、まだまだ改善の余地がある。
AMR-NBの品質を0.8~0.9MOS向上させることができるブラインド帯域幅拡張が提示された。AMR-NBにアルゴリズムの遅延を追加することはない。また、複雑さも適度なので、モバイル機器にも実装可能である。システムは異なるコアコーデックへの採用や、異なる帯域幅設定への再構成が容易に行える。
提案されたシステムの特定の実施形態の利点は以下の通りである。
-コアコーダが10ミリ秒以上のフレームで動作する場合、追加のアルゴリズム遅延がない。
-DNN構造複雑ではない
畳込み層と回帰層またはTNC層の組み合わせは、欠落信号の良い予測因子である。従って、システムの知覚された品質は、最新の状態のブラインド帯域幅拡張と比較して増加する。単純な完全結合層のような他のDNN構造は、同様のことを行うために訓練されるかもしれないが、提示されたシステムほどの複雑さではないことを強調しなければならない。
本願発明は、音声データ、音楽データ、または一般的なオーディオデータのようなあらゆる種類のオーディオデータのための完全にブラインド帯域幅拡張として適用することができるが、他の使用例が存在し、それは特に有用である。
有用なアプリケーションの1つは、図14に図示されているようなオーディオ信号を処理するためのシステムである。図14のシステムは、フレームで編成されたコアオーディオ信号をデコードするためのコアオーディオデコーダ140で構成されており、コアオーディオデコーダは、フレームの損失または誤ったフレームを示すエラー状況を検出するように構成されている。
さらに、コアオーディオデコーダは、エラー状況の代替フレームを得るためのエラー隠蔽動作を実行するように構成されている。さらに、図14のシステムは、例えば、参照番号100で示された図1に関して図示されているように、帯域幅エンハンサを構成する。次いで、帯域幅エンハンサは、典型的なローバンドフレームまたはコアオーディオデコーダ140から代替フレームとして提供された特定のホールを有するフレームから、帯域幅拡張された代替フレームを生成する。このように、図14に図示されたシステムは、ブラインド帯域幅拡張が隠蔽状況、すなわちフレームロスまたは誤りフレームが発生した場合にのみ実行される状況でのオーディオデコーダへの拡張である。ここで、オーディオコーデックは、非ブラインド帯域幅拡張または帯域幅拡張または帯域幅拡張処理が全くなしであってもよく、提示されたシステムは、フレーム損失のために欠落した信号の一部または欠落した信号全体を拡張または予測することができる。従って、コアオーディオデコーダは、例えば、代替フレームであるコア帯域のみのフレームを実行するように構成され、その後、ブラインド帯域拡張器は、フレーム損失状況のために生成された代替フレームを拡張するように構成されるであろう。
本願発明のさらなる実施形態が、図15aおよび図15bに示されている。この使用例では、帯域幅拡張器100は、完全なブラインド帯域幅拡張動作だけでなく、非ブラインド帯域幅拡張動作の構成要素にも使用される。この状況では、パラメトリック表現の粗い記述が第1の近似として使用され、この第1の近似は、後に何らかの種類のデルタ量子化によって改良される。このように、図15aに図示されたオーディオ信号を処理するためのシステムは、入力オーディオ信号と拡張周波数範囲のパラメトリックサイド情報を受信するための入力インターフェース150から構成される。さらに、帯域幅拡張器100は、特に図1の生信号プロセッサ20に関して、帯域幅増強されたオーディオ信号を生成するために、図1のニューラルネットワークプロセッサ30によって提供されるパラメトリック表現に加えて、入力インターフェース150によって出力されるパラメトリックサイド情報を使用するように受信するように構成されている。
好ましい実施形態は、生信号プロセッサ20が、そのパラメータ入力において、パラメトリック表現またはパラメータ70を受信する様子を示す図15bに示されている。生信号プロセッサ20に関して以前に議論されたことに加えて、生信号プロセッサは、この実施形態では、追加的に、パラメータ増分器/減分器160を構成する。このパラメータ増分器/減分器160は、その入力として、例えば、パラメータ毎に1ビットのみからなる非常に低いビットレートのサイド情報などのパラメトリックサイド情報を受信する。次いで、パラメータ増分器/減分器160は、更新されたパラメータ、例えばLb´を生成するために、パラメトリック表現17のパラメータに対応するビットを適用し、この更新されたパラメータは、ニューラルネットワークプロセッサ30から受信した「元の」パラメータの代わりに、図6に図示された要素25~29のような生信号処理要素内で使用される。実施形態に応じて、各パラメータについて受信したビットは、パラメータ増分器/減分器160によって次のように解釈される。ビットが第1の値を有する場合には、ニューラルネットワークプロセッサから受信したパラメータが一定量だけインクリメントされ、ビットが他の値を有する場合には、インクリメントは適用されない。代替的は、ブロック160は、ビットが第1の値を有するときに、所定のデクリメントによるパラメータのデクリメント動作を実行し、ビットが第2の値を有するときには、パラメータの変更を実行しない。代替的な実施形態では、ビットの第1の値は、ビットが他の状態を有するときに、所定のインクリメント値によるインクリメント動作を実行し、定の所定のデクリメント値によるデクリメント動作を実行するように解釈される。
他の手順は、例えば、追加のインクリメントまたは特定のインクリメント値を信号化することができるように、各パラメータごとに2ビット以上のサイド情報を使用して実行することができる。しかしながら、この実施形態では、パラメータ表現におけるパラメータの特定のグループまたはパラメータ表現におけるすべてのパラメータに対して1ビットのみを使用するか、またはビットレートを低く保つために、パラメータごとにせいぜい2ビットのみのそのようなビットを使用することが好ましい。
ビットを計算するために、エンコーダ側でも同じように訓練されたニューラルネットワークが動作しており、エンコーダ側では、デコーダ側で行われるのと同じようにニューラルネットワークからパラメトリック表現を計算し、エンコーダ側では、パラメトリック表現のインクリメントかデクリメントか変更なしかを決定し、パラメトリック表現のインクリメントかデクリメントか変更なしかが、最終的に元の信号に対して復号化された信号の誤差が低いパラメータ値になるかどうかを決定している。
本願発明は、いくつかの実施形態で記載されてきたが、本願発明の範囲内に入る変更、置換、および均等物が存在する。また、本発明の方法および組成物を実施するための多くの代替方法が存在することにも留意すべきである。したがって、以下の添付の請求項は、本発明の真の精神および範囲内に収まるそのようなすべての変更、置換および均等物を含むものと解釈されることが意図される。
いくつかの態様が装置の文脈で記述されてきたが、これらの側面はまた、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する、対応する方法の記述を表していることは明らかである。同様に、方法ステップの文脈で記述された側面はまた、対応するブロックまたはアイテムまたは対応する器具の特徴の記述を表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のようなハードウェア装置によって(またはそれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいくつかの1つ以上は、そのような装置によって実行されてもよい。
本願発明の符号化画像信号は、デジタル記憶媒体に記憶されてもよいし、あるいは、無線伝送媒体やインターネットなどの有線伝送媒体などの伝送媒体で伝送されてもよい。
特定の実施要件に応じて、本願発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施形態は、そこに記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク(フロッピーは登録商標)、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実施することができる。従って、デジタル記憶媒体は、コンピュータ読取可能であってもよい。
本願発明に従ういくつかの実施形態は、本明細書に記載された方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することが可能な、電子的に読取可能な制御信号を有するデータ担体を構成する。
一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法のうちの1つを実行するために作動可能である。プログラムコードは、例えば、機械読取可能な担体に格納されていてもよい。
他の実施形態は、機械読取可能な担体に格納された、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムからなる。
換言すれば、本願発明の方法の一実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法のいずれかを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本願発明の方法のさらなる実施形態は、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムが記録された、データ担体(またはデジタル記憶媒体、またはコンピュータ読取可能な媒体)からなる。データ担体、デジタル記憶媒体、または記録媒体は、典型的には有形および/または非遷移的である。
従って、本願発明の方法の更なる実施形態は、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネット、を介して転送されるように構成されてもよい。
更なる実施形態は、本明細書に記載されている方法のうちの1つを実行するように構成されているか、または適合されている処理手段、例えばコンピュータまたはプログラマブルロジックデバイスからなる。
更なる実施形態では、本明細書に記載されている方法の一つを実行するためのコンピュータプログラムがインストールされているコンピュータから構成されている。
本願発明に従ったさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)レシーバに転送するように構成された装置またはシステムからなる。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを備えてもよい。
いくつかの実施形態では、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が、本明細書に記載された方法の機能の一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働してもよい。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
本明細書に記載された装置は、ハードウェア装置を用いて実施してもよいし、コンピュータを用いて実施してもよいし、ハードウェア装置とコンピュータの組み合わせを用いて実施してもよい。
本明細書に記載された方法は、ハードウェア装置を使用するか、コンピュータを使用するか、ハードウェア装置とコンピュータとの組合せを使用して実行することができる。
参考文献
[1] Patrick Bauer, Rosa-Linde Fischer, Martina Bellanova, Henning Puder, and Tim Fingscheidt, "On improving telephone speech intelligibility for hearing impaired persons," in Proceedings of the 10. ITG Conference on Speech Communication, Braunschweig, Germany, September 26-28, 2012, 2012, pp. 1-4
[2] Patrick Bauer, Jennifer Jones, and Tim Fingscheidt, "Impact of hearing impairment on fricative intelligibility for artificially bandwidth-extended telephone speech in noise," in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, pp. 7039-7043.
[3] Stefan Bruhn, Harald Pobloth, Markus Schnell, Bernhard Grill, Jon Gibbs, Lei Miao, Kari Jaervinen, Lasse Laaksonen, Noboru Harada, N. Naka, Stephane Ragot, Stephane Proust, T. Sanda, Imre Varga, C. Greer, Milan Jelinek, M. Xie, and Paolo Usai, "Standardization of the new 3GPP EVS codec," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5703-5707
[4] Johannes Abel, Magdalena Kaniewska, Cyril Guillaume, Wouter Tirry, Hannu Pulakka, Ville Myllylae, Jari Sjoberg, Paavo Alku, Itai Katsir, David Malah, Israel Cohen, M. A. Tugtekin Turan, Engin Erzin, Thomas Schlien, Peter Vary, Amr H. Nour-Eldin, Peter Kabal, and Tim Fingscheidt, "A subjective listening test of six different artificial bandwidth extension approaches in English, Chinese, German, and Korean," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 5915-5919.
[5] Peter Jax and Peter Vary, "Wideband extension of telephone speech using a hidden markov model," in 2000 IEEE Workshop on Speech Coding. Proceedings., 2000, pp. 133-135.
[6] Patrick Bauer, Johannes Abel, and Tim Fingscheidt, "Hmm-based artificial bandwidth extension supported by neural networks," in 14th International Workshop o
n Acoustic Signal Enhancement, IWAENC 2014, Juan-les-Pins, France, September 8-11, 2014, 2014, pp. 1-5.
[7] Hannu Pulakka and Paavo Alku, "Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum," IEEE Trans. Audio, Speech & Language Processing, vol. 19, no. 7, pp. 2170-2183, 2011.
[8] Kehuang Li and Chin-Hui Lee, "A deep neural network approach to speech bandwidth expansion," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 4395-4399.
[9] Yu Gu, Zhen-Hua Ling, and Li-Rong Dai, "Speech bandwidth extension using bottleneck features and deep recurrent neural networks," in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, 2016, pp. 297-301.
[10] YuGu and Zhen-Hua Ling,"Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension," in Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017, 2017, pp. 1123-1127.
[11] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, and Koray Kavukcuoglu, "Wavenet: A generative model for raw audio," in The 9th ISCA Speech Synthesis Workshop, Sunnyvale, CA, USA, 13-15 September 2016, 2016, p. 125.
[12] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Los Angeles, Sep 2016.
[13] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, and Oliver Kunz, "Spectral band replication, a novel approach in audio coding," in Audio Engineering Society Convention 112, Apr 2002.
[14] Konstantin Schmidt and Christian Neukam, "Low complexity tonality control in the intelligent gap filling tool," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2016, Shanghai, China, March 20-25, 2016, 2016, pp. 644-648.
[15] Hugo Fastl and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[16] Yann Lecun, Leon Bottou, Yoshua Bengio, and Patrick Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278- 2324, Nov 1998.
[17] Sepp Hochreiter and Juergen Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997.
[18] Junyoung Chung, Caglar Guelcehre, KyungHyun Cho, and Yoshua Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," NIPS Deep Learning workshop, Montreal, Canada, 2014.
[19] John C. Duchi, Elad Hazan, and Yoram Singer, "Adaptive subgradient methods for online learning and stochastic optimization," in COLT 2010 - The 23rd Conference on Learning Theory, Haifa, Israel, June 27-29, 2010, 2010, pp. 257-269.
[20] Francois Chollet et al., "Keras 1.2.2," https://github. com/fchollet/keras, 2015.
[21] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in 2015 IEEE Internati
onal Conference on Acoustics, Speech and Signal Processing, ICASSP 2015, South Brisbane, Queensland, Australia, April 19-24, 2015, 2015, pp. 5206-5210.
[22] ITU-T, "ITU-T recommendation P.800. methods for objective and subjective assessment of quality," 1996.
[23] ITU-T, "ITU-T recommendation P.810. modulated noise reference unit (MNRU)," 1996.

Claims (32)

  1. 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成するための装置であって、
    拡張周波数範囲を有する生信号(60)を生成するように構成された生信号生成器(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれず、前記生信号生成器(10)は、前記入力オーディオ信号(50)のスペクトル部分を前記拡張周波数範囲にパッチ処理するためのパッチャ(18)を備え、前記パッチ処理は1回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号(50)の特定のスペクトル部分が前記拡張周波数範囲の2つ以上のスペクトル部分にパッチ処理される、生信号生成器(10)と、
    前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲及び学習済みのニューラルネットワーク(31)を用いて前記拡張周波数範囲のためのパラメトリック表現(70)を生成するように構成されたニューラルネットワークプロセッサ(30)と、
    前記拡張周波数範囲のための前記パラメトリック表現(70)を用いて前記生信号(60)を処理して、前記拡張周波数範囲に周波数コンポーネントを有する処理済生信号(80)を得るための生信号プロセッサ(20)と、
    を備え、
    前記処理済生信号(80)または前記処理済生信号(80)及び前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲は、前記帯域幅拡張オーディオ信号を表す、装置。
  2. 前記生信号生成器(10)は、
    第1の調性を有する初期生信号を生成し(11a)、
    前記初期生信号をスペクトル白色化処理して(11b)、前記初期生信号(60)、前記第1の調性よりも低い第2の調性を有する前記生信号(60)を得る
    ように構成される、請求項1に記載の装置。
  3. 前記生信号生成器(10)は、第1の時間分解能(12)を用いて前記初期生信号のスペクトル白色化処理を実行するように構成される、あるいは前記生信号生成器(10)は、第1の周波数分解能(12)を用いて前記初期生信号のスペクトル白色化処理を実行するように構成され、
    前記ニューラルネットワークプロセッサ(30)は前記第1の時間分解能より高い第2の時間分解能で前記パラメトリック表現(70)を生成する(32)ように構成される、または、前記ニューラルネットワークプロセッサ(30)は、前記第1の周波数分解能より低い第2の周波数分解能で前記パラメトリック表現(70)を生成する(32)ように構成され、
    前記生信号プロセッサ(20)は、前記処理済生信号(80)を得るために、前記パラメトリック表現(70)を前記第2の時間分解能または前記第2の周波数分解能と共に使用して(22)前記生信号(60)を処理するように構成される、
    請求項2に記載の装置。
  4. 前記生信号プロセッサ(20)は、前記生信号(60)をスペクトル表現に変換するための時間-周波数コンバータ(22)であって、前記スペクトル表現はスペクトルフレームの時系列を含み、スペクトルフレームはスペクトル値を有する、時間-周波数コンバータ(22)を具備し、
    前記ニューラルネットワークプロセッサ(30)は、前記スペクトルフレームを前記学習済みニューラルネットワーク(31)に供給する、または前記スペクトルフレームを処理して(32)、前記スペクトル値が関数xyを用いてパワー領域に変換される処理済みスペクトルフレームが得られるように構成され、ここでxは前記スペクトル値を表しyは前記パワー領域のパワー値を表し、前記パワー値は1.5と4.5の間の値に設定され、
    前記学習済みのニューラルネットワーク(31)は前記パワー領域に関するパラメトリック表現(70)を出力するように構成され、
    前記生信号プロセッサ(20)は、前記パラメトリック表現(70)を線形領域に変換し(26)、前記線形領域のパラメトリック表現をスペクトルフレームの前記時系列に適用する(27)ように構成される、
    請求項1~3のいずれか1項に記載の装置。
  5. 前記ニューラルネットワークプロセッサ(30)は前記パラメトリック表現(70)を、0.9未満のべきを関連付けた対数表現または圧縮表現で出力するように構成され、
    前記生信号プロセッサ(20)は、前記対数表現または前記圧縮表現からの前記パラメトリック表現(70)を線形表現に変換する(26)ように構成される、
    請求項1~4のいずれか1項に記載の装置。
  6. 前記生信号生成器(10)は、
    前記入力オーディオ信号(50)をスペクトルフレームのシーケンスに変換するための時間-周波数コンバータ(17)であって、スペクトルフレームのシーケンスは値のシーケンスを有し、
    前記パッチャ(18)は前記時間-周波数コンバータ(17)の出力を用いてそれぞれのスペクトルフレームのためのパッチ処理済信号を生成するように構成される、時間-周波数コンバータ(17)と、
    それぞれのスペクトルフレームのための前記パッチ処理済信号をスペクトル白色化処理するため、または前記パッチャによるパッチ処理動作を実行する前に、前記時間-周波数コンバータ(17)からの対応する信号を白色化処理するための白色化処理ステージ(11b)と、
    パッチ処理済みかつスペクトル白色化処理済みのフレームを含むフレームのシーケンスを時間領域に変換して前記生信号(60)を得るための周波数-時間コンバータ(19)であって、前記周波数-時間コンバータは前記拡張周波数範囲を適応させるように構成される、周波数-時間コンバータ(19)と、
    を備えた、請求項1~5のいずれか1項に記載の装置。
  7. 前記生信号プロセッサ(20)内の白色化処理ステージ(11b)は、
    スペクトルフレーム又は前記スペクトルフレームのパワー表現(13)をローパスフィルタ処理して(14)、前記スペクトルフレームのためのエンベロープ推定を得るためのローパスフィルタと、
    前記エンベロープ推定によって前記スペクトルフレームを除算することによって白色化処理済み信号を計算する(16)ための計算機であって、前記エンベロープ推定は前記パワー表現から導出される場合、分割器はスペクトル値(15)のための線形加重係数を計算して前記スペクトル値を前記線形加重係数によって除算する、計算機と
    を備えた、請求項1~6のいずれか1項に記載の装置。
  8. 前記生信号プロセッサ(20)は、前記入力オーディオ信号(50)または前記入力オーディオ信号(50)から導出された信号および前記生信号(60)をスペクトル表現に変換するための時間-周波数コンバータ(22)を備え、
    前記ニューラルネットワークプロセッサ(30)は、前記入力オーディオ信号周波数範囲のスペクトル表現を受信するように構成され、
    前記生信号プロセッサ(20)は、前記入力オーディオ信号周波数範囲のスペクトル表現に応答して前記ニューラルネットワークプロセッサ(30)が提供する前記パラメトリック表現(70)を前記生信号(60)の前記スペクトル表現に適用するためのスペクトルプロセッサ(23)を備え、
    前記生信号プロセッサ(20)はさらに、前記生信号(60)の処理済みのスペクトル表現を時間領域に変換するための周波数-時間コンバータ(24)をさらに備え、
    前記装置は、前記入力オーディオ信号周波数範囲の前記処理済みのスペクトル表現と前記スペクトル表現を前記周波数-時間コンバータ(24)に供給することによって、または時間領域において、前記入力オーディオ信号周波数範囲の時間表現と前記処理済の生信号(80)の時間表現とを結合することによって、前記処理済みの生信号(80)と前記入力オーディオ信号周波数範囲の結合を実行するように構成される、
    請求項1~7のいずれか1項に記載の装置。
  9. 前記ニューラルネットワークプロセッサ(30)は、入力層(32)と出力層(34)とを備える前記学習済みのニューラルネットワーク(31)を備え、前記ニューラルネットワークプロセッサ(30)は、前記入力層(32)において、前記入力オーディオ信号(50)から導出されたスペクトログラムを受信するように構成され、前記スペクトログラムはスペクトルフレームの時系列を含み、スペクトルフレームは多数のスペクトル値を有し、また前記ニューラルネットワークプロセッサ(30)は前記出力層(34)においては、前記パラメトリック表現(70)の個々のパラメータを出力するように構成され、
    前記スペクトル値は
    リニアスペクトル値、または
    パワースペクトル値であって、前記パワースペクトル値をリニアスペクトルから得るための処理は関数x y を用いるステップを含み、ここでxは前記リニアスペクトル値を表しyはパワー領域のパワー値を表し、前記パワー領域の前記パワー値は1.5~4.5の間の値に設定されている、パワースペクトル値、または
    処理済みのパワー値であって、前記処理済みのパワー値を前記パワースペクトル値から得るための処理は対数関数または関数 v を使用した圧縮を含み、ここでは前記パワースペクトル値を表し、は1よりも小さい、処理済みのパワー値である、
    請求項1~8のいずれか1項に記載の装置。
  10. 前記入力層(32)または1つ以上の中間層(33)は、1つ以上の畳込みカーネルを含む畳込み層として形成され、畳込みカーネルは前記スペクトルフレームの時系列内の少なくとも2つの異なるフレームから多数のスペクトル値の畳込み処理を実行するように構成される、請求項9に記載の装置。
  11. 前記畳込みカーネルは、フレームごとに第1の数のスペクトル値と前記フレームの時系列内の第2の数のフレームにまつわる二次元の畳込み処理を実行するように構成され、前記第1の数および前記第2の数は2以上5未満である、請求項10に記載の装置。
  12. 前記入力層(32)または第1の前記中間層(33)は少なくとも1つのカーネルを含み、前記少なくとも1つのカーネルは周波数において隣接しかつ時間において隣接する処理スペクトル値を含み、
    前記学習済みのニューラルネットワーク(31)はさらに、伸張関数に基づいて動作する中間畳込み層(33b)を含み、時間指数に関して、前記畳み込み層が層のスタックの中の前の層の1つおきの結果すべてまたは2つおきの結果のみを入力として受信するようになっている、
    請求項10または11に記載の装置。
  13. 前記学習済みのニューラルネットワーク(31)は、前記出力層(34)として、または前記出力層(34)に加えて、回帰層を含み、前記回帰層は、時間指数のための畳み込み層の出力ベクトルを受信し、前記回帰層は出力ベクトルを出力し、前記出力ベクトルはメモリを有する回帰層機能を用いて生成される、請求項9~12のいずれか1項に記載の装置。
  14. 前記回帰層は、長/短期記憶(LSTM)機能を含む、またはゲート付き回帰型ユニット(GRU)機能を含む、またはIIRフィルタ機能である、請求項13に記載の装置。
  15. 前記入力層(32)または1つ以上の中間層(33)は、計算するために、それぞれの入力について、畳込み層の畳込み機能を用いる出力を含み、前記畳込み層は残差結合を含んでいて、前記入力層(32)または前記1つ以上の中間層(33)の出力の少なくとも一群は前記畳込み機能の出力と前記畳込み機能への入力との線形結合であるようになっている、請求項9~14のいずれか1項に記載の装置。
  16. 前記出力層(34)は全結合層を含み、前記全結合層は、出力において、前記生信号(60)の現在の時間フレームのための前記パラメトリック表現(70)のパラメータを供給し、また前記全結合層は、前記全結合層の入力において、前記現在の時間フレームのための入力層(32)の出力値又は中間層の出力値を受信するように構成される、請求項9~15のいずれか1項に記載の装置。
  17. 前記入力層(32)または中間層(33)は、整数の時間指数のそれぞれについて出力データベクトルを有する畳込み層であり、
    前記学習済みのニューラルネットワーク(31)はさらに、伸張された畳込み処理のための1つ以上のカーネルを有する追加の畳込み層を含み、
    前記追加の畳込み層のための1つ以上のカーネルは、1整数値以上互いに異なる時間指数について少なくとも2つのデータベクトルを前記入力層(32)または前記中間層から受信して、時間指数のための出力ベクトルを計算し、
    次の時間指数のための出力ベクトルを計算するために、前記1つ以上のカーネルは、前記時間指数からインターリーブされている別の時間指数のための少なくとも2つのデータベクトルを前記入力層(32)または前記中間層から受信する、
    請求項9~16のいずれか1項に記載の装置。
  18. 前記学習済みのニューラルネットワークは、
    現在の時間指数に相当する、前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲を含む現在のフレームを受信するための入力層としての第1の畳込み層であって、前記第1の畳込み層は前のフレームを1つ以上さらに使用するように構成される、第1の畳込み層と、
    前記第1の畳込み層の出力を受信するための少なくとも1つの第2の畳込み層であって、前記少なくとも1つの第2の畳込み層は拡張畳込み動作を実行して現在の時間指数のためのベクトルを得るように構成される、少なくとも1つの第2の畳込み層と、
    前記現在の時間指数に先行する少なくとも5個の時間指数をカバーするメモリ機能を伴う回帰機能を使用して、前記現在の時間指数のための前記ベクトルを処理するための、少なくとも1つの回帰層と、
    を含み、
    前記回帰層は前記出力層(34)を形成する、または前記出力層(34)は回帰層の出力を受信し、前記パラメトリック表現(70)のパラメータを出力する全結合層である、請求項9~17のいずれか1項に記載の装置。
  19. 前記パラメトリック表現(70)は、複数の拡張周波数範囲帯域のそれぞれの帯域のためのスペクトルエンベローブ値を有し、前記複数の拡張周波数範囲帯域は全体で前記拡張周波数範囲を形成し、
    各々の拡張周波数範囲帯域は少なくとも2つのスペクトル値を含み、
    前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域のための前記スペクトルエンベローブ値を使用して、前記拡張周波数範囲帯域内の前記生信号(60)の前記少なくとも2つのスペクトル値をスケーリングする(27、23)ように構成される、
    請求項1~18のいずれか1項に記載の装置。
  20. 前記スペクトルエンベローブ値は、前記スペクトルエンベローブ値が関連付けられている前記拡張周波数範囲帯域の絶対エネルギーの大きさを示し、
    前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域内の前記生信号(60)のエネルギーの大きさを計算する(25)ように構成され、
    前記生信号プロセッサ(20)は、前記絶対エネルギーの大きさを使用して振幅値をスケーリングして(27)、前記拡張周波数範囲内のスケーリングされた前記スペクトル値が前記絶対エネルギーの大きさによって示されるエネルギーを有するように構成される、請求項19に記載の装置。
  21. 前記生信号プロセッサ(20)は、前記拡張周波数範囲帯域内の信号のエネルギーの大きさ、および前記パラメトリック表現(70)から導出された前記拡張周波数範囲帯域の絶対エネルギーの大きさから、スケーリング係数を計算する(27)ように構成される、
    請求項20に記載の装置。
  22. 前記生信号プロセッサ(20)は、以下の式に基づいてスケーリングされた前記スペクトル値を算出するように構成され、
    Figure 0007214726000019
    ここでfbは、帯域bにおける対数的エネルギー推定LbとビンのエネルギーXjとの比率であり、jは前記帯域b内のすべてのビンについて繰り返し、Lbは前記パラメトリック表現(70)に含まれるパラメータである、請求項19~21のいずれか1項に記載の装置。
  23. 前記入力オーディオ信号周波数範囲は狭帯域周波数範囲であり、
    前記拡張周波数範囲は、前記狭帯域周波数範囲における最大周波数より大きい周波数を含む、請求項1~22のいずれか1項に記載の装置。
  24. 前記ニューラルネットワークプロセッサ(30)は、パラメータ群のうちの少なくとも1つのパラメータを前記パラメトリック表現(70)のパラメータとして提供するように構成され、前記パラメータ群は調性パラメータ、時間エンベローブパラメータ、スペクトルエンベローブパラメータ、スケーリング係数帯域エネルギーのセット、分布量子化値のセット、エネルギーパラメータおよびスペクトル傾斜パラメータを含み、
    前記生信号プロセッサ(20)は、前記パラメータを前記生信号(60)に適応して前記処理済み生信号(80)を得るように構成される、請求項1~23のいずれか1項に記載の装置。
  25. 前記生信号生成器(10)は、第1の時間分解能を用いて前記生信号(60)を生成するように構成される、あるいは前記生信号生成器(10)は、第1の周波数分解能を用いて前記生信号(60)を生成するように構成され、
    前記ニューラルネットワークプロセッサ(30)は前記第1の時間分解能より高い第2の時間分解能で前記パラメトリック表現(70)を生成する(32)ように構成される、または、前記ニューラルネットワークプロセッサ(30)は、前記第1の周波数分解能より低い第2の周波数分解能で前記パラメトリック表現(70)を生成する(32)ように構成され、
    前記生信号プロセッサ(20)は、前記処理済生信号(80)を得るために、前記パラメトリック表現(70)を前記第2の時間分解能または前記第2の周波数分解能と共に使用して(22)前記生信号(60)を処理するように構成される、
    請求項1に記載の装置。
  26. オーディオ信号を処理するためのシステムであって、
    フレームに編成されたコアオーディオ信号を復号化するためのコアオーディオデコーダ(140)であって、前記コアオーディオデコーダ(140)はフレーム損失又はエラーフレームを伴うエラー状況を検出するように構成され、
    前記コアオーディオデコーダ(140)はエラー隠蔽動作を実行して前記エラー状況のための代替フレームを得るように構成される、コアオーディオデコーダ(140)と、
    請求項1~25のいずれか1項に記載の装置(100)であって、前記装置(100)は前記代替フレームを、前記入力オーディオ信号(50)として、かつ前記エラー状況のための帯域幅拡張オーディオ信号を生成するために使用するように構成される、システム。
  27. オーディオ信号を処理するためのシステムであって、
    入力オーディオ信号(50)および前記拡張周波数範囲のためのパラメトリックサイド情報を受信するための入力インターフェース(150)と、
    請求項1~25のいずれか1項に記載の帯域幅拡張オーディオ信号を生成するための装置(100)と、
    を備え、
    前記生信号プロセッサ(20)は、前記帯域幅拡張オーディオ信号を生成するために、前記ニューラルネットワークプロセッサ(30)が提供する前記パラメトリック表現(70)に加えて、前記パラメトリックサイド情報を使用するように構成される、
    システム。
  28. 前記パラメトリックサイド情報は、前記ニューラルネットワークプロセッサ(30)が提供するパラメータに関連付けられた1つのビットを含み、
    前記生信号プロセッサ(20)は、所定のパラメータのための前記ビットの値に従った増加によって、前記ニューラルネットワークプロセッサ(30)が提供するパラメータを修正する(160)ように構成される、
    請求項27に記載のシステム。
  29. 入力オーディオ信号周波数範囲を有する入力オーディオ信号(50)から帯域幅拡張オーディオ信号を生成する方法であって、前記方法は、
    拡張周波数範囲を有する生信号(60)を生成するステップ(10)であって、前記拡張周波数範囲は前記入力オーディオ信号周波数範囲に含まれず、前記生成するステップ(10)は、前記入力オーディオ信号(50)のスペクトル部分を前記拡張周波数範囲にパッチ処理するステップを含み、前記パッチ処理するステップは1回のパッチ処理動作または複数のパッチ処理動作を含み、前記複数のパッチ処理動作において、前記入力オーディオ信号(50)の特定のスペクトル部分が、前記拡張周波数範囲の2つ以上のスペクトル部分にパッチ処理される、生成するステップと、
    前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲および学習済みのニューラルネットワーク(31)を使用して、前記拡張周波数範囲のためのパラメトリック表現(70)を生成するステップ(30)と、
    前記拡張周波数範囲のための前記パラメトリック表現(70)を使用して前記生信号(60)を処理して、前記拡張周波数範囲に周波数成分を有する処理済みの生信号(80)を得るステップと、を含み、
    前記処理済みの生信号(80)または前記処理済みの生信号および前記入力オーディオ信号(50)の前記入力オーディオ信号周波数範囲は前記帯域幅拡張オーディオ信号を表す、方法。
  30. オーディオ信号を処理するための方法であって、
    フレームに編成されたコアオーディオ信号を復号化するステップ(140)であって、前記復号化するステップ(140)はフレームロスまたはエラーフレームを伴うエラー状況を検出するステップを含み、
    前記復号化するステップ(140)は、エラー隠蔽動作を実行してエラー状況のための代替フレームを取得する、復号化するステップ(140)と、
    請求項29に記載の方法(100)であって、前記方法(100)は前記代替フレームを前記入力オーディオ信号(50)として使用して、前記エラー状況のための前記帯域幅拡張オーディオ信号を生成する、請求項29に記載の方法(100)と、
    を含む、方法。
  31. オーディオ信号を処理する方法であって、
    入力オーディオ信号(50)と拡張周波数範囲のためのパラメトリックサイド情報を受信するステップ(150)と、
    請求項29に記載の方法に従って帯域幅拡張オーディオ信号を生成するステップ(100)と、
    を含み、
    前記生信号(60)を処理するステップ(20)は、前記帯域幅拡張オーディオ信号を生成するために、前記学習済みのニューラルネットワーク(31)が提供するパラメトリック表現(70)に加えてパラメトリックサイド情報を使用するステップを含む、
    方法。
  32. コンピュータまたはプロセッサ上で動作するときに、請求項29~31のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
JP2020523777A 2017-10-27 2018-04-13 ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム Active JP7214726B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17198997 2017-10-27
EP17198997.3 2017-10-27
PCT/EP2018/059593 WO2019081070A1 (en) 2017-10-27 2018-04-13 APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR

Publications (2)

Publication Number Publication Date
JP2021502588A JP2021502588A (ja) 2021-01-28
JP7214726B2 true JP7214726B2 (ja) 2023-01-30

Family

ID=60268209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020523777A Active JP7214726B2 (ja) 2017-10-27 2018-04-13 ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム

Country Status (7)

Country Link
US (1) US11562764B2 (ja)
EP (1) EP3701527B1 (ja)
JP (1) JP7214726B2 (ja)
CN (1) CN111386568B (ja)
BR (1) BR112020008216A2 (ja)
RU (1) RU2745298C1 (ja)
WO (1) WO2019081070A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017222356A1 (ko) * 2016-06-24 2017-12-28 삼성전자 주식회사 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
US10432240B1 (en) 2018-05-22 2019-10-01 Micron Technology, Inc. Wireless devices and systems including examples of compensating power amplifier noise
JP7024687B2 (ja) * 2018-11-07 2022-02-24 日本電信電話株式会社 データ分析システム、学習装置、方法、及びプログラム
CN110415686B (zh) * 2019-05-21 2021-08-17 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备
US10763905B1 (en) 2019-06-07 2020-09-01 Micron Technology, Inc. Wireless devices and systems including examples of mismatch correction scheme
CN110265053B (zh) * 2019-06-29 2022-04-19 联想(北京)有限公司 信号降噪控制方法、装置及电子设备
KR20210003507A (ko) * 2019-07-02 2021-01-12 한국전자통신연구원 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치
KR20210003514A (ko) * 2019-07-02 2021-01-12 한국전자통신연구원 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기
CN110322891B (zh) * 2019-07-03 2021-12-10 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
US11005689B2 (en) * 2019-07-11 2021-05-11 Wangsu Science & Technology Co., Ltd. Method and apparatus for bandwidth filtering based on deep learning, server and storage medium
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110556121B (zh) * 2019-09-18 2024-01-09 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112530446B (zh) * 2019-09-18 2023-10-20 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
WO2021088569A1 (en) * 2019-11-05 2021-05-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Convolution method and device, electronic device
CN110991619A (zh) * 2019-12-09 2020-04-10 Oppo广东移动通信有限公司 神经网络处理器、芯片和电子设备
CN113140225A (zh) * 2020-01-20 2021-07-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备及存储介质
EP4100947A1 (en) * 2020-02-03 2022-12-14 Pindrop Security, Inc. Cross-channel enrollment and authentication of voice biometrics
US10972139B1 (en) * 2020-04-15 2021-04-06 Micron Technology, Inc. Wireless devices and systems including examples of compensating power amplifier noise with neural networks or recurrent neural networks
CN111554322A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111554309A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
EP4169017A1 (en) * 2020-06-19 2023-04-26 Rtx A/S Low latency audio packet loss concealment
US11496341B2 (en) 2020-08-13 2022-11-08 Micron Technology, Inc. Wireless devices and systems including examples of compensating I/Q imbalance with neural networks or recurrent neural networks
EP4229629A2 (en) 2020-10-15 2023-08-23 Dolby International AB Real-time packet loss concealment using deep generative networks
KR102492212B1 (ko) * 2020-10-19 2023-01-27 주식회사 딥히어링 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
US11985179B1 (en) * 2020-11-23 2024-05-14 Amazon Technologies, Inc. Speech signal bandwidth extension using cascaded neural networks
CN112562702B (zh) * 2020-11-30 2022-12-13 哈尔滨工程大学 基于循环帧序列门控循环单元网络的语音超分辨率方法
CN113808607A (zh) * 2021-03-05 2021-12-17 北京沃东天骏信息技术有限公司 基于神经网络的语音增强方法、装置及电子设备
CN113035211B (zh) * 2021-03-11 2021-11-16 马上消费金融股份有限公司 音频压缩方法、音频解压缩方法及装置
KR20220151953A (ko) * 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
CN113423005B (zh) * 2021-05-18 2022-05-03 电子科技大学 一种基于改进神经网络的智能音乐生成方法及***
US11978466B2 (en) * 2021-06-02 2024-05-07 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for restoring degraded speech via a modified diffusion model
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113744751B (zh) * 2021-08-16 2024-05-17 清华大学苏州汽车研究院(相城) 一种应用于麦克风阵列的多通道语音信号增强方法
US20230076431A1 (en) * 2021-09-09 2023-03-09 Nvidia Corporation Audio upsampling using one or more neural networks
US20230162725A1 (en) * 2021-11-23 2023-05-25 Adobe Inc. High fidelity audio super resolution
CN114283829B (zh) * 2021-12-13 2023-06-16 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027255A (ja) 2010-07-23 2012-02-09 Oki Electric Ind Co Ltd 帯域拡張装置及びプログラム、並びに、音声通信装置
WO2013098885A1 (ja) 2011-12-27 2013-07-04 三菱電機株式会社 音声信号復元装置および音声信号復元方法
JP2016530548A (ja) 2013-06-21 2016-09-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
FR2807897B1 (fr) * 2000-04-18 2003-07-18 France Telecom Methode et dispositif d'enrichissement spectral
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
JP2005501278A (ja) * 2001-08-31 2005-01-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号の帯域幅拡張
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
ES2642906T3 (es) * 2008-07-11 2017-11-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
JP4818335B2 (ja) * 2008-08-29 2011-11-16 株式会社東芝 信号帯域拡張装置
JP5310494B2 (ja) * 2009-11-09 2013-10-09 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
WO2011097903A1 (zh) * 2010-02-11 2011-08-18 华为技术有限公司 多声道信号编码、解码方法、装置及编解码***
CN102237959B (zh) * 2010-04-30 2015-08-12 中兴通讯股份有限公司 ***消息的更新方法及无线通信***
ES2924427T3 (es) * 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
ES2626809T3 (es) * 2013-01-29 2017-07-26 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concepto para compensación de conmutación del modo de codificación
AU2014211520B2 (en) * 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
BR122020016403B1 (pt) * 2013-06-11 2022-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho de decodificação de sinal de áudio, aparelho de codificação de sinal de áudio, método de decodificação de sinal de áudio e método de codificação de sinal de áudio
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
CN103778920B (zh) * 2014-02-12 2016-03-09 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027255A (ja) 2010-07-23 2012-02-09 Oki Electric Ind Co Ltd 帯域拡張装置及びプログラム、並びに、音声通信装置
WO2013098885A1 (ja) 2011-12-27 2013-07-04 三菱電機株式会社 音声信号復元装置および音声信号復元方法
JP2016530548A (ja) 2013-06-21 2016-09-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン エネルギー調整モジュールを備えた帯域幅拡大モジュールを有するオーディオ復号器

Also Published As

Publication number Publication date
US11562764B2 (en) 2023-01-24
EP3701527C0 (en) 2023-08-30
JP2021502588A (ja) 2021-01-28
RU2745298C1 (ru) 2021-03-23
WO2019081070A1 (en) 2019-05-02
BR112020008216A2 (pt) 2020-10-27
EP3701527A1 (en) 2020-09-02
US20200243102A1 (en) 2020-07-30
CN111386568A (zh) 2020-07-07
CN111386568B (zh) 2023-10-13
EP3701527B1 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
JP7214726B2 (ja) ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10062390B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
TW201009812A (en) Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
Schmidt et al. Blind bandwidth extension based on convolutional and recurrent deep neural networks
KR101801758B1 (ko) 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류
Motlicek et al. Wide-band audio coding based on frequency-domain linear prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220802

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220802

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220816

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220920

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230118

R150 Certificate of patent or registration of utility model

Ref document number: 7214726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150