JP2023533427A - 生成ニューラル・ネットワークのパラメータを決定するための方法および装置 - Google Patents

生成ニューラル・ネットワークのパラメータを決定するための方法および装置 Download PDF

Info

Publication number
JP2023533427A
JP2023533427A JP2022573638A JP2022573638A JP2023533427A JP 2023533427 A JP2023533427 A JP 2023533427A JP 2022573638 A JP2022573638 A JP 2022573638A JP 2022573638 A JP2022573638 A JP 2022573638A JP 2023533427 A JP2023533427 A JP 2023533427A
Authority
JP
Japan
Prior art keywords
pruning
stage
dynamic range
generator
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022573638A
Other languages
English (en)
Other versions
JPWO2021245015A5 (ja
Inventor
ビスワス,アリジート
プレイン,サイモン
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2023533427A publication Critical patent/JP2023533427A/ja
Publication of JPWO2021245015A5 publication Critical patent/JPWO2021245015A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号を処理するための生成ニューラル・ネットワークのためのパラメータを決定する方法が記載される。生成ニューラル・ネットワークは、符号化特徴空間にマップするエンコーダ段およびデコーダ段を含み、各段は、一つまたは複数の重みをもつ複数の畳み込み層を含み、本方法は、以下の逐次的な諸プロセスを含む複数のサイクルを含む:制御情報に基づいて一方または両方の段の重み係数を剪定することであって、剪定制御情報は、それぞれの畳み込み層について剪定される重み係数の数を決定する、ことと;一組のトレーニング・データに基づいて、剪定された生成ニューラル・ネットワークをトレーニングすることと;損失関数に基づいて、トレーニングおよび剪定された生成ニューラル・ネットワークについての損失を決定することと;決定された損失および目標損失に基づいて、更新された剪定制御情報を決定すること。対応する装置、プログラムおよびコンピュータ読み取り可能な記憶媒体がさらに記載される。

Description

関連出願への相互参照
本願は、次の優先権出願の優先権を主張する:2020年6月1日に出願された米国仮出願第63/032,903号(参照番号:D20038USP1)、2020年6月23日に出願された欧州特許出願第20181683.2号(参照番号:D20038EP)、および2021年4月21日に出願された米国仮出願第63/177,511号(参照番号:D20038USP2)。これらの出願は、参照により本明細書に組み込まれる。
技術
本開示は、概括的には、たとえばオーディオ処理のために、生成ニューラル・ネットワークを構成する方法に関し、詳細には、生成ニューラル・ネットワークのためのパラメータ(たとえば、フィルタ・パラメータ)を決定することに関する。
いくつかの実施形態が、その開示を特に参照して本明細書に記載されるが、本開示は、そのような使用分野に限定されず、より広い文脈において適用可能であることが理解されるであろう。
本開示を通じた背景技術のいかなる議論も、かかる技術が広く知られている、または当該分野における技術常識の一部を構成するものであるとの自認であるとは決して考えられるべきではない。
オーディオ記録システムは、オーディオ信号を、送信または記憶のために好適であるエンコードされた信号にエンコードし、その後、符号化された信号を受領または取得およびデコードし、再生のためのもとのオーディオ信号のバージョンを得るために使用される。低ビットレート・オーディオ符号化は、帯域幅および記憶要件を低減することを許容する知覚的オーディオ圧縮技術である。知覚的オーディオ符号化システムの例は、AC3、先進オーディオ符号化(Advanced Audio Coding、AAC)、およびより最近では標準化されたAC-4オーディオ符号化システムを含む。これらはETSIによって標準化され、ATSC3.0に含まれている。
しかしながら、低ビットレートのオーディオ符号化は、避けられない符号化アーチファクトを導入する。よって、低ビットレートで符号化されたオーディオは、量子化および符号化によって導入されるノイズのために、品質が劣化する可能性がある。この点で特に問題となるのが、いわゆるプリエコー・アーチファクトである。プリエコー・アーチファクトは、周波数領域における過渡的オーディオ信号の量子化において生成され、これは、量子化ノイズを過渡信号自体の前に拡散させる。プリエコーノイズは、実際、たとえばMPEG AACコーデックのようなオーディオコーデックの品質、または任意の他の変換ベースの(たとえば、MDCTベースの)オーディオコーデックの品質を著しく損なう。
これまでに、プリエコーノイズを低減し、それにより低ビットレートの符号化されたオーディオの品質を向上させるため、にいくつかの方法が開発されてきた。これらの方法は、短ブロック・スイッチング(short block switching)および時間的ノイズ整形(temporal noise shaping、TNS)を含む。後者の技術は、ノイズを、聴取者にとってそれほどわずらわしくないものに感じさせるよう、時間領域における量子化ノイズを整形するために周波数領域における予測フィルタの適用に基づいている。
プリエコー・アーチファクトに加えて、低ビットレートの符号化されたオーディオの品質も量子化ノイズによって損なわれる。情報容量要件を低減するために、オーディオ信号のスペクトル成分が量子化される。しかしながら、量子化は、信号にノイズを注入する。一般に、知覚的オーディオ符号化システムは、量子化ノイズの振幅を制御するために心理音響学的モデルを使用し、ノイズが信号中のスペクトル成分によってマスクされるか、または聞こえなくされるようにする。
圧伸(companding)は、AC-4符号化システムにおける符号化ツールであり、これは、発話および高密度過渡事象(たとえば、喝采)の知覚符号化を改善する。圧伸の利点は、入力信号の短時間ダイナミクスを低減し、それによりエンコーダ側でのビットレート需要を低減し、それと同時に、デコーダ側での適正な時間的ノイズ整形を確実にすることを含む。
深層学習は符号化されたオーディオを改善する新しい機会を提供することが見出されており、特に、畳み込みニューラル・ネットワーク(CNN)のような生成ニューラル・ネットワークを使用する試みから成功が得られている。過渡的アーチファクトの低減、帯域幅拡張、および量子化ノイズ整形は、深層学習ベースの方法を用いることから利益を得る可能性のある問題のいくつかである。しかしながら、完全にトレーニングされた生成ニューラル・ネットワークは、複数のパラメータ(たとえば、重み係数)を含んでいてもよく、そのため、動作中の生成ニューラル・ネットワークのための計算要件は高くなる。これは、メモリおよび/またはバッテリーが制約された装置への配備にとって制限を生じさせる可能性がある。一般に、限られたメモリ容量および/またはコンピューティング資源を有するモバイル装置でオーディオを処理するとき、生成ニューラル・ネットワークの有用性は限定的であることがある。
上記に鑑み、深層学習に基づくオーディオ向上(たとえば、生成ニューラル・ネットワークによるオーディオ処理)の効率を向上させることが望ましいであろう。特に、性能を劣化させることなく、深層学習に基づくオーディオ処理のメモリ使用量および計算量を削減することが望ましいであろう。
本開示のある側面によれば、オーディオ信号の後処理のために敵対的生成ネットワーク(Generative Adversarial Network、GAN)の生成器を決定する方法が提供される。前記生成器はエンコーダ段とデコーダ段とを含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重み(たとえば、フィルタ係数)を含み、前記生成器のエンコーダ段のボトルネック層は、エンコーダ段とデコーダ段との間の符号化されたオーディオ特徴空間にマップする。本方法は、(a)剪定のための閾値を示す一組の感度パラメータに基づいて、エンコーダ段および/またはデコーダ段を剪定するステップを含んでいてもよい。また、本方法は、(b)一組の感度パラメータに基づいてエンコーダ段のボトルネック層を剪定するステップを含んでいてもよい。
いくつかの実施形態では、剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含んでいてもよい。
いくつかの実施形態では、本方法は、一組の感度パラメータに基づいて、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層を剪定するステップをさらに含んでいてもよく、一組の感度パラメータは、ボトルネック層のスパース性の増加がエンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定された層のいずれかのスパース性の増加よりも低いように選択されてもよい。
いくつかの実施形態では、エンコーダ段における剪定される層の数は、デコーダ段における剪定される層の数よりも少なくてもよい。
いくつかの実施形態では、本方法は、一組の感度パラメータを得るために、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層について感度分析を実行するステップをさらに含んでいてもよい。
いくつかの実施形態では、感度分析は、前記GANの第2の生成器の、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層に対して実行されてもよく、ここで、第2の生成器は、トレーニングされた、未剪定の生成器であってもよい。
いくつかの実施形態では、ステップ(a)およびステップ(b)を実行することは、剪定パス(pruning pass)に対応してもよく、本方法は、さらに、GANセッティングの一つまたは複数のトレーニング・パス(training pass)と交互に、剪定パスの一つまたは複数のサイクルを実行することを含むことができる。
いくつかの実施形態では、前記一つまたは複数のトレーニング・パスは、GANセッティングにおいてダイナミックレンジ低減ドメインで実行されてもよく、GANセッティングは、生成器および弁別器を含んでいてもよい。
いくつかの実施形態では、前記一つまたは複数のトレーニング・パスは、以下のステップを含んでいてもよい:
(a)ダイナミックレンジ低減された生オーディオ・トレーニング信号を生成器に入力するステップ;
(b)生成器によって、ダイナミックレンジ低減された生オーディオ・トレーニング信号に基づいて、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を生成するステップ;
(c)一度に1つずつ、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号と、ダイナミックレンジ低減された生オーディオ・トレーニング信号が導出されるもとになった、対応するもとのダイナミックレンジ低減されたオーディオ信号とを弁別器に入力するステップ;
(d)弁別器によって、入力のダイナミックレンジ低減されたオーディオ信号が、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号であるか、またはもとのダイナミックレンジ低減されたオーディオ信号であるかを判断するステップ;
(e)弁別器が向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号をもとのダイナミックレンジ低減されたオーディオ信号から区別できなくなるまで、生成器のパラメータを調整するステップ。
いくつかの実施形態では、本方法は、トレーニング・パスと交互の剪定パスの複数のサイクルの後に聴取試験を実行することをさらに含んでいてもよい。
いくつかの実施形態では、聴取試験を実行することは、トレーニングされ、剪定された生成器の出力を第2の生成器の出力と比較することを含んでいてもよい。
いくつかの実施形態では、剪定パスを実行することは、生成器を剪定することを含んでいてもよいが、弁別器を剪定することは含まなくてもよい。
本開示のさらなる側面によれば、ダイナミックレンジ低減ドメインにおいて、低ビットレート・オーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法が提供される。本方法は、(a)低ビットレートのオーディオ・ビットストリームを受領するステップを含んでいてもよい。本方法は、さらに、(b)低ビットレートのオーディオ・ビットストリームをコア・デコードし、低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るステップを含んでいてもよい。本方法は、(c)ダイナミックレンジ低減された生オーディオ・データを、該ダイナミックレンジ低減された生オーディオ・データを処理するために敵対的生成ネットワーク(GAN)の生成器に入力するステップをさらに含んでいてもよい。ここで、前記生成器は、エンコーダ段およびデコーダ段とを含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースであり、スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する。本方法は、さらに、(d)ダイナミックレンジ低減ドメインにおいて、生成器によってダイナミックレンジ低減された生オーディオ・データを向上させるステップを含んでいてもよい。本方法は、(e)生成器からの出力として、向上されたダイナミックレンジ低減されたオーディオ・データを、ダイナミックレンジのその後の伸張のために取得するステップを含んでいてもよい。また、本方法は、(f)伸張動作を実行することによって、向上されたダイナミックレンジ低減されたオーディオ・データを、伸張されたダイナミックレンジ・ドメインに伸張するステップを含んでいてもよい。
いくつかの実施形態において、ボトルネック層は、エンコーダ段および/またはデコーダ段の一つまたは複数の外側の層よりもスパースであってもよい。
いくつかの実施形態では、ボトルネック層よりもスパースである、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の層は、閾値数の重みを有してもよい。
いくつかの実施形態では、生成器は、剪定によって得られてもよく、剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含んでいてもよい。
いくつかの実施形態では、剪定によって生成器を得ることは、一組の感度パラメータに基づいて、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層を剪定することをさらに含んでいてもよく、一組の感度パラメータは、ボトルネック層のスパース性の増加が、エンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定された層のいずれかのスパース性の増加よりも小さくなるように選択されてもよい。
いくつかの実施形態では、低ビットレートのオーディオ・ビットストリームはAC-4フォーマットであってもよい。
いくつかの実施形態では、伸張動作は、それぞれの利得値を計算するためのスペクトルの大きさのpノルムに基づく圧伸動作であってもよい。
いくつかの実施形態では、受領された低ビットレートのオーディオ・ビットストリームは、メタデータを含んでいてもよく、ステップ(a)は、受領された低ビットレートのオーディオ・ビットストリームを多重分離することをさらに含む。
いくつかの実施形態では、ステップ(d)において、ダイナミックレンジ低減された生オーディオ・データを生成器によって向上させることは、該メタデータに基づいていてもよい。
いくつかの実施形態において、メタデータは、圧伸制御データの一つまたは複数の項目を含んでいてもよい。
いくつかの実施形態では、圧伸制御データは、オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちのある圧伸モードに関する情報を含んでいてもよい。
いくつかの実施形態では、圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含んでいてもよい。
いくつかの実施形態では、ステップ(d)において、ダイナミックレンジ低減された生オーディオ・データを生成器によって向上させることは、圧伸制御データによって示される圧伸モードに依存してもよい。
いくつかの実施形態では、圧伸モードが圧伸オフである場合、生成器による向上は実行されなくてもよい。
本開示の別の側面によれば、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから向上されたオーディオ・データを生成する方法が提供される。本方法は、(a)低ビットレートのオーディオ・ビットストリームを受領するステップを含んでいてもよい。本方法は、さらに、(b)低ビットレートのオーディオ・ビットストリームをコア・デコードし、低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るステップを含んでいてもよい。
本方法は、(c)ダイナミックレンジ低減された生オーディオ・データを、該ダイナミックレンジ低減された生オーディオ・データを処理するために、敵対的生成ネットワーク(GAN)の生成器に入力するステップをさらに含んでいてもよく、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記生成器は:(i)前記剪定の閾値を示す一組の感度パラメータに基づいて、エンコーダ段および/またはデコーダ段を剪定し、(ii)前記一組の感度パラメータに基づいて、エンコーダ段のボトルネック層を剪定することによって決定されたものである。本方法は、さらに、(d)ダイナミックレンジ低減ドメインにおいて、生成器によって、ダイナミックレンジ低減された生オーディオ・データを向上させるステップを含んでいてもよい。また、本方法は、(e)生成器からの出力として、向上されたダイナミックレンジ低減されたオーディオ・データを、ダイナミックレンジのその後の伸張のために取得するステップを含んでいてもよい。
いくつかの実施形態では、エンコーダ段における剪定される層の数は、デコーダ段における剪定される層の数よりも少なくてもよい。
いくつかの実施形態では、本方法は、一組の感度パラメータを得るために、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層について感度分析を実行するステップをさらに含んでいてもよい。
いくつかの実施形態において、感度分析は、GANの第2の生成器の、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層に対して実行されてもよく、第2の生成器は、トレーニングされた、未剪定の生成器であってもよい。
いくつかの実施形態では、ステップ(i)およびステップ(ii)を実行することは、剪定パスに対応してもよく、本方法は、さらに、GANセッティングの一つまたは複数のトレーニング・パスと交互に、剪定パスの一つまたは複数のサイクルを実行することを含むことができる。ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法の前述の諸実施形態は、上述の側面にも適用される。
本開示のある側面によれば、オーディオ信号を処理するためのコンピュータに実装された生成ニューラル・ネットワークのパラメータを決定する方法が提供される。このように、本方法は、生成ニューラル・ネットワークを構成する方法でありうる。生成ニューラル・ネットワークは、深層ニューラル・ネットワークであってもよい。一般に、生成ニューラル・ネットワークは、エンコーダ段(エンコーダ)およびデコーダ段(デコーダ)を含んでいてもよい。さらに、生成ニューラル・ネットワークは、たとえば敵対的生成ネットワーク(GAN)セットアップの生成器に対応してもよい。エンコーダ段は、符号化された特徴空間または潜在特徴空間(たとえば、符号化されたオーディオ特徴空間)にマップしてもよい。エンコーダ段およびデコーダ段のそれぞれは、複数の畳み込み層を含んでいてもよい。各畳み込み層は、一つまたは複数の重み係数を含んでいてもよい。重み係数は、生成ニューラル・ネットワークの畳み込み層のフィルタパラメータを含んでいてもよい(またはそれに対応してもよい)。本方法は、複数のサイクルを含んでいてもよく、各サイクルは、いくつかのプロセス(たとえば、逐次的なプロセス)を有する。一つのプロセスは、剪定制御情報に基づいてエンコーダ段および/またはデコーダ段の重み係数を剪定して剪定された生成ニューラル・ネットワークを得るプロセスであってもよい。剪定制御情報は、それぞれの畳み込み層について剪定される重み係数の数を支配(たとえば、決定)してもよい。別のプロセスは、一組のトレーニング・データに基づいて、より多くのエポックの1つのために、剪定された生成ニューラル・ネットワークをトレーニングするプロセスであってもよい。別のプロセスは、損失関数に基づいて、トレーニングおよび剪定された生成ニューラル・ネットワークについて損失を決定するプロセスであってもよい。さらに別のプロセスは、決定された損失および生成ニューラル・ネットワークについての目標損失に基づいて、更新された剪定制御情報を決定するプロセスであってもよい。
それにより、生成ニューラル・ネットワークをトレーニングするプロセスにおいて、最適化された剪定制御情報が自動的に決定されることができる。これは、モデル複雑性の低減と生成ニューラル・ネットワークによって処理されるオーディオの知覚的品質との間の最適化されたトレードオフを許容しうる。特に、剪定制御情報の手動の設定/調整は、手間がかかり、効率が悪く、最適な結果を与えない可能性があるが、それを回避することができる。
いくつかの実施形態では、剪定は、剪定制御情報に基づいて一つまたは複数の重み係数をゼロにする(ゼロ化、ゼロに設定)ことを含んでいてもよい。
いくつかの実施形態では、剪定制御情報は、エンコーダ段およびデコーダ段の複数の畳み込み層についての感度パラメータを含んでいてもよい。たとえば、畳み込み層当たり1つの感度パラメータがあってもよい。各感度パラメータは、それぞれの畳み込み層について剪定されるべき重み係数の比またはシェアを設定してもよい。代替的に、剪定制御情報は、各畳み込み層について、それより下では重み係数が剪定されるべきであるそれぞれの剪定閾値を定義してもよい。
いくつかの実施形態では、更新された剪定制御情報は、決定された損失と目標損失との間の差を最小化するように決定されてもよい。
いくつかの実施形態では、更新された剪定制御情報を決定することは、生成ニューラル・ネットワークの前記複数の畳み込み層についての剪定感度を増加または減少させることを含んでいてもよい。たとえば、剪定感度は、すべての畳み込み層について同様に増加されてもよく、またはすべての畳み込み層について同様に減少されてもよい。
いくつかの実施形態では、更新された剪定制御情報を決定することは、生成ニューラル・ネットワークの前記複数の畳み込み層についての剪定感度を増加または減少させるために、剪定制御情報にスケーリング因子を適用することを含んでいてもよい。このスケーリング因子は全体的なスケーリング因子であってもよい。剪定感度の増加または減少(たとえば、更新された剪定感度と以前の剪定感度との間の比で表す)は、たとえば、すべての畳み込み層にわたって一様であってもよい。
いくつかの実施形態では、前述の諸プロセスは、収束基準が満たされるまで、複数回にわたってサイクルを繰り返されてもよい。それらのプロセスを通じてサイクルすることはループ状であってもよい。
いくつかの実施形態では、収束基準は、決定された損失と目標損失との間の差が所定の閾値を下回るかどうか、および/または決定された損失と目標損失との間の差の、あるサイクルから次のサイクルへの変化が所定の閾値を下回るかどうか、に関していてもよい。
いくつかの実施形態では、本方法は、あるサイクルから次のサイクルへの剪定制御情報(または決定された損失)の変化率に基づいて、生成ニューラル・ネットワークをトレーニングするプロセスにおけるトレーニングのためのエポックの数を設定することをさらに含んでいてもよい。変化率が高いほど、トレーニングのためのエポックは少なくなってもよく、変化率が低いほど、エポックが多くなってもよい。
いくつかの実施形態では、損失関数は、敵対的損失に対応する成分および/または時間領域L1ノルム損失に対応する成分を含んでいてもよい。
いくつかの実施形態では、損失関数は、周波数領域損失に対応する成分をさらに含んでいてもよい。
いくつかの実施形態では、周波数領域損失は、複数分解能短時間フーリエ変換(STFT)損失であってもよい。
いくつかの実施形態では、本方法は、前述の諸プロセスの前記複数のサイクルに入る前に、エンコーダ段およびデコーダ段の重み係数を剪定することなく、一つまたは複数のエポックにわたって前記一組のトレーニング・データを使用して生成ニューラル・ネットワークをトレーニングすることをさらに含んでいてもよい。これは、生成ニューラル・ネットワークを(部分的に)事前トレーニングすることに対応しうる。
いくつかの実施形態では、エンコーダ段は、符号化されたオーディオ特徴空間にマップするボトルネック層を含んでいてもよい。剪定制御情報は、重み係数を剪定するプロセスが、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の畳み込み層を剪定するだけでなく、ボトルネック層を剪定することを含むように、最初に選択されてもよい。さらに、剪定制御情報は、ボトルネック層のスパース性の増加が、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定された層のスパース性の増加よりも小さくなるように、最初に選択されてもよい。
いくつかの実施形態では、剪定制御情報は、重み係数を剪定するプロセスが、デコーダ段におけるよりもエンコーダ段において、より少ない層を剪定することを含むように、最初に選択されてもよい。
いくつかの実施形態では、本方法は、トレーニング・データのセットに基づいて、生成ニューラル・ネットワークの第2のインスタンスをトレーニングすることをさらに含んでいてもよい。次いで、本方法は、損失関数に基づいて、生成ニューラル・ネットワークのトレーニングされた第2のインスタンスについての損失を決定し、該損失を生成ニューラル・ネットワークについての目標損失として使用することをさらに含んでいてもよい。本開示を通じて、生成ニューラル・ネットワークの第2のインスタンスは、生成ニューラル・ネットワークと(たとえば、畳み込み層および重み係数に関して)同じアーキテクチャーを有することが理解される。さらに、生成ニューラル・ネットワークの第2のインスタンスは剪定されないことが理解される。生成ニューラル・ネットワークの第2のインスタンスのトレーニングは、完全なトレーニング、たとえば、完全なトレーニングのためのある種の基準または収束基準が満たされるようなエポック数にわたるトレーニングでありうる。
いくつかの実施形態では、本方法は、一組のトレーニング・データに基づいて、生成ニューラル・ネットワークの第2のインスタンスをトレーニングすることをさらに含んでいてもよい。次いで、本方法は、さらに、生成ニューラル・ネットワークのトレーニングされた第2のインスタンスのエンコーダ段およびデコーダ段の前記複数の畳み込み層について感度分析を実行して、剪定制御情報の初期セットを得るステップを含んでいてもよい。
本開示のさらなる側面によれば、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置が提供される。本装置は、(a)低ビットレートのオーディオ・ビットストリームを受領するための受領器を含んでいてもよい。本装置はさらに、(b)受領された低ビットレートのオーディオ・ビットストリームをコア・デコードし、低ビットレートのオーディオ・ビットストリームに基づいて、ダイナミックレンジ低減された生オーディオ・データを得るためのコア・デコーダを含んでいてもよい。本装置は、(c)ダイナミックレンジ低減された生オーディオ・データをダイナミックレンジ低減ドメインにおいて向上させるための敵対的生成ネットワーク(GAN)の生成器を含んでいてもよい。ここで、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースであり、スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する。
いくつかの実施形態において、ボトルネック層は、エンコーダ段および/またはデコーダ段の一つまたは複数の外側の層よりもスパースであってもよい。
いくつかの実施形態では、ボトルネック層よりもスパースである、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の層は、閾値数の重みを有してもよい。
いくつかの実施形態では、生成器は、剪定によって得られたものであってもよく、剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含んでいてもよい。
いくつかの実施形態では、剪定によって生成器を得ることは、一組の感度パラメータに基づいて、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層を剪定することをさらに含んでいてもよく、一組の感度パラメータは、ボトルネック層のスパース性の増加が、エンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定された層のいずれかのスパース性の増加よりも小さくなるように選択されてもよい。
いくつかの実施形態では、本装置は、受領された低ビットレートのオーディオ・ビットストリームを多重分離するためのデマルチプレクサをさらに含んでいてもよい。
いくつかの実施形態において、メタデータは、圧伸制御データの一つまたは複数の項目を含んでいてもよく、受領された低ビットレートのオーディオ・ビットストリームはメタデータを含む。
いくつかの実施形態では、圧伸制御データは、オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちのある圧伸モードに関する情報を含んでいてもよい。
いくつかの実施形態では、圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含んでいてもよい。
いくつかの実施形態では、生成器は、ダイナミックレンジ低減された生オーディオ・データを向上させることを、圧伸制御データによって示される圧伸モードに依存して実行するように構成されてもよい。
いくつかの実施形態では、圧伸モードが圧伸オフである場合、生成器は、向上を実行しないように構成されてもよい。
いくつかの実施形態によれば、本装置は、向上されたダイナミックレンジ低減されたオーディオ・データを伸張ダイナミックレンジ・ドメインに伸張する伸張動作を実行するように構成された伸張ユニットをさらに含んでいてもよい。
本開示の別の側面によれば、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから向上されたオーディオ・データを生成する装置が提供される。本装置は、(a)低ビットレートのオーディオ・ビットストリームを受領する受領器を含んでいてもよい。本装置は、さらに、(b)受領された低ビットレートのオーディオ・ビットストリームをコア・デコードし、低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るコア・デコーダを含んでいてもよい。また、本装置は、(c)ダイナミックレンジ低減ドメインにおいて、ダイナミックレンジ低減された生オーディオ・データを向上させる敵対的生成ネットワーク(GAN)の生成器を含んでいてもよく、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記生成器は:(i)前記剪定の閾値を示す一組の感度パラメータに基づいて、エンコーダ段および/またはデコーダ段を剪定し、(ii)前記一組の感度パラメータに基づいて、エンコーダ段のボトルネック層を剪定することによって決定されたものである。
ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから向上されたオーディオ・データを生成するための装置の前述の諸実施形態は、上述の側面にも適用される。
本開示のさらなる側面によれば、処理能力を有する装置によって実行されたときに、オーディオ信号の後処理のために、敵対的生成ネットワークGANの生成器を決定する方法を装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクトが提供される。前記生成器はエンコーダ段とデコーダ段とを含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重み(たとえば、フィルタ係数)を含み、前記生成器のエンコーダ段のボトルネック層は、エンコーダ段とデコーダ段との間の符号化されたオーディオ特徴空間にマップする。
本開示のさらなる側面によれば、処理能力を有する装置によって実行されたときに、ダイナミックレンジ低減されたドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法を装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクトが提供される。
本開示のさらなる側面によれば、ダイナミックレンジ低減されたドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する装置と、生成器および弁別器を有する敵対的生成ネットワークとのシステムが提供される。本システムは、オーディオ信号の後処理のために、敵対的生成ネットワークGANの生成器を決定する方法を実行するように構成され、前記生成器はエンコーダ段とデコーダ段とを含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重み(たとえば、フィルタ係数)を含み、前記生成器のエンコーダ段のボトルネック層は、エンコーダ段とデコーダ段との間の符号化されたオーディオ特徴空間にマップし、本システムはさらに、ダイナミックレンジ低減されたドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法を装置に実行するように構成される。
本開示のさらなる側面によれば、入力オーディオ・データにダイナミックレンジ低減を適用し、ダイナミックレンジ低減されたオーディオ・データを低ビットレートでビットストリームにおいてエンコードする装置と、ダイナミックレンジ低減されたドメインで、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する装置とのシステムが提供される。
別の側面によれば、コンピュータ・プログラムが提供される。コンピュータ・プログラムは、プロセッサ(コンピュータ)によって実行されると、プロセッサに、本開示を通して記載される方法のすべてのステップを実行させる命令を含んでいてもよい。
別の側面によれば、コンピュータ読み取り可能な記憶媒体が提供される。コンピュータ読み取り可能な記憶媒体は、上述したコンピュータ・プログラムを記憶してもよい。
さらに別の側面によれば、プロセッサと、該プロセッサに結合されたメモリとを含む装置(たとえば、コンピュータ)が提供される。プロセッサは、本開示を通じて記載される方法のすべてのステップを実行するように適応されてもよい。
装置の特徴および方法のステップは、多くの仕方で交換されうることが理解されるであろう。特に、開示された方法の詳細は、当業者が理解するように、対応する装置によって実現されることができ、その逆も可能である。さらに、方法(および、たとえばそのステップまたはプロセス)に関してなされた上記の陳述のいずれも、対応する装置(および、そのブロック、段、またはユニット)に同様に適用されてもよく、その逆も可能であることが理解される。
ここで、添付の図面を参照して、本開示の例示的実施形態が、あくまでも例として記述される。
生成ニューラル・ネットワークのアーキテクチャーの例を概略的に示す。 本開示の実施形態による生成ニューラル・ネットワークのパラメータを決定方法の例を示すフロー図である。 本開示の実施形態による、生成ニューラル・ネットワークのパラメータを決定する方法の別の例を概略的に示すブロック図である。 本開示の実施形態による剪定された生成ニューラル・ネットワークのスパース性プロファイルの例を概略的に示す。 生成ニューラル・ネットワークをトレーニングするための敵対的生成ネットワーク・セッティングの例を概略的に示す。 弁別器をトレーニングするための敵対的生成ネットワーク・セッティングの例を概略的に示す。 本開示の実施形態による低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法の一例を概略的に示すブロック図である。 7Aおよび7Bは、本開示の実施形態による、生成ニューラル・ネットワークのパラメータを決定する方法の別の例を示すブロック図である。 本開示の実施形態による生成ニューラル・ネットワークのパラメータを決定する方法の別の例を示すフロー図である。 本開示の実施形態による方法を実行するための装置の例を概略的に示す。
生成ニューラルネットワーク・アーキテクチャー
まず、本開示による方法および装置を適用することができる生成ニューラル・ネットワークについて説明する。この生成ニューラル・ネットワークは、たとえば、敵対的生成ネットワーク(GAN)セットアップにおける生成器に関連することができる。
生成ニューラル・ネットワークのアーキテクチャーは一般に限定されないが、生成ニューラル・ネットワークはエンコーダ段(エンコーダ)およびデコーダ段(デコーダ)を含む。生成ニューラル・ネットワークのエンコーダ段およびデコーダ段は、完全に畳み込み式であってもよく、デコーダ段はエンコーダ段をミラーしていてもよい。エンコーダ段およびデコーダ段はそれぞれ、各層に一つまたは複数のフィルタ(たとえば、複数のフィルタ)を有する複数の層(たとえば、畳み込み層)を含む。各フィルタは、一つまたは複数の重み(重み係数、たとえば、フィルタ係数)を含む。生成ニューラル・ネットワークのエンコーダ段のボトルネック層(たとえば、最も内側の層)は、エンコーダ段とデコーダ段との間の符号化された特徴空間(たとえば、符号化されたオーディオ特徴空間)または潜在空間表現にマップする。
たとえば、エンコーダ段およびデコーダ段はそれぞれ、L個の層を含んでいてもよく、各層にNl個のフィルタがあってもよい。l=1,…,Lであり、Lは自然数≧1であってもよく、Nlは自然数≧1であってもよい。それぞれの層におけるNl個のフィルタのサイズ(カーネルサイズとしても知られる)は限定されず、生成ニューラル・ネットワークによる(ダイナミックレンジ低減された)生オーディオ・データの品質の向上の要件に従って選択されてもよい。しかしながら、フィルタ・サイズは、L個の層のそれぞれにおいて同じであってもよい。剪定されうる重みは、各層Lにおけるフィルタ係数に対応しうる。
ここで、生成ニューラル・ネットワークのアーキテクチャーを概略的に示す図1の非限定的な例を参照すると、第1のステップ1において、オーディオ・データが、生成ニューラル・ネットワークに入力されてもよい。最初の図示されたエンコーダ層2、層番号L=1は、31のフィルタ・サイズを有するN1=16個のフィルタを含んでいてもよい。2番目の図示されたエンコーダ層3、層番号L=2は、31のフィルタ・サイズを有する、N2=32個のフィルタを含んでいてもよい。その後の層は、簡明の理由から省略される。3番目の図示されたエンコーダ層4、層番号L=11は、31のフィルタ・サイズを有する、N11=512個のフィルタを含んでいてもよい。
よって、各層において、フィルタの数は増加しうる、すなわち、フィルタの数は、生成ニューラル・ネットワークのより深い層に向かって増加しうる。ある実施形態では、各フィルタは、>1のストライドで、各エンコーダ層に入力されたオーディオ・データに対して作用してもよい。各フィルタは、たとえば、ストライド2で、各エンコーダ層に入力されたオーディオ・データに対して作用してもよい。よって、因子2による学習可能なダウンサンプリングが実行されてもよい。あるいはまた、フィルタは、エンコーダ層のそれぞれにおいて、ストライド1で作用してもよく、それに、(既知の信号処理におけるように)2倍のダウンサンプリングが続いてもよい。あるいはまた、たとえば、各フィルタは、ストライド4で、各エンコーダ層に入力されたオーディオ・データに対して作用してもよく、これは、生成ニューラル・ネットワーク内の層の総数を半分にすることができる。
生成ニューラル・ネットワークの少なくとも1つのエンコーダ層および少なくとも1つのデコーダ層において、さらに、非線形演算が、活性化として実行されてもよい。ある実施形態では、非線形演算は、パラメトリック整流線形ユニット(PReLU)、整流線形ユニット(ReLU)、漏洩整流線形ユニット(LReLU)、指数線形ユニット(eLU)、およびスケーリングされた指数線形ユニット(SeLU)のうちの一つまたは複数を含んでいてもよい。図1の例では、非線形演算はPReLUに基づいている。
図1に概略的に示されるように、それぞれのデコーダ層7、8、9は、エンコーダ層2、3、4をミラーする。各層におけるフィルタの数および各層におけるフィルタのサイズは、デコーダ段において、エンコーダ段におけるのと同じであってもよいが、デコーダ段におけるオーディオ信号のアップサンプリングは、2つの代替アプローチによって実行されうる。ある実施形態では、端数ストライド畳み込み(fractionally-strided convolution)(転置畳み込み(transposed convolution)としても知られる)演算が、デコーダ段の層7、8、9で使用されてもよい。あるいはまた、デコーダ段の各層において、アップサンプリング因子2を用いる従来の信号処理と同様にアップサンプリングおよび補間が実行された後、フィルタは、ストライド1で、各層に入力されたオーディオ・データに対して作用してもよい。
出力層(たとえば、畳み込み層)10は、その後、向上されたオーディオ・データが出力される前に、デコーダ段の最後の層に続いてもよい。この例では、出力層10は、31のフィルタ・サイズを有するNout=1個のフィルタを含んでいてもよい。
出力層10において、活性化は、エンコーダ層のうちの前記少なくとも1つおよびデコーダ層のうちの前記少なくとも1つにおいて実行される活性化とは異なっていてもよい。活性化は、たとえば、tanh演算に基づいていてもよい。
出力層10は、エンコーダ段の最初の層2の前の入力層1によってミラーされてもよい。
エンコーダ段とデコーダ段との間で、オーディオ・データを修正することができる。この修正は、符号化されたオーディオ特徴空間6にマップするエンコーダ段のボトルネック層5の出力に基づいてもよい。ボトルネック層(あるいは、符号化されたオーディオ特徴空間)は、入力の(符号化された)オーディオ・データの最も優勢な特徴を捕捉する。
オーディオを修正するために、符号化されたオーディオ特徴空間6において、ランダム・ノイズ・ベクトルzが追加的に使用されてもよい。符号化されたオーディオ特徴空間6における修正は、たとえば、ランダム・ノイズ・ベクトル(z)をボトルネック層5からの出力としてのオーディオ・データのベクトル表現(c)と連結することによってなされてもよい。ランダム・ノイズ・ベクトルは、いくつかの実装では、z=0に設定されてもよい。符号化アーチファクト低減のために、ランダム・ノイズ・ベクトルをz=0に設定すると、最良の結果が得られる可能性がある。代替的または追加的に、オーディオ・データを修正するためにこの時点でメタデータが入力されてもよい。この場合、修正されたオーディオ・データの生成は、所与のメタデータ、たとえば圧伸メタデータに基づいて条件付けされ(conditioned)てもよい。
エンコーダ段とデコーダ段の相同な(homologous)層の間にスキップ接続11が存在してもよい。それにより、上述の符号化されたオーディオ特徴空間6がバイパスされて、情報の損失を防止してもよい。スキップ接続11は、一つまたは複数の連結および信号を加えること(signal addition)を使用して実装されてもよい。スキップ接続の実装11のため、フィルタ出力の数は「実質的に」倍にされうる。エンコーダ段およびデコーダ段の最も外側の層は互いに相同であり、エンコーダ段およびデコーダ段の最も外側の層の次の層は互いに相同であり、最も内側の層まで同様になることが理解される。
再び図1の非限定的な例を参照すると、生成ニューラル・ネットワークのアーキテクチャーは、以下のように要約されうる:
1/入力:ダイナミックレンジ低減された生オーディオ・データ
2/エンコーダ層L=1:フィルタ番号N=16、フィルタ・サイズ=31、活性化=PreLU
3/エンコーダ層L=2:フィルタ番号N=32、フィルタ・サイズ=31、活性化=PreLU



4/エンコーダ層L=11:フィルタ番号N=512、フィルタ・サイズ=31
5/ボトルネック層:フィルタ番号N=1024、フィルタ・サイズ=31
6/符号化されたオーディオ特徴空間
7/デコーダ層L=1:フィルタ番号N=512、フィルタ・サイズ=31



8/デコーダ層L=10:フィルタ番号N=32、フィルタ・サイズ=31、活性化PreLU
9/デコーダ層L=11:フィルタ番号N=16、フィルタ・サイズ=31、活性化PreLU
10/出力層:フィルタ番号N=1、フィルタ・サイズ=31、活性化tanh
出力:向上されたオーディオ・データ
11/スキップ接続
上記のアーキテクチャーは、単に一例を示しているにすぎない。意図される用途に応じて、生成ニューラル・ネットワークのエンコーダ段およびデコーダ段における層の数は、それぞれ、ダウンスケールまたはアップスケールされうる。一般に、上記の生成ニューラルネットワーク・アーキテクチャーは、WavenetまたはsampleRNNのような複雑な動作を実行する必要がないため、ワンショットのアーチファクト低減の可能性を提供する。
剪定(pruning)
深層学習は一般に、また生成ニューラル・ネットワークの使用は特に、符号化されたオーディオを改善するための新しい機会を提供するが、これらの改善は、高い計算量およびネットワーク・メモリ使用という代償を伴うことがある。深層ニューラル・ネットワークの使用がより広範になるにつれて、それらがより多様な装置上でどのように実装可能であるかに焦点を当てる必要がある。これらの装置は、しばしばモバイル装置のような装置を含み、高い複雑性のニューラル・ネットワークの実装が記憶および計算資源に著しい影響を及ぼすほど低い処理能力を有する。
重み剪定は、重み値または重み係数(たとえば、生成ニューラル・ネットワークの一つまたは複数の層におけるフィルタ係数および/または活性化係数)を選択的にゼロに設定して、ネットワーク・メモリ使用を改善し、それと同時に、生成ニューラル・ネットワークの計算の複雑さを低減することを許容する。そのような生成ニューラル・ネットワークの一例は、上述のような、GANセットアップにおいてトレーニングされた生成器である。
本開示の文脈において、剪定は、畳み込み層の一つまたは複数の重み係数をゼロにすることに対応しうる。所与の畳み込み層を剪定することは、その畳み込み層の重み係数のうち該当するものを剪定することを意味しうる。
剪定は、剪定制御情報に従って実行されてもよい。剪定制御情報は、剪定される(ゼロにされる)重み係数の数または比率など、剪定の感度を支配(決定)する。剪定制御情報は、生成ニューラル・ネットワークの畳み込み層のそれぞれについて、個々に剪定の重大さを示すことができる。一例では、剪定制御情報は、エンコーダ段およびデコーダ段の複数の畳み込み層についての感度パラメータを含む(またはそれに対応する)。次いで、畳み込み層ごとに1つの感度パラメータがあってもよい。各感度パラメータは、それぞれの畳み込み層について剪定されるべき重み係数の比率を設定してもよい。あるいはまた、各感度パラメータは、剪定のためのそれぞれの閾値を設定してもよい。
本明細書に記載される方法および装置は、任意的には圧伸技法と組み合わせて、オーディオの後処理のための(たとえば、GANセットアップにおいてトレーニングされた)生成ニューラル・ネットワークのネットワーク・メモリ使用を改善することを可能にする。そのような方法および装置は、生成ニューラル・ネットワークを実装する装置にかかる計算負荷を低減することができる。それにより、生成ニューラル・ネットワークの重み剪定は、複雑さが制約された装置を使用するときでも、生成ニューラル・ネットワークによるオーディオ向上を可能にするという恩恵を提供する。
生成ニューラル・ネットワークのパラメータを決定する方法
次に、生成ニューラルネットワーク(のパラメータ)を決定する第1の方法について説明する。具体的には、図2は、オーディオ信号の後処理のために使用可能な生成ニューラル・ネットワーク(たとえば、GANの生成器)(のパラメータ)を決定するための方法200の一例のフロー図を示す。本方法は、本質的には、生成ニューラル・ネットワークをトレーニングおよび/または剪定することに関することができる。生成ニューラル・ネットワークは、エンコーダ段およびデコーダ段を含む。エンコーダ段およびデコーダ段は、それぞれ、各層に一つまたは複数のフィルタを有する複数の層を含む。各フィルタは、一つまたは複数の重み(たとえば、フィルタ係数および/または活性化係数)を含む。生成ニューラル・ネットワークのエンコーダ段のボトルネック層は、エンコーダ段とデコーダ段との間の符号化された(オーディオ)特徴空間にマップする。生成ニューラル・ネットワークは、たとえば、図1に関連して上述したようなアーキテクチャーを有してもよい。
ステップS210では、生成ニューラル・ネットワークのエンコーダ段および/またはデコーダ段は、剪定のための閾値を示す一組の感度パラメータに基づいて剪定される。
さらに、ステップS220において、エンコーダ段のボトルネック層は、一組の感度パラメータに基づいて剪定される。本明細書で使用される一組の感度パラメータは、剪定が望まれる生成ニューラル・ネットワークのすべてのパラメータについて提供される感度パラメータを指しうる。ステップS210およびS220は、任意の順序で、直列に、または並列に実行されうる。いくつかの実装では、ステップS210およびS220は、ボトルネック層を含むエンコーダ段および/またはデコーダ段の両方に影響を及ぼす剪定の単一ステップに関連すると見なされることさえある。
ある実施形態では、剪定は、一組の感度パラメータに基づいて一つまたは複数の重み(重み係数)をゼロにすることを含む。上述したように、重みは、生成ニューラル・ネットワークのエンコーダ段およびデコーダ段の各層における一つまたは複数のフィルタのフィルタ係数に対応するか、または、そう言われてもよい。この文脈では、感度パラメータは、(たとえば、重みの分布に対する標準偏差に関する/の単位での)剪定されるべき重みの割合を示すスカラーであってもよく、または、それより下では重みがゼロに設定されるべき閾値を示してもよい(すなわち、閾値を下回る重みはゼロに設定されてもよい)。これらの重みは、畳み込み(および転置畳み込み)層の重みおよび活性化重みを含みうる。
一般に、剪定は、ネットワーク(たとえば、生成ニューラル・ネットワーク)内のどの重みがそのモデルの精度に最も寄与しないかを決定し、それらの重みをゼロに効果的に設定するアルゴリズムを使用することを含みうる。モデルの精度は、知覚されるオーディオ品質向上の品質または有効性、および、剪定が適用されるときに、オーディオ品質が低下するとしたらどのくらい低下するかとして解釈されうる。ある実施形態では、これは、聴取試験によって評価されうる。聴取試験は、たとえばあらかじめ定義された品質指標(measure)に基づく、自動化された聴取試験であってもよい。
ある実施形態では、本方法は、一組の感度パラメータに基づいて、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層を剪定することをさらに含んでいてもよい。一組の感度パラメータは、ボトルネック層のスパース性の増加が、エンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定される層のいずれかスパース性の増加よりも小さくなるように選択されうる(すなわち、ボトルネック層において、より少ない、またはより軽度の剪定が実行される)。これに関し、生成ニューラル・ネットワークの外側の層における剪定は、より深い層における剪定と比較して、知覚されるオーディオ品質に対して不釣合いに負の影響を及ぼす可能性があることに留意されたい。より深い層は、より多くの重みを含み、よって、外側の層における精度を低下させることは、生成ニューラル・ネットワークにおいてより深いところで、より大きな誤差にカスケードする可能性がある。さらに、一般に、畳み込みモデルにおける最初の層は、伝統的な信号処理構造、たとえばフィルタバンクと同様に処理することを学習する可能性が高い。
たとえば、剪定は、ボトルネック層を除いて、閾値数より多い重みをもつ任意の層について(たとえば、閾値数100万より多い重みを有する任意の層について)、0.3の感度パラメータ(たとえば、重みが[0,1]の範囲に正規化されているとする)を割り当てることによって実行されてもよい。ボトルネック層が入力オーディオ・データの最も優勢な特徴を捕捉するので、ボトルネック層の感度パラメータは、ボトルネック層が、生成ニューラル・ネットワークの近傍の(隣接する)内部の/より深い層ほどスパースでなくされるように選択されてもよい。換言すれば、ボトルネック層の感度パラメータは、隣接する層の剪定量の(直接的な)結果ではなく、オーディオ品質損失の観点から個別に慎重に選択/決定されなければならない場合がある。さらに、感度パラメータは、ボトルネック層を、生成ニューラル・ネットワークの外側の層、すなわち、エンコーダ段の最初の諸層および/またはデコーダ段の最後の諸層よりスパースである(ただし、生成ニューラル・ネットワークの内側の諸層ほどスパースではない)ようにする仕方で選択されてもよい。いくつかの実装では、エンコーダ段の最も外側の層から始まる層番号の関数としての感度パラメータは、ボトルネック層の前の層までは、より重度の剪定を示す値に向かって単調に変化してもよく、次いで、ボトルネック層については、より軽度の剪定を示す値をとってもよく、デコーダ段の最も内側の(最も深い)層については、より重度の剪定を示す値に再び変化してもよく、次いで、デコーダ段の前記最も内側の層からデコーダ段の最も外側の層までは、より軽度の剪定を示す値に向かって単調に変化してもよい。要約すると、さらに言い換えると、生成ニューラル・ネットワークのより深い層には、その外側の層よりもより多くの剪定が適用されてもよいが、ボトルネック層は、エンコーダ段およびデコーダ段におけるそれぞれ直接隣接する層よりも少なく剪定されてもよい。
さらに、ある実施形態では、エンコーダ段における剪定される層の数は、デコーダ段における剪定される層よりも少なくてもよい。生成ニューラル・ネットワークが、潜伏空間表現(たとえば、任意的にノイズ・ベクトルzと連結された符号化されたオーディオ特徴空間)から出力信号(たとえば、向上されたオーディオ・データ)を生成することに注目すると、
デコーダ段におけるよりもエンコーダ段においてより少数の層を剪定することにより、剪定された生成ニューラル・ネットワークが、知覚的に重要な情報を正確に捕捉する良好な潜伏空間表現を生成できることを保証しうる。さらに、生成ニューラル・ネットワークが、エンコーダ段からデコーダ段へのスキップ接続を含む場合、デコーダ段は、エンコーダ段よりも多数の係数(重み係数)を有するであろう。これは、出力信号の知覚品質に影響を与えることなく、デコーダ段を剪定する際の追加の裁量を提供する。
ある実施形態では、本方法は、一組の感度パラメータを得るために、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層に対して感度分析を実行するステップをさらに含んでいてもよい。
感度分析(sensitivity analysis)は、生成ニューラル・ネットワークの所望の成分を評価する(試す)ための感度パラメータの所定の範囲を提供することを含むことができる。ある実施形態では、感度分析は、生成ニューラル・ネットワークの第2のインスタンスの、エンコーダ段およびデコーダ段の前記複数の層ならびにエンコーダ段のボトルネック層に対して実行されてもよく、生成ニューラル・ネットワークの第2のインスタンスは、トレーニングされた未剪定の生成ニューラル・ネットワークである。感度分析のねらいは、最終的なトレーニングされ、剪定された生成ニューラル・ネットワークが、トレーニングされた、未剪定の生成ニューラル・ネットワークによって提供される結果と知覚的に区別がつかない聴取結果を提供するように、生成ニューラル・ネットワークの種々の構成要素について剪定の量を決定することである。
ここでは、感度分析は、あらかじめトレーニングされたモデルを採用し、指定された間隔で剪定を実行し、異なる仕方で剪定された生成ニューラル・ネットワークの集合を生成することができる。損失関数が、さらに、剪定された生成ニューラル・ネットワークと未剪定の生成ニューラル・ネットワークとの間の全損失推定値を提供することを許容しうる。損失関数は、たとえば、平均二乗誤差(MSE)関数であってもよい。他の型の損失関数が使用されてもよく、本開示の範囲内である。たとえば、損失は、時間領域または周波数領域のいずれかで(たとえば、式3で説明されるような複数分解能STFTを用いて)、または両方で計算できる。剪定された生成ニューラル・ネットワークと未剪定の生成ニューラル・ネットワークとの間の比較に基づいて、適用されるべき一組の感度パラメータが選択されうる。
ここで、図3Aの例を参照すると、生成ニューラル・ネットワーク(たとえば、GANセットアップにおける生成器)(のパラメータ)を決定するための方法の例のプロセス・フローチャートが示されている。図示されたプロセス・フローは、上述したような感度分析330を実行して、剪定のための(初期の)一組の感度パラメータを決定することを含みうる。ある実施形態では、剪定のための閾値を示す前記一組の感度パラメータに基づいて、生成ニューラル・ネットワークのエンコーダ段および/またはデコーダ段を剪定し、前記一組の感度パラメータに基づいてエンコーダ段のボトルネック層を剪定する(感度パラメータに基づいて重みをゼロにする)ステップを実行することは、剪定パス310に対応しうる。本方法は、さらに、一つまたは複数のトレーニング・パス320、たとえばGANセッティングのトレーニング・パスと交互に、剪定パス310の一つまたは複数のサイクルを実行することを含んでいてもよい。トレーニング・パス320への初期入力は、完全に未トレーニングの生成ニューラル・ネットワーク、または部分的にトレーニングされた生成ニューラル・ネットワーク、たとえば、ある数のエポックにわたってすでにトレーニングされている生成ニューラル・ネットワークに関連してもよい。さらに、初期に入力された生成ニューラル・ネットワークは、トレーニング・パス320に付される前に、まず剪定パス310に付されてもよいことに留意されたい。
GANセッティングにおけるトレーニング・パスの詳細については、以下でさらに説明する。ある実施形態では、GANセッティングにおいて、剪定パス310を実行することは、生成器を剪定することを含みうるが、GANセッティングの弁別器を剪定することを含まなくてもよい。1サイクルにおける剪定パスおよびトレーニング・パス(エポック)の数は制限されないが、剪定パスは、2つのトレーニング・パス毎と交互して実行されてもよい(すなわち、2つのトレーニング・パス(2つのエポック)に続いて剪定パスが行われる)。1サイクルにおける剪定パスおよびトレーニング・パス(エポック)の任意の実現可能な組み合わせが本開示の範囲内である。
ある実施形態では、本方法は、トレーニング・パスと交互に行われる剪定パスの複数のサイクルの後に、聴取試験340を実行することをさらに含んでいてもよい。聴取試験を実行することにより、トレーニングされ、剪定された生成ニューラル・ネットワークの性能を、符号化アーチファクト低減に関して評価することができ、トレーニングされ、剪定された生成ニューラル・ネットワークの出力が、トレーニングされ、未剪定の生成ニューラル・ネットワークの出力と同程度に良好に聞こえることを確実にすることができる。よって、ある実施形態では、聴取試験を実行することは、トレーニングされ、剪定された生成ニューラル・ネットワークの出力を、(トレーニングされた未剪定の)生成ニューラル・ネットワークの第2のインスタンスの出力と比較することを含んでいてもよい。ここでは、トレーニングされ、剪定された生成ニューラル・ネットワークからの向上されたオーディオ出力の品質は、トレーニングされた未剪定の生成ニューラル・ネットワークと比較して評価されうる。トレーニングされ、剪定された生成ニューラル・ネットワークからの向上されたオーディオ出力の品質が、トレーニングされた未剪定の生成ニューラル・ネットワークによって生成されたオーディオ品質とマッチする場合、この生成ニューラル・ネットワークは、オーディオ信号の後処理のための最終的なトレーニングされ、剪定された生成ニューラル・ネットワークとして採用されてもよい。トレーニングされ、剪定された生成ニューラル・ネットワークからの向上されたオーディオ出力の品質が、トレーニングされた未剪定の生成ニューラル・ネットワーク(生成ニューラル・ネットワークの第2のインスタンス)と比較して不十分であることが判明した場合には、一組の感度パラメータは、聴取試験の結果に基づいて調整され、剪定およびトレーニング・パスのサイクルが、たとえば未トレーニングで未剪定の生成ニューラル・ネットワークから始まって、新たに繰り返される。ここでは、聴取試験340は、人間の聴取者による聴取試験であってもよく、またはあらかじめ定義された品質メトリックを適用する自動化された聴取試験であってもよい。また、人間(主観的聴取)および自動化された聴取(客観的品質予測子)検査の組み合わせも実現可能でありうる。
上述のように、感度パラメータは、ボトルネック層を生成ニューラル・ネットワークの外側の層、すなわち、エンコーダ段の最初の諸層および/またはデコーダ段の最後の諸層よりスパースだが、ボトルネック層に直接隣接する層ほどスパースではないようにするよう、選択されてもよい。スパース性を層番号の関数として示す、ある可能なスパース性プロファイルの例を図3Bに示す。このグラフは、エンコーダ段の最も外側の層(本例ではenc0)から始まってデコーダ段の最も外側の層(本例ではdec10)まで、生成ニューラル・ネットワークの各層についてのゼロにされる(またはゼロ値の)重みの割合を示す。この割合は、ボトルネック層(本例ではenc9)の前の、エンコーダ段の最も内側の層までは単調に増加する。割合は、ボトルネック層(本例ではenc10)において低下し、デコーダ段の最も内側の(最も深い)層(本例ではdec1)について、再び、より高い値をとり、そこから単調に減少する。一般に、上述したゼロ値の重みの割合(またはスパース性)は、エンコーダ段の少なくとも1つの層(ボトルネック層以外)およびデコーダ段の少なくとも1つの層についてはある閾値(スパース性閾値)より大きくてもよく、ボトルネック層については該ある閾値より小さくてもよい。たとえば、該ある閾値は、35%から45%の間、40%から50%の間、または50%から60%の間でありうる。
図3Bの例からもわかるように、スパース性(およびそれに対応して、剪定の重大さ)は、エンコーダ段についてよりもデコーダ段についてより高くてもよい。いくつかの実施形態では、デコーダ層におけるスパース性の最大値(本例では約65%)は、エンコーダ層におけるスパース性の最大値(本例では約50%)より大きくてもよく、これらの値の両方とも、ボトルネック層についてのスパース性の値(本例では約35%)より高い。その理由は、上述したように、生成ニューラル・ネットワークが、潜在空間表現(たとえば、任意的にノイズ・ベクトルzと連結された、符号化されたオーディオ特徴空間)から出力信号(たとえば、向上されたオーディオデータ)を生成するということである。よって、生成ニューラル・ネットワークの出力信号の知覚的品質は、潜在空間表現が入力信号の知覚的に関連する情報(たとえば、生オーディオ・データまたはダイナミックレンジ低減された生オーディオ・データ)をどの程度正確に捕捉するかに依存する。次いで、デコーダ段よりもエンコーダ段により少ない剪定を適用することにより、剪定された生成ニューラル・ネットワークが十分に正確な潜伏空間表現を生成することができることを確実にすることに寄与することができる。加えて、エンコーダ段からデコーダ段へのスキップ接続の存在下でのデコーダ段における、全体的な、より高い数の係数(重み係数)も、出力信号の知覚的品質に影響を与えることなくデコーダ段を剪定する際に追加の裁量を提供する。
敵対的生成ネットワーク・セッティング
ある実施形態では、前記一つまたは複数のトレーニング・パスは、GANセッティングにおいてダイナミックレンジ低減ドメインで実行されてもよく、ここで、GANセッティングは、生成器および弁別器を含む。この実装ではトレーニング・パスはダイナミックレンジ低減ドメインで実行されるが、しかしながら、使用事例に依存して他の条件が適用されうることに留意されたい。この意味で、ダイナミックレンジ低減ドメイン(たとえば、圧伸されたドメイン、知覚的に重み付けされたドメイン)で動作することは任意である。ここで、図4および図5の例を参照して、トレーニング・パスについて説明する。
ダイナミックレンジ低減ドメインは、たとえば、AC-4圧伸されたドメインであってもよい。(たとえば、AC-4圧伸におけるような)いくつかの場合には、ダイナミックレンジ低減は、信号の時間的包絡を除去(または抑制)することと等価でありうる。よって、生成ニューラル・ネットワークは、信号から時間的エンベロープを除去した後のドメインでトレーニングされた生成ニューラル・ネットワークでありうると言える。さらに、以下の段落では、GANセッティングについて説明するが、これは、限定的な意味で理解されるべきではなく、他の生成モデルも考えられ、本開示の範囲に含まれることに留意されたい。
GANセッティングは、一般に、逐次反復プロセスによってトレーニングされる生成器Gおよび弁別器Dを含む。敵対的生成ネットワーク・セッティングにおけるトレーニングの間、生成器Gは、もとのダイナミックレンジ低減オーディオ信号xから導出された(コア・エンコードされ、コア・デコードされた)生のダイナミックレンジ低減されたオーディオ・トレーニング信号
Figure 2023533427000002
に基づいて、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x*を生成する。ダイナミックレンジ低減は、圧伸動作を適用することによって実行されうる。圧伸動作は、AC-4コーデックについて指定され、AC-4エンコーダにおいて実行される圧伸動作であってもよい。GANセッティングは、(コア)デコードされたオーディオを向上させることに限定されない、任意の種類のオーディオ処理に適用されうることが理解される。さらに、ダイナミックレンジ低減は任意的であることが理解される。
ある実施形態では、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000003
に加えて、ランダム・ノイズ・ベクトルzが生成器に入力されてもよく、生成器によって、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x*を生成することは、さらにランダム・ノイズ・ベクトルzに基づいていてもよい。しかしながら、ランダム・ノイズ・ベクトルは、z=0に設定されてもよい。符号化アーチファクト低減のためには、ランダム・ノイズ・ベクトルをz=0に設定することは、特にビットレートが低すぎない場合に最善でありうる。いくつかの実施形態では、ランダム・ノイズ・ベクトルを入力するか、またはノイズ・ベクトルをz=0に設定するかの決定は、もとのダイナミックレンジ低減されたオーディオ信号を含むオーディオ・ビットストリームのビットレートまたは他の特性に基づいて決定されてもよい。たとえば、ステレオ信号の場合、ランダム・ノイズ・ベクトルzは、36kbit/s以下について使用されてもよい。喝采については、ランダム・ノイズ・ベクトルzは、すべてのビットレートについて使用されうる。代替的に、トレーニングは、ランダム・ノイズ・ベクトルzの入力なしに実行されてもよい。
代替的または追加的に、ある実施形態では、メタデータが生成器に入力されてもよく、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000004
を向上させることは、さらにメタデータに基づいていてもよい。よって、トレーニング中、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x*の生成は、メタデータに基づいて条件付けされてもよい。ある実施形態では、メタデータは、圧伸制御データの一つまたは複数の項目を含んでいてもよい。ある実施形態では、圧伸制御データは、オーディオ・データをエンコードするために使用される一つまたは複数の圧伸モードのうちのある圧伸モードに関する情報を含んでいてもよい。ある実施形態では、圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モード、および平均圧伸の圧伸モードを含みうる。ある実施形態では、生成器によって、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を生成することは、圧伸制御データによって示される圧伸モードに依存しうる。この場合、トレーニング中に、生成器は圧伸モードに条件付けされて(conditioned on)もよい。ある実施形態では、圧伸モードが圧伸オフである場合、これは、入力された生オーディオ信号がダイナミックレンジ低減されず、この場合には生成器による向上が実行されないことを示してもよい。圧伸制御データは、オーディオ・データのエンコード中に検出され、圧伸が過渡信号についてはオンに切り換えられ、定常信号についてはオフに切り換えられ、適宜平均圧伸が適用されるという点で、圧伸を選択的に適用することを可能にしうる。
トレーニング中、生成器は、もとのオーディオ信号(たとえば、もとのダイナミックレンジ低減されたオーディオ信号)xと区別できない向上されたオーディオ・トレーニング信号(たとえば、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号)x*を出力しようとする。弁別器は、生成された向上されたオーディオ・トレーニング信号x*と、もとのオーディオ信号xを一つずつ供給され、(たとえば、入力信号を偽/本物としてラベル付けすることにより、または入力信号に信頼スコアを帰することにより)入力信号が向上されたオーディオ・トレーニング信号x*であるか、もとのオーディオ信号xであるかを判断する。ここで、弁別器は、もとのオーディオ信号xを、向上されたオーディオ・トレーニング信号x*から区別しようとする。次いで、逐次反復プロセスの間、生成器は、もとのオーディオ信号xと比較してますます良好な向上されたオーディオ・トレーニング信号x*を生成するためにそのパラメータを調整し、弁別器は、向上されたオーディオ・トレーニング信号x*ともとのオーディオ信号xとの間をより良好に判断/区別することを学習する。
その後の最終ステップで生成器をトレーニングするために、先に弁別器をトレーニングしてもよいことに留意されたい。弁別器のトレーニングおよび更新はまた、ダイナミックレンジ低減ドメインで実行されてもよい。弁別器のトレーニングおよび更新は、もとのオーディオ信号(たとえば、もとのダイナミックレンジ低減されたオーディオ信号)xに高いスコア(「本物の」信号への対応の高い可能性)を割り当て、向上されたオーディオ・トレーニング信号(たとえば、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号)x*に低いスコア(「本物」の信号への対応の低い可能性)を割り当てる確率を最大化することを含みうる。弁別器のトレーニングにおける目標は、もとのオーディオ信号(たとえば、もとのダイナミックレンジ低減されたオーディオ信号)xが本物として認識され、一方、向上されたオーディオ・トレーニング信号(たとえば、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号)x*(生成された信号)が偽物として認識されることでありうる。弁別器がトレーニングされ、更新されている間に、生成器のパラメータは固定されたままにされてもよい(図5の生成器Gのまわりの太線で示されている)。
生成器のトレーニングおよび更新は、もとのオーディオ信号xと生成された向上されたオーディオ・トレーニング信号x*との間の差を最小化することを含んでいてもよく、またはそれに相当してもよい。生成器のトレーニングにおける目標は、弁別器が、生成された向上されたオーディオ・トレーニング信号x*を本物として認識するよう、そのような向上されたオーディオ・トレーニング信号x*の生成を達成することでありうる。
ここで、図4の例を参照すると、敵対的生成ネットワーク・セッティングにおけるダイナミックレンジ低減ドメインでの生成器G 12のトレーニングが、より詳細に記載されている。上述のように、関連する信号をダイナミックレンジ低減ドメインに変換することは任意的であり、図4の例は、この点に関して限定的な意味では理解されない。生成器G 12のトレーニングには、以下を含みうる。もとのオーディオ信号xip 23は、ダイナミックレンジ低減されたもとのオーディオ信号x 20を得るために、ダイナミックレンジ低減comp 21にかけられてもよい。ダイナミックレンジ低減は、圧伸動作、特に、AC-4圧伸動作およびそれに続くQMF(直交ミラーフィルタ)合成ステップを適用することによって実行されてもよい。圧伸の詳細については、以下に説明する。圧伸動作はQMFドメインで実行されるので、その後のQMF合成ステップが必要である。生成器G 12に入力する前に、ダイナミックレンジ低減されたもとのオーディオ信号x 20が追加的にコア・エンコードおよびコア・デコードにかけられて、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000005
19を得てもよい。これは、実際の適用においては、エンコーダ‐デコーダ・チェーンにおいてオーディオ信号が受ける劣化をエミュレートすることができる。次いで、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000006
19とランダム・ノイズ・ベクトルz 22が生成器G 12に入力される。入力に基づいて、生成器G 12は、ダイナミックレンジ低減ドメインにおいて、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18を生成する。ある実施形態では、ランダム・ノイズ・ベクトルz 22は、z=0に設定されてもよい。すなわち、代替的に、トレーニングは、ランダム・ノイズ・ベクトルz 22の入力なしに実行されてもよい。代替的または追加的に、生成器G 12は、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18を修正するために、ダイナミックレンジ低減された符号化されたオーディオ特徴空間内の入力としてメタデータを用いてトレーニングされてもよい。一つずつ、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000007
19が導出されるもとになった、もとのダイナミックレンジ低減されたオーディオ信号x 20と、生成された向上されたダイナミックレンジが減少されたオーディオ・トレーニング信号x* 18とが、弁別器D 13に入力17される。追加的な情報として、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000008
19も、毎回、弁別器D 13に入力されてもよい。次いで、弁別器D 13は、入力信号が向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18(すなわち、偽物)であるか、またはもとのダイナミックレンジ低減されたオーディオ信号x 20(すなわち、本物)であるかを判断する。
次のステップでは、次いで、弁別器D 13がもはや向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18をもとのダイナミックレンジ低減されたオーディオ信号x 20から区別できなくなるまで、生成器G 12のパラメータが調整される。これは、逐次反復プロセス16で行うことができる。逐次反復プロセスは、当業者に既知のように、ニューラル・ネットワークを通じた誤りの逆伝搬を含んでいてもよい。
弁別器による判断は、次の式(1)によるように、知覚的に動機付けられた目的関数の一つまたは複数に基づいていてもよい。
Figure 2023533427000009
上記の目的関数は、次式で与えられる損失の式(損失関数)または誤差の式(誤差関数)に対応してもよい。
Figure 2023533427000010
損失関数の第1項は敵対的損失に対応し、第2項は時間領域L1ノルム損失に対応する。
式(1)におけるインデックスLSは、最小二乗(least squares)法の取り込みをいう。さらに、式(1)の第1項からわかるように、条件付き敵対的生成ネットワーク・セッティングが、追加的情報として、コア・デコードされたダイナミックレンジ低減された生オーディオ・トレーニング信号を弁別器に入力することによって適用されている。
特に、上記の式(1)における最後の項の導入により、逐次反復プロセスの間に、低周波数が乱されないことが保証できる。これらの周波数は典型的にはより多数のビットで符号化されるからである。最後の項は、因子ラムダλでスケールされた1ノルムの距離である。ラムダ値は、用途および/または生成器G 12に入力される信号長に応じて、10~100の値範囲から選択されうる。たとえば、λ=100であるようにλを選択してもよい。
損失関数についての別のオプションは、周波数領域において計算された損失を含む損失関数である。例は次式で与えられる。
Figure 2023533427000011
式(3)の最初の2つの項は、式(2)の項に対応する。式(3)の最後の2つの項は、複数分解能STFT損失項と呼ばれることがある。複数分解能STFT損失項のためのスケーリング(μおよび/またはθ)は、たとえば、λと同じ値に設定されてもよい。最初の2項とは対照的に、複数分解能STFT損失は周波数領域で計算されてもよい。複数分解能STFT損失は、異なるSTFTパラメータを用いた異なるSTFTベースの損失関数の和であると言える。Lsc m(スペクトル収束[spectral convergence]損失)およびLmag m(対数スケールSTFT大きさ[magnitude]損失)は、それぞれ、複数のFFTビン∈{512,1024,2048}、ホップサイズ∈{50,120,240}、および最後に窓長∈{240,600,1200}を有するM個の異なる分解能でSTFTベースの損失を適用することができる。結果は、一般的なオーディオ(すなわち、任意のコンテンツ・タイプ)を処理するために、複数分解能STFT損失項が品質改善を提供することを示している。特に、複数分解能STFT損失項は、高いスパース性の剪定のためにトーン・アーチファクトを低減でき、高周波成分を保持するのを助けることができる。
一般に、損失関数は、敵対的損失および/または時間領域L1ノルム損失に加えて、周波数領域損失に対応する一つまたは複数の成分をさらに含みうる。周波数領域損失は、たとえば、複数分解能短時間フーリエ変換(STFT)損失であってもよい。他の知覚的に動機付けられた損失も同様に組み込むことができる。
ここで図5の例を参照すると、敵対的生成ネットワーク・セッティングにおける、たとえばダイナミックレンジ減少ドメインでの弁別器D 13のトレーニングは、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18およびもとのダイナミックレンジ低減されたオーディオ信号x 20を一つずつ、ダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000012
19と一緒に弁別器D 13に入力25することに応答して、生成器G 12のトレーニングについて上述したのと同じ一般的な逐次反復プロセス24をたどってもよい。ただし、この場合には、弁別器D 13のパラメータは変化させてもよいが、生成器G 12のパラメータは固定してもよい(図4と比較して、図5の生成器Gのまわりの太線によって示される)。弁別器D 13のトレーニングは、次の式(4)によって記述され、これは、弁別器D 13が、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号x* 18を偽物として決定することを可能にする:
Figure 2023533427000013
上記の場合も、追加的情報として、コア・デコードされたダイナミックレンジ低減された生オーディオ・トレーニング信号
Figure 2023533427000014
を入力することによって、最小二乗法(LS)および条件付き敵対的生成ネットワーク・セッティングが適用されている。
最小二乗法に加えて、ダイナミックレンジ低減ドメインで、敵対的生成ネットワーク・セッティングにおける生成器および弁別器をトレーニングするために、他のトレーニング方法が使用されてもよい。本開示は、特定のトレーニング方法に限定されない。代替的または追加的に、いわゆるワッサースタイン手法を使用してもよい。この場合、最小二乗距離の代わりに、ワッサースタイン距離(Wasserstein Distance)としても知られる土砂移動の距離(Earth Mover Distance)を使用してもよい。一般に、種々のトレーニング方法が、生成器および弁別器のトレーニングをより安定させる。しかしながら、適用されるトレーニング方法の種類は、生成器のアーキテクチャーに影響しない。
トレーニング・データのセットは、たとえば音楽、発話、および/または効果に関する複数のオーディオ・サンプル(たとえば、フレーム)を含んでいてもよく、可能性としては、対応する劣化した(たとえば、コア・エンコードされてコア・デコードされた)オーディオ・サンプルを含んでいてもよいことが理解される。トレーニング・データの項目は、オーディオ・サンプル、および可能性としては、対応する劣化したオーディオ・サンプルに関連しうることがさらに理解される。
弁別器アーキテクチャー
弁別器のアーキテクチャーは限定されないが、弁別器のアーキテクチャーは、上述した生成ニューラル・ネットワークのエンコーダ段と同じ一次元畳み込み構造に従ってもよい。よって、弁別器アーキテクチャーは、生成ニューラル・ネットワークのエンコーダ段をミラーしてもよい。よって、弁別器も、各層に一つまたは複数のフィルタを有する複数の層を含んでいてもよい。たとえば、弁別器は、多数のL個の層を含んでいてもよく、各層は、Nl個のフィルタを含んでいてもよく、l=1,…,Lである。Lは自然数≧1であってもよく、Nlは自然数≧1であってもよい。それぞれの層におけるNl個のフィルタのサイズは、限定されず、弁別器の要件に従って選択されてもよい。しかしながら、フィルタ・サイズは、L個の層のそれぞれにおいて同じであってもよい。弁別器のエンコーダ層のうちの少なくとも1つの層で実行される非線形演算は、LeakyReLUを含んでいてもよい。
エンコーダ段に続いて、弁別器は出力層を含んでいてもよい。出力層は、フィルタ・サイズが1のNout=1個のフィルタを有していてもよい。ここで、出力層のフィルタ・サイズは、エンコーダ層のフィルタ・サイズとは異なっていてもよい。よって、出力層は、隠れた活性化をダウンサンプリングしない一次元畳み込み層であってもよい。これは、出力層内のフィルタが1のストライドで動作してもよく、一方、弁別器のエンコーダ段のすべての前層(previous layer)が2のストライドを使用してもよいことを意味する。あるいはまた、エンコーダ段の前層におけるフィルタのそれぞれは、ストライド4で動作してもよい。これは、弁別器における全体的な層の数を半分にすることを可能にしうる。
出力層における活性化は、エンコーダ層のうちの前記少なくとも1つの層における活性化とは異なっていてもよい。活性化はシグモイドであってもよい。しかしながら、最小二乗法トレーニング手法が使用される場合、シグモイド活性化は必要とされなくてもよく、よって、任意的である。
弁別器のアーキテクチャーは、例示的に、以下のように要約されうる:
入力:向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号またはもとのダイナミックレンジ低減されたオーディオ信号
エンコーダ層L=1:フィルタ数N=16、フィルタ・サイズ=31、活性化=LeakyReLU
エンコーダ層L=2:フィルタ数N=32、フィルタ・サイズ=31、活性化=LeakyReLU
エンコーダ層L=11:フィルタ数N=1024、フィルタ・サイズ=31、活性化=LeakyReLU
出力層:フィルタ数N=1、フィルタ・サイズ=1、任意的に:活性化=シグモイド
出力:もとのダイナミックレンジ低減されたオーディオ信号および生成器によって生成された向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号に関係した本物/偽物としての前記入力に関する判断。
上記のアーキテクチャーは、単に一例を示しているにすぎない。意図される用途に応じて、弁別器のエンコーダ段における層の数は、それぞれ、縮小または拡大されてもよい。
再び図3Aの例を参照すると、ある実施形態では、GANセットアップにおいて剪定パスを実行することは、生成器を剪定することを含んでいてもよいが、弁別器を剪定することを含まなくてもよい。これは、弁別器の動作が判断動作に対応し、一方、オーディオ向上は生成器によってのみ実行されるという事実のためでありうる。
圧伸
たとえば、ここで参照によりその全体において組み込まれる米国特許第9,947,335B2号に記載されているような圧伸(companding)技法は、量子化ノイズの時間的ノイズ整形を達成する。量子化ノイズの時間的整形を達成するためにはQMF(直交ミラーフィルタ)ドメインで実装された圧伸アルゴリズムを使用する。一般に、圧伸(companding)は、量子化ノイズ(たとえば、MDCT(修正離散コサイン変換)ドメインにおいて導入された量子化ノイズ)の時間分布を制御するために使用されうる、QMFドメインで動作するパラメトリック符号化ツールである。よって、圧伸技法は、QMF分解ステップ、ならびに、その後の実際の圧伸演算/アルゴリズムの適用およびQMF合成ステップを含みうる。
圧伸は、信号のダイナミックレンジを低減し、等価的に、信号から時間的包絡を除去する例示的な技法として見ることができる。本明細書に記載される方法、装置およびシステムは、低減されたダイナミックレンジ・ドメインでのオーディオの品質を改善することを目的とすることができる。よって、そのような改良は、圧伸技法を用いた応用にとって特に価値がある。よって、いくつかの実施形態は、圧伸に関係し、特に、ダイナミックレンジ低減されたドメインとしてのQMFドメインにおけるオーディオの品質を改善することに関する。
それでも、圧伸などによるダイナミックレンジ低減は、本開示の文脈において任意的であることに留意されたい。
ダイナミックレンジ低減ドメインの別の例は、知覚的に重み付けされたドメインである。そのような知覚的に重み付けされたドメインの例は、2020年10月15日に出願された米国仮出願第63/092,118号「ニューラル・ネットワークを用いたオーディオの処理方法および装置」に記載されており、その全体が参照により本明細書に組み込まれる。
低ビットレートのオーディオ・ビットストリームから向上されたオーディオ・データを生成する方法
図6の例を参照すると、たとえばダイナミックレンジ低減ドメインにおいて、低ビットレート・オーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法600が示されている。ダイナミックレンジ低減は、当面の文脈では任意的でありうる。
第1のステップ610では、低ビットレートのオーディオ・ビットストリームが受領される。低ビットレートのオーディオ・ビットストリームを生成するために使用されるコーデックは、限定されず、非可逆オーディオ圧縮、たとえば、AAC(先進オーディオ符号化)、AC3、HE-AAC、USAC、またはAC-4で使用される任意のコーデックでありうる。ある実施形態では、低ビットレートのオーディオ・ビットストリームはAC-4フォーマットであってもよい。
第2のステップ620では、低ビットレートのオーディオ・ビットストリームがコア・デコードされ、低ビットレートのオーディオ・ビットストリームに基づいて、生オーディオ・データ(たとえば、ダイナミックレンジ低減された生オーディオ・データ)が得られる。たとえば、低ビットレートのオーディオ・ビットストリームはコア・デコードされて、低ビットレートのオーディオ・ビットストリームに基づいて、ダイナミックレンジ低減された生オーディオ・データが得られてもよい。コア・デコードされるという用語は、本明細書で使用されるところでは、一般に、MDCTドメインにおける波形符号化後のデコードされたオーディオを指す。AC-4では、コア・コーデックはオーディオ・スペクトル・フロントエンド(Audio Spectral Frontend、ASF)または発話スペクトル・フロントエンド(Speech Spectral Frontend、SSF)として知られている。ダイナミックレンジ低減されたオーディオ・データは、低ビットレートのオーディオ・ビットストリームでエンコードされてもよい。あるいはまた、ダイナミックレンジ低減は、低ビットレートのオーディオ・ビットストリームをコア・デコードする前または後に実行されてもよい。
ダイナミックレンジ低減された生オーディオ・データをステップ630において処理するために、ダイナミックレンジ低減された生オーディオ・データは生成ニューラル・ネットワークに入力される。
上述のように、生成ニューラル・ネットワークは、敵対的生成ネットワークGANの生成器であってもよい。
生成ニューラル・ネットワークは、エンコーダ段およびデコーダ段を含み、エンコーダ段およびデコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重みを含み、生成ニューラル・ネットワークのエンコーダ段のボトルネック層は、エンコーダ段とデコーダ段との間の符号化されたオーディオ特徴空間にマップし、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層は、ボトルネック層よりもスパース〔疎〕である。
ある実施形態では、ボトルネック層は、エンコーダ段および/またはデコーダ段の一つまたは複数の外側の層よりもスパースであってもよい。外側の層は、エンコーダ段の最初の諸層またはデコーダ段の最後の諸層を指してもよい。
ある実施形態では、スパース性は、ゼロ値の重みの割合によって決定されてもよく、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の層は、ボトルネック層よりも高い割合のゼロ値の重みを有しうる。
ある実施形態では、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の層であって、ボトルネック層よりもスパースであるものは、閾値数の重みを有することができる。たとえば、閾値数は100万個の重みであってもよい。
ある実施形態では、生成ニューラル・ネットワークは、剪定によって得られたものであってもよく、剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含んでいてもよい。
ある実施形態では、剪定によって生成ニューラル・ネットワークを得ることは、一組の感度パラメータに基づいて、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の層を剪定することをさらに含んでいてもよい。一組の感度パラメータは、ボトルネック層のスパース性の増加が、エンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定された層のどれのスパース性の増加よりも小さくなるように選択されうる。
これに関し、生成ニューラル・ネットワークの外側の層における剪定は、より深い層における剪定と比較して、知覚されるオーディオ品質に対して不釣合いに負の影響を及ぼす可能性があることに留意されたい。より深い層は、より多くの重みを含み、よって、外側の層における精度を低下させることは、生成ニューラル・ネットワークのより深くでのより大きな誤差にカスケードする可能性がある。さらに、一般に、畳み込みモデルにおける最初の層は、伝統的な信号処理構造、たとえば、フィルタバンクと同様に処理することを学習する可能性が高い。ボトルネック層が入力オーディオ・データの最も優勢な特徴を捕捉するので、ボトルネック層の感度パラメータは、ボトルネック層が生成ニューラル・ネットワークの近隣の(隣接する)より深い層ほどスパースでないようにされるように選択されうる。換言すれば、ボトルネック層の感度パラメータは、隣接する層の剪定量の(直接的な)結果ではなく、オーディオ品質損失の観点から個別に慎重に選択/決定されなければならない。さらに、感度パラメータは、ボトルネック層を生成ニューラル・ネットワークの外側の層、すなわち、エンコーダ段の最初の諸層および/またはデコーダ段の最後の諸層よりもスパースであるようにするような仕方で選択されてもよい。
ステップ640では、ダイナミックレンジ低減された生オーディオ・データは、次いで、ダイナミックレンジ低減ドメインで生成ニューラル・ネットワークによって向上される。生成ニューラル・ネットワークによって実行される向上プロセスは、符号化アーチファクトおよび量子化ノイズを低減することによって、生オーディオ・データの品質を向上させるために意図されている。
ステップ650における出力として、向上されたダイナミックレンジ低減されたオーディオ・データが、伸張されたドメインへのその後の伸張のために、取得される。ある実施形態では、本方法は、伸張動作を実行することによって、向上されたダイナミックレンジ低減されたオーディオ・データを伸張されたダイナミックレンジ・ドメインに伸張するステップをさらに含んでいてもよい。ある実施形態では、伸張動作は、それぞれの利得値を計算するためのスペクトルの大きさのpノルムに基づく(脱)圧伸動作であってもよい。
一般に圧伸(圧縮/伸張)では、圧縮および伸張のための利得値が計算され、フィルタバンクにおいて適用される。個々の利得値の適用に関連する潜在的な問題を解決するために、短いプロトタイプ・フィルタが適用されてもよい。上述の圧伸動作を参照すると、生成ニューラル・ネットワークによって出力される、向上されたダイナミックレンジ低減されたオーディオ・データが、フィルタバンクによって分解されてもよく、広帯域利得が、周波数領域において直接適用されてもよい。適用されたプロトタイプ・フィルタの形状に従い、時間領域における対応する効果は、利得適用を自然になめらかにすることである。次いで、修正された周波数信号は、それぞれの合成フィルタバンクにおいて時間領域に変換し戻される。この文脈において、多くのQMFツールが存在しうることに留意されたい。そうしたツールは、その後、QMFから時間領域に変換し戻すのに先立って実行されてもよく、非限定的に帯域幅拡張およびパラメトリック・アップミックスのうちの一つまたは複数を含む。フィルタバンクを用いて信号を分解することは、そのスペクトル内容へのアクセスを提供し、高周波数に起因する寄与を優先的にブーストする(または、弱いスペクトル内容に起因する寄与をブーストする)利得の計算を許容し、信号中の最も強い諸成分に支配されない利得値を提供し、よって、異なるソースの混合を含むオーディオ・ソースに関連する問題を解決する。この文脈において、利得値は、典型的にはpが2未満であるスペクトルの大きさのpノルムを用いて計算されてもよく、これは、p=2の場合のようにエネルギーに基づくよりも、量子化ノイズの整形においてより効果的であることが見出されている。
上述の方法は、任意のデコーダ上で実装されてもよい。上述の方法が圧伸との関連で適用される場合、上述の方法は、AC-4デコーダ上で実装されてもよい。
上述の方法はまた、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置によって実行されてもよい。この装置は、低ビットレートのオーディオ・ビットストリームを受領するための受領器と、受領された低ビットレートのオーディオ・ビットストリームをコア・デコードして、低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るためのコア・デコーダと、ダイナミックレンジ低減ドメインでダイナミックレンジ低減された生オーディオ・データを向上するための生成ニューラルネットワーク(たとえば生成器)とを含むことができる。ある実施形態では、この装置は、デマルチプレクサをさらに含んでいてもよい。ある実施形態では、この装置は、拡張ユニットをさらに含んでいてもよい。
代替的または追加的に、この装置は、入力オーディオ・データにダイナミックレンジ低減を適用し、ダイナミックレンジ低減されたオーディオ・データを低ビットレートでビットストリームにエンコードする装置と、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成する前記装置とのシステムの一部であってもよい。
代替的または追加的に、本明細書に記載される諸方法は、処理能力を有する装置によって実行されるときに、装置に前記方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクトによって実装されてもよい。
代替的または追加的に、本明細書に記載される諸方法は、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置と、生成器および弁別器を有する敵対的生成ネットワークとのシステムによって実装されてもよい。
メタデータ
上記の方法は、メタデータに関わってもよく、または部分的にメタデータに基づいていてもよい。ある実施形態では、受領された低ビットレートのオーディオ・ビットストリームは、メタデータを含んでいてもよく、上記のステップ610は、受領された低ビットレートのオーディオ・ビットストリームを多重分離することをさらに含んでいてもよい。ある実施形態では、上述のステップ640において、生成ニューラル・ネットワークによって、ダイナミックレンジ低減された生オーディオ・データを向上させることは、メタデータに基づいていてもよい。上述のように、本明細書に記載される方法、装置およびシステムは、圧伸との関連で適用される場合に価値がある場合がある。よって、ある実施形態では、メタデータは、圧伸制御データの一つまたは複数の項目を含んでいてもよい。一般に、圧伸は、発話および過渡信号のために恩恵を提供しうる一方、一部の定常的な信号の品質を劣化させる。エンコードの際に、各QMF時間スロットを個々に利得値で修正することは結果として不連続を生じることがあり、それは、圧伸デコーダにおいて、整形されたノイズの包絡に不連続を生じさせ、可聴アーチファクトを生じさせることがあるからである。それぞれの圧伸制御データにより、過渡信号については圧伸をオン、定常信号については圧伸をオフに選択的に切り換え、あるいは適宜平均圧伸(平均圧伸モード)を適用することが可能である。この文脈では、平均圧伸は、隣接するアクティブな圧伸フレームの利得に類似する、オーディオフレームへの一定の利得の適用を指す。圧伸制御データは、エンコードの際に検出され、低ビットレートのオーディオ・ビットストリームを介してデコーダに送信されてもよい。よって、ある実施形態では、圧伸制御データは、オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちのある圧伸モードに関する情報を含んでいてもよい。ある実施形態では、圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含むことができる。ある実施形態では、上述のステップ640において、生成ニューラル・ネットワークによって、ダイナミックレンジ低減された生オーディオ・データを向上させることは、圧伸制御データにおいて示される圧伸モードに依存しうる。ある実施形態では、圧伸モードが圧伸オフである場合、生成ニューラル・ネットワークによる向上は実行されない。
適応的な感度ベースの剪定
コンピュータに実装される生成ニューラル・ネットワークのためのパラメータを決定する第1の方法は、たとえば、図3Aを参照して上に記載されている。この第1の方法では、剪定感度パラメータの限定的な適応のみがある。それはたとえば、直感、深層学習理論、聴取、および手作業の反復に基づいて感度パラメータを選択することを含む。
感度パラメータの自動適応を含む、(コンピュータに実装された)生成ニューラル・ネットワークのためのパラメータを決定する第2の方法が、図7A、図7B、および図8を参照して、次に記載される。そうでないことが示されない限り、この第2の方法は、オーディオ信号を処理するためのコンピュータ実装された(深層)生成ニューラル・ネットワークのためのパラメータを決定する方法である。よって、本方法は、生成ニューラル・ネットワークを構成するのに好適でありうる。生成ニューラル・ネットワークは、たとえば、GANの生成器であってもよい。上述のように、生成ニューラル・ネットワークは、エンコーダ段とデコーダ段とを含み、エンコーダ段は、符号化された特徴空間(潜在的特徴空間、たとえば符号化されたオーディオ特徴空間または潜在的オーディオ特徴空間)にマップする。エンコーダ段およびデコーダ段のそれぞれは、複数の畳み込み層を含み、各畳み込み層は、一つまたは複数の重み係数(たとえば、フィルタ係数および/または活性化関数係数)を含む。
一般的に、提案される方法は、トレーニング・エポックの間に計算された損失に基づく感度パラメータの自動更新によって、骨の折れる感度パラメータ選択の問題を解決する。このように、本開示は、オーディオを向上させるために使用可能な、深層生成ニューラル・ネットワーク(たとえば、GANの生成器)を剪定するために、感度パラメータを自動的に更新するためのフレームワークを提示する。
より詳細には、本開示は、生成モデルの未剪定の損失に基づいて感度パラメータを自動的に更新することによって、生成モデル(たとえば、生成ニューラルネットワーク)の畳み込み層についての重みを剪定する方法を記載する。この方法は、未剪定の完全にトレーニングされた生成モデルの損失(「目標損失」)を取り、諸トレーニング・エポックの間に計算された損失に基づいて感度パラメータを自動的に更新する。使用される損失関数は、変わってもよく、異なる損失成分を組み込むことができる。たとえば、時間領域、周波数領域、または知覚領域における損失を計算するための構成要素が組み込まれてもよい。
それにより、本セクションに提示される技法は、メモリおよびバッテリーが制約された装置上でオーディオ向上のための生成ニューラル・ネットワークを動作させるために必要とされる計算要件を低減することができ、該装置上でのオーディオ向上のための生成ニューラル・ネットワークの広範な展開の可能性を許容する。
意図される制限なしに、提案される方法の重要な側面は以下の通りである:
・剪定されるべきニューラル・ネットワークの重みの総数を支配するパラメータ(感度パラメータなど)の自動適応
・トレーニング中に最適な剪定メタパラメータの配列に収束するための最適化技法の使用
・時間領域と周波数領域の両方で計算した損失を用いた剪定損失推定を改善するための新しい損失の式
・損失項は知覚的に重み付けされた領域で計算できる。
図7Aおよび図7Bは、本開示の実施形態による、剪定の重大さの自動適応を含む、生成ニューラル・ネットワークのパラメータを決定する方法の一例を示すブロック図である。以下により詳細に説明されるように、剪定の重大さの適応は、生成ニューラル・ネットワークの目標損失(または参照損失)に基づく。目標損失は、所定の損失関数を使用して決定(たとえば、計算)されうる。上述の損失関数のいずれも、この目的のために使用されうる。
目標損失を決定するための一例の手順が、図7Aに示されている。よって、第1のフェーズでは、生成ニューラル・ネットワークの第2のインスタンスが、トレーニング・データの適切なセットを使用して、完全トレーニング・ブロック705において完全にトレーニングされる。ここで、生成ニューラル・ネットワークの第2のインスタンスとは、生成ニューラル・ネットワークの第2のインスタンスのアーキテクチャーが、提案される方法によって構成される生成ニューラルネットワーク(の第1のインスタンス)のアーキテクチャーと同じであることを意味する。しかしながら、生成ニューラル・ネットワークの第2のインスタンスのパラメータ値は、前記生成ニューラル・ネットワークのパラメータ値とは異なっていてもよい。完全トレーニングとは、たとえば、完全トレーニングのためのある種の基準または収束基準が満たされるようなエポック数にわたるトレーニングを意味しうる。完全トレーニングの後、たとえばトレーニング・データのある項目に基づいて、またはトレーニング・データの複数の項目に基づいて、生成ニューラル・ネットワークの完全にトレーニングされた第2のインスタンスについての損失(「フェーズ1損失」)を決定するために、所定の損失関数が使用される。次いで、このようにして決定された損失は、生成ニューラル・ネットワークを構成するための目標損失として使用できる。本明細書では、生成ニューラル・ネットワークの第2のインスタンスは剪定されないことが理解される。
生成ニューラル・ネットワークのパラメータを決定する実際の方法は、前述の第1のフェーズとは独立であってもよく、目標損失は、代替的な手順によって決定されてもよいことに留意されたい。
目標損失が決定された後、生成ニューラル・ネットワークのパラメータは、第2のフェーズにおいて決定されることができる。その例を図7Bに示す。
第2のフェーズは、感度パラメータの初期セットのような、初期に設定された剪定制御情報を想定する。非限定的な例では、初期に設定された剪定制御情報は、生成ニューラル・ネットワークの前述の完全にトレーニングされた第2のインスタンスを使用して導出されてもよい。たとえば、生成ニューラル・ネットワークの完全にトレーニングされた第2のインスタンスは、生成ニューラル・ネットワークのトレーニングされた第2のインスタンスのエンコーダ段およびデコーダ段の前記複数の畳み込み層に対して感度分析を実行し、それにより、剪定制御情報の初期セットを得る(たとえば導出する)ことができる。
その起源に関係なく、1つの非限定的な例では、剪定制御情報は、ボトルネック層の剪定、ならびにボトルネック層に隣接するエンコーダ段および/またはデコーダ段の一つまたは複数の畳み込み層の剪定を示すように、最初に選択されてもよい。さらに、最初に選択された剪定制御情報は、ボトルネック層のスパース性の増加が、ボトルネック層に隣接するエンコーダ段および/またはデコーダ段の前記一つまたは複数の剪定される層のスパース性の増加よりも小さいようなものであってもよい。追加的または代替的に、最初に選択された剪定制御情報は、エンコーダ段においてはデコーダ段におけるよりも少ない層の剪定を示すようなものであってもよい。
図7Bは、生成ニューラル・ネットワークのパラメータを決定するプロセスにおいて複数回繰り返して実行されうるループ(またはサイクル)を概略的に示す。これらのループのうちの第1のものは、ブロック710において生成ニューラル・ネットワークを剪定すること、またはブロック720において生成ニューラル・ネットワークをトレーニングすることのいずれかで開始することができるという点で、わずかに異なる場合がある。いずれの場合においても、この方法の初期フェーズの後、図7Bに示されるループが繰り返し通して実行されてもよい。さらに、ブロック730(後述)での剪定制御情報の適応/更新は、トレーニング/剪定プロセスの開始時、またはそれ以降の何らかのエポックにおいて開始されてもよいことに留意されたい。後者の場合、トレーニング/剪定プロセスに入る生成ニューラル・ネットワークは、(部分的に)事前トレーニングされた生成ニューラル・ネットワークであってもよい。これは、図7Bに示されるトレーニング/剪定プロセスの収束を加速しうる。
各ループでは、現在の生成ニューラル・ネットワーク(すなわち、トレーニングおよび/または剪定の現在の状態における生成ニューラル・ネットワーク)は、剪定制御情報に基づいて生成ニューラル・ネットワークの重み(重み係数、または一般にパラメータ)をゼロにするブロックであるブロック710で剪定される。感度パラメータは、剪定制御情報の一例である。ブロック710の出力は、剪定された生成ニューラル・ネットワーク(または一般に剪定されたモデル)である。
剪定された生成ニューラル・ネットワークは、その後、ブロック720でトレーニングされる。この(深層学習に基づく)トレーニングは、適切な一組のトレーニング・データに基づいており、一つまたは複数のエポックにわたることがある。そこで、剪定制御情報の変動性(たとえば、変化率)(または下記で決定される損失)に基づいて、より多数の、またはより少数のトレーニング・エポックを使用することができる。さらに、トレーニングは、深層学習に基づくモデルのトレーニングにおける一般的な慣行と同様に、生成ニューラル・ネットワークを通じた誤りの逆伝搬を含みうる。一例では、生成ニューラル・ネットワークは、GANの生成器であってもよく、上述のように、GANセットアップにおいてトレーニングされてもよい。
たとえば、生成ニューラル・ネットワークの最終バージョンを示す収束基準または他の基準が満たされるかどうかに依存して、ブロック720の出力は、最終生成ニューラル・ネットワーク(または一般的には最終モデル)であってもよく、または生成ニューラル・ネットワークは、剪定およびトレーニングの一つまたは複数の追加的なループにかけられてもよい。
後者の場合、(代表的な)損失は、損失関数(たとえば、目標損失を決定するために使用されたのと同じ損失関数)を使用して、現在の生成ニューラル・ネットワークについて決定される。この損失(「更新された損失」)はブロック730に供給され、ブロック730は感度パラメータ適応器(または一般には剪定制御情報適応器)を実装する。ブロック730はさらに、入力として目標損失(「フェーズ1損失」)を受け取り、現在の生成ニューラル・ネットワークについて決定された損失および目標損失に基づいて、剪定制御情報を適応させる。この適応は、2つの損失の比較を含んでいてもよい。潜在的には、たとえば感度パラメータ(の適応)の多くの並べかえが、全体的なトレーニング時間に関する制約を条件として、この段階で試みられてもよい。この目的のために、任意の好適な最適化技法が使用されうる。一般に、剪定制御情報を適応させることは、損失の比較に基づいて、生成ニューラル・ネットワークの複数の畳み込み層についての剪定感度を増加または減少させることを含みうる。たとえば、比較の結果に依存して、剪定感度は、すべての畳み込み層について同様に増加され、またはすべての畳み込み層について同様に減少されてもよい。これは、たとえば、生成ニューラル・ネットワークの複数の畳み込み層についての剪定感度を増加させる(たとえば、一様に増加させる)または減少させる(たとえば、一様に減少させる)ために、剪定制御情報(たとえば、感度パラメータ)にスケーリング係数(たとえば、全体的なスケーリング係数)を適用することを含みうる。ここで、一様な増加/減少は、諸層を通じた剪定プロファイル(たとえば、諸層を通じた、結果として生じるスパース性またはスパース性の増加のプロファイル)の形状を変化させないと理解される。さらに、決定された損失(または損失差)が大きい場合には、剪定の重大さが減少させられてもよく、および/または、決定された損失(または損失差)が小さい場合には、剪定の重大さが増加させられてもよいことが理解される。
その後、ブロック730によって出力された更新された剪定制御情報と、ブロック720によって出力された生成ニューラル・ネットワーク(「更新されたトレーニングされたモデル」)とが、剪定のさらなるパスのために、ブロック710に入力される。
オーディオ信号を処理するための、コンピュータ実装された生成ニューラル・ネットワークについてのパラメータを決定する方法800の例示的なフローチャートを図8に示す。方法800は、図7Bの方法と整合しうる。全体的な方法800は、ループ状にサイクルされるステップS810~S850の複数のサイクルを含んでいてもよい。たとえば、ステップS810~S850は、収束基準が満たされるまで、複数回サイクルされてもよい。
ステップS810において、エンコーダ段および/またはデコーダ段の重み係数は、剪定制御情報に基づいて剪定され(ゼロにされ)、剪定された生成ニューラル・ネットワークが得られる。上述のように、剪定制御情報は、それぞれの畳み込み層について剪定される重み係数の数を支配(たとえば、決定、指示)しうる。このステップは、上述のブロック710に対応しうる。
ステップS820では、剪定された生成ニューラル・ネットワークは、トレーニング・データの適切なセットに基づいて、より多くのエポックのうちの1つのためにトレーニングされる。ここで、このステップの各インスタンスにおけるトレーニングのためのエポック数は、あるサイクルから次のサイクルへの剪定制御情報の変化率(または決定された損失)に基づいて設定されうる。剪定制御情報(または決定された損失)の高い変動性(大きな変化/変化率)は、トレーニング・ステップ当たりのトレーニングのより少数のエポックで十分であることを示してもよく、剪定制御情報(または決定された損失)の低い変動性は、トレーニング・ステップ当たりのトレーニングのより多数のエポックが望ましいことを示している可能性がある。このステップは、上述のブロック720に対応しうる。
ステップS830では、損失関数に基づいて、トレーニングされ、剪定された生成ニューラル・ネットワークについて損失が決定される。意図された制限なしに、この損失関数は、「敵対的生成ネットワーク・セッティング」のセクションで上述した損失関数のいずれかに対応しうる。さらに、よりよい知覚的な意義のために、追加的な/新たな損失成分が損失計算に組み込まれてもよい。
ステップS840では、更新/調整された剪定制御情報が、生成ニューラル・ネットワークについての決定された損失および目標損失に基づいて決定される。目標損失は、ステップS830と同じ損失関数を使用して、図7Aを参照して上述したように決定(たとえば、計算)されてもよい。この目的のためには、本開示を通して、特に「敵対的生成ネットワーク・セッティング」のセクションに記載されている任意の損失関数が使用されうる。
ここで、更新された剪定制御情報は、決定された損失と目標損失との間の差を最小化するように決定されうる。この目的のために、さまざまな最適化技法が使用されうる。たとえば、更新された剪定制御情報を決定することは、生成ニューラル・ネットワークの複数の畳み込み層について剪定感度を増加させる(たとえば、一様に増加させる)または減少させる(たとえば、一様に減少させる)ことを含んでいてもよい。すなわち、剪定感度は、すべての畳み込み層について同様に増加させられる、またはすべての畳み込み層について同様に減少させられるのでもよい。これは、たとえば、剪定制御情報(たとえば、感度パラメータ)にスケーリング因子(たとえば、一様なスケーリング因子)を適用して、生成ニューラル・ネットワークの複数の畳み込み層についての剪定感度を増加または減少させることによって達成されうる。この場合、剪定感度の増加または減少(たとえば、更新された剪定感度と以前の剪定感度との間の比で表す)は、すべての畳み込み層にわたって一様であってもよい。ここで、一様な増加または減少は、生成ニューラル・ネットワークの諸層を通じた(たとえば、結果として生じるスパース性またはスパース性増加で表す)剪定プロファイル(の形状)が変化しないことを示すと理解される。このステップは、上述のブロック730に対応しうる。
ステップS850では、あらかじめ定義された収束基準が満たされているかどうかがチェックされる。
もしそうなら(ステップS850でYES)、方法は終了する。さもなければ(ステップS850でNO)、方法は、ステップS810~S850を含むサイクルを通じたさらなる実行のために、ステップS810に戻る。よって、ステップS810~S850を含むサイクルは、収束基準が満たされるまで繰り返しループしてもよい。あるいはまた、ステップS850のチェックは、ステップS810、S820の後に実行されてもよく、その場合、ステップS830、S840は、収束基準が満たされない場合に(のみ)実行される。他の航跡な順序のステップも同様に実行可能でありうる。一般に、収束基準が満たされない限り、剪定制御情報は連続的に更新されることが理解される。
前述の収束基準は、ステップS830で決定された損失および目標損失に基づくことができる。たとえば、収束基準は、決定された損失と目標損失との間の差が所定の閾値を下回るかどうかに関係しうる。代替的または追加的に、収束基準は、決定された損失と目標損失との間の差の、あるサイクルから次のサイクルへの変化が、所定の閾値を下回るかどうかに関連しうる。
いくつかの実施形態では、方法800は、ステップS810~S850の複数サイクルに入る前に、追加的な事前トレーニング・ステップ(図8には示されていない)をさらに含んでいてもよい。この事前トレーニング・ステップは、エンコーダ段およびデコーダ段の重み係数を剪定することなく、一つまたは複数のエポックにわたってトレーニング・データのセットを使用して生成ニューラル・ネットワークを(部分的に)トレーニングするステップであってもよい。これは、(たとえば、ステップS810およびS820において)剪定およびトレーニングの交互のパスを実行するとき、生成ニューラル・ネットワークのより速い収束を生じうる。
例示的なコンピューティング装置
コンピュータ実装された生成ニューラル・ネットワークのパラメータを決定する方法が上述されている。さらに、本開示はまた、この方法を実施するための装置(たとえば、システムまたは装置)にも関する。そのような装置900の一例を図9に示す。プロセッサ910と、プロセッサ910に結合されたメモリ920とを有する装置900であって、プロセッサは、本明細書に記載の方法のステップを実行するように適応される。プロセッサ910は、入力905(たとえば、生成ニューラル・ネットワークの表現、トレーニング・データ、試験データ、メタデータなど)を受領して、出力915(たとえば、生成ニューラル・ネットワークのパラメータ)を生成してもよい。
これらの装置(およびその段、ユニット、ブロックなど)は、サーバーコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、セルラー電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、またはその装置が取るべきアクションを指定する命令(シーケンシャルまたはその他)を実行することができる任意の機械によって実装されうる。さらに、図面には単一の装置900のみが示されているが、本開示は、個別にまたは合同で、本明細書に記載された方法のいずれか一つまたは複数を実行するための命令を実行する装置の任意の集合に関する。
本開示は、さらに、プロセッサによって実行されるときに、プロセッサに本明細書に記載された方法のステップの一部または全部を実行させる命令を含むプログラム(たとえば、コンピュータ・プログラム)に関する。
さらに、本開示は、上述のプログラムを記憶するコンピュータ読み取り可能な(または機械読み取り可能な)記憶媒体に関する。ここで、「コンピュータ読み取り可能な記憶媒体」という用語は、たとえば、固体メモリ、光学式媒体、および磁気媒体の形のデータリポジトリを含むが、これらに限定されない。
解釈および追加的な構成の考慮事項
本開示は、オーディオ処理の方法およびオーディオ処理のための装置(たとえば、システムまたはデバイス)に関する。方法およびそれらのステップに関してなされた任意の陳述は、対応する装置およびそれらの段階/ブロック/ユニットに同様に類似して適用され、逆も同様に適用されることが理解される。
特に断らない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、物理量、たとえば電子的な量として表されるデータを操作および/または変換して、同様に物理量として表される他のデータにするコンピュータまたはコンピューティングシステムまたは同様の電子計算装置のアクションおよび/またはプロセスを指すことが理解される。
同様に、用語「プロセッサ」は、たとえばレジスタおよび/またはメモリからの電子データを処理して、その電子データをたとえばレジスタおよび/またはメモリに記憶されうる他の電子データにするため任意の装置または装置の部分を指してもよい。「コンピュータ」または「計算機」または「コンピューティングプラットフォーム」は、一つまたは複数のプロセッサを含んでいてもよい。
本明細書に記載の方法は、ある例示的実施形態では、前記プロセッサのうちの一つまたは複数によって実行されたときに本明細書に記載の方法のうちの少なくとも1つを実行する命令のセットを含むコンピュータ可読(機械可読とも呼ばれる)コードを受け入れる一つまたは複数のプロセッサによって実行可能である。実行されるべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のプロセッサが含まれる。よって、1つの例は、一つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、およびプログラマブルDSPユニットのうちの一つまたは複数を含みうる。処理システムはさらに、メインRAMおよび/またはスタティックRAMおよび/またはROMを含むメモリサブシステムを含んでいてもよい。コンポーネント間で通信するためのバスサブシステムが含まれてもよい。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイ、たとえば、液晶ディスプレイ(LCD)または陰極線管(CRT)ディスプレイが含まれていてもよい。手動データ入力が必要な場合には、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御装置などの一つまたは複数のような入力装置をも含む。処理システムは、ディスクドライブユニットのような記憶システムも含むことができる。いくつかの構成における処理システムは、音声出力装置およびネットワークインターフェース装置を含みうる。よって、メモリサブシステムは、一つまたは複数のプロセッサによって実行されたときに、本明細書に記載された方法の一つまたは複数を実行させる一組の命令を含む、コンピュータ読み取り可能なコード(たとえば、ソフトウェア)を担持するコンピュータ読み取り可能なキャリア媒体を含む。方法がいくつかの要素、たとえば、いくつかのステップを含む場合、具体的に述べられない限り、そのような要素の順序付けは含意されないことに注意されたい。ソフトウェアは、ハードディスク内にあってもよく、または、コンピュータシステムによるその実行中には、完全にまたは少なくとも部分的に、RAM内および/またはプロセッサ内にあってもよい。よって、メモリおよびプロセッサは、コンピュータ読み取り可能なコードを担持するコンピュータ読み取り可能なキャリア媒体も構成する。さらに、コンピュータ読み取り可能なキャリア媒体は、コンピュータ・プログラム・プロダクトを形成するか、またはコンピュータ・プログラム・プロダクトに含まれてもよい。
代替的な例示的実施形態では、前記一つまたは複数のプロセッサは、スタンドアローン装置として動作するか、または、ネットワーク接続された展開では、接続されてもよく、たとえば他のプロセッサにネットワーク接続されてもよく、前記一つまたは複数のプロセッサは、サーバー‐ユーザーネットワーク環境におけるサーバーまたはユーザーマシンの資格で動作してもよく、または、ピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。前記一つまたは複数のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、または、そのマシンによって取られるべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のマシンを形成しうる。
「機械」という用語はまた、本明細書で議論される方法論のいずれか一つまたは複数を実行するための命令のセット(または複数セット)を個別にまたは合同で実行する機械の任意の集合を含むとも解釈されることに留意されたい。
よって、本明細書に記載される各方法の一つの例示的実施形態は、命令のセット、たとえば、一つまたは複数のプロセッサ、たとえば、ウェブ・サーバー構成の一部である一つまたは複数のプロセッサ上での実行のためのコンピュータ・プログラムを担持するコンピュータ可読キャリア媒体の形である。よって、当業者には理解されるように、本開示の例示的実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、またはコンピュータ読み取り可能なキャリア媒体、たとえば、コンピュータ・プログラム・プロダクトとして具現されうる。コンピュータ読み取り可能なキャリア媒体は、一つまたは複数のプロセッサ上で実行されたときにプロセッサ(単数または複数)に方法を実施させる命令のセットを含むコンピュータ読み取り可能コードを担持する。よって、本開示の諸側面は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアとハードウェアの側面を組み合わせた例示的な実施形態の形をとることができる。さらに、本開示は、媒体内に具現されたコンピュータ読み取り可能なプログラムコードを担持するキャリア媒体(たとえば、コンピュータ読み取り可能な記憶媒体上のコンピュータ・プログラム・プロダクト)の形態をとることができる。
ソフトウェアは、さらに、ネットワークインターフェース装置を介してネットワークを通じて送受信されてもよい。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体(carrier medium)」という用語は、一つまたは複数の命令セットを記憶する単一の媒体または複数の媒体(たとえば、中央集中型または分散型データベース、および/または関連するキャッシュおよびサーバー)を含むと解されるべきである。用語「キャリア媒体」はまた、前記プロセッサのうちの一つまたは複数による実行のための命令のセットを記憶、エンコード、または担持することができ、前記一つまたは複数のプロセッサに本開示の方法のいずれか一つまたは複数を実行させる任意の媒体をも含むと解されるべきである。キャリア媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む多くの形態をとることができる。不揮発性媒体には、たとえば、光ディスク、磁気ディスク、および光磁気ディスクを含む。揮発性媒体は、メインメモリのような動的メモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバーを含む。伝送媒体はまた、電波および赤外線データ通信の間に生成されるような、音波または光波の形態をとることもできる。たとえば、「キャリア媒体」という用語は、固体メモリ、光学および磁気媒体に具現されたコンピュータプロダクト;少なくとも1つのプロセッサまたは一つまたは複数のプロセッサによって検出可能な伝搬信号を担持し、実行時に方法を実装する命令のセットを表す媒体;および前記一つまたは複数のプロセッサのうちの少なくとも1つのプロセッサによって検出可能な伝搬信号を担持し、命令のセットを表すネットワーク内の伝送媒体を含むが、これらに限定されないと解されるべきである。
論じられた方法のステップは、ある例示的実施形態では、記憶装置に記憶された命令(コンピュータ読み取り可能コード)を実行する処理(たとえばコンピュータ)システムの適切なプロセッサ(単数または複数)によって実行されることが理解されよう。また、本開示は、いかなる特定の実装またはプログラミング技法にも限定されず、本明細書に記載される機能を実装するための任意の適切な技法を用いて実装されうることも理解されるであろう。本開示は、いかなる特定のプログラミング言語またはオペレーティング・システムにも限定されない。
本開示全体を通して、「一つの例示的実施形態」、「いくつかの例示的実施形態」または「ある例示的実施形態」への言及は、その例示的実施形態に関連して記載された特定の特徴、構造または特徴が、本開示の少なくとも1つの例示的実施形態に含まれることを意味する。従って、本開示のさまざまな箇所における「一つの例示的実施形態では」、「いくつかの例示的実施形態では」または「ある例示的実施形態では」という句の出願は、必ずしもすべてが同じ例示的実施形態を指しているわけではない。さらに、特定の特徴、構造または特性は、本開示から当業者に明らかなように、一つまたは複数の例示的実施形態において、任意の適切な仕方で組み合わせることができる。
本明細書中で使用されるところでは、特に断りのない限り、共通の対象を記述するための序数形容詞「第1の」、「第2の」、「第3の」などの使用は、単に、類似の対象の異なるインスタンスが言及されていることを示し、かつ、そのように記述された対象が、時間的に、空間的に、ランク付けにおいて、または他のいかなる仕方でも、所与の序列になければならないことを意味することを意図していない。
特許請求の範囲および本明細書中の説明において、含む、含んでいる、または有するという用語のうちの任意のものは、少なくとも挙げられている要素/特徴を含むが、他を除外しない開放的な用語である。よって、特許請求の範囲において使用される場合の用語、含む/有するは、列挙される手段、要素、またはステップに限定されるものとして解釈されるべきではない。たとえば、AおよびBを有する装置は、要素AおよびBのみからなる装置に限定されるべきではない。本明細書で使用されるところの、含むまたは含んでいるまたは包含するという用語のうちの任意のものも、少なくとも列挙されている要素/特徴を含むが他を排除しない、開放的な用語である。よって、含むとは、有すると同義であり、有するを意味する。
本開示の例示的実施形態の上述の説明では、本開示の流れをよくし、さまざまな発明的側面の一つまたは複数の理解を助ける目的で、本開示のさまざまな特徴が、単一の例示的実施形態、図、またはそれらの説明にまとめられることがあることが理解されるべきである。しかしながら、この開示方法は、請求項が各請求項において明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の側面は、単一の前述の開示された例示的実施形態のすべての特徴よりも少ないものにある。よって、本明細書に続く請求項は、ここに明示的に本明細書に組み込まれ、各請求項が本開示の別個の例示的実施形態として自立する。
さらに、本明細書に記載されるいくつかの例示的な実施形態は、他の例示的実施形態に含まれる特徴の一部を含むが他の一部は含まなくてもよいが、異なる例示的実施形態の特徴の組み合わせは、当業者に理解されるように、本開示の範囲内であり、異なる例示的実施形態をなすことが意図されている。たとえば、以下の請求項では、請求項に記載された例示的実施形態の任意のものが、任意の組み合わせで使用できる。
本明細書において提供される説明において、多数の個別的な詳細が記載されている。しかしながら、本開示の例示的実施形態は、これらの個別的な詳細なしに実施されうることが理解される。他方、周知の方法、構造および技術は、本稿の理解を不明瞭にしないために詳細には示されていない。
よって、開示の最良の態様であると考えられるものが記載されているが、当業者は、開示の精神から逸脱することなく、他のさらなる修正がなされうることを認識し、本開示の範囲に含まれるものとしてそのようなすべての変更および修正を請求することが意図されていることを認識するであろう。たとえば、上述のどの式も、単に使用されうる手順を表すに過ぎない。ブロック図から機能を追加または削除することができ、機能ブロック間で動作を交換することができる。本開示の範囲内に記載される方法にステップが追加または削除されうる。
本開示のさまざまな側面は、請求項ではない以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解することができる。
〔EEE1〕
オーディオ信号の後処理のために敵対的生成ネットワーク(Generative Adversarial Network、GAN)の生成器を決定する方法であって、前記生成器はエンコーダ段とデコーダ段とを含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重みを含み、前記生成器の前記エンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、当該方法は、(a)剪定のための閾値を示す一組の感度パラメータに基づいて、前記エンコーダ段および/または前記デコーダ段を剪定するステップと;(b)前記一組の感度パラメータに基づいて前記エンコーダ段の前記ボトルネック層を剪定するステップとを含む、方法。
〔EEE2〕
前記剪定は、前記一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、EEE1に記載の方法。
〔EEE3〕
当該方法は、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定するステップをさらに含み、前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれのスパース性の増加よりも低いように選択される、EEE1または2に記載の方法。
〔EEE4〕
前記エンコーダ段における剪定される層の数は、前記デコーダ段における剪定される層の数よりも少ない、EEE3に記載の方法。
〔EEE5〕
前記一組の感度パラメータを得るために、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層について感度分析を実行するステップをさらに含む、EEE1ないし4のうちいずれか一項に記載の方法。
〔EEE6〕
前記感度分析は、前記GANの第2の生成器の、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層に対して実行され、前記第2の生成器は、トレーニングされた、未剪定の生成器である、EEE5に記載の方法。
〔EEE7〕
ステップ(a)およびステップ(b)を実行することは、剪定パスに対応し、当該方法は、さらに、GANセッティングの一つまたは複数のトレーニング・パスと交互に、剪定パスの一つまたは複数のサイクルを実行することを含む、EEE1ないし6のうちいずれか一項に記載の方法。
〔EEE8〕
前記一つまたは複数のトレーニング・パスは、前記GANセッティングにおいてダイナミックレンジ低減ドメインで実行され、前記GANセッティングは、前記生成器および弁別器を有する、EEE7に記載の方法。
〔EEE9〕
前記一つまたは複数のトレーニング・パスは:
(a)ダイナミックレンジ低減された生オーディオ・トレーニング信号を前記生成器に入力するステップ;
(b)前記生成器によって、前記ダイナミックレンジ低減された生オーディオ・トレーニング信号に基づいて、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を生成するステップ;
(c)一度に1つずつ、前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号と、前記ダイナミックレンジ低減された生オーディオ・トレーニング信号が導出されるもとになった、対応するもとのダイナミックレンジ低減されたオーディオ信号とを前記弁別器に入力するステップ;
(d)前記弁別器によって、入力のダイナミックレンジ低減されたオーディオ信号が、前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号であるか、またはもとのダイナミックレンジ低減されたオーディオ信号であるかを判断するステップ;および
(e)前記弁別器が前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を前記もとのダイナミックレンジ低減されたオーディオ信号から区別できなくなるまで、前記生成器のパラメータを調整するステップを含む、
EEE8に記載の方法。
〔EEE10〕
諸トレーニング・パスと交互の諸剪定パスの複数のサイクルの後に聴取試験を実行することをさらに含む、EEE7ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
前記聴取試験を実行することは、トレーニングされ、剪定された生成器の出力を前記第2の生成器の出力と比較することを含む、EEE10に記載の方法。
〔EEE12〕
前記剪定パスを実行することは、前記生成器を剪定することを含むが、前記弁別器を剪定することは含まない、EEE7ないし11のうちいずれか一項に記載の方法。
〔EEE13〕
ダイナミックレンジ低減ドメインにおいて、低ビットレート・オーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法であって、当該方法は、(a)前記低ビットレートのオーディオ・ビットストリームを受領するステップと;(b)前記低ビットレートのオーディオ・ビットストリームをコア・デコードし、前記低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るステップと;(c)前記ダイナミックレンジ低減された生オーディオ・データを、該ダイナミックレンジ低減された生オーディオ・データを処理するために敵対的生成ネットワーク(GAN)の生成器に入力するステップであって、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースである、ステップと;(d)ダイナミックレンジ低減ドメインにおいて、前記生成器によって前記ダイナミックレンジ低減された生オーディオ・データを向上させるステップと;(e)前記生成器からの出力として、向上されたダイナミックレンジ低減されたオーディオ・データを、ダイナミックレンジのその後の伸張のために取得するステップとを含む、
方法。
〔EEE14〕
前記ボトルネック層は、前記エンコーダ段および/または前記デコーダ段の一つまたは複数の外側の層よりもスパースである、EEE13に記載の方法。
〔EEE15〕
スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する、EEE13または14に記載の方法。
〔EEE16〕
前記ボトルネック層よりもスパースである、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、閾値数の重みを有する、EEE13ないし15のうちいずれか一項に記載の方法。
〔EEE17〕
前記生成器は、剪定によって得られたものであり、前記剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、EEE13ないし16のうちいずれか一項に記載の方法。
〔EEE18〕
剪定によって前記生成器を得ることは、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定することをさらに含み、前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が、前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれのスパース性の増加よりも小さくなるように選択される、EEE17に記載の方法。
〔EEE19〕
前記低ビットレートのオーディオ・ビットストリームはAC-4フォーマットである、EEE13ないし18のうちいずれか一項に記載の方法。
〔EEE20〕
当該方法はさらに、(f)伸張動作を実行することによって、前記向上されたダイナミックレンジ低減されたオーディオ・データを、伸張されたダイナミックレンジ・ドメインに伸張するステップを含む、EEE13ないし19のうちいずれか一項に記載の方法。
〔EEE21〕
前記伸張動作は、それぞれの利得値を計算するためのスペクトルの大きさのpノルムに基づく圧伸動作である、EEE20に記載の方法。
〔EEE22〕
受領された低ビットレートのオーディオ・ビットストリームは、メタデータを含み、ステップ(a)は、受領された低ビットレートのオーディオ・ビットストリームを多重分離することをさらに含む、EEE13ないし21のうちいずれか一項に記載の方法。
〔EEE23〕
ステップ(d)において、前記ダイナミックレンジ低減された生オーディオ・データを前記生成器によって向上させることは、前記メタデータに基づく、EEE22に記載の方法。
〔EEE24〕
前記メタデータは、圧伸制御データの一つまたは複数の項目を含む、EEE23に記載の方法。
〔EEE25〕
前記圧伸制御データは、前記オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちの圧伸モードに関する情報を含む、EEE24に記載の方法。
〔EEE26〕
前記圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含む、EEE25に記載の方法。
〔EEE27〕
ステップ(d)において、前記ダイナミックレンジ低減された生オーディオ・データを前記生成器によって向上させることは、前記圧伸制御データによって示される圧伸モードに依存する、EEE25または26に記載の方法。
〔EEE28〕
前記圧伸モードが圧伸オフである場合、前記生成器による向上は実行されない、EEE27に記載の方法。
〔EEE29〕
ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置であって、当該装置は:(a)前記低ビットレートのオーディオ・ビットストリームを受領するための受領器と;(b)受領された低ビットレートのオーディオ・ビットストリームをコア・デコードし、前記低ビットレートのオーディオ・ビットストリームに基づいて、ダイナミックレンジ低減された生オーディオ・データを得るためのコア・デコーダと;(c)前記ダイナミックレンジ低減された生オーディオ・データをダイナミックレンジ低減ドメインにおいて向上させるための敵対的生成ネットワーク(GAN)の生成器とを有しており、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースである、装置。
〔EEE30〕
前記ボトルネック層は、前記エンコーダ段および/または前記デコーダ段の一つまたは複数の外側の層よりもスパースである、EEE29に記載の装置。
〔EEE31〕
スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する、EEE29または30に記載の装置。
〔EEE32〕
前記ボトルネック層よりもスパースである、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、閾値数の重みを有する、EEE29ないし31のうちいずれか一項に記載の装置。
〔EEE33〕
前記生成器は、剪定によって得られたものであり、前記剪定は、一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、EEE29ないし32のうちいずれか一項に記載の装置。
〔EEE34〕
剪定によって前記生成器を得ることは、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定することをさらに含み、前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が、前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれかスパース性の増加よりも小さくなるように選択される、EEE33に記載の装置。
〔EEE35〕
前記受領された低ビットレートのオーディオ・ビットストリームを多重分離するためのデマルチプレクサをさらに含み、前記受領された低ビットレートのオーディオ・ビットストリームはメタデータを含む、EEE29ないし34のうちいずれか一項に記載の装置。
〔EEE36〕
前記メタデータは、圧伸制御データの一つまたは複数の項目を含む、EEE35に記載の装置。
〔EEE37〕
前記圧伸制御データは、前記オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちの圧伸モードに関する情報を含む、EEE36に記載の装置。
〔EEE38〕
前記圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含む、EEE37に記載の装置。
〔EEE39〕
前記生成器は、前記ダイナミックレンジ低減された生オーディオ・データを向上させることを、前記圧伸制御データによって示される前記圧伸モードに依存して実行するように構成されている、EEE37または38に記載の装置。
〔EEE40〕
前記圧伸モードが圧伸オフである場合、前記生成器は、向上を実行しないように構成されるている、前記EEE39に記載の装置。
〔EEE41〕
当該装置は、前記向上されたダイナミックレンジ低減されたオーディオ・データを伸張ダイナミックレンジ・ドメインに伸張する伸張動作を実行するように構成された伸張ユニットをさらに含む、EEE29ないし40のうちいずれか一項に記載の装置。
〔EEE42〕
処理能力を有する装置によって実行されたときにEEE1ないし12のうちいずれか一項に記載の方法を装置に実行させるように適応された命令をもつコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE43〕
処理能力を有する装置によって実行されたときにEEE13ないし28のうちいずれか一項に記載の方法を装置に実行させるように適応された命令をもつコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE44〕
ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置と、生成器および弁別器を有する敵対的生成ネットワークとのシステムであって、当該システムは、EEE1ないし28のうちいずれか一項に記載の方法を実行するように構成されている、システム。
〔EEE45〕
入力オーディオ・データにダイナミックレンジ低減を適用し、ダイナミックレンジ低減されたオーディオ・データを低ビットレートでビットストリームにおいてエンコードする装置と、EEE29ないし41のうちいずれか一項に記載の、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置とのシステム。

Claims (67)

  1. オーディオ信号の後処理のために敵対的生成ネットワーク(Generative Adversarial Network、GAN)の生成器を決定する方法であって、前記生成器はエンコーダ段とデコーダ段とを含み、前記エンコーダ段と前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは一つまたは複数の重みを含み、前記生成器の前記エンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、当該方法は:
    (a)剪定のための閾値を示す一組の感度パラメータに基づいて、前記エンコーダ段および/または前記デコーダ段を剪定するステップと;
    (b)前記一組の感度パラメータに基づいて前記エンコーダ段の前記ボトルネック層を剪定するステップとを含む、
    方法。
  2. 前記剪定は、前記一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、請求項1に記載の方法。
  3. 当該方法は、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定するステップをさらに含み、前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれのスパース性の増加よりも低いように選択される、請求項1または2に記載の方法。
  4. 前記エンコーダ段における剪定される層の数は、前記デコーダ段における剪定される層の数よりも少ない、請求項3に記載の方法。
  5. 前記一組の感度パラメータを得るために、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層について感度分析を実行するステップをさらに含む、
    請求項1ないし4のうちいずれか一項に記載の方法。
  6. 前記感度分析は、前記GANの第2の生成器の、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層に対して実行され、前記第2の生成器は、トレーニングされた、未剪定の生成器である、請求項5に記載の方法。
  7. ステップ(a)およびステップ(b)を実行することは、剪定パスに対応し、当該方法は、さらに、GANセッティングの一つまたは複数のトレーニング・パスと交互に、剪定パスの一つまたは複数のサイクルを実行することを含む、請求項1ないし6のうちいずれか一項に記載の方法。
  8. 前記一つまたは複数のトレーニング・パスは、前記GANセッティングにおいてダイナミックレンジ低減ドメインで実行され、前記GANセッティングは、前記生成器および弁別器を有する、請求項7に記載の方法。
  9. 前記一つまたは複数のトレーニング・パスは:
    (a)ダイナミックレンジ低減された生オーディオ・トレーニング信号を前記生成器に入力するステップ;
    (b)前記生成器によって、前記ダイナミックレンジ低減された生オーディオ・トレーニング信号に基づいて、向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を生成するステップ;
    (c)一度に1つずつ、前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号と、前記ダイナミックレンジ低減された生オーディオ・トレーニング信号が導出されるもとになった、対応するもとのダイナミックレンジ低減されたオーディオ信号とを前記弁別器に入力するステップ;
    (d)前記弁別器によって、入力のダイナミックレンジ低減されたオーディオ信号が、前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号であるか、またはもとのダイナミックレンジ低減されたオーディオ信号であるかを判断するステップ;および
    (e)前記弁別器が前記向上されたダイナミックレンジ低減されたオーディオ・トレーニング信号を前記もとのダイナミックレンジ低減されたオーディオ信号から区別できなくなるまで、前記生成器のパラメータを調整するステップを含む、
    請求項8に記載の方法。
  10. 諸トレーニング・パスと交互の諸剪定パスの複数のサイクルの後に聴取試験を実行することをさらに含む、請求項7ないし9のうちいずれか一項に記載の方法。
  11. 前記聴取試験を実行することは、トレーニングされ、剪定された生成器の出力を前記第2の生成器の出力と比較することを含む、請求項10に記載の方法。
  12. 前記剪定パスを実行することは、前記生成器を剪定することを含むが、前記弁別器を剪定することは含まない、請求項7ないし11のうちいずれか一項に記載の方法。
  13. ダイナミックレンジ低減ドメインにおいて、低ビットレート・オーディオ・ビットストリームから、向上されたオーディオ・データを生成する方法であって、当該方法は:
    (a)前記低ビットレートのオーディオ・ビットストリームを受領するステップと;
    (b)前記低ビットレートのオーディオ・ビットストリームをコア・デコードし、前記低ビットレートのオーディオ・ビットストリームに基づいてダイナミックレンジ低減された生オーディオ・データを得るステップと;
    (c)前記ダイナミックレンジ低減された生オーディオ・データを、該ダイナミックレンジ低減された生オーディオ・データを処理するために敵対的生成ネットワーク(GAN)の生成器に入力するステップであって、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースであり、スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する、ステップと;
    (d)ダイナミックレンジ低減ドメインにおいて、前記生成器によって前記ダイナミックレンジ低減された生オーディオ・データを向上させるステップと;
    (e)前記生成器からの出力として、向上されたダイナミックレンジ低減されたオーディオ・データを、ダイナミックレンジのその後の伸張のために取得するステップと;
    (f)伸張動作を実行することによって、前記向上されたダイナミックレンジ低減されたオーディオ・データを、伸張されたダイナミックレンジ・ドメインに伸張するステップとを含む、
    方法。
  14. 前記ボトルネック層は、前記エンコーダ段および/または前記デコーダ段の一つまたは複数の外側の層よりもスパースである、請求項13に記載の方法。
  15. 前記ボトルネック層よりもスパースである、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、閾値数の重みを有する、請求項13または14に記載の方法。
  16. 前記生成器は、剪定によって得られたものであり、前記剪定は、
    (i)前記剪定のための閾値を示す一組の感度パラメータに基づいて前記エンコーダ段および/または前記デコーダ段を剪定することと;
    (ii)前記一組の感度パラメータに基づいて前記エンコーダ段の前記ボトルネック層を剪定することとを含む、
    請求項13ないし15のうちいずれか一項に記載の方法。
  17. 前記剪定は、前記一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、請求項16に記載の方法。
  18. 剪定によって前記生成器を得ることは、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定することをさらに含み、前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が、前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれのスパース性の増加よりも小さくなるように選択される、請求項17に記載の方法。
  19. 前記エンコーダ段における剪定される層の数は、前記デコーダ段における剪定される層の数よりも少ない、請求項16ないし18のうちいずれか一項に記載の方法。
  20. 剪定によって前記生成器を得ることは、
    前記一組の感度パラメータを得るために、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層について感度分析を実行するステップをさらに含む、
    請求項16ないし19のうちいずれか一項に記載の方法。
  21. 前記感度分析は、前記GANの第2の生成器の、前記エンコーダ段および前記デコーダ段の前記複数の層ならびに前記エンコーダ段の前記ボトルネック層に対して実行され、前記第2の生成器は、トレーニングされた、未剪定の生成器である、請求項20に記載の方法。
  22. 前記剪定のステップ(i)およびステップ(ii)を実行することは、剪定パスに対応し、剪定によって前記生成器を得ることは、さらに、GANセッティングの一つまたは複数のトレーニング・パスと交互に、剪定パスの一つまたは複数のサイクルを実行することを含む、請求項16ないし21のうちいずれか一項に記載の方法。
  23. 前記一つまたは複数のトレーニング・パスは、前記GANセッティングにおいてダイナミックレンジ低減ドメインで実行され、前記GANセッティングは、前記生成器および弁別器を有する、請求項22に記載の方法。
  24. 前記低ビットレートのオーディオ・ビットストリームはAC-4フォーマットである、請求項13ないし23のうちいずれか一項に記載の方法。
  25. 前記伸張動作は、それぞれの利得値を計算するためのスペクトルの大きさのpノルムに基づく圧伸動作である、請求項13ないし24のうちいずれか一項に記載の方法。
  26. 受領された低ビットレートのオーディオ・ビットストリームは、メタデータを含み、ステップ(a)は、受領された低ビットレートのオーディオ・ビットストリームを多重分離することをさらに含み、
    ステップ(d)において、前記ダイナミックレンジ低減された生オーディオ・データを前記生成器によって向上させることは、前記メタデータに基づく、
    請求項13ないし25のうちいずれか一項に記載の方法。
  27. 前記メタデータは、圧伸制御データの一つまたは複数の項目を含む、請求項26に記載の方法。
  28. 前記圧伸制御データは、前記オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちの圧伸モードに関する情報を含む、請求項27に記載の方法。
  29. 前記圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含む、請求項28に記載の方法。
  30. ステップ(d)において、前記ダイナミックレンジ低減された生オーディオ・データを前記生成器によって向上させることは、前記圧伸制御データによって示される圧伸モードに依存し、任意的に、前記圧伸モードが圧伸オフである場合、前記生成器による向上は実行されない、請求項28または29に記載の方法。
  31. オーディオ信号を処理するためのコンピュータ実装された生成ニューラル・ネットワークのためのパラメータを決定する方法であって、前記生成ニューラル・ネットワークは、エンコーダ段およびデコーダ段を含み、前記エンコーダ段は、符号化された特徴空間にマップし、前記エンコーダ段および前記デコーダ段のそれぞれは、複数の畳み込み層を含み、各畳み込み層は、一つまたは複数の重み係数を含み、当該方法は、複数のサイクルを含み、各サイクルは:
    剪定制御情報に基づいて前記エンコーダ段および/または前記デコーダ段の前記重み係数を剪定して、剪定された生成ニューラル・ネットワークを得ることであって、前記剪定制御情報は、それぞれの畳み込み層について剪定される重み係数の数を決定する、ことと;
    一組のトレーニング・データに基づいて、より多くのエポックの1つのために、前記剪定された生成ニューラル・ネットワークをトレーニングすることと;
    損失関数に基づいて、トレーニングおよび剪定された生成ニューラル・ネットワークについての損失を決定することと;
    決定された損失および前記生成ニューラル・ネットワークについての目標損失に基づいて、更新された剪定制御情報を決定することとの
    逐次的な諸プロセスをもつ、
    方法。
  32. 前記剪定は、前記剪定制御情報に基づいて一つまたは複数の重み係数をゼロにすることを含む、請求項31に記載の方法。
  33. 前記剪定制御情報は、前記エンコーダ段および前記デコーダ段の前記複数の畳み込み層についての感度パラメータを含む、請求項31または32に記載の方法。
  34. 前記更新された剪定制御情報は、前記決定された損失と前記目標損失との間の差を最小化するように決定される、請求項31ないし33のうちいずれか一項に記載の方法。
  35. 前記更新された剪定制御情報を決定することは、前記生成ニューラル・ネットワークの前記複数の畳み込み層についての剪定感度を増加または減少させることを含む、請求項31ないし34のうちいずれか一項に記載の方法。
  36. 前記更新された剪定制御情報を決定することは、前記生成ニューラル・ネットワークの前記複数の畳み込み層についての剪定感度を増加または減少させるために、前記剪定制御情報にスケーリング因子を適用することを含む、請求項35に記載の方法。
  37. 前記逐次的な諸プロセスは、収束基準が満たされるまで、複数回にわたって巡回される、請求項31ないし36のうちいずれか一項に記載の方法。
  38. 前記収束基準は、前記決定された損失と前記目標損失との間の差が所定の閾値を下回るかどうか、および/または前記決定された損失と前記目標損失との間の差の、あるサイクルから次のサイクルへの変化が所定の閾値を下回るかどうか、に関する、請求項37に記載の方法。
  39. あるサイクルから次のサイクルへの前記剪定制御情報の変化率に基づいて、前記剪定された生成ニューラル・ネットワークをトレーニングするプロセスにおけるトレーニングのためのエポックの数を設定することをさらに含む、前記請求項31ないし38のうちいずれか一項に記載の方法。
  40. 前記損失関数は、敵対的損失に対応する成分および/または時間領域L1ノルム損失に対応する成分を含んでいてもよい、請求項31ないし39のうちいずれか一項に記載の方法。
  41. 前記損失関数は、周波数領域損失に対応する成分をさらに含む、請求項40に記載の方法。
  42. 前記周波数領域損失は、複数分解能短時間フーリエ変換(STFT)損失である、前記請求項41に記載の方法。
  43. 前記複数のサイクルに入る前に、前記エンコーダ段および前記デコーダ段の前記重み係数を剪定することなく、一つまたは複数のエポックにわたって前記一組のトレーニング・データを使用して前記生成ニューラル・ネットワークをトレーニングすることをさらに含む、請求項31ないし42のうちいずれか一項に記載の方法。
  44. 前記エンコーダ段は、前記符号化されたオーディオ特徴空間にマップするボトルネック層を含み、前記剪定制御情報は、前記重み係数を剪定するプロセスが、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の畳み込み層を剪定するだけでなく、前記ボトルネック層を剪定することを含むように、かつ、前記ボトルネック層のスパース性の増加が、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のスパース性の増加よりも小さくなるように、最初に選択される、請求項31ないし43のうちいずれか一項に記載の方法。
  45. 前記剪定制御情報は、前記重み係数を剪定するプロセスが、前記デコーダ段におけるよりも前記エンコーダ段において、より少ない層を剪定することを含むように、最初に選択される、請求項31ないし44のうちいずれか一項に記載の方法。
  46. 前記一組のトレーニング・データに基づいて、前記生成ニューラル・ネットワークの第2のインスタンスをトレーニングし;
    前記損失関数に基づいて、前記生成ニューラル・ネットワークのトレーニングされた第2のインスタンスについての損失を決定し、該損失を前記生成ニューラル・ネットワークについての前記目標損失として使用することをさらに含む、
    請求項31ないし45のうちいずれか一項に記載の方法。
  47. 前記一組のトレーニング・データに基づいて、前記生成ニューラル・ネットワークの第2のインスタンスをトレーニングし;
    前記生成ニューラル・ネットワークのトレーニングされた第2のインスタンスの前記エンコーダ段および前記デコーダ段の前記複数の畳み込み層について感度分析を実行して、剪定制御情報の初期集合を得ることをさらに含む、
    請求項31ないし46のうちいずれか一項に記載の方法。
  48. ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置であって、当該装置は:
    (a)前記低ビットレートのオーディオ・ビットストリームを受領するための受領器と;
    (b)受領された低ビットレートのオーディオ・ビットストリームをコア・デコードし、前記低ビットレートのオーディオ・ビットストリームに基づいて、ダイナミックレンジ低減された生オーディオ・データを得るためのコア・デコーダと;
    (c)前記ダイナミックレンジ低減された生オーディオ・データをダイナミックレンジ低減ドメインにおいて向上させるための敵対的生成ネットワーク(GAN)の生成器とを有しており、前記生成器は、エンコーダ段およびデコーダ段を含み、前記エンコーダ段および前記デコーダ段はそれぞれ、各層に一つまたは複数のフィルタを有する複数の層を含み、各フィルタは、一つまたは複数の重みを含み、前記生成器のエンコーダ段のボトルネック層は、前記エンコーダ段と前記デコーダ段との間の符号化されたオーディオ特徴空間にマップし、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層は、前記ボトルネック層よりもスパースであり、スパース性は、ゼロ値の重みの割合によって決定され、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、前記ボトルネック層よりも高い割合のゼロ値の重みを有する、
    装置。
  49. 前記ボトルネック層は、前記エンコーダ段および/または前記デコーダ段の一つまたは複数の外側の層よりもスパースである、請求項48に記載の装置。
  50. 前記ボトルネック層よりもスパースである、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の層は、閾値数の重みを有する、請求項48または49に記載の装置。
  51. 前記生成器は、剪定によって得られたものであり、前記剪定は、
    (i)前記剪定のための閾値を示す一組の感度パラメータに基づいて前記エンコーダ段および/または前記デコーダ段を剪定することと;
    (ii)前記一組の感度パラメータに基づいて前記エンコーダ段の前記ボトルネック層を剪定することとを含む、
    請求項48ないし50のうちいずれか一項に記載の装置。
  52. 前記剪定は、前記一組の感度パラメータに基づいて一つまたは複数の重みをゼロにすることを含む、請求項51に記載の装置。
  53. 剪定によって前記生成器を得ることは、前記一組の感度パラメータに基づいて、前記ボトルネック層に隣接する前記エンコーダ段および/または前記デコーダ段の一つまたは複数の層を剪定することをさらに含み、
    前記一組の感度パラメータは、前記ボトルネック層のスパース性の増加が、前記エンコーダ段および/または前記デコーダ段の前記一つまたは複数の剪定された層のいずれかスパース性の増加よりも小さくなるように選択される、
    請求項52に記載の装置。
  54. 前記受領された低ビットレートのオーディオ・ビットストリームを多重分離するためのデマルチプレクサをさらに含み、前記受領された低ビットレートのオーディオ・ビットストリームはメタデータを含む、請求項48ないし53のうちいずれか一項に記載の装置。
  55. 前記メタデータは、圧伸制御データの一つまたは複数の項目を含む、請求項54に記載の装置。
  56. 前記圧伸制御データは、前記オーディオ・データをエンコードするために使用された一つまたは複数の圧伸モードのうちの圧伸モードに関する情報を含む、請求項55に記載の装置。
  57. 前記圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モードおよび平均圧伸の圧伸モードを含む、請求項56に記載の装置。
  58. 前記生成器は、前記ダイナミックレンジ低減された生オーディオ・データを向上させることを、前記圧伸制御データによって示される前記圧伸モードに依存して実行するように構成されている、請求項56または57に記載の装置。
  59. 前記圧伸モードが圧伸オフである場合、前記生成器は、向上を実行しないように構成されている、前記請求項58に記載の装置。
  60. 当該装置は、前記向上されたダイナミックレンジ低減されたオーディオ・データを伸張ダイナミックレンジ・ドメインに伸張する伸張動作を実行するように構成された伸張ユニットをさらに含む、請求項48ないし59のうちいずれか一項に記載の装置。
  61. 処理能力を有する装置によって実行されたときに請求項1ないし12のうちいずれか一項に記載の方法を装置に実行させるように適応された命令をもつコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
  62. 処理能力を有する装置によって実行されたときに請求項13ないし30のうちいずれか一項に記載の方法を装置に実行させるように適応された命令をもつコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
  63. ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置と、生成器および弁別器を有する敵対的生成ネットワークとのシステムであって、当該システムは、請求項1ないし30のうちいずれか一項に記載の方法を実行するように構成されている、システム。
  64. 入力オーディオ・データにダイナミックレンジ低減を適用し、ダイナミックレンジ低減されたオーディオ・データを低ビットレートでビットストリームにおいてエンコードする装置と、請求項48ないし60のうちいずれか一項に記載の、ダイナミックレンジ低減ドメインにおいて、低ビットレートのオーディオ・ビットストリームから、向上されたオーディオ・データを生成するための装置とのシステム。
  65. プロセッサと、該プロセッサに結合されたメモリとを有する装置であって、前記プロセッサは、請求項31ないし47のうちいずれか一項に記載の方法のすべてのステップを実行するように構成されている、装置。
  66. コンピューティング装置によって実行されると、該コンピューティング装置に、請求項31ないし47のうちいずれか一項に記載の方法のすべてのステップを実行させる命令を有するコンピュータ・プログラム。
  67. 請求項66に記載のコンピュータ・プログラムを記憶しているコンピュータ読み取り可能な記憶媒体。
JP2022573638A 2020-06-01 2021-05-31 生成ニューラル・ネットワークのパラメータを決定するための方法および装置 Pending JP2023533427A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063032903P 2020-06-01 2020-06-01
US63/032,903 2020-06-01
EP20181683.2 2020-06-23
EP20181683 2020-06-23
US202163177511P 2021-04-21 2021-04-21
US63/177,511 2021-04-21
PCT/EP2021/064511 WO2021245015A1 (en) 2020-06-01 2021-05-31 Method and apparatus for determining parameters of a generative neural network

Publications (2)

Publication Number Publication Date
JP2023533427A true JP2023533427A (ja) 2023-08-03
JPWO2021245015A5 JPWO2021245015A5 (ja) 2024-03-27

Family

ID=76076354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022573638A Pending JP2023533427A (ja) 2020-06-01 2021-05-31 生成ニューラル・ネットワークのパラメータを決定するための方法および装置

Country Status (5)

Country Link
US (1) US20230229892A1 (ja)
EP (1) EP4158624A1 (ja)
JP (1) JP2023533427A (ja)
CN (1) CN115867966A (ja)
WO (1) WO2021245015A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4207194A1 (en) * 2021-12-29 2023-07-05 GN Audio A/S Audio device with audio quality detection and related methods
WO2023164392A1 (en) * 2022-02-23 2023-08-31 Dolby Laboratories Licensing Corporation Coded speech enhancement based on deep generative model
WO2023237640A1 (en) * 2022-06-08 2023-12-14 Dolby International Ab Loss conditional training and use of a neural network for processing of audio using said neural network
WO2024097958A1 (en) * 2022-11-03 2024-05-10 Northeastern University Data-driven design evaluators integrated into generative adversarial networks

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014248232B2 (en) 2013-04-05 2015-09-24 Dolby International Ab Companding apparatus and method to reduce quantization noise using advanced spectral extension
US11477468B2 (en) * 2017-10-30 2022-10-18 Electronics And Telecommunications Research Institute Method and device for compressing image and neural network using hidden variable
EP3844749B1 (en) * 2018-08-30 2023-12-27 Dolby International AB Method and apparatus for controlling enhancement of low-bitrate coded audio

Also Published As

Publication number Publication date
EP4158624A1 (en) 2023-04-05
CN115867966A (zh) 2023-03-28
WO2021245015A1 (en) 2021-12-09
US20230229892A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
KR102117051B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
JP2023533427A (ja) 生成ニューラル・ネットワークのパラメータを決定するための方法および装置
KR102063902B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
CN108831501B (zh) 用于带宽扩展的高频编码/高频解码方法和设备
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
JP6470857B2 (ja) 音声処理のための無声/有声判定
US10194151B2 (en) Signal encoding method and apparatus and signal decoding method and apparatus
CN104969290A (zh) 用于对音频帧丢失隐藏进行控制的方法和设备
CN105723455A (zh) 用于编码音频信号的编码器、音频发送***和用于确定校正值的方法
CN114245919A (zh) 音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序
JP2023546099A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
US20240127832A1 (en) Decoder
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
CN117935840A (zh) 由终端设备执行的方法和设备

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20221130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240314