JP6732296B2

JP6732296B2 - オーディオ情報処理方法およびデバイス

Info

Publication number: JP6732296B2
Application number: JP2018521411A
Authority: JP
Inventors: ▲偉▼峰 ▲趙▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-18
Filing date: 2017-03-16
Publication date: 2020-07-29
Anticipated expiration: 2037-03-16
Also published as: WO2017157319A1; KR102128926B1; KR20180053714A; CN105741835A; US10410615B2; CN105741835B; JP2019502144A; US20180293969A1; MY185366A

Description

この出願は、その全体が参照によって組み込まれている、2016年3月18日に中国特許庁へ出願された「Audio Information Processing Method and Terminal」と題された中国特許出願第201610157251.X号の優先権を主張する。

本出願は、情報処理技術に関し、特に、オーディオ情報処理方法および装置に関する。

伴奏機能を備えたオーディオファイルは、一般に、2つのサウンドチャンネル、すなわち、(伴奏および人声を有する)オリジナルサウンドチャンネルと、ユーザがカラオケを歌っている場合にユーザによって切り替えられる伴奏サウンドチャンネルとを有する。定められた規格はないので、異なるチャンネルから獲得されるオーディオファイルは、異なるバージョンを有し、あるオーディオファイルでは第1のサウンドチャンネルが伴奏である一方、他のオーディオファイルでは第2のサウンドチャンネルが伴奏である。したがって、これらオーディオファイルが獲得された後、どのサウンドチャンネルが伴奏サウンドチャンネルであるのかを確認することは可能ではない。一般に、オーディオファイルは、人為的な認識によって、または、機器により自動的に解決されることによって、均一的なフォーマットへ調節された後にのみ、実際に使用され得る。

しかしながら、人為的なフィルタリング方法は低効率で高コストであり、機器解決方法は低精度である。なぜなら、多くの伴奏オーディオに、極めて多くの人声の伴奏が存在するからである。現在、上記の問題に対する有効な解決策はない。

本出願の実施形態は、オーディオ情報処理方法および装置を提供する。これは、オーディオファイルの対応する伴奏サウンドチャンネルを効率的かつ正確に区別し得る。

本出願の実施形態による技術的解決策は、以下のように達成される。

本出願の実施形態は、以下を含むオーディオ情報処理方法を提供する。

第1のサウンドチャンネルに対応して出力された第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力された第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号するステップ。

第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出するステップ。

第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得するステップ。

第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定するステップ。

任意選択により、この方法は、下記をさらに含む。

複数のあらかじめ決定されたオーディオファイルの周波数スペクトル特徴をそれぞれ抽出するステップ。

深層ニューラルネットワーク(DNN)モデルを取得するために、誤差逆伝搬(BP:back propagation)アルゴリズムを使用することによって、抽出された周波数スペクトル特徴を学習するステップ。

第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出するステップは、以下を含む。

DNNモデルを使用することによって、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータをそれぞれ抽出するステップ。

任意選択により、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定するステップは、以下を含む。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値を決定するステップ。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きく、かつ、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、第1のサウンドチャンネルの属性を第1の属性として決定するステップ。

あるいは、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定するステップは、以下を含む。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きくない場合、あらかじめ決定された分類方法を使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つへ属性を割り当てるステップ。

任意選択により、この方法は、以下をさらに含む。

複数のあらかじめ決定されたオーディオファイルの知覚線形予測(PLP:Perceptual Linear Predictive)特性パラメータを抽出するステップ。

抽出されたPLP特性パラメータに基づいて、期待値最大化(EM:Expectation Maximization)アルゴリズムを使用することによって、学習を通じて、ガウス混合モデル(GMM:Gaussian Mixture Model)を取得するステップ。

あらかじめ決定された分類方法を使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つのための属性を割り当てるステップは、以下を含む。

学習を通じて取得されたGMMを使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つへ属性を割り当てるステップ。

任意選択により、この方法は、第1の属性が第1のサウンドチャンネルへ割り当てられている場合、以下をさらに含む。

第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低いか否かを決定するステップ。

第1のオーディオエネルギー値が第2のオーディオエネルギー値よりも低いことを結果が示す場合、第1のサウンドチャンネルの属性を第1の属性として決定するステップ。

任意選択により、第1のオーディオデータは、第1のサウンドチャンネルに対応して出力された人声オーディオであり、第2のオーディオデータは、第2のサウンドチャンネルに対応して出力された人声オーディオである。

第1のサウンドチャンネルの属性を第1の属性として決定するステップは、以下を含む。

第1のサウンドチャンネルを、伴奏オーディオを出力するサウンドチャンネルとして決定するステップ。

任意選択により、この方法は、以下をさらに含む。

属性をラベル付けするステップ。

第1のサウンドチャンネルと第2のサウンドチャンネルとの切替が必要であるか否かを決定するステップ。

必要であると決定された場合、ラベル付けに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとを切り替えるステップ。

任意選択により、第1のオーディオデータは、第2のオーディオデータの属性と同じ属性を有する。

本出願の実施形態は、復号モジュールと、抽出モジュールと、獲得モジュールと、処理モジュールとを含むオーディオ情報処理装置をさらに提供する。

復号モジュールは、第1のサウンドチャンネルに対応して出力される第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力される第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号するように構成される。

抽出モジュールは、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出するように構成される。

獲得モジュールは、第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得するように構成される。

処理モジュールは、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定するように構成される。

任意選択により、この装置は、複数のあらかじめ決定されたオーディオファイルの周波数スペクトル特徴をそれぞれ抽出し、

深層ニューラルネットワーク(DNN)モデルを取得するために、誤差逆伝搬(BP)アルゴリズムを使用することによって、抽出された周波数スペクトル特徴を学習するように構成された第1のモデル学習モジュールをさらに含む。

抽出モジュールは、DNNモデルを使用することによって、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータをそれぞれ抽出するようにさらに構成される。

任意選択により、処理モジュールは、以下のようにさらに構成される。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値を決定する。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きく、かつ、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、第1のサウンドチャンネルの属性を第1の属性として決定する。

あるいは、任意選択により、処理モジュールは、以下のようにさらに構成される。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きくない場合、あらかじめ決定された分類方法を使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つへ属性を割り当てる。

任意選択により、この装置は、複数のあらかじめ決定されたオーディオファイルの知覚線形予測(PLP)特性パラメータを抽出し、

抽出されたPLP特性パラメータに基づいて、期待値最大化(EM)アルゴリズムを使用することによって、学習を通じて、ガウス混合モデル(GMM)を取得するように構成された第2のモデル学習モジュールをさらに含む。

処理モジュールは、学習を通じて取得されたGMMを使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つのために属性を割り当てるようにさらに構成される。

任意選択により、第1の属性が第1のサウンドチャンネルへ割り当てられる場合、処理モジュールは、以下のようにさらに構成される。

第1のオーディオエネルギー値が第2のオーディオエネルギー値よりも低いか否かを決定する。

第1のオーディオエネルギー値が第2のオーディオエネルギー値よりも低いことを結果が示す場合、第1のサウンドチャンネルの属性を第1の属性として決定する。

第1のサウンドチャンネルの属性を第1の属性として決定することは、以下を含む。

第1のサウンドチャンネルを、伴奏オーディオを出力するサウンドチャンネルとして決定する。

任意選択により、処理モジュールは、属性をラベル付けし、

第1のサウンドチャンネルと第2のサウンドチャンネルとの切替が必要であるか否かを決定し、

必要であると決定された場合、ラベル付けに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとを切り替えるようにさらに構成される。

本出願の上記実施形態を適用する際に、オーディオファイルのデュアルチャンネル復号によって、対応する第1のオーディオサブファイルと第2のオーディオサブファイルとを獲得し、その後、第1のオーディオデータと第2のオーディオデータとを含むオーディオデータ(第1のオーディオデータおよび第2のオーディオデータは、同じ属性を有し得る)を抽出し、最後に、特定の属性要件を満足するサウンドチャンネルを決定するように、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定する。このように、オーディオファイルの対応する伴奏サウンドチャンネルとオリジナルサウンドチャンネルとが、効率的に高精度で区別され得、したがって、マンパワーレゾリューションの高い人件費および低い効率、ならびに、機器自動レゾリューションの低い精度の問題を解決する。

区別されるべきデュアルチャンネル音楽の概要図である。本出願の一実施形態によるオーディオ情報処理方法のフロー図である。本出願の一実施形態による、学習を通じてDNNモデルを取得する方法のフロー図である。本出願の一実施形態によるDNNモデルの概要図である。本出願の一実施形態による別のオーディオ情報処理方法のフロー図である。本出願の実施形態におけるPLPパラメータ抽出のフロー図である。本出願の一実施形態による別のオーディオ情報処理方法のフロー図である。本開示の一実施形態によるアカペラデータ抽出処理の概要図である。本出願の一実施形態による別のオーディオ情報処理方法のフロー図である。本出願の一実施形態によるオーディオ情報処理装置の構成図である。本出願の一実施形態によるオーディオ情報処理装置のハードウェア構成の構成図である。

機器によって、オーディオファイルの対応する伴奏サウンドチャンネルを自動的に区別することは、現在、主に、サポートベクトルマシン(SVM)モデルまたはガウス混合モデル(GMM)の学習を通じて実現されている。図1に図示されるように、デュアルチャンネルオーディオスペクトルの分布ギャップは小さく、大量の人声の伴奏が、多くの伴奏オーディオにおいて存在するので、分解精度は高くない。

本出願の一実施形態によるオーディオ情報処理方法は、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組合せによって達成され得る。ソフトウェアは、WeSingソフトウェアであり得る。すなわち、本出願によって提供されるオーディオ情報処理方法は、WeSingソフトウェアにおいて使用され得る。本出願の実施形態は、オーディオファイルの対応する伴奏サウンドチャンネルを、機械学習に基づいて、自動的に、迅速に、正確に区別するために適用され得る。

本出願の実施形態では、第1のサウンドチャンネルに対応して出力される第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力される第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号し、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出し、第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得し、特定の属性要件を満足するサウンドチャンネルを決定するように、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定する。

以下はさらに、添付の図面および具体的な実施形態を参照して、本出願を詳細に説明する。

実施形態1
図2は、本出願の実施形態によるオーディオ情報処理方法のフロー図である。図2に図示されるように、本出願の実施形態によるオーディオ情報処理方法は、以下のステップを含む。

ステップS201:第1のサウンドチャンネルに対応して出力される第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力される第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号する。

本明細書におけるオーディオファイル(第1のオーディオファイルとしても称される)は、伴奏/オリジナルサウンドチャンネルが区別されるべき任意の音楽ファイルであり得る。第1のサウンドチャンネルおよび第2のサウンドチャンネルは、それぞれ左チャンネルおよび右チャンネルであり得、相応して、第1のオーディオサブファイルおよび第2のオーディオサブファイルはそれぞれ、第1のオーディオファイルに対応する伴奏ファイルおよびオリジナルファイルであり得る。たとえば、左チャンネル出力を表す伴奏ファイルまたはオリジナルファイルを獲得するため、および、右チャンネル出力を表すオリジナルファイルまたは伴奏ファイルを獲得するために、曲が復号される。

ステップS202:第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出する。

第1のオーディオデータおよび第2のオーディオデータは、同じ属性を有し得るか、または、これら2つが、同じ属性を表す。これら2つが両方とも人声オーディオであれば、人声オーディオが、第1のオーディオサブファイルおよび第2のオーディオサブファイルから抽出される。具体的な人声抽出方法は、オーディオファイルから人声オーディオを抽出するために使用され得る任意の方法であり得る。たとえば、実際の実施中、深層ニューラルネットワーク(DNN)モデルが、オーディオファイルから人声オーディオを抽出するように学習され得、たとえば、第1のオーディオファイルが曲である場合、第1のオーディオサブファイルが伴奏オーディオファイルであり、第2のオーディオサブファイルがオリジナルオーディオファイルであれば、DNNモデルは、伴奏オーディオファイルから人声伴奏データを抽出し、オリジナルオーディオファイルからアカペラデータを抽出するために使用される。

ステップS203:第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得(たとえば、計算)する。

第1のオーディオエネルギー値は、第1のオーディオデータの平均オーディオエネルギー値であり得、第2のオーディオエネルギー値は、第2のオーディオデータの平均オーディオエネルギー値であり得る。実用では、オーディオデータに対応する平均オーディオエネルギー値を獲得するために、異なる方法が使用され得る。たとえば、オーディオデータは、複数のサンプリングポイントから構成され、各サンプリングポイントは一般に、0乃至32767の間の値に相当し、すべてのサンプリングポイント値の平均値は、オーディオデータに対応する平均オーディオエネルギー値と見なされる。このように、第1のオーディオデータのすべてのサンプリングポイントの平均値は、第1のオーディオエネルギー値と見なされ、第2のオーディオデータのすべてのサンプリングポイントの平均値は、第2のオーディオエネルギー値と見なされる。

ステップS204:第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定する。

特定の属性要件を満足するサウンドチャンネルを決定するように、すなわち、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちのどちらが、特定の属性要件を満足するサウンドチャンネルであるのかを決定するように、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルおよび/または第2のサウンドチャンネルの属性を決定する。たとえば、第1のサウンドチャンネルによって出力された人声オーディオの第1のオーディオエネルギー値と、第2のサウンドチャンネルによって出力された人声オーディオの第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルまたは第2のサウンドチャンネルが、伴奏オーディオを出力するサウンドチャンネルであると決定する。

本出願の実施形態に基づいて、実用では、特定の属性要件を満足するサウンドチャンネルは、第1のオーディオファイルの出力されたオーディオが第1のサウンドチャンネルおよび第2のサウンドチャンネルにおける伴奏オーディオであるサウンドチャンネルであり得る。たとえば、曲の場合、特定の属性要件を満足するサウンドチャンネルは、左チャンネルおよび右チャンネルにおける曲に対応する伴奏を出力するサウンドチャンネルであり得る。

具体的には、曲について、特定の属性要件を満足するサウンドチャンネルを決定する処理において、この曲に、人声の伴奏がほとんどない場合、相応して、この曲の伴奏ファイルに対応するオーディオエネルギー値は小さくなるであろう一方、この曲のアカペラファイルに対応するオーディオエネルギー値は大きくなるであろう。したがって、しきい値(すなわち、オーディオエネルギー差分しきい値)が、あらかじめ決定され得る。具体的には、それは、実際のニーズに従って設定され得る。第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が決定され得、差分値が、あらかじめ決定されたしきい値よりも大きく、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低いことを結果が示す場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを決定するために、第1のサウンドチャンネルの属性を第1の属性として、第2のサウンドチャンネルの属性を第2の属性として決定する。反対に、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたしきい値よりも大きく、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを決定するために、第2のサウンドチャンネルの属性を第1の属性として、第1のサウンドチャンネルの属性を第2の属性として決定する。

このように、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きい場合、第1のオーディオエネルギー値または第2のオーディオエネルギー値(いずれか小さい方)に対応する第1のオーディオサブファイルまたは第2のオーディオサブファイルが、特定の属性要件を満足するオーディオファイル(すなわち、伴奏ファイル)として、特定の属性要件を満足するオーディオサブファイルに対応するサウンドチャンネルが、特定の要件を満足するサウンドチャンネル(すなわち、伴奏ファイルを出力するサウンドチャンネル)として決定され得る。

第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きくない場合、アプリケーションにおいて、伴奏オーディオファイルに、多くの人声の伴奏が存在し得るが、伴奏オーディオおよびアカペラオーディオの周波数スペクトル特性は未だに異なるので、人声伴奏データは、その周波数スペクトル特性に従って、アカペラデータから区別され得る。伴奏データが、予備的に決定された後、伴奏データは、伴奏データの平均オーディオエネルギーが、アカペラデータのものよりも低いという原理に基づいて最終的に決定され得、その後、伴奏データに対応するサウンドチャンネルが、特定の属性要件を満足するサウンドチャンネルであるという結果が取得される。

実施形態2
図3は、本出願の実施形態による学習を通じてDNNモデルを取得する方法のフロー図である。図3に図示されるように、本出願の実施形態による学習を通じてDNNモデルを取得する方法は、以下のステップを含む。

ステップS301:対応する複数のパルスコード変調(PCM)オーディオファイルを獲得するために、複数のあらかじめ決定されたオーディオファイルにおけるオーディオをそれぞれ復号する。

ここで、複数のあらかじめ決定されたオーディオファイルは、N個のオリジナルの曲と、WeSingの曲ライブラリから選択されたその対応するN個のアカペラ曲であり得る。Nは、正の整数であり、フォローアップ学習のために、2,000を越えることが好適である。オリジナルデータと高品質アカペラデータ(アカペラデータは、すなわち、より高いスコアを有するアカペラデータを選択するために、主に、フリースコアシステムによって選択される)との両方を有する何万もの曲が存在するので、そのようなすべての曲が収集され得、そこから10,000曲が、フォローアップ動作のためにランダムに選択され得る(ここでは、フォローアップ学習の複雑さおよび精度は、主に、選択のために考慮される)。

16k16ビットのパルスコード変調(PCM)オーディオファイルを獲得するために、すなわち、10,000のPCMオリジナルオーディオおよび対応する10,000のPCMアカペラオーディオを獲得するために、あらかじめ決定されたすべてのオリジナルファイルおよび対応するアカペラファイルが復号される。オリジナルオーディオを表すためにx_n1,n1∈(1〜10000)が使用され、y_n2,n2∈(1〜10000)が、対応するアカペラオーディオを表す場合、n1とn2との間に、1対1の対応がある。

ステップS302:取得された複数のPCMオーディオファイルから周波数スペクトル特徴を抽出する。

具体的には、以下の動作が含まれる。

1)オーディオをフレーム化する。ここでは、フレーム長を、512のサンプリングポイントとして、フレームシフトを、128のサンプリングポイントとして設定する。

2)257次元の実領域スペクトル密度および255次元の仮想領域スペクトル密度、合計して512次元の特徴z_i,i∈(1〜512)を取得するために、ハミングウィンドウ関数によって各フレームデータを重み付け、高速フーリエ変換を実行する。

3)各実領域スペクトル密度と、その対応する仮想領域スペクトル密度との二次合計を計算する。

言い換えれば、それは|S_real(f)|²+|S_virtual(f)|²を計算することであり、ここで、fは周波数を表し、257次元の特徴t_i,i∈(1〜257)を取得するように、S_real(f)は、フーリエ変換後の周波数fに対応する実領域スペクトル密度/エネルギー値を表し、S_virtual(f)は、フーリエ変換後の周波数fに対応する仮想領域スペクトル密度/エネルギー値を表す。

4)必要とされる257次元の周波数スペクトル特徴ln|S(f)|²を取得するために、上記結果のlog_eを計算する。

ステップS303:DNNモデルを取得するために、BPアルゴリズムを使用することによって、抽出された周波数スペクトル特徴を学習する。

ここで、3つの秘匿レイヤを有する深層ニューラルネットワークを学習するために、誤差逆伝搬(BP)アルゴリズムが使用される。図4に図示されるように、3つの秘匿レイヤのおのおのにおけるノードの数は2048であり、入力レイヤは、オリジナルオーディオx_iであり、257次元の特徴の各フレームは、11フレームのデータを取得するために、5フレーム前方へ及び、5フレーム後方へ及び、合計して、11*257=2827次元の特徴、すなわち、a∈[1,2827]となり、出力は、アカペラオーディオy_iに対応するフレームの257次元の特徴、すなわち、b∈[1,257]である。BPアルゴリズムによって学習された後、2827*2048次元の行列、2048*2048次元の行列、2048*2048次元の行列、および2048*257次元の行列を含む4つの行列が取得される。

実施形態3
図5は、本出願の実施形態によるオーディオ情報処理方法のフロー図である。図5に図示されるように、本出願の実施形態によるオーディオ情報処理方法は、以下のステップを含む。

ステップS501:第1のサウンドチャンネルに対応して出力される第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力される第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号する。

本明細書におけるオーディオファイル(第1のオーディオファイルとしても呼ばれる)は、伴奏/オリジナルサウンドチャンネルが区別されるべき任意の音楽ファイルであり得る。それが、伴奏/オリジナルサウンドチャンネルが区別されるべき曲であれば、第1のサウンドチャンネルおよび第2のサウンドチャンネルはそれぞれ、左チャンネルおよび右チャンネルであり得、相応して、第1のオーディオサブファイルおよび第2のオーディオサブファイルはそれぞれ、第1のオーディオファイルに対応する伴奏ファイルおよびオリジナルファイルであり得る。言い換えれば、第1のオーディオファイルが曲であれば、このステップにおいて、この曲は、左チャンネルによって出力されたこの曲の伴奏ファイルまたはオリジナルファイルと、右チャンネルによって出力されたこの曲のオリジナルファイルまたは伴奏ファイルとを獲得するために復号される。

ステップS502:あらかじめ決定されたDNNモデルを使用することによって、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータをそれぞれ抽出する。

ここで、あらかじめ決定されたDNNモデルは、本出願の実施形態2においてBPアルゴリズムを使用することによって、事前学習を通じて取得されたDNNモデル、または、他の方法によって取得されたDNNモデルであり得る。

第1のオーディオデータおよび第2のオーディオデータは、同じ属性を有し得るか、または、これら2つが、同じ属性を表す。これら2つが両方とも人声オーディオであれば、事前学習を通じて取得されたDNNモデルを使用することによって、人声オーディオが、第1のオーディオサブファイルおよび第2のオーディオサブファイルから抽出される。たとえば、第1のオーディオファイルが曲である場合、第1のオーディオサブファイルが、伴奏オーディオファイルであり、第2のオーディオサブファイルが、オリジナルオーディオファイルであれば、DNNモデルは、伴奏オーディオファイルから人声伴奏データを、オリジナルオーディオファイルから人間のアカペラデータを抽出するために使用される。

学習を通じて取得されたDNNモデルを使用することによって、アカペラデータを抽出する処理は、以下のステップを含む。

1)16k16ビットのPCMオーディオファイルへ抽出されるべきアカペラデータのオーディオファイルを復号する。

2)周波数スペクトル特徴を抽出するために、実施形態2のステップS302において提供された方法を使用する。

3)オーディオファイルが、合計してm個のフレームを有していると仮定する。最終的に257次元の出力特徴を取得し、その後、m-10個のフレーム出力特徴を取得するために、各フレーム特徴は、それぞれ5フレーム前方および後方へ及び、11*257次元の特徴を取得し(この動作は、オーディオファイルの最初の5フレームと最後の5フレームについて実行されない)、実施形態2に従う学習を通じて取得されたDNNモデルの各レイヤにおいて、行列に入力特徴を乗じる。mフレームの出力結果を取得するために、最初のフレームは、5フレーム前方へ及び、最後のフレームは、5フレーム後方へ及ぶ。

4)257次元の特徴k_i,i∈(1〜257)を取得するために、各フレームの各次元特徴のe^xを計算する。

5)512次元の周波数スペクトル特徴を取得するために式

を使用する。ここで、iは、512次元を表し、257であるjは、iの対応する周波数帯域を表し、jは、1つまたは2つのiに対応し、変数zおよびtは、ステップ2)において取得されたz_iおよびt_iにそれぞれに対応する。

6)時間領域特徴を取得するために、上記の512次元の特徴に対して逆フーリエ変換を実行し、必要とされるアカペラファイルを取得するために、すべてのフレームの時間領域特徴をともに結合する。

ステップS503:第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得(たとえば、計算)する。

第1のオーディオエネルギー値は、第1のオーディオデータの平均オーディオエネルギー値であり得、第2のオーディオエネルギー値は、第2のオーディオデータの平均オーディオエネルギー値であり得る。実用では、オーディオデータに対応する平均オーディオエネルギー値を獲得するために、異なる方法が使用され得る。たとえば、オーディオデータは、複数のサンプリングポイントから構成され、各サンプリングポイントは、一般に、0乃至32767の間の値に相当し、すべてのサンプリングポイント値の平均値は、オーディオデータに対応する平均オーディオエネルギー値と見なされる。このように、第1のオーディオデータのすべてのサンプリングポイントの平均値は、第1のオーディオエネルギー値と見なされ、第2のオーディオデータのすべてのサンプリングポイントの平均値は、第2のオーディオエネルギー値と見なされる。

ステップS504:第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたしきい値よりも大きいか否かを決定する。大きい場合、ステップS505へ進む。大きくない場合、ステップS506へ進む。

実用では、曲について、この曲に、人声伴奏がほとんどない場合、相応して、曲の伴奏ファイルに対応するオーディオエネルギー値は小さくなるであろう一方、曲のアカペラファイルに対応するオーディオエネルギー値は大きくなるであろう。したがって、しきい値(すなわち、オーディオエネルギー差分しきい値)が、あらかじめ決定され得る。具体的には、それは、たとえば486として設定され得るように、実際のニーズに従って設定され得る。第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きい場合、オーディオエネルギー値がより小さなものに対応するサウンドチャンネルが、伴奏サウンドチャンネルとして決定される。

ステップS505:第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、第1のサウンドチャンネルの属性を第1の属性として決定し、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、第2のサウンドチャンネルの属性を第1の属性として決定する。

ここで、第1のオーディオエネルギー値と第2のオーディオエネルギー値とを決定する。第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして第1のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして第2のサウンドチャンネルを決定するために、その後、第1のサウンドチャンネルの属性を第1の属性として、第2のサウンドチャンネルの属性を第2の属性として決定する。第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして第2のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして第1のサウンドチャンネルを決定するために、第2のサウンドチャンネルの属性を第1の属性として、第1のサウンドチャンネルの属性を第2の属性として決定する。

このように、第1のオーディオエネルギー値または第2のオーディオエネルギー値(いずれか小さい方)に対応する第1のオーディオサブファイルまたは第2のオーディオサブファイルが、特定の属性要件を満足するオーディオファイルとして、特定の属性要件を満足するオーディオサブファイルに対応するサウンドチャンネルが、特定の要件を満足するサウンドチャンネルとして、決定され得る。特定の属性要件を満足するオーディオファイルは、第1のオーディオファイルに対応する伴奏オーディオファイルであり、特定の要件を満足するサウンドチャンネルは、第1のオーディオファイルの出力されたオーディオが、第1のサウンドチャンネルおよび第2のサウンドチャンネルにおける伴奏オーディオであるサウンドチャンネルである。

ステップS506:あらかじめ決定されたGMMを使用することによって、第1のサウンドチャンネルおよび/または第2のサウンドチャンネルへ属性を割り当てる。

ここで、あらかじめ決定されたGMMモデルは、事前学習を通じて取得され、具体的な学習処理は、以下を含む。

複数のあらかじめ決定されたオーディオファイルの13次元の知覚線形予測(PLP)特性パラメータを抽出し、PLPパラメータを抽出する具体的な処理が、図6に図示される。図6に図示されるように、オーディオ信号(すなわち、オーディオファイル)に対してフロントエンド処理を実行し、その後、離散フーリエ変換を、その後、周波数帯域計算、臨界帯域分析、等音量プリエンファシス、および強度ラウドネス変換のような処理を実行し、その後、オールポールモデルを生成するために逆フーリエ変換を実行し、PLPパラメータを取得するために、ケプストラムを計算する。

抽出されたPLP特性パラメータを使用することによって、一次差分および二次差分を計算し、合計して、39次元の特徴となる。期待値最大化(EM)アルゴリズムを使用してGMMモデルを取得する。これは、抽出されたPLP特性パラメータに基づいて、学習を通じて、伴奏オーディオを、アカペラオーディオと予備的に区別し得る。しかしながら、実用では、伴奏GMMモデルが学習され得、区別されるべきモデルとオーディオデータとの間の類似性計算が実行され得、高い類似性を有するオーディオデータのグループが、まさに、伴奏オーディオデータである。本実施形態では、あらかじめ決定されたGMMを使用することによって、第1のサウンドチャンネルおよび/または第2のサウンドチャンネルへ属性を割り当てることによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのどちらが、特定の属性要件を満足するサウンドチャネルであるのかを、予備的に決定し得る。たとえば、あらかじめ決定されたGMMモデルと、第1および第2のオーディオデータとの類似性計算を実行することによって、伴奏オーディオを出力するサウンドチャンネルとして、高い類似性を有するオーディオデータに対応するサウンドチャンネルを割り当てるか、または、決定する。

このように、あらかじめ決定されたGMMモデルを使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルとのどちらが、伴奏オーディオを出力しているサウンドチャンネルであるのかを決定した後、決定されたサウンドチャンネルは、特定の属性要件を予備的に満足するサウンドチャンネルである。

ステップS507:第1のオーディオエネルギー値および第2のオーディオエネルギー値を決定する。第1の属性が、第1のサウンドチャンネルへ割り当てられ、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、または、第1の属性が、第2のサウンドチャンネルへ割り当てられ、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、ステップS508へ進み、低くない場合、ステップS509へ進む。

言い換えれば、特定の属性要件を予備的に満足するサウンドチャンネルに対応するオーディオエネルギー値が、他のサウンドチャンネルに対応するオーディオエネルギー値よりも低いか否かを決定し、低い場合、ステップS508へ進み、低くない場合、ステップS509へ進む。特定の属性要件を予備的に満足するサウンドチャンネルに対応するオーディオエネルギー値は、まさに、サウンドチャンネルによって出力されたオーディオファイルのオーディオエネルギー値である。

ステップS508:第1の属性が、第1のサウンドチャンネルへ割り当てられ、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを決定するために、第1のサウンドチャンネルの属性を第1の属性として、第2のサウンドチャンネルの属性を第2の属性として決定する。第1の属性が、第2のサウンドチャンネルへ割り当てられ、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを決定するために、第2のサウンドチャンネルの属性を第1の属性として、第1のサウンドチャンネルの属性を第2の属性として決定する。

このように、特定の属性要件を予備的に満足するサウンドチャンネルは、伴奏オーディオを出力しているサウンドチャンネルである、特定の属性要件を満足するサウンドチャンネルとして決定され得る。

1つの実施形態では、この方法は、このステップ後、以下のステップをさらに備える。

特定の属性要件を満足するサウンドチャンネルをラベル付けする。

サウンドチャンネルを切り替える必要があると決定されると、特定の属性要件を満足するサウンドチャンネルのラベル付けに基づいて、サウンドチャンネルを切り替える。

たとえば、特定の属性要件を満足するサウンドチャンネルは、伴奏オーディオを出力しているサウンドチャンネルである。(第1のサウンドチャンネルのような)伴奏オーディオを出力しているサウンドチャンネルが決定された後、サウンドチャンネルは、伴奏オーディオサウンドチャンネルとしてラベル付けされる。このように、ユーザは、カラオケを歌っている場合、ラベル付けされたサウンドチャンネルに基づいて、伴奏とオリジナルとを切り替え得る。

あるいは、特定の属性要件を満足するサウンドチャンネルを、第1のサウンドチャンネルまたは第2のサウンドチャンネルとして一律に調節する。このように、伴奏オーディオ/オリジナルオーディオを出力しているすべてのサウンドチャンネルが、一体化された管理の利便性のために、一体化され得る。

ステップS509:プロンプトメッセージを出力する。ここで、プロンプトメッセージは、第1のオーディオファイルの伴奏オーディオを出力している対応するサウンドチャンネルが区別できないことを通知するために使用され、これによって、ユーザは、人為的にそれを確認できるようになる。

たとえば、第1の属性が、第1のサウンドチャンネルへ割り当てられるが、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも小さくない場合、または、第1の属性が、第2のサウンドチャンネルへ割り当てられるが、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも小さくない場合、第1のサウンドチャンネルと第2のサウンドチャンネルとの属性は、人為的に確認される必要がある。

本出願の上記実施形態を適用する際に、音楽ファイルの特徴に基づいて、先ず、学習されたDNNモデルを使用することによって、音楽から人声成分を抽出し、その後、デュアルチャンネルの人声エネルギーの比較によって、最終分類結果を取得する。最終分類の精度は、99%以上に達し得る。

実施形態4
図7は、本出願の実施形態によるオーディオ情報処理方法のフロー図である。図7に図示されるように、本出願の実施形態によるオーディオ情報処理方法は、以下のステップを含む。

ステップS701:事前に学習されたDNNモデルを使用することによって検出されるべき音楽のデュアルチャンネルのアカペラデータ(および/または、人声伴奏データ)を抽出する。

アカペラデータを抽出する具体的な処理が、図8に図示される。図8に図示されるように、先ず、学習するためのアカペラデータと、学習するための音楽テータとの特徴を抽出し、次に、DNNモデルを取得するために、DNN学習を実行する。抽出されるべきアカペラ音楽の特徴を抽出し、DNNモデルに基づいてDNN復号を実行し、その後、特徴を再び抽出し、最後に、アカペラデータを取得する。

ステップS702:抽出されたデュアルチャンネルのアカペラ(および/または、人声伴奏)データの平均オーディオエネルギー値をそれぞれ計算する。

ステップS703:デュアルチャンネルのアカペラ(および/または、人声伴奏)データのオーディオエネルギー差分値が、あらかじめ決定されたしきい値よりも大きいか否かを決定する。大きい場合、ステップS704へ進み、大きくない場合、ステップS705へ進む。

ステップS704:より低い平均オーディオエネルギーを有するアカペラ(および/または、人声伴奏)データに対応するサウンドチャンネルを、伴奏サウンドチャンネルとして決定する。

ステップS705:事前に学習されたGMMを使用することによってデュアルチャンネル出力を用いて検出されるべき音楽を分類する。

ステップS706:伴奏オーディオとして分類されたサウンドチャンネルに対応するオーディオエネルギー値が、より小さいか否かを決定する。小さい場合、ステップS707へ進み、小さくない場合、ステップS708へ進む。

ステップS707:より小さなオーディオエネルギー値を有するサウンドチャンネルを、伴奏サウンドチャンネルとして決定する。

ステップS708:決定することができないので、人為的な確認が必要とされるとのプロンプトメッセージを出力する。

本出願によって提供されるオーディオ情報処理方法が、実際に実施された場合、デュアルチャンネルのアカペラ(および/または、人声伴奏)データが抽出され得る一方、あらかじめ決定されたGMMを使用することによって、伴奏オーディオサウンドチャンネルが決定され、その後、上記ステップ703〜708を実行するために、回帰関数が使用される。ステップS705における動作は事前に実行されているので、そのような動作は、図9に図示されるように、回帰関数が使用される場合に、スキップされるべきであることが注目されるべきである。図9を参照して示すように、分類されるべき音楽(すなわち、検出されるべき音楽)に対してデュアルチャンネル復号を実行する。同時に、学習を通じてDNNモデルを取得するために、アカペラ学習データを使用し、学習を通じてGMMモデルを取得するために、伴奏人声学習データを使用する。その後、GMMモデルを使用することによって類似性計算を実行し、DNNモデルを使用することによってアカペラデータを抽出し、最終的に分類結果を取得するために、上述されたような回帰関数を使用することによって動作する。

実施形態5
図10は、本出願の実施形態によるオーディオ情報処理装置の構成の構成図である。図10に図示されるように、本出願の実施形態によるオーディオ情報処理装置の構成は、復号モジュール11、抽出モジュール12、獲得モジュール13、および処理モジュール14を含む。

復号モジュール11は、第1のサウンドチャンネルに対応して出力された第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力された第2のオーディオサブファイルとを獲得するために、オーディオファイル(すなわち、第1のオーディオファイル)を復号するように構成される。

抽出モジュール12は、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータを抽出するように構成される。

獲得モジュール13は、第1のオーディオデータの第1のオーディオエネルギー値と、第2のオーディオデータの第2のオーディオエネルギー値とを獲得するように構成される。

処理モジュール14は、第1のオーディオエネルギー値と第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのうちの少なくとも1つの属性を決定するように構成される。

第1のオーディオデータと第2のオーディオデータとは、同じ属性を有し得る。たとえば、第1のオーディオデータは、第1のサウンドチャンネルによって出力された人声オーディオに相当し、第2のオーディオデータは、第2のサウンドチャンネルによって出力された人声オーディオに相当する。

さらに、処理モジュール14は、第1のサウンドチャンネルによって出力された人声オーディオの第1のオーディオエネルギー値と、第2のサウンドチャンネルによって出力された人声オーディオの第2のオーディオエネルギー値とに基づいて、第1のサウンドチャンネルと第2のサウンドチャンネルとのどちらが、伴奏オーディオを出力するサウンドチャンネルであるかを決定するように構成され得る。

1つの実施形態では、装置は、複数のあらかじめ決定されたオーディオファイルの周波数スペクトル特徴をそれぞれ抽出するように構成された第1のモデル学習モジュール15をさらに備える。

DNNモデルを取得するために、誤差逆伝搬(BP)アルゴリズムを使用することによって、抽出された周波数スペクトル特徴を学習する。

相応して、抽出モジュール12は、DNNモデルを使用することによって、第1のオーディオサブファイルから第1のオーディオデータを、第2のオーディオサブファイルから第2のオーディオデータをそれぞれ抽出するようにさらに構成され得る。

1つの実施形態では、処理モジュール14は、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値を決定するように構成される。差分値が、あらかじめ決定されたしきい値(あらかじめ決定されたエネルギー差分しきい値)よりも大きく、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを決定するために、第1のサウンドチャンネルの属性を第1の属性として、第2のサウンドチャンネルの属性を第2の属性として決定する。反対に、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたしきい値よりも大きく、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合、すなわち、伴奏オーディオを出力するサウンドチャンネルとして、第2のサウンドチャンネルを、オリジナルオーディオを出力するサウンドチャンネルとして、第1のサウンドチャンネルを決定するために、第2のサウンドチャンネルの属性を第1の属性として、第1のサウンドチャンネルの属性を第2の属性として決定する。

このように、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きいことを処理モジュール14が検出した場合、第1のオーディオエネルギー値または第2のオーディオエネルギー値(いずれか小さい方)に対応する第1のオーディオサブファイルまたは第2のオーディオサブファイルは、特定の属性要件を満足するオーディオファイルとして、特定の属性要件を満足するオーディオサブファイルに対応するサウンドチャンネルは、特定の要件を満足するサウンドチャンネルとして、決定される。

あるいは、第1のオーディオエネルギー値と第2のオーディオエネルギー値との差分値が、あらかじめ決定されたエネルギー差分しきい値よりも大きくないことを検出した場合、第1のサウンドチャンネルと第2のサウンドチャンネルのどちらが、特定の属性要件を満足するサウンドチャンネルであるかを予備的に決定するように、第1のサウンドチャンネルと第2のサウンドチャンネルのうちの少なくとも1つへ属性を割り合てるために、あらかじめ決定された分類方法が使用される。

1つの実施形態では、装置は、複数のあらかじめ決定されたオーディオファイルの知覚線形予測(PLP)特性パラメータを抽出するように構成された第2のモデル学習モジュール16をさらに備える。

抽出されたPLP特性パラメータに基づいて、期待値最大化(EM)アルゴリズムを使用することによって、学習を通じて、ガウス混合モデル(GMM)を取得する。

相応して、処理モジュール14は、第1のサウンドチャンネルまたは第2のサウンドチャンネルを、特定の属性要件を予備的に満足するサウンドチャンネルとして予備的に決定するように、学習を通じて取得されたGMMを使用することによって、第1のサウンドチャンネルと第2のサウンドチャンネルのうちの少なくとも1つへ属性を割り合てるようにさらに構成される。

さらに、処理モジュール14は、第1のオーディオエネルギー値および第2のオーディオエネルギー値を決定するように構成される。第1の属性が、第1のサウンドチャンネルへ割り当てられ、第1のオーディオエネルギー値が、第2のオーディオエネルギー値よりも低い場合、または、第1の属性が、第2のサウンドチャンネルへ割り当てられ、第2のオーディオエネルギー値が、第1のオーディオエネルギー値よりも低い場合。これはまた、特定の属性要件を満足するサウンドチャンネルに対応するオーディオエネルギー値が、他のサウンドチャンネルに対応するオーディオエネルギー値よりも低いか否かを予備的に決定するためである。

特定の属性要件を予備的に満足するサウンドチャンネルに対応するオーディオエネルギー値が、他のサウンドチャンネルに対応するオーディオエネルギー値よりも低いことを結果が示す場合、特定の属性要件を予備的に満足するサウンドチャンネルを、特定の属性要件を満足するサウンドチャンネルとして決定する。

1つの実施形態では、処理モジュール14は、特定の属性要件を予備的に満足するサウンドチャンネルに対応するオーディオエネルギー値が、他のサウンドチャンネルに対応するオーディオエネルギー値よりも小さくないことを結果が示す場合に、プロンプトメッセージを出力するようにさらに構成される。

オーディオ情報処理装置における復号モジュール11、抽出モジュール12、獲得モジュール13、処理モジュール14、第1のモデル学習モジュール15および、第2のモデル学習モジュール16は、装置における中央処理ユニット(CPU)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、または特定用途向け集積回路(ASIC)によって達成され得る。

図11は、本出願の実施形態によるオーディオ情報処理装置のハードウェア構成の構成図である。ハードウェアエンティティS11の例として、装置は図11として図示される。装置は、プロセッサ111、記憶媒体112、および少なくとも外部通信インターフェース113を含み、プロセッサ111、記憶媒体112、および外部通信インターフェース113は、バス114を介して接続される。

本出願の実施形態によるオーディオ情報処理装置は、モバイル電話、デスクトップコンピュータ、PC、または、オールインワンマシンであり得ることが注目されるべきである。もちろん、オーディオ情報処理方法はまた、サーバの動作によって達成され得る。

装置に関連する上記説明は、方法に関する説明に類似しているので、同じ方法の有利な効果の説明は、本明細書において省略されることが注目されるべきである。本出願における装置に関する実施形態において開示されていない技術的詳細について、本出願における方法に関する実施形態の詳細を参照されたい。

もちろん、本出願の実施形態によるオーディオ情報処理装置は、端末またはサーバであり得る。同様に、本出願の実施形態によるオーディオ情報処理方法は、端末において使用されるものに限定されず、代わりに、ウェブサーバ、または、音楽アプリケーションソフトウェア(たとえば、WeSingソフトウェア)に対応するサーバのようなサーバにおいても使用され得る。具体的な処理手順について、実施形態の上記説明を参照されたい。詳細は、ここでは省略される。

当業者は、方法に関する上記実施形態を達成するための、部分的またはすべてのステップが、プログラムによって命令された関連するハードウェアによって達成され得ることを理解し得る。前述したプログラムは、コンピュータ読取可能な記憶媒体に記憶され得、それは、実行中、方法に関する上記実施形態を含むステップを実行する。前述した記憶媒体は、モバイル記憶デバイス、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、disk、disc、または、プログラムコードを記憶し得る他の媒体を含む。

あるいは、本出願の上記の統合されたユニットは、ソフトウェア機能モジュールの形式で達成され、独立した製品として販売または使用されている場合、それもまた、コンピュータ読取可能な記憶媒体に記憶され得る。これに基づいて、本出願の実施形態による技術的解決策は実質的に、または、関連する技術に寄与する部分は、ソフトウェア製品の形式で具体化され得る。コンピュータソフトウェア製品は、記憶媒体に記憶され、(パーソナルコンピュータ、サーバ、またはネットワークデバイスであり得る)コンピュータデバイスが、本出願の各実施形態によって提供される方法の全体または一部を実行することを可能にするために使用されるいくつかの命令を含む。前述した記憶媒体は、モバイル記憶デバイス、RAM、ROM、disk、disc、またはプログラムコードを記憶し得る他の媒体を含む。

前述した説明は単に、本出願の具体的な実施形態であるが、本出願の保護範囲は、それに限定されない。当業者によってなされ、本出願において開示される技術的範囲内の任意の変更または置換は、本出願の保護の範囲内にあるべきである。したがって、本出願の保護範囲は、添付された特許請求の範囲に従うべきである。

11 復号モジュール
12 抽出モジュール
13 獲得モジュール
14 処理モジュール
15 第1のモデル学習モジュール
16 第2のモデル学習モジュール
111 プロセッサ
112 記憶媒体
113 外部通信インターフェース
114 バス
S11 ハードウェアエンティティ

Claims

オーディオ情報処理装置によって実行されるオーディオ情報処理方法であって、
第1のサウンドチャンネルに対応して出力された第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力された第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号するステップと、
前記第1のオーディオサブファイルから第1のオーディオデータを抽出するステップと、
前記第2のオーディオサブファイルから第2のオーディオデータを抽出するステップと、
前記第1のオーディオデータの第1のオーディオエネルギー値を獲得するステップと、
前記第2のオーディオデータの第2のオーディオエネルギー値を獲得するステップと、
前記第1のオーディオエネルギー値と前記第2のオーディオエネルギー値との差分値が、あらかじめ決定されたしきい値よりも大きく、かつ、前記第1のオーディオエネルギー値が、前記第2のオーディオエネルギー値よりも小さい場合、前記第1のサウンドチャンネルを伴奏オーディオを出力するサウンドチャンネルとして決定し、前記第2のサウンドチャンネルをオリジナルオーディオを出力するサウンドチャンネルとして決定するか、又は、
前記第1のオーディオエネルギー値と前記第2のオーディオエネルギー値との前記差分値が、あらかじめ決定されたしきい値よりも大きくない場合、学習を通じて取得したガウス混合モデル(GMM)を使用することによって、前記第1のサウンドチャンネル又は前記第2のサウンドチャンネルへ伴奏オーディオを出力するサウンドチャンネルを割り当て、伴奏オーディオを出力するサウンドチャンネルが前記第1のサウンドチャンネルへ割り当てられる場合、前記第1のオーディオエネルギー値が、前記第2のオーディオエネルギー値より小さいか否かを決定し、前記第1のオーディオエネルギー値が前記第2のオーディオエネルギー値よりも小さいことを結果が示す場合、前記第1のサウンドチャンネルを伴奏オーディオを出力するサウンドチャンネルとして決定するステップと
を備える、方法。
前記方法は、
複数の他のオーディオファイルの周波数スペクトル特徴をそれぞれ抽出するステップと、
深層ニューラルネットワーク(DNN)モデルを取得するために、誤差逆伝搬(BP)アルゴリズムを使用することによって、前記抽出された周波数スペクトル特徴を学習するステップと
をさらに備え、
前記第1のオーディオサブファイルから前記第1のオーディオデータを抽出するステップは、
前記DNNモデルを使用することによって、前記第1のオーディオサブファイルから、前記第1のオーディオデータを抽出するステップを含み、
前記第2のオーディオサブファイルから前記第2のオーディオデータを抽出するステップは、
前記DNNモデルを使用することによって、前記第2のオーディオサブファイルから、前記第2のオーディオデータを抽出するステップを含む、請求項1に記載の方法。
前記方法は、
複数の他のオーディオファイルの知覚線形予測(PLP)特性パラメータを抽出するステップと、
前記抽出されたPLP特性パラメータに基づいて、EMアルゴリズムを使用することによって、学習を通じて、前記ガウス混合モデル(GMM)を取得するステップと
をさらに備える、請求項1に記載の方法。
前記第1のオーディオデータは、前記第1のサウンドチャンネルに対応して出力された人声オーディオであり、前記第2のオーディオデータは、前記第2のサウンドチャンネルに対応して出力された前記人声オーディオである、請求項1に記載の方法。
伴奏オーディオを出力するサウンドチャンネルであるか、オリジナルオーディオを出力するサウンドチャンネルであるかをラベル付けするステップと、
前記第1のサウンドチャンネルと前記第2のサウンドチャンネルとの切替が必要であるか否かを決定するステップと、
必要であると決定された場合、前記ラベル付けに基づいて、前記第1のサウンドチャンネルと前記第2のサウンドチャンネルとを切り替えるステップと
をさらに備える、請求項1に記載の方法。
オーディオ情報処理装置であって、復号モジュールと、抽出モジュールと、獲得モジュールと、処理モジュールとを備え、
前記復号モジュールは、第1のサウンドチャンネルに対応して出力された第1のオーディオサブファイルと、第2のサウンドチャンネルに対応して出力された第2のオーディオサブファイルとを獲得するために、オーディオファイルを復号するように構成され、
前記抽出モジュールは、前記第1のオーディオサブファイルから第1のオーディオデータを抽出し、前記第2のオーディオサブファイルから第2のオーディオデータを抽出するように構成され、
前記獲得モジュールは、前記第1のオーディオデータの第1のオーディオエネルギー値と、前記第2のオーディオデータの第2のオーディオエネルギー値とを獲得するように構成され、
前記処理モジュールは、前記第1のオーディオエネルギー値と前記第2のオーディオエネルギー値との差分値が、あらかじめ決定されたしきい値よりも大きく、かつ、前記第1のオーディオエネルギー値が、前記第2のオーディオエネルギー値よりも小さい場合、前記第1のサウンドチャンネルを伴奏オーディオを出力するサウンドチャンネルとして決定し、前記第2のサウンドチャンネルをオリジナルオーディオを出力するサウンドチャンネルとして決定するか、又は、前記第1のオーディオエネルギー値と前記第2のオーディオエネルギー値との前記差分値が、あらかじめ決定されたしきい値よりも大きくない場合、学習を通じて取得したガウス混合モデル(GMM)を使用することによって、前記第1のサウンドチャンネル又は前記第2のサウンドチャンネルへ伴奏オーディオを出力するサウンドチャンネルを割り当て、伴奏オーディオを出力するサウンドチャンネルが前記第1のサウンドチャンネルへ割り当てられる場合、前記第1のオーディオエネルギー値が、前記第2のオーディオエネルギー値より小さいか否かを決定し、前記第1のオーディオエネルギー値が前記第2のオーディオエネルギー値よりも小さいことを結果が示す場合、前記第1のサウンドチャンネルを伴奏オーディオを出力するサウンドチャンネルとして決定するように構成された、オーディオ情報処理装置。
複数の他のオーディオファイルの周波数スペクトル特徴をそれぞれ抽出し、
深層ニューラルネットワーク(DNN)モデルを取得するために、誤差逆伝搬(BP)アルゴリズムを使用することによって、前記抽出された周波数スペクトル特徴を学習するように構成された第1のモデル学習モジュールをさらに備え、
前記抽出モジュールは、前記DNNモデルを使用することによって、前記第1のオーディオサブファイルから前記第1のオーディオデータを、前記第2のオーディオサブファイルから前記第2のオーディオデータをそれぞれ抽出するようにさらに構成される、請求項6に記載の装置。
複数の他のオーディオファイルの知覚線形予測(PLP)特性パラメータを抽出し、
前記抽出されたPLP特性パラメータに基づいて、期待値最大化(EM)アルゴリズムを使用することによって、学習を通じて、前記ガウス混合モデル(GMM)を取得するように構成された第2のモデル学習モジュールをさらに備える、請求項6に記載の装置。
前記第1のオーディオデータは、前記第1のサウンドチャンネルに対応して出力された人声オーディオであり、前記第2のオーディオデータは、前記第2のサウンドチャンネルに対応して出力された前記人声オーディオである、請求項6に記載の装置。
前記処理モジュールは、
伴奏オーディオを出力するサウンドチャンネルであるか、オリジナルオーディオを出力するサウンドチャンネルであるかをラベル付けし、
前記第1のサウンドチャンネルと前記第2のサウンドチャンネルとの切替が必要であるか否かを決定し、
必要であると決定された場合、前記ラベル付けに基づいて、前記第1のサウンドチャンネルと前記第2のサウンドチャンネルとを切り替えるようにさらに構成される、請求項6に記載の装置。
1つまたは複数のプロセッサと、
メモリとを備えたオーディオ情報処理装置であって、前記メモリは、プログラム命令を記憶し、前記命令が、前記1つまたは複数のプロセッサによって実行された場合、前記装置は、請求項1から5のいずれか一項に記載の方法を実行するように構成された、オーディオ情報処理装置。
コンピュータ読取可能な記憶媒体であって、前記媒体はプログラム命令を記憶し、前記命令が、計算装置のプロセッサによって実行された場合、前記装置は、請求項1から5のいずれか一項に記載の方法を実行するように構成された、コンピュータ読取可能な記憶媒体。