EP3040989B1

EP3040989B1 - Verbessertes trennverfahren und computerprogrammprodukt

Info

Publication number: EP3040989B1
Application number: EP15198713.8A
Authority: EP
Inventors: Romain Hennequin
Original assignee: Audionamix
Current assignee: Audionamix
Priority date: 2014-12-31
Filing date: 2015-12-09
Publication date: 2018-10-17
Anticipated expiration: 2035-12-09
Also published as: US9711165B2; EP3040989A1; FR3031225B1; US20160189731A1; FR3031225A1

Claims

Verfahren, durchgeführt von einem Rechner
zum Trennen (100), in einem akustischen Mischsignal w(t) eines spezifischen reinen Beitrags, beeinflusst von Hall, und eines Hintergrund-Schallsignal-Beitrags, dadurch charakterisiert, dass es darin besteht, den spezifischen reinen Beitrag x(t) und den Hintergrund-Schallsignal-Beitrag z(t) zu trennen,
unter Verwendung eines Modellierungs-Spektrogramms des akustischen Mischsignals V̂^rev, das der Summe eines Spektrogramms eines spezifischen zurückhallenden Beitrags V̂ ^rev,y und eines Spektrogramms des Hintergrund-Schallsignal-Beitrags V̂^z entspricht, wobei das Spektrogramm des spezifischen zurückhallenden Beitrags von dem Spektrogramm des spezifischen reinen Beitrags V̂^x gemäß dem Modell ${\hat{V}}_{f, t}^{rev, y} = \sum_{τ = 1}^{T} {\hat{V}}_{f, t - τ + 1}^{x} R_{f, τ}$
abhängt, wobei R eine FxT-Hall-Matrix ist, wobei F die Frequenz-Dimension und T die zeitliche Dimension von R ist, f ein Frequenzindex ist, t ein Zeitindex ist und τ eine ganze Zahl zwischen 1 und T ist; und
durch iteratives Berechnen einer Schätzung des Spektrogramms des Hintergrund-Schallsignal-Beitrags V̂^z , des Spektrogramms des spezifischen reinen Beitrags V̂^x und der Hall-Matrix R durch Minimieren einer Kostenfunktion (C) zwischen einem Spektrogramm des Mischsignals V und dem Modellierungs-Spektrogramm des Mischsignals V̂^rev ,
wobei die Kostenfunktion (C) eine Abweichung (d) zwischen dem Spektrogramm des Mischsignals und dem Modellierungs-Spektrogramm des Mischsignals verwendet, insbesondere die Beta-Divergenz genannte Abweichung definiert durch: $d_{β} (a | b) = {\begin{matrix} \frac{1}{β (β - 1)} (a^{β} + (β - 1) b^{β} - βa b^{β - 1}), β \in ℝ \ \{0,1\} \\ a \log \frac{a}{b} - a + b, β = 1 \\ \frac{a}{b} - \log \frac{a}{b} - 1, β = 0 \end{matrix}$
wobei a und b zwei reelle positive Skalare sind und wobei die Minimierung der Kostenfunktion zum Erhalten einer Schätzung der Hall-Matrix multiplikative Aktualisierungsregeln ausführen vom Typ: $R \leftarrow R ⊙ \frac{(V ⊙ {\hat{V}}^{rev ⊙ (β - 2)}) *_{t} {\hat{V}}^{x}}{{\hat{V}}^{rev ⊙ (β - 1)} *_{t} {\hat{V}}^{x}}$
mit V̂^rev = V̂^rev,y + V̂^z ; und wobei ein Operator ist, der dem komponentenweisen Produkt zwischen Matrizen (oder Vektoren) entspricht; . (.) ein Operator ist, der der komponentenweisen Potenzierung einer Matrix mit einem Skalar entspricht; * _t ein Operator der zeitlichen Faltung zwischen zwei Matrizen ist definiert durch ${[A *_{t} B]}_{f, τ} = \sum_{τ = t}^{T} A_{f, τ} B_{f, τ - t + 1} .$
Verfahren gemäß Anspruch 1, dadurch charakterisiert, dass der spezifische reine Beitrag ein Sprach-Beitrag ist und das Spektrogramm des spezifischen reinen Beitrags V̂^x modelliert ist durch: ${\hat{V}}^{x} = (W_{F 0} H_{F 0}) ⊙ (W_{K} H_{K})$
wobei W_F0 eine vordefinierte Harmonie-Atome-Matrix ist, H_F0 eine Matrix zur Aktivierung der Harmonie-Atome der Matrix W_F0 ist, W_K eine Filteratom-Matrix ist, H_K eine Matrix zur Aktivierung der Filteratome der Matrix W_K ist und wobei ein Operator ist, der dem komponentenweisen Produkt zwischen Matrizen entspricht.
Verfahren gemäß Anspruch 1 oder Anspruch 2, dadurch charakterisiert, dass die Minimierung der Kostenfunktion multiplikative Aktualisierungsregeln ausführt vom Typ: $H_{F 0} \leftarrow H_{F 0} ⊙ \frac{W_{F 0}^{T} ((W_{K} H_{K}) ⊙ (R *_{t} (V ⊙ {\hat{V}}^{rev}^{⊙ (β - 2)})))}{W_{F 0}^{T} ((W_{K} H_{K}) ⊙ (R *_{t} {\hat{V}}^{rev}^{⊙ (β - 1)}))}$
$H_{K} \leftarrow H_{K} ⊙ \frac{W_{K}^{T} ((W_{F 0} H_{F 0}) ⊙ (R *_{t} (V ⊙ {\hat{V}}^{rev}^{⊙ (β - 2)})))}{W_{K}^{T} ((W_{F 0} H_{F 0}) ⊙ (R *_{t} {\hat{V}}^{rev}^{⊙ (β - 1)}))}$
$W_{K} \leftarrow W_{K} ⊙ \frac{((W_{F 0} H_{F 0}) ⊙ (R *_{t} (V ⊙ {\hat{V}}^{rev}^{⊙ (β - 2)}))) H_{K}^{T}}{((W_{F 0} H_{F 0}) ⊙ (R *_{t} {\hat{V}}^{rev}^{⊙ (β - 1)})) H_{K}^{T}}$
mit V̂^rev = V̂^rev,y + V̂^z ; und wobei ein Operator ist, der dem komponentenweisen Produkt zwischen Matrizen (oder Vektoren) entspricht; . (.) ein Operator ist, der der komponentenweisen Potenzierung einer Matrix mit einem Skalar entspricht; (.) ^T die Transponierte einer Matrix ist; * _t ein Operator der zeitlichen Faltung zwischen zwei Matrizen ist definiert durch ${[A *_{t} B]}_{f, τ} = \sum_{τ = t}^{T} A_{f, τ} B_{f, τ - t + 1} .$
Verfahren gemäß einem der Ansprüche 1 bis 3, dadurch charakterisiert, dass das Spektrogramm des Hintergrund-Schallsignal-Beitrags V̂^z durch einen Faktorisierung in nicht-negative Matrizen modelliert ist: ${\hat{V}}^{Z} = (W_{R} H_{R})$
wobei W_R eine Matrix mit elementaren spektralen Modellen ist und H_R eine Matrix zur Aktivierung der elementaren spektralen Modelle der Matrix W_R ist.
Verfahren gemäß Anspruch 1 und Anspruch 4, dadurch charakterisiert, dass die Minimierung der Kostenfunktion multiplikative Aktualisierungsregeln ausführt vom Typ: $H_{R} \leftarrow H_{R} ⊙ \frac{W_{R}^{T} (V ⊙ {\hat{V}}^{rev ⊙ (β - 2)})}{W_{R}^{T} ({\hat{V}}^{rev ⊙ (β - 1)})}$
$W_{R} \leftarrow W_{R} ⊙ \frac{(V ⊙ {\hat{V}}^{rev ⊙ (β - 2)}) H_{R}^{T}}{({\hat{V}}^{rev ⊙ (β - 1)}) H_{R}^{T}}$
mit V̂^rev = V̂^rev,y + V̂^z ; und wobei ein Operator ist, der dem komponentenweisen Produkt zwischen Matrizen (oder Vektoren) entspricht; . (.) ein Operator ist, der der komponentenweisen Potenzierung einer Matrix mit einem Skalar entspricht; (.) ^T die Transponierte einer Matrix ist.
Verfahren gemäß einem der Ansprüche 1 bis 5, dadurch charakterisiert, dass die Trennung des spezifischen reinen Beitrags x(t) und des Hintergrund-Schallsignal-Beitrags z(t) unter Verwendung eines Modellierungs-Spektrogramms des akustischen Mischsignals V̂^rev einen zweiten Teil des Verfahrens bildet und dieses einen ersten Teil aufweist, der darin besteht, in dem akustischen Mischsignal w(t) einen spezifischen Beitrag und einen Hintergrund-Schallsignal-Beitrag zu trennen, ohne den Hall zu berücksichtigen, wobei Initialisierungsparameter unter den als Ergebnis des ersten Teils des Verfahrens erhaltenen Parametern als Anfangswert der entsprechenden Parameter in dem Spektrogramm des spezifischen zurückhallenden Beitrags V̂^rev,y des zweiten Teils des Verfahrens verwendet werden.
Verfahren gemäß Anspruch 6, dadurch charakterisiert, dass der erste Teil die Minimierung einer Kostenfunktion aufweist, wobei ein Algorithmus durchgeführt wird, der ähnlich ist zu dem, der im zweiten Teil durchgeführt wird.
Verfahren gemäß Anspruch 7, dadurch charakterisiert, dass für die Minimierung der Kostenfunktion der erste Teil des Verfahrens multiplikative Aktualisierungsregeln ausführt vom Typ: $H_{F 0} \leftarrow H_{F 0} ⊙ \frac{W_{F 0}^{T} ((W_{K} H_{K}) ⊙ (V ⊙ {\hat{V}}^{⊙ (β - 2)}))}{W_{F 0}^{T} ((W_{K} H_{K}) ⊙ ({\hat{V}}^{⊙ (β - 1)}))}$
$H_{K} \leftarrow H_{K} ⊙ \frac{W_{K}^{T} ((W_{F 0} H_{F 0}) ⊙ (V ⊙ {\hat{V}}^{⊙ (β - 2)}))}{W_{K}^{T} ((W_{F 0} H_{F 0}) ⊙ ({\hat{V}}^{⊙ (β - 1)}))}$
$W_{K} \leftarrow W_{K} ⊙ \frac{((W_{F 0} H_{F 0}) ⊙ (V ⊙ {\hat{V}}^{⊙ (β - 2)})) H_{K}^{T}}{((W_{F 0} H_{F 0}) ⊙ ({\hat{V}}^{⊙ (β - 1)})) H_{K}^{T}}$
$H_{R} \leftarrow H_{R} ⊙ \frac{W_{R}^{T} (V ⊙ {\hat{V}}^{⊙ (β - 2)})}{W_{R}^{T} ({\hat{V}}^{⊙ (β - 1)})}$
$W_{R} \leftarrow W_{R} ⊙ \frac{(V ⊙ {\hat{V}}^{⊙ (β - 2)}) H_{R}^{T}}{({\hat{V}}^{⊙ (β - 1)}) H_{R}^{T}}$
mit V̂ = V̂^x + V̂^z , V̂^Z = (W_RH_R ) und V̂^x = (W _F0 H _F0) (W_KH_K) ; wobei W_R eine Matrix mit elementaren spektralen Modellen ist und H_R eine Matrix zur Aktivierung der elementaren spektralen Modelle der Matrix W_R ist, wobei W_F0 eine vordefinierte Harmonie-Atome-Matrix ist, H_F0 eine Matrix zur Aktivierung der Harmonie-Atome der Matrix W_F0 ist, W_K eine Filteratom-Matrix ist, H_K eine Matrix zur Aktivierung der Filteratome der Matrix W_K ist; und wobei ein Operator ist, der dem komponentenweisen Produkt zwischen Matrizen (oder Vektoren) entspricht; . (.) ein Operator ist, der der komponentenweisen Potenzierung einer Matrix mit einem Skalar entspricht; (.) ^T die Transponierte einer Matrix ist.
Verfahren gemäß einem der Ansprüche 6 bis 8, dadurch charakterisiert, dass es aufweist, in dem ersten Teil des Verfahrens, auf die Minimierung der Kostenfunktion folgend, die Anwendung eines Algorithmus zur Verfolgung des Leistungsmaximums in der Matrix zur Aktivierung des spezifischen Beitrags H_F0, wobei der Algorithmus bevorzugt vom Typ Viterbi-Algorithmus ist, anschließend das Auf-Null-Setzen aller Terme der Matrix zur Aktivierung des spezifischen Beitrags H_F0, die zu weit von dem gefundenen Leistungsmaximum entfernt sind, wobei die Terme der Matrix zur Aktivierung des spezifischen Beitrags H_F0 die Initialisierungsparameter bilden, die als Anfangswerte der entsprechenden Parameter in dem Spektrogramm des spezifischen zurückhallenden Beitrags V̂^rev,y des zweiten Teils des Verfahrens verwendet werden, wobei die anderen Parameter des Spektrogramms des spezifischen zurückhallenden Beitrags V̂^rev,y mit beliebigen Werten initialisiert werden.
Computerprogramm-Produkt, dadurch charakterisiert, dass es Instruktionen aufweist, die dazu geeignet sind, in dem Speicher eines Rechners gespeichert zu werden zum Ausführen eines Trennungsverfahrens gemäß einem der Ansprüche 1 bis 9, wenn sie durch den Rechner ausgeführt werden.