DE102011084035A1

DE102011084035A1 - Vorrichtung, verfahren und computerprogramm zur bewertung einer wahrgenommenen audioqualität

Info

Publication number: DE102011084035A1
Application number: DE102011084035A
Authority: DE
Inventors: Goran Markovic; Thomas KUNERT
Original assignee: Nero AG
Current assignee: Nero AG
Priority date: 2011-10-05
Filing date: 2011-10-05
Publication date: 2013-04-11

Abstract

Eine Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität umfasst einen Modell-Ausgangsvariablen-Berechner, der ausgelegt ist, um Werte einer Mehrzahl von Modell-Ausgangsvariablen zu berechnen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal und einem Testsignal beschreiben. Die Vorrichtung umfasst ferner eine Stützvektormaschine, die ausgelegt ist, um einen Unterschieds-Bewertungs-Wert basierend auf den Modell-Ausgangsvariablen und einer Mehrzahl von Stützvektormaschinen-Parametern bereitzustellen.

Description

Technisches Gebiet
Ausführungsbeispiele gemäß der Erfindung beziehen sich auf eine Vorrichtung, ein Verfahren und ein Computerprogramm zur Bewertung einer wahrgenommenen Audioqualität.
Ausführungsbeispiele gemäß der Erfindung beziehen sich auf die Verwendung einer Stützvektor-Regression bei der weiterentwickelten Bewertung einer wahrgenommenen Audioqualität (auch als ”Advanced Perceptual Evaluation of Audio quality” oder kurz ”APEAQ” bezeichnet).
Ausführungsbeispiele gemäß der Erfindung beziehen sich somit auf Verbesserungen bei der weiterentwickelten Bewertung einer wahrgenommenen Audioqualität.
Hintergrund der Erfindung
In vielen technischen Anwendungen ist es wünschenswert, eine Audioqualität zu bewerten. Eine entsprechende Bewertung kann beispielsweise dazu dienen, um zu überprüfen, ob ein Gerät oder ein System zur Aufnahme und/oder Wiedergabe und/oder Übertragung eines Audiosignals zufriedenstellend funktioniert. Allerdings hat sich gezeigt, dass einfache Verfahren zum Vergleich von Audiosignalen nicht immer zuverlässige Ergebnisse liefern, da moderne Audiocodierer bzw. Audiodecodierer zur Verringerung einer Bitrate bewusst Veränderung des Audiosignals in Kauf nehmen, sofern diese Änderungen den Höreindruck nicht bzw. nicht all zu sehr verändern bzw. verschlechtern.
Um auch die Qualität von codiert gespeicherten bzw. übertragenen Audiosignalen bewerten zu können, wird oftmals eine sogenannte Wahrnehmungs-basierte Bewertung der Audioqualität beziehungsweise eine Bewertung einer wahrgenommenen Audioqualität vorgenommen. Ein Algorithmus namens ”PEAQ” (”Perceptual Evaluation of Audio Quality”, Bewertung der wahrgenommenen Audioqualität) ist ein standardisierter Algorithmus für eine objektive Messung (bzw. Bewertung) der wahrgenommenen Audioqualität. Der Algorithmus ist in der Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion (ITU) beschrieben.
Implementierungen dieses PEAQ-Algorithmus sind beispielsweise von dem in Deutschland ansässigen Unternehmen ”Opticom” erhältlich und können beispielsweise zur Messung der Qualität eines Audiocodierers bzw. eines Audiodecodierers verwendet werden.
In der Master-Arbeit "Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic (Masterarbeit an der Universität von Novi Sad, Fakultät für technische Wissenschaften, Serbien, Juli 2006) ist eine weiterentwickelte Bewertung der wahrgenommenen Audioqualität (auch als ”Advanced PEAQ” bzw. ”APEAQ” bezeichnet), bei der es sich um eine verbesserte Version der Bewertung der wahrgenommenen Audioqualität (PEAQ) handelt, und die auf der PEAQ basiert, beschrieben.
Im Folgenden wird der Hintergrund der vorliegenden Erfindung noch etwas ausführlicher erläutert.
Zunächst werden die gängigen Abkürzungen eingeführt, die in der folgenden Beschreibung verwendet werden:

”PEAQ”: (englisch: ”Perceptual Evaluation of Audio Quality”): Bewertung der wahrgenommenen Audioqualität;
”APEAQ”: (englisch: ”Advanced Perceptual Evaluation of Audio Quality”): weiterentwickelte Bewertung der wahrgenommenen Audioqualität;
”MOV”: (englisch ”Model Output Variable”): Modell-Ausgangsvariable;
”ODG”: (englisch: ”Objective Difference Grade”): Objektiver Differenzgrad, Objektive Differenzbewertung;
”SDG”: (englisch: ”Subjective Difference Grade”): Subjektiver Differenzgrad bzw. Subjektive Differenzbewertung;
”NMR”: (englisch:” Noise to Mask Ratio”): Verhältnis von Fehlersignal zur Verdeckungsschwelle;
”SVM”: (englisch: ”Support Vector Machine”): Stützvektormaschine;
”SVR”: (englisch: ”Support Vector Regression”): Stützvektor-Regression;
”SV”: (englisch: ”Support Vector”): Stützvektor;

Im Folgenden werden einige Abkürzungen eingeführt, die Modellausgangsvariablen (MOVs) bezeichnen:

SNMR: (englisch: ”Segmental Noise to Mask Ratio”): Segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle;
ModDiff: (englisch: ”Modulation Difference”): Modulationsabweichung;
NoiseLoud: (englisch: ”Noise Loudness”): Störlautheit;
EHS: (englisch: ”Error Harmonic Structure”): Harmonische Fehlerstruktur;
MissingComponents: (englisch: ”Loudness of Missing Components”): Lautheit fehlender Komponenten;
LinDist: (englisch: ”Linear Distortions”): Lineare Störungen bzw. lineare Verzerrungen;
NoiseLoudAsym: (englisch: ”Noise Loudness Asymmetric”): Wert oder Effektivwert der asymmetrischen Störlautheit (Linearkombination von Störlautheit (NoiseLoud) und Lautheit fehlender Komponenten (MissingComponents);
BandwidthRef: (englisch: ”Bandwidth of the reference signal”): Bandbreite des Referenzsignals;
BandwidthTest: (englisch: ”bandwidth of the test signal”): Bandbreite des Testsignals;
TotalNMR: (englisch: ”Total Noise To Mask Ratio”): Gesamtes Verhältnis von Störungen zu Maskierungsschwelle;
RelDistFrames: (englisch: ”Relative Disturbed Frames”): Relative gestörte Rahmen (Bruchteil von gestörten Rahmen);
MFPD: (englisch: ”Maximum Filtered Probability of Detection”): maximale gefilterte Detektionswahrscheinlichkeit;
ADB: (englisch: ”Average Distorted Block”): Mittelwert-verzerrter-Block bzw. Mittlerer-verzerrter-Block-Wert;
ITDDist: (englisch: ”Interaural Time Difference Distance”): Zwischen-Ohr Zeit-Unterschieds-Abstand, Abstandswert des Zwischen-Ohr-Zeit-Unterschieds;
ILDDist: (englisch: ”Interaural Level Difference Distance”): Zwischen-Ohr Pegel-Unterschieds-Abstand, Abstandswert des Zwischen-Ohr-Pegel-Unterschieds;
IACCDist: (englisch: ”Interaural Cross-Correlation Coefficient Distance): Zwischen-Ohr Kreuz-Korrelations-Koeffizienten-Abstand;
Win: (englisch: ”windowed”): gefenstert, gefensterter Mittelwert bzw. Mittelwert über ein Fenster;
Avg: (englisch: ”Average”): Mittelwert (linearer Mittelwert);
Rms: (englisch: ”Root Mean Square”): Wurzel aus dem mittleren Quadrat, quadrierter Mittelwert.

Im Folgenden wird kurz auf die Namensgebung von MOVs eingegangen, um das Verständnis zu erleichtern.
Ein MOV-Name ist üblicherweise aus drei Teilen zusammengesetzt:
Zum Beispiel gilt: RmsNoiseLoudA = Rms + NoiseLoud + A.
Dabei erklärt der erste Teil die verwendete Zeit-Mittelung (zum Beispiel ”Rms”, also quadratische Mittelung), und darauf folgt ein Name (zum Beispiel ”NoiseLoud”), der die Bedeutung der MOV beschreibt, und am Ende steht ein ”A” wenn die MOV von dem FFT-Ohrmodell stammt, oder ein ”B” wenn die MOV von dem Filterbank-Ohrmodell stammt.
Bei einigen MOVs ist der erste Zeit-Mittelungs-Teil nicht vorhanden.
Stereo bzw. Multikanal MOVs haben einen anderen Ursprung und folgen diesen Regeln bzw. Vorlagen nicht.
Im Folgenden wird weiter auf den Hintergrund der Erfindung eingegangen.
Details im Hinblick auf die Software ”Opera” von Opticom sind beispielsweise im Internet unter der folgenden Adresse verfügbar: "http://www.opticom.de/technology/audio-quality-testing.html.
Weitere Hintergrundinformationen zum Thema PEAQ sind beispielsweise unter der folgenden Internet-Adresse verfügbar: http://en.wikipedia.org/wiki/PEAQ.
Im Übrigen wird auch auf die Veröffentlichung "The Design of VoIP Systems with high perceptual conversional Quality" von B. W. Wah und B. Sat (Academy Publisher, Journal of Multimedia, Vol. 4, No. 2, April 2009) verwiesen. Diese Veröffentlichung beschreibt Realzeit-Zwei-Teilnehmer und -Mehr-Teilnehmer Sprache-Über-Internet-Protokollsysteme, die eine hohe Sprachqualität erreichen. In dem Artikel sind Abwägungen beschrieben, die bei dem Entwurf von Sprachcodierern gemacht werden sowie Strategien zur Netzwerk-Steuerung, Wiedergabe-Zeitplanung und Verlust-Heilung. Der Artikel beschreibt einen statistischen Ansatz basierend auf einem gerade-wahrnehmbaren Unterschied, um die große Anzahl an subjektiven Tests zu verringern. Ferner beschreibt der Artikel ein Klassifizierungsverfahren zum automatischen Lernen und zur Generalisierung der Ergebnisse auf neue Bedingungen. Unter Verwendung von Netzwerkbedingungen und Gesprächsbedingungen, die zur Laufzeit gemessen werden, hilft der gelernte Klassifizierer, die Steueralgorithmen anzupassen. In der Veröffentlichung werden eine Klassifizierung und eine SVM verwendet, aber keine SVR. Die SVM wird verwendet, um die optimale Rahmengröße und Paket-Periode in einem Sprache-über-Internet-Protokoll-Netzwerk basierend auf Netzwerk-Bedingungen und Konversations-Bedingungen zu erhalten. Eingangsgrößen der SVM sind beispielsweise Verlust, Verzögerung, Jitter-Parameter, Schaltfrequenz und Einzel-Sprech-Dauer. Ausgangsgrößen der SVM sind Rahmengröße und Paket-Periode.
Der Artikel "Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" von T. Coen u. a. beschreibt ein Modell der menschlichen Wahrnehmung von Motorgeräuschen. Der Artikel beschreibt die Beziehung zwischen einem Punktrichter-Hintergrund und Punktrichter-Bewertungen sowie einen Zusammenhang zwischen Autocharakteristika und Punktrichter-Bewertungen. In anderen Worten, der Artikel beschreibt eine Beurteilung von Präferenzen eines Motorgeräuschs. Zudem wird ein Modell zur Klassifizierung von Autos im Hinblick auf Komfort und Sportlichkeit basierend auf Geräusch-Qualitäts-Parametern ihres Motorgeräusches beschrieben. Ferner wird ein Modell zum Vergleich von zwei Autos im Hinblick auf Komfort und Sportlichkeit beschrieben. In dem genannten Artikel wird beschrieben, dass eine Klassifizierung und eine SVM verwendet werden, nicht aber eine SVR. Die Eingangsgrößen der SVM sind Parameter, die aus der Lauheit (SPL mit unterschiedlicher Gewichtung) und der Rauhheit basieren. Bei der Modellierung des Motorgeräusches sind die Eingangsgrößen Variablen die auf einer einzigen Quelle basieren und nicht auf der Differenz zwischen mehreren Größen.
In Anbetracht dieses Stands der Technik besteht das Bedürfnis, ein Konzept zur Bewertung einer wahrgenommenen Audioqualität zu schaffen, das einen verbesserten Kompromiss zwischen der Zuverlässigkeit der Ergebnisse und dem benötigen Rechenaufwand liefert.
Zusammenfassung der Erfindung
Ein Ausführungsbeispiel gemäß der vorliegenden Erfindung schafft eine Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität. Die Vorrichtung umfasst einen Modell-Ausgangsvariablen-Berechner (im Folgenden kurz als ”MOV-Berechner” bezeichnet), der ausgelegt ist, um Werte einer Mehrzahl von Modell-Ausgangsvariablen (im Folgenden kurz als ”MOVs” bezeichnet) zu berechnen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal und einem Testsignal beschreiben. Die Vorrichtung umfasst ferner eine Stütz-Vektor-Maschine (im Folgenden als ”SVM” bezeichnet, die ausgelegt ist, um einen Unterschieds-Bewertungs-Wert basierend auf den MOVs und einer Mehrzahl von Stützvektormaschinen-Parametern (im Folgenden als ”SVM-Parameter” bezeichnet) bereitzustellen.
Dieses Ausführungsbeispiel gemäß der Erfindung basiert auf der Erkenntnis, dass der Einsatz einer SVM es ermöglicht, zuverlässige Unterschieds-Bewertungs-Werte, die beispielsweise hörbare Störungen eines Testsignals im Vergleich zu dem Referenzsignal beschreiben, mit vergleichsweise geringem Rechenaufwand zu erhalten. So hat sich gezeigt, dass die verschiedenen MOVs, die Unterschiede zwischen dem Referenzsignal und dem Testsignal beschreiben, mit guter Zuverlässigkeit auf einen Unterschieds-Bewertungs-Wert abbildbar sind, wobei es zugleich möglich ist, die Zahl der SVM-Parameter vergleichsweise klein zu halten. Somit kann die Rechenzeit vergleichsweise niedrig gehalten werden.
Außerdem ermöglicht die Verwendung einer SVM ein Training der SVM-Parameter mit vergleichsweise geringem Aufwand.
Bei einem bevorzugten Beispiel ist die SVM ausgelegt, um den Unterschieds-Bewertungs-Wert so bereitzustellen, dass der Unterschieds-Bewertungs-Wert hörbare Differenzen zwischen dem Testsignal und dem Referenzsignal in Form eines einzigen numerischen Wertes darstellt. Die SVM ist also in der Lage, eine Mehrzahl von MOVs auf einem einzigen numerischen Wert abzubilden, wobei dieser einzige numerische Wert eine vergleichsweise zuverlässige Aussage über das Vorhandensein oder Nicht-Vorhandensein von hörbaren Störungen in dem Testsignal trägt.
Bei einem bevorzugten Ausführungsbeispiel ist die SVM ausgelegt, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten zu bilden, um den Unterschieds-Bewertungs-Wert zu erhalten. Die SVM ist bevorzugt ausgelegt, um eine Kern-Funktion in Abhängigkeit von einem Vektor von MOVs, einem Unterstützungsvektor und zumindest einem Kern-Funktion-Parameter (zum Beispiel, aber nicht notwendigerweise, σ) auszuwerten, um einen Kern-Funktions-Wert zu erhalten, und um den Kern-Funktions-Wert in Abhängigkeit von einem zugehörigen Gewichtungswert zu gewichten, um die gewichtete Summe zu erhalten. Die SVM kann somit in rechnerisch sehr effizienter Weise den Unterschieds-Bewertungs-Wert erhalten.
Bei einem bevorzugten Ausführungsbeispiel ist die SVM ausgelegt, um als Kernfunktionen radiale Basisfunktionen auszuwerten, die als Kernfunktionswert einen Wert liefern, dessen Betrag mit zunehmendem Unterschied zwischen dem Vektor von MOVs und einem zugehörigen Stützvektor abnimmt und sich an Null annähert, wobei eine Geschwindigkeit einer Abnahme des Betrags des Kern-Funktions-Wertes mit dem Unterschied zwischen dem Vektor von MOVs und dem zugehörigen Stützvektor durch einen der Kern-Funktion zugeordneten Kern-Funktion-Parameter bestimmt wird. Es hat sich gezeigt, dass die Verwendung radialer Basisfunktionen einerseits zuverlässige Ergebnisse bei der Bestimmung des Unterschieds-Bewertungs-Wertes liefert, und dass zudem die Bestimmung der Parameter der radialen Basisfunktionen (wie beispielsweise der Stützvektor und der Kern-Funktions-Parameter) aufgrund der Eigenschaften der Abbildung von MOVs auf den zugehörigen Unterschieds-Bewertungs-Wert typischerweise in numerisch effizienter Weise erfolgen kann. In anderen Worten, es wurde herausgefunden, dass eine SVM mit radialen Basisfunktionen besonders gut an das Problem angepasst ist, MOVs (wie oben definiert) auf einen entsprechenden Unterschieds-Bewertungs-Wert abzubilden. In anderen Worten, gemäß einem Ausführungsbeispiel ist es nicht entscheidend, dass der Ausgangswert der radialen Basisfunktion mit einer Vergrößerung der Differenz zwischen dem x und y_i abnimmt (wenngleich dies bei anderen Ausführungsbeispielen durchaus der Fall sein kann). Dies kann nämlich einfach umgekehrt werden, indem –1 (oder ein anderer negativer Wert) als Koeffizient coef_i verwendet wird. Bei manchen Ausführungsbeispielen ist es allerdings wichtig, dass der Ausgangswert (bzw. Ergebniswert) der radialen Basisfunktion mit einer Vergrößerung der Differenz zwischen x und y_i allmählich Null erreicht.
Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um als MOVs zumindest zwei der folgenden Werte bereitzustellen: Modulationsabweichungswert bzw. Modulationsmusterdifferenzwert, gefensterter Modulationsabweichungswert (WinModDiff1_B), gemittelter Modulationsabweichungswert (AvgModDiff1_B, AvgModDiff2_B), Effektivwert des Modulationsabweichungswertes (RmsModDiff_A), Störlautheits-Wert, Effektivwert des Störlautheitswertes (RmsNoiseLoud_A, RmsNoiseLoud_B), Effektivwert oder Lautheit fehlender Komponenten (RmsMissingComponents_A), Wert oder Effektivwert der asymmetrischen Störlautheit (NoiseLoudAsym), Mittelwert der linearen Verzerrungen (AvgLinDist_A), Bandbreitenwert des Referenzsignals (BandwidthRef_B), Bandbreitenwert des Testsignals (BandwidthTest_B), Gesamtes Verhältnis von Störungen zu Maskierungsschwelle (TotalNMR), Relativer Anteil von gestörten Rahmen (RelDistFrames_B), Segmentweises Verhältnis von Störungen zu Maskierungsschwelle (SegmentalNMR_B), maximale gefilterte Detektionswahrscheinlichkeit (MFPD_B), Mittlerer-verzerrter-Block-Wert (ADB_B), Fehlersignal-zu-Verdeckungsschwelle-Verhältniswert (SNMR_B), Störsignal-zu-Maskierungsschwellen-Verhältniswert, Harmonische-Fehlerstruktur-Wert (EHS, EHS_B), Abstandswert des Zwischen-Ohr-Zeit-Unterschieds (ITDDist), Abstandswert des Zwischen-Ohr-Pegel-Unterschieds (ILDDist), Abstandswert des Zwischen-Ohr-Kreuzkorrelations-Koeffizienten (IACCDist) und Störsignal-Harmonitäts-Strukturwert.
Es hat sich gezeigt, dass die genannten MOVs einerseits besonders aussagekräftig im Hinblick auf das Vorhandensein von hörbaren Störungen in dem Testsignal sind und dass die genannten MOVs im Übrigen auch gut auf einen Unterstützungs-Bewertungs-Wert abbildbar sind. Allerdings sei auch darauf hingewiesen, dass neue Modellausgangsvariablen (MOVs) entwickelt werden können, und dass somit auch solche neuen MOVs, oder auch andere MOVs, verwendet werden können.
Ferner sei darauf hingewiesen, dass die MOVs: WinModDiff1_B, AvgModDiff1_B, AvgModDiff2_B, RmsModDiff_A, RmsNoiseLoud_B, RmsNoiseLoud_A, RmsMissingComponents_A, RmsNoiseLoudAsym_A, AvgLinDist_A, BandwidthRef_B, BandwidthTest_B, TotalNMR_B, RelDistFrames_B, SegmentalNMR_B, MFPD_B, ADB_B, EHS_B, ITDDist, ILDDist, IACCDist, beispielsweise in der Liste auf Seite 57 in der Veröffentlichung "ITU-R BS.1387-1" der Internationalen Telekommunikationsunion beschrieben sind, wobei die MOVs RmsNoiseLoud_A and RmsMissingComponents_A aus der selben Veröffentlichung "ITU-R BS.1387-1" und die räumlichen MOVs ITDDist, ILDDist, IACCDist von Seite 7 der Veröffentlichung "Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems" von I. Choi (veröffentlicht in: JAES, Volume 56 Issue 1/2 Seiten 3–17; Januar 2008) hinzugefügt wurden Für Details im Hinblick auf die genannten MOVs sei hier ausdrücklich auf die entsprechenden Veröffentlichungen verwiesen.
Bei einem bevorzugten Ausführungsbeispiel umfasst die Vorrichtung zur -Bewertung der wahrgenommenen Audioqualität einen Parameter-Einsteller, der ausgelegt ist, um Parameter der SVM basierend auf Trainings-Audiosignalen und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (bzw. Soll-Unterschieds-Bewertungs-Werten) zu bestimmen. Es wurde herausgefunden, dass die Verwendung einer SVM in rechnerisch besonders effizienter Weise eine Bestimmung von zugehörigen SVM-Parametern erlaubt. So wurde herausgefunden, dass durch die Verwendung der SVM die Möglichkeit besteht, die Vorrichtung zur Bewertung der wahrgenommenen Audioqualität an verschiedene Typen von Audiosignalen und an die Ergebnisse von neuen subjektiven Tests anzupassen, ohne dass dadurch ein all zu großer Rechenaufwand entsteht. Insofern ist die entsprechende Vorrichtung zur Bewertung der wahrgenommenen Audioqualität besonders universell einsetzbar. Da das Training der SVM vergleichsweise schnell durchgeführt werden kann, ist es außerdem mit vertretbarem Aufwand möglich, Veränderungen an der Vorrichtung zur Bewertung der wahrgenommenen Audioqualität auf Ihre Auswirkungen hin zu überprüfen. Der Parametereinsteller kann bei dem Trainingsprozess beispielsweise die MOVs verwenden bzw. berücksichtigen. Bei einigen Ausführungsbeispielen werden die MOVs nämlich bei dem Trainingsprozess benötigt.
Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um Stütz-Vektoren, Gewichtungs-Koeffizienten und einen Offset-Wert basierend auf den Trainings-Audiosignalen und den zugehörigen Ziel-Unterschieds-Bewertungs-Werten zu bestimmen. Es wurde herausgefunden, dass die genannten Parameter ausreichend sind, um zuverlässige Ergebnisse im Hinblick auf den Unterschieds-Bewertungs-Wert zu liefern.
Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um in einem ersten Parameter-Einstellungsschritt einen Fehler-Gewichtungs-Parameter zu bestimmen, und um in einem zweiten Parameter-Einstellungsschritt die Stütz-Vektoren, die Gewichtungs-Koeffizienten und den Offset-Wert unter Verwendung des Fehler-Gewichtungs-Parameters zu bestimmen. Der Parameter-Einsteller ist bevorzugt ausgelegt, um für eine Mehrzahl von Fehler-Gewichtungs-Parametern Kreuz-Validierungswerte zu erhalten und den Fehler-Gewichtungs-Parameter für die Bestimmung der Stütz-Vektoren, der Gewichtungs-Koeffizienten und des Offset-Werts in dem zweiten Parameter-Einstellungsschritt in Abhängigkeit von den Kreuz-Validierungswerten zu bestimmen. Ein Kreuz-Validierungswert gibt in diesem Fall an, wie gut von der SVM mit trainierten Parametern, die in einem Training unter Verwendung eines vorgegebenen Fehler-Gewichtungs-Parameters basierend auf einer ersten Teilmenge von Trainings-Audiosignalen und zugehörigen Ziel-Unterschieds-Bewertungs-Werten erhalten werden, auf der Basis einer zweiten Teilmenge von Trainings-Audiosignalen gelieferte Unterschieds-Bewertungs-Werte mit zu der zweiten Teilmenge von Trainings-Audiosignalen zugeordneten Ziel-Unterschieds-Bewertungs-Werten übereinstimmen. Somit ist es möglich, den Trainings-Vorgang in einer besonders zuverlässigen Weise durchzuführen, da der Fehler-Gewichtungs-Parameter, der in dem zweiten Parameter-Einstellungsschritt verwendet wird, so gewählt wird, dass die Ergebnisse des Trainings besonders zuverlässig sind. In anderen Worten, es wird ein ”kleines” Training unter Verwendung der ersten Teilmenge von Trainings-Audiosignalen und unter Verwendung eines Fehler-Gewichtungs-Parameters durchgeführt, und es wird dann das Ergebnis dieses ”kleinen” Trainings auf seine Zuverlässigkeit hin überprüft, indem überprüft wird, wie gut eine SVM, die gemäß dem Ergebnis des ”kleinen” Trainings konfiguriert ist, Trainings-Audiosignale der zweiten Teilmenge auf Unterschieds-Bewertungs-Werte abbildet. Stellt sich für ein ”kleines Training”, das unter Verwendung eines bestimmten Fehler-Gewichtungs-Parameters durchgeführt wurde, heraus, dass das Ergebnis dieses ”kleinen” Trainings besonders zuverlässig sind, so wird der entsprechende Fehler-Gewichtungs-Parameter für ein ”größeres” Training (unter Verwendung von mehr Trainings-Audiosignalen als in der ersten Teilmenge von Trainings-Audiosignalen enthalten sind) verwendet. Insofern wird das Training derart durchgeführt, dass dieses zu besonders guten Ergebnissen führt.
Bei einem bevorzugten Ausführungsbeispiel ist der Parameter-Einsteller ausgelegt, um ein Maß für Unterschiede zwischen von der SVM gelieferten Unterschieds-Bewertungs-Werten und Ziel-Unterschieds-Bewertungs-Werten in Abhängigkeit von einem Verhältnis zwischen einer Differenz eines von der SVM gelieferten Unterschieds-Bewertungs-Werts und eines Ziel-Unterschieds-Bewertungs-Werts und einer Breite eines Vertrauensintervalls, das dem Ziel-Unterschieds-Bewertungs-Wert zugeordnet ist, zu bestimmen. In diesem Fall ist der Parameter-Einsteller ausgelegt, um eine untere Grenze für die Breite des Vertrauensintervalls zu verwenden. Es wurde herausgefunden, dass durch eine entsprechende Berücksichtigung eines Vertrauensintervalls bei der Bestimmung der Unterschieds-Bewertungs-Werte besonders gute Parameter für die SVM erhalten werden können. Im Übrigen wurde herausgefunden, dass die Verwendung einer unteren Grenze für die Breite des Vertrauensintervalls verhindert, dass einzelne Trainings-Audiosignale, die zu besonders vertrauenswürdigen Ziel-Unterschieds-Bewertungs-Werten führen, einen unangemessen hohen Einfluss auf die Einstellung der Parameter für die SVM haben.
Bei einem bevorzugten Ausführungsbeispiel ist die Vorrichtung ausgelegt, um die MOVs wertemäßig zu begrenzen und zu skalieren, um eine wertemäßig begrenzte und skalierte Version der MOVs als Eingangsinformation für die SVM zu erhalten. Es wurde herausgefunden, dass durch diese Maßnahme die Zuverlässigkeit der von der SVM gelieferten Ergebnisse verbessert werden kann.
Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert eine Differenz zwischen einer internen Darstellung des Referenzsignals und einer internen Darstellung des Testsignals beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert die Differenz zwischen der internen Darstellung des Referenzsignals und der internen Darstellung des Testsignals beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass eine solche MOV dazu beiträgt, besonders zuverlässige Ergebnisse zu erhalten.
Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert einen Maskierungsschwellwert, der sich basierend auf einem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert den Maskierungsschwellwert, der sich basierend auf basierend auf dem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass sich eine derartige MOV besonders gut für die Klassifizierung der Audiosignalqualität eignet, und dass eine derartige MOV gut als Eingangsgröße für die SVM verwendet werden kann.
Bei einem bevorzugten Ausführungsbeispiel ist der MOV-Berechner ausgelegt, um zumindest eine MOV zu berechnen, deren Wert einen Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt oder deren Wert eine harmonische Struktur eines Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt. In diesem Fall ist die SVM ausgelegt, um die MOV, deren Wert den Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder die MOV, deren Wert eine harmonische Struktur eines Unterschieds zwischen dem Testsignal und dem Referenzsignal bzw. eine harmonische Fehlerstruktur beschreibt, als Eingangsinformation zu verwenden. Es wurde herausgefunden, dass auch eine derartige MOV in Verbindung mit der SVM zu guten Ergebnissen führt.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst ein Verfahren zur Bewertung einer wahrgenommenen Audiosignalqualität.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst ein entsprechendes Computerprogramm.
Das Verfahren und das Computerprogramm basieren auf derselben Erkenntnis wie die oben erläuterte Vorrichtung. Das Verfahren und das Computerprogramm können im Übrigen um die selben Merkmale und Funktionalitäten ergänzt werden wie die entsprechende Vorrichtung.
Figurenkurzbeschreibung
Ausführungsbeispiele gemäß der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Figuren näher erläutert.
Es zeigen:
1 ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem Ausführungsbeispiel der Erfindung;
2 ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem weiteren Ausführungsbeispiel der Erfindung;
3 eine schematische Darstellung eines Wahrnehmungs-Modells basierend auf einer schnellen Fourier-Transformation (FFT);
4 ein Blockschaltbild eines Wahrnehmungs-Modells basierend auf einer Filterbank;
5 eine schematische Darstellung einer Struktur einer SVM bei APEAQ;
6 eine schematische Darstellung eines Trainingsprozesses und der Voraussetzungen;
7 eine schematische Darstellung einer Struktur eines neuronalen Netzwerks in APEAQ; und
8 eine Pseudo-Programmcode-Darstellung eines Algorithmus zur exponentiellen Gitter-Suche, zum Einsatz in Verbindung mit einem Ausführungsbeispiel der Erfindung.
Detaillierte Beschreibung der Ausführungsbeispiele
1. Ausführungsbeispiel gemäß Fig. 1
1 zeigt ein Blockschaltbild einer Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität. Die Vorrichtung 100 ist ausgelegt, um ein Testsignal 110 sowie ein Referenzsignal 112 zu empfangen und basierend darauf einen Unterschieds-Bewertungs-Wert 116 bereitzustellen.
Die Vorrichtung 100 umfasst einen MOV-Berechner 120, der ausgelegt ist, um das Testsignal 110 und das Referenzsignal 112 zu empfangen und um Werte 122 einer Mehrzahl von MOVs zu berechnen. Die MOVs bzw. deren Werte beschreiben Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen dem Referenzsignal 112 und dem Testsignal 110.
Die Vorrichtung 100 umfasst ferner eine SVM, die ausgelegt ist, um die Werte 122 der Mehrzahl von MOVs zu empfangen und um einen Unterschieds-Bewertungs-Wert 116 basierend auf den MOVs und einer Mehrzahl von SVM-Parametern 124 bereitzustellen. Bei der SVM handelt es sich bevorzugt um einen Klassifikator.
Die Vorrichtung 100 zur Bewertung einer wahrgenommenen Audioqualität ist durch die Verwendung der SVM, die die Werte 122 der Mehrzahl von MOVs empfängt, in der Lage, mit vergleichsweise geringem Rechenaufwand einen zuverlässigen Unterschieds-Bewertungs-Wert 116 zu liefern, der – in wahrnehmungs-bewerteter Weise – beschreibt, wie stark sich das Testsignal 110 von dem Referenzsignal 112 unterscheidet. Somit ist feststellbar, wie stark das Testsignal beispielsweise bei einer Audiocodierung, bei einer Speicherung und/oder bei einer Übertragung gegenüber dem Referenzsignal 112 verändert bzw. verschlechtert wird.
Weitere Details im Hinblick auf die Funktion des MOV-Berechners 120 und der SVM 130 werden im Übrigen im Folgenden noch erläutert.
Weiterhin ist festzuhalten, dass die Vorrichtung 100 optional einen Parameter-Einsteller 140 aufweist, der ausgelegt ist, um Trainings-Audiosignale 142 und Ziel-Unterschieds-Bewertungs-Werte (bzw. Soll-Unterschieds-Bewertungs-Werte) 144 zu empfangen und basierend darauf die SVM-Parameter 124 einzustellen. Weitere Details im Hinblick auf die Bestimmung der SVM-Parameter 124, die auch als Training der SVM bezeichnet wird, werden im Folgenden noch beschrieben.
Im Übrigen sei darauf hingewiesen, dass die Vorrichtung 100 um all diejenigen Merkmale und Funktionalitäten ergänzt werden kann, die hierin beschrieben sind.
2. Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität gemäß Fig. 2
2 zeigt ein Blockschaltbild einer Vorrichtung 200 zur Bewertung einer wahrgenommenen Audioqualität, gemäß einem Ausführungsbeispiel der Erfindung.
2.1 Überblick
Die Vorrichtung 200 ist ausgelegt, um ein Original-Signal 210 (auch als Referenzsignal bezeichnet) und ein getestetes Signal 212 (auch als Testsignal bezeichnet) zu empfangen und basierend darauf einen ODG 216 zu liefern. Bei dem ODG kann es sich beispielsweise um einen einzigen numerischen Wert handeln, der einem Paar bestehend aus einem Original-Signal und einem getesteten Signal zugeordnet wird. Der ODG wird manchmal abgekürzt auch mit ODG bezeichnet. Die Vorrichtung 200 ist ferner ausgelegt, um eine Information 218 über einen Wiedergabepegel zu empfangen.
Die Vorrichtung 200 umfasst ein Wahrnehmungs-Modell 220 basierend auf einer schnellen Fourier-Transformation (FFT) bzw. eine Einrichtung 220 zur Auswertung eines entsprechenden Wahrnehmungs-Modells. Das Wahrnehmungs-Modell 220 empfängt beispielsweise das Original-Signal 210, das getestete Signal 212 und die Information 218 über den Wiedergabepegel und liefert basierend darauf FFT-Wahrnehmungsmodell-Ausgangsgrößen 222. Bei den FFT-Wahrnehmungsmodell-Ausgangsgrößen 222 kann es sich beispielsweise um eine Rauschmuster-Information, eine Anregungsmuster-Information und eine Spektrum-Information handeln. Die FFT-Wahrnehmungsmodell-Ausgangsgrößen 222 werden im Übrigen an eine erste Modell-Ausgangsvariablen-Berechnung (auch kurz als ”MOV-Berechnung” bezeichnet) 230 geliefert, die ausgelegt ist, um basierend auf den FFT-Wahrnehmungsmodell-Ausgangsgrößen 222 erste MOVs 232 bereitzustellen.
Die Vorrichtung 200 umfasst ferner ein Wahrnehmungs-Modell 240 basierend auf einer Filterbank bzw. eine Einrichtung 240 zur Auswertung eines entsprechenden Wahrnehmungs-Modells basierend auf einer Filterbank. Das Wahrnehmungs-Modell240 basierend auf der Filterbank empfängt das Original-Signal 210 und das getestete Signal 212 sowie die Information 218 über den Wiedergabepegel und liefert basierend darauf Filterbank-Wahrnehmungsmodell-Ausgangsgrößen 242 an eine zweite MOV-Berechnung 150. Die zweite MOV-Berechnung 250 liefert beispielsweise zweite MOVs 252. Es sei im Übrigen darauf hingewiesen, dass es sich bei den Filterbank-Wahrnehmungsmodell-Ausgangsgrößen beispielsweise um eine Anregungs-Muster-Information und eine nicht-verschmierte Anregungs-Muster-Information handeln kann, wie dies im Folgenden noch kurz erläutert wird.
Eine SVM 260 empfängt die ersten MOVs 232 und die zweiten MOVs 252 und liefert, basierend darauf, und unter Verwendung von SVM-Parametern, den ODG 216.
Im Hinblick auf weitere Details betreffend das Wahrnehmungs-Modell 220 basierend auf der schnellen Fourier-Transformation, betreffend das Wahrnehmungs-Modell 240 basierend auf der Filterbank, betreffend die erste MOV-Berechnung 230 und betreffend die zweite MOV-Berechnung 250 wird hier ausdrücklich auf Abschnitt 3 der Master-Arbeit „Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic (Universität von Novi Sad, Fakultät für technische Wissenschaften, Novi Sad, Juli 2006) verwiesen. Die Lehre im Abschnitt 3 der genannten Masterarbeit wird hier ausdrücklich mit einbezogen.
Im Übrigen wird für weitere Hintergrundinformationen und auch für Details im Hinblick auf das Wahrnehmungs-Modell 220 basierend auf einer schnellen Fourier-Transformation, auf das Wahrnehmungs-Modell 240 basierend auf der Filterbank, auf die erste MOV-Berechnung 230 und auf die zweite MOV-Berechnung 250 auch auf die Empfehlung ITU-R BS.1387-1: „Method for Objective Measurements of Perceived Audio Quality" der Internationalen Telekommunikations-Union (ITU), Genf, 2001, verwiesen.
Ganz allgemein ist hier festzuhalten, dass insbesondere, aber nicht ausschließlich die 5, 8, 9 und 10 der Empfehlung „ITU-R BS.1387-1" der Internationalen Telekommunikations-Union für das Verständnis der vorliegenden Erfindung sehr hilfreich sind. In 5 der genannten Empfehlung der Internationalen Telekommunikations-Union wird ein Konzept präsentiert, das auf dem Vergleich von internen Darstellungen (von zu vergleichenden Audiosignalen) basiert, wobei dieses Konzept auch in der APEAQ gemäß Ausführungsbeispielen der Erfindung verwendet wird. Modell-Ausgangsvariablen (auch als „MOVs” bezeichnet) stellen „Audio-Qualitäts-Schätzwerte” dar, die am Ende unter Verwendung einer SVR (oder aber, alternativ, mit weniger guten Ergebnissen, unter Verwendung eines neuronalen Netzwerks) zu einem einzigen „Audio-Qualitäts-Schätzwert” kombiniert werden, der auch als „objektive Unterschieds-Bewertung” („Objective-Difference-Grade” bzw. „ODG” bezeichnet wird.
8 der genannten Empfehlung der Internationalen Telekommunikations-Union stellt ein generisches Blockdiagramm dar, das dem Blockdiagramm gemäß der 2 ähnelt.
9 der genannten Empfehlung der Internationalen Telekommunikations-Union ähnelt sehr stark der 3.
10 der genannten Empfehlung der Internationalen Telekommunikations-Union ähnelt sehr stark der 4.
Zusammenfassend ist somit festzuhalten, dass die 2 ein allgemeines Blockschaltbild einer weiterentwickelten Version der Bewertung der wahrgenommenen Audioqualität darstellt. Weitere Details werden im Folgenden erläutert.
2.2 Wahrnehmungs-Modell basierend auf der schnellen Fourier-Transformation (FFT) gemäß Fig. 3
Im Folgenden wird Bezug nehmend auf die 3 ein Wahrnehmungs-Modell 300 beschrieben, das auf der schnellen Fourier-Transformation (FFT) basiert, und das beispielsweise die Funktion des Wahrnehmungs-Modells 220 übernehmen kann. Für Details im Hinblick auf dieses Wahrnehmungs-Modell 300 sei im Übrigen insbesondere auf Abschnitt 3.1. der oben genannten Master-Arbeit von Goran Markovic und auch auf die oben genannte Empfehlung „ITU-R BS.1387-1" der Internationalen Telekommunikations-Union (ITU) verwiesen.
Das auf der schnellen Fourier-Transformation basierende Wahrnehmungs-Modell 300 empfängt ein Eingangssignal 310 und liefert eine Information 312 über ein Rauschmuster und/oder eine Information 314 über ein Anregungs-Muster und/oder eine Information 316 über ein Spektrum. Anregungs-Muster 314 werden beispielsweise nur für das Original-Signal (z. B. das Original-Signal 210) berechnet. Spektra 316 werden beispielsweise sowohl für die Original-Signale als auch die getesteten Signale (beispielsweise die Original-Signale 210 und die getesteten Signale 212) berechnet. Rauschmuster 312 stellen beispielsweise deren Differenz, also beispielsweise die Differenz zwischen einem Original-Signal und einem getesteten Signal, dar.
Das FFT-basierte Wahrnehmungs-Modell umfasst beispielsweise eine schnelle Fourier-Transformation 320, bei der FFT-Koeffizienten 322 basierend auf dem jeweiligen Eingangssignal 310 (bei dem es sich um das Original-Signal 210 oder um das getestete Signal 212 handeln kann) bereitgestellt werden. Das FFT-basierte Wahrnehmungs-Modell 300 umfasst ferner die Gleichrichtung 324, bei der die FFT-Koeffizienten 322 „gleichgerichtet” werden, beispielsweise im Sinne einer Absolutwertbildung. Die gleichgerichteten FFT-Koeffizienten 326 werden dann einer Skalierung 328 unterzogen, wobei die Skalierung in Abhängigkeit von den Wiedergabepegeln (z. B. dem Wiedergabepegel 218) erfolgt. Auf die skalierten (gleichgerichteten) FFT-Koeffizienten 330, die durch die Skalierung 328 erhalten werden, wird dann eine Frequenzantwort 332 von äußerem Ohr und Mittelohr angewendet, um somit durch die Ohr-Geometrie gewichtete (gleichgerichtete und skalierte) FFT-Koeffizienten 334 zu erhalten. Die gemäß der Ohr-Geometrie gewichteten FFT-Koeffizienten 334 werden dann einer Gruppierung 336 in Frequenz-Subbänder unterzogen, um somit gruppierte FFT-Koeffizienten 338 zu erhalten. Zu den gruppierten FFT-Koeffizienten 338 wird dann internes Rauschen hinzugefügt (Schritt 340), um somit mit einem Rauschen versehene FFT-Koeffizienten 342 zu erhalten. Auf die mit dem Rauschen versehenen FFT-Koeffizienten 342 wird dann eine Frequenzbereichs-Spreizung 344 angewendet, bei der Energien der Subbänder verschmiert werden, um eine Frequenz-Maskierung zu modellieren. Somit werden Frequenzbereichs-gespreizte FFT-Koeffizienten 346 erhalten, auf die eine Zeitbereichs-Spreizung 348 angewendet wird. Bei der Zeitbereichs-Spreizung werden Anregungs-Muster zeitlich verschmiert, wodurch schließlich die Information 314 über das Anregungs-Muster erhalten wird. In anderen Worten, die Information 314 über das Anregungs-Muster stellt ein Endergebnis des Wahrnehmungs-Modells, das auf der schnellen Fourier-Transformation basiert, dar. Im Übrigen beschreibt die Information 316 über das Spektrum die mit einem internen Rauschen versehenen FFT-Koeffizienten 342 bzw. ist identisch zu den mit einem internen Rauschen versehenen FFT-Koeffizienten 342.
Im Übrigen werden die gemäß einer Ohr-Geometrie bzw. Ohr-Filterfunktion bewerteten FFT-Koeffizienten 334 bevorzugt herangezogen, um eine Berechnung 350 eines Signal-Unterschieds zwischen zwei Signalen (beispielsweise zwischen dem Original-Signal 210 und dem getesteten Signal 212) durchzuführen. Um einen Signal-Unterschied zu berechnen, wird dabei ein gemäß der Filtercharakteristik des Ohrs gewichteter erster Satz von (gleichgerichteten und skalierten) FFT-Koeffizienten 334 eines ersten Vergleichssignals sowie ein gemäß der Filtercharakteristik des Ohrs gewichteter zweiter Satz von (gleichgerichteten und skalierten) FFT-Koeffizienten eines zweiten Vergleichssignals berechnet. Anschließend erfolgt beispielsweise eine Bestimmung einer Differenzleistung oder Differenz-Amplitude, beispielsweise pro Frequenz-Korb (der FFT). Für Details diesbezüglich wird beispielsweise auf Absatz 3.1.3 der Master-Arbeit von Goran Markovic verwiesen. Anschließend an die Berechnung eines Signal-Unterschieds, bei der Unterschieds-FFT-Koeffizienten 152 erhalten werden, erfolgt beispielsweise eine Gruppierung 354 in Frequenzbänder, um somit die Information 312 über das Rauschmuster zu erhalten.
Zusammenfassend ist somit festzuhalten, dass basierend auf einem Eingangssignal (beispielsweise einem Original-Signal 210 oder einem getesteten Signal 212) eine Information 314 über ein Anregungs-Muster und eine Information 316 über ein Spektrum unter Verwendung des FFT-basierten Wahrnehmungs-Modells 300 erzeugt werden. Durch einen Vergleich bzw. eine Differenzbildung zwischen gewichteten FFT-Koeffizienten 334 von zwei zu vergleichenden Signalen (beispielsweise einem Original-Signal 210 und einem getesteten Signal 212) kann im Übrigen eine Information 312 über ein Rauschmuster (bzw. ein Störungsmuster) erhalten werden.
Die Informationen 312, 314, 316 können dann als Eingangsinformationen für die MOV-Berechnung 230 dienen, wie später noch erläutert wird.
2.3. Filterbank-basiertes Wahrnehmungs-Modell gemäß Fig. 4
Im Folgenden wird ein Filterbank-basiertes Wahrnehmungs-Modell 400 gemäß 4 beschrieben, das beispielsweise die Funktion des Filterbank-basierten Wahrnehmungs-Modells 240 erfüllen kann.
Das Filterbank-basierte Wahrnehmungs-Modell 400 empfängt ein Eingangssignal 410 und eine Information 412 über einen Wiedergabepegel und liefert eine Information 416 über ein Anregungs-Muster sowie, zusätzlich, eine nicht-verschmierte Information 418 über ein Anregungs-Muster.
Das Filterbank-basierte Wahrnehmungs-Modell 400 umfasst eine Skalierung 420, bei der das Eingangssignal 410 in Abhängigkeit von der Information 412 über den Wiedergabepegel skaliert wird, um ein skaliertes Eingangssignal 422 zu erhalten. Das skalierte Eingangssignal 422 wird einer Gleichwert-Filterung 424 zugeführt, um ein Gleichwert-gefiltertes (und skaliertes) Eingangssignal 426 zu erhalten. Das Gleichwert-gefilterte Eingangssignal 426 wird dann einer Filterbank 428 zugeführt, die typischerweise eine Mehrzahl von Filterbanken-Signalen 430 bereitstellt. Die Filterbank 428 kann dabei das Gleichwert-gefilterte (und skalierte) Eingangssignal 426 in eine Mehrzahl von Signalen 430 zerlegen, wobei die unterschiedlichen Signale 430 durch Filterung mit unterschiedlichen Filtern, die unterschiedliche, aber u. U. überlappende Durchlass-Frequenzbereiche aufweisen, erhalten werden. Auf die Filterbank-Signale 430 wird dann eine Frequenzantwort des äußeren Ohres und des Mittelohres angewendet (Schritt 432), um somit gemäß einer Filtercharakteristik des Ohres bewertete Filterbank-Signale 434 zu erhalten. Die gemäß der Filtercharakteristik des Ohres gewichteten Filterbank-Signale werden dann einer Frequenzbereichs-Spreizung 436 unterzogen, um somit Frequenzbereichs-gespreizte Filterbank-Signale 438 zu erhalten. Die Frequenzbereichs-gespreizten Filterbank-Signale 438 werden einer Gleichrichtung 440 unterzogen, um gleichgerichtete Filterbank-Signale 442 zu erhalten, die ihrerseits einer Rückwärts-Spreizung 444 in der Zeit unterzogen werden. Somit werden zeitlich Rückwärts-gespreizte Filterbank-Signale 446 erhalten, zu denen ein internes Rauschen hinzugefügt wird (Schritt 448). Dadurch erhaltene mit einem internen Rauschen versehene Filterbank-Signale 450 werden einer Vorwärts-Spreizung 452 in der Zeit unterzogen, um somit die Information 416 über das Anregungs-Muster zu erhalten. Die mit einem internen Rauschen versehenen Filterbank-Signale 450 (vor der Vorwärts-Spreizung 452 in der Zeit) dienen im Übrigen auch als die Information 418 über das nicht-verschmierte Anregungs-Muster.
Im Hinblick auf das Filterbank-basierte Wahrnehmungs-Modell ist im Übrigen zu sagen, dass die Basis für dieses Modell eine Filterbank ist, die aus z. B. 40 Paaren von Filtern besteht, die auf einer sogenannten Bark-Skala gleichen Abstand aufweisen.
Für weitere Details wird im Übrigen auf Abschnitt 3.2 der Master-Arbeit von Goran Markovic sowie auf den Vorschlag "ITU-R BS.1387-1" der Internationalen Telekommunikations-Union verwiesen.
Zusammenfassend ist ferner zu sagen, dass weitere Flussdiagramme in der Empfehlung „ITU-R BS.1387-1" zu finden sind, und zwar sowohl für das FFT-basierte Wahrnehmungs-Modell gemäß 3 als auch für das Filterbank-basierte Wahrnehmungs-Modell gemäß 4. Flussdiagramme aus der genannten Empfehlung der Internationalen Telekommunikations-Union und aus der Master-Arbeit von Goran Markovic beschreiben im Wesentlichen das gleiche System, da sich die Master-Arbeit von Goran Markovic zumindest in dem ersten Teil auf die Implementierung des Systems aus der genannten Empfehlung der Internationalen Telekommunikations-Union bezieht.
2.4. Berechnung der Modell-Ausgangsvariablen
Im Folgenden wird die Berechnung der MOVs beschrieben, die beispielsweise basierend auf den von dem FFT-basierten Wahrnehmungs-Modell gelieferten Ausgangsgrößen (z. B. Anregungsmuster-Informationen 314, Spektrum-Informationen 316 und Rauschmuster-Informationen 312) oder basierend auf den von dem Filterbank-basierten Wahrnehmungs-Modell gelieferten Ausgangsgrößen (z. B. Anregungsmuster-Information 416 und nicht-verschmierte Anregungsmuster-Information 418) erfolgen kann. Es sei hier darauf hingewiesen, dass nicht notwendigerweise beide oben genannten Wahrnehmungs-Modelle eingesetzt werden müssen, sondern dass vielmehr bei einigen Ausführungsbeispielen auch der Einsatz eines einzigen Wahrnehmungs-Modells (beispielsweise des Wahrnehmungs-Modells 220 oder des Wahrnehmungs-Modells 240, oder eines anderen Wahrnehmungsmodells) ausreichend ist.
Die Anregungs-Muster, die beispielsweise durch die Anregungsmuster-Information 314 und/oder durch die Anregungsmuster-Information 416 beschrieben werden, können beispielsweise für die Bestimmung bzw. Berechnung von MOVs verwendet werden. In anderen Worten, Anregungs-Muster (z. B. das Anregungs-Muster 314, das durch das FFT-basierte Wahrnehmungs-Modell erzeugt wird, oder das Anregungs-Muster 416, das durch das Filterband-basierte Wahrnehmungs-Modell erzeugt wird), nicht-verschmierte Anregungs-Muster (z. B. das nicht-verschmierte Anregungs-Muster 418), Rauschmuster (z. B. das Rauschmuster 312, das unter Verwendung des FFT-basierten Wahrnehmungs-Modells 300 auf der Basis eines Original-Signals und eines getesteten Signals erzeugt werden kann) und ein Spektrum, die durch die oben beschriebenen Wahrnehmungs-Modelle geliefert werden, bilden Eingangsgrößen für die Blöcke der MOV-Berechnung. Die MOV-Berechnung für die APEAQ gemäß Ausführungsbeispielen der Erfindung ist beispielsweise in der Master-Arbeit von Goran Markovic beschrieben, und zwar insbesondere in den Abschnitten 3.3., 3.4. und 4.8. Eine weitere Beschreibung, die der Beschreibung in den Abschnitten 3.3 und 3.4 der genannten Master-Arbeit ähnelt, findet sich im Übrigen in der Empfehlung „ITU-R BS.1387-1", Kapitel 3 und 4. Kapitel 4.8 der genannten Master-Arbeit von Goran Markovic beschreibt im Übrigen eine Weiterentwicklung und Verbesserung im Vergleich zu der ITU-Empfehlung (ITU-R BS.1387-1), die im Rahmen der Masterarbeit erfolgt ist. Die in Kapitel 4.8 der genannten Master-Arbeit beschriebene Weiterentwicklung und Verbesserung ist Teil der APEAQ, und ist nicht Teil der ITU-Empfehlung „ITU-R BS.1387-1” und kann bei Ausführungsbeispielen gemäß der Erfindung eingesetzt werden.
Die Ausgangsgrößen der MOV-Berechnungs-Blöcke sind die MOVs, die als Eingangsgrößen eines neuronalen Netzwerks oder, gemäß Ausführungsbeispielen der Erfindung, einer SVM dienen, wie es beispielsweise in den 5 und 7 gezeigt ist.
Im Folgenden werden einige der MOVs, die als Eingangsvariablen der SVM bzw. SVR dienen, näher erläutert. Für weitere Details wird hier ausdrücklich auf die Abschnitte 3.3, 3.4 und 4.8 der oben genannten Master-Arbeit von Goran Markovic verwiesen.
Zunächst sei darauf hingewiesen, dass, optional, eine Vorverarbeitung von Anregungs-Mustern, beispielsweise des Anregungs-Musters 314 oder des Anregungs-Musters 416, erfolgen kann, um die Berechnung der MOVs vorzubereiten. Für Details diesbezüglich wird insbesondere auf Abschnitt 3.3 der genannten Master-Arbeit von Goran Markovic verwiesen. Die Vorverarbeitung wird bevorzugt auf die Anregungs-Muster 416 angewendet, die durch das Filterbank-basierte Wahrnehmungs-Modell geliefert werden, kann aber auch auf das von dem FFT-basierten Wahrnehmungs-Modell gelieferte Anregungs-Muster 314 angewendet werden. Die Vorverarbeitung kann beispielsweise eine Einstellung bzw. Anpassung der Lautstärke des Original-Signals und/oder des getesteten Signals, eine Berechnung einer zeitlichen Hüllkurvenmodulation sowie eine Berechnung der Signal-Lautheit („Loudness”) umfassen. Verschiedene optionale weitere Veränderungen an der MOV-Anpassung, die bei APEAQ verwendet wird, sind beispielsweise in Kapitel 4.1 der Masterarbeit von Goran Markovic beschrieben und können auch bei Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden.
Basierend auf den Ausgangsgrößen des FFT-basierten Wahrnehmungs-Modells 300 bzw. des Filterbank-basierten Wahrnehmungs-Modells 400 können im Übrigen, gegebenenfalls unter Berücksichtigung der genannten Vorverarbeitung der Anregungs-Muster, die MOVs berechnet werden. Für Details diesbezüglich wird auf Abschnitt 3.4 der oben genannten Master-Arbeit von Goran Markovic verwiesen. Es sei hier im Übrigen darauf hingewiesen, dass bevorzugt zwei oder mehr der im Folgenden beschriebenen MOVs berechnet werden, wenngleich immerhin sogar fünf oder mehr verschiedene Ausgangsvariablen zum Einsatz kommen können.
In einer weiterentwickelten Version, die in der Empfehlung "ITU-R BS.1387" der Internationalen Telekommunikations-Union beschrieben ist, werden fünf MOVs verwendet: RmsModDiff_A (Effektivwert Modulationsabweichung bzw. Effektivwert Modulationsmuster-Differenz), RmsNoiseLoudAsym_A (Effektivwert Störlautheit Asymmetrisch), AvgLinDist_A (Mittelwert der linearen Störungen), SNMR_B (Segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. Segmentweises Störungs-zu-Masken-Verhältnis) und EHS_B (Harmonische Struktur des Fehlers bzw. harmonische Fehlerstruktur). Die genannten MOVs können auch in Ausführungsbeispielen gemäß der vorliegenden Erfindung berechnet und ausgewertet werden. Zur Mittelung über der Zeit von MOV-Werte in einzelnen Rahmen werden die Werte von allen Rahmen, die bestimmte Bedingungen erfüllen, verwendet. Somit basieren die MOVs auf einer Mittelung über der Zeit, wobei bevorzugt ungeeignete Audio-Rahmen außer Acht gelassen werden. Zusätzlich zu der Mittelung in Zeit wird der endgültige Wert jeder MOV durch arithmetische Mittelwertbildung zwischen einer Mehrzahl von Kanälen gebildet, sofern mehrere Kanäle vorhanden sind. Allerdings ist darauf hinzuweisen, dass die Mittelwertbildung sowohl über der Zeit als auch über den Kanälen nicht erforderlich ist, sondern als optional anzusehen ist und gegebenenfalls durch eine andere Art der Auswertung (zum Beispiel Auswahl von Werten für den schlechtesten Fall) ersetzt werden kann.
Eine effektive Modulationsabweichung bzw. Modulationsdifferenz bzw. Modulationsmusterdifferenz „RmsModDiff_A” beschreibt den Unterschied von Modulationsmustern des originalen Signals (beispielsweise des Referenzsignals 210) und des getesteten Signals (z. B. des getesteten Signals 212). Für Details im Hinblick auf die Berechnung der mittleren Modulationsabweichung bzw. Modulationsmuster-Differenz sei auf Abschnitt 3.4.1 der oben genannten Diplomarbeit von Goran Markovic sowie auf den entsprechenden Abschnitt der oben genannten ITU-Empfehlung verwiesen.
Eine Lautheit von Störungen (bzw. von Unterschieden zwischen Testsignal und Referenzsignal) kann durch verschiedene Ausgangsvariablen beschrieben werden, nämlich beispielsweise durch MOVs „RmsNoiseLoud_A” (Effektivwert der Störlautheit), und/oder „RmsMissingComponents_A” (Effektivwert der fehlenden Komponenten bzw. Lautheit der fehlenden Komponenten), und/oder „AvgLinDist_A” (Mittelwert der linearen Störungen).
Details im Hinblick auf die Berechnung dieser Lautheits-Werte sind beispielsweise in Abschnitt 3.4.2 der oben genannten Masterarbeit von Goran Markovic näher erläutert. Im übrigen beschreibt Abschnitt 3.4.3 der genannten Masterarbeit einen weiteren Lautheits-Wert „RmsNoiseLoudAsym_A”, der durch eine Linearkombination der oben genannten Lautheits-Werte „RmsNoiseLoud_A” und „RmsMissingComponents_A” erhalten werden kann. Weitere Details im Hinblick auf den Mittelwert der linearen Störungen „AvgLinDist_A” sind im übrigen in Abschnitt 3.4.4 der Masterarbeit von Goran Markovic erläutert.
Weiterhin kann als MOV ein segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweises Störungs-zu-Masken-Verhältnis „SNMR_B” berechnet werden, welches eine Beziehung zwischen Störungen (bzw. Unterschieden zwischen Testsignal und Referenzsignal bzw. Fehlersignal) und einer Maskierungsschwelle bzw. Verdeckungsschwelle darstellt. Die Maskierungsschwelle kann beispielsweise basierend auf den verschmierten Anregungsmustern 314 des Referenzsignals bzw. Originalsignals 210, die durch das FFT-basierte Wahrnehmungsmodell geliefert werden, berechnet werden. Details diesbezüglich sind beispielsweise in Abschnitt 3.4.5 der oben genannten Masterarbeit von Goran Markovic erläutert.
Im übrigen kann als MOV auch ein Wert berechnet werden, der eine harmonische Struktur des Fehlers bzw. eine harmonische Fehlerstruktur beschreibt, und der auch als „EHS_B” bezeichnet wird.
Details, wie ein Wert, der die harmonische Struktur des Fehlers bzw. die harmonische Fehlerstruktur beschreibt, basierend auf dem Spektrum (bzw. den Spektra) des Testsignals (z. B. dem Spektrum X_test [i], 316) und dem Spektrum des Referenzsignals (z. B. dem Spektrum X_ref [i], 316) bestimmt werden kann, sind beispielsweise im Abschnitt 3.4.6 der oben genannten Masterarbeit von Goran Markovic beschrieben.
Weitere Veränderungen bzw. Verbesserungen bei der Berechnung einiger der oben genannten MOVs sind im Übrigen im Abschnitt 4.8 der oben genannten Masterarbeit von Goran Markovic erläutert.
Zusammenfassend ist festzuhalten, dass hier die Berechnung einiger MOVs beschrieben wurde, die bei Ausführungsbeispielen der Erfindung beispielsweise durch den MOV-Berechner 120 oder durch die MOV-Berechnung 230 und/oder die MOV-Berechnung 250 erhalten werden können. In anderen Worten, die genannten MOVs (z. B. der Effektivwert der Modulationsabweichung bzw. der Modulationsmuster-Differenz, die Lautheit der Störungen (auch als ”Störlautheit” bezeichnet), beispielsweise dargestellt durch den Effektivwert der Störlautheit oder durch den Effektivwert der fehlenden Komponenten oder durch den mittleren linearen Abstand oder durch den Effektivwert der asymmetrischen Störlautheit, das Segmentierte Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweise Störungs-zu-Masken-Verhältnis und/oder ein Wert, der die harmonische Fehlerstruktur bzw. die harmonische Struktur des Fehlers beschreibt) oder zumindest einige der genannten MOVs können durch die MOV-Berechnung 230 und/oder die MOV-Berechnung 250 erhalten werden. Die numerischen Werte, die die MOVs darstellen, können als Eingangsgrößen für die SVM 120, 260 dienen, wie im Folgenden noch beschrieben wird.
2.5. Unterstützungs-Vektor-Maschine (SVM)
Im Folgenden wird die Funktionsweise der SVM beschrieben. 5 zeigt ein Blockschaltbild einer solchen SVM 500, die beispielsweise die Aufgaben der SVM 260 bzw. der SVM 120 erfüllen kann.
Die SVM 500 ist bevorzugt ausgelegt, um eine Mehrzahl von MOVs 510, 512, 514, 516, 518 zu empfangen, wobei in der 5 beispielsweise fünf MOVs als Eingangsgrößen der SVM 500 gezeigt sind. Bei den MOVs 500, 512, 514, 516, 518 handelt es sich beispielsweise um die MOVs 232 und/oder 252, die von der ersten MOV-Berechnung 230 und/oder von der zweiten MOV-Berechnung 250 bereitgestellt werden. Beispielsweise können die von der SVM 500 verwendeten MOVs einen Effektivwert 510 der Modulationsabweichung bzw. der Modulationsmuster-Differenz, einen Effektivwert 512 der Störlautheit, einen Effektivwert 514 der fehlenden Komponenten, ein segmentiertes Verhältnis von Fehlersignal zur Verdeckungsschwelle bzw. segmentweises Störungs-zu-Masken-Verhältnis 516 und einen Wert 518, der eine harmonische Fehlerstruktur bzw. eine harmonische Struktur des Fehlers beschreibt, umfassen.
Die SVM 500 ist ausgelegt, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten (kernel (x, y₁) bis kernel (x, y_N)) zu bilden, wobei die einzelnen Kern-Funktions-Werte (kernel (x, y₁) bis kernel (x, y_N)) mit zugeordneten Koeffizienten (coef₁ bis coef_N) gewichtet werden. Zusätzlich kann in die Summe auch eine Konstante ρ mit einfließen. Entsprechend wird der (”objektive”) Unterschieds-Bewertungswert 520 (auch mit ODG bezeichnet) als Ergebnis der gewichteten Summation erhalten. Die Kern-Funktion wird hier mehrmals in Abhängigkeit von einem Vektor x von (bevorzugt verschiedenen) MOVs (die bevorzugt dem gleichen Abschnitt des Testsignals zugeordnet sind) und auch in Abhängigkeit von jeweiligen Stützvektoren y₁ bis y_N ausgewertet. Wie im Folgenden noch erläutert wird, fließt hier im Übrigen noch zumindest ein Kern-Funktions-Parameter σ mit ein (wobei auch die Koeffizienten coef₁ bis coef_N als Kern-Funktion-Parameter angesehen werden können).
Bei der Kernfunktion ”kernel (x, y_i)” (mit 1 ≤ i ≤ N) handelt es sich bevorzugt, aber nicht notwendigerweise um eine radiale Basisfunktion. Es hat sich gezeigt, dass eine Gaußsche radiale Basisfunktion der Formel
besonders vorteilhaft ist, wobei ∥x – y_i∥ einen Betrag bzw. eine Norm einer Differenz zwischen dem Vektor x von MOVs und einem Unterstützungsvektor y_i beschreibt, und wobei σ ein Kern-Funktions-Parameter ist, und wobei e die Eulersche Konstante ist. Andere Kernfunktionen, die typischerweise andere Kernfunktionsparameter haben, können auch verwendet werden.
Details im Hinblick auf eine derartige Gaußsche radiale Basisfunktion sind beispielsweise im Internet unter der Internet-Adresse: http://en.wikipedia.org/wiki/Radial_basis_function sowie in der Veröffentlichung "Using a Radial Basis Function as Kernel" von K. K. Chin (im Internet verfügbar unter der Adresse: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html) beschrieben.
Mit anderen Worten, die vorstehende Definition der Kernfunktion ”kernel (x, y_i)” beschreibt, zusammen mit der schematische Darstellung der Auswertungs- bzw. Berechnungsvorschrift gemäß 5, die gesamte Funktion der SVM 500 bzw. der SVM 120, 260. In anderen Worten, das, was innerhalb der SVM passiert ist, zusammen mit der obigen Definition der Kernfunktion, vollständig durch die 5 beschrieben.
Durch die Anwendung der SVM 500 wird somit eine ”objektive” Unterschieds-Bewertung 520 (auch als ”objective difference grade” bzw. ”ODG” bezeichnet) erhalten, die die letzte bzw. abschließende Ausgangsgröße der APEAQ darstellt. Die objektive Unterschieds-Bewertung ist ein ”objektives” (also ohne Zutun eines Menschen bzw. ohne Beeinflussung durch einen Menschen, sondern allein unter Verwendung einer technischen Vorrichtung bzw. einer vorgegebenen Berechnungsvorschrift erhaltenes) Maß, das einem SDG entsprechen soll. Der SDG ist eine Bewertung, die einem Test-Audio-Beispiel im Vergleich zu dem Original-Audio-Beispiel (typischerweise durch einen menschlichen Test-Hörer oder durch eine Mehrzahl von menschlichen Testhörern) gegeben wird. Der SDG stellt einen Mittelwert von Bewertungen von einer Anzahl von Hörern dar. Die Hörtest-Prozedur, die verwendet wird, um den SDG und ein zugehöriges Vertrauensintervall zu erhalten, ist in der Empfehlung "ITU-R BS.1116": "Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems" der internationalen Telekommunikationsunion definiert. Neben dem Konzept gemäß der ITU-R BS.1116 kann aber auch das Konzept gemäß der ITU-R BS.1534, die als ”MUSHRA” bekannt ist, verwendet werden (vergleiche beispielsweise die Beschreibung unter der Internet-Adresse http://en.wikipedia.de/wiki/MUSHRA). Zusammenfassend ist somit festzuhalten, dass die SVM 500, zumindest bei geeigneter Wahl der SVM-Parameter coef₁ bis coef_N, σ, ρ, einen ODG 520 liefert, die einen zu dem Test-Audiosignal und dem Referenz-Audiosignal gehörigen SDG mit ausreichender Präzision annähert.
2.6. Training der Unterstützungs-Vektor-Maschine
Im Folgenden wird das Training der SVM 500 näher erläutert. Es wird – auch unter Verweisung auf entsprechende Literaturstellen – beschrieben, wie die Stützvektoren y₁ bis y_N bestimmt werden, wie die Gewichtungskoeffizienten coef₁ bis coef_N bestimmt werden, und wie der Offset ρ bestimmt wird.
Die genannten Daten werden während eines Trainings aufgefunden, und Details, wie dieses Training funktioniert, und wie und basierend auf welchen Daten ein Trainingsergebnis erhalten wird, werden im Folgenden erläutert.
Ganz allgemein ist hier zu sagen, dass das Trainieren einer SVR (bzw. einer SVM) ein Prozess ist, bei dem die Stützvektoren (z. B. die Vektoren y_i bis y_N), die Gewichtungskoeffizienten (z. B. Koeffizienten coef₁ bis coef_N) und ein Offset (z. B. ein Offset-Wert ρ) gefunden werden. Zudem kann auch ein Parameter σ gefunden werden.
Die APEAQ, die in der Masterarbeit von Goran Markovic beschrieben ist, wurde beispielsweise unter Verwendung von Daten von öffentlichen Hörtests trainiert (für Details, siehe zum Beispiel die Erläuterungen unter der Internet-Adresse http://en.wikipedia.org/wiki/Codec_listening_test). Ebenso kann im Übrigen die erfindungsgemäße Vorrichtung zur Bewertung einer wahrgenommenen Audioqualität basierend auf derartigen Daten von öffentlichen Hörtests trainiert werden. Ein Beispiel eines solchen Tests ist beispielsweise im Internet unter der Adresse ”http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm” beschrieben. Für jedes Audiostück (Beispiel) ist ein mittlerer SDG und ein Vertrauensintervall verfügbar. Diese Daten sind in den Graphen in der oben genannten Online-Referenz dargestellt und können auch von den detaillierten Ergebnissen des Tests berechnet werden, die unter der folgenden Internet-Adresse verfügbar sind: http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar. Es sei aber darauf hingewiesen, dass auch beliebige andere Hörtests bzw. eine Kombination mehrerer Hörtests für das Training verwendet werden könnten.
Für jedes Audiostück berechnet die APEAQ MOVs (beispielsweise so, wie dies oben beschrieben wurde). Die Berechnung der MOVs benötigt kein Wahrnehmungs-Modell. Für jede MOV werden obere und untere Grenzen gefunden, so dass eine Begrenzung der Modell-Ausgangsvariablen-Werte eine größte Korrelation zu den subjektiven Differenzgraden (SDGs) erzeugt. Unter Verwendung dieser Grenzen wird jede MOV auf den Bereich [0, 1] skaliert.
Jedes Audio-Stück (auch als „audio item” bezeichnet) wird durch seinen SDG, ein Vertrauensintervall und MOV-Werte definiert.
Bei Verwendung eines Kernels mit einer radialen Basisfunktion (RBF) wird ein SVM-Training durch zwei Parameter definiert: C und γ. C > 0 ist der Straf-Parameter des Fehler-Terms und γ = 1/σ², wobei σ der Parameter der radialen Basisfunktion ist. Diese Parameter werden bevorzugt in einer Such-Prozedur gefunden.
In dem Trainings-Prozess der APEAQ gibt es zwei Such-Prozeduren.
Eine von diesen Such-Prozeduren ist diejenige, die in dem Artikel "A Practical Guide to Support Vector Classification" von C.-W. Hsu und anderen (Online verfügbar unter der Internet-Adresse: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf) beschrieben beziehungsweise vorgeschlagen wurde: eine Gitter-Suche nach C und γ unter Verwendung einer Kreuz-Validierung. Paare von Werten (C, γ) werden unter Verwendung von exponentiell wachsenden Sequenzen geprüft, und das Paar mit der besten Kreuz-Validierungs-Genauigkeit wird ausgewählt. Bei dem Training der APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung wird eine zusätzliche lineare Suche in der Umgebung der Werte durchgeführt, die in der exponentiellen Gitter-Suche gefunden wurden. Diese Werte von C und γ werden dann für das Training basierend auf dem gesamten Eingangsinformations-Satz verwendet, wie dies in dem oben genannten Artikel bzw. in der oben genannten Anleitung vorgeschlagen wurde. Eine weiteres spezifisches Merkmal für die APEAQ besteht darin, dass die Kreuz-Validierung (bevorzugt, aber nicht notwendigerweise) mehrere Male ausgeführt wird, und dass der maximale Fehler unter mehreren Ausführungen als das Genauigkeitsmaß für das Paar C, γ gewählt wird.
Eine weitere Such-Prozedur ist spezifisch für die APEAQ und hat bessere Verallgemeinerungs-Fähigkeiten. Bei dieser Such-Prozedur werden alle Audiostücken in Trainings-Sätze und Test-Sätze aufgeteilt, wobei die Test-Sätze viel kleiner sind (als die Trainings-Sätze). Trainings-Sätze und Test-Sätze sind beispielsweise (aber nicht notwendigerweise) vollkommen unabhängig, und werden bzw. wurden bevorzugt (aber nicht notwendigerweise) von unterschiedlichen Hörtests erhalten. Es wird die selbe Gitter-Suche nach C und γ durchgeführt, aber die Paare von (C, γ) werden für ein Training einer SVM auf dem gesamten Trainings-Satz verwendet, und dasjenige mit der besten Genauigkeit auf dem Test-Satz wird ausgewählt.
Eine zusätzliche lineare Suche wird in der Umgebung der bei der exponentiellen Gitter-Suche gefundenen Werte ausgeführt.
Dies ist die primäre Such-Methode in dem Unterstützungsvektorregressions-Training (SVR-Training) für die APEAQ.
Die Suche nach den besten Werten von C und γ hängt von zwei Eingangsparametern ab: ν und einem Fehlermaß. ν ist die obere Grenze für den Bruchteil von Fehlern (asymptotisch, die Anzahl von Stützvektoren), wobei gilt: 0 ≤ ν ≤ 1. In anderen Worten, eine obere Grenze für einen Bruchteil von Fehlern und eine untere Grenze für einen Bruchteil von Stützvektoren wird üblicherweise mit ν bezeichnet. Beste Ergebnisse wurden unter Verwendung von ν = 0.15 erhalten. Das Fehlermaß definiert die Genauigkeit der SVM oder, in anderen Worten, die Qualität von C und γ. Es gibt viele Fehlermaße, die verwendet werden können, wie z. B. eine Korrelation, die Wurzel aus dem mittleren quadratischen Fehler, ein mittlerer Unterschied, ein maximaler Fehler, ein Prozentsatz von Ausreißern, oder ein mittlerer Fehler-Punktwert (AES).
Der mittlere Fehler-Punktwert AES (auch als ”average error score” bezeichnet) wurde in der Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion eingeführt, um unterschiedliche Anforderungen für die Genauigkeit des ODG abhängig von der Genauigkeit des SDG zu implementieren. Die Genauigkeit eines SDG wird durch das ihr zugeordnete Vertrauensintervall bestimmt. Ein 95%-Vertrauensintervall wird mit der folgenden Formel definiert, wobei t_N, p die Student’sche t-Verteilung ist, wobei S die Varianz ist, und wobei N die Beispiel-Größe ist:
Die Basis ist die Formel für die Wurzel aus dem mittleren quadratischen Fehler, zu welcher das Vertrauensintervall IP_i hinzugefügt wird:
Der Wertebereich für AES hängt von dem Satz von Tests ab, basierend auf dem er bestimmt wird. Üblicherweise nehmen AES-Werte Werte zwischen 1.5 und 3.0 an. Je kleiner die AES-Werte, desto genauer sind die ODGs. AES darf nicht zwischen verschiedenen Sätzen von Tests verglichen werden.
Das Vertrauensintervall ist üblicherweise begrenzt (beispielsweise von der Größe her nach unten hin), so dass ein größerer (bzw. allzu großer) Einfluss von Tests, bei denen das (Vertrauens-)Intervall einen sehr kleinen Wert hat, vermieden wird. Es ist beispielsweise vernünftig, dass das minimale Intervall mit der Präzision, die für den ODG erreicht wird, korrespondiert. In der Empfehlung "ITU-R BS.1387-1" der internationalen Telekommunikationsunion wurde das minimale Intervall von 0,25 gewählt.
AES mit einem minimalen Intervall von 0.15 wird beispielsweise als das Fehlermaß bei dem Training der APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung verwendet.
Im Folgenden wird das Training der Unterstützungs-Vektor-Maschinen (im Folgenden auch als ”SVMs” bezeichnet) das oben erläutert wurde, anhand der 6 noch einmal kurz zusammengefasst.
6 zeigt eine schematische Darstellung eines Trainings-Prozesses und der dazu benötigen Voraussetzungen.
Bei dem Trainings-Prozess wird davon ausgegangen, dass eine Mehrzahl von Audio-Beispielen 610 vorhanden sind, wobei diese Audio-Beispiele 610 typischerweise jeweils ein Referenz-Audiosignal und ein gegenüber diesem Referenz-Audiosignal verändertes bzw. verschlechtertes Test-Audiosignal (oder sogar mehrere zugehörige Test-Audiosignale) umfassen. Basierend auf den Audio-Beispielen 610 wird in einem Schritt 620 ein subjektiver Hörtest ausgeführt, bei dem Testhörer beispielsweise Unterschiede zwischen einem Referenz-Audiosignal und einem diesem entsprechenden Test-Audiosignal bewerten. Somit werden subjektive Bewertungen erhalten, die einem Satz aus einem Referenz-Audiosignal und einem zugehörigen Test-Audiosignal zugeordnet sind. Die subjektiven Bewertungen werden auch als SDG bzw. SDGs bezeichnet und sind im Übrigen mit 622 bezeichnet. Der Erstellung der subjektiven Bewertungen kann Teil eines Trainings-Prozesses sein, kann aber, alternativ, auch vor dem eigentlichen Trainings-Prozess durchgeführt werden, so dass die subjektiven Bewertungen 622 als Eingangsgröße für den eigentlichen Trainings-Prozess vorliegen.
In einem Schritt 630 werden, beispielsweise unter Verwendung eines auf einer FFT-basierenden Wahrnehmungsmodells 300 oder unter Verwendung eines auf einer Filterbank basierenden Wahrnehmungsmodells 400 FFT-Wahrnehmungsmodell-Ausgangsgrößen bzw. Filterbank-Wahrnehmungsmodell-Ausgangsgrößen bestimmt, wie dies beispielsweise anhand der 2 beschrieben wurde.
Anschließend werden in einem Schritt 640 MOVs basierend auf den FFT-Wahrnehmungsmodell-Ausgangsgrößen bzw. Filterbank-Wahrnehmungsmodell-Ausgangsgrößen berechnet, die zu den Audiobeispielen 610 gehören. Zumindest einige der in dem Schritt 640 erhaltenen MOVs beschreiben dabei typischerweise einen Unterschied zwischen einem Referenzaudiosignal und einem zugehörigen Test-Audiosignal.
Anschließend erfolgt in einem Schritt 650 eine Suche nach den SVM-Trainings-Parametern C und γ. So wird beispielsweise ein erster Satz von SVM-Trainings-Parametern ausgewählt, und es wird basierend auf einer (typischerweise echten) Teilmenge der Audiobeispiele 610 ein ”kleines” Training von SVM-Betriebs-Parametern (z. B. Stützvektoren und Gewichtungskoeffizienten) durchgeführt. Anschließend wird basierend auf einer anderen (typischerweise echten) Teilmenge der Audiobeispiele 610 überprüft, ob das Training unter Verwendung des vorher gewählten Satzes von SVM-Trainings-Parametern C, γ zu SVM-Betriebs-Parametern geführt hat, die ihrerseits zu zuverlässigen ODGs führen, wenn die andere Teilmenge der Audiobeispiele unter Verwendung der SVM (mit den eben erhaltenen SVM-Betriebs-Parametern) klassifiziert wird. Somit wird überprüft, welcher Satz von SVM-Trainings-Parametern C, γ zu dem besten Lernerfolg führt, wenn nur eine echte Teilmenge der Audiobeispiele 610 als Trainings-Audiobeispiele verwendet werden. Der sich hierbei ergebende (beste) Satz von SVM-Trainings-Parametern C, γ wird dann für ein umfassenderes Training der SVM unter Verwendung beispielsweise aller Audiobeispiele 610, oder zumindest einer größeren Teilmenge von Audiobeispielen 610 als vorher, verwendet.
Das entsprechende Training der SVM mit dem ausgewählten Satz von SVM-Trainings-Parametern C, γ erfolgt in dem Schritt 660. Somit werden in dem Schritt 660 SVM-Betriebs-Parameter γ₁ bis y_N, coef₁ bis coef_N und ρ (sowie gegebenenfalls, aber nicht notwendigerweise, auch σ) erhalten, die das SVM-Modell definieren. Bei der Bewertung, welcher Satz von SVM-Trainings-Parametern zu dem besten bzw. zuverlässigsten ODG führt, wird ein Fehlermaß (wie oben beschrieben) verwendet, wobei hier verschiedene Fehlermaße eingesetzt werden können.
Im Folgenden werden einige Details im Hinblick auf die oben bereits erwähnte exponentielle Gitter-Suche erläutert, wobei die exponentielle Gittersuche beispielsweise zur Parametersuche verwendet wird.
8 zeigt eine Pseudo-Programmcode-Darstellung eines Algorithmus zur exponentiellen Gittersuche, wie er in Ausführungsbeispielen gemäß der Erfindung einsetzbar ist. In anderen Worten, die exponentielle Gittersuche kann beispielsweise gemäß dem Algorithmus 800, der in 8 gezeigt ist, durchgeführt werden.
Der Algorithmus 800 umfasst eine Initialisierung 810 einer Schrittweite (”Step”) sowie eine iterative Ausführung eines Teilalgorithmus 820, wobei der Teilalgorithmus 820 typischerweise mehrmals mit stufenweise verringerter Schrittweite ”Step” ausgeführt wird, solange die Schrittweite größer ist als eine minimale Schrittweite ”minimum_step”.
In dem Teilalgorithmus 820 wird zunächst die Variable ”exp_γ” in einem Schritt 830 auf einen Minimalwert ”minimum_exp_γ” für die Variable ”exp_γ” initialisiert. Ferner wird innerhalb des Teilalgorithmus 830 ein Teilalgorithmus 840 bevorzugt mehrmals mit unterschiedlichen, bevorzugt stufenweise größer werdenden, Werten der Variable ”exp_γ” ausgeführt, solange die Variable ”exp_γ” kleiner als ein Maximalwert ”maximum_exp_γ” ist. Ferner wird in dem Teilalgorithmus 820 in einem Schritt 850 die Schrittweite (”Stepp”) halbiert bzw. allgemein verringert.
In dem Teilalgorithmus 840 wird die Variable ”exp_C” zunächst in einem Schritt 860 auf einen Minimalwert ”minimum_exp_C” für die Variable ”exp_C” initialisiert. Zudem wird in dem Teilalgorithmus 840 ein Teilalgorithmus 870 bevorzugt mehrmals mit unterschiedlichen, bevorzugt stufenweise größer werdenden Werten der Variable exp_C ausgeführt. Zudem wird in dem Teilalgorithmus 840, und bevorzugt als Abschluss des Teilalgorithmus 840 bzw. nach der Ausführung des untergeordneten Teilalgorithmus 870, in einem Schritt 880 ein Wert der Variable ”exp_γ” um den aktuellen Wert der Schrittweite-Variable ”step” vergrößert, bzw. es wird allgemein der Wert der Schrittweite-Variable step zu dem Wert der Variable exp_γ hinzuaddiert.
In dem Teilalgorithmus 870 werden zunächst in einem Schritt 872 Werte der Variablen C und γ bestimmt, wobei gilt: C = 2^exp_C; und γ = 2^exp_γ
In einem Schritt 873 werden dann SVM-Parameter unter Verwendung der aktuellen Werte der Variablen C und γ erhalten, wobei hier beispielsweise ein Training der SVM verwendet wird, wie es hierin beschrieben ist.
In einem Schritt 874 wird die Qualität bzw. Genauigkeit der erhaltenen SVM-Parameter überprüft, indem beispielsweise eine SVM probeweise mit den aktuell erhaltenen SVM-Parametern parametrisiert und auf ein oder mehrere Testsignale angewendet wird, und indem überprüft wird, wie gut ODGs, die mit der probeweise entsprechend parametrisierten SVM basierend auf den Testsignalen erhalten werden, mit zu den Testsignalen gehörigen SDGs übereinstimmen.
Zudem wird die Zeit gemessen, die dafür (also zum Beispiel für das Erhalten der SVM-Parameter in dem Schritt 873, und gegebenenfalls auch für das Prüfen von deren Qualität) benötigt oder benötigt wurde (Schritt 875).
Zudem wird in einem Schritt 876 überprüft, ob die benötigte Zeit größer als ein Zeit-Schwellwert ”threshold” ist. Wird in dem Schritt 876, der gleichzeitig zu einem oder mehreren der Schritte 873, 874, 875 erfolgen kann, oder der anschließend an die Schritte 873, 874, 875 erfolgen kann, herausgefunden, dass die benötigte Zeit ”time” größer als der ZeitSchwellwert ”threshold” ist, so wird beispielsweise in dem Schritt 876 zu einer nächsten γ-Iteration gesprungen. Bei dem Springen zu der nächsten γ-Iteration kann beispielsweise die wiederholte Ausführung des Teilalgorithmus 870 abgebrochen werden, das heißt, es werden ansprechend darauf, dass die benötigte Zeit größer als der Zeit-Schwellwert ist, keine weiteren Werte für die Variable exp_C (bei dem aktuellen Wert der Variable exp_γ) mehr durchgeprüft, sondern es wird unmittelbar ein neuer Wert für die Variable exp_γ verwendet (sofern der Maximalwert maximum_exp_γ noch nicht erreicht ist). Andernfalls, also wenn die benötigte Zeit ”time” nicht größer als der Zeit-Schwellwert ist bzw. war, wird in einem Schritt 877 der Wert der Variable exp_C um den Wert der Schrittweite-Variable step vergrößert, bzw. es wird der Wert der Schrittweite-Variable step zu dem Wert der Variable exp_C hinzuaddiert.
Es sei darauf hingewiesen, dass gegebenenfalls unterschiedliche Schrittweite-Variablen für die stufenweise Veränderung der Variablen exp_γ und exp_C verwendet werden können.
Zusammenfassend ist somit festzuhalten, dass eine Gittersuche im Hinblick auf die Werte der Variablen exp_γ und exp_C durchgeführt wird, wobei beispielsweise die Werte der der Variablen exp_γ und exp_C linear (gemäß einer vorgegebenen Schrittweite) verändert werden, und wobei die Werte der Variablen γ und C sich folglich in exponentieller Weise ändern. Eine innere Schleife läuft dabei über die Werte der Variable C, und eine äußere Schleife über die Werte der Variable γ, so dass im Regelfall eine Serie von Werten der Variable C für ein Training der SVM verwendet wird, und so dass anschließend ein Wert der Variable γ verändert wird, woraufhin eine weitere Serie von Werten der Variable C für ein Training der SVM bei verändertem γ verwendet wird.
Dauert eine Bestimmung für ein Paar von SVM-Parametern γ und C zu lange (länger als der Zeit-Schwellwert), so wird die Überprüfung von weiteren Werten der Variable C übersprungen, und es wird unmittelbar ein neuer Wert der Variable γ gewählt.
Zusammenfassend ist ferner festzuhalten, dass ein wichtiger Schritt, der bei Ausführungsbeispielen gemäß der Erfindung optional zu der herkömmlichen exponentiellen Gittersuche hinzugefügt wird, in der Messung der Zeit, die benötigt wird, um die SVM-Parameter zu erhalten, besteht. Falls die benötigte Zeit über einen Schwellwert (bzw. Zeit-Schwellwert) hinausgeht, so gibt es einen Abbruch (”break”) in der inneren Schleife (zum Beispiel in der Schleife 870), und die Suche wird mit der nächsten Iteration von γ fortgesetzt. Der Schwellwert kann beispielsweise gleich der Zeit gewählt werden, die benötigt wurde, um den besten bisher gefundenen SVM-Parameter zu erhalten. Dies verbessert die Geschwindigkeit des Trainings-Prozesses in manchen Fällen signifikant.
Zusammenfassend ist festzuhalten, dass bei einem Ausführungsbeispiel der der Erfindung der Prozess des Auffindens von Parametern für eine SVM in eine Trainingsphase und eine Testphase aufgeteilt ist. Die Trainingsphase ist in eine Suche und eine abschließende Trainingsphase aufgeteilt.
Die Such-Phase besteht aus einer Kreuz-Validierung (oder umfasst eine Kreuz-Validierung). In der Such-Phase wird die Suche nach Best-Werten von C und γ durchgeführt. Diese Werte werden in der abschließenden Trainingsphase verwendet.
2.7 Vorteile und Besonderheiten beim Einsatz einer Stützvektormaschine in Zusammenhang mit der weiterentwickelten -Bewertung der wahrgenommenen Audioqualität
Im Folgenden werden besondere Synergien zwischen dem Stützvektor-Algorithmus auf der einen Seite und der weiterentwickelten Technologie zur Bewertung der wahrgenommenen Audioqualität (APEAQ) beschrieben. Insbesondere wird kurz dargelegt, warum die hierin beschriebene spezielle Implementierung der SVR einerseits und die APEAQ auf der anderen Seite einen kombinierten Vorteil ergeben.
Diesbezüglich wird u. a. auf die Veröffentlichung „Comparing Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers" von B. Schölkopf u. a. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences; im Internet verfügbar unter der Adresse: http://www.svms.org/comparison/Scholkopfetal1996.pdf) verwiesen. Aus der genannten Veröffentlichung ist ersichtlich, dass der Stützvektor-Algorithmus im Falle einer radialen Basisfunktion automatisch Mittelpunkte, Gewichte und Schwellwerte bestimmt, um eine obere Grenze des erwarteten Fehlers zu minimieren. Diese Eigenschaft ist von wesentlicher Bedeutung dafür, dass die SVR besonders gut in Verbindung mit der APEAQ einsetzbar ist, da ein Vertrauensintervall immer berücksichtigt wird wenn von den Ergebnissen eines subjektiven Hörtests die Rede ist. Maße für die Genauigkeit der objektiven Audioqualität umfassen beispielsweise den mittleren Fehler-Punktwert AES (auch als „average error score” bezeichnet) und eine Analyse von Ausreißern. Diese Maße berücksichtigen Vertrauensintervalle als obere Grenzen des erwarteten Fehlers.
Im übrigen wurde herausgefunden, dass ein Kern mit einer radialen Basisfunktion aufgrund der nichtlinearen Beziehung zwischen den MOVs und den SDGs passend ist.
In dem Artikel „Support Vector Machines Versus Artificial Neuronal Networks" (im Internet veröffentlicht unter der Internet-Adresse http://www.svms.org/anns.html) ist beschrieben, dass ein wesentlicher Vorteil von SVMs darin besteht, dass die Lösung zu einer SVM global und eindeutig ist, während künstliche neuronale Netzwerke unter dem Vorhandensein von mehreren lokalen Minima leiden können. Weitere Vorteile von SVMs bestehen gemäß diesem Artikel darin, dass SVMs eine einfache geometrische Interpretation haben und eine dünne bzw. ausgedünnte Lösung ergeben. Anders als bei künstlichen neuronalen Netzwerken hängt die rechnerische Komplexität von Unterstützungsvektormaschinen nicht (bzw. nicht wesentlich) von der Dimensionalität des Eingangsraums ab. Künstliche neuronale Netzwerke benützen eine empirische Risikominimierung, während SVMs eine strukturelle Risikominimierung benützen. Ein weiterer Grund dafür, dass SVMs künstlichen neuronalen Netzwerken in der Praxis oftmals leistungsmäßig überlegen sind, liegt darin, dass sich SVMs mit dem größten Problem, das bei neuronalen Netzwerken besteht, beschäftigen (bzw. dieses Problem nicht haben): SVMs sind weniger anfällig für eine Über-Anpassung („over-fitting”).
Gemäß einem Aspekt der vorliegenden Erfindung wurde im Übrigen bei dem Training der APEAQ-SVM, also der SVM im Einsatz in Verbindung mit der APEAQ, ein zusätzlicher Testsatz verwendet, um die Abhängigkeit der Verallgemeinerung von dem verwendeten Fehlermaß und von ν zu überprüfen. Dies führt dazu, dass die erhaltene SVM sogar noch weniger anfällig für eine Überanpassung („over-fitting”) ist.
Zusammenfassend ist also das Folgende festzuhalten:

1. Eine Begrenzung und Skalierung der MOVs durch eine Maximierung der Korrelation mit SDGs bringt die Eingangsgrößen der SVM in den optimalen Bereich;
2. Die SVM ist weniger anfällig für eine Überanpassung („over-fitting”) als ein neuronales Netzwerk, und subjektive Hörtests liefern niemals eine Grund-Wahrheit („ground truth”), sondern eine Abschätzung einer Qualität. Die Abschätzung kann sehr unterschiedlich sein, wenn der Test unter Verwendung anderer Hörer, unter Verwendung anderer Ausrüstung oder unter Verwendung eines anderen Ortes organisiert wird.
3. Die Verwendung eines schlechtesten Falls unter mehreren Durchlaufen der Kreuz-Validierung als das Maß für die Genauigkeit verringert eine Überanpassung in der SVM weiter.
4. Die Verwendung eines Test-Satzes, der unabhängig von dem Trainings-Satz ist, verringert eine Überanpassung in der SVM weiter.
5. Zur Verwendung einer mittleren Fehlerpunktzahl (AES, „average error score”) mit einem Intervall von 0,15 in dem Training verringert weiter eine Überanpassung in der SVM und ist hilfreich für alle Fehlermaße.
6. Die Verwendung einer radialen Basisfunktion mit ν = 0,15 verbessert Fehler-Maße, die Vertrauensintervalle berücksichtigen. ν bezieht sich hierbei nicht auf eine spezifische Kernfunktion. Vielmehr ist ν eine obere Grenze für den Bruchteil von Fehlern. Für Details diesbezüglich sei beispielsweise auf die Veröffentlichungen "New support vector algorithms with parametric insensitive/margin model" von Pei-Yi Hao (veröffentlicht in: Neural Networks, Volume 23, Issue 1, Januar 2010, Seiten 60–73) und "The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy" von Dazhou Zhu und anderen (veröffentlicht in: Analytica Chimica Acta, Volume 598, Issue 2, 29. August 2007, Seiten 227–234) verwiesen.
7. Eine SVM hat weniger Probleme mit lokalen Minima als ein neuronales Netzwerk.

Die Synergie der obigen Punkte ergibt besondere Vorteile der APEAQ mit der SVM im Vergleich zu der Veränderung eines neuronalen Netzwerks (NN). Allerdings ist es nicht erforderlich, dass Ausführungsbeispiele alle der oben genannten Aspekte berücksichtigen.
3. Weiteres Ausführungsbeispiel
Im Folgenden wird ein weiteres Ausführungsbeispiel der Erfindung beschrieben. Insbesondere wird auch ein mögliches Anmeldungsszenario des erfindungsgemäßen Konzepts beschrieben.
Ausführungsbeispiele gemäß der Erfindung können in Verbindung mit einer automatischen Abstimmung eines Audiocodierers, wie z. B. eines AAC-Audiocodierers, verwendet werden. Unter einem AAC-Audiocodierer wird hierbei ein Audiocodierer verstanden, der gemäß dem „Advanced Audio Coding”-Standard („Fortschrittliche Audiocodierung”-Standard) arbeitet.
Beispielsweise kann das erfindungsgemäße Konzept in Verbindung mit der automatischen Abstimmung eines sogenannten NERO-AAC-Codierers verwendet werden. Beispielsweise kann ein Ausführungsbeispiel der Erfindung in Verbindung mit dem sogenannten „NERO-Digital-Audio-Autotun” („Nero-Digital-Audio-automatischer-Abstimmer”, auch kurz als ”NDAudioAutotune” bezeichnet) eingesetzt werden. Der Nero-Digital-Audio-automatischer-Abstimmer besteht aus einem Frontende und der oben beschriebenen APEAQ. Die eingesetzte APEAQ gemäß Ausführungsbeispielen der vorliegenden Erfindung kann beispielsweise viele Verbesserungen gegenüber der Version haben, die in der oben genannten Master-Arbeit von Goran Markovic beschrieben ist. Einige dieser Verbesserungen gemäß verschiedenen Aspekten der Erfindung werden im Folgenden beschrieben.
Im Folgenden wird zunächst das durch Ausführungsbeispiele gemäß der vorliegenden Erfindung gelöste technische Problem kurz erläutert. Ein integraler Teil der PEAQ und damit auch der APEAQ ist ein Wahrnehmungs-Modell, das eine menschliche Beurteilung modelliert. Das Wahrnehmungs-Modell, das bei der herkömmlichen PEAQ verwendet wird, ist ein neuronales Netzwerk (NN), wobei ein neuronales Netzwerk das Verhalten von biologischen neuronalen Netzwerken simuliert. Ein Prozess des Auffindens von Parametern für ein Wahrnehmungs-Modell, das eine bestmögliche Genauigkeit bzw. zumindest eine ausreichend gute Genauigkeit ergibt, wird als Training bezeichnet. Allerdings wurde herausgefunden, dass Trainingsprozesse für ein neuronales Netzwerk sehr langsam sind, und dass es schwierig ist, zu bestimmen, ob die gefundenen Parameter gut genug sind, da die erreichte Genauigkeit sehr stark von den gewählten Start-Zufalls-Werten abhängig ist. Eine Überprüfung von einzelnen Modifikationen in der PEAQ ist unpraktisch bis zu dem Punkt, dass sie unmöglich ist. Außerdem benötigt es eine erhebliche Zeitdauer, Ergebnisse von neuen Hörtests zu verwenden, um die Genauigkeit zu verbessern.
Gemäß einem Aspekt der vorliegenden Erfindung wird im Rahmen der APEAQ eine SVR, die eine Version der SVM (auch als „Support Vector Machine” oder „SVM” bezeichnet) anstelle eines neuronalen Netzwerks als ein Wahrnehmungs-Modell verwendet. Es wurde herausgefunden, dass dies den Vorteil mit sich bringt, dass das Training der APEAQ beschleunigt wird, da aufgrund der Natur der SVM deren Training sehr schnell ist. Ferner wurde herausgefunden, dass zusätzlich das Training der SVM eine konsistente Genauigkeit mit sehr geringer Abhängigkeit von Anfangs-Zufallsvariablen mit sich bringt.
Somit geben Ausführungsbeispiele der vorliegenden Erfindung die Möglichkeit, jede individuelle Änderung an anderen Teilen der APEAQ zu überprüfen.
Bei Ausführungsbeispielen der Erfindung ermöglicht die Verwendung der SVM bzw. die sich daraus ergebende Beschleunigung des Trainingsprozesses, die APEAQ schnell an Ergebnisse von neuen Hör-Tests, die relevanter für den tatsächlichen Audiocodierer sind, anzupassen.
Abgesehen von einem schnelleren Training wird durch Ausführungsbeispiele gemäß der Erfindung auch eine höhere Genauigkeit im Vergleich zu Konzepten mit neuronalen Netzwerken erzielt. Dies stellt eine Haupt-Verbesserung dar.
Im übrigen kann die APEAQ optional durch die folgenden Maßnahmen noch weiter verbessert werden (wobei die im Folgenden kurz erläuterten Verbesserungen bei manchen Ausführungsbeispielen auch in Verbindung mit der Verwendung eines neuronalen Netzwerks eingesetzt werden können):

• Berechnung von MOVs auf der Basis von sechs Sekunden langen Segmenten und Verwenden des schlechtesten ODG unter einer Mehrzahl von Segmenten anstelle des Mittelwerts über die ganze Eingangsinformation; und
• Verwendung einer Filterbank, die Eingangsinformation nutzt, wobei die Frequenzantwort des äußeren Ohrs und des Mittelohrs über eine FFT angewendet wird, und Verwendung einer Gleichwert-Unterdrückung am Eingang für beide Modelle (FFT und Filterbank).

Mit anderen Worten die MOVs 232 und 252 können basierend auf sechs Sekunden langen Segmenten berechnet werden, und für jedes sechs Sekunden lange Segment kann beispielsweise ein zugehöriger ODG bestimmt werden. Anschließend kann ein schlechtester ODG aus der Mehrzahl von ODGs für eine Sequenz von derartigen Segmenten als ODG für ein gesamtes getestetes Signal ausgegeben werden. Die Segmente sind bevorzugt, aber nicht notwendigerweise, überlappend. Die Länge der Segmente kann sich natürlich von sechs Sekunden unterscheiden, wobei die Länge der Segmente bevorzugt in dem Bereich zwischen zwei Sekunden und zwanzig Sekunden liegen sollte. Diese Art der Berechnung des ODG kann im übrigen auch verwendet werden, falls anstelle der SVM 260 ein neuronales Netzwerk zum Einsatz kommt.
Zusammenfassend ist im übrigen zu sagen, dass Verbesserungen gemäß den Aspekten der vorliegenden Erfindung beispielsweise zum Test von Audiocodierern eingesetzt werden können. Beispielsweise wurden Aspekte der vorliegenden Erfindung bereits in der sogenannten „NDAudioAutotune”-Software eingesetzt.
Weiterhin ist festzuhalten, dass die APEAQ ganz allgemein für die Entwicklung von Audiocodierern und für die Implementierung und/oder Portierung von Audiocodierern von Interesse ist.
4. Weitere Ausführungsbeispiele und Verbesserungen
Im Folgenden sind weitere Aspekte gemäß der vorliegenden Erfindung beschrieben.
4.1. Anwendungsgebiete
Ausführungsbeispiele gemäß der vorliegenden Erfindung sind in Verbindung mit Software-Werkzeugen einsetzbar, die eine Audioqualität von Audiocodierern bewerten. Beispielsweise ist die Software „NDAudioAutotune” ein Werkzeug für die automatische Abstimmung von Audiocodierern, wie beispielsweise dem NERO AAC-Codierer. Die Software besteht aus einer APEAQ und einem Frontende. Das Frontende ist bei einigen Ausführungsbeispielen nur für die interne Abstimmung eines bestimmten Audiocodierers, wie beispielsweise des NERO AAC-Codierers, verwendbar. Allerdings ist es natürlich auch möglich, das Frontende so zu gestalten, dass es für die Abstimmung verschiedener Audiocodierer einsetzbar ist. „APEAQ” ist ein Werkzeug, das auf der PEAQ basiert und gegenüber der PEAQ viele Verbesserungen aufweist, von denen einige in der oben genannten Masterarbeit von Goran Markovic beschrieben sind.
Die hierin beschriebene Version der APEAQ weist allerdings eine oder mehrere zusätzliche Verbesserungen auf, die in der oben genannten Masterarbeit noch nicht beschrieben sind, und die im Folgenden erläutert werden.
„PEAQ” (und somit auch „APEAQ”) ist ein Werkzeug zur Messung der Audioqualität. „PEAQ” ist ein Standard, der in der Empfehlung „ITU-R BS1387" der internationalen Telekommunikations-Union beschrieben ist. Es gibt zumindest eine kommerzielle Version, die käuflich erwerbbar ist: „Opera” von dem Unternehmen OPTICOM.
Details im Hinblick auf die Software ”Opera” finden sich beispielsweise unter der folgenden Internet-Adresse: http://www.opticom.de/technology/audio-quality-testing.html.
Allerdings wurde herausgefunden, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung, die eine APEAQ implementieren, etwas sechs mal schneller sind als die Software ”Opera”. Weiterhin wurde festgestellt, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung, die APEAQ implementieren, eine viel höhere Genauigkeit aufweisen als die Vergleichs-Software ”Opera”, und zwar besonders für Codierer, die neue Technologien wie SBR (Spektralband-Replikation), PS (Parametrisches Stereo), PNS (Wahrnehmungs-Rausch-Ersetzung) und IS verwenden.
Die APEAQ gemäß Ausführungsbeispielen der Erfindung ist interessant für alle Anwendungen bei der Entwicklung von Audiocodierern oder bei der Implementierung und/oder Portierung eines Audiocodierers.
Im Folgenden werden einige Anwendungen der APEAQ, gemäß den Ausführungsbeispielen der vorliegenden Erfindung, kurz aufgezählt:

• Bewertung einer Implementierung: Beim Kauf von Audioverarbeitungsgeräten (z. B. eines Audiocodierers/Audiodecodierers bzw. ”CODEC”) ist es wünschenswert, dass Kunden verschiedene Produkte ausprobieren können, um ein geeignetes Gerät bzw. ein Gerät, das ihren Anforderungen gerecht wird, kaufen zu können. Dies benötigt ein großes Maß an Präzision, insbesondere für die Rang-Beurteilung von unterschiedlichen Produkten.
• Abschließende Bewertung der funktionellen Qualität: Bevor ein bestimmtes Ausrüstungsstück, eine elektrische Schaltung oder das ganze Gerät in Benutzung gestellt wird, verringert eine kurze Prüfung die Möglichkeit der Fehlfunktion. Bei diesem abschließenden Test ist die Geschwindigkeit wichtiger als die Präzision.
• Online-Überwachung: Während der Rundfunkausstrahlung eines Radio- oder Fernseh-Audiosignals ist es möglich, dessen Qualität zu beobachten. Dies erfordert, in Realzeit zu arbeiten, und benötigt daher einen ausreichend schnellen Algorithmus.
• Ausrüstungs- und Verbindungsstatus: Um den funktionsbereiten Zustand von Audioverbindungen oder Ausrüstung zu garantieren, ist von Zeit zu Zeit ein gründlicher Test von deren Qualität erforderlich bzw. empfehlenswert. Anders als bei der Online-Überwachung ist eine Realzeitbeobachtung nicht erforderlich. Eine große Präzision und ein ausführlicher Test wird benötigt.
• Codierer/Decodierer-Identifizierung (”CODEC-Identifikation”): Um zu identifizieren, welcher Codierer/Decodierer für die Kompression eines getesteten Signals verwendet wird, sollte ein Messsystem Muster von Charakteristika von Codierern/Decodierern (”CODECs”) vergleichen. Eine Datenbank mit Mustern von Charakteristika bekannter CODECs wird benötigt. Die relevante Frage ist die Machbarkeit dieser Anwendung, da es kein Maß für die Bestimmung von ähnlichen Mustern gibt.
• Entwicklung von Codierern/Decodierern (”CODECs”): Eine objektive Bewertung kann bei der Implementierung eines Codierers oder eines Decodierers auf digitalen Signalprozessoren angewendet werden. Die Bewertung des Audiosignals, das durch den implementierten Codierer komprimiert ist bzw. komprimiert wird, darf (bzw. sollte) nicht erheblich schlechter sein als die des Referenz-Codierers auf einer PC-Plattform. Die Bewertung kann auch bei der Entwicklung eines neuen Codierers/Decodierers (CODEC) verwendet werden – durch Auswahl von Parametern, die einen Einfluss auf die Qualität haben, oder bei der Überprüfung auf mögliche Fehler, die während der Implementierung des Algorithmus auftreten können. Diese Anwendung benötigt eine sehr hohe Präzision bei dem Messprozess.
• Netzwerk- und Systemplanung: Computernetzwerke werden auch für Musikübertragung, Sprachübertragung und Videoübertragung in Realzeit genutzt. Die Qualität des Netzwerks hat einen Einfluss auf die Übertragung solcher Daten. Für die Netzwerkplanung kann neben traditionellen Methoden auch eine Wahrnehmungs-Bewertung genutzt werden.
• Hilfe für subjektive Tests: Die Auswahl des Audiomaterials für subjektive Tests ist von sehr großer Bedeutung für deren Relevanz. Kontinuierliches und umfangreiches Hören kann aufgrund der Ermüdung der Hörer ungenaue Ergebnisse bringen. Eine objektive Bewertung kann für die Auswahl solcher Beispiele genutzt werden, was zur Erreichung von genaueren Ergebnissen des subjektiven Tests beitragen würde.

4.2. Verbesserungen
Ausführungsbeispiele gemäß der vorliegenden Erfindung schaffen verschiedene Verbesserungen der weiterentwickelten APEAQ, wie sie in der oben genannten Masterarbeit von Goran Markovic beschrieben ist.
In anderen Worten, Ausführungsbeispiele gemäß der Erfindung verbessern die APEAQ gemäß der oben bezeichneten Masterarbeit von Goran Markovic unter Verwendung der folgenden Methoden bzw. Konzepte (wobei die Verbesserungen einzeln oder in beliebiger Kombination eingesetzt werden können):

1. Verwendung einer Nu-SVR mit einer Radial-Basis-Kern-Funktion anstelle eines neuronalen Netzwerks;
2. Berechnen von MOVs auf der Basis von sechs Sekunden langen Segmenten und Verwendung eines schlechtesten ODG unter einer Mehrzahl von Segmenten anstelle eines Mittelwerts über die gesamte Eingangsinformation;
3. Die Filterbank verwendet eine Eingangsinformation, wobei die Frequenzantwort des äußeren Ohrs und des Mittelohrs über eine schnelle Fourier-Transformation angewendet wird;
4. Gleichwert-Zurückweisung wird auf die Eingangsinformation für beide Modelle (schnelle Fourier-Transformation und Filterbank) angewendet (zum Beispiel auf die Modelle 300, 400);
5. Geschwindigkeitsverbesserungen:
a) Verwendung der schnellen Fourier-Transformation für die Autokorrelation in EHS (wobei dies ein Standard-Weg ist, um die Autokorrelation zu beschleunigen und für EHS in der Literatur vorgeschlagen wurde);
b) Die Filterbank wird für einige Bänder über rekursive Filter berechnet und für einige Bänder unter Verwendung einer Faltung mit einer Impulsantwort (wobei beide Verfahren bereits in der Literatur vorgestellt wurden). Das rekursive Filter, das für die Optimierung verwendet wird, ist in Abschnitt 3.5.2 der Dissertation "Perceptual Audio Quality Assessment using a Non-Linear Filter Bank" von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) beschrieben.

4.3. Stützvektor-Regression (SVR)
Im Folgenden wird das Konzept der SVR, das in Ausführungsbeispielen gemäß der Erfindung zum Einsatz kommt, noch einmal kurz erläutert.
SVR ist eine Version einer SVM. Die Funktion einer SVM ist beispielsweise in Wikipedia erklärt (siehe die Internetadresse http://en.wikipedia.org/wiki/support_vector_machine).
Die SVR wurde zum ersten Mal in dem Artikel „Support Vector Regression Machines" von H. Drucker u. a. beschrieben (verfügbar, zum Beispiel, unter der Internetadresse "http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf".
Ein Vorteil gegenüber neuronalen Netzen besteht darin, dass der Trainingsprozess viel schneller ist und eine viel konsistentere Qualität der Ergebnisse in aufeinanderfolgenden Durchläufen erzielt.
Klassifizierung und eine SVM wurden im Übrigen beispielsweise bereits für die Verbesserung der Qualität bei der Übertragung von Sprache über das Internet (auch als „voice over IP” bzw. „VoIP” bezeichnet) verwendet. Für Details diesbezüglich wird beispielsweise auf die Veröffentlichung „The design of VoIP systems with high preceptual conversational quality" von B. Wah und B. Sat (veröffentlich im Journal of Multimedia, Band. 4, Nr. 2, April 2009) verwiesen.
Eine Klassifizierung und eine SVM wurden auch für die Beurteilung von Präferenzen im Hinblick auf Motorgeräusche verwendet. Für Details diesbezüglich wird auf die Veröffentlichung „Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs" von T. Coen u. a. verwiesen.
Im Übrigen wird auch noch auf die Veröffentlichung "Towards a Model of Perceived Quality of Blind Audio Source Separation" von B. Fox u. a. (veröffentlicht auf der 2007 IEEE International Conference on Multimedia and Expo) verwiesen, wobei hier allerdings ein anderer Typ der Regression verwendet wird und nicht eine SVR.
4.4. Verwendung des schlechtesten Sechs-Sekunden-Segments
Die ursprüngliche PEAQ berechnet die MOVs aus der gesamten Eingangsinformation und mittelt deren Werte über die gesamte Dauer der Eingangsinformationen.
Mit den hier vorgeschlagenen Modifikationen gemäß einem Aspekt der Erfindung werden die MOVs alle 0,07 Sekunden auf überlappenden Sechs-Sekunden-Segmenten berechnet. Für jedes Segment wird ein ODG berechnet, und der schlechteste ODG wird als das endgültige Maß der Qualität verwendet.
Es wurde herausgefunden, dass diese Vorgehensweise das Nutzerverhalten in Hörtests simuliert, wo der Nutzer bzw. Hörer sich auf Segmente mit den meisten Artefakten konzentriert.
Eine entsprechende neuartige Vorgehensweise kann in Verbindung mit Ausführungsbeispielen gemäß der Erfindung eingesetzt werden, kann aber auch in Verbindung mit herkömmlichen Vorrichtungen zur PEAQ eingesetzt werden.
4.5. Ohr-Frequenzantwort über FFT in dem Filterbank-Modell
Im Folgenden wird eine weitere mögliche Verbesserung der herkömmlichen PEAQ, der in der Master-Arbeit von Goran Markovic beschriebenen APEAQ und auch der erfindungsgemäßen nochmals verbesserten PEAQ beschrieben.
Diese Veränderung ist spezifisch für die PEAQ und damit auch für die APEAQ. Zwei Ohrmodelle (bzw. Gehörmodelle) in der PEAQ verwenden eine separate Verarbeitung, um eine Ohr-Frequenzantwort zu modellieren. Jedes dieser Modelle transformiert Eingangssignale von der Zeit in den Frequenzbereich und modelliert anschließend die Frequenzantwort in dem Frequenzbereich.
Gemäß einem Aspekt der Erfindung besteht eine Modifikation darin, dass die Frequenzantwort in dem FFT Modell modelliert wird, und dass dann eine inverse schnelle Fourier-Transformation (inverse FFT) verwendet wird, um die Eingangsinformation für die Filterbank zu erzeugen. Es wurde herausgefunden, dass diese Vorgehensweise eine präzisere Modellierung erzeugt, da die schnelle Fourier-Transformation eine viel höhere Frequenzauflösung hat als das Filterbank-Modell.
Zusammenfassend ist festzuhalten, dass diese neuartige Vorgehensweise sowohl in Verbindung mit herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden kann.
4.6. Gleichanteil-Zurückweisung am Eingang für beide Modelle (FFT und Filterbank)
Im Folgenden werden weitere optionale Verbesserungen beschrieben, die sowohl im Zusammenhang mit herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden können.
Eine Gleichanteils-Zurückweisung bzw. -unterdrückung wurde ursprünglich in der PEAQ über ein Filter mit unendlicher Impulsantwort (IIR-Filter) nur auf der Eingangsinformation der Filterbank durchgeführt.
Bei Ausführungsbeispielen gemäß diesem Aspekt der Erfindung wurde dieser Block (also beispielsweise die Gleichanteil-Unterdrückung) zu dem Anfang verschoben und auf die Eingangsinformation für das FFT-Modell angewendet. Da die Eingangsinformation der FFT in den Zeitbereich zurücktransformiert wird und in der Filterbank verwendet wird, hat die Gleichanteil-Unterdrückung somit einen Einfluss auf die Filterbank.
In der ursprünglichen PEAQ wurde die Gleichanteil-Unterdrückung implizit in dem FFT Modell gemacht, und zwar durch die Gruppierung in die Wahrnehmungsbänder. Die FFT hat bei niedrigen Frequenzen eine niedrige Auflösung, und die Verwendung einer Gleichanteil-Unterdrückung durch ein Filter mit unendlicher Impulsantwort verbessert dies.
Die beschriebene Lösung gemäß einem Aspekt der Erfindung kann sowohl in Verbindung mit einer herkömmlichen PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden.
4.7. Verwendung der FFT für die Autokorrelation bei der Bestimmung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur
Es wurde erkannt, dass die Verwendung der FFT zur Autokorrelation ein üblicher Weg der Optimierung ist, der seit der Erfindung der FFT eingesetzt wird.
Die Veröffentlichung „Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audioquality" von P. Kabal (veröffentlicht durch das Telecommunications und Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University) schlägt die Verwendung dieser Optimierung für die Berechnung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur vor.
Insofern ist festzuhalten, dass die Autokorrelation bei der Bestimmung der harmonischen Struktur des Fehlers bzw. der harmonischen Fehlerstruktur bei Ausführungsbeispielen gemäß der Erfindung zum Einsatz kommen kann.
4.8. Kombination von Regression und Impuls-Faltung in einer Filterbank
Im Folgenden wird eine Kombination von Regression und Impuls-Faltung in einer Filterbank gemäß einem Aspekt der vorliegenden Erfindung beschrieben. Die Kombination von Regression und Impuls-Faltung in einer Filterbank kann sowohl in herkömmlichen Konzepten zur PEAQ als auch in Ausführungsbeispielen gemäß der vorliegenden Erfindung zum Einsatz kommen.
Bei der Entwicklung der PEAQ wurden Filter mit endlicher Impulsantwort (FIR-Filter) entwickelt, die rekursive Algorithmen verwenden.
Für Details diesbezüglich wird beispielsweise auf die Dissertation „Perceptual Audio Quality Assessment Using a non-linear Filerbank" von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) verwiesen.
In der Empfehlung „ITU-R BS 1386.1" der Internationalen Telekommunikations-Union ist die Impulsantwort der Filter gegeben, was darauf hinweist, eine Faltung für die Filterberechnung zu verwenden. Es gibt insgesamt 40 Filter bzw. Bänder, und diese sind unabhängig voneinander. Ein rekursiver Algorithmus benötigt dieselbe Zeitdauer für jedes Band. Die Faltungsgeschwindigkeit hängt von der Anzahl von Werten in den Impulsantworten ab, die nicht gleich Null sind. Durch die Verwendung der Faltung für Bänder mit kurzen Impulsantworten und durch die Verwendung einer Rekursion für den Rest konnte eine Verbesserung der Geschwindigkeit erreicht werden.
Zusammenfassend ist somit festzuhalten, dass diese Verbesserung bei der Berechnung der Filterbank gemäß einem Aspekt der Erfindung sowohl bei herkömmlichen Konzepten zur PEAQ als auch in Verbindung mit Ausführungsbeispielen gemäß der vorliegenden Erfindung eingesetzt werden kann.
5. Weiteres Ausführungsbeispiel
Im Folgenden wird noch ein weiteres Ausführungsbeispiel gemäß der vorliegenden Erfindung kurz beschrieben.
Zunächst wird auf das zugrunde liegende technische Problem kurz eingegangen. Das Werkzeug „NDAudioAutotune” ist ein Nero-Werkzeug zur automatischen Suche nach optimalen Parameterwerten für einen Nero-AAC Codierer, um dessen Qualität zu verbessern. Das genannte Werkzeug besteht aus APEAQ und einem Frontende. APEAQ ist eine modifizierte Implementierung von PEAQ, welches ein standardisiertes Maß der objektiven Audioqualität ist (entsprechend der Empfehlung „ITU-R BS.1387-Empfehlung für ein Verfahren für objektive Messungen der wahrgenommenen Audioqualität").
APEAQ erzeugt Bewertungen, die einen Pegel einer hörbaren Verschlechterung darstellen und Bewertungen von subjektiven Hörtests, die durch Menschen durchgeführt wurden, entsprechen. Die Korrelation zwischen APEAQ-Bewertungen und Bewertungen von subjektiven Tests ist ein Maß für dessen Genauigkeit.
Ein Wahrnehmungsmodell, das eine menschliche Beurteilung modelliert, ist ein integraler Teil von PEAQ (und folglich auch von APEAQ). Es bildet Werte von internen APEAQ-Variablen (die als Modellausgangsvariablen bzw. ”MOVs” bezeichnet werden) auf die abschließende Bewertung ab. Die Abbildung wird durch Parameter des Wahrnehmungs-Modells bestimmt. Der Prozess, Parameter für ein kognitives Modell zu finden, die die beste mögliche Genauigkeit ergeben, wird als Training bezeichnet. Das Training eines Wahrnehmungs-Modells beginnt mit der Wahl von Zufalls-Start-Parametern. Jede Modifikation an einem anderen Teil von APEAQ erzeugt Unterschiede in den Modell-Ausgangsvariablen-Werten und benötigt ein neues Training des Wahrnehmungs-Modells.
Das Wahrnehmungs-Modell, das bei PEAQ verwendet wird, ist ein neuronales Netzwerk (NN). Trainingsprozesse für ein neuronales Netzwerk sind sehr langsam, und es ist zusätzlich schwierig, zu bestimmen, ob aufgefundene Parameter gut genug sind, da die erreichte Genauigkeit sehr stark abhängig von den gewählten Start-Zufalls-Werten ist. Das machte es unmöglich, einzelne Veränderungen am anderen Teil von APEAQ individuell zu prüfen. Weitere Informationen zu PEAQ finden sich beispielsweise unter der folgenden Internetadresse: http://en.wikipedia.org/wiki/PEAQ.
Weitere Informationen über neuronale Netzwerke finden sich beispielsweise unter der folgenden Internetadresse: http://en.wikipedia.org/wiki/Neural_network.
Insgesamt ist festzuhalten, dass herkömmlicherweise andere Wahrnehmungs-Modelle, wie beispielsweise neuronale Netzwerke, verwendet wurden, aber keine SVM.
Im Hinblick auf den Stand der Technik ist somit festzuhalten, dass das Training der bisher verwendeten Wahrnehmungs-Modelle langsam ist und keine ausreichend gute Genauigkeit erreicht. Es ist unpraktikabel, bis zu dem Punkt, dass es unmöglich ist, einzelnen Modifikationen bei PEAQ zu überprüfen.
Im Übrigen benötigt es ein erhebliches Maß an Zeit, um Ergebnisse von neuen Hör-Tests zu verwenden, um die Genauigkeit zu verbessern.
Im Folgenden wird erläutert, wie einige Ausführungsbeispiele gemäß der Erfindung die oben genannten Probleme lösen und welche Vorteile die erfindungsgemäßen Lösungen bieten.
Gemäß einem Aspekt der Erfindung wird eine SVR, die eine Version einer SVM ist, anstelle von neuronalen Netzwerken als ein Wahrnehmungs-Modell verwendet.
Dies bringt den Vorteil, dass ein schnelleres Training von APEAQ erreicht werden kann, da aufgrund der Natur der SVM deren Training sehr schnell ist. Zusätzlich erzeugt das Training der SVM eine konsistente Genauigkeit mit sehr geringer Abhängigkeit von Start-Zufalls-Werten.
Daher bietet die vorgeschlagene Lösung die Möglichkeit, jede einzelne Veränderung im anderen Teil von APEAQ zu überprüfen.
Die vorgeschlagene Lösung kann auch benutzt werden, um APEAQ schnell an Ergebnisse von neuen Hörtests, die relevanter für die tatsächlichen Audiocodierer sind (als bisher verwendete Hörtests), anzupassen.
Neben einem schnelleren Training wird im Vergleich zu neuronalen Netzen auch eine höhere Genauigkeit erreicht.
Weitere Informationen zum Thema SVM finden sich im Übrigen unter folgender Internet-Adresse: http://en.wikipedia.org/wiki/PEAQ.
SVR wurde im Übrigen 1996 in der bereits oben erwähnten Veröffentlichung „Support Vector Regression Maschines" von H. Drucker und anderen vorgeschlagen.
Zusammenfassend ist somit festzuhalten, dass es ein Kerngedanke von Ausführungsbeispielen gemäß der Erfindung ist, eine SVM zur Modellierung der Wahrnehmung in objektiven Messungen der Audioqualität zu verwenden. Ferner ist es ein Kerngedanke von Ausführungsbeispielen der Erfindung, ein schnelles Training der SVM zu verwenden, um einzelne Veränderungen zu überprüfen, und um die SVM an neue Hörtestergebnisse anzupassen.
Im Folgenden werden einige Details im Hinblick auf Ausführungsbeispiele und Implementierungsbeispiele gegeben. So zeigt die 7 zu Vergleichszwecken die Struktur eines neuronalen Netzwerks, das in PEAQ und APEAQ herkömmlicherweise eingesetzt wird.
5 zeigt die Struktur einer SVM, die in Verbindung mit APEAQ (bzw. in einem Ausführungsbeispiel gemäß der vorliegenden Erfindung) eingesetzt wird.
Ein modifiziertes und weiterentwickeltes Modell von PEAQ wird bei APEAQ und bei Ausführungsbeispielen der Erfindung verwendet, wie es in der Master-Arbeit „Analysis of Methods for Objective Evaluation of Quality of Audiosignals and Application in Implementation of an Encoder on a Class of Digital Signal Processors" von Goran Markovic beschrieben ist.
APEAQ erzeugt beispielsweise fünf Modell-Ausgangs-Variablen (MOVs):

1. RmsModDiff;
2. RmsNoiseLoud;
3. RmsMissingComponents;
4. SNMR; und
5. EHS.

Diese fünf Modell-Ausgangs-Variablen werden als Vektor x in Eingangsgrößen für die Kern-Funktion gemäß 5 bezeichnet. Ein zweiter Parameter für die Kern-Funktion ist ein Stützvektor y_i. coef_i sind Gewichtungskoeffizienten und ρ ist ein Offset-Wert. Stützvektoren, Koeffizienten und Offset-Werte werden während eines Trainings gefunden. Σ ist eine Summenfunktion. Übliche Kerne bzw. Kern-Funktionen sind lineare, polynomiale und radiale Basisfunktionen und ein hyperbolischer Tangens. In APEAQ haben radiale Basisfunktionen die besten Ergebnisse geliefert.
Im Übrigen sei darauf hingewiesen, dass das SVM-Modell bei manchen Ausführungsbeispielen aus Stützvektoren, Koeffizienten und einem Offset-Wert („Bias”) besteht.
6 zeigt im Übrigen einen Trainingsprozess und die dafür erforderlichen Vorbedingungen. Details diesbezüglich wurden bereits oben beschrieben.
Zusammenfassend ist somit festzuhalten, dass es ein wesentlicher Aspekt von Ausführungsbeispielen gemäß der vorliegenden Erfindung ist, dass eine SVM bei der PEAQ verwendet wird.
Weiter ist festzuhalten, dass das Konzept gemäß der vorliegenden Erfindung in Verbindung mit APEAQ verwendet werden kann, um einen AAC-Codierer zu verbessern und zu testen. Ausführungsbeispiele gemäß der Erfindung können damit in allen Produkten eingesetzt werden, in denen ein AAC-Codierer verwendet wird. In anderen Worten, APEAQ gemäß der vorliegenden Erfindung ist allgemein bei der Entwicklung von Audio-Codierern und bei der Implementierung bzw. Portierung von Audio-Codierern einsetzbar.
6. Weitere Anmerkungen
Im Übrigen ist festzuhalten, dass Ausführungsbeispiele gemäß der vorliegenden Erfindung deutlich über das hinausgehen, was herkömmlicherweise gemacht wurde.
So sind bei Ausführungsbeispielen gemäß der Erfindung, bei denen APEAQ durch den Einsatz einer SVM verbessert wird, die Eingangsinformationen der SVR Parameter, die auf Folgendem basieren:

• der Differenz zwischen einer internen Darstellung der Audiosignale,
• Maskierungsschwellwerten, die auf dem Differenz-Signal basieren; und
• der Harmonischen-Struktur-Unterschied bzw. der harmonischen Fehlerstruktur.

Im Gegensatz dazu sind herkömmlicherweise Eingangsinformationen der SVM Parameter, die auf der Lautheit (SPL mit unterschiedlicher Gewichtung) oder der Rauheit basieren.
Im Übrigen sind herkömmlicherweise die Eingangsgrößen der SVM-Variablen, die auf einer einzigen Quelle basieren. Im Gegensatz dazu sind bei Ausführungsbeispielen der vorliegenden Erfindung die Eingangsgrößen-Variablen, die auf der Differenz zwischen Quellen basieren, wie in APEAQ.
Im Übrigen unterscheiden sich Ausführungsbeispiele gemäß der vorliegenden Erfindung von herkömmlichen Konzepten dadurch, dass eine SVR verwendet wird, und nicht nur eine Klassifikation und eine SVM.
7. Implementierungsalternativen
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder eine elektronische Schaltung ausgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.
Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion (ITU) [0005]
”Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Masterarbeit an der Universität von Novi Sad, Fakultät für technische Wissenschaften, Serbien, Juli 2006) [0007]
”http://www.opticom.de/technology/audio-quality-testing.html [0018]
http://en.wikipedia.org/wiki/PEAQ [0019]
”The Design of VoIP Systems with high perceptual conversional Quality” von B. W. Wah und B. Sat (Academy Publisher, Journal of Multimedia, Vol. 4, No. 2, April 2009) [0020]
”Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a. [0021]
Seite 57 in der Veröffentlichung ”ITU-R BS.1387-1” der Internationalen Telekommunikationsunion [0031]
”ITU-R BS.1387-1” [0031]
Seite 7 der Veröffentlichung ”Objective Measurement of Perceived Auditory Quality in Multi-Channel Audio Compression Coding Systems” von I. Choi (veröffentlicht in: JAES, Volume 56 Issue 1/2 Seiten 3–17; Januar 2008) [0031]
Abschnitt 3 der Master-Arbeit „Analysis of Methods for Objective Evaluation of Quality of Audio Signals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic (Universität von Novi Sad, Fakultät für technische Wissenschaften, Novi Sad, Juli 2006) [0065]
Empfehlung ITU-R BS.1387-1: „Method for Objective Measurements of Perceived Audio Quality” der Internationalen Telekommunikations-Union (ITU), Genf, 2001 [0066]
Empfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union [0067]
Abschnitt 3.1. der oben genannten Master-Arbeit von Goran Markovic [0072]
Empfehlung „ITU-R BS.1387-1” der Internationalen Telekommunikations-Union (ITU) [0072]
Absatz 3.1.3 der Master-Arbeit von Goran Markovic [0075]
Abschnitt 3.2 der Master-Arbeit von Goran Markovic [0082]
Vorschlag ”ITU-R BS.1387-1” der Internationalen Telekommunikations-Union [0082]
Empfehlung „ITU-R BS.1387-1” [0083]
Master-Arbeit von Goran Markovic [0083]
Master-Arbeit von Goran Markovic beschrieben, und zwar insbesondere in den Abschnitten 3.3., 3.4. und 4.8 [0085]
Empfehlung „ITU-R BS.1387-1” [0085]
Kapitel 3 und 4. Kapitel 4.8 der genannten Master-Arbeit von Goran Markovic [0085]
Abschnitte 3.3, 3.4 und 4.8 der oben genannten Master-Arbeit von Goran Markovic [0087]
Abschnitt 3.3 der genannten Master-Arbeit von Goran Markovic [0088]
Kapitel 4.1 der Masterarbeit von Goran Markovic [0088]
Abschnitt 3.4 der oben genannten Master-Arbeit von Goran Markovic [0089]
Empfehlung ”ITU-R BS.1387” der Internationalen Telekommunikations-Union [0090]
Abschnitt 3.4.1 der oben genannten Diplomarbeit von Goran Markovic [0091]
Abschnitt 3.4.2 der oben genannten Masterarbeit von Goran Markovic [0093]
Abschnitt 3.4.3 der genannten Masterarbeit [0093]
Abschnitt 3.4.4 der Masterarbeit von Goran Markovic [0093]
Abschnitt 3.4.5 der oben genannten Masterarbeit von Goran Markovic [0094]
Abschnitt 3.4.6 der oben genannten Masterarbeit von Goran Markovic [0096]
Abschnitt 4.8 der oben genannten Masterarbeit von Goran Markovic [0097]
http://en.wikipedia.org/wiki/Radial_basis_function [0103]
”Using a Radial Basis Function as Kernel” von K. K. Chin (im Internet verfügbar unter der Adresse: http://svr-www.eng.cam.ac.uk/~kkc21/thesis_main/node31.html [0103]
Empfehlung ”ITU-R BS.1116”: ”Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems” [0105]
ITU-R BS.1534 [0105]
http://en.wikipedia.de/wiki/MUSHRA [0105]
Masterarbeit von Goran Markovic [0109]
http://en.wikipedia.org/wiki/Codec_listening_test [0109]
http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/results.htm [0109]
http://listening-tests.hydrogenaudio.org/sebastian/mp3-128-1/miscellaneous/results.rar [0109]
”A Practical Guide to Support Vector Classification” von C.-W. Hsu und anderen (Online verfügbar unter der Internet-Adresse: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf) [0114]
Empfehlung ITU-R BS.1387 der internationalen Telekommunikationsunion [0119]
Empfehlung ”ITU-R BS.1387-1” der internationalen Telekommunikationsunion [0122]
„Comparing Support Vector Machines with Gaussian Kernels to Radial Basis Function Classifiers” von B. Schölkopf u. a. (Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological and Computational Learning, Department of Brain and Cognitive Sciences; im Internet verfügbar unter der Adresse: http://www.svms.org/comparison/Scholkopfetal1996.pdf) [0148]
„Support Vector Machines Versus Artificial Neuronal Networks” (im Internet veröffentlicht unter der Internet-Adresse http://www.svms.org/anns.html [0150]
”New support vector algorithms with parametric insensitive/margin model” von Pei-Yi Hao (veröffentlicht in: Neural Networks, Volume 23, Issue 1, Januar 2010, Seiten 60–73) [0152]
”The performance of ν-support vector regression on determination of soluble solids content of apple by acousto-optic tunable filter near-infrared spectroscopy” von Dazhou Zhu und anderen (veröffentlicht in: Analytica Chimica Acta, Volume 598, Issue 2, 29. August 2007, Seiten 227–234) [0152]
Master-Arbeit von Goran Markovic [0156]
Masterarbeit von Goran Markovic [0167]
Empfehlung „ITU-R BS1387” der internationalen Telekommunikations-Union [0169]
http://www.opticom.de/technology/audio-quality-testing.html [0170]
Masterarbeit von Goran Markovic [0174]
Masterarbeit von Goran Markovic [0175]
Abschnitt 3.5.2 der Dissertation ”Perceptual Audio Quality Assessment using a Non-Linear Filter Bank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) [0175]
http://en.wikipedia.org/wiki/support_vector_machine [0177]
„Support Vector Regression Machines” von H. Drucker u. a. beschrieben (verfügbar, zum Beispiel, unter der Internetadresse ”http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.4845&rep=rep1&type=pdf”. [0178]
„The design of VoIP systems with high preceptual conversational quality” von B. Wah und B. Sat (veröffentlich im Journal of Multimedia, Band. 4, Nr. 2, April 2009 [0180]
„Modelling the Relationship between Human Perception and Sound Quality Parameters using LS-SVMs” von T. Coen u. a. [0181]
”Towards a Model of Perceived Quality of Blind Audio Source Separation” von B. Fox u. a. (veröffentlicht auf der 2007 IEEE International Conference on Multimedia and Expo) [0182]
Master-Arbeit von Goran Markovic [0187]
„Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation of Audioquality” von P. Kabal (veröffentlicht durch das Telecommunications und Signal Processing Laboratory, Department of Electrical and Computer Engineering, McGill University) [0197]
„Perceptual Audio Quality Assessment Using a non-linear Filerbank” von Thilo Thiede (Fachbereich Elektrotechnik der Technischen Universität Berlin, Berlin 1999) [0201]
Empfehlung „ITU-R BS 1386.1” der Internationalen Telekommunikations-Union [0202]
Empfehlung „ITU-R BS.1387-Empfehlung für ein Verfahren für objektive Messungen der wahrgenommenen Audioqualität” [0205]
http://en.wikipedia.org/wiki/PEAQ [0208]
http://en.wikipedia.org/wiki/Neural_network [0209]
http://en.wikipedia.org/wiki/PEAQ [0219]
„Support Vector Regression Maschines” von H. Drucker und anderen [0220]
„Analysis of Methods for Objective Evaluation of Quality of Audiosignals and Application in Implementation of an Encoder on a Class of Digital Signal Processors” von Goran Markovic [0224]

Claims

Vorrichtung (100; 200) zur Bewertung einer wahrgenommenen Audioqualität, mit folgenden Merkmalen: einem Modell-Ausgangsvariablen-Berechner (120; 229, 230, 240, 250), der ausgelegt ist, um Werte einer Mehrzahl von Modell-Ausgangsvariablen (122; 232, 252; 510, 512, 514, 516, 518) zu berechnen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal (112; 210) und einem Testsignal (110; 212) beschreiben; und einer Stützvektor-Maschine (130; 260; 500), die ausgelegt ist, um einen Unterschieds-Bewertungs-Wert (116; 216; 520) basierend auf den Modell-Ausgangsvariablen und einer Mehrzahl von Stützvektormaschinen-Parametern (coef₁, coef₂, coef_N, y₁, y₂, y_N, ρ) bereitzustellen.
Vorrichtung (100; 200) gemäß Anspruch 1, wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um den Unterschieds-Bewertungs-Wert (116; 216; 520) so bereitzustellen, dass der Unterschieds-Bewertungs-Wert hörbare Differenzen zwischen dem Test-Signal (110; 212) und dem Referenzsignal (112; 210) in der Form eines einzigen numerischen Wertes (116; 216; 520) darstellt.
Vorrichtung (100; 200) gemäß Anspruch 1 oder 2, wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um eine gewichtete Summe einer Mehrzahl von Kern-Funktions-Werten (kernel (x, y_i)) zu bilden, um den Unterschieds-Bewertungs-Wert (116; 216; 520) zu erhalten, wobei die Stützvektormaschine ausgelegt ist, um eine Kern-Funktion (kernel (x, y_i)) in Abhängigkeit von einem Vektor (x) von Modell-Ausgangsvariablen (122; 232, 252; 510, 512, 514, 516, 518), einem Stützvektor (y_i) und zumindest einem Kern-Funktions-Parameter auszuwerten, um einen Kern-Funktions-Wert (kernel (x, y_i)) zu erhalten, und um den Kern-Funktions-Wert in Abhängigkeit von einem zugehörigen Gewichtungswert (coef_i) zu gewichten, um die gewichtete Summe zu erhalten.
Vorrichtung (100; 200) gemäß Anspruch 3, wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um als Kern-Funktionen (kernel (x, y_i)) radiale Basisfunktionen auszuwerten, die als Kern-Funktions-Wert einen Wert liefern, dessen Betrag mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangs-Parametern und einem zugehörigen Stützvektor (y_i) abnimmt und sich an Null annähert, wobei eine Geschwindigkeit eine Abnahme des Betrags des Kern-Funktions-Werts mit dem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (y_i) durch einen der Kern-Funktionen zugeordneten Kern-Funktions-Parameter (σ) bestimmt wird.
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 4, wobei der Modell-Ausgangsvariablen-Berechner (120; 229, 230, 240, 250) ausgelegt ist, um als Modell-Ausgangsvariablen (122; 232, 252; 510, 512, 514, 516, 518) zumindest zwei der folgenden Werte bereitzustellen: Modulationsabweichungswert, gefensterter Modulationsabweichungswert (WinModDiff1_B), gemittelter Modulationsabweichungswert (AvgModDiff1_B, AvgModDiff2_B), Effektivwert des Modulationsabweichungswertes (RmsModDiff_A), Störlautheitswert, Effektivwert des Störlautheitswertes (RmsNoiseLoud_A, RmsNoiseLoud_B), Effektivwert oder Lautheit fehlender Komponenten (RmsMissingComponents_A), Wert oder Effektivwert der asymmetrischen Störlautheit (NoiseLoudAsym, RmsNoiseLoudAsym_A), Mittelwert der linearen Verzerrungen (AvgLinDist_A), Bandbreitenwert des Referenzsignals (BandwidthRef_B), Bandbreitenwert des Testsignals (BandwidthTest_B), Gesamtes Verhältnis von Störungen zu Maskierungsschwelle (TotalNMR_B), Relativer Anteil von gestörten Rahmen (RelDistFrames_B), Segmentweises Verhältnis von Störungen zu Maskierungsschwelle (SegmentalNMR_B), maximale gefilterte Detektionswahrscheinlichkeit (MFPD_B), Mittlerer-verzerrter-Block-Wert (ADB_B), Fehlersignal-zu-Verdeckungsschwelle-Verhältniswert (SNMR_B), Harmonische-Fehlerstruktur-Wert (EHS, EHS_B), Abstandswert des Zwischen-Ohr-Zeit-Unterschieds (ITDDist), Abstandswert des Zwischen-Ohr-Pegel-Unterschieds (ILDDist), Abstandswert des Zwischen-Ohr-Kreuzkorrelations-Koeffizienten (IACCDist).
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 5, wobei die Vorrichtung (100; 200) zur Bewertung einer wahrgenommenen Audioqualität einen Parameter-Einsteller (140) umfasst, der ausgelegt ist, um Parameter (coef_i, y_i, σ, ρ) der Stützvektormaschine basierend auf Trainings-Audiosignalen (142) und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen.
Vorrichtung (100; 200) gemäß Anspruch 6, wobei der Parameter-Einsteller ausgelegt ist, um Stütz-Vektoren (y_i), Gewichtungs-Koeffizienten (coef_i) und einen Offset-Wert (ρ) basierend auf den Trainings-Audiosignalen (142) und den zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen.
Vorrichtung gemäß Anspruch 6 oder 7, wobei der Parameter-Einsteller ausgelegt ist, um die Parameter (coef_i, y_i, σ, ρ) der Stützvektormaschine unter Verwendung von Modell-Ausgangsvariablen, die auf den Trainings-Audiosignalen (142) basieren, und zugehörigen Ziel-Unterschieds-Bewertungs-Werten (144) zu bestimmen.
Vorrichtung (100; 200) gemäß Anspruch 6 oder 7 oder 8, wobei der Parameter-Einsteller (140) ausgelegt ist, um in einem ersten Parameter-Einstellungs-Schritt einen Fehler-Gewichtungs-Parameter (C, γ) zu bestimmen, und um in einem zweiten Parameter-Einstellungs-Schritt die Stütz-Vektoren (y_i), die Gewichtungs-Koeffizienten (coef_i) und den Offset-Wert (ρ) unter Verwendung des Fehler-Gewichtungs-Parameters (C, γ) zu bestimmen, wobei der Parameter-Einsteller ausgelegt ist, um für eine Mehrzahl von Fehler-Gewichtungs-Parametern (C, γ) Kreuz-Validierungswerte zu erhalten und die Fehler-Gewichtungs-Parameter (C, γ) in Abhängigkeit von den Kreuz-Validierungswerten zu bestimmen.
Vorrichtung gemäß einem der Ansprüche 1 bis 9, wobei der Parameter-Einsteller (140) ausgelegt ist, um eine Such-Prozedur durchzuführen, um einen Fehler-Gewichtungs-Parameter (C) und einen Kern-Funktions-Abnahme-Parameter (γ) der radialen Basisfunktionen zu bestimmen, wobei der Kern-Funktions-Abnahme-Parameter (γ) eine Geschwindigkeit einer Abnahme eines Betrags des Kern-Funktions-Werts mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (y_i) beschreibt; und wobei der Parameter-Einsteller ausgelegt ist, um eine Trainings-Prozedur unter Verwendung der in der Such-Prozedur bestimmten Parameter (C, γ) durchzuführen, um Stützvektormaschinen-Parameter (coef₁, coef₂, coef_N, y₁, y₂, y_N) zu erhalten; wobei der Parameter-Einsteller ausgelegt ist, um eine exponentielle Gitter-Suche im Hinblick auf den Fehler-Gewichtungs-Parameter (C) und den Kern-Funktions-Abnahme-Parameter (γ) unter Verwendung einer Kreuz-Validierung durchzuführen, wobei der Parameter-Einsteller ausgelegt ist, um unter Verwendung exponentiell anwachsender Sequenzen Paare des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) auszuprobieren und dasjenige Paar mit einer besten Kreuz-Validierungs-Genauigkeit auszuwählen, und um eine zusätzliche lineare Suche nach verbesserten Werten des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) in einer Umgebung von Werten des in der exponentiellen Gittersuche ausgewählten Paares von Werten (C, γ) durchzuführen.
Vorrichtung gemäß einem der Ansprüche 1 bis 9, wobei der Parameter-Einsteller (140) ausgelegt ist, um einen Fehler-Gewichtungs-Parameter (C) und einen Kern-Funktions-Abnahme-Parameter (γ) der radialen Basisfunktionen zu bestimmen, wobei der Kern-Funktions-Abnahme-Parameter (γ) eine Geschwindigkeit einer Abnahme eines Betrags des Kern-Funktions-Werts mit zunehmendem Unterschied zwischen dem Vektor (x) von Modell-Ausgangsvariablen und dem zugehörigen Stützvektor (y_i) beschreibt; und wobei der Parameter-Einsteller ausgelegt ist, um eine exponentielle Gitter-Suche im Hinblick auf den Fehler-Gewichtungs-Parameter (C) und den Kern-Funktions-Abnahme-Parameter (γ) durchzuführen, wobei der Parameter-Einsteller ausgelegt ist, um unter Verwendung exponentiell anwachsender Sequenzen Paare des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameters (γ) als aktuelle Fehler-Gewichtungs-Parameter (C) und als aktuellen Kern-Funktions-Abnahme-Parameter (γ) für eine Durchführung einer Stützvektor-Maschinen-Trainings-Prozedur auszuwählen; wobei der Parameter-Einsteller ausgelegt ist, um eine Stützvektor-Maschinen-Trainings-Prozedur unter Verwendung des jeweils aktuellen Fehler-Gewichtungs-Parameters (C) und des jeweils aktuellen Kern-Funktions-Abnahme-Parameter (γ) mehrmals, mit jeweils unterschiedlichen Paaren des Fehler-Gewichtungs-Parameters (C) und des Kern-Funktions-Abnahme-Parameter (γ), durchzuführen, und um anschließend an die Durchführungen der Stützvektor-Maschinen-Trainings-Prozedur einen jeweiligen Test durchzuführen, um ein Maß für eine Genauigkeit der durch die jeweilige Durchführung der Stützvektor-Maschinen-Trainings-Prozedur erhaltenen Stützvektormaschinen-Parameter zu bestimmen, und um dasjenige Paar eines Fehler-Gewichtungs-Parameters (C) und eines Kern-Funktions-Abnahme-Parameter (γ) für eine weitere Verwendung auszuwählen, das in einem besten Maß der Genauigkeit der durch die jeweilige Durchführung der Stützvektor-Maschinen-Trainings-Prozedur erhaltenen Stützvektormaschinen-Parameter resultiert.
Vorrichtung (100; 200) gemäß Anspruch 9 oder 10 oder 11, wobei der Parameter-Einsteller (140) ausgelegt ist, um ein Maß für Unterschiede zwischen von der Stützvektormaschine (130) gelieferten Unterschieds-Bewertungs-Werten (116) und Ziel-Unterschieds-Bewertungs-Werten (144) in Abhängigkeit von einem Verhältnis zwischen einer Differenz eines von der Stützvektormaschine gelieferten Unterschieds-Bewertungs-Werts (116, ODG_i) und eines Ziel-Unterschieds-Bewertungs-Werts (144, SDG_i) und einer Breite (IP_i) eines Vertrauensintervalls, das dem Ziel-Unterschieds-Bewertungs-Wert (144, SDG_i) zugeordnet ist, zu bestimmen, wobei der Parameter-Einsteller ausgelegt ist, um eine untere Grenze für die Breite des Vertrauensintervalls zu verwenden.
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 12, wobei die Vorrichtung ausgelegt ist, um die Modell-Ausgangsvariablen (122; 232, 252; 510, 512, 514, 516, 518) wertemäßig zu begrenzen und zu skalieren, um eine wertmäßig begrenzte und skalierte Version der Modell-Ausgangsvariablen als Eingangsinformation für die Stützvektormaschine (130; 260; 500) zu erhalten.
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 13, wobei der Modell-Ausgangsvariablen-Berechner (120; 229, 230, 240, 250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (RmsNoiseLoud_A) zu berechnen, deren Wert eine Differenz zwischen einer internen Darstellung (334) des Referenzsignals (112; 210) und einer internen Darstellung (334) des Testsignals (110; 212) beschreibt, und wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert die Differenz zwischen der internen Darstellung des Referenzsignals und der internen Darstellung des Testsignals beschreibt, als Eingangsinformation zu verwenden.
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 14, wobei der Modell-Ausgangsvariablen-Berechner (120; 229, 230, 240, 250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (SNMR_B) zu berechnen, deren Wert einen Verdeckungsschwellwert, der sich basierend auf einem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, oder deren Wert von dem Verdeckungsschwellwert abhängig ist, und wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert den Verdeckungsschwellwert, der sich basierend auf dem Differenzsignal zwischen dem Testsignal und dem Referenzsignal ergibt, beschreibt, oder deren Wert von dem Verdeckungsschwellwert abhängig ist, als Eingangsinformation zu verwenden.
Vorrichtung (100; 200) gemäß einem der Ansprüche 1 bis 15, wobei der Modell-Ausgangsvariablen-Berechner (120; 229, 230, 240, 250) ausgelegt ist, um zumindest eine Modell-Ausgangsvariable (EHS) zu berechnen, deren Wert einen Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder deren Wert eine harmonische Struktur des Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt, oder deren Wert eine harmonische Fehlerstruktur beschreibt, und wobei die Stützvektormaschine (130; 260; 500) ausgelegt ist, um die Modell-Ausgangsvariable, deren Wert den Unterschied zwischen der harmonischen Struktur des Testsignals und des Referenzsignals beschreibt, oder deren Wert eine harmonische Struktur des Unterschieds zwischen dem Testsignal und dem Referenzsignal beschreibt, oder deren Wert eine harmonische Fehlerstruktur beschreibt, als Eingangsinformation zu verwenden.
Verfahren zur Bewertung einer wahrgenommenen Audioqualität, mit folgenden Schritten: Berechnen einer Mehrzahl von Modell-Ausgangsvariablen, die Unterschiede im Hinblick auf eine Mehrzahl von Kriterien zwischen einem Referenzsignal und einem Testsignal beschreiben; und Bereitstellen eines Unterschieds-Bewertungs-Werts unter Verwendung einer Stützvektormaschine basierend auf den Modell-Ausgangsvariablen und einer Mehrzahl von Stützvektormaschinen-Parametern.
Computerprogramm zur Durchführung des Verfahrens gemäß Anspruch 17, wenn das Computerprogramm auf einem Computer ausgeführt wird.