DE60004852T2 - Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen - Google Patents

Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen Download PDF

Info

Publication number
DE60004852T2
DE60004852T2 DE60004852T DE60004852T DE60004852T2 DE 60004852 T2 DE60004852 T2 DE 60004852T2 DE 60004852 T DE60004852 T DE 60004852T DE 60004852 T DE60004852 T DE 60004852T DE 60004852 T2 DE60004852 T2 DE 60004852T2
Authority
DE
Germany
Prior art keywords
learning process
assessment
subjective
assessments
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60004852T
Other languages
English (en)
Other versions
DE60004852D1 (de
Inventor
Jamal Baina
Pierre Bretillon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telediffusion de France ets Public de Diffusion
Original Assignee
Telediffusion de France ets Public de Diffusion
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telediffusion de France ets Public de Diffusion filed Critical Telediffusion de France ets Public de Diffusion
Publication of DE60004852D1 publication Critical patent/DE60004852D1/de
Application granted granted Critical
Publication of DE60004852T2 publication Critical patent/DE60004852T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/20Arrangements for detecting or preventing errors in the information received using signal quality detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/24Testing correct operation
    • H04L1/242Testing correct operation by comparing a transmitted test signal with a locally generated replica
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

  • Die vorliegende Erfindung hat ein Verfahren zur Qualitätsbeurteilung einer audiovisuellen Sequenz zum Gegenstand, wobei eine derartige Sequenz in ihrer allgemeinsten Form als Audio- und/oder Videosignale umfassend definiert ist.
  • Die Digitalisierung von Audio- und Videosignalen hat die Möglichkeit eröffnet, diese Art von Information unter Beibehaltung einer konstanten Qualität zu kopieren, zu speichern oder übertragen zu können. Währenddessen erfordert die große durch die audiovisuellen Signale übertragene Informationsmenge in der Praxis die Benutzung von digitalen Kompressionsverfahren, um die Bitanzahl zu verringern.
  • Die Norm MPEG2 beschreibt eine bestimmte Art von Techniken, welche für die Verringerung der Bitanzahl anwendbar sind. Diese Algorithmen werden als „verlustbehaftet" bezeichnet, da die nach der Decodierung wiederhergestellten Signale nicht mehr identisch mit den Originalen sind. Um eine für den letztendlichen Fernsehzuschauer akzeptable Qualität aufrechtzuerhalten, berücksichtigen die Algorithmen zur Verringerung der Bitanzahl die Wahrnehmungsfähigkeiten des menschlichen Auges und Ohrs. Trotzdem implizieren die auferlegten Einschränkungen hinsichtlich der Bitanzahl oder der für die Übertragung verfügbaren Bandbreite ebenso wie der Inhalt der Signale das Auftreten von charakteristischen Verschlechterungen oder Beeinträchtigungen in dem Signal nach der Decodierung. Diese durch die globale MPEG2-Kette – Codierung und Übertragung – eingeführten Beeinträchtigungen beeinflussen direkt die wahrgenommene endgültige Qualität.
  • Die automatische Qualitätsbeurteilung von audiovisuellen Signalen hat ein großes Anwendungsgebiet in der Kette des digitalen Fernsehens: Produktion, Verteilung, und Bewertungen der Leistungen von Systemen.
  • Die bestehenden Vorrichtungen wurden im Gegensatz dazu für Labortests entworfen und sind nicht für die Fernüberwachung von Verteilungsnetzen angepasst.
  • Die Qualifizierung von Beeinträchtigungen, welche die Qualität des Bildes und des Tons bei der Anwendung einer Codierung zur Verringerung der Bitanzahl oder einer Übertragung beeinflussen, ist auf zwei verschiedene Weisen möglich. Auf der einen Seite liefern die unter präzisen Bedingungen durchgeführten subjektiven Tests reproduzierbare Ergebnisse. Indes dauern sie lange und sind kostspielig zu realisieren. Auf der anderen Seite erlauben die automatischen Qualitätsbeurteilungssysteme durch objektive Messungen, beispielsweise das Erstellen und den Vergleich von Codierungsalgorithmen zu vereinfachen. Sie bieten die Möglichkeiten, digitale Systeme punktuell oder kontinuierlich zu testen. Um objektive Messungen zu erhalten, welche signifikant mit subjektiven Werten korrelieren, müssen die Eigenschaften des menschlichen visuellen Systems berücksichtigt werden.
  • Der Begriff der Qualität ist im wesentlichen relativ. In der Tat beurteilt auch der in gewohnheitsmäßige Beobachtungsbedingungen (bei sich daheim) platzierte Fernsehzuschauer die Qualität der Signale, welche ihm präsentiert werden, in Bezug auf eine Referenz. Diese besteht in diesem Fall aus seinen Erwartungen oder seinen Gewohnheiten. In gleicher Weise bewirkt ein objektives Verfahren zur Qualitätsbeurteilung eine Analyse der durch das System in die Signale eingeführten Beeinträchtigungen unter Berücksichtigung von am Eingang des Systems vorliegenden Referenzsignalen. Die Erforschung der objektiven Metri ken geschieht daher auf der einen Seite durch die Analyse der in die Signale eingeführten Fehler und auf der anderen Seite durch die des menschlichen Wahrnehmungssystems und seiner Eigenschaften. Die verschiedenen Herangehensweisen basieren entweder auf der Berechnung des Fehlersignals oder auf der Identifizierung von bestimmten Signaturen von Artefakten, welche durch das audiovisuelle System eingeführt werden. Die Anwendung von Wahrnehmungsmodellen erlaubt es, die Bedeutung der Beeinträchtigungen für das menschliche Wahrnehmungssystem MWS zu bewerten.
  • Die subjektiven Versuche sind das Ergebnis des Anbietens der audiovisuellen Signale für eine für die Bevölkerung repräsentative Auswahl von Beobachtern. Es dreht sich darum, unter kontrollierten Seh- und Hörbedingungen eine Gesamtheit von befriedigenden Umfragen zu realisieren. In der Tat werden die Signale gemäß einem vorbestimmten Protokoll den Beobachtern präsentiert, in einer Weise, sie dazu zu bringen, auf die endgültige Qualität zu reagieren. Die Abstufung der Qualität gemäß einem vordefinierten Maßstab wird bewerkstelligt. Qualitätsbeurteilungen werden anschließend an die Präsentation von Audiosequenzen, Videosequenzen oder simultanen Audio- und Videosequenzen erhalten. Statistische Berechnungen erlauben es, diese individuellen Beurteilungen zu verfeinern, indem sie gefiltert und homogenisiert werden. Mehrere Methodiken für subjektive Versuche sind insbesondere in der Empfehlung ITU-R Bt.500 mit dem Titel „Method for the subjective assessment of the quality of television pictures" standardisiert. Zwei unter diesen, welche eine kontinuierliche Beurteilungsskala benutzen, sind:
    • – DSCQS: „Double Stimulus Continuous Quality Scale" genanntes Protokoll
    • – SSCQE: „Single Stimulus Continuous Quality Evaluation" genanntes Protokoll.
  • Das erste Verfahren erlaubt es, eine Beurteilung für eine Videosequenz von 10 Sekunden zu erhalten. Man muss hintereinander die zwei Sequenzen A und A', Original bzw. beeinträchtigt, präsentieren (siehe 1).
  • Das zweite Verfahren befreit sich von Referenzsignalen, um in intrinsischer Weise eine gegebene Sequenz zu beurteilen. Die 2 zeigt eine Kurve von subjektiven Beurteilungen für eine lange Sequenz von 30 Minuten. Die Abszisse repräsentiert die Zeitachse. Eine Probe der subjektiven Beurteilung wird alle N Sekunden abgelesen. Die Ordinate stellt den Maßstab der Abstufung der Qualität dar. Die Kurve zeigt die Auswirkung auf die subjektive Qualität von allen Störungen, welchen die Sequenz unterworfen ist.
  • Die objektiven Messungen können gemäß verschiedenen Herangehensweisen realisiert werden.
  • Das Prinzip des Ansatzes, welcher die Wahrnehmungsmodelle benutzt, ist es, das Verhalten des menschlichen Wahrnehmungssystems (MWS) teilweise oder vollständig zu simulieren. Im Bewusstsein, dass es sich in diesem Kontext um die Bestimmung der Qualität von audiovisuellen Signalen dreht, ist es dabei ausreichend, die Wahrnehmbarkeit von Fehlern zu bewerten. In der Tat erlaubt die Modellierung bestimmter Funktionen des MWS, die Auswirkungen von Fehlern auf die Wahrnehmungsorgane des Menschen zu quantifizieren. Diese Modelle arbeiten wie auf Fehlersignale angewandte Gewichtungsfunktionen. Auf diese Weise wird der Effekt jeder Beeinträchtigung proportional moduliert. Der gesamte Prozess erlaubt es, die Qualität von durch ein audiovisuelles System hindurchgehenden Signalen objektiv zu beurteilen (siehe 3).
  • Referenzsignale Sref repräsentieren beispielsweise eine audiovisuelle Sequenz, und Signale SD-dieser Sequenz, welche durch ein audiovisuelles System SA beeinträchtigt werden, werden in einem Fehleridentifizierungsmodul MID verglichen, dann wird ihnen eine Beurteilung NT durch Vergleich mit einem Modell MOD zugeordnet.
  • Aus Sicht der Berechnung des Fehlersignals kann das Signal-Rausch-Verhältnis als Qualitätsfaktor betrachtet werden. Aber in der Praxis wird beobachtet, dass es wenig repräsentativ für die subjektive Qualität ist. In der Tat ist dieser Parameter sehr globalisierend und ist daher nicht in der Lage, lokale Beeinträchtigungen, typisch für digitale Systeme, zu erfassen. Weiterhin erlaubt es das Signal-Rausch-Verhältnis, eine sehr strenge Treue der beeinträchtigten Signale in Bezug auf die Originale zu beurteilen, was von einer globalen Wahrnehmungsqualität verschieden ist.
  • Das Erlangen einer besseren Bewertung der Qualität geschieht durch die Benutzung von zahlreichen experimentellen Daten über das menschliche Wahrnehmungssystem. Ihre Anwendung ist erheblich erleichtert, da dieses in Bezug auf seine Empfindlichkeit auf ein Stimulans (dort der Fehler) in einem Kontext eines Bildes z. B. untersucht wurde. In diesem Rahmen interessiert man sich für die Antwort des visuellen Systems (AVS) auf einen Kontrast, und nicht mehr für eine absolute Größe wie die Leuchtdichte.
  • Verschiedene Testbilder wie gleichförmige Perioden von Leuchtdichten oder von räumlichen oder zeitlichen Frequenzen haben es erlaubt, die Empfindlichkeit des visuellen Systems und die damit verbundenen gerade wahrnehmbaren Kontrastwerte experimentell zu bestimmen. Die AVS hat eine logarithmische Antwort auf die Intensität des Lichts, und eine optimale Sensibilität auf räumliche Frequenzen um 5 Zyklen/Grad. Die Anwendung dieser Ergebnisse muss gleichwohl mit Vorsicht erfolgen, da dieses Werte der Sichtbarkeitsschwelle sind. Dies erklärt die Schwierigkeit, die Bedeutung von Beeinträchtigungen großer Amplitude vorherzusagen.
  • Die auditiven Modelle gehen in ähnlicher Weise vonstatten. Experimentell wird die Empfindlichkeit auf verschiedene Stimuli gemessen. Diese wird dann auf verschiedene Fehlersignale angewendet, um die Qualität zu beurteilen.
  • Währenddessen sind die audiovisuellen Signale komplex in Bezug auf ihren Informationsreichtum. Auf der anderen Weise wirft praktisch gesehen die Benutzung dieser Art von Modellen für audiovisuelle Signale mehrere Probleme auf. Außer der Tatsache, dass die Referenzsignale und beeinträchtigten Signale physikalisch am selben Ort zu finden sein müssen, ist es unverzichtbar, die Sequenzen eine räumlich und zeitlich in exakte Übereinstimmung zu bringen. Dieser Ansatz kann somit Anwendung bei der Beurteilung von im selben Labor vorliegenden Ausrüstungen finden, wie eines Codierers, oder bei bestimmten Fällen der Übertragung wie über Satellit, für den der Sender und der Empfänger am selben Ort sein können.
  • Der Ansatz, welcher parametrische Modelle benutzt, realisiert eine Kombination einer Serie von Parametern oder Anzeigern der Beeinträchtigung, welche angesammelt werden, um die globale objektive Beurteilung zu erarbeiten.
  • Die auf Audio- und/oder Videosignale angewendeten objektiven Messungen sind Indikatoren des Gehalts der Signale und der Beeinträchtigungen, welche sie erfahren haben. In der Tat hängt die Treffsicherheit dieser Parameter von ihrer Repräsentativität bezüglich der Empfindlichkeit auf Fehler ab.
  • Zwei Kategorien von Ansätzen sind demnach im Fall der Erarbeitung der Parameter möglich:
    • 1. Kategorie I. „Mit a priori Bekanntsein des Referenzsignals",
    • 2. Kategorie II. „Ohne a priori Bekanntsein des Referenzsignals".
  • Die erste Ansatzkategorie I. stützt sich auf die Durchführung derselben Transformation oder derselben Parameterberechnung für das Referenzsignal und das verschlechterte Signal. Die Erarbeitung einer globalen Qualitätsbeurteilung liegt in dem Vergleich der von beiden Behandlungen erzeugten Ergebnisse. Die gemessene Abweichung übersetzt die von dem Signal erfahrenen Beeinträchtigungen.
  • Die zweite Ansatzkategorie II. benötigt nicht das Bekanntsein des ursprünglichen Signals, sondern muss nur die spezifischen Eigenschaften der Beeinträchtigungen kennen. Es ist demnach möglich, einen Indikator pro Beeinträchtigungstyp oder mehr zu berechnen. In der Tat erzeugen die Codierung für niedrige Bitanzahl und die gestörte Verteilung von digitalen Fernsehsignalen identifizierbare charakteristische Fehler: Blockeffekte, Einfrieren von Bildern usw. Die Faktoren, welche diese Defekte detektieren, können herausgearbeitet werden und als Indikatoren der Qualität benutzt werden.
  • Beispiel für ein parametrisches Modell:
  • Eine Vielzahl von Parametern wurde in der Literatur vorgeschlagen, um parametrische Modelle zu realisieren. Das Ziel der vorliegenden Erfindung ist es unter anderem nicht, neue Parameter zu definieren, sondern ein allgemeines Modell zur Ausnutzung dieser Maßnahmen vorzuschlagen.
  • Der Ansatz besteht darin, die zwei Bilder (Referenzbild und beeinträchtigtes Bild) nur auf Basis von charakteristischen Parametern ihres Inhalts zu vergleichen. Die Auswahl dieser Parameter ist mit ihrer Empfindlichkeit gegenüber bestimmten Beeinträchtigungen, welche das zu bewertende System einführt, verbunden. Anschließend wird eine Qualitätsmessung durch Korrelation hergestellt, indem eine Serie von subjektiven Messungen benutzt wird.
  • Als Beispiel zitieren wir eine von dem ITS (Institute of Telecommunication Sciences USA) entwickelte Technik. Diese stützt sich auf die Extraktion eines räumlichen Parameters SI und eines zeitlichen Parameters TI, welche charakteristisch für den Inhalt der Sequenzen sind (siehe 4). Für weitere Informationen wird auf den Artikel von A. A. WEBSTER und Mitarbeitern mit dem Titel „An objective video quality assessment system based on human perception", erschienen in SPIE Band 1913, Seiten 15–26, Juni 1993 verwiesen.
  • Die als wichtig betrachtete räumliche Information ist die der Konturen. Für ein Bild I zu einer Zeit t wird der räumliche Parameter SI ausgehend von der Standardabweichung des durch die Sobel-Gradienten gefilterten Bildes erhalten. Diese Technik erlaubt es, die Konturen des analysierten Bildes hervortreten zu lassen, welche beim Sehen eine wichtige Rolle spielen: SIt = σx,y (Sobel[It(x, y)])
  • In analoger Weise ist die zeitliche Information zu einem gegebenen Zeitpunkt durch die Standardabweichung des Unterschieds zwei aufeinander folgender Bilder definiert: TIt = σx,y (It(x, y) – It–1(x, y)]))
  • Eine auf diesen zwei Informationen basierte Messung erlaubt es, der Veränderung des Inhalts zwischen dem Eingang des Vi deosystems (Sref) und seinem Ausgang (Ss) durch verschiedene Vergleiche einen Wert zuzuweisen.
    Figure 00090001
    M3 = [TIs(t) – TIref (t)]
  • Drei Parameter M1, M2, M3 gehen aus diesen Vergleichen in einem Komparator COMP hervor. Jeder ist empfindlich gegenüber einer oder mehreren Beeinträchtigungen. So kann durch den Vergleich der Parameter SI die Einführung einer Unschärfe (Abnahme von SI) und von künstlichen durch den Blockeffekt eingeführten Konturen (Vergrößerung von SI) berücksichtigt werden. In gleicher Weise decken Unterschiede zwischen den zwei Versionen von TI Fehler der Bewegungscodierung auf.
  • Der folgende Schritt besteht in der Durchführung einer Summation über die Zeit von M1, M2, M3 durch eine Minkowski-Norm Lp (im Allgemeinen p = 1, 2 oder ∞). Auf diese Weise ist die Konstruktion eines Summationsmodells möglich. Es erlaubt es, eine Qualitätsbewertung am Ausgang eines Summationsmoduls SMOD zu erzeugen. Das gewählte Modell ist eine Linearkombination der Mi: Q = α + βM1 + γM2 + μM3
  • Die Gewichtungskoeffizienten (α, β, γ, μ) werden durch ein iteratives Verfahren MIN der Minimierung der Verzerrung zwischen den objektiven Noten Q und den aus derselben Menge von Bildern erhaltenen subjektiven Noten berechnet. In der Tat dreht es sich darum, durch Iteration die Parameter des kombinatorischen Modells zu finden. Auf diese Weise nähert sich die geschätzte objektive Messung am besten der subjektiven Beurteilung an. Der Leistungsindex des Modells ist durch den Korrelationskoeffizienten gegeben.
  • Ein Beispiel des Modells wurde in der Literatur vorgeschlagen.
  • Es hat es erlaubt, einen guten Korrelationskoeffizienten zu erhalten: 0,92. Q = 4,77 – 0,992M1 – 0,272M2 – 0356M3
  • Gleichwohl scheint es, dass die Leistungen von kombinatorischen Modellen mit Bildern, welche von denen der Menge, welche zur Einstellung des Modells gedient hat, verschieden sind, weniger gut ist.
  • Die Bewerkstelligung dieses Ansatzes ist weniger einengend als die vorherige. Gleichwohl verbleibt in der Praxis die Schwierigkeit, die Beurteilungen der zwei Signalsequenzen räumlich und zeitlich in Übereinstimmung zu bringen.
  • Ein Ziel der Erfindung ist ein Verfahren, welches es erlaubt, objektive Messungen und subjektive Beurteilungen, welche eine Gruppe von Zuschauern gibt, in gute Übereinstimmung zu bringen.
  • Ein anderes Ziel der Erfindung ist ein Verfahren, welches die Bewertung der audiovisuellen Sequenz in absoluter Weise, das heißt ohne Zugriff auf eine nicht beeinträchtigte Originalsequenz zu haben, erlaubt.
  • Ein anderes Ziel der Erfindung ist ein Verfahren, welches es in einfacher und effizienter Weise erlaubt, die Qualität von audiovisuellen Signalen in einem Ausstrahlungsnetz von Audio- und/oder Videosignalen erlaubt.
  • Der Artikel von QUINCY E. A. et al. mit dem Titel „Expert Pattern Recognition method for technology independent classification of video transmission quality", GLOBECOM'88, IEEE Global Telecommunications Conference and Exhibition – Communications for the information age – Conference Record (IEEE Katalognr. 88CH2535-3), Hollywood, FL. USA, 28. November – 1. Dezember 1988, Seiten 1304–1308 Band 3, XP002133255 New York, USA, bezieht sich auf ein Bewertungsverfahren der Qualität einer audiovisuellen Sequenz. Bei dem in diesem Dokument beschriebenen Verfahren wird die Bestimmung der Qualität durch Expertensysteme bewerkstelligt, welche unter anderem eine auf Wahrscheinlichkeiten beruhende Datenbasis benutzen.
  • Zumindest eines der genannten Ziele wird durch ein Verfahren zur Qualitätsbeurteilung einer audiovisuellen Sequenz erreicht, welches dadurch gekennzeichnet ist, dass es anwendet:
    • a) einen Lernprozess, welcher die Zuordnung einer subjektiven Beurteilung NSi zu jeder von N0 Lernprozesssequenzen Si (mit i = 1, 2 ... N0), welche durch einen Lernprozessvektor MOi, welcher für jede Sequenz Sj gemäß einem ersten Vektorisierungsverfahren bereitgestellt ist, bezeichnete Beeinträchtigungen aufweisen, umfasst, um eine aus den N0 Lernprozessvektoren MOi und den subjektiven Beurteilungen NSi zusammengesetzte Datenbasis zu bilden,
    • b) die Klassifizierung der N0 Lernprozessvektoren MOi in k Beurteilungsklassen in Abhängigkeit von den ihnen zugeordneten subjektiven Beurteilungen MSi, um k Lernprozesseinheiten oder -mengen EAj (mit j = 1, 2 ... k) zu bilden, welchen k signifikante Lernprozessbeurteilungen NSRj zugeordnet sind,
    • c) die Erarbeitung eines Vektors MO gemäß dem ersten Vektorisierungsverfahren für die zu beurteilende audiovisuelle Sequenz,
    • d) die Zuordnung derjenigen signifikanten Lernprozessbeurteilung NSRj zu der zu beurteilenden audiovisuellen Sequenz, welche der nächsten Lernprozesseinheit EAj entspricht.
  • Diese Zuordnung kann beispielsweise dadurch realisiert werden, indem der Sequenz die dem nächsten Lernprozessvektor entsprechende Beurteilung zugeordnet wird.
  • Bevorzugt wird zwischen b) und c) realisiert:
    • b1) Die Ausarbeitung eines Referenzlexikons Dj für jede Lernprozesseinheit EAj, zusammengesetzt aus Nj Referenzvektoren VR1 (mit 1 = 1, 2 ... Nj) gemäß einem zweiten Vektorisierungsverfahren, und zwischen c) und d):
    • c1) die Auswahl des dem Vektor MO ähnlichsten Referenzvektors VRe aus den Referenzvektoren VR1 der k Referenzlexika.
  • In diesem Fall wird die Zuordnung ausgehend von der signifikanten Lernprozessbeurteilung NSRj, welche dem Referenzlexikon entspricht, zu dem der nächste Referenzvektor VRe gehört, durchgeführt.
  • Die signifikanten Lernprozessbeurteilungen NSRj können in gleichförmiger Weise entlang der Beurteilungsskala aufgeteilt sein, oder noch besser in nicht gleichförmiger Weise, was es erlaubt, die Messungen signifikanter zu machen, beispielsweise durch die Tatsache, dass zumindest bestimmte der Referenzlexika dann im Wesentlichen die gleiche Anzahl von Referenzvektoren beinhalten können.
  • Gemäß einem bevorzugten Ausführungsbeispiel erfolgt die Verteilung der signifikanten Lernprozessbeurteilungen NSRj durch einen Lernprozess.
  • Das Verfahren ist dann dadurch charakterisiert, dass es zwischen a) und b) eine Identifikation der k signifikanten Lernprozessbeurteilungen NSRj umfasst, ausgehend von subjektiven Beurteilungen NSi, von denen jede als eindimensionaler Vektor angesehen wird, indem ein minimaler Abstand zwischen der Menge der N0 subjektiven Beurteilungen NSi und den k signifikanten Lernprozessbeurteilungen ermittelt wird.
  • Andere Eigenschaften und Vorteile der Erfindung werden besser mit der folgenden Beschreibung und der begleitenden Zeichnung deutlich, in welcher:
  • 1 und 2 die zwei Beurteilungsverfahren des Stands der Technik zeigen, DSCQS bzw. SSCQE genannt,
  • 3 einen bekannten Ansatz darstellt, welcher Wahrnehmungsmodelle benutzt,
  • 4 ein von dem ITS entwickeltes Verfahren darstellt,
  • 5 ein bevorzugtes Ausführungsbeispiel der Erfindung darstellt,
  • 6 die Bildung eines Lexikons Dj gemäß der Erfindung darstellt,
  • 7 den erfindungsgemäßen Prozess der Beurteilung einer zu bewertenden Sequenz darstellt,
  • 8 eine gleichförmige Verteilung von Intervallen von subjektiven Beurteilungen darstellt,
  • 9 ein Beispiel der Frequenz des Auftretens von subjektiven Noten NSi ist,
  • 10 einen Identifizierungsprozess von repräsentativen subjektiven Beurteilungen gemäß der Erfindung darstellt,
  • 11 ein Beispiel für nicht gleichförmige Aufteilung von subjektiven Noten ist, welche gemäß dem durch 10 dargestellten Prozess erhalten wurden,
  • 12 und 13 die Genauigkeit einer Beurteilung gemäß der Erfindung darstellen,
  • und die 14 und 15 ein Ausführungsbeispiel der Erfindung darstellen, wobei die Lernprozessphase beziehungsweise die Betriebsphase dargestellt ist.
  • Die Erfindung stellt sich als ein Verfahren zur objektiven Qualitätsbeurteilung von Audio- und Videosignalen auf Basis einer Menge von Parametern dar.
  • Das Verfahren erfordert es nicht, neue Parameter zu definieren. Seine grundlegende Idee ist es, ein allgemeines Modell basierend auf der vektoriellen Quantisierung zur Ausnutzung dieser Messungen vorzuschlagen. Es handelt sich um einen Ansatz durch einen Lernprozess, welcher es erlaubt, audiovisuellen Signalen objektive Beurteilungen der Qualität zu geben. Diese Bewertung wird in einer mit der subjektiven Beurteilung korrelierten Weise mit Hilfe eines objektiven Wahrnehmungsmo dells durchgeführt. Um dies zu machen, arbeitet das Modell in zwei Schritten.
  • Der erste Schritt wird ausgehend von einer Menge von audiovisuellen Lernprozesssequenzen realisiert. Das Modell bringt zwei Datenbasen in Übereinstimmung, welche aus denselben audiovisuellen Signalen herausgearbeitet wurden:
    • – eine Basis von subjektiven Noten (BDNS),
    • – eine Basis von aus Audio- und Videosignalen extrahierten objektiven Messungen (BDMO),

    um einer Menge von Indikatoren von Beeinträchtigungen (einen Vektor von objektiven Messungen bildend) eine subjektive Beurteilung zuzuordnen.
  • Diese Phase erlaubt es, eine sachbezogene Kenntnis für die Qualifizierung der Qualität der Signale zu erhalten.
  • Während dem zweiten Schritt, welcher der Betriebsphase des Verfahrens entspricht, nutzt das Verfahren seine Kenntnisse aus. In der Tat realisiert das Modell jedes Mal, wenn es nötig ist, die Qualität einer audiovisuellen Sequenz zu qualifizieren, eine Extraktion von Parametern, welche repräsentativ für die Beeinträchtigungen sind. Anschließend stellt es das Ergebnis der Berechnungen seiner Wissensbasis gegenüber. Diese Operation erlaubt es, eine objektive Beurteilung zu geben, welcher einer subjektiven Beurteilung sehr nahe kommt, welche eine repräsentative Personengruppe hätte geben können. Der Prozess benutzt bei der vorliegenden Erfindung die vektorielle Quantisierung. Das Prinzip ist, in den Lexika den repräsentativen Vektor zu finden, welcher dem Vektor der aus den Audio- und Videosignalen berechneten Parameter am nächsten ist. Die erzeugte subjektive Note kann beispielsweise diejenige sein, welche dem Lexikon zugeordnet ist, welches den nächsten repräsentativen Vektor enthält.
  • Die Problematik der vektoriellen Quantisierung wurde in der Literatur identifiziert. Sie setzt sich zusammen aus der Definition seiner drei voneinander abhängigen Hauptkomponenten:
    • – das Bilden von Vektoren ausgehend von zu codierenden Informationen
    • – die Bildung des Lexikons ausgehend von einer Lernprozesseinheit oder Lernprozessmenge,
    • – das Auffinden des nächsten Nachbarn mit Hilfe eines geeigneten Abstands.
  • Der Begriff des Abstands oder der Verzerrung zwischen zwei Vektoren wird für das Auffinden des nächsten Nachbarn in dem Lexikon eingeführt. Verschiedene Abstände wurden vorgeschlagen, um die vektorielle Quantisierung zu optimieren und um sich dem Maximum der Treue zu den anfänglichen Signalen anzunähern.
  • Der Abstand oder die Verzerrung, welcher quadratischer Fehler genannt wird, ist unter denjenigen, welche am häufigsten für die vektorielle Quantisierung benutzt werden. Die Bezeichnung Abstand ist hier nicht exakt, es handelt sich in der Tat um das Quadrat eines Abstands im mathematischen Sinn des Begriffs.
    Figure 00160001
    (A, B) zwei Vektoren der Dimension t.
  • Die vektorielle Quantisierung wird im Rahmen der vorliegenden Erfindung benutzt, um ein objektives Wahrnehmungsmodell zu erarbeiten: Dieses Modell wird ausgenutzt werden, um die Qualität der audiovisuellen Signale zu quantifizieren.
  • Gegeben sei eine Menge E von N0 Audiosequenzen Si von jeweils n Sekunden Dauer. Sie sind alle zusammengesetzt aus einer Serie von Video- und von Audiosamples. E = {Si/i = ... N0}
  • Diese Sequenzen sind durch repräsentative Konfigurationen von Verteilungssystemen des digitalen Fernsehens hindurchgegangen. Tatsächlich sind die benutzten Netze der Verteilung und der Ausstrahlung der Satellit, das Kabel und das terrestrische Netz. Störungen wurden während der Übertragung der audiovisuellen Signale eingeführt, um sie zu beeinträchtigen.
  • Wir haben subjektive Versuche mit dieser Menge von beeinträchtigten Sequenzen realisiert. Eine Datenbasis von subjektiven Beurteilungen wurde erarbeitet. BDES = {NSi/i = 1 .. N0}
  • NSi stellt die für die Sequenz Si der Menge E erhaltene subjektive Beurteilung dar.
  • Auf der anderen Seite haben wir eine andere Datenbasis von mit der Menge der Sequenzen E realisierten objektiven Messungen MOi erarbeitet. BDMO = {MOi/i = 1 .. N0}mit MOi= (V1, .., Vt)
  • Jede Sequenz Si entspricht ein Vektor MOi (siehe 5). Diese Vektoren sind aus t Parametern Vj zusammengesetzt, welche aus den Audio- und/oder Videosignalen berechnet sind. Diese Parameter können vergleichend (Kategorie I) oder intrinsisch (Kategorie II) sein. Sie informieren über den Inhalt und über die von der Sequenz erfahrenen Beeinträchtigungen.
  • Mit dem Ziel, für jede audiovisuelle Sequenz Si ihren repräsentativen Vektor MOi zu bilden, berechnet ein eigenes Verfahren die ausgehend von den Proben der digitalen Audio- und Videosignale extrahierten objektiven Parameter.
  • Ausgehend von den Daten, die wir beschrieben haben, führt das Verfahren eine Lernprozessphase durch. In der Tat erlaubt es eine an diese Daten angepasst Behandlung, eine Wissensbasis zu entwickeln, welche das Modell anschließend in seiner Betriebsphase benutzen wird.
  • Für die Menge E der Sequenzen Si wird eine Aufteilung in k Klassen von Beurteilungen EAj durchgeführt. Dafür wird der Wert der der Sequenz Si zugeordneten subjektiven Note NSi benutzt. Das Entwicklungsintervall von NSi wird dann in k unterschiedliche Segmente Ij unterteilt, denen die k Lernprozessmengen oder -einheiten EAj zugeordnet werden. Eine repräsentative subjektive Note NSRj wird jedem Segment j zugeordnet. Diese Operation kann auch als Gruppierung von Daten, welche Sequenzen betreffen, deren Qualität als ähnlich oder gleich beurteilt wurde, in jede Beurteilungsklasse EAj bezeichnet werden.
  • Der Wert k (beispielsweise k = 5) wird hier als Anwendungsbeispiel in der 5 verwendet. Eine Unterteilung in eine geringere oder größere Anzahl von Klassen ist abhängig von den Genauigkeitserfordernissen der Messausrüstung denkbar.
  • Die Vektoren MOi der objektiven Messungen der Sequenzen Si entsprechend einem Intervall Ij von Werten von subjektiven Noten NSi sind in der Lernprozessmenge EAj gesammelt. Demnach werden k Lernprozessmengen ausgehend von den anfänglichen Datenbasen gebildet (siehe 5).
  • Ausgehend von einer Lernprozessmenge von M Vektoren ist das Referenzlexikon, zusammengesetzt aus N Vektoren, dasjenige, welches die anfängliche Vektormenge am besten darstellt. Es verwendet eine Gruppe von Vektoren, welche den kleinsten mittleren Abstand oder die kleinste mittlere Verzerrung in Bezug auf alle der M Vektoren der Lernprozessmenge unter den anderen möglichen Lexika aufweisen. Die Erstellung des Lexikons basiert auf der Bildung der besten repräsentativen Vektoren.
  • Klassifikationsalgorithmen werden in einer Weise benutzt, dass ein Lexikon von repräsentativen Vektoren ausgehend von einer Anfangsmenge ausgearbeitet wird, letztere wird „training set" oder Lernprozessmenge genannt.
  • Viele Autoren haben Lösungen für die Klassifizierung in Lexika vorgeschlagen.
    • – Dynamische ungeordnete Mengen oder LBG-Algorithmus,
    • – Verfahren mit neuronalem Netzwerk nach Kohonen.
  • Für jede Klasse von Beurteilungen EAj und ausgehend von Vektoren MOi von objektiven Messungen und ihren Beurteilungen NSi (siehe 6) wird eine Prozedur FORM zur Bildung eines Lexikons Dj angewendet.
  • k Lexika Dj, zusammengesetzt jeweils aus Nj Vektoren, werden k Klassen oder Bereichen von subjektiven Beurteilungen zugeordnet. Der Wert von Nj wird gemäß der anfänglichen Zahl von Vek toren der Klasse von Beurteilungen EAj und gemäß der für das Modell gewünschten Genauigkeit ausgewählt. Jedes Lexikon Dj ist demnach einem Intervall Ij von subjektiven Beurteilung zugeordnet.
  • Die für die Bildung der Lexika Dj benutzten Algorithmen sind der LBG und die neuronalen Netze nach Kohonen. Diese Verfahren ergeben vergleichbare Ergebnisse. Diese Techniken sind ebenso sehr effizient, da trotz der Größen Nj, welche ausdrücklich begrenzt gewählt werden (beispielsweise Nj = ...), die Referenzlexika repräsentativ bleiben.
  • Das Ziel einer automatischen Vorrichtung zur Qualitätsbeurteilung von Signalen ist es, eine endgültige Beurteilung dieser Signale bereitzustellen. Bei seiner betrieblichen Funktionsphase verhält sich das in der vorliegenden Erfindung beschriebene Verfahren gemäß zwei Prozessen (siehe 7).
  • Der erste liegt in der Behandlung von Audio- und/oder Videoproben der zu bewertenden audiovisuellen Sequenz SAE, mit dem Ziel, die Parameter daraus zu extrahieren. In der Tat wird ein Vektor Vi von Indikatoren der Qualität des Audios und/oder des Videos gemäß den vorher beschriebenen Kategorien I und/oder II gebildet. Er erlaubt es, die sachbezogenen Eigenschaften für die Qualifizierung der Signale darzustellen.
  • Der zweite Prozess (QUANT) bringt durch vektorielle Qualifizierung des Vektors Vi von Eingangsparametern, welcher einer zu beurteilenden audiovisuellen Sequenz zugeordnet ist, mit dem Index j des nächsten Lexikons in Übereinstimmung. Dafür wird die Minimierung der Verzerrung zwischen dem Eingangsvektor und allen Vektoren der k Lexika durchgeführt. Sie erlaubt es, das Lexikon Dj zu identifizieren, zu dem der Vektor U gehört, der Vi am nächsten ist, und damit den Index j.
  • Der vorteilhafterweise bei diesem Ansatz verwendete Arbeitsvorgang ist die vektorielle Quantisierung. Sie erlaubt es, die nächsten Nachbarn eines Vektors Vi zu finden und demzufolge seinen besten Repräsentanten in einem Lexikon oder in einer Menge von Lexika. Für einen gegebenen Eingangsvektor Vi bestimmt die vektorielle Quantisierung, zu welchem Vektor welches Lexikons er am nächsten ist, und weist diesem Vektor die signifikante Lernprozessbeurteilung NSRj dieses Lexikons Dj zu.
  • Wir erinnern uns, dass der Index j nichts anderes ist als die folgend einer Abstufung von subjektiven Versuchen, welche mit den audiovisuellen Sequenzen durchgeführt wurde, erhaltene Qualitätsklasse. Für diese Technik der Auftrennung in mehrere Lernprozessmengen gibt es zwei wichtige Punkte, welche studiert werden müssen:
    • – die Größe jedes Lexikons
    • – die Position der Beurteilungsbereiche jedes Lexikons.
  • Die Größe jedes der Lexika weist eine gewisse Wichtigkeit auf. In der Tat beeinflusst die Anzahl von Vektoren direkt die Repräsentativität des Lexikons und demzufolge die Effizienz der vektoriellen Quantisierung.
  • Auf der anderen Seite ist die Position der Bereiche der Beurteilungen genauso wichtig. Man muss wissen, welche Beurteilungen man miteinander verknüpft. Man kann beispielsweise einen großen Bereich von Beurteilungen für schlechte Qualität reservieren, so dass es der Quantisierer bereits detektiert, wenn sich die Qualität minimal verschlechtert. Man kann auch das umgekehrte machen, indem man einen kleinen Bereich für die schlechte Qualität reserviert, womit der Quantisierer eine schlechte Videoqualität nur dann detektiert, wenn sie stark beeinträchtigt ist.
  • Man sieht daher, dass mit Hilfe dieser zwei Parameter die vektorielle Quantisierung beeinflusst werden kann. Diese Quantisierung kann auch beeinflusst werden, indem eine Vorbehandlung der objektiven Parameter, welche ausgehend von den Audio- und/oder Videosignalen berechnet werden, zusätzlich durchgeführt wird.
  • Wir haben obenstehend die Funktionsweise des Verfahrens in drei hauptsächlichen Schritten definiert: Zuerst die Bildung der objektiven Messungen MOi, dann das Erstellen der Lexika Dj und schließlich die Suche des Lexikons, in dem sich der einem Vektor von objektiven Messungen nächste Vektor findet. Das Modell kann daher der Sequenz Si, welche durch die objektiven Messungen MOi repräsentiert wird, die dem Lexikon Dj zugeordnete repräsentative subjektive Beurteilung NSRj zuweisen, indem es seine Wissensbasis benutzt. Währenddessen wurde kein Prozess zur letztendlichen Auswahl der Bereiche des Maßstabs der subjektiven Beurteilungen definiert und auch nicht ein Prozess zur Auswahl der mit jedem Lexikon Dj verknüpften repräsentativen Beurteilung NSRj. Die Aufteilung des Maßstabs der subjektiven Beurteilung ist ein wichtiger Schritt, da er die Beurteilungen definiert, welche das Modell während seiner Arbeitsphase bereitstellen kann.
  • Gemäß dem vorher Definierten ist jede Klasse durch die Lernprozessmenge EAj von objektiven Messungen und ein Intervall Ij des Maßstabs der subjektiven Beurteilungen NSi definiert.
  • Im Fall von subjektiven Tests mit diskretem Beurteilungsmaßstab ist die Anzahl der repräsentativen Beurteilungen und der entsprechenden Bereiche natürlicherweise durch die Anzahl von Stufen, welche die Beurteilung annehmen kann, begrenzt (im Allgemeinen 5 Stufen).
  • Im Fall von subjektiven Tests mit kontinuierlichem Beurteilungsmaßstab sind die Möglichkeiten viel variantenreicher: Die Anzahl von Lernprozessmengen kann irgendeine sein. Zwei Ansätze sind daher möglich: Entweder werden die Intervalle Ij von subjektiven Beurteilungen willkürlich ausgewählt, oder eine automatische Prozedur, welche es erlaubt, die Intervalle Ij auszuwählen, wird angewendet.
  • Willkürliche Aufteilung
  • Eine willkürliche Auswahl von Intervallen der subjektiven Beurteilungen NSi (siehe 8 für eine gleichförmige Aufteilung) hat den Vorteil, keine bestimmte Ressource während der tatsächlichen Realisierung der Erfindung in einer Ausrüstung zu benötigen. Währenddessen riskiert diese Aufteilung, welche die effektive Verteilung der subjektiven Beurteilungen für die Sequenzen der Menge E (9) nicht berücksichtigt, bestimmte Intervalle zu definieren, welche keine oder sehr wenige subjektive Beurteilungen NSi enthalten, während ein einziges Intervall den Großteil der Beurteilungen umfassen kann.
  • Eine derartige Aufteilung unabhängig von den subjektiven Beurteilungen zwischen den Intervallen bedeutet eine zweifache Unannehmlichkeit für das Modell:
    • 1. An erster Stelle kann, was auch immer die Größe der Lexika und die Empfindlichkeit der Parameter V1 ... t gegenüber Beeinträchtigungen ist, die Standardabweichung zwischen der vorhergesagten subjektiven Beurteilung und der tatsächlichen subjektiven Beurteilung nicht minimiert werden. In der Tat ordnet die Betriebsphase jedem Vektor V1 ... t von objektiven Parametern die Beurteilung NSRp des nächsten Lexikons Dp zu. Wenn das durch NSRt repräsentierte Intervall von subjektiven Beurteilungen eine bestimmte Intervalllänge hat, kann die mittlere Standardabweichung nicht unter eine bestimmte Schwelle, welche ei ne Funktion der Größe des Intervalls ist, fallen. In dem Fall, in welchem die entsprechende Lernprozessmenge EAp den größten Teil der Sequenzen Si enthält, wird das Modell sehr häufig die Beurteilung NSRp benutzen und damit häufig einen nominalen Fehler begehen. Die mittlere Leistung des Modells für diese Klasse p von Beurteilungen wäre somit durch diese Intervallgröße begrenzt und würde durch Verkleinerung des Intervalls verbessert werden. Als Folge ist für die Klasse p, welche den größten Teil der Sequenzen Si repräsentiert, die mittlere Leistung des Modells begrenzt. Man sieht daher, dass eine Aufteilung in kleinere Intervalle in den dichten im Sinne der Anzahl der in der Datenbasis DBNS erhaltenen Anzahl von subjektiven Noten Gebieten vorteilhaft ist.
    • 2. An zweiter Stelle kann ein willkürlicher Ansatz für die Aufteilung eine nicht optimale globale Anzahl von Vektoren für die Lexika mit sich bringen. Wir haben gesehen, dass die für diese Art der Aufteilung gebildeten Lernprozessmengen EAj sehr verschiedene Größen aufweisen können. Es folgt, dass für eine Lernprozessmenge EAp bedeutender Größe der Algorithmus der Phase der Klassifizierung viele Vektoren in dem Lexikon Dp benötigt, um damit Erfolg zu haben, EAp mit einer gewünschten Verzerrung zu repräsentieren. Dies liegt an der großen Verschiedenheit der zu repräsentierenden Daten. Eine Aufteilung, welche garantiert, kein bedeutendes Ungleichgewicht Bezug auf die Größe der Lernprozessmengen zu erhalten, kann diesen Punkt lösen. Auf der anderen Seite ist es nicht sicher, dass die geringere Größe der anderen Lernprozessmengen es erlaubt, die Größe ihrer Lexika zu verringern. Die Menge bewirkt daher eine Vergrößerung der Kosten der tatsächlichen Realisierung des Verfahrens ebenso wie eine Verringerung der Genauigkeit des Modells.
  • Eine teilweise Antwort auf diese Unannehmlichkeiten ist es, jedes Mal, wenn eine Menge E von Sequenzen studiert wird, eine Aufteilung in empirischer Weise durchzuführen. Auf diese Weise wird erzwungen, den Beurteilungsmaßstab an Orten, wo die Anzahl von Beurteilungen NSi bedeutend ist, feiner zu unterteilen.
  • Währenddessen ist es wesentlich interessanter, ein automatisches Verfahren anzuwenden, welches es weiter erlaubt, eine optimale Aufteilung vorzunehmen, indem eine automatische Aufteilung vorgenommen wird, welche sich an die statistische Verteilung der der Menge E von Sequenzen Si zugeordneten subjektiven Beurteilungen anpasst.
  • In der Tat hat man gesehen, dass eine zufällige Aufteilung nicht von vorneherein an die Verteilung der subjektiven Beurteilungen NSi entlang des subjektiven Beurteilungsmaßstabes angepasst ist. Obgleich die Menge E von Lernprozesssequenzen repräsentativ für die Beeinträchtigungen ist, beobachtet man im Allgemeinen, dass die Verteilung von Werten von NSi tatsächlich weit davon entfernt ist, gleichförmig zu sein, beispielsweise im Fall des digitalen Fernsehens. 9 zeigt die Häufigkeit des Auftretens der subjektiven Beurteilungen NSi: Man beobachtet, dass viele Beurteilungen nahe einer Stufe hoher Qualität sind. Die Klassen hoher Qualität können daher die große Mehrzahl der Beurteilungen repräsentieren, währende die niedrigste Klasse fast leer sein wird. Die Benutzung eines automatischen Verfahrens zur optimalen Unterteilung, welches eine besser auf diese Menge DBNS von subjektiven Beurteilungen angepasste Aufteilung garantiert, wird es erlauben, eine bessere Leistung des letztendlichen Modells zu erhalten.
  • Dieses Problem wird vorteilhafterweise durch ein Verfahren gelöst, welches aus zwei Schritten besteht Als erstes eine Identifizierung der k repräsentativen subjektiven Beurteilungen NSRj, dann die Auswahl der subjektiven Beurteilung NSRj, welche am besten eine subjektive Beurteilung NSi repräsentiert.
    • 1. Eine Identifizierung der k repräsentativen subjektiven Beurteilungen NSRj wird ausgehend von den subjektiven Beurteilungen NSi (10) durchgeführt. Das Verfahren betrachtet jede Beurteilung NSi als eindimensionalen Vektor, mit dem Ziel, ein Verfahren zur Ausarbeitung eines Referenzlexikons anzuwenden. Eines der Verfahren LBG, dynamische Mengen oder neuronales Netz nach Kohonen wird benutzt, um die gewünschte Anzahl k von Repräsentanten NSRj zu erhalten. Diese Art von Verfahren neigt dazu, dass Minimum der Verzerrung im Sinn der Distanz Δ zwischen der Menge der NSi und der NSRj zu suchen. Es reagiert damit perfekt auf die Unannehmlichkeiten der willkürlich genannten Positionierung.
    • 2. Die Klassifizierung der Lernprozessmenge DBMO in k Mengen EAj. Dafür betrachtet man die Datenpaare (MOi, NSi), von welchen jedes einer Sequenz Si entspricht. Für jedes Paar sucht man die NSi nächste repräsentative subjektive Beurteilung NSRj durch Anwendung des Verfahrens der vektoriellen Quantisierung, was es erlaubt, den Index j zu bestimmen. Der Vektor von objektiven Daten MOi wird somit der Lernprozessmenge EAj hinzugefügt. Die Schaffung der Mengen EAj, auf die die Vektoren MOi aufgeteilt werden, wird beendet, wenn alle Paare (MOi, NSi) behandelt wurden.
  • Ein Beispiel der optimalen Aufteilung des subjektiven Beurteilungsmaßstabs ist in 11 gegeben und veranschaulicht den Unterschied zu der 8.
  • Das Modell wird hier mit dem Ziel benutzt, seine Möglichkeiten bei einem digitalen Fernsehprogramm, welches Beeinträchtigungen enthält, darzustellen. Die subjektiven Beurteilungen wur den gemäß dem Protokoll SSCQE erhalten, das heißt eine Beurteilung jede halbe Sekunde. Man betrachtet also das Programm als aus einer Serie von genauso vielen kurzen Sequenzen Si einer halben Sekunde wie Beurteilungen bestehend.
  • Die 12 zeigt die zusammenhängende Entwicklung der subjektiven Beurteilung NS während einer halben Stunde. Man stellt fest, dass die zugeordnete objektive Beurteilung NSR der subjektiven Beurteilung NS (gepunktet) präzise folgt.
  • Die folgende 13 zeigt in künstlicher Weise die Übereinstimmung zwischen der durch das Modell vorhergesagten Beurteilung und der tatsächlichen subjektiven Beurteilung für dasselbe Experiment ebenso wie die Genauigkeit des Modells. Man unterscheidet 7 Klassen, welche genauso vielen Werten von vorhergesagten Beurteilungen entsprechen (objektive Beurteilung NS auf der Abszisse, subjektive Beurteilung NSR auf der Ordinate).
  • Für jede Klasse stellt die Grafik den Durchschnitt der tatsächlichen subjektiven Beurteilungen (Moy) dar, welche von den Beobachtern gegeben wurden. Man stellt die gute Linearität der Übereinstimmung zwischen den zwei Beurteilungen fest, was ein erstes Kriterium der Leistung darstellt.
  • Der Durchschnitt der tatsächlichen subjektiven Beurteilungen (Moy) ist zudem von zwei anderen Marken (EcartT) eingerahmt. Für jede Klasse zeigen die Marken die Amplitude der Standardabweichungen der subjektiven Beurteilungen, welche der objektiven Beurteilung der Klasse entsprechen, in Bezug auf den Durchschnitt. Ein geringer Wert bedeutet, dass das Modell genau ist. Die erhaltenen Werte für diese Standardabweichungen sind vergleichbar zu Leistungen von subjektiven Tests, welche die Referenz für das Modell darstellen, was ganz zufriedenstellend ist.
  • Ein Ausführungsbeispiel der Erfindung wird nun in Verbindung mit den 14 und 15 beschrieben.
  • Mit dem Ziel, die Qualität von audiovisuellen Signalen zu beurteilen, führt das Verfahren also zwei Phasen durch: Eine Lernprozessphase (14) und eine Betriebsphase (15).
  • Die Lernprozessphase wird ein einziges Mal durchgeführt. Sie besteht daraus, die k Lexika Dj von Vektoren von objektiven Messungen und die zugeordneten repräsentativen subjektiven Beurteilungen NSRj zu erhalten. Diese Phase wird realisiert ausgehend von:
    • – auf der einen Seite, von der Datenbasis der objektiven Messungen (BDMO), welche ausgehend von Audio- und/oder Videosignalen und einem (nicht dargestellten) Prozessor zur Berechnung der Parameter (MO, objektive Messungen) erhalten wird.
    • – auf der anderen Seite von einer Basis von subjektiven Beurteilungen (DBNS), welche ausgehend von denselben Audio- und/oder Videosignalen wie die Basis BDMO und von einer Menge von Beobachtern erhalten wird.
  • Die Lernprozessphase kann in drei Schritte unterteilt werden:
    • 1. Ein Prozessor zum Erstellen des Lexikons erlaubt es, die k subjektiven Beurteilungen NSRj zu finden, welche für die Basis BDNS repräsentativ sind.
    • 2. Jeder Vektor der Basis BDMO wird einer der k Lernprozessmengen EAj abhängig von der Klasse j, zu welcher die dem Vektor entsprechende Beurteilung NS der Basis BDNS gehört, zugeordnet. Die Klasse j wird mittels eines Prozessors der vektoriel len Quantisierung erhalten, welcher die der Beurteilung NS nächste Beurteilung NSRj sucht.
    • 3. Schließlich wird jedes Lexikon Dj (dicol, ... dicok), zusammengesetzt aus Nj Vektoren, ausgehend von der entsprechenden Lernprozessmenge EAj mittels eines Prozessors zum Erstellen des Lexikons erhalten.
  • Die Betriebsphase wird dann jedes Mal angewendet, wenn die Qualität einer audiovisuellen Sequenz vorhergesagt werden soll. Diese Phase nutzt das durch das Modell während der Lernprozessphase erworbene Wissen aus. Für einen Vektor von objektiven Parametern MO, welcher aus der audiovisuellen Sequenz hervorgeht, wird eine objektive Qualitätsbeurteilung berechnet. Die objektiven Parameter MO werden von einem Prozessor zur Berechnung der Parameter bereitgestellt, welcher irgendeiner sein kann.
  • Diese Betriebsphase kann in zwei Schritte unterteilt werden:
    • 1. Ein Prozessor zur vektoriellen Quantisierung sucht den dem eingehenden Vektor von objektiven Parametern MO nächsten Vektor U in allen Vektoren der Lexika Dj (dicol, ... dicok), welche während der Lernprozessphase erhalten wurden. Der Prozessor stellt somit die Nummer j des entsprechenden Lexikons bereit.
    • 2. Der folgende Schritt kann somit der audiovisuellen Sequenz die Qualitätsbeurteilung mit dem Wert NSRj zuweisen.

Claims (6)

  1. Verfahren zur Qualitätsbeurteilung einer audiovisuellen Sequenz, dadurch gekennzeichnet, dass es anwendet: a) einen Lernprozess, welcher die Zuordnung einer subjektiven Beurteilung NSi zu jeder von N0 Lernprozesssequenzen Si (mit i = 1, 2 ... N0), welche durch einen Lernprozessvektor MOi, welcher für jede Sequenz Si gemäß einem ersten Vektorisierungsverfahren bereitgestellt ist, bezeichnete Beeinträchtigungen aufweisen, umfasst, um eine aus N0 Lernprozessvektoren MOi, welche nur die bezeichneten Beeinträchtigungen und die subjektiven Beurteilungen NSi beinhalten, zusammengesetzte Datenbasis zu bilden, b) die Klassifizierung der N0 Lernprozessvektoren MOi in k Beurteilungsklassen in Abhängigkeit von dem ihnen zugeordneten subjektiven Beurteilungen NSi, um k Lernprozesseinheiten EAj (mit j = 1, 2 ... k) zu bilden, welchen k signifikante Lernprozessbeurteilungen NSRj zugeordnet sind, c) die Erarbeitung eines Vektors MO gemäß dem ersten Vektorisierungsverfahren für die zu beurteilende audiovisuelle Sequenz, d) Zuordnung derjenigen signifikanten Lernprozessbeurteilung NSRj zu der zu beurteilenden audiovisuellen Sequenz, welche der Lernprozesseinheit EAj entspricht, welche den im Sinne der vektoriellen Quantifizierung dem Vektor MO ähnlichsten Vektor enthält.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es zwischen b) und c) umfasst: b1) die Ausarbeitung eines Referenzlexikons Dj für jede Lernprozesseinheit EAj, zusammengesetzt aus Nj Referenzvektoren VR1 (mit 1 = 1, 2 ... Nj), durch vektorielle Quantifizierung gemäß einem zweiten Vektorisierungsverfahren, und zwischen c) und d): c1) die Auswahl des dem Vektor MO ähnlichsten Referenzvektors VRe, unter den Referenzvektoren VR1 der k Referenzlexika, und dadurch, dass es die Zuordnung der dem Referenzlexikon, zu dem der ähnlichste Referenzvektor VR1 gehört, entsprechenden signifikanten Lernprozessbewertung NSRj zu der zu beurteilenden audiovisuellen Sequenz durchführt.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die signifikanten Lernprozessbeurteilungen NSRj in gleichförmiger Weise entlang der Beurteilungsskala aufgeteilt sind.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die signifikanten Lernprozessbeurteilungen NSRj zumindest bestimmter der k Referenzlexika in ungleichmäßiger Weise entlang der Beurteilungsskala aufgeteilt sind.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Aufteilung derart ist, dass zumindest bestimmte der Referenzlexika im Wesentlichen die gleiche Anzahl an Referenzvektoren enthalten.
  6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass es zwischen a) und b) eine Identifizierung der k signifikanten Lernprozessbeurteilungen NSRj umfasst, ausgehend von subjektiven Beurteilungen NSi, von denen jede als eindimensionaler Vektor angesehen wird, indem ein mi nimaler Abstand zwischen der Menge der N0 subjektiven Beurteilungen NSi und den k signifikanten Lernprozessbeurteilungen ermittelt wird.
DE60004852T 1999-06-23 2000-06-15 Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen Expired - Lifetime DE60004852T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9908008A FR2795578B1 (fr) 1999-06-23 1999-06-23 Procede d'evaluation de la qualite de sequences audiovisuelles
FR9908008 1999-06-23
PCT/FR2000/001659 WO2001001705A1 (fr) 1999-06-23 2000-06-15 Procede d'evaluation de la qualite de sequences audiovisuelles

Publications (2)

Publication Number Publication Date
DE60004852D1 DE60004852D1 (de) 2003-10-02
DE60004852T2 true DE60004852T2 (de) 2004-07-15

Family

ID=9547198

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60004852T Expired - Lifetime DE60004852T2 (de) 1999-06-23 2000-06-15 Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen

Country Status (6)

Country Link
US (1) US7107251B1 (de)
EP (1) EP1195064B1 (de)
CA (1) CA2377808C (de)
DE (1) DE60004852T2 (de)
FR (1) FR2795578B1 (de)
WO (1) WO2001001705A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876381B2 (en) * 2001-01-10 2005-04-05 Koninklijke Philips Electronics N.V. System and method for providing a scalable objective metric for automatic video quality evaluation employing interdependent objective metrics
US7010159B2 (en) * 2001-04-25 2006-03-07 Koninklijke Philips Electronics N.V. Apparatus and method for combining random set of video features in a non-linear scheme to best describe perceptual quality of video sequences using heuristic search methodology
US6822675B2 (en) * 2001-07-03 2004-11-23 Koninklijke Philips Electronics N.V. Method of measuring digital video quality
US6829005B2 (en) * 2001-11-21 2004-12-07 Tektronix, Inc. Predicting subjective quality ratings of video
FR2835124B1 (fr) 2002-01-24 2004-03-19 Telediffusion De France Tdf Procede de synchronisation de deux flux de donnees numeriques de meme contenu
FR2854535B1 (fr) * 2003-04-30 2005-09-16 France Telecom Procede et terminal de mesure de qualite de communication vocale par paquets
FR2879387B1 (fr) 2004-12-15 2007-04-27 Tdf Sa Procede de transmission a debit binaire variable a travers un canal de transmission.
JP2008533937A (ja) * 2005-03-25 2008-08-21 アルゴリス インコーポレイテッド Dctコード化されたビデオの品質を、オリジナルビデオシーケンスを用いて、もしくは用いずに客観評価する装置及び方法
WO2011134110A1 (en) 2010-04-30 2011-11-03 Thomson Licensing Method and apparatus for measuring video quality using at least one semi -supervised learning regressor for mean observer score prediction
CA2967369A1 (en) * 2014-11-14 2016-05-19 Videopura, Llc System and method for adaptive video streaming with quality equivalent segmentation and delivery
CN108537703A (zh) * 2018-04-17 2018-09-14 吉林省晨明网络通信有限公司 一种消防单位的训练考核数据管理方法及相关装置
CN112822482B (zh) * 2020-12-31 2022-11-08 上海掌门科技有限公司 一种确定音视频通话的评估得分的方法与设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system

Also Published As

Publication number Publication date
CA2377808C (fr) 2006-10-03
WO2001001705A1 (fr) 2001-01-04
EP1195064A1 (de) 2002-04-10
FR2795578A1 (fr) 2000-12-29
DE60004852D1 (de) 2003-10-02
EP1195064B1 (de) 2003-08-27
FR2795578B1 (fr) 2002-04-05
US7107251B1 (en) 2006-09-12
CA2377808A1 (fr) 2001-01-04

Similar Documents

Publication Publication Date Title
DE69910358T2 (de) Verfahren und vorrichtung zur objektiven bewertung der videoqualität
DE102013211571B4 (de) Konzept zur bestimmung der qualität eines mediadatenstroms mit variierender qualität-zu-bitrate
DE102013017395B3 (de) Verfahren und Vorrichtung zur automatisierten Waldbrandfrüherkennung mittels optischer Detektion von Rauchwolken
DE60020795T2 (de) Echtzeitmodellierung des Verhaltens menschlicher Sehvermögenssysteme
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE69628282T2 (de) Verfahren zur kompression mehrerer videobilder
DE69726567T2 (de) Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen
DE60004852T2 (de) Verfahren zur qualitätsbeurteilung von audiovisuellen sequenzen
DE3854846T2 (de) Kodierung eines Bildsignals mit Berücksichtigung des Kontrasts in jedem Bild und Dekodierung analog zur Kodierung
Seshadrinathan et al. Automatic prediction of perceptual quality of multimedia signals—a survey
DE60205232T2 (de) Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals
DE3800634A1 (de) Bildinformation-kompressionsvorrichtung
EP0934567A1 (de) Verfahren zur klassifikation der statistischen abhängigkeit einer messbaren zeitreihe
DE60005798T2 (de) Analyse der qualität von videosignalen
Geng et al. A stereoscopic image quality assessment model based on independent component analysis and binocular fusion property
DE60006651T2 (de) Verfahren, vorrichtung und verwendung zur bewertung von kodierten bildern
DE102006044929B4 (de) Vorrichtung zum Bestimmen von Informationen zur zeitlichen Ausrichtung zweier Informationssignale
DE19521408C1 (de) Verfahren zum objektiven Bewerten der Bildqualität zwei- oder dreidimensionaler Bilder
Dusek et al. Testing of new models of the human visual system for image quality evaluation
DE69730694T2 (de) Trainingsverfahren für ein signalklassifikationsgerät
Ponomarenko et al. Statistical evaluation of no-reference image visual quality metrics
DE60211854T2 (de) Vorrichtung zur datenverarbeitung
DE69911964T2 (de) Leistungsmessung von fernmeldesystemen
EP0916206B1 (de) Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
DE3917362C2 (de) Verfahren zum Vermindern visueller Artefakte aufgrund von Kompression über eine Transformierte in medizinischen Bildern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition