DE69730694T2

DE69730694T2 - Trainingsverfahren für ein signalklassifikationsgerät

Info

Publication number: DE69730694T2
Application number: DE69730694T
Authority: DE
Inventors: Michael Peter Hollier; Philip Ipswich GRAY
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-02-29
Filing date: 1997-01-30
Publication date: 2005-09-22
Anticipated expiration: 2017-01-31
Also published as: NO983959D0; NO983959L; CA2237814C; EP0879527A1; CA2237814A1; EP0879527B1; AU1553197A; AU711615B2; WO1997032428A1; JP2000506327A; JP4008497B2; DE69730694D1

Description

Diese Erfindung betrifft die Klassifikation von Daten, die zum Trainieren eines lernfähigen Verfahrens verwendet werden können. Sie kann auf die Bewertung von Signalen angewendet werden, die von einem Telekommunikationssystem übertragen werden, um zum Beispiel die Bedingung von Telekommunikationssystemen in Betrieb zu bewerten. Ausführungsbeispiele einer Anwendung auf Audio-Signale, die Sprache übertragen, und auf Video-Signale werden erläutert.
Über Telekommunikationsverbindungen übertragene Signale können beträchtlichen Transformationen unterzogen werden, wie z. B. Digitalisierung, Komprimierung von Daten, Datenreduktion, Verstärkung, usw. Alle diese Verfahren können die Signale verzerren. Zum Beispiel beim Digitalisieren einer Wellenform, deren Amplitude größer ist als der maximale Digitalisierungswert, werden die Spitzen der Wellenform in eine Form mit flachem Dach konvertiert (ein Vorgang, der als Spitzenunterdrückung bekannt ist). Dies fügt dem Signal unerwünschte Oberschwingungen hinzu. Verzerrungen können auch durch elektromagnetische Störungen von externen Quellen verursacht werden.
Viele der von den oben erwähnten Vorgängen zugeführten Verzerrungen sind nicht-linear, so dass ein einfaches Test-Signal nicht auf die gleiche Weise wie eine komplexe Wellenform, wie Sprache, oder überhaupt nicht verzerrt sein muss. Für eine Daten übertragende Telekommunikationsverbindung ist es möglich, die Verbindung unter Verwendung aller möglicher Datenzeichen zu testen, z. B. die beiden Zeichen 1 und 0 für eine binäre Verbindung, die in DTMF-Systemen (dual-tone multifrequency – Mehrfrequenzwahl) verwendeten zwölf Tonpaare oder der in einem QAM-System (quadrature amplitude mo dulation – Quadratur-Amplitudenmodulation) verwendete Bereich von „Konstellations-Punkten". Jedoch besteht ein analoges Signal nicht aus einer begrenzten Anzahl von genau definierten Signalelementen, sondern ist ein sich kontinuierlich veränderndes Signal. Zum Beispiel variieren die Elemente eines Sprachsignals nicht nur gemäß dem Inhalt der Rede (und der benutzten Sprache), sondern auch gemäß den physiologischen und psychologischen Charakteristiken des einzelnen Sprechers, die Charakteristiken wie Tonlage, Lautstärke, charakteristische Vokallaute usw. betreffen.
Es ist bekannt, eine Telekommunikationseinrichtung zu testen, indem Test-Sequenzen unter Verwendung von Mustern des zu übertragenden Signaltyps abgelaufen werden lassen. Ein Vergleich zwischen der Test-Sequenz, wie sie von der Einrichtung im Test modifiziert wurde, und der originalen Test-Sequenz kann dazu verwendet werden, die von der zu testenden Einrichtung eingeführte Verzerrung zu identifizieren. Diese Anordnungen erfordern jedoch die Verwendung einer vorher arrangierten Test-Sequenz, was bedeutet, dass sie nicht auf Live-Telekommunikationsverbindungen – d. h. im Moment in Betrieb befindliche Verbindungen – angewendet werden können, da die Test-Sequenz den übertragenen Verkehr stören würde und von den Benutzern erkennbar wäre, und auch, weil der Live-Verkehr selbst (dessen Inhalt nicht vorbestimmt werden kann) von der Test-Einrichtung als eine Verzerrung des Test-Signals erfasst würde.
Um Tests auf in Betrieb befindlichen Einrichtungen durchzuführen, ohne die von der Einrichtung übertragenen Signale zu stören (so genanntes nicht-störendes Überprüfen), ist es wünschenswert, die Tests unter Verwendung der Live-Signale selbst als die Test-Signale durchzuführen. Ein Problem bei der Verwendung eines Live-Signals als das Test-Signal liegt jedoch darin, dass am Punkt der Messung nicht sofort eine Probe des Original-Signals erhalten werden kann.
Jedes Mittel, mit dem das Original-Signal an den Ort der Messung übertragen werden könnte, kann genauso ähnlichen Verzerrungen ausgesetzt werden wie die Verbindung im Test.
Die ebenfalls anstehenden internationalen Patentanmeldungen dieses Anmelders WO96/06495 und WO96/06496 (beide am 29. Februar 1996 veröffentlicht) schlagen zwei mögliche Lösungen für dieses Problem vor. WO96/06495 beschreibt die Analyse bestimmter Charakteristiken von Sprache, die unabhängig vom Sprecher sind, um zu bestimmen, wie das Signal von der Telekommunikationsverbindung modifiziert wurde. Sie beschreibt auch die Analyse bestimmter Charakteristiken von Sprache, die im Verhältnis zu anderen Charakteristiken, welche nicht selbst direkt messbar sind, auf eine Weise variieren, wie sie gleich bleibend ist zwischen individuellen Sprechern, und die deswegen dazu verwendet werden kann, Information über diese anderen Charakteristiken abzuleiten. Zum Beispiel variiert der spektrale Inhalt eines stimmlosen Reibelauts mit der Lautstärke (Amplitude), aber auf eine von dem einzelnen Sprecher unabhängige Weise. Der spektrale Inhalt kann somit dazu verwendet werden, die Amplitude des Original-Signals zu schätzen, die mit der Amplitude des erhaltenen Signals verglichen werden kann, um die Dämpfung zwischen dem Sprecher und dem Messpunkt zu schätzen.
In WO96/06496 wird der Inhalt eines erhaltenen Signals von einer Sprach-Erkennungsvorrichtung analysiert und die Ergebnisse dieser Analyse werden von einer Sprach-Synthesevorrichtung verarbeitet, um wieder ein Sprachsignal ohne Verzerrungen zu erzeugen. Das Signal ist in Tonhöhe und Dauer normalisiert, um eine Schätzung des originalen Sprach-Signals zu erzeugen, das mit dem erhaltenen Sprach-Signal verglichen werden kann, um jegliche Verzerrung oder Störung zu identifizieren, z. B. unter Verwendung von Wahrneh mungs-Analysetechniken, wie in den internationalen Patentanmeldungen WO94/00922 und WO95/15035 beschrieben.
Typischerweise setzt eine Sprachübertragung über eine begrenzte Bandbreite eine Datenreduktion ein, z. B. LPCs (linear predictive codecs). Derartige Codecs basieren auf einer Approximation an den menschlichen Vokaltrakt und stellen Segmente einer Sprach-Wellenform als die Parameter dar, die erforderlich sind, um äquivalentes Verhalten in einem Modell eines Vokaltrakts hervorzurufen.
In der internationalen Patentbeschreibung WO97/05730 des Anmelders ist offenbart ein Verfahren und eine Vorrichtung zum Prüfen der Qualität eines Sprache übertragenden Signals, wobei das Signal gemäß einem spektralen Darstellungsmodell analysiert wird (vorzugsweise ein unvollkommenes Modell eines Vokaltrakt, obwohl stattdessen Gehörmodelle verwendet werden können), um Ausgangs-Parameter zu erzeugen, wobei die Ausgangs-Parameter gemäß einer vorgegebenen Netzwerk-Definitions-Funktion klassifiziert werden, und eine Ausgangs-Klassifikation wird erzeugt. Die Klassifikationen können gemäß einer Netzwerk-Definitions-Funktion erzeugt werden, die in einem vorherigen Schritt von Daten abgeleitet wird, für die der Ausgangswert bekannt ist. Alternativ kann die Funktion gemäß vorgegebener Regeln abgeleitet werden, die wiederum von bekannten Charakteristiken abgeleitet werden, von denen bekannt ist, dass sie unter bestimmten Bedingungen in dem zu testenden System auftreten.
Der Begriff „Gehörmodell" bedeutet in diesem Kontext ein Modell, dessen Reaktion auf einen Reiz ungefähr dieselbe ist wie die Reaktion des menschlichen Gehörsystems (d. h. die Ohr-Gehirn-Kombination). Es ist eine besondere Kategorie des allgemeineren Begriffs „Wahrnehmungs"-Modell, d. h. ein Modell, dessen Reaktion auf einen Reiz ungefähr dieselbe ist wie die Reaktion des menschlichen Sinnessystems (d. h. Auge-Gehirn, Ohr-Gehirn, usw.).
Der Begriff „unvollkommenes Modell eines Vokaltrakt" bedeutet in diesem Kontext ein Vokaltrakt-Modell, das nicht „ideal" ist, aber Koeffizienten erzeugen kann, die Gehör-Spektral-Elemente betreffen, die der menschliche Vokaltrakt nicht erzeugen kann. Insbesondere bedeutet es ein Modell, das parametrisch sowohl die Sprach- als auch die Verzerrungs-Signalelemente darstellen kann, was normalerweise nicht das Ziel beim Design von Modellen eines Vokaltrakts ist. Sprach-Proben, von denen bekannt ist, dass sie schlecht konditioniert oder gut konditioniert sind (d. h. sie enthalten derartige Verzerrungselemente oder nicht), werden von dem Vokaltrakt-Modell analysiert und die erzeugten Koeffizienten können dann zum Beispiel durch ein lernfähiges Verfahren, wie ein neuronales Netz, identifiziert werden, ob sie gut oder schlecht konditionierte Signale betreffen. Auf diese Weise können Klassifikationsdaten für Vokaltrakt-Parameter erzeugt werden, die zu jedem Signaltyp gehören (Parameter, die zu beiden gehören und deswegen unzuverlässige Indikatoren sind, können bei der Erzeugung der Klassifikationsdaten außer Acht gelassen werden), so dass, wenn im Folgenden ein unbekanntes Signal verarbeitet wird, eine Ausgabe erzeugt werden kann unter Verwendung der vorher erzeugten Klassifikationsdaten, die zu den Parametern gehören, welche das unbekannte Signal betreffen.
Sequenzen von Parametern wie auch einzelne Parameter können ebenfalls verwendet werden, um ein Signal zu charakterisieren. Techniken der Datenkomprimierung können dazu verwendet werden, die aufgezeichneten Parameter zu speichern.
Die Vorrichtung der oben erwähnten WO97/05730 weist Trainingsmittel zum Erzeugen des gespeicherten Satzes von Klassifikationsda ten auf, wobei das Trainingsmittel erste Eingabemittel aufweist, die eine Sprachprobe an das Modell-Mittel liefern; zweite Eingabemittel, die bekannte Ausgabe-Information (hier im Folgenden als „Markierung" bezeichnet), die die Sprachprobe betrifft, an das Trainingsmittel liefern; Mittel zum Erzeugen von Klassifikationsdaten von den Modell-Mitteln basierend auf den Markierungen und Speichermittel zum Speichern von Klassifikationsdaten, die von den Modell-Mitteln erzeugt werden.
Die in der Trainingsprobe verwendeten Sprachsegmente müssen demnach jeweils als gut oder schlecht konditioniert markiert werden. Ein Ansatz eines „Experten-Systems", wie er von Quincy in einem Vortrag am „Institute of Electrical and Electronic Engineers" (Seattle, 9. Juni 1987) beschrieben wurde, wäre ein größeres Unterfangen für eine typische Probe, da sie mehrere Stunden an Sprache aufweist, und viele derartige Proben erforderlich sind, um das System dahingehend zu trainieren, dass es korrekt auf eine Reihe von Sprechern, Bedingungen und andere Variablen reagiert. Die Dauer eines einzelnen Segments beträgt typischerweise 20 Millisekunden, somit müssen insgesamt mehrere Millionen Segmente markiert werden. Darüber hinaus wäre es notwendig, eine Anzahl von menschlichen Analysten zur Klassifizierung jeder Probe zu verwenden, um aufgrund individueller Veränderungen bei der Wahrnehmung, Konzentration und anderen Faktoren, ein statistisch gültiges Ergebnis zu erhalten. Darüber hinaus ist es für einen menschlichen Beobachter nicht möglich, genau zu identifizieren, ob individuelle Segmente von derartig kurzer Dauer gut oder schlecht konditioniert sind.
Die Erfindung sieht eine Trainingsvorrichtung gemäß Anspruch 1, ein Verfahren zum Trainieren gemäß Anspruch 28 und eine Signalklassifikationsvorrichtung gemäß Anspruch 49 vor.
Gemäß einem ersten Aspekt der Erfindung ist eine Trainingsvorrichtung zum Training einer Signalklassifikationsvorrichtung des Typs vorgesehen, der ausgebildet ist, vorgegebene Anteile eines Signals zu erfassen, die charakteristisch für eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation zu erzeugen, welche das Ausmaß und/oder die Typen der vorhandenen Verzerrung anzeigt, dadurch gekennzeichnet, dass die Trainingsvorrichtung aufweist Mittel zum Bereitstellen einer Trainingssequenz mit einem ersten Signal und einer verzerrten Version des ersten Signals, Analyse-Mittel zum Empfangen der Trainingssequenz und zum Erzeugen eines Verzerrungs-Wahrnehmungs-Maßes zur Anzeige des Grades, zu dem die Verzerrung für einen menschlichen Beobachter wahrnehmbar wäre, und Mittel zum Anwenden des Verzerrungs-Wahrnehmungs-Maßes und des verzerrten Signals auf die Signalklassifikationsvorrichtung, um die auf Signale, die darauf folgend in die Signalklassifikationsvorrichtung eingegeben werden, anzuwendenden Klassifikationen zu bestimmen.
In einem weiteren Aspekt weist die Erfindung auf ein Verfahren zum Trainieren eines lernfähigen Signalklassifikationsprozesses des Typs, in dem vorgegebene Komponenten eines Signals erfasst werden, die charakteristisch für eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation erzeugt wird, welche das Ausmaß und/oder die Typen der vorhandenen Verzerrung anzeigt, wobei das Trainingsverfahren gekennzeichnet ist durch die Schritte Bereitstellen einer Trainingssequenz mit einem ersten Signal und einer verzerrten Version des ersten Signals, Messen des Grades, zu dem die Verzerrung des Signals für einen menschlichen Beobachter wahrnehmbar ist, und Definieren eines Klassifikationsvorgangs in Übereinstimmung mit dem Ergebnis der Messung, wobei der Klassifikationsvorgang ausgebildet ist, Signale, die darauf folgend in den Signalklassifikationsprozess eingegeben werden, in Übereinstimmung mit dem Vor handensein oder der Abwesenheit einer wahrnehmbar signifikanten Verzerrung zu klassifizieren.
Die Erfindung erstreckt sich auch auf ein Klassifikationsmittel für eine Signalklassifikationsvorrichtung, die ausgebildet ist, Verzerrungen, die in Signalen auftreten, die in die Vorrichtung eingegeben wurden, zu erfassen und zu klassifizieren in Übereinstimmung mit in dem Klassifikationsmittel gespeicherten Klassifikationsdaten, dadurch gekennzeichnet, dass die in dem Klassifikationsmittel gespeicherten Klassifikationsdaten gemäß dem Verfahren der Erfindung erzeugt wurden.
In einer bevorzugten Anordnung schätzt der Messvorgang den Effekt, der von verzerrten und nicht verzerrten Versionen des gleichen Signals auf das menschliche Sinnessystem erzeugt würde, und ermittelt die Unterschiede zwischen den Effekten, und erzeugt das Verzerrungs-Wahrnehmungs-Maß abhängig von dem Unterschied. Vorzugsweise erzeugt der Messvorgang das Verzerrungs-Wahrnehmungs-Maß, das von der Signifikanz der Verzerrung für einen menschlichen Beobachter und nicht-linear von der Amplitude der Verzerrung abhängt. Der Messvorgang erzeugt vorzugsweise eine Vielzahl von Signalen der Spektralanteile des Test-Signals und/oder des verzerrten Signals, und schätzt für jedes Signal der Spektralanteile den Maskierungseffekt, den das Spektralanteilssignal auf das menschliche Sinnessystem erzeugen würde.
In einer Sprachanwendung sind die Trainingssequenzen typischerweise große Mengen natürlicher Sprache, um die Variationen bei den Charakteristiken individueller Sprecher zu berücksichtigen. In dem bevorzugten Ausführungsbeispiel weist der Messvorgang die Schritte auf Zerlegen des verzerrten Sprachsignals in eine Vielzahl von Spektralanteilbänder, wobei die Spektralanteilbänder geformt sind, eine spektrale Maskierung zu liefern; Berechnen der zeitlichen Maskierung des Signals aufgrund vorausgehender und/oder nachfolgender zeitlicher Teile davon; Bilden einer Darstellung des Unterschieds zwischen dem Anteilssignal des verzerrten Signals und einem entsprechend berechneten Anteil des Testsignals für jedes der Signale der Spektralanteile; und Erzeugen des Verzerrungs-Wahrnehmungs-Maßes aus dem Unterschiedsmaß.
Geeignete Sprachanalyseprozesse werden in den internationalen Patentbeschreibungen WO94/00922, WO95/01011 und WO95/15035 beschrieben. Durch automatisches Markieren der Abschnitte unter Verwendung eines Verzerrungs-Wahrnehmungs-Maßes kann der Klassifikationsvorgang objektiv, aber nichtsdestotrotz gemäß Faktoren abgeleitet werden, die für einen menschlichen Beobachter wahrnehmbar sind.
Die Erfindung ist nicht auf Sprachsignale oder auf Audiosignale begrenzt. Dieselben Prinzipien können zum Beispiel auf Videosignale angewendet werden. In einem derartigen Fall können einzelne Rahmen des Videosignals die einzelnen Elemente der Trainingssequenz bilden.
Videosignale sind einer Vielzahl von Verzerrungen ausgesetzt, die für den Betrachter wahrnehmbare Effekte verursachen können. Verzerrungen, welche die Begrenzungen zwischen verschiedenen Bildelementen betreffen, sind im Allgemeinen in der Wahrnehmung signifikanter als Veränderungen, die in einem Körper auftreten, der von dem Betrachter als Teil eines Bildelements angesehen wird. Derartige Verzerrungen der Begrenzungen umfassen Unschärfe, Verschiebung (wodurch die Gestalt eines Objekts verändert wird), das vollständige Verschwinden einer Begrenzung oder stattdessen das Erscheinen einer Begrenzung, wo es keine Begrenzung geben sollte. Deswegen i dentifiziert in einer bevorzugten Anordnung das System Verzerrungen, welche die Charakteristiken von Begrenzungen betreffen, mit größerer wahrnehmbarer Signifikanz als andere Typen von Verzerrung.
Eine Begrenzung wird von einem Betrachter dort wahrgenommen, wo es eine abrupte Veränderung bei einer Eigenschaft des Bildes gibt, normalerweise Helligkeit und/oder Farbe. Zwei derartiger Veränderungen räumlich nahe zusammen können als eine einzige Begrenzung wahrgenommen werden, z. B. eine Linie, die zwei Bereiche von ansonsten ähnlicher Helligkeit und Farbe trennt. Begrenzungen können deswegen durch eine spektrale Zerlegung des von dem Signal abstammenden Bildes identifiziert werden. Eine abrupte Veränderung erzeugt eine Hochfrequenz-„Spitze" in der spektralen Zerlegung. In einem Farbsystem ist eine Veränderung in der Farbe als eine Veränderung in der relativen Helligkeit der das Bild darstellenden unterschiedlichen Farben zu identifizieren.
Verzerrungseffekte können von dem Erzeuger des Videosignals bewusst eingeführt werden, so dass es vorzuziehen ist, ein Videosignal ausreichend lange zu überwachen, um zu identifizieren, ob der identifizierte Effekt anhält (was auf einen Fehler bei der Übertragung hindeutet) oder vorübergehend war (was darauf hindeutet, das er bewusst eingeführt wurde). Derartige Effekte treten in Sprachsystemen weniger häufig auf.
Lernfähige Vorgänge, wie neuronale Netze, funktionieren am effektivsten mit einfachen binären Tests (gut/schlecht; ja/nein). Es ist deswegen vorteilhaft, das Überwachungssystem so anzuordnen, dass mehrere derartige Vorgänge unabhängig ablaufen, wobei jeder eine andere Eigenschaft oder Kombination aus Eigenschaften testet und jeder sich auf einen oder mehrere unterschiedliche Parameter bezieht.
Die Erfindung kann dazu verwendet werden, ein lernfähiges System an Ort und Stelle (in situ) zu trainieren oder neu zu trainieren. Dadurch kann das lernfähige System auf einem echten System trainiert werden, wodurch es eine neue Charakteristik erkennen kann, während sich das zu überwachende System entwickelt. Dieses „in situ"-Training kann durchgeführt werden durch Übertragen einer Trainingssequenz über das zu überwachende System (wodurch temporär ein Kanal des Systems besetzt wird) und Vergleichen der empfangenen Sequenz mit einer identischen Probe derselben Sequenz, die an dem Überwachungsstandort erzeugt wird.
Beispielhafte Ausführungsbeispiele der Erfindung werden nun beschrieben unter Bezugnahme auf die begleitenden Zeichnungen, welche die funktionelle Beziehung der verschiedenen Elemente des Ausführungsbeispiels zeigen. Es ist offensichtlich, dass die Erfindung vorteilhaft in Software integriert werden kann, die auf einem allgemein verwendeten Computer läuft.
1 zeigt die funktionellen Elemente eines lernfähigen Systems zum Analysieren eines Sprachsignals, die für einen Trainingsvorgang konfiguriert sind.
2 zeigt die Trainingsvorrichtung von 1 detaillierter.
3 zeigt die einen Teil von 2 bildende Analysevorrichtung detaillierter.
4 zeigt eine Vorrichtung, durch die anfängliche Sprachproben, die von der Datenquelle von 2 geliefert werden, erzeugt werden können.
5 zeigt die funktionellen Elemente desselben Systems, das für einen Durchlauf mit unbekannten Daten konfiguriert ist.
6 zeigt eine zu der von 3 analoge Analysevorrichtung zum Trainieren einer Vorrichtung, um ein Videosignal zu analysieren.
7 zeigt in der Form einer Blockdarstellung eine zu der von 5 analoge Vorrichtung zum Analysieren eines Videosignals, die unter Verwendung der Vorrichtung von 6 trainiert wurde.
8 zeigt in der Form einer Blockdarstellung eine Variante von 7, die eine Vielzahl von Klassifizierern aufweist, und ebenso einen Vorgang zum Neutrainieren in situ.
Die drei Ausführungsbeispiele werden nun detailliert erläutert. Zuerst wird das Ausführungsbeispiel von 1 bis 5 erläutert, das für ein Sprache übertragendes Signal konfiguriert ist.
Zur besseren Verständlichkeit dieser Erfindung ist es hier angebrachte, kurz die Charakteristiken von Vokaltrakt-Analysesystemen und lernfähigen Vorgängen zu diskutieren. Der Vokaltrakt ist eine ungleichförmige akustische Röhre, die von der Stimmritze bis zu den Lippen reicht und in der Form als eine Zeitfunktion variiert [Fant G C M, „Acoustic Theory of Speech Production", Mouton and Co., "s-gravehage, Niederlande, 1960]. Die hauptsächlichen anatomischen Bestandteile, welche die zeitvariable Veränderung verursachen, sind die Lippen, der Kiefer, die Zunge und das Gaumensegel. Zur leichteren Berechnung ist es wünschenswert, dass Modelle für dieses Sys tem sowohl linear als auch zeitlich unveränderlich sind. Leider erfüllt gerade der menschliche Sprachmechanismus keine dieser Eigenschaften genau. Sprache ist ein kontinuierlicher zeitvariabler Vorgang. Zusätzlich ist die Stimmritze nicht unabhängig von dem Vokaltrakt, was zu nicht-linearen Charakteristiken führt (Flanagan J L, „Source-System Interactions in the Vocal Tract", Ann. New York Acad. Sci 155, 9–15, 1968]. Durch vernünftige Annahmen ist es jedoch möglich, lineare zeitlich unveränderliche Modelle über kurze Zeitintervalle zu entwickeln, um Sprachereignisse zu beschreiben [Markel J D, Gray A H, „Linear Prediction of Speech", Springer-Verlag Berlin Heidelberg New York, 1976]. Lineare prädiktive Codecs unterteilen Sprachereignisse in kurze Zeitabschnitte oder -Rahmen und verwenden vorherige Sprachrahmen, um einen eindeutigen Satz von Prädiktor-Parametern zu erzeugen, um die Sprache in einem aktuellen Rahmen darzustellen [Atal B S, Hanauer S L, „Speech Analysis and Synthesis by Linear Prediction of the Speech Wave", J. Acoust. Soc. Amer., Vol. 50, S. 637–655, 1971]. Die lineare prädiktive Analyse wurde zu einem oft verwendeten Verfahren, um solche Sprachparameter wie Tonhöhe, Formant und Spektra zu schätzen. Gehörmodelle (Zeit/Frequenz/Amplitude-Spektrogramme) bauen auf hörbare Merkmale des überwachten Schalls und berücksichtigen nicht, wie sie erzeugt werden, wohingegen ein Vokaltrakt-Modell identifizieren kann, ob das Signal sprachähnlich ist, d. h. ob ein echter Vokaltrakt dieses erzeugt haben könnte. Die nicht hörbaren Unterschiede, die von Gehörmodellen nicht erkannt werden, werden dennoch von einem Vokaltrakt-Modell erkannt.
Zum Zweck der Messung einer Signalqualität müssen die erzeugten Ausgangs-Parameter in Bezug auf die gemessene Eigenschaft empfindlich sein, d. h. die wahrgenommene Sprachqualität. Das Modell muss deswegen nicht-sprachähnliche Verzerrung modellieren können und deswegen wäre ein ideales Vokaltrakt-Modell nicht geeignet. Ein ideales Modell würde alle Eingangs-Signale in sprachähnliche Form umwandeln (nicht notwendigerweise die originalen Signale, wenn die Verzerrung schlecht ist). Dies würde den Klassifikationsvorgang unzuverlässig machen, da sowohl die verzerrten Eingaben als auch die sauberen Eingaben als sprachähnlich klassifiziert würden, wodurch der Trainingsvorgang nicht möglich wäre. Es ist deswegen wichtig, dass das Vokaltrakt-Modell im vorher definierten Sinn „nicht perfekt" ist, da sich das Verfahren darauf stützt, dass die Ausgabe-Parameter von dem Vokaltrakt-Modell gegenüber dem Vorhandensein von nicht-menschlichen Verzerrungselementen empfindlich sind, um zwischen schlecht konditionierten und gut konditionierten Signalen zu unterscheiden. Das lineare prädiktive Codierungsmodell, wie in „Digital Processing of Speech Signals" von Rabiner L. R., Schafer R. W., (Prentice Hall 1978), Seite 396, beschrieben, ist zur Verwendung als Analysator 3 geeignet.
Eine Spektralanalyse kann als Alternative zu einem Vokaltrakt-Modell verwendet werden, zum Beispiel „one-third octave analysis", wie in Abschnitt 3.6 in „Frequency Analysis" von R. B. Randall (veröffentlicht Bruel & Kjaer, 1987, ISBN 87 87355 07 8) diskutiert wird.
Die Charakteristiken von lernfähigen Vorgängen, und insbesondere von neuronalen Netze, werden im Folgenden diskutiert. Um eine Anzahl von Eingängen auf eine geringere Anzahl von vorgegebenen Ergebnisklassen abzubilden, ist es möglich, eine Reihe von Regeln zu verwenden, insbesondere, wenn der Abbildungs-Vorgang ein natürliches System darstellt. Wenn jedoch das natürliche System zu komplex ist oder die erforderliche Abbildung auf abstrakten Parametern beruht, kann ein lernfähiger Vorgang verwendet werden, um die erforderliche Abbildung als Antwort auf eine Reihe bekannter Ergebnisse, als die Trainingsdaten bezeichnet, zu entwickeln. Die bekannten Ergebnisse werden verwendet, um die Relation zwischen den Ein gangs-Parametern und den Ergebnisklassen derart zu ermitteln, dass nachfolgende unbekannte Kombinationen von Eingängen klassifiziert werden können. Ein neuronales Netzwerk ist gestaltet, die Art zu modellieren, in der das Gehirn eine bestimmte Aufgabe oder Funktionen von Interesse durchführt. Es ist möglich, ein neuronales Netz zu trainieren, nützliche Berechnungen durch einen Vorgang des Lernens durchzuführen [Haykin S, „Neural Networks, A Comprehensive Foundation", Macmillan IEEE Press, 1994]. Um eine gute Leistung zu erreichen, setzen neuronale Netze eine massive Zusammenschaltung einfacher Verarbeitungseinheiten ein. Zwischengeschaltete Einheiten-Verbindungsstärken, als Gewichte bekannt, werden zur Speicherung des Wissens des Systems verwendet [Aleksander I, Morton H, „An Introduction of Neural Computing", Chapman and Hall London, 1990]. Das zum Durchführen des Lernvorgangs verwendete Verfahren wird als der Lernalgorithmus bezeichnet, dessen Funktion es ist, die Gewichte des Netzes planmäßig zu modifizieren, um so ein gewünschtes Gestaltungsziel zu erreichen. Die Leistung eines neuronalen Netzes wird abgeleitet von einer massiv parallel verteilten Struktur und seiner Fähigkeit, zu lernen und somit zu generalisieren; Generalisierung bezieht sich auf das Netzwerk, das vernünftige Ausgaben für Eingaben erzeugt, die während des Trainings nicht vorgekommen sind. Überwachtes Lernen ist eine Form von Training, das ein Anbieten bekannter Beispiele von Klassen an das Netzwerk und dann ein Modifizieren der miteinander verbundenen Gewichte umfasst, um den Unterschied zwischen der gewünschten und der tatsächlichen Antwort des Systems zu minimieren. Das Training wird für viele Beispiele aus jeder der Klassen von Eingaben wiederholt, bis das Netz einen stabilen Zustand erreicht. Es gibt eine nahe Analogie zwischen der von einem neuronalen Netz durchgeführten Eingabe-Ausgabe-Abbildung und der Klassifikation, die von einer nicht-parametrischen statistischen Inferenz erreicht wird.
Die Funktion des Systems des ersten (Audio-)Ausführungsbeispiels wird nun erläutert. Das in den 1 und 5 gezeigte System weist eine Quelle von Trainingsdaten 1 (1) und eine Quelle von Live-Sprachverkehr (reale Daten) 2 (5) auf, von denen beide Eingaben an einen Analysator 3 liefern. Zu den Trainingsdaten gehörende Parameter werden ebenfalls von der Trainingsdaten-Quelle 1 an eine Klassifikationseinheit 5 geliefert, was als ein lernfähiger Vorgang gezeigt wird, in diesem Ausführungsbeispiel ein neuronales Netz 5. Es ist offensichtlich, dass andere lernfähige Vorgänge verwendet werden können, z. B. adaptives Clustering. Von dem Analysator 3 ausgegebene Parameter werden an das neuronale Netz 5 gegeben. Während des Trainingsvorgangs liefert das neuronale Netz 5 Parameter an einen Speicher 4. Diese Parameter definieren eine Netzdefinitionsfunktion. Wenn reale Daten gelesen werden, werden die Parameter aus dem Speicher 4 abgefragt und von dem neuronalen Netz 5 verwendet, um die Netzdefinitionsfunktion auf die von dem Vokaltrakt-Analysator 3 erzeugten Werte durchzuführen, um Klassifikationsdaten zu erzeugen, die an eine Ausgabe 6 geliefert werden. Typischerweise befinden sich die Ausgabedaten in der Form einer Klassifikation, die auf den von dem Analysator 3 erzeugten Werten basiert, die in das neuronale Netz 5 eingegeben werden, das gemäß der Netzdefinitionsfunktion arbeitet, um das Ausmaß der identifizierten Verzerrung anzuzeigen. Mehrere Qualitätsgrade können definiert werden, indem eine Anzahl von Ausgabe-Klassen gesetzt wird. Für praktische Zwecke wird das Signal als eine Sequenz von Zeitrahmen analysiert. Parameter, die von einen ersten Zeitrahmen betreffenden Daten abgeleitet werden, können bei der Analyse von nachfolgenden Zeitrahmen verwendet werden. Zu diesem Zweck wird die Ausgabe des Vokaltrakt-Analysators 3 in einem Pufferspeicher 7 zur späteren Verwendung bei nachfolgenden Vorgängen des neuronalen Netzes 5 gespeichert.
Bevor der Trainingsvorgang der Erfindung diskutiert wird, wird die Verwendung des Systems, wenn es trainiert ist, zur Überwachung von Live-Verkehr unter Bezugnahme auf 5 beschrieben. Reale Daten können von der Quelle 2 an das Vokaltrakt-Analyse-System 3 geliefert werden. Verzerrung und Störungen können dazu führen, dass einzelne Zeitrahmen des originalen Signals verzerrt werden oder ganz fehlen. Wenn zum Beispiel ein bestimmter Rahmen nur erscheinen kann, indem er auf einen Rahmen eines kleinen Teilsatzes der möglichen Rahmen nachfolgt, zeigt sein Erscheinen, wenn er einem Rahmen folgt, der nicht zu dem Teilsatz gehört, dass entweder der bestimmte Rahmen oder sein Vorgänger (oder beide) aus einem originalen Rahmen, der für den Kontext geeignet war, verzerrt wurden. Die Parameter jedes einzelnen Rahmens können „erlaubt" sein (d. h. die Parameter fallen in die erwarteten Bereiche), aber eine zusammen betrachtete Sequenz von Parametern kann ungültig sein und anzeigen, dass eine Verzerrung stattfindet. Die in dem Speicher 4 gespeicherten Parameter definieren eine mit derartigen Sequenzen trainierte Netzwerk-Definitions-Funktion. Die von der Vokaltrakt-Analyse erzeugten Parameter werden als Eingabe an das von der Netzwerk-Definitions-Funktion definierte neuronale Netz 5 gegeben, das die von der Vokaltrakt-Analyse erzeugten Daten klassifiziert, um eine Ausgabe 6 zu produzieren. Die Netzwerk-Definitions-Funktion ist durch in dem Speicher 4 gespeicherte Parameter definiert, um eine Klassifikation der Qualität des an die Quelle 2 gelieferten Signals abzuleiten.
Um Parameter einzuschließen, die zeitabhängige Eigenschaften betreffen, z. B. um nicht nur zu identifizieren, ob sich die augenblicklichen Charakteristiken einer Probe innerhalb der Fähigkeiten des menschlichen Vokaltrakts befinden, sondern auch, ob sich die zeitvariablen Eigenschaften ebenfalls innerhalb derartiger Fähigkeiten befinden, wird die Ausgabe von der Vokaltrakt-Analyse in einem Puffer speicher 7 gespeichert. Die gespeicherten Parameter werden als Eingabe dem neuronalen Netz 5 als „historische" Daten zugeführt, wenn eine nachfolgende Probe dem neuronalen Netz 5 zugeführt wird, wodurch die Charakteristiken derartiger zeitabhängiger Proben gemessen werden.
Viele einzelne Telekommunikationsverbindungen können aufeinander folgend verbunden sein als die Quelle 2, um die Signalqualität einer großen Anzahl von Verbindungen zu überwachen. Obwohl insbesondere für nicht-intrusive Messvorgänge geeignet, kann die Erfindung auch bei so genannten „intrusiven" Messvorgängen verwendet werden, bei denen ein Testsignal statt ein Live-Signal als die Quelle benutzt wird.
Die Ausgabe 6 kann in jeder geeigneten Form einem Benutzer angezeigt werden. Zum Beispiel kann eine Quelle, für die eine schlechte Leistung darstellende Klassifikation erzeugt wird, einem Netzverwalter angezeigt werden, so dass die Telekommunikationsverbindung, die durch die Quelle 2 dargestellt wird, außer Dienst genommen und, wenn nötig, repariert werden kann, wobei die Verbindung durch ein anderes Routing wiederhergestellt wird, wenn möglich. In einer möglichen Anordnung kann ein derartiger Vorgang automatisch gesteuert werden oder es kann einem menschlichen „Kontrolleur" überlassen werden, auf die von der Ausgabe 6 gelieferten Anzeigen zu reagieren.
Die für jeden Zeitrahmen aufgezeichneten Parameter können als Kurz-Code, der die Parameter darstellt, gespeichert werden. Dies erfordert weniger Speicher und kann auch die Verarbeitungszeit beträchtlich abkürzen. Die Code-Sequenz von aufeinander folgenden Zeitrahmen sollte, wie die Parameter, die sie darstellen, einer Sequenz einer Anzahl erkannter Sequenzen folgen, die realen Sprachtönen entspricht. Sollte ein Satz von Parametern für einen Zeitrah men identifiziert werden, die einen Code aufweisen, der nicht den vorherigen Elementen der Sequenz folgen soll oder überhaupt nicht codiert ist, zeigt dies eine vorhandene Verzerrung an.
Um die in dem Speicher 4 gespeicherten Parameter zu erzeugen, muss das neuronale Netz 5 unter Verwendung von Trainingsdaten zuerst trainiert werden, um die Netzwerk-Definitions-Funktion herzustellen. Dieser Vorgang wird in den 1 bis 4 dargestellt. Testdaten werden von einer Trainingsvorrichtung 1 an den Vokaltrakt-Analysator 3 geliefert. Die Trainingsvorrichtung 1 liefert auch die Testdaten betreffende Klassifikationsparameter an das neuronale Netz 5, damit Markierungen erzeugt werden können, welche die Netzwerk-Definitions-Funktion definieren.
Die Erzeugung dieser Markierungen wird im Folgenden erläutert unter Bezugnahme auf 2, welche die Trainingsvorrichtung 1 detaillierter zeigt. Um die Masse an Daten zu erzeugen, die zum Trainieren eines neuronalen Netzes erforderlich ist, wurde unter Verwendung von Sprachabschnitten, die zu kurz sind, um einzeln von einem menschlichen Operator genau geprüft zu werden, ein automatisches Verfahren zum Erzeugen derartiger Signale erfunden. Dieser Vorgang beruht auf der Verwendung eines Wahrnehmungs-Analyse-Modells, d. h. der Vorgang prüft, ob eine Verzerrung eines Signals für einen menschlichen Beobachter signifikant ist. Anfangs ist eine Quelle von Testsignalen 8 vorgesehen, die zwei zugehörige Speicher (8a, 8b) aufweist. Der erste Speicher 8a hat eine „gute" Signalprobe. Die vollständige Probe hat typischerweise eine Länge von mehreren Stunden. Der zweite Speicher 8b weist eine entsprechende Version derselben Probe auf, die durch Mittel, die später beschrieben werden, einer Verzerrung unterzogen wurde. Die in dem zweiten Speicher 8b gespeicherte Probe umfasst verschiedene Ausmaße und Typen von Verzerrung. Das verzerrte Signal ist in kurze Abschnitte geteilt. Das gute Signal aus dem Speicher 8a und seine entsprechende verzerrte Version aus dem Speicher 8b werden entsprechend durch einen ersten und zweiten Eingang 11, 12 an eine Analyseeinheit 9 eingegeben, die eine Ausgabe mit einer Sequenz von Markierungen liefert, die dann an das neuronale Netz 5 übertragen wird (1). Die verzerrte Version des Signals wird auch an eine Segmentier-Vorrichtung 10 gesendet, die das Signal in einzelne Abschnitte (typischerweise 20 Millisekunden) unterteilt, die den Markierungen entsprechen. Diese Abschnitte werden dann an den Vokaltrakt-Analysator 3 übertragen (1). Die Analyseeinheit 9 vergleicht die „gute" Probe mit der verzerrten Probe und erzeugt eine Sequenz von Markierungen, die das Ausmaß darstellt, zu dem die in jedem Abschnitt vorhandene Verzerrung von dem Modell als wahrnehmbar für einen menschlichen Zuhörer angesehen wird. Dieser Analysevorgang wird hier allgemein erläutert, aber die in den veröffentlichten internationalen Patentanmeldungen WO94/00922, WO95/01011 und WO95/15035 verwendeten Analysetechniken sind besonders geeignet.
3 zeigt die Analyseeinheit 9 detaillierter. Die Eingaben 11 und 12 von dem ersten und zweiten Speicher (8a, 8b), die entsprechend das „gute" Signal und die verzerrte Version des guten Signals übertragen, werden an ein Gehörmodell (jeweils 13, 14) eingegeben und die Ausgaben der Gehörmodelle werden in einem Vergleicher 15 verglichen. Es ist für Fachleute offensichtlich, dass entsprechende Durchgänge des guten und des verzerrten Signals stattdessen abwechselnd durch dasselbe Gehörmodell geleitet und ein Vergleich zwischen den Ausgaben dieses Gehörmodells für den Durchgang des guten und des verzerrten Signals gemacht werden kann. In jedem Fall ist es wichtig, dass derselbe Vorgang auf beide Signale angewendet wird. Das Modell erzeugt eine Anzahl von Parametern, die die wahrnehmbare Wichtigkeit der Charakteristiken einzelner Signalabschnitte betrifft. Der Vorgang kann ein Trennen der Probe in verschiedene überlap pende Spektralanteile unter Verwendung von Überlappungs-Filtern umfassen, um das Phänomen simultaner Maskierung zu modellieren, in dem ein Ton einen leiseren gleichzeitigen Ton maskiert, der in der Frequenz nahe liegt, und kann auch ein Vergleichen jedes Abschnitts mit einem oder mehreren vorausgehenden oder nachfolgenden Abschnitten) umfassen, um das Phänomen zeitlicher Maskierung zu modellieren, in dem ein leiser Ton, der einem lauteren Ton unmittelbar vorhergeht oder nachfolgt, weniger wahrnehmbar ist, als wenn der lautere Ton nicht vorhanden wäre.
Wie in den oben erwähnten Patentbeschreibungen beschrieben, erzeugt der Gehörmodell-Vorgang eine Serie von Werten der wahrnehmbaren Signifikanz jedes spektralen und zeitlichen Anteils der Probe. Da die Probe sowohl spektral als auch zeitlich analysiert wird, ist es günstig, diese Serie von Werten als eine Fläche zu visualisieren, auf der die wahrnehmbare Signifikanz jedes spektralen/zeitlichen Anteils durch Definieren von Zeit- und Tonhöhe-Achsen dargestellt wird, wobei die wahrnehmbare Signifikanz für jedes Zeit/Spektral-Koordinatenpaar durch die Höhe der Fläche über einer durch diese Achsen definierte Ebene dargestellt wird. Die Fläche wird hier als eine „Gehör-Fläche" bezeichnet. Die diese Fläche definierenden Werte werden selbstverständlich gespeichert und digital verarbeitet.
Die der „guten" Probe und der verzerrten Probe entsprechenden zwei Gehör-Flächen werden dann in einem Vergleicher 15 verglichen, um eine Reihe von Fehlerwerten zu erzeugen, die zur Bildung einer Fehlerfläche in einer Fehlerfläche-Erzeugungseinheit 16 zusammengestellt werden. Wie in den oben angeführten veröffentlichten internationalen Patentbeschreibungen detaillierter beschrieben wird, ist die Fehlerfläche im Wesentlichen ein Maß über eine Anzahl von Zeitabschnitten und Frequenz- oder Tonhöhen-Bänder (die einzelnen Bereiche der Bänder werden nach gleicher wahrnehmbarer Signifikanz gewählt, z. B. indem das Signal in Einklang mit der Bark-Skala gebracht wird), in welcher der wahrgenommene Wert des Tonsignals auf einer Achse dargestellt wird, die sowohl zu der Tonhöhen- als auch zu der Zeitachse rechtwinklig ist. Unterschiedliche Gewichtungen können auf positive und negative Werte angewendet werden, um zum Beispiel die Unterschiede bei der Beeinträchtigung zu berücksichtigen, die aus einem Signalverlust im Gegensatz zu zusätzlichem Rauschen resultieren. Wenn gar keine Verzerrung vorhanden ist, hat die Fehlerfläche einen Wert von Null über die gesamte Fläche. Wenn, wie in dem zu erläuternden Beispiel, die Werte auf der Fehlerfläche als der absolute Wert des Unterschieds (möglicherweise gewichtet, wie beschrieben) zwischen Ausgaben des Gehörmodells bestimmt werden, sind alle Werte der Fehlerfläche positiv.
Wie in den oben erwähnten Patentanmeldungen beschrieben, können die Charakteristiken der Fehlerfläche dazu verwendet werden, einen Wert für die wahrnehmbare Wichtigkeit der darauf enthaltenen Fehler abzuleiten. Wie insbesondere in der internationalen Patentanmeldung WO95/15035 beschrieben wird, kann dies der absolute Wert der über die Fehlerfläche angehäuften Fehler sein. Ein endgültiger gewichteter Wert für die „Gehör-Anstrengung" Y_LE kann abgeleitet werden:
wobei c(i, j) der Fehlerwert in dem i-ten von n Zeitabschnitten und dem j-ten von m Tonhöhen-Bändern der zu analysierenden Fehlerfläche ist. Dies liefert einen Hinweis auf das absolute Ausmaß der vorhandenen Verzerrung.
Geeignete Schwellenwerte für eine Fehleraktivität E_A für einzelne Abschnitte können verwendet werden, um zu bestimmen, ob ein bestimmter Abschnitt als „gut konditioniert" oder als „schlecht konditi oniert" markiert werden soll. Die Eigenschaften der so erzeugten Fehlerfläche werden verwendet, um Markierungen in einer Markierungs-Erzeugungsvorrichtung 17 abzuleiten, die für die Charakteristiken der von der Fehlerfläche-Erzeugungsvorrichtung 16 definierten Fehlerfläche geeignet sind. Diese Markierungen werden in Synchronität mit der Segmentierung des Signals in der Segmentier-Vorrichtung 10 erzeugt. Die Markierungen werden an das neuronale Netz 5 ausgegeben (1).
Die in dem Speicher 8 verwendete Quelle von verzerrten und „guten" Signalen kann von einem vorher erzeugten Speicher bereitgestellt werden. Verschiedene Sammlungen geeigneter Daten sind bereits verfügbar, aber weitere Daten können einfach erzeugt werden. Die Erzeugung derartiger Daten ist relativ unkompliziert und wird in 4 dargestellt, wobei ein anfängliches Testsignal aus einer Quelle 18, das mehrere Proben von realer Sprache unter Verwendung verschiedener Sprecher, um eine repräsentative Auswahl sicherzustellen, aufweisen kann, in den „guten" Speicher 8a eingegeben wird. Dasselbe Signal wird auch durch die Verzerrungs-Erzeugungsvorrichtung 19 gesendet. Das daraus resultierende verzerrte Signal wird in dem „verzerrten" Signalspeicher 8b gespeichert. Mehrere unterschiedliche Verzerrungsquellen können angewendet werden. Durch Verwendung verschiedener Permutationen von unterschiedlichen Testsignalen und Verzerrungstypen kann eine große und repräsentative Sammlung von Testdaten erzeugt werden, um als von der Trainingsdatenquelle 1 bereitgestellte Trainingsdaten zu dienen.
Das Testsignal wird mit typischen Formen von Verzerrung durch die Verzerrungs-Erzeugungsvorrichtung 19 versehen, um eine repräsentative Auswahl derartiger Signale dem Trainingsvorgang zur Verfügung zu stellen. Diese Verzerrungen können erzeugt werden, um verschiedene Effekte zu simulieren. Sie können algorithmisch erzeugt werden (d. h. durch mathematische Manipulation der Proben, um zum Beispiel ein Prototypensystem zu emulieren) oder, indem das Original-Signal durch eine reale Vorrichtung entweder in einer Test-Einrichtung oder in einem realen System gesendet wird, wie ein Telekommunikationsnetz.
Die von der Trainingsvorrichtung 1 an das neuronale Netz 5 gelieferten Markierungen informieren das Netz über die Art des übertragenen Trainingssignals und sorgen dafür, dass es geeignete Gewichtungen an die in dem Speicher 4 gespeicherten verschiedenen Parameter hinsichtlich von Daten mit diesen Charakteristiken anlegen kann. Beispiele unterschiedlicher Typen von verzerrten und nicht verzerrten Signalen werden von der Trainingsvorrichtung 1 geliefert, so dass der Ausgang 6 nicht nur identifizieren kann, dass eine wahrnehmbare Verzerrung vorhanden ist, sondern auch das Ausmaß der von der Verzerrung verursachten Beeinträchtigung, das heißt, wie störend die Verzerrung für den Zuhörer ist.
Um sicherzustellen, dass die Netzdefinition korrekt ist, können Testdaten, für die eine Klassifikation im Voraus bekannt ist, am Eingang 2 bereitgestellt werden, wobei die von der Netzwerk-Definitions-Funktion in dem neuronalen Netz 5 erzeugten Klassifikationsdaten dann (durch nicht gezeigte Mittel) mit den bekannten Klassifikationsdaten verglichen werden.
Das obige Audiosystem wurde in Zusammenhang mit Sprachsignalen beschrieben, jedoch können auch geeignete Proben anderer Audiosignale verwendet werden. Darüber hinaus können auch andere Signalstypen, zum Beispiel Videosignale, auf dieselbe Weise analysiert werden, wie im Folgenden dargestellt wird.
Im Allgemeinen weist ein Videosignal einen Audiokanal und drei Haupt-Videoanteile auf. In einigen spezialisierten Anwendungen sind diese Anteile die tatsächlichen roten, grünen und blauen Anteile des anzuzeigenden Bildes. Um jedoch eine Kompatibilität zwischen monochromen Systemen („schwarz und weiß") und Farbsystemen zu ermöglichen, sind in den meisten Systemen die Videoanteile ein (von sowohl dem monochromen als auch dem Farb-Empfänger verwendetes) Helligkeitssignal („Bildhelligkeit") und zwei „Farbdifferenz"-Signale (die nur von Farb-Empfänger verwendet werden). Die zwei Farbdifferenzsignale zeigen an, wie viel der gesamten Helligkeit von den jeweils blauen und roten Anteilen des Bildes beigetragen wird. Der dritte (grüne) Anteil kann von den Helligkeits- und Farbdifferenzsignalen abgeleitet werden, da er den Rest der gesamten Helligkeit ausmacht. Das Helligkeitssignal und die Farbdifferenzsignale werden verwendet, um Anweisungen für die einzelnen Erzeugungsvorrichtungen der Bilder mit den drei einzelnen Farben (rot, grün, blau) zu erzeugen, die, wenn sie überlagert werden, das Vollfarbenbild hervorbringen.
6 zeigt eine zu der in 3 gezeigten ähnliche Vorrichtung, die aber für das Training einer Video-Anwendung konfiguriert ist. Quellen originaler und verschlechterter Signale werden an jeweilige Filter 31, 32 für eine menschliche Sicht gesendet und dann an jeweilige Helligkeits- und Aktivitäts-Maskierungseinheiten 33, 34. Diese Signale werden dann in einer Vergleichseinheit 35 verglichen.
Die Ausgabe aus der Vergleichseinheit 35 wird an eine Fehlerfläche-Erzeugungseinheit 36 geleitet, die eine Reihe von Werten für den wahrnehmbaren Grad von Fehlern an verschiedenen Punkten in dem Bild erzeugt. Somit wird eine „Fehler-Helligkeits-Abbildung" erzeugt, die anzeigt, wie der wahrnehmbare Grad von Fehlern über das Bild variiert. Die Ausgabe von der Fehlerfläche-Erzeugungseinheit 36 lie fert eine Eingabe an eine Markierungs-Erzeugungseinheit 35. Die Elemente 31 bis 37 haben alle Äquivalente in dem in 3 gezeigten Sprachanalysesystem, wobei jede Komponente dieselbe letzte Ziffer wie ihr Äquivalent in 3 hat. Zusätzlich wird die sich auf jedes Signal beziehende Ausgabe auch von den Maskierungseinheiten 33, 34 an eine jeweilige Bild-Segmentierungseinheit 38a, 38b gesendet. Die Ausgabe von der Fehlerfläche-Erzeugungseinheit 36 wird durch Anwenden von Gewichtungen gemäß der Ausgabe der Bild-Segmentierungseinheiten 38a, 38b in einer Fehler-Subjektivitätseinheit 39 modifiziert, bevor sie an die Markierungs-Erzeugungseinheit 37 weitergeleitet wird.
7 zeigt die grundlegenden Elemente der trainierten Vorrichtung, die zur Analyse von Live-Daten konfiguriert ist. Alle diese Elemente weisen Entsprechungen in dem in 5 gezeigten Sprachanalysesystem auf, wobei äquivalente Komponenten dieselbe Bezugsziffer haben, denen in dieser Fig. jedoch eine „2" vorangestellt ist. Die grundlegenden Elemente sind ähnlich den in 5 gezeigten Elementen, werden aber mit einem Videosignal verwendet. Eine Proben-Einheit 22 ist mit einer Quelle eines Videosignals 20 verbunden. Die Proben-Einheit 22 sendet ein Signal an eine Parameter-Gewinnungseinheit 23, die wiederum die entstehenden Parameter über einen Pufferspeicher 27 an eine Klassifikationseinheit 25 weiterleitet, die auch eine Eingabe von einem Netzwerk-Definitions-Funktions-Speicher 24 bekommt. Die Klassifikationseinheit 25 erzeugt eine Klassifikation der Eingangs-Parameter gemäß der Netzwerk-Definitions-Funktion 24, die an einen Ausgang 26 übertragen wird. Eine Probe des Videosignals wird aus einem Datenstrom 20 (z. B. 2 Mbit/sek) mittels der Proben-Einheit 22 entnommen. Jede Probe wird dann von der Parameter-Gewinnungseinheit 23 verarbeitet, die mehrere Funktionen durchführt, um Charakteristiken zu identifizieren, die anzeigen, ob das Videosignal gut konditioniert oder schlecht konditioniert ist. Die se Parameter werden an die Klassifikationseinheit 25 (typischerweise ein neuronales Netz) gesendet, die eine Ausgabe 26 erzeugt, die anzeigt, ob das originale Videosignal gut oder schlecht konditioniert ist.
Die von der Parameter-Gewinnungseinheit durchgeführten Verfahren umfassen typischerweise eine Spektralanalyse, eine Erfassung und Analyse von Begrenzungen und eine Korrelation mit zeitlich angrenzenden Rahmen, um Parameter zu erzeugen, die Spektralanteile, Position von Begrenzungen und Grad von Korrelation, einschließlich jeder räumlichen Versetzung bei den Korrelationen, betreffen.
Diese Parameter werden dann von dem neuronalen Netz 25 verarbeitet, um für die Wahrnehmung wichtige Muster, die für die bestimmten Typen von Verzerrung charakteristisch sind, zu identifizieren. Gewonnene Parameter können eine Korrelation mit zeitlich angrenzenden Rahmen (entweder vorhergehende oder nachfolgende Rahmen) erfordern, und zu diesem Zweck wird ein Pufferspeicher 27 vorheriger Proben für einen Vergleich mit der zuletzt erhaltenen Probe gespeichert. Die Parameter der von dem unbekannten Videosignal erzeugten Bilder werden von dem neuronalen Netz 25 analysiert, um eine Markierung an die Ausgabe 26 zurückzuschicken, welche die Gesamtqualität des Signals anzeigt. Alternativ kann das neuronale Netz programmiert werden, Markierungen zu erzeugen, die für bestimmte Typen von Verzerrung, auf die es trainiert wurde, charakteristische Parameter anzeigen.
In der bevorzugten Anordnung werden Maße sowohl der gesamten Qualität als auch des Typs von Verzerrung verwendet. Dadurch kann ein Benutzer sowohl identifizieren, welche Abhilfsmaßnahme erforderlich ist, als auch derartige Maßnahmen priorisieren.
In diesem Ausführungsbeispiel wird das Gehörmodell (13, 14) des ersten Ausführungsbeispiels von einem Modell ersetzt, das auf denselben Prinzipien basiert, in welchem die relevanten Parameter aber von Charakteristiken menschlicher Seh-Wahrnehmung, statt von akustischen Charakteristiken, bestimmt werden. Die wahrnehmbare Bedeutung einer Verzerrung hängt von dem visuellen Kontext ab, in der sie auftritt. Maskierungseffekte können innerhalb eines Video-Rahmens oder zwischen aufeinander folgenden Rahmen, abhängig von der Fortdauer von Bildcharakteristiken einer menschlichen Seh-Wahrnehmung, usw., signifikant sein. Die Segmentierungszeit wird einfacherweise von der Bildfrequenz definiert (typischerweise 40 Millisekunden für Televisionssysteme, die eine Bildfrequenz von 25 Hz benutzen: in einem typischen „Zeilensprung"-System, in dem jeder Rahmen aus zwei Abtastvorgängen besteht).
Da jeder Rahmen einer Videoübertragung im Allgemeinen sehr ähnlich zu dem vorherigen ist, wäre es beim Messen von Maskierungs- und ähnlichen Effekten angebracht, Abschnitte des Videosignals zu vergleichen, die denselben Teil des Bildes betreffen. Der Analysevorgang selbst ist analog zu dem obigen Gehörbeispiel. Aufeinanderfolgende Rahmen werden analysiert, in einen Wahrnehmungsrelevanten Referenz-Rahmen unter Verwendung eines Filters für das menschliche Sehen und von Maskierungsmodellen umgewandelt, der Fehler wird quantifiziert und eine Markierung wird erzeugt. Die an dem Modell für das Filter des menschlichen Sehens beteiligten Faktoren umfassen eine räumliche und zeitliche Frequenzauflösung. Die modellierten Maskierungseffekte sind typischerweise eine Aktivitäts-Maskierung (große Bewegungen maskieren kleine Fluktuationen) und eine Helligkeits-Maskierung.
Es gibt gewisse Formen von Qualitätsverlust, die charakteristische Merkmale auf einem Videosignal erzeugen, und das Vorhandensein derartiger Merkmale kann von dem neuronalen Netz 25 identifiziert und als ein Indikator verwendet werden, dass möglicherweise eine Verzerrung vorhanden ist. Jedoch ist das Problem komplexer als bei Sprache, da das Videosignal komplexer als ein Sprachsignal ist, und das Original-Signal ist nicht auf die Weise wie ein Sprachsignal durch physiologische Charakteristiken der Quelle des Signals beschränkt. Es ist für ein Merkmal eines Sprachsignals möglich, als „nicht Sprach-ähnlich" identifiziert zu werden, und es kann deswegen mit einem vernünftigen Grad an Sicherheit identifiziert werden, dass eine Verzerrung ausgeübt wurde. Ein Videosignal ist nicht auf diese Weise eingeschränkt, so dass es nicht einfach ist, mit Sicherheit zu identifizieren, ob das empfangene Signal verzerrt wurde. Somit kann in diesem Ausführungsbeispiel die Erfassung einer Charakteristik nur ein mögliches, zu untersuchendes Problem anzeigen. Insbesondere kann eine Verzerrung von dem Erzeuger des Videobildes bewusst eingeführt worden sein. Zum Beispiel kann ein Effekt der „Blockhaftigkeit", der ähnlich dem durch Datenkompression in dem MPEG-System erzeugten Effekt ist, von dem Erzeuger eines Videobildes bewusst eingeführt werden, um zum Beispiel die Anonymität einer auf dem Bildschirm gezeigten Person zu wahren.
Nach der Gewinnung der Videoprobe wird das Bild von der Parameter-Gewinnungseinheit 23 analysiert, um Begrenzungen von Merkmalen zu erfassen. Begrenzungen werden typischerweise zwischen Bereichen (Merkmalen) wahrgenommen, in denen jeweils eine Charakteristik des Bildes, normalerweise Farbe oder Helligkeit, gleich bleibt oder sich allmählich verändert. Zum Beispiel kann, obwohl jedes Merkmal allmählich in seinem Verlauf schattiert sein kann, die Begrenzung eines Merkmals durch eine plötzliche Änderung einer Charakteristik festgestellt werden. Typischerweise kann, auch wenn es zwei Objekte mit ähnlichen Farben gibt und die Schattierung jedes Merkmals über das Merkmal variiert, die Begrenzung zwischen den beiden Objekten durch eine plötzliche Änderung bei der Schattierung erfasst werden. Plötzliche Veränderungen in einer Eigenschaft des Signals können als kurzzeitige Breitbandkomponenten bei der spektralen Zerlegung des Bildes erfasst werden. Verzerrungen, welche die Begrenzungen zwischen verschiedenen Bildelementen betreffen, zum Beispiel durch Verwischen einer Begrenzung oder Versetzen einer Begrenzung, wodurch die Form eines Objektes verändert wird, sind wahrnehmbar von größerer Bedeutung als Veränderungen, die innerhalb eines Körpers stattfinden, der von einem Betrachter als Teil eines Bildelements wahrgenommen wird. Derartige wahrnehmbar signifikante Veränderungen der Begrenzungen umfassen das vollständige Verschwinden einer Begrenzung oder das Auftreten einer Begrenzung, wo es keine Begrenzung geben sollte.
Um die zur Steuerung des neuronalen Netzes 25 verwendete Netzwerk-Definitions-Funktion zu erzeugen, müssen Bildcharakteristiken, die eine Verschlechterung anzeigen und wichtig für einen menschlichen Betrachter sind, identifiziert werden. Dafür wird der Trainingsvorgang in einer Wahrnehmungsanalyse-Markierungs-Erzeugungseinheit 29 durchgeführt, die in der Form einer Blockdarstellung in 6 gezeigt wird. Diese ist im Konzept ähnlich zu der in den 2 und 3 gezeigten Einheit.
Ein originales (nicht verschlechtertes) Signal und eine Version desselben Signals mit einer bekannten Verschlechterung werden beide zuerst durch die jeweiligen HVFs (Filter des menschlichen Sehens) 31, 32 geschickt, welche die Bilder mit dem in Einklang bringen, was von dem menschlichen Auge/Gehirn-System wahrnehmbar ist. Die Filter des menschlichen Sehens 31, 32 modifizieren die Leistung (Amplitude) von Signalen mit gewissen räumlichen und zeitlichen Frequenzen gemäß den bekannten Reaktionen des optischen Wahrnehmungssystems des Menschen derart, dass die Frequenzen, die weniger wahrnehmbar signifikant sind, in der Leistung relativ zu denen reduziert werden, die wahrnehmbar signifikanter sind. Das optische Wahrnehmungssystem des Menschen reagiert auf gewisse räumliche und zeitliche Frequenzen mehr als auf andere. Zum Beispiel ist ein regelmäßiges Muster von Streifen aus einer Entfernung schwierig zu erkennen. Umgekehrt ist, wenn ein einzelner Streifen so nahe ist, dass er einen großen Teil des Sichtfelds einnimmt, das gesamte Muster ebenfalls wahrnehmbar nicht signifikant. An einem dazwischenliegenden Standort ist das Muster wahrnehmbar wichtiger als an diesen extremen Positionen. Man beachte, dass nicht die absolute Entfernung wichtig ist, sondern der von jedem Element an dem Auge eingenommene Winkel. Dies kann in Form von Linien pro Einheit eines an dem Auge eingenommenen Winkels gemessen werden. Dieser Wert hängt natürlich von der Entfernung des Betrachters von dem Bildschirm, auf dem das Bild angezeigt wird, und ebenfalls von der Größe des Bildes selbst ab, da aber der ideale Betrachtungsabstand in jedem Fall von der Größe des Bildes bestimmt wird, wird nicht erwartet, dass der von einem Bildelement an dem Auge eingenommene Winkel sich deutlich unterscheidet bei unterschiedlicher Bildgröße. Ähnlich betrifft eine zeitliche Frequenz die Wahrnehmbarkeit von Bildern. Langsame Veränderungen sind nicht wahrzunehmen, während Veränderungen mit hoher Frequenz als ein kontinuierliches Signal mittlerer Schattierung oder Helligkeit empfunden werden (ein als „Augenträgheit" bekanntes Phänomen). In der Tat bauen Videobilder auf die Unfähigkeit des menschlichen optischen Systems, räumliche und zeitliche hochfrequente Änderungen aufzulösen, da ein Videobild sowohl in Raum (Pixel) als auch in Zeit (Rahmen) aus kleinen Elementen besteht. Die von dem Filter zu modellierenden menschlichen Wahrnehmungscharakteristiken wurden ausführlich dokumentiert, zum Beispiel in „Digital Pictures" von A. N. Netravali und B. G. Haskell, veröffentlicht 1988 von Plenum Press, New York; ISBN 0-306-42791-5, siehe insbesondere 4–3–12.
Das Bild geht als nächstes durch einen Maskierungsvorgang (jeweils 33, 34). Der Maskierungseffekt, den ein Bildelement auf ein anderes hat, ist komplex, da er von der Ortsfrequenz, der Intensität und Orientierung des maskierenden und maskierten Merkmals abhängt, wobei beide zueinander und zu dem Auge des Betrachters relativ sind. Bestimmte helle oder sich schnell bewegende Teile des Bildes können die wahrnehmbare Signifikanz anderer Teiles des Bildes maskieren oder steigern. Die resultierende maskierte Bildhelligkeit wird von jedem der Maskierungsmodelle 33, 34 ausgegeben und dann in der Unterschied-Erzeugungseinheit 35 verglichen. Dies erzeugt einen Wert für die Fehler-Helligkeit für jeden Punkt des Bildes, wodurch eine Fehlerfläche erzeugt wird. Die Fehler-Helligkeit ist der Wert des Unterschieds zwischen dem originalen und dem verschlechterten Signal (wobei das originale Signal heller oder weniger hell als das verschlechterte Signal ist), angepasst durch Maskierung und andere Wahrnehmungs-Effekte. Es ist günstig, den Wert des Unterschieds zu verwenden, da dieser einen Mittelwert von ungleich Null über das Bild und/oder über die Zeit ermöglicht, der bestimmt werden muss. Es sollte angemerkt werden, dass das Koordinatensystem für die Fehlerfläche in diesem Ausführungsbeispiel die „x"- und „y"-Koordinaten des Bildes selbst statt der Zeit- und Tonhöhen-Achsen des vorher beschriebenen Audio-Ausführungsbeispiels verwendet. Zeitabhängige oder Ortsfrequenz-abhängige Eigenschaften können durch Hinzufügen weiterer Dimensionen in das System aufgenommen werden. Es ist nicht einfach, die daraus resultierenden Daten graphisch darzustellen, aber die Parameter einer derartigen Fehlerfläche können trotzdem erzeugt und digital manipuliert werden. Der Begriff „Fehlerfläche" wird in dieser Beschreibung für alle Daten verwendet, die beschreiben, wie der wahrnehmbare Fehlergrad bei einem oder mehreren unabhängig veränderlichen Parameter(n) variiert.
Es sollte angemerkt werden, dass aufgrund der Art der Erzeugung eines Videobilds sowohl die „x"- als auch die „y"-Koordinaten des Bildes als Zeitachsen betrachtet werden können, wobei deren Maßeinteilung von den Bildfolgefrequenzen in den x- und y-Richtungen bestimmt werden (32 Mikrosekunden pro Zeile und 40 Millisekunden pro Rahmen für ein typisches Videobild mit 625 Zeilen).
Die Ausgabe von den Aktivitäts- und Helligkeits-Maskierungssystemen 33 und 34 werden auch an jeweilige Bild-Segmentierungseinheiten 38a, 38b übermittelt. Diese erfassen die Begrenzungen zwischen verschiedenen Elementen des Bildes. Wie oben diskutiert, sind Verschlechterungen, welche die Begrenzungen von Bildelementen betreffen (einschließlich das vollständige Verschwinden einer Begrenzung oder das Vorhandensein einer unerwünschten Begrenzung) die in der Wahrnehmung signifikantesten. Durch Erfassen eines Bildbereiches, der eine hoch lokalisierte Komponente aufweist mit einer hochfrequenten Ortsfrequenz in ihrer spektralen Zerlegung, kann eine Begrenzung eines Bildelements identifiziert werden. Die Ausgabe der Bild-Segmentierungseinheiten 38a, 38b wird in einer Fehler-Subjektivitätserzeugungseinheit 39 verwendet, um die von der Fehlerfläche-Erzeugungseinheit 36 erzeugte Fehler-Helligkeits-Abbildung zu gewichten. Diese gewichteten Werte werden dann in der Fehler-Subjektivitätserzeugungseinheit 39 algorithmisch verarbeitet, zum Beispiel, indem sie auf eine Art summiert werden, die zu dem Vorgang zum Ableiten eines Fehleraktivitätswertes in dem vorherigen Ausführungsbeispiel analog ist, um einen gesamten Fehlersubjektivitätswert zu erzeugen. Der Gesamt-Fehlersubjektivitätswert wird an die Markierungs-Erzeugungseinheit 37 gegeben, die eine Ausgabe gemäß dem gesamten Fehlersubjektivitätswert erzeugt (z. B. durch Bezug auf eine oder mehrere Schwellen).
Die Anordnung von 8 zeigt eine Modifizierung des Systems von 7, wobei das System mittels eines über das zu überwachende System übertragenen Testsignals lernfähig ist. Dadurch kann der lernfähige Vorgang auf tatsächliche Betriebsbedingungen fein abgestimmt werden und ein weiteres Training des Systems ermöglicht werden, damit dieses sich anpassen kann, während sich das überwachte System entwickelt. 8 zeigt auch eine Architektur mit mehreren Klassifizierern für das Überwachungssystem. Obwohl für die Handhabung von Videosignalen dargestellt, ist offensichtlich, dass sowohl das Online-Training als auch die Architektur mit mehreren Klassifizierern auch zur Verwendung mit dem Audio-Ausführungsbeispiel geeignet sind.
In 8 wird ein Kommunikationssystem 20 gezeigt, das Verkehr überträgt, aus dem eine Probe des übertragenen Signalverkehrs mittels einer Probeneinheit 22 entnommen werden kann. Die Probedaten werden dann mittels einer Anzahl von Parameter-Gewinnungseinheiten 23A, 23B (zwei gezeigt) analysiert, von denen jede ausgebildet ist, eine individuelle Eigenschaft, z. B. Ortsfrequenz, Korrelation, gesamter Kontrastgrad, usw. zu messen. Die dadurch gewonnenen Parameter werden an einzelne Klassifikationseinheiten 25A, 25B, 25C, 25D, 25E (typischerweise neuronale Netze) weitergeleitet. Wie gezeigt, verwendet jede Klassifikationseinheit Parameter, die von einer oder mehreren der Parameter-Gewinnungseinheiten 23A, 23B, usw. gewonnen wurden. Jede Klassifikationseinheit 25A, usw. liefert eine Ausgabe an die Ausgabe-Koordinationseinheit 26, welche die Ausgaben der verschiedenen Klassifikationseinheiten 25A, usw. verarbeitet, um eine Anzeige zu erzeugen. Durch diese Anordnung kann jeder Klassifizierer (neuronales Netz) individuell konfiguriert werden, um das Vorhandensein einer bestimmten Charakteristik zu identifizieren, wodurch eine einfache binäre Ausgabe (ja/nein) erzeugt wird. Durch eine Kombination der Ausgaben derartiger Klassifizierer kann eine komplexe Ausgabe erzeugt werden, z. B. Auslösen einer Warnung, wenn eine vorgegebene Anzahl der Klassifizierer eine Ausgabe erzeugen.
Das System sieht auch zwei Quellen 1, 1A von Trainingsproben vor, von denen sich eine anderswo in dem Kommunikationssystem 20 befindet und die andere sich in der Nähe der Parameter-Gewinnungseinheiten 23A, 23B positioniert ist, um eine direkte Eingabe dafür zu liefern.
Ebenfalls ist eine vorprogrammierte Charakteristik-Identifizierungseinheit 28 vorgesehen, die mit einer Eingabe von der Parameter-Gewinnungseinheiten 23A gezeigt wird.
Die Klassifikationseinheiten 25A bis 25E sind als parallele Klassifikationseinheiten angeordnet, wobei jede derart konfiguriert ist, eine bestimmte Charakteristik in dem von der Probeneinheit 22 empfangenen Signal zu identifizieren, um eine Ausgabe an die Ausgabe-Koordinationseinheit 26 zu erzeugen, die anzeigt, ob die Eigenschaft vorhanden ist oder nicht. Die Eigenschaft selbst wird gemäß dem Vorhandensein oder Fehlen eines oder mehrerer von den Parameter-Gewinnungseinheiten 23A, 23B identifizierten/r Parameter(s) gemessen. Zum Beispiel kann eine Klassifikationseinheit 25A identifizieren, ob ein bestimmter Typ einer Verzerrung vorhanden ist, während eine andere Einheit einen zweiten Typ einer Verzerrung identifiziert. Weitere Klassifikationseinheiten können die wahrnehmbare Stärke der Gesamt-Verzerrung identifizieren.
Wenn sich das Telekommunikationsnetz 20 weiter entwickelt, können neue Typen von Signalverarbeitungsvorgängen mit anderen Charakteristiken innerhalb des Netzwerks stattfinden, die in gewissen Umständen zu neuen charakteristischen Verzerrungen führen. Damit das Analysesystem zur Identifizierung derartiger Verzerrungen neu trainiert werden kann und um sich Veränderungen in dem existierenden Netzwerk anzupassen, wird ein Neukonfigurierungsvorgang eingeführt. Zu diesem Zweck wird ein Kanal zeitweilig außer Gebrauch genommen, damit er eine von der Trainingsproben-Erzeugungseinheit 1 bereitgestellte Trainingsprobe übertragen kann. Die Trainingsprobe wird mittels der Probeneinheit 22 gewonnen und mit einer anderen Probe verglichen, die von einer Quelle 1A an dem Überwachungspunkt erzeugt wurde und identisch zu der über die Kommunikationsverbindung empfangenen Probe ist.
Zu der Quelle 1A der zweiten (lokal erzeugten) Trainingsdaten gehört eine Wahrnehmungsmodell-Markierungs-Erzeugungseinheit 29 (wie oben detailliert in 6 gezeigt wurde), die das über die Kommunikationsverbindung 20 von der Trainingsquellen-Erzeugungseinheit 1 empfangene Signal mit dem lokal erzeugten Trainingssignal vergleicht, um Qualitätsmarkierungen zu erzeugen, die an die lernfähige Klassifikationseinheit 25E eingegeben werden. Diese Markierungen gehören zu den entsprechenden von der Parameter-Gewinnungseinheit 23B erzeugten Parametern, um eine Netzwerk-Definitions-Funktion für die Klassifikationseinheit 25E zu erzeugen. Nachfolgend auf den Trainingsvorgang wird die sich ergebende Netzwerk-Definitions-Funktion dazu verwendet, unbekannte Parametermuster zu klassifizieren, die durch die Probeneinheit 22 von der Kommunikationsverbindung 20 gewonnenen unbekannten Proben entsprechen. Auf diese Weise können Klassifikationseinheiten zum dem ursprünglichen System hinzugefügt werden oder existierende neu programmiert werden, wenn sich das Kommunikationssystem 20 weiterentwickelt.
Nicht alle Klassifikationseinheiten sind notwendigerweise mittels eines Trainingsvorgangs programmiert. Wo die Charakteristiken bereits bekannt sind, kann eine Klassifikationseinheit 28 vorprogrammiert werden, um geeignete Parameter zu identifizieren, die von den Parameter-Gewinnungseinheiten 23A, 23B, usw. gewonnen wurden. Die Analyseeinheit 28 funktioniert auf ähnliche Weise zu den lernfähigen Einheiten 25A bis 25E, ist aber vorprogrammiert, um bekannte Charakteristiken bestimmter Typen von Signalverschlechterung zu erkennen. Zum Beispiel ist bekannt, dass eine Datenkomprimierung zu verschwommenen Begrenzungen, Auftreten von Blöcken, Unschärfe, Ruckeln und Farbabweichung führen kann. Insbesondere in einem Videobild mit viel schneller Bewegung behandelt das MPEG-Signal-Komprimierungssystem Überlastungen, die aus der schnellen Bewegung in dem Bild entstehen, durch Reduzierung der Pixelauflösung, was zur Entstehung von „Blöcken" mit charakteristischen geradlinigen Begrenzungen von typischerweise 8 × 8 Pixel führt (Pixelierung). Eine Störung durch Mehrwegübertragung erzeugt zwei Begrenzungen, die um einen festen horizontalen Abstand versetzt sind (als „Doppelkontur" bekannt). Unschärfe tendiert dazu, die hochfrequenten Ortsfrequenzkomponenten der Begrenzungen selbst zu streuen. Verschwommene Farben können zu Diskrepanzen zwischen den von den verschiedenen farbigen Komponenten des Bildes definierten Begrenzungen führen. Niedriger Kontrast in einer Farbkomponente über das Bild als Ganzes zeigen eine Farbabweichung an (das Bild ist in der fraglichen Farbe oder deren chromatischen Komplementärfarbe getönt). Niedriger Kontrast über das Bild als Ganzes zeigen eine Signal-Begrenzung an. Eine vollständige Korrelation zwischen den drei Farbkomponenten des Bildes zeigt ein monochromes Bild an, was einen Verlust des die Farbinformation tragenden Signalbands bedeuten kann.
Das Ausmaß der Korrelation zwischen aufeinander folgenden Rahmen kann weitere Typen einer Verschlechterung zeigen. Zum Beispiel zeigen große zufällige Unterschiede zwischen jedem aufeinander fol genden Rahmen das Vorhandensein eines störenden Signals an. Der Effekt von regellos auftretenden hellen und dunklen Bildpunkten auf einem Videobild (als „Schnee" bekannt) ist ein Beispiel eines solchen Merkmals. Dies würde aus einer einzelnen Probe schwierig zu erfassen sein, da die Lage der einzelnen Bildpunkte zufällig ist. Wenn die Probe sich vollständig von der vorherigen Probe unterscheidet, bedeutet dies wahrscheinlich, dass eine Änderung der Szene (Änderung einer Filmaufnahme) stattgefunden hat und in diesen Fällen wären keine nützlichen Korrelationen verfügbar. Wenn jedoch eine Szene im Großen und Ganzen unverändert ist, d. h. jeder Rahmen korreliert stark mit dem vorhergehenden Rahmen, hat aber Unterschiede von dem vorigen Rahmen, die weder miteinander korreliert sind noch mit ähnlichen Unterschieden von früheren Rahmen, zeigt dies an, dass weißes Rauschen („Schnee") in dem Signal vorhanden ist.
Eine weitere zeitabhängige Korrelation, die identifiziert werden kann, ist ein durch Signalkomprimierung ruckelndes Bild. Dies ist insbesondere wahrscheinlich, wenn das Bild auf einer „bei Ausnahme"-Grundlage verarbeitet wird – jedes Bild ist das gleiche wie das vorherige mit gewissen Unterschieden, wobei nur die Unterschiede übertragen werden. Für ein sich schnell änderndes Bild kann die Datenrate zu langsam sein, um all die erforderlichen Veränderungen für jeden Rahmen zu definieren. Die Bewegung von Merkmalen über ein Bild ist normalerweise fließend. Wenn sich ein Merkmal schrittweise bewegt, zeigt dies ein ruckelndes Bild an. Ein Ruckeln erzeugt Ränder, deren Positionen von einem Bild zu dem nächsten auf eine charakteristische Weise korrelieren, wobei sich ein Element oder mehrere Elemente in jedem Bild einer Gruppe von aufeinander folgenden Bildern in derselben Position befindet/befinden, aber Elemente in Bildern aufeinander folgender Gruppen voneinander versetzt sind.
Von einer Veränderung der Szene, die durch eine vollständige und nicht-vorübergehende Änderung der Positionen aller Begrenzungen zu identifizieren ist, und/oder einer Veränderung einiger Charakteristiken, wie durchschnittliche Helligkeit, kann erwartet werden, mit einer Veränderung in den gesamten Charakteristiken des Audiokanals (z. B. seine Lautstärke) zu korrelieren. Eine Abwesenheit derartiger Korrelationen über mehrere derartige Veränderungen kann eine Störung auf dem Audiokanal oder sogar Verlust des Audiosignals anzeigen.
In der Klassifikationseinheit 28 werden die von der Parametereinheit 23A gewonnenen Parameter analysiert, um eine Markierung für die Ausgabe-Koordinationseinheit 26 auszugeben, die das Vorhandensein von für bestimmte Typen von Verzerrung charakteristischen Parametern anzeigt. Zum Beispiel würden Parameter, die Blocks mit 8 × 8 Pixel identifizieren, eine Überlastung des MPEG-Codierungsalgorithmus anzeigen. Ein Fehlen von klar definiertem Hochfrequenzinhalt in dem Spektrum des Signals zeigt die Abwesenheit klar definierter Begrenzungen an, was auf ein undeutliches oder unscharfes Bild hindeutet. Eine hohe Korrelation zwischen nah beieinander liegenden Begrenzungsmerkmalen deutet auf Doppelkonturen (Störung durch Mehrwegübertragung), usw. hin. Merkmale, die von einem Bild zu dem nächsten Bild nicht korrelieren, zeigen ein verrauschtes Signal an („Schnee").
Wie für die lernfähigen Klassifikationseinheiten 25A bis 25E dargestellt, können auch mehrere vorprogrammierte Klassifikationseinheiten 28 vorgesehen werden, wobei jeder Einheit die Identifizierung einer bestimmten Charakteristik zugewiesen wird.

Claims

Trainingsvorrichtung zum Training einer Signalklassifikationsvorrichtung (5) des Typs, der ausgebildet ist, vorgegebene Komponenten eines Signals zu erfassen, die charakteristisch für eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation zu erzeugen, welche das Ausmaß und/oder die Typen der vorhandenen Verzerrung anzeigt, dadurch gekennzeichnet, dass die Trainingsvorrichtung aufweist Mittel (8) zum Bereitstellen einer Trainings-Sequenz mit einem ersten Signal und einer verzerrten Version des ersten Signals, Analyse-Mittel (9) zum Empfangen der Trainings-Sequenz und zum Erzeugen eines Verzerrungs-Wahrnehmungs-Maßes zur Anzeige des Grades, zu dem die Verzerrung für einen menschlichen Beobachter wahrnehmbar wäre, und Mittel zum Anwenden des Verzerrungs-Wahrnehmungs-Maßes und des verzerrten Signals auf die Signalklassifikationsvorrichtung (5), um die auf Signale, die darauf folgend in die Signalklassifikationsvorrichtung eingegeben werden, anzuwendenden Klassifikationen zu bestimmen.
Trainingsvorrichtung gemäß Anspruch 1, wobei das Analyse-Mittel (9) aufweist Messungs-Mittel (13, 14) zum Schätzen des Effekts, der von verzerrten und nicht verzerrten Versionen des gleichen Signals auf das menschliche Sinnessystem erzeugt würde, Mittel (15) zum Ermitteln der Unterschiede zwischen den Effekten, und Mittel (17) zum Erzeugen des Verzerrungs-Wahrnehmungs-Maßes abhängig von dem Unterschied.
Trainingsvorrichtung gemäß Anspruch 1 oder Anspruch 2, wobei das Analyse-Mittel Mittel zum Erzeugen eines Verzerrungs-Wahrnehmungs-Maßes aufweist, deren Wert von einer wahrnehmbaren Bedeutung der Verzerrung für einen menschlichen Beobachter und nicht-linear von der Amplitude der Verzerrung abhängt.
Trainingsvorrichtung gemäß einem vorhergehenden Anspruch, wobei das Analyse-Mittel (9) Messungs-Mittel (13, 14) zum Erzeugen einer Vielzahl von Signalen der Spektralanteile des Test-Signals und/oder des verzerrten Signals aufweist.
Trainingsvorrichtung gemäß Anspruch 4, wobei das Messungs-Mittel (13, 14) Mittel aufweist, um für jedes Signal der Spektralanteile den Maskierungseffekt zu schätzen, den das Signal des Spektralanteils auf das menschliche Sinnessystem erzeugen würde.
Trainingsvorrichtung gemäß einem vorhergehenden Anspruch, wobei das Analyse-Mittel (9) Messungs-Mittel (13, 14) umfasst, um den Effekt zu schätzen, den die Verzerrung auf das menschliche Sinnessystem erzeugen würde, unter Berücksichtigung der zeitlichen Wirkungsdauer des Effekts.
Trainingsvorrichtung gemäß Anspruch 6, wobei das Analyse-Mittel (9) Messungs-Mittel (13, 14) umfasst, um eine Zeitreihe von nacheinander verarbeiteten Signalsegmenten aus dem Testsignal und/oder dem verzerrten Signal zu erzeugen, wobei der Wert von zumindest einigen Signalsegmenten abhängig von Teilen des Testsignals und/oder des verzerrten Signals, die den Signalsegmenten vorausgehen und/oder nachfolgen, erzeugt wird.
Trainingsvorrichtung gemäß einem vorhergehenden Anspruch, wobei das Analyse-Mittel (9) umfasst Messungs-Mittel (13, 14), um das verzerrte Signal in eine Vielzahl von Spektralanteilbänder zu zerlegen, wobei die Spektralanteilbänder geformt sind, eine spektrale Maskierung zu liefern, und um die zeitliche Maskierung des Signals aufgrund vorausgehender und/oder nachfolgender zeitlicher Teile davon zu berechnen; Mittel (15, 16), um für jedes der Signale der Spektralanteile eine Darstellung des Unterschieds zwischen dem Anteilssignal des verzerrten Signals und einem entsprechend berechneten Anteil des Testsignals zu bilden; und Berechnungs-Mittel (17), um das Verzerrungs-Wahrnehmungs-Maß aus der Darstellung des Unterschieds zu erzeugen.
Trainingsvorrichtung gemäß Anspruch 8, wobei das Berechnungs-Mittel (17) ein Maß der spektralen und zeitlichen Verteilung der Verzerrung aus dem Unterschieds-Signal erzeugt.
Trainingsvorrichtung gemäß einem der Ansprüche 1 bis 9 mit Mitteln zum Erzeugen von Klassifikationen, die den Typ der vorhandenen Verzerrung anzeigen.
Trainingsvorrichtung gemäß Anspruch 10 mit einer ersten lernfähigen Verarbeitungsvorrichtung zur Identifizierung der Gesamtqualität des Signals und einer zweiten lernfähigen Verarbeitungsvorrichtung zur Identifizierung des Typs oder der Typen der vorhandenen Verzerrung.
Trainingsvorrichtung gemäß einem vorhergehenden Anspruch, die ausgebildet ist, Sprachsignale zu analysieren.
Trainingsvorrichtung gemäß einem der Ansprüche 1 bis 12, die ausgebildet ist, Videosignale zu analysieren.
Trainingsvorrichtung gemäß Anspruch 13 mit Mitteln zur Identifizierung von Teilen des von dem Videosignal dargestellten Bildes mit der höchsten wahrnehmbaren Bedeutung für einen menschlichen Beobachter, und Mitteln, um die Teile des Bildes bei der Eingabe an das Analyse-Mittel zu gewichten.
Trainingsvorrichtung gemäß Anspruch 14 mit Mitteln (38) zur Identifizierung von Begrenzungen von Bildelementen, und Mitteln, um die Teile des Bildes mit derartigen Begrenzungen mit einer höheren wahrnehmbaren Bedeutung zu gewichten.
Trainingsvorrichtung gemäß Anspruch 13, 14 oder 15 mit Mitteln (31, 32) zur Analyse von Ortsfrequenzen in den Videobildern.
Trainingsvorrichtung gemäß Anspruch 16, wenn abhängig von Anspruch 15, mit Mitteln zur Identifizierung von hochfrequenten Ortsfrequenzkomponenten in dem Bild.
Trainingsvorrichtung gemäß einem vorhergehenden Anspruch mit Mitteln, um aus der Trainings-Sequenz eine Vielzahl von Verzerrungs-Wahrnehmungs-Maßen zur Anwendung auf eine Vielzahl von lernfähigen Verarbeitungsvorrichtungen zu erzeugen.
Signalklassifikationsvorrichtung zum Erfassen vorgegebener Signalkomponenten in einem Signal, wobei die Komponenten durch eine in dem Signal vorhandene Verzerrung charakterisiert sind, und wobei die Signalklassifikationsvorrichtung Mittel aufweist zum Erzeugen einer Ausgabe, die das Vorhandensein, das Ausmaß und/oder die Typen der vorhandenen Verzerrung anzeigt, die eine Trainingsvorrichtung gemäß einem vorhergehenden Anspruch aufweist, um die Signalklassifikationsvorrichtung für die Identifizierung derartiger Verzerrungen zu programmieren.
Signalklassifikationsvorrichtung gemäß Anspruch 19 mit zwei oder mehreren Signalklassifikationselementen, von denen zumindest ein Element von der Trainingsvorrichtung programmierbar ist.
Signalklassifikationsvorrichtung gemäß Anspruch 20, wobei zumindest ein Signalklassifikationselement vorprogrammiert ist, um einen vorgegebenen Typ von Verzerrung zu identifizieren.
Vorrichtung gemäß Anspruch 21, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, die Verbreiterung, oder vollständige Abwesenheit, von Elementen eines Videobildes mit hohen Ortsfrequenzen zu identifizieren, was anzeigt, dass das Bild unscharf ist.
Vorrichtung gemäß Anspruch 21 oder Anspruch 22, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, Begrenzungen von sich bewegenden Elementen eines Videobildes zu identifizieren und die Begrenzungen des Bildes, wo eine derartige Bewegung stattfindet, als eine Eingabe an das Verzerrungs-Wahrnehmungs-Maß-Mittel zu gewichten.
Vorrichtung gemäß einem der Ansprüche 21 bis 23, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, in einem Videobild geradlinige Blocks zu identifizieren, wobei jeder Block einfarbig ist und eine vorgegebene Größe hat.
Vorrichtung gemäß einem der Ansprüche 21 bis 24, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, Korrelationen in voneinander versetzten Begrenzungen in einem Videobild zu identifizieren, die eine Mehrweg-Interferenz in dem Videosignal anzeigen.
Vorrichtung gemäß der Ansprüche 21 bis 25, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, Korrelationen zwischen Gruppen aufeinander folgender Videobilder zu identifizieren, die eine ruckartige Bewegung anzeigen.
Vorrichtung gemäß einem der Ansprüche 21 bis 26, wobei ein vorprogrammiertes Signalklassifikationselement ausgebildet ist, einzelne Pixelelemente eines Bildes, die nicht mit anderen Bildelementen desselben Bildes korrelieren und nicht mit ähnlichen Elementen in aufeinander folgenden Bildern korrelieren, zu identifizieren, die ein auf dem eingegebenen Videosignal auftretendes weißes Rauschen anzeigen.
Verfahren zum Trainieren eines lernfähigen Signalklassifikationsprozesses des Typs, in dem vorgegebene Komponenten eines Signals erfasst werden, die charakteristisch für eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation erzeugt wird, welche das Ausmaß und/oder die Typen der vorhandenen Verzerrung anzeigt, wobei das Trainingsverfahren gekennzeichnet ist durch die Schritte Bereitstellen einer Trainingssequenz mit einem ersten Signal (8a) und einer verzerrten Version (8b) des ersten Signals, Messen des Grades, zu dem die Verzerrung des Signals für einen menschlichen Beobachter (16) wahrnehmbar ist, und Definieren eines Klassifikationsvorgangs (17) in Übereinstimmung mit dem Ergebnis der Messung, wobei der Klassifikationsvorgang ausgebildet ist, Signale, die darauf folgend in den Signalklassifikationsprozess eingegeben werden, in Übereinstimmung mit dem Vorhandensein oder der Abwesenheit einer wahrnehmbar signifikanten Verzerrung zu klassifizieren.
Verfahren gemäß Anspruch 28, wobei der Messvorgang den Effekt schätzt, der von verzerrten und nicht verzerrten Versionen des gleichen Signals auf das menschliche Sinnessystem erzeugt würde, die Unterschiede zwischen den Effekten ermittelt, und das Verzerrungs-Wahrnehmungs-Maß abhängig von dem Unterschied erzeugt.
Verfahren gemäß Anspruch 28 oder Anspruch 29, wobei der Messvorgang das Verzerrungs-Wahrnehmungs-Maß erzeugt, das von der Bedeutung der Verzerrung für einen menschlichen Beobachter und nicht-linear von der Amplitude der Verzerrung abhängt.
Verfahren gemäß Anspruch 28, 29 oder 30, wobei der Messvorgang eine Vielzahl von Signalen der Spektralanteile des Test-Signals und/oder des verzerrten Signals erzeugt.
Verfahren gemäß Anspruch 31, wobei der Messvorgang für jedes Signal der Spektralanteile den Maskierungseffekt schätzt, den das Spektralanteilssignal auf das menschliche Sinnessystem erzeugen würde.
Verfahren gemäß Anspruch 28, 29, 30, 31 oder 32, wobei der Messvorgang den Effekt schätzt, den die Verzerrung auf das menschliche Sinnessystem erzeugen würde, unter Berücksichtigung der zeitlichen Wirkungsdauer des Effekts.
Verfahren gemäß Anspruch 28, 29, 30, 31, 32 oder 33, wobei der Messvorgang das verzerrte Signal in eine Vielzahl von Spektralanteilbänder zerlegt, wobei die Spektralanteilbänder geformt sind, eine spektrale Maskierung zu liefern; die zeitliche Maskierung des Signals aufgrund vorausgehender und/oder nachfolgender zeitlicher Teile davon berechnet; für jedes der Signale der Spektralanteile eine Darstellung des Unterschieds zwischen dem Anteilssignal des verzerrten Signals und einem entsprechend berechneten Anteil des Testsignals bildet; und das Verzerrungs-Wahrnehmungs-Maß aus der Darstellung des Unterschieds zu erzeugt.
Verfahren gemäß Anspruch 34, wobei der Analysevorgang ein Maß der spektralen und zeitlichen Verteilung der Verzerrung aus dem Unterschieds-Signal erzeugt.
Verfahren gemäß einem der Ansprüche 28 bis 37 mit dem Schritt des Erzeugens einer Anzeige des Typs der vorhandenen Verzerrung aus einem Klassifikationsvorgang.
Verfahren gemäß Anspruch 36 mit den Schritten der Identifizierung der Gesamtqualität des Signals und der Identifizierung des Typs oder der Typen der vorhandenen Verzerrung.
Verfahren gemäß einem der Ansprüche 28 bis 37, wobei die Signale Audio-Signale sind.
Verfahren gemäß Anspruch 38, wobei die Signale Sprachsignale sind.
Verfahren gemäß einem der Ansprüche 28 bis 37, wobei die Signale Video-Signale sind.
Verfahren gemäß Anspruch 40, wobei die Signale in Abschnitten analysiert werden, die den einzelnen Rahmen des Video-Signals entsprechen.
Verfahren gemäß Anspruch 40 oder Anspruch 41 mit den Schritten Identifizieren von Teilen des von dem Signal dargestellten Bildes mit einer relativ höheren wahrnehmbaren Bedeutung für einen menschlichen Beobachter, und Vorsehen einer Gewichtung für die Teile derartiger Bilder als eine Eingabe an den Vorgang des Verzerrungs-Wahrnehmungs-Maßes.
Verfahren gemäß Anspruch 42 mit den Schritten Identifizieren von Begrenzungen von Bildelementen, und Gewichten der Teile des Bildes, die derartige Begrenzungen aufweisen, mit höherer wahrnehmbarer Bedeutung.
Verfahren gemäß Anspruch 41, 42 oder 43 mit dem Schritt der Analyse von Ortsfrequenzen in den Videobildern.
Verfahren gemäß Anspruch 44, wenn abhängig von Anspruch 43, mit dem Schritt der Identifizierung von hochfrequenten Ortsfrequenzkomponenten in dem Bild.
Verfahren gemäß einem der Ansprüche 41 bis 45 mit den Schritten Analysieren des Videobildes hinsichtlich drei unterschiedlich farbiger Bilder und Identifizieren von Korrelationen oder das Fehlen von Korrelationen zwischen den Bildern.
Verfahren zum Trainieren einer lernfähigen Signalanalysevorrichtung mit den Schritten: Übertragen einer ersten Trainingssequenz von einem entfernten Standort über ein zu überwachendes Netzwerk an einen Überwachungsstandort; Erzeugen einer zweiten identischen Trainingssequenz an dem Überwachungsstandort; Durchführen des Analysevorgangs nach einem der Ansprüche 28 bis 46, um den wahrnehmbaren Grad der Verzerrung in der von dem entfernten Standort an dem Überwachungsstandort empfangenen Trainingssequenz durch Vergleich mit der zweiten Trainingssequenz zu messen; Klassifizieren der daraus resultierenden Messungen gemäß dem wahrnehmbaren Grad der Verzerrung; und Konfigurieren des lernfähigen Vorgangs gemäß der resultierenden Klassifikation.
Verfahren gemäß einem der Ansprüche 28 bis 47, wobei das Trainingssignal auf eine Vielzahl von Wahrnehmungs-Analyse-Prozesse angewendet wird, um eine Vielzahl von Klassifikationsvorgängen zu erzeugen, von denen jeder auf einen einzelnen lernfähigen Vorgang derart angewendet wird, dass eine Ausgabe gemäß der kombinierten Ausgabe der lernfähigen Vorgänge erzeugt werden kann.
Signalklassifikationsvorrichtung (25) zum Erfassen und Klassifizieren von Verzerrungen, die in Signalen, die in die Vorrichtung eingegeben wurden, auftreten, in Übereinstimmung mit Klassifikationsdaten, dadurch gekennzeichnet, dass die Klassifikationsdaten durch ein Trainingsverfahren gemäß einem der Ansprüche 28 bis 48 erzeugt wurden.