-
Diese
Erfindung betrifft die Klassifikation von Daten, die zum Trainieren
eines lernfähigen
Verfahrens verwendet werden können.
Sie kann auf die Bewertung von Signalen angewendet werden, die von einem
Telekommunikationssystem übertragen
werden, um zum Beispiel die Bedingung von Telekommunikationssystemen
in Betrieb zu bewerten. Ausführungsbeispiele
einer Anwendung auf Audio-Signale, die Sprache übertragen, und auf Video-Signale werden
erläutert.
-
Über Telekommunikationsverbindungen übertragene
Signale können
beträchtlichen
Transformationen unterzogen werden, wie z. B. Digitalisierung, Komprimierung
von Daten, Datenreduktion, Verstärkung,
usw. Alle diese Verfahren können
die Signale verzerren. Zum Beispiel beim Digitalisieren einer Wellenform,
deren Amplitude größer ist
als der maximale Digitalisierungswert, werden die Spitzen der Wellenform
in eine Form mit flachem Dach konvertiert (ein Vorgang, der als
Spitzenunterdrückung bekannt
ist). Dies fügt
dem Signal unerwünschte Oberschwingungen
hinzu. Verzerrungen können auch
durch elektromagnetische Störungen
von externen Quellen verursacht werden.
-
Viele
der von den oben erwähnten
Vorgängen
zugeführten
Verzerrungen sind nicht-linear, so dass ein einfaches Test-Signal
nicht auf die gleiche Weise wie eine komplexe Wellenform, wie Sprache, oder überhaupt
nicht verzerrt sein muss. Für
eine Daten übertragende
Telekommunikationsverbindung ist es möglich, die Verbindung unter
Verwendung aller möglicher
Datenzeichen zu testen, z. B. die beiden Zeichen 1 und 0 für eine binäre Verbindung,
die in DTMF-Systemen (dual-tone multifrequency – Mehrfrequenzwahl) verwendeten
zwölf Tonpaare
oder der in einem QAM-System (quadrature amplitude mo dulation – Quadratur-Amplitudenmodulation)
verwendete Bereich von „Konstellations-Punkten". Jedoch besteht
ein analoges Signal nicht aus einer begrenzten Anzahl von genau
definierten Signalelementen, sondern ist ein sich kontinuierlich
veränderndes
Signal. Zum Beispiel variieren die Elemente eines Sprachsignals
nicht nur gemäß dem Inhalt
der Rede (und der benutzten Sprache), sondern auch gemäß den physiologischen
und psychologischen Charakteristiken des einzelnen Sprechers, die
Charakteristiken wie Tonlage, Lautstärke, charakteristische Vokallaute usw.
betreffen.
-
Es
ist bekannt, eine Telekommunikationseinrichtung zu testen, indem
Test-Sequenzen unter Verwendung von Mustern des zu übertragenden
Signaltyps abgelaufen werden lassen. Ein Vergleich zwischen der
Test-Sequenz, wie sie von der Einrichtung im Test modifiziert wurde,
und der originalen Test-Sequenz kann dazu verwendet werden, die
von der zu testenden Einrichtung eingeführte Verzerrung zu identifizieren.
Diese Anordnungen erfordern jedoch die Verwendung einer vorher arrangierten
Test-Sequenz, was bedeutet, dass sie nicht auf Live-Telekommunikationsverbindungen – d. h.
im Moment in Betrieb befindliche Verbindungen – angewendet werden können, da
die Test-Sequenz den übertragenen Verkehr
stören
würde und
von den Benutzern erkennbar wäre,
und auch, weil der Live-Verkehr selbst (dessen Inhalt nicht vorbestimmt
werden kann) von der Test-Einrichtung
als eine Verzerrung des Test-Signals erfasst würde.
-
Um
Tests auf in Betrieb befindlichen Einrichtungen durchzuführen, ohne
die von der Einrichtung übertragenen
Signale zu stören
(so genanntes nicht-störendes Überprüfen), ist
es wünschenswert, die
Tests unter Verwendung der Live-Signale selbst als die Test-Signale
durchzuführen.
Ein Problem bei der Verwendung eines Live-Signals als das Test-Signal
liegt jedoch darin, dass am Punkt der Messung nicht sofort eine
Probe des Original-Signals erhalten werden kann.
-
Jedes
Mittel, mit dem das Original-Signal an den Ort der Messung übertragen
werden könnte, kann
genauso ähnlichen
Verzerrungen ausgesetzt werden wie die Verbindung im Test.
-
Die
ebenfalls anstehenden internationalen Patentanmeldungen dieses Anmelders
WO96/06495 und WO96/06496 (beide am 29. Februar 1996 veröffentlicht)
schlagen zwei mögliche
Lösungen
für dieses
Problem vor. WO96/06495 beschreibt die Analyse bestimmter Charakteristiken
von Sprache, die unabhängig
vom Sprecher sind, um zu bestimmen, wie das Signal von der Telekommunikationsverbindung modifiziert
wurde. Sie beschreibt auch die Analyse bestimmter Charakteristiken
von Sprache, die im Verhältnis
zu anderen Charakteristiken, welche nicht selbst direkt messbar
sind, auf eine Weise variieren, wie sie gleich bleibend ist zwischen
individuellen Sprechern, und die deswegen dazu verwendet werden
kann, Information über
diese anderen Charakteristiken abzuleiten. Zum Beispiel variiert
der spektrale Inhalt eines stimmlosen Reibelauts mit der Lautstärke (Amplitude),
aber auf eine von dem einzelnen Sprecher unabhängige Weise. Der spektrale
Inhalt kann somit dazu verwendet werden, die Amplitude des Original-Signals
zu schätzen,
die mit der Amplitude des erhaltenen Signals verglichen werden kann, um
die Dämpfung
zwischen dem Sprecher und dem Messpunkt zu schätzen.
-
In
WO96/06496 wird der Inhalt eines erhaltenen Signals von einer Sprach-Erkennungsvorrichtung
analysiert und die Ergebnisse dieser Analyse werden von einer Sprach-Synthesevorrichtung
verarbeitet, um wieder ein Sprachsignal ohne Verzerrungen zu erzeugen.
Das Signal ist in Tonhöhe
und Dauer normalisiert, um eine Schätzung des originalen Sprach-Signals
zu erzeugen, das mit dem erhaltenen Sprach-Signal verglichen werden
kann, um jegliche Verzerrung oder Störung zu identifizieren, z.
B. unter Verwendung von Wahrneh mungs-Analysetechniken, wie in den
internationalen Patentanmeldungen WO94/00922 und WO95/15035 beschrieben.
-
Typischerweise
setzt eine Sprachübertragung über eine
begrenzte Bandbreite eine Datenreduktion ein, z. B. LPCs (linear
predictive codecs). Derartige Codecs basieren auf einer Approximation an
den menschlichen Vokaltrakt und stellen Segmente einer Sprach-Wellenform als die
Parameter dar, die erforderlich sind, um äquivalentes Verhalten in einem
Modell eines Vokaltrakts hervorzurufen.
-
In
der internationalen Patentbeschreibung WO97/05730 des Anmelders
ist offenbart ein Verfahren und eine Vorrichtung zum Prüfen der
Qualität
eines Sprache übertragenden
Signals, wobei das Signal gemäß einem
spektralen Darstellungsmodell analysiert wird (vorzugsweise ein
unvollkommenes Modell eines Vokaltrakt, obwohl stattdessen Gehörmodelle
verwendet werden können),
um Ausgangs-Parameter
zu erzeugen, wobei die Ausgangs-Parameter gemäß einer vorgegebenen Netzwerk-Definitions-Funktion
klassifiziert werden, und eine Ausgangs-Klassifikation wird erzeugt.
Die Klassifikationen können
gemäß einer
Netzwerk-Definitions-Funktion erzeugt werden, die in einem vorherigen
Schritt von Daten abgeleitet wird, für die der Ausgangswert bekannt
ist. Alternativ kann die Funktion gemäß vorgegebener Regeln abgeleitet
werden, die wiederum von bekannten Charakteristiken abgeleitet werden,
von denen bekannt ist, dass sie unter bestimmten Bedingungen in
dem zu testenden System auftreten.
-
Der
Begriff „Gehörmodell" bedeutet in diesem
Kontext ein Modell, dessen Reaktion auf einen Reiz ungefähr dieselbe
ist wie die Reaktion des menschlichen Gehörsystems (d. h. die Ohr-Gehirn-Kombination).
Es ist eine besondere Kategorie des allgemeineren Begriffs „Wahrnehmungs"-Modell, d. h. ein
Modell, dessen Reaktion auf einen Reiz ungefähr dieselbe ist wie die Reaktion
des menschlichen Sinnessystems (d. h. Auge-Gehirn, Ohr-Gehirn, usw.).
-
Der
Begriff „unvollkommenes
Modell eines Vokaltrakt" bedeutet
in diesem Kontext ein Vokaltrakt-Modell, das nicht „ideal" ist, aber Koeffizienten erzeugen
kann, die Gehör-Spektral-Elemente
betreffen, die der menschliche Vokaltrakt nicht erzeugen kann. Insbesondere
bedeutet es ein Modell, das parametrisch sowohl die Sprach- als
auch die Verzerrungs-Signalelemente darstellen kann, was normalerweise
nicht das Ziel beim Design von Modellen eines Vokaltrakts ist. Sprach-Proben,
von denen bekannt ist, dass sie schlecht konditioniert oder gut
konditioniert sind (d. h. sie enthalten derartige Verzerrungselemente
oder nicht), werden von dem Vokaltrakt-Modell analysiert und die
erzeugten Koeffizienten können
dann zum Beispiel durch ein lernfähiges Verfahren, wie ein neuronales
Netz, identifiziert werden, ob sie gut oder schlecht konditionierte
Signale betreffen. Auf diese Weise können Klassifikationsdaten für Vokaltrakt-Parameter
erzeugt werden, die zu jedem Signaltyp gehören (Parameter, die zu beiden gehören und
deswegen unzuverlässige
Indikatoren sind, können
bei der Erzeugung der Klassifikationsdaten außer Acht gelassen werden),
so dass, wenn im Folgenden ein unbekanntes Signal verarbeitet wird,
eine Ausgabe erzeugt werden kann unter Verwendung der vorher erzeugten
Klassifikationsdaten, die zu den Parametern gehören, welche das unbekannte
Signal betreffen.
-
Sequenzen
von Parametern wie auch einzelne Parameter können ebenfalls verwendet werden, um
ein Signal zu charakterisieren. Techniken der Datenkomprimierung
können
dazu verwendet werden, die aufgezeichneten Parameter zu speichern.
-
Die
Vorrichtung der oben erwähnten WO97/05730
weist Trainingsmittel zum Erzeugen des gespeicherten Satzes von
Klassifikationsda ten auf, wobei das Trainingsmittel erste Eingabemittel aufweist,
die eine Sprachprobe an das Modell-Mittel liefern; zweite Eingabemittel,
die bekannte Ausgabe-Information (hier im Folgenden als „Markierung" bezeichnet), die
die Sprachprobe betrifft, an das Trainingsmittel liefern; Mittel
zum Erzeugen von Klassifikationsdaten von den Modell-Mitteln basierend
auf den Markierungen und Speichermittel zum Speichern von Klassifikationsdaten,
die von den Modell-Mitteln erzeugt werden.
-
Die
in der Trainingsprobe verwendeten Sprachsegmente müssen demnach
jeweils als gut oder schlecht konditioniert markiert werden. Ein
Ansatz eines „Experten-Systems", wie er von Quincy
in einem Vortrag am „Institute
of Electrical and Electronic Engineers" (Seattle, 9. Juni 1987) beschrieben wurde,
wäre ein
größeres Unterfangen
für eine
typische Probe, da sie mehrere Stunden an Sprache aufweist, und
viele derartige Proben erforderlich sind, um das System dahingehend
zu trainieren, dass es korrekt auf eine Reihe von Sprechern, Bedingungen und
andere Variablen reagiert. Die Dauer eines einzelnen Segments beträgt typischerweise
20 Millisekunden, somit müssen
insgesamt mehrere Millionen Segmente markiert werden. Darüber hinaus
wäre es notwendig,
eine Anzahl von menschlichen Analysten zur Klassifizierung jeder
Probe zu verwenden, um aufgrund individueller Veränderungen
bei der Wahrnehmung, Konzentration und anderen Faktoren, ein statistisch
gültiges
Ergebnis zu erhalten. Darüber
hinaus ist es für
einen menschlichen Beobachter nicht möglich, genau zu identifizieren,
ob individuelle Segmente von derartig kurzer Dauer gut oder schlecht konditioniert
sind.
-
Die
Erfindung sieht eine Trainingsvorrichtung gemäß Anspruch 1, ein Verfahren
zum Trainieren gemäß Anspruch
28 und eine Signalklassifikationsvorrichtung gemäß Anspruch 49 vor.
-
Gemäß einem
ersten Aspekt der Erfindung ist eine Trainingsvorrichtung zum Training
einer Signalklassifikationsvorrichtung des Typs vorgesehen, der
ausgebildet ist, vorgegebene Anteile eines Signals zu erfassen,
die charakteristisch für
eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation
zu erzeugen, welche das Ausmaß und/oder die
Typen der vorhandenen Verzerrung anzeigt, dadurch gekennzeichnet,
dass die Trainingsvorrichtung aufweist Mittel zum Bereitstellen
einer Trainingssequenz mit einem ersten Signal und einer verzerrten Version
des ersten Signals, Analyse-Mittel zum Empfangen der Trainingssequenz
und zum Erzeugen eines Verzerrungs-Wahrnehmungs-Maßes zur
Anzeige des Grades, zu dem die Verzerrung für einen menschlichen Beobachter
wahrnehmbar wäre,
und Mittel zum Anwenden des Verzerrungs-Wahrnehmungs-Maßes und
des verzerrten Signals auf die Signalklassifikationsvorrichtung,
um die auf Signale, die darauf folgend in die Signalklassifikationsvorrichtung
eingegeben werden, anzuwendenden Klassifikationen zu bestimmen.
-
In
einem weiteren Aspekt weist die Erfindung auf ein Verfahren zum
Trainieren eines lernfähigen Signalklassifikationsprozesses
des Typs, in dem vorgegebene Komponenten eines Signals erfasst werden,
die charakteristisch für
eine in dem Signal vorhandene Verzerrung sind, und eine Klassifikation
erzeugt wird, welche das Ausmaß und/oder
die Typen der vorhandenen Verzerrung anzeigt, wobei das Trainingsverfahren
gekennzeichnet ist durch die Schritte Bereitstellen einer Trainingssequenz
mit einem ersten Signal und einer verzerrten Version des ersten
Signals, Messen des Grades, zu dem die Verzerrung des Signals für einen
menschlichen Beobachter wahrnehmbar ist, und Definieren eines Klassifikationsvorgangs
in Übereinstimmung
mit dem Ergebnis der Messung, wobei der Klassifikationsvorgang ausgebildet
ist, Signale, die darauf folgend in den Signalklassifikationsprozess
eingegeben werden, in Übereinstimmung
mit dem Vor handensein oder der Abwesenheit einer wahrnehmbar signifikanten
Verzerrung zu klassifizieren.
-
Die
Erfindung erstreckt sich auch auf ein Klassifikationsmittel für eine Signalklassifikationsvorrichtung,
die ausgebildet ist, Verzerrungen, die in Signalen auftreten, die
in die Vorrichtung eingegeben wurden, zu erfassen und zu klassifizieren
in Übereinstimmung
mit in dem Klassifikationsmittel gespeicherten Klassifikationsdaten,
dadurch gekennzeichnet, dass die in dem Klassifikationsmittel gespeicherten
Klassifikationsdaten gemäß dem Verfahren
der Erfindung erzeugt wurden.
-
In
einer bevorzugten Anordnung schätzt
der Messvorgang den Effekt, der von verzerrten und nicht verzerrten
Versionen des gleichen Signals auf das menschliche Sinnessystem
erzeugt würde,
und ermittelt die Unterschiede zwischen den Effekten, und erzeugt
das Verzerrungs-Wahrnehmungs-Maß abhängig von
dem Unterschied. Vorzugsweise erzeugt der Messvorgang das Verzerrungs-Wahrnehmungs-Maß, das von
der Signifikanz der Verzerrung für
einen menschlichen Beobachter und nicht-linear von der Amplitude
der Verzerrung abhängt.
Der Messvorgang erzeugt vorzugsweise eine Vielzahl von Signalen
der Spektralanteile des Test-Signals und/oder des verzerrten Signals,
und schätzt
für jedes
Signal der Spektralanteile den Maskierungseffekt, den das Spektralanteilssignal
auf das menschliche Sinnessystem erzeugen würde.
-
In
einer Sprachanwendung sind die Trainingssequenzen typischerweise
große
Mengen natürlicher
Sprache, um die Variationen bei den Charakteristiken individueller
Sprecher zu berücksichtigen.
In dem bevorzugten Ausführungsbeispiel
weist der Messvorgang die Schritte auf Zerlegen des verzerrten Sprachsignals
in eine Vielzahl von Spektralanteilbänder, wobei die Spektralanteilbänder geformt sind,
eine spektrale Maskierung zu liefern; Berechnen der zeitlichen Maskierung
des Signals aufgrund vorausgehender und/oder nachfolgender zeitlicher Teile
davon; Bilden einer Darstellung des Unterschieds zwischen dem Anteilssignal
des verzerrten Signals und einem entsprechend berechneten Anteil des
Testsignals für
jedes der Signale der Spektralanteile; und Erzeugen des Verzerrungs-Wahrnehmungs-Maßes aus
dem Unterschiedsmaß.
-
Geeignete
Sprachanalyseprozesse werden in den internationalen Patentbeschreibungen WO94/00922,
WO95/01011 und WO95/15035 beschrieben. Durch automatisches Markieren
der Abschnitte unter Verwendung eines Verzerrungs-Wahrnehmungs-Maßes kann
der Klassifikationsvorgang objektiv, aber nichtsdestotrotz gemäß Faktoren
abgeleitet werden, die für
einen menschlichen Beobachter wahrnehmbar sind.
-
Die
Erfindung ist nicht auf Sprachsignale oder auf Audiosignale begrenzt.
Dieselben Prinzipien können
zum Beispiel auf Videosignale angewendet werden. In einem derartigen
Fall können
einzelne Rahmen des Videosignals die einzelnen Elemente der Trainingssequenz
bilden.
-
Videosignale
sind einer Vielzahl von Verzerrungen ausgesetzt, die für den Betrachter
wahrnehmbare Effekte verursachen können. Verzerrungen, welche
die Begrenzungen zwischen verschiedenen Bildelementen betreffen,
sind im Allgemeinen in der Wahrnehmung signifikanter als Veränderungen, die
in einem Körper
auftreten, der von dem Betrachter als Teil eines Bildelements angesehen
wird. Derartige Verzerrungen der Begrenzungen umfassen Unschärfe, Verschiebung
(wodurch die Gestalt eines Objekts verändert wird), das vollständige Verschwinden
einer Begrenzung oder stattdessen das Erscheinen einer Begrenzung,
wo es keine Begrenzung geben sollte. Deswegen i dentifiziert in einer
bevorzugten Anordnung das System Verzerrungen, welche die Charakteristiken
von Begrenzungen betreffen, mit größerer wahrnehmbarer Signifikanz
als andere Typen von Verzerrung.
-
Eine
Begrenzung wird von einem Betrachter dort wahrgenommen, wo es eine
abrupte Veränderung
bei einer Eigenschaft des Bildes gibt, normalerweise Helligkeit
und/oder Farbe. Zwei derartiger Veränderungen räumlich nahe zusammen können als eine
einzige Begrenzung wahrgenommen werden, z. B. eine Linie, die zwei
Bereiche von ansonsten ähnlicher
Helligkeit und Farbe trennt. Begrenzungen können deswegen durch eine spektrale
Zerlegung des von dem Signal abstammenden Bildes identifiziert werden.
Eine abrupte Veränderung
erzeugt eine Hochfrequenz-„Spitze" in der spektralen
Zerlegung. In einem Farbsystem ist eine Veränderung in der Farbe als eine
Veränderung
in der relativen Helligkeit der das Bild darstellenden unterschiedlichen
Farben zu identifizieren.
-
Verzerrungseffekte
können
von dem Erzeuger des Videosignals bewusst eingeführt werden, so dass es vorzuziehen
ist, ein Videosignal ausreichend lange zu überwachen, um zu identifizieren,
ob der identifizierte Effekt anhält
(was auf einen Fehler bei der Übertragung
hindeutet) oder vorübergehend
war (was darauf hindeutet, das er bewusst eingeführt wurde). Derartige Effekte
treten in Sprachsystemen weniger häufig auf.
-
Lernfähige Vorgänge, wie
neuronale Netze, funktionieren am effektivsten mit einfachen binären Tests
(gut/schlecht; ja/nein). Es ist deswegen vorteilhaft, das Überwachungssystem
so anzuordnen, dass mehrere derartige Vorgänge unabhängig ablaufen, wobei jeder
eine andere Eigenschaft oder Kombination aus Eigenschaften testet
und jeder sich auf einen oder mehrere unterschiedliche Parameter
bezieht.
-
Die
Erfindung kann dazu verwendet werden, ein lernfähiges System an Ort und Stelle
(in situ) zu trainieren oder neu zu trainieren. Dadurch kann das lernfähige System
auf einem echten System trainiert werden, wodurch es eine neue Charakteristik
erkennen kann, während
sich das zu überwachende
System entwickelt. Dieses „in
situ"-Training kann durchgeführt werden
durch Übertragen
einer Trainingssequenz über
das zu überwachende
System (wodurch temporär
ein Kanal des Systems besetzt wird) und Vergleichen der empfangenen
Sequenz mit einer identischen Probe derselben Sequenz, die an dem Überwachungsstandort
erzeugt wird.
-
Beispielhafte
Ausführungsbeispiele
der Erfindung werden nun beschrieben unter Bezugnahme auf die begleitenden
Zeichnungen, welche die funktionelle Beziehung der verschiedenen
Elemente des Ausführungsbeispiels
zeigen. Es ist offensichtlich, dass die Erfindung vorteilhaft in
Software integriert werden kann, die auf einem allgemein verwendeten Computer
läuft.
-
1 zeigt
die funktionellen Elemente eines lernfähigen Systems zum Analysieren
eines Sprachsignals, die für
einen Trainingsvorgang konfiguriert sind.
-
2 zeigt
die Trainingsvorrichtung von 1 detaillierter.
-
3 zeigt
die einen Teil von 2 bildende Analysevorrichtung
detaillierter.
-
4 zeigt
eine Vorrichtung, durch die anfängliche
Sprachproben, die von der Datenquelle von 2 geliefert
werden, erzeugt werden können.
-
5 zeigt
die funktionellen Elemente desselben Systems, das für einen
Durchlauf mit unbekannten Daten konfiguriert ist.
-
6 zeigt
eine zu der von 3 analoge Analysevorrichtung
zum Trainieren einer Vorrichtung, um ein Videosignal zu analysieren.
-
7 zeigt
in der Form einer Blockdarstellung eine zu der von 5 analoge
Vorrichtung zum Analysieren eines Videosignals, die unter Verwendung
der Vorrichtung von 6 trainiert wurde.
-
8 zeigt
in der Form einer Blockdarstellung eine Variante von 7,
die eine Vielzahl von Klassifizierern aufweist, und ebenso einen
Vorgang zum Neutrainieren in situ.
-
Die
drei Ausführungsbeispiele
werden nun detailliert erläutert.
Zuerst wird das Ausführungsbeispiel
von 1 bis 5 erläutert, das für ein Sprache übertragendes
Signal konfiguriert ist.
-
Zur
besseren Verständlichkeit
dieser Erfindung ist es hier angebrachte, kurz die Charakteristiken
von Vokaltrakt-Analysesystemen und lernfähigen Vorgängen zu diskutieren. Der Vokaltrakt
ist eine ungleichförmige
akustische Röhre,
die von der Stimmritze bis zu den Lippen reicht und in der Form
als eine Zeitfunktion variiert [Fant G C M, „Acoustic Theory of Speech
Production", Mouton
and Co., "s-gravehage, Niederlande,
1960]. Die hauptsächlichen
anatomischen Bestandteile, welche die zeitvariable Veränderung
verursachen, sind die Lippen, der Kiefer, die Zunge und das Gaumensegel.
Zur leichteren Berechnung ist es wünschenswert, dass Modelle für dieses Sys tem
sowohl linear als auch zeitlich unveränderlich sind. Leider erfüllt gerade
der menschliche Sprachmechanismus keine dieser Eigenschaften genau. Sprache
ist ein kontinuierlicher zeitvariabler Vorgang. Zusätzlich ist
die Stimmritze nicht unabhängig
von dem Vokaltrakt, was zu nicht-linearen Charakteristiken führt (Flanagan
J L, „Source-System
Interactions in the Vocal Tract",
Ann. New York Acad. Sci 155, 9–15,
1968]. Durch vernünftige
Annahmen ist es jedoch möglich,
lineare zeitlich unveränderliche
Modelle über
kurze Zeitintervalle zu entwickeln, um Sprachereignisse zu beschreiben
[Markel J D, Gray A H, „Linear
Prediction of Speech",
Springer-Verlag Berlin Heidelberg New York, 1976]. Lineare prädiktive
Codecs unterteilen Sprachereignisse in kurze Zeitabschnitte oder
-Rahmen und verwenden vorherige Sprachrahmen, um einen eindeutigen
Satz von Prädiktor-Parametern
zu erzeugen, um die Sprache in einem aktuellen Rahmen darzustellen
[Atal B S, Hanauer S L, „Speech
Analysis and Synthesis by Linear Prediction of the Speech Wave", J. Acoust. Soc. Amer.,
Vol. 50, S. 637–655,
1971]. Die lineare prädiktive
Analyse wurde zu einem oft verwendeten Verfahren, um solche Sprachparameter
wie Tonhöhe,
Formant und Spektra zu schätzen.
Gehörmodelle (Zeit/Frequenz/Amplitude-Spektrogramme)
bauen auf hörbare
Merkmale des überwachten
Schalls und berücksichtigen
nicht, wie sie erzeugt werden, wohingegen ein Vokaltrakt-Modell
identifizieren kann, ob das Signal sprachähnlich ist, d. h. ob ein echter
Vokaltrakt dieses erzeugt haben könnte. Die nicht hörbaren Unterschiede,
die von Gehörmodellen
nicht erkannt werden, werden dennoch von einem Vokaltrakt-Modell
erkannt.
-
Zum
Zweck der Messung einer Signalqualität müssen die erzeugten Ausgangs-Parameter
in Bezug auf die gemessene Eigenschaft empfindlich sein, d. h. die
wahrgenommene Sprachqualität.
Das Modell muss deswegen nicht-sprachähnliche Verzerrung modellieren
können
und deswegen wäre
ein ideales Vokaltrakt-Modell nicht geeignet. Ein ideales Modell
würde alle
Eingangs-Signale in sprachähnliche
Form umwandeln (nicht notwendigerweise die originalen Signale, wenn
die Verzerrung schlecht ist). Dies würde den Klassifikationsvorgang
unzuverlässig
machen, da sowohl die verzerrten Eingaben als auch die sauberen
Eingaben als sprachähnlich
klassifiziert würden,
wodurch der Trainingsvorgang nicht möglich wäre. Es ist deswegen wichtig,
dass das Vokaltrakt-Modell im vorher definierten Sinn „nicht
perfekt" ist, da
sich das Verfahren darauf stützt,
dass die Ausgabe-Parameter von dem Vokaltrakt-Modell gegenüber dem
Vorhandensein von nicht-menschlichen
Verzerrungselementen empfindlich sind, um zwischen schlecht konditionierten
und gut konditionierten Signalen zu unterscheiden. Das lineare prädiktive
Codierungsmodell, wie in „Digital
Processing of Speech Signals" von
Rabiner L. R., Schafer R. W., (Prentice Hall 1978), Seite 396, beschrieben,
ist zur Verwendung als Analysator 3 geeignet.
-
Eine
Spektralanalyse kann als Alternative zu einem Vokaltrakt-Modell verwendet
werden, zum Beispiel „one-third
octave analysis",
wie in Abschnitt 3.6 in „Frequency
Analysis" von R.
B. Randall (veröffentlicht
Bruel & Kjaer,
1987, ISBN 87 87355 07 8) diskutiert wird.
-
Die
Charakteristiken von lernfähigen
Vorgängen,
und insbesondere von neuronalen Netze, werden im Folgenden diskutiert.
Um eine Anzahl von Eingängen
auf eine geringere Anzahl von vorgegebenen Ergebnisklassen abzubilden,
ist es möglich, eine
Reihe von Regeln zu verwenden, insbesondere, wenn der Abbildungs-Vorgang
ein natürliches
System darstellt. Wenn jedoch das natürliche System zu komplex ist
oder die erforderliche Abbildung auf abstrakten Parametern beruht,
kann ein lernfähiger
Vorgang verwendet werden, um die erforderliche Abbildung als Antwort
auf eine Reihe bekannter Ergebnisse, als die Trainingsdaten bezeichnet,
zu entwickeln. Die bekannten Ergebnisse werden verwendet, um die
Relation zwischen den Ein gangs-Parametern und den Ergebnisklassen
derart zu ermitteln, dass nachfolgende unbekannte Kombinationen
von Eingängen klassifiziert
werden können.
Ein neuronales Netzwerk ist gestaltet, die Art zu modellieren, in
der das Gehirn eine bestimmte Aufgabe oder Funktionen von Interesse
durchführt.
Es ist möglich,
ein neuronales Netz zu trainieren, nützliche Berechnungen durch
einen Vorgang des Lernens durchzuführen [Haykin S, „Neural
Networks, A Comprehensive Foundation", Macmillan IEEE Press, 1994]. Um eine
gute Leistung zu erreichen, setzen neuronale Netze eine massive Zusammenschaltung
einfacher Verarbeitungseinheiten ein. Zwischengeschaltete Einheiten-Verbindungsstärken, als
Gewichte bekannt, werden zur Speicherung des Wissens des Systems
verwendet [Aleksander I, Morton H, „An Introduction of Neural Computing", Chapman and Hall
London, 1990]. Das zum Durchführen
des Lernvorgangs verwendete Verfahren wird als der Lernalgorithmus
bezeichnet, dessen Funktion es ist, die Gewichte des Netzes planmäßig zu modifizieren,
um so ein gewünschtes
Gestaltungsziel zu erreichen. Die Leistung eines neuronalen Netzes
wird abgeleitet von einer massiv parallel verteilten Struktur und
seiner Fähigkeit,
zu lernen und somit zu generalisieren; Generalisierung bezieht sich
auf das Netzwerk, das vernünftige
Ausgaben für Eingaben
erzeugt, die während
des Trainings nicht vorgekommen sind. Überwachtes Lernen ist eine Form
von Training, das ein Anbieten bekannter Beispiele von Klassen an
das Netzwerk und dann ein Modifizieren der miteinander verbundenen
Gewichte umfasst, um den Unterschied zwischen der gewünschten
und der tatsächlichen
Antwort des Systems zu minimieren. Das Training wird für viele
Beispiele aus jeder der Klassen von Eingaben wiederholt, bis das
Netz einen stabilen Zustand erreicht. Es gibt eine nahe Analogie
zwischen der von einem neuronalen Netz durchgeführten Eingabe-Ausgabe-Abbildung
und der Klassifikation, die von einer nicht-parametrischen statistischen Inferenz
erreicht wird.
-
Die
Funktion des Systems des ersten (Audio-)Ausführungsbeispiels wird nun erläutert. Das
in den 1 und 5 gezeigte System weist eine Quelle
von Trainingsdaten 1 (1) und eine
Quelle von Live-Sprachverkehr
(reale Daten) 2 (5) auf, von
denen beide Eingaben an einen Analysator 3 liefern. Zu
den Trainingsdaten gehörende
Parameter werden ebenfalls von der Trainingsdaten-Quelle 1 an eine
Klassifikationseinheit 5 geliefert, was als ein lernfähiger Vorgang
gezeigt wird, in diesem Ausführungsbeispiel
ein neuronales Netz 5. Es ist offensichtlich, dass andere
lernfähige
Vorgänge
verwendet werden können,
z. B. adaptives Clustering. Von dem Analysator 3 ausgegebene
Parameter werden an das neuronale Netz 5 gegeben. Während des Trainingsvorgangs
liefert das neuronale Netz 5 Parameter an einen Speicher 4.
Diese Parameter definieren eine Netzdefinitionsfunktion. Wenn reale
Daten gelesen werden, werden die Parameter aus dem Speicher 4 abgefragt
und von dem neuronalen Netz 5 verwendet, um die Netzdefinitionsfunktion
auf die von dem Vokaltrakt-Analysator 3 erzeugten Werte durchzuführen, um
Klassifikationsdaten zu erzeugen, die an eine Ausgabe 6 geliefert
werden. Typischerweise befinden sich die Ausgabedaten in der Form einer
Klassifikation, die auf den von dem Analysator 3 erzeugten
Werten basiert, die in das neuronale Netz 5 eingegeben
werden, das gemäß der Netzdefinitionsfunktion
arbeitet, um das Ausmaß der
identifizierten Verzerrung anzuzeigen. Mehrere Qualitätsgrade
können
definiert werden, indem eine Anzahl von Ausgabe-Klassen gesetzt
wird. Für
praktische Zwecke wird das Signal als eine Sequenz von Zeitrahmen
analysiert. Parameter, die von einen ersten Zeitrahmen betreffenden
Daten abgeleitet werden, können
bei der Analyse von nachfolgenden Zeitrahmen verwendet werden. Zu
diesem Zweck wird die Ausgabe des Vokaltrakt-Analysators 3 in einem Pufferspeicher 7 zur
späteren
Verwendung bei nachfolgenden Vorgängen des neuronalen Netzes 5 gespeichert.
-
Bevor
der Trainingsvorgang der Erfindung diskutiert wird, wird die Verwendung
des Systems, wenn es trainiert ist, zur Überwachung von Live-Verkehr
unter Bezugnahme auf 5 beschrieben. Reale Daten können von
der Quelle 2 an das Vokaltrakt-Analyse-System 3 geliefert
werden. Verzerrung und Störungen
können
dazu führen,
dass einzelne Zeitrahmen des originalen Signals verzerrt werden oder
ganz fehlen. Wenn zum Beispiel ein bestimmter Rahmen nur erscheinen
kann, indem er auf einen Rahmen eines kleinen Teilsatzes der möglichen
Rahmen nachfolgt, zeigt sein Erscheinen, wenn er einem Rahmen folgt,
der nicht zu dem Teilsatz gehört,
dass entweder der bestimmte Rahmen oder sein Vorgänger (oder
beide) aus einem originalen Rahmen, der für den Kontext geeignet war,
verzerrt wurden. Die Parameter jedes einzelnen Rahmens können „erlaubt" sein (d. h. die
Parameter fallen in die erwarteten Bereiche), aber eine zusammen
betrachtete Sequenz von Parametern kann ungültig sein und anzeigen, dass
eine Verzerrung stattfindet. Die in dem Speicher 4 gespeicherten
Parameter definieren eine mit derartigen Sequenzen trainierte Netzwerk-Definitions-Funktion.
Die von der Vokaltrakt-Analyse
erzeugten Parameter werden als Eingabe an das von der Netzwerk-Definitions-Funktion
definierte neuronale Netz 5 gegeben, das die von der Vokaltrakt-Analyse
erzeugten Daten klassifiziert, um eine Ausgabe 6 zu produzieren.
Die Netzwerk-Definitions-Funktion ist durch in dem Speicher 4 gespeicherte
Parameter definiert, um eine Klassifikation der Qualität des an die
Quelle 2 gelieferten Signals abzuleiten.
-
Um
Parameter einzuschließen,
die zeitabhängige
Eigenschaften betreffen, z. B. um nicht nur zu identifizieren, ob
sich die augenblicklichen Charakteristiken einer Probe innerhalb
der Fähigkeiten des
menschlichen Vokaltrakts befinden, sondern auch, ob sich die zeitvariablen
Eigenschaften ebenfalls innerhalb derartiger Fähigkeiten befinden, wird die
Ausgabe von der Vokaltrakt-Analyse in einem Puffer speicher 7 gespeichert.
Die gespeicherten Parameter werden als Eingabe dem neuronalen Netz 5 als „historische" Daten zugeführt, wenn
eine nachfolgende Probe dem neuronalen Netz 5 zugeführt wird, wodurch
die Charakteristiken derartiger zeitabhängiger Proben gemessen werden.
-
Viele
einzelne Telekommunikationsverbindungen können aufeinander folgend verbunden
sein als die Quelle 2, um die Signalqualität einer
großen Anzahl
von Verbindungen zu überwachen.
Obwohl insbesondere für
nicht-intrusive Messvorgänge
geeignet, kann die Erfindung auch bei so genannten „intrusiven" Messvorgängen verwendet
werden, bei denen ein Testsignal statt ein Live-Signal als die Quelle benutzt
wird.
-
Die
Ausgabe 6 kann in jeder geeigneten Form einem Benutzer
angezeigt werden. Zum Beispiel kann eine Quelle, für die eine
schlechte Leistung darstellende Klassifikation erzeugt wird, einem Netzverwalter
angezeigt werden, so dass die Telekommunikationsverbindung, die
durch die Quelle 2 dargestellt wird, außer Dienst genommen und, wenn nötig, repariert
werden kann, wobei die Verbindung durch ein anderes Routing wiederhergestellt
wird, wenn möglich.
In einer möglichen
Anordnung kann ein derartiger Vorgang automatisch gesteuert werden oder
es kann einem menschlichen „Kontrolleur" überlassen werden, auf die von
der Ausgabe 6 gelieferten Anzeigen zu reagieren.
-
Die
für jeden
Zeitrahmen aufgezeichneten Parameter können als Kurz-Code, der die
Parameter darstellt, gespeichert werden. Dies erfordert weniger Speicher
und kann auch die Verarbeitungszeit beträchtlich abkürzen. Die Code-Sequenz von
aufeinander folgenden Zeitrahmen sollte, wie die Parameter, die
sie darstellen, einer Sequenz einer Anzahl erkannter Sequenzen folgen,
die realen Sprachtönen entspricht.
Sollte ein Satz von Parametern für
einen Zeitrah men identifiziert werden, die einen Code aufweisen,
der nicht den vorherigen Elementen der Sequenz folgen soll oder überhaupt
nicht codiert ist, zeigt dies eine vorhandene Verzerrung an.
-
Um
die in dem Speicher 4 gespeicherten Parameter zu erzeugen,
muss das neuronale Netz 5 unter Verwendung von Trainingsdaten
zuerst trainiert werden, um die Netzwerk-Definitions-Funktion herzustellen.
Dieser Vorgang wird in den 1 bis 4 dargestellt.
Testdaten werden von einer Trainingsvorrichtung 1 an den
Vokaltrakt-Analysator 3 geliefert.
Die Trainingsvorrichtung 1 liefert auch die Testdaten betreffende
Klassifikationsparameter an das neuronale Netz 5, damit
Markierungen erzeugt werden können,
welche die Netzwerk-Definitions-Funktion definieren.
-
Die
Erzeugung dieser Markierungen wird im Folgenden erläutert unter
Bezugnahme auf 2, welche die Trainingsvorrichtung 1 detaillierter
zeigt. Um die Masse an Daten zu erzeugen, die zum Trainieren eines
neuronalen Netzes erforderlich ist, wurde unter Verwendung von Sprachabschnitten,
die zu kurz sind, um einzeln von einem menschlichen Operator genau
geprüft
zu werden, ein automatisches Verfahren zum Erzeugen derartiger Signale
erfunden. Dieser Vorgang beruht auf der Verwendung eines Wahrnehmungs-Analyse-Modells,
d. h. der Vorgang prüft,
ob eine Verzerrung eines Signals für einen menschlichen Beobachter
signifikant ist. Anfangs ist eine Quelle von Testsignalen 8 vorgesehen, die
zwei zugehörige
Speicher (8a, 8b) aufweist. Der erste Speicher 8a hat
eine „gute" Signalprobe. Die vollständige Probe
hat typischerweise eine Länge von
mehreren Stunden. Der zweite Speicher 8b weist eine entsprechende
Version derselben Probe auf, die durch Mittel, die später beschrieben
werden, einer Verzerrung unterzogen wurde. Die in dem zweiten Speicher 8b gespeicherte
Probe umfasst verschiedene Ausmaße und Typen von Verzerrung.
Das verzerrte Signal ist in kurze Abschnitte geteilt. Das gute Signal
aus dem Speicher 8a und seine entsprechende verzerrte Version
aus dem Speicher 8b werden entsprechend durch einen ersten
und zweiten Eingang 11, 12 an eine Analyseeinheit 9 eingegeben,
die eine Ausgabe mit einer Sequenz von Markierungen liefert, die
dann an das neuronale Netz 5 übertragen wird (1).
Die verzerrte Version des Signals wird auch an eine Segmentier-Vorrichtung 10 gesendet,
die das Signal in einzelne Abschnitte (typischerweise 20 Millisekunden)
unterteilt, die den Markierungen entsprechen. Diese Abschnitte werden
dann an den Vokaltrakt-Analysator 3 übertragen (1).
Die Analyseeinheit 9 vergleicht die „gute" Probe mit der verzerrten Probe und
erzeugt eine Sequenz von Markierungen, die das Ausmaß darstellt,
zu dem die in jedem Abschnitt vorhandene Verzerrung von dem Modell
als wahrnehmbar für
einen menschlichen Zuhörer
angesehen wird. Dieser Analysevorgang wird hier allgemein erläutert, aber
die in den veröffentlichten
internationalen Patentanmeldungen WO94/00922, WO95/01011 und WO95/15035
verwendeten Analysetechniken sind besonders geeignet.
-
3 zeigt
die Analyseeinheit 9 detaillierter. Die Eingaben 11 und 12 von
dem ersten und zweiten Speicher (8a, 8b), die
entsprechend das „gute" Signal und die verzerrte
Version des guten Signals übertragen,
werden an ein Gehörmodell
(jeweils 13, 14) eingegeben und die Ausgaben der
Gehörmodelle werden
in einem Vergleicher 15 verglichen. Es ist für Fachleute
offensichtlich, dass entsprechende Durchgänge des guten und des verzerrten
Signals stattdessen abwechselnd durch dasselbe Gehörmodell
geleitet und ein Vergleich zwischen den Ausgaben dieses Gehörmodells
für den
Durchgang des guten und des verzerrten Signals gemacht werden kann.
In jedem Fall ist es wichtig, dass derselbe Vorgang auf beide Signale
angewendet wird. Das Modell erzeugt eine Anzahl von Parametern,
die die wahrnehmbare Wichtigkeit der Charakteristiken einzelner
Signalabschnitte betrifft. Der Vorgang kann ein Trennen der Probe
in verschiedene überlap pende
Spektralanteile unter Verwendung von Überlappungs-Filtern umfassen,
um das Phänomen
simultaner Maskierung zu modellieren, in dem ein Ton einen leiseren
gleichzeitigen Ton maskiert, der in der Frequenz nahe liegt, und
kann auch ein Vergleichen jedes Abschnitts mit einem oder mehreren
vorausgehenden oder nachfolgenden Abschnitten) umfassen, um das
Phänomen zeitlicher
Maskierung zu modellieren, in dem ein leiser Ton, der einem lauteren
Ton unmittelbar vorhergeht oder nachfolgt, weniger wahrnehmbar ist,
als wenn der lautere Ton nicht vorhanden wäre.
-
Wie
in den oben erwähnten
Patentbeschreibungen beschrieben, erzeugt der Gehörmodell-Vorgang
eine Serie von Werten der wahrnehmbaren Signifikanz jedes spektralen
und zeitlichen Anteils der Probe. Da die Probe sowohl spektral als
auch zeitlich analysiert wird, ist es günstig, diese Serie von Werten als
eine Fläche
zu visualisieren, auf der die wahrnehmbare Signifikanz jedes spektralen/zeitlichen
Anteils durch Definieren von Zeit- und Tonhöhe-Achsen dargestellt wird,
wobei die wahrnehmbare Signifikanz für jedes Zeit/Spektral-Koordinatenpaar durch
die Höhe
der Fläche über einer
durch diese Achsen definierte Ebene dargestellt wird. Die Fläche wird
hier als eine „Gehör-Fläche" bezeichnet. Die
diese Fläche definierenden
Werte werden selbstverständlich
gespeichert und digital verarbeitet.
-
Die
der „guten" Probe und der verzerrten Probe
entsprechenden zwei Gehör-Flächen werden dann
in einem Vergleicher 15 verglichen, um eine Reihe von Fehlerwerten
zu erzeugen, die zur Bildung einer Fehlerfläche in einer Fehlerfläche-Erzeugungseinheit 16 zusammengestellt
werden. Wie in den oben angeführten
veröffentlichten
internationalen Patentbeschreibungen detaillierter beschrieben wird, ist
die Fehlerfläche
im Wesentlichen ein Maß über eine
Anzahl von Zeitabschnitten und Frequenz- oder Tonhöhen-Bänder (die
einzelnen Bereiche der Bänder
werden nach gleicher wahrnehmbarer Signifikanz gewählt, z.
B. indem das Signal in Einklang mit der Bark-Skala gebracht wird),
in welcher der wahrgenommene Wert des Tonsignals auf einer Achse dargestellt
wird, die sowohl zu der Tonhöhen-
als auch zu der Zeitachse rechtwinklig ist. Unterschiedliche Gewichtungen
können
auf positive und negative Werte angewendet werden, um zum Beispiel
die Unterschiede bei der Beeinträchtigung
zu berücksichtigen,
die aus einem Signalverlust im Gegensatz zu zusätzlichem Rauschen resultieren.
Wenn gar keine Verzerrung vorhanden ist, hat die Fehlerfläche einen Wert
von Null über
die gesamte Fläche.
Wenn, wie in dem zu erläuternden
Beispiel, die Werte auf der Fehlerfläche als der absolute Wert des
Unterschieds (möglicherweise
gewichtet, wie beschrieben) zwischen Ausgaben des Gehörmodells
bestimmt werden, sind alle Werte der Fehlerfläche positiv.
-
Wie
in den oben erwähnten
Patentanmeldungen beschrieben, können
die Charakteristiken der Fehlerfläche dazu verwendet werden,
einen Wert für
die wahrnehmbare Wichtigkeit der darauf enthaltenen Fehler abzuleiten.
Wie insbesondere in der internationalen Patentanmeldung WO95/15035
beschrieben wird, kann dies der absolute Wert der über die
Fehlerfläche
angehäuften
Fehler sein. Ein endgültiger
gewichteter Wert für
die „Gehör-Anstrengung" Y
LE kann
abgeleitet werden:
wobei c(i, j) der Fehlerwert
in dem i-ten von n Zeitabschnitten und dem j-ten von m Tonhöhen-Bändern der
zu analysierenden Fehlerfläche
ist. Dies liefert einen Hinweis auf das absolute Ausmaß der vorhandenen
Verzerrung.
-
Geeignete
Schwellenwerte für
eine Fehleraktivität
EA für
einzelne Abschnitte können
verwendet werden, um zu bestimmen, ob ein bestimmter Abschnitt als „gut konditioniert" oder als „schlecht
konditi oniert" markiert
werden soll. Die Eigenschaften der so erzeugten Fehlerfläche werden
verwendet, um Markierungen in einer Markierungs-Erzeugungsvorrichtung 17 abzuleiten,
die für
die Charakteristiken der von der Fehlerfläche-Erzeugungsvorrichtung 16 definierten
Fehlerfläche
geeignet sind. Diese Markierungen werden in Synchronität mit der
Segmentierung des Signals in der Segmentier-Vorrichtung 10 erzeugt.
Die Markierungen werden an das neuronale Netz 5 ausgegeben
(1).
-
Die
in dem Speicher 8 verwendete Quelle von verzerrten und „guten" Signalen kann von
einem vorher erzeugten Speicher bereitgestellt werden. Verschiedene
Sammlungen geeigneter Daten sind bereits verfügbar, aber weitere Daten können einfach erzeugt
werden. Die Erzeugung derartiger Daten ist relativ unkompliziert
und wird in 4 dargestellt, wobei ein anfängliches
Testsignal aus einer Quelle 18, das mehrere Proben von
realer Sprache unter Verwendung verschiedener Sprecher, um eine
repräsentative
Auswahl sicherzustellen, aufweisen kann, in den „guten" Speicher 8a eingegeben wird.
Dasselbe Signal wird auch durch die Verzerrungs-Erzeugungsvorrichtung 19 gesendet.
Das daraus resultierende verzerrte Signal wird in dem „verzerrten" Signalspeicher 8b gespeichert.
Mehrere unterschiedliche Verzerrungsquellen können angewendet werden. Durch
Verwendung verschiedener Permutationen von unterschiedlichen Testsignalen
und Verzerrungstypen kann eine große und repräsentative Sammlung von Testdaten
erzeugt werden, um als von der Trainingsdatenquelle 1 bereitgestellte
Trainingsdaten zu dienen.
-
Das
Testsignal wird mit typischen Formen von Verzerrung durch die Verzerrungs-Erzeugungsvorrichtung 19 versehen,
um eine repräsentative Auswahl
derartiger Signale dem Trainingsvorgang zur Verfügung zu stellen. Diese Verzerrungen
können
erzeugt werden, um verschiedene Effekte zu simulieren. Sie können algorithmisch
erzeugt werden (d. h. durch mathematische Manipulation der Proben, um
zum Beispiel ein Prototypensystem zu emulieren) oder, indem das
Original-Signal durch eine reale Vorrichtung entweder in einer Test-Einrichtung oder
in einem realen System gesendet wird, wie ein Telekommunikationsnetz.
-
Die
von der Trainingsvorrichtung 1 an das neuronale Netz 5 gelieferten
Markierungen informieren das Netz über die Art des übertragenen
Trainingssignals und sorgen dafür,
dass es geeignete Gewichtungen an die in dem Speicher 4 gespeicherten
verschiedenen Parameter hinsichtlich von Daten mit diesen Charakteristiken
anlegen kann. Beispiele unterschiedlicher Typen von verzerrten und
nicht verzerrten Signalen werden von der Trainingsvorrichtung 1 geliefert,
so dass der Ausgang 6 nicht nur identifizieren kann, dass
eine wahrnehmbare Verzerrung vorhanden ist, sondern auch das Ausmaß der von
der Verzerrung verursachten Beeinträchtigung, das heißt, wie
störend
die Verzerrung für
den Zuhörer ist.
-
Um
sicherzustellen, dass die Netzdefinition korrekt ist, können Testdaten,
für die
eine Klassifikation im Voraus bekannt ist, am Eingang 2 bereitgestellt
werden, wobei die von der Netzwerk-Definitions-Funktion in dem neuronalen Netz 5 erzeugten Klassifikationsdaten
dann (durch nicht gezeigte Mittel) mit den bekannten Klassifikationsdaten
verglichen werden.
-
Das
obige Audiosystem wurde in Zusammenhang mit Sprachsignalen beschrieben,
jedoch können
auch geeignete Proben anderer Audiosignale verwendet werden. Darüber hinaus
können
auch andere Signalstypen, zum Beispiel Videosignale, auf dieselbe
Weise analysiert werden, wie im Folgenden dargestellt wird.
-
Im
Allgemeinen weist ein Videosignal einen Audiokanal und drei Haupt-Videoanteile
auf. In einigen spezialisierten Anwendungen sind diese Anteile die
tatsächlichen
roten, grünen
und blauen Anteile des anzuzeigenden Bildes. Um jedoch eine Kompatibilität zwischen
monochromen Systemen („schwarz und
weiß") und Farbsystemen
zu ermöglichen,
sind in den meisten Systemen die Videoanteile ein (von sowohl dem
monochromen als auch dem Farb-Empfänger verwendetes) Helligkeitssignal
(„Bildhelligkeit") und zwei „Farbdifferenz"-Signale (die nur von Farb-Empfänger verwendet
werden). Die zwei Farbdifferenzsignale zeigen an, wie viel der gesamten Helligkeit
von den jeweils blauen und roten Anteilen des Bildes beigetragen
wird. Der dritte (grüne)
Anteil kann von den Helligkeits- und Farbdifferenzsignalen abgeleitet
werden, da er den Rest der gesamten Helligkeit ausmacht. Das Helligkeitssignal
und die Farbdifferenzsignale werden verwendet, um Anweisungen für die einzelnen
Erzeugungsvorrichtungen der Bilder mit den drei einzelnen Farben
(rot, grün,
blau) zu erzeugen, die, wenn sie überlagert werden, das Vollfarbenbild
hervorbringen.
-
6 zeigt
eine zu der in 3 gezeigten ähnliche Vorrichtung, die aber
für das
Training einer Video-Anwendung konfiguriert ist. Quellen originaler und
verschlechterter Signale werden an jeweilige Filter 31, 32 für eine menschliche
Sicht gesendet und dann an jeweilige Helligkeits- und Aktivitäts-Maskierungseinheiten 33, 34.
Diese Signale werden dann in einer Vergleichseinheit 35 verglichen.
-
Die
Ausgabe aus der Vergleichseinheit 35 wird an eine Fehlerfläche-Erzeugungseinheit 36 geleitet,
die eine Reihe von Werten für
den wahrnehmbaren Grad von Fehlern an verschiedenen Punkten in dem
Bild erzeugt. Somit wird eine „Fehler-Helligkeits-Abbildung" erzeugt, die anzeigt,
wie der wahrnehmbare Grad von Fehlern über das Bild variiert. Die
Ausgabe von der Fehlerfläche-Erzeugungseinheit 36 lie fert
eine Eingabe an eine Markierungs-Erzeugungseinheit 35.
Die Elemente 31 bis 37 haben alle Äquivalente
in dem in 3 gezeigten Sprachanalysesystem,
wobei jede Komponente dieselbe letzte Ziffer wie ihr Äquivalent
in 3 hat. Zusätzlich wird
die sich auf jedes Signal beziehende Ausgabe auch von den Maskierungseinheiten 33, 34 an
eine jeweilige Bild-Segmentierungseinheit 38a, 38b gesendet.
Die Ausgabe von der Fehlerfläche-Erzeugungseinheit 36 wird
durch Anwenden von Gewichtungen gemäß der Ausgabe der Bild-Segmentierungseinheiten 38a, 38b in
einer Fehler-Subjektivitätseinheit 39 modifiziert,
bevor sie an die Markierungs-Erzeugungseinheit 37 weitergeleitet
wird.
-
7 zeigt
die grundlegenden Elemente der trainierten Vorrichtung, die zur
Analyse von Live-Daten konfiguriert ist. Alle diese Elemente weisen
Entsprechungen in dem in 5 gezeigten Sprachanalysesystem
auf, wobei äquivalente
Komponenten dieselbe Bezugsziffer haben, denen in dieser Fig. jedoch
eine „2" vorangestellt ist.
Die grundlegenden Elemente sind ähnlich
den in 5 gezeigten Elementen, werden aber mit einem Videosignal
verwendet. Eine Proben-Einheit 22 ist mit einer Quelle
eines Videosignals 20 verbunden. Die Proben-Einheit 22 sendet
ein Signal an eine Parameter-Gewinnungseinheit 23, die
wiederum die entstehenden Parameter über einen Pufferspeicher 27 an
eine Klassifikationseinheit 25 weiterleitet, die auch eine
Eingabe von einem Netzwerk-Definitions-Funktions-Speicher 24 bekommt.
Die Klassifikationseinheit 25 erzeugt eine Klassifikation
der Eingangs-Parameter gemäß der Netzwerk-Definitions-Funktion 24,
die an einen Ausgang 26 übertragen wird. Eine Probe
des Videosignals wird aus einem Datenstrom 20 (z. B. 2
Mbit/sek) mittels der Proben-Einheit 22 entnommen. Jede
Probe wird dann von der Parameter-Gewinnungseinheit 23 verarbeitet,
die mehrere Funktionen durchführt, um
Charakteristiken zu identifizieren, die anzeigen, ob das Videosignal
gut konditioniert oder schlecht konditioniert ist. Die se Parameter
werden an die Klassifikationseinheit 25 (typischerweise
ein neuronales Netz) gesendet, die eine Ausgabe 26 erzeugt, die
anzeigt, ob das originale Videosignal gut oder schlecht konditioniert
ist.
-
Die
von der Parameter-Gewinnungseinheit durchgeführten Verfahren umfassen typischerweise eine
Spektralanalyse, eine Erfassung und Analyse von Begrenzungen und
eine Korrelation mit zeitlich angrenzenden Rahmen, um Parameter
zu erzeugen, die Spektralanteile, Position von Begrenzungen und Grad
von Korrelation, einschließlich
jeder räumlichen Versetzung
bei den Korrelationen, betreffen.
-
Diese
Parameter werden dann von dem neuronalen Netz 25 verarbeitet,
um für
die Wahrnehmung wichtige Muster, die für die bestimmten Typen von
Verzerrung charakteristisch sind, zu identifizieren. Gewonnene Parameter
können
eine Korrelation mit zeitlich angrenzenden Rahmen (entweder vorhergehende
oder nachfolgende Rahmen) erfordern, und zu diesem Zweck wird ein
Pufferspeicher 27 vorheriger Proben für einen Vergleich mit der zuletzt
erhaltenen Probe gespeichert. Die Parameter der von dem unbekannten
Videosignal erzeugten Bilder werden von dem neuronalen Netz 25 analysiert,
um eine Markierung an die Ausgabe 26 zurückzuschicken, welche
die Gesamtqualität
des Signals anzeigt. Alternativ kann das neuronale Netz programmiert
werden, Markierungen zu erzeugen, die für bestimmte Typen von Verzerrung,
auf die es trainiert wurde, charakteristische Parameter anzeigen.
-
In
der bevorzugten Anordnung werden Maße sowohl der gesamten Qualität als auch
des Typs von Verzerrung verwendet. Dadurch kann ein Benutzer sowohl
identifizieren, welche Abhilfsmaßnahme erforderlich ist, als
auch derartige Maßnahmen
priorisieren.
-
In
diesem Ausführungsbeispiel
wird das Gehörmodell
(13, 14) des ersten Ausführungsbeispiels von einem Modell
ersetzt, das auf denselben Prinzipien basiert, in welchem die relevanten
Parameter aber von Charakteristiken menschlicher Seh-Wahrnehmung,
statt von akustischen Charakteristiken, bestimmt werden. Die wahrnehmbare
Bedeutung einer Verzerrung hängt
von dem visuellen Kontext ab, in der sie auftritt. Maskierungseffekte
können
innerhalb eines Video-Rahmens
oder zwischen aufeinander folgenden Rahmen, abhängig von der Fortdauer von Bildcharakteristiken
einer menschlichen Seh-Wahrnehmung,
usw., signifikant sein. Die Segmentierungszeit wird einfacherweise
von der Bildfrequenz definiert (typischerweise 40 Millisekunden
für Televisionssysteme,
die eine Bildfrequenz von 25 Hz benutzen: in einem typischen „Zeilensprung"-System, in dem jeder
Rahmen aus zwei Abtastvorgängen
besteht).
-
Da
jeder Rahmen einer Videoübertragung
im Allgemeinen sehr ähnlich
zu dem vorherigen ist, wäre es
beim Messen von Maskierungs- und ähnlichen
Effekten angebracht, Abschnitte des Videosignals zu vergleichen,
die denselben Teil des Bildes betreffen. Der Analysevorgang selbst
ist analog zu dem obigen Gehörbeispiel.
Aufeinanderfolgende Rahmen werden analysiert, in einen Wahrnehmungsrelevanten Referenz-Rahmen
unter Verwendung eines Filters für
das menschliche Sehen und von Maskierungsmodellen umgewandelt, der
Fehler wird quantifiziert und eine Markierung wird erzeugt. Die
an dem Modell für das
Filter des menschlichen Sehens beteiligten Faktoren umfassen eine
räumliche
und zeitliche Frequenzauflösung.
Die modellierten Maskierungseffekte sind typischerweise eine Aktivitäts-Maskierung (große Bewegungen
maskieren kleine Fluktuationen) und eine Helligkeits-Maskierung.
-
Es
gibt gewisse Formen von Qualitätsverlust,
die charakteristische Merkmale auf einem Videosignal erzeugen, und
das Vorhandensein derartiger Merkmale kann von dem neuronalen Netz 25 identifiziert
und als ein Indikator verwendet werden, dass möglicherweise eine Verzerrung
vorhanden ist. Jedoch ist das Problem komplexer als bei Sprache,
da das Videosignal komplexer als ein Sprachsignal ist, und das Original-Signal
ist nicht auf die Weise wie ein Sprachsignal durch physiologische
Charakteristiken der Quelle des Signals beschränkt. Es ist für ein Merkmal
eines Sprachsignals möglich,
als „nicht Sprach-ähnlich" identifiziert zu
werden, und es kann deswegen mit einem vernünftigen Grad an Sicherheit identifiziert
werden, dass eine Verzerrung ausgeübt wurde. Ein Videosignal ist
nicht auf diese Weise eingeschränkt,
so dass es nicht einfach ist, mit Sicherheit zu identifizieren,
ob das empfangene Signal verzerrt wurde. Somit kann in diesem Ausführungsbeispiel
die Erfassung einer Charakteristik nur ein mögliches, zu untersuchendes
Problem anzeigen. Insbesondere kann eine Verzerrung von dem Erzeuger
des Videobildes bewusst eingeführt
worden sein. Zum Beispiel kann ein Effekt der „Blockhaftigkeit", der ähnlich dem
durch Datenkompression in dem MPEG-System erzeugten Effekt ist, von dem
Erzeuger eines Videobildes bewusst eingeführt werden, um zum Beispiel
die Anonymität
einer auf dem Bildschirm gezeigten Person zu wahren.
-
Nach
der Gewinnung der Videoprobe wird das Bild von der Parameter-Gewinnungseinheit 23 analysiert,
um Begrenzungen von Merkmalen zu erfassen. Begrenzungen werden typischerweise
zwischen Bereichen (Merkmalen) wahrgenommen, in denen jeweils eine
Charakteristik des Bildes, normalerweise Farbe oder Helligkeit,
gleich bleibt oder sich allmählich
verändert.
Zum Beispiel kann, obwohl jedes Merkmal allmählich in seinem Verlauf schattiert sein
kann, die Begrenzung eines Merkmals durch eine plötzliche Änderung
einer Charakteristik festgestellt werden. Typischerweise kann, auch
wenn es zwei Objekte mit ähnlichen
Farben gibt und die Schattierung jedes Merkmals über das Merkmal variiert, die
Begrenzung zwischen den beiden Objekten durch eine plötzliche Änderung
bei der Schattierung erfasst werden. Plötzliche Veränderungen in einer Eigenschaft
des Signals können
als kurzzeitige Breitbandkomponenten bei der spektralen Zerlegung
des Bildes erfasst werden. Verzerrungen, welche die Begrenzungen
zwischen verschiedenen Bildelementen betreffen, zum Beispiel durch
Verwischen einer Begrenzung oder Versetzen einer Begrenzung, wodurch
die Form eines Objektes verändert
wird, sind wahrnehmbar von größerer Bedeutung
als Veränderungen,
die innerhalb eines Körpers
stattfinden, der von einem Betrachter als Teil eines Bildelements wahrgenommen
wird. Derartige wahrnehmbar signifikante Veränderungen der Begrenzungen
umfassen das vollständige
Verschwinden einer Begrenzung oder das Auftreten einer Begrenzung,
wo es keine Begrenzung geben sollte.
-
Um
die zur Steuerung des neuronalen Netzes 25 verwendete Netzwerk-Definitions-Funktion
zu erzeugen, müssen
Bildcharakteristiken, die eine Verschlechterung anzeigen und wichtig
für einen menschlichen
Betrachter sind, identifiziert werden. Dafür wird der Trainingsvorgang
in einer Wahrnehmungsanalyse-Markierungs-Erzeugungseinheit 29 durchgeführt, die
in der Form einer Blockdarstellung in 6 gezeigt
wird. Diese ist im Konzept ähnlich
zu der in den 2 und 3 gezeigten
Einheit.
-
Ein
originales (nicht verschlechtertes) Signal und eine Version desselben
Signals mit einer bekannten Verschlechterung werden beide zuerst durch
die jeweiligen HVFs (Filter des menschlichen Sehens) 31, 32 geschickt,
welche die Bilder mit dem in Einklang bringen, was von dem menschlichen
Auge/Gehirn-System wahrnehmbar ist. Die Filter des menschlichen
Sehens 31, 32 modifizieren die Leistung (Amplitude)
von Signalen mit gewissen räumlichen
und zeitlichen Frequenzen gemäß den bekannten
Reaktionen des optischen Wahrnehmungssystems des Menschen derart,
dass die Frequenzen, die weniger wahrnehmbar signifikant sind, in
der Leistung relativ zu denen reduziert werden, die wahrnehmbar
signifikanter sind. Das optische Wahrnehmungssystem des Menschen
reagiert auf gewisse räumliche
und zeitliche Frequenzen mehr als auf andere. Zum Beispiel ist ein
regelmäßiges Muster
von Streifen aus einer Entfernung schwierig zu erkennen. Umgekehrt
ist, wenn ein einzelner Streifen so nahe ist, dass er einen großen Teil
des Sichtfelds einnimmt, das gesamte Muster ebenfalls wahrnehmbar nicht
signifikant. An einem dazwischenliegenden Standort ist das Muster
wahrnehmbar wichtiger als an diesen extremen Positionen. Man beachte,
dass nicht die absolute Entfernung wichtig ist, sondern der von
jedem Element an dem Auge eingenommene Winkel. Dies kann in Form
von Linien pro Einheit eines an dem Auge eingenommenen Winkels gemessen
werden. Dieser Wert hängt
natürlich
von der Entfernung des Betrachters von dem Bildschirm, auf dem das
Bild angezeigt wird, und ebenfalls von der Größe des Bildes selbst ab, da
aber der ideale Betrachtungsabstand in jedem Fall von der Größe des Bildes
bestimmt wird, wird nicht erwartet, dass der von einem Bildelement
an dem Auge eingenommene Winkel sich deutlich unterscheidet bei
unterschiedlicher Bildgröße. Ähnlich betrifft
eine zeitliche Frequenz die Wahrnehmbarkeit von Bildern. Langsame Veränderungen
sind nicht wahrzunehmen, während Veränderungen
mit hoher Frequenz als ein kontinuierliches Signal mittlerer Schattierung
oder Helligkeit empfunden werden (ein als „Augenträgheit" bekanntes Phänomen). In der Tat bauen Videobilder
auf die Unfähigkeit
des menschlichen optischen Systems, räumliche und zeitliche hochfrequente Änderungen aufzulösen, da
ein Videobild sowohl in Raum (Pixel) als auch in Zeit (Rahmen) aus
kleinen Elementen besteht. Die von dem Filter zu modellierenden
menschlichen Wahrnehmungscharakteristiken wurden ausführlich dokumentiert,
zum Beispiel in „Digital
Pictures" von A.
N. Netravali und B. G. Haskell, veröffentlicht 1988 von Plenum
Press, New York; ISBN 0-306-42791-5, siehe insbesondere 4–3–12.
-
Das
Bild geht als nächstes
durch einen Maskierungsvorgang (jeweils 33, 34).
Der Maskierungseffekt, den ein Bildelement auf ein anderes hat,
ist komplex, da er von der Ortsfrequenz, der Intensität und Orientierung
des maskierenden und maskierten Merkmals abhängt, wobei beide zueinander
und zu dem Auge des Betrachters relativ sind. Bestimmte helle oder
sich schnell bewegende Teile des Bildes können die wahrnehmbare Signifikanz
anderer Teiles des Bildes maskieren oder steigern. Die resultierende
maskierte Bildhelligkeit wird von jedem der Maskierungsmodelle 33, 34 ausgegeben
und dann in der Unterschied-Erzeugungseinheit 35 verglichen.
Dies erzeugt einen Wert für
die Fehler-Helligkeit für
jeden Punkt des Bildes, wodurch eine Fehlerfläche erzeugt wird. Die Fehler-Helligkeit
ist der Wert des Unterschieds zwischen dem originalen und dem verschlechterten
Signal (wobei das originale Signal heller oder weniger hell als
das verschlechterte Signal ist), angepasst durch Maskierung und
andere Wahrnehmungs-Effekte. Es ist günstig, den Wert des Unterschieds
zu verwenden, da dieser einen Mittelwert von ungleich Null über das
Bild und/oder über
die Zeit ermöglicht,
der bestimmt werden muss. Es sollte angemerkt werden, dass das Koordinatensystem
für die Fehlerfläche in diesem
Ausführungsbeispiel
die „x"- und „y"-Koordinaten des Bildes selbst statt
der Zeit- und Tonhöhen-Achsen
des vorher beschriebenen Audio-Ausführungsbeispiels verwendet.
Zeitabhängige
oder Ortsfrequenz-abhängige
Eigenschaften können
durch Hinzufügen
weiterer Dimensionen in das System aufgenommen werden. Es ist nicht
einfach, die daraus resultierenden Daten graphisch darzustellen,
aber die Parameter einer derartigen Fehlerfläche können trotzdem erzeugt und digital
manipuliert werden. Der Begriff „Fehlerfläche" wird in dieser Beschreibung für alle Daten
verwendet, die beschreiben, wie der wahrnehmbare Fehlergrad bei
einem oder mehreren unabhängig
veränderlichen
Parameter(n) variiert.
-
Es
sollte angemerkt werden, dass aufgrund der Art der Erzeugung eines
Videobilds sowohl die „x"- als auch die „y"-Koordinaten des
Bildes als Zeitachsen betrachtet werden können, wobei deren Maßeinteilung
von den Bildfolgefrequenzen in den x- und y-Richtungen bestimmt
werden (32 Mikrosekunden pro Zeile und 40 Millisekunden pro Rahmen
für ein
typisches Videobild mit 625 Zeilen).
-
Die
Ausgabe von den Aktivitäts-
und Helligkeits-Maskierungssystemen 33 und 34 werden
auch an jeweilige Bild-Segmentierungseinheiten 38a, 38b übermittelt.
Diese erfassen die Begrenzungen zwischen verschiedenen Elementen
des Bildes. Wie oben diskutiert, sind Verschlechterungen, welche
die Begrenzungen von Bildelementen betreffen (einschließlich das
vollständige
Verschwinden einer Begrenzung oder das Vorhandensein einer unerwünschten
Begrenzung) die in der Wahrnehmung signifikantesten. Durch Erfassen
eines Bildbereiches, der eine hoch lokalisierte Komponente aufweist
mit einer hochfrequenten Ortsfrequenz in ihrer spektralen Zerlegung,
kann eine Begrenzung eines Bildelements identifiziert werden. Die
Ausgabe der Bild-Segmentierungseinheiten 38a, 38b wird
in einer Fehler-Subjektivitätserzeugungseinheit 39 verwendet,
um die von der Fehlerfläche-Erzeugungseinheit 36 erzeugte
Fehler-Helligkeits-Abbildung zu gewichten. Diese gewichteten Werte
werden dann in der Fehler-Subjektivitätserzeugungseinheit 39 algorithmisch
verarbeitet, zum Beispiel, indem sie auf eine Art summiert werden,
die zu dem Vorgang zum Ableiten eines Fehleraktivitätswertes
in dem vorherigen Ausführungsbeispiel
analog ist, um einen gesamten Fehlersubjektivitätswert zu erzeugen. Der Gesamt-Fehlersubjektivitätswert wird
an die Markierungs-Erzeugungseinheit 37 gegeben, die eine
Ausgabe gemäß dem gesamten
Fehlersubjektivitätswert erzeugt
(z. B. durch Bezug auf eine oder mehrere Schwellen).
-
Die
Anordnung von 8 zeigt eine Modifizierung des
Systems von 7, wobei das System mittels
eines über
das zu überwachende
System übertragenen
Testsignals lernfähig
ist. Dadurch kann der lernfähige
Vorgang auf tatsächliche
Betriebsbedingungen fein abgestimmt werden und ein weiteres Training
des Systems ermöglicht
werden, damit dieses sich anpassen kann, während sich das überwachte
System entwickelt. 8 zeigt auch eine Architektur
mit mehreren Klassifizierern für
das Überwachungssystem.
Obwohl für
die Handhabung von Videosignalen dargestellt, ist offensichtlich,
dass sowohl das Online-Training als auch die Architektur mit mehreren
Klassifizierern auch zur Verwendung mit dem Audio-Ausführungsbeispiel
geeignet sind.
-
In 8 wird
ein Kommunikationssystem 20 gezeigt, das Verkehr überträgt, aus
dem eine Probe des übertragenen
Signalverkehrs mittels einer Probeneinheit 22 entnommen
werden kann. Die Probedaten werden dann mittels einer Anzahl von
Parameter-Gewinnungseinheiten 23A, 23B (zwei gezeigt) analysiert,
von denen jede ausgebildet ist, eine individuelle Eigenschaft, z.
B. Ortsfrequenz, Korrelation, gesamter Kontrastgrad, usw. zu messen.
Die dadurch gewonnenen Parameter werden an einzelne Klassifikationseinheiten 25A, 25B, 25C, 25D, 25E (typischerweise
neuronale Netze) weitergeleitet. Wie gezeigt, verwendet jede Klassifikationseinheit
Parameter, die von einer oder mehreren der Parameter-Gewinnungseinheiten 23A, 23B,
usw. gewonnen wurden. Jede Klassifikationseinheit 25A,
usw. liefert eine Ausgabe an die Ausgabe-Koordinationseinheit 26,
welche die Ausgaben der verschiedenen Klassifikationseinheiten 25A,
usw. verarbeitet, um eine Anzeige zu erzeugen. Durch diese Anordnung
kann jeder Klassifizierer (neuronales Netz) individuell konfiguriert
werden, um das Vorhandensein einer bestimmten Charakteristik zu
identifizieren, wodurch eine einfache binäre Ausgabe (ja/nein) erzeugt
wird. Durch eine Kombination der Ausgaben derartiger Klassifizierer
kann eine komplexe Ausgabe erzeugt werden, z. B. Auslösen einer
Warnung, wenn eine vorgegebene Anzahl der Klassifizierer eine Ausgabe erzeugen.
-
Das
System sieht auch zwei Quellen 1, 1A von Trainingsproben
vor, von denen sich eine anderswo in dem Kommunikationssystem 20 befindet und
die andere sich in der Nähe
der Parameter-Gewinnungseinheiten 23A, 23B positioniert
ist, um eine direkte Eingabe dafür
zu liefern.
-
Ebenfalls
ist eine vorprogrammierte Charakteristik-Identifizierungseinheit 28 vorgesehen,
die mit einer Eingabe von der Parameter-Gewinnungseinheiten 23A gezeigt
wird.
-
Die
Klassifikationseinheiten 25A bis 25E sind als
parallele Klassifikationseinheiten angeordnet, wobei jede derart
konfiguriert ist, eine bestimmte Charakteristik in dem von der Probeneinheit 22 empfangenen
Signal zu identifizieren, um eine Ausgabe an die Ausgabe-Koordinationseinheit 26 zu
erzeugen, die anzeigt, ob die Eigenschaft vorhanden ist oder nicht.
Die Eigenschaft selbst wird gemäß dem Vorhandensein
oder Fehlen eines oder mehrerer von den Parameter-Gewinnungseinheiten 23A, 23B identifizierten/r
Parameter(s) gemessen. Zum Beispiel kann eine Klassifikationseinheit 25A identifizieren,
ob ein bestimmter Typ einer Verzerrung vorhanden ist, während eine
andere Einheit einen zweiten Typ einer Verzerrung identifiziert.
Weitere Klassifikationseinheiten können die wahrnehmbare Stärke der Gesamt-Verzerrung
identifizieren.
-
Wenn
sich das Telekommunikationsnetz 20 weiter entwickelt, können neue
Typen von Signalverarbeitungsvorgängen mit anderen Charakteristiken innerhalb
des Netzwerks stattfinden, die in gewissen Umständen zu neuen charakteristischen
Verzerrungen führen.
Damit das Analysesystem zur Identifizierung derartiger Verzerrungen
neu trainiert werden kann und um sich Veränderungen in dem existierenden
Netzwerk anzupassen, wird ein Neukonfigurierungsvorgang eingeführt. Zu
diesem Zweck wird ein Kanal zeitweilig außer Gebrauch genommen, damit er
eine von der Trainingsproben-Erzeugungseinheit 1 bereitgestellte
Trainingsprobe übertragen
kann. Die Trainingsprobe wird mittels der Probeneinheit 22 gewonnen
und mit einer anderen Probe verglichen, die von einer Quelle 1A an
dem Überwachungspunkt
erzeugt wurde und identisch zu der über die Kommunikationsverbindung
empfangenen Probe ist.
-
Zu
der Quelle 1A der zweiten (lokal erzeugten) Trainingsdaten
gehört
eine Wahrnehmungsmodell-Markierungs-Erzeugungseinheit 29 (wie
oben detailliert in 6 gezeigt wurde), die das über die Kommunikationsverbindung 20 von
der Trainingsquellen-Erzeugungseinheit 1 empfangene Signal
mit dem lokal erzeugten Trainingssignal vergleicht, um Qualitätsmarkierungen
zu erzeugen, die an die lernfähige
Klassifikationseinheit 25E eingegeben werden. Diese Markierungen
gehören
zu den entsprechenden von der Parameter-Gewinnungseinheit 23B erzeugten
Parametern, um eine Netzwerk-Definitions-Funktion für die Klassifikationseinheit 25E zu
erzeugen. Nachfolgend auf den Trainingsvorgang wird die sich ergebende
Netzwerk-Definitions-Funktion dazu
verwendet, unbekannte Parametermuster zu klassifizieren, die durch
die Probeneinheit 22 von der Kommunikationsverbindung 20 gewonnenen
unbekannten Proben entsprechen. Auf diese Weise können Klassifikationseinheiten
zum dem ursprünglichen
System hinzugefügt
werden oder existierende neu programmiert werden, wenn sich das
Kommunikationssystem 20 weiterentwickelt.
-
Nicht
alle Klassifikationseinheiten sind notwendigerweise mittels eines
Trainingsvorgangs programmiert. Wo die Charakteristiken bereits bekannt sind,
kann eine Klassifikationseinheit 28 vorprogrammiert werden,
um geeignete Parameter zu identifizieren, die von den Parameter-Gewinnungseinheiten 23A, 23B,
usw. gewonnen wurden. Die Analyseeinheit 28 funktioniert
auf ähnliche
Weise zu den lernfähigen
Einheiten 25A bis 25E, ist aber vorprogrammiert,
um bekannte Charakteristiken bestimmter Typen von Signalverschlechterung
zu erkennen. Zum Beispiel ist bekannt, dass eine Datenkomprimierung zu
verschwommenen Begrenzungen, Auftreten von Blöcken, Unschärfe, Ruckeln und Farbabweichung führen kann.
Insbesondere in einem Videobild mit viel schneller Bewegung behandelt
das MPEG-Signal-Komprimierungssystem Überlastungen,
die aus der schnellen Bewegung in dem Bild entstehen, durch Reduzierung
der Pixelauflösung,
was zur Entstehung von „Blöcken" mit charakteristischen
geradlinigen Begrenzungen von typischerweise 8 × 8 Pixel führt (Pixelierung). Eine Störung durch
Mehrwegübertragung
erzeugt zwei Begrenzungen, die um einen festen horizontalen Abstand
versetzt sind (als „Doppelkontur" bekannt). Unschärfe tendiert
dazu, die hochfrequenten Ortsfrequenzkomponenten der Begrenzungen
selbst zu streuen. Verschwommene Farben können zu Diskrepanzen zwischen
den von den verschiedenen farbigen Komponenten des Bildes definierten
Begrenzungen führen.
Niedriger Kontrast in einer Farbkomponente über das Bild als Ganzes zeigen
eine Farbabweichung an (das Bild ist in der fraglichen Farbe oder
deren chromatischen Komplementärfarbe
getönt).
Niedriger Kontrast über
das Bild als Ganzes zeigen eine Signal-Begrenzung an. Eine vollständige Korrelation
zwischen den drei Farbkomponenten des Bildes zeigt ein monochromes
Bild an, was einen Verlust des die Farbinformation tragenden Signalbands
bedeuten kann.
-
Das
Ausmaß der
Korrelation zwischen aufeinander folgenden Rahmen kann weitere Typen
einer Verschlechterung zeigen. Zum Beispiel zeigen große zufällige Unterschiede
zwischen jedem aufeinander fol genden Rahmen das Vorhandensein eines störenden Signals
an. Der Effekt von regellos auftretenden hellen und dunklen Bildpunkten
auf einem Videobild (als „Schnee" bekannt) ist ein
Beispiel eines solchen Merkmals. Dies würde aus einer einzelnen Probe
schwierig zu erfassen sein, da die Lage der einzelnen Bildpunkte
zufällig
ist. Wenn die Probe sich vollständig
von der vorherigen Probe unterscheidet, bedeutet dies wahrscheinlich,
dass eine Änderung der
Szene (Änderung
einer Filmaufnahme) stattgefunden hat und in diesen Fällen wären keine
nützlichen
Korrelationen verfügbar.
Wenn jedoch eine Szene im Großen
und Ganzen unverändert
ist, d. h. jeder Rahmen korreliert stark mit dem vorhergehenden
Rahmen, hat aber Unterschiede von dem vorigen Rahmen, die weder
miteinander korreliert sind noch mit ähnlichen Unterschieden von
früheren
Rahmen, zeigt dies an, dass weißes
Rauschen („Schnee") in dem Signal vorhanden
ist.
-
Eine
weitere zeitabhängige
Korrelation, die identifiziert werden kann, ist ein durch Signalkomprimierung
ruckelndes Bild. Dies ist insbesondere wahrscheinlich, wenn das
Bild auf einer „bei
Ausnahme"-Grundlage verarbeitet
wird – jedes
Bild ist das gleiche wie das vorherige mit gewissen Unterschieden,
wobei nur die Unterschiede übertragen
werden. Für
ein sich schnell änderndes
Bild kann die Datenrate zu langsam sein, um all die erforderlichen
Veränderungen
für jeden
Rahmen zu definieren. Die Bewegung von Merkmalen über ein
Bild ist normalerweise fließend.
Wenn sich ein Merkmal schrittweise bewegt, zeigt dies ein ruckelndes
Bild an. Ein Ruckeln erzeugt Ränder,
deren Positionen von einem Bild zu dem nächsten auf eine charakteristische
Weise korrelieren, wobei sich ein Element oder mehrere Elemente
in jedem Bild einer Gruppe von aufeinander folgenden Bildern in
derselben Position befindet/befinden, aber Elemente in Bildern aufeinander
folgender Gruppen voneinander versetzt sind.
-
Von
einer Veränderung
der Szene, die durch eine vollständige
und nicht-vorübergehende Änderung
der Positionen aller Begrenzungen zu identifizieren ist, und/oder
einer Veränderung
einiger Charakteristiken, wie durchschnittliche Helligkeit, kann erwartet
werden, mit einer Veränderung
in den gesamten Charakteristiken des Audiokanals (z. B. seine Lautstärke) zu
korrelieren. Eine Abwesenheit derartiger Korrelationen über mehrere
derartige Veränderungen
kann eine Störung
auf dem Audiokanal oder sogar Verlust des Audiosignals anzeigen.
-
In
der Klassifikationseinheit 28 werden die von der Parametereinheit 23A gewonnenen
Parameter analysiert, um eine Markierung für die Ausgabe-Koordinationseinheit 26 auszugeben,
die das Vorhandensein von für
bestimmte Typen von Verzerrung charakteristischen Parametern anzeigt.
Zum Beispiel würden
Parameter, die Blocks mit 8 × 8
Pixel identifizieren, eine Überlastung
des MPEG-Codierungsalgorithmus anzeigen. Ein Fehlen von klar definiertem Hochfrequenzinhalt
in dem Spektrum des Signals zeigt die Abwesenheit klar definierter
Begrenzungen an, was auf ein undeutliches oder unscharfes Bild hindeutet.
Eine hohe Korrelation zwischen nah beieinander liegenden Begrenzungsmerkmalen
deutet auf Doppelkonturen (Störung
durch Mehrwegübertragung),
usw. hin. Merkmale, die von einem Bild zu dem nächsten Bild nicht korrelieren,
zeigen ein verrauschtes Signal an („Schnee").
-
Wie
für die
lernfähigen
Klassifikationseinheiten 25A bis 25E dargestellt,
können
auch mehrere vorprogrammierte Klassifikationseinheiten 28 vorgesehen
werden, wobei jeder Einheit die Identifizierung einer bestimmten
Charakteristik zugewiesen wird.