DE60200632T2

DE60200632T2 - Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens

Info

Publication number: DE60200632T2
Application number: DE60200632T
Authority: DE
Inventors: Raymond Gass; Richard Atzenhoffer
Original assignee: Alcatel SA
Current assignee: Alcatel Lucent SAS
Priority date: 2001-06-11
Filing date: 2002-04-18
Publication date: 2004-12-23
Anticipated expiration: 2022-04-19
Also published as: EP1267325B1; ATE269573T1; FR2825826A1; JP3992545B2; US20020188442A1; US7596487B2; CN1391212A; FR2825826B1; EP1267325A1; CN1162835C; DE60200632D1; JP2006189907A; JP2003005772A; ES2219624T3

Description

Die Erfindung betrifft einen Sprachsignalcodierer, der über eine verbesserte Vorrichtung zur Erkennung sprachlicher Aktivität und insbesondere über einen Codierer gemäß der Norm ITU-T G.729A, Anhang B, verfügt.
Ein Sprachsignal umfasst bis zu 60% Stille oder Hintergrundgeräusch. Um die Menge der zu übertragenden Informationen zu reduzieren, werden bekanntermaßen die Anteile des Sprachsignals, die tatsächlich Nutzsignale enthalten, und die Anteile, die lediglich Stille oder Rauschen enthalten, voneinander getrennt und jeweils nach zwei verschiedenen Algorithmen codiert, wobei jeder Anteil, der lediglich Stille oder Rauschen enthält, mit sehr wenigen Informationen, die den Merkmalen des Raumgeräuschs entsprechen, codiert wird. Ein derartiger Codierer umfasst eine Vorrichtung zur Spracherkennung, die diese Trennung nach den Spektrallinien und nach der Energie des zu codierenden Sprachsignals (für jeden Signalrahmen berechnet) vornimmt.
Das Sprachsignal wird in digitale Rahmen unterteilt, die jeweils einer Dauer von beispielsweise 10 ms entsprechen. Für jeden Rahmen wird aus dem Signal ein Satz von Parametern abgeleitet. Die wichtigsten Parameter sind die Autokorrelationskoeffizienten. Anschließend werden aus diesen Autokorrelationskoeffizienten aufgrund einer linearen Prädiktion eine Gruppe von Codierungskoeffizienten sowie ein Satz frequentieller Parameter abgeleitet. Eine Etappe des Verfahrens zur Trennung der Anteile des Sprachsignals, die tatsächlich Nutzsignale enthalten, und der Anteile, die lediglich Stille oder Rauschen enthalten, besteht darin, die Energie eines Signalrahmens mit einer Schwelle zu vergleichen. Eine Vorrichtung zur Berechnung des Schwellenwertes passt den Schwellenwert in Abhängigkeit von den Veränderungen des Geräuschs an. Das Geräusch, das das Sprachsignal stört, besteht aus einem Rauschen elektrischen Ursprungs und aus Umgebungslärm. Letzterer kann im Laufe einer Nachrichtenübertragung beträchtlich zu- oder abnehmen. Andererseits müssen die Koeffizienten der frequentiellen Filterung des Geräuschs ihrererseits auch an die Veränderungen des Geräuschs angepasst werden.
In dem Artikel "ITU-T Recommendation G729 Annex B: A Silence Compression Scheme for Use With G729 Optimized for V.70 Digital Simultaneous Voice and Data Applications" von Adil Benyassine et al, IEEE Communication Magazine, September 1997 ist ein derartiger Codierer beschrieben.
Der Decodierer, der das codierte Sprachsignal decodieren soll, muss abwechselnd zwei Decodierungsalgorithmen benutzen, die jeweils den als Sprache codierten Signalanteilen und den als Stille oder Hintergrundgeräusch codierten Signalanteilen entsprechen. Der Übergang von einem Algorithmus zum anderen wird durch die Informationen, mit denen die Stille- oder Geräuschperioden codiert werden, synchronisiert.
Die bekannten Codierer, denen die Norm ITU-T G.729A, Anhang B, 11/96 zugrunde liegt, sind nicht mehr in der Lage, die Trennung zwischen dem Nutzsignal und dem Geräusch vorzunehmen, wenn der Geräuschpegel mehr als 8.000 Stufen der durch diese Norm definierten Quantifizierungsskala beträgt. Es ergeben sich daraus zahlreiche unnötige Übergänge des Spracherkennungssignals und demnach auch ein Verlust von Anteilen des Nutzsignals.
Es ist eine in dem Beitrag G.723.1 VAD beschriebene Lösung bekannt, die darin besteht, die Spracherkennung in dem Codierer vollständig zu unterbinden, wenn das Signal-Rausch-Verhältnis unterhalb eines vorbestimmten Wertes liegt. Durch diese Lösung wird die Vollständigkeit des Nutzsignals erhalten, aber sie hat den Nachteil, dass der Verkehr erhöht wird.
Mit dieser Erfindung wird eine effizientere Lösung vorgeschlagen, bei der die Effektivität der Spracherkennung im Sinne des Verkehrs erhalten bleibt, aber die Qualität des nach der Decodierung wiederhergestellten Signals nicht beeinträchtigt wird.
Der Gegenstand der Erfindung ist ein Verfahren zur Spracherkennung in einem Signal, wobei dieses Signal in Rahmen unterteilt wird und dieses Verfahren über eine Glättungsphase einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" verfügt, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die darin besteht, eine endgültige Entscheidung "Sprache" für den Rahmen n zu treffen, wenn:

– die anfängliche Entscheidung für den Rahmen n "Sprache" ist;
– und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war;
– und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war;
– und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.

Das somit charakterisierte Verfahren vermeidet einen unerwünschten Übergang von "Geräusch" zu "Sprache" bei einer vorübergehenden Energiezunahme während des Rahmens n, weil die Glättungsfunktion die endgültige Entscheidung, die für den auf den aktuellen Rahmen n vorausgehenden Rahmen n – 1 getroffen worden ist, berücksichtigt, um über einen Übergang von "Geräusch" zu "Sprache" zu entscheiden.
Wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist, besteht das Verfahren gemäß der Erfindung in einer vorzugsweisen Anwendungsart ferner darin, dass jegliche endgültige Entscheidung "Geräusch" für die Rahmen n – 1 bis n + i unterbunden wird, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
Das somit charakterisierte Verfahren vermeidet somit das Phänomen des Verlusts von Sprachsegmenten, da die Glättungsfunktion für die Rückkehr zu einer Entscheidung "Geräusch" eine Trägheit aufweist, die der Dauer von i Rahmen entspricht.
Die Erfindung hat ebenfalls einen Sprachsignalcodierer zum Gegenstand, der über Glättungsmittel verfügt, um das Verfahren gemäß der Erfindung anzuwenden.
Die Erfindung wird anhand der folgenden Beschreibung und der beigefügten Abbildungen verständlicher, wobei noch weitere Merkmale deutlich werden:
1 zeigt das Funktionsschema eines Ausführungsbeispiels eines Codierers für die Anwendung des Verfahrens gemäß der Erfindung.
2 zeigt das Organigramm der Entscheidungsfindung "Sprache"/"Geräusch" gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren.
In 3 sind die Glättungsvorgänge des Spracherkennungssignals gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher dargestellt.
4 zeigt das Organigramm eines Beispiels für die Anwendung der Glättung des Spracherkennungssignals in dem Verfahren gemäß der Erfindung.
In 5 sind die Prozentanteile von Fehlern mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dargestellt.
In 6 sind die Prozentanteile von Sprachverlusten mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dargestellt.
Das Ausführungsbeispiel eines Codierers, dessen Funktionsschema in 1 dargestellt ist, umfasst:

– eine Eingangsklemme 1, die in analoger Form ein zu codierendes Signal empfängt;
– eine Schaltung 2, um das Sprachsignal zu filtern, abzutasten, zu quantifizieren und in Rahmen zu zerlegen;
– einen Schalter 3 mit einem mit dem Ausgang der Schaltung 2 verbundenen Eingang und mit zwei Ausgängen;
– eine Schaltung 4 zur Codierung der Rahmen, die als tatsächlich ein Nutzsignal darstellender Rahmen angesehen werden, wobei diese Schaltung über einen mit einem ersten Ausgang des Schalters 3 verbundenen Eingang verfügt;
– eine Schaltung 5 zur Codierung der Rahmen, die als ein Stille oder Geräusch darstellender Rahmen angesehen werden, wobei diese Schaltung über einen mit einem zweiten Ausgang des Schalters 3 verbundenen Eingang verfügt;
– einen zweiten Schalter 6 mit: einem ersten und einem zweiten Eingang, die mit einem Ausgang der Schaltung 4 beziehungsweise mit einem Ausgang der Schaltung 5 verbunden sind, sowie einer Ausgangsklemme 9, die die Ausgangsklemme des Codierers darstellt;
– und einen Sprachdetektor 7, der über einen mit dem Ausgang der Schaltung 2 verbundenen Eingang und einen insbesondere mit einem Steuereingang von jedem der Schalter 3 und 6 verbundenen Ausgang verfügt, um die codierten Rahmen mit dem jeweils in dem Sprachsignal erkannten Inhalt auszuwählen: entweder Nutzsignal oder Stille (oder Geräusch).

Wenn das Sprachsignal ein Nutzsignal ist, so liefert der Codierer alle 10 ms einen Rahmen. Besteht das Sprachsignal aus Stille (oder Geräusch), so liefert der Codierer zu Beginn der Stille (oder des Geräuschs) einen einzigen Rahmen.
In der Praxis kann ein derartiger Codierer mittels eines in geeigneter Weise programmierten Prozessors hergestellt werden. Insbesondere kann das Verfahren gemäß der Erfindung aufgrund einer Software angewendet werden, die von einem Fachmann entwickelt werden kann.
2 zeigt das Organigramm der Entscheidungsfindung "Sprache" oder "Geräusch" gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren. Das Verfahren wird auf Rahmen eines digitalisierten Signals mit einer festen Dauer von 10 ms angewendet.
Eine erste Etappe 11 besteht darin, für den aktuellen Rahmen des zu codierenden Signals vier Parameter abzuleiten: die Energie dieses Rahmens in dem gesamten Frequenzbereich, die Energie dieses Rahmens in den tieferen Frequenzen, eine Gruppe von Spektralkoeffizienten und die Quote der Nulldurchgänge.
In der folgenden Etappe 12 wird die Mindestgröße eines Pufferspeichers aktualisiert.
Die folgende Etappe 13 besteht darin, die Zahl des aktuellen Rahmens mit einem vorbestimmten Wert Ni zu vergleichen:

– Wenn sie niedriger als Ni ist:
– Die folgende Etappe 14 besteht darin, die Werte der beweglichen Durchschnitte der Parameter des zu codierenden Signals zu initialisieren: die Spektralkoeffizienten; die durchschnittliche Energie im gesamten Frequenzbereich; die durchschnittliche Energie in den tieferen Frequenzen und die durchschnittliche Quote von Nulldurchgängen.
– Anschließend besteht eine Etappe 15 darin, die Energie des Rahmens mit einem vorbestimmten Schwellenwert zu vergleichen, um zu entscheiden, dass es sich bei dem Signal um Sprache handelt, wenn die Energie des Rahmens diesen Wert übersteigt, oder um zu entscheiden, dass es sich bei dem Signal um ein Geräusch handelt, wenn die Energie des Rahmens unter diesem Wert liegt. Die Verarbeitung des aktuellen Rahmens erreicht dann ihr Ende 16.
– Wenn die Zahl des Rahmens nicht niedriger als Ni ist, so wird bei einer folgenden Etappe 17 bestimmt, ob sie gleich Ni oder größer als Ni ist:
– wenn sie gleich Ni ist, so besteht eine folgende Etappe 18 darin, den Wert der durchschnittlichen Energie des Geräuschs in dem gesamten Frequenzbereich und den Wert der durchschnittlichen Energie des Geräuschs in den tieferen Frequenzen zu initialisieren.
– Wenn sie größer als Ni ist:
– eine folgende Etappe 19 besteht darin, eine Gruppe von Differenzparametern zu berechnen, indem der aktuelle Wert eines Rahmenparameters von dem beweglichen Durchschnittswert dieses Rahmenparameters, der für das Geräusch repräsentativ ist, abgezogen wird. Diese Differenzparameter sind: die Spektralverzerrung, die Energiedifferenz in dem gesamten Frequenzbereich, die Energiedifferenz in den tieferen Frequenzen und die Differenz der Quoten der Nulldurchgänge.
– Bei einer folgenden Etappe 20 wird die Energie des Rahmens mit einem vorbestimmten Schwellenwert verglichen:
– Ist sie nicht niedriger als dieser Wert, so besteht eine Etappe 21 darin, eine anfängliche Entscheidung ("Sprache" oder "Geräusch") zu treffen, die auf einer Vielzahl von Kriterien beruht; anschließend besteht eine Etappe 22 darin, diese Entscheidung zu "glätten", um zu häufige Änderungen dieser Entscheidung zu vermeiden.
– Ist sie niedriger oder gleich diesem Wert, so besteht eine Etappe 23 in der Entscheidung, dass das Signal ein Geräusch ist; anschließend besteht die Etappe 22 darin, diese Entscheidung zu "glätten".
– Nach der Glättungsetappe 22 besteht eine folgende Etappe 24 darin, die Energie des aktuellen Rahmens mit einem adaptiven Schwellenwert zu vergleichen, der dem um eine Konstante erhöhten beweglichen Durchschnitt der Energie in dem gesamten Frequenzbereich entspricht:
– Wenn sie höher als der Schwellenwert ist, so besteht eine folgende Etappe 25 darin, die Werte der beweglichen Durchschnitte der das Geräusch repräsentierenden Parameter zu aktualisieren; anschließend erreicht die Verarbeitung des aktuellen Rahmens das Ende 26.
– Übersteigt sie nicht den Schwellenwert, so erreicht die Verarbeitung des aktuellen Rahmens das Ende 27.

In 3 sind die Glättungsvorgänge des Spracherkennungssignals gemäß dem durch die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher dargestellt. Diese Glättung umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch") folgen, wobei diese Entscheidung auf einer Vielzahl von Kriterien beruht:

– Eine erste Etappe besteht in einem Test 31, um die Entscheidung "Sprache" zu treffen, wenn:
– die Entscheidung für den vorhergehenden Rahmen "Sprache" war,
– und die durchschnittliche Energie des aktuellen Rahmens höher ist als der um eine Konstante erhöhte bewegliche Durchschnitt der Energie der vorhergehenden Rahmen, d. h. wenn die Energie des aktuellen Rahmens deutlich höher als die durchschnittliche Energie des Geräuschs ist. Im gegenteiligen Fall wird die Entscheidung "Geräusch" 42 endgültig getroffen.
– Eine zweite Etappe 32 bis 35 besteht in einem Test 32, um die Entscheidung "Sprache" zu bestätigen, wenn:
– die Entscheidung für die beiden vorhergehenden Rahmen "Sprache" war,
– und die durchschnittliche Energie des aktuellen Rahmens höher ist als der um eine Konstante erhöhte bewegliche Durchschnitt der Energie des vorhergehenden Rahmens, d. h. wenn die Energie von dem vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich abgenommen hat.

Diese zweite Etappe besteht ferner darin, einen Zähler um ein Inkrement zu erhöhen (Schritt 33), anschließend dessen Inhalt mit dem Wert 4 zu vergleichen (Schritt 34) und dann diesen Test 32 für den nächsten Rahmen zu deaktivieren (Schritt 35), wenn der aktuelle Rahmen der vierte Rahmen hintereinander ist, für den die Entscheidung "Sprache" ist. Wird die Entscheidung "Sprache" nicht bestätigt, so wird die Entscheidung "Geräusch" 42 endgültig getroffen.

– Eine dritte Etappe 36 bis 39 besteht in einem Test 36, um die Entscheidung "Geräusch" 42 endgültig zu treffen, wenn:
– eine Entscheidung "Geräusch" für die zehn auf den aktuellen Rahmen vorausgehenden Rahmen getroffen worden ist (nachdem für den aktuellen Rahmen in den Etappen 31–35 die Entscheidung "Sprache" getroffen worden war).
– die Energie des aktuellen Rahmens niedriger ist als die um eine Konstante erhöhte Energie des vorhergehenden Rahmens, d. h. wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.

Diese dritte Etappe besteht ferner darin, den Test 36 neu zu starten (Schritt 37), indem die Zählung der Rahmen zurückgesetzt wird (Schritt 39), wenn der aktuelle Rahmen der zehnte Rahmen hintereinander ist, für den die Entscheidung "Geräusch" lautet (Test 38).

– eine vierte Etappe besteht in einem Test 40, um die Entscheidung "Geräusch" 42 endgültig zu treffen, wenn die Energie des aktuellen Rahmens niedriger ist als die Summe des um eine Konstante von 614 erhöhten beweglichen Durchschnitts der Energie der vorhergehenden Rahmen. Das heißt, die Entscheidung "Sprache" wird nur dann endgültig bestätigt (Schritt 41), wenn die Energie des Rahmens deutlich höher ist als der bewegliche Durchschnitt der Energie der vorhergehenden Rahmen. Im gegenteiligen Falle wird die Entscheidung "Geräusch" 42 endgültig getroffen.

Diese vierte Etappe 40 (endgültige Entscheidung) liefert fehlerhafte Entscheidungen "Geräusch", wenn das Signal sehr stark durch Geräusche gestört ist. Tatsächlich wird in dieser Etappe 40 ohne Berücksichtigung der vorausgehenden Entscheidungen entschieden, dass das Signal ein Geräusch ist, wobei jedoch einfach der Energieunterschied zwischen dem aktuellen Rahmen und dem Hintergrundgeräusch zugrunde gelegt wird, das durch den um die Konstante von 614 erhöhten Wert des beweglichen Durchschnitts der Energie der vorhergehenden Rahmen dargestellt wird. Wenn das Hintergrundgeräusch stark ist, so ist die durch diese Konstante von 614 gebildete Schwelle tatsächlich nicht mehr gültig.
Das Verfahren gemäß der Erfindung unterscheidet sich von dem durch die Norm G.279.1, Anhang B, 11/96 bekannten Verfahren hinsichtlich der Glättungsetappen.
In 4 ist das Organigramm eines Beispiels für die Durchführung der Glättung des Spracherkennungssignals in dem Verfahren gemäß der Erfindung dargestellt. Diese Glättung umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch"), die auf einer Vielzahl von Kriterien beruht, folgen. Unter diesen vier Etappen sind drei Etappen (Tests 131, 132, 136) analog zu drei oben beschriebenen Etappen (Tests 31, 32, 36); die oben beschriebene vierte Etappe 40 entfällt; und vor der oben beschriebenen ersten Etappe 31 wird eine so genannte "einleitende" Etappe eingefügt. Es wird eine so genannte "Trägheitszählung" eingefügt, um eine Trägheit mit einer Dauer zu erreichen, die beispielsweise dem Fünffachen der Dauer eines Rahmens entspricht, bevor die Entscheidung "Sprache" in die Entscheidung "Geräusch" geändert wird, wenn die Energie des Rahmens nachgelassen hat. Diese Dauer entspricht folglich in diesem Beispiel 50 ms. Diese Trägheitszählung ist nur dann aktiv, wenn die durchschnittliche Energie des Geräuschs 8.000 Stufen der durch die Norm G.279.1, Anhang B, 11/96 definierten Quantifizierungsskala übersteigt.

– Die eingefügte einleitende Etappe 101 bis 104 besteht darin:
– den Trägheitszähler auf 0 zu stellen (Schritt 102) und anschließend zum Test 131 überzugehen, wenn die anfängliche Entscheidung der Etappe 21 "Sprache" ist.
– zu bestimmen, ob die Energie des aktuellen Rahmens höher als ein festgelegter Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als 6 und höher als 1 ist (Schritt 103), wenn die anfängliche Entscheidung der Etappe 21 "Geräusch" ist. Anschließend:
– die Entscheidung "Sprache" (im Widerspruch zu der anfänglichen Entscheidung) zu treffen, wenn diese beiden Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (Schritt 104) und schließlich zum Test 131 überzugehen.
– oder die Entscheidung "Geräusch" 142 endgültig zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
– Die erste Etappe besteht in einem Test 131 (analog zu dem Test 31), der darin besteht, die Entscheidung "Sprache" aufrechtzuerhalten, wenn die vorhergehende Entscheidung "Sprache" war und die durchschnittliche Energie des aktuellen Rahmens höher ist als der bewegliche und um eine festgelegte Konstante erhöhte Durchschnitt der Energie der vorhergehenden Rahmen.
– Die zweite Etappe 132 bis 135 (analog zu den Etappen 32 bis 35) besteht darin, die Entscheidung "Sprache" zu treffen, wenn:
– die Entscheidung für die beiden vorhergehenden Rahmen "Sprache" war,
– und die durchschnittliche Energie des aktuellen Rahmens höher ist als der bewegliche und um eine Konstante erhöhte Durchschnitt der Energie des vorhergehenden Rahmens, das heißt, wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich nachgelassen hat.

Diese zweite Etappe 132 bis 135 besteht ferner darin, diesen Test für den nächsten Rahmen zu deaktivieren, wenn der aktuelle Rahmen der vierte Rahmen hintereinander ist, für den die Entscheidung "Sprache" lautet (Erhöhung 133 eines Zählers um ein Inkrement, Vergleich 134 seines Inhalts mit dem Wert 4, und Deaktivierung 135, wenn der Wert 4 erreicht ist).

– Die dritte Etappe 136 bis 139 und 143 (etwas verschieden von den Etappen 36 bis 39) besteht darin, die Entscheidung "Geräusch" 142 endgültig zu treffen, wenn:
– für die letzten zehn Rahmen eine Entscheidung "Geräusch" getroffen worden ist;
– und die Energie des aktuellen Rahmens niedriger ist als die um eine Konstante erhöhte Energie des vorhergehenden Rahmens, das heißt, wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.

Diese dritte Etappe besteht ferner darin, diesen Test 136 neu zu starten, indem die Zählung der Rahmen zurückgesetzt wird, wenn der aktuelle Rahmen der zehnte Rahmen hintereinander ist, für den die Entscheidung "Geräusch" lautet (Erhöhung 137 eines Zählers um ein Inkrement, Vergleich 138 des Inhalts dieses Zählers mit dem Wert 10, Zurücksetzen 139 dieses Zählers auf 0, wenn der Wert 10 erreicht ist). Die dritte Etappe ist gegenüber dem oben beschriebenen bekannten Verfahren geändert, da sie ferner darin besteht, dem Trägheitszähler den Wert 6 aufzuzwingen (Schritt 143), um jegliche Interaktion zwischen diesem Test 136 und dem Trägheitszähler zu vermeiden.

– Es gibt keine vierte Etappe, die analog zur Etappe 40 ist.

In 5 stellen die Kurven E1 und E2 jeweils die Prozentanteile von Fehlern mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dar.
In 6 stellen die Kurven L1 und L2 jeweils die Prozentanteile von Sprachverlusten mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene Werte des Signal-Rausch-Verhältnisses dar.
Sie zeigen, dass das Verhalten der Spracherkennung in einer lauten Umgebung wesentlich verbessert wird. Der gesamte Prozentanteil von Fehlern nimmt ab, und vor allem ist der Prozentanteil des Sprachverlusts beträchtlich reduziert. Die Vollständigkeit der Sprache bleibt erhalten, und das Gespräch bleibt verständlich.

Claims

Verfahren zur Spracherkennung in einem Signal, wobei dieses Signal in Rahmen unterteilt wird und dieses Verfahren über eine Glättungsphase einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" verfügt, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die darin besteht, eine endgültige Entscheidung "Sprache" für den n-ten Rahmen zu treffen, wenn: – die anfängliche Entscheidung für den Rahmen n "Sprache" ist; – und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war; – und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war; – und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist, dieses Verfahren ferner darin besteht, jegliche endgültige Entscheidung "Geräusch" für die Rahmen n + 1 bis n + i zu unterbinden, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass diese Glättungsphase eine Etappe aufweist, die für einen Rahmen n darin besteht: – einen Trägheitszähler (102) auf 0 zu stellen, wenn die anfängliche Entscheidung "Sprache" ist. – zu bestimmen, ob die Energie des Rahmens n höher als ein Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als ein festgelegter Schwellenwert und höher als eins ist (103), wenn die anfängliche Entscheidung "Geräusch" ist. Anschließend: – die Entscheidung "Sprache" zu treffen, wenn diese drei Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (104). – oder die Entscheidung "Geräusch" zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
Sprachsignalcodierer mit einer Spracherkennungsvorrichtung, wobei dieses Signal in Rahmen unterteilt wird und diese Vorrichtung Mittel zur Glättung einer anfänglichen, für jeden Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" aufweist, dadurch gekennzeichnet, dass diese Glättungsmittel über Mittel verfügen, um eine endgültige Entscheidung "Sprache" für den n-ten Rahmen zu treffen, wenn: – die anfängliche Entscheidung für den Rahmen n "Sprache" ist; – und die endgültige Entscheidung für den Rahmen n – 2 "Geräusch" war; – und die Energie des Rahmens n – 1 größer als diejenige des Rahmens n – 2 war; – und die Energie des Rahmens n größer als die Energie des Rahmens n – 2 ist.
Codierer gemäß Anspruch 4, dadurch gekennzeichnet, dass die Glättungsmittel über Mittel verfügen, um – wenn eine endgültige Entscheidung "Sprache" für den Rahmen n getroffen worden ist – jegliche endgültige Entscheidung "Geräusch" für die Rahmen n + 1 bis n + i zu unterbinden, wobei i eine ganze Zahl ist, die eine Trägheitsdauer definiert.
Codierer gemäß Anspruch 4, dadurch gekennzeichnet, dass die Glättungsmittel über Mittel verfügen, um: – einen Trägheitszähler (102) auf 0 zu stellen, wenn die anfängliche Entscheidung für den Rahmen n "Sprache" ist. – zu bestimmen, ob die Energie des Rahmens n höher als ein Schwellenwert ist, und zu bestimmen, ob der Inhalt des Trägheitszählers niedriger als ein festgelegter Schwellenwert und höher als eins ist (103), wenn die anfängliche Entscheidung "Geräusch" ist. Anschließend: – die Entscheidung "Sprache" zu treffen, wenn diese drei Bedingungen erfüllt sind, und danach den Trägheitszähler um eine Einheit zu erhöhen (104). – oder die Entscheidung "Geräusch" zu treffen, wenn eine dieser Bedingungen nicht erfüllt ist.