DE69815562T2

DE69815562T2 - Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen

Info

Publication number: DE69815562T2
Application number: DE69815562T
Authority: DE
Inventors: Shmuel Shaffer; Daniel Lai; William Joseph Beyda
Original assignee: Siemens Information and Communication Networks Inc
Current assignee: Siemens Communications Inc
Priority date: 1997-02-13
Filing date: 1998-02-03
Publication date: 2004-04-29
Anticipated expiration: 2018-02-04
Also published as: EP0859353A3; EP0859353B1; EP0859353A2; DE69815562D1; US6167374A

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich ganz allgemein auf die Signalverarbeitung von Sprachinformationen und insbesondere auf die Verarbeitung gesprochener Daten und deren Unterteilung in einzelne Segmente.
BESCHREIBUNG DES STANDES DER TECHNIK
Es gibt eine Reihe von Anwendungen, in denen ein kontinuierlicher Strom von gesprochenen Informationen in einzelne Signalsegmente unterteilt wird, um eine anschießende Weiterverarbeitung des Signals zu ermöglichen. So können Sprachdaten beispielsweise für die Speicherung in verschiedenen Spuren eines Aufzeichnungsmediums (Computerfestplatte etc.) segmentiert werden. Ein weiteres Beispiel ist die Sprachkommunikation zwischen zwei abgesetzten Standorten, bei der in vielen Fällen eine Segmentierung der Sprachdaten in einzelne Pakete erfolgt, die über eine Kommunikationsverbindung, beispielsweise eine digitale "Verbindungsstrecke" (Link) übermittelt werden. Bei der Digitalisierung von Sprachdaten kann für jede Sekunde der Echtzeit-Spracheingabe eine Datenmenge von etwa 64 Kbit anfallen. Daher kommen digitale Sprachkomprimierungsverfahren zur Anwendung, um die Effizienz der Digitalverbindung zu erhöhen. Bei Einsatz eines Komprimieralgorithmus', der die Sprachdaten auf 6,4 Kbit/s reduziert, verfügt eine paketvermittelte 64-Kbit/s-Verbindung über die erforderliche Bandbreite zur gleichzeitigen Unterstützung von zehn Sprechverbindungen.
In der Praxis – siehe beispielsweise die Beschreibung in US-A-5592586 – werden Echtzeit-Sprachinformationen digitalisiert, komprimiert und in einzelne Pakete unterteilt. Jedes Paket kann eine feste Länge aufweisen. Für Sprachkommunikationszwecke ist eine Festdauer von 5 Millisekunden denkbar. Die Sprachinformationen werden somit in derselben Art und Weise gehandhabt wie nicht gesprochene Daten während der Signalverarbeitung. Siehe hierzu auch das Dokument WO 93/17415, in dem ein Verfahren zur Bestimmung einzelner Wortgrenzen beschrieben wird.
Ein Problem bei herkömmlichen Verfahren besteht darin, dass Datenpakete sowie Informationen innerhalb von Datenpaketen verloren gehen können, was negative Auswirkungen auf die Qualität der Sprechverbindung hat. Diese Qualitätseinbußen sind insbesondere bei Signalverbindungen von Bedeutung, die ohnehin anfällig für Paketverluste sind, wie dies bei drahtlosen Verbindungen oder Verbindungen in lokalen Netzwerken (LANs) der Fall ist. Während die Sprachdaten auf der Senderseite im Großen und Ganzen wie Nicht-Sprachdaten gehandhabt werden können, ist dies auf der Empfängerseite nicht möglich. Ein bekanntes Verfahren für die Erkennung und Korrektur von Fehlern bei der Übertragung von nicht sprachgebundenen Daten sind die so genannten "Prüfsummen"-Fehlerberichte. Auf der Senderseite wird mit Hilfe eines entsprechenden Algorithmus' für jedes Datenpaket, das an die Empfängerseite übermittelt werden soll, eine Prüfsumme berechnet. Anhand dieses numerischen Wertes lässt sich der Inhalt des Datenpakets eindeutig identifizieren. Jedes Datenpaket wird dann mit der zugehörigen Prüfsumme an die Empfängerseite übermittelt, wo derselbe Algorithmus angewendet wird, um eine Prüfsummennummer für das empfangene Datenpaket zu berechnen. Die beiden Prüfsummen werden anschließend verglichen. Sind die numerischen Werte identisch, wird davon ausgegangen, dass das Datenpaket fehlerfrei ist. Weichen die beiden Prüfsummen jedoch voneinander ab, geht man davon aus, dass während der Übertragung von der Senderseite zur Empfängerseite ein Fehler aufgetreten ist. In diesem Fall wird eine "negative Bestätigung" (Negative Acknowledgment, NAK) an die Senderseite übermittelt, um die Neuübertragung des betreffenden Datenpakets einzuleiten. Alternativ hierzu kann für jedes Paket, das als fehlerfrei erkannt wird, eine Bestätigung (Acknowledgment, ACK) von der Empfängerseite an die Senderseite übermittelt werden. Bei dieser Variante erwartet die Senderseite den Eingang eines ACK-Signals für jedes übermittelte Datenpaket. Geht das ACK-Signal für ein bestimmtes Datenpaket nicht innerhalb einer vorgegebenen Zeitspanne beim Sender ein, wird das betreffende Datenpaket automatisch neu übertragen. Die Empfängerseite verfügt normalerweise über einen größeren Speicherpuffer, der eine erneute Zusammensetzung der Datenpakete auch bei nicht folgerichtigem Empfang aufgrund von Neuübertragungen ermöglicht.
Die Neuübertragung verloren gegangener Sprachpakete stellt in der Echtzeit-Sprechverbindung üblicherweise keine Option dar, da die Zwischenspeicherung zahlreicher Pakete zu spürbaren Verzögerungen bei der Kommunikation zweier Personen an verschiedenen Standorten führen würde.
Als Alternative zur Fehlerkorrektur durch Paketneuübertragung arbeiten einige Echtzeit-Sprachübertragungsnetze mit Fehlerkorrektur-Codierverfahren für die "Reparatur" von Sprachdatenpaketen. Die Reparaturmöglichkeiten sind jedoch begrenzt, so dass auch bei Einsatz eines solchen Fehlerkorrekturverfahrens Sprachinformationen verloren gehen können. Fällt die Fehlerkorrektur aus, können somit mehrere Einzelwörter vollständig oder teilweise verloren gehen. Bei dem Versuch, das Paket zu reparieren, wird der Fehler möglicherweise auf der Empfängerseite unterdrückt. In diesem Fall kann es passieren, dass die übermittelte Nachricht falsch interpretiert wird.
Benötigt wird ein daher Verfahren und ein System für die Verarbeitung von Sprachinformationen, bei dem der Verlust von Daten die Verständlichkeit der verbleibenden fehlerfreien Sprachinformationen in geringerem Ausmaß als bisher beeinträchtigt.
ZUSAMMENFASSUNG DER ERFINDUNG
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild eines Systems für die Verarbeitung von Sprachinformationen, bei dem die Upstream-Worterkennungstechniken gemäß der hier vorgestellten Erfindung zum Einsatz kommen.
2 ist ein Blockschaltbild, das den Einsatz des Systems aus 1 in einer Fernsprechnetz-Umgebung zeigt.
3 ist ein Prozessablaufdiagramm mit den einzelnen Schritten für den Einsatz des Systems aus 2 im Sendebetrieb.
4 ist ein Prozessablaufdiagramm mit den einzelnen Schritten für den Einsatz des Systems aus 2 im Empfangsbetrieb.
AUSFÜHRLICHE BESCHREIBUNG
In 1 ist ein Signalverarbeitungssystem (10) dargestellt, das mit einem Empfänger (12) verbunden ist. In der bevorzugten Ausführungsform wird dieses System für die Sprachkommunikation mit einem abgesetzten Standort, d. h. dem Empfänger, eingesetzt. So kann es sich bei dem System (10) und dem Empfänger (12) beispielsweise um getrennte Standorte innerhalb eines lokalen Netzwerks (LAN) handeln. Alternativ hierzu können die Verbindungsstrecken (14 und 16) zwischen dem System und dem Empfänger auch als drahtlose Digitalverbindungen eines Zellularnetzes ausgeführt sein.
Obwohl das Signalverarbeitungssystem (10) vorzugsweise für die Realisierung der Echtzeit-Sprachkommunikation zwischen abgesetzten Standorten genutzt wird, kann das nachfolgend beschriebene Verfahren zur Segmentierung logischer Sprachgrenzen auch für andere Anwendungsbereiche genutzt werden. In einer alternativen Ausführungsform ist als Empfänger (12) beispielsweise auch ein Speichermedium wie eine Computerfestplatte denkbar. Digitaldaten lassen sich gegebenenfalls auch in Paketen speichern, die durch den Sprachinhalt definiert sind. So könnte beispielsweise jedes Paket eine Datenentsprechung für ein einzelnes Wort in einer logischen Wortfolge enthalten. Die Segmentierung des Signals, das im Zuge einer Spracheingabe generiert wird, erfolgt in diesem Fall nicht zeitabhängig, sondern auf Basis des jeweiligen Inhalts. Die bei herkömmlichen Systemen übliche zeitabhängige Segmentierung vernachlässigt den Signalinhalt und bildet statt dessen Datenrahmen, die normalerweise alle die gleiche Länge haben (z. B. 5 Millisekunden).
Das Signalverarbeitungssystem (10) in 1 verfügt über ein Gerät für die Spracheingabe/-ausgabe (18). Bei diesem Ein-/Ausgabegerät kann es sich beispielsweise um ein Telefon handeln. Die Generierung eines elektrischen Signals für die jeweilige Spracheingabe erfolgt mit Hilfe eines Signalgebers (20), der an das Gerät für die Spracheingabe/-ausgabe angeschlossen wird. In einer Ausführungsform handelt es sich bei diesem Signalgeber um einen Analog/Digital-Wandler, dessen Eingangssignale von einem analogen Gerät für die Spracheingabe/-ausgabe (18) stammen. In einer anderen Ausführungsform sind Ein-/Ausgabegeräte (18) und Signalgeber (20) als Einzelgerät ausgeführt, das ein analoges oder digitales Signal für die nachgeschaltete Verarbeitungselektronik bereitstellt.
Ein kontinuierlicher Strom von Sprachinformationen wird einem Spracherkennungsgerät (22) zugeführt. Das heißt, Echtzeit-Sprachinformationen gehen am Spracherkennungsgerät ein. Das Gerät analysiert das Eingangssignal und sucht nach Signalsegmenten, die für logische Sprachgrenzen, die sich als Basis für die Segmentierung des Signals eignen. Vorzugsweise enthält jedes Signalsegment, das bei der Analyse durch das Spracherkennungsgerät erkannt wurde, die erforderlichen Signalkomponenten für ein einzelnes Wort. In einigen Ausführungsformen kann es jedoch von Vorteil sein, wenn ein Signalsegment mehr als ein vollständiges Wort enthält. Ebenso kann es auch Anwendungen geben, in denen jedes einzelne Signalsegment die Sprachinformationen für eine einzelne Silbe umfasst, damit eine Segmentierung auf Silbenbasis erfolgen kann.
Die Signalanalyse am Spracherkennungsgerät (22) kann gegebenenfalls unter Verwendung bekannter Algorithmen implementiert werden. Die Identifizierung von Einzelwörtern ist bei einigen Anwendungen der hier beschriebenen Erfindung unkritisch, da in erster Linie die logischen Sprachgrenzen von Interesse sind. Ist eine Segmentierung auf Silbenbasis implementiert, handelt es sich bei dem Eingangssignal um ein "zeitvariables" Sprachsignal; der Algorithmus muss in diesem Fall in der Lage sein, zwischen Signalanteilen mit Sprachinhalten und Signalanteilen mit Pauseninhalten zu differenzieren. Somit kann es sinnvoll sein, einen Intensitätsschwellwert zu definieren, um zu vereinbaren, dass die Anteile des Sprachsignals mit einer Intensität über dem Schwellwert als "Sprache" erkannt werden, während Anteile mit einer Signalintensität unterhalb des Schwellwertes als "sprachfremde Signale" erkannt werden. Das Spracherkennungsgerät (22) sollte jedoch vorzugsweise in der Lage sein, bestimmte Wörter zu erkennen, damit diese intakt bleiben, wenn sie bei der nachfolgenden Signalpaketierung für die Übergabe an den Empfänger (12) verarbeitet werden.
Für den Fall, dass das Spracherkennungsgerät (22) über einen längeren Zeitraum keine Wortgrenzen erkennen kann, kann bei Bedarf ein fester Timing-Rahmen implementiert werden. Das heißt, die Signalsegmente können durch Vorgabe eines bestimmten Schwellwerts (z. B. 250 Millisekunden) zeitlich begrenzt werden. In diesem Fall entspricht die Sprachqualität des Signalverarbeitungssystems (10) der Qualität, die mit bisherigen Verfahren erzielt wird.
Die Ausgabe des Spracherkennungsgeräts (22) wird an einen Datenkompressor (24) übergeben. Das hier eingehende digitale Sprachsignal wird komprimiert, wobei jeder Rahmen vorzugsweise ein einzelnes Wort enthält. Bei einigen Ausführungsformen der Erfindung ist die Datenkomprimierung optional. Bei Anwendungen mit Komprimierung stellt der jeweilige Komprimieralgorithmus kein kritisches Element der Erfindung dar und kann daher von Anwendung zu Anwendung differieren.
Ein Codec (26) codiert die vom Datenkompressor (24) komprimierten Datenrahmen und generiert auf diese Weise Pakete für die anschließende Übergabe an den Empfänger (12). Bei der Codierung der Datenpakete wird vorzugsweise die Möglichkeit einer Fehlerprüfung vorgesehen. Handelt es sich bei dem Signalverarbeitungssystem (10) um einen Netzwerkstandort mit einem Fehlererkennungs- und -korrekturverfahren, geht der Codec (26) gemäß diesem Verfahren vor. Ist auf Netzwerkebene jedoch kein solches Fehlerkorrektur- und -erkennungsverfahren implementiert, kann auf einen einfachen Prüfsummenprozess zurückgegriffen werden. Das heißt, für jedes Datenpaket, das an den Empfänger (12) übermittelt wird, kann mit Hilfe eines entsprechenden Algorithmus' eine (numerische) Prüfsumme berechnet werden. Vor der Decodierung auf Seiten des Empfängers (12) wird mit Hilfe desselben Algorithmus' eine Prüfsumme für jedes empfangene Paket berechnet. Sind die beiden Prüfsummen identisch, wird davon ausgegangen, dass das Datenpaket fehlerfrei ist. Sind die beiden Prüfsummen jedoch unterschiedlich, wird davon ausgegangen, dass ein Übertragungsfehler vorliegt. Die Person auf der Empfängerseite sollte bei einem eventuellen Verlust von Sprachinformationen alarmiert werden. Wie nachfolgend ausführlicher erläutert wird, können in einem solchen Fall entsprechende Hinweisdaten generiert werden, um eine Pause oder einen Signalton in die empfangenen Sprachdaten einzufügen.
Wie bereits angemerkt kann der Empfänger (12) als Aufzeichnungsmedium ausgeführt sein; vorzugsweise handelt es sich hierbei jedoch um einen abgesetzten Standort mit Empfangs- und Übertragungsfunktionalität. Wenn das Signalverarbeitungssystem (10) im Empfangs- oder Rücklesemodus arbeitet, wird über die Digitalverbindung (16) ein Signal an die Fehlerprüfschaltung (28) ausgegeben. Bei der Überprüfung von Prüfsummenfehlern werden die (numerischen) Prüfsummen in der Schaltung (28) verglichen. Die Fehlerprüfung stellt jedoch kein kritisches Element der Verbindung dar. Die Sprachinformationen werden an den Decoder (30) weitergegeben, wo bekannte Techniken für die Formatierung von Sprachinformationen zur Anwendung kommen, um eine Sprachwiedergabe am Sprachgerät für die Ein- bzw. Ausgabe (18) zu ermöglichen. Der Decodierbetrieb hängt vom Decodierverfahren für die empfangenen Pakete ab sowie von der Art des Ein-/Ausgabegeräts (z. B. Analog- oder Digitaltelefon bzw. Audio-Anlage einer Videokonferenzstation).
Eine komplexere und gleichzeitig die bevorzugte Ausführungsform eines Signalverarbeitungssystems (32) ist in 2 dargestellt. Ein Telefon (34) liefert hier die Eingabe für ein Spracherkennungsgerät (36). Das Spracherkennungsgerät erkennt logische Sprachgrenzen im Eingangssignal und nimmt eine Rahmenzuweisung auf Basis dieser Sprachgrenzen vor. So kann beispielsweise jeder Rahmen die Sprachinformationen für ein einzelnes Wort enthalten. Sind innerhalb einer vorgegebenen Zeitspanne keine Wortgrenzen erkannt worden, wird die Rahmengrenze automatisch definiert. In einer Ausführungsform beträgt der Schwellwert für die Vorgabedauer 250 Millisekunden. Die Länge des vom Signalverarbeitungssystem (32) definierten Rahmens entspricht somit der Dauer des erkannten Sprachelements (Wort etc.) oder dem Maximalwert 250 Millisekunden – je nachdem, welcher Wert kleiner ist.
Ein Datenkomprimiergerät (38) und ein Codec (40) komprimieren die Daten in jedem Rahmen und stellen gegebenenfalls die gewünschte Codierungsfunktionalität bereit, um Datenpakete mit Hilfe eines Senders (44) an einen abgesetzten Standort (42) übertragen zu können. Wie bereits angemerkt ist bei einigen Ausführungsformen der Erfindung eine optionale Datenkomprimierung möglich (siehe hierzu 1). In der in 2 gezeigten Ausführungsform befinden sich das Signalverarbeitungssystem (32) und der abgesetzte Standort (42) in einem Zellularnetz; die Übertragung erfolgt hier über einen Netzknoten (Hub) (46).
Um eine Sprachnachricht von einer Person am abgesetzten Standort (42) an eine Person zu übermitteln, die sich auf Seiten des Signalverarbeitungssystems (32) befindet, übergibt der Hub (46) diese Nachricht von dem abgesetzten Standort an einen Empfänger (48) auf der Systemseite (32). Die Nachricht wird in Datenpaketen mit komprimierten Sprachinformationen weitergeleitet. Jedes Datenpaket wird hierbei an die optionale Fehlerkorrektur- und -prüfschaltung (50) ausgegeben. Die Fehlerkorrektur ist kein kritisches Leistungsmerkmal der hier vorgestellten Erfindung. Bei Implementierung einer Fehlerkorrektur kann auf bekannte Verfahren zurückgegriffen werden. In einer Ausführungsform kommen Prüfsummenverfahren zur Anwendung.
Datenpakete, die als fehlerfrei erkannt worden sind, werden von der Fehlerkorrektur- und -prüfschaltung (50) an den Sprachdecoder (52) übergeben. Je nachdem, welche Fehlerkorrekturverfahren in Verbindung mit dem System (32) eingesetzt werden, können die fehlerfreien Pakete auch für eine potenzielle Nutzung im Korrekturschema gespeichert werden. Pakete, in denen fehlerhafte Daten festgestellt werden, werden "repariert", sofern dies möglich ist.
Nicht korrigierbare Pakete werden an einen Hinweisdatengenerator (62) weitergeleitet. Der Hinweisdatengenerator stellt ein Paket mit Signaleigenschaften bereit, die die Empfangsperson am Telefon (34) darauf hinweisen sollen, dass Sprachinformationen verloren gegangen sind. So kann beispielsweise in die decodierten Sprachinformationen, die am Telefon (34) an die Empfangsperson ausgegeben werden, ein Signalton mit einer bestimmten Frequenz eingefügt werden. Alternativ hierzu kann der Hinweis an die Empfangsperson auch aus einer Ruheperiode bestehen. Die Benachrichtigung ermöglicht es der Person auf der Empfängerseite, eine "Neuübertragung" der Nachricht von der Person am abgesetzten Standort (42) anzufordern. Bei der "Neuübertragung" handelt es sich um eine verbale Aufforderung zur Wiederholung der fehlenden Informationen.
Ist die Zeitspanne zwischen dem Empfang von zwei aufeinanderfolgenden Datenpaketen des abgesetzten Standorts (42) länger als der vorgegebene Schwellwert, geht das System in der bevorzugten Ausführungsform davon aus, dass das Paket bei der netzseitigen Übertragung verloren gegangen ist. Ein akzeptabler Schwellwert ist 5 Millisekunden; der bevorzugte Schwellwert hängt jedoch von der jeweiligen Anwendung ab. Bei Überschreitung des Schwellwerts wird über den Signalweg (66) ein Timeout-Signal an den Hinweisdatengenerator (62) ausgegeben. Dies wiederum hat zur Folge, dass ein Hinweisdatenpaket generiert und an den Sprachdecoder (52) übermittelt wird und von diesem anstelle des fehlenden Pakets in den Sprachdatenstrom eingefügt wird, um die Person auf der Empfängerseite darauf hinzuweisen, dass Informationen verloren gegangen sind.
Die Prozessschritte für den Sendebetrieb des Signalverarbeitungssystems (32) aus 2 sind in 3 dargestellt. In Schritt 68 werden hier zunächst Sprachinformationen in das System eingegeben. In 2 ist das Spracheingabegerät als Telefon (34) dargestellt; der Gerätetyp ist jedoch unkritisch.
In Schritt 70 wird ein elektrisches Signal für die erfolgte Spracheingabe generiert. Hierbei kann es sich um ein analoges Signal handeln, eine digitale Signalverarbeitung wird jedoch bevorzugt. Das Signal wird in Schritt 72 mit Hilfe eines Spracherkennungsalgorithmus analysiert. Im Rahmender Signalanalyse werden die logischen Sprachgrenzen ermittelt. In einer bevorzugten Ausführungsform werden hierbei einzelne Wörter innerhalb der Sprachinformationen isoliert. Die Isolierung muss jedoch nicht unbedingt auf Wortbasis erfolgen; es ist auch eine Abtrennung einzelner Silben denkbar.
Alternativ hierzu können die Sprachgrenzen auch mehrere Wörter in einem Signalelement isolieren, ohne jedoch eine Trennung innerhalb eines Worts vorzunehmen.
Der Entscheidungsschritt 74 wurde eingefügt, um Fälle abzudecken, in denen der Spracherkennungsalgorithmus nicht in der Lage ist, einzelne Wörter zu erkennen. Dies kann auf den Spracherkennungsalgorithmus zurückzuführen sein oder auf die Eingabe selbst. So verlängert sich beispielsweise durch eine ausgedehnte Pause zwischen mehreren Wörtern oder Sätzen das Signalsegment, sofern kein geeigneter Schwellwert vereinbart wurde, um die Länge der Signalsegmente zu begrenzen. Ein akzeptabler Schwellwert ist beispielsweise 250 Millisekunden. Erkennt das System innerhalb dieser Zeitspanne von 250 Millisekunden eine logische Sprachgrenze, wird in Schritt 76 ein Signalsegment (d. h. ein Rahmen) definiert. Wird innerhalb der Schwellwert-Zeitvorgabe kein logisches Sprachelement isoliert, aktiviert der Entscheidungsschritt 74 automatisch die Definition eines Signalsegments in Schritt 76. In Schritt 78 werden die Sprachinformationen komprimiert und codiert. Hierbei kann auf bekannte Komprimier- und Codierverfahren zurückgegriffen werden. Die Codierung kann gegebenenfalls auch Fehlerkorrekturinformationen umfassen. Die hieraus resultierenden Datenpakete werden in Schritt 80 an einen abgesetzten Standort übermittelt. Da die Größe jedes Pakets durch logische Sprachgrenzen definiert ist, verringert sich bei Verlust eines einzelnen Pakets die Gefahr einer Fehlinterpretation auf der Empfängerseite (42). Dies gilt insbesondere, wenn empfangsseitig geeignete Hilfsmittel zur Generierung von Hinweisdaten bei Erkennung von Datenverlusten integriert sind.
Der Empfangsbetrieb des Signalverarbeitungssystems (32) ist in 4 dargestellt. In Schritt 82 gehen Pakete mit komprimierten Sprachinformationen am abgesetzten Standort (42) ein. Wie bereits angemerkt besteht die Möglichkeit, einen Schwellwert für die Dauer zwischen zwei aufeinanderfolgenden Paketen zu vereinbaren. Bei Überschreitung dieses Schwellwerts wird davon ausgegangen, dass ein Paket während der Übertragung verloren gegangen ist. Die Schwellwertüberwachung ist in 4 in Form von Schritt 84 implementiert. Sämtliche Empfangpakete werden an einen Fehlerkorrektur- und -prüfprozess weitergegeben (sofern vorhanden); bei Überschreitung der Schwellwertdauer zwischen zwei aufeinanderfolgenden Paketen wird der Prozess jedoch mit der Generierung von Hinweisdaten (Schritt 88) fortgesetzt. Die Hinweisdaten verfügen über Signaleigenschaften, die die Empfangsperson darauf hinweisen, dass Daten verloren gegangen sind.
Im Rahmen des Fehlerkorrektur- und -prüfprozesses kommen bekannte Verfahren wie der Prüfsummenvergleich zur Anwendung. Wird in Schritt 90 festgestellt, dass keine Übertragungsfehler vorliegt, werden die Pakete an den Decodierschritt 92 übergeben, der auch den Empfang der in Schritt 88 generierten Hinweisdaten umfasst. Pakete, in denen Übertragungsfehler festgestellt wurden, werden an Schritt 94 übergeben, wo festgestellt wird, ob der Fehler korrigierbar ist. Pakete mit einem korrigierbaren Fehler werden in Schritt 96 repariert und an den Decodierschritt 92 weitergegeben. Nicht korrigierbare Fehler aktivieren die Generierung von Hinweisdaten in Schritt 88, wobei diese Hinweisdaten an den Decodierschritt weitergeleitet werden, um eine ordnungsgemäße Positionierung innerhalb des kontinuierlichen Stroms von Sprachinformationen zu gewährleisten, die an Schritt 98 ausgegeben werden. Durch Ausgabe von Hinweisdaten wird die Person auf der Empfängerseite gegebenenfalls alarmiert, wenn die Sprachinformationen nicht vollständig sind. Die Empfangsperson kann in diesem Fall den Sprecher am abgesetzten Standort (42) auffordern, die Nachricht zu wiederholen oder anderweitig zur Klärung beizutragen.
Da Sprachdaten im Rahmen der hier vorgestellten Erfindung in logischen Einheiten (Wörter etc.) verarbeitet werden, werden die Sprachinformationen bei Verlust eines Datenpakets unvollständig an die Empfangsperson ausgegeben (d. h. eine oder mehrere logische Einheiten fehlen). Die "Verstümmelung" der Sprachausgabe fällt jedoch hierbei weniger gravierend aus als bei Systemen, in denen beliebig große Wortstücke fehlen. Da Sprachpakete fortlaufend durchnummeriert werden können, lässt sich ein übersprungenes Paket durch die vorgenannten Hinweisdaten ersetzen, um die Empfangsperson darüber zu informieren, dass Sprachinformationen fehlen.
Die Erfindung wird im vorliegenden Dokument primär im Hinblick auf die Übertragung von Sprachdaten von/an einem/einen abgesetzten Standort beschrieben und dargestellt. Dies ist jedoch kein entscheidendes Wesensmerkmal der Erfindung. In einer anderen Ausführungsform kann der Empfänger (12) in 1 auch als Speichermedium ausgeführt sein, beispielsweise als Computer-Festplatte. Mit Ausnahme der Schritte, die das Senden bzw. Empfangen von Daten über die Kommunikationsleitungen betreffen, gelten somit alle vorangehend beschriebenen Schritte in gleicher Weise für die Computerspeicher-Anwendung.

Claims

Ein Verfahren für die Verarbeitung von Sprachinformationen, das folgende Einzelschritte umfasst: Generierung eines elektrischen Signals (70), das für eine Wortfolge (68) steht; Analyse (72) des besagten elektrischen Signals, um logische Grenzen in den Signalsegmenten zu erkennen, die für einzelne Wörter innerhalb der besagten Wortfolge stehen; Segmentierung (76) des besagten elektrischen Signals (zumindest teilweise) durch Zuweisung von Rahmengrenzen auf Basis der logischen Grenzen der besagten Signalsegmente, die für einzelne Wörter stehen, um auf diese Weise Rahmen mit Sprachinformationen zu bilden; und Datenkomprimierung (78) der besagten Sprachinformationen innerhalb der besagten Rahmen
Ein Verfahren gemäß Anspruch 1, das zusätzlich Schritte für die Umwandlung der besagten Datenrahmen mit komprimierten Sprachinformationen in Pakete sowie die Übermittlung (80) dieser Pakete an einen abgesetzten Standort (42) umfasst.
Ein Verfahren gemäß Anspruch 1 oder 2, bei dem der besagte Schritt für die (70) des besagten elektrischen Signals die Erzeugung eines digitalen Signals umfasst und bei dem der besagte Analyseschritt (72) den Einsatz von Worterkennungstechniken (22, 36) umfasst.
Ein Verfahren gemäß Anspruch 1, 2 oder 3, bei dem der besagte Segmentierungsschritt (76) die Definition eines Zeit-Schwellwerts (74) umfasst und die besagte Rahmenbildung eine Begrenzung jedes einzelnen Rahmens auf ein einzelnes Wort der besagten Wortfolge (68) bzw. auf die innerhalb der vereinbarten Maximalzeitspanne generierten Daten vorsieht, wobei die jeweils kleinere Datenmenge gewählt wird.
Ein Verfahren gemäß Anspruch 2, das zusätzlich Schritte für den Empfang von Datenpaketen (82) mit komprimierten Sprachinformationen von der besagten Gegenstelle (42) sowie eine Fehlerprüfung (90) der besagten Empfangspakete umfasst.
Ein Verfahren gemäß Anspruch 5, das zusätzlich Schritte für die Datendekomprimierung (92) der besagten Sprachinformationen in den besagten Empfangspaketen (82) umfasst, um einen kontinuierlichen Datenstrom sowie die Integration von Hinweisdaten (88) in den besagten Strom zu ermöglichen, wenn in dem besagten Schritt für die Fehlerprüfung (90) festgestellt wird, dass Sprachinformationen verloren gegangen sind.
Ein System (10, 32) für die Verarbeitung von Sprachinformationen bestehend aus: einem Spracheingabegerät (18, 34); einem Signalgenerator (20), der auf die besagte Spracheingabe reagiert und hieraus ein elektrisches Signal an einem Ausgang bereitstellt; einer Spracherkennungslogik (22, 36), die an den besagten Ausgang des besagten Signalgenerators gekoppelt ist und die Aufgabe hat, die logischen Grenzen der Signalsegmente, die für einzelne Wörter stehen, zu erkennen und Rahmengrenzen auf Basis dieser logischen Grenzen zuzuweisen und somit Rahmen zu bilden; einer Komprimierschaltung (24, 40), die an die besagte Spracherkennungslogik angeschlossen ist und die Aufgabe hat, die Daten in den besagten Rahmen zu komprimieren.
Ein System gemäß Anspruch 7, das zusätzlich einen Sender (44) umfasst, der an die besagte Komprimierschaltung (24, 40) angeschlossen ist und die besagten Rahmen an einen abgesetzten Standort (42) übermittelt.
Ein System gemäß Anspruch 7 oder 8, bei dem der besagte Signalgenerator (20) als Digitalgerät ausgeführt ist und ein Telefon (34) als Spracheingabegerät eingesetzt wird.
Ein System gemäß Anspruch 8, bei dem zusätzlich ein Empfänger (48) angeschlossen ist, der die Signalsegmente des besagten abgesetzten Standorts (42) empfängt, wobei der besagte Empfänger über eine Fehlerprüfschaltung (28, 50) zur Erkennung fehlender Rahmen verfügt.