DE69815562T2 - Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen - Google Patents

Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen Download PDF

Info

Publication number
DE69815562T2
DE69815562T2 DE69815562T DE69815562T DE69815562T2 DE 69815562 T2 DE69815562 T2 DE 69815562T2 DE 69815562 T DE69815562 T DE 69815562T DE 69815562 T DE69815562 T DE 69815562T DE 69815562 T2 DE69815562 T2 DE 69815562T2
Authority
DE
Germany
Prior art keywords
signal
data
information
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69815562T
Other languages
English (en)
Other versions
DE69815562D1 (de
Inventor
Shmuel Shaffer
Daniel Lai
William Joseph Beyda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Communications Inc
Original Assignee
Siemens Information and Communication Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Information and Communication Networks Inc filed Critical Siemens Information and Communication Networks Inc
Publication of DE69815562D1 publication Critical patent/DE69815562D1/de
Application granted granted Critical
Publication of DE69815562T2 publication Critical patent/DE69815562T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich ganz allgemein auf die Signalverarbeitung von Sprachinformationen und insbesondere auf die Verarbeitung gesprochener Daten und deren Unterteilung in einzelne Segmente.
  • BESCHREIBUNG DES STANDES DER TECHNIK
  • Es gibt eine Reihe von Anwendungen, in denen ein kontinuierlicher Strom von gesprochenen Informationen in einzelne Signalsegmente unterteilt wird, um eine anschießende Weiterverarbeitung des Signals zu ermöglichen. So können Sprachdaten beispielsweise für die Speicherung in verschiedenen Spuren eines Aufzeichnungsmediums (Computerfestplatte etc.) segmentiert werden. Ein weiteres Beispiel ist die Sprachkommunikation zwischen zwei abgesetzten Standorten, bei der in vielen Fällen eine Segmentierung der Sprachdaten in einzelne Pakete erfolgt, die über eine Kommunikationsverbindung, beispielsweise eine digitale "Verbindungsstrecke" (Link) übermittelt werden. Bei der Digitalisierung von Sprachdaten kann für jede Sekunde der Echtzeit-Spracheingabe eine Datenmenge von etwa 64 Kbit anfallen. Daher kommen digitale Sprachkomprimierungsverfahren zur Anwendung, um die Effizienz der Digitalverbindung zu erhöhen. Bei Einsatz eines Komprimieralgorithmus', der die Sprachdaten auf 6,4 Kbit/s reduziert, verfügt eine paketvermittelte 64-Kbit/s-Verbindung über die erforderliche Bandbreite zur gleichzeitigen Unterstützung von zehn Sprechverbindungen.
  • In der Praxis – siehe beispielsweise die Beschreibung in US-A-5592586 – werden Echtzeit-Sprachinformationen digitalisiert, komprimiert und in einzelne Pakete unterteilt. Jedes Paket kann eine feste Länge aufweisen. Für Sprachkommunikationszwecke ist eine Festdauer von 5 Millisekunden denkbar. Die Sprachinformationen werden somit in derselben Art und Weise gehandhabt wie nicht gesprochene Daten während der Signalverarbeitung. Siehe hierzu auch das Dokument WO 93/17415, in dem ein Verfahren zur Bestimmung einzelner Wortgrenzen beschrieben wird.
  • Ein Problem bei herkömmlichen Verfahren besteht darin, dass Datenpakete sowie Informationen innerhalb von Datenpaketen verloren gehen können, was negative Auswirkungen auf die Qualität der Sprechverbindung hat. Diese Qualitätseinbußen sind insbesondere bei Signalverbindungen von Bedeutung, die ohnehin anfällig für Paketverluste sind, wie dies bei drahtlosen Verbindungen oder Verbindungen in lokalen Netzwerken (LANs) der Fall ist. Während die Sprachdaten auf der Senderseite im Großen und Ganzen wie Nicht-Sprachdaten gehandhabt werden können, ist dies auf der Empfängerseite nicht möglich. Ein bekanntes Verfahren für die Erkennung und Korrektur von Fehlern bei der Übertragung von nicht sprachgebundenen Daten sind die so genannten "Prüfsummen"-Fehlerberichte. Auf der Senderseite wird mit Hilfe eines entsprechenden Algorithmus' für jedes Datenpaket, das an die Empfängerseite übermittelt werden soll, eine Prüfsumme berechnet. Anhand dieses numerischen Wertes lässt sich der Inhalt des Datenpakets eindeutig identifizieren. Jedes Datenpaket wird dann mit der zugehörigen Prüfsumme an die Empfängerseite übermittelt, wo derselbe Algorithmus angewendet wird, um eine Prüfsummennummer für das empfangene Datenpaket zu berechnen. Die beiden Prüfsummen werden anschließend verglichen. Sind die numerischen Werte identisch, wird davon ausgegangen, dass das Datenpaket fehlerfrei ist. Weichen die beiden Prüfsummen jedoch voneinander ab, geht man davon aus, dass während der Übertragung von der Senderseite zur Empfängerseite ein Fehler aufgetreten ist. In diesem Fall wird eine "negative Bestätigung" (Negative Acknowledgment, NAK) an die Senderseite übermittelt, um die Neuübertragung des betreffenden Datenpakets einzuleiten. Alternativ hierzu kann für jedes Paket, das als fehlerfrei erkannt wird, eine Bestätigung (Acknowledgment, ACK) von der Empfängerseite an die Senderseite übermittelt werden. Bei dieser Variante erwartet die Senderseite den Eingang eines ACK-Signals für jedes übermittelte Datenpaket. Geht das ACK-Signal für ein bestimmtes Datenpaket nicht innerhalb einer vorgegebenen Zeitspanne beim Sender ein, wird das betreffende Datenpaket automatisch neu übertragen. Die Empfängerseite verfügt normalerweise über einen größeren Speicherpuffer, der eine erneute Zusammensetzung der Datenpakete auch bei nicht folgerichtigem Empfang aufgrund von Neuübertragungen ermöglicht.
  • Die Neuübertragung verloren gegangener Sprachpakete stellt in der Echtzeit-Sprechverbindung üblicherweise keine Option dar, da die Zwischenspeicherung zahlreicher Pakete zu spürbaren Verzögerungen bei der Kommunikation zweier Personen an verschiedenen Standorten führen würde.
  • Als Alternative zur Fehlerkorrektur durch Paketneuübertragung arbeiten einige Echtzeit-Sprachübertragungsnetze mit Fehlerkorrektur-Codierverfahren für die "Reparatur" von Sprachdatenpaketen. Die Reparaturmöglichkeiten sind jedoch begrenzt, so dass auch bei Einsatz eines solchen Fehlerkorrekturverfahrens Sprachinformationen verloren gehen können. Fällt die Fehlerkorrektur aus, können somit mehrere Einzelwörter vollständig oder teilweise verloren gehen. Bei dem Versuch, das Paket zu reparieren, wird der Fehler möglicherweise auf der Empfängerseite unterdrückt. In diesem Fall kann es passieren, dass die übermittelte Nachricht falsch interpretiert wird.
  • Benötigt wird ein daher Verfahren und ein System für die Verarbeitung von Sprachinformationen, bei dem der Verlust von Daten die Verständlichkeit der verbleibenden fehlerfreien Sprachinformationen in geringerem Ausmaß als bisher beeinträchtigt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockschaltbild eines Systems für die Verarbeitung von Sprachinformationen, bei dem die Upstream-Worterkennungstechniken gemäß der hier vorgestellten Erfindung zum Einsatz kommen.
  • 2 ist ein Blockschaltbild, das den Einsatz des Systems aus 1 in einer Fernsprechnetz-Umgebung zeigt.
  • 3 ist ein Prozessablaufdiagramm mit den einzelnen Schritten für den Einsatz des Systems aus 2 im Sendebetrieb.
  • 4 ist ein Prozessablaufdiagramm mit den einzelnen Schritten für den Einsatz des Systems aus 2 im Empfangsbetrieb.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In 1 ist ein Signalverarbeitungssystem (10) dargestellt, das mit einem Empfänger (12) verbunden ist. In der bevorzugten Ausführungsform wird dieses System für die Sprachkommunikation mit einem abgesetzten Standort, d. h. dem Empfänger, eingesetzt. So kann es sich bei dem System (10) und dem Empfänger (12) beispielsweise um getrennte Standorte innerhalb eines lokalen Netzwerks (LAN) handeln. Alternativ hierzu können die Verbindungsstrecken (14 und 16) zwischen dem System und dem Empfänger auch als drahtlose Digitalverbindungen eines Zellularnetzes ausgeführt sein.
  • Obwohl das Signalverarbeitungssystem (10) vorzugsweise für die Realisierung der Echtzeit-Sprachkommunikation zwischen abgesetzten Standorten genutzt wird, kann das nachfolgend beschriebene Verfahren zur Segmentierung logischer Sprachgrenzen auch für andere Anwendungsbereiche genutzt werden. In einer alternativen Ausführungsform ist als Empfänger (12) beispielsweise auch ein Speichermedium wie eine Computerfestplatte denkbar. Digitaldaten lassen sich gegebenenfalls auch in Paketen speichern, die durch den Sprachinhalt definiert sind. So könnte beispielsweise jedes Paket eine Datenentsprechung für ein einzelnes Wort in einer logischen Wortfolge enthalten. Die Segmentierung des Signals, das im Zuge einer Spracheingabe generiert wird, erfolgt in diesem Fall nicht zeitabhängig, sondern auf Basis des jeweiligen Inhalts. Die bei herkömmlichen Systemen übliche zeitabhängige Segmentierung vernachlässigt den Signalinhalt und bildet statt dessen Datenrahmen, die normalerweise alle die gleiche Länge haben (z. B. 5 Millisekunden).
  • Das Signalverarbeitungssystem (10) in 1 verfügt über ein Gerät für die Spracheingabe/-ausgabe (18). Bei diesem Ein-/Ausgabegerät kann es sich beispielsweise um ein Telefon handeln. Die Generierung eines elektrischen Signals für die jeweilige Spracheingabe erfolgt mit Hilfe eines Signalgebers (20), der an das Gerät für die Spracheingabe/-ausgabe angeschlossen wird. In einer Ausführungsform handelt es sich bei diesem Signalgeber um einen Analog/Digital-Wandler, dessen Eingangssignale von einem analogen Gerät für die Spracheingabe/-ausgabe (18) stammen. In einer anderen Ausführungsform sind Ein-/Ausgabegeräte (18) und Signalgeber (20) als Einzelgerät ausgeführt, das ein analoges oder digitales Signal für die nachgeschaltete Verarbeitungselektronik bereitstellt.
  • Ein kontinuierlicher Strom von Sprachinformationen wird einem Spracherkennungsgerät (22) zugeführt. Das heißt, Echtzeit-Sprachinformationen gehen am Spracherkennungsgerät ein. Das Gerät analysiert das Eingangssignal und sucht nach Signalsegmenten, die für logische Sprachgrenzen, die sich als Basis für die Segmentierung des Signals eignen. Vorzugsweise enthält jedes Signalsegment, das bei der Analyse durch das Spracherkennungsgerät erkannt wurde, die erforderlichen Signalkomponenten für ein einzelnes Wort. In einigen Ausführungsformen kann es jedoch von Vorteil sein, wenn ein Signalsegment mehr als ein vollständiges Wort enthält. Ebenso kann es auch Anwendungen geben, in denen jedes einzelne Signalsegment die Sprachinformationen für eine einzelne Silbe umfasst, damit eine Segmentierung auf Silbenbasis erfolgen kann.
  • Die Signalanalyse am Spracherkennungsgerät (22) kann gegebenenfalls unter Verwendung bekannter Algorithmen implementiert werden. Die Identifizierung von Einzelwörtern ist bei einigen Anwendungen der hier beschriebenen Erfindung unkritisch, da in erster Linie die logischen Sprachgrenzen von Interesse sind. Ist eine Segmentierung auf Silbenbasis implementiert, handelt es sich bei dem Eingangssignal um ein "zeitvariables" Sprachsignal; der Algorithmus muss in diesem Fall in der Lage sein, zwischen Signalanteilen mit Sprachinhalten und Signalanteilen mit Pauseninhalten zu differenzieren. Somit kann es sinnvoll sein, einen Intensitätsschwellwert zu definieren, um zu vereinbaren, dass die Anteile des Sprachsignals mit einer Intensität über dem Schwellwert als "Sprache" erkannt werden, während Anteile mit einer Signalintensität unterhalb des Schwellwertes als "sprachfremde Signale" erkannt werden. Das Spracherkennungsgerät (22) sollte jedoch vorzugsweise in der Lage sein, bestimmte Wörter zu erkennen, damit diese intakt bleiben, wenn sie bei der nachfolgenden Signalpaketierung für die Übergabe an den Empfänger (12) verarbeitet werden.
  • Für den Fall, dass das Spracherkennungsgerät (22) über einen längeren Zeitraum keine Wortgrenzen erkennen kann, kann bei Bedarf ein fester Timing-Rahmen implementiert werden. Das heißt, die Signalsegmente können durch Vorgabe eines bestimmten Schwellwerts (z. B. 250 Millisekunden) zeitlich begrenzt werden. In diesem Fall entspricht die Sprachqualität des Signalverarbeitungssystems (10) der Qualität, die mit bisherigen Verfahren erzielt wird.
  • Die Ausgabe des Spracherkennungsgeräts (22) wird an einen Datenkompressor (24) übergeben. Das hier eingehende digitale Sprachsignal wird komprimiert, wobei jeder Rahmen vorzugsweise ein einzelnes Wort enthält. Bei einigen Ausführungsformen der Erfindung ist die Datenkomprimierung optional. Bei Anwendungen mit Komprimierung stellt der jeweilige Komprimieralgorithmus kein kritisches Element der Erfindung dar und kann daher von Anwendung zu Anwendung differieren.
  • Ein Codec (26) codiert die vom Datenkompressor (24) komprimierten Datenrahmen und generiert auf diese Weise Pakete für die anschließende Übergabe an den Empfänger (12). Bei der Codierung der Datenpakete wird vorzugsweise die Möglichkeit einer Fehlerprüfung vorgesehen. Handelt es sich bei dem Signalverarbeitungssystem (10) um einen Netzwerkstandort mit einem Fehlererkennungs- und -korrekturverfahren, geht der Codec (26) gemäß diesem Verfahren vor. Ist auf Netzwerkebene jedoch kein solches Fehlerkorrektur- und -erkennungsverfahren implementiert, kann auf einen einfachen Prüfsummenprozess zurückgegriffen werden. Das heißt, für jedes Datenpaket, das an den Empfänger (12) übermittelt wird, kann mit Hilfe eines entsprechenden Algorithmus' eine (numerische) Prüfsumme berechnet werden. Vor der Decodierung auf Seiten des Empfängers (12) wird mit Hilfe desselben Algorithmus' eine Prüfsumme für jedes empfangene Paket berechnet. Sind die beiden Prüfsummen identisch, wird davon ausgegangen, dass das Datenpaket fehlerfrei ist. Sind die beiden Prüfsummen jedoch unterschiedlich, wird davon ausgegangen, dass ein Übertragungsfehler vorliegt. Die Person auf der Empfängerseite sollte bei einem eventuellen Verlust von Sprachinformationen alarmiert werden. Wie nachfolgend ausführlicher erläutert wird, können in einem solchen Fall entsprechende Hinweisdaten generiert werden, um eine Pause oder einen Signalton in die empfangenen Sprachdaten einzufügen.
  • Wie bereits angemerkt kann der Empfänger (12) als Aufzeichnungsmedium ausgeführt sein; vorzugsweise handelt es sich hierbei jedoch um einen abgesetzten Standort mit Empfangs- und Übertragungsfunktionalität. Wenn das Signalverarbeitungssystem (10) im Empfangs- oder Rücklesemodus arbeitet, wird über die Digitalverbindung (16) ein Signal an die Fehlerprüfschaltung (28) ausgegeben. Bei der Überprüfung von Prüfsummenfehlern werden die (numerischen) Prüfsummen in der Schaltung (28) verglichen. Die Fehlerprüfung stellt jedoch kein kritisches Element der Verbindung dar. Die Sprachinformationen werden an den Decoder (30) weitergegeben, wo bekannte Techniken für die Formatierung von Sprachinformationen zur Anwendung kommen, um eine Sprachwiedergabe am Sprachgerät für die Ein- bzw. Ausgabe (18) zu ermöglichen. Der Decodierbetrieb hängt vom Decodierverfahren für die empfangenen Pakete ab sowie von der Art des Ein-/Ausgabegeräts (z. B. Analog- oder Digitaltelefon bzw. Audio-Anlage einer Videokonferenzstation).
  • Eine komplexere und gleichzeitig die bevorzugte Ausführungsform eines Signalverarbeitungssystems (32) ist in 2 dargestellt. Ein Telefon (34) liefert hier die Eingabe für ein Spracherkennungsgerät (36). Das Spracherkennungsgerät erkennt logische Sprachgrenzen im Eingangssignal und nimmt eine Rahmenzuweisung auf Basis dieser Sprachgrenzen vor. So kann beispielsweise jeder Rahmen die Sprachinformationen für ein einzelnes Wort enthalten. Sind innerhalb einer vorgegebenen Zeitspanne keine Wortgrenzen erkannt worden, wird die Rahmengrenze automatisch definiert. In einer Ausführungsform beträgt der Schwellwert für die Vorgabedauer 250 Millisekunden. Die Länge des vom Signalverarbeitungssystem (32) definierten Rahmens entspricht somit der Dauer des erkannten Sprachelements (Wort etc.) oder dem Maximalwert 250 Millisekunden – je nachdem, welcher Wert kleiner ist.
  • Ein Datenkomprimiergerät (38) und ein Codec (40) komprimieren die Daten in jedem Rahmen und stellen gegebenenfalls die gewünschte Codierungsfunktionalität bereit, um Datenpakete mit Hilfe eines Senders (44) an einen abgesetzten Standort (42) übertragen zu können. Wie bereits angemerkt ist bei einigen Ausführungsformen der Erfindung eine optionale Datenkomprimierung möglich (siehe hierzu 1). In der in 2 gezeigten Ausführungsform befinden sich das Signalverarbeitungssystem (32) und der abgesetzte Standort (42) in einem Zellularnetz; die Übertragung erfolgt hier über einen Netzknoten (Hub) (46).
  • Um eine Sprachnachricht von einer Person am abgesetzten Standort (42) an eine Person zu übermitteln, die sich auf Seiten des Signalverarbeitungssystems (32) befindet, übergibt der Hub (46) diese Nachricht von dem abgesetzten Standort an einen Empfänger (48) auf der Systemseite (32). Die Nachricht wird in Datenpaketen mit komprimierten Sprachinformationen weitergeleitet. Jedes Datenpaket wird hierbei an die optionale Fehlerkorrektur- und -prüfschaltung (50) ausgegeben. Die Fehlerkorrektur ist kein kritisches Leistungsmerkmal der hier vorgestellten Erfindung. Bei Implementierung einer Fehlerkorrektur kann auf bekannte Verfahren zurückgegriffen werden. In einer Ausführungsform kommen Prüfsummenverfahren zur Anwendung.
  • Datenpakete, die als fehlerfrei erkannt worden sind, werden von der Fehlerkorrektur- und -prüfschaltung (50) an den Sprachdecoder (52) übergeben. Je nachdem, welche Fehlerkorrekturverfahren in Verbindung mit dem System (32) eingesetzt werden, können die fehlerfreien Pakete auch für eine potenzielle Nutzung im Korrekturschema gespeichert werden. Pakete, in denen fehlerhafte Daten festgestellt werden, werden "repariert", sofern dies möglich ist.
  • Nicht korrigierbare Pakete werden an einen Hinweisdatengenerator (62) weitergeleitet. Der Hinweisdatengenerator stellt ein Paket mit Signaleigenschaften bereit, die die Empfangsperson am Telefon (34) darauf hinweisen sollen, dass Sprachinformationen verloren gegangen sind. So kann beispielsweise in die decodierten Sprachinformationen, die am Telefon (34) an die Empfangsperson ausgegeben werden, ein Signalton mit einer bestimmten Frequenz eingefügt werden. Alternativ hierzu kann der Hinweis an die Empfangsperson auch aus einer Ruheperiode bestehen. Die Benachrichtigung ermöglicht es der Person auf der Empfängerseite, eine "Neuübertragung" der Nachricht von der Person am abgesetzten Standort (42) anzufordern. Bei der "Neuübertragung" handelt es sich um eine verbale Aufforderung zur Wiederholung der fehlenden Informationen.
  • Ist die Zeitspanne zwischen dem Empfang von zwei aufeinanderfolgenden Datenpaketen des abgesetzten Standorts (42) länger als der vorgegebene Schwellwert, geht das System in der bevorzugten Ausführungsform davon aus, dass das Paket bei der netzseitigen Übertragung verloren gegangen ist. Ein akzeptabler Schwellwert ist 5 Millisekunden; der bevorzugte Schwellwert hängt jedoch von der jeweiligen Anwendung ab. Bei Überschreitung des Schwellwerts wird über den Signalweg (66) ein Timeout-Signal an den Hinweisdatengenerator (62) ausgegeben. Dies wiederum hat zur Folge, dass ein Hinweisdatenpaket generiert und an den Sprachdecoder (52) übermittelt wird und von diesem anstelle des fehlenden Pakets in den Sprachdatenstrom eingefügt wird, um die Person auf der Empfängerseite darauf hinzuweisen, dass Informationen verloren gegangen sind.
  • Die Prozessschritte für den Sendebetrieb des Signalverarbeitungssystems (32) aus 2 sind in 3 dargestellt. In Schritt 68 werden hier zunächst Sprachinformationen in das System eingegeben. In 2 ist das Spracheingabegerät als Telefon (34) dargestellt; der Gerätetyp ist jedoch unkritisch.
  • In Schritt 70 wird ein elektrisches Signal für die erfolgte Spracheingabe generiert. Hierbei kann es sich um ein analoges Signal handeln, eine digitale Signalverarbeitung wird jedoch bevorzugt. Das Signal wird in Schritt 72 mit Hilfe eines Spracherkennungsalgorithmus analysiert. Im Rahmender Signalanalyse werden die logischen Sprachgrenzen ermittelt. In einer bevorzugten Ausführungsform werden hierbei einzelne Wörter innerhalb der Sprachinformationen isoliert. Die Isolierung muss jedoch nicht unbedingt auf Wortbasis erfolgen; es ist auch eine Abtrennung einzelner Silben denkbar.
  • Alternativ hierzu können die Sprachgrenzen auch mehrere Wörter in einem Signalelement isolieren, ohne jedoch eine Trennung innerhalb eines Worts vorzunehmen.
  • Der Entscheidungsschritt 74 wurde eingefügt, um Fälle abzudecken, in denen der Spracherkennungsalgorithmus nicht in der Lage ist, einzelne Wörter zu erkennen. Dies kann auf den Spracherkennungsalgorithmus zurückzuführen sein oder auf die Eingabe selbst. So verlängert sich beispielsweise durch eine ausgedehnte Pause zwischen mehreren Wörtern oder Sätzen das Signalsegment, sofern kein geeigneter Schwellwert vereinbart wurde, um die Länge der Signalsegmente zu begrenzen. Ein akzeptabler Schwellwert ist beispielsweise 250 Millisekunden. Erkennt das System innerhalb dieser Zeitspanne von 250 Millisekunden eine logische Sprachgrenze, wird in Schritt 76 ein Signalsegment (d. h. ein Rahmen) definiert. Wird innerhalb der Schwellwert-Zeitvorgabe kein logisches Sprachelement isoliert, aktiviert der Entscheidungsschritt 74 automatisch die Definition eines Signalsegments in Schritt 76. In Schritt 78 werden die Sprachinformationen komprimiert und codiert. Hierbei kann auf bekannte Komprimier- und Codierverfahren zurückgegriffen werden. Die Codierung kann gegebenenfalls auch Fehlerkorrekturinformationen umfassen. Die hieraus resultierenden Datenpakete werden in Schritt 80 an einen abgesetzten Standort übermittelt. Da die Größe jedes Pakets durch logische Sprachgrenzen definiert ist, verringert sich bei Verlust eines einzelnen Pakets die Gefahr einer Fehlinterpretation auf der Empfängerseite (42). Dies gilt insbesondere, wenn empfangsseitig geeignete Hilfsmittel zur Generierung von Hinweisdaten bei Erkennung von Datenverlusten integriert sind.
  • Der Empfangsbetrieb des Signalverarbeitungssystems (32) ist in 4 dargestellt. In Schritt 82 gehen Pakete mit komprimierten Sprachinformationen am abgesetzten Standort (42) ein. Wie bereits angemerkt besteht die Möglichkeit, einen Schwellwert für die Dauer zwischen zwei aufeinanderfolgenden Paketen zu vereinbaren. Bei Überschreitung dieses Schwellwerts wird davon ausgegangen, dass ein Paket während der Übertragung verloren gegangen ist. Die Schwellwertüberwachung ist in 4 in Form von Schritt 84 implementiert. Sämtliche Empfangpakete werden an einen Fehlerkorrektur- und -prüfprozess weitergegeben (sofern vorhanden); bei Überschreitung der Schwellwertdauer zwischen zwei aufeinanderfolgenden Paketen wird der Prozess jedoch mit der Generierung von Hinweisdaten (Schritt 88) fortgesetzt. Die Hinweisdaten verfügen über Signaleigenschaften, die die Empfangsperson darauf hinweisen, dass Daten verloren gegangen sind.
  • Im Rahmen des Fehlerkorrektur- und -prüfprozesses kommen bekannte Verfahren wie der Prüfsummenvergleich zur Anwendung. Wird in Schritt 90 festgestellt, dass keine Übertragungsfehler vorliegt, werden die Pakete an den Decodierschritt 92 übergeben, der auch den Empfang der in Schritt 88 generierten Hinweisdaten umfasst. Pakete, in denen Übertragungsfehler festgestellt wurden, werden an Schritt 94 übergeben, wo festgestellt wird, ob der Fehler korrigierbar ist. Pakete mit einem korrigierbaren Fehler werden in Schritt 96 repariert und an den Decodierschritt 92 weitergegeben. Nicht korrigierbare Fehler aktivieren die Generierung von Hinweisdaten in Schritt 88, wobei diese Hinweisdaten an den Decodierschritt weitergeleitet werden, um eine ordnungsgemäße Positionierung innerhalb des kontinuierlichen Stroms von Sprachinformationen zu gewährleisten, die an Schritt 98 ausgegeben werden. Durch Ausgabe von Hinweisdaten wird die Person auf der Empfängerseite gegebenenfalls alarmiert, wenn die Sprachinformationen nicht vollständig sind. Die Empfangsperson kann in diesem Fall den Sprecher am abgesetzten Standort (42) auffordern, die Nachricht zu wiederholen oder anderweitig zur Klärung beizutragen.
  • Da Sprachdaten im Rahmen der hier vorgestellten Erfindung in logischen Einheiten (Wörter etc.) verarbeitet werden, werden die Sprachinformationen bei Verlust eines Datenpakets unvollständig an die Empfangsperson ausgegeben (d. h. eine oder mehrere logische Einheiten fehlen). Die "Verstümmelung" der Sprachausgabe fällt jedoch hierbei weniger gravierend aus als bei Systemen, in denen beliebig große Wortstücke fehlen. Da Sprachpakete fortlaufend durchnummeriert werden können, lässt sich ein übersprungenes Paket durch die vorgenannten Hinweisdaten ersetzen, um die Empfangsperson darüber zu informieren, dass Sprachinformationen fehlen.
  • Die Erfindung wird im vorliegenden Dokument primär im Hinblick auf die Übertragung von Sprachdaten von/an einem/einen abgesetzten Standort beschrieben und dargestellt. Dies ist jedoch kein entscheidendes Wesensmerkmal der Erfindung. In einer anderen Ausführungsform kann der Empfänger (12) in 1 auch als Speichermedium ausgeführt sein, beispielsweise als Computer-Festplatte. Mit Ausnahme der Schritte, die das Senden bzw. Empfangen von Daten über die Kommunikationsleitungen betreffen, gelten somit alle vorangehend beschriebenen Schritte in gleicher Weise für die Computerspeicher-Anwendung.

Claims (10)

  1. Ein Verfahren für die Verarbeitung von Sprachinformationen, das folgende Einzelschritte umfasst: Generierung eines elektrischen Signals (70), das für eine Wortfolge (68) steht; Analyse (72) des besagten elektrischen Signals, um logische Grenzen in den Signalsegmenten zu erkennen, die für einzelne Wörter innerhalb der besagten Wortfolge stehen; Segmentierung (76) des besagten elektrischen Signals (zumindest teilweise) durch Zuweisung von Rahmengrenzen auf Basis der logischen Grenzen der besagten Signalsegmente, die für einzelne Wörter stehen, um auf diese Weise Rahmen mit Sprachinformationen zu bilden; und Datenkomprimierung (78) der besagten Sprachinformationen innerhalb der besagten Rahmen
  2. Ein Verfahren gemäß Anspruch 1, das zusätzlich Schritte für die Umwandlung der besagten Datenrahmen mit komprimierten Sprachinformationen in Pakete sowie die Übermittlung (80) dieser Pakete an einen abgesetzten Standort (42) umfasst.
  3. Ein Verfahren gemäß Anspruch 1 oder 2, bei dem der besagte Schritt für die (70) des besagten elektrischen Signals die Erzeugung eines digitalen Signals umfasst und bei dem der besagte Analyseschritt (72) den Einsatz von Worterkennungstechniken (22, 36) umfasst.
  4. Ein Verfahren gemäß Anspruch 1, 2 oder 3, bei dem der besagte Segmentierungsschritt (76) die Definition eines Zeit-Schwellwerts (74) umfasst und die besagte Rahmenbildung eine Begrenzung jedes einzelnen Rahmens auf ein einzelnes Wort der besagten Wortfolge (68) bzw. auf die innerhalb der vereinbarten Maximalzeitspanne generierten Daten vorsieht, wobei die jeweils kleinere Datenmenge gewählt wird.
  5. Ein Verfahren gemäß Anspruch 2, das zusätzlich Schritte für den Empfang von Datenpaketen (82) mit komprimierten Sprachinformationen von der besagten Gegenstelle (42) sowie eine Fehlerprüfung (90) der besagten Empfangspakete umfasst.
  6. Ein Verfahren gemäß Anspruch 5, das zusätzlich Schritte für die Datendekomprimierung (92) der besagten Sprachinformationen in den besagten Empfangspaketen (82) umfasst, um einen kontinuierlichen Datenstrom sowie die Integration von Hinweisdaten (88) in den besagten Strom zu ermöglichen, wenn in dem besagten Schritt für die Fehlerprüfung (90) festgestellt wird, dass Sprachinformationen verloren gegangen sind.
  7. Ein System (10, 32) für die Verarbeitung von Sprachinformationen bestehend aus: einem Spracheingabegerät (18, 34); einem Signalgenerator (20), der auf die besagte Spracheingabe reagiert und hieraus ein elektrisches Signal an einem Ausgang bereitstellt; einer Spracherkennungslogik (22, 36), die an den besagten Ausgang des besagten Signalgenerators gekoppelt ist und die Aufgabe hat, die logischen Grenzen der Signalsegmente, die für einzelne Wörter stehen, zu erkennen und Rahmengrenzen auf Basis dieser logischen Grenzen zuzuweisen und somit Rahmen zu bilden; einer Komprimierschaltung (24, 40), die an die besagte Spracherkennungslogik angeschlossen ist und die Aufgabe hat, die Daten in den besagten Rahmen zu komprimieren.
  8. Ein System gemäß Anspruch 7, das zusätzlich einen Sender (44) umfasst, der an die besagte Komprimierschaltung (24, 40) angeschlossen ist und die besagten Rahmen an einen abgesetzten Standort (42) übermittelt.
  9. Ein System gemäß Anspruch 7 oder 8, bei dem der besagte Signalgenerator (20) als Digitalgerät ausgeführt ist und ein Telefon (34) als Spracheingabegerät eingesetzt wird.
  10. Ein System gemäß Anspruch 8, bei dem zusätzlich ein Empfänger (48) angeschlossen ist, der die Signalsegmente des besagten abgesetzten Standorts (42) empfängt, wobei der besagte Empfänger über eine Fehlerprüfschaltung (28, 50) zur Erkennung fehlender Rahmen verfügt.
DE69815562T 1997-02-13 1998-02-03 Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen Expired - Lifetime DE69815562T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US800001 1997-02-13
US08/800,001 US6167374A (en) 1997-02-13 1997-02-13 Signal processing method and system utilizing logical speech boundaries

Publications (2)

Publication Number Publication Date
DE69815562D1 DE69815562D1 (de) 2003-07-24
DE69815562T2 true DE69815562T2 (de) 2004-04-29

Family

ID=25177265

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69815562T Expired - Lifetime DE69815562T2 (de) 1997-02-13 1998-02-03 Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen

Country Status (3)

Country Link
US (1) US6167374A (de)
EP (1) EP0859353B1 (de)
DE (1) DE69815562T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795406B2 (en) 1999-07-12 2004-09-21 Genesys Telecommunications Laboratories, Inc. Methods and apparatus for enhancing wireless data network telephony, including quality of service monitoring and control
US6078566A (en) * 1998-04-28 2000-06-20 Genesys Telecommunications Laboratories, Inc. Noise reduction techniques and apparatus for enhancing wireless data network telephony
WO2000002236A2 (en) * 1998-07-07 2000-01-13 Memc Electronic Materials, Inc. Radio frequency identification system and method for tracking silicon wafers
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
WO2002029780A2 (en) * 2000-10-04 2002-04-11 Clarity, Llc Speech detection with source separation
KR20030063357A (ko) * 2000-10-05 2003-07-28 디. 진 오퀸 음성 대 데이터 컨버터
US20040049377A1 (en) * 2001-10-05 2004-03-11 O'quinn D Gene Speech to data converter
AU2002219159A1 (en) * 2001-12-06 2003-06-17 Siemens Aktiengesellschaft Method and device for transferring sound and/or voice data in a packet-oriented communication system
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
US10855841B1 (en) * 2019-10-24 2020-12-01 Qualcomm Incorporated Selective call notification for a communication device

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
JPS5544624A (en) * 1978-09-25 1980-03-29 Nec Corp Information input/output unit
NL8202318A (nl) * 1982-06-09 1984-01-02 Koninkl Philips Electronics Nv Systeem voor de overdracht van spraak over een gestoorde transmissieweg.
US4707858A (en) * 1983-05-02 1987-11-17 Motorola, Inc. Utilizing word-to-digital conversion
DE3374109D1 (en) * 1983-10-28 1987-11-19 Ibm Method of recovering lost information in a digital speech transmission system, and transmission system using said method
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4761796A (en) * 1985-01-24 1988-08-02 Itt Defense Communications High frequency spread spectrum communication system terminal
US5127051A (en) * 1988-06-13 1992-06-30 Itt Corporation Adaptive modem for varying communication channel
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5483618A (en) * 1991-12-26 1996-01-09 International Business Machines Corporation Method and system for distinguishing between plural audio responses in a multimedia multitasking environment
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
EP0559349B1 (de) * 1992-03-02 1999-01-07 AT&T Corp. Lernverfahren und Gerät zur Spracherkennung
US5546395A (en) * 1993-01-08 1996-08-13 Multi-Tech Systems, Inc. Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem
US5452289A (en) * 1993-01-08 1995-09-19 Multi-Tech Systems, Inc. Computer-based multifunction personal communications system
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置

Also Published As

Publication number Publication date
EP0859353A3 (de) 1999-03-03
EP0859353B1 (de) 2003-06-18
EP0859353A2 (de) 1998-08-19
DE69815562D1 (de) 2003-07-24
US6167374A (en) 2000-12-26

Similar Documents

Publication Publication Date Title
DE69815562T2 (de) Verfahren und Vorrichtung zur Signalverarbeitung mittels logischer Sprachgrenzen
DE60027875T2 (de) Aktualisierung des Headerkompressionszustands in Paketübertragung
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
EP3217583B1 (de) Decodierer und verfahren zum decodieren einer folge von datenpaketen
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE69430872T2 (de) System und verfahren zur sprachkompression
DE69634381T2 (de) Transkodierer mit verhütung von kaskadenkodierung von sprachsignalen
DE69730473T2 (de) System zur Kodierung und Übertragung von Sprachsignalen
DE60034484T2 (de) Verfahren und vorrichtung in einem kommunikationssystem
DE69226500T2 (de) Verfahren und Gerät zur Sprachsignalübertragung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69721349T2 (de) Sprachkodierung
DE19941331B4 (de) Verfahren zum Übertragen von Information zu Hintergrundrauschen bei Datenübertragung mittels Datenrahmen sowie Kommunikationssystem, Mobilstation und Netzwerkelement
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate
DE69534561T2 (de) Sender-empfänger
DE69934284T2 (de) Verfahren und Gerät zur Erhöherung der Qualität drahtlos übertragener digitalen Signalen
DE69613611T2 (de) System zur Speicherung von und zum Zugriff auf Sprachinformation
DE60224005T2 (de) Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen
DE69421501T2 (de) Verdeckung von verlorenen signalfenstern
DE69431520T2 (de) Verfahren und vorrichtung zur verminderung von audiosignalverschlechterungen in einem kommunikationssystem
DE60001209T2 (de) Kommunikation mit Tandem Sprachkodierung mit verbesserter Sprachqualität
DE69825274T2 (de) Bitdetektionsverfahren in einem funkkommunikationssystem
DE60100173T2 (de) Verfahren und Vorrichtung zur drahtloser Übertragung unter Verwendung einer Kodierung mit vielfacher Quellendarstellung
DE60118479T2 (de) Detektierung von Übertragungsfehlern in einem Sprachdekoder
WO2002084929A1 (de) Verfahren und vorrichtung zur übertragung von digitalen signalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: FRITZSCHE, T., DIPL.-CHEM. DR.RER.NAT., PAT.-ANW.,

R082 Change of representative

Ref document number: 859353

Country of ref document: EP

Representative=s name: THOMAS MICHAEL FRITZSCHE, 81545 MUENCHEN, DE