WO2003049389A1

WO2003049389A1 - Verfahren und vorrichtung zum übertragen von klang- und/oder sprachdaten in einem paketorientierten kommunikationssystem

Info

Publication number: WO2003049389A1
Application number: PCT/EP2001/014359
Authority: WO
Inventors: Klaus Huenlich
Original assignee: Siemens Aktiengesellschaft
Priority date: 2001-12-06
Filing date: 2001-12-06
Publication date: 2003-06-12
Also published as: AU2002219159A1

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum Einteilen von Klang- und/oder Sprachdaten in Datenpakete für eine Übertragung über paketvermittelte Kommunikationsnetze. Um das Klang- bzw. Sprachempfinden bei der Wiedergabe der rekonstruierten Sprach- bzw. Klangdaten möglichst wenig zu stören, wird vorgeschlagen, vor der Verpackung von Datenwerten in die Datenpakete eine Analyse der Klang- bzw. Sprachstruktur vorzunehmen und die Entscheidung für jeweils in ein Datenpaket einzusetzende Datenwertfolgen anhand der Analyse vorzunehmen. Insbesondere ist es zweckmäßig, die Datenpakete derart mit Datenwerten zu füllen, dass am Ende möglichst eines jeden Datenpaketes eine Sprach- bzw. Klangpause, Phonemgrenze, Wortteilgrenze oder Wortgrenze liegt.

Description

Beschreibung

Verfahren und Vorrichtung zum Übertragen von Klang- und/oder Sprachdaten in einem paketorientierten Kommunikationssystem

Die Erfindung bezieht sich auf ein Verfahren zum Übertragen von Klang- und/oder Sprachdaten in einem paketorientierten Kommunikationssystem mit den oberbegrifflichen Merkmalen des Patentanspruchs 1 bzw. eine Vorrichtung zum Durchführen eines solchen Verfahrens.

Es gibt eine Vielzahl verschiedenartiger Kommunikationssysteme, bei denen Daten in Datenpaketen verpackt transportiert werden. Diese Kommunikationssysteme können rein paketorientierte Übertragung von Daten ermöglichen oder, ausgehend von z.B. Mobilfunk- Kommunikationssystemen gemäß z.B. dem GSM-Standard (GSM: Global System for Mobile Communication) , Daten über spezielle Paketdatendienste gemäß dem GPRS (General Packet Radio System) übertragen. Bei diesen Systemen werden zu übertragende Daten in einzelne Datenpakete gepackt und nacheinander über das Kommunikationsnetz übertragen. Empfängerseitig werden die empfangenen Datenpakete entpackt und gegebenenfalls dekodiert, um die ursprünglichen Daten letztendlich in der richtigen Reihenfolge zu rekonstruieren. Bei derartigen Systemen kann es vorkommen, dass Datenpakete zeitlich versetzt eintreffen, beispielsweise weil eigentlich hintereinander abgesendete Datenpakete über verschiedene Verbindungsstrecken geleitet wurden oder in zwischengeschalteten Zentralstellen nachrangig mit einem Zeitversatz weitergeleitet wurden. Die dadurch entstehende Schwankungsbreite von Übertragungsverzögerungen, sogenannten Delayschwankungen, sind in paketvermittelnden Netzen für die meisten Datenübertragungen unkritisch. Bei der Übertragung von Sprachdaten ist es jedoch wichtig, einerseits eine möglichst schnelle Übermittlung der Datenpakete zu ermöglichen, so dass der Empfänger gesprochene Worte unmittelbar nach dem Aussprechen auf der Senderseite hören kann. Außerdem sind Übertragungsverzögerungen einzelner Pakete zueinander auch kritisch, weil es zu Störungen der Sprache kommen kann, wenn ein Paket mit Verzögerung eintrifft und dadurch bei der Wiedergabe der rekonstruierten Daten eine Lücke entsteht. Bei zu großen Verzögerungen müssen verspätet eintreffende Datenpakete unter Umständen sogar ausgelassen werden, um zumindest die Wiedergabe später abgesandter, aber auf schnellerem Weg eingetroffener Datenpaketinhalte möglichst unverzögert ermöglichen zu können.

Während bei der Übertragung von Informationsdaten ausreichend Zeit gegeben ist, diese zu kodieren und zur besseren und fehlerfreien Rekonstruierbarkeit über eine Vielzahl von Datenpaketen zu verteilen, ist es bei der Übertragung von Sprache bei der Paketbildung üblich, die zu übertragenden Informationen unstrukturiert in die Datenpakete einzusetzen. In einem ersten Schritt wird aufgezeichnete Sprache digitalisiert. Die Digitalisierung erfolgt dabei ohne Rücksicht auf die Information im Datenstrom kontinuierlich in äquidistanten Schritten, wobei jedem momentanen Analogwert zu jedem Abtastzeitpunkt des Sprachsignals ein äquivalenter digitaler Wert zugeordnet wird. Die auf diese Art und Weise gewonnenen digitalen Werte können in einem nachfolgenden Verarbeitungsschritt zusätzlich komprimiert werden. Anschließend werden die derart gewonnen Informationen bzw. Werte in üblicher Weise immer gleich große Datenpakete gepackt, wie dies auch aus Fig. 3 ersichtlich ist. Die einzelnen Daten werden dann mit Hilfe von Übertragungseinrichtungen über das Kommunikationsnetz zum Empfänger übertragen. Empfängerseitig wird die Information aus den Datenpaketen sowohl inhaltlich als auch hinsichtlich des zeitlichen Verhaltens bei der anschließenden Wiedergabe rekonstruiert . Mit Blick auf die Anforderungen einer zum Aussprechen eines Wortes möglichst zeitnahen Wiedergabe des empfängerseitig rekonstruierten Wortes besteht das Problem, dass die Rekonstruktion des Sprachsignals sehr empfindlich auf Schwankungen bei der Übertragungsdauer, dass heißt auf Übertragungsverzögerungen reagiert. Letztendlich führt dies zu einer verschlechterten oder lückenhaften Sprachqualität bei der Wiedergabe.

Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Übertragen von Klang- und/oder Sprachdaten in einem paketorientierten Kommunikationssystem zu verbessern.

Diese Aufgabe wird durch ein Verfahren zum Übertragen von Klang- und/oder Sprachdaten mit den Merkmalen des Patentanspruchs 1 bzw. eine Sende- und/oder

Empfangseinrichtung zum Durchführen eines solchen Verfahrens mit den Merkmalen des Patentanspruchs 9 gelöst. Ein vorteilhaftes Verfahren zur Wiedergabe solcher Sprach- bzw. Klangdaten ist Gegenstand von Patentanspruch 8 mit eigenständiger erfinderischer Bedeutung.

Bei dem Verpacken von Sprachdaten in einzelne Datenpakete die Sprachstruktur zu berücksichtigen, ermöglicht eine verbesserte Wiedergabequalität, da die Sprachdaten derart in Pakete eingesetzt werden können, dass bei einer Verzögerung des Eintreffens eines späteren Paketes beispielsweise nicht ein Wort als solches mitten im Wort verzerrt oder unterbrochen wird sondern Unterbrechungen, Aussetzer und Verzögerungen in sprachliche Lücken verlagert werden können. Anstelle der Verlagerung in sprachliche Lücken kann natürlich auch eine Verlagerung in sprachliche Bereiche mit z.B. einer sehr geringen Dynamik verlagert werden, in denen Störungen möglichst wenig das Hörempfinden bei der Wiedergabe beeinträchtige . Vorteilhafte Ausgestaltungen sind Gegenstand von abhängigen Ansprüchen.

Besonders vorteilhaft ist es, nicht nur eine allgemeine Sprachstruktur sondern die natürliche Sprachstruktur zu berücksichtigen, da Störungen in dem gewohnten Sprachfluss stärker empfunden werden als Störungen in Randbereichen und insbesondere Endbereichen eines natürlichen Sprachflusses. Als besonders markante Elemente der Sprachstruktur sind dabei Wortteile, z.B. einzelne Silben, und ganze Worte für sich genommen möglichst nicht zu trennen. Entsprechend sollte die Aufteilung von Worten jeweils in Datenpakete derart erfolgen, dass mit dem Beginn des Datenpaketes bzw. dessen Nutzdatenabschnitt der Beginn eines Wortes oder Wortteils zusammenf llt, während zum Ende des Datenpaketes hin Freiräume bestehen bleiben dürfen. Derartige Freiräume sind zweckmäßigerweise mit Leerdaten oder sonstigen Informationsdaten auffüllbar.

Um die Sprachstruktur besonders effizient untersuchen zu können, kann dabei auf für sich bekannte Programme zur Sprach'erkennung, insbesondere Worterkennung zurückgegriffen werden, welche Sprachsignale mit Blick auf Worte und Wortbestandteile analysieren, um beispielsweise in ein

Mikrofon gesprochene Worte als Text in einem Textdokument wiedergeben zu können. Durch die Anwendung einer derartigen Spracherkennung ist es besonders einfach möglich, Sprachstrukturen, insbesondere Worte oder Silben erkennbar zu machen, um die Verteilung auf einzelnen Datenpakete entsprechend vorzunehmen. Zweckmäßigerweise kann bei Bereitstellung einer derartigen Spracherkennung auch ein Speicher oder Speicherabschnitt mit einer Art Wörterbuch hinterlegt werden, wie dies für Spracherkennungsprogramme ebenfalls für sich genommen bekannt ist, so dass mit Hilfe hinterlegter Musterworte eine weitere Verfeinerung der Analyse der Sprachstruktur vorgenommen werden kann. Besonders zweckmäßig ist es auch, Datenpakete nur teilweise mit Sprachdaten zu füllen, um einerseits zu verhindern, dass bei einer Aneinanderreihung einer Vielzahl von Worten letztendlich doch ein abschließendes Wort durchtrennt wird und andererseits ein schnellstmögliches Versenden der einzelnen Datenpakete ermöglichen zu können, wenn feststeht, dass der verbleibende Speicherraum nicht mehr zum Auffüllen mit einem Wort oder einer Wortsilbe ausreicht, das bzw. die eine festsetzbare Durchschnittslänge aufweist.

Bei der Aufteilung von Sprachdaten auf die einzelnen Datenpakete ist bei der Berechnung des verfügbaren Speicherraums in einem Datenpaket oder auch bei der Anwendung von Komprimierungsalgorithmen auch vorteilhaft berücksichtigbar, wie schnell eine Person spricht, da langsam gesprochene Worte unter Umständen stärker komprimierbar sind, als schnell und hektisch gesprochene Worte. Insbesondere benötigt ein langsam gesprochenes Wort ohne eine stärkere Komprimierung mehr Speicherraum innerhalb eines einzelnen Datenpaketes als das selbe Wort bei schneller Aussprache.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 eine Anordnung zum Aufzeichnen, Digitalisieren und Versenden von Daten sowie zum Empfangen, Rekonstruieren und Wiedergeben von Daten in einem KommunikationsSystem,^•

Fig. 2 ein analoges Sprachdiagramm mit einer zeitlichen

Amplitudenverteilung und Kennzeichnung von Grenzen zum Verpacken einzelner Sprachanteile in verschiedene Datenpakete und Fig. 3 ein solches Diagramm zur Veranschaulichung der Zuordnung der Sprachinformationen zu einzelnen Datenpaketen gemäß dem Stand der Technik.

Wie aus Fig. 1 ersichtlich, kann eine beispielhafte Sendeeinrichtung SE aus einer Vielzahl von Einzelkomponenten bestehen, welche aber auch teilweise weggelassen und/oder in anderen Einrichtungen aufgenommen werden können.

Zur Aufnahme von Sprache oder sonstigen Lautfolgen dient ein Mikrofon MIC, welches an einem Analog-/Digitalwandler A/D angeschlossen ist. In dem Analog-/Digitalwandler A/D erfolgt eine Umsetzung des analogen Sprachsignals in ein digitales Signal. Üblicherweise erfolgt die Digitalisierung ohne

Rücksicht auf die Sprache bzw. Information im Datenstrom kontinuierlich mit äquidistanten Schritten, wobei zu jedem AbtastZeitpunkt jedem Analogwert ein äquivalenter digitaler Datenwert zugeordnet wird. Die digitalisierten Datenwerte werden vom Analog-/ Digital-Wandler A/D aus in einen Prozessor, insbesondere Mikroprozessor μPS eingegeben. Optional kann der Prozessor μPS auch einen weiteren Eingang zur Eingabe bereits vorliegender digitaler Datenwerte aufweisen. Nach einer Datenverarbeitung bzw. Datenaufbereitung leitet der Prozessor μPS die aufbereiteten Datenwerte zu einer Sendeeinrichtung, die hier im bevorzugten Ausführungsfall als Sende-/Empfangseinrichtung S/R ausgebildet ist. Die Sende-/Empfangseinrichtung bereitet die empfangenen Datenwerte für eine Übertragung über eine Schnittstelle vor. Als Schnittstelle zum Ausgeben der

Datenwerte ist beim dargestellten Ausführungsbeispiels eine Antenne A an die Sende-/Empfangseinrichtung S/R angeschlossen, wobei auch beliebige andere Übertragungswege, insbesondere leitungsgebundene Schnittstellen, anstelle einer dargestellten Funkschnittstelle V verwendet werden können. Eine Empfangseinrichtung RE weist eine Vielzahl von entsprechenden Komponenten auf. Über einen

Schnittstelleneingang, im dargestellten Ausführungsbeispiel eine Antenne A, wird das von der Sendeeinrichtung SE über die Schnittstelle V gesendete bzw. übertragene Signal mit den Datenwerten empfangen und zu einer Empfangseinrichtung, im dargestellten bevorzugten Ausführungsbeispiel eine Sende- /Empfangseinrichtung S/R empfangen und vorverarbeitet. Die Sende-/Empfangseinrichtung S/R leitet das entsprechende vorverarbeitete Signal bzw. die entsprechend vorverarbeiteten Datenwerte an einen Prozessor weiter, im dargestellten Ausführungsbeispiel einen Mikroprozessor μPR. In dem Prozessor μPR werden die empfangenen Datenwerte verarbeitet bzw. aufbereitet und dann an einen Digital/ Analog-Wandler D/A ausgegeben, der eine Umsetzung in ein analoges Signal bewirkt. Über einen Verstärker wird dann das vom Digital- /Analog-Wandler D/A ausgegebene Analogsignal zu einem Lautsprecher Sp ausgegeben, der die ursprünglich gesprochene Sprache für einen Hörer ausgibt. Zusätzlich oder alternativ kann bei der Empfangseinrichtung RE eine Schnittstelle für eine digitale Ausgabe der Sprachdaten bereitgestellt sein.

Wie aus den Darstellungen entnehmbar ist, können nicht nur eigenständige Sendeeinrichtungen SE und eigenständige Empfangseinrichtungen RE bereitgestellt werden, sondern kombinierte Sende-/Empfangseinrichtungen, die sowohl die Baugruppen und Funktionen der Sendeeinrichtungen SE als auch die Baugruppen und Funktionen der Empfangseinrichtung RE aufweisen.

Ausgehend von dem Stand der Technik, der in Fig. 3 dargestellt ist, wird nun die Verteilung von Sprachdaten auf Datenpakete beschrieben. In der Sendeeinrichtung SE werden in den Prozessor μPS digitalisierte Datenwerte eingegeben, die letztendlich den in Fig. 3 als kontinuierliches Signal dargestellten Verlauf, wiedergeben. Über der Zeitachse t sind um den dynamischen Nullwert „0* die entsprechenden Amplituden des Signals bzw. der nach dem Abtasten daraus gebildeten digitalen. Datenwerte abgebildet. Die Verpackung der digitalen Daten erfolgt derzeit, indem eine feste Anzahl von Datenwerten jeweils in den Nutzdatenblock eines Paketes (Paket 1, Paket 2, ..., Paket 5, ...) gepackt werden. Diese über die Schnittstelle V übertragenen Datenpakete werden dann in der Empfangseinrichtung vom Prozessor μPR entpackt und wieder zu einer Datenfolge rekonstruiert. Dabei werden die einzelnen Pakete empfängerseitig in der Empfangseinrichtung RE z.B. entsprechend einer zeitlichen Abfolge derart wiedergegeben, dass Datenwerte eines zu spät eintreffenden Paketes nach einer entsprechenden, dadurch künstlich erzeugten Sprachpause entpackt und über den Lautsprecher Sp wiedergegeben werden. Trifft das nachfolgende Datenpaket über einen kürzeren Datenweg oder über einen unverzögerten Weg pünktlich bei der Empfangseinrichtung RE ein, so wird es entpackt und die Datenwerte werden entsprechend der Vorgabe einer möglichst geringen Zeitverzögerung unmittelbar über den Lautsprecher Sp wiedergegeben. Die Wiedergabe eventuell noch nicht gesendeter Datenwerte des Paketes 1 wird dazu unterdrückt. Durch eine derartige Vorgehensweise entstehen unnatürliche Sprachlücken mitten in einem Wort oder gar mitten in einem Phonem, also einem Laut oder einer natürlichen Lautfolge. Außerdem werden Wortteile, Worte oder Phoneme ausgelassen, dies ebenfalls an Stellen, wo sie das Sprachempfinden oder gar das Verständnis stören.

Wie dies aus Fig. 2 ersichtlich ist, wird für die Verpackung von Sprachdaten oder Klangdaten, also beispielsweise auch Musikdaten, eine Strukturerkennung vorgeschaltet. Anhand des Beispiels von Sprachdaten wird dazu die natürliche Sprachstruktur analysiert, wobei als Kriterien für die Analyse die Suche nach Sprachpausen zwischen Worten, die Suche nach Silben oder die Suche nach Phonemen besonders bevorzugt verstanden wird. Die in Fig. 2 dargestellten sinnvollen Grenzen zum Trennen von jeweils strukturbedingt zusammengehörenden Sprach-, Klang- bzw. entsprechenden Datenwerten befinden sich z.B. in Bereichen, in denen sich die Amplituden d der Datenwerte über eine gewisse Zeitspanne Δt nicht aus einem vorgegebenen Differenzdynamikbereich Δd herausbewegen. Derartige Amplitudenwerte über eine entsprechende Zeitspanne Δt sind beispielsweise ein Zeichen für eine Sprechpause zwischen zwei Worten. Prinzipiell kommen für Paketgrenzen insbesondere alle die Stellen in Frage, welche sich mathematisch dadurch auszeichnen, dass sich die erste Ableitung der Funktion, welche die Sprache beschreibt, über eine längere, gegebenenfalls vorgebbare Dauer auf Null befindet oder ein gegebenenfalls vorgebbares Intervall um die Nulllinie herum nicht überschreitet.

Entsprechend ist bei dem dargestellten Ausführungsbeispiel einer Sprach- bzw. Klangfolge ein erstes Datenpaket Paket 1 mit nur einer geringen Anzahl von Datenwerten gefüllt, während in das zweite Datenpaket Paket 2 eine längere Sprachbzw. Klangfolge bzw. deren Datenwerte eingesetzt werden. Nach dem zweiten Datenpaket folgt eine längere Sprachpause bzw. Sprachlücke, deren Daten vorzugsweise in gar kein Paket verpackt werden, um die Daten- und Signalisierungslast auf dem Kommunikationsnetz zu reduzieren. Das dritte Datenpaket Paket 3 weist ebenfalls wieder eine längere Folge von Datenwerten auf, bevor eine erneute Sprachpause kommt. Für den Fall, dass über eine maximal mögliche Dauer oder eine maximal sinnvolle Dauer keine Sprachlücke detektierbar ist, kann natürlich auch eine zwangsweise Grenze gesetzt werden, so dass in einem solchen Fall Störungen wie beim Stand der Technik notgedrungen in Kauf genommen werden.

Neben der beschriebenen Erkennung von Sprachlücken oder Klanglücken, bei denen ein gewisser Dynamikbereich um den Nullwert nicht verlassen wird, können natürlich auch beliebige andere Kriterien herangezogen werden. Im Fall eines allgemeinen Hintergrundstörgeräusches kann der Grunddynamikpegel beispielsweise über dieser Grenze Δd liegen, weshalb es sinnvoll sein kann, nicht nur Grenzwerte um den Null-Bereich herum zu analysieren, sondern generell zu untersuchen, ob die Sprach- bzw. Klangdaten hinsichtlich ihrer Amplitudenwerte über einen gewissen Zeitraum innerhalb eines gewissen Dynamikbereiches verharren. Auch unabhängig von derartigen Situationen mit Hintergrundgeräuschen ist es möglich, als sinnvolle Grenze Klangbereiche zu wählen, bei denen eine möglichst geringfügige zeitliche Veränderung des Frequenzspektrums und/oder des Dynamikspektrums auftritt, da bei beispielsweise einem lang gesprochenen Vokal Übertragungsfehler bei einer Verkürzung oder Verlängerung der Wiedergabe nicht so sehr das Sprachempfinden oder Verständnis stören, wie beispielsweise eine Trennung zwischen zwei kurz gesprochenen Vokalen oder zwei Konsonanten.

Besonders bevorzugt wird eine Festlegung von Grenzen zur Einteilung in Pakete anhand von der Erkennung bestimmter Phoneme. Dazu wird in einer Tabelle bzw. einem Speicher M, der zweckmäßigerweise mit dem Prozessor μPS verbunden ist, eine Vielzahl üblicher Phoneme hinterlegt. Gesprochene und digitalisierte Datenwerte, die beim Mikroprozessor μPS eintreffen, werden dann als Datenwertfolge mit einer entsprechenden Datenwertfolge der im Speicher M hinterlegten Phoneme verglichen. Sobald ein Phonem erkannt wird, wird dessen Ende als mögliche Grenze markiert oder registriert. Je nach gewünschter Anzahl von Phonemen oder Datenwerten, die jeweils in ein Paket gepackt werden sollen, kann dann bei dem eigentlichen Verpacken nach derart ermittelten Grenzen gesucht werden, um eine optimale Verpackung der Datenwertfolgen in die Datenpakete zu ermöglichen.

Für den Fall, dass die Vielzahl der im Speicher M hinterlegten Phoneme zur Erkennung nicht ausreichen, beispielsweise weil die in die Sendeeinrichtung eingegebene Sprachfolge einen ausgefallen Dialekt hat oder in einer klanglich besondersartigen Sprache gesprochen wird, können natürlich parallel oder zusätzlich auch andere Kriterien als Sprachgrenzen bzw. Klanggrenzen verwendet werden. In besonders bevorzugter Ausführungsform findet somit eine Koppelung von Mustererkennung zum Erkennen vorgegebener Phoneme, Silben oder Worte und einer Spachlückenerkennung usw. statt.

Um eine möglichst zeitnahe und unverzerrte Wiedergabe von Sprach- bzw. Klangdaten in der Empfängereinrichtung RE zu ermöglichen, wird die Anzahl der pro Datenpaket zu verpackenden Datenwerte gering gehalten. Bei Kommunikationssystemen mit Datenpaketversand gemäß dem Internetprotokoll IP betragen derzeit übliche Paketgrößen 1500, 9800 oder 64000 Byte. Für die Verpackung von

Sprachdaten erscheint es jedoch zweckmäßig, bei üblichen Abtastraten von z.B. 8 kHz und einer typischen Phonemdauer in der Größenordnung von wenigen Zehntelsekunden nur jeweils Datenmengen von ca. 500 Byte pro Datenpaket einzusetzen. Empfängerseitig werden entsprechend die Datenpakete direkt nach dem Empfang entpackt und die Wiedergabe der Klang- bzw. Sprachstruktur wird über den Lautsprecher Sp bewirkt.

Während gemäß den Vorgaben der Dienstegüte (QoS: Quality of Service) gemäß IP Daten bzw. Datenwerte derart zu übertragen sind, dass keinerlei Verluste auftreten und auch keinerlei Verdoppelungen auftreten, kann bei der Rekonstruktion von Sprachdaten ein gerade gegenläufiges Prinzip vorteilhaft sein, welches bei dem hier beschriebenen Verfahren vorteilhaft ausgenutzt wird.

Trifft beispielsweise ein erstes Sprachpaket mit einer längeren natürlichen Sprach- bzw. Klangpause beim Empfänger ein, wie beispielsweise das Paket 2 aus Fig. 2, und trifft danach aber das nachfolgende Paket, d.h. Paket 3 aus Fig. 2, verspätet ein, so kann die natürliche Sprach- bzw. Klangpause am Ende des Paketes 2 problemlos künstlich verlängert werden. Das Klangempfinden bzw. Sprachempfinden wird durch die Verpackung der Daten in das Paket 2 mit einer Sprach- bzw. Klangpause am Ende bei einer derartigen Wiedergabe nur geringfügig oder gar nicht gestört.

Für den Fall, dass eine Paketgrenze derart gewählt wurde, dass z.B. ein lang gedehnter Vokal durch die Datenpaketgrenze getrennt wurde, kann in der Empfangseinrichtung RE die Datenverarbeitung μPR entsprechend der Verlängerung von Klanglücken derart erfolgen, dass der letzte Klang bzw. Ton verdoppelt, verdreifacht, ... wiedergegeben wird, was bei der klanglichen Wiedergabe wie eine verlängerte Dehnung erscheint und sich ebenfalls nur in geringfügigem oder vernachlässigbarem Umfang negativ auf das Klang- bzw. Sprachempfinden auswirkt.

Während vorstehend die Versendung von Datenpaketen mit unterschiedlicher Anzahl von Datenwerten bzw. unterschiedlicher Datenpaketlänge beschrieben ist, ist es natürlich auch möglich, Datenpakete mit jeweils gleicher

Dauer zu erstellen und zu übertragen. In einem solchen Fall wird die Dauer der in die Datenpakete zu packenden Datenwerte zweckmäßigerweise so lang gewählt, dass eine ausreichende Anzahl von Datenwerten eingesetzt werden kann, um eine genügende Anzahl von Phonemen, Silben und/oder Worten, je nach Wunsch des Trennkriteriums, einsetzen zu können, so dass idealerweise nach den eingesetzten Nutz-Datenwerten stets noch eine Anzahl unbelegter Datenwerte folgt, die bei der Wiedergabe in der Empfangseinrichtung RE bei Eintreffen des nächsten Datenpaketes mit dessen ersten Datenwerten überschrieben werden.

Während vorstehend einfache Möglichkeiten zur Umsetzung eines solchen Verfahrens beschrieben wurden, können natürlich bereits bestehende Programme soft- oder hardwaremäßig in die Verfahrensweise bei der Strukturanalyse eingehender Klangbzw. Sprachdaten und bei der Rekonstruktion auszugebender Sprach- bzw. Klangdaten verwendet werden, die für sich genommen aus beispielsweise dem Bereich der Spracherkennung bekannt sind, wobei diese Programme dazu dienen, gesprochene Sprache in geschriebenen Text bzw. geschriebenen Text in gesprochene Sprache umzusetzen. Letztendlich beruht eine Vielzahl dieser Programme auf Algorithmen, die auch als solche im vorstehend beschriebenen Verfahren vorteilhaft eingesetzt werden können.

Während vorstehend die direkte Übertragung von Sprachdaten oder Klangdaten zu einem Empfänger und die unmittelbare dortige Wiedergabe beschrieben sind, kann das Verfahren natürlich auch zum konservieren von Sprachdokumenten verwendet werden, beispielsweise um eine historisch bedeutende Rede zwischenzeitlich in einem Speicher paketweise hinterlegen zu können, um eine spätere Wiedergabe ermöglichen zu können.

Claims

Patentansprüche

1.. Verfahren zum Bereitstellen von Klang- und/oder

Sprachdaten für eine Übertragung in einem paketorientierten Komrαunikationssystem, bei dem

- digitalisierte Klang-Datenwerte und/oder Sprach-Datenwerte in zeitlicher Abfolge in aufeinanderfolgende Datenpakete gepackt werden, dadurch g e k e n n z e i c h n e t , dass die Einteilung aufeinanderfolgender Datenwerte auf die aufeinanderfolgenden Datenpakete (Paket 1, Paket 2,...) unter Berücksichtigung der Klang- bzw. Sprachstruktur durchgeführt wird.

2. Verfahren nach Anspruch 1, bei dem als Klang- bzw. Sprachstruktur eine natürliche Klang- bzw. Sprachstruktur für die Analyse zur Einteilung in die Datenpakete verwendet wird.

3. Verfahren nach Anspruch 1 oder 2, bei dem bei der Berücksichtigung der Klang- bzw. Sprachstruktur Phoneme, Worte, Silben und/oder Wortteile als Merkmale der Sprachstruktur bei der Einteilung in die Datenpakete verwendet werden.

4. Verfahren nach einem vorstehenden Anspruch, bei dem bei der Berücksichtigung der Sprachstruktur in einem Speicher (M) hinterlegte Phonemmuster, Wortteilmuster und/oder Wortmuster für einen Vergleich mit in die Datenpakete einzuteilenden Datenwerten bzw. Datenwertfolgen verwendet werden.

5. Verfahren nach einem vorstehenden Anspruch, bei dem als Klang- bzw. Sprachgrenzen für die Einteilung von Datenwerten in eines der Datenpakete über eine Dauer (Δt) anhaltende Klang- und/oder Sprechpausen in Randbereiche, insbesondere an das Ende des Nutzdatenbereichs des Datenpakets gelegt werden.

6. Verfahren nach einem vorstehenden Anspruch, bei dem als Klang- bzw. Sprachgrenzen für die Einteilung von Datenwerten in eines der Datenpakete über eine Dauer (Δt) gedehnte Laute oder Klänge in Randbereiche, insbesondere an das Ende des Nutzdatenbereichs des Datenpakets gelegt werden.

7. Verfahren nach einem vorstehend Anspruch, bei dem die Datenpakete mit einer unterschiedlichen Anzahl von Datenwerten gefüllt werden.

8. Verfahren zum Wiedergeben von insbesondere nach einem vorstehenden Verfahren in Datenpakete gepackten Klang- bzw. Sprach-Datenwerten, bei dem bei der Wiedergabe im Fall eines zu spät eintreffenden nachfolgenden Datenpaketes über eine Dauer (Δt) anhaltende Klangpausen und/oder zuletzt wiederzugebende Klänge bis zum Eintreffen eines nächsten Datenpaketes oder einer vorgegebenen maximalen Dauer ununterbrochen wiederholt oder kontinuierlich gedehnt wiedergegeben werden.

9. Sende- und/oder Empfangseinrichtung (SE, RE) zum Durchführen eines Verfahrens nach einem vorstehenden Anspruch.

10. Sende- und/oder Empfangseinrichtung (SE, RE) nach Anspruch 9, mit einem Speicher (M) zum Speichern von Klangmustern, Sprachmustern, Lauten, Wortteilen, Phonemen und/oder Worten zum Vergleich mit zu untersuchenden und in Datenpakete (Paket 1, Paket 2,...) einzuteilenden Klang- bzw. Sprach- Datenwertfolgen und einem Prozessor (μPS) zum Durchführen des Vergleichs und zum Einteilen der Datenwerte auf die Datenpakete .