DE69931783T2 - Verbesserung bei digitaler Kommunikationseinrichtung - Google Patents

Verbesserung bei digitaler Kommunikationseinrichtung Download PDF

Info

Publication number
DE69931783T2
DE69931783T2 DE69931783T DE69931783T DE69931783T2 DE 69931783 T2 DE69931783 T2 DE 69931783T2 DE 69931783 T DE69931783 T DE 69931783T DE 69931783 T DE69931783 T DE 69931783T DE 69931783 T2 DE69931783 T2 DE 69931783T2
Authority
DE
Germany
Prior art keywords
speech
frames
noise
artificial noise
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69931783T
Other languages
English (en)
Other versions
DE69931783D1 (de
Inventor
Judge Bracknell Rupinder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Application granted granted Critical
Publication of DE69931783D1 publication Critical patent/DE69931783D1/de
Publication of DE69931783T2 publication Critical patent/DE69931783T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Description

  • Diese Erfindung bezieht sich auf eine digitale Kommunikationsvorrichtung. Ein wünscheswertes Merkmal in einer digitalen Kommunikationsvorrichtung ist die Fähigkeit, Sprache aufzunehmen. In einem digitalen mobilen Telefon z.B. würde diese Fähigkeit dem Telefon ermöglichen, als ein Telefonanrufbeantworter zu fungieren, oder eine Sprachnotiz (Voice Memo) aufzunehmen, oder ein Gespräch aufzunehmen, das über das Telefon geführt wird. Eine wichtige Überlegung, insbesondere in einem digitalen mobilen Telefon, ist die Menge an Speicher, der für diesen Zweck zur Verfügung gestellt werden muss. Bisherige Ansätze zur Bereitstellung von Sprachaufzeichnungen in einem digitalen mobilen Telefon haben keinen effizienten Gebrauch von Speicherplatz gemacht, und verlangten deshalb entweder einen unakzeptablen großen Speicher oder benutzten einen kleinereren Speicher, welcher für manche Zwecke ausreichend war.
  • Das US-Patent 5 630 016 beschreibt ein digitales Kommunikationssystem für das Senden und Empfangen von Sprache. Der Sender sendet zwei Datenrahmen folgend auf eine Detektion von Stimmeninaktivität. Der Empfänger beinhaltet einen Generator für künstliches Geräusch, der die zwei Datenrahmen benutzt, um Geräusch an einen Lautsprecher während Stimmeninaktivität auszugeben.
  • Das IBM Technical Disclosure Bulletin, VOL.29, Nr. 4, 1. September 1986, mit dem Titel "Compression Method for Voice Preprocessing and Postprocessing", Seiten 1756 bis 1757, beschreibt ein Verfahren zur Komprimierung und Speicherung von Sprachdaten. Eine sogenannte Suprakomprimierung („super-compression") wird benutzt, um Gesprächspausenperioden in der Sprache zu komprimieren.
  • Gemäß einem Aspekt dieser Erfindung wird eine digitale Kommunikationsvorrichtung bereitgestellt, die einen Generator für künstliches Geräusch zur Bereitstellung von künstlichem Geräusch für eine Simulation von akustischem Hintergrundgeräusch und einen Sprachkodierer für eine Erzeugung von Sprachrahmen beinhaltet, dadurch gekennzeichnet dass die digitale Kommunikationsvorrichtung weiterhin eine Abschätzeinrichtung für künstliches Geräusch für eine Bereitstellung von Gesprächspausenrahmen aufweist, wobei die Gesprächspausenrahmen eine Information bezeichnend für akustisches Hintergrundgeräusch aufweisen; und eine Sprachaufnahme/-wiedergabe-Einrichtung, wobei die Sprachaufnahme/-wiedergabe-Einrichtung angepasst ist, bei Aufnahme Sprachrahmen während des Vorhandenseins von Sprache zu speichern, einen oder mehrere Gesprächspausenrahmen an dem Ende des Vorhandenseins von Sprache während dem Ausbleiben von Sprache zu speichern, und Daten zu speichern, die bezeichnend sind für die Dauer des Ausbleibens von Sprache; und wobei die Sprachaufnahme/-wiedergabe-Einrichtung angepasst ist, bei Wiedergabe als Ausgabe Sprachsignale bereitzustellen, die abgeleitet sind von den gespeicherten Sprachrahmen, und, in Abhängigkeit von dem gespeicherten einen oder mehreren Gesprächspausenrahmen, künstliches Geräusch von dem Generator für künstliches Geräusch für eine Dauer repräsentiert durch die gespeicherten Daten.
  • Die Vorrichtung kann ein digitales mobiles Telefon sein, das einen Sender beinhaltet, der angepasst ist, nur für das Senden von Rahmen eingeschaltet zu werden, die nützliche Information enthalten, und wobei der Generator für künstliches Geräusch angepasst ist, künstliches Geräusch in Abhängigkeit von Gesprächspausenrahmen bereitzustellen, wenn keine Sprachrahmen empfangen werden.
  • Die Vorrichtung kann einen Sprachkodierer für das Kodieren von Sprache in Sprachrahmen und für Bereitstellung einer Eingabe an die Abschätzeinrichtung für künstliches Geräusch für Bereitstellung der Gesprächspausenrahmen beinhalten, wodurch die Sprachrahmen, die durch die Sprachaufnahme/-wiedergabe-Einrichtung gespeichert werden, jene sind, die durch den Sprachkodierer kodiert werden, und einen Sprachdekodierer für eine Dekodierung von gespeicherten Sprachrahmen und für eine Bereitstellung von künstlichem Geräusch in der Ausgabe des Sprachdekodierers, das durch den Generator für künstliches Geräusch in Abhängigkeit von gespeicherten Gesprächspausenrahmen erzeugt wurde.
  • Das digitale mobile Telefon kann ein GSM-Telefon sein.
  • Die gespeicherten Daten können eine Anzahl von Sprachrahmen umfassen, die während des Ausbleibens von Sprache auftreten.
  • Die gespeicherten Daten können einen jeweiligen Leerrahmen einer minimalen Länge für jeden Sprachrahmen umfassen, der während des Ausbleibens von Sprache auftritt.
  • Gemäß einem anderen Aspekt dieser Erfindung wird ein Verfahren zur Aufnahme/Wiedergabe von Sprache in einer digitalen Kommunikationsvorrichtung bereitgestellt, wobei die Kommunikationsvorrichtung einen Sprachkodierer zur Erzeugung von Sprachrahmen und einen Generator für künstliches Geräusch zur Bereitstellung von künstlichem Geräusch für eine Simulation von akustischem Hintergrundgeräusch beinhaltet, dadurch gekennzeichnet, dass die digitale Kommunikationsvorrichtung weiterhin eine Abschätzeinrichtung für künstliches Geräusch und eine Sprachaufnahme/-wiedergabe-Einrichtung aufweist, wobei die Abschätzeinrichtung für künstliches Geräusch zur Bereitsstellung von Gesprächspausenrahmen dient, wobei die Gesprächspausenrahmen Information bezeichnend für akustisches Hintergrundgeräusch umfassen, wobei das Verfahren für eine Aufnahme beinhaltet das Speichern von Sprachrahmen während des Vorhandenseins von Sprache durch die Sprachaufnahme/-wiedergabe-Einrichtung, das Speichern eines oder mehrerer Gesprächspausenrahmen durch die Sprachaufnahme/-wiedergabe-Einrichtung, die Information bezeichnend für akustisches Hintergrundgeräusch beinhalten, an dem Ende des Vorhandenseins von Sprache während des Ausbleibens von Sprache, und das Speichern von Daten durch die Sprachaufnahme/-wiedergabe-Einrichtung, die bezeichnend sind für die Dauer des Ausbleibens von Sprache, und für die Wiedergabe das Bereitstellen von Sprachsignalen durch die Sprachaufnahme/-wiedergabe-Einrichtung als Ausgabe, die von den gespeicherten Sprachrahmen abgeleitet sind, und von künstlichem Geräusch in Abhängigkeit von dem gespeicherten Gesprächspausenrahmen oder den gespeicherten Gesprächspausenrahmen für das Simulieren von akustischem Hintergrundgeräusch für eine Dauer repräsentiert durch die gespeicherten Daten.
  • Die gespeicherten Daten können eine Anzahl von Sprachrahmen aufweisen, die während des Ausbleibens von Sprache auftreten.
  • Die gespeicherten Daten können einen jeweiligen Leerrahmen einer minimalen Länge für jeden Sprachrahmen umfassen, der während des Ausbleibens von Sprache auftritt.
  • Die Erfindung wird nun im Wege eines Beispiels mit Bezug auf die beiliegenden Zeichnungen beschrieben werden, in welchen:
  • 1 eine schematische Darstellung eines GSM-Telefons ist, das die Erfindung beinhaltet; und
  • 2 und 3 schematische Darstellungen sind, die detaillierter die Audio-Kodierfunktion („Audio Encode function") bzw. die Audio-Dekodierfunktion („Audio Decode function") darstellen, die in 1 gezeigt sind.
  • Während einer normalen Telefonkonversation wechseln sich die Teilnehmer ab, so dass im Durchschnitt jede Senderichtung mit ungefähr 50% der Zeit belegt ist. In dem GSM-System wird die sogenannte "diskontinuierliche Sendung" ("discontinuous transmission", DTX) als eine Betriebsart spezifiziert, wonach der Sender nur für jene Rahmen eingeschaltet wird, welche Sprache oder eine andere nützliche Information enthalten. Dies hat die Vorteile, dass das durchschnittliche Interferenzniveau "auf Sendung" reduziert wird, was zu besserer Spektrumeffizienz führt, und wobei in dem mobilen Telefon die Batterielebensdauer verlängert wird oder eine kleinere Batterie für eine gegebene Betriebsdauer benutzt werden kann. Die Ausführung der diskontinuierlichen Sendebetriebsart erfordert einen Stimmenaktivitätsdetektor auf der Sendeseite, um ein Ausbleiben von Sprache zu detektieren, eine Bewertung des akustischen Hintergrundgeräuschs auf der Sendeseite, um charakteristische Parameter des Hintergrundgeräuschs zu der Empfängerseite zu senden, und eine Erzeugung von einem ähnlichen Geräusch auf der Empfängerseite, d.h. sogenanntes künstliches Geräusch, während Perioden, in denen die Funkübertragung unterbrochen ist.
  • Das Aussenden von Charakteristiken bezüglich des künstlichen Geräuschs zu der Empfängerseite wird mittels eines speziellen Rahmens erreicht, ein sogenannter Gesprächspausen-Deskriptorrahmen („silence descriptor frame") oder SID-Rahmen. Dieser Rahmen wird ausgesendet an dem Ende einer jeden Sprach-Signal folge (burst) und dient als ein "Ende von Sprache"-Marker für die Empfängerseite. Um die Charakteristiken bezüglich des künstlichen Geräuschs auf der Empfängerseite zu aktualisieren, werden SID-Rahmen ebenso an regulären Intervallen während Sprachpausen ausgesendet. Dies dient ebenfalls dem Zweck der Verbesserung der Messung der Funkverbindungsqualität durch das Funkgerätsubsystem.
  • In seiner Anwendung auf ein GSM-Telefon macht die vorliegende Erfindung von dem Stimmenaktivitätsdetektor, dem Generator für künstliches Geräusch und von verschiedenen anderen Komponenten Gebrauch, welche bereits in dem Telefon für den Zweck der diskontinuierlichen Sendebetriebsart, wie oben beschrieben, vorhanden sind.
  • Nun bezugnehmend auf 1 werden Sprachsignale von einem normalerweise vorgesehenen Mikrofon 101 in einem GSM-Handapparat 100 über einen Filter 102 zu einem Analog-Digital-Wandler 103 geleitet, wobei die digitale Ausgabe desselben an einen Audio-Kodierungs-Funktionsblock 104 bereitgestellt wird. Die Ausgabe von Block 104, dessen Funktionen detallierter mit Bezug auf 2 beschrieben werden, wird als Eingabe an einen Sendeketten-Block 105 bereitgestellt, in dem die gebräuchliche Kanalkodierung, Verschränkung und Modulation bewirkt werden. Die Ausgabe von Block 105 wird als Eingabe an einen Funkvorrichtungs-Block 106 bereitgestellt, der die gewöhnlichen Funkfrequenz(HF)-Gruppen wie beispielsweise den Leistungsverstärker und die Antenne für eine Translation zu einem Funkfrequenz(HF)-Signal für das Aussenden aufweist. Empfangene Signale an dem Ausgang des Funkvorrichtungs-Blocks 106 werden als Eingabe zu einem Empfangsketten-Block 107 gespeist, in dem die gewöhnlichen Entzerrungs- und Kanaldekodierungsoperationen durchgeführt werden, um Sprachdaten und verschiedene Hinweisbits (Flags) zu erzeugen, die hinweisend auf die Qualität des empfangenen Signals sind (d.h., ob es irgendwelche Fehler in den Sprach- und SID-Rahmen gibt und ob die Sprachdaten ein Sprachrahmen oder ein SID-Rahmen sind). Die Sprachdaten und Hinweisbits werden als Eingabe an einen Audio-Dekodierungs-Funktionsblock 108 geleitet. Die Ausgabe des Blocks 108, dessen Funktionen noch mit Bezug auf 3 beschrieben werden, wird über einen Schalter 109 als Eingabe an einen Digital-Analog-Wandler 110 geleitet, dessen analoge Ausgabe über einen Filter 111 an einen elektroakustischen Signalgeber 112 gespeist wird, wie beispielsweise eine Hörkapsel oder ein Lautsprecher.
  • Die Eingabe an den Audio-Kodierungs-Funktionsblock 104 und die Ausgabe von dem Audio-Dekodierungs-Funktionsblock 108 werden außerdem als Eingaben zu einem Summierer 113 und zu einem Schalter 114 gespeist. Die Ausgabe von dem Summierer 113 wird außerdem als Eingabe an den Schalter 114 gespeist. Die Ausgabe von Schalter 114 wird als Eingabe zu einem Audio-Kodierungs-Funktionsblock 104' gespeist, welcher eine zweite Instanz des bereits vorgesehenen Audio-Kodierungs-Funktionsblocks 104 sein kann und vorzugsweise ist, welcher, wie es für einen Fachmann offensichtlich ist, normalerweise in Software in dem digitalen Signalprozessor oder DSP (nicht gezeigt) in dem GSM-Handapparat eingebunden ist.
  • Nun bezugnehmend auf 2 wird die Eingabe an den Audio-Kodierungs-Funktionsblock 104' zu einem Sprachkodierer 201 gespeist, welcher die Sprachsignale in Sprachrahmen kodiert. Signale von dem Sprachkodierer 201 werden zu einem Stimmenaktivitätsdetektor 202 gespeist, welcher ein Signal erzeugt, ein sogenanntes VAD-Flag, in Antwort auf das Ausbleiben von Sprache. Signale von dem Sprachkodierer 201 werden außerdem zu einer Abschätzeinheit für künstliches Geräusch 203 gespeist, welche SID-Rahmen erzeugt, welche Information hinweisend auf das akustische Hintergrundgeräusch enthalten.
  • Das VAD-Flag vom Stimmenaktivitätsdetektor 202, Sprachrahmen von dem Sprachkodierer 201 und SID-Rahmen von der Abschätzeinheit für künstliches Geräusch 203 werden zu einem Sende-DTX- und Steuer-Block 204 gespeist, welcher an seinem Ausgang Sprachdaten und ein Sprach- oder SP-Flag bereitstellt, das darauf hinweist, ob die Sprachdatenausgabe ein Sprachrahmen oder ein SID-Rahmen ist. Bis der Stimmenaktivitätsdetektor 202 das Ausbleiben von Sprache detektiert, umfasst die Sprachdatenausgabe Sprachrahmen, wobei das SP-Flag darauf hinweist. An dem Ende einer Sprachsignalfolge braucht es typischerweise eine Zeit, die gleich ist zu N-Sprachrahmen (N>1), um einen neuen SID-Rahmen zu berechnen. Wenn daher der Stimmenaktivitätsdetektor 202 das Ausbleiben von Sprache detektiert, enthält die Ausgabe von Block 204 weiterhin Sprachrahmen, bis der neue SID-Rahmen verfügbar wird, woraufhin er an dem Ausgang von Block 204 auftritt und das SP-Flag wechselt, um diesen anzuzeigen. Es tritt eine Ausnahme davon auf, wenn am Ende einer Sprachsignalfolge weniger als M-Rahmen (M>1) verstrichen sind, seitdem der letzte SID-Rahmen berechnet wurde. In dieser Situation wird der letzte SID-Rahmen vorgesehen und das SP-Flag wechselt, um diesen anzuzeigen. Im Ergebnis wird, falls der letzte SID-Rahmen nicht zu alt ist, dieser behandelt, als ob er aktuell ist, und er wird deshalb benutzt, als dass auf einen neuen zu berechnenden gewartet wird. Dieses Merkmal vermeidet das Warten, welches andererseits auftreten würde für einen neuen zu berechnenden SID-Rahmen in dem Fall, in dem eine kurze Hintergrundgeräuschspitze für Sprache gehalten wird, so dass Sendeaktivität reduziert wird.
  • Zurückkommend wiederum auf 1 ist der Betrieb des Audio-Kodierungs-Funktionsblocks 104 ähnlich zu dem Betrieb, wie eben für Block 104' beschrieben. Wie sich der Fachmann bewusst sein wird, kann der Block 104 mit halber Frequenz, voller Frequenz oder erhöhter voller Frequenz betrieben werden, abhängig von betrieblichen Umgebungsbedingungen oder Anforderungen, wohingegen Block 104' normalerweise mit voller Frequenz betrieben wird. Block 104 dient dazu, für eine Übertragung zu einem entfernten Empfänger über Sendeketten-Block 105 und Funkvorrichtungsblock 106 Sprachrahmen und SID-Rahmen und ein SP-Flag bereitzustellen, das anzeigt, ob die Rahmen Sprache oder SID sind.
  • Für einen Aufnahmebetrieb wird die Sprachdaten- und SP-Flag-Ausgabe von Block 104' an einen Aufnahme- und Wiedergabesteuerblock 115 bereitgestellt, welcher dazu dient, zu entscheiden, was in einem Speicher 116 über einen Mikrokontroller 117 zu speichern ist. Der Aufnahme-und-Wiedergabesteuerblock 115 veranlasst, dass in dem Speicher 116 alle Rahmen zu speichern sind, welche durch das SP-Flag als Sprachrahmen angezeigt werden. Wenn das SP-Flag einen SID-Rahmen anzeigt, wird der erste solche SID-Rahmen ebenfalls im Speicher 116 gespeichert. Danach besteht keine Notwendigkeit, weitere Rahmen zu speichern, bis das SP-Flag wiederum einen Sprachrahmen anzeigt. Wenn eine solche Anzeige eines Sprachrahmens empfangen wird, veranlasst Block 115, dass Daten im Speicher 116 zu speichern sind, die bezeichnend sind für die Dauer des zwischenzeitlichen Ausbleibens von Sprache. Vorzugsweise sind solche Daten eine Anzahl von Sprachrahmen, die nicht im Speicher 116 gespeichert wurden, d.h. einer Anzahl oder eines Zählerwerts von Sprachrahmen, in welchen Sprache nicht vorhanden war. Als eine Alternative zu der Speicherung einer solchen Anzahl können die gespeicherten Daten andere Formen annehmen, wie beispielsweise einen Leerrahmen (dummy frame) einer minimalen Länge für jeden ungespeicherten Rahmen. Man wird sich dabei bewusst sein, dass die Speicherung von Sprachrahmen nur dann, wenn Sprache vorhanden ist, zu einem sehr viel effizienteren Gebrauch von Speicherplatz führt.
  • Während langer Perioden des Ausbleibens von Sprache kann es wünschenswert sein, im Speicher 116 periodisch aktualisierte SID-Rahmen zu speichern, wobei in diesem Fall die Daten, die bezeichnend sind für die Dauer des Ausbleibens von Sprache, wie z.B. der oben erwähnte Rahmenzählwert, eine Anzahl oder ein Zählwert sein würden, von dem ersten gespeicherten SID-Rahmen zum zweiten SID-Rahmen, eine Anzahl oder ein Zählwert von dem zweiten gespeicherten SID-Rahmen zu dem dritten SID-Rahmen, usw., endend mit einer finalen gespeicherten Anzahl oder einem finalen gespeicherten Zählwert von dem letzten gespeicherten SID-Rahmen zu dem Beginn von Sprache.
  • Für den Wiedergabebetrieb veranlasst der Aufnahme-und-Wiedergabesteuerblock 115, dass die Inhalte von Speicher 116 zum Audio-Dekodierungsblock 108' zu senden sind. Deshalb wird, wenn ein Sprachrahmen von Speicher 116 abgerufen wird, dieser zum Block 108' gesendet, wobei die Flags derart gesetzt sind, dass sie auf Sprache mit keinen Fehlern hinweisen. (An dem Ausgang des Empfangskettenblocks 107 ist Information betreffend das Vorhandensein oder Nichtvorhandensein von Fehlern in den empfangenen Signalen relevant für Dekodierungszwecke im Block 108, jedoch ist für die Wiedergabefunktion solch eine Fehlerinformation irrelevant, so dass für Block 108' nur das Sprach-/SID-Feld benutzt wird, wobei die Flags derart gesetzt sind, dass sie das Nichtvorhandensein von Fehlern anzeigen). Wenn ein SID-Rahmen vom Speicher 116 abgerufen wird, wird er zu dem Audio-Dekodierungs-Block 108' gesendet, wobei Flags so gesetzt sind, dass sie einen SID-Rahmen mit keinen Fehlern anzeigen. Der gleiche SID-Rahmen wird wiederholt zum Block 108' gesendet, für eine Periode, die festgelegt ist durch die Daten, die im Speicher 116 gespeichert sind, und die bezeichnend sind für die Dauer des Ausbleibens von Sprache, wobei diese gespeicherten Daten verändert werden, um die verbleibende Dauer des Ausbleibens von Sprache zu reflektieren. Aus diesem Grund wird, wo solche Daten ein Rahmenzählwert sind, der Zählwert jedesmal um 1 reduziert, wenn ein SID-Rahmen zum Block 108' gesendet wird. Wo, wie oben beschrieben, während eines Sprachausbleibens mehr als ein SID-Rahmen im Speicher 116 gespeichert ist, wird der erste SID-Rahmen gesendet, bis der erste gespeicherte Zählwert auf 0 reduziert ist, dann wird der zweite gespeicherte SID-Rahmen gesendet, bis der zweite gespeicherte Zählwert auf 0 reduziert wird, usw.
  • Nunmehr bezugnehmend auf 3 kann der Audio-Dekodierungs-Funktionsblock 108' eine zweite Instanz des bereits vorgesehenen Audio-Dekodierungs-Funktionsblocks 108 (1) sein, und ist es vorzugsweise, welcher, wie es vom Fachmann verstanden wird, normalerweise in Software in dem DSP (nicht gezeigt) in dem GSM-Handapparat eingebettet ist. Demgemäß wird, obwohl die Beschreibung des Betriebs mit Bezug auf Block 108' vorgenommen wird, vorausgesetzt, dass Block 108 (1) in einer ähnlichen Weise fungiert.
  • Sprachdaten und Flags an dem Eingang von Block 108' werden als Eingabe an einen Empfangs-DTX- und Steuer-Funktionsblock 301 bereitgestellt, welcher Sprachrahmen, die als solches durch die Flags angezeigt werden, direkt an einen Sprachdekodierer 302 leitet, dessen Ausgabe die Ausgabe von Block 108' ist. Der oder jeder SID-Rahmen, der als solches durch die Flags angezeigt wird, wird zu einem Generator für künstliches Geräusch 303 gesendet, welcher künstliches Geräusch generiert, dessen Charakteristiken abhängen von Information, die in dem SID-Rahmen oder den SID-Rahmen enthalten ist. Das künstliche Geräusch wird an den Sprachdekodierer 302 bereitgestellt für die Dauer des Ausbleibens von Sprache, repräsentiert durch die gespeicherten Daten im Speicher 116 (1), beispielsweise den Zählwert der Rahmen, während welcher Sprache nicht vorhanden war.
  • Deshalb umfasst die Ausgabe von Block 108' die dekodierten Sprachrahmen, die in Speicher 116 (1) gespeichert sind, wobei jedes Gesprächspausenintervall zwischen Sprachsignalfolgen künstliches Geräusch enthält, das durch den Generator für künstliches Geräusch 313 erzeugt wird, in Abhängigkeit von dem SID-Rahmen oder den SID-Rahmen, wie im Speicher 116 gespeichert, für eine Dauer repräsentiert durch die Daten, beispielsweise den Rahmenzählwert, wie im Spei cher 116 gespeichert, der die Dauer des Gesprächspausenintervalls bezeichnet. Der Block 108' weist außerdem einen Sprachrahmen-Substitutions-Block 304 auf, welcher nicht in der Wiedergabefunktion benutzt wird. Er ist lediglich eine Entsprechung eines entsprechenden Blocks in der ersten Instanz des Audio-Dekodierungs-Blocks 108 (1), wo er dazu dient, einen oder mehrere Substitutionssprachrahmen einzufügen, oder eine "stumme" Ausgabe bereitzustellen, falls schlechte Daten von dem Empfangskettenblock 107 empfangen werden.
  • Wiederum bezugnehmend auf 1 wird die Ausgabe von Block 108' zum Digital-Analog-Wandler 110 über den Schalter 109 gespeist. Es versteht sich, dass für einen normalen Betrieb als ein Telefon der Schalter 109 den Ausgang des Audio-Dekodierungsblocks 108 mit dem Eingang des Digital-Analog-Wandlers 110 verbindet, wohingegen beim Abhören einer Aufnahme der Schalter 109 den Ausgang des Audio-Dekodierungs-Funktionsblocks 108' mit dem Eingang des Wandlers 110 verbindet.
  • Es versteht sich, dass das Setzen des Schalters 114 steuert, was aufgenommen wird, deshalb kann, durch Setzen des Schalters 114, um den Ausgang des Analog-Digital-Wandlers 103 mit dem Eingang des Audio-Kodierungsblocks 104' zu verbinden, der Handapparat eine Stimmennotiz aufnehmen, oder abgehende Sprache während eines Telefongesprächs aufnehmen, oder eine Stimmenaufforderung für eine Aufforderung des Nutzers des Handgeräts aufnehmen, beispielsweise eine Aufforderung wie etwa "bitte sprechen Sie den Namen der Person, die Sie nun gerne anrufen möchten", oder "sprechen Sie 'Hilfe' für weitere Optionen". Wenn der Schalter derart gesetzt ist, eine Ausgabe von dem Audio-Dekodierungsblock 108 an dem Eingang des Audio-Kodierungsblocks 104' bereitzustellen, kann der Handapparat einfließende Sprache während eines Telefongesprächs aufnehmen oder wenn er als ein Telefonanrufbeantworter fungiert. Wenn der Schalter 114 den Ausgang des Summierers 113 mit dem Eingang des Audio-Kodierungsblocks 104' verbindet, ist eine Aufnahme einer Telefonkonversation möglich, d.h., sowohl einfließender als auch abgehender Sprache.
  • Wenn die Erfindung angewandt wird auf einen Funk-Sende-Empfänger, der eine diskontinuierliche Übertragung verwendet, können verschiedene Hardware- oder Softwareelemente "wiederverwendet" werden, die bereits in dem Sende-Empfän ger existieren. Demnach existieren bereits in einem GSM-Handapparat alle Elemente, die in 1 dargestellt sind, mit der Ausnahme des Summierers 113, der Schalter 109 und 114, und des Aufnahme- und Wiedergabe-Steuer-Blocks 115, für die normalen Sende- und Empfangsoperationen des Handapparats, so dass die Erfindung insbesondere hinsichtlich ihrer Wiederverwendung von solcher Hardware und/oder Software effizient ist.
  • Der Fachmann ist sich dabei bewusst, dass die verschiedenen Elemente, die in 1 gezeigt sind, in Hardware oder Software implementiert werden können, wie jeweils anwendbar. Normalerweise werden das Mikrofon 101, der Filter 102, der Analog-Digital-Wandler 103, die Funkvorrichtung 106, die Modulationsfunktion in der Sendekette 105, der Digital-Analog-Wandler 110, der Filter 111, der Signalgeber 112 und der Speicher 116 in Hardware implementiert. Andere Funktionen in der Sendekette 105, der Empfangskette 107, Audio-Kodierungsfunktionen 104 und 104' und Audio-Dekodierungsfunktionen 108 und 108' werden normalerweise in Software in dem DSP in dem Handapparat implementiert. Der Aufnahme- und Wiedergabe-Steuer-Block 115 kann in Software in dem DSP implementiert werden, oder in dem Mikrokontroller 117, oder in Hardware.
  • Obwohl die Erfindung im Wege ihrer Anwendung auf ein GSM-Telefon beschrieben wurde, versteht es sich, dass sie in anderen Systemen Anwendung finden wird, die diskontinuierliche Übertragung verwenden, wie z.B. PCS 1900 und IS-136, beispielsweise, und in Systemen, in denen Übertragung mit einer niedrigeren Rate während Gesprächspausenperioden auftritt, wie es z.B. in CDMA-Systemen auftreten kann. Die Erfindung kann ebenso Anwendung finden in dem sogenannten Voice over IP (Internet), wo ein GSM EFR (Enhanced Full Rate) Sprachkodierer benutzt werden kann, um Paketdaten über das Internet zu senden, oder ein GPRS-Anschluss, der in der Lage ist, als ein GSM-Anschluss sowie als ein Daten-Anschluss zu fungieren, kann benutzt werden, um Paketdaten, die Sprachrahmen beinhalten, zu transferieren, wobei ein GSM-Sprachkodierer benutzt wird, die Sprache zu kodieren.

Claims (9)

  1. Digitale Kommunikationsvorrichtung, beinhaltend einen Generator für künstliches Geräusch zur Bereitstellung eines künstlichen Geräuschs für Simulation eines akustischen Hintergrundgeräuschs und einen Sprachkodierer zur Erzeugung von Sprachrahmen, dadurch gekennzeichnet, dass die digitale Kommunikationsvorrichtung weiterhin eine Abschätzeinrichtung für künstliches Geräusch umfasst zur Bereitstellung von Gesprächspausenrahmen, wobei die Gesprächspausenrahmen Information umfassen, die bezeichnend ist für akustisches Hintergrundgeräusch; und eine Sprachaufnahme/-wiedergabe-Einrichtung; wobei die Sprachaufnahme/-wiedergabe-Einrichtung angepasst ist, bei Aufnahme Sprachrahmen während des Vorhandenseins von Sprache zu speichern, einen oder mehrere Gesprächspausenrahmen an dem Ende des Vorhandenseins von Sprache während dem Ausbleiben von Sprache zu speichern, und Daten bezeichnend für die Dauer des Ausbleibens von Sprache zu speichern; und wobei die Sprachaufnahme/-wiedergabe-Einrichtung angepasst ist, bei Wiedergabe als Ausgabe Sprachsignale, abgeleitet aus den gespeicherten Sprachrahmen, bereitzustellen und, in Abhängigkeit von dem gespeicherten einen oder mehreren Gesprächspausenrahmen, künstliches Geräusch von dem Generator für künstliches Geräusch für eine Dauer repräsentiert durch die gespeicherten Daten.
  2. Vorrichtung nach Anspruch 1, wobei die Vorrichtung ein digitales mobiles Telefon ist, beinhaltend einen Sender, der angepasst ist, nur für Senden von Rahmen eingeschaltet zu werden, die nützliche Information enthalten, und wobei der Generator für künstliches Geräusch angepasst ist, künstliches Geräusch in Abhängigkeit von Gesprächspausenrahmen bereitzustellen, wenn keine Sprachrahmen empfangen werden.
  3. Vorrichtung nach Anspruch 2, beinhaltend einen Sprachkodierer für eine Kodierung von Sprache in Sprachrahmen und für eine Bereitsstellung einer Eingabe an die Abschätzeinrichtung für künstliches Geräusch für die Bereitstellung der Gesprächspausenrahmen, wodurch die Sprachrahmen, die durch die Sprachauf nahme/-wiedergabe-Einrichtung gespeichert werden, jene sind, die durch den Sprachkodierer kodiert werden, und einen Sprachdekodierer für eine Dekodierung von gespeicherten Sprachrahmen und für eine Bereitstellung von künstlichem Geräusch in der Ausgabe des Sprachdekodierers, das durch den Generator für künstliches Geräusch in Abhängigkeit von gespeicherten Gesprächspausenrahmen erzeugt wird.
  4. Vorrichtung nach Anspruch 2 oder 3, wobei das digitale mobile Telefon ein GSM-Telefon ist.
  5. Vorrichtung nach Anspruch 1, 2, 3 oder 4, wobei die gespeicherten Daten eine Anzahl von Sprachrahmen umfassen, die während des Ausbleibens von Sprache auftreten.
  6. Vorrichtung nach Anspruch 1, 2, 3 oder 4, wobei die gespeicherten Daten einen jeweiligen Leerrahmen einer minimalen Länge für jeden Sprachrahmen umfassen, der während des Ausbleibens von Sprache auftritt.
  7. Verfahren zur Aufnahme/Wiedergabe von Sprache in einer digitalen Kommunikationsvorrichtung, wobei die Kommunikationsvorrichtung einen Sprachkodierer zur Erzeugung von Sprachrahmen und einen Generator für künstliches Geräusch zur Bereitstellung von künstlichem Geräusch für eine Simulation von akustischem Hintergrundgeräusch beinhaltet, dadurch gekennzeichnet, dass die digitale Kommunikationsvorrichtung weiterhin eine Abschätzeinrichtung für künstliches Geräusch und eine Sprachaufnahme/-wiedergabe-Einrichtung aufweist, wobei die Abschätzeinrichtung für künstliches Geräusch zur Bereitsstellung von Gesprächspausenrahmen dient, wobei die Gesprächspausenrahmen Information bezeichnend für akustisches Hintergrundgeräusch umfassen, wobei das Verfahren für eine Aufnahme beinhaltet: Speichern von Sprachrahmen während des Vorhandenseins von Sprache durch die Sprachaufnahme/-wiedergabe-Einrichtung, Speichern eines oder mehrerer Gesprächspausenrahmen durch die Sprachaufnahme/-wiedergabe-Einrichtung, die Information bezeichnend für akustisches Hintergrundgeräusch beinhalten, an dem Ende des Vorhandenseins von Sprache während des Ausbleibens von Sprache, und Speichern von Daten durch die Sprachaufnahme/-wiedergabe-Einrichtung, die bezeichnend sind für die Dauer des Ausbleibens von Sprache, und für die Wiedergabe: Bereitstellen von Sprachsignalen durch die Sprachaufnahme/-wiedergabe-Einrichtung als Ausgabe, die von den gespeicherten Sprachrahmen abgeleitet sind, und von künstlichem Geräusch in Abhängigkeit von dem gespeicherten Gesprächspausenrahmen oder den gespeicherten Gesprächspausenrahmen für das Simulieren von akustischem Hintergrundgeräusch für eine Dauer repräsentiert durch die gespeicherten Daten.
  8. Verfahren nach Anspruch 7, wobei die gespeicherten Daten eine Anzahl von Sprachrahmen umfassen, die während des Ausbleibens von Sprache auftreten.
  9. Verfahren nach Anspruch 7, wobei die gespeicherten Daten einen jeweiligen Leerrahmen einer minimalen Länge für jeden Sprachrahmen umfassen, der während des Ausbleibens von Sprache auftritt.
DE69931783T 1999-10-18 1999-10-18 Verbesserung bei digitaler Kommunikationseinrichtung Expired - Lifetime DE69931783T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP99308221A EP1094446B1 (de) 1999-10-18 1999-10-18 Spracheaufnahme mit Pausenkompression und Erzeugung von Hintergrundrauschen für digitale Datenübertragungsvorrichtung

Publications (2)

Publication Number Publication Date
DE69931783D1 DE69931783D1 (de) 2006-07-20
DE69931783T2 true DE69931783T2 (de) 2007-06-14

Family

ID=8241683

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69931783T Expired - Lifetime DE69931783T2 (de) 1999-10-18 1999-10-18 Verbesserung bei digitaler Kommunikationseinrichtung

Country Status (10)

Country Link
US (1) US6718298B1 (de)
EP (1) EP1094446B1 (de)
JP (1) JP3877951B2 (de)
KR (1) KR20010051097A (de)
CN (1) CN1118209C (de)
AU (1) AU6412000A (de)
BR (1) BR0004720A (de)
CA (1) CA2322238C (de)
DE (1) DE69931783T2 (de)
FR (1) FR1094446T (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2350532B (en) * 1999-05-28 2001-08-08 Mitel Corp Method to generate telephone comfort noise during silence in a packetized voice communication system
GB2370206A (en) * 2000-12-15 2002-06-19 Ericsson Telefon Ab L M Storing a speech signal, e.g. in a mobile telephone
US7136630B2 (en) * 2000-12-22 2006-11-14 Broadcom Corporation Methods of recording voice signals in a mobile set
US20030046711A1 (en) * 2001-06-15 2003-03-06 Chenglin Cui Formatting a file for encoded frames and the formatter
KR100444985B1 (ko) * 2001-09-03 2004-08-21 삼성전자주식회사 복합 스타일러스 및 그 구동 방법
FI115189B (fi) * 2002-12-13 2005-03-15 Nokia Corp Menetelmä pakettikytkentäisen yhteyden muodostamiseksi ja menetelmää hyödyntävä solukkoverkko ja solukkoverkon päätelaite
EP1617415B1 (de) * 2003-04-22 2010-02-24 NEC Corporation Codeumsetzungsverfahren und einrichtung, programm und aufzeichnungsmedium
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
US7366461B1 (en) * 2004-05-17 2008-04-29 Wendell Brown Method and apparatus for improving the quality of a recorded broadcast audio program
JPWO2005117276A1 (ja) * 2004-05-31 2008-07-31 パイオニア株式会社 受信装置
EP3276619B1 (de) * 2004-07-23 2021-05-05 III Holdings 12, LLC Audiokodierungsvorrichtung und audiokodierungsverfahren
US20060095261A1 (en) * 2004-10-30 2006-05-04 Ibm Corporation Voice packet identification based on celp compression parameters
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US8467546B2 (en) * 2005-06-28 2013-06-18 Sony Corporation Switchable audio circuits for mobile terminals and methods and computer program products for operating the same
KR100785471B1 (ko) * 2006-01-06 2007-12-13 와이더댄 주식회사 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치
CN101087319B (zh) * 2006-06-05 2012-01-04 华为技术有限公司 一种发送和接收背景噪声的方法和装置及静音压缩***
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4376874A (en) * 1980-12-15 1983-03-15 Sperry Corporation Real time speech compaction/relay with silence detection
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5630016A (en) * 1992-05-28 1997-05-13 Hughes Electronics Comfort noise generation for digital communication systems
US5448679A (en) * 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
JP3182032B2 (ja) * 1993-12-10 2001-07-03 株式会社日立国際電気 音声符号化通信方式及びその装置
FI99066C (fi) * 1995-01-31 1997-09-25 Nokia Mobile Phones Ltd Tiedonsiirtomenetelmä
EP0732687B2 (de) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erweiterung der Sprachbandbreite
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
KR970009106A (ko) * 1995-07-22 1997-02-24 구자홍 자동응답전화기의 메시지 저장장치
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US6519260B1 (en) * 1999-03-17 2003-02-11 Telefonaktiebolaget Lm Ericsson (Publ) Reduced delay priority for comfort noise
US6381568B1 (en) * 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6502071B1 (en) * 1999-07-15 2002-12-31 Nec Corporation Comfort noise generation in a radio receiver, using stored, previously-decoded noise after deactivating decoder during no-speech periods

Also Published As

Publication number Publication date
CA2322238A1 (en) 2001-04-18
CN1118209C (zh) 2003-08-13
CA2322238C (en) 2004-08-24
JP3877951B2 (ja) 2007-02-07
KR20010051097A (ko) 2001-06-25
JP2001186221A (ja) 2001-07-06
US6718298B1 (en) 2004-04-06
EP1094446A1 (de) 2001-04-25
DE69931783D1 (de) 2006-07-20
AU6412000A (en) 2001-04-26
CN1293523A (zh) 2001-05-02
BR0004720A (pt) 2001-05-29
FR1094446T (fr) 2007-01-05
EP1094446B1 (de) 2006-06-07

Similar Documents

Publication Publication Date Title
DE69931783T2 (de) Verbesserung bei digitaler Kommunikationseinrichtung
AT405346B (de) Verfahren zum herleiten der nachwirkperiode in einem sprachdecodierer bei diskontinuierlicher übertragung, sowie sprachcodierer und sender-empfänger
DE69534561T2 (de) Sender-empfänger
DE69738476T2 (de) Verfahren und Gerät für Anrufregistrierung in einem Speicher
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60037647T2 (de) Sprachgesteuerter beantworter für mobiltelefone
DE69827162T2 (de) Audio codec mit von einem vocoder gesteuerter automatischer verstärkungsregelung
DE102007018484B4 (de) Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
DE10030202C2 (de) Mobilstation mit einer digitalen Audiodatenspeicherungs- und -wiedergabevorrichtung und Verfahren zu ihrer Steuerung
DE60115333T2 (de) Informationsübertragungsvorrichtung
DE69833366T2 (de) Gerät zum speichern von sprachmitteilungen in einem schnurlosen telephonsystem
DE60132196T2 (de) Testsignalisierung
EP0775360B1 (de) Signalverarbeitungsverfahren und -anordnung zum ersetzen nichtkorrigierbarer blöcke in einem empfänger für blockweise kodierte audiosignale
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE69827545T2 (de) Vorrichtung zur Erzeugung von Hintergrundrauschen
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
EP1106009B1 (de) Schaltung und verfahren zur aufzeichnung und wiedergabe von sprache und anderen tönen in digitalen mobilfunkgeräten
DE19623097B4 (de) Telekommunikations-Endgerät und Verfahren zum Erzeugen einer Ruftonmelodie
DE60027140T2 (de) Sprachsynthetisierer auf der basis von sprachkodierung mit veränderlicher bit-rate
DE69736364T2 (de) Telefongerät mit einer Aufzeichnungsfunktion
DE3503090A1 (de) Automatischer telefon-anrufbeantworter
DE69910833T2 (de) Verfahren und vorrichtung zur speicherbedarfsreduzierung für ein sprachaufnahmesystem
DE4426226A1 (de) Schaltungsanordnung zum Übertragen von codierten Sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition