DE4421853A1 - Mobilfunkendgerät - Google Patents

Mobilfunkendgerät

Info

Publication number
DE4421853A1
DE4421853A1 DE4421853A DE4421853A DE4421853A1 DE 4421853 A1 DE4421853 A1 DE 4421853A1 DE 4421853 A DE4421853 A DE 4421853A DE 4421853 A DE4421853 A DE 4421853A DE 4421853 A1 DE4421853 A1 DE 4421853A1
Authority
DE
Germany
Prior art keywords
values
delay
speech
speech signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4421853A
Other languages
English (en)
Inventor
Rainer Dipl Ing Martin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE4421853A priority Critical patent/DE4421853A1/de
Priority to DE59409348T priority patent/DE59409348D1/de
Priority to EP19940202647 priority patent/EP0644527B1/de
Priority to DE59509271T priority patent/DE59509271D1/de
Priority to EP95201578A priority patent/EP0689191B1/de
Priority to JP7156504A priority patent/JPH0818473A/ja
Priority to US08/493,401 priority patent/US5647006A/en
Publication of DE4421853A1 publication Critical patent/DE4421853A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

Die Erfindung betrifft ein Mobilfunkendgerät mit einer Sprachverarbeitungsvorrichtung.
Auf dem Gebiet der Sprachverarbeitung sind häufig in zu verarbeitenden Sprachsignalen Rauschsignalanteile enthal­ ten, was zur Verringerung der Sprachqualität und damit insbesondere zu einer verschlechterten Sprachverständlich­ keit führt. Dieses Problem tritt beispielsweise bei Mobil­ funkendgeräten auf, die in Kraftfahrzeugen verwendet werden und eine Freisprecheinrichtung aufweisen. Sprach­ signale, die von im Kraftfahrzeug angeordneten Mikrophonen der Freisprecheinrichtung empfangen werden, enthalten einerseits Sprachsignalanteile, die vom jeweiligen Benut­ zer (Sprachquelle) des Mobilfunkendgerätes innerhalb des Kraftfahrzeuges erzeugt werden, und andererseits Rausch­ signalanteile, die aus sonstigen Umgebungsgeräuschen und während einer Fahrt im wesentlichen aus Motor- und Fahr­ geräuschen bestehen.
Aus "IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL. ASSP-29, No. 3, June 1981, pp. 582-587" ist eine Anordnung zur adaptiven Schätzung von Zeitverzö­ gerungen von zwei stark korrelierten Signalen in digitalen Systemen beschrieben. Eines der beiden Signale wird von einem steuerbaren Verzögerungsglied verzögert. Die Verzö­ gerungswerte des Verzögerungsgliedes werden adaptiv an die korrelierten Signale angepaßt. Die Bestimmung der Verzöge­ rungswerte erfolgt mit Hilfe eines Algorithmus, der mitt­ lerweile von der Fachwelt als LMS-Algorithmus (Least Mean Square) bezeichnet wird. Dieser Algorithmus beruht auf der Minimierung der Leistung bzw. des Quadrates von Fehler­ werten, die sich durch Bildung der Differenz von dem verzögerten und dem nicht verzögerten Signal ergeben. Kern des LMS-Algorithmus ist die rekursive Berechnung der Verzögerungswerte mit Hilfe von Schätzwerten für den Gradienten der Leistung der Fehlerwerte.
Im oben zitierten Stand der Technik wird zur Bildung der Fehlerwerte jeweils die Differenz zweier Abtastwerte von zwei gegeneinander zeitversetzten Signalen gebildet, wobei eines der Signale verzögert wird. Der entsprechende Verzö­ gerungswert ist auf ein ganzzahliges Vielfaches eines Abtastintervalls der Signale gerundet. Dabei treten Kon­ vergenzprobleme derart auf, daß beim Erreichen sehr klei­ ner Fehlerwerte starke Oszillationen der gerundeten Verzö­ gerungswerte auftreten. Die Verzögerungswerte oszillieren dabei zwischen zwei gerundeten Verzögerungswerten im Abstand eines Abtastintervalls.
Der Erfindung liegt die Aufgabe zugrunde, die Sprachquali­ tät der zu verarbeitenden Sprachsignale zu verbessern und Konvergenzprobleme zu verringern.
Die Aufgabe wird dadurch gelöst, daß die Sprachverarbei­ tungsvorrichtung zur Verarbeitung eines ersten und minde­ stens eines weiteren aus Rausch- und Sprachsignalanteilen bestehenden und als Abtastwerte vorliegenden Sprachsignals vorgesehen ist, daß Verzögerungsmittel zur Verzögerung des abgetasteten weiteren Sprachsignals vorgesehen sind, daß Steuermittel
  • - zur Bildung von Gradientenschätzwerten durch Multi­ plikation von Fehlerwerten für zwei Sprachsignale mit den Ausgangswerten eines Digitalfilters, das eine Phasenverschiebung von 90 Grad bewirkt und zur Filte­ rung eines der zwei Sprachsignale dient,
  • - zur rekursiven Ermittlung von Verzögerungsschätzwer­ ten aus den Gradientenschätzwerten, wobei aus den Verzögerungsschätzwerten durch Rundung die Verzöge­ rungswerte gebildet werden, die zur Einstellung der Verzögerungsmittel dienen und
  • - zur Bildung jeweils wenigstens eines Fehlerwertes für einen bestimmten Abtastzeitpunkt aus der Differenz zwischen einem Sprachsignalschätzwert, der zur Ab­ schätzung des weiteren Sprachsignals zu einem gegen­ über dem bestimmten Abtastzeitpunkt um den Verzöge­ rungsschätzwert verschobenen Zeitpunkt dient und durch Interpolation von Abtastwerten des weiteren Sprachsignals gebildet wird, und dem Abtastwert eines anderen der zu verarbeitenden Sprachsignale zu dem bestimmten Abtastzeitpunkt,
vorgesehen sind und daß eine Addiervorrichtung zum Addie­ ren der gegeneinander zeitversetzten Sprachsignale vor­ gesehen ist.
Die Gradientenschätzwerte dienen zur Abschätzung des jeweiligen Gradienten der Leistung der Fehlerwerte oder anders ausgedrückt der quadrierten Fehlerwerte. Die Steuer­ mittel bestimmen die Verzögerungsschätzwerte derart, daß die Leistung der Fehlerwerte verringert wird. Dabei wird die Konvergenz der aus den Verzögerungsschätzwerten er­ mittelten Verzögerungswerte erheblich verbessert, da die Verzögerungsschätzwerte gegenüber den Verzögerungswerten aufgrund der Rundung eine höhere Auflösung aufweisen. Oszillationen der Verzögerungswerte werden so im wesentli­ chen vermieden. Die Auflösung der Verzögerungswerte ist gegenüber der Auflösung der Verzögerungsschätzwerte gerin­ ger gewählt, um den technischen Aufwand beim Verzögern der Sprachsignale möglichst gering zu halten. Das Signal-/Rauschleistungsverhältnis und die Sprachqualität eines am Ausgang der Addiervorrichtung anliegenden Summensignals sind gegenüber dem Signal-/Rauschleistungsverhältnis und der Sprachqualität der einzelnen Sprachsignale verbessert.
In einer Ausgestaltung der Erfindung ist das Digitalfilter ein digitaler Hilbert-Transformator.
Ein digitaler Hilbert-Transformator, der eine Phasenver­ schiebung von 90 Grad für alle Frequenzen bewirkt, besitzt betragsmäßig die Übertragungsfunktion eines Tiefpasses, so daß insbesondere für die tiefen und für ein Sprachsignal wesentlichen Frequenzen die gerundeten Verzögerungswerte gut konvergieren. Der Hilbert-Transformator kann bei­ spielsweise auch durch einen Differenzierer ersetzt wer­ den, der ebenfalls eine Phasenverschiebung von 90 Grad bewirkt. Allerdings hat ein Differenzierer betragsmäßig eine linear ansteigende Übertragungsfunktion, so daß insbesondere die tiefen Frequenzen eines Sprachsignals unterdrückt werden, so daß sich keine so gute Konvergenz wie bei einem Hilbert-Transformator ergibt.
In einer anderen Ausgestaltung sind Mittel zur Glättung der Gradientenschätzwerte vorgesehen.
Damit ergibt sich eine verbesserte Schätzung der Verzöge­ rungsschätzwerte.
In einer weiteren Ausgestaltung ist die Sprachverarbei­ tungsvorrichtung zur Verarbeitung von drei Sprachsignalen vorgesehen.
Gegenüber einer Sprachverarbeitungsvorrichtung zur Ver­ arbeitung von nur zwei Sprachsignalen läßt sich auf diese Weise das Signal-/Rauschleistungsverhältnis und die Sprachqualität des am Ausgang der Addiervorrichtung anlie­ genden Summensignals verbessern.
Die Erfindung kann weiterhin dadurch ausgestaltet werden, daß zur Ermittlung eines Verzögerungsschätzwertes für das weitere Sprachsignal die Verwendung einer Linearkombina­ tion von Fehlerwerten vorgesehen ist.
Auf diese Weise wird die Stabilität der Sprachverarbei­ tungsvorrichtung erhöht.
Für eine andere Ausgestaltung der Erfindung sind Verzöge­ rungsmittel zur Verzögerung des ersten Sprachsignals mit einer festen Verzögerungszeit vorgesehen.
Ohne die eine feste Verzögerung bewirkenden Verzögerungs­ mittel sind nur Zeitversätze zwischen dem erstem und dem/den weiteren Sprachsignal(en) einstellbar, mit denen ein Vorlaufen des ersten Sprachsignals bewirkt wird. Je nach Position einer die Sprachsignalanteile erzeugenden Sprachquelle gegenüber Mikrophonen der Sprachverarbei­ tungsvorrichtung, die zur Umwandlung der von der Sprach­ quelle erzeugten akustischen Sprachsignale in elektrische Sprachsignale dienen, muß allerdings auch ein Nacheilen des ersten Sprachsignal einstellbar sein, was mit Hilfe dieser Ausgestaltung auf einfache Weise realisierbar ist.
Zur weiteren Ausgestaltung der Erfindung ist die Sprach­ verarbeitungsvorrichtung in eine Freisprecheinrichtung integriert.
Insbesondere bei Freisprecheinrichtungen besteht das Problem, daß empfangene Sprachsignale störende Rauschsi­ gnalanteile aufweisen, die das Signal-/Rauschleistungs­ verhältnis und die Sprachqualität der Sprachsignale verschlechtern. Gerade bei Mobilfunkendgeräten tritt dieses Problem auf, wenn diese in einer stark verrauschten Umgebung eingesetzt werden, wie z. B. in einem Automobil.
Die Verwendung der beschriebenen Erfindung bewirkt deshalb gerade beim Einsatz in Freisprecheinrichtungen eine ver­ besserte Kommunikation zwischen den Gesprächsteilnehmern.
Ausführungsbeispiele werden nachstehend anhand der Zeich­ nungen näher erläutert. Es zeigen:
Fig. 1 eine Sprachverarbeitungsvorrichtung für zwei Sprachsignale,
Fig. 2 eine Steuervorrichtung zur Einstellung eines Zeitversatzes zwischen den beiden Sprachsignalen nach Fig. 1,
Fig. 3 eine Sprachverarbeitungsvorrichtung für drei Sprachsignale,
Fig. 4 und 5 Blockschaltbilder mit Steuervorrichtungen zur Einstellung von Zeitversätzen zwischen den drei Sprachsignalen nach Fig. 3,
Fig. 6 und 7 ein Blockschaltbild und ein Flußdiagramm zur Bestimmung des Signal-/Rausch­ leistungsverhältnisses eines Sprachsignals,
Fig. 8 eine Einteilung von geglätteten Leistungs­ werten eines Sprachsignals in Gruppen und Untergruppen und
Fig. 9 ein Mobilfunkendgerät mit einer Sprachver­ arbeitungsvorrichtung nach Fig. 1 bis 8.
Die in Fig. 1 dargestellte Sprachverarbeitungsvorrichtung enthält zwei Mikrophone M1 und M2. Diese dienen zur Um­ wandlung von akustischen in elektrische Sprachsignale, die sich aus Sprach- und Rauschsignalanteilen zusammensetzen. Die Sprachsignalanteile stammen von einer einzelnen Sprach­ quelle (Sprecher), die im Regelfall unterschiedliche Abstände zu den beiden Mikrophonen M1 und M2 aufweist. Die Sprachsignalanteile sind somit in hohem Maße korreliert.
Die Rauschsignalanteile der beiden von den Mikrophonen M1 und M2 empfangenen Sprachsignale sind nicht von der ein­ zelnen Sprachquelle erzeugte Umgebungsgeräusche, die bei geeigneten Mikrophonabständen im Bereich von 10 bis 60 cm als unkorreliert oder nur wenig korreliert vorausgesetzt werden können, wenn sich die Mikrophone in einer sogenann­ ten verhallten Umgebung wie beispielsweise im Auto oder in einem Büro befinden. Befinden sich Sprachquelle und Sprach­ verarbeitungsvorrichtung beispielsweise in einem Kraft­ fahrzeug, werden die Rauschsignalanteile insbesondere durch Motor- und Fahrgeräusche verursacht.
Die von den Mikrophonen M1 und M2 erzeugten Mikrophonsi­ gnale werden von Analog-Digitalumsetzern 1 und 2 digitali­ siert. Die sich ergebenden digitalisierten und damit als Abtastwerte x1(i) und x2(i) vorliegenden Mikrophonsignale werden von einer Steuervorrichtung 3 ausgewertet, die zur Steuerung und Einstellung eines Verzögerungsgliedes 4 dient. Die abgetasteten Mikrophonsignale x1(i) und x2(i) werden im folgenden abgekürzt als Mikrophon- oder Sprach­ signale bezeichnet. Das Verzögerungsglied 4 verzögert das Mikrophonsignal x1 mit durch die Steuervorrichtung 3 einstellbaren Verzögerungswerten T1. Eine Addiervorrich­ tung 5 addiert das vom Verzögerungsglied 4 verzögerte Mikrophonsignal x1(i) und das von einem Verzögerungsglied 16 mit einer konstanten Zeitverzögerung Tmax verzögerte Mikrophonsignal x2(i). Das Verzögerungsglied 16 ist vor­ gesehen, um sowohl ein Vorlaufen als auch ein Nacheilen des Mikrophonsignals x1(i) gegenüber dem Mikrophonsignal x2(i) einstellen zu können. Ein am Ausgang der Addiervor­ richtung 5 anliegendes Summensignal X(i) ist ein abgeta­ stetes Sprachsignal, dessen Signal-/Rauschleistungsverhält­ nis gegenüber den Signal-/Rauschleistungsverhältnissen der Sprachsignale x1(i) und x2(i) erhöht ist. Durch eine geeignete Einstellung der Verzögerungszeit T1 des Verzöge­ rungsglieds 4 wird bei der Addition durch die Addiervor­ richtung 5 eine Verstärkung der Leistung der Sprachsignal­ anteile der beiden Sprachsignale x1(i) und x2(i) ungefähr um den Faktor 4 und eine Verstärkung der Leistung der Rauschsignalanteile nur ungefähr um den Faktor 2 bewirkt. Damit ergibt sich eine Verbesserung des leistungsbezogenen Signal-/Rauschleistungsverhältnisses von ungefähr 3 dB.
In Fig. 2 wird die Funktionsweise der Steuerungsvorrichtung 3 anhand eines Blockschaltbildes näher erläutert. Aus dem Sprachsignal x2(i) und Sprachsignalschätzwerten x1int(i) ergeben sich Fehlerwerte e₁₂(i) durch Differenzbildung nach
e₁₂(i) = X1int(i) - x2(i) (1)
Die Sprachsignalschätzwerte x1int(i) sind Werte, die sich aus einer Interpolation von Abtastwerten des Sprachsignals x1(i) ergeben. Die Bestimmung der Sprachsignalschätzwerte x1int(i) wird später erläutert. i ist eine Variable, die ganzzahlige Werte annehmen kann und mit der einerseits Abtastzeitpunkte der Sprachsignale x1(i) und x2(i) und andererseits auch Programmzyklen der programmierbaren und Steuermittel aufweisenden Steuervorrichtung 3 indiziert werden, wobei in einem Programmzyklus jeweils ein neuer Abtastwert per Sprachsignal verarbeitet wird.
Ein digitales Filter 6 führt eine Hilbert-Transformation der Abtastwerte x2(i) durch:
Das die Werte x2H(i) von x2(i) liefernde Digitalfilter 6 ist ein FIR-Filter der Ordnung K, das Koeffizienten h(0), h(1), . . . , h(K) aufweist. Im vorliegenden Ausführungsbei­ spiel ist K gleich sechzehn, so daß das Digitalfilter 6 siebzehn Koeffizienten aufweist. Das Digitalfilter 6 besitzt dem Betrage nach die Übertragungsfunktion eines Tiefpasses. Es erzeugt weiterhin eine Phasenverschiebung von 90 Grad. Die feste Phasenverschiebung von 90 Grad ist die entscheidende Eigenschaft des Digitalfilters 6, der Verlauf des Betrages der Übertragungsfunktion ist für das Funktionieren der Sprachverarbeitungsvorrichtung nicht entscheidend. So kann das Digitalfilter 6 auch mit Hilfe eines Differenzierers realisiert werden, was allerdings zu einer Unterdrückung von niederfrequenten Anteilen von x2(i) und damit zu einer verringerten Leistungsfähigkeit der Sprachverarbeitungsvorrichtung führen würde.
Die Ausgangswerte x2H(i) werden mit den Fehlerwerten e₁₂(i) und dem Kehrwert 1/Px2(i) einer Kurzzeitleistung Px2(i) multipliziert, wobei die Kurzzeitleistung Px2(i) nach
Px2(i) = Px2(i-1) + [x2(i)]² - [x2(i-N)]² (3)
gebildet wird. N gibt die Anzahl der in die Berechnung eingehenden Abtastwerte von x1 an. N ist beispielsweise gleich 65. Die Multiplikation mit 1/Px2(i) dient zur Ver­ meidung von Instabilitäten in der Steuervorrichtung 3 beim Steuern des Verzögerungsgliedes 4. Damit ergibt sich durch
ein auf die Kurzzeitleistung Px2(i) normierter geschätzter Gradient grad(i) der Quadrate bzw. der Leistung der Feh­ lerwerte e₁₂(i) im Programmzyklus i.
Ein Funktionsblock 7 bildet fortlaufend aus den Abtast­ werten des Sprachsignals x2(i) Schätzwerte SNR(i) des zugehörigen Signal-/Rauschleistungsverhältnisses, die von einem Funktionsblock 8 ausgewertet werden. Auch eine Auswertung des Sprachsignals x1(i) anstelle des Sprach­ signals x2(i) ist möglich, ohne daß die Funktionsfähigkeit der Sprachverarbeitungsvorrichtung eingeschränkt wird. Die Funktionsweise des Funktionsblockes 7 wird später anhand der Fig. 6 bis 8 näher erläutert. Der Funktionsblock 8 führt eine Schwellwertentscheidung bezüglich der Schätz­ werte SNR(i) durch. Nur wenn die Schätzwerte SNR(i) über einer vorgebbaren Schwelle liegen, wird ein Zwischenspei­ cher 9 mit dem neu bestimmten Gradientenschätzwert grad(i) überschrieben. Dieser Fall wird durch die geschlossene Stellung eines Schalters 11 symbolisiert, der von dem Funktionsblock 8 gesteuert wird. Der Speicherinhalt (grad(i)) des Zwischenspeichers 9 wird von einer Funk­ tionseinheit 10 weiterverarbeitet. Für den Fall, daß ein Schätzwert SNR(i) unterhalb des vorgebbaren Schwellwerts liegt, wird der Zwischenspeicher 9 nicht mit dem neu ermittelten Gradientenschätzwert grad(i) überschrieben und er behält seinen alten Speicherinhalt bei, was durch die geöffnete Stellung des Schalters 11 symbolisiert wird. Die vorgebbare Schwelle, von der das Öffnen und Schließen des Schalters 11 durch den Funktionsblock 8 abhängt, liegt vorzugsweise zwischen 0 und 10 dB.
Der Zwischenspeicher 9 liefert die in ihm gespeicherten Gradientenschätzwerte grad(i) an die Funktionseinheit 10, der auch Abtastwerte des Sprachsignals x1(i) zugeführt werden und die sowohl zur Lieferung der Sprachsignal­ schätzwerte x1int(i) als auch zur Einstellung des Verzöge­ rungsgliedes 4 dient.
Die Gradientenschätzwerte grad(i) werden von einem Funk­ tionsblock 12 nach
sgrad(i) = α*sgrad(i-1) + (1-α)*grad(i) (5)
zu geglätteten ("smoothed") Gradientenschätzwerten sgrad(i) weiterverarbeitet. α ist eine Konstante, die im Ausführungsbeispiel den Wert 0,95 besitzt. Die Werte sgrad(i) werden von einem Funktionsblock 13 zur Adaption von Verzögerungsschätzwerten T1′(i) nach
T1′(i+1) = T1′(i) - µ * sgrad(i) (6)
verwendet. Die Bestimmung von Verzögerungsschätzwerten T1′(i) erfolgt damit rekursiv. µ ist ein konstanter Faktor bzw. Konvergenzparameter und liegt im Bereich
Rx2x2 bezeichnet eine Autokorrelationsfunktion des Sprach­ signals x2(i) an der Stelle Null. Ein besonders vorteil­ hafter Wertebereich von µ ist im vorliegenden Ausführungs­ beispiel 1,5 < µ < 3.
Die Verzögerungsschätzwerte T1′(i) können auch nicht ganzzahlige Werte d. h. nicht ganzzahlige Vielfache eines Abtastintervalls sein. Ein Funktionsblock 14 rundet die Verzögerungsschätzwerte T1′(i) auf ganzzahlige Verzöge­ rungswerte T1(i), mit denen die Verzögerungsvorrichtung 4 eingestellt wird. Die Rundungsoperation durch Funktions­ block 14 ist notwendig, da Werte des durch das Verzöge­ rungsglied 4 zu verzögernden Sprachsignals x1(i) nur zu den entsprechenden Abtastzeitpunkten vorliegen.
Die Funktionseinheit 10 weist weiterhin einen Funktions­ block 15 auf, der die Sprachsignalschätzwerte x1int(i) nach
x1int(i) = x1(i+T1(i)) + 0,5 * [T1′(i) - T1(i)] * [x1(i+T1(i)+1)) - x1(i+T1(i)-1)] (8)
durch Interpolation dreier benachbarter Abtastwerte x1(i+T1(i)-1), x1(i+T1(i)) und x1(i+T1(i)+1) des Sprach­ signals x1 bildet. Der Funktionsblock 15 ist somit in der Lage, durch den Sprachsignalschätzwert x1int(i) im Programm­ zyklus i einen Wert des Sprachsignals x1 zum Zeitpunkt i+T1(i), d. h. zu einem Zeitpunkt zwischen zwei Abtastzeit­ punkten, zu bilden bzw. zu interpolieren. Die beschriebene Interpolation durch Funktionsblock 15 kann dadurch ersetzt werden, daß Funktionsblock 15 eine Tiefpaßfilterung der Abtastwerte x1(i) zur Interpolation von Werten zwischen den Abtastzeitpunkten durchführt.
Würden zur Bestimmung der Fehlerwerte e₁₂(i) anstelle der Sprachsignalschätzwerte x1int(i) die am Ausgang des Verzöge­ rungsgliedes 4 anliegenden verzögerten Abtastwerte des Sprachsignals x1(i) verwendet, wie dies aus "IEEE Trans­ actions on Acoustics, Speech, and Signal Processing, VOL. ASSP-29, Nr.3, Juni 1981, S. 582-587" bekannt ist, würde beim Erreichen von Fehlerwerten e₁₂(i) = 0 die Verzöge­ rungswerte T1(i), mit denen das Verzögerungsglied 4 eingestellt wird, nicht mehr konvergieren. Es ergäben sich starke Oszillationen der gerundeten Verzögerungswerte T1(i). Diese würden zwischen zwei Verzögerungswerten mit dem Abstand eines Abtastintervalls schwanken. Die entspre­ chende wahre Zeitverzögerung zwischen den Sprachsignal­ anteilen, die durch die unterschiedlichen Wegstrecken vom Sprecher zu den Mikrophonen M1 und M2 bestimmt ist, würde dabei zwischen diesen zwei Verzögerungswerten liegen. Im vorliegenden Ausführungsbeispiel werden solche Oszillatio­ nen dadurch vermieden, daß bei der Bildung der Fehlerwerte Sprachsignalschätzwerte x1int(i) verwendet werden, durch die die Werte des Sprachsignals x1(i) auch für Verzögerungen um nicht ganzzahlige Vielfache eines Abtastintervalls verfügbar sind, also auch an Zeitpunkten ungleich der Abtastzeitpunkte i des Sprachsignals x1(i).
Der zur Glättung der Gradientenschätzwerte grad(i) dienen­ de Funktionsblock 12 bewirkt eine verbesserte Ermittlung der Verzögerungsschätzwerte T1′(i).
Die Steuervorrichtung 3 adaptiert die Verzögerungsschätz­ werte T1′(i) bzw. die Verzögerungswerte T1(i) so, daß von einem Programmzyklus zum nächsten das Quadrat bzw. die Leistung der Fehlerwerte e₁₂(i) verringert wird. Die Kon­ vergenz von T1′(i) bzw. T1(i) ist somit sichergestellt.
In Fig. 3 ist eine prinzipiell wie die Sprachverarbei­ tungsvorrichtung aus Fig. 1 arbeitende Sprachverar­ beitungsvorrichtung mit nun drei Mikrophonen M1, M2 und M3 zur Lieferung von Mikrophon- bzw. Sprachsignalen darge­ stellt. Die Mikrophonsignale werden Analog-Digital-Umset­ zern 20, 21 und 22 zugeführt, die digitalisierte und damit abgetastete Sprachsignale x1(i), x2(i) und x3(i) liefern, die aus Sprach- und Rauschsignalanteilen bestehen. Die Sprachsignale x1(i) und x3(i) werden einstellbaren Verzö­ gerungsgliedern 23 und 24 zugeführt. Analog zu Fig. 1 wird das Sprachsignal x2(i) einem Verzögerungsglied 27 mit einer festen Verzögerungszeit Tmax zugeführt.Die Ausgangs­ werte der Verzögerungsglieder 23, 24 und 27 werden von einer Addiervorrichtung 25 zum Summensignal X(i) aufad­ diert. Eine Steuervorrichtung 26 wertet die Abtastwerte der Sprachsignale x1(i), x2(i) und x3(i) aus und leitet aus diesen Abtastwerten analog zur Wirkungsweise der Steuervorrichtung 3 aus Fig. 1 und 2 gerundete ganzzahlige Verzögerungswerte T1(i) und T3(i) ab, die ganzzahligen Vielfachen eines Abtastintervalles der abgetasteten Sprach­ signale x1(i), x2(i) und x3(i) entsprechen und mit denen die Verzögerungsglieder 23 und 24 eingestellt werden, so daß eine Erweiterung von zwei auf drei zu verarbeitende Mikrophon- bzw. Sprachsignale ermöglicht wird.
In Fig. 4 ist eine erste Ausführungsform der Steuervor­ richtung 26 aus Fig. 3 dargestellt. Es sind zwei Funk­ tionseinheiten 10 vorgesehen, deren Aufbau gleich dem Aufbau der Funktionseinheit 10 aus Fig. 2 ist und die zur Einstellung der Verzögerungsglieder 23 und 24 mit den gerundeten Zeitverzögerungswerten T1(i) und T3(i) dienen.
Die obere Funktionseinheit 10 liefert Sprachsignalschätz­ werte x1int(i) . Die untere Funktionseinheit 10 liefert Sprachsignalschätzwerte x3int(i). Aus einer Differenz x1int(i) - x2(i) und aus einer Differenz x3int(i) - x2(i) werden Fehlerwerte e₁₂(i) und e₃₂(i) gebildet.
Auch hier ist ein Digitalfilter 6 vorgesehen, das in den Ausführungen zu Fig. 2 bereits näher beschrieben ist, und das zum Empfang der Abtastwerte x2(i) und zur Lieferung von Werten x2H(i) dient, die durch eine Hilbert-Transforma­ tion der Abtastwerte x2(i) erzeugt werden. Die Werte x2H(i) werden einerseits mit den Fehlerwerten e₁₂(i) und anderer­ seits mit den Fehlerwerten e₃₂(i) multipliziert. Das erste Produkt x2H(i)*e₁₂(i) wird der oberen, das zweite Produkt x2H(i)*e₃₂(i) wird der unteren Funktionseinheit 10 zu­ geführt. Die Anordnung der Funktionsblöcke 7 und 8, des Zwischenspeichers 9 und des Schalters 11 wird analog zu Fig. 2 durchgeführt und ist aus Gründen der Übersichtlich­ keit nicht in Fig. 4 dargestellt.
Fig. 5 zeigt eine gegenüber Fig. 4 erweiterte Fassung der Steuervorrichtung 26. Im Gegensatz zu Fig. 4 sind anstelle nur eines Digitalfilters 6 nun drei Digitalfilter 6 an­ geordnet. Diese bilden aus den Sprachsignalabtastwerten x1(i), x2(i) und x3(i) durch Hilbert-Transformation die Werte x1H(i), x2H(i) und x3H(i).
In der oberen Hälfte des in Fig. 5 dargestellten Blockdia­ gramms werden Fehlerwerte e₁₃(i) aus der Differenz x1int(i)-x2(i) bebildet, die in ein erstes Produkt 0,3*e₁₃(i)*x3H(i) eingehen. Ein zweites Produkt ergibt sich aus 0,7*e₁₂(i)*2h(i). Die beiden Produkte entsprechen gewichte­ ten Gradientschätzwerten der Quadrate der Fehlerwerte e₁₃(i) und e₁₂(i). Die Summe aus erstem und zweitem Produkt und damit eine Linearkombination der gewichteten Gradient­ schätzwerten wird der oberen Funktionseinheit 10 zu­ geführt.
Analog dazu werden in der unteren Hälfte des in Fig. 5 dargestellten Blockdiagramms Fehlerwerte e₃₁(i) und e₃₂(i) gebildet. Die Fehlerwerte e₃₁(i) ergeben sich aus der Differenz x3int(i)-x1(i). Die Fehlerwerte e₃₂(i) werden durch die Differenz x3int(i)-x2(i) gebildet. Ein drittes Produkt 0,3*e₃₁(i)*x1h(i) und ein viertes Produkt 0,7*e₃₂(i)*x2h(i) werden aufaddiert und die sich ergebende Summe wird der unteren Funktionseinheit 10 zugeführt.
Mit Hilfe der Sprachverarbeitungsvorrichtung nach Fig. 3, die eine Steuervorrichtung nach Fig. 4 oder 5 enthält, läßt sich ein gegenüber der Sprachverarbeitungsvorrichtung mit zwei Mikrophonen nach Fig. 1 verbessertes Summensignal X(i) erzeugen. Das Signal-/Rauschleistungsverhältnis und damit die Sprachqualität des Summensignals X(i) der Sprach­ verarbeitungsvorrichtung nach Fig. 3 ist gegenüber dem von der Sprachverarbeitungsvorrichtung nach Fig. 1 erzeugten Summensignal X(i) weiter erhöht. Die Steuervorrichtung nach Fig. 5 weist gegenüber der Steuervorrichtung nach Fig. 4 beim Einsatz in der Sprachverarbeitungsvorrichtung nach Fig. 3 eine erhöhte Stabilität auf.
Sowohl in Fig. 4 als auch in Fig. 5 ist aus Gründen der Übersichtlichkeit auf eine Darstellung von Mitteln (siehe Funktionsblöcke 7 und 8, Zwischenspeicher 9 und Schalter 11 in Fig. 2) verzichtet worden, die eine Abhängigkeit der Sprachverarbeitung von Schätzwerten SNR(i) für eines der Mikrophonsignale x1(i), x2(i) oder x3(i) bewirken. Eben­ falls aus Gründen der Übersichtlichkeit ist die Normierung von Produkten aus Fehlerwerten und der Ausgangswerte der die Hilbert-Transformation durchführenden Digitalfilter 6 auf die Leistung eines zugehörigen Mikrophonsignals (siehe 1/Px2(i) in Fig. 2) nicht dargestellt. Die Erweiterung der Steuervorrichtungen 26 nach Fig. 4 und 5 um diese beiden technischen Merkmale ergibt sich aus ihrer Realisierung in der Steuervorrichtung 3 nach Fig. 2.
Zur Erhöhung der Sprachqualität der Summensignale X(i) am Ausgang der Addiervorrichtungen 5 und 25 in Fig. 1 und Fig. 3 kann die Erfindung so ausgestaltet werden, daß die Verzögerungsschätzwerte T1′(i) und T3′(i) (das sind z. B. Fließkommazahlen) zur Bildung der Verzögerungswerte T1(i) und T3(i) nicht auf Werte gerundet werden, die einem ganzzahligen Vielfachen eines Abtastintervalls entsprechen (hier: ganze Zahlen), sondern auf Werte, die einem Vielfa­ chen eines Bruchteils eines Abtastintervalls entsprechen. Insbesondere ist eine Rundung der Verzögerungsschätzwerte auf Vielfache eines Wertes vorteilhaft, der einem Viertel oder der Hälfte eines Abtastintervalls entspricht. Auf diese Weise wird die Auflösung der Verzögerungswerte erhöht, die somit genauer einstellbar sind, so daß auch die Sprachqualität der Summensignale X(i) weiter erhöht wird, da Laufzeitunterschiede von der die Sprachsignal­ anteile erzeugenden Sprachquelle zu den Mikrophonen M1, M2 und M3 genauer ausgeglichen werden können. Bei der Verzö­ gerung eines Sprachsignals mit einem Vielfachen eines Bruchteils eines Abtastintervalls wird eine Interpolation oder Tiefpaßfilterung von Sprachsignalabtastwerten vor­ gesehen, um Sprachsignalwerte zu erzeugen, die zwischen jeweils zwei Sprachsignalabtastwerten liegen. Die Inter­ polation bzw. Tiefpaßfilterung kann insbesondere in die Verzögerungsmittel 4, 23 und 24 integriert werden.
Mit Hilfe der Fig. 6 und 7 wird das Schema erläutert, anhand dessen der Funktionsblock 7 aus einem abgetasteten Sprachsignal x(i), das aus Rausch- und Sprachsignalantei­ len besteht, die zugehörigen Schätzwerte SNR(i) des Signal-/Rauschleistungsverhältnisses, d. h. des Verhält­ nisses der Leistungen der Sprachsignalanteile zur Leistung der Rauschsignalanteile, ermittelt. Den Abtastwerten x(i) entsprechen in Fig. 2 die Abtastwerte x2(i). In Fig. 6 ist der Funktionsblock 7 anhand eines Blockschaltbildes dar­ gestellt. Ein Funktionsblock 30 dient zur Bildung von Leistungswerten Px(i) der Abtastwerte x(i) durch Quadrieren der Abtastwerte. Weiterhin führt der Funktionsblock 30 eine Glättung dieser Leistungswerte Px(i) durch. Die sich so ergebenden geglätteten Leistungswerte Px,s(i) werden sowohl dem Funktionsblock 31 als auch dem Funktionsblock 32 zugeführt. Der Funktionsblock 31 ermittelt fortlaufend Schätzwerte Pn(i) zur Abschätzung der Leistung des Raus­ signalanteils der Abtastwerte x(i), d. h. es wird die Leistung der Rauschsignalanteile der Abtastwerte x(i) ermittelt. Aus den geglätteten Leistungswerten Px,s(i) und den Schätzwerten Pn(i) bestimmt der Funktionsblock 32 fortlaufend Schätzwerte SNR(i) des Signal-/Rau­ schleistungsverhältnisses der Abtastwerte x(i).
In Fig. 7 ist ein Flußdiagramm dargestellt, das die Funk­ tionsweise des Funktionsblockes 7 näher erläutert. Anhand des Flußdiagramms wird ersichtlich, wie aus den Abtast­ werten x(i) des Sprachsignals x durch ein Computerprogramm Schätzwerte SNR(i) des entsprechenden Signal-/Rauschlei­ stungsverhältnisses gebildet werden. In einem Initialisie­ rungsblock 33 wird zu Beginn des durch Fig. 7 beschriebe­ nen Programms eine Zählervariable Z auf 0 und eine Varia­ ble PMmin auf einen Wert Pmax gesetzt. Pmax ist so groß ge­ wählt, daß die geglätteten Leistungswerte Px,s(i) immer kleiner als Pmax sind. Pmax kann beispielsweise auf den maximal darstellbaren Zahlenwert eines zur Realisierung des Programms verwendeten Rechners gesetzt werden. In einem Block 34 wird ein neuer Abtastwert x(i) eingelesen. In Block 35 wird eine Zählervariable Z um den Wert 1 erhöht, wonach in Block 36 ein neuer geglätteter Lei­ stungswert Px,s(i) gebildet wird. Er ergibt sich dadurch, daß zunächst durch
Px(i) = Px(i-1) + x²(i) - x²(i-N) (1)
ein Kurzzeitleistungswert Px(i) und dann durch
Px,s(i) = α * Px,s(i-1) + (1-α)*Px(i) (2)
ein neuer geglätteter Leistungswert gebildet wird. Mit Formel (1) wird ein Kurzzeitleistungswert Px(i) einer Gruppe von N aufeinanderfolgenden Abtastwerten x(i) er­ mittelt. N ist hier beispielsweise gleich 128. Der Wert α aus Gleichung (2) liegt zwischen 0,95 und 0,98. Die Er­ mittlung von geglätteten Leistungswerten Px,s(i) kann auch nur durch Gleichung (2) durchgeführt werden, wobei dann allerdings der Wert α ungefähr auf den Wert 0,99 zu erhö­ hen und Px(i) durch x²(i) zu ersetzen ist.
Durch eine Verzweigung 37 wird danach abgefragt, ob der gerade ermittelte geglättete Leistungswert Px,s(i) kleiner als PMmin ist. Wird diese Frage bejaht, d. h. Px,s(i) ist kleiner als PMmin, wird durch Block 38 Pmin auf den Wert von Px,s(i) gesetzt. Falls die Frage von Verzweigung 37 verneint wird, wird Block 38 übersprungen. Damit steht in PMmin nach M Programmzyklen das Minimum von M geglätteten Leistungs­ werten Px,s. Danach erfolgt mit der Verzweigung 39 die Abfrage, ob die Zählervariable Z einen Wert größer oder gleich einem Wert M hat. Es wird auf diese Weise festge­ stellt, ob schon M geglättete Leistungswerte abgearbeitet sind.
Wird die Frage von Verzweigung 39 verneint, d. h. es sind noch nicht M geglättete Leistungswerte abgearbeitet, wird das Programm mit Block 40 fortgesetzt. Dort wird ein vorläufiger Schätzwert Pn(i) der Rauschsignalleistung des Sprachsignals x durch
Pn(i) = min {Px,s(i), Pn(i)} (3)
bestimmt. Diese Operation stellt sicher, daß der vorläufi­ ge Schätzwert Pn(i) nicht größer als der aktuelle geglätte­ te Leistungswert Px,s(i) sein kann. Danach wird mit Block 41 nach der Formel
SNR(i) = [Px,s(i) - min{c*Pn(i), Px,s(i)}]/[c*Pn(i)] (4)
ein aktueller Schätzwert SNR(i) des Signal-/Rauschlei­ stungsverhältnisses des Sprachsignals x(i) ermittelt. Im Normalfall dient das Produkt c*Pn(i) zur Abschätzung der aktuellen Leistung des Rauschsignalanteils, und die Diffe­ renz Px,s(i)-c*Pn(i) dient zur Abschätzung der aktuellen Leistung des Sprachsignalanteils des Sprachsignals x(i). Die aktuelle Leistung des Sprachsignals wird durch den geglätteten Leistungswert Px,s(i) geschätzt. Die Gewichtung mit einem Skalierungsfaktor c verhindert, daß durch Pn(i) die Rauschsignalleistung mit einem zu kleinen Wert abge­ schätzt wird. Der Skalierungsfaktor c liegt typisch im Bereich von 1,3 bis 2. Durch die Minimumbildung in Block 41 bzw. Gleichung (4) wird sichergestellt, daß das nicht logarithmierte Signal-/Rauschleistungsverhältnis SNR(i) auch dann positiv ist, wenn im Ausnahmefall c*Pn(i) größer als Px,s(i) ist. Dann wird die Leistung des Rauschsignal­ anteils des Sprachsignals gleich der durch Px,s,B(i) geschätz­ ten Leistung des Sprachsignals gesetzt. Die durch Px,s(i)-Px,s(i) geschätzte Leistung des Sprachsignalanteils des Sprachsignals ist dann wie auch das nicht logarith­ mische Signal-/Rauschleistungsverhältnis gleich Null. Das Programm wird nach der Berechnung des Schätzwertes SNR(i) mit dem Einlesen eines neuen Sprachsignalabtastwertes x(i) durch Block 34 fortgesetzt.
Wird die Abfrage von Verzweigung 39 bejaht, d. h. es sind M geglättete Abtastwerte Px,s(i) abgearbeitet, werden in Block 42 durch
minvec₁ = minvec₂;
minvec₂ = minvec₂;
minvecw-1 = minvecw;
minvecw = PMmin, (5)
die Komponenten eines Vektors minvec der Dimension W aktualisiert. Danach wird durch Verzweigung 43 abgefragt, ob die Komponenten minvec₁ bis minvecw mit ansteigendem Vektorindex ansteigen, d. h. ob gilt:
minvecj+1 < minvecj für 1 j W-1 (6)
Wird die Abfrage von Verzweigung 43 verneint, d. h. die zuletzt ermittelten in den Komponenten des Vektors minvec stehenden zuletzt ermittelten W Minima steigen nicht monoton an, wird durch Block 44 nach
Pn(i) = min{minvecw, minvecw-1, . . . , minvec₁} (7)
der vorläufige Schätzwert Pn(i) der Rauschsignalleistung aus den Minima der Komponenten des Vektors minvec, d. h. aus dem Minimum der letzten L=W*M aufeinanderfolgenden geglät­ teten Leistungswerte Px,s(i), bestimmt. Bei einer Bejahung der durch Verzweigung 43 gestellten Frage, d. h. bei einem monotonen Ansteigen der zuletzt ermittelten in den Kompo­ nenten des Vektors minvec stehenden W Minima wird in Block 45 Pn(i) gleich PMmin gesetzt, so daß eine Anpassung der Abschätzung des Rauschsignalanteils beschleunigt erfolgt, da Pn(i) an dem Minimum des letzten (M<L) Werte bestimmt wird. Danach wird in Block 46 die Zählervariable Z wieder auf 0 gesetzt und PMmin erhält erneut den Wert Pmax.
Durch das beschriebene Programm werden jeweils M aufein­ anderfolgende geglättete Px,s(i) Abtastwerte x(i) des Sprach­ signals x zu einer Untergruppe zusammengefaßt. Innerhalb einer solchen Untergruppe wird durch die mit Verzweigung 37 und Block 38 durchgeführten Operationen das Minimum der geglätteten Leistungswerte Px,s(i) ermittelt. Die zuletzt ermittelten W Minima werden in den Komponenten des Vektors minvec abgespeichert. Sind die letzten W Minima nicht monoton ansteigend (siehe Verzweigung 43), so wird nach Block 44 ein vorläufiger Schätzwert Pn(i) der Leistung des Rauschsignalanteils aus dem Minimum der Minima der letzten W Untergruppen, d. h. aus dem Minimum einer Gruppe, be­ stimmt. Es werden jeweils zur Bildung einer Gruppe mit L=W*M aufeinanderfolgenden geglätteten Leistungswerten Px,s(i) W aufeinanderfolgende Untergruppen zusammengefaßt.
Die Gruppen mit jeweils L Werten folgen lückenlos aufein­ ander und überlappen sich jeweils mit L-M geglätteten Leistungen Px,s(i).
Für den Fall, daß die Minima von W aufeinanderfolgenden Untergruppen monoton ansteigen (siehe Verzweigung 43), wird durch Block 45 zur Abschätzung des aktuellen Schätz­ wertes Pn(i) der Leistung des Rauschsignalanteils jeweils das Minimum der letzten Untergruppe mit M geglätteten Leistungswerten Px,s(i) verwendet. Die Zeitspanne, mit der monoton ansteigende geglättete Leistungswerten Px,s(i) auch eine Änderung der Schätzwerte SNR(i) bewirken, wird damit verkürzt.
Fig. 8 verdeutlicht, wie die geglätteten Leistungswerte Px,s in Gruppen und Untergruppen zusammengefaßt werden. Es werden jeweils M geglättete Leistungswerte Px,s(i), die jeweils zu Abtastzeitpunkten i vorliegen, zu einer Unter­ gruppe zusammengefaßt. Die Untergruppen grenzen aneinan­ der. Für jede Untergruppe wird das Minimum der geglätteten Leistungswerte Px,s(i) bestimmt. Jeweils W Untergruppenmini­ ma werden in dem Vektor minvec abgespeichert. In der Regel, d. h. bei nicht monoton ansteigenden W Untergruppen Minima, werden W Untergruppen zu einer Gruppe mit L = W*M geglätteten Leistungswerten Px,s(i) zusammengefaßt. Nach jeweils M geglätteten Leistungen Px,s(i) wird aus dem Mini­ mum der letzten W Untergruppenminima bzw. der letzten L geglätteten Leistungswerte Px,s(i) der Wert Pn(i) bestimmt, der zur Abschätzung der Rauschsignalleistung dient. In Fig. 8 sind acht Gruppen mit jeweils L Abtastwerten x(i) dargestellt, die jeweils W = 4 Untergruppen mit M geglät­ teten Leistungswerten Px,s(i) enthalten. Die acht Gruppen überlappen sich teilweise. So enthalten zwei aufeinand­ erfolgende Gruppen jeweils L-M gleiche geglättete Lei­ stungswerte Px,s(i). Auf diese Weise wird ein guter Kompro­ miß zwischen dem erforderlichen Rechenaufwand und der jeweiligen Verzögerungszeit erreicht, mit der eine Aktua­ lisierung eines Schätzwertes Pn(i) der Rauschsignalleistung zur Aktualisierung eines Schätzwertes SNR(i) des Signal/Rauschleistungsverhältnisses erfolgt. Eine Realisierung mit aneinandergrenzenden, d. h. sich nicht überlappenden Gruppen ist auch denkbar. Allerdings ist dann bei verrin­ gertem Rechenaufwand die Zeitspanne zwischen zwei Schätz­ werten SNR(i) vergrößert, so daß die Reaktionszeit auf sich ändernde SNR des Sprachsignals x(i) vergrößert ist.
Die beschriebene Sprachverarbeitungsvorrichtung weist damit eine Schätzvorrichtung auf, die zum fortlaufenden Bilden von Schätzwerten SNR(i) des Signal-/Rausch­ leistungsverhältnisses von verrauschten Sprachsignalen x(i) geeignet ist. Insbesondere sind keine Sprachpausen zur Abschätzung der Rauschsignalleistung erforderlich. Die beschriebene Schätzvorrichtung nutzt den besonderen Zeit­ verlauf von geglätteten Leistungswerten des Sprachsignals x(i) aus, der durch Spitzen und dazwischenliegende Berei­ che mit kleineren geglätteten Leistungswerten Px,s(i) ge­ kennzeichnet ist, deren zeitliche Ausdehnung von der jeweiligen Sprachquelle, d. h. dem jeweiligen Sprecher, abhängt. Dabei werden die Bereiche zwischen den Spitzen zur Abschätzung der Leistung des Rauschsignalanteils verwendet. Die Gruppen mit jeweils L geglätteten Lei­ stungswerten Px,s(i) müssen lückenlos aufeinanderfolgen, d. h. sie müssen entweder aneinandergrenzen oder sich überlappen. Weiterhin muß sichergestellt sein, daß minde­ stens ein Wert eines zwischen zwei Spitzen liegenden Bereichs mit kleineren geglätteten Leistungswerten Px,s(i) von jeder Gruppe erfaßbar ist, d. h. jede Gruppe muß so­ viele geglättete Leistungswerte Px,s(i) enthalten, daß mindestens alle zu einer beliebigen Spitze gehörenden Werte erfaßbar sind. Da die zeitlich ausgedehntesten Spitzen jeweils durch die zeitlich ausgedehntesten Phoneme eines Sprachsignals, d. h. die Vokale, abschätzbar sind, kann daraus die die Gruppengröße beschreibende Zahl L abgeleitet werden. Für eine Abtastrate des Sprachsignals von 8 kHz liegt ein sinnvoller Wert von L im Bereich zwischen 3000 und 8000. Ein vorteilhafter Wert für W ist 4. Bei einer solchen Dimensionierung ergibt sich ein guter Kompromiß zwischen Rechenaufwand und Reaktionsschnellig­ keit des Funktionsblockes 7.
In Fig. 9 ist eine Verwendung der Sprachverarbeitungsvor­ richtung aus Fig. 3 in einem Mobilfunkendgerät 50 darge­ stellt. Die Sprachverarbeitungsmittel 20 bis 26 sind in einem Funktionsblock 51 zusammengefaßt, der aus den von den Mikrophonen M1, M2 und M3 erzeugten Mikrophon- bzw. Sprachsignalen die Summensignalwerte X(i) bildet. Die Mikrophone M1, M2 und M3 haben vorteilhaft einen Abstand von 10 bis 60 cm, so daß in einer sogenannten "verhallten" Umgebung (z. B. Auto, Büro) die Störsignalanteile der von den Mikrophonen M1, M2 und M3 gelieferten Sprachsignale weitgehend unkorreliert sind. Dies gilt auch beim Einsatz von nur zwei Mikrophonen wie in Fig. 1. Ein die Summen­ signalwerte X(i) verarbeitender Funktionsblock 52 faßt alle übrigen Mittel des Mobilfunkendgerätes 50 zum Emp­ fang, Verarbeiten und Senden von Signalen zusammen, welche zur Kommunikation mit einer nicht dargestellten Basissta­ tion dienen, wobei das Senden und Empfangen von Signalen über eine an den Funktionsblock 52 gekoppelte Antenne 54 erfolgt. Weiterhin ist ein mit dem Funktionsblock 52 gekoppelter Lautsprecher 53 vorgesehen. Die akustische Kommunikation eines Benutzers (Sprecher, Hörer) mit dem Mobilfunkendgerät 50 erfolgt über die Mikrophone M1 bis M3 und den Lautsprecher 53, die Teile einer in das Mobilfunk­ endgerät 50 integrierten Freisprecheinrichtung sind. Die Anwendung eines solchen Mobilfunkendgerätes 50 ist ins­ besondere in Kraftfahrzeugen von Vorteil, da dort das Freisprechen über das Mobilfunkendgerät insbesondere durch Motor- oder Fahrgeräusche (Rauschen) gestört ist.

Claims (10)

1. Mobilfunkendgerät mit einer Sprachverarbeitungsvorrich­ tung zur Verarbeitung eines ersten (x2(i)) und mindestens eines weiteren (x1(i), x3(i)) aus Rausch- und Sprachsi­ gnalanteilen bestehenden und als Abtastwerte vorliegenden Sprachsignals mit Verzögerungsmitteln (4, 23, 24) zur Verzögerung des abgetasteten weiteren Sprachsignals (x1(i), x3(i)), mit Steuermitteln (3, 26)
  • - zur Bildung von Gradientenschätzwerten (grad(i), sgrad(i)) durch Multiplikation von Fehlerwerten (e₁₂(i), e₃₂(i), e₁₃(i), e₃₁(i)) für zwei Sprachsignale (z. B. x1(i) und x2(i)) mit den Ausgangswerten eines Digitalfilters (6), das eine Phasenverschiebung von 90 Grad bewirkt und zur Filterung eines der zwei Sprachsignale (z. B. x2(i)) dient,
  • - zur rekursiven Ermittlung von Verzögerungsschätzwer­ ten (T1′(i), T3′(i)) aus den Gradientenschätzwerten (grad(i), sgrad(i)), wobei aus den Verzögerungs­ schätzwerten (T1′(i), T3′(i)) durch Rundung die Verzögerungswerte (T2(i), T3(i)) gebildet werden, die zur Einstellung der Verzögerungsmittel (4, 23, 24) dienen und
  • - zur Bildung jeweils wenigstens eines Fehlerwertes (e₁₂(i), e₃₂(i), e₁₃(i), e₃₁(i)) für einen bestimmten Abtastzeitpunkt (i) aus der Differenz zwischen einem Sprachsignalschätzwert (x1int(i), x3int(i)), der zur Abschätzung des weiteren Sprachsignals (x1(i), x3(i)) zu einem gegenüber dem bestimmten Abtastzeitpunkt (i) um den Verzögerungsschätzwert (T1′(i), T3′(i)) ver­ schobenen Zeitpunkt dient und durch Interpolation von Abtastwerten des weiteren Sprachsignals (x1(i), x3(i)) gebildet wird, und dem Abtastwert eines ande­ ren der zu verarbeitenden Sprachsignale (x1(i), x2(i), x3(i)) zu dem bestimmten Abtastzeitpunkt (i)
und mit einer Addiervorrichtung (5, 25) zum Addieren der gegeneinander zeitversetzten Sprachsignale (x1(i), x2(i), x3(i) )
2. Mobilfunkendgerät nach Anspruch 1, dadurch gekennzeichnet, daß das Digitalfilter (6) ein digitaler Hilbert-Transfor­ mator ist.
3. Mobilfunkendgerät nach Anspruch 2, dadurch gekennzeichnet, daß Mittel (12) zur Glättung der Gradientenschätzwerte (grad(i)) vorgesehen sind.
4. Mobilfunkendgerät nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Sprachverarbeitungsvorrichtung zur Verarbeitung von drei Sprachsignalen (x1(i), x2(i), x3(i)) vorgesehen ist.
5. Mobilfunkendgerät nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß zur Ermittlung eines Verzögerungsschätzwertes (T1′(i), T3′(i)) für das weitere Sprachsignal (x1(i), x3(i)) die Verwendung einer Linearkombination von Fehlerwerten (e₁₂(i) mit e₁₃(i), e₃₁(i) mit e₃₂(i)) vorgesehen ist.
6. Mobilfunkendgerät nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Verzögerungsmittel (16, 27) zur Verzögerung des ersten Sprachsignals (x2(i)) mit einer festen Verzögerungszeit (Tmax) vorgesehen sind.
7. Mobilfunkendgerät nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Sprachverarbeitungsvorrichtung in eine Freisprech­ einrichtung (M1, M2, M3, 51, 52, 53) integriert ist.
8. Sprachverarbeitungsvorrichtung zur Verarbeitung eines ersten (x2(i)) und mindestens eines weiteren (x1(i), x3(i)) aus Rausch- und Sprachsignalanteilen bestehenden und als Abtastwerte vorliegenden Sprachsignals mit Verzö­ gerungsmitteln (4, 23, 24) zur Verzögerung des abgetaste­ ten weiteren Sprachsignals (x1(i), x3(i)) und mit Steuer­ mitteln (3, 26)
  • - zur Bildung von Gradientenschätzwerten (grad(i), sgrad(i)) durch Multiplikation von Fehlerwerten (e₁₂(i), e₃₂(i), e₁₃(i), e₃₁(i)) für zwei Sprachsignale (z. B. x1(i) und x2(i)) mit den Ausgangswerten eines Digitalfilters (6), das eine Phasenverschiebung von 90 Grad bewirkt und zur Filterung eines der zwei Sprachsignale (z. B. x2(i)) dient,
  • - zur rekursiven Ermittlung von Verzögerungsschätzwer­ ten (T1′(i), T3′(i)) aus den Gradientenschätzwerten (grad(i), sgrad(i)), wobei aus den Verzögerungs­ schätzwerten (T1′(i), T3′(i)) durch Rundung auf ganzzahlige Vielfache eines Abtastintervalls der Sprachsignalabtastwerte (x1(i) , x2(i), x3(i)) die Verzögerungswerte (T2(i), T3(i)) gebildet werden, die zur Einstellung der Verzögerungsmittel (4, 23, 24) dienen und
  • - zur Bildung jeweils wenigstens eines Fehlerwertes (e₁₂(i), e₃₂(i), e₁₃(i), e₃₁(i)) für einen bestimmten Abtastzeitpunkt (i) aus der Differenz zwischen einem Sprachsignalschätzwert (x1int(i), x3int(i)) , der zur Abschätzung des weiteren Sprachsignals (x1(i), x3(i)) zu einem gegenüber dem bestimmten Abtastzeitpunkt (i) um den Verzögerungsschätzwert (T1′(i), T3′(i)) ver­ schobenen Zeitpunkt dient und durch Interpolation von Abtastwerten des weiteren Sprachsignals (x1(i), x3(i)) gebildet wird, und dem Abtastwert eines ande­ ren der zu verarbeitenden Sprachsignale (x1(i), x2(i) , x3(i)) zu dem bestimmten Abtastzeitpunkt (i)
und mit einer Addiervorrichtung (5, 25) zum Addieren der gegeneinander zeitversetzten Sprachsignale (x1(i), x2(i), x3(i))
DE4421853A 1993-09-21 1994-06-22 Mobilfunkendgerät Withdrawn DE4421853A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE4421853A DE4421853A1 (de) 1994-06-22 1994-06-22 Mobilfunkendgerät
DE59409348T DE59409348D1 (de) 1993-09-21 1994-09-14 Mobilfunkendgerät
EP19940202647 EP0644527B1 (de) 1993-09-21 1994-09-14 Mobilfunkendgerät
DE59509271T DE59509271D1 (de) 1994-06-22 1995-06-14 Sprachverarbeitungsvorrichtung und Mobilfunkendgerät
EP95201578A EP0689191B1 (de) 1994-06-22 1995-06-14 Sprachverarbeitungsvorrichtung und Mobilfunkendgerät
JP7156504A JPH0818473A (ja) 1994-06-22 1995-06-22 モービル無線ターミナル
US08/493,401 US5647006A (en) 1994-06-22 1995-06-22 Mobile radio terminal comprising a speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4421853A DE4421853A1 (de) 1994-06-22 1994-06-22 Mobilfunkendgerät

Publications (1)

Publication Number Publication Date
DE4421853A1 true DE4421853A1 (de) 1996-01-04

Family

ID=6521236

Family Applications (2)

Application Number Title Priority Date Filing Date
DE4421853A Withdrawn DE4421853A1 (de) 1993-09-21 1994-06-22 Mobilfunkendgerät
DE59509271T Expired - Fee Related DE59509271D1 (de) 1994-06-22 1995-06-14 Sprachverarbeitungsvorrichtung und Mobilfunkendgerät

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE59509271T Expired - Fee Related DE59509271D1 (de) 1994-06-22 1995-06-14 Sprachverarbeitungsvorrichtung und Mobilfunkendgerät

Country Status (4)

Country Link
US (1) US5647006A (de)
EP (1) EP0689191B1 (de)
JP (1) JPH0818473A (de)
DE (2) DE4421853A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535609B1 (en) * 1997-06-03 2003-03-18 Lear Automotive Dearborn, Inc. Cabin communication system
EP1184676B1 (de) * 2000-09-02 2004-05-06 Nokia Corporation Vorrichtung und Verfahren zur Verarbeitung eines Signales emittiert von einer Zielsignalquelle in einer geräuschvollen Umgebung
JP5931108B2 (ja) * 2014-03-20 2016-06-08 本田技研工業株式会社 ナビゲーションサーバ及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3997772A (en) * 1975-09-05 1976-12-14 Bell Telephone Laboratories, Incorporated Digital phase shifter
DE3173306D1 (en) * 1981-09-08 1986-02-06 Ibm Data receiving apparatus with listener echo canceller
SG47028A1 (en) * 1989-09-01 1998-03-20 Motorola Inc Digital speech coder having improved sub-sample resolution long-term predictor
US5126681A (en) * 1989-10-16 1992-06-30 Noise Cancellation Technologies, Inc. In-wire selective active cancellation system
WO1992020170A1 (fr) * 1991-04-30 1992-11-12 Kabushiki Kaisha Toshiba Appareil de radiotelephonie avec eliminateur d'echo
EP0517525A3 (en) * 1991-06-06 1993-12-08 Matsushita Electric Ind Co Ltd Noise suppressor
US5519637A (en) * 1993-08-20 1996-05-21 Mcdonnell Douglas Corporation Wavenumber-adaptive control of sound radiation from structures using a `virtual` microphone array method
US5359663A (en) * 1993-09-02 1994-10-25 The United States Of America As Represented By The Secretary Of The Navy Method and system for suppressing noise induced in a fluid medium by a body moving therethrough
US5473701A (en) * 1993-11-05 1995-12-05 At&T Corp. Adaptive microphone array
NL9302013A (nl) * 1993-11-19 1995-06-16 Tno Systeem voor snelle convergentie van een adaptief filter bij het genereren van een tijdvariant signaal ter opheffing van een primair signaal.
US5581495A (en) * 1994-09-23 1996-12-03 United States Of America Adaptive signal processing array with unconstrained pole-zero rejection of coherent and non-coherent interfering signals
US5526426A (en) * 1994-11-08 1996-06-11 Signalworks System and method for an efficiently constrained frequency-domain adaptive filter

Also Published As

Publication number Publication date
EP0689191A3 (de) 1997-05-28
US5647006A (en) 1997-07-08
EP0689191A2 (de) 1995-12-27
DE59509271D1 (de) 2001-06-28
JPH0818473A (ja) 1996-01-19
EP0689191B1 (de) 2001-05-23

Similar Documents

Publication Publication Date Title
DE69409121T2 (de) Störreduktionssystem für ein binaurales hörgerät
DE112009001003B4 (de) Geräuschunterdrückungssystem mit zwei Mikrophonen
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE102010023615B4 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
DE69207039T2 (de) Verfahren zur Simulierung einer akustischen Übertragungsfunktion und Simulator hierfür
DE69420705T2 (de) System und vorrichtung zur rauschunterdrückung sowie mobilfunkgerät
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE3853739T2 (de) Digitales Entzerrergerät für getrennte Phasen- und Amplitudenmodifikation.
EP0948237B1 (de) Verfahren zur Störbefreiung eines Mikrophonsignals
EP1251493A2 (de) Verfahren zur Geräuschreduktion mit selbststeuernder Störfrequenz
EP0747880B1 (de) Spracherkennungssystem
DE102006027673A1 (de) Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
DE4305256A1 (de) Verfahren zum Verbessern der akustischen Rückhördämpfung von elektroakustischen Anlagen
WO1995007597A1 (de) Mobilfunkgerät mit freisprecheinrichtung
EP1189419B1 (de) Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE69817461T2 (de) Verfahren und Vorrichtung zur optimierten Verarbeitung eines Störsignals während einer Tonaufnahme
WO1999041898A1 (de) Verfahren zur verbesserung der akustischen rückhördämpfung in freisprecheinrichtungen
EP0689191B1 (de) Sprachverarbeitungsvorrichtung und Mobilfunkendgerät
EP0615226B1 (de) Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
DE19540795C2 (de) Verfahren zur Sprecherlokalisierung mit Hilfe eines Mikrofonarrays
EP0644527B1 (de) Mobilfunkendgerät
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung
EP1282297B1 (de) Verfahren und Anordnung zur Echo- und Störgeräuschunterdrückung
EP0326672A1 (de) Verfahren und Übertragungsanordung für digitale Signale

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee