DE69124005T2 - Sprachsignalverarbeitungsvorrichtung - Google Patents

Sprachsignalverarbeitungsvorrichtung

Info

Publication number
DE69124005T2
DE69124005T2 DE69124005T DE69124005T DE69124005T2 DE 69124005 T2 DE69124005 T2 DE 69124005T2 DE 69124005 T DE69124005 T DE 69124005T DE 69124005 T DE69124005 T DE 69124005T DE 69124005 T2 DE69124005 T2 DE 69124005T2
Authority
DE
Germany
Prior art keywords
band
noise
signal
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69124005T
Other languages
English (en)
Other versions
DE69124005D1 (de
Inventor
Joji Kane
Akira Nohara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69124005D1 publication Critical patent/DE69124005D1/de
Application granted granted Critical
Publication of DE69124005T2 publication Critical patent/DE69124005T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    Hintergrund der Erfindung Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft einen Signalprozessor, der z.B. zur Verarbeitung von Sprachsignalen einsetzbar ist.
  • Beschreibung des Standes der Technik
  • Figur 25 ist ein Blockschaltbild einer konventionellen Signalverarbeitungsvorrichtung. In Figur 25 unterscheidet eine Filtersteuerung 1 eine Sprachkomponente und eine Rauschkomponente in einem dort eingegebenen Signal, d.h., sie steuert einen Filterungsfaktor einer Bank von Bandpaßfiltern 2 (nachfolgend als BPF-Bank bezeichnet) entsprechend der Sprach- oder Rausch-Komponente des eingegebenen Signals. Die von einem Addierer 3 gefolgte BPF-Bank 2 teilt das Eingangssignal in Frequenzbänder. Die Durchlaßband-Kennlinie des Eingangssignals wird durch ein Steuerungssignal von der Filter-Steuerung 1 bestimmt.
  • Die konventionelle Signalverarbeitungsvorrichtung mit dem oben beschriebenen Aufbau wirkt wie folgt.
  • Wenn ein Eingangssignal mit der Rauschkomponente, welche der Sprachkomponente überlagert ist, an die Filter-Steuerung 1 übertragen wird, erfaßt die Filter- Steuerung 1 anschließend die Rauschkomponente aus dem Eingangssignal entsprechend jedem Frequenzband der BPF-Bank 2, so daß ein Filterungsfaktor, der die Rauschkomponente daran hindert, die BPF-Bank 2 zu passieren, an die BPF- Bank 2 übertragen wird.
  • Die BPF-Bank 2 teilt die eingegebenen Signale geeignet in Frequenzbänder und leitet das eingegebene Signal mit dem für jedes Frequenzband durch die Filter- Steuerung 1 eingestellten Filterungsfaktor zu dem Addierer 3. Der Addierer 3 mischt und kombiniert das aufgeteilte Signal, um dadurch ein Ausgangssignal zu erhalten.
  • Bei der zuvor erwähnten Weise wird konventionell der Pegel des eingegebenen Signals in dem Frequenzband mit der Rauschkomponente verringert, und als Ergebnis davon wird ein Ausgangssignal mit gedämpfter Rauschkomponente erhalten.
  • Gemäß der vorerwähnten Weise bleiben einige Rauschkomponenten jedoch weiterhin entfernbar.
  • Weiterhin wird gemäß dem konventionellen Verfahren die Rauschkomponente von der Sprachkomponente einfach in zeitlicher Folge unterschieden. Die Rauschkomponente und die Sprachkomponente in dem Signal werden in ihrer Gesamtheit gedämpft oder verstärkt und daher wird das Signal/Rausch-Verhältnis nicht besonders verbessert.
  • Die US-A-4,628,529 offenbart ein Rauschunterdrückungssystem, welches eine Sprachqualitätsverbesserung infolge eines Sprache-plus-Rauschen-Signals verwirklicht, das am Eingang zum Erzeugen eines sauberen Sprachsignals und am Ausgang durch eine spektrale Verstärkungsmodifikation verfügbar ist. Ein Hintergrund- Rausch-Abschätzer führt zwei Funktionen aus: (1) er bestimmt, wann das ankommende Sprache-plus-Rauschen-Signal nur Hintergrundrauschen enthält; und (2) er aktualisiert die alte Hintergrund-Rausch-Spektralenergiedichte-Abschätzung, wenn nur Hintergrundrauschen vorhanden ist. Die gegenwärtige Abschätzung des Hintergrundrausch-Leistungsspektrums wird durch einen Spektralleistungsmodifizierer von dem Sprache-plus-Rausch-Leistungs-Spektrum subtrahiert, was ideal nur das Energiespektrum der reinen Sprache zurückläßt. Die Quadratwurzel des reinen Sprache-Leistungsspektrums wird dann durch den Quadratwurzel-Betrags-Vorgang berechnet. Dieser Betrag und das reine Sprachsignal werden zu Phaseninformationen des Originalsignals addiert und aus dem Frequenzbereich zurück in den Zeitbereich konvertiert durch Inverse Fast Fourier Transformation (IFFT). Auf die diskreten Datensegmente des reinen Sprachsignals wird dann eine Überlagerungs- und Additions-Operation angewendet, um das verarbeitete Signal wiederherzustellen. Dieses digitale Signal wird dann durch einen Digital/Analog-Wandler in eine analoge Wellenform zurückgewandelt, die am Ausgang verfügbar ist.
  • Eine alternative Implementation eines spektralen Subtraktions-Rauschunterdrükkungssystems ist eine Kanal-Filterbank-Technik, die in Figur 2 dargestellt ist, aus der US-A-4,628,529. In dem Rauschunterdrückungssystem wird das am Eingang verfügbare Sprache-plus-Rauschen-Signal in eine Anzahl selektierter Frequenzkanäle durch einen Kanalteiler aufgetrennt. Die Verstärkung dieser einzeln vorverarbeiteten Sprachkanäle wird dann durch Kanalverstärkungsmodifizierer als Reaktion auf ein Modifikationssignal eingestellt, so daß die Verstärkung der Kanäle, welche ein niedriges Sprache/Rausch-Verhältnis zeigen, verringert wird. Die einzelnen Kanäle mit nachverarbeiteter Sprache werden dann in einem Kanal-Kombinierer wieder zusammengesetzt, um das am Ausgang verfügbare, rauschunterdrückte Sprachsignal zu bilden.
  • Der Kanal-Verstärkungsmodifizierer wirkt so, daß er die Verstärkung von jedem der einzelnen Kanäle mit der vorverarbeiteten Sprache einstellt. Diese Modifikation wird ausgeführt durch Multiplizieren der Amplitude des vorverarbeiteten Eingangssignals in einem besonderen Kanal mit seinem aus dem Modifikationssignal erhaltenen entsprechenden Kanalverstärkungswert. Die Kanalverstärkungsmodifikationsfunktion kann leicht durch Software implementiert werden, welche digitale Signalverarbeitungstechniken (DSP) verwendet.
  • Ebenso kann die Summierfunktion des Kanalkombinierers entweder durch Software unter Verwendung von DSP oder durch Hardware unter Verwendung einer Summierungsschaltung zum Kombinieren der N nachverarbeiteten Kanäle in ein einzelnes nachverarbeitetes Ausgangssignal implementiert werden. Somit separiert die Kanalfilterbanktechnik das verrauschte Eingangssignal in einzelne Kanäle, dämpft diese Kanäle mit einem niedrigen Sprache/Rausch-Verhältnis und stellt die einzelnen Kanäle zum Bilden eines Niedrigrausch-Ausgangssignales wieder her.
  • Figur 3 der US-A-4,628,529 zeigt ein vereinfachtes Blockschaltbild eines verbesserten akustischen Rauschunterdrückungssystems. Kanalteiler, Kanalverstärkungsmodifizierer, Kanalkombinierer, Kanalverstärkungssteuerung und Kanalenergieabschätzer des Rauschunterdrückungssystems bleiben unverändert. Der Kanalrauschabschätzer in Figur 2 der US-A-4,628,529 wurde jedoch ersetzt durch einen Kanal-Signal/Rausch-Verhältnis-Abschätzer, einen Hintergrundrausch-Abschätzer und einen Kanalenergieabschätzer. Kombiniert erzeugen diese drei Elemente Abschätzungen basierend auf der vorverarbeiteten Sprache und der nachverarbeiteten Sprache.
  • Der Kanalabschätzer vergleicht die Hintergrundrauschabschätzung mit der Kanalenergieabschätzung zum Erzeugen der Signal/Rausch-Verhältnis-Abschätzungen. Wie bereits angemerkt, wird dieser Signal/Rausch-Verhältnis-Vergleich in der vorliegenden Ausführungsform als eine Software-Division der Kanal-Energieabschätzung (Signal-plus-Rauschen) durch die Hintergrund-Rausch-Abschätzungen (Rauschen) auf einer individuellen Kanalbasis ausgeführt. Signal/Rausch-Verhältnis- Abschätzungen werden verwendet, um bestimmte Verstärkungswerte aus einer Kanalverstärkungstabelle zu selektieren, die empirisch bestimmte Verstärkungen umfaßt.
  • Weiterhin sind aus dem Journal of the Acoustical Society of America, Band 87, Nr. 1, 1. Januar 1990, New York, US, Seite 359-372, R. Stubbs et al, "Algorithms for separating the speech of interfering talkers: Evaluations with voiced sentences, and normal-hearing and hearing-impaired listeners" die Weiter-Filterungs- und Hybridalgorhithmus-Differenzen im Sprachabstand und die Steuerung durch FO-Werte des Ziels und sich gegenseitig beeinflussender Sprecher in jedem Moment bekannt.
  • In ALTA FREQUENZA, Band 53, Nr.3, 1. Juni 1984, MILANO IT G. AUDISIO ET AL: "Noisy speech enhancement: a comparative analysis of three different techniques" ist das von diesem Papier untersuchte Problem die Verbesserung der durch zusätzliches Rauschen gestörten Sprache. Die Grundannahme ist, daß das Verbesserungssystem nicht andere Signale oder Informationen als die veränderte Sprache selbst auswerten kann: das bedeutet, daß kein "Rausch-Referenz"-Signal verfügbar ist, welches eine große Hilfe sein könnte, um die Verwendung des klassischen adaptiven Rauschlöschens zu erlauben.
  • Die Aufgabe des Erhaltens einer höheren Qualität und/oder Verständlichkeit der verrauschten Sprache kann ein grundlegender Auslöser für Anwendungen wie Sprachkompressionen, Spracherkennung und Sprecherüberprüfung durch Verbessern der Leistungsfähigkeit des relevanten digitalen Sprachprozessors sein.
  • Die Rauschreferenz ist gewöhnlich als ein Signal vorgesehen, welches eine Korrelation mit dem Rauschen selbst und keine Korrelation mit dem Nutzsignal zeigt. Die Abwesenheit dieser Rauschreferenz ist eine Beschränkung, die viele praktische Situationen kennzeichnet, bei denen das Eingangssignal eines digitalen Sprachprozessors die bereits beeinträchtigte Sprache ist, z.B. nach Durchlaufen eines verrauschten Kanals. Wenn das Hintergrundrauschen in der Nachbarschaft der Sprachquelle erzeugt wird, können rauschlöschende Mikrophone verwendet werden, auch wenn sie eine kleine oder keine Rauschverringerung oberhalb von 1 kHz bieten. Die Verringerung des Rauschens, das durch Vorverarbeitungseinrichtungen erhalten wird, bietet den Vorteil, daß die Veränderungen an der Wellenform selbst ausgeführt werden, ohne eine Modifikation des Sprachprozessors, in den sie eingegeben wird, zu erfordern.
  • Aus den Sprachverbesserungssystemen, welche in der Literatur überblickt und vorgeschlagen werden, werden drei wesentlich verschiedene Techniken in dieser Arbeit verglichen. Die erste substrahiert eine Abschätzung der Rausch-Spektraldichte, die während Ruhesegmenten aus dem Spektrum des verrauschten Signals ermittelt werden. Die zweite extrahiert ein Referenzsignal aus der verrauschten Sprache selbst, unter Ausnützung der inhärenten Periodizität der gesprochenen Segmente von Sprache; die extrahierte Rauschreferenz kann zum Anwenden eines adaptiven Löschalgorhithmus genutzt werden. Die letzte Technik basiert auf der Identifikation des All-Pol-Modells der Vokalfolge und verwendet die abgeschätzten Koeffizienten zum Verarbeiten der verrauschten Sprache mit einem Wiener-Filter. Das Ziel dieser Arbeit ist es, die oben erwähnten Algorhithmen nach der Optimierung der signifikantesten Parameter zu vergleichen.
  • Abschnitt 2 dieser Veröffentlichung beschreibt detailliert die zu prüfenden Algorhithmen und die Parameter, welche zum Verbessern der gesamten Leistungsfähigkeit beeinflußt werden müssen. Abschnitt 3 dieser Veröffentlichung stellt das Verfahren zum Simulieren dieser Techniken dar und bestimmt die objektiven Messungen und die subjektiven Tests, die zum Bewerten der Leistungsfähigkeit verwendet werden. Schließlich werden einige vergleichbare Ergebnisse in Abschnitt 4 dieser Veröffentlichung berichtet, insbesondere ist die Anmeldung vorgesehen für die Verarbeitung der verrauschten Sprache an dem Eingang eines LPC-Vocoders.
  • Weiterhin sind als technologischer Hintergrund der Erfindung das JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, Band 60, Nr. 4, 1. Oktober 1967, New York, US, Seite 911-918; T. Parsons "Separation of speech from interfering speech by means of harmonic selection" und das JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, Band 41, Nr. 2, 1967, New York, US, Seite 293-309; A. Noll "Cepstrum pitch determination" bekannt.
  • Abriß der Erfindung
  • Eine wesentliche Aufgabe der vorliegenden Erfindung ist es, einen Sprachsignalprozessor anzugeben, welcher eine wirksame Unterdrückung von Rauschen verwirklichen kann, während er das Signal/Rausch-Verhältnis verbessert, mit dem Ziel, die im Stand der Technik inhärenten, oben erläuterten Nachteile zu beseitigen.
  • Zum Verwirklichen der oben beschriebenen Aufgabe wird ein Sprachsignalprozessor der vorliegenden Erfindung gemäß den unabhängigen Ansprüchen angegeben.
  • Gemäß dem Sprachsignalprozessor mit dem oben beschriebenen Aufbau wird das Rauschsignalband relativ zu dem Sprachsignalband gedämpft, um dadurch das Signal/Rausch-Verhältnis zu verbessern.
  • Kurzbeschreibung der Zeichnungen
  • Diese und andere Aufgaben der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit ihren bevorzugten Ausführungsformen anhand der beigefügten Zeichnungen deutlich. Dabei zeigen:
  • Figur 1 ein Blockschaltbild eines Sprachsignalprozessors gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
  • Figur 2 ein detaillierteres Blockschaltbild des Sprachsignalprozessors in Figur 1;
  • Figur 3 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 2;
  • Figur 4 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 2;
  • Figur 5 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 4;
  • Figur 6 ein Blockschaltbild eines Sprachsignalprozessors als Kombination aus den Figuren 2 und 4;
  • Figur 7 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 6;
  • Figur 8 ein Blockschaltbild eines Sprachsignalprozessors gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
  • Figur 9 ein detaillierteres Blockschaltbild des Sprachsignalprozessors in Figur 8;
  • Figur 10 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 9;
  • Figur 11 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 9;
  • Figur 12 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 11;
  • Figur 13 ein Blockschaltbild eines Sprachsignalprozessors als Kombination aus den Figuren 9 und 11;
  • Figur 14 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 9;
  • Figur 15 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 11;
  • Figur 16 ein Blockschaltbild eines Sprachsignalprozessors gemäß einer dritten Ausführungsform der vorliegenden Erfindung;
  • Figur 17 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 16;
  • Figur 18 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 16;
  • Figur 19 ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 17;
  • Figur 20 einen Graphen, der die in dem Sprachsignalprozessor verwendete Cepstrum-Analyse erläutert;
  • Figur 21 einen Graphen, der das Sprachband und das Rauschband in der vorliegenden Erfindung erläutert;
  • Figur 22 einen Graphen, der die in der vorliegenden Erfindung verwendete Rauschabschätzung erläutert;
  • Figur 23 einen Graphen, der die in der vorliegenden Erfindung verwendete Rauschlöschung erläutert;
  • Figur 24 einen Graphen, der den in der vorliegenden Erfindung verwendeten Löschungsfaktor erläutert; und
  • Figur 25 ein Blockschaltbild einer konventionellen Sprachsignalverarbeitungsvorrichtung.
  • Beschreibung der bevorzugten Ausführungsformen
  • Bevor die Beschreibung der vorliegenden Erfindung fortgesetzt wird, ist anzumerken, daß gleiche Teile in den beigefügten Zeichnungen mit gleichen Bezugszeichen bezeichnet sind.
  • Ein Sprachsignalprozessor der vorliegenden Erfindung wird nachfolgend anhand der beigefügten Zeichnungen erläutert.
  • In Figur 1, einem Blockschaltbild eines Sprachsignalprozessors gemäß einer ersten Ausführungsform der vorliegenden Erfindung A/D-wandelt und Fourier-transformiert eine Bandaufteilungseinrichtung 11 ein darin eingegebenes gemischtes Signal aus Sprache und Rauschen.
  • Eine Sprachbanderfassungseinrichtung oder Sprachbanderfassung 12 erfaßt nach Empfang des gemischten Signals mit dem Rauschen von der Bandaufteilungseinrichtung oder dem Bandteiler 11 das Frequenzband eines Sprachsignalteiles des gemischten Signals. Die Sprachbanderfassungseinrichtung 12 erfaßt z.B. das Frequenzband, in dem das Sprachsignal existiert, unter Verwendung der später beschriebenen Cepstrum-Analyse. Vom Frequenzpunkt aus betrachtet ist die Beziehung zwischen dem Sprachband und dem Rauschband allgemein die, wie in dem Graphen in Figur 21 gezeigt, in welchem S das Sprachsignalband und N das Rauschsignalband darstellt. Die Sprachbanderfassungseinrichtung 12 erfaßt dieses Band S.
  • Eine Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 gibt ein Steuerungssignal zum Anheben des Sprachbandes basierend auf der von der Sprachbanderfassungseinrichtung 12 erhaltenen Sprachbandinformation aus.
  • Eine Sprachband-Selektions/Anhebungs-Einrichtung 14, in welche das Signal mit Rauschen von der Bandaufteilungseinrichtung 11 eingegeben wird, selektiert das Sprachband und hebt nur das Sprachband entsprechend dem Steuerungssignal der Steuerungseinrichtung 13 an.
  • Eine Bandsynthetisierungseinrichtung 15 kombiniert und synthetisiert das durch die Sprachband-Selektions/Anhebungs-Einrichtung 14 angehobene Signal.
  • Die Wirkungsweise des Sprachsignalprozessors gemäß der ersten Ausführungsform wird nachfolgend erläutert.
  • Die Bandaufteilungseinrichtung 11 teilt das mit Rauschen vermischte Sprachsignal in Frequenzbänder auf. Das Sprachband des Signals in der Bandaufteilungseinrichtung 11 wird durch die Sprachbanderfassungseinrichtung 12 erfaßt. Die Band- Selektions/Anhebungs/Steuerungs-Einrichtung 13 erzeugt ein Steuerungssignal basierend auf der von der Erfassungseinrichtung 12 erhaltenen Information des Sprachbandes. Der Pegel des Signals in dem Sprachband wird durch das Steuerungssignal von der Steuerungsschaltung 13 angehoben. Dann wird das rauschvermischte Sprachsignal, dessen Pegel durch die Anhebungseinrichtung 14 angehoben ist, durch die Synthetisierungseinrichtung 15 synthetisiert.
  • Figur 2 ist ein Blockschaltbild eines modifizierten Sprachsignalprozessors in Figur 1. Insbesondere die Sprachbanderfassungseinrichtung 12 ist mit einer Cepstrum- Analyseeinrichtung 21, einer Spitzenerfassungseinrichtung 22 und einer Sprachbanderfassungsschaltung 23 versehen. Die Cepstrum-Analyseeinrichtung 21 unterwirft das von der Aufteilungseinrichtung 11 Fourier-transformierte Signal der Cepstrum-Analyse. Das Cepstrum ist eine inverse Fourier-Transformation eines Logarithmus eines Kurzzeit-Amplitudenspektrums einer Wellenform. Figur 20 (A) ist ein Graph des Kurzzeit-Spektrums und Figur 20 (B) ist sein Cepstrum. Die Spitzenerfassungseinrichtung 22 unterscheidet das Sprachsignal vom Rauschen durch die Erfassung einer Spitze des von der Cepstrum-Analyseeinrichtung 21 erhaltenen Cepstrums. Die Position, an der die Spitze vorhanden ist, wird als Sprachsignalteil beurteilt. Die Spitze kann z.B. durch Vergleich mit einem voreingestellten Schwellwert einer vorbestimmten Größe erfaßt werden. Weiterhin erhält die Sprachbanderfassungsschaltung 23 einen Quefrenz-Wert dieses der durch die Spitzenerfassungseinrichtung 22 aus Figur 20 (B) erfaßten Spitze. Das Sprachband ist somit erfaßt. Die anderen Teile des Sprachsignalprozessors sind die gleichen wie in der Ausführungsform in Figur 1 und daher wird hier auf deren Beschreibung verzichtet.
  • Figur 3 ist ein Blockschaltbild einer weiteren Modifikation des Sprachsignalprozessors in Figur 1, insbesondere der Sprachbanderfassungseinrichtung 12. Die Sprachbanderfassungseinrichtung 12 in Figur 3 ist zusätzlich zu der Cepstrum-Analyseeinrichtung 21, der Spitzenerfassungseinrichtung 22 und einer Sprachbanderfassungsschaltung 23 mit einer Formanten-Analyseeinrichtung 24 ausgestattet. Diese Formanten-Analyseeinrichtung 24 analysiert Formanten in dem Ergebnis der Cepstrum-Analyse der Analyseeinrichtung 21 (anhand von Figur 20 (B)). Die Sprachbanderfassungsschaltung 23 erfaßt ein Sprachband unter Verwendung der von der Spitzenerfassungseinrichtung 22 erhaltenen Spitzeninformation und der von der Analyseeinrichtung 24 erhaltenen Formanteninformation. Da die Formanteninformation neben der Spitzeninformation zum Erfassen des Sprachbandes verwendet wird, erlaubt sie in dieser modifizierten Ausführungsform weiterhin eine genaue Erfassung des Sprachbandes. Da die anderen Teile identisch mit denjenigen in Figur 2 sind, wird auf deren detaillierte Beschreibung verzichtet.
  • Figur 4 ist ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 2, welcher so aufgebaut ist, daß er den Rauschpegel des Rauschbandes dämpft.
  • Die Bandaufteilungseinrichtung 11, die Cepstrum-Analyseeinrichtung 21, die Spitzenerfassungseinrichtung 22 und die Sprachbanderfassungsschaltung 23 sind die gleichen wie in der Ausführungsform in Figur 2, so daß hier auf deren Beschreibung verzichtet wird.
  • Ein Ausgangssignal der Sprachbanderfassungsschaltung 23 wird in eine Rauschbandberechnungseinrichtung 16 eingegeben, welche wiederum das Rauschband auf der Basis der von der Schaltung 23 erfaßten Sprachbandinformation berechnet; z.B. unterscheidet sie ein Band, aus welchem das Sprachband entfernt wurde, als ein Rauschband. Eine Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 gibt ein Dämpfungssteuerungssignal auf der Basis der von der Berechnungseinrichtung 16 erhaltenen Rauschbandinformation aus. Eine Rauschband-Selektions/Dämpfungs-Einrichtung 18 dämpft den Signalpegel in dem Rauschband unter den von der Aufteilungseinrichtung 11 eingespeisten Signalen entsprechend dem Steuerungssignal von der Steuerungseinrichtung 17. Daher wird das Signal in dem Sprachband relativ angehoben. Die Bandsynthetisierungseinrichtung 15 synthetisiert das in dem Signalpegel in dem Rauschband gedämpfte Signal. Gemäß der Ausführungsform in Figur 4 wird der Signalpegel in dem Rauschband gedämpft, was schließlich in einem relativen Anheben des Sprachbandes und somit Verbessern des Signal/Rausch-Verhältnisses resultiert.
  • In Figur 5 ist die Formanten-Analyseeinrichtung 24 zu der Vorrichtung in Figur 4 hinzugefügt. Gemäß dieser Modifikation wird das Sprachband wegen der Formanten-Analyse noch exakter erfaßt und erlaubt so der Rauschbandberechnungseinrichtung, das Rauschband noch genauer zu erfassen.
  • Figur 6 ist eine Kombination der Figuren 2 und 4. Mit anderen Worten, die Bandaufteilungseinrichtung 11, die Cepstrum-Analyseeinrichtung 21, die Spitzenerfassungseinrichtung 22 und die Sprachbanderfassungsschaltung 23 sind gemeinsam vorgesehen. Ein Ausgangssignal der Sprachbanderfassungsschaltung 23 wird in die Sprachband-Selektions/Anhebungs/Steuerungs-Einrichtung 13 und die Sprachbandberechnungseinrichtung 16 eingegeben. Ein Ausgangssignal der Steuerungseinrichtung 13 wird in die Sprachband-Selektions/Anhebungs-Einrichtung 14 eingegeben, welche den Signalpegel des von der Aufteilungseinrichtung 11 ausgegebenen, aufgeteilten Signals nur in dem Sprachband verstärkt. Andererseits wird das von der Rauschbandberechnungseinrichtung 16 berechnete Rauschband in die Band- Selektions/Dämpfungs/Steuerungs-Einrichtung 17 eingegeben, welche nachfolgend ein Steuerungssignal für die Rauschband-Selektions/Dämpfungs-Einrichtung 18 erzeugt. Die Rauschband-Selektions/Dämpfungs-Einrichtung 18 dämpft den Signalpegel des von der Sprachband-Selektions/Anhebungs-Einrichtung 14 gelieferten Signals nur in dem Rauschband. Es ist möglich, den Signalpegel des Rauschbandes durch die Dämpfungseinrichtung 18 vor der Verstärkung des Signalpegels in dem Sprachband durch die Anhebungseinrichtung 14 zu dämpfen. Die Sprachband- Selektions/Anhebungs-Einrichtung 14 und die Rauschband-Selektions/Dämpfungs- Einrichtung 18 bilden eine Anhebungs/Dämpfungs-Einrichtung 19. In dieser Ausführungsform wird der Sprachpegel des Sprachbandes angehoben, wenn gleichzeitig der Rauschpegel des Rauschbandes gedämpft wird. Daher wird das Signal/Rausch-Verhältnis weiter verbessert.
  • Figur 7 ist ein Blockschaltbild einer Modifikation von Figur 6, in welchem die Formanten-Analyseinrichtung 24 hinzugefügt ist. Die Wirkungsweise und die anderen Teile außer der Formanten-Analyseeinrichtung 24 sind die gleichen wie in der Ausführungsform in Figur 6, auf deren Beschreibung verzichtet wird. Ein Hinzufügen der Formanten-Analyseeinrichtung 24 stellt eine hochgenaue Erfassung des Sprachbandes sicher.
  • Obwohl die Funktion der Sprachbanderfassungseinrichtung, der Sprachband- Selektions/Anhebungs-Einrichtung, etc. mit Software auf einem Computer implementiert werden kann, kann sie, soweit in den vorstehenden Ausführungsformen beschrieben, unter Verwendung einer besonderen Hardware mit entsprechenden Funktionen verwirklicht werden.
  • Wie aus der obigen Beschreibung deutlich wird, wird bei dem Sprachsignalprozessor gemäß der ersten Ausführungsform der vorliegenden Erfindung das mit Rauschen vermischte Sprachsignal in Frequenzbänder aufgeteilt und der Signalpegel in dem Sprachband wird relativ zu dem Signalpegel in dem Rauschband angehoben, um dadurch das Signal/Rausch-Verhältnis merklich zu verbessern.
  • Figur 8 ist ein Blockschaltbild, das die Anordnung eines Sprachsignalprozessors gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
  • In Figur 8 empfängt, A/D-wandelt und Fourier-transformiert eine Bandaufteilungseinrichtung 11 ein Signal, welches eine Mischung aus Sprache und Rauschen ist.
  • Eine Sprachbanderfassungseinrichtung 12 empfängt das vermischte Signal mit Rauschen von der Aufteilungseinrichtung 11 und erfaßt das Frequenzband eines Sprachsignalteils in dem gemischten Signal. Die Sprachbanderfassungseinrichtung 12 weist z.B. eine Sprachanalyseeinrichtung 21-0 zum Ausführen einer Cepstrum- Analyse und eine Sprachbanderfassungsschaltung 23 zum Erfassen des Sprachbandes unter Verwendung des Ergebnisses der Cepstrum-Analyse auf. Die Beziehung des Sprachbandes und des Rauschbandes aus Sicht der Frequenz ist allgemein identifiziert, wie in einem Graph in Figur 21 gezeigt, wobei S das Sprachsignalband und N das Rauschsignalband darstellt. Die Sprachbanderfassungsschaltung 23 erfaßt das Band S.
  • Eine Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 gibt ein Steuerungssignal zum Anheben des Sprachbandes auf der Basis der durch die Sprachbanderfassungsschaltung 23 erfaßten Sprachbandinformation aus.
  • Eine Sprache-Unterscheidungseinrichtung 31 unterscheidet einen Sprachteil in dem mit Rauschen vermischten Sprachsignal, das von der Bandaufteilungseinrichtung 11 abgegeben wird, welche z.B. mit der Sprachanalyseeinrichtung 21-0 zum Ausführen einer Cepstrum-Analyse, die oben erwähnt ist, und einer Sprachunterscheidungsschaltung 32 zum Unterscheiden eines Sprachsignals unter Verwendung des Ergebnisses der Cepstrum-Analyse versehen ist.
  • Eine Rausch-Vorhersageeinrichtung 33 erfaßt einen Rauschteil aus dem durch die Unterscheidungseinrichtung 31 erfaßten Sprachteil, um dadurch das Rauschen des Sprachteiles auf der Basis der Rauschinformation aus nur dem Rauschteil vorherzusagen. Diese Rausch-Vorhersageeinrichtung 33 sagt den Rauschteil für jeden Kanal für das in m Kanäle aufgeteilte gemischte Signal voraus. Wie in Figur 22 gezeigt, wird z.B. vorgeschlagen, daß eine Frequenz auf einer x-Achse dargestellt wird, ein Sprachpegel auf einer y-Achse und Zeit auf einer z-Achse, pj wird aus den Daten p1, p2, ..., pi vorhergesagt, wenn die Frequenz f1 ist, z.B. wird ein Durchschnitt der Rauschteile p1 - pi zu pj gemacht. Wenn der Sprachsignalteil fortgesetzt wird, wird ein Dämpfungsfaktor multipliziert mit pj.
  • Eine Löscheinrichtung 34, zu welcher ein Signal aus m Kanälen von der Bandaufteilungseinrichtung 11 abgegeben wird, und eine Rauschvorhersageeinrichtung 33 subtrahieren Rauschen von dem Signal für jeden Kanal, um dadurch das Rausch-Löschen auszuführen. Die Löschung wird in der wie in Figur 23 gezeigten Folge ausgeführt. Insbesondere wird ein mit Rauschen (Figur 23 (A)) vermischtes Sprachsignal Fourier-transformiert (Figur 23 (C)), von welchem ein Spektrum eines vorhergesagten Rauschens (Figur 23 (D)) subtrahiert wird (Figur 23 (E)), und invers Fourier-transformiert (Figur 23 (F)), so daß ein Sprachsignal ohne Rauschen erhalten wird.
  • Wenn das mit Rauschen vermischte Sprachsignal, aus welchem das Rauschen mehr oder weniger durch die Löscheinrichtung 34 entfernt ist, in die Sprachband- Selektions/Anhebungs-Einrichtung 14 eingegeben ist, selektiert die Anhebungseinrichtung 14 das Sprachband zum Anheben entsprechend einem Steuerungssignal von der Steuerungseinrichtung 13.
  • Das angehobene Signal von der Anhebungseinrichtung 14 wird durch die Bandsynthetisierungseinrichtung 15 z.B. durch eine inverse Fourier-Transformation synthetisiert.
  • Die Wirkungsweise des Sprachsignalprozessors dieser Ausführungsform in Figur 8 wird jetzt erläutert.
  • Das mit Rauschen vermischte Sprachsignal wird durch die Bandaufteilungseinrichtung 11 aufgeteilt. Das Sprachband des durch die Aufteilungseinrichtung 11 aufgeteilten Signals wird durch die Erfassungseinrichtung 12 erfaßt. Die Band- Selektions/Anhebungs/Steuerungs-Einrichtung 13 gibt dann ein Steuerungssignal basierend auf der Sprachbandinformation von der Erfassungseinrichtung 12 aus.
  • In der Zwischenzeit sagt die Sprachunterscheidungseinrichtung 31 Rauschen in dem Sprachsignalteil in dem mit Rauschen vermischten Sprachsignal voraus. Ein vorhergesagter Rauschwert der Unterscheidungseinrichtung 31 wird durch die Löscheinrichtung 34 aus dem mit Rauschen vermischten Sprachsignal entfernt. Die Sprachband-Selektions/Anhebungs-Einrichtung 14 hebt den Sprachpegel des Signals in dem Sprachband, von welchem das Rauschen entfernt ist, entsprechend dem Steuerungssignal der Steuerungseinrichtung 13 an.
  • Nachdem der Sprachpegel des mit Rauschen vermischten Sprachsignals durch die Anhebungseinrichtung 14 angehoben ist, wird das Signal durch die Bandsynthetisierungseinrichtung 15 synthetisiert.
  • Figur 9 ist ein Blockschaltbild einer Modifikation aus Figur 8. Insbesondere die Sprachanalyseeinrichtung 21-0 ist in einem konkreteren Aufbau gezeigt. Die Sprachanalyseeinrichtung 21-0 ist mit einer Cepstrum-Analyseeinrichtung 21 und einer Spitzenerfassungseinrichtung 22 ausgestattet. Die Cepstrum-Analyseeinrichtung 21 führt eine Cepstrum-Analyse des durch die Aufteilungseinrichtung 11 Fourier-transformierten Signales durch. Das Cepstrum ist eine inverse Fourier- Transformation eines Logarithmus eines Kurzzeit-Amplitudenspektrums einer Wellenform, wie in Figur 20 gezeigt. Figur 20 (A) zeigt ein Kurzzeitspektrum und Figur 20 (B) zeigt dessen Cepstrum. Die Spitzenerfassungseinrichtung 22 erfaßt eine Spitze des durch die Cepstrum-Analyseeinrichtung 21 erhaltenen Cepstrums, um dadurch das Sprachsignal von dem Rauschsignal zu unterscheiden. Der Teil, in dem die Spitze vorhanden ist, wird als ein Sprachsignalteil erfaßt. Die Spitze wird z.B. durch Vergleichen des Cepstrums mit einem vorbestimmten, vorab eingestellten Schwellwert erfaßt. Eine Sprachbanderfassungsschaltung 23 erhält einen Quefrenz-Wert der durch die Spitzenerfassungseinrichtung 22 erfaßten Spitze unter Bezug auf Figur 20 (B). Damit ist das Sprachband erfaßt. Eine Sprachunterscheidungsschaltung 32 unterscheidet den Sprachsignalteil der durch die Spitzenerfassungseinrichtung 22 erfaßten Spitze. Da die anderen Teile in der gleichen Weise wie in der Ausführungsform in Figur 8 aufgebaut und betrieben werden, wird auf deren detaillierte Beschreibung hier verzichtet.
  • Figur 10 ist ein Blockschaltbild einer Modifikation von Figur 9, in welcher eine Formanten-Analyseeinrichtung 24 vorgesehen ist. Die Formanten-Analyseeinrichtung 24 analysiert den Formanten des Ergebnisses der Cepstrum-Analyse der Analyseeinrichtung 21 (entsprechend Figur 20 (B)). Eine Sprachbanderfassungsschaltung 23 erfaßt ein Sprachband unter Verwendung der Spitzeninformation der Spitzenerfassungseinrichtung 22 und der durch die Formanten-Analyseeinrichtung 24 untersuchten Formanten-Information. Entsprechend der Ausführungsform in Figur 10 werden die Spitzeninformation und die Formanten-Information verwendet, um das Sprachband zu erfassen. Als Ergebnis kann das Sprachband noch präziser erfaßt werden. Die anderen Teile des Prozessors in Figur 10 sind die gleichen wie diejenigen in Figur 9, auf deren Beschreibung verzichtet wird.
  • Figur 11 zeigt ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 9. In dem Sprachsignalprozessor in Figur 11 wird das Rauschband berechnet, so daß der Rauschpegel in dem Rauschband gedämpft wird.
  • Die Bandaufteilungseinrichtung 11, die Cepstrum-Analyseeinrichtung 21, die Spitzenerfassungseinrichtung 22 und die Sprachbanderfassungsschaltung 23 sind identisch mit denjenigen in der Ausführungsform in Figur 9 und daher wird auf deren Beschreibung verzichtet.
  • Ein Ausgangssignal der Sprachbanderfassungsschaltung 23 wird in eine Rauschbandberechnungseinrichtung 16 eingegeben. Die Rauschbandberechnungseinrichtung 16 berechnet ein Rauschband auf der Basis der Sprachbandinformation von der Schaltung 23, z.B. durch Unterscheiden eines Bandes, aus welchem das Sprachband entfernt ist, als ein Rauschband. Eine Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 gibt, basierend auf der durch die Rauschbandberechnungseinrichtung 16 berechneten Rauschbandinformation, ein Dämpfungssteuerungssignal aus. Eine Rauschband-Selektions/Dämpfungs-Einrichtung 18 dämpft den Signalpegel in dem Rauschband in dem von einer Löscheinrichtung 34 entsprechend dem Steuerungssignal von der Steuerungseinrichtung 17 gesendeten Signal. Demzufolge wird das Signal in dem Sprachband relativ angehoben. Eine Bandsynthetisierungseinrichtung 15 synthetisiert das gedämpfte Signal in dem Rauschband. Wie oben beschrieben, wird der Signalpegel in dem Rauschband entsprechend dieser Ausführungsform gedämpft und daher wird das Sprachband bei dem verbesserten Signal/Rausch-Verhältnis relativ angehoben.
  • Figur 12 ist eine Modifikation von Figur 11. Die Formanten-Analyseeinrichtung 24 ist zu der Vorrichtung in Figur 11 hinzugefügt. Gemäß dieser Ausführungsform kann das Sprachband ebenso aufgrund der Formanten-Analyse noch genauer erfaßt werden und erlaubt der Rauschbandberechnungseinrichtung 16, das Rauschband noch exakter zu erfassen.
  • Figur 13 ist ein Blockschaltbild einer kombinierten Ausführungsform aus den Figuren 9 und 11. Mit anderen Worten, die Bandaufteilungseinrichtung 11, die Cepstrum-Analyseeinrichtung 21, die Spitzenerfassungseinrichtung 22, die Sprachunterscheidungsschaltung 32 und die Sprachbanderfassungsschaltung 23 sind in den Vorrichtungen der Figuren 9, 11 und 13 gemeinsam vorgesehen. Ein Ausgangssignal der Sprachbanderfassungsschaltung 23 wird in die Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 und die Rauschbandberechnungseinrichtung 16 eingegeben. Ein Ausgangssignal der Steuerungseinrichtung 13 wird in die Sprachband-Selektions/Anhebungs-Einrichtung 14 eingegeben, welche nur den Signalpegel des Sprachbandes des von der Löscheinrichtung 34 gesendeten Signals anhebt. Andererseits wird das von der Rauschbandberechnungseinrichtung 16 berechnete Rauschband in die Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 eingegeben und die Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 gibt ein Steuerungssignal aus. Durch die Rauschband-Selektions/Dämpfungs-Einrichtung 18 wird nur der Signalpegel in dem Rauschband des Ausgangssignals von der Sprachband-Selektions/Anhebungs-Einrichtung 14 gedämpft. Der Signalpegel in dem Rauschband kann zuerst gedämpft werden und danach kann der Signalpegel in dem Sprachband verstärkt werden. Die Sprachband-Selektions/Anhebungs- Einrichtung 14 und die Rauschband-Selektions/Dämpfungs-Einrichtung 18 bilden eine Anhebungs/Dämpfungs-Einrichtung 35. Gemäß dieser in Figur 13 gezeigten Ausführungsform wird der Sprachpegel in dem Sprachband verstärkt und gleichzeitig wird der Rauschpegel in dem Rauschband gedämpft, um dadurch das Signal/Rausch-Verhältnis noch mehr zu verbessern.
  • Bei einem Sprachsignalprozessor in Figur 14 ist die in Figur 9 gezeigte Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 in einem Punkt beschränkt, mit der Absicht, eine geeignete Verbesserung des Signal/Rausch-Verhältnisses zu verwirklichen.
  • Das heißt, auf der Basis eines Ausgangssignals von der Rauschvorhersageeinrichtung 33 berechnet eine Rauschleistungsberechnungseinrichtung 37 die Größe des Rauschens. Inzwischen berechnet eine Sprachsignalleistungsberechnungseinrichtung 36 die Größe des angehobenen Sprachsignals von der Anhebungseinrichtung 14. Eine Signal/Rausch-Verhältnis-Berechnungseinrichtung 38, in welche das von der Berechnungseinrichtung 36 berechnete Sprachsignal und die von der Berechnungseinrichtung 37 berechnete Rauschleistung eingegeben werden, berechnet das Signal/Rausch-Verhältnis. Die Band-Selektions/Anhebungs/Steuerungs- Einrichtung 13 erzeugt ein Steuerungssignal für die Sprachband-Selektions/Anhebungs-Einrichtung 14, so daß das dort eingegebene Signal/Rausch-Verhältnis von der Berechnungseinrichtung 38 einen gewünschten Zielwert für das Signal/Rausch- Verhältnis annimmt. Der Zielwert beträgt z.B. 1/5. Der Zielwert bedeutet, zu verhindern, daß das Sprachsignal gegenüber dem Rauschen zu weit angehoben wird.
  • Figur 15 ist eine Modifikation von Figur 11 mit einer für die Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 hinzugefügten Beschränkung, um eine geeignete Verbesserung des Signal/Rausch-Verhältnisses zu verwirklichen.
  • Wie oben anhand von Figur 14 beschrieben, berechnet die Rauschleistungs-Berechnungseinrichtung 37 die Größe des Rauschens basierend auf dem Ausgangssignal der Rauschvorhersageeinrichtung 33. Die Sprachsignalleistungs-Berechnungseinrichtung 36 berechnet die Größe des Sprachsignals, nach dem das Sprachsignal relativ zu dem Rauschen als ein Ergebnis der Dämpfung des Rauschens durch die Dämpfungseinrichtung 18 angehoben ist. Die Signal/Rausch-Verhältnis-Berechnungseinrichtung 38 empfängt das von der Berechnungseinrichtung 36 berechnete Sprachsignal und die von der Berechnungseinrichtung 37 erhaltene Rauschleistung, um daraus das Signal/Rausch-Verhältnis zu berechnen. Das von der Berechnungseinrichtung 38 berechnete Signal/Rausch-Verhältnis wird in die Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 eingegeben. Die Steuerungseinrichtung 17 gibt ein Steuerungssignal zu der Rauschband-Selektions/Dämpfungs-Einrichtung 18 oder zu der Sprachband-Selektions/Anhebungs-Einrichtung 14 aus, so daß das Signal/Rausch-Verhältnis ein vorbestimmter Ziel-Signal/Rausch-Wert wird.
  • In den vorstehenden Ausführungsformen in den Figuren 8 - 15 kann die Sprachbanderfassungseinrichtung, die Sprachband-Selektions/Anhebungs-Einrichtung, etc., durch Software in einem Rechner verwirklicht werden, es ist aber auch möglich, eine besondere Hardware für die entsprechenden Funktionen zu verwenden.
  • Wie sich aus den vorstehenden, erfindungsgemäßen Ausführungsformen ergibt, wird das mit Rauschen vermischte Sprachsignal in Frequenzbänder aufgeteilt und das vorhergesagte Rauschen wird aus dem aufgeteilten Signal gelöscht. Der Sprachpegel in dem Sprachband des Signals ist, nachdem das Rauschen daraus gelöscht ist, relativ zu dem Signalpegel in dem Rauschband angehoben. Daher kann das Signal/Rausch-Verhältnis merklich verbessert werden.
  • Figur 16 ist ein Blockschaltbild eines Sprachsignalprozessors gemäß einer dritten Ausführungsform der vorliegenden Erfindung. In Figur 16 teilt eine Bandaufteilungseinrichtung 11 als ein Beispiel einer Frequenzanalyseeinrichtung ein mit Rauschen vermischtes Sprachsignal in jedes Frequenzband auf. Ein Ausgangssignal der Bandaufteilungseinrichtung 11 wird in eine Rauschvorhersageeinrichtung 33 eingegeben, welche einen Rauschanteil in dem Ausgangssignal vorhersagt. Eine Löscheinrichtung 41 entfernt das Rauschen in einer später zu beschreibenden Weise. Eine Bandsynthetisierungseinrichtung 15 ist als Beispiel der Signalsynthetisierungseinrichtung vorgesehen.
  • Insbesondere wenn ein Sprache/Rauschen-Eingangssignal mit Rauschen in die Bandaufteilungseinrichtung 11 eingegeben wird, teilt die Bandaufteilungseinrichtung 11 das Eingangssignal in m Kanäle und liefert dieselben zu der Rauschvorhersageeinrichtung 33 und der Löscheinrichtung 41. Die Rauschvorhersageeinrichtung 33 sagt eine Rauschkomponente für jeden Kanal aus dem in m Kanäle aufgeteilten Sprache/Rauschen-Eingangssignal voraus und liefert dieselben zu der Löscheinrichtung 41. Das Rauschen wird, wie z.B. in Figur 22 gezeigt, vorausgesagt, vorausgesetzt, daß eine Frequenz auf einer x-Achse dargestellt wird, ein Geräuschpegel auf einer y-Achse und Zeit auf einer z-Achse, Daten p1, p2, ..., pi werden gesammelt, wenn eine Frequenz f1 ist und nachfolgend werden Daten pj vorhergesagt. Ein Durchschnittswert der Rauschanteile p1 - pi wird z.B. zu pj gemacht. Wenn sich die Sprachsignalteile fortsetzen, wird ein Dämpfungsfaktor mit pj multipliziert. Wenn das m-Kanal-Signal von der Bandaufteilungseinrichtung 11 und der Rauschvorhersageeinrichtung 33 zu der Löscheinrichtung 41 geliefert wird, löscht die Löscheinrichtung 41 das Rauschen für jeden Kanal durch Subtraktion oder ähnliches in Übereinstimmung mit dem darin eingegebenen Löschfaktor. Mit anderen Worten, der vorhergesagte Rauschanteil wird mit dem Löschfaktor multipliziert, um dadurch das Rauschen zu löschen. Allgemein wird die Löschung auf der Zeitachse ausgeführt, wie z.B. in Figur 23 gezeigt. Das heißt, eine vorhergesagte Rausch-Wellenform (Figur 23 (B)) wird von dem mit Rauschen vermischten eingegebenen Sprachsignal subtrahiert (Figur 23 (A)). Demzufolge wird nur ein Sprachsignal erhalten (Figur 23 (F)).
  • Gemäß der vorliegenden Erfindung wird die Löschung basierend auf der Frequenz ausgeführt. Das mit Rauschen vermischte Sprachsignal (Figur 23 (A)) wird Fourier- transformiert (Figur 23 (C)), von welchem ein Spektrum des vorhergesagten Rauschens (Figur 23 (D)) subtrahiert wird (Figur 23 (E)) und invers Fourier-transformiert wird, um dadurch ein Sprachsignal ohne Rauschen zu erhalten (Figur 23 (F)).
  • Eine Frequenzhöhenerfassungseinrichtung 42 erfaßt eine Frequenzhöhe eines Sprach- oder des Sprache/Rauschen-Eingangssignals und liefert dasselbe zu der Löschfaktoreinstelleinrichtung 43. Die oben erwähnte Frequenzhöhe der Sprache wird auf verschiedene Arten erhalten, wie in Tabelle 1 unten aufgelistet. Tabelle 1
  • Die Frequenzhöhenerfassungseinrichtung 42 kann ersetzt werden durch verschiedene Einrichtungen zum Erfassen des Sprachteiles.
  • Die Löschfaktoreinstelleinrichtung 43 stellt 8 Löschfaktoren auf der Basis der von der Erfassungseinrichtung 42 erhaltenen Tonhöhenfrequenzen ein und liefert diese Löschfaktoren zu der Löscheinrichtung 41. Die Sprachbanderfassungseinrichtung 23 erfaßt das Frequenzband des Sprachsignalteiles durch Verwenden der durch die Frequenzhöhenerfassungseinrichtung 42 erfaßten Frequenzhöhe. Zum Beispiel verwendet die Sprachbanderfassungseinrichtung 23 das Ergebnis der Cepstrum- Analyse zum Erfassen des Sprachbandes. Die Beziehung zwischen dem Sprachband und dem Rauschband hinsichtlich einer Frequenz ist allgemein in Figur 21 gezeigt, wo das Sprachsignalband mit S bezeichnet ist, während das Rauschband mit N bezeichnet ist.
  • Die Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 gibt ein Steuerungssignal zum Anheben des Sprachbandes auf der Basis der von der Erfassungseinrichtung 23 erhaltenen Informationen aus.
  • Die Sprachband-Selektions/Anhebungs-Einrichtung 14 selektiert und hebt das Sprachband entsprechend dem Steuerungssignal von der Steuerungseinrichtung 13 an, wenn ein mit Rauschen vermischtes Sprachsignal von der Löscheinrichtung 41 empfangen wird.
  • Die Bandsynthetisierungseinrichtung 15 synthetisiert das durch die Anhebungseinrichtung 14 angehobene Signal, die Synthetisierungseinrichtung 15 ist z.B. aus einem inversen Fourier-Transformator aufgebaut.
  • Der Sprachsignalprozessor mit dem oben beschriebenen Aufbau wirkt wie folgt.
  • Ein Sprache/Rauschen-Eingangssignal mit Rauschen wird durch die Bandaufteilungseinrichtung 11 in m Kanäle aufgeteilt. Die Rauschvorhersageeinrichtung 33 sagt eine Rauschkomponente für jeden Kanal voraus. Die Rauschkomponente des durch die Aufteilungseinrichtung 11 aufgeteilten und von der Rauschvorhersageeinrichtung 33 abgegebenen Signals wird durch die Löscheinrichtung 41 entfernt. Die Entfernungsfrequenz der Rauschkomponente wird zu diesem Zeitpunkt geeignet eingestellt, so daß die Deutlichkeit des Signals für jeden Kanal nach einer Eingabe des Löschfaktors erhöht wird. Wenn z.B. Rauschen vorhanden ist, wo das Sprachsignal vorhanden ist, wird der Löschfaktor kleiner gemacht, um nicht zuviel Rauschen zu entfernen, um dadurch die Deutlichkeit des Signals zu verbessern. Noch detaillierter ausgedrückt wird die Entfernungsfrequenz der Rauschkomponente für jeden Kanal durch den von der Einstelleinrichtung 43 gelieferten Löschfaktor eingestellt. Mit anderen Worten, vorausgesetzt, daß die vorhergesagte Rauschkomponente a1 ist, ein mit Rauschen vermischtes Signal bi ist und ein Löschfaktor αi ist, wird ein Ausgangssignal ci der Löscheinrichtung 41 (bi-αixai). Inzwischen ist der Löschfaktor auf der Basis der Information von der Frequenzhöhenerfassungseinrichtung 42 bestimmt. Das heißt, die Frequenzhöhenerfassungseinrichtung 42 empfängt das Sprache/Rauschen-Eingangssignal und erfaßt eine Frequenzhöhe der Sprache. Die Löschfaktoreinstelleinrichtung 43 stellt einen solchen Löschfaktor ein, wie in Figur 24 gezeigt. Figur 24 (A) zeigt einen Löschfaktor in jedem Frequenzband, f&sub0;-f&sub3; zeigen das gesamte Band des Sprache/Rauschen-Eingangssignals. Das gesamte Band f&sub0;-f&sub3; wird in m Kanäle zum Einstellen des Löschfaktors aufgeteilt. Das Band f&sub1;-f&sub2; beinhaltet insbesondere die Sprache, welche durch Verwendung der Frequenzhöhe erfaßt wird. Auf diese Weise wird der Löschfaktor in dem Sprachband kleiner eingestellt (näher an 0) und daher wird weniger Rauschen entfernt. Die Deutlichkeit wird insgesamt verbessert, da die Hörfähigkeit eines Menschen Sprache auch beim Vorhandensein von Rauschen unterscheiden kann. Der Löschfaktor wird in den Bändern ohne Sprache f&sub0;-f&sub1; und f&sub2;-f&sub3; auf 1 gesetzt und das Rauschen kann ausreichend entfernt werden. Ein in Figur 24 (B) gezeigter Löschfaktor, d.h. 1, wird verwendet, wenn das Vorhandensein von Rauschen ohne Sprache insgesamt klar ist. In diesem Fall kann Rauschen mit dem Löschfaktor 1 ausreichend entfernt werden. Wenn weiterhin aus Sicht der Spitzenfrequenz niemals ein Vokal auftritt, kann es nicht als Sprachsignal erkannt werden, sondern wird als Rauschen erkannt. Daher wird der Löschfaktor in Figur 24 (B) in solch einem Fall wie oben verwendet. Es ist erwünscht, die Löschfaktoren der Figuren 24 (A) und 24 (B) exakt umzuschalten.
  • In der Zwischenzeit erfaßt die Sprachbanderfassungseinrichtung 23 das Sprachband auf der Basis der durch die Erfassungseinrichtung 42 erfaßten Frequenzhöhe. Die Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 erzeugt ein Steuerungssignal basierend auf der Sprachbandinformation der Erfassungseinrichtung 23. Der Sprachpegel in dem Sprachband des Signals, aus welchem das Rauschen durch die Löscheinrichtung 41 entfernt ist, wird durch die Sprachband-Selektions/Anhebungs-Einrichtung 14 auf der Basis des Steuerungssignals von der Steuerungseinrichtung 13 relativ angehoben.
  • Das mit Rauschen vermischte Sprachsignal mit dem angehobenen Sprachpegel wird durch die Bandsynthetisierungseinrichtung 15 synthetisiert und ausgegeben.
  • Figur 17 ist ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 16, welche sich in dem Punkt von Figur 16 unterscheidet, daß der Rauschpegel in dem Rauschband gedämpft wird.
  • Insbesondere gemäß der vorliegenden Ausführungsform sind die Bandaufteilungseinrichtung 11, die Rauschvorhersageeinrichtung 33, die Löscheinrichtung 41, die Frequenzhöhenerfassungseinrichtung 42, die Löschfaktoreinstelleinrichtung 43 und die Sprachbanderfassungseinrichtung 23 alle mit denjenigen in der in Figur 16 gezeigten Ausführungsform identisch und auf deren Beschreibung wird hier verzichtet.
  • Ein Ausgangssignal der Sprachbanderfassungseinrichtung 23 wird in eine Rauschbandberechnungseinrichtung 16 eingegeben. Die Rauschbandberechnungseinrichtung 16 berechnet das Rauschband auf der Basis der von der Erfassungseinrichtung 23 erhaltenen Sprachbandinformation und erkennt z.B. ein Band, aus welchem das Sprachband entfernt ist, als ein Rauschband. Eine Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 gibt ein Dämpfungs/Steuerungs-Signal auf der Basis der durch die Berechnungseinrichtung 16 berechneten Rauschbandinformation aus. Eine Rauschband-Selektions/Dämpfungs-Einrichtung 18 dämpft entsprechend einem Steuerungssignal von der Steuerungseinrichtung 17 den Signalpegel des Rauschbandes des von der Löscheinrichtung 41 gesendeten Signals. Dadurch kann das Signal in dem Sprachband relativ angehoben werden.
  • Gemäß der Ausführungsform in Figur 17 wird das Sprachband schließlich relativ zu dem Rauschband angehoben, um dadurch das Signal/Rausch-Verhältnis zu verbessern, da der Signalpegel in dem Rauschband gedämpft wird.
  • Figur 18 zeigt ein Blockschaltbild einer modifizierten Ausführungsform des Sprachsignalprozessors in Figur 16, in welcher die Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 auf eine vorbestimmte Weise beschränkt ist, um eine geeignete Verbesserung des Signal/Rausch-Verhältnisses zu verwirklichen.
  • Mit anderen Worten ist eine Rauschsignalleistungsberechnungseinrichtung 37 vorgesehen zum Berechnen der Größe des Rauschens basierend auf einem Ausgangssignal von der Rauschvorhersageeinrichtung 33. Andererseits berechnet eine Sprachsignalleistungsberechnungseinrichtung 36 die Größe eines durch die Sprachband-Selektions/Anhebungs-Einrichtung 14 angehobenen Sprachsignals. Das durch die Berechnungseinrichtung 36 berechnete Sprachsignal und die durch die Berechnungseinrichtung 37 berechnete Rauschleistung werden beide in eine Signal/Rausch-Verhältnis-Berechnungseinrichtung 38 eingegeben, wo das Signal/Rausch- Verhältnis berechnet wird. Das berechnete Signal/Rausch-Verhältnis wird in die Band-Selektions/Anhebungs/Steuerungs-Einrichtung 13 eingegeben, welche anschließend ein Steuerungssignal zu der Sprachband-Selektions/Anhebungs-Einrichtung 14 ausgibt, so daß das berechnete Signal/Rausch-Verhältnis ein vorbestimmter Ziel-Signal/Rausch-Wert wird. Dieser Zielwert ist z.B. 1/5. Der Ziel- Signal/Rausch-Wert soll verhindern, daß das Sprachsignal zu weit über das Rauschsignal angehoben wird.
  • Figur 19 ist ein Blockschaltbild einer Modifikation des Sprachsignalprozessors in Figur 17. In der Ausführungsform in Figur 19 ist eine vorbestimmte Beschränkung der Funktion der Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 zum Verwirklichen einer einwandfreien Verbesserung des Signal/Rausch-Verhältnisses vorgesehen.
  • Mit anderen Worten, wie oben anhand von Figur 18 erwähnt, berechnet die Rauschsignalleistungsberechnungseinrichtung 37 die Größe des Rauschens basierend auf einem Ausgangssignal von der Rauschvorhersageeinrichtung 33. Die Sprachsignalleistungsberechnungseinrichtung 36 berechnet die Größe des Sprachsignals, welches durch Dämpfung des Rauschens durch die Dämpfungseinrichtung 18 relativ angehoben ist. Die Signal/Rausch-Verhältnis-Berechnungseinrichtung 38 berechnet nach dem Empfangen des durch die Berechnungseinrichtung 36 berechneten Sprachsignals und der durch die Berechnungseinrichtung 37 berechneten Rauschleistung das Signal/Rausch-Verhältnis. Da das berechnete Signal/Rausch- Verhältnis in die Band-Selektions/Dämpfungs/Steuerungs-Einrichtung 17 von der Signal/Rausch-Verhältnis-Berechnungseinrichtung 38 eingegeben wird, wird ein Steuerungssignal zu der Rauschband-Selektions/Dämpfungs-Einrichtung 18 ausgegeben.
  • Obwohl die Sprachbanderfassungseinrichtung, die Sprachband-Selektions/Anhebungs-Einrichtung, etc., in den obigen Ausführungsformen als Software auf einem Rechner verwirklicht werden können, kann eine besondere Hardwareschaltung mit entsprechenden Funktionen verwendet werden.
  • Wie aus der obigen Beschreibung der Ausführungsformen des Sprachsignalprozessors deutlich wird, wird der Löschfaktor verwendet, um die Rauschkomponente für die Rauschlöschung vorherzusagen und weiterhin wird der Sprachpegel in dem Sprachband angehoben oder der Rauschpegel in dem Rauschband wird gedämpft, um dadurch ein besseres, rauschunterdrücktes Sprachsignal zu verwirklichen.
  • Obwohl die vorliegende Erfindung beispielhaft vollständig anhand der beigefügten Zeichnungen beschrieben wurde, ist hier anzumerken, daß verschiedene Änderungen und Modifikationen für den Durchschnittsfachmann erkennbar sind. Sofern solche Änderungen und Modifikationen nicht vom Umfang der vorliegenden Erfindung, wie sie durch die beigefügten Ansprüche definiert ist, abweichen, sollen sie daher als darin enthalten aufgefaßt werden.

Claims (20)

1. Sprachsignalverarbeitungsprozessor mit:
einer Bandaufteilungseinrichtung (11) zum Aufteilen eines Eingangssignals mit Rauschen in Frequenzbänder;
einer Tonhöhenfrequenzerfassungseinrichtung (21, 22; 42) zum Erfassen der Tonhöhenfrequenz des Eingangssignales mit Rauschen;
einer Sprachbanderfassungseinrichtung (12, 23) zum Erfassen des Frequenzbandes, in dem das Sprachsignal vorhanden ist, in dem aufgeteilten Signal durch die Verwendung der durch die Tonhöhenfrequenzerfassungseinrichtung erfaßten Tonhöhenfrequenz;
einer Sprachband-Selektions-/Anhebungs-Einrichtung (14) zum Anheben eines Sprachsignalbandes des aufgeteilten Signals gegenüber einem Rauschsignalband auf der Basis der durch die Sprachbanderfassungseinrichtung (12) erfaßten Sprachbandinformation; und
einer Bandsynthetisierungseinrichtung (15) zum Synthetisieren des durch die Selektions-/Anhebungs-Einrichtung (14) angehobenen Signals.
2. Sprachsignalverarbeitungsprozessor nach Anspruch 1, mit:
einer Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) zum Ausgeben eines Steuerungssignals zum Anheben des Sprachbandes auf der Basis der durch die Sprachbanderfassungseinrichtung (12) erfaßten Sprachbandinformation;
einer Sprachband-Selektions-/Anhebungs-Einrichtung (14) zum Selektieren des Sprachbandes des aufgeteilten Signals mit einem Rauscheingangssignal darin von der Bandaufteilungseinrichtung (11) entsprechend dem Steuerungssignal von der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13), um dadurch nur das Sprachband anzuheben.
3. Sprachsignalverarbeitungsprozessor nach Anspruch 1 oder 2, bei welcher die Sprachbanderfassungseinrichtung (12) mit einer Cepstrum-Analyseeinrichtung (21) zum Ausführen einer Cepstrum-Analyse des aufgeteilten Eingangssignals, einer Spitzenwerterfassungseinrichtung (22) zum Erfassen eines Spitzenwertes auf der Basis des Analyseergebnisses und einer Sprachbanderfassungsschaltung (23) versehen ist, um das Sprachband durch die Verwendung des durch die Spitzenwerterfassungseinrichtung erfaßten Spitzenwertes zu erfassen.
4. Sprachsignalverarbeitungsprozessor nach Anspruch 3, mit:
einer Formanten-Analyseeinrichtung (24) zum Ausführen einer Formanten-Analyse auf der Basis des Cepstrum-Analyseergebnisses, und die Sprachbanderfassungsschaltung (23) zum Erfassen des Sprachbandes durch die Verwendung der Formenten-Information durch die Formanten-Analyseeinrichtung (24) und dem durch die Spitzenwerterfassungseinrichtung (22) erfaßten Spitzenwert.
5. Sprachsignalverarbeitungsprozessor nach Anspruch 2, mit:
einer Rauschband-Berechnungseinrichtung (16) zum Berechnen des Rauschbandes auf der Basis der durch die Sprachbanderfassungseinrichtung (23) erfaßten Sprachbandinformation;
einer Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) alternativ zu der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) zum Ausgeben eines Steuerungssignals, um das durch die Rauschband-Berechnungseinrichtung (16) berechnete Rauschband zu dämpfen;
einer Rauschband-Selektions-/Dämpfungs-Einrichtung (18) alternativ zu der Sprachband-Selektions-/Anhebungs-Einrichtung (14) zum Selektieren des Rauschbandes des aufgeteilten Signals mit dem Rauschen, welches darin aus der Bandaufteilungseinrichtung (11) in Übereinstimmung mit dem Steuerungssignal von der Band- Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) eingegeben wird, um dadurch nur das Rauschband zu dämpfen, so daß die Bandsynthetisierungseinrichtung (15) das durch die Rauschband-Selektions-/Dämpfungs-Einrichtung gedämpfte Signal synthetisiert.
6. Sprachsignalverarbeitungsprozessor nach Anspruch 5, bei welcher die Sprachbanderfassungseinrichtung (23) mit einer Spektralanalyseeinrichtung (21) zum Ausführen einer Cepstrum-Analyse des aufgeteilten Eingangssignals, einer Spitzenwerterfassungseinrichtung (22) zum Erfassen eines Spitzenwertes auf der Basis des Cepstrum-Analyseergebnisses, einer Formanten-Analyseeinrichtung (24) zum Ausführen einer Formanten-Analyse auf der Basis des Cepstrum-Analyseergebnisses und einer Sprachbanderfassungsschaltung (23) zum Erfassen des Sprachbandes durch die Verwendung der durch die Formanten-Analyseeinrichtung (24) analysierten Formanten-Information und des durch die Spitzenwerterfassungseinrichtung (23) erfaßten Spitzenwertes versehen ist.
7. Sprachsignalverarbeitungsprozessor nach einem der Ansprüche 1 bis 4, mit:
einer Rauschband-Berechnungseinrichtung (16) zum Berechnen des Rauschbandes auf der Basis der durch die Sprachbanderfassungseinrichtung (12) erfaßten Sprachbandinformation;
einer Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) zum Ausgeben eines Steuerungssignals zum Dämpfen des durch die Rauschband-Berechnungseinrichtung (16) berechneten Rauschbandes;
einer Anhebungs-/Dämpfungs-Einrichtung (19) zum Selektieren des Sprachbandes aus dem Signal mit dem Rauschen, das durch die Bandaufteilungseinrichtung entsprechend dem Steuerungssignal von der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) aufgeteilt ist, um dadurch nur das Sprachband anzuheben, oder zum Selektieren des Rauschbandes entsprechend dem Steuerungssignal von der Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17), um dadurch nur das Rauschband zu dämpfen, so daß die Bandsynthetisierungseinrichtung (15) das durch die Anhebungs-/Dämpfungs-Einrichtung angehobene/gedämpfte Signal synthetisiert.
8. Sprachsignalverarbeitungsprozessor nach Anspruch 1, mit:
einer Sprach-Diskriminator-Einrichtung (32) zum Diskriminieren eines Sprachteils des durch die Bandaufteilungseinrichtung (11) aufgeteilten Signals;
einer Rauschvorhersageeinrichtung (33) zum Vorhersagen von Rauschen in dem Sprachteil durch Verwenden des durch die Sprach-Diskriminator-Einrichtung (32) diskriminierten Sprachteils;
einer Löscheinrichtung (34) zum Subtrahieren eines Rauschwertes, der durch die Rauschvorhersageeinrichtung (33) aus dem Signal vorhergesagt wurde, das durch die Bandaufteilungseinrichtung (11) aufgeteilt wurde, bevor das Signal in die Sprachband-Selektions-/Anhebungs-Einrichtung (14) eingespeist wird.
9. Sprachsignalverarbeitungsprozessor nach Anspruch 8, bei welcher die Sprach- Diskriminator-Einrichtung (32) mit einer Sprachanalyseeinrichtung (21) zum Ausführen einer Cepstrum-Analyse und einer Sprachbanderfassungsschaltung (23) zum Erfassen des Sprachbandes durch Verwenden des Ergebnisses der Cepstrum- Analyse versehen ist.
10. Sprachsignalverarbeitungsprozessor nach Anspruch 9, bei welcher die Sprachanalyseeinrichtung (21) mit einer Cepstrum-Analyseeinrichtung (21) zum Ausführen einer Cepstrum-Analyse des durch die Bandaufteilungseinrichtung (11) aufgeteilten Signals für jeden Kanal; und
einer Spitzenwerterfassungseinrichtung (22) zum Erfassen eines Spitzenwertes auf der Basis des Cepstrum-Analyseergebnisses versehen ist, so daß die Sprach- Diskriminator-Schaltung (32) durch Verwenden des durch die Spitzenwerterfassungseinrichtung (22) erfaßten Spitzenwertes einen Sprachteil diskriminiert;
wobei die Banderfassungseinrichtung (12) eine Sprachbanderfassungsschaltung (23) aufweist, welche das Sprachband durch Verwenden des durch die Spitzenwerterfassungseinrichtung (22) erfaßten Spitzenwertes erfaßt;
wobei die Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) ein Steuerungssignal ausgibt, um das Sprachband auf der Basis der durch die Sprachbanderfassungsschaltung (23) erfaßten Sprachbandinformation anzuheben;
wobei die Sprachband-Selektions-/Anhebungs-Einrichtung (14) das Sprachband des Signals selektiert, aus welchem das Rauschen durch die Löscheinrichtung (34) entsprechend dem Steuerungssignal der Band-Selektions-/Anhebungs-/Steuerungs- Einrichtung (13) entfernt ist, um dadurch nur das Sprachband anzuheben.
11. Sprachsignalverarbeitungsprozessor nach Anspruch 10, mit:
einer Formanten-Analyseeinrichtung (24) zum Ausführen einer Formanten-Analyse des Cepstrums durch die Cepstrum-Analyseeinrichtung (21), so daß die Sprach- Diskriminator-Schaltung (32) den Sprachteil auch durch Verwenden des Formanten- Analyseergebnisses diskriminiert.
12. Sprachsignalverarbeitungsprozessor nach Anspruch 10, mit:
einer Rauschband-Berechnungseinrichtung (16) zum Berechnen des Rauschbandes auf der Basis der durch die Sprachbanderfassungsschaltung (23) erfaßten Sprachbandinformation;
einer Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) alternativ zu der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) zum Ausgeben eines Steuerungssignals zum Dämpfen des durch die Rauschband-Berechnungseinrichtung (16) berechneten Rauschbandes;
einer Rauschband-Selektions-/Dämpfungs-Einrichtung (18) alternativ zu der Sprachband-Selektions-/Anhebungs-Einrichtung (14) zum Selektieren des Rauschbandes aus dem Eingangssignal, aus welchem das Rauschen durch die Löscheinrichtung (34) entsprechend dem Steuerungssignal von der Band-Selektions-/Dämpfungs- /Steuerungs-Einrichtung (17) gelöscht ist, um dadurch nur das Rauschband zu dämpfen, so daß die Bandsynthetisierungseinrichtung (15) das durch die Rauschband-Selektions-/Dämpfungs-Einrichtung (18) gedämpfte Signal synthetisiert.
13. Sprachsignalverarbeitungsprozessor nach Anspruch 12, mit:
einer Formanten-Analyseeinrichtung (24) zum Ausführen einer Formanten-Analyse des Cepstrums durch die Cepstrum-Analyseeinrichtung (21), so daß die Sprach- Diskriminator-Schaltung (32) den Sprachteil auch durch Verwenden des Formanten- Analyseergebnisses diskriminiert.
14. Sprachsignalverarbeitungsprozessor nach Anspruch 10, mit:
einer Rauschband-Berechnungseinrichtung (16) zum Berechnen des Rauschbandes auf der Basis der durch die Sprachbanderfassungsschaltung (23) erfaßten Sprachbandinformation;
einer Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) zum Ausgeben eines Steuerungssignals zum Anheben des durch die Rauschband-Berechnungseinrichtung (16) berechneten Rauschbandes;
einer Anhebungs-/Dämpfungs-Einrichtung (35) welche die Sprachband-Selektions- /Anhebungs-Einrichtung (14) und eine Rauschband-Selektions-/Dämpfungs-Einrichtung (18) zum Selektieren des Sprachbandes aus dem Signal aufweist, aus welchem das Rauschen durch die Löscheinrichtung (34) entsprechend dem Steuerungssignal der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) gelöscht ist, um dadurch nur das Sprachband anzuheben, oder zum Selektieren des Rauschbandes entsprechend dem Steuerungssignal von der Band-Selektions-/Dämpfungs- /Steuerungs-Einrichtung (17), um dadurch nur das Rauschband zu dämpfen, so daß die Bandsynthetisierungseinrichtung (15) das durch die Anhebungs-/Dämpfungs- Einrichtung (35) angehobene/gedämpfte Signal synthetisiert.
15. Sprachsignalverarbeitungsprozessor nach Anspruch 10, mit:
einer Rauschleistungs-Berechnungseinrichtung (37) zum Berechnen der Größe des durch die Rauschvorhersageeinrichtung (33) vorhergesagten Eingangsrauschens;
einer Sprachsignalleistungs-Berechnungseinrichtung (36) zum Berechnen der Größe des durch die Sprachband-Selektions-/Anhebungs-Einrichtung (14) angehobenen Sprachsignals; und
einer Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) zum Berechnen des S/N-Verhältnisses zwischen dem durch die Sprachsignalleistungs-Berechnungsschaltung (36) berechneten Sprachsignal und der durch die Rauschleistungs- Berechnungseinrichtung (37) berechneten Rauschleistung,
dadurch gekennzeichnet, daß die Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) ein Steuerungssignal an die Sprachband-Selektions-/Anhebungs- Einrichtung (14) ausgibt, so daß das durch die Signal-Rausch-Berechnungseinrichtung (38) berechnete und in die Steuerungseinrichtung (13) eingegebene Signal- Rausch-Verhältnis ein vorherbestimtes Ziel-Signal-Rausch-Verhältnis wird.
16. Sprachsignalverarbeitungsprozessor nach Anspruch 12, mit:
einer Rauschleistungs-Berechungseinrichtung (37) zum Berechnen der Größe des durch die Rauschvorhersageinrichtung (33) vorhergesagten Eingangsrauschens;
einer Sprachsignalleistungs-Berechnungseinrichtung (36) zum Berechnen der Größe des Sprachsignals, welches durch die Rauschband-Selektions-/Dämpfungs-Einrichtung (18) relativ angehoben wird; und
einer Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) zum Berechnen des Signal-Rausch-Verhältnisses zwischen dem durch die Sprachsignalleistungs-Berechnungseinrichtung (36) berechneten Sprachsignal und der durch die Rauschleistungs-Berechnungseinrichtung (37) berechneten Rauschleistung,
dadurch gekennzeichnet, daß die Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) ein Steuerungssignal an die Rauschband-Selektions-/Dämpfungs- Einrichtung ausgibt, so daß das in die Steuerungseinrichtung eingegebene berechnete Signal-Rausch-Verhältnis ein vorbestimmter Ziel-Signal-Rausch-Wert wird.
17. Sprachsignalverarbeitungsprozessor nach Anspruch 1, mit:
einer Rauschvorhersageeinrichtung (33) zum Vorhersagen einer Rauschkomponente des von der Bandaufteilungseinrichtung (11) darin eingegebenen Signales;
einer Löschfaktor-Einstelleinrichtung (43) zum Einstellen eines Löschfaktors entsprechend der von der Tonhöhenfrequenzerfassungseinrichtung ausgegebenen Tonhöhenfrequenz;
einer Löscheinrichtung (41), in welche ein Ausgangssignal von der Rauschvorhersageeinrichtung (33), ein Ausgangssignal von der Bandaufteilungseinrichtung (11) und ein Signal von der Löschfaktor-Einstelleinrichtung (43) eingegeben wird zum Löschen der Rauschkomponente des Ausgangssignales von der Bandaufteilungseinrichtung (11) unter Berücksichtigung des Löschfaktors, bevor das Ausgangssignal der Bandaufteilungseinrichtung in die Sprach-Selektions-/Anhebungs-Einrichtung (14) eingespeist wird;
einer Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) zum Ausgeben eines Steuerungssignals zum Anheben des durch die Sprachband-Erfassungseinrichtung (23) erfaßten Sprachbandes;
wobei die Sprachband-Selektions-/Anhebungs-Einrichtung (14) ein Sprachsignalband des Signals anhebt, aus welchem das Rauschen durch die Löscheinrichtung (41) relativ zu einem Rauschsignalband entsprechend dem Steuerungssignal der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) gelöscht ist.
18. Sprachsignalverarbeitungsprozessor nach Anspruch 17, mit:
einer Rauschband-Berechnungseinrichtung (16) zum Berechnen des Rauschbandes auf der Basis der durch die Sprachband-Erfassungseinrichtung (23) erfaßten Sprachbandinformation;
einer Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) alternativ zu der Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) zum Ausgeben eines Steuerungssignals zum Dämpfen des durch die Rauschband-Berechnungseinrichtung (16) berechneten Rauschbandes;
einer Rauschband-Selektions-/Dämpfungs-Einrichtung alternativ zu der Sprachband- Selektions-/Anhebungs-Einrichtung (14) zum Selektieren des Rauschbandes des Eingangssignals, aus welchem das Rauschen durch die Löscheinrichtung (41) entsprechend dem Steuerungssignal der Band-Selektions-/Dämpfungs-/Steuerungs- Einrichtung (17) gelöscht ist, um dadurch nur das Rauschband zu dämpfen, so daß die Band-Synthetisierungseinrichtung das durch die Rauschband-Selektions-/Dämpfungs-Einrichtung gedämpfte Signal synthetisiert.
19. Sprachsignalverarbeitungsprozessor nach Anspruch 17, mit:
einer Rauschsignalleistungs-Berechnungseinrichtung (37) zum Berechnen der Größe des durch die Rauschvorhersageeinrichtung (33) vorhergesagten und darin eingegebenen Rauschens;
einer Sprachsignalleistungs-Berechnungseinrichtung (36) zum Berechnen der Größe des durch die Sprachband-Selektions-/Anhebungs-Einrichtung (14) angehobenen Sprachsignals; und
einer Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) zum Berechnen des Signal-Rausch-Verhältnisses zwischen dem durch die Sprachsignalleistungs-Berechnungseinrichtung (36) berechneten Sprachsignal und der durch die Rauschleistungssignal-Berechnungseinrichtung (37) berechneten Rauschsignalleistung,
wobei die Band-Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) ein Steuerungssignal an die Sprachband-Selektions-/Anhebungs-Einrichtung ausgibt, so daß das durch die Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) berechnete und in die Selektions-/Anhebungs-/Steuerungs-Einrichtung (13) eingegebene Signal- Rausch-Verhältnis ein vorbestimmter Ziel-Signal-Rausch-Wert wird.
20. Sprachsignalverarbeitungsprozessor nach Anspruch 18, mit:
einer Rauschsignal-Berechnungseinrichtung (37) zum Berechnen der Größe des durch die Rausch-Vorhersageeinrichtung (33) vorhergesagten und darin eingegebenen Rauschens und eingeben darin;
einer Sprachsignalleistungs-Berechnungseinrichtung (36) zum Berechnen der Größe des durch die Rauschband-Selektions-/Dämpfungs-Einrichtung (13) relativ angehobenen Sprachsignals; und
einer Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) zum Berechnen des Signal-Rausch-Verhältnisses zwischen dem durch die Sprachsignalleistungs-Berechnungseinrichtung (36) berechneten Sprachsignal und der durch die Rauschleistungs-Berechnungseinrichtung (37) berechneten Rauschleistung,
wobei die Band-Selektions-/Dämpfungs-/Steuerungs-Einrichtung (17) ein Steuerungssignal an die Rauschband-Selektions-/Dämpfungs-Einrichtung (18) ausgibt, so daß das durch die Signal-Rausch-Verhältnis-Berechnungseinrichtung (38) berechnete und in die Steuerungseinrichtung (17) eingegebene Signal-Rausch-Verhältnis ein vorbestimmter Ziel-Signal-Rausch-Wert wird.
DE69124005T 1990-05-28 1991-05-27 Sprachsignalverarbeitungsvorrichtung Expired - Fee Related DE69124005T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP13805790 1990-05-28
JP13805890 1990-05-28
JP13805690 1990-05-28

Publications (2)

Publication Number Publication Date
DE69124005D1 DE69124005D1 (de) 1997-02-20
DE69124005T2 true DE69124005T2 (de) 1997-07-31

Family

ID=27317589

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69124005T Expired - Fee Related DE69124005T2 (de) 1990-05-28 1991-05-27 Sprachsignalverarbeitungsvorrichtung

Country Status (4)

Country Link
US (1) US5228088A (de)
EP (1) EP0459362B1 (de)
KR (1) KR950013554B1 (de)
DE (1) DE69124005T2 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JPH07193548A (ja) * 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
FR2768545B1 (fr) 1997-09-18 2000-07-13 Matra Communication Procede de conditionnement d'un signal de parole numerique
FR2768544B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
FR2768546B1 (fr) * 1997-09-18 2000-07-21 Matra Communication Procede de debruitage d'un signal de parole numerique
US7415120B1 (en) 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
EP1076928B1 (de) * 1998-04-14 2010-06-23 Hearing Enhancement Company, Llc. Vom benutzer einstellbare lautstärkensteuerung zur höranpassung
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
AR024353A1 (es) 1999-06-15 2002-10-02 He Chunhong Audifono y equipo auxiliar interactivo con relacion de voz a audio remanente
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
EP1605439B1 (de) * 2004-06-04 2007-06-27 Honda Research Institute Europe GmbH Einheitliche Behandlung von aufgelösten und nicht-aufgelösten Oberwellen
EP1605437B1 (de) * 2004-06-04 2007-08-29 Honda Research Institute Europe GmbH Bestimmung einer gemeinsamen Quelle zweier harmonischer Komponenten
EP1686561B1 (de) * 2005-01-28 2012-01-04 Honda Research Institute Europe GmbH Feststellung einer gemeinsamen Fundamentalfrequenz harmonischer Signale
US8073148B2 (en) * 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
KR100744375B1 (ko) * 2005-07-11 2007-07-30 삼성전자주식회사 음성 처리 장치 및 방법
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
JP2010249940A (ja) * 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
WO2012070668A1 (ja) 2010-11-25 2012-05-31 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6135106B2 (ja) 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN111508513B (zh) * 2020-03-30 2024-04-09 广州酷狗计算机科技有限公司 音频处理方法及装置、计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3689035T2 (de) * 1985-07-01 1994-01-20 Motorola Inc Rauschminderungssystem.
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
EP0255529A4 (de) * 1986-01-06 1988-06-08 Motorola Inc Rahmenvergleichsverfahren zur worterkennung in einer umgebung mit viel lärm.

Also Published As

Publication number Publication date
DE69124005D1 (de) 1997-02-20
KR950013554B1 (ko) 1995-11-08
US5228088A (en) 1993-07-13
EP0459362A1 (de) 1991-12-04
KR910020640A (ko) 1991-12-20
EP0459362B1 (de) 1997-01-08

Similar Documents

Publication Publication Date Title
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE112009000805B4 (de) Rauschreduktion
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE69420027T2 (de) Rauschverminderung
EP1091349B1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69632626T2 (de) Adaptiver sprachsignalfilter
EP3490270B1 (de) Verfahren zum betrieb eines hörgerätes
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69106588T2 (de) Vorrichtung um Sprachgeräusch zu trennen.
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
DE112007003674T5 (de) Methode und Apparat zur Einkanal-Sprachverbesserung basierend auf einem latenzzeitreduzierten Gehörmodell
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
DE102018117558A1 (de) Adaptives nachfiltern
EP0669606A2 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee