DE69105154T2 - Sprachsignalverarbeitungsvorrichtung. - Google Patents

Sprachsignalverarbeitungsvorrichtung.

Info

Publication number
DE69105154T2
DE69105154T2 DE69105154T DE69105154T DE69105154T2 DE 69105154 T2 DE69105154 T2 DE 69105154T2 DE 69105154 T DE69105154 T DE 69105154T DE 69105154 T DE69105154 T DE 69105154T DE 69105154 T2 DE69105154 T2 DE 69105154T2
Authority
DE
Germany
Prior art keywords
vowel
consonant
signal
peak
cepstral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69105154T
Other languages
English (en)
Other versions
DE69105154D1 (de
Inventor
Joji Kane
Akira Nohara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP3321090A external-priority patent/JP2959791B2/ja
Priority claimed from JP2033211A external-priority patent/JP2959792B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69105154D1 publication Critical patent/DE69105154D1/de
Application granted granted Critical
Publication of DE69105154T2 publication Critical patent/DE69105154T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Selective Calling Equipment (AREA)
  • Communication Control (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

    1. Feld der Erfindung
  • Die vorliegende Erfindung betrifft eine Sprachsignalverarbeitungsvorrichtung, mit der Vokale bzw. Konsonanten in einem Sprachsignal erfaßt werden können.
  • 2. Stand der Technik
  • Fig. 1 ist ein Blockdiagramm einer bekannten Sprachsignalverarbeitungsvorrichtung. Bezugszeichen 11 bezeichnet einen Filtersteuerabschnitt, in den ein geräuschhaltiges Signal eingegeben wird, und der das Signal oder Geräusch erfaßt, Bezugszeichen 12 bezeichnet eine Bandfiltergruppe mit zahlreichen Bandfiltern, Bezugszeichen 13 bezeichnet einen Addierer. Der Filtersteuerabschnitt 11 steuert einen Filterkoeffizienten der Bandfiltergruppe in Reaktion auf den Geräusch- oder Signalanteil eines Eingangssignals, und die Bandfiltergruppe 12 umfaßt Bandfilter, die konfiguriert sind, um das Eingangssignal in geeignete Bänder zu zerlegen und die Durchgangsbandcharakteristik durch ein Steuersignal vom Filtersteuerabschnitt 11 festzulegen.
  • Der Betrieb der oben beschriebenen bekannten Sprachsignalverarbeitungsvorrichtung wird im folgenden erläutert.
  • Ein Eingangssignal, in dem ein Geräusch einer Stimme überlagert ist, wird dem Filtersteuerabschnitt 11 zugeführt. Der Filtersteuerabschnitt 11 bestimmt aus dem zugeführten Signal zu jedem Band der Bandfiltergruppe 12 eine Geräuschkomponente und liefert einen Filterkoeffizienten, der es ermöglicht, daß die Geräuschkomponente die Bandfiltergruppe 12 nicht durchläuft. Die Bandfiltergruppe 12 unterteilt das Eingangssignal in passende Bänder, läßt das Eingangssignal in geeigneter Weise durch unter Verwendung der vom Filtersteuerabschnitt 11 für jedes Band eingegebenen Filterkoeffizienten und liefert das Signal an den Addierer 13. Der Addierer 13 mischt die von der Bandfiltergruppe 12 in geeignete Bänder unterteilten Signale, um ein Ausgangssignal zu erzeugen.
  • Bei diesem Betrieb wird das Durchgangsniveau der geräuschhaltigen Bänder des Eingangssignals durch die Bandfiltergruppe 12 verringert. Auf diese Weise wird ein Signal mit verringertem Rauschanteil erhalten.
  • Da das Auftreten von Geräuschen nicht immer mit der Artikulation zusammenfällt hat die vorbekannte Signalverarbeitungsvorrichtung den Nachteil, daß zwar das Geräusch niedrig gehalten werden kann, die Artikulation aber nicht verbessert wird.
  • Eine Vorrichtung und ein Verfahren zur Signalverarbeitung nach den Oberbegriffen der Ansprüche 1 bzw. 5 sind aus AM Noll, "Cepstrum Pitch Determination", Journal of the Acoustical Society of America, Bd. 41 (1966), S. 293 - 309 bekannt.
  • Kurzbeschreibung der Erfindung
  • Durch die vorliegende Erfindung soll eine Sprachsignalverarbeitungsvorrichtung geschaffen werden, bei der die Erfassung von Vokalen und Konsonanten verbessert ist. Eine Sprachsignalverarbeitungsvorrichtung nach Anspruch 1 umfaßt:
  • Eine Frequenzanalyseeinrichtung für die Frequenzanalyse einer Spracheingangssignals;
  • eine Cepstralanalyseeinrichtung für die Cepstralanalyse des Ausgangssignals der Frequenzanalyseeinrichtung;
  • eine Spitzenerfassungseinrichtung für die Erfassung einer cepstralen Spitze des cepstralanalysierten Ausgangssignals der Cepstralanalyseeinrichtung;
  • eine Mittelwertberechnungseinrichtung zum Berechnen eines Mittelwertniveaus des cepstralanalysierten Ausgangssignals der Ceptralanalyseeinrichtung; und
  • eine Vokal/Konsonantenerfassungseinrichtung für die Unterscheidung eines Vokals von einem Konsonanten auf Grundlage der von der Spitzenerfassungseinrichtung erfaßten Spitzeninformation und der Mittelwertinformation von der Mittelwertberechnungseinrichtung, wobei ein Vokal anhand der Spitze und ein Konsonant anhand des Mittelwertniveaus erfaßt wird.
  • Eine Sprachsignalverarbeitungsvorrichtung nach Anspruch 2 hat entsprechend Anspruch 1 eine Vokal/Konsonantenerfassungseinrichtung mit:
  • einem ersten Komparator für den Vergleich der von der Spitzenerfassungseinrichtung erfaßten Spitze mit einem von einem ersten Schwellwerteinstellabschnitt eingestellten Schwellwert;
  • einen zweiten Komparator zum Vergleichen des von der Mittelwertberechnungseinrichtung berechneten Mittelwerts mit einem von einem zweiten Schwellwerteinstellabschnitt eingestellten vorgegebenen Schwellwert; und
  • eine Vokal/Konsonantenerfassungsschaltung für die Erfassung eines Vokals und eines Konsonanten auf Grundlage der Vergleichsergebnisse des ersten und zweiten Komparators und zum Ausgeben des erfaßten Ergebnisses.
  • Mit der vorliegenden Erfindung soll eine Sprachsignalverarbeitungsvorrichtung geschaffen werden, mit der Vokale und Konsonanten erfaßt und durch Rauschunterdrückung anhand des Erfassungsergebnisses ein gut artikuliertes Signal erhalten werden kann.
  • Eine Sprachsignalverarbeitungsvorrichtung nach Anspruch 3 umfaßt zusätzlich zu den Merkmalen des Anspruchs 1
  • eine Unterdrückungskoeffizienteneinstelleinrichtung für die Einstellung eines Unterdrückungskoeffizienten unter Verwendung des Erfassungsergebnisses der Vokal/Konsonantenerfassungseinrichtung;
  • eine Geräuschvorhersageeinrichtung, in die das fouriertransformierte Sprachsignal eingegeben wird, und die dessen Rauschanteil vorhersagt;
  • eine Unterdrückungseinrichtung, in die das Geräuschvorhersageausgangssignal der Geräuschvorhersageeinrichtung, das Sprachsignal und das von der Unterdrückungskoeffizienteneinstelleinrichtung eingestellte Unterdrückungskoeffizientensignal eingegeben werden, und die unter Berücksichtigung des Unterdrückungsverhältnisses eine Geräuschkomponente aus dem Sprachsignal unterdrückt; und
  • eine Signalzusammensetzungseinrichtung zum Zusammensetzen des unterdrückten Ausgangssignals der Unterdrückungseinrichtung.
  • Eine Sprachsignalverarbeitungsvorrichtung nach Anspruch 4 ist dadurch gekennzeichnet, daß die Frequenzanalyseeinrichtung eine Bandunterteilungseinrichtung zum Unterteilen eines Spracheingangssignals in Bänder ist.
  • Kurzbeschreibung der Zeichnungen
  • Fig. 1 ist ein Blockdiagramm, das eine bekannte Sprachsignalverarbeitungsvorrichtung zeigt;
  • Fig. 2 ist ein Blockdiagramm, das eine Ausgestaltung einer Sprachsignalverarbeitungsvorrichtung gemäß der vorliegenden Erfindung zeigt;
  • Fig. 3 ist ein Graph, der eine cepstrale Spitze bei der Ausgestaltung zeigt;
  • Fig. 4 ist ein Blockdiagramm, das eine andere Ausgestaltung einer Sprachsignalverarbeitungsvorrichtung gemäß der vorliegenden Erfindung zeigt;
  • Fig. 5 ist ein Blockdiagramm, das eine andere Ausgestaltung einer Sprachsignalverarbeitungsvorrichtung gemäß der vorliegenden Erfindung zeigt;
  • Fig. 6 ist ein Graph, anhand dessen das erfindungsgemäße Geräuschvorhersageverfahren erläutert wird;
  • Fig. 7 und 8 sind Schwingungsformdiagramme zur Erläuterung eines erfindungsgemäßen Unterdrückungsverfahrens;
  • Fig. 9 ist ein Blockdiagramm, das eine weitere Ausgestaltung einer erfindungsgemäßen Sprachsignalverarbeitungsvorrichtung zeigt; und
  • Fig. 10 ist ein Graph zur Erläuterung eines erfindungsgemäßen Unterdrückungskoeffizienten.
  • Fig. 2 ist ein Blockdiagramm einer Sprachsignalverarbeitungsvorrichtung nach einer Ausgestaltung der vorliegenden Erfindung. In Fig. 2 bezeichnet Bezugszeichen 1 eine Bandunterteilungseinrichtung als Beispiel für eine Frequenzanalyseeinrichtung zur Frequenzanalyse eines Signals, insbesondere eine FFT-Einrichtung für die Fouriertransformation eines Signals, und Bezugszeichen 2 bezeichnet eine Cepstralanalyseeinrichtung zur Durchführung einer Cepstralanalyse als Beispiel für eine Tonlagengewinnungs- und -analyseeinrichtung. Der Ausdruck "Cepstrum", der vom Ausdruck "Spektrum" abgeleitet ist, ist in dieser Anmeldung symbolisch bezeichnet durch c(τ) und wird durch inverse Fouriertransformation des Logarithmus eines Kurzzeitspektrums S(ω) erhalten.
  • Die Dimension von τ ist die Zeit. Die Zeit τ wird bezeichnet als "Quefrenz" (was vom Wort "Frequenz" abgeleitet ist). Bezugszeichen 3 bezeichnet eine Spitzenerfassungseinrichtung als Beispiel einer Tonlagenerfassungseinrichtung zum Erfassen einer Spitze der Cepstralverteilung, Bezugszeichen 4 ist eine Mittelwertberechnungseinrichtung zum Berechnen des Mittelwerts der Cepstralverteilung, und Bezugszeichen 5 ist eine Vokal/Konsonantenerfassungseinrichtung zum Erfassen eines Vokals und eines Konsonanten aus rauschhaltigen Eingangssignalen.
  • Die FFT-Einrichtung 1 führt also eine schnelle Fouriertransformation eines Sprach-Eingangssignals durch und liefert das transformierte Signal an die Cepstralanalyseeinrichtung 2. Die Cepstralanalyseeinrichtung 2 bestimmt ein Cepstrum des spektralen Signals und liefert das Cepstrum an die Spitzenerfassungseinrichtung 3 und die Mittelwertberechnungseinrichtung 4. Fig. 3 (a) zeigt einen Graphen eines solchen Spektrums und (b) zeigt einen Graphen eines solchen Cepstrums. Die Spitzenerfassungseinrichtung 3 erfaßt eine Spitze des von der Cepstralanalyseeinrichtung 2 erhaltenen Cepstrums und liefert die Spitze an die Vokal/Konsonantenerfassungseinrichtung 5.
  • Die Mittelwertberechnungseinrichtung 4 hingegen berechnet einen Mittelwert des von der Cepstralanalyseeinrichtung 2 erhaltenen Cepstrums und liefert den Mittelwert an die Vokal/Konsonantenerfassungseinrichtung 5. Die Vokal/Konsonantenerfassungseinrichtung 5 erfaßt einen Vokal und einen Konsonanten des Spracheingangssignals unter Verwendung der von der Spitzenerfassungseinrichtung 3 gelieferten Spitze und des von der Mittelwertberechnungseinrichtung 4 gelieferten Mittelwert und gibt das erfaßte Ergebnis als Erfassungsausgangssignal aus.
  • Die Funktion der Sprachsignalverarbeitungsvorrichtung gemäß der wie oben aufgebauten Ausgestaltung der vorliegenden Erfindung wird im folgenden beschrieben.
  • Ein Spracheingangssignal wird von der FFT-Einrichtung 1 schnell fouriertransformiert, ein Cepstrum davon wird von der Cepstralanalyseeinrichtung 2 bestimmt, eine Spitze des Cepstrums wird von der Spitzenerfassungseinrichtung 3 bestimmt. Der Mittelwert des Cepstrums wird von der Mittelwertberechnungseinrichtung 4 bestimmt. Wenn ein Signal von der Spitzenerfassungseinrichtung 3 in die Vokal/Konsonantenerfassungseinrichtung 5 eingegeben wird, das anzeigt, daß eine Spitze erfaßt worden ist, so bestimmt diese, daß das eingegebene Sprachsignal ein Vokalbereich ist. Bei der Erfassung eines Konsonanten, z.B. wenn der von der Mittelwertberechnungseinrichtung 4 eingegebene Mittelwert des Cepstrums größer als ein vorgegebener Wert ist oder wenn eine Zunahme des Mittelwerts des Cepstrums (differentieller Koeffizient) größer ist als ein vorgegebener Wert, wird das Spracheingangssignal als Konsonantenbereich bestimmt. Als Ergebnis wird ein Signal, das einen Vokal/Konsonanten anzeigt, oder ein Signal, das einen Sprachbereich mit einem Vokal und einem Konsonanten anzeigt, ausgegeben.
  • Gemäß der vorliegenden Erfindung wie oben beschrieben ermöglicht die Erfassung eines Vokals und eines Konsonanten die genaue Bestimmung des Sprachbereichs.
  • Eine andere Ausgestaltung der vorliegenden Erfindung wird im folgenden beschrieben.
  • Fig. 4 ist ein Blockdiagramm, das die Ausgestaltung zeigt. Gleichen Einrichtungen wie in der Ausgestaltung der Fig. 2 sind gleiche Bezugszeichen zugewiesen. Das Bezugszeichen 1 bezeichnet eine FFT-Einrichtung für die schnelle Fouriertransformation eines Sprachsignals, Bezugszeichen 2 bezeichnet eine Cepstralanalyseeinrichtung zum Bestimmen eines Cepstrums des fouriertransformierten spektralen Signals, Bezugszeichen 3 bezeichnet eine Spitzenerfassungseinrichtung zum Erfassen einer Spitze auf Grundlage des Ergebnisses der Cepstralanalyse und Bezugszeichen 4 bezeichnet eine Mittelwertberechnungseinrichtung zum Berechnen eines Mittelwerts des Cepstrums.
  • Die Vokal/Konsonantenerfassungseinrichtung 5 umfaßt Einrichtungen wie unten beschrieben.
  • Ein erster Komparator 52 ist eine Schaltung, die die von der Spitzenerfassungseinrichtung 3 erhaltene Spitzeninformation mit einem von einem ersten Schwellwerteinstellabschnitt 51 eingestellten vorgegebenen Schwellwert vergleicht und das Ergebnis ausgibt. Der erste Schwellwerteinstellabschnitt 51 ist eine Einrichtung zum Einstellen eines Schwellwerts in Abhängigkeit vom durch die Mittelwertberechnungseinrichtung 4 erhaltenen Mittelwert.
  • Ein zweiter Komparator 53 ist eine Schaltung, die einen von einem zweiten Schwellwerteinstellabschnitt 54 eingestellten vorgegebenen Schwellwert mit dem von der Mittelwertberechnungseinrichtung 4 erhaltenen Mittelwert vergleicht und das Ergebnis ausgibt.
  • Eine Vokal/Konsonantenerfassungseinrichtung ist eine Schaltung, die auf Grundlage des Vergleichsergebnisses des ersten Komparators und des Vergleichsergebnisses des zweiten Komparators 53 bestimmt, ob ein eingegebenes Sprachsignal ein Vokal oder ein Konsonant ist.
  • Der Betrieb der obigen Ausgestaltung wird im folgenden beschrieben.
  • Die FFT-Einrichtung 1 führt eine schnelle Fouriertransformation eines Sprachsignals durch. Die Cepstralanalyseeinrichtung 2 bestimmt ein Cepstrum des fouriertransormierten Signals. Die Spitzenerfassungseinrichtung 3 erfaßt eine Spitze des bestimmten Cepstrums. Die Mittelwertberechnungseinrichtung 4 berechnet einen Mittelwert des bestimmten Cepstrums.
  • Dann setzt die erste Schwellwerteinstelleinrichtung 51 einen Schwellwert als Kriterium fest, anhand dessen bestimmt wird, ob die von der Spitzenerfassungseinrichtung 3 erhaltene Spitze ein Vokal ist oder nicht. Die Einrichtung 51 setzt den Schwellwert mit Bezug auf den von der Mittelwertberechnungseinrichtung 4 erhaltenen Mittelwert fest. Wenn z.B. der Mittelwert groß ist, wird die Schwelle auf einen hohen Wert gesetzt, so daß eine einen Vokal darstellende Spitze mit Sicherheit ausgewählt werden kann.
  • Der erste Komparator 52 vergleicht den von der ersten Schwellwerteinstelleinrichtung 51 eingestellten Schwellwert mit der von der Spitzenerfassungseinrichtung 3 erfaßten Spitze und gibt das Vergleichsergebnis aus.
  • Die zweite Schwellwerteinstelleinrichtung 54 setzt einen vorgegebenen Schwellwert. Der vorgegebene Schwellwert ist ein Schwellwert des Mittelwerts selber oder ein Schwellwert eines Differentialkoeffizienten, der eine Steigerungstendenz des Mittelwerts angibt. Der zweite Komparatur 53 vergleicht den von der Mittelwertberechnungseinrichtung 4 erhaltenen Mittelwert mit dem von der zweiten Schwellwerteinstelleinrichtung 54 eingestellten Schwellwert und gibt das Vergleichsergebnis aus. Das heißt, der Komparator 53 vergleicht einen berechneten Mittelwert mit einem Schwell-Mittelwert, oder er vergleicht einen Zunahmewert des berechneten Mittelwerts mit einem Differentialkoeffizientenschwellwert.
  • Die Vokal/Konsonantenerfassungsschaltung 55 erfaßt einen Vokal und einen Konsonanten auf Grundlage des Vergleichsergebnisses des ersten Komparators 52 und des Vergleichsergebnisses des zweiten Komparators 53. Wenn eine Spitze anhand des Vergleichsergebnisses des ersten Komparators 52 mit Sicherheit erfaßt worden ist, wird der Bereich als Vokal bestimmt. Wenn ein Mittelwert den Schwellwert für das Vergleichsergebnis des zweiten Komparators 53 überschreitet, wird der Bereich als Konsonant festgelegt. Alternativ dazu vergleicht die Schaltung 55 eine Zunahme des Mittelwerts mit einem Differentialkoeffizienten des Schwellwerts, und wenn die Mittelwertzunahme den Differentialkoeffizientenschwellwert überschreitet, wird der Bereich als Konsonant bestimmt.
  • Die Erfassung durch die Vokal/Konsonantenerfassungseinrichtung 55 kann auch so durchgeführt werden, daß wenn als Kennzeichen eines Bereichs mit Stimmvokal und Konsonant z.B. angenommen wird, daß der Konsonant von einem Vokal begleitet wird, ein Konsonant erkannt wird, wenn dieser von einem Vokal begleitet wird. Das heißt, um die Unterscheidung eines Geräuschs von einem Konsonanten sicherer zu machen, wird das Signal auch dann als Geräusch bestimmt, wenn auf ein anhand seines Mittelwerts als Konsonant bestimmtes Signal kein Vokalbereich folgt.
  • Die vorliegende Erfindung ist zwar als Computersoftware implementiert, kann aber auch als spezialisierte Schaltung implementiert werden.
  • Wie sich aus der obigen Beschreibung ergibt, umfaßt die vorliegende Erfindung eine Tonlagenextraktions- und Analyseeinrichtung zum Extrahieren und Analysieren einer Tonlage (pitch) eines frequenzanalysierten Signals, eine Tonlagenauswahleinrichtung zum Erfassen einer Tonlage des analysierten Ausgangssignals, eine Mittelwertberechnungseinrichtung zum Berechnen eines Mittelwertniveaus des extrahierten und analysierten Tonlagenausgangssignals sowie eine Vokal/Konsonantenerfassungseinrichtung zum Unterscheiden eines Vokals von einem Konsonanten auf Grundlage der Tonlagenerfassungsinformation von der Tonlagenauswahleinrichtung und der Mittelwertinformation von der Mittelwertberechnungseinrichtung, wobei ein Vokal anhand der Tonlage und ein Konsonant anhand des Mittelwertniveaus bestimmt werden, was dazu führt, daß ein Vokal und ein Konsonant sicher erfaßt werden können, um so eine Stimme korrekt zu erfassen.
  • Entsprechend den Zeichnungen wird eine weitere Ausgestaltung der vorliegenden Erfindung im folgenden beschrieben.
  • Fig. 5 ist ein Blockdiagramm einer Sprachsignalverarbeitungsvorrichtung nach einer Ausgestaltung der vorliegenden Erfindung. In Fig. 5 bezeichnet Bezugszeichen 518 eine Bandunterteilungseinrichtung zum Aufteilen des Signals auf Frequenzbänder als Beispiel für eine Frequenzanalyseeinrichtung zum Durchführen einer Frequenzanalyse eines Signals, insbesondere eine FFT-Einrichtung zur Fouriertransformation des Signals; Bezugszeichen 528 bezeichnet eine Cepstralanalyseeinrichtung zum Durchführen einer Cepstralanalyse, das Bezugszeichen 538 bezeichnet eine Spitzenerfassungseinrichtung zum Erfassen einer Spitze einer cepstralen Verteilung, Bezugszeichen 548 bezeichnet eine Mittelwertberechnungseinrichtung zum Berechnen eines Mittelwerts der cepstralen Verteilung, und Bezugszeichen 558 bezeichnet eine Vokal/Konsonantenerfassungseinrichtung zum Erfassen eines Vokals und eines Konsonanten. Die FFT-Einrichtung 518 führt eine schnelle Fouriertransformation eines Spracheingangssignals durch und liefert das Transformationsergebnis an die Cepstralanalyseeinrichtung 528. Die Cepstralanalyseeinrichtung 528 bestimmt ein Cepstrum des Signals und liefert das Cepstrum an die Spitzenerfassungseinrichtung 538 und die Mittelwertberechnungseinrichtung 548. Fig. 3 (a) und (b) zeigen die Graphen eines solchen Spektrums bzw. Cepstrums. Die Spitzenerfassungseinrichtung 538 erfaßt eine Spitze des durch die Cepstralanalyseeinrichtung 528 erhaltenen Cepstrums und liefert die Spitze an die Vokal/Konsonantenerfassungseinrichtung 558.
  • Die Mittelwertberechnungseinrichtung 548 hingegen berechnet einen Mittelwert des von der Cepstralanalyseeinrichtung 528 erhaltenen Cepstrums und liefert den Mittelwert an die Vokal/Konsonantenerfassungseinrichtung 558. Die Vokal/Konsonantenerfassungseinrichtung 558 erfaßt einen Vokal bzw. einen Konsonanten des Spracheingangssignals anhand der von der Spitzenerfassungseinrichtung 538 gelieferten Spitze und des von der Mittelwertberechnungseinrichtung 548 gelieferten Mittelwerts des Cepstrums und gibt das Erkennungsergebnis aus. Das Bezugszeichen 568 bezeichnet eine Geräuschvorhersageeinrichtung, in die das Ausgangssignal der FFT-Einrichtung 518 eingegeben wird, um eine Geräuschkomponente vorherzusagen, Bezugszeichen 588 bezeichnet eine Unterdrükkungseinrichtung zum Unterdrücken des Geräuschs in einer noch zu beschreibenden Weise, und Bezugszeichen 598 bezeichnet eine Bandzusammensetzungseinrichtung als Beispiel für eine Signalzusammensetzungseinrichtung, insbesondere eine IFFT-Einrichtung zum Durchführen einer inversen Fouriertransformation. Die Geräuschvorhersageeinrichtung 568 sagt eine Geräuschkomponente für jeden Kanal auf Grundlage eines auf m Kanäle verteilten Sprach/Geräusch-Eingangssignals voraus und liefert das Vorhersageergebnis an die Unterdrükkungseinrichtung 588. Die Geräuschvorhersage wird z.B. so wie in Fig. 6 gezeigt durchgeführt. Wenn die X-Achse eine Frequenz darstellt, die Y-Achse einen Geräuschpegel und die Z-Achse eine Zeit und Daten p1, p2 bis pi bei der Frequenz f&sub1; verwendet werden, wird der folgende Wert pj vorhergesagt. Wenn z.B. ein Mittelwert der Geräuschkomponenten p1 bis pi berechnet wird, wird der Mittelwert als pj genommen.
  • Alternativ wird, wenn danach ein Sprachsignalabschnitt weitergeht, pj mit einem Abschwächungskoeffizienten multipliziert. Die Unterdrückungseinrichtung 588 ist eine Einrichtung, in die ein m-kanaliges Signal von der FFT-Einrichtung 1 und der Geräuschvorhersageeinrichtung 568 eingegeben wird, und die Geräusch unterdrückt durch Subtrahieren des Geräuschs in jedem Kanal in Reaktion auf eine Unterdrückungskoeffizienteneingabe, und die das rauschunterdrückte Signal an die IFFT-Einrichtung 598 liefert. Das heißt die Unterdrückungseinrichtung 588 unterdrückt Geräusch durch Multiplizieren der vorhergesagten Geräuschkomponente mit einem Unterdrückungskoeffizienten.
  • Im allgemeinen wird die Unterdrückung bezogen auf die Zeitachse als Beispiel für ein Unterdrückungsverfahren durchgeführt, indem eine vorhergesagte Geräuschschwingungsform (b) von einem geräuschhaltigen Sprachsignal (a) abgezogen wird. Durch eine solche Berechnung wird nur das Signal herausgeführt, wie in Fig. 7 (c) gezeigt. Außerdem wird, wie in Fig. 8 gezeigt, die Unterdrückung bezogen auf eine Bezugsfrequenz durchgeführt, indem ein geräuschhaltiges Sprachsignal (a) fouriertransformiert wird (b), dann ein vorhergesagtes Geräuschspektrum (c) vom Transformationsergebnis abgezogen wird (d) und das Ergebnis invers fouriertransformiert wird, um ein geräuschunterdrücktes Sprachsignal (e) zu erhalten. Die IFFT-Einrichtung 598 führt eine inverse Fouriertransformation des m-kanaligen Signals durch, das von der Unterdrükkungseinrichtung 588 geliefert wird, um ein Sprachausgangssignal zu erhalten.
  • Die Unterdrückungskoeffizienteneinstelleinrichtung 578 legt einen Unterdrückungskoeffizienten geeignet fest, wobei sie die von der Vokal/Konsonantenerfassungseinrichtung 558 erfaßte Vokal/Konsonantenbereichsinformation verwendet. Zum Beispiel wird im Sprachbereich, um eine gute Artikulation durch beabsichtigtes Nichtunterdrücken der Geräuschkomponente zu sichern und zu erhalten, der Unterdrückungskoeffizient klein gemacht, wohingegen in anderen Geräuschabschnitten, um die Geräuschkomponente vollständig zu unterdrücken, der Unterdrückungskoeffizient groß gemacht wird. Die vorliegende Erfindung erfaßt nicht nur einen Vokal, sondern auch einen Konsonanten mit Sicherheit, so daß eine ausreichend gute Artikulation einer Stimme erreicht werden kann.
  • Der Betrieb einer wie oben beschrieben aufgebauten Sprachsignalverarbeitungsvorrichtung als Ausgestaltung der vorliegenden Erfindung wird im folgenden beschrieben.
  • Ein Spracheingangssignal wird durch die FFT-Einrichtung 518 schnell fouriertransformiert, ein Cepstrum davon wird durch die Cepstralanalyseeinrichtung 528 bestimmt und eine Spitze des Cepstrums wird durch die Spitzenerfassungseinrichtung 538 bestimmt. Außerdem wird ein Mittelwert des Cepstrums durch die Mittelwertberechnungseinrichtung 548 bestimmt.
  • Wenn ein Signal, das anzeigt, daß die Spitze erfaßt worden ist, von der Spitzenerfassungseinrichtung 538 eingegeben wird, bestimmt die Vokal/Konsonantenerfassungseinrichtung 548, daß das Spracheingangssignal ein Vokalbereich ist. Zur Erfassung eines Konsonanten wird z.B., wenn der von der Mittelwertberechnungseinrichtung 548 eingegebene Mittelwert des Cepstrums größer als ein vorgegebener Wert ist, oder wenn eine Zunahme des Mittelwerts des Cepstrums (Differentialkoeffizient) größer als ein vorgegebener Wert ist, das Spracheingangssignal als Konsonantenbereich bestimmt. Als Ergebnis wird ein Signal ausgegeben, das einen Vokal/Konsonanten anzeigt oder ein Signal, das einen Sprachbereich mit einem Vokal und einem Konsonanten anzeigt.
  • Die Geräuschkomponente eines geräuschhaltigen Sprach/Geräusch-Eingangssignals wird für jeden Kanal durch die Geräuschvorhersageeinrichtung 568 vorhergesagt. Die von der Geräuschvorhersageeinrichtung 568 gelieferte Geräuschkomponente wird im Sprach/Geräusch-Eingangssignal für jeden Kanal durch die Unterdrückungseinrichtung 588 unterdrückt. Das Geräuschunterdrückungsverhältnis wird dabei geeignet festgelegt, um die Artikulation für jeden Kanal zu verbessern, indem ein Unterdrückungskoeffizient von der Unterdrückungskoeffizienteneinstelleinrichtung 578 eingegeben wird. Zum Beispiel wird wie oben beschrieben im Sprachbereich, um gute Artikulation durch beabsichtigtes Nichtunterdrücken der Geräuschkomponente zu sichern und zu erhalten, der Unterdrükkungskoeffizient klein gemacht, wohingegen in anderen Geräuschbereichen der Unterdrückungskoeffiziert groß gemacht wird, um die Geräuschkomponente vollständig zu unterdrücken. Die vorliegende Erfindung erfaßt mit Sicherheit auch einen Konsonanten, der nicht an einen Vokal angrenzt, so daß eine ausreichend gute Sprachartikulation erhalten werden kann. Dann führt die IFFT-Einrichtung 598 eine inverse Fouriertransformation des geräuschunterdrückten m-kanaligen Signals aus der Unterdrückungseinrichtung 588 durch und gibt das transformierte Signal als Sprachsignal aus.
  • Bei der vorliegenden Ausgestaltung wie oben beschrieben wird das Geräuschunterdrückungsverhältnis der Unterdrückungseinrichtung 588 für jedes Band geeignet durch ein Unterdrükkungskoeffizienteneingangssignal vorgegeben, und das Sprache entsprechende Unterdrückungskoeffizienteneingangssignal wird mit hoher Genauigkeit ausgewählt, so daß ein artikuliertes, geräuschunterdrücktes Sprachausgangssignal erhalten werden kann.
  • Eine weitere Ausgestaltung der vorliegenden Erfindung wird im folgenden beschrieben.
  • Fig. 9 zeigt ein Blockdiagramm dieser Ausgestaltung. Für gleiche Einrichtungen werden gleiche Bezugszeichen wie in Fig. 5 verwendet. Das heißt, Bezugszeichen 518 bezeichnet eine FFT-Einrichtung für die schnelle Fouriertransformation eines Sprachsignals, Bezugszeichen 528 bezeichnet eine Cepstralanalyseeinrichtung zum Bestimmen eines Cepstrums des fourierfransformierten Spektralsignals, Bezugszeichen 538 bezeichnet eine Spitzenerfassungseinrichtung zum Erfassen einer Spitze auf Grundlage des Ergebnisses der Cepstralanalyse, Bezugszeichen 548 bezeichnet eine Mittelwertberechnungseinrichtung zum Berechnen eines Mittelwerts des Cepstrums, Bezugszeichen 568 bezeichnet eine Geräuschvorhersageeinrichtung, Bezugszeichen 588 eine Unterdrückungseinrichtung, Bezugszeichen 598 eine IFFT-Einrichtung und Bezugszeichen 578 eine Unterdrückungskoeffizienteneinstelleinrichtung. Die Vokal/Konsonantenerfassungseinrichtung 558 hat die folgenden Einrichtungen, wie in Fig. 4 beschrieben: Ein erster Komparator 52 ist eine Schaltung, die die durch die Spitzenerfassungseinrichtung 538 erhaltene Spitzeninformation mit einem durch einen ersten Schwellwerteinstellabschnitt 51 eingestellten vorgegebenen Schwellwert vergleicht und das Ergebnis ausgibt. Der erste Schwellwerteinstellabschnitt 51 stellt den Schwellwert in Reaktion auf den von der Mittelwertberechnungseinrichtung 548 erhaltenen Mittelwert ein.
  • Ein zweiter Komparator 53 ist eine Schaltung, die ein durch einen zweiten Schwellwerteinstellabschnitt 54 eingetellten vorgegebenen Schwellwert mit einem von der Mittelwertberechnungseinrichtung 548 ausgegebenen Mittelwert vergleicht und das Ergebnis ausgibt.
  • Eine Vokal/Konsonantenerfassungsschaltung 55 bestimmt auf Grundlage des Vergleichsergebnisses des ersten Komparators 52 und des Vergleichsergebnisses des zweiten Komparators 53, ob ein Spracheingangssignal ein Vokal oder ein Konsonant ist.
  • Der Betrieb der obigen Ausgestaltung wird im folgenden beschrieben.
  • Die FFT-Einrichtung 518 führt eine schnelle Fouriertransformation des Sprachsignals durch. Die Cepstralanalyseeinrichtung 528 bestimmt ein Cepstrum des fouriertransformierten Signals. Die Spitzenerfassungseinrichtung 538 erfaßt eine Spitze des bestimmten Cepstrums. Die Mittelwertberechnungseinrichtung 548 hingegen berechnet einen Mittelwert des bestimmten Cepstrums.
  • Dann stellt der erste Schwellwerteinstellabschnitt 51 einen Schwellwert als Kriterium ein, anhand dessen bestimmt wird, ob die durch die Spitzenerfassungseinrichtung 538 erhaltene Spitze ein Vokal ist oder nicht. Dabei stellt die Einrichtung 51 den Schwellwert mit Bezug auf den von der Mittelwertberechnungseinrichtung 548 erhaltenen Mittelwert ein. Wenn z.B. der Mittelwert groß ist, wird der Schwellwert auf einen hohen Wert eingestellt, so daß eine einen Vokal darstellende Spitze mit Sicherheit ausgewählt werden kann.
  • Der erste Komparator 52 vergleicht den von der ersten Schwellwerteinstelleinrichtung 51 eingestellten Schwellwert mit der von der Spitzenerfassungseinrichtung 538 erfaßten Spitze und gibt das Vergleichsergebnis aus.
  • Der zweite Schwellwerteinstellabschnitt 54 hingegen stellt einen vorgegebenen Schwellwert ein. Der vorgegebene Schwellwert ist ein Schwellwert des Mittelwerts selber oder ein Schwellwert eines Differentialkoeffizienten, der eine Zunahmetendenz des Mittelwerts anzeigt. Dann vergleicht der zweite Komparator 53 den von der Mittelwertberechnungseinrichtung 548 erhaltenen Mittelwert mit dem von der zweiten Schwellwerteinstelleinrichtung 54 eingestellten Schwellwert und gibt das Vergleichsergebnis aus. Das heißt, der Komparator 53 vergleicht einen berechneten Mittelwert mit einem Schwellmittelwert oder er vergleicht einen Zunahmewert des berechneten Mittelwerts mit einem Differentialkoeffizientenschwellwert.
  • Die Vokal/Konsonantenerfassungsschaltung 55 erfaßt einen Vokal und einen Konsonanten auf Grundlage des Vergleichsergebnisses des ersten Komparators 52 und des Vergleichsergebnisses des zweiten Komparators 53. Wenn mit Bezug auf das Vergleichsergebnis des ersten Komparators 52 eine Spitze sicher erfaßt worden ist, wird der Bereich als Vokal bestimmt. Wenn ein Mittelwert den Schwellwert bezüglich des Vergleichsergebnisses des zweiten Komparators 53 überschreitet, wird der Bereich als Konsonant bestimmt. Alternativ dazu vergleicht die Schaltung 55 eine Zunahme des Mittelwerts mit einem Differentialkoeffizienten des Schwellwerts, und wenn der Mittelwert den Schwellwert überschreitet, wird der Bereich als Konsonant bestimmt.
  • Eie Erfassung durch die Vokal/Konsonanten-Erfassungseinrichtung 55 kann auch dadurch durchgeführt werden, daß wenn z.B. als Kennzeichen des Bereichs mit Sprachvokal und Konsonant angenommen wird, daß ein Konsonant von einem Vokal begleitet wird, ein Konsonant bestimmt wird, wenn dieser von einem Vokal begleitet ist. Das heißt, um ein Geräusch mit größerer Sicherheit von einem Konsonanten zu unterscheiden, wird ein Signal, auch wenn es anhand seines Mittelwerts als Konsonant bestimmt wird, als Geräusch bestimmt, wenn darauf kein Vokalbereich folgt.
  • Die Unterdrückungskoeffizienteneinstelleinrichtung 579 stellt einen geeigneten Unterdrückungskoeffizienten auf Grundlage der Sprachinformation des durch die Vokal/Konsonanten-Erfassungseinrichtung 558 bestimmten Vokal/Konsonantenbereichs ein.
  • Die Geräuschkomponente eines geräuschhaltigen Sprach/Geräusch-Ausgangssignals wird für jeden Kanal durch die Geräuschvorhersageeinrichtung 568 vorhergesagt. Die von der Geräuschvorhersageeinrichtung 568 für jeden Kanal gelieferte Geräuschkomponente wird in einem Sprachsignal durch die Unterdrückungseinrichtung 588 unterdrückt. Das Geräuschunterdrückungsverhältnis wird dabei für jeden Kanal durch einen Unterdrückungskoeffizienten eingestellt, der von der Unterdrückungskoeffizienteneinstelleinrichtung 579 geliefert wird. Das heißt, wenn ai eine vorhergesagte Geräuschkomponente, bi ein geräuschhaltiges Signal und αi ein Unterdrückungskoeffizient ist, so wird ein Ausgangssignal ci der Unterdrückungseinrichtung 588 zu (bi - αi x ai). Der Unterdrükkungskoeffizient αi ist ein Koeffizientenwert wie in Fig. 10 gezeigt. Das heißt, Fig. 10 (a) zeigt einen Unterdrückungskoeffizienten für jedes Band, wobei f&sub0; - f&sub3; das gesamte Band eines Sprach/Geräusch-Eingangssignals bezeichnet. Ein Unterdrückungskoeffizient wird eingestellt, indem f&sub0; - f3 in m Kanäle unterteilt wird. Insbesondere f&sub1; - f&sub2; bezeichnet ein Band, das Sprache enthält, und das durch die Vokal/Konsonanten-Erfassungseinrichtung 558 wie oben beschrieben sicher bestimmt wird. Im Sprachband wird der Unterdrückungskoeffizient klein (nahe Null) gemacht, so daß das Geräusch so wenig wie möglich unterdrückt wird. Dies bewirkt eine Verbesserung der Artikulation. Das liegt daran, daß das menschliche Gehör eine Stimme auch hören kann, wenn sie in gewissem Maße verrauscht ist. In den sprachfreien Bändern f&sub0; - f&sub1; und f&sub2; - f&sub3; wird Geräusch ausreichend unterdrückt, indem der Unterdrückungskoeffizient zu 1 gesetzt wird. Der Unterdrükkungskoeffizient aus Fig. 10 (b) wird verwendet, wenn mit Sicherheit festgestellt worden ist, daß das Signal keine Sprache, sondern nur Geräusch enthält, und wird zu 1 gesetzt, so daß das Geräusch ausreichend unterdrückt werden kann. Zum Beispiel in dem Fall, daß ein Signal ohne Vokal vom Gesichtspunkt der Spitzenfrequenz her weitergeht, wird das Signal als Nichtsprachsignal und folglich als Geräusch bestimmt. Es ist bevorzugt, daß die Unterdrückungskoeffizienten der Fig. 10 (a) und (b) geeignet verschoben werden können.
  • Die vorliegende Erfindung ist zwar als Software unter Verwendung eines Computers implementiert, kann aber auch durch eine spezielle Schaltung implementiert werden.
  • Wie sich aus der obigen Beschreibung ergibt, erfaßt eine Sprachsignalverarbeitungsvorrichtung gemäß der vorliegenden Erfindung den Vokal/Konsonanten-Bereich eines geräuschhaltigen Sprachsignals, stellt auf Grundlage des erfaßten Bereichs einen geeigneten Unterdrückungskoeffizienten durch eine Koeffizienteneinstelleinrichtung ein und unterdrückt dann unter Verwendung des Unterdrückungskoeffizienten in geeigneter Weise eine vorhergesagte Geräuschkomponente, so daß das Geräusch unterdrückt und die Artikulation verbessert werden kann.
  • Fachleuten ist klar, daß die vorangegangene Beschreibung eine bevorzugte Ausgestaltung betrifft, und daß diverse Änderungen und Abwandlungen an der Erfindung vorgenommen werden können, ohne den Rahmen der nachfolgenden Ansprüche zu verlassen.

Claims (5)

1. Sprachsignalverarbeitungsvorrichtung mit:
einer Frequenzanalyseeinrichtung (1, 518) für die Frequenzanalyse eines Spracheingangssignals;
einer Cepstralanalyseeinrichtung (2, 528) für die Cepstralanalyse des Ausgangssignals der Frequenzanalyseeinrichtung (1, 518);
einer Spitzenerfassungseinrichtung (3, 538) für die Erfassung einer cepstralen Spitze des cepstralanalysierten Ausgangssignals der Cepstralanalyseeinrichtung (2, 528); und
einer Vokal-Konsonantenerfassungseinrichtung (5, 558) für die Unterscheidung eines Vokals von einem Konsonanten, wobei ein Vokal anhand der Cepstralspitze bestimmt wird,
dadurch gekennzeichnet, daß
eine Mittelwertberechnungseinrichtung (4, 548) für die Berechnung eines Mittelwertniveaus des cepstralanalysierten Ausgangssignals der Cepstralanalyseeinrichtung (2, 528) vorgesehen ist; und
die Vokal-Konsonantenerfassungseinrichtung (5, 558) einen Konsonanten anhand des Mittelwertniveauss bestimmt.
2. Sprachsignalverarbeitungsvorrichtung nach Anspruch 1, bei der die Vokal-Konsonantenerfassungseinrichtung umfaßt:
einen ersten Komparator (52) für den Vergleich der von der Spitzenerfassungseinrichtung (3, 538) erfaßten Spitze mit einem von einem ersten Schwellwerteinstellabschnitt (51) eingestellten Schwellwert;
einen zweiten Komparator (53) für den Vergleich des von der Mittelwertberechnungseinrichtung (4, 548) berechneten Mittelwerts mit einem von einem zweiten Schwellwerteinstellabschnitt (54) eingestellten vorgegebenen Schwellwert; und
einer Vokal-Konsonantenerfassungsschaltung (55) für die Erfassung eines Vokals und eines Konsonanten auf Grundlage der Vergleichsergebnisse des ersten und zweiten Comparators (52, 53) und zum Ausgeben des erfaßten Ergebnisses.
3. Sprachsignalverarbeitungsvorrichtung nach Anspruch 1, mit:
einer Unterdrückungskoeffizienteneinstelleinrichtung (7, 578) für die Einstellung eines Unterdrückungskoeffizienten unter Verwendung des Erfassungsergebnisses der Vokal-Konsonantenerfassungseinrichtung (5, 558);
einer Geräuschvorhersageeinrichtung (6, 568), in die das Fourier-transformierte Sprachsignal eingegeben wird und die dessen Rauschanteil vorhersagt;
einer Unterdrückungseinrichtung (8, 588), in die das Geräuschvorhersageausgangssignal der Geräuschvorhersageeinrichtung (6, 568), das Sprachsignal und das von der Unterdrückungskoeffizienteneinstelleinrichtung (7, 578) eingestellte Unterdrückungskoeffizientensignal eingegeben werden und die unter Berücksichtigung des Unterdrückungsverhältnisses eine Geräuschkomponente aus dem Sprachsignal unterdrückt; und
einer Signalzusammensetzungseinrichtung (9, 598) zum Zusammensetzen des unterdrückten Ausgangssignals der Unterdrükkungseinrichtung (8, 688).
4. Sprachsignalverarbeitungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenzanalyseeinrichtung eine Bandunterteilungseinrichtung ist.
5. Sprachsignalverarbeitungsverfahren mit den Schritten:
Frequenzanalyse eines Spracheingangssignals, um ein Spektrum zu erhalten;
Cepstralanalyse des Spektrums, um ein Cepstrum zu erhalten;
Erfassen einer Spitze des Cepstrums; und
Bestimmen eines Vokals anhand der erfaßten Spitze, gekennzeichnet durch die Schritte:
Berechnen eines Mittelwertniveaus des Cepstrums; und
Bestimmen eines Konsonanten anhand des Mittelwertniveaus.
DE69105154T 1990-02-13 1991-02-04 Sprachsignalverarbeitungsvorrichtung. Expired - Fee Related DE69105154T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP3321090A JP2959791B2 (ja) 1990-02-13 1990-02-13 音声信号処理装置
JP2033211A JP2959792B2 (ja) 1990-02-13 1990-02-13 音声信号処理装置

Publications (2)

Publication Number Publication Date
DE69105154D1 DE69105154D1 (de) 1994-12-22
DE69105154T2 true DE69105154T2 (de) 1995-03-23

Family

ID=26371868

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69105154T Expired - Fee Related DE69105154T2 (de) 1990-02-13 1991-02-04 Sprachsignalverarbeitungsvorrichtung.

Country Status (9)

Country Link
US (1) US5204906A (de)
EP (1) EP0442342B1 (de)
KR (1) KR960005740B1 (de)
AU (1) AU635600B2 (de)
CA (1) CA2036199C (de)
DE (1) DE69105154T2 (de)
FI (1) FI103930B1 (de)
HK (1) HK185195A (de)
NO (1) NO306360B1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19854341A1 (de) * 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
EP2506255A1 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
EP2506602A2 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Hörhilfegerät sowie Verfahren zum Betrieb eines Hörhilfegeräts
EP2506254A1 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104788A (ja) * 1993-10-06 1995-04-21 Technol Res Assoc Of Medical & Welfare Apparatus 音声強調処理装置
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
CN102129862B (zh) 1996-11-07 2013-05-29 松下电器产业株式会社 降噪装置及包括降噪装置的声音编码装置
JPH10247869A (ja) * 1997-03-04 1998-09-14 Nec Corp ダイバーシティ回路
AU4627801A (en) * 2001-04-11 2001-07-09 Phonak Ag Method for the elimination of noise signal components in an input signal for an auditory system, use of said method and hearing aid
US20040102965A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Determining a pitch period
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8880396B1 (en) * 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP2015169827A (ja) * 2014-03-07 2015-09-28 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的***和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19854341A1 (de) * 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
US6539350B1 (en) 1998-11-25 2003-03-25 Alcatel Method and circuit arrangement for speech level measurement in a speech signal processing system
EP2506255A1 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
EP2506602A2 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Hörhilfegerät sowie Verfahren zum Betrieb eines Hörhilfegeräts
EP2506254A1 (de) 2011-03-31 2012-10-03 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102011006511A1 (de) 2011-03-31 2012-10-04 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102011006515A1 (de) 2011-03-31 2012-10-04 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102011006472A1 (de) 2011-03-31 2012-10-04 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
DE102011006472B4 (de) * 2011-03-31 2013-08-14 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verbesserung der Sprachverständlichkeit mit einem Hörhilfegerät sowie Hörhilfegerät
US8644538B2 (en) 2011-03-31 2014-02-04 Siemens Medical Instruments Pte. Ltd. Method for improving the comprehensibility of speech with a hearing aid, together with a hearing aid
US8811641B2 (en) 2011-03-31 2014-08-19 Siemens Medical Instruments Pte. Ltd. Hearing aid device and method for operating a hearing aid device

Also Published As

Publication number Publication date
FI103930B (fi) 1999-10-15
DE69105154D1 (de) 1994-12-22
CA2036199C (en) 1997-09-30
KR910015962A (ko) 1991-09-30
FI103930B1 (fi) 1999-10-15
US5204906A (en) 1993-04-20
EP0442342A1 (de) 1991-08-21
AU635600B2 (en) 1993-03-25
AU6927891A (en) 1991-08-15
FI910679A (fi) 1991-08-14
FI910679A0 (fi) 1991-02-12
NO306360B1 (no) 1999-10-25
NO910535L (no) 1991-08-14
NO910535D0 (no) 1991-02-11
KR960005740B1 (ko) 1996-05-01
CA2036199A1 (en) 1991-08-14
EP0442342B1 (de) 1994-11-17
HK185195A (en) 1995-12-15

Similar Documents

Publication Publication Date Title
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69132645T2 (de) Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE69420027T2 (de) Rauschverminderung
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3306730C2 (de)
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
DE69423588T2 (de) Spracherkennungsgerät
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69106588T2 (de) Vorrichtung um Sprachgeräusch zu trennen.
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0874352B1 (de) Sprachaktivitätserkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69130294T2 (de) Vorrichtung zur Verarbeitung eines Sprachsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee