DE4126902A1 - Sprachintervall - feststelleinheit - Google Patents

Sprachintervall - feststelleinheit

Info

Publication number
DE4126902A1
DE4126902A1 DE19914126902 DE4126902A DE4126902A1 DE 4126902 A1 DE4126902 A1 DE 4126902A1 DE 19914126902 DE19914126902 DE 19914126902 DE 4126902 A DE4126902 A DE 4126902A DE 4126902 A1 DE4126902 A1 DE 4126902A1
Authority
DE
Germany
Prior art keywords
speech
feature
speaker
interval
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19914126902
Other languages
English (en)
Other versions
DE4126902C2 (de
Inventor
Takashi Ariyoshi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE4126902A1 publication Critical patent/DE4126902A1/de
Application granted granted Critical
Publication of DE4126902C2 publication Critical patent/DE4126902C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

Die Erfindung betrifft eine Sprachintervall-Feststelleinheit nach dem Oberbegriff des Anspruchs 1 oder 2, welche in einem Spracherkennungssystem verwendet wird, und betrifft insbeson­ dere eine Sprachintervall-Feststelleinheit, welche in einem Spracherkennungssystem verwendbar ist, das in geräuschvollen Umgebungen, wie beispielsweise einem Fahrzeug, in einer Fa­ brik und in einem Haus, verwendet wird.
In einem üblichen Spracherkennungssystem ist eine Geräusch­ beseitigung ein wichtiges Thema. Hierbei ist es schwierig, Sprachintervalle, die Sprachabschnitten einer sprechenden Per­ son entsprechen, eindeutig in einem akustischen Signal fest­ zustellen, welchem Geräusche überlagert sind. Ein Verfahren, um Sprachintervalle in einem akustischen Signal festzustellen, welchem Geräusche überlagert sind, ist beispielsweise in der japanischen Patentanmeldung Nr. 63-29 754 beschrieben. In die­ sem Verfahren werden zwei Schwellenwertpegel verwendet, wel­ che ein erster Schwellenwertpegel und ein zweiter Schwellen­ wertpegel sind, welcher niedriger als der erste Schwellen­ wertpegel ist, um die Sprachintervalle festzustellen. Das heißt, in einem Fall, bei welchem der Pegel des tonfrequen­ ten Signals für eine vorherbestimmte Zeit oder länger stän­ dig höher als der erste Schwellenwert ist, wird ein Intervall, in welchem der Pegel des tonfrequenten Signals höher als der zweite Schwellenwertpegel oder gleich diesem ist, als das Sprachintervall festgestellt. Jedoch ist es bei diesem her­ kömmlichen Verfahren in einem Fall, bei welchem der Pegel ei­ nes unregelmäßigen Geräusches, welches unregelmäßig erzeugt ist, hinsichtlich der Zeitdauer größer als der erste Schwellen­ wert ist, schwierig, eindeutig die Sprachintervalle festzu­ stellen.
Ein Verfahren, um Sprachintervalle unter Bedingungen festzu­ stellen, bei welchem unregelmäßige Geräusche dem akustischen Signal überlagert sind, ist beispielsweise in der offenge­ legten japanischen Patentanmeldung Nr. 58-1 30 395 beschrieben. Bei diesem Verfahren werden ein erstes Mikrophon für Stimmen und ein zweites Mikrophon für Geräusche verwendet, um die Stimm- bzw. Sprachintervalle festzustellen. Das heißt, das Sprachintervall wird auf der Basis einer Differenz zwischen einer ersten Leistung eines Ausgangssignals von dem ersten Mikrophon und einer zweiten Leistung eines Ausgangssignals von dem zweiten Mikrophon festgestellt. Jedoch können bei diesem herkömmlichen Verfahren Geräuschkomponenten, welche in dem Sprachintervall enthalten sind, nicht beseitigt werden.
Außerdem ist ein spektrales Subtraktionsverfahren als ein Verfahren bekannt, um Geräuschkomponenten aus dem tonfrequen­ ten Signal zu beseitigen (z. B. DE 36 42 591 C1). Jedoch ist es bei dem spektralen Subtraktionsverfahren schwierig, unre­ gelmäßige Geräusche aus dem Tonsignal zu beseitigen. Bei einem adaptiven Geräuschannullierverfahren, das in offengelegten ja­ panischen Patentanmeldungen Nr. 58-1 96 599, 63-2 62 695, 1-1 15 798 und 1-2 39 595 (welche der US-Patentanmeldung S.N. 1 67 619 entspricht) beschrieben ist, können die unregelmäßigen Geräu­ sche wirksam aus dem Tonsignal entfernt werden. In dem adap­ tiven Geräuschannullierverfahren werden die Geräuschkompo­ nenten aus dem Tonsignal mit Hilfe einer ersten Toneingabe­ einheit (einem Mikrophon) und einer zweiten Toneingabeeinheit (Mikrophon) wie folgt beseitigt.
Die erste Toneingabeeinheit ist nahe bei dem Sprecher vorge­ sehen, während die zweite Eingabeeinheit weit weg von dem Sprecher vorgesehen ist. Sprachabschnitte des Sprechers wer­ den hauptsächlich in die erste Eingabeeinheit eingegeben. Verschiedene Arten von Geräuschen in der Umgebung werden so­ wohl in die erste als auch in die zweite Eingabeeinheit ein­ gegeben. Ein Spektrum X(i) in jeweils einer Anzahl Frequenz­ bänder wird aus einem Tonsignal erhalten. Ein Spektrum N(i) in jedem der Frequenzbänder wird aus einem Signal erhalten, das von der zweiten Eingabeeinheit zugeführt worden ist. In diesem Fall ist mit i das i-te Frequenzband bezeichnet. Ein Geräuschverhältnis k(i) in jedem Frequenzband ist vorher ent­ sprechend der folgenden Formel unter der Voraussetzung berechnet worden, daß es nicht die Stimme des Sprechers ist:
k(i) = X(i)/N(i).
Das Geräuschverhältnis k(i) stellt ein Verhältnis eines Ge- räusches, das von der ersten Eingabeeinheit festgestellt wor­ den ist, zu einem Geräusch dar, das von der zweiten Eingabe­ einheit in dem jeweiligen Frequenzband festgestellt worden ist.
Es wird dann ein Schätzwert S(i) eines Sprachspektrums, wel­ ches der Sprache bzw. Stimme des Sprechers entspricht, ent­ sprechend der folgenden Formel berechnet:
S(i) = X(i)-k(i)·N(i).
In diesem adaptiven Geräuschannullierverfahren ändert sich in einem Fall, bei welchem eine Geräuschquelle bezüglich ei­ nes i-ten Frequenzbandes vorhanden ist, obwohl sich der Pe­ gel des Geräusches ändert, das Geräuschverhältnis k(i) nicht. Folglich kann eine Geräuschkomponente, welche in dem Spektrum X(i) des Tonsignals in dem Sprachintervall enthalten ist, durch k(i)·N(i) geschätzt werden. Das heißt, mit dem adaptiven Geräuschannullierverfahren kann das unregelmäßige Geräusch aus der akustischen Komponente beseitigt werden. Wenn jedoch in dem adaptiven Geräuschannullierverfahren das Geräuschver­ hältnis k(i) unter der Voraussetzung berechnet wird, daß der Pegel des Geräusches verhältnismäßig niedrig ist, wird ein Fehler des Schätzwertes S(i) des Sprachspektrums groß. Außer­ dem kann, wenn der Pegel des in dem Sprachintervall enthal­ tenen Geräusches verhältnismäßig hoch ist, das Sprach- bzw. Stimmenspektrum nicht angemessen geschätzt werden. Folglich können mit dem adaptiven Geräuschannullierverfahren die Ge­ räuschkomponenten nur in einem Fall angemessen beseitigt wer­ den, bei welchem Geräuschkomponenten immer in allen Frequenz­ bändern vorhanden sind.
Außerdem ist in DE 15 12 758 C1 ein Verfahren beschrieben, um den Schätzwert S(i) des Sprachspektrums entsprechend der folgenden Formel zu berechnen:
S(i) = X(i)-N(i).
Die vorstehende Formel enthält jedoch nicht den Koeffizienten k(i). Folglich ergibt dieses Verfahren nicht das adaptive Geräuschannullierverfahren und es hat den Nachteil, daß der Schätzwert S(i) in dem Fall nicht korrekt ist, daß Geräusch­ quellen nahe bei dem Mikrophon sind.
Gemäß der Erfindung soll daher eine Sprachintervall-Feststell­ einheit in einem Spracherkennungssystem geschaffen werden, bei welcher die Nachteile des Standes der Technik beseitigt sind, und in welchem Sprach- oder Stimmenintervalle auch un­ ter geräuschvollen Bedingungen, bei welchen es unregelmäßige Geräusche gibt, in angemessener Weise festgestellt werden können. Gemäß der Erfindung ist dies bei einer Sprachinter­ vall-Feststelleinheit nach dem Oberbegriff des Anspruchs 1 oder 2 durch die Merkmale im kennzeichnenden Teil des jewei­ ligen Anspruchs erreicht. Vorteilhafte Weiterbildungen sind Gegenstand der auf einen der Ansprüche 1 oder 2 unmittelbar oder mittelbar rückbezogenen Ansprüche.
Mit der Sprachintervall-Feststelleinheit gemäß der Erfindung können Sprachintervalle, welche Stimmen- oder Sprachanteilen eines Sprechers entsprechen, in einem akustischen Signal festgestellt werden, selbst wenn das Spracherkennungssystem in geräuschvoller Umgebung betrieben wird. Ferner kann mit Hilfe der erfindungsgemäßen Sprachintervall-Feststellein­ heit ein Sprachintervall, das einer Stimme bzw. der Sprache eines Sprechers entspricht, in jeder einer Anzahl von Einhei­ ten (z. B. Frequenzbändern) festgestellt werden. Folglich kann, selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig­ nal in einigen der Anzahl Einheiten (Frequenzbändern) überla­ gert ist, das Sprachintervall in jedem der verbleibenden Ein­ heiten (Frequenzbänder) festgestellt werden. Folglich kann eine Erkennungsrate eines Spracherkennungssystems, bei wel­ chem die Sprachintervall-Feststelleinheit verwendet ist, auch in geräuschvollen Umgebungen zunehmen.
Ferner soll gemäß der Erfindung ein Spracherkennungssystem geschaffen werden, in welchem Geräusche aus einem akustischen Signal unter Geräuschbedingungen beseitigt werden können, bei welchen es unregelmäßige Geräusche gibt, so daß eine gute Er­ kennungsrate erhalten werden kann. Gemäß der Erfindung ist dies bei einem Spracherkennungssystem nach dem Oberbegriff des Anspruchs 14 oder 15 durch die Merkmale im kennzeichnenden Teil des jeweiligen Anspruchs erreicht.
In einem Spracherkennungssystem gemäß der Erfindung wird ein Erkennungsprozeß bezüglich Sprach- oder Stimmenmerkmale durchgeführt, welche in Sprachintervallen in einer Anzahl Ein­ heiten (z. B. Frequenzbändern) enthalten sind. Folglich kann, selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig­ nal in einigen der Anzahl Einheiten (Frequenzbändern) über­ lagert ist, der Erkennungsprozeß bezüglich des Sprach- oder Stimmenmerkmals in den Sprachintervallen in den restlichen Einheiten (Frequenzbändern) durchgeführt werden. Folglich kann eine Erkennungsrate eines Spracherkennungssystems auch in geräuschvoller Umgebung erhöht werden.
Nachfolgend wird die Erfindung anhand von bevorzugten Aus­ führungsformen unter Bezugnahme auf die anliegenden Zeich­ nungen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Sprachintervall-Feststell­ einheit gemäß einer Ausführungsform der Erfindung;
Fig. 2 ein Zeitdiagramm, in welchem Beispiele von Geräusch­ intervallen wiedergegeben sind, welche mittels der in Fig. 1 dargestellten Sprachintervall-Feststell­ einheit festgestellt werden;
Fig. 3 ein Blockdiagramm einer Geräuschannulliereinheit, welche in einem Spracherkennungssystem gemäß der Erfindung verwendet ist, und
Fig. 4 ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform der Erfindung.
Nachstehend wird eine bevorzugte Ausführungsform der Erfindung anhand von Fig. 1 und 2 beschrieben. In Fig. 1 ist eine Sprach­ intervall-Feststelleinheit dargestellt, welche ein erstes Mi­ krophon 1, ein zweites Mikrophon 2, einen ersten und einen zweiten Merkmalsextraktionsblock 10 und 20, einen ersten Sprachintervall-Feststellblock 30, einen Koeffizienten-Be­ rechnungsblock 40, einen Geräuschannullierblock 50 und einen zweiten Sprachintervall-Feststellblock 60 aufweist. Das erste Mikrophon 1 ist nahe bei einem Sprecher vorgesehen, während das zweite Mikrophon 2 weit von dem Sprecher weg vorgesehen ist. Folglich wird eine Sprecherstimme oder -sprache haupt­ sächlich in dem ersten Mikrophon 1 aufgenommen. Geräusche in der Umgebung können sowohl von dem ersten als auch von dem zweiten Mikrophon 1 bzw. 2 aufgenommen werden. Wenn es die Stimme des Sprechers ist, gibt das erste Mikrophon 1 ein Tonsignal ab, welches Komponenten, welche der Stimme des Sprechers entsprechen, und Komponeten enthält, welche den Ge­ räuschen in der Umgebung entsprechen. Das zweite Mikrophon 22 gibt ein Bezugssignal ab, das Geräuschen in der Umgebung entspricht. Das Bezugssignal, das von dem zweiten Mikrophon 2 abgegeben wird, enthält kaum eine Komponente der Stimme bzw. Sprache des Sprechers.
Der erste Merkmalsextraktionsblock 10 extrahiert Merkmalsda­ ten aus dem von dem ersten Mikrophon 1 gelieferten Tonsignal. Der erste Merkmalsextraktionsblock 10 hat einen Verstärker 11, ein Bandpaßbilter 12, einen Gleichrichter 13, ein Tief­ paßfilter 14, einen Multiplexer 15 und einen Analog-Digital- Umsetzer 16. Der Verstärker 11 verstärkt das von dem ersten Mikrophon 1 gelieferte Tonsignal mit einem vorherbestimmten Verstärkungsfaktor. Das Bandpaßfilter 12 hat fünfzehn Ka­ näle, die jeweils einem von fünfzehn Frequenzbändern ent­ sprechen. Das Bandpaßfilter 12 teilt das Tonsignal in ein Spektrum, welches aus fünfzehn Frequenzbändern besteht. Jeder Wert der fünfzehn Frequenzbänder wird von dem Gleichrichter 13 und dem Tiefpaßfilter 14 verarbeitet, so daß ein Spektrum X(i) des Tonsignals in den fünfzehn Frequenzbändern (Kanälen) erhalten wird. Der Multiplexer 15 wählt eines der fünfzehn Frequenzbänder aus, welches Spektrum von dem Bandpaßfilter 12 über den Gleichrichter 13 und das Tiefpaßfilter 14 geliefert wird. Der Analog-Digital-Umsetzer 16 setzt das Spektrum X(i) in jedem Frequenzband in digitale Daten um. Folglich gibt der erste Merkmalsextraktionsblock 10 periodisch das Spek­ trum X(i) (i= 1, 2,..., 15) des akustischen Signal bei einer vorherbestimmten Rahmenzeit ab.
Der zweite Merkmalsextraktionsblock 20 hat einen Verstärker 21, ein Bandpaßbilter 22, einen Gleichrichter 23, ein Tief­ paßfilter 24, einen Multiplexer 25 und einen Analog-Digital- Umsetzer 26 genauso wie der erste Merkmalsextraktionsblock 20. Folglich gibt der zweite Merkmalsextraktionsblock 20 periodisch ein Spektrum N(i) des Referenzsignals bei der vor­ herbestimmten Rahmenzeit ab. Ein Verstärkungsfaktor des Ver­ stärkers 11 in dem ersten Merkmalsextraktionsblock 10 und ein Verstärkungsfaktor des Verstärkers 21 in dem zweiten Merkmalsextraktionsblock 20 werden so eingestellt, daß der Pegel des Tonsignals annähernd gleich dem Pegel des Refe­ renzsignals wird. Kenndaten anderer Teile in dem ersten Merk­ malsextraktionsblock 10 sind gleich Kenndaten entsprechender Teile in dem zweiten Merkmalsextraktionsblock 20. Die bei­ den Merkmalsextraktionsblöcke 10 und 20 können auch Merkmals­ daten außer den vorerwähnten Spektren X,(i) und N(i) extra­ hieren.
Der erste Sprachintervall-Feststellblock 30 stellt ein Sprachintervall basierend auf einer Differenz zwischen einer Gesamtleistung ΣX(i) des akustischen Signals und einer Ge­ samtleistung ΣN(i) des Bezugssignals fest. Der erste Sprach­ intervall-Feststellblock 30 stellt das Sprachintervall fest, wenn die Differenz zwischen der Gesamtleistung ΣX(i) des akustischen Signals und der Gesamtleistung ΣN(i) größer als ein Schwellenwert Tpwr ist. Auf das mittels des ersten Blocks 30 festgestellte Sprachintervall wird als ein generelles Sprachintervall Bezug genommen. Der Schwellenwert Tpwr wird auf der Basis eines Mittelwerts Av Xpwer der Gesamtleistung des Tonsignals in einer Anzahl Rahmen vor dem gegenwärtigen Rahmen und in einem Intervall außer dem generellen Sprach­ intervall und auf der Basis eines Mittelwerts Av Npwr der Gesamtleistung des Bezugssignals berechnet, das unter dersel­ ben Bedingung wie der Mittelwert Av Xpwr erhalten worden ist. Das heißt, der Schwellenwert Tpwr wird berechnet und ent­ sprechend der folgenden Formel (1) aktualisiert:
Tpwr = apwr · (AvXpwr - Av Npwr)+bpwr (1)
wobei apwr und bpwr konstante Zahlen und größer als null sind (apwr, bpwr<0).
Der Geräuschannullierblock 50 erzeugt ein Merkmals S(i) der Sprache, aus welchem Geräuschkomponenten beseitigt werden, wie später noch beschrieben wird. Eine Sprachleistung ΣS(i) wird auf der Basis des Merkmals S(i) der Sprache erhalten, und dann kann das generelle Sprachintervall auf der Basis eines Vergleichs der Sprachleistung ΣS(i) mit dem Schwellen­ wert Tpwr erhalten werden.
Der Koeffizientenberechnungsblock 40 berechnet einen Geräusch­ koeffizienten k(i) in jedem Kanal entsprechend der folgenden Formel (2), welche das Spektrum X(i) des Tonsignals und das Spektrum N(i) des Bezugssignals enthält, welche unter der Bedingung erhalten werden, daß keine Sprache des Sprechers vorhanden ist:
k(i)=[X(i)+C₁]/[N(i)+C₂] (2)
wobei C1 und C2 konstante Zahlen und größer als null sind (C1, C2<0).
Der Geräuschkoeffizient k(i) kann auch auf der Basis eines Mittelwerts der Spektren X(i) und N(i) in einer Anzahl Rah­ men vor dem gegenwärtigen Rahmen berechnet werden. In diesem Fall ist die Anzahl Rahmen, um den Mittelwert zu erhalten vorzugsweise kleiner als die Anzahl Rahmen, die erforderlich sind, um den vorstehenden Schwellenwert Tpwr und einen Schwellenwert Ti zu berechnen, welcher später noch beschrie­ ben wird.
Gemäß der vorstehenden Formel (2) kommt, je größer die Spek­ tren X(i) und N(i) sind, umso näher bzw. dichter dem Ver­ hältnis X(i)/N(i), welches das herkömmliche Geräuschverhält­ nis ist, der Geräuschkoeffizient k(i). Je kleiner die Spektren X(i) und N(i) sind, umso näher dem Verhältnis C1/C2 kommt an­ dererseits der Geräuschkoeffizient k(i). Folglich kann in einem Fall, bei welchen die Spektren X(i) und N(i) in jedem Frequenzband klein sind, wenn C1/C2 auf einen angemessenen Wert in dem Spracherkennungssystem gesetzt ist, ein Fehler des Geräuschkoeffizienten k(i) klein werden. Falls die jewei­ ligen Wert von X(i) und N(i) durch 8 Bits (0 bis 255) darge­ stellt werden, sind die jeweiligen C1 und C2 vorzugsweise Werte in einem Bereich zwischen 8 und 32. Falls der Pegel von X(i) und der Pegel von N(i), welche unter einer Bedingung gemessen werden, bei welcher ein Geräusch, das von einer Quelle weit weg von den Mikrophonen 1 und 2 erzeugt worden ist, oder ein Geräusch vorhanden ist, das durch eine bestimmte Quelle erzeugt worden ist, annähernd einander gleich sind, kann der Wert von C1/C2 auf "1" gesetzt werden. In anderen Fällen kann der Wert von C1/C2 auf einen Wert von X(i)/N(i) gesetzt werden, wobei X(i) bzw. N(i) unter einer Bedingung gemessen werden, bei welcher keine Sprache des Sprechers vorliegt. Der Wert von C1/C2 kann in Abhängigkeit von dem jeweiligen Kanal auf einen entsprechenden Wert gesetzt wer­ den. In einem System, in welchem eine Sprache des Sprechers an dem zweiten Mikrophon 2 eingegeben werden kann, ist, wenn der Wert von C1/C2 gleich "1" ist (C1 = C2), ein Teil der Sprachkomponenten als eine Geräuschkomponente aus der Sprache beseitigt. Folglich ist in diesem Fall der Wert von C1/C2 vorzugsweise kleiner als "1" (C1 < C2).
Der Wert, welcher durch Glätten des Geräuschkoeffizienten k(i) bezüglich einer Zeitskala erhalten worden ist, kann ver­ wendet werden, um das Geräusch aus der Sprache zu eliminieren. Die Beziehung zwischen dem Geräuschkoeffizienten k(i) und den Spektren X(i) und N(i) ist nicht auf diejenige beschränkt, welche durch die vorstehende Formel (1) wiedergegeben ist. Die Beziehung kann auch durch eine hyperbolische Funktion, eine Exponentialfunktion u.ä. dargestellt werden.
Der Geräuschannullierblock 50 berechnet das Merkmal S(i) der Sprache, aus welchem das Geräusch beseitigt ist, in jedem Kanal (jedem Frequenzband) entsprechend der folgenden Formel (3):
S(i)=X(i)-k(i) · N(i) (3)
In einem Intervall außer dem Sprachintervall kann S(i) auf "0" gesetzt werden.
Der zweite Sprachintervall-Feststellblock 60 addiert vorher­ bestimmte Intervalle zu einem vorderen Ende des von dem er­ sten Block 30 festgestellten, generellen Sprachintervalls und zu einem hinteren Ende des generellen Sprachintervalls. Folg­ lich erzeugt der zweite Sprachintervall-Feststellblock 60 ein Feststellintervall, welches aus dem generellen Sprachinter­ vall und dem dazu addierten Intervall gebildet ist. Dann be­ stimmt der zweite Sprachintervall-Feststellblock 60, ob das Spektrum S(i) der Sprache, welche durch den Geräuschannullier­ block 50 erhalten wird, größer als ein Schwellenwert T(i) in dem dabei erhaltenen Feststellintervall ist oder nicht. Wenn das Spektrum S(i) in dem i-ten Frequenzband der Sprache grö­ ßer als der Schwellenwert T(i) ist, stellt der zweite Sprach­ feststellblock 60 ein Sprachintervall in dem i-ten Kanal fest, welcher dem i-ten Frequenzband entspricht. Das heißt, der zweite Sprachintervall-Feststellblock 60 gibt das Spek­ trum S(i), das von dem Geräuschannullierblock 50 geliefert worden ist, in dem Sprachintervall in jedem Frequenzband und "0" in einem Intervall außer dem Sprachintervall ab. Das Spektrum S(i) (einschließlich "0"), das von dem zweiten Sprachintervall-Feststellblock 60 abgegeben worden ist, wird in einem Prozeß zum Erkennen von Sprache eines Sprechers ver­ wendet.
In Fig. 2 sind Sprachintervalle dargestellt, welche durch den ersten und zweiten Sprachintervall-Feststellblock 30 bzw. 60 festgestellt werden, wenn eine Sprache, wie bei­ spielsweise "SECHS" an dem ersten Mikrophon 1 eingegeben wird. In Fig. 2 stellt der erste Sprachintervall-Feststell­ block 30 das generelle Sprachintervall fest, was durch (A) in Fig. 2 dargestellt ist. Der zweite Sprachintervall-Feststell­ block 40 addiert vorherbestimmte Intervalle zu den generellen Sprachintervallen, um so das Feststellintervall zu erzeugen, das durch (B) in Fig. 2 dargestellt ist. Dann stellt der zweite Sprachintervall-Feststellblock 60 das Sprachintervall in je­ dem der fünfzehn Frequenzbänder von einem niedrigen (dem er­ sten) Frequenzband bis zu einem hohen (dem fünfzehnten) Fre­ quenzband in dem durch (B) dargestellten Feststellsprachin­ tervall fest, was durch (C) in Fig. 2 dargestellt ist.
Der vorerwähnte Schwellenwert Ti, welcher verwendet wird, um das Sprachintervall in jedem Frequenzband festzustellen, wird entsprechend der folgenden Formel (4) berechnet und aktualisiert:
Ti=a · (Av X(i)-Av N(i))+b (4)
(a, b: konstante Zahlen, a, b<0)
In der vorstehenden Formel (4) stellt Av X(i) einen Mittel­ wert der Spektren X(i) des Tonsignals in einer Anzahl Rah­ men vor dem gegenwärtigen Rahmen und in Intervallen außer dem Sprachintervall in dem i-ten Frequenzband dar; Av N(i) stellt einen Mittelwert der Spektren N(i) des Bezugssignals in der Anzahl Rahmen vor dem gegenwärtigen Rahmen in dem In­ tervall außer dem Sprachintervall in dem i-ten Frequenz­ band dar.
Falls das in Fig. 1 dargestellte System in Umgebungen vor­ gesehen wird, in welchen Geräusche nicht zu groß sind, kann der Prozeß in dem ersten Sprachintervall-Feststellblock 30 weggelassen werden. Das heißt, der zweite Sprachintervall- Feststellblock 60 kann unmittelbar das Sprachintervall in jedem der Frequenzbänder in dem Spektrum X(i) des akustischen Signals feststellen. Der Schwellenwert T(i), welcher dazu verwendet wird, das Sprachintervall in jedem der Frequenz­ bänder festzustellen, bzw. die Geräuschkoeffizienten k(i) können in einer Gruppe berechnet werden, welche eine Anzahl Kanäle (Frequenzbänder) enthält.
Der erste Sprachintervallblock 30, der Koeffizienten-Berech­ nungsblock 40, der Geräuschannullierblock 50 und der zweite Sprachintervall-Feststellblock sind beispielsweise in einem Computersystem gebildet.
In Fig. 3 ist eine weitere Ausführungsform der Erfindung dar­ gestellt, wobei diejenigen Teile, welche dieselben wie in Fig. 1 sind, mit denselben Bezugszeichen versehen sind. In Fig. 3 ist das zweite, in Fig. 1 dargestellte Mikrophon 2 durch einen Lautsprecher 2s ersetzt. Das heißt, die Töne, welche von dem Lautsprecher 2s abgegeben worden sind, werden als Geräusche dem ersten Mikrophon 1 zugeführt. Ein Tonsignal, das dem Lautsprecher 2s zugeführt wird, wird ebenfalls als ein Geräuschsignal dem zweiten Merkmalsextraktionsblock 20 zugeführt. Der Sprachintervall-Feststellblock 60 stellt das Sprachintervall in jedem der Frequenzbänder basierend auf dem Schwellenwert Ti fest, welcher entsprechend der Formel (4) berechnet worden ist. Der Koeffizienten-Berechnungsblock 40 berechnet die Geräuschkoeffizienten k(i) entsprechend der vorstehenden Formel (2). Der Geräuschannullierblock 50 gibt das Merkmal S(i) (Spektrum) der Sprache ab, was entsprechend der Formel (3) berechnet worden ist. Die Verstärkungfaktoren der Verstärker in den beiden Merkmalsextraktionsblöcken 10 und 20 werden so eingestellt, daß das akustische Signal und das Bezugssignal annähernd einander gleich sind, wenn das Tonsignal dem Lautsprecher 2s und dem zweiten Merkmals­ extraktionsblock 20 zugeführt wird.
In dem in Fig. 3 dargestellten System kann das dem Tonsignal entsprechende Geräusch aus dem Tonsignal beseitigt werden, das von dem ersten Merkmalsextraktionsblock 10 erhalten worden ist.
In Fig. 4 ist ein Spracherkennungssystem gemäß einer Ausfüh­ rungsform der Erfindung dargestellt. In Fig. 4 sind dieje­ nigen Teile, welche dieselben Teile wie in Fig. 1 sind, mit denselben Bezugszeichen bezeichnet. In Fig. 4 hat das Sprach­ erkennungssystem das erste Mikrophon 1, das zweite Mikrophon 2, den Sprachintervall-Feststellblock 60, den Koeffizienten- Berechnungsblock 40 und den Geräuschannullierblock 50 in der gleichen Weise wie die in Fig. 1 und 3 dargestellten Systeme. Das Spracherkennungssystem hat auch einen Eingangs­ mustergenerator 70, einen Referenzmusterspeicher 80 und einen Erkennungsblock 90. Der Eingangsmuster-Generator 70 erzeugt ein Eingangsmuster auf der Basis des Spektrums S(i) der Spra­ che, welche von dem Geräuschannullierblock 50 geliefert wird. Der Referenzmusterspeicher 80 speichert vorherbestimmte Re­ ferenzmuster von Sprachen. Der Erkennungsblock 90 vergleicht das Eingangsmuster mit den Referenzmustern in dem Referenz­ musterspeicher 80 und führt einen Erkennungsprozeß durch. Ausführung und Arbeitsweise in dem Eingangsmuster-Generator 70, dem Bezugsmusterspeicher 80 und dem Erkennungsblock 90 sind beispielsweise diejenigen, welche in einem bekannten BTSP-Spracherkennungsverfahren verwendet sind.
In dem vorstehend beschriebenen Spracherkennungssystem wird ein Referenzmuster, welches dem Eingangsmuster angepaßt ist von dem Erkennungsblock 90 als das Erkennungsergebnis abgegeben.

Claims (16)

1. Sprachintervall-Feststelleinheit, um ein Sprachintervall, das einer Sprache bzw. Stimme eines Sprechers entspricht, in einem Tonsignal festzustellen, gekennzeichnet durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein­ zugeben und um ein Tonsignal, das den eingegebenen Tönen ent­ spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein­ richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei­ tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun­ den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er­ sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien­ ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er­ sten Merkmal erhalten worden ist, und
eine Sprachintervall-Feststelleinrichtung (60) , welche mit der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, das der Sprache des Spechers entspricht, in jeder der Anzahl Einheiten basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert worden ist.
2. Sprachintervall-Feststelleinheit, um ein Sprachintervall, das einer Sprache bzw. Stimme eines Sprechers entspricht, in einem Tonsignal festzustellen, gekennzeichnet durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein­ zugeben und um ein Tonsignal, das den eingegebenen Tönen ent­ spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein­ richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei­ tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun­ den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er­ sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien­ ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er­ sten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache bzw. Stimme des Sprechers in dem akustischen Signal entspricht, und
eine zweite Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jeder der Anzahl Einheiten in einem Fest­ stellintervall basierend auf dem von der Geräuschannullier­ einrichtung (50) gelieferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprach­ intervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet ist, das zu dem ge­ nerellen Sprachintervall addiert worden ist.
3. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die An­ zahl Einheiten einer Anzahl vorherbestimmter Frequenzbänder entspricht.
4. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Sprachintervall-Feststelleinrichtung (60) eine Bestimmungs­ einrichtung aufweist, um zu bestimmen, ob das Sprachmerkmal jeder der Anzahl Einheiten größer als ein vorherbestimmter Schwellenwert ist oder nicht, wobei, wenn die Bestimmungsein­ richtung feststellt, daß das Sprachmerkmal größer als der Schwellenwertpegel ist, die Sprachintervall-Feststelleinrich­ tung das Sprachintervall in jeder der Anzahl Einheiten fest­ stellt.
5. Sprachintervall-Feststelleinheit nach Anspruch 4, dadurch gekennzeichnet, daß die Sprachintervall-Fest­ stelleinrichtung einen Schwellenwertgenerator hat, um den Schwellenwertpegel auf der Basis des ersten und des zweiten Merkmals zu erzeugen, welche von der ersten und der zweiten Merkmalseinrichtung (10, 20) in einer vorherbestimmten frühe­ ren Periode unter der Voraussetzung abgegeben worden sind, daß keine Sprache des Sprechers vorliegt.
6. Sprachintervall-Feststelleinheit nach Anspruch 5, dadurch gekennzeichnet, daß der Schwellenwert periodisch aktualisiert wird.
7. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Be­ rechnungseinrichtung (40) den Geräuschkoeffizienten berech­ net, so daß, je größer das erste und das zweite Merkmal sind, um so näher einem Verhältnis des ersten Merkmals zu dem zwei­ ten Merkmal unter der Voraussetzung, daß keine Stimme des Sprechers vorliegt, der Wert des Geräuschkoeffizienten wird, und je kleiner das erste und das zweite Merkmal sind, um so näher einem vorherbestimmten Wert der Geräuschkoeffizient wird.
8. Sprachintervall-Feststelleinheit nach Anspruch 7, dadurch gekennzeichnet, daß die Berechnungseinrichtung (40) eine Einrichtung zum Berechnen des Geräuschkoeffizienten k(i) entsprechend der folgenden Formel hat: k(i)=[X(i)+C₁]/[N(i)+C₂]wobei X(i) das erste Merkmal in jeder der Anzahl Einheiten unter der Bedingung darstellt, daß keine Stimme des Sprechers vorliegt, N(i) das zweite Merkmal in jeder der Anzahl Einhei­ ten unter der Bedingung darstellt, daß keine Stimme des Spre­ chers vorliegt, und C1 und C2 konstante Zahlen größer als null sind.
9. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch gekennzeichnet, daß die konstanten Werte C1 und C2 einander gleich sind.
10. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß jede der ersten und zweiten Eingabeeinrichtungen ein Mikrophon (1, 2) hat.
11. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Sprachintervall-Feststelleinrichtung ferner einen Lautspre­ cher (2s) aufweist, welchem ein Tonsignal von einer externen Einheit zugeführt wird, und daß die zweite Eingabeeinrichtung (2) eine Einrichtung hat, um das von dem Lautsprecher (2s) gelieferte Tonsignal einzugeben.
12. Sprachintervall-Feststelleinheit nach Anspruch 2, dadurch gekennzeichnet, daß die erste Sprachintervall- Feststelleinrichtung eine Einrichtung hat, um das generelle Sprachintervall festzustellen, falls eine Leistung einer Sprache, welche aus den Sprachmerkmalen in allen der Anzahl Einheiten erhalten wird, welche von der Sprachannullierein­ richtung zugeführt worden sind, größer als ein vorherbestimm­ ter Schwellenwert ist.
13. Sprachintervall-Festeinheit nach Anspruch 2, dadurch gekennzeichnet, daß die erste Sprachintervall- Feststelleinrichtung eine Einrichtung hat, um das generelle Sprachintervall festzustellen, falls eine Differenz zwischen einer Gesamtleistung des Tonsignals und einer Gesamtleistung des Bezugssignals größer als ein vorherbestimmter Schwellen­ wert ist, die Gesamtleistung des Tonsignals eine Gesamtsumme der ersten Merkmale in allen der Anzahl Einheiten ist, welche von der ersten Merkmalsextraktionseinrichtung (10) geliefert worden ist, und die Gesamtleistung des Bezugssignals eine Ge­ samtsumme der zweiten Merkmale in allen der Anzahl Einheiten ist, welche von der zweiten Merkmalsextraktionseinrichtung (20) geliefert worden sind.
14. Spracherkennungssystem, um Sprache auf der Basis einer Stimme eines Sprechers zu erkennen, gekennzeich­ net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein­ zugeben und um ein Tonsignal, das den eingegebenen Tönen ent­ spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein­ richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei­ tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun­ den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er­ sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien­ ten zu schätzen, wobei das Sprachmerkmal einem Wert ent­ spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein­ richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu­ stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
15. Spracherkennungssystem, um Sprache auf der Basis einer Stimme eines Sprechers zu erkennen, gekennzeich­ net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein­ zugeben und um ein Tonsignal, das den eingegebenen Tönen ent­ spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein­ richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei­ tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun­ den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er­ sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien­ ten zu schätzen, wobei das Sprachmerkmal einem Wert ent­ spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30), um ein generelles Sprachintervall, das der Stimme des Sprechers ent­ spricht, in dem aktustischen Signal festzustellen;
eine zweite Sprachintervall-Feststelleinrichtung (60), die mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall in jeder der Anzahl Einheiten in einem Fest­ stellintervall basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert wor­ den ist, wobei das Feststellintervall aus dem generellen In­ tervall, das durch die erste Sprachintervall-Feststellein­ richtung (30) und einem vorherbestimmten Intervall gebildet ist, das zu dem generellen Sprachintervall addiert worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein­ richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu­ stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
16. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch gekennzeichnet, daß die Geräuschannullierein­ richtung (50) eine Einrichtung hat, um das Merkmal S(i) der Sprache entsprechend der folgenden Formel zu berechnen: S(i) = X(i)-k(i) N(i).
DE19914126902 1990-08-15 1991-08-14 Sprachintervall - Feststelleinheit Expired - Fee Related DE4126902C2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP21519690 1990-08-15
JP21519790 1990-08-15
JP12495391 1991-04-25

Publications (2)

Publication Number Publication Date
DE4126902A1 true DE4126902A1 (de) 1992-02-20
DE4126902C2 DE4126902C2 (de) 1996-06-27

Family

ID=27315007

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19914126902 Expired - Fee Related DE4126902C2 (de) 1990-08-15 1991-08-14 Sprachintervall - Feststelleinheit

Country Status (1)

Country Link
DE (1) DE4126902C2 (de)

Cited By (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0974329A3 (de) * 1998-07-02 2001-09-12 Altura Leiden Holding B.V. Steuerungseirichtung für Sanitärgegenstände
WO2003017719A1 (en) * 2001-08-08 2003-02-27 Apple Computer, Inc. Integrated sound input system
US7349849B2 (en) 2001-08-08 2008-03-25 Apple, Inc. Spacing for microphone elements
US7512245B2 (en) 2003-02-25 2009-03-31 Oticon A/S Method for detection of own voice activity in a communication device
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19818608C2 (de) * 1998-04-20 2000-06-15 Deutsche Telekom Ag Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung
DE10030105A1 (de) * 2000-06-19 2002-01-03 Bosch Gmbh Robert Spracherkennungseinrichtung

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1512758C1 (de) * 1967-02-14 1977-09-15 Sennheiser Electronic Vocoder fuer hohe Stoerlautstaerken
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS58130395A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声区間検出装置
JPS58196599A (ja) * 1982-05-12 1983-11-16 松下電器産業株式会社 音声認識装置
JPS63262695A (ja) * 1987-04-21 1988-10-28 日本電気株式会社 音声認識方式
DE3837066A1 (de) * 1987-11-01 1989-05-11 Ricoh Kk Rauschunterdrueckungseinrichtung
EP0332890A2 (de) * 1988-03-14 1989-09-20 International Business Machines Corporation Rauschunterdrückung bei einem verrauschten Sprachsignal

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1512758C1 (de) * 1967-02-14 1977-09-15 Sennheiser Electronic Vocoder fuer hohe Stoerlautstaerken
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS58130395A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声区間検出装置
JPS58196599A (ja) * 1982-05-12 1983-11-16 松下電器産業株式会社 音声認識装置
JPS63262695A (ja) * 1987-04-21 1988-10-28 日本電気株式会社 音声認識方式
DE3837066A1 (de) * 1987-11-01 1989-05-11 Ricoh Kk Rauschunterdrueckungseinrichtung
EP0332890A2 (de) * 1988-03-14 1989-09-20 International Business Machines Corporation Rauschunterdrückung bei einem verrauschten Sprachsignal
JPH01239596A (ja) * 1988-03-14 1989-09-25 Internatl Business Mach Corp <Ibm> 雑音消去装置
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system

Cited By (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0974329A3 (de) * 1998-07-02 2001-09-12 Altura Leiden Holding B.V. Steuerungseirichtung für Sanitärgegenstände
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
WO2003017719A1 (en) * 2001-08-08 2003-02-27 Apple Computer, Inc. Integrated sound input system
US7349849B2 (en) 2001-08-08 2008-03-25 Apple, Inc. Spacing for microphone elements
US7512245B2 (en) 2003-02-25 2009-03-31 Oticon A/S Method for detection of own voice activity in a communication device
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9117447B2 (en) 2006-09-08 2015-08-25 Apple Inc. Using event alert text as input to an automated assistant
US8942986B2 (en) 2006-09-08 2015-01-27 Apple Inc. Determining user intent based on ontologies of domains
US8930191B2 (en) 2006-09-08 2015-01-06 Apple Inc. Paraphrasing of user requests and results by automated digital assistant
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US8903716B2 (en) 2010-01-18 2014-12-02 Apple Inc. Personalized vocabulary for digital assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Also Published As

Publication number Publication date
DE4126902C2 (de) 1996-06-27

Similar Documents

Publication Publication Date Title
DE4126902A1 (de) Sprachintervall - feststelleinheit
EP1091349B1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE3837066C2 (de)
DE102008027848B4 (de) Echounterdrücker, Echounterdrückungsverfahren und computerlesbares Speichermedium
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE69122631T2 (de) Anordnung und Verfahren zur schnellen Detektion von gleichzeitigem Sprechen in einem Fernsprechkommunikationssystem mit langen Entfernungen
DE60018084T2 (de) Audiosignalverarbeitung
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69628411T2 (de) Vorrichtung und Verfahren zur Geräuschreduzierung eines Sprachsignals
DE112009000805T5 (de) Rauschreduktion
DE4430189A1 (de) Verfahren zur adaptiven Echokompensation
DE3233637A1 (de) Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP3068146A1 (de) Verfahren zum betrieb eines hörgeräts sowie hörgerät
DE69106588T2 (de) Vorrichtung um Sprachgeräusch zu trennen.
DE19521258A1 (de) Spracherkennungssystem
DE4106405C2 (de) Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem
DE60026058T2 (de) Verarbeitung von variabler verzögerung für objektives ermitteln der sprachqualität
DE60124192T2 (de) HMM-basierte Erkennung von verrauschter Sprache
DE3733983A1 (de) Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen
DE602005000897T2 (de) Eingangsschallprozessor
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
AT504164B1 (de) Vorrichtung zur gerauschunterdruckung bei einem audiosignal
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8325 Change of the main classification

Ipc: G10L 3/00

8339 Ceased/non-payment of the annual fee