DE4126902A1 - Sprachintervall - feststelleinheit - Google Patents
Sprachintervall - feststelleinheitInfo
- Publication number
- DE4126902A1 DE4126902A1 DE19914126902 DE4126902A DE4126902A1 DE 4126902 A1 DE4126902 A1 DE 4126902A1 DE 19914126902 DE19914126902 DE 19914126902 DE 4126902 A DE4126902 A DE 4126902A DE 4126902 A1 DE4126902 A1 DE 4126902A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- feature
- speaker
- interval
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 46
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 abstract description 31
- 230000001788 irregular Effects 0.000 abstract description 11
- 230000000737 periodic effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 19
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Die Erfindung betrifft eine Sprachintervall-Feststelleinheit
nach dem Oberbegriff des Anspruchs 1 oder 2, welche in einem
Spracherkennungssystem verwendet wird, und betrifft insbeson
dere eine Sprachintervall-Feststelleinheit, welche in einem
Spracherkennungssystem verwendbar ist, das in geräuschvollen
Umgebungen, wie beispielsweise einem Fahrzeug, in einer Fa
brik und in einem Haus, verwendet wird.
In einem üblichen Spracherkennungssystem ist eine Geräusch
beseitigung ein wichtiges Thema. Hierbei ist es schwierig,
Sprachintervalle, die Sprachabschnitten einer sprechenden Per
son entsprechen, eindeutig in einem akustischen Signal fest
zustellen, welchem Geräusche überlagert sind. Ein Verfahren,
um Sprachintervalle in einem akustischen Signal festzustellen,
welchem Geräusche überlagert sind, ist beispielsweise in der
japanischen Patentanmeldung Nr. 63-29 754 beschrieben. In die
sem Verfahren werden zwei Schwellenwertpegel verwendet, wel
che ein erster Schwellenwertpegel und ein zweiter Schwellen
wertpegel sind, welcher niedriger als der erste Schwellen
wertpegel ist, um die Sprachintervalle festzustellen. Das
heißt, in einem Fall, bei welchem der Pegel des tonfrequen
ten Signals für eine vorherbestimmte Zeit oder länger stän
dig höher als der erste Schwellenwert ist, wird ein Intervall,
in welchem der Pegel des tonfrequenten Signals höher als der
zweite Schwellenwertpegel oder gleich diesem ist, als das
Sprachintervall festgestellt. Jedoch ist es bei diesem her
kömmlichen Verfahren in einem Fall, bei welchem der Pegel ei
nes unregelmäßigen Geräusches, welches unregelmäßig erzeugt
ist, hinsichtlich der Zeitdauer größer als der erste Schwellen
wert ist, schwierig, eindeutig die Sprachintervalle festzu
stellen.
Ein Verfahren, um Sprachintervalle unter Bedingungen festzu
stellen, bei welchem unregelmäßige Geräusche dem akustischen
Signal überlagert sind, ist beispielsweise in der offenge
legten japanischen Patentanmeldung Nr. 58-1 30 395 beschrieben.
Bei diesem Verfahren werden ein erstes Mikrophon für Stimmen
und ein zweites Mikrophon für Geräusche verwendet, um die
Stimm- bzw. Sprachintervalle festzustellen. Das heißt, das
Sprachintervall wird auf der Basis einer Differenz zwischen
einer ersten Leistung eines Ausgangssignals von dem ersten
Mikrophon und einer zweiten Leistung eines Ausgangssignals
von dem zweiten Mikrophon festgestellt. Jedoch können bei
diesem herkömmlichen Verfahren Geräuschkomponenten, welche
in dem Sprachintervall enthalten sind, nicht beseitigt werden.
Außerdem ist ein spektrales Subtraktionsverfahren als ein
Verfahren bekannt, um Geräuschkomponenten aus dem tonfrequen
ten Signal zu beseitigen (z. B. DE 36 42 591 C1). Jedoch ist
es bei dem spektralen Subtraktionsverfahren schwierig, unre
gelmäßige Geräusche aus dem Tonsignal zu beseitigen. Bei einem
adaptiven Geräuschannullierverfahren, das in offengelegten ja
panischen Patentanmeldungen Nr. 58-1 96 599, 63-2 62 695,
1-1 15 798 und 1-2 39 595 (welche der US-Patentanmeldung S.N. 1 67 619
entspricht) beschrieben ist, können die unregelmäßigen Geräu
sche wirksam aus dem Tonsignal entfernt werden. In dem adap
tiven Geräuschannullierverfahren werden die Geräuschkompo
nenten aus dem Tonsignal mit Hilfe einer ersten Toneingabe
einheit (einem Mikrophon) und einer zweiten Toneingabeeinheit
(Mikrophon) wie folgt beseitigt.
Die erste Toneingabeeinheit ist nahe bei dem Sprecher vorge
sehen, während die zweite Eingabeeinheit weit weg von dem
Sprecher vorgesehen ist. Sprachabschnitte des Sprechers wer
den hauptsächlich in die erste Eingabeeinheit eingegeben.
Verschiedene Arten von Geräuschen in der Umgebung werden so
wohl in die erste als auch in die zweite Eingabeeinheit ein
gegeben. Ein Spektrum X(i) in jeweils einer Anzahl Frequenz
bänder wird aus einem Tonsignal erhalten. Ein Spektrum N(i)
in jedem der Frequenzbänder wird aus einem Signal erhalten,
das von der zweiten Eingabeeinheit zugeführt worden ist. In
diesem Fall ist mit i das i-te Frequenzband bezeichnet. Ein
Geräuschverhältnis k(i) in jedem Frequenzband ist vorher ent
sprechend der folgenden Formel unter der Voraussetzung
berechnet worden, daß es nicht die Stimme des Sprechers ist:
k(i) = X(i)/N(i).
Das Geräuschverhältnis k(i) stellt ein Verhältnis eines Ge-
räusches, das von der ersten Eingabeeinheit festgestellt wor
den ist, zu einem Geräusch dar, das von der zweiten Eingabe
einheit in dem jeweiligen Frequenzband festgestellt worden
ist.
Es wird dann ein Schätzwert S(i) eines Sprachspektrums, wel
ches der Sprache bzw. Stimme des Sprechers entspricht, ent
sprechend der folgenden Formel berechnet:
S(i) = X(i)-k(i)·N(i).
In diesem adaptiven Geräuschannullierverfahren ändert sich
in einem Fall, bei welchem eine Geräuschquelle bezüglich ei
nes i-ten Frequenzbandes vorhanden ist, obwohl sich der Pe
gel des Geräusches ändert, das Geräuschverhältnis k(i) nicht.
Folglich kann eine Geräuschkomponente, welche in dem Spektrum
X(i) des Tonsignals in dem Sprachintervall enthalten ist, durch
k(i)·N(i) geschätzt werden. Das heißt, mit dem adaptiven
Geräuschannullierverfahren kann das unregelmäßige Geräusch
aus der akustischen Komponente beseitigt werden. Wenn jedoch
in dem adaptiven Geräuschannullierverfahren das Geräuschver
hältnis k(i) unter der Voraussetzung berechnet wird, daß der
Pegel des Geräusches verhältnismäßig niedrig ist, wird ein
Fehler des Schätzwertes S(i) des Sprachspektrums groß. Außer
dem kann, wenn der Pegel des in dem Sprachintervall enthal
tenen Geräusches verhältnismäßig hoch ist, das Sprach- bzw.
Stimmenspektrum nicht angemessen geschätzt werden. Folglich
können mit dem adaptiven Geräuschannullierverfahren die Ge
räuschkomponenten nur in einem Fall angemessen beseitigt wer
den, bei welchem Geräuschkomponenten immer in allen Frequenz
bändern vorhanden sind.
Außerdem ist in DE 15 12 758 C1 ein Verfahren beschrieben,
um den Schätzwert S(i) des Sprachspektrums entsprechend der
folgenden Formel zu berechnen:
S(i) = X(i)-N(i).
Die vorstehende Formel enthält jedoch nicht den Koeffizienten
k(i). Folglich ergibt dieses Verfahren nicht das adaptive
Geräuschannullierverfahren und es hat den Nachteil, daß der
Schätzwert S(i) in dem Fall nicht korrekt ist, daß Geräusch
quellen nahe bei dem Mikrophon sind.
Gemäß der Erfindung soll daher eine Sprachintervall-Feststell
einheit in einem Spracherkennungssystem geschaffen werden,
bei welcher die Nachteile des Standes der Technik beseitigt
sind, und in welchem Sprach- oder Stimmenintervalle auch un
ter geräuschvollen Bedingungen, bei welchen es unregelmäßige
Geräusche gibt, in angemessener Weise festgestellt werden
können. Gemäß der Erfindung ist dies bei einer Sprachinter
vall-Feststelleinheit nach dem Oberbegriff des Anspruchs 1
oder 2 durch die Merkmale im kennzeichnenden Teil des jewei
ligen Anspruchs erreicht. Vorteilhafte Weiterbildungen sind
Gegenstand der auf einen der Ansprüche 1 oder 2 unmittelbar
oder mittelbar rückbezogenen Ansprüche.
Mit der Sprachintervall-Feststelleinheit gemäß der Erfindung
können Sprachintervalle, welche Stimmen- oder Sprachanteilen
eines Sprechers entsprechen, in einem akustischen Signal
festgestellt werden, selbst wenn das Spracherkennungssystem
in geräuschvoller Umgebung betrieben wird. Ferner kann mit
Hilfe der erfindungsgemäßen Sprachintervall-Feststellein
heit ein Sprachintervall, das einer Stimme bzw. der Sprache
eines Sprechers entspricht, in jeder einer Anzahl von Einhei
ten (z. B. Frequenzbändern) festgestellt werden. Folglich kann,
selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig
nal in einigen der Anzahl Einheiten (Frequenzbändern) überla
gert ist, das Sprachintervall in jedem der verbleibenden Ein
heiten (Frequenzbänder) festgestellt werden. Folglich kann
eine Erkennungsrate eines Spracherkennungssystems, bei wel
chem die Sprachintervall-Feststelleinheit verwendet ist, auch
in geräuschvollen Umgebungen zunehmen.
Ferner soll gemäß der Erfindung ein Spracherkennungssystem
geschaffen werden, in welchem Geräusche aus einem akustischen
Signal unter Geräuschbedingungen beseitigt werden können, bei
welchen es unregelmäßige Geräusche gibt, so daß eine gute Er
kennungsrate erhalten werden kann. Gemäß der Erfindung ist
dies bei einem Spracherkennungssystem nach dem Oberbegriff
des Anspruchs 14 oder 15 durch die Merkmale im kennzeichnenden
Teil des jeweiligen Anspruchs erreicht.
In einem Spracherkennungssystem gemäß der Erfindung wird ein
Erkennungsprozeß bezüglich Sprach- oder Stimmenmerkmale
durchgeführt, welche in Sprachintervallen in einer Anzahl Ein
heiten (z. B. Frequenzbändern) enthalten sind. Folglich kann,
selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig
nal in einigen der Anzahl Einheiten (Frequenzbändern) über
lagert ist, der Erkennungsprozeß bezüglich des Sprach- oder
Stimmenmerkmals in den Sprachintervallen in den restlichen
Einheiten (Frequenzbändern) durchgeführt werden. Folglich
kann eine Erkennungsrate eines Spracherkennungssystems auch
in geräuschvoller Umgebung erhöht werden.
Nachfolgend wird die Erfindung anhand von bevorzugten Aus
führungsformen unter Bezugnahme auf die anliegenden Zeich
nungen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Sprachintervall-Feststell
einheit gemäß einer Ausführungsform der Erfindung;
Fig. 2 ein Zeitdiagramm, in welchem Beispiele von Geräusch
intervallen wiedergegeben sind, welche mittels der
in Fig. 1 dargestellten Sprachintervall-Feststell
einheit festgestellt werden;
Fig. 3 ein Blockdiagramm einer Geräuschannulliereinheit,
welche in einem Spracherkennungssystem gemäß der
Erfindung verwendet ist, und
Fig. 4 ein Blockdiagramm eines Spracherkennungssystems
gemäß einer Ausführungsform der Erfindung.
Nachstehend wird eine bevorzugte Ausführungsform der Erfindung
anhand von Fig. 1 und 2 beschrieben. In Fig. 1 ist eine Sprach
intervall-Feststelleinheit dargestellt, welche ein erstes Mi
krophon 1, ein zweites Mikrophon 2, einen ersten und einen
zweiten Merkmalsextraktionsblock 10 und 20, einen ersten
Sprachintervall-Feststellblock 30, einen Koeffizienten-Be
rechnungsblock 40, einen Geräuschannullierblock 50 und einen
zweiten Sprachintervall-Feststellblock 60 aufweist. Das erste
Mikrophon 1 ist nahe bei einem Sprecher vorgesehen, während
das zweite Mikrophon 2 weit von dem Sprecher weg vorgesehen
ist. Folglich wird eine Sprecherstimme oder -sprache haupt
sächlich in dem ersten Mikrophon 1 aufgenommen. Geräusche
in der Umgebung können sowohl von dem ersten als auch von
dem zweiten Mikrophon 1 bzw. 2 aufgenommen werden. Wenn es
die Stimme des Sprechers ist, gibt das erste Mikrophon 1 ein
Tonsignal ab, welches Komponenten, welche der Stimme des
Sprechers entsprechen, und Komponeten enthält, welche den Ge
räuschen in der Umgebung entsprechen. Das zweite Mikrophon
22 gibt ein Bezugssignal ab, das Geräuschen in der Umgebung
entspricht. Das Bezugssignal, das von dem zweiten Mikrophon
2 abgegeben wird, enthält kaum eine Komponente der Stimme
bzw. Sprache des Sprechers.
Der erste Merkmalsextraktionsblock 10 extrahiert Merkmalsda
ten aus dem von dem ersten Mikrophon 1 gelieferten Tonsignal.
Der erste Merkmalsextraktionsblock 10 hat einen Verstärker
11, ein Bandpaßbilter 12, einen Gleichrichter 13, ein Tief
paßfilter 14, einen Multiplexer 15 und einen Analog-Digital-
Umsetzer 16. Der Verstärker 11 verstärkt das von dem ersten
Mikrophon 1 gelieferte Tonsignal mit einem vorherbestimmten
Verstärkungsfaktor. Das Bandpaßfilter 12 hat fünfzehn Ka
näle, die jeweils einem von fünfzehn Frequenzbändern ent
sprechen. Das Bandpaßfilter 12 teilt das Tonsignal in ein
Spektrum, welches aus fünfzehn Frequenzbändern besteht. Jeder
Wert der fünfzehn Frequenzbänder wird von dem Gleichrichter
13 und dem Tiefpaßfilter 14 verarbeitet, so daß ein Spektrum
X(i) des Tonsignals in den fünfzehn Frequenzbändern (Kanälen)
erhalten wird. Der Multiplexer 15 wählt eines der fünfzehn
Frequenzbänder aus, welches Spektrum von dem Bandpaßfilter 12
über den Gleichrichter 13 und das Tiefpaßfilter 14 geliefert
wird. Der Analog-Digital-Umsetzer 16 setzt das Spektrum X(i)
in jedem Frequenzband in digitale Daten um. Folglich gibt
der erste Merkmalsextraktionsblock 10 periodisch das Spek
trum X(i) (i= 1, 2,..., 15) des akustischen Signal bei einer
vorherbestimmten Rahmenzeit ab.
Der zweite Merkmalsextraktionsblock 20 hat einen Verstärker
21, ein Bandpaßbilter 22, einen Gleichrichter 23, ein Tief
paßfilter 24, einen Multiplexer 25 und einen Analog-Digital-
Umsetzer 26 genauso wie der erste Merkmalsextraktionsblock
20. Folglich gibt der zweite Merkmalsextraktionsblock 20
periodisch ein Spektrum N(i) des Referenzsignals bei der vor
herbestimmten Rahmenzeit ab. Ein Verstärkungsfaktor des Ver
stärkers 11 in dem ersten Merkmalsextraktionsblock 10 und
ein Verstärkungsfaktor des Verstärkers 21 in dem zweiten
Merkmalsextraktionsblock 20 werden so eingestellt, daß der
Pegel des Tonsignals annähernd gleich dem Pegel des Refe
renzsignals wird. Kenndaten anderer Teile in dem ersten Merk
malsextraktionsblock 10 sind gleich Kenndaten entsprechender
Teile in dem zweiten Merkmalsextraktionsblock 20. Die bei
den Merkmalsextraktionsblöcke 10 und 20 können auch Merkmals
daten außer den vorerwähnten Spektren X,(i) und N(i) extra
hieren.
Der erste Sprachintervall-Feststellblock 30 stellt ein
Sprachintervall basierend auf einer Differenz zwischen einer
Gesamtleistung ΣX(i) des akustischen Signals und einer Ge
samtleistung ΣN(i) des Bezugssignals fest. Der erste Sprach
intervall-Feststellblock 30 stellt das Sprachintervall fest,
wenn die Differenz zwischen der Gesamtleistung ΣX(i) des
akustischen Signals und der Gesamtleistung ΣN(i) größer als
ein Schwellenwert Tpwr ist. Auf das mittels des ersten Blocks
30 festgestellte Sprachintervall wird als ein generelles
Sprachintervall Bezug genommen. Der Schwellenwert Tpwr wird
auf der Basis eines Mittelwerts Av Xpwer der Gesamtleistung
des Tonsignals in einer Anzahl Rahmen vor dem gegenwärtigen
Rahmen und in einem Intervall außer dem generellen Sprach
intervall und auf der Basis eines Mittelwerts Av Npwr der
Gesamtleistung des Bezugssignals berechnet, das unter dersel
ben Bedingung wie der Mittelwert Av Xpwr erhalten worden
ist. Das heißt, der Schwellenwert Tpwr wird berechnet und ent
sprechend der folgenden Formel (1) aktualisiert:
Tpwr = apwr · (AvXpwr - Av Npwr)+bpwr (1)
wobei apwr und bpwr konstante Zahlen und größer als null
sind (apwr, bpwr<0).
Der Geräuschannullierblock 50 erzeugt ein Merkmals S(i) der
Sprache, aus welchem Geräuschkomponenten beseitigt werden,
wie später noch beschrieben wird. Eine Sprachleistung ΣS(i)
wird auf der Basis des Merkmals S(i) der Sprache erhalten,
und dann kann das generelle Sprachintervall auf der Basis
eines Vergleichs der Sprachleistung ΣS(i) mit dem Schwellen
wert Tpwr erhalten werden.
Der Koeffizientenberechnungsblock 40 berechnet einen Geräusch
koeffizienten k(i) in jedem Kanal entsprechend der folgenden
Formel (2), welche das Spektrum X(i) des Tonsignals und das
Spektrum N(i) des Bezugssignals enthält, welche unter der
Bedingung erhalten werden, daß keine Sprache des Sprechers
vorhanden ist:
k(i)=[X(i)+C₁]/[N(i)+C₂] (2)
wobei C1 und C2 konstante Zahlen und größer als null sind
(C1, C2<0).
Der Geräuschkoeffizient k(i) kann auch auf der Basis eines
Mittelwerts der Spektren X(i) und N(i) in einer Anzahl Rah
men vor dem gegenwärtigen Rahmen berechnet werden. In diesem
Fall ist die Anzahl Rahmen, um den Mittelwert zu erhalten
vorzugsweise kleiner als die Anzahl Rahmen, die erforderlich
sind, um den vorstehenden Schwellenwert Tpwr und einen
Schwellenwert Ti zu berechnen, welcher später noch beschrie
ben wird.
Gemäß der vorstehenden Formel (2) kommt, je größer die Spek
tren X(i) und N(i) sind, umso näher bzw. dichter dem Ver
hältnis X(i)/N(i), welches das herkömmliche Geräuschverhält
nis ist, der Geräuschkoeffizient k(i). Je kleiner die Spektren
X(i) und N(i) sind, umso näher dem Verhältnis C1/C2 kommt an
dererseits der Geräuschkoeffizient k(i). Folglich kann in
einem Fall, bei welchen die Spektren X(i) und N(i) in jedem
Frequenzband klein sind, wenn C1/C2 auf einen angemessenen
Wert in dem Spracherkennungssystem gesetzt ist, ein Fehler
des Geräuschkoeffizienten k(i) klein werden. Falls die jewei
ligen Wert von X(i) und N(i) durch 8 Bits (0 bis 255) darge
stellt werden, sind die jeweiligen C1 und C2 vorzugsweise
Werte in einem Bereich zwischen 8 und 32. Falls der Pegel von
X(i) und der Pegel von N(i), welche unter einer Bedingung
gemessen werden, bei welcher ein Geräusch, das von einer
Quelle weit weg von den Mikrophonen 1 und 2 erzeugt worden
ist, oder ein Geräusch vorhanden ist, das durch eine bestimmte
Quelle erzeugt worden ist, annähernd einander gleich sind,
kann der Wert von C1/C2 auf "1" gesetzt werden. In anderen
Fällen kann der Wert von C1/C2 auf einen Wert von X(i)/N(i)
gesetzt werden, wobei X(i) bzw. N(i) unter einer Bedingung
gemessen werden, bei welcher keine Sprache des Sprechers
vorliegt. Der Wert von C1/C2 kann in Abhängigkeit von dem
jeweiligen Kanal auf einen entsprechenden Wert gesetzt wer
den. In einem System, in welchem eine Sprache des Sprechers
an dem zweiten Mikrophon 2 eingegeben werden kann, ist, wenn
der Wert von C1/C2 gleich "1" ist (C1 = C2), ein Teil der
Sprachkomponenten als eine Geräuschkomponente aus der Sprache
beseitigt. Folglich ist in diesem Fall der Wert von C1/C2
vorzugsweise kleiner als "1" (C1 < C2).
Der Wert, welcher durch Glätten des Geräuschkoeffizienten
k(i) bezüglich einer Zeitskala erhalten worden ist, kann ver
wendet werden, um das Geräusch aus der Sprache zu eliminieren.
Die Beziehung zwischen dem Geräuschkoeffizienten k(i) und den
Spektren X(i) und N(i) ist nicht auf diejenige beschränkt,
welche durch die vorstehende Formel (1) wiedergegeben ist.
Die Beziehung kann auch durch eine hyperbolische Funktion,
eine Exponentialfunktion u.ä. dargestellt werden.
Der Geräuschannullierblock 50 berechnet das Merkmal S(i) der
Sprache, aus welchem das Geräusch beseitigt ist, in jedem
Kanal (jedem Frequenzband) entsprechend der folgenden Formel
(3):
S(i)=X(i)-k(i) · N(i) (3)
In einem Intervall außer dem Sprachintervall kann S(i) auf
"0" gesetzt werden.
Der zweite Sprachintervall-Feststellblock 60 addiert vorher
bestimmte Intervalle zu einem vorderen Ende des von dem er
sten Block 30 festgestellten, generellen Sprachintervalls und
zu einem hinteren Ende des generellen Sprachintervalls. Folg
lich erzeugt der zweite Sprachintervall-Feststellblock 60 ein
Feststellintervall, welches aus dem generellen Sprachinter
vall und dem dazu addierten Intervall gebildet ist. Dann be
stimmt der zweite Sprachintervall-Feststellblock 60, ob das
Spektrum S(i) der Sprache, welche durch den Geräuschannullier
block 50 erhalten wird, größer als ein Schwellenwert T(i) in
dem dabei erhaltenen Feststellintervall ist oder nicht. Wenn
das Spektrum S(i) in dem i-ten Frequenzband der Sprache grö
ßer als der Schwellenwert T(i) ist, stellt der zweite Sprach
feststellblock 60 ein Sprachintervall in dem i-ten Kanal
fest, welcher dem i-ten Frequenzband entspricht. Das heißt,
der zweite Sprachintervall-Feststellblock 60 gibt das Spek
trum S(i), das von dem Geräuschannullierblock 50 geliefert
worden ist, in dem Sprachintervall in jedem Frequenzband und
"0" in einem Intervall außer dem Sprachintervall ab. Das
Spektrum S(i) (einschließlich "0"), das von dem zweiten
Sprachintervall-Feststellblock 60 abgegeben worden ist, wird
in einem Prozeß zum Erkennen von Sprache eines Sprechers ver
wendet.
In Fig. 2 sind Sprachintervalle dargestellt, welche durch
den ersten und zweiten Sprachintervall-Feststellblock 30
bzw. 60 festgestellt werden, wenn eine Sprache, wie bei
spielsweise "SECHS" an dem ersten Mikrophon 1 eingegeben
wird. In Fig. 2 stellt der erste Sprachintervall-Feststell
block 30 das generelle Sprachintervall fest, was durch (A) in
Fig. 2 dargestellt ist. Der zweite Sprachintervall-Feststell
block 40 addiert vorherbestimmte Intervalle zu den generellen
Sprachintervallen, um so das Feststellintervall zu erzeugen,
das durch (B) in Fig. 2 dargestellt ist. Dann stellt der zweite
Sprachintervall-Feststellblock 60 das Sprachintervall in je
dem der fünfzehn Frequenzbänder von einem niedrigen (dem er
sten) Frequenzband bis zu einem hohen (dem fünfzehnten) Fre
quenzband in dem durch (B) dargestellten Feststellsprachin
tervall fest, was durch (C) in Fig. 2 dargestellt ist.
Der vorerwähnte Schwellenwert Ti, welcher verwendet wird,
um das Sprachintervall in jedem Frequenzband festzustellen,
wird entsprechend der folgenden Formel (4) berechnet und
aktualisiert:
Ti=a · (Av X(i)-Av N(i))+b (4)
(a, b: konstante Zahlen, a, b<0)
In der vorstehenden Formel (4) stellt Av X(i) einen Mittel
wert der Spektren X(i) des Tonsignals in einer Anzahl Rah
men vor dem gegenwärtigen Rahmen und in Intervallen außer
dem Sprachintervall in dem i-ten Frequenzband dar; Av N(i)
stellt einen Mittelwert der Spektren N(i) des Bezugssignals
in der Anzahl Rahmen vor dem gegenwärtigen Rahmen in dem In
tervall außer dem Sprachintervall in dem i-ten Frequenz
band dar.
Falls das in Fig. 1 dargestellte System in Umgebungen vor
gesehen wird, in welchen Geräusche nicht zu groß sind, kann
der Prozeß in dem ersten Sprachintervall-Feststellblock 30
weggelassen werden. Das heißt, der zweite Sprachintervall-
Feststellblock 60 kann unmittelbar das Sprachintervall in
jedem der Frequenzbänder in dem Spektrum X(i) des akustischen
Signals feststellen. Der Schwellenwert T(i), welcher dazu
verwendet wird, das Sprachintervall in jedem der Frequenz
bänder festzustellen, bzw. die Geräuschkoeffizienten k(i)
können in einer Gruppe berechnet werden, welche eine Anzahl
Kanäle (Frequenzbänder) enthält.
Der erste Sprachintervallblock 30, der Koeffizienten-Berech
nungsblock 40, der Geräuschannullierblock 50 und der zweite
Sprachintervall-Feststellblock sind beispielsweise in einem
Computersystem gebildet.
In Fig. 3 ist eine weitere Ausführungsform der Erfindung dar
gestellt, wobei diejenigen Teile, welche dieselben wie in
Fig. 1 sind, mit denselben Bezugszeichen versehen sind. In
Fig. 3 ist das zweite, in Fig. 1 dargestellte Mikrophon 2 durch
einen Lautsprecher 2s ersetzt. Das heißt, die Töne, welche
von dem Lautsprecher 2s abgegeben worden sind, werden als
Geräusche dem ersten Mikrophon 1 zugeführt. Ein Tonsignal,
das dem Lautsprecher 2s zugeführt wird, wird ebenfalls als
ein Geräuschsignal dem zweiten Merkmalsextraktionsblock 20
zugeführt. Der Sprachintervall-Feststellblock 60 stellt das
Sprachintervall in jedem der Frequenzbänder basierend auf
dem Schwellenwert Ti fest, welcher entsprechend der Formel
(4) berechnet worden ist. Der Koeffizienten-Berechnungsblock
40 berechnet die Geräuschkoeffizienten k(i) entsprechend der
vorstehenden Formel (2). Der Geräuschannullierblock 50 gibt
das Merkmal S(i) (Spektrum) der Sprache ab, was entsprechend
der Formel (3) berechnet worden ist. Die Verstärkungfaktoren
der Verstärker in den beiden Merkmalsextraktionsblöcken
10 und 20 werden so eingestellt, daß das akustische Signal
und das Bezugssignal annähernd einander gleich sind, wenn
das Tonsignal dem Lautsprecher 2s und dem zweiten Merkmals
extraktionsblock 20 zugeführt wird.
In dem in Fig. 3 dargestellten System kann das dem Tonsignal
entsprechende Geräusch aus dem Tonsignal beseitigt werden,
das von dem ersten Merkmalsextraktionsblock 10 erhalten
worden ist.
In Fig. 4 ist ein Spracherkennungssystem gemäß einer Ausfüh
rungsform der Erfindung dargestellt. In Fig. 4 sind dieje
nigen Teile, welche dieselben Teile wie in Fig. 1 sind, mit
denselben Bezugszeichen bezeichnet. In Fig. 4 hat das Sprach
erkennungssystem das erste Mikrophon 1, das zweite Mikrophon
2, den Sprachintervall-Feststellblock 60, den Koeffizienten-
Berechnungsblock 40 und den Geräuschannullierblock 50 in
der gleichen Weise wie die in Fig. 1 und 3 dargestellten
Systeme. Das Spracherkennungssystem hat auch einen Eingangs
mustergenerator 70, einen Referenzmusterspeicher 80 und einen
Erkennungsblock 90. Der Eingangsmuster-Generator 70 erzeugt
ein Eingangsmuster auf der Basis des Spektrums S(i) der Spra
che, welche von dem Geräuschannullierblock 50 geliefert wird.
Der Referenzmusterspeicher 80 speichert vorherbestimmte Re
ferenzmuster von Sprachen. Der Erkennungsblock 90 vergleicht
das Eingangsmuster mit den Referenzmustern in dem Referenz
musterspeicher 80 und führt einen Erkennungsprozeß durch.
Ausführung und Arbeitsweise in dem Eingangsmuster-Generator
70, dem Bezugsmusterspeicher 80 und dem Erkennungsblock 90
sind beispielsweise diejenigen, welche in einem bekannten
BTSP-Spracherkennungsverfahren verwendet sind.
In dem vorstehend beschriebenen Spracherkennungssystem wird
ein Referenzmuster, welches dem Eingangsmuster angepaßt
ist von dem Erkennungsblock 90 als das Erkennungsergebnis
abgegeben.
Claims (16)
1. Sprachintervall-Feststelleinheit, um ein Sprachintervall,
das einer Sprache bzw. Stimme eines Sprechers entspricht,
in einem Tonsignal festzustellen, gekennzeichnet
durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist, und
eine Sprachintervall-Feststelleinrichtung (60) , welche mit der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, das der Sprache des Spechers entspricht, in jeder der Anzahl Einheiten basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert worden ist.
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist, und
eine Sprachintervall-Feststelleinrichtung (60) , welche mit der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, das der Sprache des Spechers entspricht, in jeder der Anzahl Einheiten basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert worden ist.
2. Sprachintervall-Feststelleinheit, um ein Sprachintervall,
das einer Sprache bzw. Stimme eines Sprechers entspricht,
in einem Tonsignal festzustellen, gekennzeichnet
durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache bzw. Stimme des Sprechers in dem akustischen Signal entspricht, und
eine zweite Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem von der Geräuschannullier einrichtung (50) gelieferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprach intervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet ist, das zu dem ge nerellen Sprachintervall addiert worden ist.
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache bzw. Stimme des Sprechers in dem akustischen Signal entspricht, und
eine zweite Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem von der Geräuschannullier einrichtung (50) gelieferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprach intervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet ist, das zu dem ge nerellen Sprachintervall addiert worden ist.
3. Sprachintervall-Feststelleinheit nach einem der Ansprüche
1 oder 2, dadurch gekennzeichnet, daß die An
zahl Einheiten einer Anzahl vorherbestimmter Frequenzbänder
entspricht.
4. Sprachintervall-Feststelleinheit nach einem der Ansprüche
1 oder 2, dadurch gekennzeichnet, daß die
Sprachintervall-Feststelleinrichtung (60) eine Bestimmungs
einrichtung aufweist, um zu bestimmen, ob das Sprachmerkmal
jeder der Anzahl Einheiten größer als ein vorherbestimmter
Schwellenwert ist oder nicht, wobei, wenn die Bestimmungsein
richtung feststellt, daß das Sprachmerkmal größer als der
Schwellenwertpegel ist, die Sprachintervall-Feststelleinrich
tung das Sprachintervall in jeder der Anzahl Einheiten fest
stellt.
5. Sprachintervall-Feststelleinheit nach Anspruch 4, dadurch
gekennzeichnet, daß die Sprachintervall-Fest
stelleinrichtung einen Schwellenwertgenerator hat, um den
Schwellenwertpegel auf der Basis des ersten und des zweiten
Merkmals zu erzeugen, welche von der ersten und der zweiten
Merkmalseinrichtung (10, 20) in einer vorherbestimmten frühe
ren Periode unter der Voraussetzung abgegeben worden sind,
daß keine Sprache des Sprechers vorliegt.
6. Sprachintervall-Feststelleinheit nach Anspruch 5, dadurch
gekennzeichnet, daß der Schwellenwert periodisch
aktualisiert wird.
7. Sprachintervall-Feststelleinheit nach einem der Ansprüche
1 oder 2, dadurch gekennzeichnet, daß die Be
rechnungseinrichtung (40) den Geräuschkoeffizienten berech
net, so daß, je größer das erste und das zweite Merkmal sind,
um so näher einem Verhältnis des ersten Merkmals zu dem zwei
ten Merkmal unter der Voraussetzung, daß keine Stimme des
Sprechers vorliegt, der Wert des Geräuschkoeffizienten wird,
und je kleiner das erste und das zweite Merkmal sind, um so
näher einem vorherbestimmten Wert der Geräuschkoeffizient
wird.
8. Sprachintervall-Feststelleinheit nach Anspruch 7, dadurch
gekennzeichnet, daß die Berechnungseinrichtung
(40) eine Einrichtung zum Berechnen des Geräuschkoeffizienten
k(i) entsprechend der folgenden Formel hat:
k(i)=[X(i)+C₁]/[N(i)+C₂]wobei X(i) das erste Merkmal in jeder der Anzahl Einheiten
unter der Bedingung darstellt, daß keine Stimme des Sprechers
vorliegt, N(i) das zweite Merkmal in jeder der Anzahl Einhei
ten unter der Bedingung darstellt, daß keine Stimme des Spre
chers vorliegt, und C1 und C2 konstante Zahlen größer als
null sind.
9. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch
gekennzeichnet, daß die konstanten Werte C1 und
C2 einander gleich sind.
10. Sprachintervall-Feststelleinheit nach einem der Ansprüche
1 oder 2, dadurch gekennzeichnet, daß jede der
ersten und zweiten Eingabeeinrichtungen ein Mikrophon (1, 2)
hat.
11. Sprachintervall-Feststelleinheit nach einem der Ansprüche
1 oder 2, dadurch gekennzeichnet, daß die
Sprachintervall-Feststelleinrichtung ferner einen Lautspre
cher (2s) aufweist, welchem ein Tonsignal von einer externen
Einheit zugeführt wird, und daß die zweite Eingabeeinrichtung
(2) eine Einrichtung hat, um das von dem Lautsprecher (2s)
gelieferte Tonsignal einzugeben.
12. Sprachintervall-Feststelleinheit nach Anspruch 2, dadurch
gekennzeichnet, daß die erste Sprachintervall-
Feststelleinrichtung eine Einrichtung hat, um das generelle
Sprachintervall festzustellen, falls eine Leistung einer
Sprache, welche aus den Sprachmerkmalen in allen der Anzahl
Einheiten erhalten wird, welche von der Sprachannullierein
richtung zugeführt worden sind, größer als ein vorherbestimm
ter Schwellenwert ist.
13. Sprachintervall-Festeinheit nach Anspruch 2, dadurch
gekennzeichnet, daß die erste Sprachintervall-
Feststelleinrichtung eine Einrichtung hat, um das generelle
Sprachintervall festzustellen, falls eine Differenz zwischen
einer Gesamtleistung des Tonsignals und einer Gesamtleistung
des Bezugssignals größer als ein vorherbestimmter Schwellen
wert ist, die Gesamtleistung des Tonsignals eine Gesamtsumme
der ersten Merkmale in allen der Anzahl Einheiten ist, welche
von der ersten Merkmalsextraktionseinrichtung (10) geliefert
worden ist, und die Gesamtleistung des Bezugssignals eine Ge
samtsumme der zweiten Merkmale in allen der Anzahl Einheiten
ist, welche von der zweiten Merkmalsextraktionseinrichtung
(20) geliefert worden sind.
14. Spracherkennungssystem, um Sprache auf der Basis einer
Stimme eines Sprechers zu erkennen, gekennzeich
net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
15. Spracherkennungssystem, um Sprache auf der Basis einer
Stimme eines Sprechers zu erkennen, gekennzeich
net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30), um ein generelles Sprachintervall, das der Stimme des Sprechers ent spricht, in dem aktustischen Signal festzustellen;
eine zweite Sprachintervall-Feststelleinrichtung (60), die mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert wor den ist, wobei das Feststellintervall aus dem generellen In tervall, das durch die erste Sprachintervall-Feststellein richtung (30) und einem vorherbestimmten Intervall gebildet ist, das zu dem generellen Sprachintervall addiert worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30), um ein generelles Sprachintervall, das der Stimme des Sprechers ent spricht, in dem aktustischen Signal festzustellen;
eine zweite Sprachintervall-Feststelleinrichtung (60), die mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert wor den ist, wobei das Feststellintervall aus dem generellen In tervall, das durch die erste Sprachintervall-Feststellein richtung (30) und einem vorherbestimmten Intervall gebildet ist, das zu dem generellen Sprachintervall addiert worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.
16. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch
gekennzeichnet, daß die Geräuschannullierein
richtung (50) eine Einrichtung hat, um das Merkmal S(i) der
Sprache entsprechend der folgenden Formel zu berechnen:
S(i) = X(i)-k(i) N(i).
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21519690 | 1990-08-15 | ||
JP21519790 | 1990-08-15 | ||
JP12495391 | 1991-04-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4126902A1 true DE4126902A1 (de) | 1992-02-20 |
DE4126902C2 DE4126902C2 (de) | 1996-06-27 |
Family
ID=27315007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19914126902 Expired - Fee Related DE4126902C2 (de) | 1990-08-15 | 1991-08-14 | Sprachintervall - Feststelleinheit |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4126902C2 (de) |
Cited By (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0974329A3 (de) * | 1998-07-02 | 2001-09-12 | Altura Leiden Holding B.V. | Steuerungseirichtung für Sanitärgegenstände |
WO2003017719A1 (en) * | 2001-08-08 | 2003-02-27 | Apple Computer, Inc. | Integrated sound input system |
US7349849B2 (en) | 2001-08-08 | 2008-03-25 | Apple, Inc. | Spacing for microphone elements |
US7512245B2 (en) | 2003-02-25 | 2009-03-31 | Oticon A/S | Method for detection of own voice activity in a communication device |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19818608C2 (de) * | 1998-04-20 | 2000-06-15 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
DE10030105A1 (de) * | 2000-06-19 | 2002-01-03 | Bosch Gmbh Robert | Spracherkennungseinrichtung |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1512758C1 (de) * | 1967-02-14 | 1977-09-15 | Sennheiser Electronic | Vocoder fuer hohe Stoerlautstaerken |
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPS58130395A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声区間検出装置 |
JPS58196599A (ja) * | 1982-05-12 | 1983-11-16 | 松下電器産業株式会社 | 音声認識装置 |
JPS63262695A (ja) * | 1987-04-21 | 1988-10-28 | 日本電気株式会社 | 音声認識方式 |
DE3837066A1 (de) * | 1987-11-01 | 1989-05-11 | Ricoh Kk | Rauschunterdrueckungseinrichtung |
EP0332890A2 (de) * | 1988-03-14 | 1989-09-20 | International Business Machines Corporation | Rauschunterdrückung bei einem verrauschten Sprachsignal |
-
1991
- 1991-08-14 DE DE19914126902 patent/DE4126902C2/de not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1512758C1 (de) * | 1967-02-14 | 1977-09-15 | Sennheiser Electronic | Vocoder fuer hohe Stoerlautstaerken |
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPS58130395A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声区間検出装置 |
JPS58196599A (ja) * | 1982-05-12 | 1983-11-16 | 松下電器産業株式会社 | 音声認識装置 |
JPS63262695A (ja) * | 1987-04-21 | 1988-10-28 | 日本電気株式会社 | 音声認識方式 |
DE3837066A1 (de) * | 1987-11-01 | 1989-05-11 | Ricoh Kk | Rauschunterdrueckungseinrichtung |
EP0332890A2 (de) * | 1988-03-14 | 1989-09-20 | International Business Machines Corporation | Rauschunterdrückung bei einem verrauschten Sprachsignal |
JPH01239596A (ja) * | 1988-03-14 | 1989-09-25 | Internatl Business Mach Corp <Ibm> | 雑音消去装置 |
US4912767A (en) * | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
Cited By (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0974329A3 (de) * | 1998-07-02 | 2001-09-12 | Altura Leiden Holding B.V. | Steuerungseirichtung für Sanitärgegenstände |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2003017719A1 (en) * | 2001-08-08 | 2003-02-27 | Apple Computer, Inc. | Integrated sound input system |
US7349849B2 (en) | 2001-08-08 | 2008-03-25 | Apple, Inc. | Spacing for microphone elements |
US7512245B2 (en) | 2003-02-25 | 2009-03-31 | Oticon A/S | Method for detection of own voice activity in a communication device |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9117447B2 (en) | 2006-09-08 | 2015-08-25 | Apple Inc. | Using event alert text as input to an automated assistant |
US8942986B2 (en) | 2006-09-08 | 2015-01-27 | Apple Inc. | Determining user intent based on ontologies of domains |
US8930191B2 (en) | 2006-09-08 | 2015-01-06 | Apple Inc. | Paraphrasing of user requests and results by automated digital assistant |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US8903716B2 (en) | 2010-01-18 | 2014-12-02 | Apple Inc. | Personalized vocabulary for digital assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Also Published As
Publication number | Publication date |
---|---|
DE4126902C2 (de) | 1996-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4126902A1 (de) | Sprachintervall - feststelleinheit | |
EP1091349B1 (de) | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung | |
DE3837066C2 (de) | ||
DE102008027848B4 (de) | Echounterdrücker, Echounterdrückungsverfahren und computerlesbares Speichermedium | |
DE60027438T2 (de) | Verbesserung eines verrauschten akustischen signals | |
EP1143416B1 (de) | Geräuschunterdrückung im Zeitbereich | |
DE69122631T2 (de) | Anordnung und Verfahren zur schnellen Detektion von gleichzeitigem Sprechen in einem Fernsprechkommunikationssystem mit langen Entfernungen | |
DE60018084T2 (de) | Audiosignalverarbeitung | |
DE68910859T2 (de) | Detektion für die Anwesenheit eines Sprachsignals. | |
DE69628411T2 (de) | Vorrichtung und Verfahren zur Geräuschreduzierung eines Sprachsignals | |
DE112009000805T5 (de) | Rauschreduktion | |
DE4430189A1 (de) | Verfahren zur adaptiven Echokompensation | |
DE3233637A1 (de) | Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen | |
DE112007003625T5 (de) | Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm | |
EP3068146A1 (de) | Verfahren zum betrieb eines hörgeräts sowie hörgerät | |
DE69106588T2 (de) | Vorrichtung um Sprachgeräusch zu trennen. | |
DE19521258A1 (de) | Spracherkennungssystem | |
DE4106405C2 (de) | Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem | |
DE60026058T2 (de) | Verarbeitung von variabler verzögerung für objektives ermitteln der sprachqualität | |
DE60124192T2 (de) | HMM-basierte Erkennung von verrauschter Sprache | |
DE3733983A1 (de) | Verfahren zum daempfen von stoerschall in von hoergeraeten uebertragenen schallsignalen | |
DE602005000897T2 (de) | Eingangsschallprozessor | |
DE69112855T2 (de) | Sprachsignalverarbeitungsvorrichtung. | |
AT504164B1 (de) | Vorrichtung zur gerauschunterdruckung bei einem audiosignal | |
EP3065417A1 (de) | Verfahren zur unterdrückung eines störgeräusches in einem akustischen system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8325 | Change of the main classification |
Ipc: G10L 3/00 |
|
8339 | Ceased/non-payment of the annual fee |