DE4126902A1

DE4126902A1 - Sprachintervall - feststelleinheit

Info

Publication number: DE4126902A1
Application number: DE19914126902
Authority: DE
Inventors: Takashi Ariyoshi
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-08-15
Filing date: 1991-08-14
Publication date: 1992-02-20
Anticipated expiration: 2011-08-15
Also published as: DE4126902C2

Description

Die Erfindung betrifft eine Sprachintervall-Feststelleinheit nach dem Oberbegriff des Anspruchs 1 oder 2, welche in einem Spracherkennungssystem verwendet wird, und betrifft insbeson dere eine Sprachintervall-Feststelleinheit, welche in einem Spracherkennungssystem verwendbar ist, das in geräuschvollen Umgebungen, wie beispielsweise einem Fahrzeug, in einer Fa brik und in einem Haus, verwendet wird.

In einem üblichen Spracherkennungssystem ist eine Geräusch beseitigung ein wichtiges Thema. Hierbei ist es schwierig, Sprachintervalle, die Sprachabschnitten einer sprechenden Per son entsprechen, eindeutig in einem akustischen Signal fest zustellen, welchem Geräusche überlagert sind. Ein Verfahren, um Sprachintervalle in einem akustischen Signal festzustellen, welchem Geräusche überlagert sind, ist beispielsweise in der japanischen Patentanmeldung Nr. 63-29 754 beschrieben. In die sem Verfahren werden zwei Schwellenwertpegel verwendet, wel che ein erster Schwellenwertpegel und ein zweiter Schwellen wertpegel sind, welcher niedriger als der erste Schwellen wertpegel ist, um die Sprachintervalle festzustellen. Das heißt, in einem Fall, bei welchem der Pegel des tonfrequen ten Signals für eine vorherbestimmte Zeit oder länger stän dig höher als der erste Schwellenwert ist, wird ein Intervall, in welchem der Pegel des tonfrequenten Signals höher als der zweite Schwellenwertpegel oder gleich diesem ist, als das Sprachintervall festgestellt. Jedoch ist es bei diesem her kömmlichen Verfahren in einem Fall, bei welchem der Pegel ei nes unregelmäßigen Geräusches, welches unregelmäßig erzeugt ist, hinsichtlich der Zeitdauer größer als der erste Schwellen wert ist, schwierig, eindeutig die Sprachintervalle festzu stellen.

Ein Verfahren, um Sprachintervalle unter Bedingungen festzu stellen, bei welchem unregelmäßige Geräusche dem akustischen Signal überlagert sind, ist beispielsweise in der offenge legten japanischen Patentanmeldung Nr. 58-1 30 395 beschrieben. Bei diesem Verfahren werden ein erstes Mikrophon für Stimmen und ein zweites Mikrophon für Geräusche verwendet, um die Stimm- bzw. Sprachintervalle festzustellen. Das heißt, das Sprachintervall wird auf der Basis einer Differenz zwischen einer ersten Leistung eines Ausgangssignals von dem ersten Mikrophon und einer zweiten Leistung eines Ausgangssignals von dem zweiten Mikrophon festgestellt. Jedoch können bei diesem herkömmlichen Verfahren Geräuschkomponenten, welche in dem Sprachintervall enthalten sind, nicht beseitigt werden.

Außerdem ist ein spektrales Subtraktionsverfahren als ein Verfahren bekannt, um Geräuschkomponenten aus dem tonfrequen ten Signal zu beseitigen (z. B. DE 36 42 591 C1). Jedoch ist es bei dem spektralen Subtraktionsverfahren schwierig, unre gelmäßige Geräusche aus dem Tonsignal zu beseitigen. Bei einem adaptiven Geräuschannullierverfahren, das in offengelegten ja panischen Patentanmeldungen Nr. 58-1 96 599, 63-2 62 695, 1-1 15 798 und 1-2 39 595 (welche der US-Patentanmeldung S.N. 1 67 619 entspricht) beschrieben ist, können die unregelmäßigen Geräu sche wirksam aus dem Tonsignal entfernt werden. In dem adap tiven Geräuschannullierverfahren werden die Geräuschkompo nenten aus dem Tonsignal mit Hilfe einer ersten Toneingabe einheit (einem Mikrophon) und einer zweiten Toneingabeeinheit (Mikrophon) wie folgt beseitigt.

Die erste Toneingabeeinheit ist nahe bei dem Sprecher vorge sehen, während die zweite Eingabeeinheit weit weg von dem Sprecher vorgesehen ist. Sprachabschnitte des Sprechers wer den hauptsächlich in die erste Eingabeeinheit eingegeben. Verschiedene Arten von Geräuschen in der Umgebung werden so wohl in die erste als auch in die zweite Eingabeeinheit ein gegeben. Ein Spektrum X(i) in jeweils einer Anzahl Frequenz bänder wird aus einem Tonsignal erhalten. Ein Spektrum N(i) in jedem der Frequenzbänder wird aus einem Signal erhalten, das von der zweiten Eingabeeinheit zugeführt worden ist. In diesem Fall ist mit i das i-te Frequenzband bezeichnet. Ein Geräuschverhältnis k(i) in jedem Frequenzband ist vorher ent sprechend der folgenden Formel unter der Voraussetzung berechnet worden, daß es nicht die Stimme des Sprechers ist:

k(i) = X(i)/N(i).

Das Geräuschverhältnis k(i) stellt ein Verhältnis eines Ge- räusches, das von der ersten Eingabeeinheit festgestellt wor den ist, zu einem Geräusch dar, das von der zweiten Eingabe einheit in dem jeweiligen Frequenzband festgestellt worden ist.

Es wird dann ein Schätzwert S(i) eines Sprachspektrums, wel ches der Sprache bzw. Stimme des Sprechers entspricht, ent sprechend der folgenden Formel berechnet:

S(i) = X(i)-k(i)·N(i).

In diesem adaptiven Geräuschannullierverfahren ändert sich in einem Fall, bei welchem eine Geräuschquelle bezüglich ei nes i-ten Frequenzbandes vorhanden ist, obwohl sich der Pe gel des Geräusches ändert, das Geräuschverhältnis k(i) nicht. Folglich kann eine Geräuschkomponente, welche in dem Spektrum X(i) des Tonsignals in dem Sprachintervall enthalten ist, durch k(i)·N(i) geschätzt werden. Das heißt, mit dem adaptiven Geräuschannullierverfahren kann das unregelmäßige Geräusch aus der akustischen Komponente beseitigt werden. Wenn jedoch in dem adaptiven Geräuschannullierverfahren das Geräuschver hältnis k(i) unter der Voraussetzung berechnet wird, daß der Pegel des Geräusches verhältnismäßig niedrig ist, wird ein Fehler des Schätzwertes S(i) des Sprachspektrums groß. Außer dem kann, wenn der Pegel des in dem Sprachintervall enthal tenen Geräusches verhältnismäßig hoch ist, das Sprach- bzw. Stimmenspektrum nicht angemessen geschätzt werden. Folglich können mit dem adaptiven Geräuschannullierverfahren die Ge räuschkomponenten nur in einem Fall angemessen beseitigt wer den, bei welchem Geräuschkomponenten immer in allen Frequenz bändern vorhanden sind.

Außerdem ist in DE 15 12 758 C1 ein Verfahren beschrieben, um den Schätzwert S(i) des Sprachspektrums entsprechend der folgenden Formel zu berechnen:

S(i) = X(i)-N(i).

Die vorstehende Formel enthält jedoch nicht den Koeffizienten k(i). Folglich ergibt dieses Verfahren nicht das adaptive Geräuschannullierverfahren und es hat den Nachteil, daß der Schätzwert S(i) in dem Fall nicht korrekt ist, daß Geräusch quellen nahe bei dem Mikrophon sind.

Gemäß der Erfindung soll daher eine Sprachintervall-Feststell einheit in einem Spracherkennungssystem geschaffen werden, bei welcher die Nachteile des Standes der Technik beseitigt sind, und in welchem Sprach- oder Stimmenintervalle auch un ter geräuschvollen Bedingungen, bei welchen es unregelmäßige Geräusche gibt, in angemessener Weise festgestellt werden können. Gemäß der Erfindung ist dies bei einer Sprachinter vall-Feststelleinheit nach dem Oberbegriff des Anspruchs 1 oder 2 durch die Merkmale im kennzeichnenden Teil des jewei ligen Anspruchs erreicht. Vorteilhafte Weiterbildungen sind Gegenstand der auf einen der Ansprüche 1 oder 2 unmittelbar oder mittelbar rückbezogenen Ansprüche.

Mit der Sprachintervall-Feststelleinheit gemäß der Erfindung können Sprachintervalle, welche Stimmen- oder Sprachanteilen eines Sprechers entsprechen, in einem akustischen Signal festgestellt werden, selbst wenn das Spracherkennungssystem in geräuschvoller Umgebung betrieben wird. Ferner kann mit Hilfe der erfindungsgemäßen Sprachintervall-Feststellein heit ein Sprachintervall, das einer Stimme bzw. der Sprache eines Sprechers entspricht, in jeder einer Anzahl von Einhei ten (z. B. Frequenzbändern) festgestellt werden. Folglich kann, selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig nal in einigen der Anzahl Einheiten (Frequenzbändern) überla gert ist, das Sprachintervall in jedem der verbleibenden Ein heiten (Frequenzbänder) festgestellt werden. Folglich kann eine Erkennungsrate eines Spracherkennungssystems, bei wel chem die Sprachintervall-Feststelleinheit verwendet ist, auch in geräuschvollen Umgebungen zunehmen.

Ferner soll gemäß der Erfindung ein Spracherkennungssystem geschaffen werden, in welchem Geräusche aus einem akustischen Signal unter Geräuschbedingungen beseitigt werden können, bei welchen es unregelmäßige Geräusche gibt, so daß eine gute Er kennungsrate erhalten werden kann. Gemäß der Erfindung ist dies bei einem Spracherkennungssystem nach dem Oberbegriff des Anspruchs 14 oder 15 durch die Merkmale im kennzeichnenden Teil des jeweiligen Anspruchs erreicht.

In einem Spracherkennungssystem gemäß der Erfindung wird ein Erkennungsprozeß bezüglich Sprach- oder Stimmenmerkmale durchgeführt, welche in Sprachintervallen in einer Anzahl Ein heiten (z. B. Frequenzbändern) enthalten sind. Folglich kann, selbst wenn ein unregelmäßiges Geräusch einem akustischen Sig nal in einigen der Anzahl Einheiten (Frequenzbändern) über lagert ist, der Erkennungsprozeß bezüglich des Sprach- oder Stimmenmerkmals in den Sprachintervallen in den restlichen Einheiten (Frequenzbändern) durchgeführt werden. Folglich kann eine Erkennungsrate eines Spracherkennungssystems auch in geräuschvoller Umgebung erhöht werden.

Nachfolgend wird die Erfindung anhand von bevorzugten Aus führungsformen unter Bezugnahme auf die anliegenden Zeich nungen erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm einer Sprachintervall-Feststell einheit gemäß einer Ausführungsform der Erfindung;

Fig. 2 ein Zeitdiagramm, in welchem Beispiele von Geräusch intervallen wiedergegeben sind, welche mittels der in Fig. 1 dargestellten Sprachintervall-Feststell einheit festgestellt werden;

Fig. 3 ein Blockdiagramm einer Geräuschannulliereinheit, welche in einem Spracherkennungssystem gemäß der Erfindung verwendet ist, und

Fig. 4 ein Blockdiagramm eines Spracherkennungssystems gemäß einer Ausführungsform der Erfindung.

Nachstehend wird eine bevorzugte Ausführungsform der Erfindung anhand von Fig. 1 und 2 beschrieben. In Fig. 1 ist eine Sprach intervall-Feststelleinheit dargestellt, welche ein erstes Mi krophon 1, ein zweites Mikrophon 2, einen ersten und einen zweiten Merkmalsextraktionsblock 10 und 20, einen ersten Sprachintervall-Feststellblock 30, einen Koeffizienten-Be rechnungsblock 40, einen Geräuschannullierblock 50 und einen zweiten Sprachintervall-Feststellblock 60 aufweist. Das erste Mikrophon 1 ist nahe bei einem Sprecher vorgesehen, während das zweite Mikrophon 2 weit von dem Sprecher weg vorgesehen ist. Folglich wird eine Sprecherstimme oder -sprache haupt sächlich in dem ersten Mikrophon 1 aufgenommen. Geräusche in der Umgebung können sowohl von dem ersten als auch von dem zweiten Mikrophon 1 bzw. 2 aufgenommen werden. Wenn es die Stimme des Sprechers ist, gibt das erste Mikrophon 1 ein Tonsignal ab, welches Komponenten, welche der Stimme des Sprechers entsprechen, und Komponeten enthält, welche den Ge räuschen in der Umgebung entsprechen. Das zweite Mikrophon 22 gibt ein Bezugssignal ab, das Geräuschen in der Umgebung entspricht. Das Bezugssignal, das von dem zweiten Mikrophon 2 abgegeben wird, enthält kaum eine Komponente der Stimme bzw. Sprache des Sprechers.

Der erste Merkmalsextraktionsblock 10 extrahiert Merkmalsda ten aus dem von dem ersten Mikrophon 1 gelieferten Tonsignal. Der erste Merkmalsextraktionsblock 10 hat einen Verstärker 11, ein Bandpaßbilter 12, einen Gleichrichter 13, ein Tief paßfilter 14, einen Multiplexer 15 und einen Analog-Digital- Umsetzer 16. Der Verstärker 11 verstärkt das von dem ersten Mikrophon 1 gelieferte Tonsignal mit einem vorherbestimmten Verstärkungsfaktor. Das Bandpaßfilter 12 hat fünfzehn Ka näle, die jeweils einem von fünfzehn Frequenzbändern ent sprechen. Das Bandpaßfilter 12 teilt das Tonsignal in ein Spektrum, welches aus fünfzehn Frequenzbändern besteht. Jeder Wert der fünfzehn Frequenzbänder wird von dem Gleichrichter 13 und dem Tiefpaßfilter 14 verarbeitet, so daß ein Spektrum X(i) des Tonsignals in den fünfzehn Frequenzbändern (Kanälen) erhalten wird. Der Multiplexer 15 wählt eines der fünfzehn Frequenzbänder aus, welches Spektrum von dem Bandpaßfilter 12 über den Gleichrichter 13 und das Tiefpaßfilter 14 geliefert wird. Der Analog-Digital-Umsetzer 16 setzt das Spektrum X(i) in jedem Frequenzband in digitale Daten um. Folglich gibt der erste Merkmalsextraktionsblock 10 periodisch das Spek trum X(i) (i= 1, 2,..., 15) des akustischen Signal bei einer vorherbestimmten Rahmenzeit ab.

Der zweite Merkmalsextraktionsblock 20 hat einen Verstärker 21, ein Bandpaßbilter 22, einen Gleichrichter 23, ein Tief paßfilter 24, einen Multiplexer 25 und einen Analog-Digital- Umsetzer 26 genauso wie der erste Merkmalsextraktionsblock 20. Folglich gibt der zweite Merkmalsextraktionsblock 20 periodisch ein Spektrum N(i) des Referenzsignals bei der vor herbestimmten Rahmenzeit ab. Ein Verstärkungsfaktor des Ver stärkers 11 in dem ersten Merkmalsextraktionsblock 10 und ein Verstärkungsfaktor des Verstärkers 21 in dem zweiten Merkmalsextraktionsblock 20 werden so eingestellt, daß der Pegel des Tonsignals annähernd gleich dem Pegel des Refe renzsignals wird. Kenndaten anderer Teile in dem ersten Merk malsextraktionsblock 10 sind gleich Kenndaten entsprechender Teile in dem zweiten Merkmalsextraktionsblock 20. Die bei den Merkmalsextraktionsblöcke 10 und 20 können auch Merkmals daten außer den vorerwähnten Spektren X,(i) und N(i) extra hieren.

Der erste Sprachintervall-Feststellblock 30 stellt ein Sprachintervall basierend auf einer Differenz zwischen einer Gesamtleistung ΣX(i) des akustischen Signals und einer Ge samtleistung ΣN(i) des Bezugssignals fest. Der erste Sprach intervall-Feststellblock 30 stellt das Sprachintervall fest, wenn die Differenz zwischen der Gesamtleistung ΣX(i) des akustischen Signals und der Gesamtleistung ΣN(i) größer als ein Schwellenwert T_pwr ist. Auf das mittels des ersten Blocks 30 festgestellte Sprachintervall wird als ein generelles Sprachintervall Bezug genommen. Der Schwellenwert T_pwr wird auf der Basis eines Mittelwerts Av X_pwer der Gesamtleistung des Tonsignals in einer Anzahl Rahmen vor dem gegenwärtigen Rahmen und in einem Intervall außer dem generellen Sprach intervall und auf der Basis eines Mittelwerts Av N_pwr der Gesamtleistung des Bezugssignals berechnet, das unter dersel ben Bedingung wie der Mittelwert Av X_pwr erhalten worden ist. Das heißt, der Schwellenwert T_pwr wird berechnet und ent sprechend der folgenden Formel (1) aktualisiert:

T_pwr = a_pwr · (AvX_pwr - Av N_pwr)+b_pwr (1)

wobei a_pwr und b_pwr konstante Zahlen und größer als null sind (a_pwr, b_pwr<0).

Der Geräuschannullierblock 50 erzeugt ein Merkmals S(i) der Sprache, aus welchem Geräuschkomponenten beseitigt werden, wie später noch beschrieben wird. Eine Sprachleistung ΣS(i) wird auf der Basis des Merkmals S(i) der Sprache erhalten, und dann kann das generelle Sprachintervall auf der Basis eines Vergleichs der Sprachleistung ΣS(i) mit dem Schwellen wert T_pwr erhalten werden.

Der Koeffizientenberechnungsblock 40 berechnet einen Geräusch koeffizienten k(i) in jedem Kanal entsprechend der folgenden Formel (2), welche das Spektrum X(i) des Tonsignals und das Spektrum N(i) des Bezugssignals enthält, welche unter der Bedingung erhalten werden, daß keine Sprache des Sprechers vorhanden ist:

k(i)=[X(i)+C₁]/[N(i)+C₂] (2)

wobei C₁ und C₂ konstante Zahlen und größer als null sind (C₁, C₂<0).

Der Geräuschkoeffizient k(i) kann auch auf der Basis eines Mittelwerts der Spektren X(i) und N(i) in einer Anzahl Rah men vor dem gegenwärtigen Rahmen berechnet werden. In diesem Fall ist die Anzahl Rahmen, um den Mittelwert zu erhalten vorzugsweise kleiner als die Anzahl Rahmen, die erforderlich sind, um den vorstehenden Schwellenwert T_pwr und einen Schwellenwert T_i zu berechnen, welcher später noch beschrie ben wird.

Gemäß der vorstehenden Formel (2) kommt, je größer die Spek tren X(i) und N(i) sind, umso näher bzw. dichter dem Ver hältnis X(i)/N(i), welches das herkömmliche Geräuschverhält nis ist, der Geräuschkoeffizient k(i). Je kleiner die Spektren X(i) und N(i) sind, umso näher dem Verhältnis C₁/C₂ kommt an dererseits der Geräuschkoeffizient k(i). Folglich kann in einem Fall, bei welchen die Spektren X(i) und N(i) in jedem Frequenzband klein sind, wenn C₁/C₂ auf einen angemessenen Wert in dem Spracherkennungssystem gesetzt ist, ein Fehler des Geräuschkoeffizienten k(i) klein werden. Falls die jewei ligen Wert von X(i) und N(i) durch 8 Bits (0 bis 255) darge stellt werden, sind die jeweiligen C₁ und C₂ vorzugsweise Werte in einem Bereich zwischen 8 und 32. Falls der Pegel von X(i) und der Pegel von N(i), welche unter einer Bedingung gemessen werden, bei welcher ein Geräusch, das von einer Quelle weit weg von den Mikrophonen 1 und 2 erzeugt worden ist, oder ein Geräusch vorhanden ist, das durch eine bestimmte Quelle erzeugt worden ist, annähernd einander gleich sind, kann der Wert von C₁/C₂ auf "1" gesetzt werden. In anderen Fällen kann der Wert von C₁/C₂ auf einen Wert von X(i)/N(i) gesetzt werden, wobei X(i) bzw. N(i) unter einer Bedingung gemessen werden, bei welcher keine Sprache des Sprechers vorliegt. Der Wert von C₁/C₂ kann in Abhängigkeit von dem jeweiligen Kanal auf einen entsprechenden Wert gesetzt wer den. In einem System, in welchem eine Sprache des Sprechers an dem zweiten Mikrophon 2 eingegeben werden kann, ist, wenn der Wert von C₁/C₂ gleich "1" ist (C₁ = C₂), ein Teil der Sprachkomponenten als eine Geräuschkomponente aus der Sprache beseitigt. Folglich ist in diesem Fall der Wert von C₁/C₂ vorzugsweise kleiner als "1" (C₁ < C₂).

Der Wert, welcher durch Glätten des Geräuschkoeffizienten k(i) bezüglich einer Zeitskala erhalten worden ist, kann ver wendet werden, um das Geräusch aus der Sprache zu eliminieren. Die Beziehung zwischen dem Geräuschkoeffizienten k(i) und den Spektren X(i) und N(i) ist nicht auf diejenige beschränkt, welche durch die vorstehende Formel (1) wiedergegeben ist. Die Beziehung kann auch durch eine hyperbolische Funktion, eine Exponentialfunktion u.ä. dargestellt werden.

Der Geräuschannullierblock 50 berechnet das Merkmal S(i) der Sprache, aus welchem das Geräusch beseitigt ist, in jedem Kanal (jedem Frequenzband) entsprechend der folgenden Formel (3):

S(i)=X(i)-k(i) · N(i) (3)

In einem Intervall außer dem Sprachintervall kann S(i) auf "0" gesetzt werden.

Der zweite Sprachintervall-Feststellblock 60 addiert vorher bestimmte Intervalle zu einem vorderen Ende des von dem er sten Block 30 festgestellten, generellen Sprachintervalls und zu einem hinteren Ende des generellen Sprachintervalls. Folg lich erzeugt der zweite Sprachintervall-Feststellblock 60 ein Feststellintervall, welches aus dem generellen Sprachinter vall und dem dazu addierten Intervall gebildet ist. Dann be stimmt der zweite Sprachintervall-Feststellblock 60, ob das Spektrum S(i) der Sprache, welche durch den Geräuschannullier block 50 erhalten wird, größer als ein Schwellenwert T(i) in dem dabei erhaltenen Feststellintervall ist oder nicht. Wenn das Spektrum S(i) in dem i-ten Frequenzband der Sprache grö ßer als der Schwellenwert T(i) ist, stellt der zweite Sprach feststellblock 60 ein Sprachintervall in dem i-ten Kanal fest, welcher dem i-ten Frequenzband entspricht. Das heißt, der zweite Sprachintervall-Feststellblock 60 gibt das Spek trum S(i), das von dem Geräuschannullierblock 50 geliefert worden ist, in dem Sprachintervall in jedem Frequenzband und "0" in einem Intervall außer dem Sprachintervall ab. Das Spektrum S(i) (einschließlich "0"), das von dem zweiten Sprachintervall-Feststellblock 60 abgegeben worden ist, wird in einem Prozeß zum Erkennen von Sprache eines Sprechers ver wendet.

In Fig. 2 sind Sprachintervalle dargestellt, welche durch den ersten und zweiten Sprachintervall-Feststellblock 30 bzw. 60 festgestellt werden, wenn eine Sprache, wie bei spielsweise "SECHS" an dem ersten Mikrophon 1 eingegeben wird. In Fig. 2 stellt der erste Sprachintervall-Feststell block 30 das generelle Sprachintervall fest, was durch (A) in Fig. 2 dargestellt ist. Der zweite Sprachintervall-Feststell block 40 addiert vorherbestimmte Intervalle zu den generellen Sprachintervallen, um so das Feststellintervall zu erzeugen, das durch (B) in Fig. 2 dargestellt ist. Dann stellt der zweite Sprachintervall-Feststellblock 60 das Sprachintervall in je dem der fünfzehn Frequenzbänder von einem niedrigen (dem er sten) Frequenzband bis zu einem hohen (dem fünfzehnten) Fre quenzband in dem durch (B) dargestellten Feststellsprachin tervall fest, was durch (C) in Fig. 2 dargestellt ist.

Der vorerwähnte Schwellenwert T_i, welcher verwendet wird, um das Sprachintervall in jedem Frequenzband festzustellen, wird entsprechend der folgenden Formel (4) berechnet und aktualisiert:

T_i=a · (Av X(i)-Av N(i))+b (4)

(a, b: konstante Zahlen, a, b<0)

In der vorstehenden Formel (4) stellt Av X(i) einen Mittel wert der Spektren X(i) des Tonsignals in einer Anzahl Rah men vor dem gegenwärtigen Rahmen und in Intervallen außer dem Sprachintervall in dem i-ten Frequenzband dar; Av N(i) stellt einen Mittelwert der Spektren N(i) des Bezugssignals in der Anzahl Rahmen vor dem gegenwärtigen Rahmen in dem In tervall außer dem Sprachintervall in dem i-ten Frequenz band dar.

Falls das in Fig. 1 dargestellte System in Umgebungen vor gesehen wird, in welchen Geräusche nicht zu groß sind, kann der Prozeß in dem ersten Sprachintervall-Feststellblock 30 weggelassen werden. Das heißt, der zweite Sprachintervall- Feststellblock 60 kann unmittelbar das Sprachintervall in jedem der Frequenzbänder in dem Spektrum X(i) des akustischen Signals feststellen. Der Schwellenwert T(i), welcher dazu verwendet wird, das Sprachintervall in jedem der Frequenz bänder festzustellen, bzw. die Geräuschkoeffizienten k(i) können in einer Gruppe berechnet werden, welche eine Anzahl Kanäle (Frequenzbänder) enthält.

Der erste Sprachintervallblock 30, der Koeffizienten-Berech nungsblock 40, der Geräuschannullierblock 50 und der zweite Sprachintervall-Feststellblock sind beispielsweise in einem Computersystem gebildet.

In Fig. 3 ist eine weitere Ausführungsform der Erfindung dar gestellt, wobei diejenigen Teile, welche dieselben wie in Fig. 1 sind, mit denselben Bezugszeichen versehen sind. In Fig. 3 ist das zweite, in Fig. 1 dargestellte Mikrophon 2 durch einen Lautsprecher 2s ersetzt. Das heißt, die Töne, welche von dem Lautsprecher 2s abgegeben worden sind, werden als Geräusche dem ersten Mikrophon 1 zugeführt. Ein Tonsignal, das dem Lautsprecher 2s zugeführt wird, wird ebenfalls als ein Geräuschsignal dem zweiten Merkmalsextraktionsblock 20 zugeführt. Der Sprachintervall-Feststellblock 60 stellt das Sprachintervall in jedem der Frequenzbänder basierend auf dem Schwellenwert T_i fest, welcher entsprechend der Formel (4) berechnet worden ist. Der Koeffizienten-Berechnungsblock 40 berechnet die Geräuschkoeffizienten k(i) entsprechend der vorstehenden Formel (2). Der Geräuschannullierblock 50 gibt das Merkmal S(i) (Spektrum) der Sprache ab, was entsprechend der Formel (3) berechnet worden ist. Die Verstärkungfaktoren der Verstärker in den beiden Merkmalsextraktionsblöcken 10 und 20 werden so eingestellt, daß das akustische Signal und das Bezugssignal annähernd einander gleich sind, wenn das Tonsignal dem Lautsprecher 2s und dem zweiten Merkmals extraktionsblock 20 zugeführt wird.

In dem in Fig. 3 dargestellten System kann das dem Tonsignal entsprechende Geräusch aus dem Tonsignal beseitigt werden, das von dem ersten Merkmalsextraktionsblock 10 erhalten worden ist.

In Fig. 4 ist ein Spracherkennungssystem gemäß einer Ausfüh rungsform der Erfindung dargestellt. In Fig. 4 sind dieje nigen Teile, welche dieselben Teile wie in Fig. 1 sind, mit denselben Bezugszeichen bezeichnet. In Fig. 4 hat das Sprach erkennungssystem das erste Mikrophon 1, das zweite Mikrophon 2, den Sprachintervall-Feststellblock 60, den Koeffizienten- Berechnungsblock 40 und den Geräuschannullierblock 50 in der gleichen Weise wie die in Fig. 1 und 3 dargestellten Systeme. Das Spracherkennungssystem hat auch einen Eingangs mustergenerator 70, einen Referenzmusterspeicher 80 und einen Erkennungsblock 90. Der Eingangsmuster-Generator 70 erzeugt ein Eingangsmuster auf der Basis des Spektrums S(i) der Spra che, welche von dem Geräuschannullierblock 50 geliefert wird. Der Referenzmusterspeicher 80 speichert vorherbestimmte Re ferenzmuster von Sprachen. Der Erkennungsblock 90 vergleicht das Eingangsmuster mit den Referenzmustern in dem Referenz musterspeicher 80 und führt einen Erkennungsprozeß durch. Ausführung und Arbeitsweise in dem Eingangsmuster-Generator 70, dem Bezugsmusterspeicher 80 und dem Erkennungsblock 90 sind beispielsweise diejenigen, welche in einem bekannten BTSP-Spracherkennungsverfahren verwendet sind.

In dem vorstehend beschriebenen Spracherkennungssystem wird ein Referenzmuster, welches dem Eingangsmuster angepaßt ist von dem Erkennungsblock 90 als das Erkennungsergebnis abgegeben.

Claims

1. Sprachintervall-Feststelleinheit, um ein Sprachintervall, das einer Sprache bzw. Stimme eines Sprechers entspricht, in einem Tonsignal festzustellen, gekennzeichnet durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist, und
eine Sprachintervall-Feststelleinrichtung (60) , welche mit der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, das der Sprache des Spechers entspricht, in jeder der Anzahl Einheiten basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert worden ist.

2. Sprachintervall-Feststelleinheit, um ein Sprachintervall, das einer Sprache bzw. Stimme eines Sprechers entspricht, in einem Tonsignal festzustellen, gekennzeichnet durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert entspricht, welcher durch Beseitigen von Geräuschkomponenten aus dem er sten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30) zum Feststellen eines generellen Sprachintervalls, welches der Sprache bzw. Stimme des Sprechers in dem akustischen Signal entspricht, und
eine zweite Sprachintervall-Feststelleinrichtung (60), welche mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall, in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem von der Geräuschannullier einrichtung (50) gelieferten Merkmal festzustellen, wobei das Feststellintervall aus dem generellen, von der ersten Sprach intervall-Feststelleinrichtung festgestellten Intervall und einem vorherbestimmten Intervall gebildet ist, das zu dem ge nerellen Sprachintervall addiert worden ist.

3. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die An zahl Einheiten einer Anzahl vorherbestimmter Frequenzbänder entspricht.

4. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Sprachintervall-Feststelleinrichtung (60) eine Bestimmungs einrichtung aufweist, um zu bestimmen, ob das Sprachmerkmal jeder der Anzahl Einheiten größer als ein vorherbestimmter Schwellenwert ist oder nicht, wobei, wenn die Bestimmungsein richtung feststellt, daß das Sprachmerkmal größer als der Schwellenwertpegel ist, die Sprachintervall-Feststelleinrich tung das Sprachintervall in jeder der Anzahl Einheiten fest stellt.

5. Sprachintervall-Feststelleinheit nach Anspruch 4, dadurch gekennzeichnet, daß die Sprachintervall-Fest stelleinrichtung einen Schwellenwertgenerator hat, um den Schwellenwertpegel auf der Basis des ersten und des zweiten Merkmals zu erzeugen, welche von der ersten und der zweiten Merkmalseinrichtung (10, 20) in einer vorherbestimmten frühe ren Periode unter der Voraussetzung abgegeben worden sind, daß keine Sprache des Sprechers vorliegt.

6. Sprachintervall-Feststelleinheit nach Anspruch 5, dadurch gekennzeichnet, daß der Schwellenwert periodisch aktualisiert wird.

7. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Be rechnungseinrichtung (40) den Geräuschkoeffizienten berech net, so daß, je größer das erste und das zweite Merkmal sind, um so näher einem Verhältnis des ersten Merkmals zu dem zwei ten Merkmal unter der Voraussetzung, daß keine Stimme des Sprechers vorliegt, der Wert des Geräuschkoeffizienten wird, und je kleiner das erste und das zweite Merkmal sind, um so näher einem vorherbestimmten Wert der Geräuschkoeffizient wird.

8. Sprachintervall-Feststelleinheit nach Anspruch 7, dadurch gekennzeichnet, daß die Berechnungseinrichtung (40) eine Einrichtung zum Berechnen des Geräuschkoeffizienten k(i) entsprechend der folgenden Formel hat: k(i)=[X(i)+C₁]/[N(i)+C₂]wobei X(i) das erste Merkmal in jeder der Anzahl Einheiten unter der Bedingung darstellt, daß keine Stimme des Sprechers vorliegt, N(i) das zweite Merkmal in jeder der Anzahl Einhei ten unter der Bedingung darstellt, daß keine Stimme des Spre chers vorliegt, und C₁ und C₂ konstante Zahlen größer als null sind.

9. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch gekennzeichnet, daß die konstanten Werte C₁ und C₂ einander gleich sind.

10. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß jede der ersten und zweiten Eingabeeinrichtungen ein Mikrophon (1, 2) hat.

11. Sprachintervall-Feststelleinheit nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Sprachintervall-Feststelleinrichtung ferner einen Lautspre cher (2s) aufweist, welchem ein Tonsignal von einer externen Einheit zugeführt wird, und daß die zweite Eingabeeinrichtung (2) eine Einrichtung hat, um das von dem Lautsprecher (2s) gelieferte Tonsignal einzugeben.

12. Sprachintervall-Feststelleinheit nach Anspruch 2, dadurch gekennzeichnet, daß die erste Sprachintervall- Feststelleinrichtung eine Einrichtung hat, um das generelle Sprachintervall festzustellen, falls eine Leistung einer Sprache, welche aus den Sprachmerkmalen in allen der Anzahl Einheiten erhalten wird, welche von der Sprachannullierein richtung zugeführt worden sind, größer als ein vorherbestimm ter Schwellenwert ist.

13. Sprachintervall-Festeinheit nach Anspruch 2, dadurch gekennzeichnet, daß die erste Sprachintervall- Feststelleinrichtung eine Einrichtung hat, um das generelle Sprachintervall festzustellen, falls eine Differenz zwischen einer Gesamtleistung des Tonsignals und einer Gesamtleistung des Bezugssignals größer als ein vorherbestimmter Schwellen wert ist, die Gesamtleistung des Tonsignals eine Gesamtsumme der ersten Merkmale in allen der Anzahl Einheiten ist, welche von der ersten Merkmalsextraktionseinrichtung (10) geliefert worden ist, und die Gesamtleistung des Bezugssignals eine Ge samtsumme der zweiten Merkmale in allen der Anzahl Einheiten ist, welche von der zweiten Merkmalsextraktionseinrichtung (20) geliefert worden sind.

14. Spracherkennungssystem, um Sprache auf der Basis einer Stimme eines Sprechers zu erkennen, gekennzeich net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.

15. Spracherkennungssystem, um Sprache auf der Basis einer Stimme eines Sprechers zu erkennen, gekennzeich net durch
eine erste Eingabeeinrichtung (1), welche nahe bei einem Sprecher vorgesehen ist, um Töne einschließlich einer Stimme bzw. Sprache des Sprechers und Geräusche in der Umgebung ein zugeben und um ein Tonsignal, das den eingegebenen Tönen ent spricht, abzugeben;
eine zweite Eingabeeinrichtung (2), die weit von dem Sprecher weg vorgesehen ist, um Töne einschließlich Geräusche in der Umgebung einzugeben und um ein Bezugssignal abzugeben, das den eingegebenen Tönen entspricht;
eine erste Merkmalsextraktionseinrichtung (10), welche mit der ersten Eingabeeinheit (1) verbunden ist, um ein erstes Merkmal in jeder einer Anzahl vorherbestimmter Einheiten aus dem Tonsignal zu extrahieren, das von der ersten Eingabeein richtung (1) abgegeben worden ist;
eine zweite Merkmalsextraktionseinrichtung (20), welche mit der zweiten Eingabeeinheit (2) verbunden ist, um ein zwei tes Merkmal in jeder der Anzahl vorherbestimmter Einheiten aus dem Bezugssignal zu extrahieren, das von der zweiten Eingabeeinrichtung (2) abgegeben worden ist;
eine Berechnungseinrichtung (40), welche mit der ersten und der zweiten Merkmalsextraktionseinrichtung (10, 20) verbun den ist, um einen Geräuschkoeffizienten in jeder der Anzahl Einheiten basierend auf dem ersten und dem zweiten Merkmal zu berechnen, wobei der Geräuschkoeffizient einer Beziehung zwischen dem ersten und dem zweiten Merkmal entspricht, das unter einer Bedingung erhalten worden ist, bei welcher keine Sprache des Sprechers vorliegt;
eine Geräuschannulliereinrichtung (50), welche mit der er sten und zweiten Merkmalsextraktionseinrichtung (10, 20) und der Koeffizientenberechnungseinrichtung (40) verbunden ist, um ein Sprachmerkmal in jeder der Anzahl Einheiten basierend auf dem ersten und zweiten Merkmal und dem Geräuschkoeffizien ten zu schätzen, wobei das Sprachmerkmal einem Wert ent spricht, welcher durch Beseitigen von Geräuschkomponenten aus dem ersten Merkmal erhalten worden ist;
eine erste Sprachintervall-Feststelleinrichtung (30), um ein generelles Sprachintervall, das der Stimme des Sprechers ent spricht, in dem aktustischen Signal festzustellen;
eine zweite Sprachintervall-Feststelleinrichtung (60), die mit der ersten Sprachintervall-Feststelleinrichtung (30) und der Geräuschannulliereinrichtung (50) verbunden ist, um ein Sprachintervall in jeder der Anzahl Einheiten in einem Fest stellintervall basierend auf dem Sprachmerkmal festzustellen, das von der Geräuschannulliereinrichtung (50) geliefert wor den ist, wobei das Feststellintervall aus dem generellen In tervall, das durch die erste Sprachintervall-Feststellein richtung (30) und einem vorherbestimmten Intervall gebildet ist, das zu dem generellen Sprachintervall addiert worden ist;
einen Mustergenerator, um ein Eingabemuster, das der Stimme des Sprechers entspricht, auf der Basis von entsprechenden Sprachmerkmalen, welche von der Geräuschannulliereinrichtung (50) erhalten werden, in entsprechenden Sprachintervallen zu erzeugen, welche mittels der Sprachintervall-Feststellein richtung (60) festgestellt worden sind;
eine Speichereinrichtung (80) zum Speichern von Referenzmu stern, und
eine Erkennungseinrichtung (90), um Sprache auf der Basis des eingegebenen Musters, das durch den Mustergenerator erzeugt worden ist, und auf der Basis der Referenzmuster zu erkennen, die in der Speichereinrichtung (80) gespeichert sind.

16. Sprachintervall-Feststelleinheit nach Anspruch 8, dadurch gekennzeichnet, daß die Geräuschannullierein richtung (50) eine Einrichtung hat, um das Merkmal S(i) der Sprache entsprechend der folgenden Formel zu berechnen: S(i) = X(i)-k(i) N(i).