DE3101851A1

DE3101851A1 - Verfahren zur abtastung von sprache

Info

Publication number: DE3101851A1
Application number: DE19813101851
Authority: DE
Inventors: Nobuo Hachioji Tokyo Hataoka; Akira Kichijouji Tokyo Ichikawa; Yoshiaki Sayama Saitama Kitazume; Eiji Hachiouji Tokyo Ohira
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1980-01-23
Filing date: 1981-01-21
Publication date: 1981-12-17
Also published as: DE3101851C2; JPS56104399A; US4401849A; JPH0121519B2

Description

BESCHREIBUNG

Die Erfindung betrifft ein Verfahren zur Sprachabtastung, um den Bereich der Existenz eines Eingangssprachsignales in einem Spracherkennungssystem oder dergleichen abzutasten.

Bislang hat man als kennzeichnende Größen zur Abtastung des Bereiches der Existenz eines Eingangssprachsignales im wesentlichen die Leistungsinformation des Spracheingangssignales verwendet, und außerdem sind die Nulldurchgangsinformation des Eingangssprachsignals oder dergleichen empirisch verwendet worden. Ein Verfahren, bei dem die Nulldurchgangsinformation ausgenutzt wird, verwendet, daß die Anzahl von Zeitpunkten, zu denen ein Nulldurchgang stattfindet, größer ist bei stimmlosen Konsonanten, welche große Hochfrequenzanteile haben als bei stimmhaften Lauten und Gerauschen, die große niederfrequente Anteile haben. Wenn jedoch die Verteilung der entsprechenden Anzahlen von Zeitpunkten der Nulldurchgänge von stimmlosen Konsonanten, stimmhaften Lauten und Rauschen untersucht wird, so besteht in vielen Teilen eine Koinzidenz der Anzahl von Zeitpunkten miteinander, und es ist schwierig, eine Klassifzierung hoher Präzision zu erreichen, indem man die Anzahl von Zeitpunkten der Nulldurchgänge verwendet.

Bei dem angegebenen herkömmlichen Verfahren war es z.B. schwierig, die stimmlosen Konsonanten "s" und "h" am Anfangspunkt und Endpunkt eines Eingangssprachsignales abzutasten. Somit wurde der Schwellwert bei der Entscheidung verringert, um die Abtastempfindlichkeit zu erhöhen. Infolgedessen hat sich das Problem ergeben, daß z.B. das Geräusch oder Rauschen eines Raumes als Eingangssprachsignal angesehen und irrtümlich abgetastet wird. In dem Falle, wo die Sprache

130051/0455

durch ein herkömmliches Telefon empfangen wird, neigen Umgebungsgeräusche einschließlich der Raumgeräusche oder dergleichen, dazu, sich mit der Sprache zu vermischen, da das Telefon keine Richtverstärkung besitzt, und es ist ein sehr wesentlicher Gesichtspunkt, zwischen dem Eingangssprachsignal und dem Umgebungsgeräusch zu unterscheiden.

Aufgabe der Erfindung ist es, ein Verfahren zur Sprachabtastung anzugeben, das kennzeichnende Größen mit ungleichen Werten in Abhängigkeit von einem Eingangssprachsignal und Umgebungsgerauschen verwendet, um damit die sonst auftretenden Schwierigkeiten auszuräumen.

Zur Erreichung dieses Zieles beruht die Erfindung, unter Berücksichtigung der Tatsache, daß die Differenz der allgemeinen Formen der Frequenzspektren eines stimmlosen Konsonanten und Umgebungsgeräusch in einem Eingangssprachsignal beim Wert des partiellen Autokorrelationskoeffizienten erster Ordnung auftritt, darauf, daß der partielle Autokorrelationskoeffizient erster Ordnung und die oben beschriebene Leistungsinformation (Autokorrelationskoeffizient nullter Ordnung) als kennzeichnende Größen verwendet werden. Genauer gesagt, der partielle Autokorrelationskoeffizient erster Ordnung und der Autokorrelationskoeffizient nullter Ordnung, die aus einem Eingangssprachsignal herausgezogen werden, werden mit vorgegebenen Schwellwerten verglichen, um dadurch zwischen wahrem Eingangssprachsignal und Umgebungsgeräusch zu unterscheiden.

Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegende Zeichnung näher erläutert. Die Zeichnung zeigt in Figur 1 ein Diagramm zur Erläuterung des Prinzips in dem Falle, wo die Art des Eingangssprachsignals unter Verwendung des erfindungsgemäßen Verfahrens bestimmt wird;
Figur 2 ein Blockschaltbild zur Erläuterung einer erfindungsgemäßen Ausführungsform; und in

130051/0455

Figur 3 ein Diagramm zur Erläuterung von experimentellen Daten zu der Zeit, wo ein Sprachintervall mit dem erfindungsgemäßen Verfahren abgetastet wird. Wie an sich bekannt, haben übliche stimmlose Konsonanten Frequenzspektren, die die Eigenschaft der Betonung eines Hochfrequenzbereiches haben, wobei die Anteile in einem Hochfrequenzbereich von 3 bis 10 kHz vergleichsweise groß sind. Andererseits haben übliche Umgebungsgeräusche eine geringe Leistung, aber ihre Frequenzeigenschaften sind die Eigenschaften der Betonung eines Niederfrequenzbereiches, wobei Gradienten in der Größenordnung von -9 dB/oct haben, so daß die Leistung mit -9 dB bei jeder Frequenzverdopplung abgeschwächt wird.

Stimmhafte Laute, wie z.B. Vokale, haben die Frequenzeigenschaft der Betonung des Niederfrequenzbereiches in ähnlicher Weise wie übliches Umgebungsgeräusch, jedoch haben sie eine höhere Leistung verglichen mit dem Umgebungsgeräusch.

Wenn die Unterschiede der Charakteristika oder Eigenschaften verwendet werden, so ist die Abtastung eines Sprachintervalles möglich, indem man die Sprachsignale wie folgt klassifiziert:

(i) Wenn ein Sprachsignal zum Niederfrequenz-Betonungsbereich gehört und mindestens eine vorgegebene Leistung Θ- hat,- ist es ein stimmhafter Laut.

(ii) Wenn ein Sprachsignal zum Niederfrequenzbetonungsbereich gehört und seine Leistung unterhalb der vorgegebenen Leistung Θ2 liegt, ist es ein Umgebungsgeräusch.

(iii) Wenn ein Sprachsignal zum Hochfrequenz-Betonungsbereich gehört, ist es ein stimmloser Konsonant, unabhängig von dem Wert oder der Größe der Leistung.

Hierbei besteht in dem Falle, wo ein Sprachsignal mit einer extrem niedrigen Leistung abgetastet worden ist, obwohl es die Eigenschaft des Hochfrequenz-Betonungsbereiches aufweist, die Möglichkeit, daß ein Sprachsignal, das kein stimmloser Konsonant ist, wegen eines Rechenfehlers bei der Ab-

130051/0455

— D —

tastung des Sprachintervalles oder dergleichen vermischt wird. Wenn die Leistung unterhalb von Θ^ ist, wobei Θ- < ©2 gilt, so muß das abgetastete Sprachsignal ausgeschlossen werden.

Nachstehend wird das Prinzip gemäß der Erfindung näher erläutert, gemäß dem die oben angegebene Klassifizierung vorgenommen wird, indem man den partiellen Autokorrelationskoeffizienten erster Ordnung und den Autokorrelationskoeffizienten nullter Ordnung (Leistungsinformation) verwendet.

Der Einfachheit halber wird bei der nachstehenden Beschreibung ein Eingangssprachsignal in ein Signal mit einer einzigen Frequenz umgeformt.

Der partielle Autokorrelationskoeffizient erster Ordnung (k-) wird mittels Gleichung (1) aus dem Autokorrelationskoeffizienten nullter Ordnung (v ) und dem Autokorrelationskoeffizienten erster Ordnung (V₁) errechnet:

k₁ = V₁Zv₀ . (1).

Die Kreisfrequenz ω, zu der die Abtastfrequenz f„ des Eingangssprachsignals unter Verwendung von 2 ir normiert wird, wird berücksichtigt, und das Eingangssprachsignal ist beispielsweise durch die nachstehende Gleichung (2) gegeben:

f (t) = A sin(ü)t + Φ) (2)

Zu diesem Zeitpunkt haben ν und v.. folgende Werte:

^νο = ΊΓ <³> <

_a2
^V1 ⁼ ~2~ * ^COSÜ)Ts · (4)

Aus den Gleichungen (3) und (4) ergibt sich

k₁ = COSu)Tg (5) ,

wobei T_s = 1/fg gilt.

130051/0455

Wenn hierbei die Faltfrequenz f_, die gegeben ist durch die halbe Abtastfrequenz f-, wenn also gilt

f_R = f_s/2 E 2 π/2 = π,

der Frequenzbandbreite BW des Eingangssprachsignales entspricht, so gelten

(I) für ~ < BW < π (auf der Hochfrequenzseite),

-1 < Jc₁ < O

(II) für O < BW < -| (auf der Niederfrequenzseite) ,

O < k.j < 1.

Andererseits ist v~ eine Größe, die der Leistung entspricht und immer positiv ist.

Aus der obigen Untersuchung ergibt sich, daß k- eines Sprachsignales, dessen Hochfrequenzanteil intensiv ist, dicht an (-1) herankommt, während k- eines Sprachsignales, dessen Niederfrequenzanteil intensiv ist, dicht an (+1) herankommt.

Es konnte experimentell verifiziert werden, daß auch in dem Falle, wo das Band erheblich begrenzt ist, wie z.B. beim Telefon, k- < 0,7 für die stimmlosen Konsonanten "s" und "h" gilt, während k- > 0,7 für Umgebungsgeräusche gilt.

Durch Auswertung der Eigenschaften von k- in der oben beschriebenen Weise und der Tatsache, daß normalerweise die Signalkomponente eine größere Leistung als die Rauschkomponente hat, können dementsprechend Eingangssprachsignale in die Gruppen (i) - (iii) klassifiziert werden.

Die Abtastung von Anfang und Ende des Eingangssprachintervalles, kann, unter Berücksichtigung der Klassifizierungen (i) - (iii) beispielsweise folgendermaßen erfolgen:

Θ.., Θ-: Vorgegebene Schwellwerte hinsichtlich der Leistung (G₂ > Q^),
δ: vorgegebener Schwellwert hinsichtlich des

partiellen Autbkorrelationskoeffizienten erster Ordnung (im allgemeinen wird er auf Werte gesetzt,

130051/0455

die sich in Abhängigkeit von dem Wert der Leistung ändern),
T-,, T_T, T„: vorgegebene Schwellwerte für die Zeit.

D i. Ci

(1·) V₀ > B₂,
(2¹) V₀ > O₁ (Θ₂ > Q₁) und Ic₁ < δ.

Wenn ein Zustand, der den Beziehungen (1')oder (2¹) genügt, zumindest für das Zeitintervall T_c kontinuierlich oder unterbrochen gilt, wird bestimmt, daß ein Eingangssprachintervall begonnen hat. Wenn ein Zustand, der weder der Beziehung (1¹) noch (2¹) genügt, für mindestens das Zeitintervall T_£ kontinuierlich oder unterbrochen gilt, wird entschieden, daß das Eingangssprachintervall beendet ist. Somit wird das Eingangssprachintervall abgetastet.

In dem Falle, wo der Zustand unterbrochen oder in einer Ein-Aus-Weise gilt, wird der Aus-Zustand als nicht existent betrachtet, wenn er für eine kürzere Zeitspanne als T- andauert.

Figur 1 zeigt Einstellbeispiele für die Schwellwerte Θ-, Θj und δ zur Bestimmung der Arten von Sprachsignalen auf der Basis der Werte von v_Q und k- sowie Bereiche, in denen die entsprechenden Sprachsignale und Umgebungsgeräusche in Abhängigkeit von den Schwellwerten abgetastet werden.

In Figur 1 entspricht ein Bereich I dem Typ (iii) und gibt an, daß das Eingangssprachsignal ein stimmloser Konsonant ist, während ein Bereich II dem Typ (i) entspricht und angibt, daß das Eingangssprachsignal ein stimmhafter Laut ist. Ein Bereich III entspricht dem Typ (ix) und gibt an, daß das Eingangssprachsignal ein Umgebungsgeräusch einschließlich von Raumrauschen und zufälligem Rauschen aufgrund des Rechenfehlers bei der Abtastung eines Sprachintervalles oder dergleichen ist. Experimentell wurde verifiziert, daß normalerweise erwünscht ist, δ in Abhängigkeit von v_Q zu variieren, mit anderen Wo'rten, δ als Funktion von v_o

130051/0455

einzustellen, also 6 = δ(ν_). Im Falle von einigen Eingangssprachsignalen, kann diese Größe auch auf einen festen Wert eingestellt werden, z.B. auf δ = 0,7.

Ein tatsächliches Eingangssprachsignal hat nicht eine einzige Frequenz, sondern hat eine Wellenform, bei der eine Vielzahl von Frequenzanteilen kombiniert ist. Somit können die Summen der Leistungswerte und der Autokorrelationskoeffizienten erster Ordnung der entsprechenden Frequenzanteile als Koeffizienten v_Q bzw. v.. verwendet werden, um

den partiellen Autokorrelationskoeffizienten erster Ordnung aus k- = v./v» zu ermitteln.

Genauer gesagt, wenn man annimmt, daß das Frequenzband des Eingangssprachsignales f_ - f (Hz) ist, so wird die Wellenform des tatsächlichen Eingangssprachsignals ungefahr durch nachstehende Gleichung ausgedrückt:

N
f(t) = Σ a_n sin(n ü)_q t + φ_η) (6),

wobei ω_ = 2 ir f und N die Anzahl der Frequenzanteile bedeuten.

Aus dieser Gleichung lassen sich die Werte v_Q und vin den Gleichungen (3) und (4) folgendermaßen ausdrücken:

JL f

Γτι 1

^F J,

T
^F f(t)² dt (T^: Länge eines Rahmens) (7);

a ²

-¹F

V₁ = ^- I f(t)-f(t + T₀) dt (T_c: Abtastperiode) (8). 1 T_F J S S

^J 0

1 ^N 2

■χ Σ a cos η ui T_c

-2 _η=1 η OS

130051/0455

Dementsprechend wird der Wert k- folgendermaßen berech net:

^N 2

Σ a cos η ω Τ
_- η ο
J

N
Σ

Im Falle von Telefonsprachsignalen beträgt das Frequenzband üblicherweise etwa 150 bis 4000 Hz, und somit kann die Abtastfrequenz auf f_g = 8000 Hz eingestellt werden. Dementsprechend beträgt die Abtastperiode T_c = 1/f_c = 125 ys.

Die Länge eines Rahmens sollte auf einen geeigneten Wert eingestellt werden, zweckmäßigerweise so, daß er kurz für einen Laut abrupter Änderung ist, wie z.B. Verschlußlaute, während er lang ist für einen Laut langsamer Änderung, wie z.B. eine sprechende Stimme mit geringer Intonation. Üblicherweise wird er auf etwa 5 ms bis 20 ms eingestellt.

Nachstehend wird die Erfindung anhand eines Ausführungsbeispiels näher erläutert. Figur 2 zeigt ein Blockschaltbild einer erfindungsgemäßen Ausführungsform.

Ein Eingangssprachsignal 1 geht durch einen Tiefpaßfilter 2 hindurch, um reflektiertes Rauschen zu verhindern, und wird mit einem Analog/Digital-Wandler 3 in digitale Daten umgewandelt, wobei die digitalen Daten an einen Eingangspufferspeicher 4 angelegt werden. Der Eingangspufferspeicher 4 hat einen Doppelpufferaufbau, der aus zwei Speicherbereichen 4-1 und 4-2 besteht, die jeweils einer Rahmenperiode entsprechende Daten speichern. Während Daten an den einen Bereich, z.B. den Speicherbereich 4-2, angelegt werden, wird eine vorgegebene Verarbeitung für bereits angelegte Daten im anderen Bereich, z.B. dem Speicherbereich 4-1 durchgeführt.

Mit einem von einer Steuerung 5 erzeugten Steuersignal werden die Daten innerhalb des Speicherbereiches 4-1 z.B.

130051/0455

in der angelegten Folge zu einem Register 6 übertragen.

Zu dieser Zeit werden Daten, die an das Register 6 eine Abtastperiode eher angelegt worden sind, zu einem Register übertragen.

Die mit Dg bezeichneten Daten, die im Register 6 gespeichert sind, und die mit D- bezeichneten Daten, die im Register7 gespeichert sind, werden jeweils an Multiplizierer 8 und 9 angelegt. Das vom Multiplizierer 8 gelieferte Multiplikationsergebnis Dg X Dg wird zum Inhalt eines Akkumulators 10 hinzuaddiert, während das vom Multiplizierer 9 gelieferte Multiplikationsergebnis D_g χ D₇ zum Inhalt eines Akkumulators 11 hinzuaddiert wird.

Wenn die obigen Rechenvorgänge für sämtliche Daten innerhalb des Speicherbereiches 4-1 beendet sind, sind die Operationen der Integrale in den Gleichungen (7) und (8) in den Akkumulatoren 10 bzw. 11 ausgeführt. Im Akkumulator 10 ist als Tp-fache des Autokorrelationskoeffizienten nullter Ordnung v_Q entsprechend der Leistungsinformation für die Daten (v_Q · T„) erhalten worden, während im Akkumulator 11 das Τρ,-fache des Korrelationskoeffizienten erster Ordnung V₁ mit (V₁ · Tp) erhalten worden ist. Da T„ eine Konstante ist, ist es nicht erforderlich, die erhaltenen Werte speziell durch Tp zu teilen, wenn die Schwellwerte Θ..., Q- vorher mit Tp multipliziert werden. Wie sich aus Gleichung (9) ergibt, bleibt k^ auch dann unverändert, wenn Tp im Zähler und Nenner enthalten ist, und somit tritt kein Problem auf. Nachstehend wird der mit T_p multiplizierte Wert als v_Q oder V₁ in der Erläuterung berücksichtigt werden.

Die Ausgangsdaten vom Akkumulator 10 werden in einem Speicher innerhalb der Steuerung 5 gespeichert und dienen gleichzeitig als Ausleseadresse für einen ROM 14. Das Ausgangssignal wird im ROM 14 in seinen Kehrwert 1/v_Q umgewandelt und dient als Multiplikator eines Multiplizierers 15. Im Multiplizierer 15 wird dieses Ausgangssignal mit dem Wert Vv₀ zum partiellen Autokorrelationskoeffizienten erster

130051/0455

Ordnung k- multipliziert, der in einem Register 16 gespeichert und anschließend im Speicher in der Steuerung 5 gespeichert wird.

Anschließend werden aus den Daten in der nächsten Rahmenperiode die Koeffizienten v_ und Ic₁ für diese Rahmenperiode mit demselben Verfahren wie oben beschrieben berechnet. Sie werden im Speicher innerhalb der Steuerung 5 gespeichert.

Danach wird in der gleichen Weise ein Satz von Koeffizienten ν und k.. bei jeder Rahmenperiode berechnet, und derartige Sätze von Koeffizienten werden nacheinander im Speicher innerhalb der Steuerung 5 gespeichert. Eine Reihe von Steuersignalen, die für die oben beschriebenen Rechenvorgänge erforderlich sind, werden alle von der Steuerung 5 geliefert. Der Einfachheit halber ist jedoch nur der Fluß der Daten in Figur 2 dargestellt, während die Steuersignale in der Zeichnung weggelassen sind.

Nachstehend wird ein konkretes Ausführungsbeispiel der Vorgänge zum Abtasten von Start und Ende eines Eingangssprachintervalles unter Verwendung der Koeffizienten v_o und kbeschrieben, die aus den jeweiligen Rahmenperioden ermittelt worden sind.

(A) Start des Sprachintervalles:

ω v₀ > G₂

(2) v_Q > Q₁ (Θ₂ > Q₁) und k₁ < 0,7.

Wenn den Beziehungen (?) oder (2) genügende Rahmen für mindestens T_g = 50 ms kontinuierlich gelten, wird bestimmt, daß ein Eingangssprachintervall begonnen hat.

Auch dann jedoch, wenn der Zustand, in dem die Bedingung kontinuierlich erfüllt ist, unterbrochen wird, wird die Unterbrechung als nicht-existent angesehen, wenn der oder die unterbrochenen Rahmen kürzer sind als T₁ = 30 ms.

(B) Ende des Sprachintervalles:

130051/0455

Wenn den Beziehungen (T) oder (2) genügende Rahmen für mindestens T„ = 300 ms kontinuierlich gelten, wird bestimmt, daß das Eingangssprachintervall beendet ist.

Θ- und ©₄ im Falle (B) können gleich Θ.. bzw. Q₂ im Fall (A) gemacht werden, oder sie können in die Relation Θ₃ - Θ- und Θ₄ = Θ₂ gebracht werden. Der Schwellwert δ für den Koeffizienten k- ist auf 0,7 gesetzt worden, da sich dieser Wert experimentell als der optimale Schwellwert erwiesen hat, um zu bestimmen^ ob die Eingangssprachsignale, auf welche sich die Ausfuhrungsform bezieht, stimmlose Konsonanten oder Umgebungsgeräusche sind.

Die auf die Vergleichsvorgänge gerichteten Entscheidungen werden mittels eines speziellen Prozessors innerhalb der Steuerung 5 in Figur 1 durchgeführt, z.B. mit einem Mikroprozessor oder dergleichen.

Lediglich der Vollständigkeit halber darf darauf hingewiesen werden, daß Änderungen der Schwellwerte hinsichtlich der Koeffizienten v_Q und k.., der Zeit bzw. der Anzahl von Rahmen oder dergleichen, Änderungen der Entscheidungsvorgänge, Hinzufügen eines neuen Entscheidungskriteriums usw. gewünschtenfalls entsprechend den Änderungen in den Umgebungs· bedigungen vorgenommen werden können.

Außerdem kann nach der Abtastung des Sprachintervalles gemäß der Erfindung eine Erkennungsverarbextung, bei der die abgetastete Sprache mit einem Standardmuster verglichen wird, mit dem Mikroprozessor in der Steuerung 5 durchgeführt werden, indem man z.B. ein dynamischen Programmierverfahren verwendet.

130051/0455

Figur 3 zeigt ein Diagramm zur Erläuterung der Zeitänderungen der Koeffizienten v_Q und k.. eines Eingangssprachsignals "Shisutemuken" sowie des ümstandes, daß der Startpunkt und der Endpunkt des Sprachsignales abgetastet werden können, indem man die Schwellwerte für v_Q auf G₁ (⁼ ©3) ^und Θ₂ (= Θ₄) einstellt.

Aus Figur 3 läßt sich entnehmen, daß mit dem herkömmlichen Verfahren nur unter Verwendung von v_o, wenn der vorgegebene Wert auf Q₂ eingestellt wird, die Abtastung von "sh" unmöglich ist, da Q^ < v_ < ©₂ in einem Teil gilt, der "sh" als Startpunkt des Sprachsignales entspricht, während dann, wenn der vorgegebene Wert auf Θ- verringert wird, um "sh" abtastbar zu machen, zu befürchten ist, daß eine Verwechslung mit Umgebungsgerauschen auftritt.

Wenn im Gegensatz dazu der Koeffizient k- gemäß der Erfindung zusätzlich verwendet wird, gilt für den Teil "sh" die Beziehung k- < δ, und somit ist die Bedingung der Beziehung (2) im Falle (A) erfüllt; außerdem überschreitet die Dauer des Eingangssprachsignales, das die Bedingung gemäß Beziehung (T) oder (2) im Fall (A) erfüllt, den vorgegebenen Schwellwert T₅, so daß der Startpunkt korrekt abgetastet wird.

In einem Zwischenteil, der "te" entspricht, gelten die Beziehungen v_Q < Θ.. und k₁ > 6, und somit sind beide Beziehungen (?) und (2) im Fall (B) erfüllt. Da jedoch die Dauer eines solchen Zustandes kürzer ist als der vorgegebene Schwellwert T₃-, wird dieser Zustand als zeitweilige Unterbrechung, nicht aber als Ende des Sprachsignales verarbeitet.

Wenn der Endpunkt des Sprachsignales erreicht worden ist, sind beide Beziehungen (?) und (2) im Fall (B) erfüllt, und die Dauer dieses Zustandes überschreitet den vorgegebenen Schwellwert T„, so daß der Endpunkt korrekt abgetastet wird.

(u) ist stimmlos, und wird infolgedessen weggelassen.

Die Abtastung des Sprachintervalles erfolgt unter Bezugnähme auf die Zeitpunkte, bei denen der Startpunkt und der

130051/0455

Endpunkt bestimmt worden sind, wenn sie zunächst die Bedingungen (A) bzw. (B) erfüllen.

Im Falle der Anwendung dieser Erfindung auf die Vorgänge der Spracherkennung wird zu dem Zeitpunkt, wo die Bedingung (T) oder (g) in (A) erfüllt ist, eine Erkennungsoperation dadurch ausgelöst, daß das Eingangssignal als Kandidat für den Startpunkt des Sprachsignals angesehen wird, und wenn der fortgesetzte Zustand der Bedingung in einer kürzeren Zeitspanne als T_g beendet ist, können die bis dahin vorgenommenen Vorgänge zur Erkennung annuliert werden. Somit kann der Nachteil einer Abtastverzögerung vermieden werden.

Wie oben dargelegt, können gemäß der Erfindung sogar stimmlose Konsonanten beim Startpunkt und Endpunkt eines Eingangssprachsignales korrekt abgetastet werden, ohne daß eine Vermischung oder Verwechslung mit Umgebungsgeräuschen stattfindet. Somit kann die Abtastgenauigkeit eines Sprachintervalles erheblich gesteigert werden, was beträchtlichen praktischen Nutzen mit sich bringt.

130051/0455

Ά-

Leerseite

Claims

■=>AT E-N TA N V"Ä LT F SCHIFF ν. FÜNER STnTtHL' SCHU^-OtL-HOF^i=" EBBINGHAU-S - /-»'Il A

MARIAHILFPLATZ 2*3, MÖNCHEN ΘΟ POSTADRESSE: POSTFACH 8BOI60. D-8OOO MÖNCHEN BB

HITACHI, LTD. 21. Januar 1981

DEA-25 383

Verfahren zur Abtastung von Sprache

PATENTANSPRÜCHE

Verfahren zur Abtastung von Sprache, g e k e η η zeichnet durch folgende Verfahrensschritte: Herausziehen eines Autokorrelationskoeffizienten nullter Ordnung und eines partiellen Autokorrelationskoeffizienten erster Ordnung bei jedem festen Extraktionsintervall aus einem Eingangssignal und

Entscheiden, ob innerhalb des Sprachintervalles ein Eingangssignal vorliegt oder nicht und zwar in Abhängigkeit davon, ob ein erster Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein erster Schwellwert, oder ein zweiter Zustand, bei dem der Autokorrelationskoeffizient nullter Ordnung größer ist als ein zweiter Schwellschwert und außerdem der partielle Autokorrelationskoeffizient erster Ordnung kleiner ist als ein dritter Schwellwert, im wesentliehen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.

130051/0455

■'- "- 2'- ■
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , daß der Startpunkt eines Sprachintervalles bestimmt wird, wenn mindestens einer der ersten und zweiten Zustände im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.
3. Verfahren nach Anpsruch 1, dadurch gekennzeichnet, daß der Endpunkt eines Sprachintervalles bestimmt wird, wenn der Zustand, bei dem weder der erste Zustand noch der zweite Zustand erfüllt sind, im wesentlichen über eine vorgegebene Anzahl von Extraktionsintervallen angedauert hat.