Die Erfindung betrifft eine Einrichtung zum lautweisen Iden
tifizieren eines Sprechmusters nach dem Oberbegriff des An
spruches 1.
Eine derartige Einrichtung zum lautweisen Identifizieren
eines Sprechmusters ist aus der DE-OS 23 47 738 bekannt. Die
se bekannte Einrichtung enthält eine Wandlereinrichtung zum
Umwandeln einer zu erkennenden Sprache in ein elektrisches
Sprechsignal. Es ist ferner eine Frequenzanalyseeinrichtung
vorhanden, die Teil einer Verarbeitungseinrichtung ist zum
Verarbeiten des Sprechsignals in einer vorbestimmten Weise
zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz-
Verteilung. Die bekannte Einrichtung umfaßt ferner eine De
tektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts
des Sprechmusters vom Beginn eines Beobachtungszeitraums ab,
wobei dieser Abschnitt für die Sprechmustererkennung weiter
verarbeitet wird, enthält ferner eine Einrichtung zum Bestim
men der Übereinstimmung des Sprechmusters mit mindestens
einem einer Anzahl registrierter Sprechmuster, wobei der Be
obachtungszeitraum jeweils einen Laut umfaßt.
Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren
von Audiosignalen bekannt, bei dem die Nulldurchgänge eines
Audiosignals in digitale Impulsfolgen umgewandelt und damit
Signalpausen vorgegebener minimaler Dauer detektiert werden
können. Dieses bekannte Verfahren ist aber beispielsweise
nicht dafür geeignet, um bestimmte Lautabschnitte, wie bei
spielsweise Zischlautabschnitte eines Sprachsignals, detek
tieren zu können.
Aus der US-PS 3 909 532 ist eine Einrichtung zum Identifizie
ren eines Sprechmusters bekannt, die darauf basiert, daß die
Energie von Codeworten am Ausgang eines adaptiven Sprachko
dierers dazu verwendet wird, den Anfang und das Ende eines
Sprechmusters zu ermitteln. Der Beginn eines Sprechmusters
wird beispielsweise dadurch ermittelt, indem festgestellt
wird, ob die Energie des Sprechmusters einen vorbestimmten
Schwellenwert für eine vorbestimmte Zeitdauer überschreitet.
Diese bekannte Einrichtung basiert somit auf der Anwendung
des Signalpegel-Detektorverfahrens, d. h. es werden Teile
eines zu erkennenden Sprachmusters an sich gar nicht erfaßt,
deren Energie unterhalb des genannten vorbestimmten Schwel
lenwertes liegen. Bei dieser bekannten Einrichtung wird daher
beispielsweise der Zischlautabschnitt eines zu erkennenden
Sprechmusters überhaupt nicht erfaßt, sondern erst der nach
folgende Explosionsabschnitt, der einen entsprechend höheren
Signalpegel hat, so daß dieser Signalpegel oberhalb des
Schwellenwertes liegt. Bei dieser bekannten Einrichtung wer
den ferner auch immer Teile des Sprechmusters abgeschnitten,
die aber unter Umständen für eine exakte Spracherkennung er
forderlich sein können.
Auf dem Gebiet des Erkennens von Sprache ist es außerdem all
gemein bekannt, mehrere Sprechmuster durch Wiederholen des
selben Lautes oder Wortes zu erzeugen und die Sprechmuster
dann zu überlagern, um ein zusammengesetztes Sprechmuster zur
Registrierung in einer Sprachbibliothek zu definieren. Wenn
man eine Anzahl von Sprechmustern erzeugt, kann dieselbe Per
son denselben Laut oder dasselbe Wort eine bestimmte Anzahl
von Malen wiederholen, oder zwei oder mehrere unterschiedli
che Personen können solche Sprechmuster erzeugen. Der Grund
für die Überlagerung einer Anzahl von Sprechmustern zum Defi
nieren eines zusammengesetzten Sprechmusters für die Regi
strierung ist jener, daß ein solches zusammengesetztes Sprech
muster es ermöglicht, unbekannte Sprachdaten mit einer erhöh
ten Erfolgschance zu identifizieren, weil üblicherweise eini
ge Unterschiede zwischen den Sprechmustern vorliegen, selbst
wenn dieselbe Person denselben Laut oder dasselbe Wort auf
einanderfolgend ausspricht.
Beim Überlagern einer Anzahl von Sprechmustern für denselben
Laut oder dasselbe Wort wird in Übereinstimmung mit einer
Vorgehensweise aus dem Stand der Technik ein Sprechintervall
für einen stimmhaften Laut zunächst bestimmt, und die Überla
gerung wird unmittelbar vom Beginn des Sprechintervalls aus
durchgeführt. Wenn in diesem Fall der beginnende Abschnitt
eines stimmhaften Wortes einen Verschlußlaut aufweist oder
ein einsilbiges Wort einen Verschlußlaut aufweist, dann ist
es wahrscheinlich, daß die Verschlußlaute zweier oder mehre
rer Sprechmuster nicht genau übereinanderliegen, und zwar
beispielsweise infolge des Vorliegens oder Fehlens eines
Zischabschnitts und/oder Unterschieden in der Zeitdauer eines
solchen Zischabschnitts, wodurch es erschwert ist, ein ge
naues, zusammengesetztes Sprechmuster zur Registrierung zu
definieren. Zusätzlich wird beim Vorgang der Erkennung einer
unbekannten Sprachinformation in Übereinstimmung mit der Vor
gehensweise aus dem Stand der Technik ein Sprechmuster aus
der unbekannten Sprachinformation erzeugt und das Sprechin
tervall wird bestimmt, und dann wird die Übereinstimmung mit
registrierten Sprechmustern hergestellt, um die unbekannte
Sprachinformation zu identifizieren. In diesem Fall wird in
Übereinstimmung mit dem Stand der Technik das Sprechmuster
der unbekannten Sprachinformation verglichen mit den regi
strierten Sprechmustern, und zwar unmittelbar vom Beginn des
Sprechintervalls ausgehend. Wie oben erwähnt, ist dies nicht
vorteilhaft, weil das Vorliegen oder das Fehlen eines Zisch
abschnitts zu einer fehlerhaften Spracherkennung führen könn
te.
Es ist zusätzlich auch bekannt, eine eingehende Sprachinfor
mation zurückzuweisen, wenn ihr Sprechintervall zu kurz ist,
weil dies eine Schwierigkeit beim Durchführen des Vorganges
der Spracherkennung bieten könnte. Wenn unbekannte Sprachda
ten, die zu identifizieren sind, im Schallpegel zu niedrig
liegen, trifft oft eine Schwierigkeit bei der Identifizierung
der unbekannten Sprachdaten auf. Es ist somit oftmals er
wünscht, die Behandlung solcher unbekannter Sprachdaten zu
rückzuweisen, deren Schallpegel zu niedrig liegt.
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
eine Einrichtung zum lautweisen Identifizieren eines Sprech
musters der angegebenen Gattung zu schaffen, welche die Mög
lichkeit bietet, eine zeitgenauere Erkennung derjenigen Ab
schnitte eines zu identifizierenden Sprechmusters zu ermögli
chen, die für die Spracherkennung zu verwenden sind.
Diese Aufgabe wird erfindungsgemäß durch die im Kennzeich
nungsteil des Anspruches 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
der Erfindung ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbei
spielen unter Hinweis auf die Zeichnung näher erläutert. Es
zeigen:
Fig. 1 ein Blockschaltbild, das eine Einrichtung zum Regi
strieren von Sprechmustern zeigt und die in Über
einstimmung mit einem Ausführungsbeispiel mit Merk
malen nach der Erfindung aufgebaut ist,
Fig. 2 eine Darstellung, die ein Beispiel des Zeit-Fre
quenz-Spektralmusters für einen stimmhaften Ver
schlußlaut zeigt,
Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige
Änderung des Sprachsignalpegels eines stimmhaften
Verschlußlautes mit und ohne Zischabschnitt A zei
gen,
Fig. 4 ein Blockschaltbild, das eine Einrichtung zum Regi
strieren von Sprechmustern zeigt, die in Überein
stimmung mit einem anderen Ausführungsbeispiel mit
Merkmalen nach der vorliegenden Erfindung aufgebaut
ist,
Fig. 5 ein Blockschaltbild, das den detaillierten Aufbau
eines Ausführungsbeispiels des Detektors 3 für den
Startpunkt der Überlagerung zeigt, der in der in
Fig. 1 gezeigten Einrichtung vorgesehen ist; und
Fig. 6 ein Blockschaltbild, das den detaillierten Aufbau
eines Beispiels der Überlagerungseinheit 4 zeigt,
die in der in Fig. 1 gezeigten Einrichtung vorgese
hen ist.
Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in
Blockform eine Einrichtung zum Registrieren eines Sprechbe
zugsmusters zur Verwendung bei der Wiedererkennung von Spra
che gezeigt; diese weist ein Mikrophon 1 auf, um Schall in
Form einer Druckwelle in ein elektrisches Sprachsignal umzu
wandeln, einen Frequenzanalysator (Frequenzanalyseeinrichtung) 2 zum Verarbeiten des elek
trischen Sprachsignals, um ein Sprechmuster in Form einer
Zeit-Frequenz-Verteilung zu bilden, eine Einrichtung (Detektoreinrichtung) 3 zum
Ermitteln des Ausgangspunkts für die Überlagerung sowie eine
Überlagerungseinheit 4. Bei dieser Einrichtung wird derselbe
Sprachlaut dem Mikrophon 1 mehrfach von derselben oder unter
schiedlichen Personen zugeführt, und somit wird eine Anzahl
von Sprechmustern aufeinanderfolgend erzeugt. Die vielen
Sprechmuster werden aufeinanderfolgend überlagert, wobei man
ein zusammengesetztes Sprechbezugsmuster für einen speziellen
Sprachlaut registriert. Das so registrierte Sprechbezugsmu
ster kann später zum Identifizieren unbekannter Sprache durch
Herstellen einer Übereinstimmung verwendet werden, wie dies
in der Technik bekannt ist.
In Übereinstimmung mit der vorliegenden Erfindung wird ein
Sprachsignal der Frequenzanalyse unterzogen, um ein Sprech
muster in Form einer Zeit-Frequenz-Verteilung zu erhalten,
und ein Ausgangspunkt dieses Sprechmusters zur Überlagerung
über ein bereits vorher erzeugtes Sprechmuster für denselben
Sprachlaut wird durch die Einrichtung 3 zum Ermitteln des
Ausgangspunkts für die Überlagerung ermittelt. Dieser Aus
gangspunkt für die Überlagerung wird am Anfangsabschnitt des
Sprechmusters auf eine solche Weise bestimmt, daß Sprach
energie gleich oder kleiner ist als ein bestimmter Wert und
eine Niederfrequenz-Komponente der Sprechenergie gleich oder
größer ist als ein bestimmter Wert. Wenn dieser Ausgangspunkt
für die Überlagerung gefunden ist, dann wird die Überlagerung
über die vorangegangenen Sprechmuster für denselben Laut ein
geleitet, wobei dieser Ausgangspunkt benutzt wird. Da das
Sprechmuster über die bereits vorher registrierten Sprechmu
ster für denselben Sprachlaut überlagert wird, wird stets ein
einziges, zusammengesetztes Sprechbezugsmuster hinterlassen,
das für einen speziellen Sprachlaut registriert bzw. aufge
zeichnet wird. Als andere Vorgehensweise kann jener Abschnitt
des Sprechmusters vom Beginn bis zu dem Ausgangspunkt für die
Überlagerung, der auf diese Weise ermittelt wurde, abge
schnitten oder vom Sprechmuster entfernt werden, und dann
kann die Überlagerung durchgeführt werden.
Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz-
Spektralverteilungsmuster des Lautes "gi" als stimmhaften
Verschlußlaut zeigt. Wie gezeigt, weist das Muster einen
Zischabschnitt A, einen Explosionsabschnitt B und einen Vo
kalabschnitt C auf. Der Zischabschnitt A ist charakteristisch
für einen stimmhaften Verschlußlaut und unterscheidet sich
von Person zu Person sowie von Zeit zu Zeit selbst bei der
selben Person, und sogar bei derselben Person erscheint er
manchmal und erscheint manchmal nicht. Selbst wenn der Zisch
abschnitt A erscheint, ist seine Zeitdauer vorhersagbar und
äußerst unstabil. Im übrigen ist im Zischabschnitt A kein be
merkenswerter Unterschied hinsichtlich der Form des Spektral
musters unter den drei Arten von stimmhaften Verschlußlauten
"b", "d" und "g" zu sehen. Deshalb kann, wenn zwei oder mehr
Sprechmuster für denselben Sprachlaut einfach vom Beginn des
Sprechintervalls eines jeden Musters überlagert werden, der
Explosionsabschnitt B, der ein kritisches Element bei der
Identifizierung eines stimmhaften Verschlußlautes ist, in
Überlagerung mit dem Zischabschnitt A oder dem Vokalabschnitt
C gelangen, wobei die Bildung eines überlagerten Sprechbe
zugsmusters, das mit hoher Genauigkeit registriert werden
soll, verhindert ist.
Die Grundlage der vorliegenden Erfindung für die Überlagerung
zweier oder mehrerer Sprechmuster für einen speziellen Laut
zur Registrierung wird unter Bezugnahme auf die Fig. 3a und
3b beschrieben. Fig. 3a zeigt die Änderung in der Sprachener
gie eines speziellen stimmhaften Verschlußlautes mit einem
Zischabschnitt A am Beginn als Funktion der Zeit. Fig. 3b
zeigt die Änderung der Sprachenergie eines speziellen stimm
haften Verschlußlautes, der keinen Zischabschnitt aufweist.
Wie in Fig. 3a gezeigt, kann der Zischabschnitt A dann iden
tifiziert werden, wenn zwei Bedingungen erfüllt sind. Das
heißt, beim Beginn des Sprechmusters, wie in Fig. 3a anhand
der zeitabhängigen Sprachenergie gezeigt, befindet sich ein
Zeitraum, während welchem (1.) die Schallenergie gleich oder
kleiner ist als ein bestimmter Wert und (2.) eine niederfre
quente Komponente ein Verhältnis bzw. einen Anteil aufweist,
der gleich oder größer ist als ein bestimmter Wert der
Schallenergie. In Übereinstimmung mit der vorliegenden Erfin
dung wird nach Abschluß eines solchen Zeitraums vom Beginn
eines Sprechmusters an, d. h. nach dem Ende des Zischab
schnitts A, die Überlagerung der Sprechmuster durchgeführt.
Als Ergebnis ist stets sichergestellt, daß die Explosionsab
schnitte B, die bei der Identifizierung eines stimmhaften
Verschlußlauts kritisch sind, genau überlagert werden, wobei
es gestattet ist, ein überlagertes Sprechbezugsmuster mit ho
her Genauigkeit zu registrieren.
Es erfolgt nun die detailliertere Beschreibung unter Bezug
nahme auf ein spezielleres Beispiel; der Frequenzanalysator 2
weist eine Bandpaßfilterbank bzw. eine Reihe von Bandpaßfil
tern auf, die mit 29 Kanälen versehen sind, deren Mittelfre
quenz von 250 Hz bis 6300 Hz in Stufen von 1/6 Oktaven verän
dert ist. Wenn somit ein Sprechsignal von einem Mikrophon
oder ein spezieller Sprachlaut durch den Frequenzanalysator
verarbeitet wird, dann wird ein Zeit-Frequenz-Verteilungsmu
ster bei jedem Zeitraum erhalten. Die während eines jeden
Zeitraums erhaltenen Daten werden "Rahmen" genannt, und somit
können die Daten auch durch eine Rahmennummer vom Beginn des
Musters aus identifiziert werden. Ein Sprechmuster wird auf
einanderfolgend durch den Frequenzanalysator 2 erzeugt und
wird in die Einrichtung 3 zum Ermitteln des Ausgangspunktes
für die Überlagerung eingespeist. An der Einrichtung 3 für
die Ermittlung des Ausgangspunkts der Überlagerung wird die
Sprachenergie eines Rahmens mit einer maximalen Sprachenergie
während eines Sprechintervalls herausgezogen und als Emax
identifiziert. Wenn während eines Zeitraums vom Beginnen des
Sprechintervalls bis zu 100 bis 300 ms, vorzugsweise 200 ms,
ein Intervall vorliegt, in welchem (1) die Sprachenergie
gleich oder kleiner ist als 10 bis 40%, vorzugsweise 20%, und
(2) eine Niederfrequenz-Komponente von 200 Hz bis 1 kHz, vor
zugsweise 500 Hz, oder weniger, 60 bis 100%, vorzugsweise
80%, der Sprachenergie einnimmt, dann wird die Überlagerung
nach dem Ende dieses Intervalls eingeleitet.
Ein Beispiel einer Einrichtung 3 zum Ermitteln des Ausgangs
punkts für die Überlagerung ist im einzelnen in Fig. 5 ge
zeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Ein
richtung 3 zum Ermitteln des Ausgangspunktes für die Überla
gerung ein Paar aus einem ersten bzw. zweiten Addierer 3a und
3b auf, die mit dem Frequenzanalysator 2 verbunden sind. Der
erste Addierer 3a addiert die Ausgänge von allen Kanälen 1
bis 29, die den Frequenzbereich von 250 Hz bis 6300 Hz der
Bandpaßfilterbank abdecken, die im Frequenzanalysator 2 vor
gesehen ist. Andererseits ist der zweite Addierer 3b vorgese
hen, um die Ausgänge aus den Kanälen 1 bis 7 zu addieren, und
zwar entsprechend einem Niederfrequenzbereich von 250 Hz bis
500 Hz. Die beim ersten Addierer 3a erhaltenen, aufaddierten
Daten werden zwischenzeitlich in einem ersten Register 3c ge
speichert, während jene Daten, die im zweiten Addierer 3b
addiert wurden, zwischenzeitlich in einem zweiten Register 3d
gespeichert werden. Ein erster Multiplikator 3e ist ange
schlossen, um die im ersten Register 3c gespeicherten Daten
aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8
(80%), wird mit den Daten aus dem ersten Register 3c multi
pliziert und das resultierende Ergebnis wird zwischenzeitlich
in einem dritten Register 3g abgespeichert. Die Angaben im
zweiten Register 3d, die mit C2 bezeichnet sind, werden dann
mit den Angaben im dritten Register 3g, die mit C1 bezeichnet
sind, bei einem ersten Komparator 3j verglichen, der einen
Ausgang "1" liefert, wenn C1 kleiner ist als C2, und "0",
wenn C1 gleich oder größer ist als C2.
An das erste Register 3c ist auch ein Höchstwertdetektor 3f
angeschlossen, der einen Höchstwert der addierten Daten für
jeden Zeitraum oder Rahmen feststellt und diesen Maximalwert
einem zweiten Multiplikator 3h zuführt. Am Multiplikator wird
ein zweiter bestimmter Faktor, etwa 0,2 (20%), mit dem
Höchstwert multipliziert, der vom Höchstwertdetektor 3f zuge
führt wird, und die resultierenden Größen werden zwischen
zeitlich in einem vierten Register 3i abgespeichert. Die Da
ten im vierten Register 3i, die mit C3 bezeichnet sind, wer
den dann mit den Daten im ersten Register 3c, die mit C4 be
zeichnet sind, durch einen zweiten Komparator 3k verglichen,
der an seinem Ausgang "1" abgibt, wenn C3 größer ist als C4,
und "0", wenn C3 gleich oder kleiner ist als C4.
Es ergibt sich dann bei dieser Anordnung, wenn von erstem und
zweitem Komparator 3j und 3k jeder "1" als Ausgang an eine
UND-Schaltung 31 abgibt und somit die UND-Schaltung 31 "1"
als ihren Ausgang abgibt, daß der Zischabschnitt A des
Sprechmusters verarbeitet wird. Wenn die UND-Schaltung 31 "0"
als ihren Ausgang zum erstenmal abgibt, dann bezeichnet dies
das Ende des Zischabschnitts A, so daß der entsprechende Rah
men als Ausgangspunkt für die Überlagerung an einem Ausgangs
punkt-Detektor 3m ermittelt und dann der Überlagerungseinheit
4 zugeführt wird.
Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlage
rungseinheit 4 in der in Fig. 1 gezeigten Einrichtung. Wie
gezeigt, weist die Überlagerungseinheit 4 ein Register 4a
auf, um zwischenzeitlich ein Sprechmuster in Form einer Zeit-
Frequenz-Verteilung zu speichern, welche gerade von einem
eingehenden Sprachlaut erzeugt wurde. Die dargestellte Über
lagerungseinheit 4 weist auch ein anderes Register 4d auf,
welches die Anzahl von Rahmen eines jeden registrierten
Sprechmusters speichert. Wenn das neue Sprechmuster in das
Register 4a eingespeichert wird, dann wird die Anzahl der
Rahmen, die dem neuem Sprechmuster überlagert werden soll
(d. h. die Anzahl von Rahmen vom Überlagerungsausgangspunkt
bis zum Ende des Sprechintervalls) verglichen mit der Anzahl
von Rahmen, die im Register 4d für den entsprechenden Sprach
laut gespeichert sind, und dann wird das Maß der linearen
Expansion/Kontraktion (d. h. die Anzahl der Rahmen), die für
das neue Sprechmuster ausgeführt werden muß, das im Register
4a gespeichert ist, bestimmt. Dann wird das neue, im Register
4a gespeicherte Sprechmuster der linearen Expansion bzw. Kon
traktion unterzogen, wobei die Anzahl von Rahmen des neuen
Sprechmusters, das überlagert werden soll, auf die Anzahl von
Rahmen des registrierten Sprechmusters abgeglichen wird, wel
ches im Register 4d gespeichert ist, wie oben erwähnt.
Es ist auch noch ein weiteres Register 4e zum Speichern der
Anzahl von Überlagerungen für jedes registrierte Sprechbe
zugsmuster und ein noch weiteres Register 4f zum Speichern
der registrierten Sprechbezugsmuster vorgesehen. Der Wert des
registrierten Sprechbezugsmusters, das im Register 4f gespei
chert ist, wird mit der entsprechenden Anzahl von Überlage
rungen, die im Register 4e gespeichert sind, an einem Multi
plikator 4g multipliziert und dann werden die resultierenden
Daten zum neuen Sprechbezugsmuster, das der Behandlung linea
rer Expansion bzw. Kontraktion unterzogen wurde, bei einem
Addierer 4h hinzuaddiert. Es wird dann das addierte Ergebnis
dividiert durch (Anzahl von Überlagerungen + 1) an einem Di
vidierer 4i und dessen Ergebnis wird im Register 4f als er
neuertes Sprechbezugsmuster gespeichert. Um genauer auszufüh
ren, wird davon ausgegangen, das Xÿ einen Wert eines regi
strierten Sprechbezugsmusters am i-ten Kanal und j-ten Rahmen
und Yÿ den Wert eines neu eingehenden Sprechmusters für den
selben Laut am i-ten Kanal und j-ten Rahmen bezeichnet; dann
kann der Wert Xÿ′ als durch Überlagerung erneuertes Sprech
muster auf die folgende Weise ausgedrückt werden:
wobei m die Anzahl von Überlagerungen bezeichnet.
Es muß vermerkt werden, daß die Anzahl von Überlagerungen,
die im Register 4e für den entsprechenden Sprachlaut gespei
chert ist, durch den Schritt +1 jedesmal dann erneuert wird,
wenn eine Überlagerung ausgeführt wird.
Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel der
vorliegenden Erfindung, welches eine Modifizierung der Anord
nung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt werden,
daß, wie es durchgehend in der vorliegenden Beschreibung und
den Zeichnungen praktiziert wurde, gleiche Bezugszeichen
gleiche bzw. ähnliche Elemente bezeichnen, ohne daß diese
sonstwie speziell vermerkt werden. Im vorliegenden Ausfüh
rungsbeispiel wird eine Muster-Abschneideeinheit 5 anstelle
der Detektoreinrichtung 3 für den Ausgangspunkt der Überlagerung ver
wendet. In Übereinstimmung mit diesem Ausführungsbeispiel
wird, wenn ein Zeitraum am Beginn eines Sprechmusters auf
eine solche Weise vorliegt, daß die Sprachenergie gleich oder
kleiner ist als ein erster bestimmter Wert und eine Nieder
freuqnez-Komponente gleich oder größer ist als ein zweiter
bestimmter Wert, der als Anteil der Sprachenergie bestimmt
ist, ein solcher Zeitraum an der Muster-Abschneideeinheit 5
entfernt bzw. unterdrückt wird, bevor das Muster überlagert
wird. Als ein Beispiel kann die Muster-Abschneideeinheit 5
jede Anordnung aufweisen, wie sie in Fig. 5 gezeigt ist. In
diesem Fall sollte jedoch Ausgangspunkt-Detektor 3m
ersetzt werden durch einen Abschneide-Endpunktdetektor,
dessen Funktion es ist, einen Rahmen zu ermitteln, wenn der
Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde, und
dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten
Rahmen abzutrennen und zu verwerfen.
Wenn somit ein Sprachlaut in Form einer Druckwelle als Ein
gang in das Mikrophon 1 gelangt, wird er in ein elektrisches
Sprechsignal umgewandelt, welches dann durch den Frequenzana
lysator 2 so verarbeitet wird, daß ein Sprechmuster erzeugt
wird. Wenn dann das Sprechmuster der Muster-Abschneideeinheit
5 zugeführt wird, werden dessen Sprachstärke und das Verhält
nis der Stärke der Niederfrequenz-Komponente zur Sprachstär
ke, welche eine Summe aller Ausgänge der Bandpaßfilterbank
(29 Kanäle im dargestellten Beispiel) ist, ermittelt. Dann
wird geprüft, ob ein solcher Zeitraum am vorderen Abschnitt
des Sprechmusters vorliegt, bei welchem die Sprachenergie
gleich oder kleiner ist als ein erster bestimmter Wert und
die Stärke der Niederfrequenz-Komponente gleich oder größer
ist als ein zweiter bestimmter Wert. Wenn es sich dann her
ausgestellt hat, daß ein solcher Zeitraum vorliegt, wird die
ser abgetrennt und verworfen, bevor das Sprechmuster der
Überlagerungseinheit 4 zugeführt wird. Deshalb werden an der
Überlagerungseinheit 4 mehrere Sprechmuster, deren anfängli
che Abschnitte abgeschnitten wurden, überlagert, um ein zu
sammengesetztes Sprechbezugsmuster für die Registrierung zu
definieren.
Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel
der Zischabschnitt A, der in Fig. 3a gezeigt ist, von der Mu
ster-Abschneideeinheit 5 so entfernt, daß ein Sprechmuster
gebildet ist, das nur aus dem Explosionsabschnitt B und dem
Vokalabschnitt C zusammengesetzt ist.
Selbst wenn in diesem Fall das Sprechmuster eines stimmhaften
Verschlußlauts, der einen Zischabschnitt aufweist, über das
Sprechmuster eines stimmhaften Verschlußlauts überlagert wer
den soll, der keinen Zischabschnitt aufweist, ist stets si
chergestellt, daß die Explosionsabschnitte übereinander ange
ordnet werden, wobei es ermöglicht ist, ein überlagertes
Sprechbezugsmuster mit hoher Genauigkeit zu registrieren bzw.
zu speichern.