DE3233637A1

DE3233637A1 - Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen

Info

Publication number: DE3233637A1
Application number: DE19823233637
Authority: DE
Inventors: Tomio Tokyo Sakata
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1981-10-31
Filing date: 1982-09-10
Publication date: 1983-05-19
Also published as: GB2109205A; DE3233637C2; JPH0222398B2; GB2109205B; JPS5876899A; US4535473A

Description

ff i * \

Vorrichtung zur Bestinunung der Dauer von Sprach- oder Tonsignalen

Die Erfindung betrifft eine Vorrichtung zur Bestimmung oder Messung der Dauer von Sprach- oder Tonsignalen.

Für die Erkennung getrennt ausgesprochener Wörter oder einer Reihe von Wörtern nach dem Mustervergleichsverfahren oder ähnlichen Verfahren ist es erforderlich, die Dauer jedes durch Sprache erzeugten Worts bzw. einer Wortreihe einwandfrei zu bestimmen bzw. zu messen. Wenn ein Wort unter Bedingungen vergleichsweise geringen Umgebungsrauschens, z.B. bei einem Störsignalabstand von 30 dB oder mehr, gesprochen und für die Abnahme des betreffenden Ton- oder Sprachsignals ein breitbandiges Mikrophon verwendet wird, läßt sich die Dauer des durch Sprache erzeugten Worts oder der Wortreihe einfach durch Bestimmung der Periode feststellen, während welcher seine bzw. ihre Amplitude und die Zahl seiner bzw. ihrer Nulldurchgänge oberhalb einer vorbestimmten Größe bleiben.

Wenn dagegen das Umgebungs-, d.h. Grundrauschen groß ist oder sich mit hoher Frequenz ändert, ist es unmöglich, die Dauer eines durch Sprache erzeugten, d.h. gesprochenen Worts oder einer Wortreihe einwandfrei zu bestimmen, unabhängig davon, welche Datenverarbeitung zur Bestimmung des richtigen Schwellenwerts angewandt wird. Wenn der Schwellenwert vergleichsweise niedrig angesetzt ist, kann häufig ein den Schwellenwert übersteigendes Störsignal auf-

treten, so daß häufig ein sog. "Additionsfehler" vorkommen kann. Wenn dagegen der Schwellenwert vergleichsweise niedrig gesetzt ist, kann eine Sprachkomponente, deren Pegel unter dem Schwellenwert liegt, ausfallen, so daß wiederholt ein sog. "Ausfallfehler" auftreten kann. Wenn die sprachfreie Periode bestimmt werden kann, läßt sich der Schwellenwert entsprechend dem Umgebungs- bzw. Grundrauschpegel ändern. Im allgemeinen läßt sich jedoch eine sprachfreie Periode nicht einwandfrei bestimmen. Aus diejQ sem Grund ist es äußerst schwierig, die Dauer eines gesprochenen, eingegebenen (input) Worts richtig zu bestimmen oder zu messen.

Aufgabe der Erfindung ist damit insbesondere die Schaffung !5 einer Vorrichtung, mit welcher die Dauer eines durch Sprache erzeugten bzw. gesprochenen (voice generated) Worts oder einer Wortreihe einwandfrei und genau bestimmt werden kann.

Diese Aufgabe wird bei einer Vorrichtung zur Bestimmung der Dauer von Sprach- oder Tonsignalen mit einer Abtasteinrichtung zur Abtastung eines Spracheingangssignals und zur Erzeugung einer Zeitfolge von Sprachparametern, einer an die Abtasteinrichtung angeschlossenen Speichereinrichtung zur Speicherung der Zeitfolge der Sprachparameter sowie einer ersten Bestimmungseinrichtung zur Bestimmung einer Sprachperiode nach Maßgabe des Vergleichs zwischen einer voreingestellten Größe bzw. Vorgabegröße und einer Zeitfolge von Sprachparametern erfindungsgemäß gelöst durch eine Einrichtung zur Bestimmung einer ersten, der Sprachperiode unmittelbar vorausgehenden sprachfreien Periode und einer zweiten, unmittelbar auf die Sprachperiode folgenden sprachfreien Periode, durch eine Einrichtung zur Bildung eines Histogramms auf der Grundlage der während der Sprachperiode sowie während erster und

zweiter sprachfreier Periode erzeugten oder gelieferten Sprachparameter sowie zum Unterteilen der Sprachparameter in eine sprachfreie Klasse (non-voice class) und eine Sprachklasse auf der Grundlage des Histogramms, durch eine zweite Bestinunungseinrichtung zur Bestimmung eines Schwellenwerts auf der Grundlage des Mittelwerts der Sprachparameter in der sprachfreien Klasse und durch eine dritte Bestimmungseinrichtung zur Bestimmung der Sprachdauer auf der Grundlage des Schwellenwerts und der während der Sprachperiode sowie während erster und zweiter sprachfreier Periode erzeugten bzw. gelieferten und in der Speichereinrichtung gespeicherten Sprachparameter.

In spezieller Ausführungsform der Erfindung wird zunächst eine Zeitspanne, die eine Sprachperiode und eine sprachfreie Periode enthält, auf der Grundlage einer Zeitfolge von Sprachparametern für das Sprachsignal erfaßt. Sodann wird das Histogramm der für diese Zeitspanne zutreffenden Sprachparameter bestimmt. Der Mittelwert der Sprachparameter betreffend die sprachfreie Periode wird anhand der Sprachparameterverteilung berechnet. Hierauf wird nach Maßgabe des so berechneten Mittelwerts ein Schwellenwert bestimmt; auf diese Weise kann die angegebene Aufgabe der Erfindung effektiv gelöst werden.

Die Zeitfolge der Sprachparameter für das Sprachsignal wird zur Bestimmung der Dauer eines eingehenden gesprochenen Worts benutzt. Wenn eine Person eine die Zeitfolge der Sprachparameter wiedergebende graphische Darstellung betrachtet, kann die Dauer des eingegebenen gesprochenen Worts richtig erkannt werden, weil sich dabei einfach feststellen läßt, ob jeder Sprachparameter einer Sprachperiode oder einer sprachfreien Periode zugeordnet ist, wobei sich gleichzeitig ein optimaler Schwellenwert für die Bestimmung oder Messung des Spracheingangssignals

leicht bestimmen läßt. Danach kann nach Maßgabe des

Schwellenwerts festgestellt werden, ob jeder (ein betreffender) Sprachparameter der Dauer eines eingegebenen
(input) gesprochenen Worts zugehörig ist. Weiterhin kann auch festgestellt werden, ob der Sprachperiode zugeordnete Sprachparameter aufeinanderfolgend für mehr als eine voreingestellte Zeitspanne erzeugt werden. Auf der
Grundlage der so erhaltenen Daten wird die Dauer des
eingegebenen gesprochenen Worts ermittelt. Dieses Ver-

,Q fahren, bei dem eine Person die Dauer eines eingegebenen gesprochenen Worts erfaßt, wird auf die Sprachdauer-Meßvorrichtung eines Spracherkennungssystems angewandt, so daß die Vorrichtung die Dauer eines eingegebenen gesprochenen Worts (input voice generated word) genau zu be-

jc stimmen oder zu messen vermag.

Im folgenden ist eine bevorzugte Ausfuhrungsform der Erfindung anhand der beigefügten Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein (Block-)Schaltbild einer Sprachdauer-Meßvorrichtung mit Merkmalen nach der Erfindung,

Fig. 2 eine graphische Darstellung einer Wellenform zur Veranschaulichung einer Zeitfolge von Kurzzeit-Energieparametern eines Eingangssignals,

Fig. 3 eine graphische Darstellung der Wellenform eines Bewegungsmittel (wert) s (moving average), der von der Zeitfolge und den Kurzzeit-Energieparametern abgeleitet ist,

Fig. 4 ein Histogramm der Kurzzeit-Energieparameter eines

Eingangssignals gemäß Fig. 2,
35

JeT

Fig. 5A und 5B Ablaufdiagramme für die Bildung des Histo gramms gemäß Fig. 4,

Fig. 6 ein Ablaufdiagramm für die Bestimmung eines Schwellenwerts entsprechend dem Mittelwert der Sprachparameter in einer sprachfreien Periode und

Fig. 7A und 7B Ablaufdiagramme für die Bestimmung einer IQ echten Sprachdauer auf der Grundlage des Schwellenwerts und der Sprachparameter.

Bei der zu beschreibenden Ausfuhrungsform der Erfindung werden von einem Spracheingangssignal abgeleitete Kurzzeit-Energiedaten E als Sprachparameter benutzt, doch können für denselben Zweck auch andere Sprachparameter benutzt werden.

Zunächst wird ein Bewegungsmittel(wert) (moving average) E für eine Anzahl aufeinanderfolgender Kurzzeit-Energiedaten E gemäß Fig. 2 auf die anhand von Fig. 1 noch zu beschreibende Weise berechnet und mit einer vorbestimmten oder vorgegebenen Größe ER zur Bestimmung der Zeitpunkte A1 und B1 gemäß Fig. 3 verglichen. Zum Zeitpunkt A1 wird das Bewegungsmittel E erstmals größer als die Vorgabegröße ER, während es zum Zeitpunkt B1 (erstmals) nach dem Zeitpunkt A1 kleiner wird als die Vorgabegröße ER. Der durch die Zeitpunkte A1 und B1 definierte oder begrenzte Abschnitt des Spracheingangs(signals) (input voice) kann als der zuverlässigste Abschnitt einer Sprachperiode angesehen werden. Der Zeitpunkt A1 wird als Ausgangspunkt für die Bestimmung der Dauer des Spracheingangssignals gewählt bzw. abgeschätzt, während der Zeitpunkt B1 als Endpunkt für diese Bestimmung benutzt wird.

Die Bestimmung des Bewegungsmittels der Sprachparameter bezüglich der Periode zwischen den gewählten bzw. geschätzten Anfangs- und Endpunkten des Spracheingangssiguals ist in folgender Hinsicht bedeutsam: Bekanntlieh stellen die Kurzzeit-Energiedaten einen vergleichsweise wirksamen Parameter für die Unterscheidung zwischen einer Sprachperiode und einer sprachfreien Periode dar. Wenn jedoch ein Spracheingangssignal erzeugt wird, bei dem das Umgebungs- bzw. Grundrauschen vergleichs-

JO weise groß ist, enthält es möglicherweise ein pulsierendes Rausch- bzw. Störsignal mit momentaner großer Energie. Ein derartiges Pulsieren des Rausch- bzw. Störsignals kann daher in dem Teil des Spracheingangssignals enthalten sein, der durch die Zeitpunkte Δ1 und B1 begrenzt ist, wenn die Energiedaten E zur Bestimmung der geschätzten Anfangs- und Endpunkte der Dauer des Spracheingangssignals herangezogen werden. Aus eben diesem Grund wird das Bewegungsmittel der Sprachparameter (bzw. der Kurzzeit-Energiedaten) berechnet, wodurch die im Spracheingangssignal enthaltenen pulsierenden Rauschbzw. Störsignale unterdrückt werden und demzufolge die graphische Darstellung des Bewegungsmittels gemäß Pig.3 erhalten wird. Bei Verwendung des Bewegungsmittels der auf die oben beschriebene Weise berechneten Sprachparameter wird es somit möglich, die Dauer eines Spracheingangssignals (input voice) unabhängig von pulsierenden Rausch- bzw. Störsignalen richtig zu bestimmen bzw. zu messen. Weiterhin wird ein Zeitpunkt M, zu dem die Kurzzeit-Energiedaten E während der Periode zwischen den Zeitpunkten A1 und B1 am größten sind, als ein Zeitpunkt bestimmt oder erfaßt, zu dem es am wahrscheinlichsten ist, daß er eine echte Sprachdauer überdeckt.

Es sind zwei sprachfreie Perioden Nu einer Dauer von z.B. 100 - 200 ms vorhanden, von denen die eine zu einem

Zeitpunkt Α2 beginnt und am Zeitpunkt A1 endet» während die andere am Zeitpunkt B1 beginnt und am Zeitpunkt B2 endet. Die zwischen den Zeitpunkten A2 und B2 liegende Periode ist die Histogramm-Berechnungsperiode. Jede sprachfreie Periode kann auf 100 - 200 ms gesetzt sein. Die Histogramm-Berechnungsperiode besteht daher aus der geschätzten sprachfreien Periode zwischen den Zeitpunkten A2 und A1» der geschätzten Sprachperiode zwischen den Zeitpunkten A1 und B1 sowie der geschätzten sprachfreien Perlode zwischen den Zeitpunkten B1 und B2. Die Sprachparameter bezüglich der Histogramm-Berechnungsperiode werden zur Berechnung und Aufstellung des Histogramms gemäß Pig.4 benutzt. Sodann wird ein Schwellenwert benutzt» um eine Anzahl von Kurzzeit-

!5 Energiedaten E entsprechend diesem Histogramm in zwei Klassen zu unterteilen. Genauer gesagt: die Energiedaten E werden in eine sprachfreie Klasse» in welcher die Energiedaten E kleiner sind als der Schwellenwert EO, und eine Sprachklasse unterteilt, in welcher die Energiedaten E größer sind als der Schwellenwert EO. Insbesondere wird eine Zwischenklassenvarianz «%, bestimmt» worauf ein optimaler Schwellenwert EO bestimmt wird» welcher die Zwischenklassenvarianz d-r, auf das

Jd

Maximum bringt. Entsprechend dem optimalen Schwellenwert EO und dem Histogramm der sprachfreien Klasse, in welcher E4 EO gilt, wird der Mittelwert EN der Energiedaten E im sprachfreien Bereich bestimmt. Zum Mittelwert EN der Energiedaten E wird zum Kompensieren von Schwankungen derselben eine vorbestimmte Größe hinzuaddiert, die Ihrerseits als richtiger bzw. zutreffender Schwellenwert EP zur Bestimmung der Dauer eines Spracheingangssignals benutzt wird.

Für die Gewinnung des optimalen Schwellenwerts EO zur Einteilung der Verteilung der Energiedaten E in eine

Sprachklasse und eine sprachfreie Klasse kann die Bezugsgröße vom Mindestwert der Energiedaten E auf deren Höchstwert variiert werden, wobei die Zwischenklassenvarianz eKg bestimmt wird. Sodann wird der optimale Schwellenwert EO bestimmt, bei dem die Zwischenklassenvarianz σ*« am größten wird. Dieses Vorgehen ist jedoch sehr kompliziert. Da die ⁰V,-E-Kennlinle nur einen Wendepunkt (inflection point) aufweist, kann dieser als der Höchstwert der Zwischenklassenvarianz <*g angesehen werden. Der Schwellenwert entsprechend der maximalen Zwischenklassenvarianz cf-g kann somit als optimaler Schwellenwert EO betrachtet werden.

Der optimale Schwellenwert EP kann mittels eines G-rauwert- bzw.-pegelhistogramms der Energiedaten E wie folgt erhalten werden:

1. Schritt: Teilen einer Gruppe von Energiedaten E in

zwei Klassen, nämlich Hintergruxidrauschenklasse C1 und Sprachklasse G2, unter Heran

ziehung einer Zwischenklassenvarianz als Bezugswert für die Bewertung jeder Klasse.

2. Schritt: Ableitung des Mittelwerts EN der Energiedaten E von Feldern, die innerhalb der

Hintergrundrauschenklaase C1 liegen.

3. Schritt: Hinzuaddieren einer vorbestimmten Spanne

α zum Mittelwert EN zwecks Ableitung des Schwellenwerts EP.

Die vorstehend genannten Schritte sind im folgenden im einzelnen erläutert.

Es sei angenommen, daß die Energiedaten E diskrete

Jf

Werte bzw. Größen (e-1) besitzen können: β = 1» 2, ..., L. Eine Tabelle H(e), welche ein Graupegelhistogramm der Energiedaten E der Größe (e-1) definiert, veranschaulicht die Zahl Ne von Feldern (frames), in welcher die Energiedaten E während einer Periode (zwischen den Zeitpunkten A2 und B2) dieselbe Größe besitzen. Die Beziehung von N und Ne (e = 1, 2, ..., L) ist dann folgende:

N ■ Z Ne /.χ

In obiger Gleichung bedeutet! N = ZaIiI der in der Periode zwischen den Zeitpunkten A2 und B2 vorhandenen Felder.

Zur Vereinfachung der Erläuterung wird das Graupegelhistogramm vorliegend als Histogramm angesehen» das

mit N (oder einer Wahrscheinlichkeitsdichte Pe) nor-20

malisiert ist, die sich bestimmt durch

L
Pe = Ne/N (Pe > O, Z Pe - 1)

e=l

Es sei angenommen, daß bei Verwendung einer Größe k als Schwellenwert/werte oder Größen der Energiedaten E in eine Hintergrundrauschenklasse C1, welche die Bnergiedaten der Größe S1 (=1,2, ..., k) enthält und eine Sprachklasse C2, welche die Energiedaten einer Größe S2 (= Kf1, K+2, ..., L) enthält, unterteilt werden. Die Wahrscheinlichkeit ω 1 für Klasse 1 sowie die Wahrscheinlichkeit ω2 für Klasse C2 bestimmen sich wie folgt:

«1 - Pr(Cl) » E Pe » ω(*) (3)

ecSl

ω2 - Pr(C2) * Σ Pe « 1 - u(k) (4)

ecS2

Der Erwarttingswert μ™ von β während der Periode zwischen den Zeitpunkten A2 und B2, der Erwartungswert μ-j von e für Klasse C1 und der Erwartungswert μ₂ von e für Klasse 02 bestimmen sich wie folgt:

μ_τ » Z e«Pe = U(L) (5)

e=l

15 ,

U₁ ■ Z e«Pr(elCl) * -4— Z e«Pe » μ(k)/ω(k.) eeSl ^ω1 eeSl

1 ^UT " ^u(k)

20 1

μ₂ = Z e«Pr(elC2) = -i- Z e«Pe =

eeS2 S2

(7)

darin bedeutet:

u(k) = Σ e-Pe '··· ⁽⁸⁾

30 _e=1

Die Varianz e*_B zwischen den Klassen 01 und 02 bestimmt sich wie folgt:

35 σ_Β

»Κ Ui - U_T)² + ω2(μ₂ "

Vie sich aus Gleichung (9) ergibt, sind die Klassen G1 und C2 umfso deutlicher voneinander getrennt, je größer die Zwischenklaasenvarianz e^ ist. Bei Einsetzen von Gleichungen (3) bis (7) in Gleichung (9) ergibt sich folgende Gleichung:

- μ(Κ)]²

Zur Bestimmung des optimalen Schwellenwerts für die Trennung der Hintergrundrauschenklasse 01 von der Sprachklasse 02 ist es nötig, die Zwischenklassenvarianz d- für jede Größe zu bewerten bzw. auszuwerten, die k besitzen kann, d.h. k=1, k=2, ..., k=L. Bisher wurde das Graupegelhistogramm als normalisiertes Histogramm angesehen. In der Praxis zeigt jedoch Tabelle H(e), wie oft Energiedaten derselben Größe e erhalten werden. Infolgedessen muß Gleichung (10) wie folgt geändert werden:

[y_T«N-ü)(k) - Nf«p(k)] ²

a_B ²(k) (11)

N«ü)(k) [N - N'ü)(k)] 25

darin bedeuten:

L ,L

μ_τ = Σ e pe = -^- Σ e«Ne (12)

e=l e=l

N«ü>(k) = N · Σ Pe - Σ Ne (13)

eeSl e=l

k k
N«u(k) » N · Z e»Pe « Z e«Ne (14)

Λζ

Durch Einsetzen von Gleichungen (12), (13) und (H) in Gleichung (11) ergibt sich:

k k
^ [y-T · Ε,β'Νβ - Σ,β'Νθ]²

o_B ²(k) = — — (15)

k k
( Γ Ne)[N - ( I Ne)]

Die Varianz rfr, wird für jede Größe von k, d.h. k=1,
k=2, ..., k=L, ausgewertet. Die Gröi3e von k (k=eß),
bei welcher die Varianz rf-g den größten Wert besitzt,
wird als Schwellenwert zur Unterteilung der Energie-

daten E in die Hintergrundrauschenklasse C1 und die
Sprachklasse C2 benutzt.

Der Mittelwert der Energiedaten E in der Hintergrund« rauschenklasse C1> d.h. der Mittelwert Ejt, bestimmt
sich wie folgt:

^e0 ^e0
E_n = u(e_o)/w(e_o) = Σ e-Ne/ Σ Ne ·"*

e=l e=l

Ersichtlicherweise sind tatsächlich ein oder mehrere
Felder des Rausch- bzw. Störsignals mit einem Energiepegel von über EN als dem Mittelwert der Energiedaten E in der Hintergrundrauschenklasse C1 vorhanden. Wenn die Größe EN unmittelbar als Schwellenwert EP zur Bestimmung der Sprachperiode der zweiten Stufe benutzt
wird, tritt ein Additionsfehler auf, wenn die aufeinanderfolgenden oder folgenden Felder Energiedaten enthalten, die größer sind als EN. Aus eben diesem Grund

wird eine vorbestimmte Größe α zu EN hinzugefügt, um auf diese Weise den Schwellenwert EP zu erhalten. Der Schwellenwert EP läßt sich daher wie folgt ausdrücken:

EP = EN + α (17)

Der Schwellenwert EP kann wirksam auf die im folgenden ■beschriebene Weise erhalten bzw. abgeleitet werden.

Schritt A: Auslesen von Daten aus der Histogrammtabelle H(e) (e=1» 2, ..., L) zur Berechnung von B(k) und C(k) für jede Größe, die e besitzen kann, und Einschreiben von B(k) und C(k) in Arbeitstabellen, wobei sich

B(k) und C(k) wie folgt bestimmen:

B(k) - Σ H(e) = B(k-l) + H(k) ··· (18) e=l

C(k) = E e-H(e) = C(k-l) + k-H(k) ... (19) e=l

Schritt B: Berechnung von μ_τ nach folgender Gleichung:

^e*^{Ne =} C(L)/B(L)

Schritt C: Benutzung der Größen B(k) und C(k) zum Umschreiben von Gleichung (15) wie folgt:

U_TB(k) - C(k))²

a_B ²(k) = .._o (21)

B(k)(N - B(Ic))

Schritt D:

Al-

Auswertung oder Bestimmung von β"·« nach Gleichung (21) unter Heranziehung der in die Arbeitetabellen eingeschriebenen Größen, um dabei die Größe von k (~^θπ^ ^ZVL bestimmen, bei welcher die Varianz tf_ß am größten wird. Wenn aV, dieselbe maximale Größe wie im Fall von (e_m-e-j )/2 als Größe e

k * e_m besitzt,

benutzen.

Berechnung des Mittelwerts EN des Hintergrundrauschens nach folgender Gleichung:

EN = C(e_o)/B(e_o)

(22)

Schritt E:

Berechnung des Schwellenwerts EP nach folgender Gleichung:

EP = EN + α.

Der Ausgangspunkt A und der Endpunkt B eines Spracheingangssignals werden auf die nachstehend zu erläuternde Weise bestimmt. Zur Bestimmung oder Erfassung des Ausgangspunkts A wird die Zeltfolge der Energiedaten E in entgegengesetzter Richtung vom Zeitpunkt M aus untersucht, wobei der Zeitpunkt A, zu dem die Energiedaten E unter den Schwellenwert EP fallen, erfaßt wird. Weiterhin wird untersucht, ob die Energiedaten E für eine vorbestimmte Periode oder Zeitspanne N1 kleiner bleiben als der Schwellenwert EP oderfaicht. Die Periode N1 beträgt z.B„ etwa 200 - 250 ms. Wenn die Energiedaten E während der Periode N1 unter dem Schwellenwert EP bleiben, wird der Zeitpunkt A als Ausgangspunkt A betrachtet. Auch wenn in diesem Fall die Energiedaten größer werden als der Schwellenwert EP und während einer Zeitspanne, die kürzer 1st als die vorbeatimmte

4a-

bzw. Vorgabezeitspanne N2, über dem Schwellenwert bleiben, wird vorausgesetzt, daß das Spracheingangssignal pulsierende Rausch- bzw. Störsignalkomponenten enthält» und der Zeitpunkt Ϊ wird als Ausgangspunkt A für die Sprachelngangssignaldauer angesehen.

Wenn die Energiedaten E nach einem Abfallen unter den Schwellenwert EP letzteren übersteigen und während einer längeren Zeitspanne als der Periode N2 über dem

!0 Schwellenwert EP bleiben, wird vorausgesetzt, daß innerhalb derselben Sprachdauer eine weitere Sprachperiode besteht. Der Zeitpunkt, zu dem die Energiedaten E kleiner werden als der Schwellenwert EP wird dann als Zeitpunkt J. angesehen, wobei eine sprachfreie Periode N1 erfaßt wird. Dieser Vorgang wird wiederholt, bis der Ausgangspunkt A des Spracheingangssignals erfaßt worden ist.

Der Endpunkt B des Spracheingangssignals wird auf ähnliehe Weise ermittelt. In diesem Pail wird die Zeitfolge der Energiedaten E in Vorwärtsrichtung vom Zeitpunkt M aus untersucht.

Fig. 1 veranschaulicht den Schaltungsaufbau einer Sprachdauer-Meßvorrichtung gemäß der Erfindung.

Letztere umfaßt eine elektroakustische Wandlervorrichtung 2, etwa ein breitbandiges Mikrophon zur Umwandlung eines Sprachsignals bzw. Lauts in ein elektrisches Signal sowie 16 Bandpassfilter PI - P16 zur Abnähme eines Sprachsignals vom Mikrophon 2 über einen Verstärker 4. Die Bandpassfilter P1 - P16 besitzen unterschiedliche Frequenzbandbreiten, die fortlaufend von einem Niederfrequenzbereich zu einem Hochfrequenzbereich abgestuft sind. Die Ausgangssignale der Bandpassfilter werden einem Analogmultiplexer 6 und einer

Addierstufe 8 zugeführt. Dae Ausgangssignal der Addierstufe 8 wird als 17. Eingangssignal dem Analogmultiplexer 6 eingegeben. Letzterer empfängt somit in paralleler Weise Kurzzeit-Energiesignale in den 16 Frequenzbandbreiten im Bereich vom Nieder- bis zum Hochfrequenzbereich sowie Kurzzeit-Energiesignale des gesamten Spracheingangssignals .

Die Ausgangssignale für jedes Feld vom Analogmultiplexer 6 werden der Reihe nach einem Analog/Digital- bzw. A/D-Wandler 10 zugeführt, in entsprechende Kurzzeit-Energiedaten E1 - E17 umgesetzt und dann einem Pufferspeicher 12, einem Multiplexer 14 und einem.UND-Glied 16 zugeführt. Die Ausgangsdaten des UND-Glieds werden beispielsweise einem achtatufigen Schieberegister 18 zugeliefert. In den betreffenden Stufen des Schieberegisters 18 werden die Ausgangsdaten an einer Addierstufe 20 addiert» worauf das Ausgangssignal der Addierstufe 20 durch einen 1/8-Teiler 22 in Teile von je 1/8 dividiert wird. Die Ausgangsdaten des 1/8-Teilers 22 werden durch einen Komparator 24 mit einem Bezugswert ER verglichen. Die Ausgangsklemme des Komparators 24 ist über UND-Glieder 30 und 32 mit den Hochzählklemmen eines 8-Stufen-Zählers (8-scale counter) 26 bzw. eines 4-Stufen-Zählers 28 sowie über einen Umsetzer 36 und ein UND-Glied 38 mit der Rücksetzklemme des 4-Stufen-Zählers 28 und der Hochzählklemme eines 25-Stufen-Zählers 34 verbunden. Die Ausgangsklemme des 4-Stufen-Zählers 28 ist an die Rücksetzklemme des 25-Stufen-Zählers 34 angeschlossen, während die Ausgangsklemmen des 8- und des 25-Stufen-Zählers 26 bzw. 34 mit den Setz- bzw. Rücksetzklemmen eines Flip-Flops 40 verbunden sind. Die Ausgangsklemme des Flip-Flops 40 ist mit einer Zentraleinheit (CPU) 42 und einem Adressenregister 44 verbunden. Die Zentraleinheit 42

enthält einen Randomspeicher mit Pufferspeicherbereichen 42-1 - 42-3 zur Speicherung von Histogrammdaten, Energiedaten und Adressendaten sowie einem Arbeitsspeicherbereich 42-4 zur Speicherung von Berechnungsdaten.

Die Schaltung gemäß Fig. 1 enthält weiterhin einen Adressenzähler 46 zum Zählen der Ausgangsimpulse einer Zeitsteuerschaltung 47 sowie einen Wähler 48, welcher die Adressendaten von der Zentraleinheit 42 und vom Adressenzähler 46 selektiv einer Adressenbezeichnungsschaltung 50 zuführt, die ihrerseits eine Adresse des Pufferspeichers 12 bezeichnet. Die Zeitsteuerschaltung 47 erzeugt in jedem Feld 17 Impulse von 10 ms Dauer.

Diese 17 Impulse treten in einer Periode von z.B.

1 ms auf, so daß in jedem Feld eine Freiperiode von 9 ms vorhanden sein kann. Der Adressenzähler 46 erzeugt Adressendaten entsprechend den Inhalten sowie einen Signalimpuls C17» sooft die 17 Impulse jedes Felds gezählt werden bzw. sind.

Im folgenden ist die Arbeitsweise der Sprachdauer-Meßvorrichtung gemäß Fig. 1 erläutert.

Zunächst werden die Speicherbereiche 42-1 und 42-4 freigemacht und die erste Adresse für die Speicherbereiche 42-2 und 42-3 bezeichnet.

Ein Sprachsignal oder Laut mit der Energieverteilung gemäß Fig. 2 wird dem breitbandigen Mikrophon 2 zugeführt, dae daraufhin ein entsprechendes elektrisches Sprach- bzw. Lautsignal zum Verstärker 4 liefert. Das Ausgangssignal des Verstärkers 4 wird den Bandpassfiltern F1 - F16 zugeführt, welche das Eingangssignal glätten und die Übertragung vom Signalkomponenten mit

Frequenzen in den jeweils zugewiesenen Frequenzbandbreiten zum Analogmultiplexer 6 und zur Addierstufe zulassen. Das Ausgangssignal der Addierstufe 8 wird ebenfalls dem Analogmultiplexer 6 zugeführt. In Abhängigkeit von einem Ausgangsimpuls von der Zeitsteuerschaltung 47 erzeugt der Analogmultiplexer 6 in einer Zeltfolge Kurzzeit-Energiesignale entsprechend den Ausgangssignalen der Bandpassfilter P1 - P16 und der Addierstufe 8 in dieser Reihenfolge. Die Kurzzelt-Energiesignale werden sequentiell dem A/D-Wandler zugeführt, der seinerseits daraufhin entsprechende digitale Energiedaten E1 - E17 als Sprachparameter zum Pufferspeicher 12, zum Multiplexer 14 und zum UND-Glied 16 liefert. Beim vorliegenden Ausführungsbeispiel sind die Energiedaten E17 auf eine ganze Zahl im Bereich von 0 bis (L-1) gesetzt.

Da im Anfangszustand der Wähler 48 so gesetzt ist, «laß Adressendaten vom Adressenzähler 46 zur Adressenbe-Zeichnungsschaltung 50 geliefert werden können, kann diese den Adressenplatz des Pufferspeichers 12 nach Maßgabe der Adressendaten vom Adressenzähler 46 bezeichnen, und der Pufferspeicher 12 kann die Energiedaten vom A/D-Wandler 10 in den bezeichneten Adressenplatzen speichern. Das UND-Glied 16 wird aktiviert bzw. durchgeschaltet» sooft der Adressenzähler 46 einen Signalimpuls C17 liefert, d.h. sooft der letzte Impuls in jedem Feld von der Zeitsteuerschaltung 47 erzeugt wird. Infolgedessen werden die Adressendaten E17 entsprechend dem Ausgangssignal von der Addierstufe 8 über das UND-Glied 16 zum 8-stufigen Schieberegister geleitet. Das Schieberegister 18 wird in Abhängigkeit von einem Ausgangsimpuls von der Zeitsteuerschaltung angesteuert, um die erzeugten Energiedaten E173 E17(j+7) in aufeinanderfolgende Felder zu verschieben.

Die im Schieberegister 18 gespeicherten Energiedaten E17j - E17(j+7) werden in der Addierstufe 20 zusammenaddiert und im 1/8-Teiler 22 durch 8 dividiert, um gemäß Pig. 3 ein Bewegungsmittel Ej für die Energiedaten E17j - E17(j+7) zu erzeugen. Wie aus Fig. 3 deutlich hervorgeht, werden pulsierende Rausch- bzw. Störsignale (pulse noise), die in der Energieverteilung gemäß Pig. 2 enthalten sind, durch Festlegung des Bewegungsmittels beseitigt. Das Bewegungsmittel Sj wird mit der Bezugsgröße ER im Komparator verglichen, der ein hochpegeliges Ausgangssignal erzeugt, wenn festgestellt wird, daß das Bewegungsmittel Ej gleich groß oder größer wird als die Bezugsgröße ER. Solange das Bewegungsmittel Ej kleiner ist als die Bezugsgröße ER, ist das Flip-Flop 40 rückgesetzt, während alle UND-Glieder 30, 32 und 38 deaktiviert bzw. gesperrt bleiben.

Wenn festgestellt wird, daß das Bewegungsmittel Ej vom 1/8-Ieiler 22 die Bezugsgröße ER erreicht, d.h. wenn der Ausgangspunkt A1 gemäß Fig. 3 erreicht ist, liefert der Komparator 24 ein hochpegeliges Ausgangssignal zum Aktivieren bzw. Durchschalten des UND-Glieds 3O₀ letzteres läßt sodann einen vom Adressenzähler 4 6 gelieferten Signalimpuls C17 zum 8-Stufen-Zähler 26 durch. Wenn dieser Zähler 26 acht Impulse gezählt hat, d.h. wenn der Zeitpunkt A11 erreicht ist, liefert er ein Ausgangssignal zum Setzen des Flip-Flops 40, das seinerseits daraufhin ein hochpegeliges Ausgangssignal SPS liefert. Letzteres wird als Verriegelungssignal zum Adressenregister 44 übertragen, so daß dieses eine Adressendateneinheit speichern kann, die von der Adressenbezeichnungsschaltung 50 geliefert wird und einem Zeitpunkt A11 gemäß Fig. 3 entspricht. In Abhängigkeit vom hochpegeligen Ausgangssignal SPS vom Flip-Flop 40 liefert die Zentraleinheit 42 ein hochpege-

llges Ausgangssignal zum Multiplexer 14 und zum Wähler 48» so daß die Energiedaten vom Pufferregister 12 zur Zentraleinheit 42 über den Multiplexer 14 übertragen und Adressendaten von der Zentraleinheit 42 über den Wähler 48 zur Adressenbezeichnungsschaltung geliefert werden können. Zu diesem Zeitpunkt berechnet die Zentraleinheit 42 den Adressenplatz für einen (Zeit-)-Punkt A2 auf der Grundlage der im Pufferregister 44 gespeicherten Adressendaten. Sodann speichert die Zentraleinheit 42 auf noch zu beschreibende Weise im Speicherbereich 42-1 Histogrammdaten für zwischen den Punkten A11 und A2 erzeugte Energiedaten. Diese Operation kann in einem Feld stattfinden» d.h. in einer Freiperiode zwischen einem Impuls C17 im einen PeId und einem Impuls C1 im nächsten Feld, und nach dieser Operation liefert die Zentraleinheit 42 ein Ausgangssignal niedrigen Pegels zum Multiplexer 14 und zum Wähler 48, so daß die Zentraleinheit 42 Energiedaten vom A/D-Wandler 10 über den Multiplexer 14 abnehmen kann und die Adressenbezeichnungsschaltung über den Wähler 48 Adressendaten vom Adressenzähler 46 empfängt. Sooft in jedem folgenden Feld Energiedaten vom A/D-Wandler 10 geliefert werden, liefert und speichert die Zentraleinheit 42 Histogrammdaten im Speicherbereich 42-1.

Auf dieselbe Weise, wie vorstehend beschrieben, werden Kurzzeit-Energiedaten entsprechend dem Sprachsignal gemäß Fig. 2 aufeinanderfolgend im Pufferspeicher 12 abgespeichert. Wenn festgestellt wird, daß das Bewegungsmittel Ei kleiner wird als der Bezugswert ER, d.h. daß dieses Bewegungsmittel einen geschätzten oder gewählten Endpunkt B1 gemäß Fig. 3 passiert, erzeugt der Komparator 24 ein niedrigpegeliges Ausgangssignal sum Deaktivieren bzw. Sperren der UND-Glieder 30 und 32 und zum

Aktivieren bzw. Durchschalten des UND-Glieds 38. Infolgedessen beginnt der 25-Stufen-Zähler 34 die über das UND-Glied 38 zugeführten Impulse C17 zu zählen. Wenn 25 Impulse gezählt sind, d.h. wenn ein Punkt B2 erreicht ist, liefert dieser Zähler 34 ein Ausgangssignal zur Anzeige, daß das Sprachintervall vorläufig durch die Punkte A1 und B1 bestimmt worden ist. Das Ausgangssignal des 25-Stufen-Zählers 34 wird zur Zentraleinheit 42 und zum Flip-Flop 40 zum Rücksetzen des letzteren übertragen. Falls jedoch nach der Erfassung des Punkts B1 ein Bewegungsmittel festgestellt wird, das größer ist als der Bezugswert ER, wird die Zähloperation des 25-Stufen-Zählers 34 beendet, worauf der 4-Stufen-Zähler 28 zu zählen beginnt. Wenn in diesem Fall ein Ausgangssignal des Komparators 24 während einer die Vorgabeperiode übersteigenden Zeitspanne auf dem hohen Pegel bleibt, fährt der 4-Stufen-Zähler 28 mit der Zählung der Impulse C17 fort. Nach dem Zählen von vier Impulsen C17 erzeugt der 4-Stufen-Zähler 28 ein Ausgangssignal zur Anzeige, daß im selben Sprachintervall ein weiterer Sprachabschnitt auftritt, worauf der 25-Stufen-Zähler 34 rückgesetzt wird. Danach wird dieselbe Arbeitsweise, wie sie vorstehend beschrieben ist, kontinuierlich durchgeführt, um einen vorläufigen Endpunkt des Sprachintervalls zu erfassen. Falls jedoch das Ausgangssignal des Komparators 24 nur während einer kurzen Zeit auf einem hohen Pegel bleibt und der 4-Stufen-Zähler 28 seinen Zahlbetrieb vor dem Zählen von vier Impulsen beendet, wird dieser Zähler 28 rückgesetzt, während gleichzeitig der 25-Stufen-Zähler 34 zu zählen beginnt und ein Ausgangssignal liefert, wenn er einen Inhalt von "25" erreicht hat.

Nach Maßgabe eines Ausgangssignals vom 25-Stufen-Zähler 34 beendet die Zentraleinheit (CPU) 42 die Bildung der

Histogrammdaten, und sie bestimmt auf noch, zu beschreibende Weise die endgültigen Anfangs- und Endpunkte A bzw. B auf der Grundlage der Histogrammdaten.

Im folgenden ist anhand yon Pig. 5 der Ablauf bei der Bildung oder Formung eines Histogramms durch die Zentraleinheit 42 erläutert. Die Pufferspeicherbereiche 42-1 - 42-3 (Pig. 1) werden durch Setzen der die Feldzahl angebenden Größe i auf 1» der Größe EMX auf 0 und der Größe H(e) auf 0 initialisiert. Die Größe e ist eine ganze Zahl von 1 bis Iu Nach der Initialisierung wird geprüft» ob das Flip-Flop 40 ein Ausgangssignal SPS liefert. Falls ein Ausgangssignal SPS hohen Pegels festgestellt wird» wird eine Adressendateneinheit ADR1 ausgelesen, die zum Zeitpunkt A11 zur Bezeichnung des Adressenplatzes für eine 17. Energiedateneinheit E17 eines Feld geliefert bzw. erzeugt und im Adressenregister 44 gespeichert wird, während Adressendaten £DR2 und ADR3 auf der Grundlage der Adressendateneinheit ADR1 abgeleitet und jeweils in den ersten Adresaenplatz ADR1 des Adressenpufferspeicherbereichs 42-2 und eines nicht dargestellten ADR-Registers eingeschrieben werden. Die Adressendateneinheit ADR2 gibt die Adressenposition einer ersten Energiedateneinheit E1 in dem Feld an» welches die zum Zeitpunkt A1 erzeugte 17.Bnergiedateneinheit E17 enthält. Die Adr^ssendateneinheit ADR 3 gibt die Adressenposition einer ersten Energiedateneinheit E1 in dem Feld an, welches die zum Zeitpunkt AZ erzeugte 17. Energiedateneinheit E17 enthält.

Die Adressendaten ADR2 und ADR 3 werden jeweils wie folgt gewonnen bzw. abgeleitet:

ADR2 * ADRl - 16 (23)

ADR3 » ADRl - {(8 + 25) χ 17 + 16} (24)

IG

Die im ADR-Register gespeicherte Adressendateneinheit wird in einem Schritt STP1 in den Adressentafelplatz ADR(I) des AdressenpufferSpeicherbereichs 42-3 eingeschrieben. Da die Adressendateneinheit ADR3 die erste Einheit ist, wird sie in den Adressentafelplatz ADR(I) eingeschrieben. Sodann wird zu den im ADR-Register gespeicherten Adressendaten die Größe 16 hinzuaddiert» und das Ergebnis wird in den zweiten Adressenplatz ADL2 des Speicherbereichs 42-3 eingeschrieben. Im

IQ zweiten Adressenplatz ADL2 kann somit die Adressendateneinheit erhalten werden, welche die Adressenposition für die Energiedateneinheit E17 im selben Feld angibt. Hierauf wird geprüft, ob die im zweiten Adressenplatz des Speicherbereichs 42-3 gespeicherte Adressendateneinheit größer ist als die Speicherkapazität MC des Pufferspeichers 12. Ist dies nicht der Fall, so liefert die Zentraleinheit (CPU) 42 ein Wählsignal SL hohen Pegels, und sie überträgt gleichzeitig die im zweiten Adressenplatz des Speicherbereichs 42-3 gespeicherten Adressendaten zum Adreesenregister 44. Wenn andererseits festgestellt wird, daß die Adressendateneinheit größer ist als die Speicherkapazität MC, wird letztere von den Adressendaten subtrahiert, und das Ergebnis wird in den zweiten Adressenplatz ADL2 des Speicherbereichs 42-3 eingeschrieben, worauf dieselbe Operation wiederholt wird. Danach werden die Energiedaten E17 nach Maßgabe der im Adressenregister 44 gespeicherten Adressendaten aus dem Pufferspeicher 12 ausgelesen. Das Wählsignal SI wird hierauf auf eine niedrige Größe gesetzt, und die aus dem Pufferspeicher 12 ausgelesenen Energiedaten E17 werden in den Energietafelplatz TE(I) des Pufferspeicherbereichs 42-2 eingeschrieben. Den im Energietafel- bzw. -tabellenplatz TE(i) gespeicherten Energiedaten E17 wird die Größe 1 hinzuaddiert, um eine Größe e zu erhalten, die als

Adressendateneinheit zur Bezeichnung eines Adressenplatzes des Histogramm-Pufferspeicherbereichs 42-1 benutzt wird. Die Zentraleinheit 42 erhöht die in einem "bezeichneten Adressenplatz

enthaltenen Histogrammdaten H(e) um die Größe (e).

Als nächstes wird geprüft, ob die im Energietafeiplatz TE(i) gespeicherten Energiedaten E17 größer sind als der Inhalt eines nicht dargestellten EMX-Registers.

Wenn diese Daten nicht größer sind als der genannte Inhalt, wird die Größe im i-Register erhöht, während zu den Adressendaten im ADR-Register die Größe 17 hinzuaddiert wird, worauf das Additionsergebnis in das ADR-Register eingeschrieben wird. Auf diese Weise kann die Adressenposition einer ersten Energiedateneinheit E1 im nächsten Feld bezeichnet werden. Wenn dagegen festgestellt wird, daß die Energiedateneinheit E17 größer ist als der Inhalt des EMX-Registers> werden die nunmehr erhaltenen Größen i und E17 im M-Register bzw. im EMX-Register abgespeichert. Sodann wird dieselbe Operation durchgeführt. Anschließend wird geprüft, ob die im ADR-Register enthaltene Adressendateneinheit größer ist als die Adressendateneinheit ADR2. Ist dies nicht der Fall, so wird der Schritt STP1 erneut durchgeführt. Falls dagegen festgestellt wird, daß die Adresseneinbeit im ADR-Register größer ist bzw. wird als die Adressendateneinheit ADR2, d.h. wenn festgestellt wird, daß die Bildung des Histogramms für die Energiedateneinheit E17 zwischen den Zeitpunkten Ai1 und A2 abgeschlossen ist, so wird in einem Schritt STP2 geprüft, ob der 25-Stufen-Zähler 34 ein hochpegeliges Ausgangssignal EPS liefert. Ist dies der Fall, so wird der Vorgang der Bildung des Histogramms beendet, worauf der nächste Vorgang zur Bestimmung des Schwellenwerts EP eingeleitet wird.

Palis andererseits das hochpegellge Ausgangesignal nicht geliefert wird, werden Energiedaten E17 vom A/D-Wandler 10 abgenommen, wenn im nachfolgenden Feld ein Impuls C17 geliefert wird. Die Adressendateneinheit im ADR-Register wird sodann in den Adressentafelplatz ADR(I) eingeschrieben, während die nunmehr ausgelesene Energiedateneinheit E17 in die Energietafel bzw. -tabelle TE(i) eingeschrieben und den nunmehr erhaltenen Energiedaten E17 die Größe 1 zur Lieferung einer neuen Größe e hinzuaddiert wird. Die in einem durch die neue Größe e bezeichneten Adressenplatz enthaltenen Histogrammdaten H(e) werden um 1 erhöht.

Als nächstes wird geprüft, ob die neu ermittelte Energiedateneinheit E17 größer ist als der Inhalt im EMX-Register. Ist dies nicht der Fall» so werden die Größe i um 1 erhöht und die Größe 17 zum Inhalt des ADR-Registers hinzuaddiert, wobei das Ergebnis im ADR-Register gespeichert und sodann der Schritt STP2 erneut durchgeführt wird. Falls andererseits die neu ermittelte Energiedateneinheit E17 größer ist als der Inhalt des EMX-Registers, werden die Größen i und E17 in das M- bzw. das EMX-Register eingeschrieben. Danach wird dieselbe Operation (erneut) durchgeführt.

Nach erfolgter Bildung des Histogramms werden die Maximum-Energiedaten E17 im EMX-Register abgespeichert, während die Größe i, welche die die Maximum-Energiedaten E17 enthaltende Feldzahl angibt, im M-Register gespeichert wird, die Adressendaten zwischen den Zeitpunkten A2 und B2 in den Adressentafelplätzen ADR(I) bis ADR(N) des Speicherbereichs 42-3 gespeichert werden, die Energiedaten E17 zwischen den Zeitpunkten A2 und B2 in den Energietafelplätzen TE(1) bis TE(N) abgespeichert werden und die Histogrammdaten H(1) bis

H(L) in erster bis L-tar Adressenposition im Speicherbereich 42-1 gespeichert werden. Wenn eine Zahl X von Energiedaten E17 dieselbe Größe E(S) besitzen, werden die Hi31οgrammdaten für X in der S-ten Adressenposition des Speicherbereichs 42-1 abgespeichert.

Sodann können die Histogrammdaten H(e) entsprechend der graphischen Darstellung gemäß Pig. 4 im Speicherbereich 42-1 erhalten bzw. gewonnen werden.

Im folgenden ist anhand von Pig. 6 das Verfahren zur Bestimmung des Schwellenwerts EP erläutert. Zunächst werden die Histogrammdaten H(1) zu Registern B(1) und C(1) des Arbeitsspeicherbereichs 42-4 übertragen. Die Daten B(2) - B(L) und C(2) - C(L) werden mittels der Gleichungen (18) und (19) und durch sequentielles Erhöhen der Größe von k berechnet, wobei die Daten B(2) - B(L) in nicht dargestellten Registern B(2) B(L) des Arbeitsspeicherbereichs 42-4 und die Daten C(2) - C(L) in entsprechenden, nicht dargestellten Registern C(2) - C(L) des Arbeitsspeicherbereichs 42-4 abgespeichert werden. In diesem Pail geben die Daten B(L) die Zahl N der Felder (frames) zwischen den Zeitpunkten A2 und B2 an. Sodann wird nach Gleichung (20) die Größe μ™ berechnet und in einem entsprechenden Register abgespeichert.

Als nächstes werden nicht dargestellte Register SGO, DSO und DPO im Speicherbereich 42-4 freigemacht, und k wird auf 1 gesetzt. Hierauf wird im Schritt STP3 geprüft, ob die Histogrammdateneinheit H(k) gleich 0 ist. Im positiven Pail wird die Dateneinheit SGO in einem SGN-Register gesetzt. Sodann werden Daten DSN durch subtrahieren der Daten SGO von den Daten SGN berechnet und in einem DSN-Register gespeichert, während die Daten SGN im SGO-Reglster gesetzt bzw. in die

3>ο

see eingegeben werden. Wenn andererseits die Histogrammdateneinheit H(k) nicht gleich 0 ist» wird nach Gleichung (21) «"_B (k) berechnet und im SGN-Register gesetzt» worauf dieselbe Operation (erneut) durchgeführt wird. Anschließend wird geprüft, ob die Dateneinheit DSN gleich 0 ist oder nicht. Im positiven Pail wird in einem Schritt STP4 geprüft, ob k kleiner ist als L. Ist dies der EaIl, so werden k um 1 erhöht und der Schritt STP3 erneut durchgeführt. Im negativen Fall wird geprüft, ob die Dateneinheit DSN positiv ist oder nicht. Ist dies der Fall, so wird die Dateneinheit DSN im DSO-Register gesetzt bzw. in dieses eingegeben, und die verwendete Größe k wird in einem Schritt STP5 im DPO-Register gesetzt. Danach wird der Schritt STP4 erneut durchgeführt. Wenn es sich zeigt, daß die Dateneinheit DSN nicht positiv ist, wird geprüft, ob die Dateneinheit DSO positiv ist oder nicht. Im negativen Fall wird der Schritt STP5 erneut durchgeführt. Falls dagegen die Dateneinheit DSO als positiv festgestellt wird, werden die Größe k zur Dateneinheit DPO hinzuaddiert, das Additionsergebnis durch 2 dividiert und ein integraler Teil des Divisionsergebnisses als (Größe) βφ benutzt, bei welcher aL die maximale Größe gemäß Fig. 4 besitzt. Danach wird der Durchschnitt oder Mittelwert EN der Energiedaten in der Hintergrundrauschenklasse C1 nach Gleichung (22) berechnet und im Register EN abgespeichert. Der Mittelwert EN wird zur Bildung eines Schwellenwerts EP einer Konstante α hinzuaddiert. Wenn andererseits im Schritt STP4 festgestellt wird, daß k gleich L ist, d.h. wenn festgestellt wird, daß eine zweckmäßige Größe von k, bei welcher rfg den Höchstwert annimmt, nicht bestimmt wird, wird eine Konstante EC als Schwellenwert EP benutzt.

Im folgenden ist das Ablaufdiagramm gemäß Fig. 7A und 7B zur Bestimmung der echten Sprachdauer erläutert.

Zunächst werden SCNT- und NCNT-Zählregister sowie ein SW-Register im Arbeitsspeicherbereich 42-4 freigemacht und Adressendaten im M-Register in das i-Register gesetzt bzw. eingegeben. Wenn sodann in einem Schritt STP6 festgestellt wird, daß die SW-Dateneinheit auf 0 gesetzt ist, wird in einem Schritt STP7 geprüft, ob die Energiedateneinheit im Energietafelplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies nicht der Fall, so wird die Größe i um 1 verringert, und der Schritt STP6 wird erneut durchgeführt. Diese Operation wird wiederholt, bis die Energiedateneinheit im Energietafel- bzw. -tabellenplatz TE(i) im Schritt STP7 als kleiner als der Schwellenwert EP festgestellt wird, d.h. bis ein Zeitpunkt A gemäß Fig. 2 erreicht ist. Wenn im Schritt STP7 festgestellt wird, daß die Energiedateneinheit im Energietafelplatz TE(i) kleiner ist als der Schwellenwert EP, wird die Größe 1 in den Registern SCNT und SW gesetzt, während die Größe i um 1 verringert wird. Danach wird der Schritt STP6 wiederholt. Wenn im Schritt STP6 festgestellt wird, daß die Dateneinheit SW auf "1" gesetzt ist, wird in einem Schritt STP8 geprüft, ob die Energiedateneinheit im Energietafelplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies der Fall, so wird die Größe 1 zur Summe aus den Daten SCNT und NCNT hinzuaddiert, und das Additionsergebnis wird im Register SCNT gespeichert, worauf das Register NCNT freigemacht wird. In einem Schritt STP9 wird geprüft, ob die Dateneinheit SCNT gleich groß oder größer ist als eine vorgegebene Größe bzw. eine Vorgabegröße NS, die z.B. 25 beträgt. Ist die Dateneinheit SCNT kleiner als die Größe NS, so wird die Größe i in einem Schritt STP10 um 1 verringert bzw. erniedrigt. Wenn die Größe i als

gleich, groß oder größer als 1 festgestellt wird, wird sodann der Schritt STP6 erneut durchgeführt, während dann, wenn die Größe i kleiner ist als 1, der Zeitpunkt A als der echte Ausgangspunkt festgestellt oder bestimmt und die Größe i auf 1 gesetzt werden. In einem Schritt STP11 wird sodann die Größe i zur Dateneinheit SCNT hinzuaddiert, und das Additionsergebnis wird in einem Register STAP als den Zeitpunkt A gemäß Fig. 2 angebende Dateneinheit abgespeichert. Der Schritt STP11 wird auch dann durchgeführt, wenn die Dateneinheit SCNT im Schritt STP9 als der Größe NS gleich oder diese übersteigend fesogestelli wird.

Wenn im Schritt STP8 festgestellt wird, daß die Energiedateneinheit im Energietafel- bzw. -tabellenplatz TE(i) nicht kleiner ist als der Schwellenwert EP, wird die Dateneinheit NCNT um 1 erhöht, worauf geprüft wird, ob die Dateneinheit NCNT gleich groß oder größer ist als eine Vorgabegröße NU, die beispielsweise 4 beträgt. Wenn die Dateneinheit kleiner 1st als die Vorgabegröße, wird der Schritt STP10 ausgeführt. Wenn dagegen festgestellt wird, daß die genannte Dateneinheit der Vorgabegröße gleich oder größer als diese ist, d.h. wenn ein weiterer Sprachabschnitt festgestellt wird, werden die Zählregister NCNT und SCNT 3owie das Register SW sämtlich freigemacht, um dadurch zu bestimmen, daß der Zeitpunkt A nicht als echter Anfangszeitpunkt anzusehen ist; sodann wird der Schritt STP10 ausgeführt.

Nach Ausführung des Schritts STP11, d.h. nach Erfassung des Anfangspunkts A, werden die Daten SCNT, NCNT und SW sämtlich auf 0 gesetzt, und die im Register M enthaltenen Daten werden in das Register i gesetzt. Hierauf wird in einem Schritt STP12 geprüft, ob die Dateneinheit SW auf 0 gesetzt ist. Ist dies der Fall, so wird geprüft, ob

die Energiedateneinheit im Adressentabellenplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies nicht der Fall, so wird der Schritt STP12 ausgeführt, nachdem die Größe i um 1 erhöht worden ist. Diese Operation wird wiederholt, bis festgestellt wird, daß die Energiedateneinheit kleiner ist als der Schwellenwert EP, d.h. es wird ein Zeitpunkt B gemäß Pig. 2 erfaßt. Die Dateneinheiten SCNT und SW werden anschließend auf 1 gesetzt, und der Schritt STP12 wird nach Erhöhung IQ der Größe i um 1 ausgeführt.

Wenn im Schritt STP12 festgestellt wird, daß die Dateneinheit SW auf 1 gesetzt ist, so wird in einem Schritt STP13 geprüft, ob die Energiedateneinheit im Energietabellenplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies der Fall» so wird die Größe 1 der Summe aus den Dateneinheiten SCNT und NCNT hinzuaddiert, und das Additionsergebnis wird im Register SCNT gespeichert. Danach wird die Dateneinheit NCNT auf 0 gesetzt. Hierauf wird im Schritt STPH geprüft, ob die Dateneinheit SCNT gleich groß oder größer als die Größe NS (geworden) ist. Wenn die Dateneinheit SCNT kleiner ist als die Größe NS, wird die Größe i in einem Schritt STP15 um 1 erhöht. Sodann wird in einem Schritt STP16 geprüft, ob die Größe i größer ist als N. Wenn im Schritt STP16 festgestellt wird, daß die Größe i gleich groß oder kleiner ist als N, wird der Schritt STP12 ausgeführt. Wenn dagegen festgestellt wird, daß die Größe i größer ist als N, werden der Zeitpunkt B als der echte Endpunkt bestimmt und die Größe N im Register i gesetzt. Danach wird die Dateneinheit SCNT von der Größe i in einem Schritt STP17 subtrahiert, um Daten ENDP zu liefern, die in einem Register ENDP gesetzt bzw. in dieses eingegeben werden uad den Zeitpunkt B gemäß Fig. 2 angeben. Der Schritt STP17 wird

auch durchgeführt, wenn im Schritt STPH festgestellt wird, daß die Dateneinheit SCNT gleich groß oder größer ist als die Größe NS.

Wenn weiterhin im Schritt STP13 festgestellt wird, daß die im Energietabellenplatz TE(i) enthaltene Energiedateneinheit nicht kleiner ist als die Größe EP, wird die Dateneinheit NCNT um 1 erhöht, worauf geprüft wird, ob die Dateneinheit NCNT gleich groß oder größer ist

IQ als die Größe NU. Wenn die Dateneinheit NCNT kleiner ist als die Größe NU, wird der Schritt STP15 erneut ausgeführt. Wenn andererseits festgestellt wird, daß die Dateneinheit NCNT gleich groß oder größer ist als die Größe II, d.h. wenn ein weiterer Sprachabschnitt 5 festgestellt wird, werden die Register SW, NCNT und SCNT sämtlich freigemacht, um zu bestimmen, daß der Zeitpunkt B nicht als echter Endzeitpunkt anzusehen ist; anschließend wird der Schritt STP15 erneut ausgeführt.

Nach der einwandfreien Bestimmung der echten Anfangsund Endpunkte liest die Zentraleinheit (CPU) 42 die Energiedaten durch sequentielle Bezeichnung von durch die echten Anfangs- und Endpunkte definierten Adressen aus dem Pufferspeicher 12 aus, um dann die Energiedaten zu einer nicht dargestellten Spracherkennungsschaltung zu überführen.

Auch wenn das Hintergrund- bzw. Umgebungsrauschen groß ist oder der Pegel dieser Rausch- bzw. Störsignale stark schwankt, kann mit der erfindungsgemäßen Vorrichtung die Dauer eines Spracheingangssignals einfach und genau bzw. richtig bestimmt werden. Darüber hinaus besitzt die Vorrichtung gemäß Fig. 1 einen einfachen Aufbau. Weiterhin arbeitet die Vorrichtung unter Gewährleistung eines großen praktischen Nutzeffekts in stabiler Weise.

Der Algorithmus zur Bestimmung bzw. Erfassung des Anfangspunkts A sowie des Endpunkts B des Spracheingangssignals ist demzufolge einfach. Die erfindungsgemäße Vorrichtung vermag somit eine genaue Bestimmung bzw. Messung in höchst zuverlässiger Weise zu gewährleisten.

Die Erfindung ist keineswegs auf die vorstehend beschriebene Ausführungsform beschränkt. Beispielsweise können als Sprachparameter durch LPC-Analyse berechnete, geschätzte Fehler, der Korrelationskoeffizient des Spracheingangssignals oder dergleichen benutzt werden. Der Algorithmus zur Berechnung der Verteilung der Sprachparameter kann durch andere Algorithmen ersetzt werden. Innerhalb des Rahmens der Erfindung sind

!5 daher verschiedene Änderungen und Abwandlungen möglich.

Leerseite

Claims

PATENTANSPRÜCHE

[ 1 j Vorrichtung zur Bestimmung der Dauer von Sprach- oder Tonsignalen mit einer Abtasteinrichtung zur Abtastung eines Spracheingangssignals und zur Erzeugung einer Zeitfolge von Sprachparametern, einer an die Abtasteinrichtung angeschlossenen Speichereinrichtung zur Speicherung der Zeitfolge der Sprachparameter sowie einer ersten Bestimmungseinrichtung zur Bestimmung einer Sprachperiode nach Maßgabe des Vergleichs zwischen einer voreingestellten Größe bzw. Vorgabegröße und einer Zeitfolge von Sprachparametern, gekennzeichnet durch eine Einrichtung (34, 42, 44) zur Bestimmung einer ersten, der Sprachperiode unmittelbar vorausgehenden sprachfreien Periode und einer zweiten, unmittelbar auf die Sprachperiode folgenden sprachfreien Periode, durch eine Einrichtung (12, 42, 42-1 42-4) zur Bildung eines Histogramms auf der Grundlage der während der Sprachperiode sowie während erster und zweiter sprachfreier Periode erzeugten oder gelieferten Sprachparameter sowie zum Unterteilen der Sprachparameter in eine sprachfreie Klasse (non-voice class) und eine Sprachklasse auf der Grundlage des Histogramms, durch eine zweite Bestimmungseinrichtung (42, 42-1 42-4) zur Bestimmung eines Schwellenwerts auf der Grundlage des Mittelwerts der Sprachparameter in der sprachfreien Klasse und durch eine dritte Bestimmungseinrichtung (42, 42-1 - 42-4) zur Bestimmung der Sprachdauer auf der Grundlage des Schwellenwerts und der während der Sprachperiode sowie während erster und zwei-

ter sprachfreier Periode erzeugten bzw. gelieferten und in der Speichereinrichtung (12) gespeicherten Sprachparameter .
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Bestimmungseinrichtung eine Bewegungsmittel (wert) schaltung (moving average circuit) zur sequentiellen Erzeugung eines Bewegungsmittels (moving average) für eine vorbestimmte Zahl aufeinanderfolgender Sprachparameter von der Abtasteinrichtung, eine Vergleichseinrichtung zum Vergleichen des Bewegungsmittels mit einer Vorgabegröße sowie eine Anfangsund Endpunkt-Bestimmungsschaltung zur Bestimmung eines vorübergehenden Anfangspunkts, zu dem das Bewegungsmittel größer wird als die Vorgabegröße, wenn festgestellt wird, daß das Bewegungsmittel während einer vorgegebenen (preset) Zeitspanne nach dem Erreichen des Anfangspunkts größer bleibt als die Vorgabegröße, und zur Bestimmung eines vorläufigen Endpunkts, zu dem das Bewegungsmittel kleiner wird als die Vorgabegröße, wenn festgestellt wird, daß das Bewegungsmittel während einer vorgegebenen Zeitspanne nach dem Erreichen des Endpunkts größer bleibt als die Vorgabegröße, aufweist.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die erste Bestimmungseinrichtung eine Einrichtung zur Erfassung eines Bezugspunkts zwischen den vorläufigen Anfangs- und Endpunkten aufweist und daß die dritte Bestimmungseinrichtung die, beginnend vom Bezugspunkt und zum vorläufigen Anfangspunkt hin, sequentiell aus der Speichereinrichtung ausgelesenen Sprachparameter zur Erfassung eines echten Anfangspunkts verarbeitet und weiterhin die, beginnend mit dem Bezugspunkt und zum vorläufigen Endpunkt hin, sequentiell aus der Speichereinrichtung ausgelesenen

3233^37

1 Sprachparameter zur Erfassung eines echten Endpunkts verarbeitet.
4. Vorrichtung nach einem der Ansprüche 1 bis 3, da-

5 durch gekennzeichnet, daß die Einrichtung zur Bildung . des Histogramms eine Recheneinrichtung zur Ableitung einer Zwischenklassenvarianz aus den Sprachparametern aufweist und die Sprachparameter in die sprachfreie Klasse und die Sprachklasse in bezug auf einen Sprach-10 parameter aufteilt, welcher die Zwischenklassenvarianz eine maximale Größe annehmen läßt.
5. Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die zweite Bestimmungseinrichtung

15 eine Addiereinrichtung zum Hinzuaddieren einer vorbestimmten Größe zum Mittelwert der Sprachparameter zwecks Bestimmung des Schwellenwerts aufweist.