DE3233637A1 - Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen - Google Patents
Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalenInfo
- Publication number
- DE3233637A1 DE3233637A1 DE19823233637 DE3233637A DE3233637A1 DE 3233637 A1 DE3233637 A1 DE 3233637A1 DE 19823233637 DE19823233637 DE 19823233637 DE 3233637 A DE3233637 A DE 3233637A DE 3233637 A1 DE3233637 A1 DE 3233637A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- period
- data
- determining
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000010374 somatic cell nuclear transfer Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 9
- 239000010749 BS 2869 Class C1 Substances 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 101100490566 Arabidopsis thaliana ADR2 gene Proteins 0.000 description 5
- 101100269260 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADH2 gene Proteins 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 101150022075 ADR1 gene Proteins 0.000 description 3
- 101100500048 Arabidopsis thaliana DRP3A gene Proteins 0.000 description 3
- 239000010750 BS 2869 Class C2 Substances 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100311277 Arabidopsis thaliana STP10 gene Proteins 0.000 description 1
- 101100311278 Arabidopsis thaliana STP11 gene Proteins 0.000 description 1
- 101100495597 Orientia tsutsugamushi groES gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 239000004411 aluminium Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Mobile Radio Communication Systems (AREA)
Description
ff i * \
Vorrichtung zur Bestinunung der Dauer
von Sprach- oder Tonsignalen
Die Erfindung betrifft eine Vorrichtung zur Bestimmung oder Messung der Dauer von Sprach- oder Tonsignalen.
Für die Erkennung getrennt ausgesprochener Wörter oder einer Reihe von Wörtern nach dem Mustervergleichsverfahren
oder ähnlichen Verfahren ist es erforderlich, die Dauer jedes durch Sprache erzeugten Worts bzw. einer
Wortreihe einwandfrei zu bestimmen bzw. zu messen. Wenn ein Wort unter Bedingungen vergleichsweise geringen Umgebungsrauschens,
z.B. bei einem Störsignalabstand von 30 dB oder mehr, gesprochen und für die Abnahme des betreffenden
Ton- oder Sprachsignals ein breitbandiges Mikrophon verwendet wird, läßt sich die Dauer des durch
Sprache erzeugten Worts oder der Wortreihe einfach durch Bestimmung der Periode feststellen, während welcher seine
bzw. ihre Amplitude und die Zahl seiner bzw. ihrer Nulldurchgänge oberhalb einer vorbestimmten Größe bleiben.
Wenn dagegen das Umgebungs-, d.h. Grundrauschen groß ist
oder sich mit hoher Frequenz ändert, ist es unmöglich, die Dauer eines durch Sprache erzeugten, d.h. gesprochenen
Worts oder einer Wortreihe einwandfrei zu bestimmen, unabhängig davon, welche Datenverarbeitung zur Bestimmung
des richtigen Schwellenwerts angewandt wird. Wenn der Schwellenwert vergleichsweise niedrig angesetzt ist, kann
häufig ein den Schwellenwert übersteigendes Störsignal auf-
treten, so daß häufig ein sog. "Additionsfehler" vorkommen
kann. Wenn dagegen der Schwellenwert vergleichsweise niedrig gesetzt ist, kann eine Sprachkomponente, deren Pegel
unter dem Schwellenwert liegt, ausfallen, so daß wiederholt ein sog. "Ausfallfehler" auftreten kann. Wenn die
sprachfreie Periode bestimmt werden kann, läßt sich der Schwellenwert entsprechend dem Umgebungs- bzw. Grundrauschpegel
ändern. Im allgemeinen läßt sich jedoch eine sprachfreie Periode nicht einwandfrei bestimmen. Aus diejQ
sem Grund ist es äußerst schwierig, die Dauer eines gesprochenen, eingegebenen (input) Worts richtig zu bestimmen
oder zu messen.
Aufgabe der Erfindung ist damit insbesondere die Schaffung !5 einer Vorrichtung, mit welcher die Dauer eines durch Sprache
erzeugten bzw. gesprochenen (voice generated) Worts oder einer Wortreihe einwandfrei und genau bestimmt werden
kann.
Diese Aufgabe wird bei einer Vorrichtung zur Bestimmung der Dauer von Sprach- oder Tonsignalen mit einer Abtasteinrichtung
zur Abtastung eines Spracheingangssignals und zur Erzeugung einer Zeitfolge von Sprachparametern, einer
an die Abtasteinrichtung angeschlossenen Speichereinrichtung zur Speicherung der Zeitfolge der Sprachparameter sowie
einer ersten Bestimmungseinrichtung zur Bestimmung einer Sprachperiode nach Maßgabe des Vergleichs zwischen
einer voreingestellten Größe bzw. Vorgabegröße und einer Zeitfolge von Sprachparametern erfindungsgemäß gelöst
durch eine Einrichtung zur Bestimmung einer ersten, der Sprachperiode unmittelbar vorausgehenden sprachfreien
Periode und einer zweiten, unmittelbar auf die Sprachperiode folgenden sprachfreien Periode, durch eine Einrichtung
zur Bildung eines Histogramms auf der Grundlage der während der Sprachperiode sowie während erster und
zweiter sprachfreier Periode erzeugten oder gelieferten Sprachparameter sowie zum Unterteilen der Sprachparameter
in eine sprachfreie Klasse (non-voice class) und eine Sprachklasse auf der Grundlage des Histogramms, durch
eine zweite Bestinunungseinrichtung zur Bestimmung eines Schwellenwerts auf der Grundlage des Mittelwerts der
Sprachparameter in der sprachfreien Klasse und durch eine dritte Bestimmungseinrichtung zur Bestimmung der Sprachdauer
auf der Grundlage des Schwellenwerts und der während der Sprachperiode sowie während erster und zweiter
sprachfreier Periode erzeugten bzw. gelieferten und in der Speichereinrichtung gespeicherten Sprachparameter.
In spezieller Ausführungsform der Erfindung wird zunächst eine Zeitspanne, die eine Sprachperiode und eine sprachfreie
Periode enthält, auf der Grundlage einer Zeitfolge von Sprachparametern für das Sprachsignal erfaßt. Sodann
wird das Histogramm der für diese Zeitspanne zutreffenden Sprachparameter bestimmt. Der Mittelwert der Sprachparameter
betreffend die sprachfreie Periode wird anhand der Sprachparameterverteilung berechnet. Hierauf wird nach
Maßgabe des so berechneten Mittelwerts ein Schwellenwert bestimmt; auf diese Weise kann die angegebene Aufgabe der
Erfindung effektiv gelöst werden.
Die Zeitfolge der Sprachparameter für das Sprachsignal wird zur Bestimmung der Dauer eines eingehenden gesprochenen
Worts benutzt. Wenn eine Person eine die Zeitfolge der Sprachparameter wiedergebende graphische Darstellung
betrachtet, kann die Dauer des eingegebenen gesprochenen Worts richtig erkannt werden, weil sich dabei einfach
feststellen läßt, ob jeder Sprachparameter einer Sprachperiode oder einer sprachfreien Periode zugeordnet ist,
wobei sich gleichzeitig ein optimaler Schwellenwert für die Bestimmung oder Messung des Spracheingangssignals
leicht bestimmen läßt. Danach kann nach Maßgabe des
Schwellenwerts festgestellt werden, ob jeder (ein betreffender) Sprachparameter der Dauer eines eingegebenen
(input) gesprochenen Worts zugehörig ist. Weiterhin kann auch festgestellt werden, ob der Sprachperiode zugeordnete Sprachparameter aufeinanderfolgend für mehr als eine voreingestellte Zeitspanne erzeugt werden. Auf der
Grundlage der so erhaltenen Daten wird die Dauer des
eingegebenen gesprochenen Worts ermittelt. Dieses Ver-
(input) gesprochenen Worts zugehörig ist. Weiterhin kann auch festgestellt werden, ob der Sprachperiode zugeordnete Sprachparameter aufeinanderfolgend für mehr als eine voreingestellte Zeitspanne erzeugt werden. Auf der
Grundlage der so erhaltenen Daten wird die Dauer des
eingegebenen gesprochenen Worts ermittelt. Dieses Ver-
,Q fahren, bei dem eine Person die Dauer eines eingegebenen
gesprochenen Worts erfaßt, wird auf die Sprachdauer-Meßvorrichtung eines Spracherkennungssystems angewandt, so
daß die Vorrichtung die Dauer eines eingegebenen gesprochenen Worts (input voice generated word) genau zu be-
jc stimmen oder zu messen vermag.
Im folgenden ist eine bevorzugte Ausfuhrungsform der Erfindung
anhand der beigefügten Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein (Block-)Schaltbild einer Sprachdauer-Meßvorrichtung
mit Merkmalen nach der Erfindung,
Fig. 2 eine graphische Darstellung einer Wellenform zur Veranschaulichung einer Zeitfolge von Kurzzeit-Energieparametern
eines Eingangssignals,
Fig. 3 eine graphische Darstellung der Wellenform eines Bewegungsmittel (wert) s (moving average), der von
der Zeitfolge und den Kurzzeit-Energieparametern
abgeleitet ist,
Fig. 4 ein Histogramm der Kurzzeit-Energieparameter eines
Eingangssignals gemäß Fig. 2,
35
35
JeT
Fig. 5A und 5B Ablaufdiagramme für die Bildung des Histo
gramms gemäß Fig. 4,
Fig. 6 ein Ablaufdiagramm für die Bestimmung eines
Schwellenwerts entsprechend dem Mittelwert der Sprachparameter in einer sprachfreien Periode
und
Fig. 7A und 7B Ablaufdiagramme für die Bestimmung einer
IQ echten Sprachdauer auf der Grundlage des Schwellenwerts
und der Sprachparameter.
Bei der zu beschreibenden Ausfuhrungsform der Erfindung
werden von einem Spracheingangssignal abgeleitete Kurzzeit-Energiedaten
E als Sprachparameter benutzt, doch können für denselben Zweck auch andere Sprachparameter
benutzt werden.
Zunächst wird ein Bewegungsmittel(wert) (moving average)
E für eine Anzahl aufeinanderfolgender Kurzzeit-Energiedaten E gemäß Fig. 2 auf die anhand von Fig. 1 noch zu
beschreibende Weise berechnet und mit einer vorbestimmten oder vorgegebenen Größe ER zur Bestimmung der Zeitpunkte
A1 und B1 gemäß Fig. 3 verglichen. Zum Zeitpunkt A1 wird das Bewegungsmittel E erstmals größer als die
Vorgabegröße ER, während es zum Zeitpunkt B1 (erstmals) nach dem Zeitpunkt A1 kleiner wird als die Vorgabegröße
ER. Der durch die Zeitpunkte A1 und B1 definierte oder begrenzte Abschnitt des Spracheingangs(signals) (input
voice) kann als der zuverlässigste Abschnitt einer Sprachperiode angesehen werden. Der Zeitpunkt A1 wird
als Ausgangspunkt für die Bestimmung der Dauer des Spracheingangssignals gewählt bzw. abgeschätzt, während der
Zeitpunkt B1 als Endpunkt für diese Bestimmung benutzt wird.
Die Bestimmung des Bewegungsmittels der Sprachparameter
bezüglich der Periode zwischen den gewählten bzw. geschätzten Anfangs- und Endpunkten des Spracheingangssiguals
ist in folgender Hinsicht bedeutsam: Bekanntlieh stellen die Kurzzeit-Energiedaten einen vergleichsweise
wirksamen Parameter für die Unterscheidung zwischen einer Sprachperiode und einer sprachfreien Periode
dar. Wenn jedoch ein Spracheingangssignal erzeugt wird, bei dem das Umgebungs- bzw. Grundrauschen vergleichs-
JO weise groß ist, enthält es möglicherweise ein pulsierendes
Rausch- bzw. Störsignal mit momentaner großer Energie. Ein derartiges Pulsieren des Rausch- bzw. Störsignals
kann daher in dem Teil des Spracheingangssignals enthalten sein, der durch die Zeitpunkte Δ1 und B1 begrenzt
ist, wenn die Energiedaten E zur Bestimmung der geschätzten Anfangs- und Endpunkte der Dauer des Spracheingangssignals
herangezogen werden. Aus eben diesem Grund wird das Bewegungsmittel der Sprachparameter (bzw.
der Kurzzeit-Energiedaten) berechnet, wodurch die im Spracheingangssignal enthaltenen pulsierenden Rauschbzw.
Störsignale unterdrückt werden und demzufolge die graphische Darstellung des Bewegungsmittels gemäß Pig.3
erhalten wird. Bei Verwendung des Bewegungsmittels der auf die oben beschriebene Weise berechneten Sprachparameter
wird es somit möglich, die Dauer eines Spracheingangssignals (input voice) unabhängig von pulsierenden
Rausch- bzw. Störsignalen richtig zu bestimmen bzw. zu messen. Weiterhin wird ein Zeitpunkt M, zu dem die
Kurzzeit-Energiedaten E während der Periode zwischen den
Zeitpunkten A1 und B1 am größten sind, als ein Zeitpunkt bestimmt oder erfaßt, zu dem es am wahrscheinlichsten
ist, daß er eine echte Sprachdauer überdeckt.
Es sind zwei sprachfreie Perioden Nu einer Dauer von z.B. 100 - 200 ms vorhanden, von denen die eine zu einem
Zeitpunkt Α2 beginnt und am Zeitpunkt A1 endet» während die andere am Zeitpunkt B1 beginnt und am Zeitpunkt B2
endet. Die zwischen den Zeitpunkten A2 und B2 liegende Periode ist die Histogramm-Berechnungsperiode. Jede
sprachfreie Periode kann auf 100 - 200 ms gesetzt sein. Die Histogramm-Berechnungsperiode besteht daher aus
der geschätzten sprachfreien Periode zwischen den Zeitpunkten A2 und A1» der geschätzten Sprachperiode zwischen
den Zeitpunkten A1 und B1 sowie der geschätzten sprachfreien Perlode zwischen den Zeitpunkten B1 und
B2. Die Sprachparameter bezüglich der Histogramm-Berechnungsperiode
werden zur Berechnung und Aufstellung des Histogramms gemäß Pig.4 benutzt. Sodann wird ein
Schwellenwert benutzt» um eine Anzahl von Kurzzeit-
!5 Energiedaten E entsprechend diesem Histogramm in zwei
Klassen zu unterteilen. Genauer gesagt: die Energiedaten E werden in eine sprachfreie Klasse» in welcher
die Energiedaten E kleiner sind als der Schwellenwert EO, und eine Sprachklasse unterteilt, in welcher die
Energiedaten E größer sind als der Schwellenwert EO. Insbesondere wird eine Zwischenklassenvarianz «%, bestimmt»
worauf ein optimaler Schwellenwert EO bestimmt wird» welcher die Zwischenklassenvarianz d-r, auf das
Jd
Maximum bringt. Entsprechend dem optimalen Schwellenwert
EO und dem Histogramm der sprachfreien Klasse, in welcher E4 EO gilt, wird der Mittelwert EN der
Energiedaten E im sprachfreien Bereich bestimmt. Zum Mittelwert EN der Energiedaten E wird zum Kompensieren
von Schwankungen derselben eine vorbestimmte Größe hinzuaddiert, die Ihrerseits als richtiger bzw. zutreffender
Schwellenwert EP zur Bestimmung der Dauer eines Spracheingangssignals benutzt wird.
Für die Gewinnung des optimalen Schwellenwerts EO zur Einteilung der Verteilung der Energiedaten E in eine
Sprachklasse und eine sprachfreie Klasse kann die Bezugsgröße vom Mindestwert der Energiedaten E auf deren
Höchstwert variiert werden, wobei die Zwischenklassenvarianz eKg bestimmt wird. Sodann wird der optimale
Schwellenwert EO bestimmt, bei dem die Zwischenklassenvarianz σ*« am größten wird. Dieses Vorgehen ist jedoch
sehr kompliziert. Da die 0V,-E-Kennlinle nur einen
Wendepunkt (inflection point) aufweist, kann dieser als der Höchstwert der Zwischenklassenvarianz <*g angesehen
werden. Der Schwellenwert entsprechend der maximalen Zwischenklassenvarianz cf-g kann somit als
optimaler Schwellenwert EO betrachtet werden.
Der optimale Schwellenwert EP kann mittels eines G-rauwert-
bzw.-pegelhistogramms der Energiedaten E wie
folgt erhalten werden:
1. Schritt: Teilen einer Gruppe von Energiedaten E in
zwei Klassen, nämlich Hintergruxidrauschenklasse
C1 und Sprachklasse G2, unter Heran
ziehung einer Zwischenklassenvarianz als Bezugswert für die Bewertung jeder Klasse.
2. Schritt: Ableitung des Mittelwerts EN der Energiedaten E von Feldern, die innerhalb der
Hintergrundrauschenklaase C1 liegen.
3. Schritt: Hinzuaddieren einer vorbestimmten Spanne
α zum Mittelwert EN zwecks Ableitung des Schwellenwerts EP.
Die vorstehend genannten Schritte sind im folgenden im einzelnen erläutert.
Es sei angenommen, daß die Energiedaten E diskrete
Jf
Werte bzw. Größen (e-1) besitzen können: β = 1» 2, ...,
L. Eine Tabelle H(e), welche ein Graupegelhistogramm der Energiedaten E der Größe (e-1) definiert, veranschaulicht
die Zahl Ne von Feldern (frames), in welcher die Energiedaten E während einer Periode (zwischen den
Zeitpunkten A2 und B2) dieselbe Größe besitzen. Die Beziehung von N und Ne (e = 1, 2, ..., L) ist dann folgende:
N ■ Z Ne /.χ
In obiger Gleichung bedeutet! N = ZaIiI der in der
Periode zwischen den Zeitpunkten A2 und B2 vorhandenen Felder.
Zur Vereinfachung der Erläuterung wird das Graupegelhistogramm
vorliegend als Histogramm angesehen» das
mit N (oder einer Wahrscheinlichkeitsdichte Pe) nor-20
malisiert ist, die sich bestimmt durch
L
Pe = Ne/N (Pe > O, Z Pe - 1)
Pe = Ne/N (Pe > O, Z Pe - 1)
e=l
Es sei angenommen, daß bei Verwendung einer Größe k als Schwellenwert/werte oder Größen der Energiedaten E in
eine Hintergrundrauschenklasse C1, welche die Bnergiedaten
der Größe S1 (=1,2, ..., k) enthält und eine Sprachklasse C2, welche die Energiedaten einer Größe
S2 (= Kf1, K+2, ..., L) enthält, unterteilt werden. Die
Wahrscheinlichkeit ω 1 für Klasse 1 sowie die Wahrscheinlichkeit
ω2 für Klasse C2 bestimmen sich wie
folgt:
«1 - Pr(Cl) » E Pe » ω(*) (3)
ecSl
ω2 - Pr(C2) * Σ Pe « 1 - u(k) (4)
ecS2
Der Erwarttingswert μ™ von β während der Periode zwischen
den Zeitpunkten A2 und B2, der Erwartungswert μ-j von e für Klasse C1 und der Erwartungswert μ2 von e
für Klasse 02 bestimmen sich wie folgt:
μτ » Z e«Pe = U(L) (5)
e=l
15 ,
U1 ■ Z e«Pr(elCl) * -4— Z e«Pe » μ(k)/ω(k.)
eeSl ω1 eeSl
1 UT " u(k)
20 1
μ2 = Z e«Pr(elC2) = -i- Z e«Pe =
eeS2 S2
(7)
darin bedeutet:
u(k) = Σ e-Pe '··· (8)
30 e=1
Die Varianz e*B zwischen den Klassen 01 und 02 bestimmt
sich wie folgt:
35 σΒ
»Κ Ui - UT)2 + ω2(μ2 "
Vie sich aus Gleichung (9) ergibt, sind die Klassen G1
und C2 umfso deutlicher voneinander getrennt, je größer
die Zwischenklaasenvarianz e^ ist. Bei Einsetzen von
Gleichungen (3) bis (7) in Gleichung (9) ergibt sich folgende Gleichung:
- μ(Κ)]2
Zur Bestimmung des optimalen Schwellenwerts für die Trennung der Hintergrundrauschenklasse 01 von der
Sprachklasse 02 ist es nötig, die Zwischenklassenvarianz d- für jede Größe zu bewerten bzw. auszuwerten,
die k besitzen kann, d.h. k=1, k=2, ..., k=L.
Bisher wurde das Graupegelhistogramm als normalisiertes Histogramm angesehen. In der Praxis zeigt jedoch
Tabelle H(e), wie oft Energiedaten derselben Größe e erhalten werden. Infolgedessen muß Gleichung (10) wie
folgt geändert werden:
[yT«N-ü)(k) - Nf«p(k)] 2
aB 2(k)
(11)
N«ü)(k) [N - N'ü)(k)]
25
darin bedeuten:
L ,L
μτ = Σ e pe = -^- Σ e«Ne (12)
e=l e=l
N«ü>(k) = N · Σ Pe - Σ Ne (13)
eeSl e=l
k k
N«u(k) » N · Z e»Pe « Z e«Ne (14)
N«u(k) » N · Z e»Pe « Z e«Ne (14)
Λζ
Durch Einsetzen von Gleichungen (12), (13) und (H) in Gleichung (11) ergibt sich:
k k
^ [y-T · Ε,β'Νβ - Σ,β'Νθ]2
^ [y-T · Ε,β'Νβ - Σ,β'Νθ]2
oB 2(k) = — —
(15)
k k
( Γ Ne)[N - ( I Ne)]
( Γ Ne)[N - ( I Ne)]
Die Varianz rfr, wird für jede Größe von k, d.h. k=1,
k=2, ..., k=L, ausgewertet. Die Gröi3e von k (k=eß),
bei welcher die Varianz rf-g den größten Wert besitzt,
wird als Schwellenwert zur Unterteilung der Energie-
k=2, ..., k=L, ausgewertet. Die Gröi3e von k (k=eß),
bei welcher die Varianz rf-g den größten Wert besitzt,
wird als Schwellenwert zur Unterteilung der Energie-
daten E in die Hintergrundrauschenklasse C1 und die
Sprachklasse C2 benutzt.
Sprachklasse C2 benutzt.
Der Mittelwert der Energiedaten E in der Hintergrund« rauschenklasse C1>
d.h. der Mittelwert Ejt, bestimmt
sich wie folgt:
sich wie folgt:
e0 e0
En = u(eo)/w(eo) = Σ e-Ne/ Σ Ne ·"*
En = u(eo)/w(eo) = Σ e-Ne/ Σ Ne ·"*
e=l e=l
Ersichtlicherweise sind tatsächlich ein oder mehrere
Felder des Rausch- bzw. Störsignals mit einem Energiepegel von über EN als dem Mittelwert der Energiedaten E in der Hintergrundrauschenklasse C1 vorhanden. Wenn die Größe EN unmittelbar als Schwellenwert EP zur Bestimmung der Sprachperiode der zweiten Stufe benutzt
wird, tritt ein Additionsfehler auf, wenn die aufeinanderfolgenden oder folgenden Felder Energiedaten enthalten, die größer sind als EN. Aus eben diesem Grund
Felder des Rausch- bzw. Störsignals mit einem Energiepegel von über EN als dem Mittelwert der Energiedaten E in der Hintergrundrauschenklasse C1 vorhanden. Wenn die Größe EN unmittelbar als Schwellenwert EP zur Bestimmung der Sprachperiode der zweiten Stufe benutzt
wird, tritt ein Additionsfehler auf, wenn die aufeinanderfolgenden oder folgenden Felder Energiedaten enthalten, die größer sind als EN. Aus eben diesem Grund
wird eine vorbestimmte Größe α zu EN hinzugefügt, um auf diese Weise den Schwellenwert EP zu erhalten. Der
Schwellenwert EP läßt sich daher wie folgt ausdrücken:
EP = EN + α (17)
Der Schwellenwert EP kann wirksam auf die im folgenden ■beschriebene Weise erhalten bzw. abgeleitet werden.
Schritt A: Auslesen von Daten aus der Histogrammtabelle
H(e) (e=1» 2, ..., L) zur Berechnung von B(k) und C(k) für jede Größe, die e besitzen kann, und Einschreiben von B(k)
und C(k) in Arbeitstabellen, wobei sich
B(k) und C(k) wie folgt bestimmen:
B(k) - Σ H(e) = B(k-l) + H(k) ··· (18)
e=l
C(k) = E e-H(e) = C(k-l) + k-H(k) ... (19)
e=l
Schritt B: Berechnung von μτ nach folgender Gleichung:
e*Ne = C(L)/B(L)
Schritt C: Benutzung der Größen B(k) und C(k) zum Umschreiben
von Gleichung (15) wie folgt:
UTB(k) - C(k))2
aB 2(k) = ..o (21)
B(k)(N - B(Ic))
Schritt D:
Al-
Auswertung oder Bestimmung von β"·« nach
Gleichung (21) unter Heranziehung der in die Arbeitetabellen eingeschriebenen Größen, um dabei die Größe von k (~θπ^ ZVL
bestimmen, bei welcher die Varianz tfß am
größten wird. Wenn aV, dieselbe maximale
Größe wie im Fall von (em-e-j )/2 als Größe e
k * em besitzt,
benutzen.
Berechnung des Mittelwerts EN des Hintergrundrauschens nach folgender Gleichung:
EN = C(eo)/B(eo)
(22)
Schritt E:
Berechnung des Schwellenwerts EP nach folgender Gleichung:
EP = EN + α.
Der Ausgangspunkt A und der Endpunkt B eines Spracheingangssignals
werden auf die nachstehend zu erläuternde Weise bestimmt. Zur Bestimmung oder Erfassung des
Ausgangspunkts A wird die Zeltfolge der Energiedaten E in entgegengesetzter Richtung vom Zeitpunkt M aus untersucht,
wobei der Zeitpunkt A, zu dem die Energiedaten E unter den Schwellenwert EP fallen, erfaßt wird.
Weiterhin wird untersucht, ob die Energiedaten E für eine vorbestimmte Periode oder Zeitspanne N1 kleiner
bleiben als der Schwellenwert EP oderfaicht. Die Periode N1 beträgt z.B„ etwa 200 - 250 ms. Wenn die Energiedaten
E während der Periode N1 unter dem Schwellenwert EP bleiben, wird der Zeitpunkt A als Ausgangspunkt A
betrachtet. Auch wenn in diesem Fall die Energiedaten größer werden als der Schwellenwert EP und während
einer Zeitspanne, die kürzer 1st als die vorbeatimmte
4a-
bzw. Vorgabezeitspanne N2, über dem Schwellenwert bleiben,
wird vorausgesetzt, daß das Spracheingangssignal pulsierende Rausch- bzw. Störsignalkomponenten enthält»
und der Zeitpunkt Ϊ wird als Ausgangspunkt A für die Sprachelngangssignaldauer angesehen.
Wenn die Energiedaten E nach einem Abfallen unter den
Schwellenwert EP letzteren übersteigen und während einer längeren Zeitspanne als der Periode N2 über dem
!0 Schwellenwert EP bleiben, wird vorausgesetzt, daß innerhalb
derselben Sprachdauer eine weitere Sprachperiode besteht. Der Zeitpunkt, zu dem die Energiedaten E
kleiner werden als der Schwellenwert EP wird dann als Zeitpunkt J. angesehen, wobei eine sprachfreie Periode
N1 erfaßt wird. Dieser Vorgang wird wiederholt, bis der Ausgangspunkt A des Spracheingangssignals erfaßt
worden ist.
Der Endpunkt B des Spracheingangssignals wird auf ähnliehe
Weise ermittelt. In diesem Pail wird die Zeitfolge der Energiedaten E in Vorwärtsrichtung vom Zeitpunkt
M aus untersucht.
Fig. 1 veranschaulicht den Schaltungsaufbau einer Sprachdauer-Meßvorrichtung gemäß der Erfindung.
Letztere umfaßt eine elektroakustische Wandlervorrichtung
2, etwa ein breitbandiges Mikrophon zur Umwandlung eines Sprachsignals bzw. Lauts in ein elektrisches
Signal sowie 16 Bandpassfilter PI - P16 zur Abnähme
eines Sprachsignals vom Mikrophon 2 über einen Verstärker 4. Die Bandpassfilter P1 - P16 besitzen
unterschiedliche Frequenzbandbreiten, die fortlaufend von einem Niederfrequenzbereich zu einem Hochfrequenzbereich
abgestuft sind. Die Ausgangssignale der Bandpassfilter
werden einem Analogmultiplexer 6 und einer
Addierstufe 8 zugeführt. Dae Ausgangssignal der Addierstufe
8 wird als 17. Eingangssignal dem Analogmultiplexer
6 eingegeben. Letzterer empfängt somit in paralleler Weise Kurzzeit-Energiesignale in den 16 Frequenzbandbreiten
im Bereich vom Nieder- bis zum Hochfrequenzbereich sowie Kurzzeit-Energiesignale des gesamten Spracheingangssignals
.
Die Ausgangssignale für jedes Feld vom Analogmultiplexer 6 werden der Reihe nach einem Analog/Digital-
bzw. A/D-Wandler 10 zugeführt, in entsprechende Kurzzeit-Energiedaten E1 - E17 umgesetzt und dann einem
Pufferspeicher 12, einem Multiplexer 14 und einem.UND-Glied
16 zugeführt. Die Ausgangsdaten des UND-Glieds werden beispielsweise einem achtatufigen Schieberegister
18 zugeliefert. In den betreffenden Stufen des Schieberegisters 18 werden die Ausgangsdaten an
einer Addierstufe 20 addiert» worauf das Ausgangssignal der Addierstufe 20 durch einen 1/8-Teiler 22 in Teile
von je 1/8 dividiert wird. Die Ausgangsdaten des 1/8-Teilers
22 werden durch einen Komparator 24 mit einem Bezugswert ER verglichen. Die Ausgangsklemme des
Komparators 24 ist über UND-Glieder 30 und 32 mit den
Hochzählklemmen eines 8-Stufen-Zählers (8-scale counter)
26 bzw. eines 4-Stufen-Zählers 28 sowie über einen Umsetzer 36 und ein UND-Glied 38 mit der Rücksetzklemme
des 4-Stufen-Zählers 28 und der Hochzählklemme eines
25-Stufen-Zählers 34 verbunden. Die Ausgangsklemme des 4-Stufen-Zählers 28 ist an die Rücksetzklemme des
25-Stufen-Zählers 34 angeschlossen, während die Ausgangsklemmen
des 8- und des 25-Stufen-Zählers 26 bzw. 34 mit den Setz- bzw. Rücksetzklemmen eines Flip-Flops
40 verbunden sind. Die Ausgangsklemme des Flip-Flops 40 ist mit einer Zentraleinheit (CPU) 42 und einem
Adressenregister 44 verbunden. Die Zentraleinheit 42
enthält einen Randomspeicher mit Pufferspeicherbereichen
42-1 - 42-3 zur Speicherung von Histogrammdaten, Energiedaten und Adressendaten sowie einem Arbeitsspeicherbereich
42-4 zur Speicherung von Berechnungsdaten.
Die Schaltung gemäß Fig. 1 enthält weiterhin einen Adressenzähler 46 zum Zählen der Ausgangsimpulse einer
Zeitsteuerschaltung 47 sowie einen Wähler 48, welcher die Adressendaten von der Zentraleinheit 42 und vom
Adressenzähler 46 selektiv einer Adressenbezeichnungsschaltung 50 zuführt, die ihrerseits eine Adresse des
Pufferspeichers 12 bezeichnet. Die Zeitsteuerschaltung 47 erzeugt in jedem Feld 17 Impulse von 10 ms Dauer.
Diese 17 Impulse treten in einer Periode von z.B.
1 ms auf, so daß in jedem Feld eine Freiperiode von 9 ms vorhanden sein kann. Der Adressenzähler 46 erzeugt
Adressendaten entsprechend den Inhalten sowie einen Signalimpuls C17» sooft die 17 Impulse jedes Felds gezählt
werden bzw. sind.
Im folgenden ist die Arbeitsweise der Sprachdauer-Meßvorrichtung
gemäß Fig. 1 erläutert.
Zunächst werden die Speicherbereiche 42-1 und 42-4 freigemacht und die erste Adresse für die Speicherbereiche
42-2 und 42-3 bezeichnet.
Ein Sprachsignal oder Laut mit der Energieverteilung gemäß Fig. 2 wird dem breitbandigen Mikrophon 2 zugeführt,
dae daraufhin ein entsprechendes elektrisches Sprach- bzw. Lautsignal zum Verstärker 4 liefert. Das
Ausgangssignal des Verstärkers 4 wird den Bandpassfiltern
F1 - F16 zugeführt, welche das Eingangssignal glätten und die Übertragung vom Signalkomponenten mit
Frequenzen in den jeweils zugewiesenen Frequenzbandbreiten zum Analogmultiplexer 6 und zur Addierstufe
zulassen. Das Ausgangssignal der Addierstufe 8 wird ebenfalls dem Analogmultiplexer 6 zugeführt. In Abhängigkeit
von einem Ausgangsimpuls von der Zeitsteuerschaltung
47 erzeugt der Analogmultiplexer 6 in einer Zeltfolge Kurzzeit-Energiesignale entsprechend den
Ausgangssignalen der Bandpassfilter P1 - P16 und der
Addierstufe 8 in dieser Reihenfolge. Die Kurzzelt-Energiesignale werden sequentiell dem A/D-Wandler
zugeführt, der seinerseits daraufhin entsprechende digitale Energiedaten E1 - E17 als Sprachparameter zum
Pufferspeicher 12, zum Multiplexer 14 und zum UND-Glied
16 liefert. Beim vorliegenden Ausführungsbeispiel sind die Energiedaten E17 auf eine ganze Zahl
im Bereich von 0 bis (L-1) gesetzt.
Da im Anfangszustand der Wähler 48 so gesetzt ist, «laß Adressendaten vom Adressenzähler 46 zur Adressenbe-Zeichnungsschaltung
50 geliefert werden können, kann diese den Adressenplatz des Pufferspeichers 12 nach
Maßgabe der Adressendaten vom Adressenzähler 46 bezeichnen, und der Pufferspeicher 12 kann die Energiedaten
vom A/D-Wandler 10 in den bezeichneten Adressenplatzen speichern. Das UND-Glied 16 wird aktiviert bzw.
durchgeschaltet» sooft der Adressenzähler 46 einen Signalimpuls C17 liefert, d.h. sooft der letzte Impuls
in jedem Feld von der Zeitsteuerschaltung 47 erzeugt wird. Infolgedessen werden die Adressendaten E17 entsprechend
dem Ausgangssignal von der Addierstufe 8
über das UND-Glied 16 zum 8-stufigen Schieberegister
geleitet. Das Schieberegister 18 wird in Abhängigkeit von einem Ausgangsimpuls von der Zeitsteuerschaltung
angesteuert, um die erzeugten Energiedaten E173 E17(j+7)
in aufeinanderfolgende Felder zu verschieben.
Die im Schieberegister 18 gespeicherten Energiedaten
E17j - E17(j+7) werden in der Addierstufe 20 zusammenaddiert
und im 1/8-Teiler 22 durch 8 dividiert, um gemäß
Pig. 3 ein Bewegungsmittel Ej für die Energiedaten E17j - E17(j+7) zu erzeugen. Wie aus Fig. 3 deutlich
hervorgeht, werden pulsierende Rausch- bzw. Störsignale (pulse noise), die in der Energieverteilung gemäß
Pig. 2 enthalten sind, durch Festlegung des Bewegungsmittels beseitigt. Das Bewegungsmittel Sj wird mit der
Bezugsgröße ER im Komparator verglichen, der ein hochpegeliges Ausgangssignal erzeugt, wenn festgestellt
wird, daß das Bewegungsmittel Ej gleich groß oder größer wird als die Bezugsgröße ER. Solange das Bewegungsmittel
Ej kleiner ist als die Bezugsgröße ER, ist das Flip-Flop 40 rückgesetzt, während alle UND-Glieder
30, 32 und 38 deaktiviert bzw. gesperrt bleiben.
Wenn festgestellt wird, daß das Bewegungsmittel Ej vom 1/8-Ieiler 22 die Bezugsgröße ER erreicht, d.h. wenn
der Ausgangspunkt A1 gemäß Fig. 3 erreicht ist, liefert der Komparator 24 ein hochpegeliges Ausgangssignal
zum Aktivieren bzw. Durchschalten des UND-Glieds 3O0 letzteres läßt sodann einen vom Adressenzähler 4 6 gelieferten
Signalimpuls C17 zum 8-Stufen-Zähler 26
durch. Wenn dieser Zähler 26 acht Impulse gezählt hat, d.h. wenn der Zeitpunkt A11 erreicht ist, liefert er
ein Ausgangssignal zum Setzen des Flip-Flops 40, das seinerseits daraufhin ein hochpegeliges Ausgangssignal
SPS liefert. Letzteres wird als Verriegelungssignal zum Adressenregister 44 übertragen, so daß dieses
eine Adressendateneinheit speichern kann, die von der
Adressenbezeichnungsschaltung 50 geliefert wird und einem Zeitpunkt A11 gemäß Fig. 3 entspricht. In Abhängigkeit
vom hochpegeligen Ausgangssignal SPS vom Flip-Flop 40 liefert die Zentraleinheit 42 ein hochpege-
llges Ausgangssignal zum Multiplexer 14 und zum Wähler
48» so daß die Energiedaten vom Pufferregister 12 zur Zentraleinheit 42 über den Multiplexer 14 übertragen
und Adressendaten von der Zentraleinheit 42 über den
Wähler 48 zur Adressenbezeichnungsschaltung geliefert werden können. Zu diesem Zeitpunkt berechnet die
Zentraleinheit 42 den Adressenplatz für einen (Zeit-)-Punkt A2 auf der Grundlage der im Pufferregister 44
gespeicherten Adressendaten. Sodann speichert die Zentraleinheit 42 auf noch zu beschreibende Weise im
Speicherbereich 42-1 Histogrammdaten für zwischen den Punkten A11 und A2 erzeugte Energiedaten. Diese Operation
kann in einem Feld stattfinden» d.h. in einer Freiperiode zwischen einem Impuls C17 im einen PeId
und einem Impuls C1 im nächsten Feld, und nach dieser
Operation liefert die Zentraleinheit 42 ein Ausgangssignal niedrigen Pegels zum Multiplexer 14 und zum
Wähler 48, so daß die Zentraleinheit 42 Energiedaten vom A/D-Wandler 10 über den Multiplexer 14 abnehmen
kann und die Adressenbezeichnungsschaltung über den Wähler 48 Adressendaten vom Adressenzähler 46 empfängt.
Sooft in jedem folgenden Feld Energiedaten vom A/D-Wandler 10 geliefert werden, liefert und speichert die
Zentraleinheit 42 Histogrammdaten im Speicherbereich 42-1.
Auf dieselbe Weise, wie vorstehend beschrieben, werden Kurzzeit-Energiedaten entsprechend dem Sprachsignal gemäß
Fig. 2 aufeinanderfolgend im Pufferspeicher 12 abgespeichert. Wenn festgestellt wird, daß das Bewegungsmittel Ei kleiner wird als der Bezugswert ER, d.h. daß
dieses Bewegungsmittel einen geschätzten oder gewählten Endpunkt B1 gemäß Fig. 3 passiert, erzeugt der Komparator
24 ein niedrigpegeliges Ausgangssignal sum Deaktivieren
bzw. Sperren der UND-Glieder 30 und 32 und zum
Aktivieren bzw. Durchschalten des UND-Glieds 38. Infolgedessen
beginnt der 25-Stufen-Zähler 34 die über das
UND-Glied 38 zugeführten Impulse C17 zu zählen. Wenn
25 Impulse gezählt sind, d.h. wenn ein Punkt B2 erreicht ist, liefert dieser Zähler 34 ein Ausgangssignal zur
Anzeige, daß das Sprachintervall vorläufig durch die Punkte A1 und B1 bestimmt worden ist. Das Ausgangssignal
des 25-Stufen-Zählers 34 wird zur Zentraleinheit 42 und zum Flip-Flop 40 zum Rücksetzen des letzteren
übertragen. Falls jedoch nach der Erfassung des Punkts B1 ein Bewegungsmittel festgestellt wird, das größer
ist als der Bezugswert ER, wird die Zähloperation des 25-Stufen-Zählers 34 beendet, worauf der 4-Stufen-Zähler
28 zu zählen beginnt. Wenn in diesem Fall ein Ausgangssignal des Komparators 24 während einer die Vorgabeperiode
übersteigenden Zeitspanne auf dem hohen Pegel bleibt, fährt der 4-Stufen-Zähler 28 mit der Zählung
der Impulse C17 fort. Nach dem Zählen von vier Impulsen
C17 erzeugt der 4-Stufen-Zähler 28 ein Ausgangssignal
zur Anzeige, daß im selben Sprachintervall ein weiterer Sprachabschnitt auftritt, worauf der 25-Stufen-Zähler
34 rückgesetzt wird. Danach wird dieselbe Arbeitsweise, wie sie vorstehend beschrieben ist, kontinuierlich durchgeführt,
um einen vorläufigen Endpunkt des Sprachintervalls
zu erfassen. Falls jedoch das Ausgangssignal des Komparators 24 nur während einer kurzen Zeit auf einem
hohen Pegel bleibt und der 4-Stufen-Zähler 28 seinen Zahlbetrieb vor dem Zählen von vier Impulsen beendet,
wird dieser Zähler 28 rückgesetzt, während gleichzeitig der 25-Stufen-Zähler 34 zu zählen beginnt und ein Ausgangssignal
liefert, wenn er einen Inhalt von "25" erreicht hat.
Nach Maßgabe eines Ausgangssignals vom 25-Stufen-Zähler
34 beendet die Zentraleinheit (CPU) 42 die Bildung der
Histogrammdaten, und sie bestimmt auf noch, zu beschreibende
Weise die endgültigen Anfangs- und Endpunkte A bzw. B auf der Grundlage der Histogrammdaten.
Im folgenden ist anhand yon Pig. 5 der Ablauf bei der
Bildung oder Formung eines Histogramms durch die Zentraleinheit 42 erläutert. Die Pufferspeicherbereiche
42-1 - 42-3 (Pig. 1) werden durch Setzen der die Feldzahl angebenden Größe i auf 1» der Größe EMX auf 0 und
der Größe H(e) auf 0 initialisiert. Die Größe e ist eine ganze Zahl von 1 bis Iu Nach der Initialisierung
wird geprüft» ob das Flip-Flop 40 ein Ausgangssignal
SPS liefert. Falls ein Ausgangssignal SPS hohen Pegels
festgestellt wird» wird eine Adressendateneinheit ADR1
ausgelesen, die zum Zeitpunkt A11 zur Bezeichnung des
Adressenplatzes für eine 17. Energiedateneinheit E17
eines Feld geliefert bzw. erzeugt und im Adressenregister 44 gespeichert wird, während Adressendaten £DR2
und ADR3 auf der Grundlage der Adressendateneinheit ADR1 abgeleitet und jeweils in den ersten Adresaenplatz
ADR1 des Adressenpufferspeicherbereichs 42-2 und eines nicht dargestellten ADR-Registers eingeschrieben werden.
Die Adressendateneinheit ADR2 gibt die Adressenposition einer ersten Energiedateneinheit E1 in dem
Feld an» welches die zum Zeitpunkt A1 erzeugte 17.Bnergiedateneinheit
E17 enthält. Die Adr^ssendateneinheit ADR 3 gibt die Adressenposition einer ersten Energiedateneinheit
E1 in dem Feld an, welches die zum Zeitpunkt AZ erzeugte 17. Energiedateneinheit E17 enthält.
Die Adressendaten ADR2 und ADR 3 werden jeweils wie folgt gewonnen bzw. abgeleitet:
ADR2 * ADRl - 16 (23)
ADR3 » ADRl - {(8 + 25) χ 17 + 16} (24)
IG
Die im ADR-Register gespeicherte Adressendateneinheit
wird in einem Schritt STP1 in den Adressentafelplatz ADR(I) des AdressenpufferSpeicherbereichs 42-3 eingeschrieben.
Da die Adressendateneinheit ADR3 die erste Einheit ist, wird sie in den Adressentafelplatz ADR(I)
eingeschrieben. Sodann wird zu den im ADR-Register gespeicherten Adressendaten die Größe 16 hinzuaddiert»
und das Ergebnis wird in den zweiten Adressenplatz ADL2 des Speicherbereichs 42-3 eingeschrieben. Im
IQ zweiten Adressenplatz ADL2 kann somit die Adressendateneinheit
erhalten werden, welche die Adressenposition für die Energiedateneinheit E17 im selben Feld angibt.
Hierauf wird geprüft, ob die im zweiten Adressenplatz des Speicherbereichs 42-3 gespeicherte Adressendateneinheit
größer ist als die Speicherkapazität MC des Pufferspeichers 12. Ist dies nicht der Fall, so liefert
die Zentraleinheit (CPU) 42 ein Wählsignal SL
hohen Pegels, und sie überträgt gleichzeitig die im zweiten Adressenplatz des Speicherbereichs 42-3 gespeicherten
Adressendaten zum Adreesenregister 44. Wenn andererseits festgestellt wird, daß die Adressendateneinheit
größer ist als die Speicherkapazität MC, wird letztere von den Adressendaten subtrahiert, und das Ergebnis
wird in den zweiten Adressenplatz ADL2 des Speicherbereichs 42-3 eingeschrieben, worauf dieselbe
Operation wiederholt wird. Danach werden die Energiedaten E17 nach Maßgabe der im Adressenregister 44 gespeicherten
Adressendaten aus dem Pufferspeicher 12 ausgelesen. Das Wählsignal SI wird hierauf auf eine
niedrige Größe gesetzt, und die aus dem Pufferspeicher 12 ausgelesenen Energiedaten E17 werden in den Energietafelplatz
TE(I) des Pufferspeicherbereichs 42-2 eingeschrieben.
Den im Energietafel- bzw. -tabellenplatz TE(i) gespeicherten Energiedaten E17 wird die Größe 1
hinzuaddiert, um eine Größe e zu erhalten, die als
Adressendateneinheit zur Bezeichnung eines Adressenplatzes des Histogramm-Pufferspeicherbereichs 42-1
benutzt wird. Die Zentraleinheit 42 erhöht die in einem "bezeichneten Adressenplatz
enthaltenen Histogrammdaten H(e) um die Größe (e).
Als nächstes wird geprüft, ob die im Energietafeiplatz
TE(i) gespeicherten Energiedaten E17 größer sind als der Inhalt eines nicht dargestellten EMX-Registers.
Wenn diese Daten nicht größer sind als der genannte Inhalt, wird die Größe im i-Register erhöht, während
zu den Adressendaten im ADR-Register die Größe 17 hinzuaddiert wird, worauf das Additionsergebnis in
das ADR-Register eingeschrieben wird. Auf diese Weise kann die Adressenposition einer ersten Energiedateneinheit
E1 im nächsten Feld bezeichnet werden. Wenn dagegen festgestellt wird, daß die Energiedateneinheit
E17 größer ist als der Inhalt des EMX-Registers>
werden die nunmehr erhaltenen Größen i und E17 im M-Register bzw. im EMX-Register abgespeichert. Sodann
wird dieselbe Operation durchgeführt. Anschließend wird geprüft, ob die im ADR-Register enthaltene
Adressendateneinheit größer ist als die Adressendateneinheit ADR2. Ist dies nicht der Fall, so wird der
Schritt STP1 erneut durchgeführt. Falls dagegen festgestellt
wird, daß die Adresseneinbeit im ADR-Register
größer ist bzw. wird als die Adressendateneinheit ADR2, d.h. wenn festgestellt wird, daß die Bildung des
Histogramms für die Energiedateneinheit E17 zwischen
den Zeitpunkten Ai1 und A2 abgeschlossen ist, so wird
in einem Schritt STP2 geprüft, ob der 25-Stufen-Zähler
34 ein hochpegeliges Ausgangssignal EPS liefert. Ist dies der Fall, so wird der Vorgang der Bildung des
Histogramms beendet, worauf der nächste Vorgang zur Bestimmung des Schwellenwerts EP eingeleitet wird.
Palis andererseits das hochpegellge Ausgangesignal
nicht geliefert wird, werden Energiedaten E17 vom A/D-Wandler
10 abgenommen, wenn im nachfolgenden Feld ein Impuls C17 geliefert wird. Die Adressendateneinheit im
ADR-Register wird sodann in den Adressentafelplatz ADR(I) eingeschrieben, während die nunmehr ausgelesene
Energiedateneinheit E17 in die Energietafel bzw.
-tabelle TE(i) eingeschrieben und den nunmehr erhaltenen
Energiedaten E17 die Größe 1 zur Lieferung einer neuen Größe e hinzuaddiert wird. Die in einem durch
die neue Größe e bezeichneten Adressenplatz enthaltenen Histogrammdaten H(e) werden um 1 erhöht.
Als nächstes wird geprüft, ob die neu ermittelte Energiedateneinheit
E17 größer ist als der Inhalt im EMX-Register.
Ist dies nicht der Fall» so werden die Größe i um 1 erhöht und die Größe 17 zum Inhalt des ADR-Registers
hinzuaddiert, wobei das Ergebnis im ADR-Register gespeichert und sodann der Schritt STP2 erneut
durchgeführt wird. Falls andererseits die neu ermittelte Energiedateneinheit E17 größer ist als der Inhalt des
EMX-Registers, werden die Größen i und E17 in das M-
bzw. das EMX-Register eingeschrieben. Danach wird dieselbe Operation (erneut) durchgeführt.
Nach erfolgter Bildung des Histogramms werden die Maximum-Energiedaten E17 im EMX-Register abgespeichert,
während die Größe i, welche die die Maximum-Energiedaten
E17 enthaltende Feldzahl angibt, im M-Register gespeichert wird, die Adressendaten zwischen den Zeitpunkten
A2 und B2 in den Adressentafelplätzen ADR(I) bis ADR(N) des Speicherbereichs 42-3 gespeichert werden,
die Energiedaten E17 zwischen den Zeitpunkten A2 und B2 in den Energietafelplätzen TE(1) bis TE(N) abgespeichert
werden und die Histogrammdaten H(1) bis
H(L) in erster bis L-tar Adressenposition im Speicherbereich
42-1 gespeichert werden. Wenn eine Zahl X von Energiedaten E17 dieselbe Größe E(S) besitzen, werden
die Hi31οgrammdaten für X in der S-ten Adressenposition
des Speicherbereichs 42-1 abgespeichert.
Sodann können die Histogrammdaten H(e) entsprechend der graphischen Darstellung gemäß Pig. 4 im Speicherbereich
42-1 erhalten bzw. gewonnen werden.
Im folgenden ist anhand von Pig. 6 das Verfahren zur
Bestimmung des Schwellenwerts EP erläutert. Zunächst werden die Histogrammdaten H(1) zu Registern B(1) und
C(1) des Arbeitsspeicherbereichs 42-4 übertragen. Die Daten B(2) - B(L) und C(2) - C(L) werden mittels der
Gleichungen (18) und (19) und durch sequentielles Erhöhen der Größe von k berechnet, wobei die Daten
B(2) - B(L) in nicht dargestellten Registern B(2) B(L) des Arbeitsspeicherbereichs 42-4 und die Daten
C(2) - C(L) in entsprechenden, nicht dargestellten Registern C(2) - C(L) des Arbeitsspeicherbereichs 42-4
abgespeichert werden. In diesem Pail geben die Daten B(L) die Zahl N der Felder (frames) zwischen den
Zeitpunkten A2 und B2 an. Sodann wird nach Gleichung (20) die Größe μ™ berechnet und in einem entsprechenden
Register abgespeichert.
Als nächstes werden nicht dargestellte Register SGO,
DSO und DPO im Speicherbereich 42-4 freigemacht, und k wird auf 1 gesetzt. Hierauf wird im Schritt STP3
geprüft, ob die Histogrammdateneinheit H(k) gleich 0
ist. Im positiven Pail wird die Dateneinheit SGO in einem SGN-Register gesetzt. Sodann werden Daten DSN
durch subtrahieren der Daten SGO von den Daten SGN berechnet und in einem DSN-Register gespeichert, während
die Daten SGN im SGO-Reglster gesetzt bzw. in die
3>ο
see eingegeben werden. Wenn andererseits die Histogrammdateneinheit
H(k) nicht gleich 0 ist» wird nach Gleichung (21) «"B (k) berechnet und im SGN-Register
gesetzt» worauf dieselbe Operation (erneut) durchgeführt wird. Anschließend wird geprüft, ob die Dateneinheit
DSN gleich 0 ist oder nicht. Im positiven Pail wird in einem Schritt STP4 geprüft, ob k kleiner ist
als L. Ist dies der EaIl, so werden k um 1 erhöht und
der Schritt STP3 erneut durchgeführt. Im negativen
Fall wird geprüft, ob die Dateneinheit DSN positiv ist oder nicht. Ist dies der Fall, so wird die Dateneinheit
DSN im DSO-Register gesetzt bzw. in dieses eingegeben, und die verwendete Größe k wird in einem
Schritt STP5 im DPO-Register gesetzt. Danach wird der Schritt STP4 erneut durchgeführt. Wenn es sich zeigt,
daß die Dateneinheit DSN nicht positiv ist, wird geprüft, ob die Dateneinheit DSO positiv ist oder nicht.
Im negativen Fall wird der Schritt STP5 erneut durchgeführt. Falls dagegen die Dateneinheit DSO als positiv
festgestellt wird, werden die Größe k zur Dateneinheit DPO hinzuaddiert, das Additionsergebnis durch
2 dividiert und ein integraler Teil des Divisionsergebnisses als (Größe) βφ benutzt, bei welcher aL die
maximale Größe gemäß Fig. 4 besitzt. Danach wird der Durchschnitt oder Mittelwert EN der Energiedaten in
der Hintergrundrauschenklasse C1 nach Gleichung (22)
berechnet und im Register EN abgespeichert. Der Mittelwert EN wird zur Bildung eines Schwellenwerts EP einer
Konstante α hinzuaddiert. Wenn andererseits im Schritt STP4 festgestellt wird, daß k gleich L ist, d.h. wenn
festgestellt wird, daß eine zweckmäßige Größe von k, bei welcher rfg den Höchstwert annimmt, nicht bestimmt
wird, wird eine Konstante EC als Schwellenwert EP benutzt.
Im folgenden ist das Ablaufdiagramm gemäß Fig. 7A und
7B zur Bestimmung der echten Sprachdauer erläutert.
Zunächst werden SCNT- und NCNT-Zählregister sowie ein
SW-Register im Arbeitsspeicherbereich 42-4 freigemacht und Adressendaten im M-Register in das i-Register gesetzt
bzw. eingegeben. Wenn sodann in einem Schritt STP6 festgestellt wird, daß die SW-Dateneinheit auf 0
gesetzt ist, wird in einem Schritt STP7 geprüft, ob die Energiedateneinheit im Energietafelplatz TE(i)
kleiner ist als der Schwellenwert EP. Ist dies nicht der Fall, so wird die Größe i um 1 verringert, und der
Schritt STP6 wird erneut durchgeführt. Diese Operation
wird wiederholt, bis die Energiedateneinheit im Energietafel-
bzw. -tabellenplatz TE(i) im Schritt STP7 als kleiner als der Schwellenwert EP festgestellt wird,
d.h. bis ein Zeitpunkt A gemäß Fig. 2 erreicht ist. Wenn im Schritt STP7 festgestellt wird, daß die Energiedateneinheit
im Energietafelplatz TE(i) kleiner ist als der Schwellenwert EP, wird die Größe 1 in den Registern
SCNT und SW gesetzt, während die Größe i um 1 verringert wird. Danach wird der Schritt STP6 wiederholt. Wenn im
Schritt STP6 festgestellt wird, daß die Dateneinheit SW auf "1" gesetzt ist, wird in einem Schritt STP8 geprüft,
ob die Energiedateneinheit im Energietafelplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies der Fall,
so wird die Größe 1 zur Summe aus den Daten SCNT und NCNT hinzuaddiert, und das Additionsergebnis wird im
Register SCNT gespeichert, worauf das Register NCNT freigemacht wird. In einem Schritt STP9 wird geprüft,
ob die Dateneinheit SCNT gleich groß oder größer ist als eine vorgegebene Größe bzw. eine Vorgabegröße NS, die
z.B. 25 beträgt. Ist die Dateneinheit SCNT kleiner als die Größe NS, so wird die Größe i in einem Schritt STP10
um 1 verringert bzw. erniedrigt. Wenn die Größe i als
gleich, groß oder größer als 1 festgestellt wird, wird
sodann der Schritt STP6 erneut durchgeführt, während dann, wenn die Größe i kleiner ist als 1, der Zeitpunkt
A als der echte Ausgangspunkt festgestellt oder bestimmt
und die Größe i auf 1 gesetzt werden. In einem Schritt STP11 wird sodann die Größe i zur Dateneinheit SCNT
hinzuaddiert, und das Additionsergebnis wird in einem Register STAP als den Zeitpunkt A gemäß Fig. 2 angebende
Dateneinheit abgespeichert. Der Schritt STP11 wird auch
dann durchgeführt, wenn die Dateneinheit SCNT im Schritt
STP9 als der Größe NS gleich oder diese übersteigend fesogestelli wird.
Wenn im Schritt STP8 festgestellt wird, daß die Energiedateneinheit
im Energietafel- bzw. -tabellenplatz TE(i) nicht kleiner ist als der Schwellenwert EP, wird die
Dateneinheit NCNT um 1 erhöht, worauf geprüft wird, ob die Dateneinheit NCNT gleich groß oder größer ist als
eine Vorgabegröße NU, die beispielsweise 4 beträgt. Wenn die Dateneinheit kleiner 1st als die Vorgabegröße, wird
der Schritt STP10 ausgeführt. Wenn dagegen festgestellt wird, daß die genannte Dateneinheit der Vorgabegröße
gleich oder größer als diese ist, d.h. wenn ein weiterer Sprachabschnitt festgestellt wird, werden die Zählregister
NCNT und SCNT 3owie das Register SW sämtlich freigemacht, um dadurch zu bestimmen, daß der Zeitpunkt
A nicht als echter Anfangszeitpunkt anzusehen ist; sodann wird der Schritt STP10 ausgeführt.
Nach Ausführung des Schritts STP11, d.h. nach Erfassung
des Anfangspunkts A, werden die Daten SCNT, NCNT und SW sämtlich auf 0 gesetzt, und die im Register M enthaltenen
Daten werden in das Register i gesetzt. Hierauf wird in einem Schritt STP12 geprüft, ob die Dateneinheit SW auf
0 gesetzt ist. Ist dies der Fall, so wird geprüft, ob
die Energiedateneinheit im Adressentabellenplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies nicht
der Fall, so wird der Schritt STP12 ausgeführt, nachdem die Größe i um 1 erhöht worden ist. Diese Operation
wird wiederholt, bis festgestellt wird, daß die Energiedateneinheit kleiner ist als der Schwellenwert
EP, d.h. es wird ein Zeitpunkt B gemäß Pig. 2 erfaßt. Die Dateneinheiten SCNT und SW werden anschließend auf
1 gesetzt, und der Schritt STP12 wird nach Erhöhung IQ der Größe i um 1 ausgeführt.
Wenn im Schritt STP12 festgestellt wird, daß die Dateneinheit
SW auf 1 gesetzt ist, so wird in einem Schritt STP13 geprüft, ob die Energiedateneinheit im
Energietabellenplatz TE(i) kleiner ist als der Schwellenwert EP. Ist dies der Fall» so wird die Größe 1 der
Summe aus den Dateneinheiten SCNT und NCNT hinzuaddiert, und das Additionsergebnis wird im Register
SCNT gespeichert. Danach wird die Dateneinheit NCNT auf 0 gesetzt. Hierauf wird im Schritt STPH geprüft,
ob die Dateneinheit SCNT gleich groß oder größer als die Größe NS (geworden) ist. Wenn die Dateneinheit
SCNT kleiner ist als die Größe NS, wird die Größe i in einem Schritt STP15 um 1 erhöht. Sodann wird in
einem Schritt STP16 geprüft, ob die Größe i größer ist
als N. Wenn im Schritt STP16 festgestellt wird, daß die Größe i gleich groß oder kleiner ist als N, wird
der Schritt STP12 ausgeführt. Wenn dagegen festgestellt wird, daß die Größe i größer ist als N, werden der Zeitpunkt
B als der echte Endpunkt bestimmt und die Größe N im Register i gesetzt. Danach wird die Dateneinheit
SCNT von der Größe i in einem Schritt STP17 subtrahiert,
um Daten ENDP zu liefern, die in einem Register ENDP gesetzt bzw. in dieses eingegeben werden uad den Zeitpunkt
B gemäß Fig. 2 angeben. Der Schritt STP17 wird
auch durchgeführt, wenn im Schritt STPH festgestellt wird, daß die Dateneinheit SCNT gleich groß oder
größer ist als die Größe NS.
Wenn weiterhin im Schritt STP13 festgestellt wird, daß
die im Energietabellenplatz TE(i) enthaltene Energiedateneinheit nicht kleiner ist als die Größe EP, wird
die Dateneinheit NCNT um 1 erhöht, worauf geprüft wird, ob die Dateneinheit NCNT gleich groß oder größer ist
IQ als die Größe NU. Wenn die Dateneinheit NCNT kleiner
ist als die Größe NU, wird der Schritt STP15 erneut ausgeführt. Wenn andererseits festgestellt wird, daß
die Dateneinheit NCNT gleich groß oder größer ist als die Größe II, d.h. wenn ein weiterer Sprachabschnitt
5 festgestellt wird, werden die Register SW, NCNT und SCNT sämtlich freigemacht, um zu bestimmen, daß der
Zeitpunkt B nicht als echter Endzeitpunkt anzusehen ist; anschließend wird der Schritt STP15 erneut ausgeführt.
Nach der einwandfreien Bestimmung der echten Anfangsund Endpunkte liest die Zentraleinheit (CPU) 42 die
Energiedaten durch sequentielle Bezeichnung von durch die echten Anfangs- und Endpunkte definierten Adressen
aus dem Pufferspeicher 12 aus, um dann die Energiedaten zu einer nicht dargestellten Spracherkennungsschaltung
zu überführen.
Auch wenn das Hintergrund- bzw. Umgebungsrauschen groß ist oder der Pegel dieser Rausch- bzw. Störsignale stark
schwankt, kann mit der erfindungsgemäßen Vorrichtung die Dauer eines Spracheingangssignals einfach und genau
bzw. richtig bestimmt werden. Darüber hinaus besitzt die Vorrichtung gemäß Fig. 1 einen einfachen Aufbau.
Weiterhin arbeitet die Vorrichtung unter Gewährleistung eines großen praktischen Nutzeffekts in stabiler Weise.
Der Algorithmus zur Bestimmung bzw. Erfassung des Anfangspunkts
A sowie des Endpunkts B des Spracheingangssignals ist demzufolge einfach. Die erfindungsgemäße
Vorrichtung vermag somit eine genaue Bestimmung bzw. Messung in höchst zuverlässiger Weise zu gewährleisten.
Die Erfindung ist keineswegs auf die vorstehend beschriebene
Ausführungsform beschränkt. Beispielsweise können als Sprachparameter durch LPC-Analyse berechnete,
geschätzte Fehler, der Korrelationskoeffizient des Spracheingangssignals oder dergleichen benutzt
werden. Der Algorithmus zur Berechnung der Verteilung der Sprachparameter kann durch andere Algorithmen ersetzt
werden. Innerhalb des Rahmens der Erfindung sind
!5 daher verschiedene Änderungen und Abwandlungen möglich.
Leerseite
Claims (5)
- PATENTANSPRÜCHE[ 1 j Vorrichtung zur Bestimmung der Dauer von Sprach- oder Tonsignalen mit einer Abtasteinrichtung zur Abtastung eines Spracheingangssignals und zur Erzeugung einer Zeitfolge von Sprachparametern, einer an die Abtasteinrichtung angeschlossenen Speichereinrichtung zur Speicherung der Zeitfolge der Sprachparameter sowie einer ersten Bestimmungseinrichtung zur Bestimmung einer Sprachperiode nach Maßgabe des Vergleichs zwischen einer voreingestellten Größe bzw. Vorgabegröße und einer Zeitfolge von Sprachparametern, gekennzeichnet durch eine Einrichtung (34, 42, 44) zur Bestimmung einer ersten, der Sprachperiode unmittelbar vorausgehenden sprachfreien Periode und einer zweiten, unmittelbar auf die Sprachperiode folgenden sprachfreien Periode, durch eine Einrichtung (12, 42, 42-1 42-4) zur Bildung eines Histogramms auf der Grundlage der während der Sprachperiode sowie während erster und zweiter sprachfreier Periode erzeugten oder gelieferten Sprachparameter sowie zum Unterteilen der Sprachparameter in eine sprachfreie Klasse (non-voice class) und eine Sprachklasse auf der Grundlage des Histogramms, durch eine zweite Bestimmungseinrichtung (42, 42-1 42-4) zur Bestimmung eines Schwellenwerts auf der Grundlage des Mittelwerts der Sprachparameter in der sprachfreien Klasse und durch eine dritte Bestimmungseinrichtung (42, 42-1 - 42-4) zur Bestimmung der Sprachdauer auf der Grundlage des Schwellenwerts und der während der Sprachperiode sowie während erster und zwei-ter sprachfreier Periode erzeugten bzw. gelieferten und in der Speichereinrichtung (12) gespeicherten Sprachparameter .
- 2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die erste Bestimmungseinrichtung eine Bewegungsmittel (wert) schaltung (moving average circuit) zur sequentiellen Erzeugung eines Bewegungsmittels (moving average) für eine vorbestimmte Zahl aufeinanderfolgender Sprachparameter von der Abtasteinrichtung, eine Vergleichseinrichtung zum Vergleichen des Bewegungsmittels mit einer Vorgabegröße sowie eine Anfangsund Endpunkt-Bestimmungsschaltung zur Bestimmung eines vorübergehenden Anfangspunkts, zu dem das Bewegungsmittel größer wird als die Vorgabegröße, wenn festgestellt wird, daß das Bewegungsmittel während einer vorgegebenen (preset) Zeitspanne nach dem Erreichen des Anfangspunkts größer bleibt als die Vorgabegröße, und zur Bestimmung eines vorläufigen Endpunkts, zu dem das Bewegungsmittel kleiner wird als die Vorgabegröße, wenn festgestellt wird, daß das Bewegungsmittel während einer vorgegebenen Zeitspanne nach dem Erreichen des Endpunkts größer bleibt als die Vorgabegröße, aufweist.
- 3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die erste Bestimmungseinrichtung eine Einrichtung zur Erfassung eines Bezugspunkts zwischen den vorläufigen Anfangs- und Endpunkten aufweist und daß die dritte Bestimmungseinrichtung die, beginnend vom Bezugspunkt und zum vorläufigen Anfangspunkt hin, sequentiell aus der Speichereinrichtung ausgelesenen Sprachparameter zur Erfassung eines echten Anfangspunkts verarbeitet und weiterhin die, beginnend mit dem Bezugspunkt und zum vorläufigen Endpunkt hin, sequentiell aus der Speichereinrichtung ausgelesenen3233^371 Sprachparameter zur Erfassung eines echten Endpunkts verarbeitet.
- 4. Vorrichtung nach einem der Ansprüche 1 bis 3, da-5 durch gekennzeichnet, daß die Einrichtung zur Bildung . des Histogramms eine Recheneinrichtung zur Ableitung einer Zwischenklassenvarianz aus den Sprachparametern aufweist und die Sprachparameter in die sprachfreie Klasse und die Sprachklasse in bezug auf einen Sprach-10 parameter aufteilt, welcher die Zwischenklassenvarianz eine maximale Größe annehmen läßt.
- 5. Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die zweite Bestimmungseinrichtung15 eine Addiereinrichtung zum Hinzuaddieren einer vorbestimmten Größe zum Mittelwert der Sprachparameter zwecks Bestimmung des Schwellenwerts aufweist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56175431A JPS5876899A (ja) | 1981-10-31 | 1981-10-31 | 音声区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3233637A1 true DE3233637A1 (de) | 1983-05-19 |
DE3233637C2 DE3233637C2 (de) | 1986-07-03 |
Family
ID=15995979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3233637A Expired DE3233637C2 (de) | 1981-10-31 | 1982-09-10 | Vorrichtung zur Bestimmung der Dauer von Sprachsignalen |
Country Status (4)
Country | Link |
---|---|
US (1) | US4535473A (de) |
JP (1) | JPS5876899A (de) |
DE (1) | DE3233637C2 (de) |
GB (1) | GB2109205B (de) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
JPS59182498A (ja) * | 1983-04-01 | 1984-10-17 | 日本電気株式会社 | 音声検出回路 |
EP0143161A1 (de) * | 1983-07-08 | 1985-06-05 | International Standard Electric Corporation | Einrichtung zum automatischen Feststellen einer Sprachsignalaktivität |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
JPS60254279A (ja) * | 1984-05-31 | 1985-12-14 | Fuji Electric Co Ltd | 2値化しきい値の決定方法 |
IT1179803B (it) * | 1984-10-30 | 1987-09-16 | Cselt Centro Studi Lab Telecom | Metodo e dispositivo per la correzione di errori causati da rumore di tipo impulsivo su segnali vocali codificati con bassa velocita di ci fra e trasmessi su canali di comunicazione radio |
JPS61163400A (ja) * | 1985-01-14 | 1986-07-24 | 横河電機株式会社 | 音声分析装置 |
JP2521425B2 (ja) * | 1985-07-24 | 1996-08-07 | 松下電器産業株式会社 | 音声区間検出装置 |
JPS62296270A (ja) * | 1986-06-16 | 1987-12-23 | Toshiba Corp | 画像処理装置 |
FR2629964B1 (fr) * | 1988-04-12 | 1991-03-08 | Telediffusion Fse | Procede et dispositif de discrimination de signal |
JP2885801B2 (ja) * | 1988-07-05 | 1999-04-26 | 松下電送システム株式会社 | 変復調装置 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JP3337588B2 (ja) * | 1995-03-31 | 2002-10-21 | 松下電器産業株式会社 | 音声応答装置 |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
KR100207426B1 (ko) * | 1996-05-08 | 1999-07-15 | 전주범 | 무늬의 크기와 방향성을 이용한 텍스쳐 분류 장치 |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US5864793A (en) * | 1996-08-06 | 1999-01-26 | Cirrus Logic, Inc. | Persistence and dynamic threshold based intermittent signal detector |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
EP1171869B1 (de) * | 2000-01-27 | 2010-11-24 | Nuance Communications Austria GmbH | Sprachdetektiongsgerät mit zwei abschaltkriterien |
US7020448B2 (en) * | 2003-03-07 | 2006-03-28 | Conwise Technology Corporation Ltd. | Method for detecting a tone signal through digital signal processing |
JP4521673B2 (ja) * | 2003-06-19 | 2010-08-11 | 株式会社国際電気通信基礎技術研究所 | 発話区間検出装置、コンピュータプログラム及びコンピュータ |
US8345890B2 (en) * | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US9185487B2 (en) * | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
US8194880B2 (en) * | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
JP2008158328A (ja) * | 2006-12-25 | 2008-07-10 | Ntt Docomo Inc | 端末装置及び判別方法 |
JP4840149B2 (ja) * | 2007-01-12 | 2011-12-21 | ヤマハ株式会社 | 発音期間を特定する音信号処理装置およびプログラム |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8194882B2 (en) * | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) * | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
KR20130014895A (ko) * | 2011-08-01 | 2013-02-12 | 한국전자통신연구원 | 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법 |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
US10373608B2 (en) | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
JP7275711B2 (ja) | 2019-03-20 | 2023-05-18 | ヤマハ株式会社 | オーディオ信号の処理方法 |
CN113270118B (zh) * | 2021-05-14 | 2024-02-13 | 杭州网易智企科技有限公司 | 语音活动侦测方法及装置、存储介质和电子设备 |
JP7013610B1 (ja) | 2021-05-17 | 2022-01-31 | 株式会社アイセロ | 容器及び容器組立体 |
CN113749620B (zh) * | 2021-09-27 | 2024-03-12 | 广州医科大学附属第一医院(广州呼吸中心) | 一种睡眠呼吸暂停检测方法、***、设备及存储介质 |
CN117746905B (zh) * | 2024-02-18 | 2024-04-19 | 百鸟数据科技(北京)有限责任公司 | 基于时频持续性分析的人类活动影响评估方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2536585B2 (de) * | 1975-08-16 | 1980-08-21 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Anordnung zur statistischen Signalanalyse |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2437125A1 (fr) * | 1978-09-21 | 1980-04-18 | Cit Alcatel | Dispositif de traitement d'un signal d'analyse d'image |
US4351983A (en) * | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
-
1981
- 1981-10-31 JP JP56175431A patent/JPS5876899A/ja active Granted
-
1982
- 1982-08-27 US US06/412,234 patent/US4535473A/en not_active Expired - Fee Related
- 1982-09-06 GB GB08225301A patent/GB2109205B/en not_active Expired
- 1982-09-10 DE DE3233637A patent/DE3233637C2/de not_active Expired
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2536585B2 (de) * | 1975-08-16 | 1980-08-21 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Anordnung zur statistischen Signalanalyse |
Also Published As
Publication number | Publication date |
---|---|
GB2109205A (en) | 1983-05-25 |
DE3233637C2 (de) | 1986-07-03 |
JPH0222398B2 (de) | 1990-05-18 |
GB2109205B (en) | 1985-05-09 |
JPS5876899A (ja) | 1983-05-10 |
US4535473A (en) | 1985-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3233637A1 (de) | Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen | |
DE4126902C2 (de) | Sprachintervall - Feststelleinheit | |
DE3327139C2 (de) | Verfahren und Vorrichtung von für die Rekonstruktion einer Wellenform vorgesehenen Daten | |
DE3128171A1 (de) | Periodendauermessvorrichtung | |
DE2716739A1 (de) | Verfahren zur detektion von signalen | |
DE3837066A1 (de) | Rauschunterdrueckungseinrichtung | |
DE3407078A1 (de) | Elektronisches musikinstrument | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE3422877C2 (de) | ||
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69112855T2 (de) | Sprachsignalverarbeitungsvorrichtung. | |
DE19746258C2 (de) | Echosteuervorrichtung eines Videokonferenzsystems und zugehöriges Steuerverfahren | |
EP0777326B1 (de) | Verfahren und Vorrichtung zur Filterung eines Audiosignals | |
DE2021126A1 (de) | Spracherkennungsvorrichtung | |
DE2720666A1 (de) | Verfahren und anordnung zur geraeuschanalyse | |
DE2920041C2 (de) | Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens | |
EP0685706A1 (de) | Verfahren zur Echtzeitermittlung des Offsetanteils eines Messsignales | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
EP1382034B1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
DE102005012977A1 (de) | Verfahren und System zur Rauschmessung mit den kombinierbaren Unterverfahren Messen, Identifizieren und Beseitigen von sinusförmigen Störsignalen in einem Rauschsignal | |
EP0803861B1 (de) | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal | |
DE4020643A1 (de) | Verfahren zur tiefpassfilterung und anordnung zur durchfuehrung des verfahrens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: HENKEL, G., DR.PHIL. FEILER, L., DR.RER.NAT. HAENZ |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: KABUSHIKI KAISHA TOSHIBA, KAWASAKI, KANAGAWA, JP |
|
8339 | Ceased/non-payment of the annual fee |