DE1937464A1

DE1937464A1 - Sprachanalysiergeraet

Info

Publication number: DE1937464A1
Application number: DE19691937464
Authority: DE
Inventors: Tomio Yoshida; Hirokazu Yoshino
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1968-07-24
Filing date: 1969-07-23
Publication date: 1971-02-18
Also published as: US3592969A; DE1937464B2; FR2014696A1; DE1937464C3; GB1261385A; NL6911293A

Description

Patentanwälte 1837464

ϊΐρΐ.-ing. Leinweber

Di^i.-inglimmermann * _Λ

nchen 2, Resental7 Tel. 261989 ■ ■ ■ ^l

2% Juli 3

MATSUSHITA ELECTRIC INDUSTRIAL CO., LT]D. Osaka, Japan

Die Erfindung bezieht sich auf einen Sprachanalysator.

In der Energieverteilung eines Sprächspektrums finden sich für jeden Zeitabschnitt für gewöhnlich, ein bis vier Energieballungen (örtliche Höclistwerte) oder Formanten, die in der Mund- und Hasenhöhle, dem Stimmorgan des Menschen, gebildet werden. Für diese Formanten sind die Ausbildung und das Volumen der Mundhöhle in Erstrekkung von den Stimmbändern bis zur Zunge bestimmend. Genauer gesagt, je größer die Mundhöhle, um so geringer ist die Formantenfrequenz insgesamt, und je kleiner die Mundhöhle, um so höher insgesamt die Formantenfrequenz. In der Ausbildung und im Volumen der Mundhöhle von den Stimmbändern bis zur Zunge bestehen individuelle Unterschiede. So ergeben sich in der Frequenzverteilung des Formanten . auch bei dem gleichen Sprachlaut individuelle Unterschiede. Ungeachtet dieser individuell bedingten Unterschiede in der Formantenfrequenzverteilung wird gleichwohl aber die Wortbedeutung richtig erfaßt, weshalb davon auszugehen ist, daß die Beziehungen zwischen den Formanten relativ konstant sind.

. ■ Die

109808/0847

1S37464

- 2 - "■"■■■"

Die nach dem Stand der Technik bekannten Sprachanalysiergeräte "beruhen in ihrer Wirkweise lediglich darauf, daß ein Sprachlautsignal mit Hilfe einer Vielzahl von Bandpässen, deren jeder 'einem bestimmten Frequenzband entspricht, gefiltert wird, worauf die Ausgänge der einzelnen Bandpässe zur Speicherung in zeitlicher Aufeinanderfolge einer Speichermatrixschaltung zugeführt werden. Die erwähnten Bandfilter sind im übrigen so aufgebaut, daß deren Durchlaßfrequenzbereiche in ihrer Gesamtheit den Sprechfrequenzbereich ganz erfassen. ' ·

■ Bei einem solchen bekannten System besteht die Tendenz, daß das Frequenz-Zeit-Schema der Speichermatrixschaltung infolge individueller Stimmunterschiedlichkeiten von Sprecher zu Sprecher Unterschiede aufweist, beispielsweise also Unterschiede in der Tonhöhenfrequenz. Mit anderen Worten, wenn also verschiedene Personen zum Beispiel den Laut "a" artikulieren, so lassen sich Unterschiede im Frequenz-Zeit-Schema feststellen. Es1st somit die Möglichkeit in Rechnung zu stellen, daß in der- Sprachanalyse und Auffassung des Gesprochenen Fehler auftauchen, falls das obige System bei einem Gerät Anwendung findet, das einerseits zur Sprachanalyse dienen soll, daneben aber auch zur Sprachsinnerfassung.

Durch die Erfindung sollen die yorbezeichneten Mängel beseitigt werden. ■

Die Erfindung hat' zur Hauptaufgabe, eine Kodierung der Beziehung zwischen Formantenfrequenz und Zelt, die unter Ausschaltung individueller Sprachlautunterschiedlichkeiten normalisiert wird, zu ermöglichen, so daß also ein Gerat zur Sprachsinnerfassung und Sprachübertragung geschaffen wird, das wesentliche- Vorteile gegen- ■ über den bekannten Geräten zur Sprachsinnerfassung verbürgt. . -

Weiterhin hat die -Erfindung zur Aufgabe, Möglichkeiten ' für eine mit hoher Geschwindigkeit erfolgende Stimmanalyse zu schaffen, so daß eine Unterscheidung zwischen Vokal und Konsonant, insbesondere einem kurzen Konsonanten, ermöglicht wird,. ~ ν

Die Erfindung geht davon aus, daß zwischen den Formanten bestimmte konstante Beziehungen bestehen, und zwar unbeschadet der •Tatsache, daß sich die von den einzelnen Sprechern artikulierten

• Spraohlaute

109808/0847

Sürachläute in ihrer.Tonhöhenfrequenz voneinander unterscheiden. Pur. die Erfindung, ist kennzeichnend, daß in Abhängigkeit von den Schwankungen in der Touhöhenfrequenz ein Signal erzeugt, die Summe oder . Differenz aus diesem Signal und einem zu analysierenden. Sprachlautsignal ermittelt und hierauf ein Frequenz-Zeit-Schema in bezug auf das so verarbeitete Signal erhalten wird. Auf diesem Wege ist es möglich, individuell bedingte Unterschiede aus dem vorerwähnten Schema zu eliminieren und dieses zu normalisieren.

Weitere Ziele, Merkmale und Torteile der Erfindung erge- , ben sich aus dem Zusammenhang der nachfolgenden Beschreibung in Verbindung mit den Tbeigegebenen Zeichnungen. In den Zeichnungen zeigen:

'ELgux 1 eine schematische Darstellung einer Ausführungsform des durch die Erfindung geschaffenen Sprachanalysators;

Figuren. 2a und 2b graphische Darstellungen der Charakteristik jeweils eines darin enthaltenen Schaltelements;

Figuren 3 bis 10 Darstellungen zur Erläuterung der einzelnen Scnaltaittei, die, in ihrer Gesamtheit die in Figur 1 gezeigte Anordnung !bilden*

figur 11 eine schematische Darstellung-einer zweiten Ausführungsform des durch die Erfindung geschaffenen Sprachanalysatorsj und

Figur 12 eine Darstellung der Anordnung des für die Erfindung typischsten Schaltmittels.

Die Erfindung soll nun anhand der in Figur 1 dargestellten Ausführungsfonn beschrieben werden, bei der Schallwellen mit Hilfe eines Mikrophons 1 in ein elektrisches Signal umgewandelt werden, worauf das so erhaltene elektrische Signal in einem Verstärker 2 verstärkt -wird, dessen Ausgang dann einem Tiefpaßfilter 3, einem Spracheinsatzdetektor 4 und einem Tonhöhenfrequenzdetektor 5 zugeführt wird. Der Spracheinsatzdetektor 4 stellt das Einsetzen eines eingehenden Sprachsignals fest und liefert ein Impulssignal. Beim Auftreten dieses Signale werden verschiedene Schaltmittel in Betrieb genommen, auf die weiter unten näher eingegangen werden soll. Der

Tonhöhenfrequenzdetektor

10980R/0847 .

■,.■■■ - - 4 - - . . / '■'■ Toiihöhenfrequenzdetektor, 5 ermittelt die Tonhöhenfrequenz eines eingehenden Sprachsignals und liefert ein Impulssignal mit einer FoIgQ-frequenz f , die gleich der Tonhöhenfrequenz ist. Dieses Impulssignal wird dem einen der Eingangsanschlüsse eines Frequenzunterschiedsdetektors 6 zugeleitet, nämlich dem Anschluß f. Der Frequenzunterschiedsdetektor 6 liefert entsprechend einem Frequenzunter- .. ■ schied (f - f ) zwischen einem über einen anderen Anschluß 8 zuge-

s P
führten Signal mit einer Vergleichsfrequenz f und dem vorerwähnten Impülssignal eine Ausgangsgleichspannung V . In der Praxis ist es leichter, eine der Frequenz f entsprechende Spannung Y und eine ν der Vergleichsfrequenz f entsprechende Spannung V miteinander zu

S . S

vergleichen. Zwischen dem Frequenzunterschied (f - f ) und der

ρ s

Ausgang sgl eich spannung Y_n besteht eine lineare Beziehung nach Art der in Figur 2a dargestellten, so daß sich .die Ausgangsgi eich spannung V^ mit steigendem Frequenzunterschied erhöht. Die Ausgangs- ' gleichspannung Y_ wird einem frei schwingenden Oszillator 9 zugeführt, der hierauf ein Sinuswellensignal mit einer Frequenz f abzugeben vermag. Zwischen der aus dem frei schwingenden Oszillator 9 erhältlichen Schwingungsfrequenz f und der von dem Frequenzunterschi edsdetek tor 6 abgegebenen Ausgangsgleich spannung V₇^ besteht eine lineare Beziehung wie die in Figur 2b veranschaulichte. Mit anderen Worten, die Schwingungsfrequenz ist f _ bei einer Spannung V-. gleich Null; sie erhöht sich mit einer in positiver Richtung ansteigenden Spannung V , und sie verringert sich mit einer in negativer Richtung ansteigenden Spannung V .

Das eingehende Sprachsignal, das zum Eliminieren höherer Frequenzkomponenten als der zur Sprachanalyse erforderlichen durch das Tiefpaßfilter 3 gefilterttst, wird dem einen der Eingangsanschlüsse eines Frequenzwandlers 10 zugeführt, dem über den anderen Anschluß der Ausgang des freischwingenden Oszillators 9 zugeleitet wird. Ist nun die Frequenz des gefilterten Sprachsignals f , so wird am Ausgangsanschluß des Frequenzwandlers, nämlich eines noch zu beschreibenden Ringmodulators, ein umgewandeltes Signal mit einer Frequenz (fjj + f_y) erhalten. Dieses Signal mit einer Frequenz (^f _M + ^f _v) wi^r<i einer aus einer Vielzahl von Filtern aufgebauten Frequenzwahlschaltung 11 zugeführt. Bevorzugterweise wird die höhere

Frequenz

8/0847

"Frequenz (f.. + f ) zur Erhöhung der Analysiergeschwindigkeit durch eine Verringerung der'Zeitkonstanten nachfolgender Schaltelemente wie beispielsweise Integratoren gleichgerichtet. Jedes der in der erwähnten Frequenzwahlschaltung 11 vorgesehenen Filter weist eine solche Bandbreite auf, daß ein vorbestimmtes Frequenzband in einem Frequenzbereich von (f™ + 200) Hz bis (*"_Μ0 + 5000) Hz durchgelassen werden kann.

Die Frequenzwahlschaltung 11 ist so aufgebaut, daß eine eingehende Sprechfrequenz in eine Vielzahl von Bändern unterteilt wird, die ihrerseits einem Formantendetektor 12 zugeführt werden, der geeignet ist, einen Formanten in den unterteilten Bandsignalen festzustellen. Der Formant wird in einer Matrizenschaltung IJ gespeichert, die in zeitlicher Zuordnung vom Beginn des Sprachlauteinsatzes an als Informationsspeicher dient. Zu diesem Zeitpunkt wird durch den Ausgang des Spracheinsatzdetektors 4 eine Matrizentreiberschaltung 14 zum Durchsteuern der Matrizenschaltung 13 in Betrieb genommen, so daß die "Schreib"-spalten der Matrizenschaltung 13 in vorbestimmten Zeitabständen vom Zeitpunkt des Spracheinsatzes festgelegt werden. So wird ein kurz nach dem Einsetzen des Sprechens auftretender Formant in derjenigen Spalte der Matrizenschaltung 13 gespeichert, die in der Betrachtungsrichtung der Figur am weitesten links liegt, und ein in einem hierauf folgenden Zeitintervall auftretender Formant wird in der zweiten Spalte gespeichert. In dieser Weise wird in jedem Zeitintervall in der Matrizen*· schaltung 13 ein Formant gespeichert. Tritt in einem bestimmten Band in einem festgelegten Zeitintervall eine Energieballung auf, so wird in die Matrizenelemente der diesem Band entsprechenden Zeile "1" eingeschrieben, und falls in den änderen Bändern keine Energieballung vorhanden ist, wird in alle anderen Elemente als die vorbezeichneten ¹¹O" eingeschrieben.

Es soll nun auf die einzelnen Schaltmittel näher eingegangen werden, die in der Anordnung der Figur 1 vorgesehen sind. Figur 3 zeigt den Tonhöhenfrequenzdetektor 5 und die dazugehörigen Anordnungen, wobei ein Sprachlaut mittels des Mikrophons 1 in ein elektrisches Signal umgewandelt wird, das hierauf in dem Verstärker 2 " verstärkt und dann durch ein Tiefpaßfilter 51 mit einer oberen Fre-

1098087084

■■-'■. :^{: ;} ''.V ■■■■■■■ - 6 - .-■■■■■ ..■■■■.■■■" ■ ■ '.

quenz von 300 Hz gefiltert wird. Der Ausgang des Filters 51 wird durch einen Integrator 52 integriert, so daß ein mit der Tönhöhenfrequenz oszillierendes Signal erzeugt wird, dasmittels einer Schmitt-Triggerschaltung 53 wiederum in ein Rechtecksignal mit einer FoIgefrequenz, die gleich der Tonhöhenfrequenz ist, umgewandelt wird. Das resultierende Rechtecksignal wird über eine Torschaltung 54 j die in ihrer Torwirkung durch ein Steuersignal gesteuert ist, einem Zähler 55 zugeführt, so daß die Tonhöhenfrequenz des Eingangssignals " gezählt wird. Das in dem Zähler 55 durch den Zählvorgang ermittelte Ergebnis wird durch einen Digital-Analog-Umsetzer 56 in ein Analogsignal umgewandelt, wobei der von dem Umsetzer 56 abgegebene Ausgang sgleichstrom Y der Tonhöhenfrequenz des Eingangssignals proportional ist. -

Die Matrizenschaltung 13 baut sich im allgemeinen aus bistabilen Schaltungen oder aus Magnetkernspeiehern auf.

In Figur 4 ist ein Frequenzunterschiedsdetektor 6 dargestellt, der einen Unterschied zwischen den Frequenzen zweier Eingangssignale festzustellen vermag, nämlich einen Unterschied zwischen der Tonhöhenfrequenz eines'eingehenden Sprachsignals und der Frequenz eines Sprachbezugssignals, und der hierauf eine diesem Unterschied proportionale Gleichspannung erzeugt und hält. An den einen Eingangsanschluß I4 eines Differentialvexstärkers 6l wird die vorerwähnte, aus dem Tonhöhenfrequenzdetektor 5herrührende Gleichspannung Y angelegt, die der Tonhöhenfrequenz f proportional ist> während an den anderen EingangsanSchluß I5 über einen Umschalter S* eine Gleichspannung angelegt wird» deren Pegel der fönhöhenbezugsfrequenz für die Laute "a", "e", "i", "o" öder "unproportional ist. Der Different!alVerstärker ist im übrigen so aufgebaut, daß er keinen Ausgang liefert, falls die an seine beiden Eingangsanschlüsse angelegten Gleichspannungen einander gleich sind.

Artikuliert ein Sprecher den Laut"a", der auch einer der japanischen Vokale ist, während an den.Eingangsanschlüß I5 des Differentialverstärkers 61 über den Umschalter S, eine dem Ständard-· vokal "a" entsprechende Gleichspannung angelegt ist, so läßt sich am Ausgang des Differentialverstärkers 61 eine dem Unterschied zwischen der Tonhöhenbezugsfreqüenz und der Tonhöhenfrequenz des Sprechers

. 1Q98Q8/084T

ehe rs entsprechende Spannung e-j^ abnehmen. Diese Spannung β_χ wird durch einen Analog-Digital-Umsetzer 62 in ein Digital signal umgewandelt und dann in einem Speicherkreis 63 gespeichert. Durch Umschalten des Schalters S₁ werden hierauf die Unterschiede zwischen den Tonhöhenbezugsfrequenzen für "e", "i", "o" und "u" und den betreffenden Tonhöhenfrequenzen des Sprechers ermittelt und die jeweils diesen Unterschieden entsprechenden Spannungen e^, e„, e beziehungsweise e,_ in der obenbeschriebenen Weise in dem Speicherkreis 63 gespeichert. Eine Logikschaltung 64 liefert entsprechend dem arithmetischen Mittel der aus deia Speicherkreis 63 verfügbaren Ausgangsspannungen gemäß

ein Digitalsignal. Dieses Digitalsignal wird mit Hilfe des Digital-Analog-Umsetzers 65 in ein Analogsignal wie beispielsweise eine Gleichspannung V umgewandelt und festgehalten.

In Figur 5 ist der freischwingende Oszillator 9dargestellt, dessen Ausgangsfrequenz mit der über den Eingangsanschluß 91 angelegten Ausgangsspannung VL des Fre.quenzuntersohiedsdetektors 6 veränderlich ist. Hierbei ist im einzelnen eine kapazitätsvariable Diode VC mit einem Kondensator C parallelgeschaltet und bildet zusammen mit einem Kondensator C_? und einer Spule L einen Serienresonanzkreis. Einem Transistor Q wird über Widerstände IL und E. eine Basisvorspannung erteilt', und eine durch die Kondensatoren C und Cg₅ die kapazitätsvariable Diode VC und die Spule L bestimmte Serieriresonanzspannung wird über einen Kondensator C zur Basis zurückgespeist, so daß der Oszillationsvorgang vonstatten gehen kann. Das Potential an der Katode der kapazitätsvariablen Diode erhöht sich, beim Anlegen der Spannung V an den Anschluß 9I, so daß sich, die Kapazität der kapazitätsvariablen Diode VC bei einem Ansteigen der Spannung V^ verringert. Die Eesonanzfrequenz des vorerwähnten Serienresonanzkreises erhöht sich somit, so daß sich also auch die Schwingurigsfrequenz erhöht. Verringert sich hingegen die Spannung V , so verringert sich auch die Schwingungsfrequenz. Der Schwingungsausgang kann am Kollektor <des Transistors Q abgenommen werden.

Figur

-0 8/0'84 7 ·

Figur 6 zeigt den Frequenzwandler 10, der beispielsweise als Eingmodulator ausgebildet sein kann, wobei der Ausgang (die ■ Schwingungsfrequenz f ) des frei schwingenden Oszillators 9 über die Anschlüsse 101 und 102 zugeführt wird, ein Sprachsignal (die Frequenz f ) dagegen über die Anschlüsse 103 und 104, so daß an den Ausgangsanschlüssen 105 und 106 Signale (f + f^) erscheinen. Von ■ hier wird das Summen signal (f.. + f ) in der vorbeschriebenen Y/eise an die nachfolgenden Stufen weitergelei.tet. Für den Fachmann bedarf es keiner weiteren Erläuterungen, daß statt des Ringmodulators auch ein Amplitudenmodler vorgesehen sein kann.

Bei Figur 7 handelt es sich um eine Darstellung zur Erläuterung der AusgangsCharakteristik an den Ausgangsanschlüssen 105 und 106, wobei mit der Bezugszahl 107 das Sprechfrequenzband eines Sprechers bezeichnet ist, dessen Tonhöhenfrequenz f ·.. sei, mit der Bezugszahl 108 das Sprechfrejquenzband eines Spreehers, dessen Ton- höhenfrequenz f sei, und mit der Bezugszahl 109 das Ausgangsfrequenzband für den Fall, daß über die Anschlüsse 103 und 104 ein innerhalb des Sprechfrequenzbandes 107 liegendes Sprachsignal zugeführt wird, wobei die von der Tonhöhenfrequenz f■. abhängige Ausgangsfrequenz f'„ des frei schwingenden Oszillators 9 zur Verschiebung in den hohen Frequenzbereich über die Anschlüsse 101 und 102 zugeführt wird und die Tonhöhenfrequenz eine Änderung zu f . , erfährt. Die Bezugszahl 110 bezeichnet das Aüsgangsfrequenzband für den Fall, daß über die Anschlüsse 103 und 1Ö4 ein innerhalb des Sprechfrequenzbandes 108 liegendes Sprachsignal zugeführt wird, wobei die Ausgangsfrequenz f des freischwingenden Oszillators 9 zugeleitet und die Tonhöhenfrequenz zu f „₍ verschoben wird. Es gelten also die folgenden Beziehungen:

'Vv=V^{+ 1}Mi ^und V' - V ⁺ >M2 '}■:/

Es bereitet keine Schwierigkeiten, den freischwingenden Oszillator ■9. so. aufzubauen, daß dessen Ausgangsfrequenzen f und f_M in der Weise mit der Tonhöhenfrequenz veränderlich sind, daß der Bedingung

Genüge geleistet wird. Sieht man einen Oszillator 9 vor, der dieser

Anforderung

109808/0847

Anforderung gerecht wird, so ist im wesentlichen eine Angleichung der Tonhöhenfrequenz unabhängig von der Stimmeigenart des jeweiligen Sprechers möglich. Es wird also das Sprachsignal frequenzmäßig korrigiert und normalisiert.

Figur 8' zeigt die Anordnung der Frequenzwahlschaltung 11 und des Formantendetektors 12. Das in dem Frequenzwandler 10 normalisierte Sprachsignal wird zunächst über einen Anschluß 111 der Frequenzwahl schaltung 11 zugeführt. Die Frequenzwahlschaltung 11 ist aus einer Vielzahl von Bandpaßfiltern BPFl, BPF2, BPF3, ... · aufgebaut, durch die das Sprachsignal auf die betreffenden Durchlaßbereiöhe aufgeteilt wird. Die Ausgänge der einzelnen Bandfilter BPFl, BP F2, BPF3, ... werden Emitterfolge schaltungen EFl, EF2, EFJ, c. zugeleitet, die jeweils dem Formantendetektor 12 entsprechen. Die Ausgänge der Emitterfolge schaltungen EFl, EF2, EF3, ... werden Integratoren INTl, INT2 , INT3, ...zugeführt, um in diesen integriert zu werden. Der Integrator INTl ist mit der Emitterfolgeschaltung EFl über einen Transformator T gekoppelt, der den Gleichstrompegel im Ausgang des Emitterfolgers sperrt, so daß ein über die Sekundärspule des Transformators T induziertes Signal durch eine Diode D gleichgerichtet und dann durch eine aus einem Kondensator C und einem Widerstand R bestehende Parallelschaltung integriert wird. Die übrigen Integratoren INT2, INT3t «♦· haben den gleichen Aufbau. Weiterhin werden die Ausgänge der Integratoren INTl, INT2, INT3, ... jeweils den betreffenden Pufferverstärkern Bl, B2, B3 , ... zugeführt, während die Ausgänge e,, e_?, e_, ... der Pufferverstärker Bl, B2, B3, ... den betreffenden Di ffere.nzver stärkern DAl, DA2, DA3> ... zugeleitet werden. Jeder dieser Differenzverstärker DAl, DA2, DA3, ... verstärkt die Differenz zwischen den einander jeweils benachbarten der Ausgänge e₁, e₂, e,, .-.. der Pufferverstärker Bl, B2, BJ, «... So werden beispielsweise die Ausgängen, und e„ der Pufferverstärker Bl und B2 dem Differenzverstärker DAl zugeführt, so daß die Differenz zwischen diesen beiden Ausgängen oder (e_n - e_) darin verstärkt wird. Der Ausgang des Differenzverstärkers DAl wird einem Oberpegeldiskriminator ULDl und einem Unterpegeldiskriminator LLDl zugeführt. In ähnlicher Weise werden die Differenzspannungen (®2 ~ ⁸O » (^ex - ⁸^)* ··· Jeweils duroh die betreffenden der übrigen

Differenzve r Btärkar

109808/0847

Differenzverstärker DA2, DA3, ■-... verstärkt und die Ausgänge dieser Differenzverstärker DA2, DA3, ... werden den Oberpegel- und den Unterpegeldiskriminatoren ULD2 und LLD2 beziehungsweise ULD3 -und LLD3, ... zugeführt. Die Oberpegeldiskriminatoren TJLDl, ULD 2, ULD3, ... sprechen auf positive Ausgangspegel der vorgeschalteten Differenzverstärker DAl, DA2, DA3, ... an und erzeugen Rechteoksignale, deren Impulsbreite jeweils gleich der Zeitspanne ist, in welcher der Ausgangspegel positiv ist. Die Unterpegeldiskriminatoren LLDl, LLD2, LLD3, o.. sprechen demgegenüber auf negative Ausgangspegel der Differenzverstärker DAl, DA2, DA3,* ... an und erzeugen Rechtecksignale, deren Impulsbreite jeweils gleich der Zeitspanne ist, in welcher der Ausgangspegel negativ ist. Mit anderen Worten, jeder der Oberpegeldiskriminatoren vermag einen Ausgang zu liefern, wenn

^ei^{> e}i⁺¹ C^{1 = L}> ²> 3».·■··*■)■

und jeder der Unterpegeldiskriminatoren liefert einen Ausgang wenn ⁸I^V⁺¹ (i = 1, 2, 3, ..·)

Der Ausgang des Oberpegeldiskriminators ULDl wird unverändert als Formantenausgang entnommen. Die Ausgänge des Unterpegeldiskriminator s LLDl und des Oberpegeldiskriminators ULD2 werden einer Moht-Und-Schaltung HGl- züge führt-und; die Ausgänge des Unterpegel diskriminators LLD2 und des Oberpegeldiskriminators ULD3 einer Nicht-Und-Schaltung HG2. Anders ausgedrückt, der Ausgangsanschluß eines auf einen positiven Pegelwert des Ausgangs eines Differenzverstärkers ansprechenden Oberpegeldiskriminators und der Ausgangsanschluß einesauf einen negativen Pegelwert des Ausgangs eines Differenzverstärkers ansprechenden Unterpegeldiskriminators sind mit einer gemeinsamen Kicht-Und-Schaltung verbunden. ■

_ ITimmt man an, daß beispielsweise im Durchläßbereich des Bandpaßfilters BPP2 eine Energie spitze vorhanden iat, so gelten zwischen den Ausgängen e, , e^ und e, der Puff erver stärker Bl, B2 und B3 die folgenden Beziehungen:

^ei^<e2 - ..;'■ ."'■-. ■ :

Der Differenzverstärker DAl liefert mithin einen negativen Ausgang und der Differenzverstärker DA2 liefert einen positiven Ausgang. Auf den Ausgang des Differenzverstärkers DAl spricht daher der Unterpegeldiskriminator LLDl an, auf den Ausgang des Differenzverstärkers DA2 dagegen der Oberpege!diskriminator ÜLD2, so daß der Ausgang der i\icht-ünd-Schaltung IiGl- verändert wird und erkennen läßt, daß in dem Band des Bandfilters EPF2-eine Energie spitze vorhanden ist. Dieses Signal, welches das Vorhandensein eines Pormanten anzeigt, wird mit einem Zeitsignal in. Koinzidenz gebracht, das als Ausgang der Matrizentreiberschaltung mit dem nachstehend beschriebenen Aufbau erhalten wird, und wird hierauf in ein vorbestimmtes der die llatri ze η schaltung 13 bildenden Matrizenelemente eingeschrieben und darin gespeichert.

In Figur 9 ist die llatrizentreiberschaltung 14 dargestellt, bei der eine einzige bista.bile Schaltung BS mit mono stabilen Schaltungen "MSl, I.IS2, IJS3> ··· in Reihe geschaltet ist, die jeweils den Spalten der Matrizenschaltung 13 entsprechen. Die bistabile Schaltung BS wird durch den Ausgang des Spracheinsatzdetektors 4 zum Durchsteuern der folgenden mono stabilen Schaltung MSl getriggert. Diese mono stabile Schaltung liefert für eine vorbestimmte Zeitspanne, deren Dauer von den Leitungskonstanten abhängt, einen Ausgang. Die mono stabile Schaltung LIS2 wird durch die Hinterflanke eines aus der vorgeschalteten mono stabilen Schaltung 1,ISl herrührenden Ausgangsimpulses getriggert. In dieser Y/eise können die monostabilen Schaltungen LIS2, M S3 > ··· den Betriebsablauf in der mono-. stabilen Schaltung MSl nachvollziehen, und der Schreibvorgang erfolgt bei Betätigung der monostabilen Schaltungen LiSl, MS2, M S3, jeweils in der betreffenden Spalte der Matrizenschaltung 13. Figur 10 gibt die resultierenden Wellenformen wieder, wobei ersichtlich ist, daß die Arbeitszeiten ti, t2, t3, ... der mono stabilen Schaltungen MSl, MS2, MS3» ...so gewählt sind, daß sie sich zur Wortanalyse und Wortsinnerfassung eignen. Es läßt sieh ohne weiteres eine Anordnung vorsehen, bei der die Gewähr gegeben ist, daß der Rückstellimpuls zum Rückstellen der bistabilen Schaltung BS zugeführt wird, nachdem das Sprachsignal erloschen ist.

109808/0847

Bei der obenbeschriebenen Anordnung wird bei spiel swei se ein während der .Arbeitszeit der mono stabilen Schaltung MSl eingehender Formant in ein Matrizenelement eingeschrieben, das in die erste 'Spalte der Matrizenschaltung 15 eingegliedert ist und das demjenigen Frequenzband entspricht, in dem der Formant auftritt. Ähnliche Betriebsvorgänge erfolgen auch in der zweiten und in den folgenden Spalten der Matrizenschaltung IJ. In der Matrizenschaltung 13 entsteht demgemäß ein Schema zeitlicher Zuordnung der durch das Sprachsignal repräsentierten Information.

Durch Verschieben der Sprechfrequenz eines Sprechers in der vorbeschriebenen Weise in Entsprechung zur Tonhöhenfrequenz kann das Frequenz-Zeit-Schema ohne Schwierigkeiten normalisiert werden. Durch ein einfaches Verschieben der Sprechfrequenz' in einen höheren Frequenzbereich können die Zeitkonstanten der einzelnen Filter wie auch die der Integratoren verringert werden, so daß die Sprachanalyse mit hoher Geschwindigkeit erfolgen kann.

Bei dem obenbeschriebenen Gerät können allerdings noch Schwierigkeiten auftauchen, wenn ein stimmloser Laut, beispielsweise ein Konsonant, analysiert werden soll, wenngleich das Gerät bei der Analyse eines stimmhaften Lauts, beispielsweise eines Vokals, einwandfrei arbeitet. Es ist also erforderlich, eine Vorrichtung zu schaffen, die geeignet ist, auch stimmlose Laute mit hoher Geschwindigkeit und mit hoher Präzision zu analysieren.

Figur 11 zeigt den Aufbau eines Geräts, ,das auch die Analyse stimmloser Laute ermöglicht, wobei dessen Hauptteil mit der Anordnung der Figur 1 übereinstimmt. Diejenigen Schaltmittel, deren Wirkweise die gleiche ist wie die der in Figur 1 dargestellten, sind daher auch mit den gleichen Bezugszahlen wie dort versehen, und es braucht darauf nicht näher eingegangen zu werden.

. In der Darstellung der Figur 11 ist mit der Bezugszahl eine Schaltung zur Unterscheidung stimmhafter und stimmloser Laute bezeichnet, der das Ausgangssignal des Frequenzwandlers 10 zugeführt wird. Diese Schaltung 15 zur Unterscheidung stimmhaft/stimmlos ist so aufgebaut, daß durch einen Vergleich der Energie des unteren Frequenzbandes im Ausgangssignal des Frequenzwandlers 10 mit der Ener-

109808/0847

gie in dessen oberem Frequenzband jederzeit eine Unterscheidung möglich ist, ob es sich bei einem Sprachlautum einen stimmhaften oder stimmlosen Laut handelt. Die zum Speichern eines Freqiienz-Zeit-Schemas dienende Matrizenschaltung 13 weist außer dem Matrizenteil 13A, das in der im obigen unter Bezugnahme auf Figur 1 beschriebenen Weise zum Speichern eines im Sprechfrequenzbereich auftretenden For_r manten dient, zusätzlich noch Matrizenschaltungsteile 13B und mit gemeinsamen Zeitspalten auf. Der Ausgang der Schaltung 15 zum Unterscheiden stimmhaft/stimmlos wird den Matrizensohaltungsteilen 13B und 13c zugeführt, so daß das Vorhandensein, oder die Abwesenheit eines stimmhaften Lauts beispielsweise in die Schaltung I3B eingeschrieben wird, Vorhandensein oder Abwesenheit eines stimmlosen Lauts dagegen in die Schaltung 13C. Das heißt mit anderen Worten, in die betreffenden Elemente der Matrizens'chaltung 13B wird bei Eingang eines Signals» welches das Vorhandensein eines stimmhaften Lauts anzeigt, ¹¹I"- eingeschrieben, in Abwesenheit eines solchen Signals dagegen "0". Dementsprechend wird in die Matrizenschaltung 13c beim Auftreten eines stimmlosen Lauts "1" eingeschrieben, beim Ausbleiben eines stimmlosen Lauts hingegen "0". Aus den in den Matrizenschaltungsteilen I3B und 13c gespeicherten Daten läßt sich also das Vorhandensein oder die Abwesenheit eines stimmhaften oder aber stimmlosen Lauts bestimmen. Auch die Reihenfolge des Auftretens wird gespeichert. '

Figur 12 zeigt die Anordnung der Schaltung I5 zur Unterscheidung stimmhafter und stimmloser Laute, in der das aus dem Frequenzwandler 10 verfügbare normalisierte Ausgangssignal zunächst mittels eines Bandpaßfilters BPFIl mit einem Durchlaßbereich von (f_M0 + 200) Hz bis (f_M0 +1500) Hz und eines Bandpaßfilters BPF12 mit-einem Durchlaßbereich von (f_MQ + 2000) Hz bis (f_MQ + 7OOO) Hz ausgefiltert wird. Der Grund hierfür ist folgender: Bei einem stimmhaften Laut ist die Energie in der Hauptsache in einem unteren Frequenzbereich des Sprechfrequenzbandes konzentriert, während bei einem stimmlosen Laut eine Energiekonzentration in einem höheren Frequenzbereich zu konstatieren ist. Die Ausgänge der Bandfilter BPFIl und BPF12 werden durch Integratoren INTlI beziehungsweise IKT12 integriert und die Integrationsausgänge e,, und -ey« werden"

einem

109808/0847

BAO ORIGINAL

einem Differenzverstärker DAIl zugeführt^ in dem die Differenz (_e _ e, ) der Eingänge verstärkt wird und der einen positiven Ausgang liefert falls

⁶Il^ ^e12
sowie einen negativen Ausgang falls -

11 ^s 12

Liefert also der Oberpegeldiskriminator ULDll einen Ausgang, so ist der Ausgang des Differenzverstärkers DAIl positiv, woran ersichtlich wird, daß es sich bei dem eingegangenen Sprachlaut um einen stimmhaften Laut handelt. Liefert andererseits der Unterpegeldiskriminator LLDIl einen Ausgang, so zeigt dies das Eingehen eines stimmlosen Lauts an. Geht zum Beispiel ein .Wort "san" ein (der japanische Begriff für "drei"), so erzeugt zunächst der Unterpegeldiskriminator LLDIl einen Ausgang .für den Reibelaut "s", wonach der Oberpegeldi skriminator ULDll einen Ausgang für den Selbstlaut "ae" liefert. Für "n" erscheint kein Ausgang, da die Eingänge des Differenzverstärkers DAIl in diesem Fall einander gleich sind, so daß über die Stimmhaftigkeit oder Stimmlosigkeit des eingehenden Lauts nichts ausgesagt wird. In die Elemente des Matrizenschaltungsteils 13B, in denen das Auftreten stimmhafter Laute in der Eingahgsreihenfolge verzeichnet wird, wird also "010" eingeschrieben, während in die Elemente des Matrizenschaltungsteils 13P, die in. ähnlicher Weise das Auftreten stimmloser Laute festhalten, "100" eingeschrieben wird. Im Fall des Wortes "itschi" (dem japanischen Begriff für "eins" oder "ein") speichert das Matrizenschaltungsteil 13B zunächst den Selbstlaut "1", anschließend wird der Reibelaut "tsch" in dem Matrizenschaltungsteil 13G gespeichert und schließlich der letzte Selbstlaut "i" in dem Matrizenschaltungsteil 13B. Das Schema des Matrizenschal tungsteil s 1.33 wäre demgemäß .¹¹IOI". zu lesen, das des Matrizenschaltungsteils 13c hingegen "010".

Aus dem Obengesagten ergibt sich also, daß bei der letztbeschriebenen Anordnung Vorkehrungen getroffen sind, um den beim Sprechen auftretenden Formantenübergang unabhängig von der Art der individuellen Stimmunterschiede zu normalisieren und das Zeitschema

^{; :} ■ ■■" ' - -Ib

109808/0847

in der Matrizenschaltung zu speichern, und zwar in Kombination mit einer Vorrichtung zum Unterscheiden stimmhafter und stimmloser Laute Mit einer solchen Anordnung lassen sich daher Schemata aufstellen, welche die stimmtypischen zeitlichen Va.rian.zen vorwegnehmen, was für die Sprächsinnei-fassung von großer Bedeutung ist. Es hat sich gezeigt, daß die so gebildeten Kodes zur Sprachsinnerfassung geeignet sind, da ein Konsonant, insbesondere auch ein kurzer Konsonant, im Unterschied zu dem bei der bekannten Methode benutzten Schema einwandfrei erkannt werden kann.

Patentansprüche

109Ö08/0 847 ·

βΑΟ ORIGINAL

Claims

P a t e n t an s ρ r ü ehe ■ ·. .

(1,9 Vorrichtung zur Sprachanalyse, gekennzeichnet durch eine zum Ermitteln des Prequenzunterschiedes zwischen einem eingehenden Sprachsignal und einem Sprachbezugssignal betätigbare Schaltung (6), eine zum Erzeugen eines Signals mit einer dem Ausgang der Schaltung. (6) zum Ermitteln dieses Prequenzunterschiedes entsprechenden Frequenzbetätigbare Schaltung (9), eine zum Verschieben des Frequenzbandes des eingehenden Sprach signals entsprechend dem Ausgang der zum Erzeugen eines Signals betätigbaren Schaltung (9) im Sinne einer l\^Tormalisierung dieses Frequenzbandes auf einer Frequenzachse betätigbare Schaltung (lO) , eine Freq.uenzwahl schaltung (ll) mit einer Vielzahl von. dem das verschobene Frequenzband aufweisenden Sprächsignal zugeordneten Durchlaßbereichen, eine zum Feststellen eines die Amplitude einer in jeder der Vielzahl vonDurchlaßbereichen auftretenden Signalkomponente repräsentierenden Signals und zum Vergleichen der Amplitude des festgestellten Signals mit der eines in dem benachbarten Durchlaßbereich erscheinenden Signals zwecks Ermittlung lokaler Maximalwerte im Stimmspektrum betätigbare Schaltung (12) und eine Speicherschaltung (13) zum Speichern dieser lokalen Maximalwerte in der Reihenfolge ihres Auftretens..
2. Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß weiterhin eine Schaltung (IJj) zum Unterteilen des durch Verschieben des Frequenzbandes des eingehenden Sprachsignals erhaltenen Signals in eine Signalkomponente in einem in dem Stimmspektrum enthaltenen unteren Frequenzbereich und in eine Signalkomponente in einem in diesem enthaltenen oberen Frequenzbereich vorgesehen ist, in der durch eine Anordnung (DAIl, ULDIl, LLDIl) zum Vergleichen der , Energiebeträge der beiden Signalkomponenten eine Unterscheidung zwischen einem stimmhaften Laut und einem stimmlosen Laut treffbar ist, wobei das Ergebnis dieses Unterscheidungsvorganges in zeitlicher Zuordnung in der Speicherschaltung 13 speicherbar ist.
3· Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß das eingehende Sprachsignal entsprechend dem Ausgang der Schaltung (6) zum Ermitteln des Frequenzunterschiedes zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal in einen oberen Frequenzbereich verschiebbar ist.

ORIGINAL
4·"""Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die zum Erzeugen eines dem.Frequenzunterschied zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal entsprechenden Signals betätigbare Schaltung (9) als LC-Oszillator ausgebildet ist, der ein kapazitätsvariables Element (VC) und ein Induktivitätselement (l) aufweist, wobei ein aus der Ermittlung des Frequenzunterschiedes zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal resultierender Ausgang dem kapazitätsvariablen Element (YC) zur Änderung der Schwingungsfrequenz durch ein diesem; Ausgang entsprechendes Verändern der Kapazität des kapazitätsyariablen Elements (VC) zuführbar ist. ' *
5. Vorrichtung zur'Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die zum Ermitteln des Frequenzunterschiedes zwischen dem eingehenden Sprachsignal und dem Sprachbezugssignal betatigbare Schaltung (6) mit einem Differentialverstärker (6l) zum Vergleichen der Amplitude^ eines der Tonhöhenfrequenz des eingehenden Sprachsignals entsprechenden Analögsignals mit der eines dem Sprachbezugssignal entsprechenden Analogsignals ausgebildet ist.
6. Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die zum Normalisieren des eingehenden Spraohsignals auf der Frequenzaohse betatigbare Schaltung (lO) als Ringmodulator ausgebildet ist. '.-"-..."■
7· Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die zum Normalisieren des eingehenden Sprachsignals auf der Frequenzachse betatigbare Schaltung (lO) als Frequenzmodler ausgebildet ist."
8. Vorrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die zum Ermitteln lokaler Maximalwerte im Stimmspektrum betatigbare Schaltung (l2) mit jeweils mindestens einem Integrator. (iNTl, INT2, INT3), einem Differenzverstärker (DAl, DA2, DA3), einem Oberpegeldiskriminator (TJLDl, ÜLD2, ULDJ), einem Unterpegeldiskriminator (LLDl* LLD2, LLD?) und einer Torschaltung (NGl, NG2, NGj) ausgebildet ist, wobei die Größen der Ausgänge eines für ein benachbartes Frequenzband vorgesehenen Integrators (INT2>■ INT3) und des je- .'■ weil» betreffenden Integrators (INTI» INT2f HfTj) in dem Dlfferenz- j veretärker (DA1| DA2| DA3) miteinander vergleiohbar sind und wobei ■; - - ; ----- ; der

109808/0847

der Ausgang des Unterpegeldiskriminators (LLDIr LLD2; LLD3) und der des Oberpegeldiskriminators (ULDl; ULD2j ULD3) für das betreffende Frequenzband der entsprechenden Torschaltung (iTGl; NG2i NG3) zuführbar sind.
9. Torrichtung zur Sprachanalyse nach Anspruch 1, dadurch gekennzeichnet, daß die Speicherschaltung (13) als Matrizeηschaltung ausgebildet ist, wobei die lokalen Maximalwerte des Stimmspektrums in dem betreffenden Matrizenelement in der für den Ausgang der Prequenzwahlschaltung (ll) durch ein Schieberegister gewählten Spalte in der Reihenfolge ihres Auftretens speicherbar sind.
10. Vorrichtung zur Sprachanalyse nach Anspruch 2, dadurch gekennzeichnet, daß die Schaltung (l5) zum Vergleichen der Größen der beiden im unteren beziehungsweise im oberen Frequenzbereich auftretenden Signalkomponenten mit Differenzverstärkern -(DAlI) ausgebildet ist, wobei die beiden Signalkomponenten integrierbar und hierauf den Differenzverstärkern '(-DAIl). zur Erzeugung von der wechselseitigen Amplitudenbeziehung der beiden Signalkomponenten entsprechenden Ausgängen zuführbar sind und wobei diese Ausgänge den Oberpegeldiskrimihatoren (üLDll) und den Unterpegeldiskriminatoren (LLDIl) zuführbar sind.

109808/0847