DE2312356A1 - Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen - Google Patents

Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen

Info

Publication number
DE2312356A1
DE2312356A1 DE19732312356 DE2312356A DE2312356A1 DE 2312356 A1 DE2312356 A1 DE 2312356A1 DE 19732312356 DE19732312356 DE 19732312356 DE 2312356 A DE2312356 A DE 2312356A DE 2312356 A1 DE2312356 A1 DE 2312356A1
Authority
DE
Germany
Prior art keywords
difference
signal
value
excitation
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE19732312356
Other languages
English (en)
Inventor
Augustin Nemeth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2312356A1 publication Critical patent/DE2312356A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Description

Verfahren und Vorrichtung zur Bestimmung der Grundfrequenz von Sprachsignalen
Die Erfindung betrifft ein Verfahren zur Ermittlung der Sprachgrundfrequenz durch Bestimmung der AnregungsZeitpunkte der Mundhöhlungen bei stimmhaften Lauten, sowie eine Vorrichtung zur Durchführung dieses Verfahrens.
Die Probleme, die im Zusammenhang mit der Bestimmung von Sprachgrundfrequenzen auftreten, haben sich als äußerst diffizil erwiesen, was z.T. daran liegen mag, daß schon die Definition des Begriffes Sprachgrundfrequenz Schwierigkeiten macht. Das Hauptproblem liegt in der großen Anzahl einflußreicher Parameter, als da sind: zeitliche Änderungen der Anregungskurve und quasiperiodische Anregung der Mundhöhlungen, zeitliche Änderungen der Amplituden der Grundfrequenz oder Festlegung der Anlegungszeitpunkte der Mundhöhlungen. Der letzte dieser Parameter ist deswegen von besonderer Bedeutung, weil er in einer Anzahl von Vorrichtungen zur Messung der Grundfrequenz benutzt wird. Dieser Gebrauch ist nicht wenig überraschend, wenn man feststellt, daß die präzise Bestimmung der genauen Anregungszeitpunkte bisher noch keiner zufriedenstellenden Lösung zuge-
309842/0790
führt werden konnte. Tatsächlich wurde diese Schwierigkeit bisher dadurch umgangen, daß die Hypothese aufgestellt .wurde, daß die Maximalamplituden des zeitabhängig dargestellten Sprachsignals den Beginn stimmhafter Klangabschnitte markieren und damit auch denjenigen Zeitpunkt festlegen, zu dem die Mundhöhlungen angeregt werden.
Aufgrund dieser Hypothese gehen die bisher bekannt gewordenen Vorrichtungen zur Bestimmung von Sprachgrundfrequenzen von einer Analogdarstellung des Sprachsignals aus. Ein Maximumdetektor lokalisiert die Amplitudenmaxima des analogen Signals oder eine Anordnung zur Ermittlung schneller Spektrumsänderungen bestimmt diese Änderungen. Die Grundfrequenz wird dann durch Messung der Zeitabstände zwischen den Amplitudenmaxima oder den festgestellten spektralen Änderungen ermittelt. Jedoch ist die Relation zwischen einem auf diese Art festgestellten Zeitintervall und dem wirklichen Wert der Grundfrequenz wegen der Instabilität und der Variationen des Anregungssignals der Mundhöhlungen, wie es vom Sprechapparat der Versuchsperson erzeugt wird, niemals korrekt. Zu dieser Instabilität gesellt sich noch die aus der genannten Hypothese resultierende üngenauigkeit, nämlich die mangelhafte Korrelation zwischen den AnregungsZeitpunkten der Mundhöhlungen und den Maxima der Sprachschwingung.
Demnach besteht die wohl wichtigste Aufgabe der Erfindung darin, die tatsächlichen AnregungsZeitpunkte der Mundhöhlenschwingungen zu ermitteln. Des weiteren soll ein Verfahren angegeben werden, das mittels digitaler, und nicht analoger Berechnungen mit großer Genauigkeit die Bestimmung der Anregungszeitpunkte gestattet. Daß die dazu notwendige Anordnung möglichst einfach aufgebaut sein soll, damit sie sowohl wirtschaftlich ausnutzbar arbeitet als auch ausreichende Betriebssicherheit besitzt, versteht sich am Rande.
Das Verfahren, welches die gestellte Aufgabe löst,, zeichnet
309842/0790
FR 9 71 002
sich dadurch aus, daß ein die Sprachschwingung darstellendes Analogsignal abschnittweise abgetastet und der abgetastete Wert digitalisiert wird, daß für jede Abtastung der Betrag der Differenz d(i) zwischen dem für diese Abtastung und dem für die vorhergehende Abtastung ermittelten Wert bestimmt wird, daß die Beträge der Differenzen d(i) zwischen aufeinanderfolgenden Abtastungen entsprechend der Formel
i - 1
I d(i-l) 1
zu einer Summe S<i) aufaddiert werden, die den Betrag der bis zu dieser Abtastung aufgetretenen Differenzen angibt, um ein Signal zu erhalten, dessen Mittelwertkurve der sukzessiven Summen S(i) der Beträge plötzliche Änderungen des Verlaufs zu den Zeitpunkten der Anregung der Mundhöhlungen zeigt, und daß diese AnregungsZeitpunkte aus dem KurvenverlaufermitteIt werden.
Eine vorteilhafte Vorrichtung zur Durchführung eben dieses Verfahrens, die die oben gestellten Forderungen bezüglich Wirtschaftlichkeit und Einfachheit erfüllt, ist gekennzeichnet durch einen das Sprachsignal aufnehmenden und in eine Folge digitaler Werte umformenden Codierer, eine Subtraktionsschaltung zur Berechnung der Differenz aufeinanderfolgender Abtastergebnisse, eine Einrichtung zur Bestimmung des Betrags der Differenz aufeinanderfolgender Abtastergebnisse, eine Addierschaltung, die die berechneten Differenzwerte jeweils der Summe der vorher berechneten Differenzwerte hinzufügt, wobei die sukzessiven Summen über eine Rückkopplung zwischen Ausgang und Eingang der Addierschaltung umlaufen, und einen Krümmungsdetektor, der die sukzessiven Summen der Beträge aufnimmt und jeweils dann ein Signal abgibt, wenn bei ausreichend hohen Summenwerten eine positive Krümmung auftritt.
Weitere vorteilhafte Ausgestaltungen sowohl des Verfahrens als
309842/0790
FR 971 022
auch der Vorrichtung nach der Erfindung können den Patentansprüchen entnommen werden. Einzelheiten des Verfahrens, sowie der Wirkungsweise der Vorrichtung können der nachfolgenden Beschreibung zusammen mit den Zeichnungen entnommen werden.
Auf den Zeichnungen zeigt:
Fig. 1 eine graphische Darstellung der Schallschwingungen der Silbe "an" in französischer Sprache, beispielsweise aus dem Wort "chant", in Puls-Code-Modulation (PCM) ;
Fig. 2 eine ebensolche Darstellung des Lautes "i",
beispielsweise aus dem Wort "cigale";
Fig. 3 einen Ausschnitt einer Analogdarstellung des
durch eine menschliche Stimme hervorgerufenen Schalles;
Fig. 4 als Zeitfunktion den Wert der sukzessiven
Summen der Absolutwerte der Differenzen aufeinanderfolgender Muster für jedes Muster;
Fig. 5 ein Diagramm, das in Abhängigkeit von der Zeit
die Konkavität der in Fig. 4 dargestellten Kurve zeigt;
Fig. 6 einen Detektor zur Ausführung des erfindungsgemäßen Verfahrens.
Fig. 1 zeigt, wie oben bereits erwähnt, das zeitabhängige Amplitudenprogramm des Stimmschalles, der bei der französischen Aussprache der Silbe "an" aus dem Wort "chant" auftritt. Eine solche Darstellung wird erzielt durch Abtastung der Analogschwingung
309 84 2/07 90
FR 971 022
und Codierung des Abtastergebnisses in PCM (Puls-Code-Modulation) - Jedes der auf der Kurve angebrachten Kreuze entspricht einem Abtastpunkt, wobei der zeitliche Abstand zwischen zwei Abtastpunkten 100 MikroSekunden beträgt. Eine durchgezogene. Linie verbindet die Kreuzmarkierungen, die den codierten Abtastergebnissen des Stimmsignals entsprechen, um die Veränderung dieses Signals in einer der analogen Darstellung entsprechenden Form zu zeigen. Der Vergleich eines Signals, wie es in Fig. 1 dargestellt ist, mit einem analogen Schallsignal, wie es in Fig. 3 gezeigt ist, zeigt sowohl Verwandtschaft als auch Unterschiede der verschiedenen Darstellungsweisen. Fig. zeigt die generelle Form eines Signals, das aus Anregungs- und Dämpfungsperioden,besteht. Der eigentliche Zweck solch einer digitalen Darstellung besteht in der Sichtbarmachung der Tatsache, daß das gezeigte Signal aus hohen und niedrigen Frequenzen besteht. Der Stand der Technik zeigt die Feststellung, daß die Schwingungen der Stimmbänder die Höhlungen sowohl im hinteren Mundraum als auch nahe der Lippen anregt. Die3e Höhlungen besitzen verschiedene Größen; während die ersteren relativ ausgedehnt sind, handelt es sich bei den nahe der Lippen gelegenen Höhlungen um solche geringerer Größe. Demzufolge sind auch die Resonanzfrequenzen relativ niedrig für die im hinteren Mundraum gelegenen Bereiche und entsprechend hoch für lippennahe Gebiete. Zum Zeitpunkt der Anregung der Stimmbänder werden die verschiedenen Höhlungen angeregt; ihre Schwingungen können als in Phase mit der Anregungsschwingung angesehen werden. Die Amplituden der verschiedenen Frequenzen werden addiert und die Maxima Ml, M2, M3, M4 des Schallsignals werden auf diese Art erzeugt. Sofort nach der Anregung erfolgt jedoch eine Dämpfung der Schwingungen mit verschiedenen Dämpfungskoeffizienten, die niedrigen Frequenzen werden schwächer als die hohen gedämpft. Die Dämpfung wird in Fig. 1 mittels einer durchgezogenen Linie sichtbar gemacht, die auch die wesentlich schneilere Dämpfung der hohen Frequenzen verdeutlicht. Der gesamte Kurvenverlauf hinter Punkt P zeigt, daß die hohen Frequenzen aufgrund der
971 O22 309842/0790
bereits erfolgten starken Dämpfung praktisch keiner AmpIitudenänderung mehr unterliegen.
Diesen Bemerkungen, die dem Fachmann auf dem Gebiet der Erfindung vertraut sind, wird jedoch ein neuer wesentlicher Punkt hinzugefügt werden, der weiter unten im Hinblick auf zwei bereits benutzte Techniken zur Messung der Stimmgrundfrequenz erläutert werden wird. Zur Erklärung sei noch auf die in Fig. 2 gezeigte Darstellung hingewiesen, die die PCM-Darstellung des Lautes "i", wie er in französischer Sprache im Wort , "cigale" auftaucht. Hingewiesen sein ferner auf die oben bereits erwähnte analoge Darstellung einer Sprachschwingung in Fig. 3.
Die erste, dem Stand der Technik zuzuordnende Methode besteht darin, die Zeitpunkte des Auftretens von Maxima den Anregungszeitpunkten der Höhlungen gleichzusetzen und diese Maxima zu messen. Die genannte Gleichsetzung ist jedoch nur eine Approximation. Tatsächlich bewegt sich zum Zeitpunkt der Erregung der Mundhöhlungen das Schallsignal in der Nähe der Null-Linie, wie man es im Punkt A in Fig. 2 erkennen kann, und es erreicht sein höchstes Maximum nur im Punkt F innerhalb der beiden dargestellten Anregungsmethoden. Man ersieht klar, daß zwischen den Punkten A und F der Anregungsperioden Pl und P2 1,4 bzw. 1,7 Millisekunden Abstand liegen, d.h., daß unter der Voraussetzung einer Abtastung je 100 Millisekunden insgesamt 14 bzw. 17 Abtastungen des Signals stattfinden. Unter dieser Voraussetzung wird zur Zeit der Messung der Grundfrequenz ein Fehler eingeführt, der aus den jeder Anregungsperiode anhaftenden Unkorrektheiten resultiert. Sie beruhen auf der Tatsache, daß man jede Anregungsperiode zu dem Zeitpunkt beginnen läßt, zu dem die Mundhöhlungen ihr Anregungs maximum erreichen, anstatt sie dort beginnen zu lassen, wo die Mundhöhlungen anfangen, erregt zu werden. Mit Hilfe derartiger Vorrichtungen können demnach die tatsächlichen AnregungsZeitpunkte der Mundhöhlungen niemals ermittelt werden.
309842/0790
FR 971 022
Hinzu kommt noch, daß Fig. 2 unter Eenutzung der PCM-Darstellung nicht nur ein, sondern sogar mehrere Maxima der Sprachschwingung deutlich macht. Demgegenüber zeigt Fig. 3 nur ein einziges Maximum, das sich klar aus einem Zeitraum maximaler Anregung der Mundhöhlungen heraushebt. Die in Fig. 2 dargestellten Maxima korrespondieren sämtlich zu einer bedeutenden Anregung der Mundhöhlungen. Demzufolge kann ein dem Stand der Technik zugehöriger Maximumdetektor beispielsweise eines der Maxima D, E oder F auswählen, wobei das während der Anregungsperiode Pl ausgewählte verschieden von dem während der nachfolgenden Periode P2 ermittelten sein kann; hierbei sollen die Perioden zum Zeitpunkt der Stimmbandanregung beginnen. Dieses Vorgehen wird demnach einen zusätzlichen Fehler zur Messung der Grundfrequenz hinzufügen, der eine Erklärung für die Instabilität und die Variationen abgeben könnte, die dem Anregungssignal der Mundhöhlungen zugeschrieben werden.
Die zweite, ebenfalls dem Stand der Technik zugehörige Methode besteht darin, die sprunghaften Änderungen der Sprachschwingungen in bezug auf die Zeit zu ermitteln. Hierzu benutzt man im allgemeinen einen Schwellwertdetektor, der durch die Maximalamplituden des Sprachsignals zum Zeitpunkt der maximalen Anregung der Mundhöhlungen erregt wird. Auch hier wird deutlich, daß, da jede Anregungsperiode Pl und P2 mehrere abrupte Amplitudenänderungen aufweist, der Schwellwertdetektor sowohl durch die erste dieser plötzlichen Änderungen (D) - falls dieses Maximum über dem Schwellwert liegt - eingeschaltet werden kann, als auch durch eine der nachfolgenden Maximalamplituden (E oder F), abhängig von der Einstellung des Schwellwertes im Detektor. Daraus resultiert im Endeffekt der gleiche typische Fehler wie oben bereits erläutert. Hinzu kommt noch, daß, ganz gleich welche plötzliche Amplitudenänderung für jede Anregungsperiode festgehalten wird, der dieser Änderung entsprechende Zeitpunkt niemals mit dem Zeitpunkt der Anregung der Mundhöhlungen übereinstimmt. Man könnte annehmen, daß durch Festlegung eines sehr niedrigen Schwellwertes es möglich sein müßte, beispielsweise
309842/07 90
FR 9 71 022
in der Anregungsperiode P2 die plötzliche Änderung des Sprachsignals, die dem Maximum B entspricht, zu erkennen. In Wirklichkeit ist dies jedoch unmöglich, da man hierdurch riskierte, Maxima zu bestimmen, die mit der Auslösung der Anregung der Mundhöhlungen nichts zu tun haben". Ebenso würden bei einer Festlegung des Detektor&chwellwerts unterhalb der Amplitude des Punktes B in der Periode P2 auch Kurvenpunkte wie der Punkt X zur Auslösung des Detektors führen. Konsequenterweise legt man demzufolge den Schwellwert auf ein ausreichend hohes / Niveau, um eine Unsicherheit bezüglich des bestimmten Maximums auszuschließen.
Daraus ergibt sich, daß keine der nach dem Stand der Technik bekannten Anordnungen überhaupt die Messung des Zeitpunkts der Anregung der Mundhöhlungen erlaubt. Alle bisher realisierten Meßmethoden sind fehlerbehaftet und im Prinzip nur Näherungsmethoden. Ein Vorgehen gemäß der Erfindung erlaubt mit der durch die elektronischen Möglichkeiten gegebenen Präzision die Bestimmung des tatsächlichen AnregungsZeitpunktes der Mundhöhlungen. Um dies durchzuführen, wird das Sprachsignal, das ja ursprünglich in analoger Form vorliegt, PCM-codiert, wie es in den Fign. 1 und 2 durch die Kreuzmarkierungen dargestellt ist. Es. wurde bereits gesagt, daß die zum Stande der Technik gehörenden Vorrichtungen charakteristische Aussagen (Maximalamplitude oder Überschreitung eines gegebenen Schwellwerts) aus dem Sprachsignal in analoger Form geschlossen haben. Das erfindungsgemäße Verfahren sowie die seine Durchführung erlaubenden Vorrichtungen ermitteln Charakteristika des Sprachsignals, nachdem man letzteres einer speziellen Behandlung unterworfen hat. Es sei beispielsweise eine Reihe von Abtastergebnissen in PCM-Modulation des Sprachsignals gegeben, dessen Einzelwerte mit einem Vorzeichen (+) oder (-) versehen sind, je nachdem, ob das Sprachsignal positiv oder negativ zum Zeitpunkt der entsprechenden Abtastung ist. In der nachfolgenden Tabelle, die sich auf Fig. 1 bezieht, sei
FR 971 °22 309842/07 9Ö
dieses Beispiel weitergeführt.
Abtastung Nr.
Wert
1
+al
2 +a2
3 +a3
4 +a4
5 +a5
7
+a7
8 +a8
9 +a9
10 -alO
11 +all
Indem man für jede Abtastung die Differenz zwischen dem ihr zugeordneten Wert und dem der vorhergehenden bestimmt und den Absolutwert der aufeinanderfolgenden Differenzen ermittelt, gewinnt man die Absolutwerte der Amplitudendifferenzen des Sprachsignals zwischen zwei aufeinanderfolgenden Abtastungen.
Für die in Fig. 1 dargestellte Kurve gewinnt man demnach die in der vorstehenden Tabelle angegebenen Werte.
Bei Betrachtung von Fig. 1 wird man feststellen, daß die Werte dl...dlO in der Umgebung des Beginns der Anregungsperiode ebenso wie in der Umgebung des Anregungsmaximums der Mundhöhlungen ansteigen und einen höheren Wert behalten, während sie jenseits des Zeitpunktes der maximalen Anregung abnehmen und einen niedrigen Wert aufweisen. Man konstatiert demnach am Anfang einer stimmhaften Periode:
dl
d2 < d3 < d5 < d7
d8
etc..
Demgegenüber bilden die Werte d(i) am Ende der gleichen stimmhaften Periode eine abnehmende Reihe oder bleiben gleich. Eini ge werden sogar zu Null:
d(n-7)>d(n-4)>d<n-3)>d(n--l)>d(n+3)>d(n+5) ■ 0
Dazwischen befinden sich Werte d(i), die dem Anstieg oder Abfall der Werteserien nicht folgen, z.B. d4 und d6, d(n-6) , d(n-5), d(n-2), etc. Jedenfalls wird man feststellen, daß die allgemeine Tendenz auf ein Ansteigen der Werte sofort
309842/0790
FR 971 022
nach dem Zeitpunkt der Anregung der Mundhöhlen und einen Abfall im weiteren Verlauf einer stimmhaften Periode hinausläuft. Dies stimmt mit der oben gemachten Feststellung bezüglich der Anregung der Stimmbänder und dem Abbau der durch die Mundhöhlungen erzeugten Frequenzen überein.
Der zweite Schritt des erfindungsgemäßen Verfahrens besteht darin, jeder Differenz d(i) zur Summe der Absolutwerte der vorhergehenden Differenzen zu addieren. Dadurch erhält man die folgenden Werte S(i):
51 = dl
52 = dl + d2
53 = dl + d2 + d3
54 = dl + d2 + d3 + d4
I
Sx = dl + d2 + d3 + d4 + d5 + .' + dx
Stellt man diese verschiedenen Werte S(i) als Zeitfunktion graphisch dar, so erhält man einen Punkthaufen, dessen Mittelwertkurve in Fig. 4 dargestellt ist. Die Beziehungen dieser Signalform zu der Funktion der Mundhöhlungen sind die folgenden:
3 0-9 842/0790
FR 971 022
DIFFERENZ WERT ABSOLUTER WERT
Abtastung 1 +al
Abtastung 2
Abtastung 1
+a2 - al dl
Abtastung 3
Abtastung 2
+a3 - a2 d2
Abtastung 4
Abtastung 3
+a4 - a3 d3
Abtastung 5
Abtastung 4
+a5 - a4 d4
Abtastung 6
Abtastung 5
-a6 - a5 d5
Abtastung 7
Abtastung 6
+a7 + a6 d6
Abtastung 8
Abtastung 7
+a8 - a7 d7
Abtastung 9
Abtastung 8
+a9 - a8 d8
Abtastung 10
Abtastung 9
-alO - a9 d9
Abtastung 11
Abtastung 10
+all - alO dlO
309842/0790
FR 971 G22
Diejenigen Abschnitte der Kurve., die einen kräftigen Anstieg aufweisen - beispielsweise der Abschnitt A - korrespondieren mit den Zeitpunkten, die auf den Zeitpunkt der maximalen Anregung der Mundhöhlungen folgen; aufgetragen sind in Ordinatenrichtung die sukzessiven Summen S(i) als Funktion der Differenzenwerte d(i), deren Betrag.sofort nach dem Zeitpunkt der Anregung der Mundhöhlen ansteigt.
Die Teile der Kurve, die - wie der Abschnitt B - eine geringere Steigung aufweisen, entsprechen den jeweiligen Enden der Anregungsperioden; während dieser Zeiten sind die Werte d(i) niedrig oder sogar Null.
Die Punkte C kennzeichnen eine plötzliche Steigungsänderung der Kurve ebenso wie eine Änderung der Krümmung; die Wendepunkte C treten jeweils beim Übergang von einem Abschnitt B in einen Abschnitt A auf, diese Punkte entsprechen den Zeitpunkten der Anregung der Stimmbänder zu Beginn jeder stimmhaften Periode. Tatsächlich befinden sich die Punkte C auf der Kurve zwischen den Punkten, die das Ende einer Periode B der Anregung charakterisieren und denjenigen Punkten, die den Beginn einer Anregungsperiode (Abschnitt A) bezeichnen.
Sowohl die Steigungsänderung der Kurve als auch das Auftreten des Wendepunktes wird herangezogen, um die AnregungsZeitpunkte der Mundhöhlen zu charakterisieren. Diese Zeitpunkte sind aus^· gehend von den Kurvenpunkten einfach zu bestimmen, vorausgesetzt, daß zwischen der Zeitachse und diesen Punkten eine lineare Relation besteht.
Die Information, daß es sich um eine plötzliche Änderung der Steigung und der Krümmung handelt, wird erhalten, indem in jedem Punkt der Kurve die Summen der Differenzen aus Fig. 4 gebildet werden, eine Messung der Differenz zwischen zwei Steigungen, die hier als inferiore Steigung PI und superiore Steigung PS bezeichnet werden soll. Führt man diese Operation für jeden Punkt der Kurve aus, so erhält man eine Information
PR 971 022 309842/0790
nicht allein bezüglich der plötzlichen Änderung der Steigung, sondern ebenso bezüglich der Krümmung der Kurve in jedem ihrer Punkte. Wird festgestellt, daß die Krümmung der in Fig. dargestellten Funktion generell negativ ist, ausgenommen die Zeitpunkte der öffnung der Stimmbänder, so bemerkt man eine rapide Änderung der Krümmung in den Punkten C. Diese Krümmungsänderung tritt näherungsweise zum gleichen Zeitpunkt auf wie die abrupte Steigungsänderung und wird in der Vorrichtung gemäß der Erfindung benutzt.
Es wurde bereits erwähnt, daß die in Fig. 4 dargestellte Kurve eine Hittelwertkurve darstellt, wobei der Mittelwert aus den Werten S(i) gebildet wird, die zum Anfang einer stimmhaften Periode eine Reihe mit ansteigenden Werten und für den Rest der Periode eine Folge abfallender Werte darstellt. Es wurde weiterhin festgestellt, daß bestimmte Werte der Folge, die hier als irreguläre Werte bezeichnet werden sollen, dieses Verhalten von Anstieg oder Abfall nicht zeigen. Folglich wird man, um das Auftreten von Fehlern zu verhindern, die durch diese irregulären Werte eingeführt werden könnten, die Operationen der Bestimmung von erprobter Krümmungs-.und Steigungsänderung durch Auswertung - für jeden Punkt der Kurve in Fig. 4 - der Werte der Steigungen PI und der Steigungen PS auf eine gleiche Anzahl N der Werte S(i) , die vorhergehen oder nachfolgen, wobei der Wert S(i) dem Berechnungspunkt der Kurve entspricht. Es soll bemerkt werden, daß die Zahl N derart ausgewählt werden soll, daß sie den Zeitpunkt der Stimmbänderöffnung für jeden Sprecher zu ermitteln gestattet. Konsequenterweise muß man denjenigen Sprecher in Betracht ziehen, dessen Zeitpunkte der Stimmbänderöffnung am nächsten beieinanderliegen. Diese Bedingung wird durch die höchsten bzw. spitzesten Frauenstimmen erfüllt, wobei sich die Stimmbänder im Durchschnitt alle drei Millisekunden öffnen. Daher muß man die Zahlenwerte von N unterhalb von ungefähr 3 Millisekunden wählen, derart, daß für jeden Punkt der Kurve in Fig. 4 zur Berechnung der Krümmung eine Sektion A großer
fr 971 022 309842/07 90
Steigung und eine solche B kleiner Steigung zur Berechnung zur Verfügung steht. Bei anderer Auslegung, d.h., wenn N größer als 3 Millisekunden gewählt wird, wird die Anzahl der Punkte der Kurve, die zur Berechnung der Steigung PS und der Steigung PI dient, auch alle Punkte einer stimmhaften Periode Pl oder P2 aus Fig. 2 beinhalten. Werden in die Berechnung alle diese Punkte einbezogen, so erweist sich die Bestimmung der Krümmung in den Punkten C der in Fig. 4 dargestellten Kurve als unmöglich. Ein günstiger Wert für N ist die Zahl 20. Dieser Wert entspricht einem 2 Millisekunden dauernden Sprachsignal unter der Voraussetzung, daß die in Fig. 4 dargestellten Werte S(i) einen Abstand von 100 Mikrosekunden voneinander haben.
Nachfolgend sollen die einzelnen Stufen der Bestimmung der Zeitpunkte beschrieben werden, zu denen plötzliche Änderungen der Kurvensteigungen vorliegen. Die Bestimmung wird realisiert für jeden Punkt i der Kurve in Fig. 4, in dem .einerseits die Differenz zwischen dem Wert S(i) in diesem Punkt und dem Wert S(i-20) im Punkt i-20 zur Bestimmung von PI(i) gebildet wird, und andererseits zur Bestimmung von PS(i) die Differenz zwischen den Werten S(i+20) und S(i) bestimmt wird. Danach wird PS(i) von PI(i) abgezogen. Für jeden Punkt i wird demnach folgende Rechnung durchgeführt:
PI (i) - PS(i) = [S(i) - S(i-20)] - [S (i+20) - S(i)]=D(i)
Für einige Punkte der Kurve ist die Differenz PI(i)-PS(i) positiv, für andere negativ. Ebenso ist auf Fig. 4 zu erkennen:
PIl - PSl < 0
PI2 - PS2 > 0
Die durchgeführten Experimente zeigen, daß die Folge der Differenzen PI(i)-PS(i) vor der den Punkt C umgebenden Zone positiver Krümmung abnimmt, einige positive oder negative und nahe Null gelegene Werte durchläuft und sodann sehr stark ansteigt.
309842/0 7^9 0
FR 971 022
Die Sektion der Kurven, in die Zunahme der Differenzenfolgen PI(i)-PS(i) sehr schnell erfolgt, besitzt ebenso positive Krümmung. In Fig. 5 ist der Verlauf der Mittelwerte, dargestellt, gewonnen aus den den Werten D(I)=PI(i)-PS(i) entsprechenden Punkten, außerdem ist in dieser Darstellung der relative verlauf der in Fig. 4 dargestellten Kurve mit Angabe des positiven oder negativen Vorzeichens eingetragen. In dieser Darstellung sieht man klar die plötzlichen Variationen des Wertes D(i). Die verschiedenen Punkte, die die Kurve in Fig. 5 bilden, wurden ermittelt aus den Punkten der Kurve in Fig. 4, die wie bereits erläutert wurde, zeitabhängig aufsteigende Folge aufweisen; so wurden sie korrespondierend zu Werten S(i), die jeweils teilweise unter oder über den die Punkte der Fig. 4 bildenden Mittelwerten liegen.
Stellt man nun nicht mehr die Mittelwertkurve, sonder die Kurve der exakten Werte D(i) für einen Teil der Fig. 5 dar, wie es in der Vergrößerung einer Sektion dieser Figur gezeigt ist, so bemerkt man, daß die Serie positiver Werte der Differenz PI (i)-PS (i) sich nicht dadurch auszeichnet, daß systematisch jeder Wert größer als die ihm zeitlich vorausgehenden ist. Demnach kann man, wenn man bl...b6..etc. als die positiven Werte von PI(i)-PS(i) zu den Zeitpunkten ti...t6...etc. bezeichnet, ausgehend von Fig. 5 folgende Verhältnisse ablesen:
bl < b2 < b3 < b5 < b6 < b4...etc.
um unter diesen Werten diejenigen festzustellen, die den größten Betrag aufweisen, d.h., die der stärksten positiven Krümmung der Hittelwertkurve in Fig. 5 entsprechen, wird man eine Glättung der Kurve durchführen, vorzugsweise in digitaler Form, z.B. durch digitale Filterung der sukzessiven Werte D(i)=PI(i)-PS(i) und danach den Wert bestimmen, der den großen Betrag aufweist. Diese Stufen des erfindungsgemäßen Verfahrens sind in detaillierter Form im Rahmen der Beschreibung einer Realisierung der vorliegenden Erfindung, wie sie in Fig. 6 dargestellt ist, erläu-
309842/0790
FR 971 O22
FIg. 6a zeigt die Schaltkreise zur Berechnung der Werte SCi)' der in Fig. 4 dargestellten Kurve und der Werte DCi)=PICi)-PSCi) der in Flg. 5 dargestellten Kurve; Fig. 6 stellt die Kreise zur Glättung der in Fig. 5 dargestellten Kurve sowie die Detektorkreise zur Ermittlung plötzlicher Steigungsänderungen und maximaler Krümmungen dar.
Das vom Sprecher herrührende Signal, dessen AnregungsZeitpunkte der Mundhöhlungen bestimmt werden sollten/ wird über Leitung 1 auf die Schaltung 2 gegebenen, die einen das einlaufende Analogsignal in einen PCM-moduliertes umformenden Codierer enthält. Die Ausgangssignale des Codierers 2 werden über Leitung 3 sukzessive in das Register 4 über die Torschaltung 5 und gleichzeitig über Leitung 6 in die Subtraktionsschaltung 7 eingegeben. Das Register 4 ist so groß, daß es gerade eine Abtastung in PCM-Modu1ation des Sprachsignals aufnehmen kann. Die Subtraktionsschaltung 7 empfängt über Leitung 8 vom Ausgang des Registers 4 ein weiteres Eingangssignal. Jede in das Register 4 eingegebene Abtastung wird ihr dann wieder entnommen, wenn das nachfolgende Äbtastergebnis in die Schaltung 7 eingegeben wird. Das Weiterschieben des Abtastergebnisses in das bzw. aus dem Register 4 erfolgt unter Steuerung der Torschaltung, die durch ein Kommandosignal CSl angesteuert wird. Die Eingabe eines neuen Abtastergebnisses bewirkt gleichzeitiges Weiterschieben des vorhergehenden In die Subtraktionsschaltung 7» Demnach befinden sich in der Subtraktionsschaltung 7 zur jedem Zeltpunkt t(I) das Abtastergebnis aCD und das nachfolgende Abtastergebnis a(i+I). Ober Leitung 9 wird die durch die Subtraktionsschaltung 7 gebildete Differenz auf dem übertrager 10 gegebenen, dessen Ausgangsleitung 15 nunmehr den absoluten Wert - oder den Betrag id(i)i des Eingangssignals führt.
Die Schleife aus Additionsschaltung 11, Leitung 12, Register 13 und Leitung 14, die vom Ausgang des Registers 13 zu einem
309842/0790
FR 971 022
Eingang der Additionsschaltung 11 zurückführt, erlaubt die Berechnung der sukzessiven Summen S(i), die erhalten werden durch Bildung der Summe der Differenz d(i) zum Zeitpunkt t(i) auf Leitung 15 und der Gesamtsumme der Differenzen vorhergehender Zeiträume^
= |a(i+l) - a(i)| + I |a(i) - a(i-l)
1 ·
Die Additionsschaltung 11 empfängt über einen ihrer Eingänge die Absolutwerte d(l)=|a(i+l)-a(i)I, die ihr über Leitung 15 vom übertrager 10 zugeführt wird. Außerdem empfängt sie die Summe
Diese Summe erhält sie über ihren zweiten Eingang durch die Leitung 14. Die Größe des Register reicht gerade aus um diesen Wert S(i), der der oben bezeichneten Summen entspricht, aufzunehmen. Der Ausgang des Registers 13 führt demnach zu jedem Zeitpunkt die entsprechende Summe S(i), die diesem Zeitpunkt entspricht. Die in zeitlicher Abhängigkeit auftretende Wertfolge am Ausgang des Registers 13 ist in Fig. 4 dargestellt.
Die Werte S(i) vom Ausgang des Registers 13 werden über Leitung 16 in das Schieberegister 17 übertragen, dessen Ausgang wiederum über Leitung 18 mit dem Schieberegister 19 verbunden ist. Die Subtraktionsschaltung 20 empfängt ein Eingangssignal von Leitung 14, die ja den Ausgang des Registers 13 bildet. Der Ausgang des Registers 17 ist über Leitung 18 mit jeder der Subtraktionsschaltungen 20 und 21 verbunden. Die letztere empfängt über Leitung 22 auch die Ausgangssignale des Schieberegisters 19. Schließlich sind die Ausgangsleitungen der Subtraktionsschaltungen 20 und 21 über die Leitungen 24 und 25 mit der Subtraktionsschaltung 23 verbunden. Die Gesamtschaltung erlaubt daher die Ermittlung plötzlicher SteigungsVariationen der in Fig. 4 dargestellten
309842/0790
FR 971 022
Kurve ebenso wie die Ermittlung der Krümmung dieser Kurve. Die Schieberegister 17 und 19 weisen eine Kapazität auf/ die zur Speicherung von 20 Werten S(i) ausreicht. Sie arbeiten dergestalt, daß, sobald ein neuer Wert vom Register 13 ins Register 17 geschoben wird, dieser innerhalb des letzteren weiter transportiert wird und, wenn beispielsweise der Wert S(40) eingeführt wurde, der Wert S(20) auf Leitung 18 ausgegeben wird. Dieser Wert wird dann dem Schieberegister 19 zugeführt, das daraufhin den Wert S(I) auf Leitung 22 abgibt. Demzufolge befinden sich zu jedem Zeitpunkt t(i) auf den Leitungen 14, 18 und 22 die Werte S(i+20), S(i) und S(i-20). Mittels der Subtaktionsschaltungen 20, 21 und 2 3 bewirkt man demzufolge die Berechnung folgender Differenzen:
PS(i) = S (i+20) - S(i)
PKi) = S(i) - S(i-20) D (i) = PI(I) - PS(I)
Das Resultat der sukzessiven Differenzen D(i) wird auf Leitung 26 ausgegeben, während das Vorzeichen jeder Differenz D(i) auf Leitung 2 7 verfügbar ist. Die Information bezüglich des Vorzeichens der Differenzen D(i) erlaubt, plötzliche Steigungsänderungen der Kurve in Fig. 4 festzustellen, ebenso wie die Krümmung dieser Kurve, wie es bereits im Zusammenhang mit der Beschreibung zur Fig. 5 erläutert wurde.
Demnach befinden sich auf den Leitungen 26 und 2 7 die beiden für die Bestimmung der AnregungsZeitpunkt der Mundhöhlen entscheidenden Informationen. Wenn das Niveau auf Leitung 27 einem positiven Vorzeichen der Differenz D(i) entspricht, so bedeutet dies, daß. ein plötzlicher Steigungswechsel und positive Krümmung der in Fig. 4 gezeigten Kurve und in den Maxima der in Fig. 5 gezeigten Kurve vorliegen. Die Torschaltung 28 läßt in diesem Falle die von der Subtraktionsschaltung 23 ermittelten Werte D(i) hindurch. Es seien beispielsweise bl, b2, b3 ..., die das erste Maxium der in Fig. 5 dargestellten Kurve entsprechenden Werte D(i). Wie eben-
971 022 309842/0790......
falls in Fig. 5 gezeigt, ist das Vorzeichen von D(i) positiv und demzufolge wird die Wertreihe hl, b2r b3 ... über Leitung 29 auf das digitale Filter 3O übertragen, welch letzteres die Richtungskoeffizienten beinhaltet. Das Filter 30 ist in bekannter Weise aus vier Schieberegistern 31, 32, 33 und 34 sowie einer Summierschaltung 35 zusammengesetzt, welch letztere durch die Leitungen 36, 37, 3V8 und 39 mit den Schieberegistereingängen verbunden und durch die Leitung 40 an den Ausgang des Schieberegisters 34 angeschlossen ist. Die Ausgangsleitung 41 der Summierschaltung 35 überträgt die durch Glättung aus den Werten D(i) entstandenen Werte D1Ci). Man erhält demnach aus der Wertfolge bl, b2, b3 ..., die dem Filter '30 zugeführt werden, auf Leitung 41 Ausgangswerte b'l, b'2, b'3 ... . Die aus der Gesamtheit der Punkte b'l, b'2, b'3 ... durch Verbindung erhaltene Kurve ist strichpunktiert in Fig. 5 dargestellt» Diese Kurve bzw. Gerade ist durch Glättung der durchgezogenen Linie entstanden.
Die Viertfolge b'l, b'2, b'3 ..* wird danach untersucht, um den größten der Werte zu bestimmen, der ja - wie es bei der Beschreibung des Verfahrens bereits erläutert worden ist - als Mittel zur Bestimmung des Anregungszeitpunktes der Mundhöhlungen dient. Die Bestimmung des Maximalwertes wird realisiert mit Hilfe einer Gesamtschaltung, die nachfolgend näher beschrieben werden soll. Das Register 42 empfängt sukzessive über di"e Torschaltung 43 die Werte b'l, br2, b'3 ..., die über Leitung 41 abgegeben werden. Die Subtraktion^- und Vergleichsschaltung 44 empfängt an einem ihrer Eingänge die genannten Werte, während sie am anderen Eingang die über Leitung 45 vom Register 42 ausgegebenen Ausgangswerte aufnimmt. Die Ausgangsleitung der Schaltung 44 führt eine Information, die, was das Vorzeichen des Vergleichs betrifft, über Leitung 46 der Torschaltung 43 und dem Inverter 47 zugeführt wird. Der Ausgang 50 des Inverters 47 bildet einen Eingang der Torschaltung 48. Diese Torschaltung empfängt außerdem über Leitung 49 ein Eingangssignal, das vom Ausgang 27 der Subtraktionsschaltung 23 herstammt. Dieses Signal ist die Differenz
fr 971 O22 309 8 42/07 9 0
PI(i) - PS(i). Während des Betriebs werden die Werte in das Register 42 und den Vergleicher 44 eingegeben. Zuerst wird b'l in das Register 42 eingegeben, sobald sich b'2 einstellt/ wird es in den Vergleicher 44 eingeführt. Gleichzeitig erfolgt seine Eingabe in das Register 42, aus dem es den Xtfert b'l über Leitung 45 in den Vergleicher 44 überträgt. Ist b'2 größer als b'l, so führt die Ausgangsleitung 46 der Schaltung 44 hohes Niveau. Demzufolge läßt die Torschaltung 43 den Wert b'3 hindurch, worauf dieser in das Register 42 aufgenommen wird. Dadurch wird wiederum der Wert b'2 auf Leitung 45 in den Vergleicher 44 übertragen, der zum gleichen Zeitpunkt über Leitung 41 den Wert b'3 empfängt. Es wird eine neue Vorzeichenbestimmung durch Vergleich (b'3 - b'2) durchgeführt und dieser Vorgang wird wiederholt, bis die Differenz zwischen sukzessiven Werten negativ wird. Betrachtet man dazu Fig. 5, so stellt man fest, daß die Bedingung "niedriges Niveau" auf Leitung 46 für den Wert b'6 gegeben ist/ da b'6 - b'5 kleiner als Null ist. Zu diesem Zeitpunkt ist die Torschaltung 43 nicht mehr offen, so daß das Register 42 keine weiteren Werte aufnehmen kann. Damit ist der Zeitpunkt des Auftretens einer plötzlichen Steigungsänderung bestimmt. Herrscht auf Leitung 46 ein niedriges Niveau, so führt Leitung 50 aufgrund des Inverters 47 ein hohes Niveau. Demzufolge ist auch ein Eingang der Torschaltung 48 auf entsprechend hohem Niveau. Der zweite Eingang der Torschaltung 48, an den die Leitung 49 angeschlossen ist, liegt ebenfalls auf hohem Niveau, vorausgesetzt, daß ein Kurvenbereich abgetastet wird (Fig. 4), der positive Krümmung (Fig. 5) besitzt und demzufolge auf Leitung 27, die den Ausgang der Subtraktionsschaltung 23 bildet, ebenfalls hohes Niveau herrscht. Bis hierher ist die gesamte gestrichelt angedeutete Zeichnung in Fig. 6b in der Beschreibung noch nicht erwähnt worden, so daß auch der dritte Eingang der Torschaltung 48 bislang unberücksichtigt bleiben kann. Da gerade gesehen wurde, daß im Augenblick der Bestimmung der ersten negativen Differenz - im gewählten Beispiel b'6 - b'5 - die Leitungen 50 und 49 beide auf hohem
FR971022 309842/0790
Niveau liegen, wird sich die Ausgangsleitung 51 der Torschaltung 48 ebenfalls auf hohem Niveau befinden. Der auf dieser Leitung
51 eingetretene Wechsel von tiefem auf hohes Niveau wird auf die beiden in Kaskade geschalteten bistabilen MuItivibratoren
52 und 53 übertragen. Der Ausgang der Schaltung 52 wird mittels Leitung 54 auch der Schaltung 53 zugeführt. Die Leitung 54 ist außerdem mit einem Eingang der Torschaltung 55 verbunden, deren zweiter Eingang an den Ausgang des Multivibrators 53 über Leitung 56 angeschlossen ist. Diese Schaltung vermeidet ein kontinuierliches hohes Niveau auf Leitung 57, die den Ausgang der Torschaltung 55 bildet, solange auf den Leitungen 27 und 49 (Bedingung: positive Krümmung) ebenfalls hohes Niveau herrscht; tatsächlich bewirkt der Multivibrator 53 einen sehr schnellen Abfall der Leitung 57 auf niedrigem Niveau. Mann kann demnach am Ausgang der erfindungsgemäßerb Schaltung jeweils zum Zeitpunkt der Anregung der Mundhöhlen einen kurzen rechteckigen Impuls abnehmen. Eine Leitung 58 verbindet den Ausgang eines Inverters 59 mit dem Register 42 und den bistabilen Multivibratoren 52 und 53. Diese Leitung befindet sich auf niedrigem Niveau, solange die Differenzwerte PI(i) - PS(i) positiv sind. Sobald diese Differenz negativ wird, erhöht sich das Niveau der Leitung 49, worauf Leitung 58 wiederum niedriges Niveau führt, wodurch die Multivibratoren 52 und 5 3 sowie das Register 42 zurückgestellt werden und daher für die nächste stimmhafte Periode bereit sind.
Die eben in Zusammenhang mit Fig. 6 beschriebene Schaltung zur Durchführung des erfindungsgemäßen Verfahrens kann noch durch die gestrichelt gezeichneten Schaltungsteile perfektioniert werden. Durch diese Schaltungsteile soll eine variable Detektorschwelle vorgesehen werden. Daß eine solche variable Schwelle sinnvoll ist, ergibt sich bei näherer Betrachtung der Fig. 5. Die Gesamtheit der Werte D(i), die in dieser Figur dargestellt ist, ist nicht nur dann positiv, wenn in Fig. 4 plötzliche Steigungsänderungen auftreten. Man sieht auch, daß Fig. 4 Sektionen positiver Krümmung von kurzer Dauer aufweist,
FR971 022 309842/0790
die aufgrund schwacher Steigungsänderungen auftreten. Dieser Variationstyp ist nur aleatorisch und darf das in Fig. 6 dargestellte System keine falschen, das Auftreten von Anregungszeitpunkten anzeigende Signale abgeben lassen.
Die Schaltung zur Schv/ellenvariation besteht grundsätzlich aus einem Schwellenregister 60, welches Eingangssignale von einer Torschaltung 61 empfängt, und einer Subtraktions-Vergleichsschaltung 62, deren einer Eingang mit dem Ausgang des Registers 60 und deren anderer Eingang mit dem Ausgang des Registers 42 über die Leitung 45a verbunden ist. Der Ausgang des Vergleichers 62 liefert seine Signale über Leitung 6 3 auf die Torschaltung 48 und über Leitung 63a auf die Torschaltung 61. Letztere hat einen zweiten Eingang, der über Leitung 46b, den Inverter 64, Leitung 46a und Leitung 46 mit dem Ausgang der Vergleichsschaltung 44 verbunden ist. Ein dritter Eingang der Torschaltung ist über Leitung 45b an den Ausgang des Registers 42 angeschlossen.
Im Betrieb wird dem Register 60 eine Schwelle des Wertes S(FIg. 5) zugeführt. Dieser Wert ist so ausgewählt, daß die Sektionen positiver Krümmung der Kurve in Fig. 4 nicht berücksichtigt und über Leitung 51 (Fig. 6b), sobald sie entdeckt werden, übertragen werden. Sobald die Wertreihe b' 1, b · 2 , b'3 ... aus dem Register 42 in die Vergleichsschaltung 44 übertragen wird, werden diese Werte sukzessive über Leitung 45a dem Vergleicher 62 z.ugeleitet. So wird im Fall des Auftretens einer unechten positiven Krümmung beim Vergleich des Wertes b'l in der Schaltung 62 über Leitung 6 3a ein niedriges Niveau ausgegeben, da b'l - S kleiner als Null ist. Demzufolge ist dann das Niveau des ersten Eingangs der Torschaltung 61 niedrig. Daher wird der Inhalt des Registers 60 nicht geändert. Gleichzeitig ist auch das Niveau auf Leitung 6 3 niedrig, so daß demzufolge, sobald das Niveau auf Leitung 56 absinkt, keinerlei Informa- . tion über die Torschaltung laufen kann, da der zweite Eingang dieser Torschaltung niedriges Niveau, der dritte Eingang (Lei-
FR 97X022 . 309842/0790.,
tung 49) hohes Niveau hat. Durch diese Maßnahme wird keine Sektion positiver Krümmung, die niedriger als die Schwelle S liegt, bestimmt und über Leitung 51 übertragen werden. Im Falle eines Anregungszeitpunktes werden die Werte des Abschnitts der positiven Krümmung oberhalb der Schwelle S liegen, so daß, beispielsweise für den Wert b'l, die Linie 6 3a sich auf hohem Niveau befindet, da b'l - S größer als Null ist. Während des gesamten Anstiegs der geglätteten Kurve in Fig. 5 wird sich das Niveau auf Leitung 46a oben und auf 46b unten befinden. Demzufolge kann keinerlei Wert vom Register 42 über Leitung 45b und Torschaltung 61 in das Register 6O übertragen werden. Sobald jedoch der erste Wert (b'6 z.B. auf Fig. 5) niedriger als der vorhergehende Wert liegt, wird der Vergleicher 44 wegen b'5 - b'6 kleiner als KuIl das Niveau von Leitung 46 absinken. Daraufhin kann in das Register 42 nichts mehr übertragen werden. Ebenso wird sich Leitung 46a auf niedrigem Niveau befinden, so daß Leitung 46b hohes Niveau aufweist und der Wert b'6 vom Register 42 in das Schwellwertregister 60 über die Torschaltung 61 gebracht werden kann. Dieser neue Wert b'6 wird wie für die Bestimmung des nachfolgenden AnregungsZeitpunkts maßgebende Schwelle sein. Besteht die Gefahr, daß die Änderungen der Grundfrequenz derart groß ist, daß sich eine solche Schwelle als zu hoch erweist, genügt es beispielsweise, zwischen die Register 42 und 60 einen den Schwellwert halbierenden Teiler zu setzen. Der im Register 60 enthaltene Schwellwert wird sich zu jedem Anregungszeitpunkt der Hundhöhlungen ändern, da sich zu jeder Erregung das Maximum der in Fig. 5 dargestellten Kurve ändert.
Daher wird zum Zeitpunkt der Erregung der Mundhöhlungen Leitung 50 hohes Niveau führen, sobald das erste negative Resultat des Vergleichers 44 erscheint (z.B. b'6 - b'5 in Fig. 5); Leitung 49 wird hohes Niveau führen, da das Resultat der Differenz PI(i) - PS(i) in der Subtraktionsschaltung 23 positiv ist, ebenso wird Leitung 63 hohes Niveau führen, da das Resultat
fr 9 71 022 309842/07 90
des Vergleichs zwischen den Werten aus dem Register 42 und der Schwelle positiv ist. Demzufolge ist auch - wie oben gezeigt wurde - Leitung 52 erregt.
Auch auf der Ausgangsleitung 5 7 der Gesamtschaltung, wie sie in Fig. 6 dargestellt ist, wird demnach die die AnregungsZeitpunkte der Mundhöhlungen charakterisierende Information auftreten. Bei jeder Anregung tritt ein Rechteck-Impuls auf, der zur Messung der Grundfrequenz der Sprachschwingungen benutzt werden kann, z.B., indem man das Zeitintervall zwischen zwei aufeinanderfolgenden Impulsen bestimmt. Geeignete Schaltungen zum Messen derartiger Zeitabstände sind aus dem Stande der Technik bekannt.
309842/0790
FR 9 71 022

Claims (8)

PATENTANSPRÜCHE
1. j Verfahren zur Ermittlung der Sprachgrundfrequenz durch ' Bestimmung der AnregungsZeitpunkte der Mundhöhlungen bei stimmhaften Lauten, dadurch gekennzeichnet, daß ein die Sprachschwingung darstellendes Analogsignal abschnittweise abgetastet und der abgetastete Wert digitalisiert wird,
daß für jede Abtastung der Betrag der Differenz d(i) zwischen dem für diese Abtastung und dem für die vorhergehende Abtastung ermittelten Wert bestimmt wird, daß die Beträge der Differenzen d(i) zwischen aufeinanderfolgenden Abtastungen entsprechend der Formel
i - 1
Σ d(i-l)
zu einer Summe S(i) aufaddiert werden, die den Betrag der bis zu dieser Abtastung aufgetretenen Differenzen angibt, um ein Signal zu erhalten, dessen Mittelwertkurve der sukzessiven Summen S(i) der Beträge plötzliche Änderungen des Verlaufs zu den Zeitpunkten der Anregung der Mundhöhlungen zeigt, und
daß diese AnregungsZeitpunkte aus dem Kurvenverlauf ermittelt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die digitalisierten Abtastsignale PCM-moduliert werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Ermittlung der AnregungsZeitpunkte aus dem Kurvenverlauf folgende Verfahrensschritte einschließt:
a) aus den Summen S(i) der Beträge wird die Steigungsänderung der Mittelwertkurve dieser Summen ermittelt, indem für jede Summe berechnet wird:
FR 972 022 309842/07 90
eine erste Differenz zwischem dem Wert der Summe S(i) und dem der Summe S (i- η) , · eine zweite Differenz zwischen dem Wert der Summe S (i+n) und dem der Summe S(i),
eine dritte Differenz zwischen den Resultaten der ersten und zweiten Differenzbildung, wobei das Ergebnis dieser dritten Differenzbildung die Information bezüglich plötzlicher Steigungsänderung in Form eines Vorzeichenwechsels vom Negativen zum Positiven in sich trägt;
b) innerhalb der Gruppe positiver Resultate der dritten Differenzbildung wird das Resultat bestimmt, welches den größten Wert aufweist;
c) abhängig vom Resultat der dritten Differenzbildung, welches positives Vorzeichen und innerhalb einer vorgebbaren Gruppe maximale Größe aufweist, wird ein die Anregung der Mundhöhlungen anzeigendes Signal generiert.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Zahl "n;: = 20 gewählt wird.
5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß ein die Anregung der Mundhöhlungen charakterisierendes Signal nur dann erzeugt wird, wenn der Betrag der dritten Differenzbildung einen in Abhängigkeit vom Sprachsignal einstellbaren Schwellwert überschreitet.
6. Vorrichtung zur Durchführung des Verfahrens nach mindestens einem der Ansprüche 1 bis 5, gekennzeichnet durch einen das Sprachsignal aufnehmenden und in einer Folge digitaler Werte umformenden Codierer, eine Subtraktionsschaltung zur Berechnung der Differenz aufeinanderfolgender Abtastergebnisse, eine Einrichtung zur Bestimmung des Betrags der Differenz aufeinanderfolgender Abtastergebnisse, eine Addierschaltung, die die berechneten Differenz-
fr 971 022 3098 427 07 90
werte jeweils der Summe der vorher berechneten Differenzwerte hinzufügt, wobei die sukzessiven Summen über eine Rückkopplung zwischen Ausgang und Eingang der Addierschaltung umlaufen, und
einen Krümmungsdetektor, der die sukzessiven Summen der Beträge aufnimmt und jeweils dann ein Signal abgibt, wenn bei ausreichend hohen Summenwerten eine positive Krümmung auftritt.
7. Vorrichtung nach Anspruch 6, gekennzeichnet durch einen Maximumdetektor, dem die Summen eingegeben werden, die positiver Krümmung entsprechen, und der aus der Gruppe eingegebener Summen diejenige mit dem größten Wert bestimmt, worauf ein für eine Gruppe nur einmal abgegebenes Signal generiert wird.
8. Vorrichtung nach Anspruch 7, gekennzeichnet durch einen Schwellwertdetektor, der die sukzessiven Summen der Beträge empfängt und für jede über einer vorgebbaren Schwelle liegende Summe ein Signal abgibt, welches die übertragung dieser über der Schwelle liegenden Summe in den Maximumdetektor ermöglicht.
FR 971 022 309842/0790
Leerseite
DE19732312356 1972-03-28 1973-03-13 Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen Pending DE2312356A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR7211396A FR2178410A5 (de) 1972-03-28 1972-03-28

Publications (1)

Publication Number Publication Date
DE2312356A1 true DE2312356A1 (de) 1973-10-18

Family

ID=9096125

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19732312356 Pending DE2312356A1 (de) 1972-03-28 1973-03-13 Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen

Country Status (4)

Country Link
JP (1) JPS551597B2 (de)
DE (1) DE2312356A1 (de)
FR (1) FR2178410A5 (de)
GB (1) GB1383621A (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2147413A5 (en) * 1971-07-27 1973-03-09 Escher Wyss France Pneumatic drier for powders and granules - fed by fluidised bed using hot air
JPS5323783U (de) * 1976-08-05 1978-02-28
JPH01178191U (de) * 1988-06-07 1989-12-20
WO1993009531A1 (en) * 1991-10-30 1993-05-13 Peter John Charles Spurgeon Processing of electrical and audio signals
JPH0576993U (ja) * 1992-03-25 1993-10-19 菊夫 今井 消費エネルギーを再利用する、自転車の加速器
DE102008043201A1 (de) 2008-10-27 2010-04-29 Robert Bosch Gmbh Vorrichtung zum Erfassen einer Änderung eines Generatorausgangssignals eines Fahrzeuggenerators
CN111145044B (zh) * 2020-01-09 2023-07-11 三峡大学 基于ewt和mfde的配电网电能质量扰动检测方法

Also Published As

Publication number Publication date
FR2178410A5 (de) 1973-11-09
JPS551597B2 (de) 1980-01-16
JPS4916308A (de) 1974-02-13
GB1383621A (en) 1974-02-12

Similar Documents

Publication Publication Date Title
DE4126902C2 (de) Sprachintervall - Feststelleinheit
DE3645118C2 (de)
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE3837066A1 (de) Rauschunterdrueckungseinrichtung
DE69431445T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE4031638C2 (de)
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69329354T2 (de) Verfahren und Gerät zur Mustererkennung
EP0285221A2 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3128172A1 (de) Periodendauermessvorrichtung
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE69203186T2 (de) Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
DE69516455T2 (de) Verfahren zur Sprachkodierung mittels linearer Prädiktion
DE2312356A1 (de) Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE69321011T2 (de) Verfahren und Gerät zur Rauschmessung
DE69614799T2 (de) Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz
WO2000013173A1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE3246712C2 (de)
DE1189745B (de) Verfahren zum Identifizieren von Schallereignissen
DE2357949A1 (de) Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls
DE19825070C1 (de) Verfahren zur Bestimmung eines eine Variation zwischen einer meßbaren Größe und einer meßbaren Referenzgröße repräsentierenden Wertes

Legal Events

Date Code Title Description
OHJ Non-payment of the annual fee