DE2626793B2 - Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals - Google Patents

Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals

Info

Publication number
DE2626793B2
DE2626793B2 DE2626793A DE2626793A DE2626793B2 DE 2626793 B2 DE2626793 B2 DE 2626793B2 DE 2626793 A DE2626793 A DE 2626793A DE 2626793 A DE2626793 A DE 2626793A DE 2626793 B2 DE2626793 B2 DE 2626793B2
Authority
DE
Germany
Prior art keywords
arrangement according
detector
voiced
unvoiced
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2626793A
Other languages
English (en)
Other versions
DE2626793C3 (de
DE2626793A1 (de
Inventor
Shinichiro Koganei Hashimoto
Yoichi Kadaira Tokura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP50073063A external-priority patent/JPS51149705A/ja
Priority claimed from JP50086277A external-priority patent/JPS5210002A/ja
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE2626793A1 publication Critical patent/DE2626793A1/de
Publication of DE2626793B2 publication Critical patent/DE2626793B2/de
Application granted granted Critical
Publication of DE2626793C3 publication Critical patent/DE2626793C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft eine Anordnung laut Oberbegriff des Anspruchs 1 und dient zur Bewertung stimmhafter und stimmloser Zustände eines Sprachsignals bei einem Sprachanalysiersystem, das z. B. einen Teilautokorrelations- bzw. PARCOR-Koeffizienten (partial correlation) verwendet. Eine bekannte Anordnung (JA-PS 7 54 418), die Teilautokorrelationskoeffizienten verwendet, dient zum Analysieren und Extrahieren des für die Übertragung von Sprachinformationen nötigen Grundmerkmals eines Sprachsignals mittels einer speziellen Korrelation zwischen aneinander anschließenden Proben einer Sprachwellenform.
Bei einem bekannten Detektor für stimmhafte und stimmlose Zustände werden letztere in Abhängigkeit davon bestimmt ob der Spitzenwert Φ = Φ(Τ) der Autokorrelationskoeffizienten Φ(τ) eines Sprachsignals einen bestimmten Schwellenwert übersteigt oder nicht, wobei die Verzögerungszeit τ = T entsprechend dem Spitzenwert als Grundperiode (pitch period) des Sprachsignals angesehen wird. Ein derartiges Verfahren ist bekannt (M.M. Sondhi in »New Methods of Pitch Extraction«, I.E.E.E., Band Au-16, Nr. 2, Juni 1968, S. 262-265).
Wenn jedoch ein solcher, nur die Periodizität des Sprachsignals benutztender Stimmhaft/Stimmlos-Detektor des Sprachanalyse- und Synthesesystems angewandt wird, besteht die Gefahr für eine Fehlbewertung des stimmhaften und stimmlosen Zustands eines Sprachsignals, mit dem Ergebnis, daß der stimmhafte Anteil, der anhand fehlbewerteter Parameter aufgrund der Analyse synthetisiert bzw. zusammengesetzt wird, durch ein Störsignal (noise) angeregt wird, das als stimmlose Anregungsquelle wirkt, oder daß der stimmlose Anteil durch eine als stimmhafte Anregungsquelle wirkende Impulsreihe angeregt wird, so daß die
Wiedergabe einer synthetischen Sprache hoher Güte schwierig wird
Dieser Detektor berücksichtigt jedoch nicht das gleichzeitige Vorhandensein bzw. die Koexistenz der stimmhaften Anregungsquelle V und der stimmlosen Anregungsquelle UV, wie in einer Stimmhaft/Stimmlos-Schaltfunktion Vj (x).
Im Gegensatz dazu wird bei dem Sprachanalysiersystem unter Benutzung des Teilautokorrelationskoeffizienten die Verzugszeit T=T entsprechend dem Spitzenwert des Autokorrelationskoeffizienten W(T) des Restsignals als Grundperiode benutzt, und der normalisierte Wert qoi= W(T)/ W(o) des Spitzenwerts wird als Parameter zur Bewertung der stimmhaften und stimmSosen Zustände bzw. Bedingungen eines Sprachsignals herangezogen, wobei die Koexistenz der stimmhaften Anregung Vund der stimmlosen Anregung t/v'berücksichtigt wird. Hierbei wird das Verhältnis von stimmhafter Anregung V zu stimmloser Anregung UV unter Bedingungen der Koexistenz durch die in Fig. 1 dargestellten Schaltfunktionen V2 (x) und V3 (x) bestimmt, welche den Spitzenwert ρ/π als Veränderliche benutzen. Ein solches Verfahren ist ebenfalls bekannt (JA-PS 7 54 418).
Dieses Verfahren ist insofern vorteilhaft, als mit ihm unvollkommene Bewertungen der stimmhaften und der stimmlosen Anregungen ausgeglichen werden können, die durch die Varianz des Spitzenwerts ρ/η verursacht werden, doch ist dabei die Kompensation noch nicht vollkommen, während weiterhin die stimmhaften und stimmlosen Informationen zu groß werden. Dieses Verfahren ist daher nicht für praktische Anwendung geeignet
Eine Anordnung laut Oberbegriff des Anspruchs 1 ist bekannt (US-PS 36 62 115). Diese ist Teil eines Sprachwiedergabegeräts, in weichem aus einem digitalisierten Sprachsignal durch Autokorrelation in einer Analysiereinrichtung mittels mehrerer kaskadenartig in dieser angeordneten Teilkorrelationsstufen Teilautokorrelationskoeffizienten h ... Kn gewonnen werden. Aus diesen berechnet ein Korrelationskoeffizientenrechner den nominierten Wert Φ (us) des Sprachsignals, wobei die Verzögerungszeit ts die Abtast- oder Grundfrequenz des Sprachsignals darstellt Die Korrelationskoeffizienten sind Funktionen tatsächlicher und durch Extrapolation vorhergesagter Sprachsignalwerte. Der Ausgang der letzten Teilkorrelationsstufe ist mit einem Autokorrdator verbunden, in dem — nach Multiplikationen und Additionen — Autokorrelationsfunktionen erzeugt werden. In dem dem Autokorrelator zugeordneten Spitzenwertzähler werden Spitzenwerte angezeigt, die als Kriterium für das Vorliegen stimmhafter Sprachsignale dienen, wohingegen bei stimmlosen Signalen derartige Spitzenwerte fehlen.
In der Praxis hat sich jedoch herausgestellt, daß diese Anordnung nur mäßige Ergebnisse bei der Bestimmung zeitigt, ob stimmhafte oder -lose Sprachsignale vorliegen.
Der Erfindung liegt deshalb die Aufgabe zugrunde, eine elektrische Schaltungsanordnung der Gattung gemäß Oberbegriff des Anspruchs 1 so auszubilden, daß bei einfachem Aufbau eine genaue und zuverlässige Unterscheidung stimmhaft/stimmlos ermöglicht wird.
Diese Aufgabe wird durch die kennzeichnenden Merkmale des Anspruchs 1 gelöst.
Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen gekennzeichnet.
Im folgenden sind bevorzugte Ausführungsbeispiele
der Erfindung im Vergleich zum Stand der Technik anhand der Zeichnung näher erläutert. Es zeigt
F i g. 1 eine graphische Darstellung einer Stimmhaft/ Stimmlos-Schaltfunktion Vx zur Erläuterung eines bisher benutzten Stimmhaft/Stimmlos-Detektors,
F i g. 2 eine ρ/n-jti-Kennlinie zur Veranschaulichung des Ergebnisses der Entscheidung nach stimmhaft oder stimmlos, die durch Kombination des Teilautokorrelationskoeffizienten Jt1 und des Höchstwertes ρ/π des
ίο Autokorrelationskoeffizienten des Restsignals durchgeführt wird,
Fig.3 ein Blockschaltbild des grundsätzlichen Aufbaus einer Sprachanalysier- und Synthesevorrichtung bei der erfindungsgemäßen Stinunhaft/Stimmios-De tektorschaltung, welcher das Ergebnis der Bewertung gemäß F i g. 2 benutzt,
F i g. 4 ein detailliertes Blockschaltbild des Teilautokorrelations- bzw. PARCOR-Analysators bei der Schaltung gemäß F i g. 3,
F i g. 5 ein detailliertes Blockschaltbild eines bei der Schaltung gemäß F i g. 3 verwendeten Tonperiodendetektors,
Fig.6 ein detailliertes Blockschaltbild des Stimmhaft/Stimmlos-Detektors bei der Schaltung gemäß F i g. 3 und
F i g. 7 ein Blockschaltbild eines Sprachanalysier- und Synthesesystems unter Verwendung eines abgewandelten Stimmhaft/-Stimmlos-Detektors gemäß der Erfindung.
Es wurde ein Sprachsignal unter Anwendung eines Zeitfensters von 20 ms und einer Rahmenfolgeperiode von 10 ms untersucht, wobei Teilautokorrelations- bzw. PARCOR-Koeffizienten erhalten wurden. Fig.2 zeigt einen Maximalwert des Autokorrelationskoeffizienten der Restsignale, nämlich die auf diese Weise erhaltene PARCOR-Koeffizientencharakteristik erster Ordnung. Diese Charakteristik bzw. Kennlinie wurde mittels einer PARCOR-Analyse der Sprechweise eines weiblichen Sprechers während einer Zeit von 3 s ermittelt In F i g. 2 geben die Quadrate und Sternchen jeweils die stimmhaften bzw. die stimmlosen Zustände in jedem Rahmen an, die manuell durch Ablesen oder Auswerten der Wellenform der ursprünglichen Sprache ermittelt wurden.
Wenn das Sprachsignal nach dem bisher üblichen Verfahren als Sprachzustand bewertet wird, indem festgestellt wird, daß ρ/η einen vorbestimmten Schwellenwert übersteigt, ist es aus F i g. 2 ersichtlich, daß der stimmhafte Bereich im rechten unteren Abschnitt von
so F i g. 2 als stimmloser Bereich fehlbewertet wird. Durch Herabsetzung des Schwellenwerts wird die Bewertung möglich, daß der rechte untere Abschnitt don stimmhaften Bereich darstellt. Unter diesen Bedingungen werden jedoch zahlreiche stimmlose Bereiche als stimmhafte Bereiche fehlbewertet Mit anderen Worten: Es besteht eine Grenze bzw. Einschränkung für das bisher übliche Verfahren, bei dem die stimmhaften und stimmlosen Zustände bewertet werden, indem legigiich der Faktor ρ/π entsprechend dem Grad der Periodizität als
Parameter benutzt wird.
Bezüglich der Beziehung zwischen der Bewertung der stimmhaften und stimmlosen Zustände und der Güte der synthetischen Sprache sollten die folgenden beiden Punkte in Erwägung gezogen werden:
1. Eine Fehlbewertung des stimmhaften Zustands als stimmloser Zustand beeinträchtigt die Natürlichkeit der synthetischen Sprache.
2. Eine Fehlbewertung des stimmlosen Zustands als stimmhafter Zustand beeinträchtigt die Verständlichkeit der stimmlosen Töne.
Die erstgenannte Fehlbewertung hat einen wesentlieh größeren Einfluß auf die Gesamtgüte der synthetischen Sprache als die zweite Fehlbewertung. Zur einwandfreien Festlegung des Kriteriums für die Bewertung ist daher hauptsächlich darauf zu achten, daß der stimmhafte Zustand nicht als stimmloser Zustand fehlbewertet wird, weshalb es wünschenswert ist, die Fehlbewertung des stimmlosen Zustands als stimmhafter Zustand in einem Bereich, in welchem diese Bedingung erfüllt ist, zu verhindern.
Aus obigen Überlegungen geht hervor, daß die angesprochenen Probleme durch die Bewertung gelöst werden können, daß der stimmhafte Zustand vorhanden ist, wenn ρ/π+a χ Αι >ί, während der stimmlose Zustand anliegt, wenn ριη+a χ k\<t, wobei a und t Konstanten darstellen. Die Konstante a stellt somit das Gefälle einer geraden Linie zwischen den stimmhaften und stimmlosen Bereichen dar, und t gibt den Höchstwert des Autokorrelationskoeffizienten des Restsignals ρ/η an, wenn der PARCOR-Koeffizient iti=0. Anhand von Fig.2 läßt sich beispielsweise ermitteln, daß a=0J5 und t= 0,4.
Genauer gesagt, ist ρ/η ein Parameter, welcher den Grad der Periodizität des Sprachsignals angibt, während der PARCOR-Koeffizient k, (k,<\) kombiniert mit ρ/π einen Wert von etwa — 1 bei einem jo Sprachsignal mit einer Hochfrequenzkomponente nahe 4 kHz besitzt, wobei Jti gleich dem Autokorrelationskoeffizienten einer Versuchszeit ts einer Abtastperiode ist, wobei die Abtastfrequenz 8 kHz beträgt. Der Wert des PARCOR-Koeffizienten Art nähert sich jedoch bei einem Sprachsignal mit einer Niederfrequenzkomponente der Größe +1 an. Demzufolge ist der Wert von kt für einen durch einen Vokal dargestellten stimmhaften Zustand groß und für einen stimmlosen Zustand entsprechend einem stimmlosen Reibelaut klein. Mit anderen Worten: k\ stellt eine Frequenzkonstruktion für den die Periodizität wiedergebenden Parameter ρ/π dar. Zum Herausziehen der Periodizität, wie dies für die Verarbeitung einer Längeneinheit des Sprachsignals von etwa 30 ms entsprechend der Kennlinie der Periodizität erforderlich ist, ist die zeitliche Auflösung von ρ/η gering. Dagegen kann die zeitliche Auflösung für das Herausziehen von Jti vergrößert werden, wodurch es möglich ist, einem Übergang zwischen stimmhaften und stimmlosen Zuständen zu folgen, der eine hohe zeitabhängige Änderungsfrequenz besitzt.
Das weiterhin Jt( den PARCOR-Koeffizienten darstellt, braucht dieser Parameter nicht speziell bestimmt zu werden, wenn die Erfindung auf das Sprachanalysesystem unter Zugrundelegung der Teilautokorrelation (PARCOR) angewandt wird.
Wie aus der vorstehenden Untersuchung hervorgeht wird die Bewertung bzweckt, ob sich das Sprachsignal in einem stimmhaften oder einem stimmlosen Zustand ■ befindet durch Kombination eines durch Korrelations- eo verarbeitung des Sprachsignals erhaltenen bzw. extrahierten Parameters, z.B. ρ/η, welcher den Grad der Periodizität eines Sprachsignals angibt mit einem normalisierten Wert Φ(τε). welcher dem PARCOR-Koeffizienten £1 gleich ist wobei die Verzugszeit ts eine es Abtastperiode des Sprachsignals darstellt
Fig.3 ist ein Blockschaltbild eines Sprachanalyse- und -Synthetisiersystems mit einer Ausführungsform des Stimmhaft/Stimmlos-Detektors, welcher aus dem Bewertungsergebnis gemäß F i g. 2 Nutzen zieht. Gemäß F i g. 3 wird ein Sprachsignal über eine Eingangsklemme an ein Tiefpaßfilter 12 zur Beseitigung von Frequenzkomponenten von z. B. über 3,4 kHz angelegt. Der Ausgang des Tiefpaßfilters 12 ist an einen Analog/Digital- Wandler 13 angeschlossen, welcher das Ausgangssignal mit einer Abfrage- oder Abtastfrequenz von 8 kH abgreift und es dann einer Amplitudenquantelung unterwirft um dabei ein Digitalsignal mit 12 Bits zu bilden. Das Ausgangssignal dieses Wandlers 13 wird an einen PARCOR- bzw. Teilkorrelationskoeffizient-Analysator 14 angelegt welcher die Frequenzspektrum-Hüllkurve des Sprachsignals auswertet oder analysiert, um z.B. acht PARCOR-Koeffizienten k·, bis k& zu bestimmen.
Ein in Fig.4 beispielhaft dargestellter PARCOR-Koeffizienten-Analysator 14 weist η Stufen von Teilautokorrelatoren 14< bis 14„ auf, die in Kaskade geschaltet sind. Da alle Teilautokorrelatoren den gleichen Aufbau besitzen, wird nachstehend nur die Einheit 14 im einzelnen beschrieben. Diese Einheit 14 weist ein Verzögerungsnetz 21 zur Verzögerung des Sprachsignals um eine Abtastperiode ts, einen Korrelationskoeffizienten-Rechner 22, Multiplizierschaltungen 23 und 24, Addierschaltungen 25 und 26 sowie eine Quantisierschaltung bzw. einen Größenwandler 27 auf. Die Teilautokorrelatorstufe 14| ist mit einer Eingangsklemme 28 zur Aufnahme eines Sprachsignals und einer Ausgangsklemme 29 zur Lieferung des Ausgangssignals für den Größenwandler 27 und des quantisierten PARCOR-Koeffizienten dieser Stufe, d.h. des PARCOR-Koeffizienten Ari der ersten Ordnung, versehen. Eine Ausgangsklemme 30 der letzten Stufe 34n ist unbelegt während die andere Ausgangsklemme 31 zur Übermittlung eines Restsignals zum Autokorrelator einer noch näher zu erläuternden Anregungssignal-Ausziehstufe dient Die Einzelheiten der Arbeitsweise des PARCOR-Koeffizienten-Analysators 14 sind in der US-PS 36 62 115 beschrieben.
Gemäß Fig.3 ist weiterhin eine Anregungssignal-Ausziehstufe 15 vorgesehen, sie so geschaltet ist daß sie von den Ausgangssignalen des Analysators 14 den PARCOR-Koeffizienten k\ erster Ordnung und das Restsignal aufnimmt Die Ausziehstufe 15 weist einen Tonperioden-Detektor 16 und einen Stimmhaft/Stimmlos-Detektor 17 auf. Die Ausziehstufe 15 bestimmt die Autokorrelationsfunktion W(v) des über die Ausgangsklemme 31 gelieferten Restsignals aus einem der Ausgangssignale der des PARCOR-Koeffizienten-Analysators, und sie wählt den Spitzenwert ρ/η der Autokorrelationsfunktion W(r) mittels des Höchstwertwählers, so daß eine Verzugszeit Γ entsprechend dem gewählten Spitzenwert ρ/η als Tonperiode des Sprachsignals bestimmt oder ermittelt wird.
Der in Fig.5 in Einzelheiten dargestellte Tonperioden-Detektor 16 weist einen Autokorrelator 35 auf, welcher die Autokorrelationsfunktion des Restsignals W(c) bestimmt Aus einer Vielzahl von Ausgangssignalen des Autokorrelators 35 wird ein Ausgangssignal ρο= W(o) zum Herausziehen einer Komponente mit einer Amplitude L und zum Normieren von ρ/π auf noch zu erläuternde Weise benutzt Der Tonperioden-Detektor 16 weist weiterhin einen Höchstwertwähler 36 zum Ausziehen eines Höchstwerts W(T) im Bereich von j χ TsSri k χ rs aus den verschiedenen Werten von W(u) auf, wobei vs die Abgreif- bzw. Abtastperiode des Sprachsignals darstellt und /und k ganze Zahlen sind.
die derart gewählt sind, daß die Tonperiode innerhalb des angegebenen Bereichs liegt. Wenn die Abtastfrequenz 8 kHz entspricht, wird j mit 16 und k mit 120 gewählt. Die Verzugszeit T entsprechend der Verzugszeit, welche den Höchstwert W(T) innerhalb dieses Bereichs liefert, wird als die Tonperiode (ausgedrückt durch ein ganzzahliges Vielfaches von ts) bestimmt und an eine Klemme 38 angelegt. Ein Wert bei Null-Verzugszeit Qo= W(o) entsprechend dem Quadrat des Anregungssignals wird an eine Wurzelschaltung 39 angelegt, durch welche L=^jTB berechnet wird und deren Ausgangssignal über einen Größenwandler 40 an eine Ausgangsklemme 41 angelegt wird.
Der durch den Höchstwertwähler 36 extrahierte oder ausgezogene Spitzenwert wird an einem Teiler 42 zum Normalisieren durch das Signal go dividiert, und der normalisierte Wert wird über einen Größenwandler 43 als Signal gm einer Klemme 44 zugeführt. Die Verzugszeit T entsprechend derjenigen, wenn der Höchstwertwähler 36 einen Spitzenwert auswählt, wird über einen anderen Größenwandler 45 an eine Klemme 45 angelegt.
F i g. 6 zeigt ein Beispiel für den Stimmhaft/Stimmlos-Detektor 17 mit einer Multiplizierschaltung 48, die ein Produkt aus a χ k\ eines über eine Eingangsklemme 49 von PARCOR-Koeffizienten-Analysator 14| gelieferten PARCOR-Koeffizienten und einer Konsante a, wie sie vorher in Verbindung mit Fig.2 beschrieben ist, berechnet. Der Detektor 17 weist auch eine Addierschaltung 51 auf, die den vom Tonperioden-Detektor 16 gelieferten normalisierten Spitzenwert gm der Autokorrelationsfunktion der Restsignale über eine Klemme 52 zum Ausgangssignal (a χ ki) der Multiplizierschaltung addiert und damit eine Summe (gm+a χ ki) liefert Außerdem ist ein Komparator 53 vorgesehen, welcher diese Summe mit einem Schwellenwert t vergleicht Im Fall von t>(gm+a χ k\) erzeugt der Komparator 53 ein »0«- bzw. Niedrigpegel-Ausgangssignal, während er im Fall von t^(gm+a χ k\) ein »1 «-Ausgangssignal (hoher Pegel) erzeugt, wobei diese Ausgangssignale Ober eine Ausgangsklemme 54 an die Klemme 18a (F i g. 3) angelegt werden. Wenn daher das Ausgangssignal des Komparator^ 53 einer »0« entspricht, wird das Sprachsignal als in einem stimmlosen Zustand befindlich bewertet während bei einem Ausgangssignal gleich »1« ein stimmhafter Zustand des Sprachsignals bewertet wird.
Gemäß F i g. 3 werden die durch den Analysator 14 ausgezogenen oder analysierten PARCOR-Koeffizienten k\ — ks und die durch die Auszieheinheit 15 analysierten Anregungssignale T, V, UV und L an eine gemeinsame Ausgangsklemme 18a angelegt Wenn ein Digitalübertragungssystem gewünscht wird, werden ein geeigneter Digitalkodewandler und ein Digitalübertrager (nicht dargestellt) an die Ausgangsklemme 18a angeschlossen. Wenn eine Tonantwortvorrichtung gewünscht wird, wird eine geeignete Speichervorrichtung mit der Klemme 18a verbunden. Die durch die eben beschriebene Vorrichtung von der Klemme 18a abgenommenen Signale werden an eine Klemme 186 angelegt an die eine Sprachsynthesierschaltung 19 angeschlossen ist welche ein Sprachsignal entsprechend den ausgezogenen, durch eine Vorrichtung, wie den Digitalübertrager und die Speichervorrichtung, an die Klemme 186 angelegten Parametersignalen reproduziert Die Sprachsynthetisierschaltung kann von beliebiger bekannter Bauart z.B. derjenigen gemäß der US-PS 36 62115, sein. Das Ausgangssignal dieser Schaltung 19 wird einer Ausgangsklemme 20 aufgeprägt.
Die Schaltung gemäß Fig.3 arbeitet wie folgt: Aus dem an die Eingangsklemme 11 angelegten Sprachsignal werden Hochfrequenzkomponenten von z. B. über 3,4 kHz durch das Tiefpaßfilter 12 beseitigt, und dessen Ausgangssignal wird einer Amplitudenquantelungs-Verarbeitung von 12 Bits bei einer Auswerte- oder Abtastfrequenz von z. B. 8 kHz unterworfen und sodann durch den AnalogADigital-Wandler 13 in einen Digitalkode umgewandelt. Das Ausgangssignal des Wandlers 13 wird der PARCOR-Koeffizienten-Analysier- oder Ausziehvorrichtung 14 eingegeben, um die Frequenzspektrum-Hüllkurve der Sprache auszuziehen und dabei z. B. acht PARCOR-Koeffizienten Jti-fe zu bestimmen. Von diesen Ausgangssignalen werden der Koeffizient k\ erster Ordnung und das Restsignal zur Anregungssignal-Ausziehvorrichtung 15 gesandt. Wie erwähnt ist der PARCOR-Koeffizient k\ erster Ordnung gleich Φ(τε)/Φ(ο) In der Ausziehvorrichtung oder -stufe 15 berechnet der Stimmhaft/Stimmlos-Detektor 17 die Summe (gm+ak\) des durch die Tonperioden-Ausziehvorrichtung 16 extrahierten Spitzenwerts gm und des primären PARCOR-Koeffizienten Jti. Wenn die Summe (gm+ah) größer ist als der Schwellenwert t, bestimmt der Stimmhaft/Stimmlos-Detektor, daß ein stimmhafter Zustand vorliegt während bei einer unter dem Schwellenwert r liegenden Summe ein stimmloser Zustand festgestellt wird. Die Ausgangssignale entsprechend den jeweiligen Zuständen werden an die Ausgangsklemme 18a angelegt. Die Ausgangssignale werden sodann über einen Digitalübertrager oder eine Speichervorrichtung (nicht dargestellt) zur Klemme 186 und von dieser zur Sprachsynthetisierschaltung 19 zur Reproduktion einer synthetischen Sprache, die zur Ausgangsklemme 20 übermittelt wird, weitergeleitet.
Die Erfindung bietet die folgenden Vorteile:
1. Da die stimmhaften und stimmlosen Zustände entsprechend dem Verhältnis oder der Beziehung zwischen einem Parameter gm, welcher den Grad der Periodizität eines Sprachsignals angibt dem Wert Φ(ο) der Autokorrelationsfunktion bei Null-Verzugszeit des Sprachsignals und dem Wert Φ(τε) der Autokorrelationsfunktion bei einer Verzugszeit ts der Abtastperiode bewertet werden, können die stimmhaften und stimmlosen Zustände (Vund UV) mit hoher Genauigkeit bewertet bzw. bestimmt werden.
2. Hierdurch wird es möglich, eine synthetische Sprache hoher Güte zu produzieren.
3. Unabhängig davon, daß die stimmhaften und stimmlosen Zustände nach einem äußerst einfachen Verfahren bewertet werden können, bei dem lediglich ein kleiner Teil der bisher nötigen Bauteile verwendet wird, lassen sich diese außerdem mit hoher Genauigkeit verarbeiten.
4. Da es möglich ist die stimmhaften und stimmlosen Zustände (V und UV) mit hoher Genauigkeit zu bewerten, ist das gleichzeitige Vorhandensein von sowohl stimmhaften als auch stimmlosen Zuständen als Anregungssignale, wie bei der bisher verwendeten Vorrichtung, nicht erforderlich.
Zur Verdeutlichung der Vorteile der Erfindung wurde ein Doppel-Vergleichsversuch mit synthetischen Sprachen durchgeführt, die einmal nach dem bekannten Verfahren und zum anderen nach der Erfindung
zusammengestellt wurden, wobei die Vorzugsauswertungen gemäß folgender Tabelle erhalten wurden:
Tabelle
Synth. Satz S, Synth. Satz S2
Stand der Technik 20,8% 57,8%
Erfindung 41,2% 80,2% ,„
Zur Erzielung dieser Ergebnisse wurden ein synthetischer Satz mit einer Gesamtbitfrequenz von 9,6 Kilobit/s als synthetischer Satz Si und ein solcher mit einer Gesamtbitfrequenz von 27 Kilobit/s als Salz S2 benutzt. Diese synthetischen Sätze wurden von drei Sprecherinnen jeweils 3,5 s lang gesprochen. Zehn männliche Zuhörer wurden ausgewählt, und das Abhören jedes Vergleichspaares wurde zehnmal wiederholt. Wie oft aus obiger Tabelle hervorgeht, ist die Güte des synthetischen Satzes, der aus den von der erfindungsgemäßen Stimmhaft/Stimmlos-Detektorhaltung ermittelten Anregungssignalen Vund UVredproduziert wurde, wesentlich höher als bei dem durch den herkömmlichen Detektor reproduzierten Satz.
Wenn bei dieser Ausführungsform die Konstante a auf z. B. 0,5 eingestellt wird, kann die Multiplizierschaltung 48 gemäß Fig.6 durch ein 1-Bit-Schieberegister ersetzt werden, wodurch der Schaltungsaufbau vereinfacht wird.
Ebenso ist es möglich, eine Kombination
0(to)
χ pm
unter Verwendung eines normalisierten Werts gr.i= W(T)/W(o) der Autokorrelationsfunktion des Restsignals bei einer Verzugszeit T entsprechend der Tonperiode des Sprachsignals zu bilden und diese Kombination für die Bewertung zu benutzen, daß das Sprachsignal stimmlos, wenn der Wert der Kombination unter einem vorbestimmten Schwellenwert liegt, und in allen anderen Fällen stimmhaft ist In diesem Fall werden Multiplizierschaltungen 48 und 51 anstelle der einen Multiplizierschaltung 48 gemäß F i g. 6 eingesetzt
Anstelle der Benutzung der Autokorrelationsfunktion Wft) des Restsignals ist es auch möglich, die Autokorrelationsfunktion der Sprachwellenform als ρ/η=Φ(Τ)/Φ(δ) zu verwenden und die stimmhaften und stimmlosen Zustände nach dem vorher beschriebenen Verfahren festzustellen.
Fig.7 ist ein Blockschaltbild einer Sprachanalyse- und -synthetisiervc-rrichtung mit einem abgewandelten Stimmhaft/Stimmlos-Detektor, wobei den Teilen von Fig.3 entsprechende Bauteile mit den gleichen Bezugsziffern wie vorher bezeichnet sind. Gemäß F i g. 7 ist ein als das eine Element der Anregungssignal-Ausziehvorrichtung 15 dienender Tonperioden-Detektor 60 zur Aufnahme eines Restsignals, nämlich eines von mehreren Ausgangssignalen des PARCOR^Koeffizienten-Analysator^ 14 geschaltet Der Detektor 60 ω bestimmt oder ermittelt die Durchschnittsgrößen-Differenzfunktion (AMDF)D(v) des Restsignals und wählt den Inklinations- bzw. Dipwert von Dft;) mittels eines nicht dargestellten Mindestwertwählers, so daß eine entsprechende Verzugszeit T als Tonperiode benutzt wird. Der Detektor 60 liefert eine Amplitudenkomponente L der Erregungsquelle und den Inklinationswert ρ'/η= D(T)von Dfx).
Das Verfahren der Verwendung von D(t) anstatt der Autokorrelationsfunktion Φ(τ)\$1 bekannt und z. B. von M. J. Ross u.a. unter dem Titel »Average Magnitude Difference Function Pitch Extractor«, I.E.E.E., Assp 22, Nr. 5, Oktober 1974 Seite 353-362, beschrieben. In der vorstehenden Beschreibung bedeutet Dft) die Mittelwert-Differenzfunktion der Verzugszeit r, ausgedrückt durch die Gleichung
DU) = -j--Z(Si-S1-.)
worin S\ = / Abtastwerte des Sprachsignals und /=1, 2 ... / bedeuten. Außerdem ist eine Multiplizierschaltung
61 vorgesehen, die eine Konstante a' mit dem PARCOR-Koeffizienten jt| multipliziert, nämlich mit dem Verhältnis des Werts Φ(ο) von Autokorrelationsfunktion bei Null-Verzugszeit des Sprachsignals zur Autokorrelationsfunktion Φ/irsJbei einer Verzugszeit rs der Abtastperiode. Infolgedessen liefert die Multiplizierschaltung 61 ein Ausgangssignal
a'x iti = a'x Φ(τ$)/Φ(ο).
Der Unterschied zwischen den Ausgangssignalen der Multiplizierschaltung 61 und dem Tonperioden-Detektor 60 wird durch eine Subtrahierschaltung 62 berechnet, deren Ausgangssignal (a',xk\ — Q'm) an einen Eingang des Komparators 63 angelegt wird. An den anderen Eingang des Komparators 63 wird ein Schwellenwert V angelegt. Die Multiplizierschaltung 61, die Subtrahierschaltung 62 und der Komparator 63 bilden somit den Stimmhaft/Stimmlos-Detektor 64.
Die Schaltung gemäß F i g. 7 arbeitet wie folgt: Aus einer Anzahl von Ausgangssignalen des Anylsators 14 wird das Restsignal an die Anregungssignal-Ausziehvorrichtung 15 angelegt deren Tonperioden-Detektor 60 die Durchschnittsgrößen-Differenzfunktion Dft) des Restsignals ermittelt und der Inklinationswert (dip) ρ'/π= D(T) der Funktion Z^^wird durch die Mindestwert-Wählschaltung gewählt
Beim Detektor 64 liefert die Multiplizierschaltung 61 das Produkt aus dem PARCOR-Koeffizienten ^ = Φ(τε)ΙΦ(ο) vom betreffenden Analysator 14 und einer Konstante a', und das Ausgangssignal der Multiplizierschaltung 64 wird zur Subtrahierschaltung
62 geliefert an welcher der Unterschied zwischen diesem Produkt und dem Ausgangssignal ρ/π der Tonperioden-Ausziehvorrichtung 60, d.h. a'xki-g'm, ermittelt wird. Das Ausgangssignal der Subtrahierschaltung 62 wird durch den Komparator 63 mit dem Schwellenwert t verglichen. Wenn a'x.k\-q'm größer ist als t', wird ein stimmhafter Zustand bewertet und wenn dieser Ausdruck kleiner ist als t\ wird ein stimmloser Zustand festgestellt Anschließend erfolgt die gleiche Verarbeitung wie in F i g. 3.
Obgleich bei den vorstehend beschriebenen Ausfühningsformen Φ(τ3)ΙΦ(ο) als einer der Parameter zur Feststellung von stimmha.'ten und stimmlosen Zuständen benutzt wurde, braucht die Verzugszeit rs nicht genau auf die Abtastperiode vs abgestimmt zu sein, vielmehr wird durch eine geringfügige Abweichung von rs die Arbeitsweise der Schaltung nicht beeinträchtigt Versuche haben gezeigt daß es, solange ts einer Beziehung 0<rs<lms genügt möglich ist die stimmhaften und stimmlosen Zustände mit ausreichend hoher Genauigkeit zu bewerten.
Obgleich die Erfindung zudem in Anwendung auf die Feststellung eines Anregungssignals für ein Sprachanalysesystem unter Anwendung des Teilautokorrelations-
koeffizienten beschrieben ist, ist sie auch auf ein Endoder Anschluß-Analogsprachanalysesystem mit einer Reihe von Resonanzkreisen entsprechend dem Sprachformat, auf ein Maximal-Wahrscheinlichkeitsverfahren zur Bestimmung der Frequenzspektrum-Hüllkurve und auf einen Kanal-Vocoder anwendbar, wobei normierte Funktionen Φ(τε), Φ(Τ) ο. dgl. Korrelationsfunktionen verwendet werden, die als Ergebnis der Extraktion von Merkmalsparametern der Frequenzspektrum-Hüllkurve oder der Tonperiode abgeleitet werden. Dabei können einfach entsprechende Werte für a und t in Abhängigkeit von der Variation des Werts der beim betreffenden Sprachanalysesystem verwendeten Korrelationsfunktion gewählt werden.
Es werden also die stimmhaften und stimmlosen Zustände eines Sprachsignals durch Kombination eines Verhältnisses Φ(τ$)ΙΦ(ο) zwischen dem Wert Φ(ο) der Autokorrelationsfunktion des Sprachsignals zu einer Null-Verzugszeit und dem Wert Φ (vs)der Autokorrelationsfunktion zu einer Verzugszeit rs der Abtastperiode mit einem nach einer Korrelationstechnik aus dem Sprachsignal extrahierten Parameter und Wiedergabe des Grads der Periodizität des Sprachsignals bewertet. Durch Unterbrechung des Ergebnisses dieser Kombination kann festgestellt werden, ob ein Sprachsignal in einem stimmhaften oder in einem stimmlosen Zustand vorliegt.
Hierzu 5 Blatt Zeichnungen

Claims (16)

Patentansprüche:
1. Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustands eines Sprachsignals durch Autokorrelation mit einer aus mehreren, kaskadenartig verbundenen Teilkorrelationsstufen bestehenden Analysiereinrichtung, die das digitalisierte Sprachsignal empfängt, mittels eines darin enthaltenen Korrelationskoeffizientenrechners den normierten Wert Φ (us) des Sprachsignals, der die Teilautokorrelationskoeffizienten (k\... k„) darstellt, berechnet, wobei eine Verzögerungszeit (es) eine Abtastperiode oder Grundfrequenz des Sprachsignals darstellt, diese Teilkorrela- is tionskoeffizienten in digitaler Form dem Ausgang zugeführt werden, und der Ausgang der letzten Teilkorrelationsstufe einem Autokorrelator mit einem Spitzenwertwähler zugeführt wird, dadurch gekennzeichnet, daß der Autokorrelator als Grundfrequenzdetektor (16) ausgebildet, Teil einer Erregungssignal-Detektoreinrichtung (JI5) ist und von einem Ausgang (31) der Analysiereinrichtung (14) Restsignale empfängt und daraus durch den Spitzenwertzähler (36) den Spitzenwert fern) der Autokorrelationsfunktion (W(t)) wählt, wodurch eine Verzögerungszeit (T) entsprechend dem gewählten Spitzenwert (gm) als Grundperiode des Sprachsignals bestimmt wird, daß der Spitzenwert (qiti) einem Stimmhaft'/Stimmlos-Detektor (ll7) zugeführt wird, der diesen Wert mit den von der Analysiereinrichtung (14) gelieferten Teilautokorre-Iationskoeffizienten (k\... Kn) kombiniert, um eine Anzeige stimmhaft/stimmlos zu erzeugen.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Analysiereinrichtung die Serienschaltung eines A/D-Wandlers (13) und eines Tiefpasses (12) vorgeschaltet ist
3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der A/D-Wandler (13) eine Abtastfrequenz von 8 kHz aufweist.
4. Anordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß der A/D-Wandler (13) einen 12-bit-Ausgang aufweist.
5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Tiefpaß (12) eine Grenzfrequenz von 3,4 kHz aufweist.
6. Anordnung nach einem der Ansprüche 1 — 5, dadurch gekennzeichnet, daß dem Spitzenwertwähler (36) und dem Autokorrelator (35) ein Teiler (42) zum Normalisieren des Spitzenwerts nachgeordnet ist.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß dem Teiler (42) ein Größenwandler (43 nachgeordnet ist.
8. Anordnung nach einem der Ansprüche 1 — 7, dadurch gekennzeichnet, daß dem Autokorrelator (35) eine Schaltung (39) zur Bildung der Quadratwurzel nachgeordnet ist.
9. Anordnung nach Anspruch 8, dadurch gekennzeichnet, daß der Schaltung (39) ein Größenwandler (40) nachgeordnet ist.
10. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der Detektor (17) eine Multiplizierschaltung (48) zur Bildung des Produkts aus einem PARCOR-Koelfizienten (k„) und einer Konstanten ^aufweist.
11. Anordnune nach AnsDruch 10, dadurch
gekennzeichnet, daß der Detektor (17) einen Addierer (51) aufweist, an dessen Eingang der Spitzenwert (qm) angelegt ist und dessen anderer Eingang mit dem Ausgang der Multiplizier-Schaltung (48) verbunden ist
12. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß der Detektor (17) einen dem Addierer nachgeschalteten Komparator (53) zum Vergleich mit einem Schwellwert (t) aufweist
13. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Erregungssignal-Detektoreinrichtung (15) einen die Durchschnittsgrößen-Differenzfunktion (AMDF) (D (τ)) des Restsignals bildenden Grundfrequenz-Detektor (60) aufweist dem ein Stimmlos/Stimmhaft-Detektor (64) nachgeschaltet ist
14. Anordnung nach Anspruch 13, dadurch gekennzeichnet daß der Detektor eingangsseitig einen Multiplizierer (61) zur Bildung des Produkts aus einem PARCOR-Koeffizienten und einer Konstanten (^aufweist
15. Anordnung nach Anspruch 13 oder 14, dadurch gekennzeichnet daß dem Detektor (60) und dem Multiplizierer (61) eine Subtrahierschaltung (62) nachgeordnet ist
16. Anordnung nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, daß der Subtrahierschaltung (62) ein Komparator (63) zum Vergleich mit einer Konstanten (f) nachgeordnet ist.
DE2626793A 1975-06-18 1976-06-15 Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals Expired DE2626793C3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP50073063A JPS51149705A (en) 1975-06-18 1975-06-18 Method of analyzing drive sound source signal
JP50086277A JPS5210002A (en) 1975-07-15 1975-07-15 Separation method of drivinf sound signal for analysis and composition of voice

Publications (3)

Publication Number Publication Date
DE2626793A1 DE2626793A1 (de) 1976-12-23
DE2626793B2 true DE2626793B2 (de) 1979-08-02
DE2626793C3 DE2626793C3 (de) 1980-04-17

Family

ID=26414187

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2626793A Expired DE2626793C3 (de) 1975-06-18 1976-06-15 Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals

Country Status (5)

Country Link
US (1) US4074069A (de)
CA (1) CA1059631A (de)
DE (1) DE2626793C3 (de)
FR (1) FR2316682A1 (de)
GB (1) GB1538757A (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4219695A (en) * 1975-07-07 1980-08-26 International Communication Sciences Noise estimation system for use in speech analysis
JPS54139417A (en) * 1978-04-21 1979-10-29 Nippon Telegr & Teleph Corp <Ntt> Interpolation receiving devices at voice short break time
US4230906A (en) * 1978-05-25 1980-10-28 Time And Space Processing, Inc. Speech digitizer
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4335276A (en) * 1980-04-16 1982-06-15 The University Of Virginia Apparatus for non-invasive measurement and display nasalization in human speech
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
EP0076233B1 (de) * 1981-09-24 1985-09-11 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US4588979A (en) * 1984-10-05 1986-05-13 Dbx, Inc. Analog-to-digital converter
US4802225A (en) * 1985-01-02 1989-01-31 Medical Research Council Analysis of non-sinusoidal waveforms
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
JPH04504178A (ja) * 1989-01-05 1992-07-23 オリジン・テクノロジー・インク 音声処理装置とそのための方法
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
FR2684226B1 (fr) * 1991-11-22 1993-12-24 Thomson Csf Procede et dispositif de decision de voisement pour vocodeur a tres faible debit.
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
GB2357683A (en) 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7627091B2 (en) * 2003-06-25 2009-12-01 Avaya Inc. Universal emergency number ELIN based on network address ranges
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
US7130385B1 (en) * 2004-03-05 2006-10-31 Avaya Technology Corp. Advanced port-based E911 strategy for IP telephony
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
US7246746B2 (en) * 2004-08-03 2007-07-24 Avaya Technology Corp. Integrated real-time automated location positioning asset management system
US7589616B2 (en) 2005-01-20 2009-09-15 Avaya Inc. Mobile devices including RFID tag readers
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US8107625B2 (en) * 2005-03-31 2012-01-31 Avaya Inc. IP phone intruder security monitoring system
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7821386B1 (en) 2005-10-11 2010-10-26 Avaya Inc. Departure-based reminder systems
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US9232055B2 (en) * 2008-12-23 2016-01-05 Avaya Inc. SIP presence based notifications
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662115A (en) * 1970-02-07 1972-05-09 Nippon Telegraph & Telephone Audio response apparatus using partial autocorrelation techniques
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data

Also Published As

Publication number Publication date
CA1059631A (en) 1979-07-31
FR2316682A1 (fr) 1977-01-28
DE2626793C3 (de) 1980-04-17
DE2626793A1 (de) 1976-12-23
GB1538757A (en) 1979-01-24
FR2316682B1 (de) 1979-05-04
US4074069A (en) 1978-02-14

Similar Documents

Publication Publication Date Title
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE3244476C2 (de)
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE2659096C2 (de)
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE2622423A1 (de) Vocodersystem
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3019823C2 (de)
DE3733659A1 (de) Verfahren zum vergleichen von mustern
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
EP1279164A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE3875894T2 (de) Adaptive multivariable analyseeinrichtung.
DE2062589C3 (de) Verfahren zur Ermittlung der Grundfrequenze eines wenigstens zeitweise periodischen Signales
EP1366617B1 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8328 Change in the person/name/address of the agent

Free format text: KERN, R., DIPL.-ING., PAT.-ANW., 8000 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO,

8339 Ceased/non-payment of the annual fee