DE1963082C2 - Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung - Google Patents

Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung

Info

Publication number
DE1963082C2
DE1963082C2 DE19691963082 DE1963082A DE1963082C2 DE 1963082 C2 DE1963082 C2 DE 1963082C2 DE 19691963082 DE19691963082 DE 19691963082 DE 1963082 A DE1963082 A DE 1963082A DE 1963082 C2 DE1963082 C2 DE 1963082C2
Authority
DE
Germany
Prior art keywords
values
groups
coding
extreme values
extreme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19691963082
Other languages
English (en)
Other versions
DE1963082A1 (de
Inventor
Heinz Dipl.-Phys. 7801 Umkirch Kusch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19691963082 priority Critical patent/DE1963082C2/de
Publication of DE1963082A1 publication Critical patent/DE1963082A1/de
Application granted granted Critical
Publication of DE1963082C2 publication Critical patent/DE1963082C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

1/j/l + (X/eaRCj2.
Die Erfindung betrifft ein Verfahren und eine zugehörige Schallungsanordnung zur Sprachanalyse mittels E:.xtrahicrung der Extrema der Hüllkurve über das Sprachsignal.
Unier den neueren Methoden zur Sprachverarbeitung sind Frequenz-Amplituden-Zcit-Verfahren von besonderen Interesse. Die Aufgabe dieser Verfahren besteht u.a. darin, redundante Bestandteile des Sprachsignals zu entfernen und Informationen abzuleiten, die eine zweckmäßige Signalverarbeitung insbesondere eine automatische Erkennung ermöglichen. Um dieses zu erreichen werden überwiegend die Frequenzanteile des Sprachsignals analysiert, wobei die Sprache in Form abgetasteter Zeitfunktionen verarbeitet wird. Es sind auch Vorschläge bekannt, die Signale ganz oder überwiegend aus Form-Merkmalen der Sprachschwingungen gewinnen. Neben Abtastverfahren, die mit äquidistanten Abständen aus dem Signal Proben entnehmen Die Hochpaßwirkung des R, C Gliedes bewirkt eine ungünstige Bevorzugung der Frequenzen.
Es ist zur Spracherkennung aus der DE-AS 11 97 638 schon bekannt, durch Extrema (Maxima oder Minima) der Hüllkurve über das Sprachfrequenzgemisch Grenzen von Lautabschnitten — ermittelbar durch die Frequenz benachbarter Amplituden und/oder Schwingungsdauerwerte — festzustellen. Die Lehre nach der DE-OS 14 87 540 geht einen Schritt weiter, indem sie die einzelnen, und zwar die am besten ausgebildeten (von gleichartigen) Abschnitte, sogenannte Kernsegmente, auswählt, da solche bereits für die Signalerkennung genügen. Das Maximum 4,^r über die Sprachschwingung gelegten Hüllkurve kennzeichnet ein solches Kernsegment Nochmals einen Schritt weiter geht das vorliegende Verfahren, indem ganze Gruppen von am besten ausgebildeten Abschnitten zusammengefaßt und diese extrahiert werden; denn diese Gruppen, sogenannte typische Gruppen, sind bei weniger Aufwand noch besser geeignet, die Sprachinformationen zu erkennen. Diese Gruppenbildung basiert auf der Bildung von aufeinanderfolgenden Verhältniswerten der Zeit und/oder der Amplitudenabstände benachbarter Extremwerte.
Aufgabe der Erfindung ist es, aus den durch die Extremwerte gebildeten Verhältniswerten :n leicht durchzuführender Weise eine Kodierung zu bilden, die das Sprachsignal einfach und eindeutig kennzeichnet und so eine automatische Erkennung ermöglicht.
Gemäß der Erfindung wird diese Aufgabe durch die
j^ im kennzeichnenden Teil des Patentanspruches 1 angegebenen Merkmale gelöst. Das Sprachsignal wird dabei in seine Extremwerte gegliedert, deren aufeinanderfolgende Abstände ins Verhältnis gesetzt werden und so typische Gruppen (Laute) des Sprachsignals charakterisieren. die wiederum z« Wortkombinationen zusammengefaßt werden. Es ist weiter vorgesehen, die Funktionen der erkannten Laute zur Vornahme von Schalthandliingen einzusetzen, ferner diese für Sprachkompression zu verwenden.
J5 Weiterhin werden Verfahren und Einrichtungen, die eine besondere Verarbeitung der relevanten Extremwerte vorsehen, beschrieben. Dabei wird ein Signal-Verhältnisgruppen-Verfahren vorgeschlagen, mit dem typische Signal-Verhältnisgruppen-Folgen extrahiert
bo werden. Dies wird dadurch erreicht, daß die Abstände der Extremwerte zueinander ins Verhältnis gesetzt werden und diese Verhältniswerte zu typischen Gruppen zusammengefaßt als neue Informationsgröße Aussagen über Invarianten der Sprache darstellen. Redundante
t>5 Bestandteile des Sprachsignais, Flanken verläufe und absolute Werte entfallen dadurch. Wiederholungen werden dagegen durch Zählen berücksichtigt und das Ergebnis kodiert. Die Kodierung der solcher Art gewon-
nenen Größen führt zu einer automatischen Erkennung der Sprache. Die Möglichkeit, daß man aus einer Schwingung Proben gerade an den Stellen ihrer Scheitel entnehmen kann, ist an sich nicht unbekannt. Die Erfindung hat aber den Verdienst, neben einem sehr einfachen Extrahierungsverfahren erkannt zu haben, daß man beim Sprachsigna! durch Verhältnisbildung der Extremwertabstände dem Sprachsignal äquivalente und durch Gruppenbildung dieser stark vereinfachte typische Signalfolgen erhält, die zur Lösung der eingangs genannten Aufgaben führen.
Nachfolgend werden beispielsweise Ausführungsmöglichkeiten der Erfindung an Hand der Zeichnungen näher beschrieben. Es bedeutet
F i g. 1 Extraktion der Extremwerte aus dem Sprachsignal. Stand der Technik,
F i g. 2 Verhältnisbildung aus den Abständen benachbarter Extremwerte,
F i g. 3 Widerstandsmatrix für Lautkorrelation,
Fig.4 Zusammenfassung von Verhältnisfolgen zu Gruppen.
Im ersten Beispie! wird eine bekannte Schaltungsanordnung nach F i g. 1 gezeigt, die in einfacher v>'eise eine Auf- und Entladung eines Speicherkondensators C durch ein in gegensätzlicher Richtung geschaltetes Diodenpaar vornimmt. In der Zeitspanne zwischen Auf- und Entladung des Kondensators durch das Signal f(t) entsteht ein Spannungsabfall zwischen den Extremwerten an den Dioden D1, D 2, der von einem Komparator K angezeigt wird. jo
Der Impuls am Ausgang des Komparators markiert so die Extremwerte E, e des Signals, wobei fein Maximum und eein Minimum des Signals darstellt
In der Schaltungsanordnung gemäß F i g. 2 wird ein zweites Beispiel erläutert, das die Verhältnisse von den Abständen benachbarter Extremwerte (ebenfalls fortlaufend) bestimmt Die Werte des Signals f(t) werden zunächst von Extremwert Fzu Extremwert e durch ein getrenntes Diodenpaar Dl, D2m den nachfolgenden Kondensatoren C1, C2 gespeichert. Durch die Schalter Sl, S2 wer-ien die Dioden wechselweise überbrückt. Gesteuert werden die Schalter über ein Flip Flop durch den Komparatorimpuls E, e. Die Spannung über den Dioden D\ und D 2 werden von den Differenzverstärkern DVX, DV2 abgenommen und einzeln über Logarithmierverstärker LV\, LV2 geleitet. Durch die Differenzenbildi'iig mittels eines DifferenE inverstärkers DV, der an beide Logarithmierverstärkerausgänge angeschlossen ist, entsteht:
50
log Kl - log v2 = \r)g(V\lv2)
Diese Schaltung erlaubt also neben der Bildung der Abstände E-e von Extremwert £f (Maxima) zu Extremwert e (Minima) noch die Bestimmung der Verhältnisse VI/vl. ν Il V2,... (von Abstand EI, ei zu Abstand e 1, E2) = Vl und (von Abstand e 1, E2 zu Abstand E2, e2) = ν 1... Es entsteht so neben einer Differenzenfolge DEX, e2\ De2, El;... eine Verhältnisfolge V X/ν X; v\, V2;... bo
Im dritten Beispiel wird in Fig.4 eine Schaltungsanordnung gezeigt, die Verhältnisfolgen zu Gruppen zusammenfaßt Dieses geschieht durch einen Steuerteil ST und einen Codierteil CT, ferner durch eine Anzeige A,
die das Codeergebnis des erkannten Lautes L 1, L 2 h5
anzeigt, wobei vom Eingangssignal f(t)d\e Extremwerte Maxima Eund Minima c wie in F i g. 1, 2 erläutert abgeleitet werden und als Stcf rimpulse E. e in Fi g. 3 und 4 verwendet werden. Eine Ausfuhrungsmöghchkeit besteht hierbei gemäß F i g. 3 aus einer Widerstandsmatrix RM für jeden Laut deren Widerstände se ausgelegt werden, daß die Korrelation mit dem Signal den kleinsten Abstand ergeben nach der Formel:
n-l
Σ LULKJ
Die Referenzspannungen Rs werden dabei durch eine Schalteranordnung 5, die von einem Schieberegister SR gesteuert werden durchlaufend abgefragt. Der Beginn und das Ende der Abfrage wird fortlaufend bei Übereinstimmung der Referenzspannung mit der Codierung ausgelöst. Es wird also bei Obereinstimmung der jeweilige Laut Ln erkannt.
Eine andere Ausführungsmöglich 1T-^t wird dadurch erhalten, daß die Extremwerte der HiHkurve über das Eingangssignal die Anfangs- und Endpunkte des Lautes und damit für die Abfrage der Codiermatrix-Länge festlegt, wobei statt der Widerstandsmatrix Verhältnisbereiche VT? codiert werden, siehe Fig.4, die dann den entsprecnenden Laut Ln in A anzeigen, der zwischen diesen Anfangs- und Endpunkten liegt
Hierzu 2 Blatt Zeichnungen

Claims (6)

Patentansprüche:
1. Verfahren zur Sprachanalyse mittels Extrahierung der Extrema der Hüllkurve über das Sprachsignal, dadurch gekennzeichnet, daß aus derv zeitlichen und/oder den Amplitudenabständen benachbarter Extremwerte Verhältniswerte gebildet werden und daß aus mehreren aufeinanderfolgenden Verhältniswerten eine das anliegende Sprachsignal kennzeichnende Kodierung gebildet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß Gruppen von Verhältniswerten gebildet werden durch Feststellung gleicher Wiederholungen der Werte und/oder durch die Extrema der Hülikurven, die über die Werte und/oder die Amplituden und/oder Zeitwerte des Sprachsignals gebildet werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß gleiche Gruppen gezählt oder koakrrt werden oder zu neuen Gruppen zusammengefaßt oder nur jeweils eine der gleichen Gruppen allein weiter verarbeitet wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Werte in den Gruppen oder der gesamten Gruppen oder mehrerer Gruppen durch Kodierung oder einer Widerstandsmatrix durch Korrelation zusammengefaßt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Kodierung der Laute zu Worten erfolgt.
6. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche I bis 5, dadurch gekennzeichnet, daß das Spri jhsignal f(t) sowohl einer Extremwerterkennungsschaltung (E. e]T zugeführt wird, die fortlaufend bei jedem auftretenden Extremwert E, e des Sprachsignals f(t) einen Impuls abgibt, als auch einer durch diese Impulse gesteuerten Schaltung (DE, De)*; (Vi, ν 1)*, welche die Abstandsverhältnisse V. ν benachbarter Extremwerte E, e bildet, und daß die entstehende Folge von Abstandsverhältnissen unter Steuerung 57" durch die Impulse in einem Kodierteil CTzu Sprachlauten /./kodiert werden.
und durch Vergleich relevante Extremwerte feststellen, gibt es auch Verfahren, die Extremwerte durch die Nulldurchgänge der ersten Ableitung f'(t) markieren. Die Genauigkeit dieser Verfahren ist aber über einen größeren Frequenzbereich nicht groß. Bei dem ersten ist die Ungenauigkeit durch die Breite der äquidistanten Abstände gegeben und bei der technischen Differentation durch die Konstante τ von R, C. Die ungünstige Amplituden- und Frequenzabhängigkeit ist aus der Formel ersichtlich. Ue = U sin cot erleidet durch das R, C-C üed eine Phasenverschiebung von tan φ = Μ ω RC unter gleichzeitiger Abnahme der Amplitude um den Faktor
DE19691963082 1969-12-16 1969-12-16 Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung Expired DE1963082C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19691963082 DE1963082C2 (de) 1969-12-16 1969-12-16 Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19691963082 DE1963082C2 (de) 1969-12-16 1969-12-16 Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung

Publications (2)

Publication Number Publication Date
DE1963082A1 DE1963082A1 (de) 1971-06-24
DE1963082C2 true DE1963082C2 (de) 1984-08-02

Family

ID=5754042

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19691963082 Expired DE1963082C2 (de) 1969-12-16 1969-12-16 Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung

Country Status (1)

Country Link
DE (1) DE1963082C2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2649259C2 (de) * 1976-10-29 1983-06-09 Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg Verfahren zum automatischen Erkennen von gestörter Telefonsprache

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1197638B (de) * 1958-09-29 1965-07-29 Heinz Kusch Verfahren zum selbsttaetigen Umsetzen von Lautschwingungen in Lauterkennungs-Signale
US3278685A (en) * 1962-12-31 1966-10-11 Ibm Wave analyzing system
DE1487540C3 (de) * 1966-12-01 1981-06-25 Heinz Dipl.-Phys. 7801 Umkirch Kusch Verfahren für Analyse und Synthese von elektrischen Akustiksignalen
US3513260A (en) * 1967-10-13 1970-05-19 Ibm Speech presence detector

Also Published As

Publication number Publication date
DE1963082A1 (de) 1971-06-24

Similar Documents

Publication Publication Date Title
DE2350989C2 (de)
DE2218824B2 (de) Verfahren zum Messen der Verschiebung einer Elektrode eines Differentialkondensators relativ zu den anderen Elektroden
DE3436681A1 (de) Kapazitives verschiebungsmessgeraet
DE2357067C3 (de) Elektrische Schaltungsanordnung in Verbindung mit einer Spracherkennungseinrichtung
DE3121234C1 (de) Verfahren und Schaltungsanordnung zur Messung eines Magnetfeldes,insbesondere des Erdmagnetfeldes
EP0182742B1 (de) Schaltungsanordnung zur Erzeugung eines Empfangskriteriums
DE2835133C2 (de)
DE2062073A1 (de) Integrationsgenerator zur Angabe des Numerus einer loganthmischen Funktion
DE2825651A1 (de) Muenzensortiervorrichtung
DE1963082C2 (de) Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung
DE1422040A1 (de) Verfahren zum automatischen Erkennen gesprochener Worte
DE2647569C3 (de) Impulsgenerator mit umschaltbarer Ausgangsfrequenz
DE2535730A1 (de) Verfahren und vorrichtung zur feststellung vielfrequenter toene
DE2630147A1 (de) Einrichtung zum analysieren der zuendspannung eines verbrennungsmotors
DE1797161B2 (de) Elektronisches musikinstrument mit perkussion
DE2547746C3 (de) Vorrichtung zur Bildung des arithmetischen Mittelwertes einer Meßgröße
DE1772633A1 (de) Verfahren zur Spracherkennung
DE2261498A1 (de) Resonanzmesschaltung fuer magnetische eigenschaften
DE1951146A1 (de) Phasenkomparator
EP0616297A1 (de) Digitalisiereinrichtung
DE1441177B1 (de) Vorrichtung zum Ausmessen eines Magnetfeldes und Messen eines elektrischen Stromes
DE2062589B2 (de) Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals
DE1802235B2 (de) Verzoegerungsschaltung
DE2231216A1 (de) Digital-Analog-Umsetzer
DE3043921C2 (de) Schaltung zur breitbandigen Detektion der Amplitudenmaxima von Signalen

Legal Events

Date Code Title Description
D2 Grant after examination
8364 No opposition during term of opposition