DE1963082C2 - Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung - Google Patents
Verfahren und Schaltungsanordnung zur automatischen SprachverarbeitungInfo
- Publication number
- DE1963082C2 DE1963082C2 DE19691963082 DE1963082A DE1963082C2 DE 1963082 C2 DE1963082 C2 DE 1963082C2 DE 19691963082 DE19691963082 DE 19691963082 DE 1963082 A DE1963082 A DE 1963082A DE 1963082 C2 DE1963082 C2 DE 1963082C2
- Authority
- DE
- Germany
- Prior art keywords
- values
- groups
- coding
- extreme values
- extreme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 3
- 101100310856 Drosophila melanogaster spri gene Proteins 0.000 claims 1
- 230000004069 differentiation Effects 0.000 claims 1
- 230000010363 phase shift Effects 0.000 claims 1
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 5
- 239000003990 capacitor Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
1/j/l + (X/eaRCj2.
Die Erfindung betrifft ein Verfahren und eine zugehörige Schallungsanordnung zur Sprachanalyse mittels
E:.xtrahicrung der Extrema der Hüllkurve über das
Sprachsignal.
Unier den neueren Methoden zur Sprachverarbeitung sind Frequenz-Amplituden-Zcit-Verfahren von besonderen
Interesse. Die Aufgabe dieser Verfahren besteht u.a. darin, redundante Bestandteile des Sprachsignals
zu entfernen und Informationen abzuleiten, die eine zweckmäßige Signalverarbeitung insbesondere eine
automatische Erkennung ermöglichen. Um dieses zu erreichen werden überwiegend die Frequenzanteile des
Sprachsignals analysiert, wobei die Sprache in Form abgetasteter Zeitfunktionen verarbeitet wird. Es sind
auch Vorschläge bekannt, die Signale ganz oder überwiegend aus Form-Merkmalen der Sprachschwingungen
gewinnen. Neben Abtastverfahren, die mit äquidistanten Abständen aus dem Signal Proben entnehmen
Die Hochpaßwirkung des R, C Gliedes bewirkt eine ungünstige Bevorzugung der Frequenzen.
Es ist zur Spracherkennung aus der DE-AS 11 97 638
schon bekannt, durch Extrema (Maxima oder Minima) der Hüllkurve über das Sprachfrequenzgemisch Grenzen
von Lautabschnitten — ermittelbar durch die Frequenz benachbarter Amplituden und/oder Schwingungsdauerwerte
— festzustellen. Die Lehre nach der DE-OS 14 87 540 geht einen Schritt weiter, indem sie die
einzelnen, und zwar die am besten ausgebildeten (von gleichartigen) Abschnitte, sogenannte Kernsegmente,
auswählt, da solche bereits für die Signalerkennung genügen. Das Maximum 4,^r über die Sprachschwingung
gelegten Hüllkurve kennzeichnet ein solches Kernsegment Nochmals einen Schritt weiter geht das vorliegende
Verfahren, indem ganze Gruppen von am besten ausgebildeten Abschnitten zusammengefaßt und diese
extrahiert werden; denn diese Gruppen, sogenannte typische Gruppen, sind bei weniger Aufwand noch besser
geeignet, die Sprachinformationen zu erkennen. Diese Gruppenbildung basiert auf der Bildung von aufeinanderfolgenden
Verhältniswerten der Zeit und/oder der Amplitudenabstände benachbarter Extremwerte.
Aufgabe der Erfindung ist es, aus den durch die Extremwerte gebildeten Verhältniswerten :n leicht durchzuführender Weise eine Kodierung zu bilden, die das Sprachsignal einfach und eindeutig kennzeichnet und so eine automatische Erkennung ermöglicht.
Gemäß der Erfindung wird diese Aufgabe durch die
Aufgabe der Erfindung ist es, aus den durch die Extremwerte gebildeten Verhältniswerten :n leicht durchzuführender Weise eine Kodierung zu bilden, die das Sprachsignal einfach und eindeutig kennzeichnet und so eine automatische Erkennung ermöglicht.
Gemäß der Erfindung wird diese Aufgabe durch die
j^ im kennzeichnenden Teil des Patentanspruches 1 angegebenen
Merkmale gelöst. Das Sprachsignal wird dabei in seine Extremwerte gegliedert, deren aufeinanderfolgende
Abstände ins Verhältnis gesetzt werden und so typische Gruppen (Laute) des Sprachsignals charakterisieren.
die wiederum z« Wortkombinationen zusammengefaßt werden. Es ist weiter vorgesehen, die Funktionen
der erkannten Laute zur Vornahme von Schalthandliingen
einzusetzen, ferner diese für Sprachkompression zu verwenden.
J5 Weiterhin werden Verfahren und Einrichtungen, die
eine besondere Verarbeitung der relevanten Extremwerte
vorsehen, beschrieben. Dabei wird ein Signal-Verhältnisgruppen-Verfahren vorgeschlagen, mit dem
typische Signal-Verhältnisgruppen-Folgen extrahiert
bo werden. Dies wird dadurch erreicht, daß die Abstände
der Extremwerte zueinander ins Verhältnis gesetzt werden und diese Verhältniswerte zu typischen Gruppen
zusammengefaßt als neue Informationsgröße Aussagen über Invarianten der Sprache darstellen. Redundante
t>5 Bestandteile des Sprachsignais, Flanken verläufe und absolute
Werte entfallen dadurch. Wiederholungen werden dagegen durch Zählen berücksichtigt und das Ergebnis
kodiert. Die Kodierung der solcher Art gewon-
nenen Größen führt zu einer automatischen Erkennung der Sprache. Die Möglichkeit, daß man aus einer
Schwingung Proben gerade an den Stellen ihrer Scheitel entnehmen kann, ist an sich nicht unbekannt. Die Erfindung
hat aber den Verdienst, neben einem sehr einfachen Extrahierungsverfahren erkannt zu haben, daß
man beim Sprachsigna! durch Verhältnisbildung der Extremwertabstände
dem Sprachsignal äquivalente und durch Gruppenbildung dieser stark vereinfachte typische
Signalfolgen erhält, die zur Lösung der eingangs
genannten Aufgaben führen.
Nachfolgend werden beispielsweise Ausführungsmöglichkeiten der Erfindung an Hand der Zeichnungen
näher beschrieben. Es bedeutet
F i g. 1 Extraktion der Extremwerte aus dem Sprachsignal.
Stand der Technik,
F i g. 2 Verhältnisbildung aus den Abständen benachbarter Extremwerte,
F i g. 3 Widerstandsmatrix für Lautkorrelation,
Fig.4 Zusammenfassung von Verhältnisfolgen zu Gruppen.
Im ersten Beispie! wird eine bekannte Schaltungsanordnung
nach F i g. 1 gezeigt, die in einfacher v>'eise eine
Auf- und Entladung eines Speicherkondensators C durch ein in gegensätzlicher Richtung geschaltetes Diodenpaar
vornimmt. In der Zeitspanne zwischen Auf- und Entladung des Kondensators durch das Signal f(t)
entsteht ein Spannungsabfall zwischen den Extremwerten an den Dioden D1, D 2, der von einem Komparator
K angezeigt wird. jo
Der Impuls am Ausgang des Komparators markiert so die Extremwerte E, e des Signals, wobei fein Maximum
und eein Minimum des Signals darstellt
In der Schaltungsanordnung gemäß F i g. 2 wird ein zweites Beispiel erläutert, das die Verhältnisse von den
Abständen benachbarter Extremwerte (ebenfalls fortlaufend) bestimmt Die Werte des Signals f(t) werden
zunächst von Extremwert Fzu Extremwert e durch ein getrenntes Diodenpaar Dl, D2m den nachfolgenden
Kondensatoren C1, C2 gespeichert. Durch die Schalter
Sl, S2 wer-ien die Dioden wechselweise überbrückt.
Gesteuert werden die Schalter über ein Flip Flop durch den Komparatorimpuls E, e. Die Spannung über den
Dioden D\ und D 2 werden von den Differenzverstärkern DVX, DV2 abgenommen und einzeln über Logarithmierverstärker
LV\, LV2 geleitet. Durch die Differenzenbildi'iig
mittels eines DifferenE inverstärkers DV, der an beide Logarithmierverstärkerausgänge angeschlossen
ist, entsteht:
50
log Kl - log v2 = \r)g(V\lv2)
Diese Schaltung erlaubt also neben der Bildung der Abstände E-e von Extremwert £f (Maxima) zu Extremwert
e (Minima) noch die Bestimmung der Verhältnisse VI/vl. ν Il V2,... (von Abstand EI, ei zu Abstand e 1,
E2) = Vl und (von Abstand e 1, E2 zu Abstand E2,
e2) = ν 1... Es entsteht so neben einer Differenzenfolge DEX, e2\ De2, El;... eine Verhältnisfolge V X/ν X;
v\, V2;... bo
Im dritten Beispiel wird in Fig.4 eine Schaltungsanordnung
gezeigt, die Verhältnisfolgen zu Gruppen zusammenfaßt Dieses geschieht durch einen Steuerteil ST
und einen Codierteil CT, ferner durch eine Anzeige A,
die das Codeergebnis des erkannten Lautes L 1, L 2 h5
anzeigt, wobei vom Eingangssignal f(t)d\e Extremwerte
Maxima Eund Minima c wie in F i g. 1, 2 erläutert abgeleitet werden und als Stcf rimpulse E. e in Fi g. 3 und 4
verwendet werden. Eine Ausfuhrungsmöghchkeit besteht hierbei gemäß F i g. 3 aus einer Widerstandsmatrix
RM für jeden Laut deren Widerstände se ausgelegt werden, daß die Korrelation mit dem Signal den kleinsten
Abstand ergeben nach der Formel:
n-l
Σ LULKJ
Die Referenzspannungen Rs werden dabei durch eine Schalteranordnung 5, die von einem Schieberegister SR
gesteuert werden durchlaufend abgefragt. Der Beginn und das Ende der Abfrage wird fortlaufend bei Übereinstimmung
der Referenzspannung mit der Codierung ausgelöst. Es wird also bei Obereinstimmung der jeweilige
Laut Ln erkannt.
Eine andere Ausführungsmöglich 1T-^t wird dadurch
erhalten, daß die Extremwerte der HiHkurve über das
Eingangssignal die Anfangs- und Endpunkte des Lautes und damit für die Abfrage der Codiermatrix-Länge festlegt,
wobei statt der Widerstandsmatrix Verhältnisbereiche VT? codiert werden, siehe Fig.4, die dann den
entsprecnenden Laut Ln in A anzeigen, der zwischen diesen Anfangs- und Endpunkten liegt
Hierzu 2 Blatt Zeichnungen
Claims (6)
1. Verfahren zur Sprachanalyse mittels Extrahierung der Extrema der Hüllkurve über das Sprachsignal,
dadurch gekennzeichnet, daß aus derv zeitlichen und/oder den Amplitudenabständen
benachbarter Extremwerte Verhältniswerte gebildet werden und daß aus mehreren aufeinanderfolgenden
Verhältniswerten eine das anliegende Sprachsignal kennzeichnende Kodierung gebildet
wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß Gruppen von Verhältniswerten gebildet
werden durch Feststellung gleicher Wiederholungen der Werte und/oder durch die Extrema der
Hülikurven, die über die Werte und/oder die Amplituden
und/oder Zeitwerte des Sprachsignals gebildet werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß gleiche Gruppen gezählt
oder koakrrt werden oder zu neuen Gruppen zusammengefaßt oder nur jeweils eine der gleichen
Gruppen allein weiter verarbeitet wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Werte in den
Gruppen oder der gesamten Gruppen oder mehrerer Gruppen durch Kodierung oder einer Widerstandsmatrix
durch Korrelation zusammengefaßt werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß eine Kodierung der
Laute zu Worten erfolgt.
6. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche I bis 5, dadurch
gekennzeichnet, daß das Spri jhsignal f(t) sowohl einer Extremwerterkennungsschaltung (E. e]T
zugeführt wird, die fortlaufend bei jedem auftretenden Extremwert E, e des Sprachsignals f(t) einen
Impuls abgibt, als auch einer durch diese Impulse gesteuerten Schaltung (DE, De)*; (Vi, ν 1)*, welche
die Abstandsverhältnisse V. ν benachbarter Extremwerte
E, e bildet, und daß die entstehende Folge von Abstandsverhältnissen unter Steuerung 57" durch
die Impulse in einem Kodierteil CTzu Sprachlauten /./kodiert werden.
und durch Vergleich relevante Extremwerte feststellen, gibt es auch Verfahren, die Extremwerte durch die Nulldurchgänge
der ersten Ableitung f'(t) markieren. Die Genauigkeit dieser Verfahren ist aber über einen größeren
Frequenzbereich nicht groß. Bei dem ersten ist die Ungenauigkeit durch die Breite der äquidistanten Abstände
gegeben und bei der technischen Differentation durch die Konstante τ von R, C. Die ungünstige Amplituden-
und Frequenzabhängigkeit ist aus der Formel ersichtlich. Ue = U sin cot erleidet durch das R, C-C üed
eine Phasenverschiebung von tan φ = Μ ω RC unter
gleichzeitiger Abnahme der Amplitude um den Faktor
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19691963082 DE1963082C2 (de) | 1969-12-16 | 1969-12-16 | Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19691963082 DE1963082C2 (de) | 1969-12-16 | 1969-12-16 | Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE1963082A1 DE1963082A1 (de) | 1971-06-24 |
DE1963082C2 true DE1963082C2 (de) | 1984-08-02 |
Family
ID=5754042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19691963082 Expired DE1963082C2 (de) | 1969-12-16 | 1969-12-16 | Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE1963082C2 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2649259C2 (de) * | 1976-10-29 | 1983-06-09 | Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg | Verfahren zum automatischen Erkennen von gestörter Telefonsprache |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1197638B (de) * | 1958-09-29 | 1965-07-29 | Heinz Kusch | Verfahren zum selbsttaetigen Umsetzen von Lautschwingungen in Lauterkennungs-Signale |
US3278685A (en) * | 1962-12-31 | 1966-10-11 | Ibm | Wave analyzing system |
DE1487540C3 (de) * | 1966-12-01 | 1981-06-25 | Heinz Dipl.-Phys. 7801 Umkirch Kusch | Verfahren für Analyse und Synthese von elektrischen Akustiksignalen |
US3513260A (en) * | 1967-10-13 | 1970-05-19 | Ibm | Speech presence detector |
-
1969
- 1969-12-16 DE DE19691963082 patent/DE1963082C2/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE1963082A1 (de) | 1971-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2350989C2 (de) | ||
DE2218824B2 (de) | Verfahren zum Messen der Verschiebung einer Elektrode eines Differentialkondensators relativ zu den anderen Elektroden | |
DE3436681A1 (de) | Kapazitives verschiebungsmessgeraet | |
DE2357067C3 (de) | Elektrische Schaltungsanordnung in Verbindung mit einer Spracherkennungseinrichtung | |
DE3121234C1 (de) | Verfahren und Schaltungsanordnung zur Messung eines Magnetfeldes,insbesondere des Erdmagnetfeldes | |
EP0182742B1 (de) | Schaltungsanordnung zur Erzeugung eines Empfangskriteriums | |
DE2835133C2 (de) | ||
DE2062073A1 (de) | Integrationsgenerator zur Angabe des Numerus einer loganthmischen Funktion | |
DE2825651A1 (de) | Muenzensortiervorrichtung | |
DE1963082C2 (de) | Verfahren und Schaltungsanordnung zur automatischen Sprachverarbeitung | |
DE1422040A1 (de) | Verfahren zum automatischen Erkennen gesprochener Worte | |
DE2647569C3 (de) | Impulsgenerator mit umschaltbarer Ausgangsfrequenz | |
DE2535730A1 (de) | Verfahren und vorrichtung zur feststellung vielfrequenter toene | |
DE2630147A1 (de) | Einrichtung zum analysieren der zuendspannung eines verbrennungsmotors | |
DE1797161B2 (de) | Elektronisches musikinstrument mit perkussion | |
DE2547746C3 (de) | Vorrichtung zur Bildung des arithmetischen Mittelwertes einer Meßgröße | |
DE1772633A1 (de) | Verfahren zur Spracherkennung | |
DE2261498A1 (de) | Resonanzmesschaltung fuer magnetische eigenschaften | |
DE1951146A1 (de) | Phasenkomparator | |
EP0616297A1 (de) | Digitalisiereinrichtung | |
DE1441177B1 (de) | Vorrichtung zum Ausmessen eines Magnetfeldes und Messen eines elektrischen Stromes | |
DE2062589B2 (de) | Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals | |
DE1802235B2 (de) | Verzoegerungsschaltung | |
DE2231216A1 (de) | Digital-Analog-Umsetzer | |
DE3043921C2 (de) | Schaltung zur breitbandigen Detektion der Amplitudenmaxima von Signalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |