DE3882805T2 - Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung. - Google Patents

Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.

Info

Publication number
DE3882805T2
DE3882805T2 DE88108313T DE3882805T DE3882805T2 DE 3882805 T2 DE3882805 T2 DE 3882805T2 DE 88108313 T DE88108313 T DE 88108313T DE 3882805 T DE3882805 T DE 3882805T DE 3882805 T2 DE3882805 T2 DE 3882805T2
Authority
DE
Germany
Prior art keywords
pattern
time
space
axis
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE88108313T
Other languages
English (en)
Other versions
DE3882805D1 (de
Inventor
Hiroshi Matsumura
Ryu-Ichi Oka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KOZO IIZUKA DIRECTOR GENERAL O
Sanyo Electric Co Ltd
Original Assignee
KOZO IIZUKA DIRECTOR GENERAL O
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP62136377A external-priority patent/JPS63300296A/ja
Application filed by KOZO IIZUKA DIRECTOR GENERAL O, Sanyo Electric Co Ltd filed Critical KOZO IIZUKA DIRECTOR GENERAL O
Application granted granted Critical
Publication of DE3882805D1 publication Critical patent/DE3882805D1/de
Publication of DE3882805T2 publication Critical patent/DE3882805T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Stimmerkennung oder ein Verfahren zur Gewinnung von Merkmalen der dort verwendeten Stimme, und insbesondere betrifft sie ein Verfahren und eine Vorrichtung, mit der eine hohe Erkennungsrate durch Verwenden eines Musters eines Vektorfeldes erzielt werden kann.
  • Zur Stimmerkennung gehört im allgemeinen ein System, bei dem durch Gewinnen des Merkmals von zu erkennenden Wörtern Standardstimmuster ausgearbeitet werden, wobei das Merkmalsmuster, das auf ähnliche Weise von der als Erkennungsobjekt eingegebenen Stimme gewonnen wird, und mehrere Standardmuster in Übereinstimmung gebracht werden, um das Standardmuster mit der höchsten Ähnlichkeit zu erhalten, und das Wort, das unter dieses Standardmuster fällt, wird als eingegeben bestimmt. In der Vergangenheit sind das Zeit-Raum-Muster des Skalarfeldes selbst, das durch eine Zeitachse als Abszisse und eine Raumachse als Ordinate wiedergegeben wird, als das vorerwähnte Merkmalsmuster verwendet worden. Es ist üblich, als derartiges Zeit-Raum-Muster des Skalarfeldes aus verschiedenen Zeit-Raum-Mustern wie ein Cepstrum, das eine Frequenz als Raumachse verwendet, einem PARCOR- Koeffizienten, einem LSP-Koeffizienten und einer Stimmtraktfunktion, das Spektrum, das als Raumachse eine Frequenz verwendet, zu benutzen.
  • Auf dem Gebiet der Stimmerkennung besteht ein zu lösendes Problem, nämlich die Antwort auf mehrere Sprecher oder einen nicht-spezifizierten Sprecher, wobei eine Anzahl von Standardmustern für ein Wort ausgearbeitet wurde, um die Erkennungsrate zu verbessern. Ferner wurde die DP-Überlagerung, die die Veränderungen der Zeitachse absorbieren kann, entwickelt, um dann zu reagieren, wenn die Sprechraten desselben Sprechers unterschiedlich sind.
  • Bei der herkömmlichen Vorrichtung, die das Zeit-Raum- Muster des Skalarfeldes selbst als Merkmal verwendet, war die Erkennungsrate nicht immer zufriedenstellend, wenn ein großes Vokabular oder ein nicht-spezifizierter Sprecher erkannt werden sollten, und selbst wenn für ein Wort eine Anzahl von Standardmustern ausgearbeitet worden ist oder, wie oben beschrieben, die DP-Überlagerung verwendet worden ist, konnte keine richtige Lösung erzielt werden. Somit verzögerte sich die Realisierung des Stimmerkennungssystems für großes Vokabular oder einen nicht-spezifizierten Sprecher. Daher hat einer der Erfinder der vorliegenden Erfindung in JP-A-60-59394 und "Comparison Studies on the Effectiveness Between the Vector Field of Spectrum and Spectrum for Speech Recognition" in The Transaction of the Institute of Electronics and Communication Engineers of Japan (D), Band J69- D Nr. 11, P1704 (1986) vorgeschlagen, das spektrale Vektorfeldmuster durch Raumdifferenzierung des Skalarfeldspektrums, das das Zeit-Raum-Muster der Zeit-Frequenz ist, zur Verwendung als Stimmerkmale zu gewinnen.
  • In der Vergangenheit wurden von T.B. Martin Forschungen durchgeführt, wobei die partielle Differenzierung des Zeit-Raum-Punkts des Spektrums als Merkmal verwendet wurde, und in "Practical Applications of Voice Input to Machines" Proc. IEEE, 64-4 (1976), offenbart. T.B. Martin hat jedoch aus dem Zeit-Raum-Muster f(t,x) δf(t,x)/δt, δf(t,x)/δx berechnet, wodurch die Funktion erstellt wird, die 32 verschiedene Arten an Stimmklängen in bezug auf jeden Rahmen und unter Verwendung des Ergebnisses, das in 32 Bringwerten bei der linearen Überlagerung in Worteinheiten ausgedrückt wird, im Unterschied zu der Vorrichtung, bei der das Spektralvektorfeld von dem vorerwähnten Spektralskalarfeld erzeugt wird.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Gewinnung von Merkmalen und Erkennung von Stimmen und eine Erkennungsvorrichtung zu schaffen, die zur Erkennung einer Silbe und eines Wortes mit einer hohen Erkennungsrate geeignet sind.
  • Dies wird erfindungsgemäß mit dem Verfahren mit den Merkmalen von Anspruch 1 bzw. Anspruch 2 oder mit einer Vorrichtung mit den Merkmalen von Anspruch 15 erzielt.
  • Die Erfindung schafft ein Verfahren zur Merkmalsgewinnung und Stimmerkennung und eine Erkennungsvorrichtung, die das Erreichen einer hohen Erkennungsrate bei der Stimmerkennung eines großen Vokabulars und eines nichtspezifizierten Sprechers zulassen.
  • Die Verfahren und die Vorrichtung gestatten die Merkmalsgewinnung und die Stimmerkennung in kurzer Berechnungszeit.
  • Im Grunde ist die vorliegende Erfindung dadurch gekennzeichnet, daß das von einer Zeitachse und einer Raumachse regulierte Zeit-Raum-Muster durch Analyse des Stiinmsignals erhalten wird, und das Zeit-Raum-Muster wird zur Gewinnung des Stimmerkmals verwendet, gekennzeichnet durch den Schritt des Umsetzens des Zeit-Raum- Musters in ein Vektorfeldmuster, das durch die Raumdifferenzierung an jedem Raum-Gitterpunkt eine Quantität und eine Richtung aufweist, des Quantisierens des Orientierungsparameters des Vektors des Vektorfeldmusters in einen Wert N (N: ganze Zahl), des Gruppierens jedes Vektors mit dem gleichen Quantisierungswert, des Bildens von richtungsmäßig angeordneten zweidimensionalen Mustern N, deren Vektorquantität den Wert jedes Gitterpunktes darstellt, und des Gewinnens der richtungsmäßig angeordneten zweidimensionalen Muster als Stimmerkmale.
  • Bei den eingegebenen Stimmsignal wird der Orientierungsparameter des Vektors von dem Zeit-Raum-Muster des Skalarfeldes, das von der Zeitachse und der Raumachse reguliert wird, quantisiert und in mehrere richtungsmäßig angeordnete zweidimensionale Muster umgesetzt, die in alle quantisierten Richtungen gruppiert sind. Das Merkmalsmuster wird durch diese Verarbeitung erhalten. Da dieses Muster durch Raumdifferenzierung des Zeit-Raum- Musters oder Information der Zeit-Raum-Veränderung erzeugt ist, zeigt es deutlich den Stimmklang und wird durch einen Sprecherwechsel kaum beeinflußt, und ferner wird die Veränderung des Vektorfeldes durch die Quantisierung des Orientierungsparameters absorbiert. Ferner ist, im Unterschied zu dem Fall, wo das Vektorfeldmuster selbst das Merkmalsmuster darstellt, eine Operation mit komplexen Zahlen nicht erforderlich, und somit ist die Berechnung vereinfacht.
  • Ferner wird bei der vorliegenden Erfindung an dem richtungsmäßig angeordneten zweidimensionalen Muster eine Verzerrverarbeitung durchgeführt, um das Orientierungsmustermerkmal zu integrieren, somit wird das Merkmal betont und stabilisiert. Die Integration ist für eine Art Strukturalisierung des Zeit-Raum-Punktes (t,x) vorgesehen. Das heißt, die Strukturalisierung besteht darin, den Vektor des maximalen N zu dem Zeit-Raum-Punkt (t,x) hinzuzuaddieren, wenn die Orientierungsmuster von N als integriert betrachtet werden (siehe Fig. 1). Somit bestehen die Vorteile der Stimmerkennung mittels dieses Verfahrens in der Erzeugung eines Merkmals, das den Stimmklang stärker und in seinem stabilen Ausdruck ausdrückt. Es sei angenommen, daß das Merkmal des Stimmklangs auf die Veränderung des Spektrums in einem bestimmten Zeit-Raum-Intervall hin reagiert. Zunächst wird das Merkmal in dem Spektralvektorfeld mikroskopisch gewonnen, und nachdem die Vektoren in den verschiedenen Richtungsintervallen als unabhängige Merkmale angesehen worden sind, werden sie gruppiert und an jedem Zeit- Raum-Punkt integriert. Nach der Gruppierung in jeder Richtung und der Integrierung in das Verzerrmaskenmuster, wird als ein die strukturelle Eigenschaft des Merkmals haltendes makroskopischeres Merkmal (ein durch einen breiten Zeit-Raum-Bereich geschaffenes Stimmerkmal) gespeichert. Wenn das Merkmal an jedem Zeit-Raum- Punkt (t,x) integriert ist, wird das Stimmerkmal nicht nur an dem speziellen Zeit-Raum-Punkt makroskopisch gebildet, sondern in dem gesamten breiten Bereich (insbesondere zeitmäßig) stabil gebildet, obwohl geringfügige Unterschiede auftreten.
  • Somit kann aufgrund der Hervorhebung und der Stabilisierung durch die Verzerrverarbeitung die Klassifizierung des Stimmklangs und die Normierung des Sprechers auf genauere Weise durchgeführt werden als in der Vergangenheit.
  • Die obigen und weitere Aufgaben und Merkmale der Erfindung werden deutlicher anhand der folgenden ausführlichen Beschreibung mit den zugehörigen Zeichnungen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist eine erläuternde Darstellung einer merkmalsausdrückenden Vorrichtung in einem Zeit-Raum-Punkt (t,x),
  • Fig. 2 ist ein die Ausgestaltung einer Vorrichtung zur Ausführung eines erfindungsgemäßen Verfahrens zur Merkmalsgewinnung von Stimmen zeigendes Blockdiagramm,
  • Fig. 3 ist eine schematische Darstellung eines Zeit- Raum-Musters,
  • Fig. 4 ist eine schematische Darstellung eines normierten Zeit-Raum-Musters,
  • Fign. 5 und 6 sind erläuternde Darstellungen der Vektororientierungsquantisierung,
  • Fig. 7 ist eine schematische Ansicht eines richtungsmäßig angeordneten zweidimensionalen Musters,
  • Fig. 8 ist ein die Ausgestaltung einer Vorrichtung zur Durchführung eines erfindungsgemäßen Verfahrens der Merkmalsgewinnung von Stimmen zeigendes Blockdiagramm,
  • Fig. 9 ist eine erläuternde Ansicht der Verzerrverarbeitung,
  • Fig. 10 bis 15 sind Beispiele des Maskenmusters zeigende erläuternde Ansichten,
  • Fig. 16 ist ein Blockdiagramm einer Stimmerkennungsvorrichtung gemäß der vorliegenden Erfindung,
  • Fig. 17 ist ein ein anderes Ausführungsbeispiel der vorliegenden Erfindung zeigendes Blockdiagramm,
  • Fig. 18 ist eine erläuternde Ansicht eines Verfahrens zur Gewinnung eines Spektralvektorfeldes eines R-Rahmens,
  • Fig. 19 ist eine schematische Ansicht eines richtungsmäßig angeordneten zweidimensionalen Musters eines Rahmens,
  • Fig. 20 ist eine erläuternde Ansicht eines DP-Überlagerungs-Weges, und
  • Fig. 21 ist ein ein weiteres Ausführungsbeispiel der vorliegenden Erfindung zeigendes Blockdiagramm.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Nunmehr wird ein Verfahren zur Merkmalsgewinnung nach der vorliegenden Erfindung erläutert.
  • Fig. 2 ist ein Blockdiagramm, das die Ausgestaltung einer Vorrichtung zur Durchführung eines Verfahrens nach der vorliegenden Erfindung zeigt.
  • Bei diesem Ausführungsbeispiel wird das Stimmsignal in einer Analyseeinrichtung 2 einer Spektrumsanalyse unterzogen und ein Spektrum mit einer Raumachse als Frequenzachse wird als Zeit-Raum-Muster eines Skalarfeldes verwendet.
  • Die Eingabe der Stimme zur Erzeugung des Standardmusters oder die Eingabe der Stimme als Erkennungsobjekt wird durch eine Stimmeingabeeinrichtung 1 durchgeführt, die aus einem Stimmdetektor, wie beispielsweise einem Mikrophon und einem A/D-Wandler, besteht; das so gewonnene Stimmsignal wird in die Analyseeinrichtung 2 eingegeben, die ein Bandfilter aus mehreren Kanälen (z.B. 10 30) aufweist, von denen jeder verschiedene durchgehende Frequenzbänder aufweist, die parallelgeschaltet sind. In der Analysiereinrichtung wird als Ergebnis der Analyse das Zeit-Raum-Muster erhalten, das von einer Wortintervallsegmentiereinrichtung 3 in jedes Wort in Erkennungseinheiten unterteilt und einer Merkmalsgewinnungseinrichtung 4 zugeführt wird. Als Wortintervallsegmentiereinrichtung 3 können die herkömmlichen Vorrichtungen verwendet werden.
  • Als Analysiereinrichtung 2 zur Unterteilung des Stimmsignals für jedes Frequenzband wird in der folgenden Beschreibung, wie oben erwähnt, eine Gruppe von Bandpaßfiltern verwendet, doch kann auch ein Hochgeschwindigkeits-Fourier-Transformator verwendet werden.
  • Die vorliegende Erfindung wird durch eine nachfolgend beschriebene Merkmalsgewinnungseinrichtung gekennzeichnet. Das Eingabemuster zu der Merkmalsgewinnungseinrichtung 4 ist das Zeit-Raum-Muster mit einer Abszisse als Zeitachse und einer Ordinate als Frequenzachse, wobei das Zeit-Raum-Muster von der Wortintervallsegmentiereinrichtung 3 segmentiert und gemäß Fig. 3 als f(t,x) bezeichnet wird, wobei t eine Zahl ist, die die Abtastzeit darstellt, x die Zahl ist, die die Kanalzahl des Bandpaßfilters oder Frequenzbandes angibt (1≤t≤T, 1≤x≤L, wobei T,L ein Maximalwert von t,x ist).
  • Das Ausgangssignal der Wortintervallsegmentiereinrichtung wird in eine Normierungseinrichtung 41 der Merkmalsgewinnungseinrichtung 4 eingegeben, wobei die Normierungseinrichtung 41 die Linearisierung der Zeitachse durchführt. Dies dient dazu, die Länge des Wortes oder der Eingabestimme zu einem gewissen Grad zu absorbieren, wobei die Zeitachse die Rahmen von T bis M (z.B. ungefähr 16 32 Rahmen) darstellt. Im einzelnen kann, wenn M≤T, das normierte Zeit-Raum-Muster F(t,x) durch die folgende Gleichung durch das Berechnen von t von 1 bis M erhalten werden.
  • wobei 1 t M
  • und, wenn M> T,
  • F (t,x)=f(j,x) ..................... (2)
  • wobei j=[(T/M] t),
  • hier bezeichnet [] ein Gaußsches Symbol.
  • Fig. 4 zeigt das durch die oben erwähnte Verarbeitung normierte Zeit-Raum-Muster f(t,x).
  • Obwohl dieses Ausführungsbeispiel für die lineare Normierung gedacht ist, kann bei der Durchführung einer nichtlinearen Normierung das Spektrumsfeld von f(t,x) durch das im folgenden zu beschreibende Verfahren und unter Verwendung einer Vektorfelddichtenäquilisierung, bei der die Vektorfelddichte festgelegt ist, erhalten werden.
  • Das normierte Zeit-Raum-Muster wird der Gewinnung des Spektralvektorfeldes in einer Spektralvektorgewinnungseinrichtung 42 auf folgende Weise unterzogen. Das Spektralvektorfeld wird unter Verwendung des Wertes nahe 8 jedes Gitterpunktes (t,x) des normierten Zeit-Raum- Musters gemäß Tabelle 1 berechnet. Tabelle 1
  • Das Spektralvektorfeldmuster ist durch S(r,θ) dargestellt.
  • Unter Bezugnahme auf die Gleichungen (3) (6) ist X der Wert, der durch Betonen des Inkrements längs der Zeitachse der Objektdaten entlang der Frequenzachse erhalten wird und als Differenzwert entlang der Zeitachse bezeichnet werden kann. Auf ähnliche Weise kann Y als der Differenzwert entlang der Frequenzachse an dem Variablenindex entlang der Frequenzachse bezeichnet werden.
  • In dem Vektorfeld der orthogonalen Koordinaten dieser beiden Indices stellt r die Quantität des Vektors und θ dessen Richtung dar.
  • Als nächstes wird von dem Spektralvektorfeldmuster S(r,θ) in einem Erzeugungsabschnitt des richtungsmäßig angeordneten zweidimensionalen Musters 43 das richtungsmäßig angeordnete zweidimensionale Muster erzeugt. Das heißt, zunächst wird für den Vektor in allen Gitterpunkten des Vektorfeldmusters sein Orientierungsparameter θ im Wert N quantisiert. Anschließend wird bei der Erzeugung des Orientierungsmusters des Spektralvektorfeldes eine Entscheidung über eine optimale Quantisierungsorientierungszahl N in Betracht gezogen. Gemäß "A New Approach for the Segmentation and the Phonemic Feature Extraction from Continuous Speech Based on the Vector Field Model", R. Oka, Transaction of the Committee on Speech Research, The Acoustical Society of Japan, S83-10 (25. Mai 1983) wird bei Berücksichtigung der Tatsache, daß das Spektralvektorfeld normale, erhöhte und verringerte Zeit-Raum-Phasen der Spektralkraft hervorbringt, N bei drei Fällen auf 4,8,12 eingestellt, wie in Fig. 5 gezeigt, umd den Optimalwert durch den Erkennungstest auszuwählen. Ein in bezug auf den Sprecher offener Erkennungstest wird durchgeführt, indem 9 von 10 männlichen Personen ausgewählt werden, um das Standardmuster zur Wiederholung von 10 Erkennungstests zur Erkennung des Restes zu erarbeiten. Obwohl das Orientierungsmuster als Merkmalsmuster verwendet werden muß, wird keine Verzerrverarbeitung durchgeführt. Das Erkennungsergebnis des Tests, bei dem N die verschiedenen Werte von 4,8 und 12 annimmt, ist in Tabelle 2 dargestellt. Von dem Erkennungsergebnis in Tabelle 2 ausgehend kann N als unter dieser Erkennungsbedingung nahe 8 angesehen werden (offene Sprechererkennung von von 10 männlichen Personen gesprochenen 53 Wörtern). Tabelle 2
  • Fig. 6 ist eine erläuternde Darstellung, die ein Beispiel der Quantisierung zeigt, wenn N=8 ist. θ und N entsprechen einander, wie in Tabelle 3 gezeigt. Tabelle 3 ( Grad )
  • Als nächstes werden die Vektoren mit dem gleichen Wert N, der der gerichtete Quantisierungswert ist, allesamt für jeden Wert N getrennt und herausgenommen, um die N richtungsmäßig angeordneten zweidimensionalen Muster H(t,x,Θ) zu erzeugen, die als Wert jedes Gitterpunktes ihre Vektorquantität aufweisen. Fig. 7 ist eine schematische Darstellung des richtungsmäßig angeordneten zweidimensionalen Musters, bei dem r nur in der Position existiert, auf die der Wert N anwendbar ist, und die andere Position 0 ist. Wie aus den Gleichungen (3), (4) hervorgeht, wird, da die Nähe von 8 zur Berechnung von X,Y erforderlich ist, das berechnete S(r,θ) nicht für die Spalten t=1, t=M und die Zeilen x=1, x=L in Fig. 4 berechnet. Somit wird bei dem richtungsmäßig angeordneten zweidimensionalen Muster H(t,x,Θ) die Richtung der Zeitachse die Spalte M-2 und die Richtung der Frequenzachse die Zeile L-2.
  • Der Wert von N ist nicht auf 8 begrenzt.
  • Das so erhaltene richtungsmäßig angeordnete zweidimensionale Muster H(t,x,Θ) ist das durch das Verfahren der vorliegenden Erfindung gewonnene Merkmalsmuster, das bei der Stimmerkennung als Überlagerungsmusterinformation verwendet werden kann.
  • Obowhl von dieser im folgenden zu beschreibenden Musterinformation eine hohe Erkennungsrate erhalten werden kann, kann eine höhere Erkennungsrate erzielt werden, indem die richtungsmäßig angeordneten zweidimensionalen Muster H(t,x,Θ) einer Verzerrverarbeitungseinrichtung 5 zur Verzerrverarbeitung, wie in Fig. 8 gezeigt, zugeführt werden.
  • Die Verzerrverarbeitung wird durch Multiplizieren des Maskenmusters nahe 9, das auf seine Position hin betont wird, zu dem zu verarbeitenden Muster bewirkt, und wenn das richtungsmäßig angeordnete zweidimensionale Muster nach der Verzerrverarbeitung als (t,x,Θ) bezeichnet wird, kann es durch die folgende Gleichung ausgedrückt werden,
  • Hierbei ist ωj (j=0 8) das Maskenmuster der Verzerrverarbeitung und hat einen Wert, wie nachfolgend in (8), (9) dargestellt, wobei ω den Verarbeitungsobjektdaten entspricht und ω&sub1; ω&sub8; den Daten nahe 8. Frequenz Zeit
  • (αj, βj) j = (0 8), wie in Tabelle 4 gezeigt. Tabelle 4
  • Dies (αj, βj) bezeichnet die Position der Objektdaten, auf die ω&sub0; geantwortet wird, und die der Daten nahe 8, auf die ω&sub1; ω&sub8; jeweils geantwortet werden.
  • Die Bedeutung der Gleichungen (8), (9) besteht darin, die Verzerrverarbeitung entlang der Zeitachse strenger durchzuführen als entlang der Frequenzachse.
  • Wenn sie bei der Merkmalsgewinnung für entweder männliche oder weibliche Stimmen eingesetzt wird, wird die Verzerrverarbeitung entlang der Frequenzachse nicht gemäß Gleichung (8) durchgeführt und wenn die Merkmalsgewinnung für sowohl männliche als auch weibliche Stimmen durchgeführt wird, wird die Verzerrverarbeitung entlang der Frequenzachse annähernd nach Gleichung (9) durchgeführt.
  • Das aus der Verzerrverarbeitung gewonnene Merkmal weist eine geringere Veränderung des inhärenten Stimmerkmals auf. Das heißt, die durch die verschiedenen Sprecher und Sprechraten verursachte Zeit-Raum-Veränderung wird stabilisiert. Wenn dies also als Standardmuster oder Nicht- Erkennungsmuster verwendet wird, kann die Stimmerkennungsrate verbessert werden.
  • Das Orientierungsmerkmal wird jedoch im Grunde in das Zeitintervall integriert, so daß die Integration in das Zeitintervall in äußerstem Maße verringert werden muß, um das einen guten Stimmklang aufweisende Merkmal zu erhalten. Dies wird dadurch hervorgerufen, daß die Größe der physiologischen Beschränkung der Stimmbildungsorgane sich von der der dynamischen Veränderung selbst aufgrund des Stimmklangs bei der Stimmbetonung unterscheidet. Da erstere stärker ist als letztere, liegt die Kraft der Ausbreitung des Orientierungsmerkmals in der Raumachse nahe 0 unter Gleichgeschlechtlichen, und ist unter Verschiedengeschlechtlichen zwar nicht 0, jedoch äußerst gering.
  • Somit wird bei Gleichgeschlechtlichen die Verzerrverarbeitung lediglich entlang der Zeitachse durchgeführt und bei beiden Geschlechtern wird zusätzlich zu der vorerwähnten Verarbeitung die Verzerrverarbeitung auch in geringem Ausmaß entlang der Freqenzachse durchgeführt.
  • Obwohl die Verzerrverarbeitung vorzugsweise entsprechend Gleichung (7) einige Male wiederholt wird, wird bei Gleichgeschlechtlichen die Verzerrverarbeitung mit lediglich dem Verzerreffekt der Zeitachse geeigneterweise 4 8 Mal durchgeführt, wie in Gleichung (8) gezeigt, und bei Verschiedengeschlechtlichen wird die Verzerrverarbeitung von Zeit-Raum mit der Wichtung der Raumachse von ungefähr 1/4 1/10 der Wichtung der Verzerrung auf der Zeitachse zur gleichen Zeit jeweils ungefähr 4 Mal wiederholt, wie in Gleichung (9) dargestellt.
  • Wenn währenddessen das Maskenmuster zur Durchführung der ersten Verzerrverarbeitung verwendet wird, werden die Informationen der Gitterpunkte (t-1,x) und (t+1,x) an dem Gitterpunkt (t,x) in der Zeit-Raum-Ebene eingegeben. Auf ähnliche Weise werden die Informationen von (t-2,x) und (t,x) an dem Gitterpunkt (t+1,x) eingegeben. Fig. 9 ist eine schematische Darstellung, die diese Verarbeitung zeigt. Wenn somit die zweite Verzerrverarbeitung durchgeführt ist, werden die Informationen des Gitterpunktes (t-1,x) einschließlich der Originalinformationen des Gitterpunktes (t-2,x) und die Informationen des Gitterpunktes (t+1,x) einschließlich der Originalinformationen des Gitterpunktes (t+2,x) eingegeben. Wenn daher die Verzerrverarbeitung 4 Mal durchgeführt wird, werden die Informationen der Gitterpunkte (t-4,x) (t+4,x) an dem Gitterpunkt (t,x) eingegeben. In diesem Fall wird selbstverständlich zu jeder Information ein Betonungskoeffizient hinzumultipliziert.
  • Als nächstes ist ein Maskenmuster dargestellt, bei dem durch eine Verzerrverarbeitung ein Ergebnis erzielt wird, das im wesentlichen gleich dem mehrerer Verzerrverarbeitungen, wie vorerwähnt, ist. Das Maskenmuster ist in Fig. 10 dargestellt. Wie bei dem obigen Muster wird ein durch Teilen der Akkumulation des Produktes des Einstellungspunkts jedes Gitterpunkts und derjenigen des Maskenmusterwertes durch die Summe der Einstellungspunkte des Maskenmusters erhaltener Wert als derjenige Gitterpunkt bestimmt, der der Verzerrverarbeitung unterzogen wird.
  • Das heißt,
  • Wenn die Verzerrverarbeitung lediglich für die Zeitachse, wie oben beschrieben, durchgeführt wird, oder wenn das Erkennungsobjekt nur Gleichgeschlechtliche betrifft, wird das betonte Maskenmuster (m=0, n=4; in Fig. 11 dargestellt) verwendet. Bei diesem Verfahren werden durch Durchführung einer einzigen Verzerrverarbeitung die Informationen von 4 Gitterpunkten an den beiden Seiten dem zu verzerrenden Gitterpunkt zur gleichen Zeit eingegeben; auf diese Weise können Wirkungen erzielt werden, die gleich denen von 4 Verzerrverarbeitungen des zuvor beschriebenen Verfahrens sind. Somit kann Hochgeschwindigkeitsbetrieb sowie Einsparungen bei der Hardware erzielt werden. Wenn ferner das Maskenmuster, das nicht betont ist (in Fig. 12 dargestellt), näherungsweise verwendet wird, wird im wesentlichen die gleiche Wirkung erzielt und die Operation stärker vereinfacht. Wenn die Verzerrverarbeitung für die Raumachse ebenfalls gemäß Gleichung (9) durchgeführt wird oder beide Geschlechter der Gewinnung unterzogen werden, kann das betonte Maskenmuster, wie in Fig. 13 gezeigt, verwendet werden (m≠0, z.B. m=1, n=4). In diesem Fall kann das angenäherte Maskenmuster, das nicht betont ist, wie in Fig. 14 gezeigt, zur Erzielung der gleichen Wirkung verwendet werden. Ferner kann auch das Maskenmuster verwendet werden, das nur entlang der Raumachse betont ist, wie in Fig. 15 gezeigt.
  • Fig. 16 ist ein Blockdiagramm, das eine erfindungsgemäße Stimmerkennungsvorrichtung für Wörter entsprechend der linearen Überlagerung darstellt, wobei Fig. 2 entsprechende Teile mit den gleichen Bezugszeichen bezeichnet sind.
  • Die Analysiereinrichtung 2 weist ein Bandpaßfilter aus 20 Kanälen auf, und die Normierungseinrichtung 41 führt eine lineare Normierung auf 32 Rahmen in bezug auf die Zeitachse (N=8) durch (Rahmenabstand 8m/sec.).
  • Im voraus in bezug auf verschiedene Wörter gewonnene Merkmale sind als Standardmuster in dem Standardmusterspeicher 6 zusammen mit ihren spezifizierenden Daten gespeichert. Bei Erkennung wird in der Berechnungseinrichtung 7 eine Korrelations- oder Abstandsberechnung jeweils an dem Ausgangssignal der Verzerrverarbeitungseinrichtung 5 und dem Standardmuster in dem Standardmusterspeicher 6 durchgeführt, und die Daten, die das Standardmuster des maximalen Korrelationswertes oder des Minimalabstandwertes bezeichnen, werden als Ergebnis der Erkennung ausgegeben.
  • Bei der Bestimmung des Standardmusters wird die Eingabe für ein Wort mehrfach vorgenommen, um die vorerwähnte Verarbeitung zu wiederholen, und sein Mittelwert wird in dem Standardmusterspeicher 6 gespeichert.
  • Es sei angenommen, daß das Standardmuster Ii(t,x,Θ) ist; i ist die ein Wort bezeichnende Zahl, die Korrelation (I ), wobei das Ausgangssignal der Verzerrverarbeitungseinrichtung 5 der Berechnungseinrichtung 7 zugeführt wird; bei der Erkennung der eingegebenen Stimme erfolgt die Berechnung gemäß den folgenden Gleichungen (11), (12),
  • Dann wird das Ii(t,x,Θ) entsprechende Wort, das den Maximalkorrelationswert zeigt, aus der Ausgabeeinrichtung 8 der CRT-Anzeigevorrichtung oder dergleichen ausgegeben.
  • In der Berechnungseinrichtung 7 kann der Abstand D (I, ) zwischen dem Standardmuster Ii(t,x,Θ) und dem Erkennungsobjektmuster (t,x,Θ) gemäß der folgenden Gleichung berechnet werden.
  • Ein dem Standardmuster des Mindestabstands entsprechendes Wort wird als Eingabewort ausgegeben.
  • Bei dem oben beschriebenen Ausführungsbeispiel ist, obwohl die lineare Überlagerung durchgeführt worden ist, auch durch die in Fig. 17 dargestellte Vorrichtung die nicht-lineare Überlagerung durch DP-Überlagerung möglich.
  • In gleicher Weise wie bei der in Fig. 16 dargestellten Vorrichtung wird das in die Stimmeingabeeinrichtung eingegebene Stimmsignal für jedes Frequenzband von dem Analysierteil 2 geteilt, und das Zeit-Raum-Muster f(t,x) wird sukzessive entlang der Zeitachse t gewonnen, um in die Merkmalsgewinnungseinrichtung 4 eingegeben zu werden. Das Zeit-Raum-Muster f(t,x), das sukzessive gewonnen wird, ist das gleiche wie das in Fig. 3 dargestellte, in einer Gewinnungseinrichtung 44 jedoch wird parallel zu der Gewinnung das Spektralvektorfeld s(r,θ) sukzessive auf ähnliche Weise wie vorstehend beschrieben für jeden R (R≥3)-Rahmen entlang der Zeitachse, wie in Fig. 18 gezeigt, gewonnen, um einer ersten Bildungseinrichtung für richtungsmäßig angeordnete zweidimensionale Muster 45 zugeführt zu werden.
  • Die erste Bildungseinrichtung 45 für richtungsmäßig angeordnete zweidimensionale Muster, die das richtungsmäßig angeordnete zweidimensionale Muster in bezug auf das Spektralvektorfeld S(r,Θ) entsprechend dem R-2-Rahmen wie vorher erzeugt, führt es der Verzerrverarbeitungseinrichtung 5 zu, führt die Verzerrverarbeitung durch die gleiche Verzerrverarbeitungsmethode wie vorher durch und führt es sukzessive einer zweiten Bildungseinrichtung 46 für richtungsmäßig angeordnete zweidimensionale Muster zu.
  • Bei der zweiten Bildungseinrichtung 46 für richtungsmäßig angeordnete zweidimensionale Muster wird ein Mittelwert des Spektralvektorfeldes oder das Spektralvektorfeld an einem typischen Punkt ausgewählt, um es als richtungsmäßig angeordnetes zweidimensionales Muster für einen Rahmen zu bestimmen. Das heißt, wenn R=3, wird das richtungsmäßig angeordnete zweidimensionale Muster nur für einen Rahmen erzeugt, so daß keine Wahlmöglichkeit gegeben ist, wenn jedoch R≥4, kann, da die richtungsmäßig angeordneten zweidimensionalen Muster für mehrere Rahmen entlang der Zeitachse erhalten werden, aus diesen ein Mittelwert errechnet werden oder jedes davon kann ausgewählt werden.
  • Fig. 19 zeigt das auf diese Weise erhaltene richtungsmäßig angeordnete zweidimensionale Muster für einen Rahmen.
  • Das richtungsmäßig angeordnete zweidimensionale Muster [1,TI) in der Zeiteinrichtung, das durch sukzessives Durchführen einer solchen Verarbeitung erhalten wird, kann in der Gleichung (14) als Gruppe ausgedrückt werden.
  • I = {fΘ (t,x) : 1≤Θ≤N, 1≤t≤Ti, 1≤x≤L-2} . . . (14)
  • wobei, ähnlich wie vorher, Θ = Richtung des quantisierten Vektorfeldes,
  • t = Rahmen
  • x = Kanalzahl des Bandpaßfilters
  • Als zu speicherndes Standardmuster A werden mehrere 1 erhalten durch mehrmaliges Eingeben der Stimme in bezug auf jedes Wort und Einstellen eines Reaktionspunktes durch Anwenden der DP-Überlagerung, um anschließend eine Durchschnittsverarbeitung durchzuführen, doch kann es auch mit dem gleichen Verfahren ohne Anwendung der DP- Überlagerung gebildet werden.
  • A = {zΘ (τ,x) : 1≤Θ≤N, 1≤τ≤TR, 1≤x≤L-2} (15)
  • wobei TR die Rahmenlänge ist.
  • Bei Erkennung der Eingabestimme wird an dem Ausgangssignal I der zweiten Bildungseinrichtung 47 für richtungsmäßig angeordnete zweidimensionale Muster und an dem Standardmuster A in der DP-Berechnungseinrichtung 9 eine DP-Überlagerung durchgeführt. Der Summenabstand D(A,I) kann gemäß Gleichung (15) errechnet werden, indem d(t,τ) durch die Gleichung (16) definiert wird:
  • und die graduelle Gleichung (17) durch ein gewöhnliches DP berechnet wird, wobei der Überlagerungsweg, wie in Fig. 20 gezeigt, berücksichtigt wird:
  • wobei min den Mindestwert von 3 Gleichungen in {} auf der rechten Seite darstellt.
  • Ferner besteht die Möglichkeit, im Unterschied zu dem oben beschriebenen Ausführungsbeispiel ein kontinuiuerliches DP anzuwenden. Dies ist von einem der Erfinder der vorliegenden Erfindung in "Continuous Words Recognition by Use of Continuous Dynamic Programming for Pattern Matching", Transactions of the Committee on Speech Research, The Acoustic Society of Japan, S78-20 (24. Juni 1978) offenbart, wobei das in Übereinstimmung bringen der Rahmenmerkmale mit dem Standardmuster punktuell gleichzeitig mit der sukzessiven Gewinnung ersterer durchgeführt wird.
  • Bei diesem Verfahren wird der örtliche Abstand d(t,τ) mittels der Gleichung (13) für jeden von der zweiten Bildungseinrichtung 46 für richtungsmäßig angeordnete zweidimensionale Muster in die DP-Berechnungseinrichtung 9 eingegebenen Rahmen berechnet, und die folgende graduelle Gleichung des kontinuierlichen DP wird ebenfalls für jede Rahmeneingabe berechnet.
  • Für jede Rahmeneingabezeit wird der Summenabstand D(t) angegeben als
  • D(t) = P(t,T)/3T . . . . . (20)
  • wobei T die Rahmenlänge ist. Das heißt, die Erkennungsverarbeitung kann durch kontinuierliches DP bei Echtzeit durchgeführt werden.
  • Der Überlagerungsweg beim kontinuierlichen DP ist verschieden von dem in Fig. 20 gezeigten, und Einzelheiten ergeben sich aus dem vorgenannten. Bei dem Muster kann in dem Stadium, in dem das richtungsmäßig angeordnete zweidimensionale Muster erhalten wird, ein Verfahren zur Gewinnung der "Zellmerkmale" zur Erkennung in betracht gezogen werden, das in "Recognition of Handwritten Chinese-Japanese Characters by Using Cellular Features, Japan Electrotechnical Laboratory, Report No. 834" dargelegt ist.
  • Fig. 21 unterscheidet sich von dem Ausführungsbeispiel von Fig. 17 dahingehend, daß das in der Spektralvektorfeldgewinnungseinrichtung 44 erhaltene Spektralvektorfeld S(r,Θ) der Bildungseinrichtung 46 für richtungsmäßig angeordnete zweidimensionale Muster zugeführt wird, und das dort erhaltene richtungsmäßig angeordnete zweidimensionale Muster wird zur Verzerrverarbeitung der Verzerrverarbeitungseinrichtung 5 zugeführt, wobei das Verzerrverarbeitungsmuster der Standardmusterspeichereinrichtung 6 und der DP-Berechnungseinrichtung 9 zugeführt wird.
  • Die Bildungseinrichtung für richtungsmäßig angeordnete zweidimensionale Muster hat die gleiche Funktion wie die erste Bildungseinrichtung 45 für zweidimensionale Muster des Ausführungsbeispiels von Fig. 17 wenn R=3, wogegen sie zwei Funktionen der ersten und zweiten Bildungseinrichtungen 45,46 für richtungsmäßig angeordnete Muster des Ausführungsbeispiels von Fig. 17 ausführt, wenn R≥4.
  • Nunmehr werden Vorteile der vorliegenden Erfindung beschrieben. Bei der vorliegenden Erfindung wird die Erkennung durch Muster von verschiedenen Richtungen des Vektorfeldes durchgeführt, und die Stimmerkennung erfolgt durch 4 Verfahren, die sich aus linearer Überlagerung und DP-Überlagerungsverfahren zusammensetzen, jeweils mit/ohne Verzerrwirkung, und sie wird mit dem Ergebnis herkömmlicher Spektralerkennung (sowohl lineare als auch DP-Überlagerung) verglichen. Die Verzerrverarbeitung wurde gemäß der Muster von (8) und (9) durchgeführt. Der offene Test wurde unter einer solchen Erkennungsbedingung und den folgenden Bedingungen durchgeführt. Ein Standardmuster wurde für ein Wort eingestellt.
  • (a) 9 von 10 männlichen Personen wurden zur Ausarbeitung des Standardmusters ausgewählt und das Verfahren zur Erkennung des Rests wurde für 10 Personen wiederholt. (Offener Erkennungstest der Sprecher von 10 männlichen Personen x 53 Wörtern).
  • (b) 9 von 10 weiblichen Personen wurden zur Ausarbeitung des Standardmusters ausgewählt und das Verfahren zur Erkennung des Rests wurde für 10 Personen wiederholt. (Offener Erkennungstest der Sprecher von 10 weiblichen Personen x 53 Wörtern).
  • (c) 19 von 10 männlichen Personen und 10 weiblichen Personen wurden zur Ausarbeitung des Standardmusters ausgewählt und das Verfahren zur Erkennung des Rests wurde für 20 Personen wiederholt. (Offener Erkennungstest der Sprecher von 20 männlichen und weiblichen Personen x 53 Wörtern).
  • Die Ergebnisse sind in Tabelle 5 dargestellt. Tabelle 5 Verschiedene gerichtete Muster des Vektorfeldes Erkennungsmerkmale und -verfahren Spektrum ohne Verzerrung mit Verzerrung Sprecher zwischen Gleichgeschl. zwischen zwei Geschl. Berechnungszeit Durchschnitt Linear
  • Das Erkennungsobjekt des oben beschriebenen Tests ist ein Wort. Wenn das Erkennungsobjekt eine einzige Silbe oder ein Phonem ist, sind die durch diese Erfindung ohne Verzerrverarbeitung erzielten Erkennungsergebnisse dem herkömmlichen Verfahren überlegen.
  • Folglich kann mit der vorliegenden Erfindung ohne Verzerrverarbeitung die gleiche Wirkung wie mit dem herkömmlichen Verfahren erzielt werden, wogegen bei Durchführung einer Verzerrverarbeitung bei linearer Überlagerung bei der Erkennungsrate im Vergleich zu Spektrum plus DP-Überlagerung kein Unterschied festzustellen ist, und die Berechnungszeit (CPU-Zeit) ist bei der vorliegenden Erfindung kürzer als bei dem herkömmlichen Verfahren, somit ist sie geeignet zur Realisierung als Hardware.

Claims (19)

1. Verfahren zur Gewinnung von Merkmalen eines Sprachsignals, bei dem ein Sprachsignal analysiert wird, um ein Zeit-Raum-Muster zu erhalten, das aus einem Gitter skalarer Werte entlang einer Zeitachse und einer Raumachse besteht, und bei dem das Zeit-Raum-Muster verwendet wird, um das Sprachmerkmal zu gewinnen, mit dem Schritt:
Umwandeln des Zeit-Raum-Musters in ein Vektorfeld- Muster durch Differenzieren der skalaren Werte entlang der Zeit- und Raumachse, wodurch an jedem Punkt des Gitters die Amplitude und Phase eines darauf basierenden Vektors definiert wird, gekennzeichnet durch die folgenden Schritte:
Quantisieren der Phase jedes Vektors über N Pegel (N: ganze Zahl),
Gruppieren aller Vektoren, die denselben Quantisierungswert haben, in N entsprechende richtungsmäßig angeordnete skalare Zeit-Raum-Muster, wobei der skalare Wert an jedem Gitterpunkt entweder Null oder die für diesen Punkt definierte Vektoramplitude ist, und
Verwenden des durch Verzerren der N richtungsmäßig angeordneten Muster in bezug auf die Zeitachse und/oder Raumachse mittels einer Maske von voreingestellten Wichtungen, die in der Nähe jedes Gitterpunktes angewandt wird, erzeugten Musters als Merkmal des Sprachsignals.
2. Verfahren zur Spracherkennung, bei dem ein als Erkennungsobjekt eingegebenes Sprachsignal analysiert wird, um ein Zeit-Raum-Muster zu erhalten, das aus einem Gitter skalarer Werte entlang einer Zeitachse und einer Raumachse besteht, und bei dem eine auf dem Zeit-Raum- Muster basierendes Merkmalsmuster mit einem Standardmuster zum Erkennen der eingegebenen Sprache in Übereinstimmung gebracht wird, mit dem Schritt:
Umwandeln des Zeit-Raum-Musters in ein Vektorfeld- Muster durch Differenzieren der skalaren Werte entlang der Zeit- und Raumachse, wodurch an jedem Punkt des Gitters die Amplitude und Phase eines darauf basierenden Vektors definiert wird, gekennzeichnet durch die folgenden Schritte:
Quantisieren der Phase jedes Vektors über N Pegeln (N: ganze Zahl), Gruppieren aller Vektoren, die denselben Quantisierungswert haben, in N entsprechende richtungsmäßig angeordnete skalare Zeit-Raum-Muster, wobei der skalare Wert an jedem Gitterpunkt entweder Null oder die für diesen Punkt definierte Vektoramplitude ist,
Verwenden des durch Verzerren der N richtungsmäßig angeordneten Muster in bezug auf die Zeitachse und/oder Raumachse mittels einer Maske von voreingestellten Wichtungen, die in der Nähe jedes Gitterpunkts angewandt wird, erzeugten Musters als Merkmalsmuster des Sprachsignals, und
In Übereinstimmung bringen des durch Verzerren erzeugten Musters mit dem Standardmuster und Erkennen des auf der engsten Übereinstimmung basierenden Wortes.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Raumachse eine Frequenzachse ist.
4. Verfahren nach einem der Ansprüche 1 - 3, bei dem der Schritt der Verzerrverarbeitung nur für die Zeitachse im Falle der Gewinnung von Sprachmerkmalen bei nur einem Geschlecht durchgeführt wird.
5. Verfahren nach einem der Ansprüche 1 - 3, bei dem die Verzerrverarbeitung für die Zeitachse strenger durchgeführt wird als die für die Raumachse.
6. Verfahren nach Anspruch 5, bei dem die Verzerrverarbeitung entlang der Raumachse bei der Gewinnung von Sprachmerkmalen sowohl von männlichen als auch von weiblichen Personen strenger durchgeführt wird im Vergleich zu der bei einem einzigen Geschlecht.
7. Verfahren nach einem der Ansprüche 1 - 6, bei dem die Verzerrverarbeitung eine Verarbeitung mittels Maskenbetrieb eines Maskenmusters ist, welches einen voreingestellten Wichtungswert von 3 x 3 hat und einen Mittelpunkt aufweist, der dem Gitterpunkt entspricht.
8. Verfahren nach einem der Ansprüche 1 - 6, bei dem die Verzerrverarbeitung eine Verarbeitung mittels Maskenbetrieb eines Maskenmusters ist, welches einen voreingestellten Wichtungswert von mindestens 3 x 3 in bezug auf die Zeit- und Raumachse aufweist und einen Mittelpunkt, der dem Gitterpunkt entspricht.
9 Verfahren nach einem der Ansprüche 1 - 8, bei dem die Verarbeitung mittels einer Maske mehrere Male wiederholt wird.
10. Verfahren nach einem der Ansprüche 1 - 3, bei dem das Verzerren die Verarbeitung eines Maskenmusters ist, das in bezug auf jeden Gitterpunkt jedes zweidimensionalen Orientierungsmusters einen Mittelpunkt aufweist, der jedem Gitterpunkt entspricht, das sich um mehr als jeweils zwei Gitterpunkte von dem Mittelpunkt aus in beide Richtungen der Zeitachse ausdehnt und einen voreingestellten Wichtungswert aufweist.
11. Verfahren nach Anspruch 10, bei dem die Wichtungswerte alle "1" sind.
12. Verfahren nach einem der Ansprüche 1 - 3, bei dem das Verzerren eine Verarbeitung eines Maskenmusters durch Maskenbetrieb ist, welches in bezug auf jeden Gitterpunkt jedes zweidimensionalen Orientierungsmustergitters einen Mittelpunkt aufweist, der jedem Gitterpunkt entspricht, welches sich um mehr als jeweils zwei Gitterpunkte von dem Mittelpunkt aus in beide Richtungen der Zeitachse ausdehnt, welches sich um mehr als jeweils einen Gitterpunkt von dem Mittelpunkt aus in beide Richtungen der Raumachse ausdehnt und welches einen voreingestellten Wichtungswert aufweist.
13. Verfahren nach Anspruch 12, bei dem das Maskenmuster sich entlang der Zeitachse mehr als entlang der Raumachse ausdehnt.
14. Verfahren nach einem der Ansprüche 12 oder 13, bei dem die Wichtungswerte des Mittelpunkts des Maskenmusters und entlang der Zeitachse alle "1" sind und derjenige entlang der Raumachse weniger als "1" ist.
15. Spracherkennungseinrichtung, bei der ein als Erkennungsobjekt eingegebenes Sprachsignal analysiert wird, um ein aus einem Gitter skalarer Werte entlang einer Zeitachse und einer Raumachse bestehendes Zeit-Raum- Muster zu erhalten, und bei dem ein auf dem Zeit-Raum- Muster basierendes Merkmalsmuster mit einem Standardmuster zum Erkennen der eingegebenen Sprache in Übereinstimmung gebracht wird, mit
einer Umwandlungseinrichtung zum Umwandeln des Zeit-Raum-Musters in ein Vektorfeld-Muster durch Differenzieren der skalaren Werte entlang der Zeit- und Raumachse, wodurch an jedem Punkt des Gitters die Amplitude und Phase eines darauf basierenden Vektors definiert wird,
dadurch gekennzeichnet,
daß sie aufweist:
eine Bildungseinrichtung zum Quantisieren der Phase jedes Vektors über N Pegel (N: ganze Zahl), wobei alle Vektoren, die denselben Quantisierungswert haben, derart gruppiert werden, daß sie N entsprechende richtungsmäßig angeordnete skalare Zeit-Raum-Muster bilden, wobei der skalare Wert an jedem Gitterpunkt entweder Null oder die für diesen Punkt definierte Vektoramplitude ist,
eine Verzerrverarbeitungseinrichtung zum Verzerren der N richtungsmäßig angeordneten Muster in bezug auf die Zeitachse und/oder Raumachse mittels einer in der Nähe jedes Gitterpunkts angewandten Maske mit voreingestellten Wichtungen,
eine Überlagerungseinrichtung zum In-Übereinstimmung-bringen des durch Verzerren gebildeten Musters als Merkmalsmuster mit dem Standardmuster und zum Erkennen des auf der engsten Übereinstimmung basierenden Wortes.
16. Spracherkennungseinrichtung nach Anspruch 15, bei der die Raumachse eine Frequenzachse ist.
17. Spracherkennungseinrichtung nach Anspruch 15 oder 16, bei der die Verzerrverarbeitungseinrichtung bei der Zeitachse eine strengere Verzerrung durchführt als bei der Raumachse.
18. Spracherkennungseinrichtung nach einem der Ansprüche 15 - 17, bei der die Überlagerungseinrichtung eine DP-(Dynamic Programming)-Überlagerungseinrichtung ist.
19. Spracherkennungseinrichtung nach einem der Ansprüche 15 - 18, bei der
die Umwandlungseinrichtung das Vektorfeldmuster in Einheiten von mehr als zwei Mehrfachrahmen sukzessive von dem Zeit-Raum-Feld-Muster verarbeitet, und zwar in einer Einheit von mehr als 4 sukzessive von der Analyseeinrichtung gewonnenen Mehrfachrahmen entlang der Zeitachse,
die Umwandlungseinrichtung die Gitter mit der gleichen Rahmenanzahl sukzessive von dem Vektorfeldmuster jedes sukzessive gewonnenen Mehrfachrahmens bildet, und
die eine zweite Einrichtung zum Bilden der zweidimensionalen Muster in einer Rahmeneinheit entsprechend einer vorgeschriebenen Prozedur aus den zweidimensionalen Orientierungsmustereinheiten von Mehrfachrahmen, die zum Verzerren von der Verzerrverarbeitungseinrichtung verarbeitet wurden, aufweist.
DE88108313T 1987-05-29 1988-05-25 Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung. Expired - Lifetime DE3882805T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP62136377A JPS63300296A (ja) 1987-05-29 1987-05-29 音声認識方式及び装置
JP24891587 1987-09-30

Publications (2)

Publication Number Publication Date
DE3882805D1 DE3882805D1 (de) 1993-09-09
DE3882805T2 true DE3882805T2 (de) 1993-11-11

Family

ID=26469981

Family Applications (1)

Application Number Title Priority Date Filing Date
DE88108313T Expired - Lifetime DE3882805T2 (de) 1987-05-29 1988-05-25 Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.

Country Status (3)

Country Link
US (1) US4989249A (de)
EP (1) EP0292929B1 (de)
DE (1) DE3882805T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69132659T2 (de) * 1990-05-28 2002-05-02 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
AU667871B2 (en) * 1991-12-31 1996-04-18 Digital Sound Corporation Voice controlled messaging system and processing method
US5473731A (en) * 1993-07-20 1995-12-05 Intel Corporation Lattice based dynamic programming classification system
JP3280825B2 (ja) * 1995-04-26 2002-05-13 富士通株式会社 音声特徴分析装置
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6397185B1 (en) * 1999-03-29 2002-05-28 Betteraccent, Llc Language independent suprasegmental pronunciation tutoring system and methods
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
JP3837505B2 (ja) * 2002-05-20 2006-10-25 独立行政法人産業技術総合研究所 ジェスチャ認識による制御装置のジェスチャの登録方法
US7930180B2 (en) * 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
US11922944B2 (en) * 2020-06-29 2024-03-05 Mod9 Technologies Phrase alternatives representation for automatic speech recognition and methods of use

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
US4586191A (en) * 1981-08-19 1986-04-29 Sanyo Electric Co., Ltd. Sound signal processing apparatus
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components

Also Published As

Publication number Publication date
EP0292929A2 (de) 1988-11-30
US4989249A (en) 1991-01-29
EP0292929B1 (de) 1993-08-04
EP0292929A3 (en) 1990-02-14
DE3882805D1 (de) 1993-09-09

Similar Documents

Publication Publication Date Title
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE3306730C2 (de)
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE3882805T2 (de) Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung.
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE10030105A1 (de) Spracherkennungseinrichtung
DE2825082A1 (de) Verfahren zur spracherkennung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69224253T2 (de) Sprachkodiergerät
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort

Legal Events

Date Code Title Description
8364 No opposition during term of opposition