DE69025932T2 - Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen - Google Patents

Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen

Info

Publication number
DE69025932T2
DE69025932T2 DE69025932T DE69025932T DE69025932T2 DE 69025932 T2 DE69025932 T2 DE 69025932T2 DE 69025932 T DE69025932 T DE 69025932T DE 69025932 T DE69025932 T DE 69025932T DE 69025932 T2 DE69025932 T2 DE 69025932T2
Authority
DE
Germany
Prior art keywords
waveform
stabilized image
output signal
time
sound wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69025932T
Other languages
English (en)
Other versions
DE69025932D1 (de
Inventor
John Wilfred Holdsworth
Roy Dunbar Patterson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medical Research Council
Original Assignee
Medical Research Council
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Medical Research Council filed Critical Medical Research Council
Application granted granted Critical
Publication of DE69025932D1 publication Critical patent/DE69025932D1/de
Publication of DE69025932T2 publication Critical patent/DE69025932T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Exposure Control For Cameras (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

  • Die Erfindung betrifft Vorrichtungen und Verfahren zur Erzeugung stabilisierter Abbildungen von Wellenformen. Sie ist insbesondere anwendbar bei der Analyse von nicht sinusförmigen -periodischen oder quasiperiodischen- Wellenformen.
  • Die Analyse von nicht sinusförmigen Wellenformen ist insbesondere anwendbar bei Klangwellen und bei Spracherkennungssystemen. Einige Sprachprozessoren beginnen die Analyse einer Sprachwelle mit der Aufteilung der Sprachwelle in getrennte Frequenzkanäle unter Verwendung entweder von Fourier-Transformationsverfahren oder einer Filterbank, die das betreffende im menschlichen Hörsystem in größerem oder geringerem Maße nachahmt Dies erfolgt in dem Bestreben, das Spracherkennungssystem gegenüber Geräuschen unempfindlich zu machen.
  • Bei dem Fourier-Transformationsverfahren werden kleine Abschnitte der Welle schrittweise vorn Zeitbereich in den Frequenzbereich transformiert und die Komponenten in dem resultierenden Spektrum analysiert. Dieser Ansatz ist verhältnismäßig ökonomisch. Er hat jedoch den Nachteil, daß die feinkörnige zeitliche Information in der Sprachwelle verloren geht bevor sie vollständig analysiert worden ist.
  • Bei dem Filterbankverfahren wird die Sprachwelle mittels im Zeitbereich arbeitenden Filtern in Kanäle aufgeteilt. Das Resultat ist ein Satz von Wellenformen, von denen jede einen Anteil der ursprünglichen Sprachinformation enthält. Die zeitliche Information in jedem Kanal wird getrennt analysiert und ist gewöhnlich in Abschnitte und einen Energiewert für jeden bestimmten Abschnitt aufgeteilt, so daß der Ausgang der Filterbank in eine zeitliche Sequenz von Energiewerten umgesetzt wird. Die Abschnittsdauer liegt typischerweise im Bereich von 10 bis 40 ms. Die Integration ist unempfindlich gegenüber der Periodizität in der Information in dem Kanal und wiederum wird feinkörnige zeitliche Information in der Sprachwelle zerstört bevor sie vollständig analysiert worden ist. Gleichzeitig sind mit Rücksicht auf das Detektieren von Signalen im Geräusch die Abschnittsdauern diesbezüglich zu kurz, um eine ausreichende Integration durchzuführen.
  • Die zeitliche Integration einer nicht sinusförmigen Wellenform ist vorzugsweise ein datenbetriebener Prozeß und zwar einer, der gegenüber periodischen Charakteristika der Wellenform empfindlich und ansprechend ist.
  • Obwohl die Erfindung bei einer Vielfalt von Wellen oder mechanischen Schwingungen anwendbar ist, ist die vorliegende Erfindung im besonderen zur Analyse von Klangwellen geeignet. Die Erfindung ist anwendbar bei der Analyse von Klangwellen, die musikalische Noten oder Sprache repräsentieren. Im Falle von Sprache ist die Erfindung insbesondere nützlich bei einem Spracherkennungssystem, in welchem sie zur Unterstützung einer tonhöhensynchronen zeitlichen Integration und zur Unterscheidung zwischen stimmhafte Stellen von Sprache repräsentierenden periodischen Signalen und beispielsweise durch Geräusch verursachten aperiodischen Signalen verwendet werden kann.
  • Die Erfindung kann dazu verwendet werden, tonhöhensynchrone Integration zu unterstützen, die eine stabilisierte Abbildung oder eine Darstellung einer Wellenform ohne substanziellen Verlust der zeitlichen Auflösung erzeugt. Die in Rede stehende stabilisierte Abbildung einer Wellenform ist eine Darstellung der Wellenform, die all die wichtigen zeitlichen Charakteristika der Wellenform enthält und durch getriggerte zeitliche Integration der Wellenform - wie hierin beschrieben ist - erzielt wird.
  • Mit der vorliegenden Erfindung wird angestrebt, Vorrichtungen und Verfahren zum Erzeugen einer stabilisierten Abbildung einer Wellenform bereitzustellen unter Verwendung eines datenbetriebenen Prozesses, der empfindlich und ansprechend gegenüber periodischen Charakteristika der Wellenform ist.
  • Die vorliegende Erfindung stellt ein Verfahren zum Erzeugen einer stabilisierten Abbildung einer Wellenform bereit, bei dem Scheitelwerte der Wellenform detektiert werden, als Reaktion auf das Detektieren der Scheitelwerte aufeinanderfolgende zeitlich erstreckte Abschnitte der Wellenform abgetastet werden und eine Summationsausgabe gebildet wird durch Addition erster Signale, die jeden aufeinanderfolgenden Abschnitt repräsentieren, mit zweiten Signalen, die eine durch vorherige Abschnitte der Wellenform gebildete Summationsausgabe repräsentieren, wobei die Summationsausgabe eine stabilisierte Abbildung der Wellenform bildet.
  • Die vorliegende Erfindung sieht ferner ein Verfahren vor, bei dem die Summationsausgabe mittels einer zeitabhängigen Dämpfung verringert wird zur Erzeugung der gedämpften Summationsausgabe. Zusätzlich ist vorzugsweise eine erste Grenze der zeitlich erstreckten Abschnitte der Wellenform durch die Detektion von Scheitelwerten in der Wellenform und eine zweite Grenze der zeitlich erstreckten Abschnitte der Wellenform entweder durch eine vorbestimmte Zeitspanne nach der ersten Grenze der zeitlich erstreckten Abschnitte der Wellenform oder durch die Detektion von Scheitelwerten in der Wellenform bestimmt.
  • Zudem sieht die vorliegende Erfindung für die Analyse einer nicht sinusförmigen Klangwelle ein Verfahren vor, bei dem ferner ein spektrales Auflösen der Klangwelle in eine Vielzahl gefilterter Wellenformen vorgesehen ist, von denen jede selbstständig eine stabilisierte Abbildung erzeugt. Vorzugsweise sieht dieses Verfahren ferner die Extraktion periodischer Charakteristika der Klangwelle sowie die Extraktion von Timbrecharakteristika der Klangwelle vor.
  • Ein zweiter Aspekt der vorliegenden Erfindung umfaßt eine Vorrichtung zum Erzeugen einer stabilisierten Abbildung einer Wellenform mit (a) einem Scheitelwertdetektor zum Empfangen und Detektieren von Scheitelwerten in der Wellenform, (b) Mitteln zum Abtasten aufeinanderfolgender zeitlich erstreckter Abschnitte der Wellenform, wobei die Abtastmittel mit dem Scheitelwertdetektor gekoppelt sind, (c) Summiermitteln, um erste Signale, die jeden aufeinanderfolgenden, zeitlich erstreckten Abschnitt repräsentieren, mit zweiten Signalen eine Summationsausgabe bildend zu addieren, wobei die zweiten Signale eine gedämpfte Summationsausgabe repräsentieren und die Summiermittel mit den Abtastmitteln gekoppelt sind, und (d) Rückkopplungsmitteln, um die Summationsausgabe zum Zwecke der Herleitung der zweiten Signale aus der Summationsausgabe zu dämpfen, wobei die Rückkopplungsmittel mit den Summiermitteln gekoppelt sind und die Summationsausgabe eine stabill sierte Abbildung der Wellenform bildet.
  • Darüberhinaus umfaßt die vorliegende Erfindung eine Spracherkennungsvorrichtung einschließlich einer oben beschriebenen Vorrichtung zusammen mit Mitteln zur Bereitstellung einer Höreigenschaftsextraktion aus der Analyse der gefilterten Wellenformen zusammen mit syntaktischen und semantischen Prozessormitteln, die syntaktische und semantische Grenzwerte zur Verwendung bei der Spracherkennung der Klangwelle bereitstellen.
  • Ausführungsformen der Erfindung werden nun anhand von Beispielen mit Bezug auf die zugehörigen Zeichnungen beschrieben. Es zeigt:
  • Figur 1 eine erfindungsgemäße Vorrichtung zur Erzeugung einer stabilisierten Abbildung einer Wellenform in einem Blockdiagramm;
  • Figur 2 eine Teilmenge von sieben durch Spektralanalyse einer Klangwelle erhaltenen Erregerwellen, die mit einer ersten Tonhöhe beginnt und dann rasch in eine zweite Tonhöhe übergeht;
  • Figur 3 die Teilmenge der in Figur 2 gezeigten sieben Erregerwellen, bei der die Wellen gleichgerichtet worden sind, so daß lediglich die positive Hälfte der Wellen gezeigt ist;
  • Figur 4 die zeitliche Integration von drei Harmonischen einer Klangwelle gemäß einer ersten Ausführungsform der Erfindung in einem schematischen Diagramm;
  • Figur 5 eine weitere Ausführungsform der Erfindung in einem der Figur 4 ähnlichen schematischen Diagramm; und
  • Figur 6 eine erfindungsgemäße Spracherkennungsvorrichtung in einer schematischen Darstellung.
  • Obwohl diese Auführungsformen bei der Analyse beliebiger, durch eine Wellenform darstellbarer Schwingungen anwendbar ist, bezieht sich die nachfolgende Beschreibung im Spezielleren auf Klangwellen. Diese umfassen Vorrichtungen und Verfahren zum Erzeugen einer stabilisierten Abbildung einer Wellenform durch getriggerte zeitliche Integration und können zur Unterstützung bei der Unterscheidung zwischen periodischen und aperiodischen Wellen verwendet werden. Periodische Klangwellen schließen beispielsweise Klangwellen mitein, die Vokaltöne bei Sprache, Musiknoten oder das Surren eines Motors bilden. Hintergrundgeräusche wie solche, die beispielsweise durch Wind und Regen erzeugt werden, sind aperiodische Klänge.
  • Zeitliche Integration einer Wellenform ist notwendig beim Analysieren der Wellenform, um dominante Charakteristika der Wellenform klarer zu erkennen und da auch ohne irgendeine Form von Integration die Ausgangsdatenrate zu hoch sein würde, um eine Echtzeitanalyse der Wellenform zu stützen. Dies ist von besonderer Bedeutung bei der Analyse von Klangwellen und bei Spracherkennung.
  • Bei der Analyse einer nicht sinusförmigen Klangwelle wird häufig die Welle zunächst in getrennte Frequenzkanäle aufgeteilt unter Verwendung einer Bank aus Bandpaßfrequenzfiltern. Bei der Analyse der Klangwelle durch Untersuchen der resultierenden Ausgangssignale von Kanälen der Bank aus Frequenzfiltern ist es notwendig, daß die Information verarbeitet wird. Eine Anzahl von Prozessen wird auf die Ausgangssignale der Kanäle in Form von Kompression, Gleichrichtung und Adap tion auf einer Kanal-um-Kanal-Basis angewendet, um unterscheidbare Kennzeichen im Ausgangssignal zu schärfen und "Geräuscheffekte" zu reduzieren. Somit wird in Figur 2 eine Teilmenge von sieben Erregerwellen aus den Kanälen einer Filterbank und in Figur 3 die gleiche Teilmenge von Erregerwellen mit den gleichgerichteten und komprimierten Erregerwellen gezeigt. Die in Figur 2 und 3 gezeigten siebenkanäligen Ausgangssignale werden durch Spektralanalyse einer Klangwelle, die bei einer ersten Tonhöhe beginnt und rasch zu einer höheren, zweiten Tonhöhe gleitet, erhalten.
  • Bei der Analyse der Klangwelle ist es für das Ausgangssignal jedes Kanals auch notwendig, zeitlich integriert zu werden. Jedoch muß eine derartige Integration ohne substanziellen Verlust der zeitlichen Auflösung erfolgen. Gernäß Figur 1 ist ein schematisches Diagramm eines Generators für stabilisierte Abbildungen gezeigt, welcher dazu verwendet werden kann, das Ausgangssignal eines Kanals der Filterbank zeitlich zu integrieren. Die durch den Generator für stabilisierte Abbildungen ausgeführte Integration ist getriggert und quantisiert, so daß ein Verlust der zeitlichen Auflösung von der Integration vermieden wird. Ein Generator für stabilisierte Abbildungen kann für jeden Kanal der Filterbank vorgesehen werden.
  • Der Generator für stabilisierte Abbildungen hat einen Scheitelwertdetektor (2), der mit Abtastmitteln in der Form eines Buffers (1) und eines Gatters (3) oder anderen Mitteln zum Steuern der Kopplung zwischen dem Buffer (1) und einem Summierer (4) oder anderen Kombinationsrnitteln gekoppelt ist. Das Gatter (3) und der Summierer (4) bilden einen Teil einer Integrationseinrichtung (5). Der Summierer (4) ist auch mit einer Abklingeinrichtung (6) gekoppelt und bildet mit der Abklingeinrichtung (6) eine Rückkopplungsschleife in der Integrationseinrichtung (5). Somit ist der Ausgang des Summierers (4) mit dem Eingang der Abklingeinrlchtung (6) gekoppelt und der Ausgang der Abklingeinrichtung (6) ist mit einem Eingang des Summierers (4) gekoppelt. Die Abklingeinrichtung leitet das zweite Eingangssignal für den Summierer (4) aus dem Ausgangssignal des Summlerers (4) her. Die Abklingeinrichtung (6) ist auch mit dem Scheitelwertdetektor (2) gekoppelt. Der Summierer (4) hat zwei Eingänge, einen ersten Eingang, der mit dem Gatter (3) gekoppelt ist, und einen zweiten Eingang, der mit dem Ausgang der Abklingeinrichtung (6) gekoppelt ist. Die beiden Eingänge erhalten jeweils ein Eingangssignal von dem Gatter (3) bzw. der Abklingeinrichtung (6). Die beiden erhaltenen Eingangssignale werden dann durch den Summierer (4) aufsummiert. Das Summationsausgangssignal des Summierers (4) stellt die resultierenden summierten Eingangssignale dar und ist eine stabilisierte Abbildung des Eingangssignals in den Buffer (1). Der Summationsausgang des Summierers (4) ist auch mit einem Konturextraktor (7) gekoppelt, der zeitlich über die stabilisierte Abbildung vom Summierer (4) integriert und der einen getrennten Ausgang hat.
  • Gemäß den Figuren 4 und 5 wird die Periode einer Klangwelle durch einen Pulsstrom mit einer Periode von 8 ms und mit etwas mehr als sechs gezeigten Zyklen in den Figuren 4a und 5a schematisch dargestellt. Die Figuren 4b und 5b zeigen schematisch das Ausgangssignal von drei Kanälen einer Filterbank als Antwort auf die Klangwelle. Die drei Kanäle haben Mittenfrequenzen im Bereich der zweiten, vierten und achten Harmonischen der Klangwelle. Der erste Impuls in jedem Zyklus ist mit der Zyklusnummer bezeichnet und die Harmonischen sind an der linken Ecke der Figuren 4b und 5b gekennzeichnet. Die Zeitachsen sind in den Figuren 4a, 4b, 5a und 5b gleich.
  • Bezugnehmend auf die Darstellung der achten Harmonischen in Figur 4 wird das Ausgangssignal des Kanals in der Form eines Pulsstroms oder einer Wellenform in den Generator für stabilisierte Abbildungen über den Buffer (1) und separat in den Scheitelwertdetektor (2) eingegeben. Bei diesem Beispiel hat der Buffer (1) einen festgelegten Umfang von 20 ms und es gibt einen Zeitverzögerungsmechanismus, wobei der Scheitelwertdetektor (2) den Pulsstrom ungefähr 20 ms nachdem der Pulsstrom vom Buffer (1) anfangs empfangen wurde, erhält. Der Buffer (1) ist transparent und hält die jüngsten 20 ms des erhaltenen Pulsstromes. Der Scheitelwertdetektor (2) detek tiert größere Scheitelwerte in dem Pulsstrom und gibt ein Triggersignal an das Gatter (3) bei Detektion eines größeren Scheitelwertes aus. Wenn das Gatter (3) ein Triggersignal vom Scheitelwertdetektor (2) erhält, öffnet das Gatter (3), um zuzulassen, daß der Inhalt des Buffers (1) durch den ersten Eingang des Summierers (4) zu diesem Zeitpunkt gelesen wird. Sind die Inhalte des Buffers (1) durch den Summierer (4) gelesen worden, schließt das Gatter (3) und der Prozeß geht weiter bis ein weiteres Triggersignal von dem Scheitelwertdetektor (2) ausgegeben wird und das Gatter (3) wiederum öffnet usw.
  • Im Summierer (4) werden die durch den ersten Eingang des Summierers (4) gelesenen Inhalte des Buffers (1) zum Eingangspulsstrom des zweiten Eingangs des Summierers (4) addiert. Das Ausgangsslgnal des Summierers (4) stellt den resultierenden summierten Pulsstrom dar. Zu Anfang gibt es keinen dem Eingang des Summierers (4) zugeführten Pulsstrom und das Ausgangssignal des Summierers (4), das den summierten Pulsstrom darstellt, ist das gleiche wie der an dem ersten Eingang des Surnrnierers (4) von dem Buffer (1) erhaltene Pulsstrom. Jedoch ist der zweite Eingang des Summierers (4) mit dem Ausgang der Abkimgeinrichtung (6) gekoppelt und umgekehrt ist der Eingang der Abklingeinrichtung (6) mit dem Ausgang des Summierers (4) gekoppelt. Somit erhält der zweite Eingang des Summierers (4) nach einem anfänglichen Ausgangssignal vom Summierer (4) einen Eingangspulsstrom, der der gleiche ist wie das Ausgangssignal des Summierers (4), außer daß der Pulsstrom gedämpft worden ist.
  • Die Abklingeinrichtung (6) hat eine vorgegebene Dämpfung derart, daß sie langsam genug ist, damit die stabilisierte Abbildung eine sanfte Änderung erzeugt, wenn es einen sanften Übergang bei dem dem Buffer (1) zugeführten Pulsstrom gibt. Wenn jedoch die Periodizität des dem Buffer (1) zugeführten Pulsstroms gleich bleibt, wird die stabilisierte Abbildung für eine anfängliche Zeitdauer von beispielsweise 30 ms verstärkt und dann einer stabilen Form über eine ähnliche Zeitdauer angenähert derart, daß der dem ersten Eingang des Summierers (4) zugeführte Pulsstrom gleich ist dem Betrag des summierten Pulsstromes, der durch die Abklingeinrichtung (6) gedämpft wird. Die resultierende stabilisierte Abbildung hat einen höheren Grad an Kontrast im Vergleich zu dem dem Buffer zugeführten Pulsstrom. Wenn der Pulsstrom am ersten Eingang des Summierers (4) auf Null gesetzt wird addiert der Summierer (4) weiterhin die beiden Eingangssignale und die stabilisierte Abbildung klingt allmählich auch bis auf Null ab. Die vorgegebene Dämpfung ist proportional zum Logarithmus der Zeit seit der letzten Ausgabe eines Triggersignals durch den Scheitelwertdetektor (2). Die Ausgabe eines Triggersignals durch den Scheitelwertdetektor (2) kann von der Abklingeinrichtung (6) aufgrund ihrer Kopplung mit dem Scheitelwertde tektor (2) bemerkt werden, obgleich dies nicht notwendig ist.
  • Die Markierung "t" in Figur 4b bei ungefähr 20 ms zeigt den Detektionspunkt des Scheitelwertdetektors (2) In Bezug auf den durch den Buffer (1) erhaltenen Pulsstrom an. Die Inhalte des Buffers (1), die zu diesem Zeitpunkt festgehalten werden, sind der Pulsstrom, der zwischen der Markierung "t" und weiter rechts im Diagramm bei 0 ms erscheint. Die Ausschläge nach oben bei gewissen Scheitelwerten des Pulsstromes der achten Harmonischen zeigen vorhergehende detektierte Scheitelwerte an, für die Triggersignale durch den Scheitelwertdetektor (2) ausgegeben wurden. Figur 4c zeigt schematisch die Inhalte des Buffers (1), wenn das jüngste Triggersignal durch den Scheitelwertdetektor (2) ausgegeben wurde. Aus Figur 4b ist für die achte Harmonische ersichtlich, daß das vorangegangene Triggersignal im vierten Zyklus aufgetreten ist und in Figur 4c gezeigt wird. Fünfter und sechster Zyklus des Pulsstromes werden ebenfalls in dem Buffer (1) gehalten, wenn das Triggersignal ausgegeben wurde, was ebenfalls gezeigt ist.
  • Ein ähnlicher Prozeß wurde auf die vierte und zweite Harmonische angewendet, die jeweils in einem getrennten Generator für stabilisierten Abbildungen eingegeben worden sind. Figur 4c zeigt die Inhalte dreier Buffer für die drei Kanäle bei Ausgabe der jüngsten Triggersignale durch die korrespondierenden Scheitelwertdetektoren. Es ist ersichtlich, daß obwohl die ursprünglichen Ausgangssignale der Kanäle untereinander eine Phasennacheilung, die ein Charakteristikum der Kanalfilterbank ist, aufweisen, die drei Pulsströme in Figur 4c abgeglichen sind. Dies ergibt sich von selbst aus der Art und Weise, auf die der Generator für stabilisierte Abbildungen arbeitet, da die Inhalte der Buffer, die vom Summierer (4) gelesen werden, immer vom Scheitelwert aus gelesen werden. Dies geschieht deshalb, weil das Lesen der Inhalte des Buffers durch die Detektion eines Scheitelwertes durch den Scheitelwertdetektor initiiert wird. Was die Klanganalyse und im besonderen die Spracherkennung betrifft, hat sich gezeigt, daß das Ohr nicht zwischen Klangwellen, die die gleichen Harmonischen, aber unterschiedliche Phasen zwischen den Harmonischen aufweisen, unterscheiden kann. Demnach ist ein derartiger Abgleich der Pulsströme vorteilhaft. Die in Figur 4c gezeigten Pulsströme der achten, vierten und zweiten Harmonischen sind die Pulsströme, die in die ersten Eingänge der entsprechenden Summierer (4) eingespeist werden.
  • Figur 4d zeigt die stabilisierten Abbildungen oder Darstellungen einer jeden Harmonischen. Diese stabilisierte Abbildung ist das Ausgangssignal des Summierers (4) für jeden Kanal. Die stabilisierte Abbildung entstand durch Addition des aus dem Buffer (1) ausgelesenen jüngsten Pulsstroms mit der gedämpften stabilisierten Abbildung, die durch die aus den Buffer (1) ausgelesenen vorherigen Pulsströrne gebildet wird. Es ist ersichtlich, daß für die achte Harmonische ein besonders kleiner Scheitelwert in der stabilisierten Abbildung aufgetreten ist. Dies geschieht deshalb, weil der Scheitelwertdetektor nicht immer den größeren Scheitelwert im Pulsstrom detektiert. Wie in Figur 4b gezeigt, triggerte der Scheitelwertdetektor beim zweiten Zyklus des Pulsstroms bei einem kleineren Scheitelwert. Jedoch ist aus Figur 4d ersichtlich, daß selbst bei dieser Art des Fehlers die resultierende stabilisierte Abbildung eine sehr genaue Darstellung des von dem Kanal ausgegebenen Originalpulsstromes ist und daß solche Fehler schließlich nur kleinere Fehler in die stabilisierte Abbildung einbringen. In ähnlicher Weise wirken sich andere "Geräusch"-Effekte und kleinere Schwankungen im Impulsstrom des Kanals nicht substanziell auf die stabilisierte Abbildung aus. Allgemein gesprochen ruft die Wechselhaftigkeit beim Scheitelwertdetektor (2) eine kleinere Verbreiterung und Abflachung der stabilisierten Abbildung bezüglich des Originalpulsstromes hervor.
  • Die vom Summierer (4) ausgegebene stabilisierte Abbildung kann daraufhin einem Konturextraktor (7) zugeführt werden, obgleich dies nicht notwendig ist. Der Konturextraktor (7) integriert zeitlich über jedes der Ausgangssignale für stabilisierte Abbildungen, um eine Frequenzkontur zu bilden. Die geordneten Frequenzen dieser Konturen bilden ein Spektrogramm. Die Bildung eines Spektrogramms ist eine übliche Art der Analyse nicht sinusförmiger Wellenformen, jedoch wird durch Verzögern der Bildung des Spektrogramms bis nach der Bildung der stabilisierten Abbildung eine Menge an Geräusch und ungewollter Schwankung in der Information entfernt. Somit ist das nach der Bildung der stabilisierten Abbildung gebildete resultierende Spektrogramm eine viel klarere Darstellung als ein direkt aus den Ausgangssignalen der Kanäle der Filterbank gebildetes Spektrogramm.
  • Die Integrationszeit des Konturextraktors (7) kann im Bereich von zum Beispiel 20 ms bis 40 ms vorgegeben sein. Wenn eine vorgegebene Integrationszeit verwendet wird, dann sollte das Fenster, über das integriert wird, nicht rechteckig sein. Es sollte aber von links nach rechts über das Fenster hinweg abnehmen, da die stabilisierte Abbildung - wie später beschrieben wird - zu den rechten Ecken hin stärker wechselhaft ist. Vorzugsweise wird jedoch die Tonhöheninformation aus der stabilisierten Abbildung extrahiert, so daß die Integrationszeit durch eine oder zwei Zyklen der Wellenform gegeben sein kann und so die Integration auf die Tonhöhenperiode synchronisiert ist.
  • Der Buffer (1) hat, wenn er zur Erzeugung einer stabilisierten Abbildung verwendet wird, einen perfekten Speicher, der transparent ist derart, daß die in den Buffer (1) enthaltene Information nur die jüngsten 20 ms des erhaltenen Pulsstroms umfaßt. Die Informationsübertragung vom Buffer (1) zum ersten Eingang des Summierers (4) erfolgt darüber hinaus unmittelbar und bringt keinerlei Form von Degeneration der Information mit sich.
  • Alternativ ist es nicht notwendig für den Scheitelwertdetektor (2), bezüglich des Buffers (1) verzögert zu werden. Statt dessen kann der Scheitelwertdetektor (2) Scheitelwerte im Pulsstrom vom Filterkanal gleichzeitig zur Eingabe des Pulsstroms in den Buffer (4) detektieren. Bei Detektion eines Scheitelwerts wird der nachfolgende Pulsstrom für die nächsten 20 ms durch den ersten Eingang des Summierers (4) aus dem Buffer (1) ausgelesen. Andernfalls handelt der Generator für stabilisierte Abbildungen in gleicher Weise wie beim vorherigen Beispiel.
  • Bei einer weiteren Alternative wird der Buffer (1) nicht verwendet und stattdessen wird bei Detektion eines Scheitelwerts durch den Scheitelwertdetektor (2) das Gatter (3) geöffnet, um zuzulassen, daß der Pulsstrom aus dem Filterkanal direkt in den ersten Eingang des Summierers (4) eingegeben wird. Bei diesem weiteren Verfahren sind dann weitere Kanäle für den ersten Eingang des Summierers (4) erforderlich, wenn der Scheitelwertdetektor (2) ein Triggersignal innerhalb von 20 ms seit dem letzten Triggersignal ausgibt. Wenn beispielsweise der Scheitelwertdetektor (2) ein Triggersignal an das Gatter (3) ausgibt, öffnet das Gatter (3), so daß der Pulsstrom vom Kanalfilter in den ersten Eingang des Summierers (4) für die nächsten 20 ms eingegeben wird. Wenn der Scheitelwertdetektor (2) dann ein weiteres Triggersignal an das Gatter (3) ausgibt, 5 ms später, öffnet das Gatter (3) einen weiteren Kanal zum ersten Eingang des Summierers (4), so daß der Pulsstrom für die nächsten 20 ms in den Summierer (4) eingegeben werden kann. Information in Form von Zweipulsströmen wird deshalb parallel in den ersten Eingang des Summierers (4) eingegeben. Der Pulsstrom in jedem Kanal des ersten Eingangs des Summierers (4) wird durch den Summierer (4) mit dem Pulsstrom in irgendeinem anderen Kanal des ersten Eingangs des Summierers (4) zusammen mit dem von der Abklingeinrichtung (6) in den zweiten Eingang des Summierers (4) eingebenen Pulsstrom addiert.
  • Bei beiden der oben bezeichneten Beispiele können einzelne Scheitelwerte mehr als einmal zu der stabilisierten Abbildung an verschiedenen Stellen beitragen abhängig von der zeitlichen Distanz zwischen dem Scheitelwert und dem Scheitelwert, auf den hin das aufeinanderfolgende Triggern stattfindet. Dies erhöht die mittelwertbildenden oder verschmierenden Eigenschaften des Erzeugungsmechanismus für stabilisierte Abbildungen und erhöht die effektive Integrationszeit.
  • Ein weiteres Verfahren zur Erzeugung einer stabilisierten Abbildung ist in Figur 5 gezeigt. Bei diesem Verfahren wird der Pulsstrom vom Ausgang des Filterkanals direkt in den ersten Eingang des Summierers (4) eingegeben bei Detektion eines größeren Scheitelwertes durch den Scheitelwertdetektor (2) und Ausgabe eines Triggersignals durch den Scheitelwertdetektor (2). Kein Gebrauch wird bei diesem Verfahren von dem Buffer (1) gemacht. Anders als bei den vorherigen Beispielen wird anstelle des in Abschnitten von 20 ms bereitgestellten Pulsstromes vom Ausgang des Filterkanals der Pulsstrom dem Summierer (4) zugeführt bis ein weiteres Triggersignal durch den Scheitelwertdetektor (2) bei Detektion des nächsten größeren Scheitelwertes in dem Pulsstrom ausgegeben wird. Somit addiert der Summierer (4) nicht länger 20 ms-Abschnitte des Pulsstromes vom Filterkanal. Die Segmente des Pulsstromes, die aufaddiert werden, hängen unterschiedlich von der Zeitdauer seit dem letzten Triggersignal ab.
  • Somit ist aus Figur 5c ersichtlich, daß seit dem letzten Triggersignal gerade nur mehr als ein Zyklus für die achte Harmonische, fast zwei Zyklen für die vierte Harmonische und zwei Zyklen für die zweite Harmonische dem Summierer (4) zugeführt worden sind. Also ist die Abschnittszeitdauer bei diesem dritten Verfahren zum Zwecke der Integration reduziert. Darüber hinaus wird irgendein Scheitelwert im Pulsstrom nur einmal integriert anstelle von möglicherweise zweioder dreimal wie bei den vorherigen Beispielen. Figur 5b zeigt schematisch die resultierende stabilisierte Abbildung für jede Harmonische und wiederum ist ersichtlich, daß selbst wenn man Schwankungen bei der Ausgabe des Triggersignals durch den Scheitelwertdetektor (2) in Betracht zieht, die stabilisierten Abbildungen die Eigenschaften der Pulsströme von den Filterkanälen insgesamt behalten. Gemäß der zweiten Harmonischen in Figur 5d zeigt die Unstetigkeit im Scheitelwert bei 8 ms die fortschreitende Bildung der stabilisierten Abbildung. Demnach ist von 0 bis 8 ms in Figur 5d für die zweite Harmonische der jüngste Pulsstrom mit dem gedämpften Pulsstrom von der Abklingeinrichtung (6) addiert worden, wobei von 8 ms an die vorherige stabilisierte Abbildung gezeigt ist.
  • Die Pulsströme zur rechten Seite der stabilisierten Abbildung hin fallen steil ab, da die stabilisierte Abbildung auf der rechten Seite nicht notwendigerweise jedesmal mit Abschnitten eines jüngeren Pulsstromes addiert wird, wenn ein Trigger signal ausgegeben wird, da ein weiteres Triggersignal auftreten kann, bevor der Abschnitt groß genug ist, um die Integration der letzteren Hälfte der stabilisierten Abbildung zu bewirken.
  • Bei allen obigen Beispielen bleibt die durch den Generator für stabilisierte Abbildungen erzeugte stabilisierte Abbildung dann gleich und stationär, wenn die Wellenform vom Filterkanal gleich bleibt. Wenn die Wellenform vom Filterkanal sich ändert -wie in den Figuren 2 und 3, bei denen die Tonhöhe allmählich von einer ersten Tonhöhe zu einer zweiten, höheren Tonhöhe gleitet, gezeigt ist-, dann erzeugt die stabilisierte Abbildung einen sanften Übergang von der ersten Tonhöhe zu der zweiten Tonhöhe entsprechend den Änderungen in der Wellenform. Somit behält die stabilisierte Abbildung Information über die Hauptcharakteristika der Wellenform, die sie repräsentiert, und vermeidet einen substanziellen Verlust an Information über die Wellenform selbst, vermeidet aber eine solche Zwischenbildveränderlichkeit, welche die nachfolgende Analyse der Wellenform stören und erschweren könnte.
  • Die oben bezeichneten Vorrichtungen und Verfahren, die zur Unterscheidung zwischen periodischen und aperiodischen Klangsignalen verwendet werden können, sind insbesondere bei Spracherkennungssystemen anwendbar. Durch Ihre Verwendung kann die Effektivität, mit der Spracheigenschaften aus einer akustischen Wellenform extrahiert werden können, derart verbessert werden, daß Spracherkennung selbst beispielsweise bei Kleincomputern und Diktiermaschinen verwendet werden kann, so daß ein Benutzer Befehle, Programme und Text direkt durch das gesprochene Wort ohne die Notwendigkeit einer Tastatur eingeben kann. Eine Spracherkennungsmaschine ist ein System zum Erfassen von Sprache aus der Umgebung und zum Erzeugen einer geordneten Aufzeichnung der von der akustischen Welle getragenen Wörter. Die Hauptkomponenten einer derartigen Einrichtung sind: 1) Eine Filterbank, die die akustische Welle in Frequenzkanäle aufteilt, 2) ein Satz von Einrichtungen, die die Information in den Frequenzkanälen verarbeiten, um die Tonhöhe und andere Spracheigenschaften zu extrahieren, und 3) ein Linguistikprozessor, der die Eigenschaften in Verbindung mit linguistischem und möglicherweise semantischem Wissen analysiert, um zu bestimmen, was ursprünglich gesagt wurde.
  • In Figur 6a ist ein schematisches Diagramm eines Spracherkennungssystems gezeigt. Es ist ersichtlich, daß die Erzeugung der stabilisierten Abbildung der akustischen Welle ungefähr auf halbem Wege im zweiten Abschnitt des Spracherkennungssystems, wo die Analyse der Klänge stattfindet, erfolgt. Die resultierende Information wird daraufhin dem Linguistikprozessorabschnitt des Spracherkennungssystems zugeführt.
  • Die wichtigsten Teile von Sprache für Spracherkennungszwecke sind die stimmhaften Teile von Sprache, insbesondere die Vokalklänge. Die stimmhaften Klänge werden erzeugt durch die Vibration der Luftsäule im Rachen und im Mund durch Öffnen und Schließen der Stimmbänder. Die resultierenden stimmhaften Klänge sind periodischer Natur. Die Tonhöhe des Klangs ist die Frequenz der Stimmritzenanschläge. Jeder Vokalklang hat auch eine unterscheidbare Anordnung von vier Formanten, welche dominante modulierte Harmonische der Tonhöhe des Vokalklangs sind. Die relativen Frequenzen der vier Formanten sind nicht nur charakteristisch für den Vokalklang selbst, sondern sind auch charakteristisch für den Sprecher. Für ein wirkungsvolles Spracherkennungssystem ist es notwendig, daß ebenso viel Information über die Tonhöhe und die Formanten der stimmhaften Klänge zurückgehalten wird, während auch sichergestellt wird, daß andere "Geräusche" nicht mit der klaren Erkennung von Tonhöhe und Formanten interferieren.
  • Eine Integration der Klanginformation ist nicht nur wichtig für die Analyse des Klangs selbst, sondern ist auch notwendig, so daß die Ausgangsdatenrate nicht zu hoch ist, um ein Echtzeitsprachverarbeitungssystem zu unterstützen. Jedoch gibt es eine Anzahl von Problemen, die auftreten, wenn der Versuch gemacht wird, die optimale Integrationszeit für ein herkömmliches Sprachsystem, das entweder die Sprachwelle selbst oder die Filterbankausgänge in eine Sequenz von Beispielen allesamt von gleicher Dauer zerlegt, auszuwählen. Im allgemeinen ist es erforderlich, daß die Integrationszeit so lange wie möglich ist, da längere Integrationszeiten die Ausgangsdatenrate und die Zwischenbildveränderlichkeit in der Ausgangssignalaufzeichnung reduzieren. Diese beiden Reduktionen reduzieren umgekehrt den Umfang der erforderlichen Berechnungen, um Spracheigenschaften oder Sprachereignisse aus der Ausgangssignalaufzeichnung zu extrahieren, vorausgesetzt die Aufzeichnung enthält die wesentliche Information. Gleichzeitig ist es wichtig, die für die Analyse der Sprachcharakteristika erforderliche zeitliche Hörschärfe zu erhalten. Es ist wichtig, die Integrationszeit nicht so lange zu machen, daß sie das Ende des einen Sprachereignisses mit dem Beginn des nächsten kombiniert und so einen Ausgangsvektor mit Durchschnittswerten, die für keines der beiden Ereignisse charakteristisch sind, erzeugt. Ebenso wird eine zu lange Integrationszeit die Bewegung der Spracheigenschaften verdecken, da der Ausgangsvektor all die Energie in einem Frequenzband zu einer einzigen Zahl aufsummiert und die Tatsache, daß die Frequenz sich während des Intervalls geändert hat, verloren geht. Somit muß die Integrationszeit kurz genug sein, daß sie weder Sprachereignisse miteinander kombiniert noch die Bewegung der Sprachereignisse verdeckt. Es besteht ein zusätzliches Risiko, daß bei welcher Integrationszeit auch immer durch Verwendung einer festen Integrationszeit im Falle, daß die Tonhöhe des Klangereignisses und die Integrationszeit differieren, die Ausgangssignalaufzeichnung eine Zwischenbildveränderlichkeit enthält, die nicht charakten stisch ist für die Sprache selbst, sondern eine Veränderlichkeit ist, die durch die Interaktion des Klangereignisses mit der Analyseintegrationszeit erzeugt wird. Somit werden durch die Verwendung einer -wie oben vorgeschlagen- variablen, getriggerten Integrationszeit diese Probleme insbesondere in Bezug auf Spracherkennungssysteme vermieden.
  • Figur 6 zeigt schematisch ein Spracherkennungssystem, das eine Bank aus oben beschriebenen Generatoren für stabilisierte Abbildungen enthält und bei dem die Generatoren für stabilisierten Abbildungen eine getriggerte Integration der Eingangsinformation des zu analysierenden Klangs ausführen. Das Spracherkennungssystem erhält eine Sprachwelle (8), die in eine Bank aus Bandpaßkanalfiltern (9) eingegeben wird. Die Bank aus Bandpaßkanalfiltern (9) umfaßt 24 Frequenzkanäle, die von einer tiefen Frequenz bei 100 Hz bis zu einer hohen Frequenz bei 3700 Hz variieren. Selbstverständlich könnten auch Mehrkanalfilter über einen weiteren oder engeren Frequenzbereich verwendet werden. Die Signale aller dieser Kanäle werden dann in eine Bank aus adaptiven Schwellwerteinrichtungen (10) eingegeben. Diese adaptive Schwellwertvorrichtung (10) komprimiert die Eingangsinformation und richtet sie gleich und dient auch dazu, charakteristische Eigenschaften der Eingangsinformation zu schärfen und "Geräusch-Effekte zu reduzieren. Das in jedem Kanal durch die adaptive Schwellwertvorrichtung (10) erzeugte Ausgangssignal umfaßt Information über die Bildung größerer Schwellenwerte in der von jedem der Filterkanäle der Bank (9) übertragenen Wellenform. Die Information wird dann in eine Bank aus Generatoren (11) für stabilisierte Abbildungen eingespeist. Die Generatoren für stabilisierte Abbildungen adaptieren die ankommende Information durch getriggerte Integration der Information in Form von Pulsströmen, um stabilisierte Darstellungen oder Abbildungen des Eingangspulsstromes zu erzeugen. Die stabilisierten Abbildungen der Pulsströme werden dann in eine Bank aus Spiralperiodizitätsdetektoren (12) eingegeben, welche die Periodizität in der eingegebenen stabilisierten Abbildung detektieren und diese Information in den Tonhöhenextraktor (13) einspeisen. Der Tonhöhenextraktor (13) stellt die Tonhöhe der Sprachwelle (8) fest und gibt diese Information in einen Höreigenschaftsextraktor (15) ein.
  • Die Bank aus Generatoren (11) für stabilisierte Abbildungen gibt auch in einen Timbreextraktor (14) ein. Der Timbreextraktor (14) gibt auch Information bezüglich des Timbre der Sprachwelle (8) in den Höreigenschaftsextraktor (15) ein. Zudem kann die Bank aus adaptiven Schwellenwerteinrichtungen (10) Information direkt in den Extraktor (15) eingeben. Der Höreigenschaftsextraktor (15), ein Syntaktikprozessor (16) und ein Semantikprozessor (17) stellen jeweils Eingangssignale für einen Linguistikprozessor (18) bereit, der umgekehrt ein Ausgangssignal (19) in Form einer geordneten Aufzeichnung von Wörtern bereitstellt.
  • Der Tonhöhenextraktor (13) kann auch dazu verwendet werden, Information bezüglich der Tonhöhe der Sprachwelle zurück in den Konturextraktor (7) einzugeben, damit die Integration der stabilisierten Abbildungen der Wellenform in jedem der Kanäle als Reaktion auf die Tonhöhe der Sprachwelle und nicht zu einem vorgegebenen Zeitintervall ausgeführt wird.
  • Der Spiralperiodizitätsdetektor (12) ist in der GB 21 69 719 beschrieben und soll hier nicht weiter behandelt werden. Der Höreigenschaftsextraktor (15) kann eine Speichereinrichtung enthalten, die Schablonen verschiedener Timbrefelder bereitstellt. Er erhält auch einen Hinweis auf irgendwelche von dem Tonhöhenextraktor (13) detektierte periodische Eigenschaften.
  • Bevorzugt haben die Eingangssignale für den Höreigenschaftsextraktor (15) eine spektrale Dimension und so kann der Eigenschaftsextraktor Vokalunterscheidungen auf der Basis von Formantinformation wie irgendein anderes Sprachsystem vornehmen. Ebenso kann der Eigenschaftsextraktor zwischen Frikativen wie /f/ und /s/ auf einer quasispektralen Basis unterscheiden. Einer der Vorteile der vorliegenden Anordnung ist, daß zeitliche Information in den Frequenzkanälen zurückbehalten wird, wenn integriert wird.
  • Der Linguistikprozessor (18) erhält sowohl ein Eingangssignal vom Höreigenschaftsextraktor (15) als auch ein Eingangssignal vom Syntaktikprozessor (16), welcher Sprachregeln speichert und Beschränkungen auferlegt, um bei der Vermeidung von Mehrdeutigkeit zu helfen. Der Prozessor (18) erhält auch ein Eingangssignal vom Semantikprozessor (17), welcher Beschränkungen abhängig vom Kontext auferlegt, um bei der Festlegung besonderer vom Kontext abhängiger Interpretationen zu helfen.
  • Bei dem obigen Beispiel können die Einheiten (10), (11), (12), (13) und (14) jeweils eine programmierte Recheneinrichtung aufweisen, die zur Bearbeitung von Pulssignalen gemäß dem Programm ausgebildet ist. Der Eigenschaftsextraktor (15) sowie die Prozessoren (16), (17), (18) und (19) können jeweils einen programmierten Rechner aufweisen oder Innerhalb eines programmierten Rechners mit Speichermitteln zum Speichern beliebiger gewünschter syntaktischer oder semantischer Regeln und Schablonen zur Verwendung bei der Timbreextraktion bereitgestellt werden.

Claims (19)

1. Verfahren zum Erzeugen einer stabilisierten Abbildung einer Wellenform, bei dem Scheitelwerte der Wellenform detektiert werden, als Reaktion auf das Detektieren der Scheitelwerte aufeinanderfolgende zeitlich erstreckte Abschnitte der Wellenform abgetastet werden und ein Summationsausgangssignal gebildet wird durch Addition erster Signale, die jeden aufeinanderfolgenden Abschnitt repräsentieren, mit zweiten Signalen, die ein durch vorherige Abschnitte der Wellenform gebildetes Summationsausgangssignal repräsentieren, wobei das Summationsausgangssignal eine stabilisierte Abbildung der Wellenform bildet.
2. Verfahren nach Anspruch 1, bei dem das Summationsausgangssignal mittels einer zeitabhängigen Dämpfung verringert wird zur Erzeugung des gedämpften Summationsausgangssignal.
3. Verfahren nach Anspruch 2, bei dem die zeitabhängige Dämpfung proportional ist zur Zeit zwischen aufeinanderfolgenden Abtastungen zeitlich erstreckter Abschnitte der Wellenform.
4. Verfahren nach Anspruch 1, bei dem eine erste Grenze der zeitlich erstreckten Abschnitte der Wellenform durch die Detektion von Scheitelwerten in der Wellenform bestimmt wird.
5. Verfahren nach Anspruch 4, bei dem eine zweite Grenze der zeitlich erstreckten Abschnitte der Wellenform eine vorbestimmte Zeitspanne nach der ersten Grenze der zeitlich erstreckten Abschnitte der Wellenform ist.
6. Verfahren nach Anspruch 4, bei dem eine zweite Grenze der zeitlich erstreckten Abschnitte der Wellenform durch die Detektion von Scheitelwerten in der Wellenform bestimmt wird.
7. Verfahren nach Anspruch 1 zur Analyse einer nichtsinusförmigen Klangwelle, bei dem ferner ein spektrales Auflösen der Klangwelle in eine Vielzahl gefilteter Wellenformen vorgesehen ist, von denen jede selbständig eine stabilisierte Abbildung gemäß dem Verfahren nach Anspruch 1 erzeugt.
8. Verfahren nach Anspruch 7, bei dem Pulsströme erzeugt werden, die die Hauptscheitelwerte bei jeder der gefilterten Wellenformen repräsentieren.
9. Verfahren nach Anspruch 7, bei dem ferner eine zeitliche Integration einer jeden der stabilisierten Abbildungen der gefilterten Wellenformen zur Bildung einer stabilisierten Frequenzkontur über alle Kanäle der gefilterten Wellenformen vorgesehen ist.
10. Verfahren nach Anspruch 7, bei dem ferner die Extraktion periodischer Charakteristika der Klangwelle vorgesehen ist.
11. Verfahren nach Anspruch 7, bei dem ferner die Extraktion von Timbre-Charakteristika der Klangwelle vorgesehen ist.
12. Vorrichtung zum Erzeugen einer stabilisierten Abbildung einer Wellenform mit (a) einem Scheitelwertdetektoü (2) zum Empfangen und Detektieren von Scheitelwerten in der Wellenform, (b) Mitteln (3) zum Abtasten aufeinanderfolgender zeitlich erstreckter Abschnitte der Wellenform, wobei die Abtastmittel mit dem Scheitelwertdetektor (2) gekoppelt sind, (c) Summiermitteln (4), um erste Signale, die jeden aufeinanderfolgenden zeitlich erstreckten Abschnitt repräsentieren, mit zweiten Signalen ein Summationsausgangssignal bildend zu addieren, wobei die zweiten Signale ein gedämpftes Summationsausgangssignal repräsentieren und die Summiermittel (4) mit den Abtastmitteln (3) gekoppelt sind, und (d) Rückkopplungsmitteln (6), um das Summationsausgangssignal zum Zwecke der Herleitung der zweiten Signale aus dem Summationsausgangssignal zu dämpfen, wobei die Rückkopplungsmittel mit den Summiermitteln (4) gekoppelt sind und das Summationsausgangssignal eine stabilisierte Abbildung der Wellenform bildet.
13. Vorrichtung nach Anspruch 12, bei der die Abtastmittel (3) mit dem Scheitelwertdetektor (2) sowie den Summiermitteln (4) gekoppelte Gattermittel (3) enthalten und die zeitlich erstreckten Abschnitte der Wellenform mittels der Gattermittel (3) abgetastet werden als Reaktion auf das Detektieren von Scheitelwerten durch den Scheitelwertdetektor (2).
14. Vorrichtung nach Anspruch 12, bei der ferner ein mit den Abtastmitteln (3) gekoppelter Buffer zum Empfang der Wellenform und zum Halten einer Aufzeichnung der zeitlich erstreckten Abschnitte der Wellenform vorgesehen ist.
15. Vorrichtung nach Anspruch 12 zur Analyse einer nichtsinusförmigen Klangwelle, die ferner Filtermittel (9) zur spektralen Auflösung der Klangwelle in eine Vielzahl gefilteter Wellenformen zusammen mit Mitteln (11) zum Erzeugen einer stabilisierten Abbildung einer jeden der gefilterten Wellenformen gemäß Anspruch 12 aufweist.
16. Vorrichtung nach Anspruch 15, bei der ferner Mittel zur Bildung eines die Hauptscheitelwerte bei jeder der gefilterten Wellenformen repräsentierenden Pulsstromes vorgesehen sind.
17. Vorrichtung nach Anspruch 15, bei der ferner Periodizitätsdetektoren (12) vorgesehen sind, die zur Detektion und Extraktion von Information betreffend periodische Charakteristika der zur analysierenden Klangwelle vorbereitet sind.
18. Vorrichtung nach Anspruch 15, bei der ferner ein Timbre- Extraktor (14) zur Extraktion von Information aus den Pulsströmen betreffend das Timbre der zu analysierenden Klangwelle vorgesehen ist.
19. Spracherkennungsvorrichtung enthaltend Vorrichtung(en) gemäß Anspruch 12 zusammen mit Mitteln (15) zur Bereitstellung einer Höreigenschaftsextraktion aus der Analyse der gefilterten Wellenformen zusammen mit syntaktischen (16) und semantischen (17) Prozessormitteln, die syntaktische und semantische Grenzwerte zur Verwendung bei der Spracherkennung der Klangwelle bereitstellen.
DE69025932T 1989-05-18 1990-05-17 Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen Expired - Fee Related DE69025932T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8911374A GB2232801B (en) 1989-05-18 1989-05-18 Apparatus and methods for the generation of stabilised images from waveforms
PCT/GB1990/000767 WO1990014656A1 (en) 1989-05-18 1990-05-17 Apparatus and methods for the generation of stabilised images from waveforms

Publications (2)

Publication Number Publication Date
DE69025932D1 DE69025932D1 (de) 1996-04-18
DE69025932T2 true DE69025932T2 (de) 1996-09-19

Family

ID=10656926

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69025932T Expired - Fee Related DE69025932T2 (de) 1989-05-18 1990-05-17 Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen

Country Status (7)

Country Link
US (1) US5422977A (de)
EP (1) EP0472578B1 (de)
JP (1) JPH04505369A (de)
AT (1) ATE135485T1 (de)
DE (1) DE69025932T2 (de)
GB (1) GB2232801B (de)
WO (1) WO1990014656A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
US6112169A (en) * 1996-11-07 2000-08-29 Creative Technology, Ltd. System for fourier transform-based modification of audio
US6055053A (en) 1997-06-02 2000-04-25 Stress Photonics, Inc. Full field photoelastic stress analysis
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
EP1024435A1 (de) 1999-01-28 2000-08-02 Atr Human Information Processing Research Laboratories Ein Mellin Transformations-/ Informations-Extraktor für Schwingungsquellen
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
CH695402A5 (de) * 2000-04-14 2006-04-28 Creaholic Sa Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal.
US7346172B1 (en) 2001-03-28 2008-03-18 The United States Of America As Represented By The United States National Aeronautics And Space Administration Auditory alert systems with enhanced detectability
EP1652171B1 (de) * 2003-08-06 2009-02-11 LEONHARD, Frank Uldall Verfahren zur analyse von impulsen enthaltenden signalen
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2181265A (en) * 1937-08-25 1939-11-28 Bell Telephone Labor Inc Signaling system
NL291827A (de) * 1961-03-17
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US4802225A (en) * 1985-01-02 1989-01-31 Medical Research Council Analysis of non-sinusoidal waveforms
JPH065451B2 (ja) * 1986-12-22 1994-01-19 株式会社河合楽器製作所 発音訓練装置

Also Published As

Publication number Publication date
EP0472578B1 (de) 1996-03-13
GB2232801B (en) 1993-12-22
ATE135485T1 (de) 1996-03-15
DE69025932D1 (de) 1996-04-18
US5422977A (en) 1995-06-06
JPH04505369A (ja) 1992-09-17
EP0472578A1 (de) 1992-03-04
GB8911374D0 (en) 1989-07-05
WO1990014656A1 (en) 1990-11-29
GB2232801A (en) 1990-12-19

Similar Documents

Publication Publication Date Title
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69513919T2 (de) Sprachanalyse
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69132645T2 (de) Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE112009000805B4 (de) Rauschreduktion
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE60023517T2 (de) Klassifizierung von schallquellen
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2659096C2 (de)
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2608569A1 (de) Einrichtung zum feststellen von wortgrenzen fuer spracherkennungseinrichtungen
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE69020736T2 (de) Wellenanalyse.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee