DE69700087T2

DE69700087T2 - Gerät und Verfahren zur Signalanalyse

Info

Publication number: DE69700087T2
Application number: DE69700087T
Authority: DE
Inventors: Hideki Oaza Inuidani Seka-Cho Soraku-Gun Kyoto Kawahara
Original assignee: ATR Human Information Processing Research Laboratories Co Inc
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 1997-01-14
Filing date: 1997-07-02
Publication date: 1999-07-15
Anticipated expiration: 2017-07-03
Also published as: JP3112654B2; DE69700087D1; JPH10197575A; EP0853309B1; CA2209417C; CA2209417A1; US6014617A; DK0853309T3; EP0853309A1

Description

HINTERGRUND DER ERFINDUNG

Gebiet der Erfindung

Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein Gerät zur Signalanalyse. Genauer, die vorliegende Erfindung bezieht sich auf ein Verfahren und ein Gerät zur Signalanalyse, die nicht nur in dem sprachbezogenen Gebiet wie Extrahierung einer Fundamentalfrequenz zur Sprachanalyse und Synthese benutzt wird, sondern auch auf das Gebiet der Extrahierung von Periodizität von biologischen Signalen und Diagnose von Maschinenvibration, zum Extrahierung einer Fundamentalfrequenz von periodischen Signalen und fastperiodischen Signalen.

Beschreibung der Hintergrundstechnik

Es ist wünschenswert, richtig eine Fundamentalfrequenz eines periodischen Signales auf dem Gebiet der Sprachanalyse zum Beispiel zu finden. Es ist jedoch ein befriedigendes Verfahren noch nicht gefunden worden. Bei einem herkömmlichen Verfahren wird auf der Grundlage einer Definition eines periodischen Signales eine unten definierte Periode T gefunden, deren Reziprokwert als die Fundamentalfrequenz betrachtet wird. Hier ist p(t) das zu analysierende periodische Signal, und n Z ist eine willkürliche ganze Zahl.
p(t) = p(t + nT) ... (1)
Ein herkömmliches Verfahren zum Erhalten der Periode eines solchen Signales enthält ein Zeitdomänenverfahren, ein Fre quenzdomänenverfahren, ein Autokorrelationsdomänenverfahren und ein Verfahren zum Untersuchen von Wellenformsingularitäten. Jedes dieser Verfahren verursacht einige Probleme, wenn es auf tatsächliche Audiosignale angewendet wird, und folglich ist es allgemein geglaubt worden, daß es kein allgemein anwendbares Universalverfahren gibt.
In dem Zeitdomänenverfahren ( ) wird zum Beispiel eine Wellenform durch eine nicht-lineare Schaltung und dann durch ein Tiefpaßfilter gegeben, was von der Extrahierung eines Nulldurchgangspunktes oder Extrahierung einer Scheitelposition zum Erkennen der Periode gefolgt wird. Bei solche einem Verfahren ist, selbst wenn die Periode ungefähr zuvor bekannt ist, viel Einstellung einschließlich eines Einstellens der Frequenz des Tiefpaßfilters oder der nicht-linearen Schaltung, des Verfahrens des Erfassens des Scheitels usw. und des Fehlers, der von der Differenz des Signalpegels oder der Spektralform abgeleitet wird, unausweichlich gewesen.
Ein Repräsentatives des Frequenzdomänenverfahrens ( ) ist es, einen Scheitel eines Cepstrums zu extrahieren, das als eine Fourier-Transformierte eines logarithmischen Leistungsspektrums definiert ist. Gemäß diesem Verfahren wird, wenn die Periodizität perfekt ist, die richtige Periode im Prinzip erhalten. Für die Signale wie Sprachsignal, das ungefähr periodisch ist, aber eine Variation bei jeder Periode aufweist, benötigt das Verfahren jedoch know-how zum Verhindern verschiedener Fehler wie niedriger Scheitel, fehlerhafte Extrahierung von Scheiteln, die durch Resonanz wie Sprachformant verursacht wird, oder fehlerhaftes Erfassen zweier Perioden als einer.
Ein anderes Problem, das mit dem Verfahren der unten beschriebenen Autokorrelation gemeinsam ist, daß es notwendig ist, die Zeitlänge des für die Analyse benötigten Signale zu vergrößern, wenn die Periode genau zu berechnen ist, und daß das Verfahren keiner Zeitänderung folgen kann, wenn die Zeitänderung wie in dem Fall einer Sprache schnell ist, und wenn weiter das Zeitfenster ausreichend kurz zum Folgen der Änderung gemacht wird, kann die Periodizität nicht richtig extrahiert werden.
Ein Verfahren auf der Grundlage der Autokorrelation ( ) normalisiert die detaillierte Leistungsspektrumsform gemäß einer globalen Leistungsspektrumsform unter Benutzung von Zeitfenstern verschiedener Länge, die modifizierte Autokorrelation wird durch die inverse Fouriertransformierte berechnet, und die Signalperiode wird als die Position ihres Scheitels berechnet. Wie jedoch in bezug auf das Cepstrum oben ausgeführt wurde, leidet dieses Verfahren unter ähnlichen Problemen, die sich damit befassen, wie mit schnell ändernde Periode fertig zu werden ist, und wo die globale Form von der detaillierten Form zu unterscheiden ist.
Ein Verfahren ist vorgeschlagen worden, das unter Berücksichtigung der Tatsache, daß der Einfluß der globalen Spektrumsform von einem Restsignal entfernt ist, das als ein Resultat einer linearen Vorhersageanalyse erhalten wird, die Fundamentalfrequenz aus der Autokorrelation des Restsignales berechnet. Dieses Verfahren leidet jedoch auch unter dem ähnlichen Problem für schnell ändernde Signale.
Ein Verfahren zum Untersuchen von Wellenformsingularität ( ) nimmt an, daß ein periodisches Signal periodisch durch ein Ereignis getrieben wird, das die Periodizität verursacht, so daß bei diesem Verfahren die Position des Ereignisses zum Extrahieren der Basisperiode und zum Finden der Basisfrequenz berechnet wird. Es gibt auch ein Verfahren, das die Phase einer Wavelettransformation als Mittel dafür bemerkt, was ein relativ neues Verfahren der Signalanalyse ist. Bei diesem Verfahren ist es jedoch auch unklar, welches Wavelet zu benutzen ist, und welches der erfaßten Signale zum Extrahieren der Fundamentalperiode als Hauptereignis zu benutzen ist.
Wegen dieser prinzipiellen Schwierigkeiten gemäß den herkömmlichen Verfahren kann ein Bruchteil einer ganzen Zahl oder ein ganzzahliges Vielfaches eines geschätzten Wertes der Basisfrequenz möglicherweise fehlerhafterweise als die Fundamentalfrequenz geschätzt werden.
Das US-Patent 5 214 708 offenbart die Benutzung der Ausgangssignale einer Filterbank zum Berechnen der Fundamentalfrequenz.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein Gerät zur Signalanalyse vorzusehen, das richtig die Fundamentalfrequenz eines periodischen Signales extrahieren kann, in dem benutzt wird, daß die augenblickliche Frequenz einer bestimmten Komponente des Signales mit der Fundamentalfrequenz zusammenfällt.
Kurz gesagt, die vorliegende Erfindung bezieht sich auf ein Verfahren zu Signalanalyse zum Extrahieren einer Fundamentalfrequenz eines Eingangssignals mit einem ersten Schritt des Berechnens unter Benutzung einer Gruppe von Filtern, die solch eine Abschneidecharakteristik haben, daß sie moderat auf der Niederfrequenzseite und steil auf der Hochfrequenzseite ist, eines Stabilitätsindex, der ein mathematischer Index ist, der Fundamentalheit der Fundamentalkomponente des Eingangssignales darstellt, für jede Filterausgabe als augenblickliche Frequenz unter Benutzung einer Filterausgabe, von der der Stabilitätsindex den Maximalwert vorsieht.
Daher wird gemäß der vorliegenden Erfindung der mathematische Index, der die Fundamentalheit der Fundamentalkomponente des Eingangssignales darstellt, zum Auswählen eines Filters berechnet, das die maximale Fundamentalheit aufweist, und die Fundamentalfrequenz als die augenblickliche Frequenz kann unter Benutzung eines Filters extrahiert werden, daß die oben beschriebene spezielle Form aufweist. Indem nach der Fundamentalkomponente durch dieses Verfahren gesucht wird, die in einem willkürlichen Signal enthalten ist, ist es möglich, eine Abnormalität aus dem Geräusch einer mechanischen Vorrichtung zu diagnostizieren und Periodizität eines biologischen Signales zu analysieren, und somit ist die vorliegende Erfindung auf verschiedenen Gebieten anwendbar. Weiter ermöglicht auf einem Gebiet des Amüsierens die vorliegende Erfindung das richtige Extrahieren einer Singhöhe. Daher ist die vorliegende Erfindung auf eine weite Vielfachheit von Gebieten einschließlich automatischer Musikumschreibung, Rundfunk oder Herstellung von Compaktdisks anwendbar.
Speziell bei einem typischen Einsatz enthält der erste Schritt den Schritt des Berechnens der Größe der Amplitudenmodulation und der Größe der Frequenzmodulation eines Filterausgangssignales unter Benutzung eines Filters, daß solch eine Abschneidecharakteristik hat, die moderat auf der Niederfrequenzseite und steil auf der Hochfrequenzseite ist.
Der zweite Schritt enthält den Schritt des Berechnens eines Stabilitätsindex auf der Grundlage der Größe der Amplitudenmodulation und der Größe der Frequenzmodulation und des Berechnens eines Annäherungswerte der Fundamentalfrequenz als augenblickliche Frequenz aus einem Ausgang eines Kanales, der maximale Stabilität zeigt, auf der Grundlage des Resultates der Berechnung des Stabilitätsindex.
Bei einer bevorzugteren Ausführungsform enthält der zweite Schritt den Schritt des Extrahierens der genauen augenblicklichen Frequenz durch Interpolieren eines Wertes einer augenblick lichen Frequenz aus einem benachbarten Frequenzkanal auf der Grundlage des angenäherten Wertes der Fundamentalfrequenz. Die weiteren und anderen Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den begleitenden Zeichnungen genommen wird.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockschaltbild des Gerätes des Extrahierens der Fundamentalfrequenz gemäß der ersten Ausführungsform der vorliegenden Erfindung.
Fig. 2 ist spezielles Blockschaltbild eines Berechnungsabschnittes des Stabilitätsindex und eines Extrahierungsabschnittes der Fundamentalfrequenz, die in Fig. 1 gezeigt sind.
Fig. 3 zeigt die Zeitwellenformen von cos, sin und cos² + sin² eines Gabor-Filters.
Fig. 4 zeigt die Frequenzantwort des Gabor-Filters.
Fig. 5 zeigt Zeitwellenformen von cos, sin und cos² + sin² eines alternierenden Gabor-Filters, bei dem der Einfluß der zweiten Harmonischen entfernt ist.
Fig. 6 zeigt die Frequenzantwort des in Fig. 5 gezeigten Gabor-Filters.
Fig. 7 ist ein dreidimensionales Diagramm des Stabilitätsindex.
Fig. 8 zeigt das Einstellen der Gewichte zum Einführen der Kenntnis der harmonischen Struktur und des Wissens der Stimmbandvibration in den Stabilitätsindex.
Fig. 9A-9F sind Bilder von Wellenformen, die ein Resultat einer tatsächlichen Sprachwellenformanalyse zeigen.
Fig. 10 ist ein Blockschaltbild, das eine andere Ausführungsform der vorliegenden Erfindung zeigt.
Fig. 11 ist ein Blockschaltbild, das eine noch andere Ausführungsform der vorliegenden Erfindung zeigt.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Vor der Beschreibung der Ausführungsformen wird das Prinzip der vorliegenden Erfindung beschrieben. Herkömmliche Tonlagenextrahierungsverfahren haben versagt, und da diese Verfahren versuchten, direkt die Fundamentalfrequenz aus der Definition eines periodischen Signales zu erhalten. Bei der vorliegenden Erfindung wird die augenblickliche Winkelfrequenz ω(t), die durch die folgenden Gleichungen definiert ist, in bezug auf die Fundamentalkomponente eines fast periodischen Signales s(t) berechnet.
Hier stellt H die Hilbert-Transformierte eines Signales dar. Hilbert-Transformierte sehen ein Signal durch Drehen der Phase der harmonischen Komponente eines Signales um 90º vor. Die augenblickliche Frequenz f(t) wird gemäß der Gleichung f(t) = ω(t)/2π berechnet.
Ein fast periodischer komplexer Ton c(t) wie Sprache kann unter Benutzung der augenblicklichen Frequenz gemäß der folgenden Gleichung (4) dargestellt werden.
Hier stellt αk(t) und φk(t) die Amplitudenmodulations- (AM)Komponente der harmonischen Struktur bzw. die Kleinphasenmodulations-(PM)Komponente dar. Der Hauptteil oder die Mehrheit der Frequenzmodulation (FM) wird durch eine Änderung ω(t) erzeugt. Hier gilt durch geeignetes Einstellen des Zeitnullpunktes die folgende Diskussion, selbst wenn φ&sub1;(t) auf 0 gesetzt ist. N stellt die Menge der natürlichen Zahlen dar. Wenn daher nur eine Fundamentalkomponente vorgesehen wird, würde die gemäß der Gleichung (2) berechnete augenblickliche Frequenz die gleiche wie die Fundamentalfrequenz sein.
Die Beziehung zwischen der auf diese Weise definierten augenblicklichen Frequenz und der gemäß dem herkömmlichen Verfahren berechneten Fundamentalfrequenz wird kurz beschrieben. Es sei angenommen, daß αk(t) und φk(t) zufällig verteilt sind und der Mittelwert 0 ist, der geschätzte Wert der durch das Korrelationsverfahren oder ähnliches berechneten Fundamentalfrequenz ist gleich dem Mittelwert der augenblicklichen Frequenz über eine lange Zeitdauer. Für ein periodisches Signal sind diese im wesentlichen äquivalent. Für ein fast periodisches Signal wird der richtige Wert nur erhalten durch das Verfahren, das auf der augenblicklichen Frequenz beruht und keinen Extraschritt des Mittelns beinhaltet.
Wie oben beschrieben wurde, weist die augenblickliche Frequenz der Fundamentalwelle überlegene Charakteristik auf. Es ist jedoch nicht benutzt worden wegen des Problemes, wie die Fundamentalkomponente, deren augenblickliche Frequenz gewünscht wird, erhalten wird. Zum Finden der augenblicklichen Frequenz ist es notwendig, die Fundamentalkomponente herauszunehmen, was Berechnen der Fundamentalfrequenz bedeutet. Ohne eine Maßnahme zum Überwinden des toten Punktes führt dies zu einer Tautologie. Das ist der Grund, aus dem die augenblickliche Frequenz der Fundamentalkomponente, die verschiedene überlegene Charakteristiken aufweist, bis heute noch nicht benutzt worden ist.
Daher wird bei der vorliegenden Erfindung der tote Punkt unter Benutzung einer Maßnahme, die nicht die Frequenz ist, zum Auswählen der Fundamentalkomponente überwunden. Für diesen Zweck wird die folgende Charakteristik der Signalverarbeitung, die ein Filter mit solch einer Abschneidecharakteristik aufweist, die moderat auf der Niederfrequenzseite und steil auf der Hochfrequenzseite ist, benutzt. Genauer, wenn die Mittelfrequenz des Filters sich von der Fundamentalkomponente eines Signales unterscheidet, nimmt die Frequenzmodulation der augenblicklichen Frequenz der Filterausgabe und die Amplitudenmodulation der Hüllenkomponente der Filterausgabe zu. Der Grund dafür ist der, daß das Signalrauschverhältnis der Fundamentalwelle und anderer Komponenten ein Maximum wird, wenn die Mittelfrequenz des Filters und die Frequenz der Fundamentalkomponente des Signales miteinander übereinstimmen.
Wenn die Mittelfrequenz des Filters und die Frequenz von harmonischen Komponenten höherer Ordnung des Signales miteinander übereinstimmen, nimmt das Signalrauschverhältnis zu. Da jedoch das Filter eine moderate Abschneidecharakteristik aufweist, ist eine Mehrzahl von harmonischen Komponenten in einer Filterausgabe vorhanden, und daher nehmen die Variation der augenblicklichen Frequenz und der Amplitudenmodulation der Hüllenkomponente der Filterausgabe zu. Es gibt viele Filter, die solch eine Bedingung erfüllen. Praktisch ist es bequem, eine komplexe Gabor- Funktion zu benutzen, deren Frequenzauflösung 1,3 bis 1,4 besser als die Zeitauflösung ist.
Um die Diskussionen einfacher zu machen, sei eine Fensterfunktion angenommen, deren Zeitauflösung und Frequenzauflösung in der folgenden Weise ausgeglichen sind. Zuerst wähle ein Zeitfenster aus, dessen Produkt aus Zeitauflösung und Frequenzauflösung ein Minimum ist und die Verhältnisse der entsprechenden Auflösungen in bezug auf die Fundamentalperiode und die Fundamentalfrequenz des Signales einander gleich sind. Ein Zeitfenster w(t), das diese Anforderungen erfüllt, ist die folgende Gauss-Funktion, von der die Fouriertransformierte W(ν) wird durch die folgende Gleichung dargestellt.
wobei ν&sub0; = 2πf&sub0; ist. In dem diese Fensterfunktion benutzt wird und mit einem Signal multipliziert wird, dessen Realteil und Imaginärteil Phasendifferenzen von 90º gegeneinander aufweisen und die Periode von τ&sub0; aufweisen, wird ein Signal gr0(t) zur Inspektion wie folgt definiert. Das Signal gr0, das auf dieses Weise definiert ist, ist ein Inspektionssignal zum Erfassen eines Signales mit der Periode von τ&sub0;.
Dieses Signal entspricht auch einer Gabor-Funktion, die unten definiert wird, mit α = τ²&sub0;/4π.
Der Einfluß der Signalperiodizität auf die Phase und den Absolutwert des Resultates der Faltung eines Signales, das zu analysieren ist, und des Inspektionssignales wird untersucht. Eine Funktion D(t, τ), von der der Index der Fundamentalheit abgeleitet wird, wird wie folgt definiert.
wobei T einen Bereich darstellt, außerhalb von dem die Amplitude von gr0(t) im wesentlichen als 0 betrachtet werden kann. Auf der Grundlage dieser Funktion wird der Index M(t, τ), der die Fundamentalheit darstellt, wie folgt definiert.
Die letzten zwei Ausdrücke der Gleichung (10) oben sind Korrekturausdrücke zur Normalisierung eines Teiles in Abhängigkeit der Breite des Fensters und zur Normalisierung eines Teiles, an dem der Differentialwert sich in Abhängigkeit von der Frequenz des Zielsignales ändert. Durch solche Korrekturen entspricht, wenn M berechnet wird, wobei sich τ&sub0; verschieden ändert und der Wert von τ&sub0;, der ein maximales M vorsieht, gewählt wird, der gewählte Wert der Frequenz der Fundamentalkomponente. Eine Ausführungsform des Einführens des Extrahierens der Fundamentalfrequenz auf der Grundlage dieses Prinzipes wird im einzelnen im folgenden beschrieben.
Fig. 1 ist ein schematische Blockschaltbild, das ein Gerät zum Extrahieren einer Fundamentalfrequenz gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Es wird Bezug genommen auf Fig. 1, ein Sprachsignal wird durch ein Eingabegerät wie ein Mikrophon 1 eingegeben. Bei dem eingegebenen Sprachsignal wird der Eingangspegel durch einen Distributionsverstärker 2 eingestellt und an eine cos-Gabor-Filtergruppe 3, eine sin- Gabor-Filtergruppe 4 und einen Extraktor 6 für eine augenblickliche Frequenz unter Benutzung von Interpolation verteilt und angelegt. Wenn die Fundamentalfrequenz eines Sprachsignales zu extrahieren ist, wird jedes der Filter in der Gabor-Filtergruppe an jedem 2112 so angeordnet, daß 12 Filter über eine Oktave in dem Bereich der Mittelfrequenz von 40 Hz bis 800 Hz plaziert werden können. Als Resultat dieser Ausführungsform werden 52 Filter in gleichem Abstand auf der logarithmischen Frequenzachse für cos- bzw. sin-Phasen angeordnet.
Die cos-Gabor-Filtergruppe 3 ist eine Gruppe von Filtern, deren Zeitauflösung und Frequenzauflösung in der cos-Phase durch eine ausgeglichene Gleichung dargestellt werden. Durch diese Filtergruppe wird ein Signal entsprechend dem Realteil des Inspektionssignales, auf das die Gabor-Funktion der Gleichung angewendet wird, in entsprechende Kanäle ausgegeben. Die sin-Gabor- Filtergruppe 4 ist eine Gruppe von Filtern, deren Zeitauflösung und Frequenzauflösung in der sin-Phase durch eine ausgeglichene Gleichung dargestellt werden, und durch diese Filtergruppe wird ein Signal entsprechend dem Imaginärteil des Inspektionssignales, auf das die Gabor-Funktion der Gleichung angewendet wird, in entsprechende Kanäle ausgegeben wird.
Ausgangssignale entsprechender Kanäle der cos-Gabor-Filtergruppe 3 und sin-Gabor-Filtergruppe 4 werden an einen Berechnungsabschnitt für Stabilitätsindex und Extraktionsabschnitt für eine Fundamentalfrequenz 5 angelegt. Der Berechnungsabschnitt des Stabilitätsindex und der Extraktionsabschnitt der Fundamentalfrequenz 5 berechnet den Stabilitätsindex aus dem Realteilsignal und dem Imaginärteilsignal und berechnet auf der Grundlage des Resultates der Berechnung einen angenäherten Wert der Fundamentalfrequenz als augenblickliche Frequenz aus den Daten des Kanales, der maximale Stabilität anzeigt, und legt das Resultat der Berechnung an den Extraktor der augenblicklichen Frequenz 6 unter Benutzung von Interpolation an. Der Extraktor der augenblicklichen Frequenz 6 interpoliert den Wert der augenblicklichen Frequenz aus dem benachbarten Frequenzkanal auf der Grundlage des Näherungswertes der Fundamentalfrequenz und extrahiert eine genaue augenblickliche Frequenz.
Fig. 2 ist ein spezielles Blockschaltbild des Berechnungsabschnittes des Stabilitätsindex und des Extraktionsabschnittes der Fundamentalfrequenz 5, die in Fig. 1 gezeigt sind. Entsprechen den entsprechenden Ausgängen eines jeden Kanales der cos- Gabor-Filtergruppe 3 und der sin-Gabor-Filtergruppe 4, die in Fig. 1 gezeigt sind, ist ein Fig. 2 gezeigter Abschnitt 21 entsprechend einem Kanal vorgesehen, und der Stabilitätsindex für jeden Kanal wird berechnet. Die Berechnung wird gemäß der Gleichung (10) oben ausgeführt. Der Realteil 8 des Abschnittes 21 entsprechend dem Kanal ist ein Ausgang eines Filters der cos- Gabor-Filtergruppe 3, und der Imaginärteil 12 ist ein Ausgang von einem Filter der sin-Gabor-Filtergruppe 4.
Der Realteil 8 und der Imaginärteil 12 werden an einen Berechnungsabschnitt des Absolutwertes 9 angelegt, das quadratische Mittel des Real- und Imaginärteiles werden zum Vorsehen des Absolutwertes berechnet. Der Absolutwert wird an den Vorverarbeitungsabschnitt 10 zur Berechnung der relativen Größenvariation angelegt, das Zeitdifferential des Absolutwertes wird berechnet, der quadratische Mittelwert wird unter Benutzung einer Integrationszeit gemäß der Zeitlänge einer jeden Kanalreaktion berechnet, und der quadratische Mittelwert des Absolutwertes selbst wird ebenfalls unter Benutzung der gleichen Integrationszeit berechnet. Der Berechnungsabschnitt 11 der relativen Größenvariation berechnet die relative Größenvariation durch Normalisieren des quadratischen Mittelwertes des Zeitdifferentiales, das in dem Vorverarbeitungsabschnitt 10 durch den quadratischen Mittelwert des Absolutwertes selbst berechnet worden ist.
Der Realteil 8 und der Imaginärteil 12 werden ebenfalls an einen Berechnungsabschnitt 13 des Phasenwinkels angelegt, und der Berechnungsabschnitt 13 des Phasenwinkels berechnet den Phasenwinkel durch Berechnen des Verhältnis des Imaginärteiles in bezug auf den Realteil. Der berechnete Phasenwinkel wird an einen Phasenabwickelabschnitt 14 angelegt, und der Phasenabwickelabschnitt 14 verbindet die Phasen derart, daß ein Sprung von 2% der Phase auf 0 geht, wodurch der abgewickelte kontinuierliche Phasenwinkel berechnet wird. In dem Berechnungsabschnitt 15 der augenblicklichen Frequenz wird der von dem Phasenabwickelab schnitt 14 abgewickelte Phasenwinkel der Zeitdifferenzierung unterworfen, wodurch die augenblickliche Phase erhalten wird. Die erhaltene augenblickliche Phase wird an den Berechnungsabschnitt 16 der Frequenzvariation angelegt, das Zeitdifferential der der Frequenz wird berechnet, der quadratische Mittelwert wird unter Benutzung der Integrationszeit in Übereinstimmung mit der Zeitlänge einer jeden Kanalantwort berechnet, und somit wird die Frequenzvariation erhalten.
Ein Einstellabschnitt 18 für den Schwellenwert setzt einen Schwellenwert eines Minimalindex, der als stabil angesehen werden kann, auf der Grundlage der Information eines jeden Kanales. Der eingestellte Schwellenwert, die relative Größenvariation, die durch den Berechnungsabschnitt 11 der relativen Größenvariation berechnet ist, und die Frequenzvariation, die von dem Berechnungsabschnitt 16 der Frequenzvariation berechnet ist, werden an den Berechnungsabschnitt 19 des Stabilitätsindex angelegt. In dem Berechnungsabschnitt des Stabilitätsindex wird der Stabilitätsindex auf der Grundlage der relativen Größenvariation, der Frequenzvariation, des Schwellenwertes und der Kanalzahl berechnet, und ein Paar 20 des Stabilitätsindex und der augenblicklichen Frequenz wird an einen Auswahlabschnitt 23 des Maximalwertes angelegt. Ein ähnliches Paar 22 des Stabilitätsindex und der augenblicklichen Frequenz eines anderen Kanales wird ebenfalls an den Auswahlabschnitt 23 des Maximalwertes angelegt. Auf der Grundlage der Stabilitätsindizes wählt der Auswahlabschnitt 23 des Maximalwertes den Maximalwert aus und wählt zur gleichen Zeit eine zu paarende Fundamentalfrequenz aus. Als Resultat werden eine ungefähre Fundamentalfrequenzinformation und ein Stabilitätsindex extrahiert.
Fig. 3 bis 6 sind Diagramme, die sich auf eine Ausführungsform zum Verbessern der Filterstruktur beziehen. Fig. 3 zeigt Wellenformen einer cos-Phasenkomponente und einer sin-Komponente eines Gabor-Filters, bei dem Frequenzauflösung und Zeitauflösung ausgeglichen sind, als auch einer Hüllenwellenform, die als quadrierte Summe davon berechnet ist. Die Wellenformen entsprechen dem Realteil, dem Imaginärteil und dem Absolutwert der Gleichung (5) oben. Die Frequenzantwort des Filters weist die Charakteristik des Moderaten auf der Niederfrequenzseite und des Steilen auf der Hochfrequenzseite in der Darstellung auf, in der die Abszisse die logarithmische Frequenz darstellt, wie in Fig. 4 gezeigt ist. Es kann nämlich gesehen werden, daß das Filter die oben beschriebene Bedingung erfüllt.
Obwohl die Hochfrequenzseite in Fig. 4 steil ist, beträgt jedoch die Abschwächung an einer Position der zweiten harmonischen Komponente nur 27 dB, wenn die Mittelfrequenz des Filters zu der Fundamentalkomponente paßt. Wenn daher die Fundamentalkomponente schwach im Vergleich mit der zweiten harmonischen Komponente ist, entspricht ein Filter mit einem maximalen Stabilitätsindex nicht unbedingt der Fundamentalkomponente.
Fig. 5 zeigt eine Ausführungsform, die dieses Problem löst, bei der eine Filterreaktionswellenform, die gemäß der folgenden Gleichung (11) definiert ist, benutzt wird.
ωd(t) = ω(t - τ&sub0;/4) - ω(t + τ&sub0;/4) ... (11)
Eine durchgezogene Linie 29 von Fig. 5 stellt den Realteil dar, eine gestrichelte Linie 30 stellt den Imaginärteil dar, und eine punktierte Linie 31 stellt den Absolutwert dar. Unter Benutzung einer geeigneten Antwortwellenform, die auf diese Weise gebildet wird, wird die Filtercharakteristik sehr an dem Abschnitt der zweiten harmonischen Komponente geschwächt, wie bei 32 von Fig. 6 gezeigt ist. Selbst wenn folglich die zweite harmonische Komponente groß in bezug auf die Fundamentalkomponente ist, ist es möglich, daß das Filter mit dem maximalen Stabilitätsindex der Fundamentalkomponente entspricht.
Fig. 7 ist ein dreidimensionales Bild des berechneten Stabilitätsindex, bei dem der mittlere hohe Abschnitt der Fundamentalkomponente entspricht. Die Fundamentalfrequenz der Fundamentalkomponente wird durch Erhalten der augenblicklichen Frequenz eines entsprechenden Kanales berechnet.
Fig. 8 ist eine Darstellung, die eine Ausführungsform zum Verbessern des Stabilitätsindex zeigt. Bei tatsächlicher Sprache nimmt, wenn die Fundamentalkomponente schwach oder instabil ist oder wenn der Übergang, der durch Resonanz des Vokaltraktes verursacht wird, der durch Öffnen/Schließen der Glottis erregt wird, sehr stark ist, der Stabilitätsindex des Filters entsprechend der zweiten harmonischen Komponente ein Maximum an, oder der Stabilitätsindex eines Filters entsprechend der fünften oder höheren harmonischen Komponente kann ein Maximum mit einer Rate von einigen Prozent annehmen, was zu fehlerhafter Extraktion führt. Fig. 8 zeigt die Richtungseinstellung zum Einführen von Wissen der harmonischen Struktur und Wissen der Resonanz, die durch Vibration des Stimmbandes verursacht wird, damit solche Fehler verringert werden. Bezugszeichen 35 stellt eine Richtung dar, die einen positiven Einfluß auf die halbe Frequenz ausübt, und 36 stellt eine Wichtung dar, die einen negativen Einfluß auf die doppelte Frequenz ausübt. 37 stellt eine Wichtung dar, die einen negativen Einfluß auf die fünfte oder höhere Frequenzkomponente ausübt zum Korrigieren des Einflusses des Öffnens/ Schließens der Glottis. Die Wichtungen, die in dieser Weise definiert sind, werden als β(λ) als eine Funktion der logarithmischen Frequenz λ = logF dargestellt. Ähnlich kann der Stabilitätsindex M als M(λ) als eine Funktion der logarithmischen Frequenz der Mittelfrequenz der Mittelfrequenz des Filters dargestellt werden. In dem das benutzt wird, wird der durch das Wissen modifizierte Stabilitätsindex Mm(λ) gemäß der Gleichung 12 berechnet.
Mm(λ) = β (η - λ)M(η)dη ... (12)
Unter Benutzung des Stabilitätsindex, der durch die Kenntnis modifiziert ist, anstelle des oben erwähnten Stabilitätsindex können Fehler, die durch schwache oder Fundamentalwelle, sehr starke Resonanz des Vokaltraktes, die mit dem öffnen/Schließen der Glottis assoziiert sind, verringert werden. Diese Ausführungsform modifiziert nur den Betriebsschritt des Berechnungsabschnittes des Stabilitätsindex, der durch 19 in Fig. 2 dargestellt wird, und das Blockschaltbild ist das gleiche.
Eine Ausführungsform zum Verbessern des Verfahrens des Stabilitätsindex wird beschrieben.
Bei einer Sprache ist die Fundamentalfrequenz selten konstant, und sie endet in Anhebung oder Absenkung. In solch einem Fall sieht, da der Stabilitätsindex definiert wird unter Benutzung einer quadratischen Summe der Variation die scheinbare Stabilität aus, als ob sie absinkt, wenn die Bewegung des Anhebens oder Absenkens als Vorurteil dient, selbst wenn sie die Fundamentalkomponente ist. Damit dieses Problem vermieden wird, kann die quadrierte Summe eines Betrages, von dem der Mittelwert der Variation in dem Bereich Ω der Integration entfernt ist, bei dem Berechnen des Stabilitätsindexes benutzt werden. Der auf diese Weise modifizierte Stabilitätsindex wird als Mc dargestellt, der gemäß den Gleichungen (13) bis (15) unten berechnet wird.
Fig. 9A-9F zeigen das Resultat einer Analyse einer tatsächlichen Sprachwellenform, eines Satzes "BAKUONGA GINSEKAINO KOUGENNI HIROGARU.". Dieser Satz ist bekannt als ein Beispiel für die Tonlagenextrahierung, da er Plosive und Friktative enthält. Fig. 9A stellt eine Sprachwellenform dar, Fig. 9B eine Sprachleistung, Fig. 9C eine Fundamentalfrequenz, Fig. 9D einen Stabilitätsindex, Fig. 9E einen FO-Leistung und Fig. 9F eine Grau- Skalenkarte des Stabilitätsindex. Bei der Grau-Skala in Fig. 9F stellt dunklerer Ton höhere Stabilität dar. Bei der Fundamentalfrequenz in Fig. 9C stellen die dünnen durchgezogenen Linien Abschnitte dar, von denen bestimmt wird, daß sie durch Vibration des Stimmbandes verursacht sind.
Fig. 10 ist ein Blockschaltbild einer Ausführungsform, die auf eine Analyse eines Signales anzuwenden ist, das keine Fundamentalkomponente aufweist, aber ungefähr periodischer Natur in der Hülle ist. Bei der in Fig. 10 gezeigten Ausführungsform wird das Signal nicht direkt benutzt, sondern es wird einer nichtlinearen Transformation durch Halbwellenrektifikation zum Beispiel unterzogen, und selbst wenn das Signal daher keine Fundamentalwellenkomponente enthält, kann das Signal in eines mit einer ungefähr periodischen Fundamentalkomponente transformiert werden, wenn die Hülle ungefähr periodische Charakteristik aufweist. Genauer, durch das Vorsehen des nicht-linearen Wandlers 39 zwischen dem Mikrophon 1 und dem Distributionsverstärker 2 wird diese Ausführungsform realisiert. Für die nicht-lineare Transformation kann ein Hüllenextrahierungsvorgang unter Benutzung von Halbwellenrektifikation oder eine Hilbert-Transformation, gewichtete Summe der Halbwellenrektifikation Band um Band unter Benutzung einer Gruppe von Filtern oder gewichtete Summe des Hüllenextrahierungsvorganges Band um Band unter Benutzung einer Gruppe von Filtern benutzt werden.
Fig. 11 zeigt eine noch weitere Ausführungsform der vorliegenden Erfindung. Bei dieser in Fig. 11 gezeigten Ausführungsform ist anstelle der zwei Sätze von Filtergruppen, das ist die cos- Gabor-Filtergruppe 3 und die sin-Gabor-Filtergruppe 4, die in Fig. 1 oben gezeigt sind, ein Satz von Filtergruppen zur Berechnung der Größen der Amplitudenmodulation und der Frequenzmodulation benutzt. Es wird die Tatsache benutzt, daß die Zeitableitung einer Filterausgabe ein cos ist, wenn das Ausgangssignal ein sin ist, es ist möglich, den Gewinn durch Zeitableitung des Signales des Realteiles anstelle des Signales des Imaginärteiles von Fig. 2 zu verwenden, wobei die Polarität invertiert ist. Durch dieses Verfahren wird die sin-Gabor-Filtergruppe 4 von Fig. 1 weggelassen, eine Differentialschaltung 40 und eine Polaritätsinversionsschaltung 41 sind vorgesehen, und ein Eingang zu dem Realteil geht durch die Differentialschaltung 40 und die Polaritätsinversionsschaltung 41, wo sie als Eingang zu dem Imaginärteil benutzt wird.
Obwohl die vorliegende Erfindung im einzelnen beschrieben und dargestellt worden ist, ist klar zu verstehen, daß dieses nur als Weg der Darstellung und des Beispieles dient und nicht als Weg der Begrenzung zu nehmen ist, der Umfang der vorliegenden Erfindung wird nur durch den Inhalt der beigefügten Ansprüche begrenzt.

Claims

1. Verfahren der Signalanalyse zum Extrahieren der Fundamentalfrequenz eines Eingangssignales unter Benutzung einer Bank von Filtern, von denen jedes eine moderate Abschneidecharakteristik auf der Niederfrequenzseite und eine steile Abschneidecharakteristik auf der Hochfrequenzseite aufweist, mit:

einem ersten Schritt (3, 4, 5) zum Berechnen eines Stabilitätsindex für jeden der Filterausgänge, wobei der Stabilitätsindex ein mathematischer Index ist, der ein Mali der Fundamentalheit des Signales darstellt; und

einem zweiten Schritt (6) zum Extrahieren der ungefähren Fundamentalfrequenz durch Auswählen eines speziellen Filters unter Benutzung des berechneten Stabilitätsindex und Berechnen einer augenblicklichen Frequenz aus der Ausgabe des Filters.

2. Verfahren der Signalanalyse nach Anspruch 1, bei dem der erste Schritt den Schritt (5) des Berechnens des Stabilitätsindex für jeden der Filterausgänge durch Finden der Größe der Amplitudenmodulation und der Größe der Frequenzmodulation des Ausganges von dem Filter aufweist.

3. Verfahren der Signalanalyse nach Anspruch 1 oder 2, bei dem der Schritt (6) des Berechnens des ungefähren Wertes der Fundamentalfrequenz als augenblickliche Frequenz von dem Ausgang des Filters, für den die maximale Stabilität bezeichnet ist, auf der Grundlage der Berechnung des Stabilitätsindex.

4. Verfahren der Signalanalyse nach einem der Ansprüche 1 bis 3, bei dem der zweite Schritt den Schritt des Extrahierens der genauen augenblicklichen Frequenz durch Interpolieren eines Wertes der augenblicklichen Frequenz von einem benachbarten Frequenzkanal enthält.

5. Gerät zur Signalanalyse zum Extrahieren der Fundamentalfrequenz eines Eingangssignales, mit:

einem Distributionsmittel (2) zum Verteilen des Eingangssignales;

einer Mehrzahl von Filtergruppen (3, 4), wobei jedes Filter eine unterschiedliche Mittelfrequenz und eine Abschneidecharakteristik aufweist, die moderat an der Niederfrequenzseite und steil an der Hochfrequenzseite ist, wobei an jedes von denen ein Signal, wie es durch das Distributionsmittel verteilt ist, angelegt wird;

einem Berechnungsmittel (5) zum Berechnen eines Stabilitätsindex für jeden der Filterausgänge, wobei der Stabilitätsindex ein mathematischer Index ist, der ein Maß der Fundamentalheit des Signales darstellt, indem die Größe der Amplitudenmodulation und die Größe der Frequenzmodulation eines jeden der Ausgangssignale von der Filtergruppe gefunden wird; und

einem Extrahiermittel (6) einer Fundamentalfrequenz zum Berechnen der Fundamentalfrequenz als eine augenblickliche Frequenz auf der Grundlage des Filters, für den maximale Stabilität angezeigt worden ist, auf der Grundlage der Berechnung durch das Berechnungsmittel für den Stabilitätsindex.

6. Gerät zur Signalanalyse nach Anspruch 5, wobei die Mehrzahl von Filtergruppen eine cos-Gabor-Filtergruppe (3), die ein Signal entsprechend einem Realteil einer Gabor- Funktion ausgibt, und eine sin-Gabor-Filtergruppe (4), die ein Signal entsprechend einem Imaginärteil der Gabor-Funktion ausgibt, aufweist und das Berechnungsmittel den Stabilitätsindex aus einem Signal des Realteiles und einem Signal des Imaginärteiles berechnet.

7. Gerät zur Signalanalyse nach Anspruch 5, bei dem die Filtergruppe eine cos-Gabor-Filtergruppe (3), die ein Signal entsprechend einem Realteil einer Gabor-Funktion ausgibt, aufweist und

das Gerät weiter aufweist ein Differentialmittel (40) zum Differenzieren eines Ausganges von dem cos-Gabor-Filter und

ein Polaritätsinversionsmittel (41) zum Invertieren eines Ausganges von dem Differentialmittel zum Ausgeben eines Imaginärteiles der Gabor-Funktion;

wobei das Berechnungsmittel den Stabilitätsindex aus dem Signal des Realteiles und dem Signal des Imaginärteiles berechnet.

8. Gerät zur Signalanalyse nach einem der Ansprüche 5 bis 7, weiter mit

einem Mittel (39) zum Ausführen einer nicht-linearen Transformation des Eingangssignales zum Erhalten eines Signales, das keine Fundamentalkomponente enthält, und zum Anlegen des Signales an das Distributionsmittel.