DE69931813T2

DE69931813T2 - Verfahren und vorrichtung zur grundfrequenzermittlung

Info

Publication number: DE69931813T2
Application number: DE69931813T
Authority: DE
Inventors: Alejandro Vellevue ACERO; G. James Mountlake Terrace DROPPO
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-11-24
Filing date: 1999-11-22
Publication date: 2006-10-12
Anticipated expiration: 2019-11-23
Also published as: ATE329345T1; WO2000031721A1; AU1632100A; JP4354653B2; EP1145224B1; DE69931813D1; EP1145224A1; US6226606B1; CN1338095A; CN1152365C; JP2003521721A

Description

Hintergrund der Erfindung
Die vorliegende Erfindung bezieht sich auf Computersprachsysteme. Im Speziellen bezieht sich die vorliegende Erfindung auf Pitchtracking in Computersprachsystemen.
Computer werden derzeit verwendet, um eine Vielzahl von sprachbezogenen Funktionen auszuführen, einschließlich dem Übermitteln von menschlicher Sprache über Computernetzwerke, Erkennen von menschlicher Sprache, und künstlichem Herstellen von Sprache aus eingegebenem Text. Um diese Funktionen auszuführen, müssen die Computer in der Lage sein, die verschiedenen Komponenten der menschlichen Sprache zu erkennen. Eine dieser Komponenten ist das Pitch oder Melodie der Sprache, welche durch die Stimmbänder des Sprechers während der stimmhaften Teile der Sprache erzeugt werden. Beispiele für das Pitch können in Vokallauten gehört werden, wie z.B. der "ih"-Laut in "six".
Das Pitch in menschlicher Sprache tritt in dem Sprachsignal als eine sich nahezu wiederholende Wellenform auf, die eine Kombination von einer Vielzahl von Sinuswellen mit verschiedenen Frequenzen ist. Die Periode zwischen diesen sich nahezu wiederholenden Wellenformen bestimmt das Pitch.
Um das Pitch in einem Sprachsignal zu identifizieren, verwendet der Stand der Technik Pitchtracker. Eine umfangreiche Studie über Pitchtracking ist in "A Robust Algorithm for Pitch Tracking (RAFT)" D. Talkin, Speech Coding and Synthesis, S. 495–518, Elsevier, 1995, dargestellt. Ein solcher Pitchtracker erkennt zwei Teile des Sprachsignals, die durch eine Kandidatpitchperiode getrennt sind, und vergleicht die zwei Teile miteinander. Wenn die Kandidatpitchperiode gleich des tatsächlichen Pitch des Sprachsignals ist, werden die zwei Teile nahezu identisch zueinander sein. Dieser Vergleich wird im Allgemeinen unter Verwendung einer Kreuzkorrelationstechnik durchgeführt, die mehrere Samples von jedem Teil miteinander vergleicht.
Unglücklicherweise sind solche Pitchtracker nicht immer genau. Dies führt zu Pitchtrackingfehlern, die die Leistung von Computersprachsystemen vermindern. Im Speziellen können Pitchtrackingfehler dazu führen, dass Computersysteme stimmhafte Teile von Sprache als nicht-stimmhafte Teile falsch identifizieren und umgekehrt, und können Sprachsysteme dazu bringen, das Sprachsignal nur schlecht zu segmentieren.
US 4,731,846 beschreibt ein Voice-Messaging-System mit Pitchtracking basierend auf einem adaptierend gefilterten LPC-Residualsignal.
US 5,680,508 bezieht sich auf eine verbesserte Sprachcodierungstechnik für Sprachkodierer mit geringer Rate, und im Speziellen auf Sprach-Frame-Analyse- und Vektorquantisierungsverfahren.
US 5,007,093 beschreibt einen adaptiven Schwellenwertsprachdetektor.
Kurzfassung der Erfindung
Die Erfindung wird durch den Gegenstand der unabhängigen Ansprüche bereitgestellt.
Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen gegeben.
In einem Verfahren zum Pitchtracking in einem Sprachsignal werden ein erster und zweiter Fenstervektor aus Samples erzeugt, die über ein erstes und zweites Fenster des Sprachsignals genommen werden. Das erste Fenster ist von dem zweiten Fenster durch eine Testpitchperiode getrennt. Die Energie des Sprachsignals in dem ersten Fenster wird mit der Korrelation zwischen dem ersten Fenstervektor und dem zweiten Fenstervektor kombiniert, um einen vorhersagbaren Energiefaktor zu entwickeln. Der vorhersagbare Energiefaktor wird dann verwendet, um ein Pitchergebnis für die Testpitchperiode zu ermitteln. Teilweise basierend auf dem Pitchergebnis wird ein Teil des Pitchtrack identifiziert.
In anderen Ausführungsformen der Erfindung entnimmt ein Verfahren zum Pitchtracking Samples einer ersten und zweiten Wellenform in dem Sprachsignal. Die Zentren der ersten und zweiten Wellenform sind durch eine Testpitchperiode getrennt. Ein Korrelationswert wird ermittelt, der die Ähnlichkeit zwischen der ersten und zweiten Wellenform beschreibt, und ein Pitchkonturfaktor wird ermittelt, der die Ähnlichkeit zwischen der Testpitchperiode und einer vorhergehenden Pitchperiode beschreibt. Der Korrelationswert und der Pitchkonturfaktor werden dann kombiniert, um ein Pitchergebnis für den Über gang von der vorhergehenden Pitchperiode zu der Testpitchperiode zu erstellen. Dieses Pitchergebnis wird verwendet, um einen Teil des Pitchtrack zu identifizieren.
Andere Ausführungsformen der Erfindung stellen ein Verfahren zum Ermitteln, ob eine Region des Sprachsignals eine stimmhafte Region ist, bereit. Das Verfahren bezieht das Sampeln einer ersten und zweiten Wellenform und das Ermitteln der Korrelation zwischen den zwei Wellenformen ein. Die Energie der ersten Wellenform wird dann ermittelt. Wenn die Korrelation und die Energie beide hoch sind, identifiziert das Verfahren die Region als eine stimmhafte Region.
Kurze Beschreibung der Zeichnungen
1 ist eine Draufsicht einer exemplarischen Umgebung für die vorliegende Erfindung.
2 ist ein Graph eines Sprachsignals.
3 ist ein Graph eines Pitch als eine Funktion der Zeit für einen deklarativen Satz.
4 ist ein Blockdiagramm eines Sprachsynthesesystems.
5-1 ist ein Graph eines Sprachsignals.
5-2 ist ein Graph eines Sprachsignals aus 5-1, wobei sein Pitch richtig gesenkt wurde.
5-3 ist ein Graph des Sprachsignals aus 5-1, wobei sein Pitch ungenau gesenkt wurde.
6 ist ein Blockdiagramm eines Sprachkodierers.
7 ist eine zweidimensionale Darstellung eines Fenstervektors für ein Sprachsignal.
8 ist ein Blockdiagramm eines Pitchtrackers der vorliegenden Erfindung.
9 ist ein Ablaufdiagramm für ein Pitchtrackingverfahren der vorliegenden Erfindung.
10 ist ein Graph eines Sprachsignals, der Samples zeigt, die einen Fenstervektor bilden.
11 ist ein Graph eines Hidden Markov Modells zum Identifizieren stimmhafter und nicht-stimmhafter Regionen eines Sprachsignals.
12 ist ein Graph mit Gruppierungen von stimmhaften und nicht-stimmhaften Samples als eine Funktion der Energie und Kreuzkorrelation.
13 ist ein Flussdiagramm eines Verfahrens zum Identifizieren stimmhafter und nicht-stimmhafter Regionen nach der vorliegenden Erfindung.
Detaillierte Beschreibung illustrativer Ausführungsformen
1 und die diesbezügliche Diskussion beabsichtigen, eine kurze allgemeine Beschreibung einer passenden Computerumgebung bereitzustellen, in der die Erfindung implementiert werden kann. Obwohl es nicht notwendig ist, wird die Erfindung zumindest teilweise im allgemeinen Kontext von Computer-ausführbaren Instruktionen beschrieben, wie z.B. Programmmodulen, die durch einen Personalcomputer ausgeführt werden. Im Allgemeinen enthalten Programmmodule Routinenprogramme, Objekte, Komponenten, Datenstrukturen, etc., die bestimmte Funktionen ausführen oder bestimmte abstrakte Datentypen implementieren. Außerdem werden es Fachleute begrüßen, dass die Erfindung mit anderen Computersystemkonfigurationen betrieben werden kann, einschließlich Hand-Held-Geräten, Multiprozesorsystemen, Mikroprozessor-basierter oder programmierbarer Unterhaltungselektronik, Netzwerk-PC's, Minicomputer, Mainframe-Computer und Ähnliches. Die Erfindung kann ebenso in einer dezentralen Computerumgebung betrieben werden, wo Funktionen durch dezentrale verarbeitende Geräte (remote processing devices) ausgeführt werden, die durch ein Kommunikationsnetzwerk verbunden sind. In einer dezentralen Computerumgebung können Programmmodule in beiden, lokalen und dezentralen Speichergeräten, liegen.
Mit Bezug auf 1 enthält ein beispielhaftes System zum Implementieren der Erfindung ein Allzweckcomputergerät in der Form eines gewöhnlichen Personalcomputers 20, einschließlich einer Prozessoreinheit (CPU) 21, eines Systemspeichers 22, und eines Systembusses 23, der verschiedene Systemkomponenten einschließlich des Systemspeichers 22 mit der Prozessoreinheit 21 koppelt. Der Systembus 23 kann irgendeiner von verschiedenen Busstrukturtypen sein, einschließlich eines Speicherbusses oder Speichercontrollers, Peripheriebusses und lokalen Busses, der irgendeine Auswahl von Busarchitekturen verwendet. Der Systemspeicher schließt Read Only Memory (ROM) 24 und Random Access Memory (RAM) 25 ein. Ein basic Input/Output (BIOS) 26, das die Basisroutinen enthält, die helfen, Informationen zwischen Elementen innerhalb des Personalcomputers 20 zu übermitteln, wie z.B. während des Hochfahrens, ist in dem ROM 24 gespeichert. Der Personalcomputer 20 enthält des Weiteren ein Festplattenlaufwerk 27 zum Lesen von und Schreiben auf einer Festplatte (nicht gezeigt), ein magnetisches Disk-Laufwerk 28 zum Lesen von oder Schreiben auf einer entfernbaren magnetischen Disk 29, und ein optisches Disk-Laufwerk 30 zum Lesen von oder Schreiben auf einer entfernbaren optischen Disk 31, wie z.B. einer CD-ROM oder anderem optischen Medium. Das Festplatten-Laufwerk 27, magnetische Disk-Laufwerk 28 und optische Disk-Laufwerk 30 sind mit dem Systembus 23 über eine Festplatten-Laufwerksschnittstelle 32, Schnittstelle 33 für ein magnetisches Disk-Laufwerk bzw. Schnittstelle 34 für ein optisches Laufwerk verbunden. Die Laufwerke und die zugehörigen Computer-lesbaren Medien stellen nicht-flüchtige Speicherung von Computer-lesbaren Instruktionen, Datenstrukturen, Programmmodulen und anderen Daten für den Personalcomputer 20 bereit.
Obwohl die hierin beschriebene exemplarische Umgebung die Festplatte, die entfernbare magnetische Disk 29 und die entfernbare optische Disk 31 einsetzt, sollte es durch Fachleute anerkannt sein, dass andere Typen von Computer-lesbaren Medien, die Daten speichern können, auf die durch einen Computer zugegriffen werden kann, wie z.B. magnetische Kassetten, Flash-Memory-Karten, Digital-Video-Disks, Bernoulli-Kartuschen, Random Access Memories (RAMs), Read Only Memory (ROM) und Ähnliches, ebenso in der exemplarischen Arbeitsumgebung verwendet werden können.
Eine Vielzahl von Programmmodulen können auf der Festplatte, magnetischen Disk 29, optischen Disk 31, ROM 24 oder RAM 25 gespeichert werden, einschließlich einem Betriebssystem 35, einem oder mehreren Anwendungsprogrammen 36, anderen Programmmodulen 37 und Programmdaten 38. Ein Benutzer kann Befehle und Informatio nen in den Personalcomputer 20 durch lokale Eingabegeräte eingeben, wie z.B. einem Keyboard 40, Zeigergerät 42 und einem Mikrofon 43. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, Gamepad, Satellitenschüssel, Scanner oder Ähnliches einschließen. Diese und andere Eingabegeräte sind oft mit der Prozessoreinheit 21 durch eine serielle Anschlussschnittstelle 46 verbunden, die mit dem Systembus 23 gekoppelt ist, kann aber durch andere Schnittstellen verbunden sein, wie z.B. einer Soundkarte, einem Parallelanschluss, einem Gameport oder einem Universal Serial Bus (USB). Ein Monitor 47 oder anderer Typ von Anzeigegerät ist auch mit dem Systembus 23 über eine Schnittstelle verbunden, wie z.B. einem Videoadapter 48. Zusätzlich zu dem Monitor 47 kann der Personalcomputer üblicherweise andere Peripherieausgabegeräte einschließen, wie z.B. einen Lautsprecher 45 und Drucker (nicht gezeigt).
Der Personalcomputer 20 kann in einer Netzwerkumgebung unter Verwendung logischer Verbindungen zu einem oder mehreren Remote-Computern arbeiten, wie z.B. einem Remote-Computer 49. Der Remote-Computer 49 kann ein anderer Personalcomputer, Hand-Held-Gerät, Server, Router, Netzwerk-PC, Peer-Gerät oder anderer Netzwerknoten sein, und enthält üblicherweise viele oder alle der oben mit Bezug auf Personalcomputer 20 beschriebenen Elemente, obwohl nur ein Speichergerät 50 in 1 dargestellt worden ist. Die logischen Verbindungen, die in 1 gezeigt sind, schließen ein Local Area Network (LAN) 51 und ein Wide Area Network (WAN) 52 ein. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensweiten Netzwerken, Intranets und dem Internet.
Wenn in einer LAN-Netzwerkumgebung verwendet, ist der Personalcomputer 20 mit dem Local Area Network 51 durch eine Netzwerkschnittstelle oder Adapter 53 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der Personalcomputer 20 üblicherweise ein Modem 54 oder andere Mittel zum Herstellen von Verbindungen über das Wide Area Network 53, wie z.B. dem Internet, ein. Das Modem 54, welches intern oder extern sein kann, ist mit dem Systembus 23 über eine serielle Anschlussschnittstelle 46 verbunden. In einer Netzwerkumgebung können Programmmodule, oder Teile davon, die mit Bezug auf Personalcomputer 20 gezeigt sind, in dem Remote-Speichergerät gespeichert sein. Es wird begrüßt, dass die gezeigten Netzwerkverbindungen exemplarisch sind und andere Mittel zum Herstellen einer Kommunikationsverbindung zwischen den Computern verwendet werden können. Zum Beispiel kann eine kabellose Kommunikationsverbindung zwischen einem oder mehreren Teilen des Netzwerkes hergestellt werden.
2 und 3 sind Graphen, die die Natur des Pitch in menschlicher Sprache beschreiben. 2 ist ein Graph eines menschlichen Sprachsignals 200 mit der Amplitude entlang einer vertikalen Achse 202 und der Zeit entlang einer horizontalen Achse 204. Das Signal 200 enthält einen stimmhaften Teil 206, der zwischen zwei nicht-stimmhaften Teilen 208 und 210 liegt. Der stimmhafte Teil 206 enthält sich nahezu wiederholende Wellenformen, wie z.B. Wellenformen 212 und 214, die durch eine Pitchperiode 216 getrennt sind. Die Länge der Pitchperiode 216 bestimmt den Pitch des stimmhaften Teils 206.
3 stellt einen Graph 234 einer Grundpitchfrequenz (vertikale Achse 230) als eine Funktion der Zeit (horizontale Achse 232) für einen deklarativen Satz bereit. Die Grundpitchfrequenz, die ebenso als schlicht die Grundfrequenz F₀ bekannt ist, ist gleich der inversen Pitchperiode. Aus Graph 234 wird klar, dass sich der Pitch mit der Zeit verändert. Besonders die Grundpitchfrequenz steigt am Beginn des deklarativen Satzes, um das Subjekt des Satzes zu betonen und nimmt dann zum Ende des Satzes stetig ab. Der Pitch kann sich auch innerhalb eines Wortes ändern, dann vor allem an den Grenzen zwischen stimmhaften und nicht-stimmhaften Teilen eines Wortes.
Die Veränderungen des Pitch werden in einer Vielzahl von Sprachsystemen verfolgt, einschließlich Sprachsynthesesystemen, wie z.B. Sprachsynthesesystem 240 aus 4. Sprachsynthesesystem 240 schließt zwei Sektionen, eine Trainingssektion 242 und eine Synthesesektion 244 ein, die miteinander arbeiten, um künstliche Sprache aus eingegebenem Text zu bilden. Die Trainingssektion 242 sampelt und speichert Vorlagen aus menschlicher Sprache, die die Synthesesektion 244 verändert und kombiniert, um die künstliche Sprache zu bilden. Die Vorlagen, die durch die Trainingssektion 242 gebildet wurden, basieren auf einem analogen menschlichen Sprachsignal, das durch ein Mikrofon 43 erzeugt wird, wenn der Benutzer in das Mikrofon spricht.
Das analoge Signal aus dem Mikrofon 43 wird einem Analog-Digital-Wandler (A/D) 246 bereitgestellt, der das Signal periodisch sampelt, um digitale Samples von dem Signal zu bilden. Die digitalen Samples werden dann einer Feature-Extraction-Komponente 248 und einem Pitchtracker 250 bereitgestellt.
Die Feature Extraction-Komponente 248 entnimmt durch das Ausführen einer Spektralanalyse des digitalen Sprachsignals eine parametrische Darstellung von dem digitalisierten Eingangssprachsignal. Dies führt zu Koeffizienten, die die Frequenzkomponenten einer Folge von Frames des Eingangssprachsignals darstellen. Verfahren zum Ausführen der Spektralanalyse sind in dem Fachbereich der Signalverarbeitung gut bekannt und können Fast-Fourier-Transformationen, Linear Predictive Coding (LPG), und Cepstralkoeffizienten einschließen. Die resultierenden Spektralkoeffizienten werden der Analyse-Engine 252 bereitgestellt.
Das digitalisierte Signal wird auch dem Pitchtracker 250 bereitgestellt, welcher das Signal analysiert, um eine Reihe von Pitchmarken für das Signal zu ermitteln. Die Pitchmarken werden gesetzt, um den Pitch des digitalisierten Signals anzupassen, und unterscheiden sich zeitlich um einen Betrag gleich der Pitchperiode des Signals. Die Funktion des Pitchtrackers 250 bezüglich der vorliegenden Erfindung wird weiter unten diskutiert. Die Pitchmarken, die durch den Pitchtracker 250 erzeugt werden, werden der Analyse-Engine 252 bereitgestellt.
Die Analyse-Engine 252 erzeugt ein akustisches Modell von jeder phonetischen Spracheinheit, die in dem Eingangssprachsignal gefunden wird. Solche Spracheinheiten können Phoneme, Diphone (zwei Phoneme), oder Triphone (drei Phoneme) einschließen. Um diese Modelle zu erzeugen, konvertiert die Analyse-Engine 252 den Text des Sprachsignals in phonetische Einheiten. Der Text des Sprachsignals wird in dem Textspeicher 254 gespeichert und wird in seine phonetischen Einheiten unter Verwendung des Wörterbuchspeichers 256 eingeteilt, welcher eine phonetische Beschreibung jedes Worts aus dem Textspeicher 254 enthält.
Die Analyse-Engine 252 ruft dann ein Anfangsmodell von jeder phonetischen Spracheinheit aus dem Modellspeicher 258 ab. Beispiele solcher Modelle schließen Hidden Markov-Modelle für Phoneme mit drei Zuständen ein (tristate Hidden Markov Models). Die Anfangsmodelle werden mit den Spektralkoeffizienten des Eingangssprachsignals verglichen, und die Modelle werden verändert, bis sie das Eingangssprachsignal richtig darstellen. Die Modelle werden dann in dem Einheitenspeicher 260 abgelegt.
Weil der Speicher begrenzt ist, speichert die Analyse-Engine 252 nicht jede Instanz einer phonetischen Spracheinheit, die in dem Eingangssprachsignal gefunden wird. Stattdes sen wählt die Analyse-Engine 252 eine Teilmenge der Instanzen von jeder phonetischen Spracheinheit aus, um alle Ausprägungen der Spracheinheit darzustellen.
Für jede phonetische Spracheinheit, die in dem Einheitenspeicher 260 gespeichert ist, speichert die Analyse-Engine 252 auch die Pitchmarken zugehörig zu der Spracheinheit in dem Pitchspeicher 262.
Der Syntheseabschnitt 244 erzeugt ein Sprachsignal von dem Eingangstext 264, das einem natürlichen Sprachparser (natural language parser – NLP) 266 bereitgestellt wird. Der natürliche Sprachparser 266 teilt den Eingangstext in Wörter und Phrasen auf, und weist den Worten und Phrasen Kennzeichner zu, die die Beziehungen zwischen den verschiedenen Komponenten des Textes beschreiben. Der Text und die Kennzeichner werden zu einer LTS-Komponente 268 (LTS: letter-to-sound; Buchstaben-zu-Laut-Komponente) und einer Prosody-Engine 270 weitergegeben. Die LTS-Komponente 268 teilt jedes Wort in phonetische Spracheinheiten unter Verwendung des Wörterbuchs 256 und einer Reihe von Regeln für Buchstaben-zu-phonetischen-Einheiten (letter-to-phonetic unit rules), die in dem Regelspeicher 272 gefunden werden, wie z.B. Phoneme, Diphone oder Triphone. Die Regeln für Buchstaben-zu-phonetischen-Einheiten schließen Ausspracheregeln für Wörter ein, die gleich buchstabiert werden, aber unterschiedlich ausgesprochen werden, und Umwandlungsregeln zum Umwandeln von Zahlen in Text (d.h. Umwandeln von "1" in "eins").
Die Ausgabe der LTS 268 wird der phonetischen Zeichenfolge- und Betonungskomponente 274 bereitgestellt, welche eine phonetische Zeichenfolge mit geeigneter Betonung für den Eingabetext erzeugt. Die phonetische Zeichenfolge wird dann an die Prosody-Engine 270 weitergegeben, welche Markierungen für Pausen einfügt und prosodische Parameter ermittelt, die die Intensität, den Pitch und die Dauer jeder phonetischen Einheit in der Textzeichenfolge kennzeichnen. Üblicherweise ermittelt die Prosody-Engine 270 die Prosody unter Verwendung eines Prosodymodells, das in einer Prosodyspeichereinheit 276 gespeichert ist. Die phonetische Zeichenfolge und prosodischen Parameter werden dann zu dem Sprachgenerator 278 weitergegeben.
Der Sprachgenerator 278 ruft das Sprachmodell und die Pitchmarkierungen für jede phonetische Einheit in der phonetischen Zeichenfolge durch das Zugreifen auf die Speichereinheit 260 und den Pitchspeicher 262 ab. Der Sprachgenerator 278 wandelt dann den Pitch, die Intensität und Dauer der gespeicherten Einheiten um, so dass sie mit dem Pitch, der Intensität und der Dauer, die durch die Prosody-Engine 270 erkannt wurden, übereinstimmen. Dies führt zu einem digitalen Ausgangssprachsignal. Das digitale Ausgangssprachsignal wird dann einer Ausgabe-Engine 280 zur Speicherung oder für die Umwandlung in ein analoges Ausgabesignal bereitgestellt.
Der Schritt des Umwandelns des Pitch einer gespeicherten Einheit in den Pitch, der durch die Prosody-Engine 270 gesetzt ist, ist in den 5-1, 5-2, und 5-3 gezeigt. 5-1 ist ein Diagramm einer gespeicherten Spracheinheit 282, die aus Wellenformen 283, 284 und 285 besteht. Um den Pitch der Spracheinheit 282 zu verringern, teilt der Sprachgenerator 278 die einzelnen Wellenformen basierend auf den gespeicherten Pitchmarkierungen in Segmente auf und erhöht die Zeit zwischen den segmentierten Wellenformen. Diese Teilung ist in 5-2 mit den segmentierten Wellenformen 286, 287 und 288 gezeigt, welche den Wellenformen 283, 284 und 285 aus 5-1 entsprechen.
Wenn die Pitchmarkierungen für die Spracheinheiten nicht richtig ermittelt wurden, führt diese Segmentierungstechnik nicht zu einem geringeren Pitch. Ein Beispiel dafür kann in 5-3 gesehen werden, wo die gespeicherten Pitchmarkierungen, die verwendet werden, um das Sprachsignal zu segmentieren, die Pitchperiode falsch erkannt haben. Genauer gesagt haben die Pitchmarkierungen eine Pitchperiode erkannt, die zu lang für das Sprachsignal war. Dies führt zu einer Vielzahl von Spitzen 290 und 292, die in einem einzelnen Segment 294 erscheinen, was einen Pitch erzeugt, der größer ist als der Pitch, der durch die Prosody-Engine 270 aufgerufen wurde. Deshalb ist ein korrekter Pitchtracker für die Sprachsynthese essentiell.
Pitchtracking wird auch in Sprachkodierung verwendet, um die Menge an Sprachdaten zu reduzieren, die über einen Kanal gesendet wird. Im Wesentlichen komprimiert Sprachkodierung Sprachdaten durch Erkennen, dass in stimmhaften Teilen eines Sprachsignals das Sprachsignal aus sich nahezu wiederholenden Wellenformen besteht. Anstatt die exakten Werte von jedem Teil jeder Wellenform zu senden, senden Sprachkodierer die Werte einer Vorlagewellenform. Jede nachfolgende Wellenform wird dann durch einen Bezug auf die Wellenform beschrieben, die ihr direkt vorausgeht. Ein Beispiel eines solchen Sprachkodierers ist in dem Blockdiagramm von 6 gezeigt.
In 6 empfängt ein Sprachkodierer 300 ein Sprachsignal 302, das in ein digitales Signal durch einen Analog-zu-Digital-Konverter 304 umgewandelt wird. Das digitale Signal wird dann durch einen Linear-Predictive-Coding-Filter (LPC) 306 geleitet, welcher das Signal zu einem weißen Signal macht, um das Pitchtracking zu verbessern. Die Funktionen, die zum Weißmachen des Signals verwendet werden, werden durch LPC-Koeffizienten beschrieben, die später verwendet werden können, um das vollständige Signal wiederherzustellen. Das weiße Signal wird dem Pitchtracker 308 bereitgestellt, welcher den Pitch des Sprachsignals erkennt.
Das Sprachsignal wird auch einer Subtraktionseinheit 310 bereitgestellt, welche eine verzögerte Variante der Spracheinheit von der Spracheinheit abzieht. Die Größe, durch die die Spracheinheit verzögert wird, wird durch einen Verzögerungsschaltkreis 312 kontrolliert. Der Verzögerungsschaltkreis 312 verzögert Idealerweise das Sprachsignal, so dass die aktuelle Wellenform mit der vorangegangenen Wellenform in dem Sprachsignal abgestimmt wird. Um dieses Ergebnis zu erzielen, verwendet der Verzögerungsschaltkreis 312 den Pitch, der durch den Pitchtracker 308 ermittelt wurde, welcher die zeitweise Trennung zwischen aufeinander folgenden Wellenformen im Sprachsignal kennzeichnet.
Die verzögerte Wellenform wird mit einem Zuwachsfaktor "g(n)" in einer Multiplizierungseinheit 314 multipliziert, bevor sie von der aktuellen Wellenform abgezogen wird. Der Zuwachsfaktor wird so gewählt, dass die Differenz, die durch die Subtraktionseinheit 310 erzeugt wird, minimiert ist. Dies wird durch die Verwendung einer negativen Rückführungsschleife 316 erreicht, die den Zuwachsfaktor abgleicht, bis die Differenz minimiert ist.
Sobald der Zuwachsfaktor minimiert ist, werden die Differenz aus der Subtraktionseinheit 310 und die LPC-Koeffizienten in Codewörter durch eine Vektorquanitisierungseinheit 318 vektorquantisiert. Der Zuwachs g(n) und die Pitchperiode werden in Codewörter durch eine Skalarquantisierungseinheit 319 skalarquantisiert. Die Codewörter werden dann über den Kanal gesendet.
In dem Sprachkodierer aus 6 wird die Performance des Kodierers verbessert, wenn die Differenz aus der Subtraktionseinheit 310 minimiert ist. Weil eine falsche Ausrichtung der Wellenformen größere Differenzen zwischen den Wellenformen zur Folge haben, wird eine schlechte Performance des Pitchtrackers 308 zu einer schlechten Kodierungsperformance führen. Deshalb ist ein genauer Pitchtracker für effiziente Sprachkodierung essentiell.
In dem bisherigen Stand der Technik wurde Pitchtracking unter Verwendung von Kreuzkorrelation ausgeführt, welches eine Kennzeichnung des Grades an Ähnlichkeiten zwischen dem aktuellen Samplingfenster und dem vorhergehenden Samplingfenster bereitstellt. Die Kreuzkorrelation kann Werte zwischen –1 und +1 haben. Wenn die Wellenformen in den zwei Fenstern sich wesentlich unterscheiden, wird die Kreuzkorrelation nahe Null sein. Wenn die zwei Wellenformen jedoch ähnlich sind, wird die Kreuzkorrelation nahe +1 sein.
In solchen Systemen wird die Kreuzkorrelation für eine Anzahl von verschiedenen Pitchperioden berechnet. Im Allgemeinen wird die Testpitchperiode, die am nächsten zu der tatsächlichen Pitchperiode ist, die höchste Kreuzkorrelation erzeugen, weil die Wellenformen in den Fenstern sehr ähnlich sein werden. Für Testpitchperioden, die sich von den tatsächlichen Pitchperioden unterscheiden, wird die Kreuzkorrelation klein sein, weil die Wellenformen in den zwei Samplefenstern nicht aufeinander abgestimmt sind.
Unglücklicherweise identifizieren Pitchtracker nach dem Stand der Technik den Pitch nicht immer korrekt. Zum Beispiel kann mit einem Kreuzkorrelationssystem nach Stand der Technik ein nicht-stimmhafter Teil des Sprachsignals, das zufälligerweise eine sich halb wiederholende Wellenform hat, als ein stimmhafter Teil missinterpretiert werden, der einen Pitch bereitstellt. Dies ist ein erheblicher Fehler, nachdem nicht-stimmhafte Regionen keinen Pitch zu dem Sprachsignal liefern. Durch das Assoziieren eines Pitch mit einer nicht-stimmhaften Region berechnen Pitchtracker nach dem Stand der Technik den Pitch für das Sprachsignal falsch und erkennen fälschlicherweise eine nicht-stimmhafte Region als eine stimmhafte Region.
Durch eine Verbesserung des Kreuzkorrelationsverfahrens nach Stand der Technik haben die Erfinder ein Wahrscheinlichkeitsmodell für das Pitchtracking konstruiert. Das Wahrscheinlichkeitsmodell ermittelt die Wahrscheinlichkeit, mit der ein Testpitchtrack P der tatsächliche Pitchtrack für ein Sprachsignal ist. Diese Ermittlung wird zum Teil durch das Prüfen einer Sequenz von Fenstervektoren X gemacht, wobei P und X definiert sind durch: P = {P0, P1, ..., Pi, ..., PM-1} Gleichung 1 X = {x0, x1, ..., xi, ..., xM-1} Gleichung 2wobei P_i den "i"-ten Pitch in dem Pitchtrack darstellt, x_i den "i"-ten Fenstervektor in der Reihe von Fenstervektoren darstellt, und M die Gesamtanzahl der Pitches in dem Pitchtrack und die Gesamtanzahl der Fenstervektoren in der Sequenz von Fenstervektoren darstellt.
Jeder Fenstervektor x_i wird als eine Sammlung von Samples definiert, die innerhalb eines Fensters des Eingangssprachsignals gefunden wurden. In Form einer Gleichung: xi = {x[t – N/2], ....., x[t], ....., x[t + N/2 – 1} Gleichung 3wobei N die Größe des Fensters ist, t eine Zeitmarkierung in dem Zentrum des Fensters ist, und x[t] das Sample des Eingangssignals zur Zeit t ist.
In der Diskussion unterhalb wird der in Gleichung 3 definierte Fenstervektor als der aktuelle Fenstervektor x_t bezeichnet. Basierend auf dieser Bezeichnung kann der vorherige Fenstervektor x_t-P definiert werden als: xt-P = {x[t – P – N/2], ....., x[t – P], ....., x[t – P + N/2 – 1]} Gleichung 4wobei N die Größe des Fensters ist, P die Pitchperiode, die die Zeitperiode zwischen dem Zentrum des aktuellen Fensters und dem Zentrum des vorhergehenden Fensters beschreibt, und t – P das Zentrum des vorhergehenden Fensters ist.
Die Wahrscheinlichkeit, dass ein Testpitchtrack P der tatsächliche Pitchtrack angesichts der Sequenz von Fenstervektoren X ist, kann als f(P|X) dargestellt werden. Wenn diese Wahrscheinlichkeit für eine Anzahl von Pitchtracks berechnet wurde, können die Wahrscheinlichkeiten miteinander verglichen werden, um den Pitchtrack zu identifizieren, der am wahrscheinlichsten gleich dem tatsächlichen Pitchtrack ist. Deshalb ist die Maximum-a-posteriori-Schätzung (MAP) eines Pitchtracks: PMAP = argmax Pf(P|X) Gleichung 5unter Verwendung der Bayesregel kann die Wahrscheinlichkeit von Gleichung 5 erweitert werden auf:
wobei f(P) die Wahrscheinlichkeit des Pitchtracks P ist, der in irgendeinem Sprachsignal auftritt, f(X) die Wahrscheinlichkeit der Sequenz von Fenstervektoren X ist, und f(X|P) die Wahrscheinlichkeit der Sequenz von Fenstervektoren X angesichts des Pitchtracks P ist. Weil Gleichung 6 einen Pitchtrack sucht, der die Gesamtwahrscheinlichkeit maximiert, die durch die Faktoren auf der rechten Seite der Gleichung dargestellt ist, müssen nur Faktoren, die Funktionen des Testpitchtracks sind, in Betracht gezogen werden. Faktoren, die nicht eine Funktion des Testpitchtracks sind, können ignoriert werden. Weil f(X) nicht eine Funktion von P ist, wird die Gleichung 6 vereinfacht zu: PMAP = argmax Pf(P)f(X|P) Gleichung 7
Um den wahrscheinlichsten Pitchtrack zu ermitteln, ermittelt die vorliegende Erfindung deshalb zwei Wahrscheinlichkeiten für jeden Testpitchtrack. Zuerst ermittelt die vorliegende Erfindung angesichts eines Testpitchtrack P die Wahrscheinlichkeit, dass eine Sequenz von Fenstervektoren X in einem Sprachsignal auftreten werden. Zweitens ermittelt die vorliegende Erfindung die Wahrscheinlichkeit, dass ein Testpitchtrack P in irgendeinem Sprachsignal vorkommt.
Die Wahrscheinlichkeit einer Sequenz von Fenstervektoren X angesichts des Testpitchtrack P wird durch die vorliegende Erfindung als das Produkt einer Gruppe von einzelnen Wahrscheinlichkeiten angenähert, wobei jede Wahrscheinlichkeit in der Gruppe die Wahrscheinlichkeit darstellt, dass ein bestimmter Fenstervektor x_i in dem Sprachsignal angesichts eines Pitch P_i für diesen Fenstervektor auftritt. In Form einer Gleichung:
wobei M die Anzahl der Fenstervektoren in der Sequenz von Fenstervektoren X und die Anzahl der Pitches in dem Pitchtrack P ist.
Die Wahrscheinlichkeit f(x_i, P_i) eines einzelnen Fenstervektors x_i, der in einem Sprachsignal angesichts eines Pitch P_i für dieses Zeitfenster auftritt, kann durch das Modulieren des Sprachsignals ermittelt werden. Die Basis für dieses Modell ist die Beobachtung der Erfinder, dass ein aktueller Fenstervektor als eine Funktion eines vergangenen Fenstervektors beschrieben werden kann gemäß: xt = pxt-P + et Gleichung 9wobei x_t der aktuelle Fenstervektor ist, p ein Prognosezuwachs ist, x_t-P der vorangegangene Fenstervektor ist, und e_t ein Fehlervektor ist. Diese Beziehung kann in den zweidimensionalen Vektorraum in 7 gesehen werden, wobei x_t als die Hypotenuse 500 eines Dreiecks 502 gezeigt ist, das px_t-P als einen Schenkel 504 und et als einen anderen Schenkel 506 hat. Der Winkel 508 zwischen Hypotenuse 500 und Schenkel 504 ist als θ bezeichnet.
Aus 7 kann gesehen werden, dass der minimale Prognosefehler |e_t|² definiert ist als: |et|2 = |xt|2 – |xt|2cos2(θ) Gleichung 10 wobei gilt
In Gleichung 11 ist < x_t, x_t-P > das Skalarprodukt von x_t und x_t-P, welches definiert ist als:
wobei x[t + n] ein Sample eines Eingangssignals zur Zeit t + n ist, x[t + n – P] das Sample des Eingangssignals zur Zeit t + n – P ist, und N die Größe des Fensters ist. |x_t| aus Gleichung 11 ist die Quadratwurzel des Skalarprodukts aus x_t mit x_t, und |x_t-P| ist die Quadratwurzel aus dem Skalarprodukt von x_t-P mit x_t-P. In Form einer Gleichung:
Das Kombinieren der Gleichungen 11, 12, 13 und 14 erzeugt:
Die rechte Seite der Gleichung 15 ist gleich der Kreuzkorrelation α_t(P) des aktuellen Fenstervektors und des vorherigen Fenstervektors für Pitch P. Die Kreuzkorrelation kann deshalb durch cos(θ) in Gleichung 10 ersetzt werden, was dazu führt, dass: |et|2 = |xt|2 – |xt|2α2t (P) Gleichung 16
Gemäß einer Ausführungsform der Erfindung modellieren die Erfinder die Wahrscheinlichkeit für das Auftreten eines minimalen Prognosefehlers |e_t|² als einen Null-Mittel-Gaußschen Zufallsvektors (zero-mean Gaussian random vector) mit einer Standardabweichung σ. Die Wahrscheinlichkeit für irgendeinen Wert von |e_t|² ist deshalb gegeben durch:
Die logarithmische Wahrscheinlichkeit von |e_t|² kann von Gleichung 17 durch das Logarithmieren auf beiden Seiten ermittelt werden, was dazu führt, dass:
welches vereinfacht werden kann durch das Darstellen der Konstanten als eine einzelne Konstante V, um Folgendes zu erzeugen:
Das Ersetzen von |e_t|² unter Verwendung von oben genannter Gleichung 16 resultiert in:
Die Faktoren, die nicht eine Funktion des Pitch sind, können gesammelt werden und durch eine Konstante K dargestellt werden, weil diese Faktoren die Optimierung des Pitch nicht beeinflussen. Diese Vereinfachung erzeugt:
Die Wahrscheinlichkeit, einen bestimmten Prognosefehler angesichts einer Pitchperiode P zu haben, wie es in Gleichung 21 beschrieben ist, ist die gleiche, wie die Wahrscheinlichkeit des aktuellen Fenstervektors angesichts des vorangegangenen Fenstervektors und einer Pitchperiode P. Gleichung 21 kann deshalb umgeschrieben werden als:
wobei f(x_t|P_t) die Wahrscheinlichkeit des aktuellen Fenstervektors angesichts des vorhergehenden Fenstervektors und der Pitchperiode P ist.
Wie oben erwähnt, gibt es zwei Wahrscheinlichkeiten, die gemäß der vorliegenden Erfindung kombiniert werden, um den wahrscheinlichsten Pitchtrack zu identifizieren. Die erste ist die Wahrscheinlichkeit eines nachfolgenden Fenstervektors angesichts eines Pitchtrack. Diese Wahrscheinlichkeit kann durch das Kombinieren von Gleichung 22 mit Gleichung 8 von oben berechnet werden. Die zweite Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass der Pitchtrack in dem Sprachsignal auftritt.
Die vorliegende Erfindung nähert die Wahrscheinlichkeit, dass der Pitchtrack in dem Sprachsignal vorkommt, durch das Annehmen an, dass die a priori-Wahrscheinlichkeit einer Pitchperiode in einem Frame nur von der Pitchperiode für den vorhergehenden Frame abhängt. Die Wahrscheinlichkeit des Pitchtrack wird deshalb das Produkt der Wahrscheinlichkeiten, dass jeder einzelne Pitch in dem Sprachsignal angesichts des vorhergehenden Pitch in dem Pitchtrack vorkommt. In Form einer Gleichung: f(P) = f(PT-1|PT-2)f(PT-2|PT-3)....f(P1|P0)f(P0) Gleichung 23
Eine mögliche Auswahl für die Wahrscheinlichkeit f(P_T-1|P_T-2) ist eine Gaußsche Verteilung mit einem Mittel, das gleich der vorhergehenden Pitchperiode ist. Dies ergibt eine logarithmische Wahrscheinlichkeit für eine einzelne Pitchperiode von:
wobei γ die Standardabweichung der Gaußschen Verteilung ist und k' eine Konstante ist.
Das Kombinieren der Gleichungen 7, 8 und 23, und das Umgruppieren der Ausdrücke erzeugt:
Weil der Logarithmus monoton ist, maximiert der Wert von P, der Gleichung 25 maximiert, auch den Logarithmus auf der rechten Seite von Gleichung 25:
Das Kombinieren von Gleichung 26 mit Gleichung 22 und 24, und das Ignorieren der Konstanten k und k' erzeugt:
wobei λ = σ²/γ² gilt. Es ist zu beachten, dass in Gleichung 27 ein 2σ²-Nenner von der rechten Seite der Gleichung entfernt worden ist, weil es für die Ermittlung des wahrscheinlichsten Pitchtracks unerheblich ist.
Die Wahrscheinlichkeit, dass ein Testpitchtrack der tatsächliche Pitchtrack ist, besteht deshalb aus drei Ausdrücken. Der erste ist ein Anfangsenergieausdruck α 2 / 0(P₀)|χ₀|², der die Energie beschreibt, die in dem ersten Fenster gefunden wurde, das von dem Sprachsignal gesampelt wurde.
Der zweite Ausdruck ist ein Prognoseenergieausdruck α 2 / i(P_i)|χ_i|², der eine Modifikation des Kreuzkorrelationsausdrucks darstellt, der in den Pitchtrackern nach Stand der Technik gefunden wird. Der Prognoseenergiewert schließt zwei Faktoren ein: |x_i|², die gesamte Energie des aktuellen Fensters und α 2 / i(P_i), die Kreuzkorrelation zwischen dem aktuellen Fenster und dem vorhergehenden Fenster. Wegen der Einrechnung der gesamten Energie ist dieser Ausdruck beim Erkennen des Pitch signifikant genauer als der Kreuzkorrelationsausdruck nach Stand der Technik. Ein Grund dafür ist, dass der Prognoseenergieausdruck die Gewichtung ungewöhnlich großer Kreuzkorrelationen in nicht-stimmhaften Teilen des Sprachsignals reduziert. Diese Gewichtungsreduzierung, welche nicht in dem Stand der Technik gefunden wird, kommt zustande, weil nicht-stimmhafte Teile des Sprachsignals eine geringe Gesamtenergie haben, was kleine Prognoseenergien zur Folge hat.
Der dritte Ausdruck in der Wahrscheinlichkeit eines Testpitchtrack ist der Pitchübergangsausdruck λ(P_i – P_i-1)², der große Übergänge in dem Pitchtrack benachteiligt. Die Einrechnung dieses Konstrukts in Gleichung 27 ist eine weitere Verbesserung gegenüber dem Stand der Technik. In Systemen nach Stand der Technik wurde ein separater Schritt zum Glätten des Pitchtrack ausgeführt, sobald ein wahrscheinlichster Pitch bei jeder einer Reihe von Zeitmarkierungen ermittelt wurde. Gemäß der vorliegenden Erfin dung ist dieser separate Schritt in der einzelnen Wahrscheinlichkeitsberechnung für einen Pitchtrack enthalten.
Der Aufsummierungsteil von Gleichung 27 kann als die Summe einer Sequenz von einzelnen Wahrscheinlichkeitsergebnissen angesehen werden, wobei jedes Ergebnis die Wahrscheinlichkeit eines bestimmten Pitchübergangs zu einer bestimmten Zeit angibt. Diese einzelnen Wahrscheinlichkeitsergebnisse werden dargestellt als: Si(Pi, Pi-1) = α2i (Pi)|xi|2 – λ(Pi – Pi-1)2 Gleichung 28wobei S_i(P_i, P_i-1) das Wahrscheinlichkeitsergebnis des Überleitens vom Pitch P_i-1 zur Zeit i – 1 zu dem P_i zur Zeit i ist.
Das Kombinieren der Gleichung 28 mit Gleichung 27 erzeugt:
Gleichung 29 stellt den wahrscheinlichsten Pitchtrack bereit, der bei Pitch P_M-1 endet. Um den wahrscheinlichsten Pitch zu berechnen, der bei einem Pitch P_M endet, wird Gleichung 29 erweitert, um zu erzeugen:
Durch das Vergleichen von Gleichung 30 mit Gleichung 29 kann gesehen werden, dass, um einen wahrscheinlichsten Pitchpfad zu berechnen, der bei einem neuen Pitch P_M endet, die Pitchergebnisse zugehörig zum Übergang zu dem neuen Pitch S_M(P_M, P_M-1) zu den Wahrscheinlichkeiten hinzugefügt werden, die für die Pitchpfade berechnet wurden, die bei dem vorhergehenden Pitch P_M-1 enden.
Gemäß einer Ausführungsform der Erfindung werden Pitchtrackergebnisse zu einer Reihe von Zeitmarken t = iT ermittelt, so dass die Pitchtrackergebnisse, die bei Pitch P_M-1 enden, zur Zeit t = (M – 1)T ermittelt werden. Durch das Speichern der Pitchtrackergebnisse, die zur Zeit t = (M – 1)T ermittelt wurden und unter Verwendung von Gleichung 30 braucht diese Ausführungsform der Erfindung nur die Pfadergebnisse S_M(P_M, P_M-1) zu der Zeit t = MT zu ermitteln, um die Pitchtrackergebnisse zu berechnen, die bei Pitch P_M enden.
Basierend auf der Gleichung 30 wird ein Pitchtracker 350 der vorliegenden Erfindung, wie in 8 gezeigt, bereitgestellt. Die Funktion des Pitchtrackers 350 ist in dem Flussdiagramm in 9 beschrieben.
Der Pitchtracker 350 empfängt digitale Samples eines Sprachsignals bei einem Eingang 352. In vielen Ausführungsformen wird das Sprachsignal Band-passgefiltert, bevor es in digitale Samples konvertiert wird, so dass hohe und niedrige Frequenzen, die nicht zugehörig zu stimmhafter Sprache sind, entfernt werden. Innerhalb des Pitchtrackers 350 werden die digitalen Samples in einem Speicherbereich 354 gespeichert, um es dem Pitchtracker 350 zu erlauben, auf die Samples mehrmals zuzugreifen.
Bei Schritt 520 in 9 bezeichnet ein Pitchbezeichner 360 in 8 einen Testpitch P_M für die aktuelle Zeitperiode t = MT. In vielen Ausführungsformen ruft der Pitchbezeichner 360 den Testpitch P_M aus einer Pitchtabelle 362 ab, die eine Liste mit beispielhaften Pitches enthält, die in menschlicher Sprache gefunden werden. In vielen Ausführungsformen enthält die Liste mit den Pitches Pitches, die logarithmisch voneinander getrennt sind. Gemäß einer Ausführungsform wurde eine Auflösung von einem Ein-Viertel-Halbton (one-quarter semitone) gefunden, um zufriedenstellende Ergebnisse zu erzielen. Der abgerufene bestimmte Pitch ist willkürlich, weil jeder der aufgelisteten Pitches für diese Zeitperiode, wie unten diskutiert, eventuell abgerufen wird.
Der Testpitch P_M, der durch den Pitchbezeichner 360 bezeichnet wurde, wird einem Fenstersampler 358 bereitgestellt. Basierend auf dem bezeichneten Testpitch und den Samples, die in dem Samplespeicher 354 gespeichert sind, bildet der Fenstersampler 358 bei einem Schritt 522 in 9 einen aktuellen Fenstervektor x_t und einen vorhergehenden Fenstervektor x_t-p. Der aktuelle Fenstervektor und der vorhergehende Fenstervektor schließen eine Sammlung von Samples ein, wie oberhalb durch Gleichungen 3 und 4 beschrieben.
Beispiele für die Samples, die in dem aktuellen Fenstervektor x_t und dem vorgehenden Fenstervektor x_t-P gefunden werden, sind in 10 gezeigt, welche ein Diagramm eines Eingangssprachsignals 404 als eine Funktion nach der Zeit ist. In 10 wird ein aktuelles Fenster 402 von dem vorhergehenden Fenster 400 durch die Pitchperiode 406 getrennt, die durch den Pitchbezeichner 260 bezeichnet wurde. Die Samples x[t – p – 4], x[t – P – 3], und x[t – P – 2] des vorhergehenden Fenstervektors x_t-P werden als Samples 408, 410 und 412 in dem vorgehenden Fenster 400 gezeigt. Die Samples x[t + n – 4], x[t + n – 3] und x[t + n – 2] des aktuellen Fenstervektors x_t werden als Samples 414, 416 und 418 im aktuellen Fenster 402 gezeigt.
Der Fenstersampler 358 stellt den aktuellen Fenstervektor x_t dem Energieberechner 366 bereit, welcher die Energie |x_t|² des Vektors bei einem Schritt 524 in 9 berechnet. In einer Ausführungsform wird die Energie unter Verwendung der Gleichung 13 von oben berechnet.
Der Fenstersampler 358 stellt den aktuellen Fenstervektor x_t auch dem Kreuzkorrelationsberechner 364 zusammen mit dem vorhergehenden Fenstervektor x_t-P bereit. Unter Verwendung von Gleichung 15 von oben berechnet der Kreuzkorrelationsberechner 364 bei Schritt 526 in 9 eine vorwärtsgerichtete Kreuzkorrelation α_t(P). In manchen Ausführungsformen der Erfindung wird die Größe des Fensters N in Gleichung 15 gleich dem Pitch P gesetzt, der getestet wird. Um zu verhindern, dass Fenster verwendet werden, die in diesen Ausführungsformen zu klein sind, benötigen die Erfinder eine minimale Fensterlänge von 5 Millisekunden, ungeachtet des Pitch P, der getestet wird.
In manchen Ausführungsformen der Erfindung stellt der Fenstersampler 358 auch einen nächsten Fenstervektor x_t+P dem Kreuzkorrelationsberechner 364 bereit. Der nächste Fenstervektor x_t+P ist dem aktuellen Fenstervektor x_t in der Zeit durch eine Größe gleich dem Pitch voraus, der durch den Pitchbezeichner 360 erzeugt wurde. Der Kreuzkorrelationsberechner 364 verwendet den nächsten Fenstervektor x_t+P, um eine zurückgerichtete Kreuzkorrelation α_t(–P) bei Schritt 528 in 9 zu berechnen. Die rückwärtsgerichtete Kreuzkorrelation α_t(–P) kann unter Verwendung der Gleichung 15 von oben und durch Ersetzen von (+P) durch (–P) berechnet werden.
Nach dem Berechnen der rückwärtsgerichteten Kreuzkorrelation bei Schritt 528 vergleichen manche Ausführungsformen der vorliegenden Erfindung bei Schritt 530 die vorwärtsgerichtete Kreuzkorrelation α_t(P) mit der rückwärtsgerichteten Kreuzkorrelation α_t(–P). Dieser Vergleich wird durchgeführt, um zu ermitteln, ob das Sprachsignal sich plötzlich geändert hat. Wenn die rückwärtsgerichtete Kreuzkorrelation für die gleiche Pitchperiode höher ist als die vorwärtsgerichtete Kreuzkorrelation, hat sich das Eingangssprachsignal wahrscheinlich zwischen dem vorhergehenden Fenster und dem aktuellen Fenster geändert. Solche Veränderungen treten in dem Sprachsignal üblicherweise an den Grenzen zwischen Phonemen auf. Wenn sich das Signal zwischen dem vorhergehenden Fenster und dem aktuellen Fenster geändert hat, wird die rückwärtsgerichtete Kreuzkorrelation eine genauere Ermittlung der Prognoseenergie bei dem aktuellen Fenster bereitstellen als die vorwärtsgerichtete Kreuzkorrelation bereitstellen wird.
Wenn die rückwärtsgerichtete Kreuzkorrelation höher ist als die vorwärtsgerichtete Kreuzkorrelation, wird die rückwärtsgerichtete Kreuzkorrelation bei Schritt 532 mit Null verglichen. Wenn die rückwärtsgerichtete Kreuzkorrelation bei Schritt 532 kleiner als null ist, gibt es eine negative Kreuzkorrelation zwischen dem nächsten Fenster und dem aktuellen Fenster. Weil die Kreuzkorrelation quadriert wird, bevor sie zum Berechnen eines Pitchergebnisses in Gleichung 27 verwendet wird, könnte eine negative Kreuzkorrelation fälschlich für eine positive Kreuzkorrelation in Gleichung 27 gehalten werden. Um dies zu verhindern, wird, wenn bei Schritt 532 die rückwärtsgerichtete Kreuzkorrelation kleiner als null ist, eine zweifach modifizierte Kreuzkorrelation α_t''(P) bei Schritt 534 auf Null gesetzt. Wenn die rückwärtsgerichtete Kreuzkorrelation bei 532 größer als null ist, wird eine einfach modifizierte Kreuzkorrelation α_t'(P) bei Schritt 536 gleich der rückwärtsgerichteten Kreuzkorrelation α_t(–P) gesetzt.
Wenn die vorwärtsgerichtete Kreuzkorrelation bei Schritt 530 größer als die rückwärtsgerichtete Kreuzkorrelation ist, wird die vorwärtsgerichtete Kreuzkorrelation bei Schritt 538 mit null verglichen. Wenn bei Schritt 538 die vorwärtsgerichtete Kreuzkorrelation kleiner als null ist, wird die zweifach modifizierte Korrelation α_t''(P) bei Schritt 534 auf Null gesetzt. Wenn die vorwärtsgerichtete Kreuzkorrelation bei Schritt 538 größer als null ist, wird die einfach modifizierte Kreuzkorrelation α_t'(P) bei Schritt 542 gleich der vorwärtsgerichteten Kreuzkorrelation α_t(P) gesetzt.
In weiteren Ausführungsformen der vorliegenden Erfindung wird die einfach modifizierte Kreuzkorrelation α_t'(P) des Weiteren in Schritt 544 modifiziert, um eine zweifach modifizierte Kreuzkorrelation α_t''(P) durch das Abziehen eines harmonischen Reduktionswertes von dem einfach modifizierten Kreuzkorrelationswertes α_t'(P) zu bilden. Der harmonische Reduktionswert hat zwei Teile. Der erste Teil ist eine Kreuzkorrelation von Fenstervektoren, die durch eine Hälfte der Pitchperiode (P/2) getrennt sind. Der zweite Teil ist ein harmonischer Reduktionsfaktor, der mit dem P/2-Kreuzkorrelationswert multipliziert wird. In Form einer Gleichung wird diese Modifizierung dargestellt durch: α''t (P) = α't (P) – βα't {P/2) Gleichung 31wobei β der Reduktionsfaktor ist, so dass 0 < β < 1 gilt. Gemäß manchen Ausführungsformen ist β (.2).
Nach den Schritten 534 und 544 geht der Prozess in 9 bei Schritt 546 weiter, wo aktuelle Pfadergebnisse S_M(P_M, P_M-1) für jeden Pfad berechnet werden, der sich von einem Pitch bei der vorgehenden Zeitmarke zu dem aktuell ausgewählten Pitch bei der aktuellen Zeitmarke t = MT erstreckt. Die aktuellen Pfadergebnisse werden unter Verwendung der oben genannten Gleichung 28 berechnet. Die Prognoseenergie α 2 / t(P_t)|x_t|² wird durch Quadrieren der Ausgabe des Kreuzkorrelationsberechners 364 und Multiplizieren des Quadrats mit dem Ergebnis des Energieberechners 366 berechnet. Diese Funktionen sind durch den Quadrierungsblock 368 und Multiplikationsblock 370 in 8 dargestellt. Es ist zu beachten, dass für manche Ausführungsformen zweifach modifizierte Kreuzkorrelationen α_t''(P_t) durch den Kreuzkorrelationsberechner 364 erzeugt werden anstatt α_t(P_t). In solchen Ausführungsformen wird die zweifach modifzierte Kreuzkorrelation verwendet, um die Prognoseenergie zu berechnen.
Die Pitchübergangsausdrücke λ(P_M – P_M-1)² aus Gleichung 28 werden durch den Pitchübergangsberechner 372 in 8 erzeugt. Für jeden Pitch zur Zeit t = (M – 1)T erzeugt der Pitchübergangsberechner 372 einen eigenen Pitchübergangsausdruck λ(P_M – P_M-1)². Der Pitchübergangsberechner 372 empfängt den aktuellen Pitch P_M von dem Pitchbezeichner 360 und erkennt unter Verwendung der Pitchtabelle 362 die vorhergehenden Pitches P_M-1.
Die einzelnen Pitchübergangsausdrücke, die durch den Pitchübergangsberechner 372 produziert wurden, werden jeder von der Ausgabe des Multiplizierers 370 durch eine Subtraktionseinheit 374 abgezogen. Dies erzeugt ein Pitchergebnis für jeden der Pfade von den vorhergehenden Pitches P_M-1 zur Zeit t = (M – 1)T zu dem aktuellen Testpitch P_M zur Zeit t = MT. Diese Pitchergebnisse werden dann einer dynamischen Programmiereinheit 376 bereitgestellt.
Bei Schritt 548 in 9 ermittelt der Pitchbezeichner 360, ob Pfadergebnisse für jeden Pitch P_M zur Zeit t = MT generiert wurden. Wenn ein Pitch zur Zeit t = MT nicht verwendet worden ist, um Pfadergebnisse zu generieren, wird dieser Pitch durch den Pitchbezeichner 360 bei Schritt 550 ausgewählt. Der Vorgang kehrt dann zu Schritt 522 zurück, um Pfadergebnisse für den Übergang von den vorhergehenden Pitches P_M-1 zu dem neu ausgewählten Pitch P_M zu generieren. Dieser Vorgang fährt fort, bis Pfadergebnisse für jeden der Pfade von allen vorhergehenden Pitches P_M-1 zu jedem möglichen aktuellen Pitch P_M berechnet worden sind.
Wenn alle der aktuellen Pfadergebnisse bei Schritt 548 berechnet worden sind, fährt der Vorgang bei Schritt 552 fort, wo das dynamische Programmieren 376 die Gleichung 30 verwendet, um die aktuellen Pfadergebnisse S_M(P_M, P_M-1) zu den vergangen Pitchtrackergebnissen hinzuzufügen. Wie oben beschrieben, stellen die vergangenen Pitchtrackergebnisse die Summe der Pfadergebnisse für jeden Track dar, der zu der vorhergehenden Zeitmarke t = (M – 1)T endet. Das Hinzuzählen der aktuellen Pfadergebnisse zu den vergangenen Pitchtrackergebnissen resultiert in Pitchtrackergebnissen für jeden Pitchtrack, der zur aktuellen Zeitmarke t = MT endet.
Als Teil dieses Vorgangs eliminieren manche Ausführungsformen der dynamischen Programmierung 376 Pitchtracks, die extrem geringe Pfadergebnisse haben. Dies reduziert die Komplexität der Berechnungen zukünftiger Pfadergebnisse ohne einen signifikanten Einfluss auf die Leistung zu haben. Solches Abschneiden veranlasst die möglichen Pitchtracks für alle Zeiten vor einer Zeit t = (M – S)T sich einem einzelnen wahrscheinlichsten Pitchtrack zu nähern, wobei der Wert von "S" teilweise durch den Schwierigkeitsgrad des Abschneidens und die Stabilität des Pitches in dem Sprachsignal ermittelt wird. Dieser wahrscheinlichste Pitchtrack wird dann bei Schritt 554 ausgegeben.
Die Ergebnisse für überlebende Pitchtracks, die zur Zeit t = MT ermittelt werden, werden bei Schritt 556 gespeichert, und die Zeitmarke wird bei Schritt 558 zu t = (M + 1)T erhöht. Der Prozess aus 9 kehrt dann zu Schritt 520 zurück, wo der Pitchbezeichner 360 den ersten Pitch für die neue Zeitmarke auswählt.
Zusätzlich zu dem Erkennen eines Pitchtrack stellt die vorliegende Erfindung auch Mittel zum Erkennen stimmhafter und nicht-stimmhafter Teile eines Sprachsignals bereit. Um dies zu tun, definiert die vorliegende Erfindung ein Hidden-Markov-Modell (HMM) mit zwei Zuständen (two-state Hidden Markov Model), das in 11 als Modell 600 gezeigt ist. Modell 600 schließt einen stimmhaften Zustand 602 und einen nicht-stimmhaften Zustand 604 mit Übergangspfaden 606 und 608 ein, die sich zwischen den zwei Zuständen erstrecken. Modell 600 schließt auch Eigenübergangspfade 610 und 612 ein, die die Zustände 602 bzw. 604 mit sich selbst verbinden.
Die Wahrscheinlichkeit, entweder in dem stimmhaften Zustand oder dem nicht-stimmhaften Zustand zu irgendeiner Zeitperiode zu sein, ist die Kombination aus zwei Wahrscheinlichkeiten. Die erste Wahrscheinlichkeit ist eine Übergangswahrscheinlichkeit, die die Wahrscheinlichkeit darstellt, dass ein Sprachsignal von einer stimmhaften Region zu einer nicht-stimmhaften Region und umgekehrt übergehen wird, oder dass ein Sprachsignal in einer stimmhaften Region oder nicht-stimmhaften Region bleiben wird. Die erste Wahrscheinlichkeit gibt deshalb die Wahrscheinlichkeit an, dass einer der Übergangspfade 606, 608, 610 oder 612 durch das Sprachsignal überquert wird. In vielen Ausführungsformen sind die Übergangswahrscheinlichkeiten empirisch ermittelt, um sicherzustellen, dass beide, die stimmhaften und nicht-stimmhaften Regionen, nicht zu kurz sind, und um eine Kontinuität einzuführen.
Die zweite Wahrscheinlichkeit, die zum Ermitteln, ob das Sprachsignal in einer stimmhaften Region oder einer nicht-stimmhaften Region ist, verwendet wird, basiert auf Charakteristiken des Sprachsignals in der aktuellen Zeitperiode. Insbesondere basiert die zweite Wahrscheinlichkeit auf einer Kombination der Gesamtenergie des aktuellen Samplefensters |x_t|² und der zweifach modifizierten Kreuzkorrelation α_t''(P_MAP) des aktuellen Samplingfensters, die bei dem Maximum-a-priori-Pitch P_MAP ermittelt wurde, der für das Fenster erkannt wurde. Gemäß der vorliegenden Erfindung sind diese Charakteristiken als zu starke Indikatoren für stimmhafte und nicht-stimmhafte Regionen gefunden worden. Dies kann in dem Diagramm in 12 gesehen werden, welches eine relative Gruppierung von stimmhaften Fenstersamples 634 und nicht-stimmhaften Fenstersamples 636 als eine Funktion der Gesamtenergiewerte (horizontale Achse 630) und Kreuzkorrelationswerte (vertikale Achse 632) zeigt. In 12 kann gesehen werden, dass stimmhafte Fenstersamples 634 dazu tendieren, eine hohe Gesamtenergie und hohe Kreuzkorrelation zu haben, während nicht-stimmhafte Fenstersamples 636 dazu tendieren, eine geringe Gesamtenergie und geringe Kreuzkorrelation zu haben.
Ein Verfahren gemäß der vorliegenden Erfindung zum Erkennen der stimmhaften und nicht-stimmhaften Regionen eines Sprachsignals ist in dem Flussdiagramm von 13 gezeigt. Das Verfahren beginnt bei Schritt 650, wo eine Kreuzkorrelation unter Verwendung eines aktuellen Fenstervektors x_t berechnet wird, der zu einer aktuellen Zeit t zentriert ist, und einem vorgehenden Fenstervektor x_t-P, der zu einer vorhergehenden Zeit t – P_MAP zentriert ist. In der Kreuzkorrelationsberechnung ist P_MAP der Maximum-a-priori-Pitch, der für die aktuelle Zeit t durch den oben beschriebenen Pitchtrackingprozess erkannt wurde. Zusätzlich ist in einigen Ausführungsformen die Länge der Fenstervektoren x_t und x_t-P gleich dem Maximum-a-priori-Pitch P_MAP.
Nachdem die Kreuzkorrelation in Schritt 650 berechnet worden ist, wird die Gesamtenergie des Fenstervektors x_t bei Schritt 652 ermittelt. Die Kreuzkorrelation und Gesamtenergie werden dann verwendet, um bei Schritt 654 die Wahrscheinlichkeit zu berechnen, dass der Fenstervektor eine stimmhafte Region abdeckt. In einer Ausführungsform basiert diese Berechnung auf einem Gaußschen Modell der Beziehung zwischen stimmhaften Samples und Gesamtenergie und Kreuzkorrelation. Das Mittel und die Standardabweichung der Gaußschen Verteilung werden unter Verwendung des EM (Estimate Maximize)-Algorithmusses berechnet, der das Mittel und die Standardabweichung für beides, die stimmhaften und nicht-stimmhaften Cluster, basierend auf einer Sampleäußerung abschätzt. Der Algorithmus beginnt mit einer Anfangsschätzung des Mittels und der Standardabweichung von beiden, den stimmhaften und nicht-stimmhaften Clustern. Anschließend werden Samples mit der Sampleäußerung darauf basierend klassifiziert, welche Cluster die höchste Wahrscheinlichkeit bieten. Angesichts dieser Zuweisung von Samples zu Clustern werden das Mittel und die Standardabweichung für jedes Cluster erneut abgeschätzt. Dieser Prozess wird ein paar Mal wiederholt, bis eine Konvergenz erreicht wird, so dass sich das Mittel und die Standardabweichung für jedes Cluster zwischen den Wiederholungen nicht viel verändert. Die Anfangswerte sind für diesen Algorithmus einigermaßen wichtig. Gemäß einer Ausführungsform der Erfindung wird das Ausgangsmittel des stimmhaften Zustands gleich dem Sample mit der höchsten logarithmischen Energie (log-energy) gesetzt, und das Mittel des nicht-stimmhaften Zustandes wird gleich dem Sample der geringsten logarithmischen Energie gesetzt. Die Anfangsstandardabweichung von beiden, stimmhaften und nicht-stimmhaften Clustern, werden bei einem Wert gleich der globalen Standardabweichung für alle Samples einander gleichgesetzt.
In Schritt 656 berechnet das Verfahren die Wahrscheinlichkeit, dass der aktuelle Fenstervektor x_t einen nicht-stimmhaften Teil des Sprachsignals abdeckt. In einer Ausführungsform basiert diese Berechnung auch auf einem Gaußschen Modell der Beziehung zwischen nicht-stimmhaften Samples und Gesamtenergie und Kreuzkorrelation.
Bei Schritt 658 wird die passende Übergangswahrscheinlichkeit zu jeder der Wahrscheinlichkeiten hinzugezählt, die in Schritten 654 und 656 berechnet wurden. Die passende Übergangswahrscheinlichkeit ist die Wahrscheinlichkeit zugehörig zum Übergang zu dem entsprechenden Zustand von dem vorhergehenden Zustand des Modells. Wenn zu der vorhergehenden Zeitmarke das Sprachsignal im nicht-stimmhaften Zustand 604 in 11 war, würde deshalb die Übergangswahrscheinlichkeit zugehörig zum stimmhaften Zustand 602 die Wahrscheinlichkeit zugehörig zum Übergangspfad 606 sein. Für den gleichen vorhergehenden Zustand würde die Übergangswahrscheinlichkeit zugehörig zum nicht-stimmhaften Zustand 604 die Wahrscheinlichkeit zugehörig zum Übergangspfad 612 sein.
Bei Schritt 660 werden die Summen der Wahrscheinlichkeiten zugehörig zu jedem Zustand zu entsprechenden Ergebnissen für eine Vielzahl von möglichen stimmhaften Tracks hinzugezählt, die den aktuellen Zeitframe bei dem stimmhaften und nicht-stimmhaften Zustand erfassen. Unter Verwendung dynamischer Programmierung kann eine stimmhafte Entscheidung für eine vergangene Zeitperiode von den aktuellen Ergebnissen der stimmhaften Tracks ermittelt werden. Solche dynamischen Programmierungssysteme sind in der Fachwelt gut bekannt.
Bei Schritt 661 ermittelt das Stimmtrackingsystem, ob dies der letzte Frame in dem Sprachsignal ist. Wenn dies nicht der letzte Frame ist, wird die nächste Zeitmarke in dem Sprachsignal bei Schritt 662 ausgewählt und der Prozess kehrt zu Schritt 650 zurück. Wenn dies der letzte Frame ist, wird bei Schritt 663 der optimale vollständige stimmhafte Track durch Prüfen des Ergebnisses für alle der möglichen stimmhaften Tracks ermittelt, die bei dem letzten Frame enden.
Obwohl die vorliegende Erfindung mit Bezug auf bestimmte Ausführungsformen beschrieben worden ist, werden Fachleute erkennen, dass Veränderungen formal und im Detail gemacht werden können, ohne vom Umfang der Erfindung abzuweichen. Zusätzlich werden Fachleute erkennen, obwohl Blockdiagramme verwendet wurden, um die Erfindung zu beschreiben, dass die Komponenten der Erfindung als Computerinstruktionen implementiert werden können.

Claims

Verfahren zum Pitch-Tracking in einem Sprachsignal, wobei das Verfahren umfasst: Samplen des Sprachsignals über ein erstes Zeitfenster, das auf eine erste Zeitmarke zentriert ist, um einen ersten Fenstervektor zu erzeugen; Samplen des Sprachsignals über ein zweites Zeitfenster, das auf eine zweite Zeitmarke zentriert ist, um einen zweiten Fenstervektor zu erzeugen, wobei die zweite Zeitmarke von der ersten Zeitmarke durch eine Test-Pitch-Periode getrennt ist; Berechnen (524) eines Energiewertes, der die Energie des Teils des Sprachsignals anzeigt, der durch den ersten Fenstervektor dargestellt wird; Berechnen (526, 528) eines Kreuz-Korrelations-Wertes basierend auf dem ersten Fenstervektor und dem zweiten Fenstervektor; Multiplizieren (530–546) des Energiewertes und des Kreuz-Korrelations-Wertes, um einen prognostizierbaren Energiefaktor zu erzeugen; Ermitteln (546), teilweise basierend auf dem prognostizierbaren Energiefaktor, eines Pitch-Ergebnisses für die Test-Pitch-Periode; und Identifizieren (552–556), teilweise basierend auf dem Pitch-Ergebnis, mindestens eines Teils eines Pitch-Track.
Verfahren aus Anspruch 1, wobei das Samplen des Sprachsignals über ein erstes Zeitfenster das Samplen des Sprachsignals über ein erstes Zeitfenster, das die gleiche Länge wie die Test-Pitch-Periode hat, umfasst.
Verfahren aus Anspruch 2, wobei das Samplen des Sprachsignals über das zweite Zeitfenster das Samplen des Sprachsignals über ein zweites Zeitfenster, das die gleiche Länge wie die Test-Pitch-Periode hat, umfasst.
Verfahren aus Anspruch 1, wobei das Berechnen des Kreuz-Korrelations-Wertes das Dividieren des Skalarprodukts von dem ersten Fenstervektor und dem zweiten Fenstervektor durch Grössen des ersten Fenstervektors und des zweiten Fenstervektors umfasst, um einen anfänglichen Kreuz-Korrelations-Wert zu erzeugen.
Verfahren aus Anspruch 4, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren das Setzen des Kreuz-Korrelations-Wertes gleich dem anfänglichen Kreuz-Korrelations-Wert umfasst.
Verfahren aus Anspruch 4, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren das Setzen des Kreuz-Korrelations-Wertes auf Null umfasst, wenn der anfängliche Kreuz-Korrelations-Wert kleiner als Null ist.
Verfahren aus Anspruch 4, das des Weiteren das Samplen des Sprachsignals über ein drittes Zeitfenster umfasst, das auf eine dritte Zeitmarke zentriert ist, um einen dritten Fenstervektor zu erzeugen, wobei die dritte Zeitmarke von der ersten Zeitmarke durch die Test-Pitch-Periode getrennt ist.
Verfahren aus Anspruch 7, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren umfasst: Berechnen eines zweiten Kreuz-Korrelations-Wertes basierend auf dem ersten Fenstervektor und dem dritten Fenstervektor; Vergleichen des anfänglichen Kreuz-Korrelations-Wertes mit dem zweiten Kreuz-Korrelations-Wert; und Setzen des Kreuz-Korrelations-Wertes gleich dem zweiten Kreuz-Korrelations-Wert, wenn der zweite Kreuz-Korrelations-Wert eine grössere Korrelation als der anfängliche Kreuz-Korrelations-Wert hat und andernfalls Setzen des Kreuz-Korrelations-Wertes gleich dem anfänglichen Kreuz-Korrelations-Wert.
Verfahren aus Anspruch 4, wobei das Berechnen des Kreuz-Korrelations Wertes des Weiteren umfasst: Samplen des Sprachsignals über ein erstes harmonisches Zeitfenster, das auf die erste Zeitmarke zentriert ist, um einen ersten harmonischen Fenstervektor zu erzeugen; Samplen des Sprachsignals über ein zweites harmonisches Zeitfenster, das auf eine zweite harmonische Zeitmarke zentriert ist, um einen zweiten harmonischen Fenstervektor zu erzeugen, wobei die zweite harmonische Zeitmarke von der ersten Zeitmarke durch eine Hälfte der Test-Pitch-Periode getrennt ist; Berechnen eines harmonischen Kreuz-Korrelations-Wertes basierend auf dem ersten harmonischen Fenstervektor und dem zweiten harmonischen Fenstervektor; Multiplizieren des harmonischen Kreuz-Korrelations-Wertes mit einem Reduktionsfaktor, um einen harmonischen Reduktionswert zu erzeugen; und Subtrahieren des harmonischen Reduktionswertes von dem anfänglichen Kreuz-Korrelations-Wert und Setzen des Kreuz-Korrelations-Wertes gleich der Differenz.
Verfahren aus Anspruch 1, wobei das Ermitteln eines Pitch-Ergebnisses das Ermitteln der Wahrscheinlichkeit umfasst, dass die Test-Pitch-Periode eine tatsächliche Pitch-Periode für einen Teil des Sprachsignals ist, das auf die erste Zeitmarke zentriert ist.
Verfahren aus Anspruch 10, wobei das Ermitteln der Wahrscheinlichkeit, dass die Test-Pitch-Periode eine tatsächliche Pitch-Periode ist, das Addieren des prognos tizierbaren Energiefaktors zu einer Übergangswahrscheinlichkeit umfasst, die die Wahrscheinlichkeit für den Übergang von einer vorangehenden Pitch-Periode zu der Test-Pitch-Periode angibt.
Verfahren aus Anspruch 11, das des Weiteren das Ermitteln einer Vielzahl von Pitch-Ergebnissen, mit einem Pitch-Ergebnis für jeden möglichen Übergang von einer Vielzahl von vorangehenden Pitch-Perioden zu der Test-Pitch-Periode, umfasst.
Verfahren aus Anspruch 12, das des Weiteren das Verbinden der Vielzahl von Pitch-Ergebnissen mit vergangenen Pitch-Ergebnissen umfasst, um Pitch-Track-Ergebnisse zu erzeugen, wobei jedes Pitch-Track-Ergebnis die Wahrscheinlichkeit anzeigt, dass ein Test-Pitch-Track gleich einem tatsächlichen Pitch-Track des Sprachsignals ist.
Verfahren aus Anspruch 13, wobei das Identifizieren des Pitch-Track das Identifizieren des Pitch-Track zugehörig zu dem höchsten Pitch-Track-Ergebnis umfasst.
Verfahren aus Anspruch 1, das des Weiteren das Ermitteln umfasst, ob die erste Zeitmarke in einem stimmhaften Bereich des Sprachsignals ist.
Verfahren aus Anspruch 15, wobei das Ermitteln, ob die erste: Zeitmarke in einem stimmhaften Bereich des Sprachsignals ist, das Ermitteln einer Wahrscheinlichkeit, basierend auf dem Energiewert und dem Kreuz-Korrelations-Wert, umfasst, dass die erste Zeitmarke in einem stimmhaften Bereich ist.
Verfahren aus Anspruch 1, das des Weiteren umfasst: Erstellen eines Pitch-Kontourierungsfaktors, der die Ähnlichkeit zwischen der Test-Pitch-Periode und einer vorhergehenden Pitch-Periode anzeigt; und Verbinden des prognostizierbaren Energiefaktors und des Pitch-Kontourierungsfaktors, um ein Pitch-Ergebnis für den Übergang von der vorhergehenden Pitch-Periode zu der Test-Pitch-Periode zu erzeugen.
Verfahren aus Anspruch 17, wobei das Berechnen des Kreuz-Korrelations-Wertes das Erzeugen eines ersten Fenstervektors basierend auf Samples der ersten Wellenform und das Erzeugen eines zweiten Fenstervektors basierend auf Samples der zweiten Wellenform umfasst.
Verfahren aus Anspruch 18, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren das Dividieren eines Skalarprodukts des ersten Fenstervektors und des zweiten Fenstervektors durch Grössen des ersten Fenstervektors und des zweiten Fenstervektors umfasst, um einen anfänglichen Kreuz-Korrelations-Wert zu erzeugen.
Verfahren aus Anspruch 19, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren das Setzen des Kreuz-Korrelations-Wertes gleich dem anfänglichen Kreuz-Korrelations-Wert umfasst.
Verfahren aus Anspruch 19, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren das Setzen des Kreuz-Korrelations-Wertes auf Null umfasst, wenn der anfängliche Kreuz-Korrelations-Wert kleiner als Null ist.
Verfahren aus Anspruch 19, das des Weiteren umfasst: Samplen des Sprachsignals über ein drittes Zeitfenster, das auf eine dritte Zeitmarke zentriert ist, wobei die dritte Zeitmarke von der ersten Zeitmarke durch die Test-Pitch-Periode getrennt ist; und Erstellen eines dritten Fenstervektors basierend auf den Samples der dritten Wellenform.
Verfahren aus Anspruch 22, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren umfasst: Berechnen eines zweiten Kreuz-Korrelations-Wertes basierend auf dem ersten Fenstervektor und dem dritten Fenstervektor; Vergleichen des anfänglichen Kreuz-Korrelations-Wertes mit dem zweiten Kreuz-Korrelations-Wert; und Setzen des Kreuz-Korrelations-Wertes gleich dem zweiten Kreuz-Korrelations-Wert, wenn der zweite Kreuz-Korrelations-Wert grösser ist als der anfängliche Kreuz-Korrelations-Wert und andernfalls Setzen des Kreuz-Korrelations-Wertes gleich dem anfänglichen Kreuz-Korrelations-Wert.
Verfahren aus Anspruch 19, wobei das Berechnen des Kreuz-Korrelations-Wertes des Weiteren umfasst: Samplen einer ersten harmonischen Wellenform und Erzeugen eines ersten harmonischen Fenstervektors basierend auf den Samples der ersten harmonischen Wellenform; Samplen einer zweiten harmonischen Wellenform und Erzeugen eines zweiten harmonischen Fenstervektors basierend auf den Samples der zweiten harmonischen Wellenform, wobei das Zentrum der zweiten harmonischen Wellenform von dem Zentrum der ersten harmonischen Wellenform durch eine Hälfte der Test-Pitch-Periode getrennt ist; Berechnen eines harmonischen Kreuz-Korrelations Wertes basierend auf dem ersten harmonischen Fenstervektor und dem zweiten harmonischen Fenstervektor; Multiplizieren des harmonischen Kreuz-Korrelations-Wertes mit einem Reduktionsfaktor, um einen harmonischen Reduktionswert zu erzeugen; und Subtrahieren des harmonischen Reduktionswertes von dem anfänglichen Kreuz-Korrelations-Wert und Setzen des Kreuz-Korrelations-Wertes gleich der Differenz.
Verfahren aus Anspruch 17, wobei die Länge des ersten Zeitfensters gleich der Test-Pitch-Periode ist.
Verfahren aus Anspruch 17, wobei das Erstellen eines Pitch-Kontourierungsfaktors das Abziehen der Test-Pitch-Periode von der vorhergehenden Pitch-Periode umfasst.
Verfahren aus Anspruch 26, wobei das Verbinden des prognostizierbaren Energiefaktors und des Pitch-Kontourierungsfaktors das Abziehen des Pitch-Kontourierungsfaktors von dem prognostizierbaren Energiefaktor umfasst.
Verfahren aus Anspruch 17, wobei das Identifizieren mindestens eines Teils eines Pitch-Track das Ermitteln einer Vielzahl von Pitch-Ergebnissen für mindestens zwei Test-Pitch-Tracks mit einem Pitch-Ergebnis für jeden Pitch-Übergang in jedem Test-Pitch-Track umfasst.
Verfahren aus Anspruch 28, wobei das Identifizieren mindestens eines Teils eines Pitch-Track des Weiteren das Summieren der Pitch-Ergebnisse jedes Test-Pitch-Tracks und das Auswählen des Test-Pitch-Tracks mit der höchsten Summe als den Pitch-Track für das Sprachsignal umfasst.
Pitch-Tracker für ein Computer-Sprachsystem (240, 300), das ausgebildet ist, um Sprachfunktionen auszuführen, wobei der Pitch-Tracker umfasst: eine Fenster-Sampling-Einheit (358) zum Anlegen eines aktuellen Fenstervektors und eines vorhergehenden Fenstervektors von einem entsprechenden aktuellen Fenster bzw. einem vorhergehenden Fenster eines Sprachsignals, wobei das Zentrum des aktuellen Fensters von dem Zentrum des vorhergehenden Fensters durch eine Test-Pitch-Periode getrennt ist; einen Energie-Rechner (366) zum Berechnen der gesamten Energie des aktuellen Fensters; einen Kreuz-Korrelations-Rechner (364) zum Berechnen eines Kreuz-Korrelations-Wertes basierend auf dem aktuellen Fenstervektor und dem vorhergehenden Fenstervektor; einen Multiplikator (370) zum Multiplizieren der gesamten Energie mit dem Kreuz-Korrelations-Wert, um einen prognostizierbaren Energiefaktor zu erzeugen; einen Pitch-Ergebnis-Generator (360, 362, 372, 374) zum Erzeugen eines Pitch-Ergebnisses basierend auf der prognostizierbaren Energie; und einen Pitch-Track-Identifizierer (376) zum Identifizieren, zumindest teilweise basierend auf dem Pitch-Ergebnis, mindestens eines Teils eines Pitch-Track für das Sprachsignal.
Pitch-Tracker aus Anspruch 30, wobei das Computer-Sprachsystem ein Sprachsynthese-System ist.
Pitch-Tracker aus Anspruch 30, wobei das Computer-Sprachsystem ein Sprachkodierer ist.
Pitch-Tracker aus Anspruch 30, der des Weiteren umfasst: Pitch-Kontour-Rechner zum Berechnen eines Pitch-Kontourierungsfaktors, der die Ähnlichkeit zwischen einer Test-Pitch-Periode und einer vorhergehenden Pitch-Periode anzeigt; und Pitch-Ergebnis-Rechner zum Berechnen eines Pitch-Ergebnisses basierend auf dem prognostizierbaren Energiefaktor und dem Pitch-Kontourierungsfaktor.