DE69231266T2 - Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium - Google Patents

Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium

Info

Publication number
DE69231266T2
DE69231266T2 DE69231266T DE69231266T DE69231266T2 DE 69231266 T2 DE69231266 T2 DE 69231266T2 DE 69231266 T DE69231266 T DE 69231266T DE 69231266 T DE69231266 T DE 69231266T DE 69231266 T2 DE69231266 T2 DE 69231266T2
Authority
DE
Germany
Prior art keywords
audio
signal
equivalent signal
duration
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69231266T
Other languages
English (en)
Other versions
DE69231266D1 (de
Inventor
Josephus Hubertus Eggen
Chang Xue Ma
Werner Desire Elisabeth Verhelst
Leonardus Lambertus Maria Vogten
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE69231266D1 publication Critical patent/DE69231266D1/de
Application granted granted Critical
Publication of DE69231266T2 publication Critical patent/DE69231266T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    ANWENDUNGSGEBIET DER ERFINDUNG
  • Die Erfindung bezieht sich auf ein Verfahren zur Manipulation eines audioäquivalenten Signals, wobei das Verfahren das Positionieren einer Kette von sich gegenseitig überlappenden Zeitfenstern in Bezug auf das audioäquivalente Signal auf der Basis von Periodizitätsmessungen am genannten audioäquivalenten Signal umfasst, wobei eine Positionsverschiebung zwischen benachbarten Fenstern im wesentlichen einer Hauptperiode der genannten Periodizität entspricht, und wobei ein Audioausgangssignal durch verkettete Überlagerung von Segmentsignalen synthetisiert wird, die jeweils durch Gewichtung mit der zugehörigen Fensterfunktion von dem audioäquivalenten Signal abgeleitet werden. Ein derartiges Verfahren wurde in der Patentschrift EP-A-363 233 beschrieben. Das bekannte Verfahren wird bei der Sprachsynthese zur Änderung der Prosodie oder der Tonhöhe der synthetisierten Sprache angewendet, oder zur Änderung der Dehnungsdauer der Sprache. Das bekannte Verfahren nutzt Stimmmarkierungen, die manuell zum Platzieren der Fenster festgelegt werden. Es ist zu bevorzugen, dass ein solches Manipulationsverfahren automatisch durchgeführt werden kann, unempfindlich gegen Rauschen ist und eine hohe Audioqualität für das Ausgangssignal beibehält.
  • Die Erfinder der vorliegenden Erfindung haben erkannt, dass die Manipulation der Dauer in verschiedenen Situationen benutzt werden kann, bei denen die Gesamtlänge einer eigenständigen Spracheinheit aufgrund von äußeren Zwängen eingeschränkt wird, wobei diese Einschränkungen sowohl die maximale als auch die minimale Dauer einer solchen Einheit betreffen können.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Demzufolge hat die vorliegende Erfindung unter anderem zur Aufgabe, das manipulierte audioäquivalente Signal in einer vorgegebenen Zeitlänge zu positionieren, die von der Originallänge abweicht, wobei auf der einen Seite das Intervall mehr oder weniger vollständig gefüllt wird und auf der anderen Seite der Eindruck der sich ergebenden Darstellung so natürlich wie möglich bleibt.
  • Gemäß einem ihrer Aspekte ist die Erfindung zur Erfüllung der Aufgabe dadurch gekennzeichnet, dass eine Dauer des genannten Ausgangssignals durch systematisches Wiederholen, Beibehalten und/oder Unterdrücken der genannten Segmentsignale so manipuliert wird, dass man eine vorgegebene Gesamtlänge erhält, welche von einer entsprechenden Dauer des genannten audioäquivalenten Signals abweicht.
  • Ein Vorteil des Verfahrens der Positionierung von Fenstern gemäß der jüngsten Referenzschrift besteht darin, dass es durch Maschinen ausgeführt werden kann, ohne dass eine Fenster-zu-Fenster-Steuerung durch den Menschen erforderlich ist. Außerdem hat sich herausgestellt, dass die Dauer um einen Faktor zwischen 2 und 1/2 geändert werden kann, ohne dass hierdurch die Verständlichkeit der Sprache ernsthaft beeinträchtigt wird. Bei einer Manipulation der Dauer in geringerem Maße, zum Beispiel um + oder - 30%, bleibt nicht nur die Verständlichkeit sehr gut, sondern auch die natürliche Qualität der Sprache bleibt erhalten, und einem Zuhörer würde die Änderung der Dauer kaum als unnatürlich auffallen. Eine Voraussetzung für die Anwendung des Verfahrens besteht darin, dass die Tonhöhe tatsächlich gemessen werden kann; dies ist bei der menschlichen Sprache ein Problem, für das es verschiedene Lösungen gibt. Es gibt unterschiedliche Situationen, in denen die Dauer der Sprache manipuliert werden sollte, zum Beispiel die Nachsynchronisierung von Filmen oder anderem Videomaterial, bei dem eine sprachliche Erläuterung oder anderes an die physikalische Bewegung von Objekten angepasst werden muss, zum Beispiel an den Zeitpunkt, an dem eine Tür geschlossen wird; und es gibt noch zahlreiche andere Beispiele. In Filmen sollten die Äußerungen der Schauspieler möglichst mit ihren Mundbewegungen und ihrem Gesichtsausdruck übereinstimmen, oder zumindest mit ihrer Bewegung im allgemeinen. Typische Zeitskalen der Gesamtdauer von Äußerungen reichen von 0,3 bis zu mehreren Sekunden. In diesem kurzen Zeitrahmen war es mit der bisherigen Technik nicht möglich, die Dauer zu manipulieren und dabei auch noch die Natürlichkeit zu bewahren. Bei einer wesentlich längeren Zeitskala kann die Länge einer Pause manipuliert werden, wie dies oft von menschlichen Dolmetschern praktiziert wird. Wenn die vertilgbare Zeit vorher bekannt ist, kann manchmal eine andere Wortwahl benutzt werden, jedoch erfordern alle diese Verfahren spezielle menschliche Fertigkeiten. Das vorliegende Verfahren lässt sich leicht anwenden und erfordert nur die Einstellung eines Beschleunigungs- oder Verzögerungs-Prozentsatzes. Natürlich eignet sich die vorliegende Erfindung auch zur Änderung von Zeiträumen, die den Sekundenbereich überschreiten.
  • An sich wird die automatische Platzierung von überlappenden Fenstern in der nicht vorab-veröffentlichten europäischen Patentschrift EP-B-0 527 527 zur Justierung der Prosodie während der Sprachsynthese angewendet. In dem Artikel mit dem Titel "Simple pitch-dependent algorithm for high-quality speech rate changing" von E. P. Neuburg, erschienen im Journal of the Acoustic Society of America, Band 63, Nr. 2, Februar 1978, Seite 624-625, wird ein Cut-and-Splice-Verfahren zur Beschleunigung oder Verlangsamung von Sprache durch Entfernen bzw. Wiederholen eines Abschnitts des Sprachsignals beschrieben, dessen Länge der Tonhöhen-Periode entspricht. In der Patentschrift WO-A- 8 303 483 wird ein System zum Ersetzen des bei den Filmaufnahmen aufgezeichneten Originaldialogs durch ein im Studio mit höherer Qualität aufgezeichnetes ähnliches Signal beschrieben. Das relative Timing der Originalaufzeichnung bleibt erhalten, indem beide Signale auf einer Zeitrahmenbasis verglichen werden oder ein Zeitrahmen der Studio- Aufzeichnung wiederholt wird, je nachdem, wie gut die Rahmen übereinstimmen.
  • Die Erfindung bezieht sich auch auf ein Gerät zur Durchführung des Verfahrens und auf ein Speichermedium mit einer Darstellung des äquivalenten Audiosignals. Die Erfindung macht es möglich, den verfügbaren Raum für eine Spracheinheit (Satz, Teilsatz, Ausruf, oder anderes) nahezu komplett zu füllen.
  • Eine besondere Anwendung ist Compact Disc Interactive, vor allem in einer mehrsprachigen Umgebung. Das Editieren der CD-I ist an sich eine komplizierte Aufgabe. Das Bemessen der Dauer von Sprachäußerungen kann jetzt durch die Maschine durchgeführt werden, um dem Programmeditor diese lästige Aufgabe abzunehmen. CD-I ist an sich ein gängiges Speichermedium mit zugehöriger Entwicklungsplattform, wobei die Speicherung selbst eine Erweiterung von Compact Disc Audio darstellt.
  • Verschiedene vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen geschildert.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Diese und andere Vorteile werden im folgenden unter Bezugnahme auf ein bevorzugtes Ausführungsbeispiel in einer Anzahl von Figuren näher beschrieben.
  • Fig. 1 zeigt das Editieren eines CDI-Programms zur Speicherung auf einer CD-I-Platte.
  • Die folgenden Figuren zeigen speziell die Technologie der jüngsten Referenzschrift:
  • Die Fig. 2a, b, c zeigen Sprachsignale mit Fenstern, die erfindungsgemäß platziert sind;
  • Fig. 3 zeigt eine Vorrichtung zur Änderung der Tonhöhe und/oder der Dauer eines Signals;
  • Fig. 4 zeigt Multiplikationsmittel und Fensterfunktionswertauswahlmittel zur Verwendung in einer Vorrichtung zur Änderung der Tonhöhe und/oder der Dauer eines Signals;
  • Fig. 5 zeigt Fensterpositionsauswahlmittel zur Implementierung der Erfindung;
  • Fig. 6 zeigt ein Teilsystem zum Kombinieren mehrerer Segmentsignale.
  • BESCHREIBUNG EINES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • Wie allgemein üblich, kann das audio- oder sprachäquivalente Signal direkte analoge Sprache sein oder Sprache, die in Form einer Folge von Codes gespeichert wurde, um davon ausgehend synthetische Sprache zu erzeugen. Die Länge der verschiedenen Fenster kann unterschiedlich sein, und in einer besonderen Ausführungsform kann die Länge jedes Fensters im wesentlichen einer lokalen tatsächlichen Tonhöhenperiodenlänge entsprechen. Innerhalb des Fensters ist die Fensterfunktion gleichförmig, was bedeutet, dass die Fensterfunktion linear mit der Breite des Fensters skaliert wird, was wiederum bedeutet, dass es im allgemeinen eine erhebliche Schwankung bei der Breite der aufeinanderfolgenden Fenster geben kann. Der systematische Charakter des Wiederholens, Beibehaltens oder Unterdrückens impliziert, dass es eine bestimmte Vorschrift für die Sequenz der Fensterpositionen gibt, die den Vorgang erstens auf entweder Wiederholen oder Unterdrücken - beides möglich in Kombination mit Beibehalten - begrenzt, und die zweitens vorgibt, dass das Wiederholen oder Beibehalten unter der Steuerung eines tatsächlichen oder emulierten sich wiederholenden Zyklus erfolgt.
  • Beispiele sind:
  • jedes dritte Fenster wird einmal wiederholt, die anderen werden beibehalten;
  • bei jeweils fünf aufeinanderfolgenden Fenstern werden Nr. 2 und Nr. 4 unterdrückt;
  • bei jedem nächsten Fenster wird eine Zählung um einen bestimmten Betrag inkrementiert und der Überlauf steuert die eigentliche Unterdrückung oder Wiederholung.
  • Es ist anzumerken, dass der systematische Charakter nicht vollständig gleichförmig zu sein braucht. Bei der Nachsynchronisierung eines Films zum Beispiel wäre es vorteilhaft, die Zeitdauer von verschiedenen Teilen eines Satzes jeweils unterschiedlich zu ändern, solange der natürliche Charakter der sich ergebenden Sprache erhalten bleibt. Insbesondere könnte die Dynamik der Audio-Sprache bis zu einem gewissen Maße der Bewegung der Lippen folgen. Außerdem können auch verschiedene Sätze an verschiedenen Stellen der Nachsynchronisierung jetzt eine gleichförmige Tonhöhe untereinander haben.
  • Die verschiedenen parallelen Darstellungen können unterschiedliche Sprachen sein; es hat sich gezeigt, dass der gleiche Satz, wenn er in eine andere Sprache übersetzt wird, eine andere Länge aufweist, wenn man zum Beispiel die Anzahl der Silben zählt: insbesondere führt die deutsche Sprache zu einer längeren Dauer als Englisch oder Französisch.
  • Andere, vor allem exotische, Sprachen können zu noch extremeren Situationen führen. Ähnliche Situationen können Kinderstimmen von den Stimmen Erwachsener unterscheiden.
  • In der Figur für eine dreisprachige CD-I-Spur ist das bildliche Material 200 mit begleitenden Sprachdarstellungen in Französisch (202), Deutsch (204) und Englisch (206) vor dem Editieren abgebildet. Es wird beabsichtigt, jeder der Sprachdarstellungen (unter denen der Benutzer wählen kann) genau die gleiche Dauer zu verleihen wie dem bildlichen Material (Film, Animation, usw.). Wie abgebildet wird auf Linie 202 ein einzelnes Fenster unterdrückt, auf Linie 204 werden fünf Fenster unterdrückt. Auf Linie 206 werden sechs Fenster einmal wiederholt (Kreuze). Das Ergebnis nach dem Editieren ist nicht dargestellt. Es hat sich herausgestellt, dass durch die Analyse der Ergebnisse eine Übertretung nachgewiesen werden kann. Vor allem das Auftreten der wiederholten Fenster ist gut nachvollziehbar. Außerdem sind die im wesentlichen gleichen Längen der verschiedenen Darstellungen zusammen mit der hohen subjektiven Qualität der Wiedergabe eine klare Indikation für die Anwendung der gegenwärtigen Technologie.
  • In bestimmten Situationen kann neben der Änderung der Dauer an sich auch das Verlangsamen oder Beschleunigen der Sprache einen Charakter verleihen, sie zum Beispiel nervös klingen lassen (schnell) oder erhaben (langsam). Auch eine solche Anwendung ist manchmal vorteilhaft. Das Ändern der Dauer des audioäquivalenten Signals kann mit einer Änderung der Tonhöhe kombiniert werden. Die beiden Arten von Manipulation können beide in der gleichen Richtung erfolgen, zum Beispiel dahingehend, dass beide die Dauer wirksam verkürzen. In anderen Fällen könnten sie die Effekte bis zu einem gewissen Maße kompensieren, so dass die Änderung der Dauer weniger stark oder sogar gleich null wird. Die Änderung der Dauer kann entsprechend einem zeitvariierenden Muster stattfinden, wodurch die Gesamtänderung der Dauer das Integral oder die Summe der elementaren Dauer-Änderungen ist.
  • BESCHREIBUNG EINER BEVORZUGTEN TECHNOLOGIE
  • Im folgenden wird die bevorzugte Technologie gemäß der jüngsten Referenzschrift beschrieben.
  • Die Fig. 2a, 2b und 2c zeigen Sprachsignale mit Markierungen 52, die durch einen Abstand voneinander getrennt sind, welcher mit einem Tonhöhenmesser (von herkömmlicher Art) bestimmt wird, das heißt, ohne einen festen Phasenbezug. In Fig. 2a wurden zwei aufeinanderfolgende Perioden als stimmlos markiert, indem ihre Tonhöhenperiodenlängenangabe außerhalb der Skala platziert wurde. Die Tonhöhenmarkierungen (untere Skala) hat man durch Interpolieren der Periodenlänge erhalten. Obwohl die Tonhöhenperiodenlängen ohne eine weitere Glättung als der bei der Bestimmung der Spektren des Sprachsignals über mehrere Tonhöhenperioden inhärenten Glättung bestimmt wurden, erhält man automatisch eine sehr regelmäßige Kurve.
  • Die inkrementale Platzierung der Fenster löst auch ein weiteres Problem. Für Abschnitte ohne Stimmen, die Reibelaute wie den Klang "sss" enthalten, bei denen die Stimmbänder nicht in Schwingung versetzt werden, werden die Fenster auf gleiche Weise wie für Abschnitte mit Stimmen inkremental platziert. Die Tonhöhenperiodenlänge wird zwischen den gemessenen Längen für Abschnitte ohne Stimme neben dem Abschnitt mit Stimme interpoliert. Dadurch erhält man Fenster in regelmäßigen Abständen ohne hörbare Artefakte.
  • Die Platzierung von Fenstern ist einfach, wenn das audioäquivalente Eingangssignal monoton ist. In diesem Fall können die Fenster einfach in festen Abständen voneinander angeordnet werden. Dies kann durch eine Vorverarbeitung des Signals erfolgen, um seine Tonhöhe auf einen einzigen monotonen Wert zu ändern. Die endgültige Manipulation zum Erhalten der gewünschten Tonhöhe und/oder Dauer kann dann bei Fenstern mit gleichmäßigem Abstand durchgeführt werden.
  • Eine beispielhafte Vorrichtung
  • Fig. 3 zeigt eine beispielhafte Ausführungsform einer Vorrichtung zum Ändern der Tonhöhe und/oder der Dauer eines hörbaren Signals. Das audioäquivalente Eingangssignal trifft bei Eingang 60 ein, und das Ausgangssignal verlässt die Vorrichtung bei einem Ausgang 63. Das Eingangssignal wird durch die Fensterfunktion in den Multiplikationsmitteln 61 multipliziert und Segmentsignal für Segmentsignal in Segmentschlitzen im Speichermittel 62 gespeichert. Um das Ausgangssignal am Ausgang 63 zu synthetisieren, werden die Sprachabtastwerte von verschiedenen Segmentsignalen in Summiermitteln 64 summiert. Die Manipulation der Sprachsignale in Form einer Tonhöhenänderung und/oder einer Dauer-Manipulation erfolgt durch Adressieren der Speichermittel 62 und Auswählen von Fensterfunktionswerten. Dementsprechend wird die Auswahl der Speicheradressen zum Speichern der Segmente durch die Fensterpositionsauswahlmittel 65 gesteuert, die auch die Fensterfunktionswertauswahlmittel 69 steuern; die Auswahl der Auslese- Adressen wird durch die Kombinationsmittel 66 gesteuert.
  • Um die Funktion der Komponenten der in Fig. 3 dargestellten Vorrichtung zu beschreiben, wird kurz erläutert, dass Signalsegmente S von dem Eingangssignal X (bei 60) abgeleitet werden müssen, wobei die Segmente definiert werden durch
  • Si(t) = W(t/Li) X(t + ti) (-Li < t < 0)
  • Si(t) = W(t/Li+1) X(t + ti) (0 < t < Li+1)
  • und diese Segmente müssen überlagert werden, um das Ausgangssignal Y (bei 63) zu erzeugen:
  • Y(t) = &Sigma;i'Si(t - Ti)
  • (Die Summe ist auf die Indizes i begrenzt, für die -Li < t-Ti > Li+1 gilt).
  • Zu jedem Zeitpunkt t' wird dem Eingang 60 ein Signal X(t') zugeführt, das bei den jeweiligen t-Werten ta = t' - ti und tb = t' - ti+1 (wobei diese die einzigen Möglichkeiten sind, dass - Li < t < Li+1) zu den beiden Segmenten i, i+1 beiträgt.
  • Fig. 4 zeigt die Multiplikationsmittel 61 und die Fensterflhnktionswertauswahlmiftel 69. Die oben beschriebenen jeweiligen t-Werte ta, tb werden in den Skaliermultiplizierern 70a, 70b mit dem Inversen der Periodenlänge Li (bestimmt aus der Periodenlänge in einem Inverter 74) multipliziert, um die entsprechenden Argumente der Fensterfunk tion W zu ermitteln. Diese Argumente werden den Fensterftmnktionsevaluatoren 71a, 71b (zum Beispiel im Fall von diskreten Argumenten ausgeführt als Nachschlagetabelle) zugeführt, die die entsprechenden Werte der Fensterfunktion ausgeben, welche in zwei Multiplizierern 72a, 72b mit dem Eingangssignal multipliziert werden. Dies erzeugt die Segmentsignalwerte Si, Si+1 an den beiden Eingängen 73a, 73b zu den Speichermitteln 62.
  • Diese Segmentsignalwerte werden in den Speichermitteln 62 in Segmentschlitzen an Adressen in den Schlitzen gespeichert, die den jeweiligen Zeitpunktwerten ta, tb und den jeweiligen Schlitznummern entsprechen. Diese Adressen werden durch Fensterpositionsauswahlmittel 65 gesteuert. Zur Implementierung der Erfindung geeignete Fensterpositionsauswahlmittel sind in Fig. 5 dargestellt. Die Zeitpunktwerte ta, tb werden durch Zähler 81, 82 adressiert, die Segmentschlitznummern werden durch Indexiermittel 84 (die die Segmentindizes i, i+1 ausgeben) adressiert. Die Zähler 81, 82 und die Indexiermittel 84 geben Adressen mit einer Breite aus, die angemessen ist, um die verschiedenen Positionen innerhalb der Schlitze bzw. die verschiedenen Schlitze zu unterscheiden, die aber in Fig. 5 nur symbolisch als einzelne Linien dargestellt sind.
  • Die beiden Zähler 81, 82 werden mit einer festen Taktrate getaktet und zählen auf ein Triggersignal am Triggereingang (T) hin von einem Anfangswert an, der von einem Ladeeingang (L) geladen wird. Die Indexiermittel 84 inkrementieren die Indexwerte bei Erhalt dieses Triggersignals. Gemäß einer Ausführungsform bestimmen die Tonhöhenmessmittel 86 einen Tonhöhenwert von Eingang 60 und steuern den Skalierfaktor für die Skaliermultiplizierer 70a, 70b, und liefern den Anfangswert des ersten Zählers 81 (wobei der Anfangszählwert der negative Tonhöhenwert ist), während das Triggersignal intern in den Fensterpositionsauswahlmitteln erzeugt wird, wenn der Zähler Null erreicht, was durch einen Komparator 88 erkannt wird. Das bedeutet, dass aufeinanderfolgende Fenster platziert werden, indem der Ort eines vorhergehenden Fensters um die durch den ersten Zähler 81 zum Erreichen von Null benötigte Zeit inkrementiert wird.
  • In einer weiteren Ausführungsform wird dem Eingang 60 ein monotonisiertes Signal zugeführt (dieses monotonisierte Signal erhält man durch Vorverarbeitung, wobei die Tonhöhe auf einen zeitabhängigen Wert justiert wird). In diesem monotonisierten Fall wird dem Zähler 81 ein konstanter Wert, der der monotonisierten Tonhöhe entspricht, als Anfangswert zugeführt. In diesem Fall können die Skaliermultiplizierer 70a, 70b weggelassen werden, da die Fenster eine feste Größe haben.
  • Die Kombinationsmittel 66 aus Fig. 3 sind in Fig. 10 abgebildet. Der Zweck der Ausgangsseite besteht darin, Segmente von den Speichermitteln 62 gemäß
  • Y(t) = &Sigma;i'Si(t -Ti)
  • zu überlagern, wobei die Summe auf die Indexwerte i begrenzt ist, für die -Li < t -Ti < Li+1 gilt; im Prinzip kann jede Anzahl von Indexwerten zu der Summe zu einem Zeitpunkt t beitragen. Aber wenn die Tonhöhe nicht um mehr als einen Faktor von 3/2 geändert wird, werden maximal 3 Indexwerte gleichzeitig einen Beitrag liefern. In den Fig. 3 und 7 ist daher als Beispiel eine Vorrichtung dargestellt, die nur drei aktive Indizes gleichzeitig vorsieht; eine Erweiterung auf mehr als drei Segmente ist problemlos möglich.
  • Zum Adressieren der Segmente sind die Kombinationsmittel 66 der Eingangsseite ziemlich ähnlich: sie umfassen drei Zähler 101, 102, 103 (mit einer festen Rate getaktet), die die Zeitpunktwerte t-Ti für die drei Segmentsignale ausgeben. Die drei Zähler erhalten das gleiche Triggersignal, das das Laden des negativen Wertes des gewünschten Ausgangstonhöhenintervall in den ersten der drei Zähler 101 auslöst. Auf das Triggersignal hin wird die letzte Position des ersten Zählers 101 in den zweiten Zähler 102 geladen, und in den dritten Zähler 103 wird die letzte Position des zweiten Zählers 102 geladen. Das Triggersignal wird durch einen Komparator 104 erzeugt, der den Nulldurchgang des ersten Zählers 101 erkennt. Das Triggersignal aktualisiert auch die Indexiermiftel 106.
  • Die Indexiermittel adressieren die Segmentschlitznummern, die ausgelesen werden müssen, und die Zähler adressieren die Position innerhalb der Schlitze. Die Zähler und die Indexiermittel adressieren drei Segmente, die von den Speichermitteln 62 an die Summiermittel 64 ausgegeben werden, um das Ausgangssignal zu erzeugen.
  • Durch Zuführen der gewünschten Tonhöhenintervallwerte an den Tonhöhensteuereingang 68a kann man also den Tonhöhenwert steuern. Die Dauer des Sprachsignals wird durch einen Dauersteuereingang 68b zu den Indexiermitteln gesteuert. Ohne Manipulation der Dauer erzeugen die Indexiermittel einfach drei aufeinanderfolgende Segmentschlitznummern. Beim Triggersignal werden die Werte des ersten und des zweiten Ausgangs an den zweiten bzw. den dritten Ausgang kopiert, und der erste Ausgang wird um eins erhöht. Wenn die Dauer erhöht wird, wird der erste Ausgang bei einer bestimmten Anzahl von Zyklen einmal konstant gehalten, wie durch den Dauersteuereingang 68b vorgegeben. Zum Verringern der Dauer wird der erste Ausgang nach jeweils einer bestimmten Anzahl von Zyklen um zwei erhöht. Die Änderung der Dauer wird durch die Nettoanzahl der übersprungenen oder wiederholten Indizes bestimmt. Wenn die Vorrichtung benutzt wird, um die Tonhöhe und die Dauer eines Signals unabhängig zu ändern (zum Beispiel Ändern der Tonhöhe und Konstanthalten der Dauer), sollte der Dauereingang 68b so gesteuert werden, dass sich eine Nettofrequenz F ergibt, bei der Indizes übersprungen oder wiederholt werden sollten gemäß
  • F = (D t/T)- 1
  • (wobei D der Faktor ist, um den die Dauer geändert wird, t die Tonhöhenperiodenlänge des Eingangssignals ist und T die Periodenlänge des Ausgangssignals ist; ein negativer Wert von F entspricht dem Überspringen von Indizes, ein positiver Wert entspricht der Wiederholung).
  • Fig. 3 zeigt nur eine beispielhafte Ausführungsform. Der Hauptpunkt besteht in der inkrementellen Platzierung der Fenster auf der Eingangsseite mit einer Phase, die ausgehend von der Phase des vorhergehenden Fensters bestimmt wird. Es gibt viele Möglichkeiten zur Erzeugung der Adressen für die Speichermittel 62, und Fig. 5 stellt nur eine dieser zahlreichen Möglichkeiten dar. Die Adressen können zum Beispiel mit Hilfe eines Computerprogramms erzeugt werden, und die Startadressen brauchen nicht die in dem Beispiel angegebenen Werte zu haben.
  • Fig. 3 kann auf verschiedene Weisen implementiert werden, zum Beispiel mit digitalen Abtastwerten am Eingang 60, wo die Abtastrate einen beliebigen passenden Wert hat, zum Beispiel 10.000 Abtastwerte pro Sekunde; es können aber auch kontinuierliche Signalverfahren angewendet werden, bei denen die Takte 81, 82, 101, 102, 103 kontinuierliche Rampensignale liefern, und die Speichermittel sorgen für einen kontinuierlich gesteuerten Zugriff wie bei einer Magnetplatte. Außerdem können in Fig. 3 in der Praxis Segmentschlitze nach einiger Zeit wiederverwendet werden, da sie nicht permanent benötigt werden. Nicht alle Komponenten von Fig. 4 müssen durch diskrete Funktionsblöcke implementiert werden: oft können sie insgesamt oder teilweise durch einen Computer implementiert werden.

Claims (7)

1. Verfahren zur Manipulation eines audioäquivalenten Signals, das folgendes umfasst:
Positionieren einer Kette von sich gegenseitig überlappenden Zeitfenstern in Bezug auf das audioäquivalente Signal, wobei eine Positionsverschiebung zwischen benachbarten Fenstern im wesentlichen einer Hauptperiode auf der Basis von Periodizitätsmessungen am genannten audioäquivalenten Signal entspricht;
Bilden von Segmentsignalen Si, die jeweils durch Gewichtung mit einer Fensterfunktion des zugehörigen Fensters Wi von dem audioäquivalenten Signal abgeleitet werden;
Synthetisieren eines Audioausgangssignals durch verkettete Überlagerung der Segmentsignale, dadurch gekennzeichnet,
dass der Schritt des Positionierens der Kette von sich gegenseitig überlappenden Zeitfenstern das Verschieben jedes Fensters Wi in Bezug auf ein vorhergehendes Fenster Wi-1 in der Kette um eine tatsächliche Tonhöhenperiodenlänge Li des genannten audioäquivalenten Signals umfasst, wo das Fenster Wi eine Fensterfunktion hat, die durch lineares Dehnen einer ersten Hälfte einer normalisierten Fensterfunktion um Li und einer zweiten Hälfte der normalisierten Fensterfunktion um Lj+1 gebildet wird; und
- dass eine Dauer des genannten Ausgangssignals durch systematisches Wiederholen, Beibehalten und/oder Unterdrücken der genannten Segmentsignale so manipuliert wird, dass eine vorgegebene Länge des bildlichen Material dem genannten audioäquivalenten Signal entspricht, wo die genannte Länge von einer Dauer des genannten audioäquivalenten Signals abweicht.
2. Verfahren nach Anspruch 1, wobei sich die genannte Länge auf eine Vielzahl von parallelen sprachäquivalenten Signalen bezieht, die einander im Inhalt entsprechen, jedoch Unterschiede in der Darstellung aufweisen.
3. Verfahren nach Anspruch 2, wobei die genannten Unterschiede darauf zurückzuführen sind, dass die genannte Vielzahl von audioäquivalenten Signale in entsprechend vielen verschiedenen Sprachen vorliegt.
4. Verfahren nach Anspruch 1, 2 oder 3, wobei die genannte vorgegebene Länge zu einer Unterbrechung zwischen nicht-manipulierten audioäquivalenten Signalen gehört.
5. Verfahren nach einem der Ansprüche 1 bis 4 zum Nachsynchronisieren von menschlicher Sprache, wie sie durch ein per Video darstellbares Element gegeben ist.
6. Verfahren zum Erzeugen eines Software-Titels aus vorgegebenem bildlichen Material und zumindest einem entsprechenden audioäquivalenten Signal, wobei das Verfahren folgendes umfasst:
Manipulieren des audioäquivalenten Signals durch Positionieren einer Kette von sich gegenseitig überlappenden Zeitfenstern in Bezug auf das audioäquivalente Signal auf der Basis von Periodizitätsmessungen am genannten audioäquivalenten Signal, und wobei eine Positionsverschiebung zwischen benachbarten Fenstern im wesentlichen einer Hauptperiode der genannten Periodizität entspricht; Ableiten von Segmentsignalen von dem audioäquivalenten Signal durch Gewichten mit der zugehörigen Fensterfunktion; und Synthetisieren eines Audioausgangssignals durch verkettete Überlagerung der genannten Segmentsignale, wobei eine Dauer des genannten Audioausgangssignals auf eine vorgegebene Länge des bildlichen Materials manipuliert wird, indem die genannten Segmentsignale systematisch wiederholt, beibehalten und/oder unterdrückt werden, wo die genannte Länge von einer Dauer des genannten audioäquivalenten Signals abweicht; und
Speichern des bildlichen Materials und des resultierenden Audioausgangssignals in einem einheitlichen Speichermedium zur synchronisierten Wiedergabe.
7. Gerät zum Manipulieren eines audioäquivalenten Signals, wobei das Gerät folgendes umfasst:
Mittel zum Positionieren einer Kette von sich gegenseitig überlappenden Zeitfenstern in Bezug auf das audioäquivalente Signal auf der Basis von Periodizitätsmessungen am genannten audioäquivalenten Signal, indem jedes Fenster Wi in Bezug auf ein vorhergehendes Fenster Wi-1 in der Kette um eine tatsächliche Tonhöhenperiodenlänge Li des genannten audioäquivalenten Signals verschoben wird, wo das Fenster Wi eine Fensterfunktion hat, die durch lineares Dehnen einer ersten Hälfte einer normalisierten Fensterfunktion um Li und einer zweiten Hälfte der normalisierten Fensterfunktion um Li+1 gebildet wird; und
Mittel zum Ableiten von Segmentsignalen von dem audioäquivalenten Signal durch Gewichten mit der zugehörigen Fensterfunktion; und
Mittel zum Synthetisieren eines Audioausgangssignals durch verkettete Überlagerung der genannten Segmentsignale durch Manipulieren einer Dauer des genannten Audioausgangssignals auf eine vorgegebene Länge des bildlichen Materials, die dem genannten audioäquivalenten Signal entspricht, indem die genannten Segmentsignale systematisch wiederholt, beibehalten und/oder unterdrückt werden, wo die genannte Länge von einer Dauer des genannten audioäquivalenten Signals abweicht.
DE69231266T 1991-08-09 1992-07-31 Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium Expired - Fee Related DE69231266T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP91202044 1991-08-09
EP92200521 1992-02-24

Publications (2)

Publication Number Publication Date
DE69231266D1 DE69231266D1 (de) 2000-08-24
DE69231266T2 true DE69231266T2 (de) 2001-03-15

Family

ID=26129352

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69231266T Expired - Fee Related DE69231266T2 (de) 1991-08-09 1992-07-31 Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium

Country Status (3)

Country Link
US (1) US5611002A (de)
JP (1) JPH05303395A (de)
DE (1) DE69231266T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004045097B3 (de) * 2004-09-17 2006-05-04 Carl Von Ossietzky Universität Oldenburg Verfahren zur Extraktion periodischer Signalkomponenten und Vorrichtung hierzu

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366887B1 (en) * 1995-08-16 2002-04-02 The United States Of America As Represented By The Secretary Of The Navy Signal transformation for aural classification
DE69612958T2 (de) * 1995-11-22 2001-11-29 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
WO1998048408A1 (en) * 1997-04-18 1998-10-29 Koninklijke Philips Electronics N.V. Method and system for coding human speech for subsequent reproduction thereof
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
JP2001508197A (ja) 1997-10-31 2001-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 構成信号にノイズを加算してlpc原理により符号化された音声のオーディオ再生のための方法及び装置
JP2001513225A (ja) * 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
AU772874B2 (en) 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US7302396B1 (en) 1999-04-27 2007-11-27 Realnetworks, Inc. System and method for cross-fading between audio streams
JP4747434B2 (ja) * 2001-04-18 2011-08-17 日本電気株式会社 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
US20050246170A1 (en) * 2002-06-19 2005-11-03 Koninklijke Phillips Electronics N.V. Audio signal processing apparatus and method
CN100361198C (zh) * 2002-09-17 2008-01-09 皇家飞利浦电子股份有限公司 一种清音语音信号合成的方法
US6999922B2 (en) * 2003-06-27 2006-02-14 Motorola, Inc. Synchronization and overlap method and system for single buffer speech compression and expansion
US8340972B2 (en) * 2003-06-27 2012-12-25 Motorola Mobility Llc Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US20060187770A1 (en) * 2005-02-23 2006-08-24 Broadcom Corporation Method and system for playing audio at a decelerated rate using multiresolution analysis technique keeping pitch constant
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
CN110751942A (zh) * 2018-07-20 2020-02-04 北京京东金融科技控股有限公司 一种识别特征声音的方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3369077A (en) * 1964-06-09 1968-02-13 Ibm Pitch modification of audio waveforms
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
JPS58102298A (ja) * 1981-12-14 1983-06-17 キヤノン株式会社 電子機器
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
EP0107659A4 (de) * 1982-04-29 1985-02-18 Massachusetts Inst Technology Sprachcodierer und synthetisator.
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
JPS5969830A (ja) * 1982-10-14 1984-04-20 Toshiba Corp 文書音声処理装置
US4559602A (en) * 1983-01-27 1985-12-17 Bates Jr John K Signal processing and synthesizing method and apparatus
US4704730A (en) * 1984-03-12 1987-11-03 Allophonix, Inc. Multi-state speech encoder and decoder
US4845753A (en) * 1985-12-18 1989-07-04 Nec Corporation Pitch detecting device
US4852169A (en) * 1986-12-16 1989-07-25 GTE Laboratories, Incorporation Method for enhancing the quality of coded speech
US5055939A (en) * 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JPH02110658A (ja) * 1988-10-19 1990-04-23 Hitachi Ltd 文書編集装置
US5001745A (en) * 1988-11-03 1991-03-19 Pollock Charles A Method and apparatus for programmed audio annotation
JP2564641B2 (ja) * 1989-01-31 1996-12-18 キヤノン株式会社 音声合成装置
US5230038A (en) * 1989-01-27 1993-07-20 Fielder Louis D Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004045097B3 (de) * 2004-09-17 2006-05-04 Carl Von Ossietzky Universität Oldenburg Verfahren zur Extraktion periodischer Signalkomponenten und Vorrichtung hierzu

Also Published As

Publication number Publication date
US5611002A (en) 1997-03-11
JPH05303395A (ja) 1993-11-16
DE69231266D1 (de) 2000-08-24

Similar Documents

Publication Publication Date Title
DE69231266T2 (de) Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE3242866C2 (de)
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
DE69720861T2 (de) Verfahren zur Tonsynthese
DE1472004B2 (de) Verfahren und Anordnung zur Aufbereitung von gespeicherten Sprachsignalen
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE2836736B2 (de) Verfahren zur Aufzeichnung von beim Spielen eines tastenbetätigten Musikinstruments entstehenden Tonsignalen und den damit verbundenen Spielausdrücken, insbesondere der Lautstärke, entsprechenden Datensignalfolgen auf einem Aufzeichnungsträger und Vorrichtung zur Durchführung des Verfahrens
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE3037276C2 (de) Tonsynthesizer
DE2826570C2 (de)
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE69519086T2 (de) Sprachsynthese
DE2854601A1 (de) Ton-synthesizer und verfahren zur ton-aufbereitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB

8339 Ceased/non-payment of the annual fee