DE69926462T2 - DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND - Google Patents

DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND Download PDF

Info

Publication number
DE69926462T2
DE69926462T2 DE69926462T DE69926462T DE69926462T2 DE 69926462 T2 DE69926462 T2 DE 69926462T2 DE 69926462 T DE69926462 T DE 69926462T DE 69926462 T DE69926462 T DE 69926462T DE 69926462 T2 DE69926462 T2 DE 69926462T2
Authority
DE
Germany
Prior art keywords
signal
frequency
pitch
value
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69926462T
Other languages
German (de)
Other versions
DE69926462D1 (en
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69926462D1 publication Critical patent/DE69926462D1/en
Publication of DE69926462T2 publication Critical patent/DE69926462T2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Codieren eines Audiosignals. Die vorliegende Erfindung bezieht sich ebenfalls auf eine Anordnung zum Codieren eines Audiosignals. Die vorliegende Erfindung bezieht sich weiterhin auf ein Verfahren zum Synthetisieren eines Audiosignals aus codierten Signalfragmenten.The The present invention relates to a method of coding an audio signal. The present invention also relates to an arrangement for coding an audio signal. The present The invention further relates to a method of synthesizing an audio signal from coded signal fragments.

Die vorliegende Erfindung bezieht sich ebenfalls auf ein System zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten. Die vorliegende Erfindung bezieht sich weiterhin auf einen Synthesizer.The The present invention also relates to a system for Synthesizing an audio signal from encoded audio input signal fragments. The present invention further relates to a synthesizer.

Die vorliegende Erfindung bezieht sich auf ein parametrisches Produktionsmodell zum Codieren eines Audiosignals. Eine weit verbreitete Codierungstechnik auf Basis eines parametrischen Produktionsmodells ist die sog. "Linear Predictive Coding" Technik (LPC-Technik). Diese Technik wird insbesondere zur Sprachcodierung angewandt. Das codierte Signal kann beispielsweise über ein Telekommunikationsnetzwerk übertragen und in der Empfangsstation decodiert (neu-synthetisiert) werden oder es kann in einem Sprachsynthesesystem verwendet werden zum Synthetisieren von Sprache, die beispielsweise Texteingabe darstellt. Entsprechend dem LPC-Modell wird die Spektralenergie-Umhüllende eines Audiosignals in Termen eines optimalen All-Pol-Filters und eines Verstärkungsfaktors beschrieben, der den Filterausgang an den Eingangspegel anpasst. Für Sprache bestimmt eine binäre Sprachentscheidung, ob eine periodische Impulsfolge oder weißes Rauschen das LPC-Synthesefilter erregt. Für laufende Sprache werden die Modellparameter, d.h. Stimmhaftigkeit, Tonhöhenperiode, Verstärkungs- und Filterkoeffizienten alle Frames, mit einer typischen Dauer von 10 ms, aktualisiert. Dies reduziert die Bitrate drastisch. Obschon ein bekannter LPC-Vocoder verständliche Sprache erzeugen kann, klingt es oft wie Gebrumm. LPC basiert auf Autokorrelationsanalyse und ignoriert ganz einfach das Phasenspektrum. Die Synthese ist minimale Phase. Eine Begrenzung der bekannten LPC ist die binäre Selektion entweder einer periodischen oder einer Störungsquelle. In natürlicher Sprache wirken die beiden Quellen oft simultan. Nicht nur bei stimmhaften Reibelauten, sondern auch bei vielen anderen stimmhaften Lauten. Eine verbesserte LPC-Codierungstechnik ist bekannt aus "A mixed excitation LPC vocoder model for low bit rate speech coding", McCree & Barnwell, "IEEE Transactions on speech and audio pro cessing", Heft 3, Nr. 4, Juli 1995. Nach dieser Codierungstechnik wird eine Filterbank verwendet um das Eingangssignal in eine Anzahl von beispielsweise fünf Frequenzbänder aufzuteilen. Für jedes Band wird die relative Impuls- und Störungsleistung durch eine Schätzung der Stärke der Stimmleistung bei dieser Frequenz in dem Eingangssprache geschätzt. Die Stimmkraft in jedem Frequenzband wird als die größte der Korrelation der bandpassgefilterten Eingangssprache und der Korrelation der Umhüllenden der bandpassgefilterten Sprache gewählt. Das LPC-Synthesefilter wird durch eine frequenzgewichtete Summe einer Impulsfolge und weißes Rauschen angeregt.The The present invention relates to a parametric production model for encoding an audio signal. A widely used coding technique Based on a parametric production model, the so-called "Linear Predictive Coding "Technique (LPC) technique. This technique is used in particular for speech coding applied. The encoded signal can, for example via a Telecommunications network transmitted and decoded (re-synthesized) or in the receiving station it can be used in a speech synthesis system for synthesizing of language that represents, for example, text input. According to that LPC model becomes the spectral energy envelope an audio signal in terms of an optimal all-pole filter and a gain factor described, which adapts the filter output to the input level. For language determines a binary language decision, whether a periodic pulse train or white noise is the LPC synthesis filter excited. For current language, the model parameters, i. voicing, Pitch period, gain and filter coefficients all frames, with a typical duration of 10 ms, updated. This drastically reduces the bit rate. Although a well-known LPC vocoder understandable It can often sound like speechless. LPC is based on Autocorrelation analysis and simply ignores the phase spectrum. The synthesis is minimal phase. A limitation of the known LPC is the binary one Selection of either a periodic or a source of interference. In natural Language, the two sources often act simultaneously. Not only with voiced Reibelauten, but also with many other voiced sounds. An improved LPC coding technique is known from "A mixed excitation LPC vocoder model for low bit rate speech coding ", McCree & Barnwell," IEEE Transactions on speech and audio per cessing ", booklet 3, No. 4, July 1995. According to this coding technique, a filter bank used to divide the input signal into a number of, for example, five frequency bands. For each Band will estimate the relative impulse and disturbance performance by estimating the Strength the voice power at this frequency is estimated in the input speech. The Vocal power in each frequency band is considered the largest of the bandpass-filtered correlation Input speech and the correlation of the envelope of the bandpass filtered Language selected. The LPC synthesis filter is replaced by a frequency weighted sum a pulse train and white Noise excited.

Im Allgemeinen ist die durch LPC erhaltene Qualität relativ gering und deswegen wird LPC hauptsächlich für Kommunikationszwecke mit niedrigen Bitraten angewandt (beispielsweise 2400/4800 bps). Sogar die verbesserte LPC-Codierung eignet sich nicht für Systeme, wie Sprachsynthese (Text-zu-Sprache), wobei eine hohe Qualität an dem Ausgang erwünscht ist. Bei der Anwendung der LPC-Codierungsmethoden fehlt ein Großteil der Natürlichkeit. Dies ist eine Behinderung für umfangreiche Applikation von synthetischer Sprache in beispielsweise Telefondiensten oder in automatischen Verkehrssystemen in einer Kraftwagenumgebung.in the Generally, the quality obtained by LPC is relatively low and therefore becomes LPC mainly for communication purposes at low bit rates (for example 2400/4800 bps). Even the improved LPC coding is not suitable for systems like speech synthesis (text-to-speech), being a high quality output he wishes is. In the application of LPC coding methods, much of the missing Naturalness. This is a hindrance to extensive application of synthetic language in for example Telephone services or in automatic transport systems in one Automobile environment.

US-A-5189701 beschreibt einen Stimmcodierer/Decoder, der die Amplitude und die Phase der Pitch-Frequenz und der Harmonischen, durch Verwendung eines Frames mit fester Länge und mit fester Überlappung.US-A-5189701 describes a voice encoder / decoder that measures the amplitude and the Phase of the pitch frequency and the harmonic, by use a fixed-length frame and with a firm overlap.

Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein parametrisches Codierungs/Syntheseverfahren und -system zu schaffen, das imstande ist, mehr natürliche Sprache zu erzeugen.It is now u. a. an object of the present invention, a parametric To provide a coding / synthesis method and system that is capable is, more natural To generate language.

Um diese Aufgabe der vorliegenden Erfindung zu erfüllen umfasst das Verfahren zum Codieren eines Audiosignals:

  • – das Ermitteln aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal;
  • – das Bilden einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente des Signals dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird;
  • – für jedes Analysensegment:
  • – das Ermitteln eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Fre quenzanteile des Analysensegmentes, einschließlich einer Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment,
  • – das Ermitteln eines Rauschwertes der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und
  • – das Darstellen des Analysensegmentes durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile.
To accomplish this object of the present invention, the method of encoding an audio signal comprises:
  • - determining successive pitch periods / frequencies in the signal;
  • Forming a sequence of overlapping or contiguous analysis segments of the signal by setting a chain of time windows by shifting each successive time window by substantially a local pitch period from an immediately preceding time window, and the audio signal corresponding to an associated window function the relevant time window is weighted;
  • - for each analysis segment:
  • The determination of an amplitude value and a phase value for a number of frequency components of the analysis segment, including a number of harmonic frequencies of the pitch frequency corresponding to the analysis segment,
  • - Determining a noise value of the frequency components by comparing the phase value for the frequency component of the analysis segment with a corresponding phase value for at least one previous or subsequent Analysis segment; wherein the noise value represents a frequency component representing a contribution of a periodic component and an aperiodic component of the analysis segment to the frequency; and
  • - representing the analysis segment by the amplitude value and the noise value for each of the frequency components.

Der Erfinder hat gefunden, dass eine genaue Schätzung des Verhältnisses zwischen dem Rauschwert und dem periodischen Anteil dadurch erreicht wird, dass die Phasenentwicklung des Signals Pitch-synchron analysiert wird, statt einer (oder zusätzlich zu einer) Analyse der Amplitudenentwicklung. Diese verbesserte Detektion des Rauschbeitrags kann angewandt werden zum Verbessern der bekannten LPC-Codierung. Auf vorteilhafte Weise wird die Codierung für Sprachsynthesesysteme angewandt.Of the Inventor has found that an accurate estimate of the ratio between the noise value and the periodic share is achieved thereby that the phase development of the signal is pitch-synchronously analyzed instead of one (or additionally to a) analysis of the amplitude development. This improved detection The noise contribution can be applied to improve the known ones LPC. Advantageously, the coding for speech synthesis systems applied.

Wenn das Analysenfenster sehr schmal ist, kann die relativ schnelle Änderung des "Lärms", die in Sprache auftreten kann, genau detektiert werden.If the analysis window is very narrow, the relatively rapid change of the "noise" in language can occur accurately.

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 2 beschrieben, wird die Pitch-Entwicklung unter Anwendung einer Zwei-Schritt-Annäherung genau bestimmt. Nachdem eine grobe Schätzung des Pitches erhalten worden ist, wird das Signal gefiltert zum Extrahieren der Frequenzanteile in der Nähe der detektierten Pitch-Frequenz. Der wirkliche Pitch wird in dem Pitch-gefilterten Signal detektiert.at an embodiment according to the present invention as described in the dependent claim 2, Pitch development becomes accurate using a two-step approach certainly. After a rough estimate of the pitch, the signal is filtered to extract the frequency components in the vicinity the detected pitch frequency. The real pitch is in the Pitch-filtered signal detected.

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 3 beschrieben, basiert die Filterung auf Konvolution mit einem Sinus/Kosinuspaar innerhalb eines Segmentes, was eine genaue Bestimmung des Pitch-Frequenzanteils innerhalb des Segmentes berücksichtigt.at an embodiment according to the present invention as described in the dependent claim 3, the filtering is based on convolution with a sine / cosine pair within a segment, resulting in an accurate determination of the pitch frequency component within of the segment.

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 4 beschrieben, wird Interpolation angewandt zur Steigerung der Auflösung für abgetastete Signale.at an embodiment according to the present invention as described in the dependent claim 4, interpolation is used to increase the resolution for sampled Signals.

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 5 beschrieben, werden der Amplituden- und/oder Phasenwert der Frequenz anteile durch eine Transformation zu der Frequenzdomäne bestimmt, und zwar unter Verwendung der genau bestimmten Pitch-Frequenz als Grundfrequenz der Transformation. Dies berücksichtigt eine genaue Beschreibung des periodischen Teils des Signals.at an embodiment according to the present invention as described in the dependent claim 5, the amplitude and / or phase value of the frequency shares through determines a transformation to the frequency domain, under Use the well-defined pitch frequency as the fundamental frequency the transformation. This is taken into account a detailed description of the periodic part of the signal.

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 6 beschrieben, wird der Rauschwert von der Differenz des Phasenwertes für den Frequenzanteil des Analysensegmentes und dem entsprechenden Phasenwert wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes hergeleitet. Dies ist eine einfache Art und Weise ein Maß zu erhalten, wie hoch der Rauschwert bei dieser Frequenz in dem Signal ist. Wenn das Signal weitgehend durch das periodische Signal beherrscht wird, mit einem sehr niedrigen Rauschwert, wird die Phase im Wesentlichen dieselbe sein. Andererseits wird für ein durch Rauschanteile beherrschtes Signal die Phase "beliebig" sich ändern. An sich liefert der Vergleich der Phase einen Hinweis auf den Beitrag der periodischen und der aperiodischen Anteile zu dem Eingangssignal. Es dürfte einleuchten, dass das Maß auch basiert auf Phaseninformation von mehr als zwei Segmenten (so kann beispielsweise der Phaseninformation der beiden Nachbarsegmenten mit der Phase des aktuellen Segmentes verglichen werden).at an embodiment according to the present invention as described in the dependent claim 6, the noise value is the difference of the phase value for the frequency component of the analysis segment and the corresponding phase value at least derived from a previous or subsequent analysis segment. This is an easy way to get a measure of how tall the Noise at this frequency in the signal is. If the signal is largely dominated by the periodic signal, with a very low noise level, the phase will be essentially the same be. On the other hand, for a signal dominated by noise changes the phase "arbitrarily". At the comparison of the phase provides an indication of the contribution the periodic and the aperiodic components to the input signal. It should be Imagine that the measure too is based on phase information of more than two segments (so can for example, the phase information of the two neighboring segments compared with the phase of the current segment).

Bei einer Ausführungsform nach der vorliegenden Erfindung, wie in dem Unteranspruch 7 beschrieben, basiert der Rauschwert auf einer Differenz zwischen einer Abgeleiteten des Phasenwertes für den Frequenzanteil des Analysensegmentes und dem entsprechenden Phasenwert wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes. Dies schafft ein mehr robustes Mass.at an embodiment according to the present invention as described in the dependent claim 7, the noise value is based on a difference between a derivative of the phase value for the Frequency component of the analysis segment and the corresponding phase value at least one preceding or succeeding analysis segment. This creates a more robust measure.

Zum Erfüllen der Aufgabe der vorliegenden Erfindung umfasst das Verfahren zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen

  • – das Wiedergewinnen selektierter, codierter Signalfragmente, wobei die Signalfragmente als Amplitudenwert und als Rauschwert für jedes der Frequenzanteile codiert worden sind, und zwar entsprechend dem Verfahren nach Anspruch 1; und
  • – für jedes der wieder gewonnenen codieren Signalfragmente das Schaffen eines entsprechenden Signalfragmentes durch Transformation des Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.
To achieve the object of the present invention, the method comprises synthesizing an audio signal from coded audio input signal fragments, such as diphones
  • Retrieving selected coded signal fragments, the signal fragments having been coded as an amplitude value and as a noise value for each of the frequency components, according to the method of claim 1; and
  • For each of the recovered coded signal fragments, creating a corresponding signal fragment by transforming the signal fragment into a time domain, adding for each of the coded frequency components an aperiodic signal component corresponding to the respective noise value for the frequency component, the aperiodic signal component representing any initial phase Has.

Auf diese Weise kann ein Synthesesignal hoher Qualität erhalten werden. Bisher ist eine synthetische Sprache einer angemessenen Qualität dadurch erhalten worden, dass aufgezeichnete wirkliche Sprachfragmente, die Diphone, aneinander gekoppelt wurden. Mit diesen Techniken kann innerhalb eines Fragmentes ein hoher Pegel der Natürlichkeit des Ausgangs erreicht werden. Die Sprachfragmente werden selektiert und in einer sequentiellen Reihenfolge aneinander gekoppelt um den gewünschten Ausgang zu erzeugen. So wird beispielsweise ein eingegebener Text (ein Satz) zu einer Folge von Diphonen transkribiert, wonach die Sprachfragmente (Diphonen) entsprechend der Transkription erhalten werden. Normalerweise haben die aufgezeichneten Sprachfragmente nicht die Pitch-Frequenz und/oder die Dauer entsprechend der gewünschten Prosodie des auszusprechenden Satzes. Die Manipulation kann dadurch durchgeführt werden, dass das Basis-Sprachsignal in Segmente aufgeteilt wird. Die Segmente werden dadurch gebildet, dass eine Kette von Fenstern längs des Signals gesetzt wird. Aufeinander folgende Fenster werden meistens um eine Dauer, entsprechend der örtlichen Pitch-Periode verlagert. In dem System von EP-A 0527527 und EP-A 0527529, das als das PIOLA-System bezeichnet wird, wird die örtliche Pitch-Periode automatisch detektiert und die Fenster werden entsprechend der detektierten Pitch-Dauer verlagert. In dem sog. PSOLA-System von EP-A 363233 sind die Fenster um handmäßig bestimmte Stellen, sog. Stimmmerker, zentriert. Die Stimmmerker entsprechen den periodischen Zeitpunkten stärkster Erregung der Stimmbänder. Das Sprachsignal wird entsprechend der Fensterfunktion der betreffenden Fenster gewichtet zum Erhalten der Segmente. Ein Ausgangssignal wird dadurch erzeugt, dass die Signalsegmente aneinander gekoppelt werden. Ein verlängertes Ausgangssignal wird dadurch erhalten, dass Segmente wiederholt werden (beispielsweise Wiederholung von einem zu vier Segmenten um ein um 25% längeres Signal zu erhalten). Auf gleiche Weise kann ein verkürztes Ausgangssignal dadurch erreicht werden, dass Segmente unterdrückt werden. Der Pitch des Ausgangssignals wird erhöht, bzw. verringert und zwar durch Steigerung bzw. Verringerung der Überlappung zwischen den Segmenten. Angewandt auf laufende Sprache kann die Qualität der auf diese Art und Weise manipulierten Sprache sehr hoch sein, vorausgesetzt, dass der Bereich der Pitch-Änderungen nicht zu groß ist. Es treten aber Komplikationen auf, wenn die Sprache aus relativ kurzen Sprachsegmenten, wie Diphonen, aufgebaut ist. Die harmonischen Phasenläufe der stimmhaften Sprachteile können ziemlich verschieden sein und es ist schwer, glatte Übergänge an den Rändern zwischen aufeinander schen aufeinander folgenden Fragmenten zu erzeugen, wodurch die Natürlichkeit der synthetisierten Sprache reduziert wird. Bei derartigen Systemen kann die Codierungstechnik nach der vorliegenden Erfindung auf vorteilhafte Weise angewandt werden. Dadurch, dass nicht mit den wirklichen Audio-Fragmenten mit einer nicht steuerbaren Phase gearbeitet wird, werden stattdessen Fragmente aus den codierten Fragmenten nach der vorliegenden Erfindung geschaffen. Jede beliebige geeignete Technik kann angewandt werden um die Fragmente zu decodieren, denen eine Segmentmanipulation nach der PIOLA/PSOLA-Technik folgt. Durch Anwendung einer geeigneten Decodierungstechnik kann die Phase der betreffenden Frequenzanteile völlig gesteuert werden, so dass ungesteuerte Phasenübergänge bei Fragmentgrenzen vermieden werden können. Vorzugsweise wird sinusförmige Synthese angewandt zum Decodieren der codierten Fragmente. Nach der vorliegenden Erfindung werden ebenfalls eine Anordnung wie in Anspruch 8 beschrieben sowie ein Synthesizer, wie in Anspruch 11 beschrieben, vorgesehen.In this way, a synthesis signal of high quality can be obtained. So far, a reasonable quality synthetic speech has been obtained by coupling recorded real speech fragments, the diphones. With these techniques, within a fragment, a high level of naturalness of the output can be achieved. The language fragments are selected and displayed in a sequential order sequence coupled together to produce the desired output. For example, an input text (a sentence) is transcribed into a sequence of diphones, after which the speech fragments (diphones) are obtained according to the transcription. Normally, the recorded speech fragments do not have the pitch frequency and / or the duration corresponding to the desired prosody of the sentence to be spoken. The manipulation can be performed by dividing the basic speech signal into segments. The segments are formed by placing a string of windows along the signal. Consecutive windows are usually shifted by a duration corresponding to the local pitch period. In the system of EP-A-0527527 and EP-A-0527529, referred to as the PIOLA system, the local pitch period is automatically detected and the windows are displaced according to the detected pitch duration. In the so-called PSOLA system of EP-A 363233, the windows are centered around manually determined locations, so-called voice markers. The vocal cues correspond to the periodic points of strong excitation of the vocal cords. The speech signal is weighted according to the windowing function of the respective windows to obtain the segments. An output signal is generated by coupling the signal segments together. An extended output is obtained by repeating segments (eg repeating from one to four segments to get a 25% longer signal). In the same way, a shortened output signal can be achieved by suppressing segments. The pitch of the output signal is increased or decreased by increasing or decreasing the overlap between the segments. Applied to current language, the quality of the language manipulated in this way can be very high, provided that the range of pitch changes is not too large. However, complications occur when the language is composed of relatively short speech segments, such as diphones. The harmonic phase sequences of the voiced speech parts can be quite diverse and it is difficult to create smooth transitions at the edges between successive fragments, thereby reducing the naturalness of the synthesized speech. In such systems, the coding technique of the present invention can be advantageously applied. By not working with the actual audio fragments having a non-controllable phase, fragments of the coded fragments according to the present invention are instead created. Any suitable technique may be used to decode the fragments followed by segment manipulation according to the PIOLA / PSOLA technique. By applying a suitable decoding technique, the phase of the relevant frequency components can be completely controlled, so that uncontrolled phase transitions at fragment boundaries can be avoided. Preferably, sinusoidal synthesis is used to decode the encoded fragments. According to the present invention, an arrangement as described in claim 8 and a synthesizer as described in claim 11 are also provided.

Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:embodiments The invention are illustrated in the drawings and will be described in more detail below. Show it:

1 ein gesamtes Codierungsverfahren nach der vorliegenden Erfindung, 1 an entire coding method according to the present invention,

2 Segmentierung eines Signals, 2 Segmentation of a signal,

3 genaue Bestimmung eines Pitch-Wertes, wobei die erste Harmonische-Filtertechnik nach der vorliegenden Erfindung angewandt wird, 3 accurate determination of a pitch value using the first harmonic filter technique of the present invention,

4 die Ergebnisse der ersten-Harmonischen Filterung, 4 the results of the first-harmonic filtering,

5 den Rauschwert, wobei die Analyse nach der vorliegenden Erfindung angewandt wird, und 5 the noise value using the analysis of the present invention, and

6 eine Illustration der Verlängerung eines synthetisierten Signals. 6 an illustration of the extension of a synthesized signal.

Allgemeine Beschreibunggeneral description

Das gesamte Codierungsverfahren nach der vorliegenden Erfindung ist in 1 dargestellt. In dem Schritt 10 wird die Entwicklung der Pitch-Periode (oder als Äquivalent: die Pitch-Frequenz) eines Audio-Eingangssignals detektiert. Das Signal kann beispielsweise ein Sprachsignal oder ein Sprachsignalfragment darstellen, wie dies für diphone Sprachsynthese verwendet wird. Obschon die Technik auf Sprachsignale gerichtet ist, kann die Technik auch auf andere Audiosignale, wie Musik, angewandt werden. Für derartige Signale kann die Pitch-Frequenz mit dem dominanten periodischen Frequenzanteil assoziiert werden. Die Beschreibung fokussiert aber auf Sprachsignale.The entire coding method according to the present invention is in 1 shown. In the step 10 the development of the pitch period (or as equivalent: the pitch frequency) of an audio input signal is detected. The signal may represent, for example, a speech signal or a speech signal fragment as used for diphone speech synthesis. Although the technique is directed to speech signals, the technique can also be applied to other audio signals such as music. For such signals, the pitch frequency may be associated with the dominant periodic frequency component. However, the description focuses on speech signals.

Im Schritt 12 wird das Signal in eine Sequenz einander überlappender oder aneinander grenzender Analysensegmente aufgeteilt. Um die Segmente zu bilden wird gegenüber dem Eingangssignal eine Kette von Zeitfenstern gesetzt. Jedes Zeitfenster ist mit einer Fensterfunktion assoziiert, wie nachstehend noch näher beschrieben wird. Durch Gewichtung des Signals entsprechend der Fensterfunktion der betreffenden Fenster, werden die Segmente erzeugt.In step 12 the signal is divided into a sequence of overlapping or adjacent analysis segments. To form the segments, a chain of time windows is set relative to the input signal. Each time window is associated with a window function, as will be described in more detail below. By weighting the signal according to the window function of the respective windows, the segments are generated.

In den nachfolgenden Schritten wird jedes der Analysensegmente auf eine Pitch-synchrone Art und Weise analysiert, und zwar um die Phasenwerte zu ermitteln (und vorzugsweise gleichzeitig die Amplitudenwerte) einer Anzahl harmonischer Frequenzen innerhalb des Segmentes. Die harmonischen Frequenzen umfassen die Pitch-Frequenz, die als erste Harmonische bezeichnet wird. Die für das Segment betreffende Pitch-Frequenz ist bereits in dem Schritt 10 bestimmt worden. Die Phase wird in Bezug auf einen vorbestimmten Zeitpunkt in dem Segment bestimmt (beispielsweise der Start oder die Mitte des Segmentes). Zum Erhalten der höchsten Qualität der Codierung werden möglichst viele Harmonische analysiert (innerhalb der Bandbreite des Signals). Wenn aber beispielsweise ein bandgefiltertes Signal erforderlich ist, brauchen nur die Harmonischen innerhalb des gewünschten Frequenzbereichs in Betracht gezogen zu werden. Auf gleiche Weise können, wenn ein Ausgangssignal geringerer Qualität akzeptierbar ist, eine Harmonische außer Betracht gelassen werden. Auch für einige der Harmonischen kann es sein, dass nur die Amplitude bestimmt wird, wobei der Rauschwert für einen Subsatz der Harmonischen bestimmt wird. Insbesondere für die niedrigeren Harmonischen neigt das Signal vorwiegend periodisch zu sein, wodurch es ermöglicht wird, einen geschätzten Rauschwert für diese Harmonischen zu verwenden. Weiterhin ändert sich der Rauschwert allmählicher als die Amplitude. Dies ermöglicht es, den Rauschwert für nur einen einzigen Subsatz der Harmonischen zu bestimmen (beispielsweise einmal je zwei aufeinander folgende Harmonische). Für diejenigen Harmonischen, für die kein Rauschwert bestimmt worden ist, kann der Rauschwert bestimmt werden (beispielsweise durch Interpolation). Zum Erhalten einer Codierung hoher Qualität wird der Rauschwert für alle Harmonischen innerhalb des gewünschten Frequenzbereichs. Sollten alle Rauschwerte dargestellt werden, so würde dies zu viel Speicherraum oder Übertragungskapazität erfordern, die Rauschwerte können auf effiziente Weise komp rimiert werden, und zwar auf Basis der relativ langsamen Änderung des Rauschwertes. Jede beliebige geeignete Kompressionstechnik kann dazu angewandt werden.In the following steps, each of the analysis segments is analyzed in a pitch-synchronous manner to determine the phase values (and preferably simultaneously the amplitude values) of a number of harmonic frequencies within the segment. The harmonic frequencies include the pitch frequency, which is referred to as the first harmonic. The pitch frequency for the segment is already in the step 10 has been determined. The phase is determined with respect to a predetermined time in the segment (for example, the start or middle of the segment). To obtain the highest quality of coding, as many harmonics as possible are analyzed (within the bandwidth of the signal). However, if, for example, a band filtered signal is required, only the harmonics within the desired frequency range need to be considered. Similarly, if a lower quality output signal is acceptable, harmonic may be disregarded. Also for some of the harmonics, it may be that only the amplitude is determined, with the noise value being determined for a subset of the harmonics. Especially for the lower harmonics, the signal tends to be predominantly periodic, thereby making it possible to use an estimated noise value for these harmonics. Furthermore, the noise value changes more gradually than the amplitude. This makes it possible to determine the noise value for only a single subset of the harmonics (for example, once every two successive harmonics). For those harmonics for which no noise value has been determined, the noise value can be determined (for example by interpolation). To obtain high quality coding, the noise value for all harmonics becomes within the desired frequency range. If all the noise values are represented, this would require too much memory space or transmission capacity, and the noise values can be efficiently compressed based on the relatively slow change in the noise value. Any suitable compression technique may be used.

In dem Schritt 14 wird das erste Segment selektiert, angegeben durch einen Segmentzeiger (s – ptr = 0). Das Segment wird in dem Schritt 16 wieder gefunden (beispielsweise aus dem Hauptspeicher oder einem Hintergrundspeicher). In dem Schritt 18 wird die erste zu analysierende Harmonische selektiert (h = 1). In dem Schritt 20 wird die Phase (und vorzugsweise auch die Amplitude) der Harmonischen ermittelt. Im Grunde kann zum Bestimmen der Phase jede beliebige geeignete Methode angewandt werden. Danach wird in dem schritt 22 für die selektierte harmonische Frequenz ein Maß (Rauschwert) bestimmt, das den Beitrag eines periodischen Signalanteils und eines aperiodischen Signalanteils (Rauschen) zu dem selektierten Analysensegment bei dieser Frequenz angibt. Das Maß kann ein Verhältnis zwischen den Anteilen oder ein anderes geeignetes Maß sein (beispielsweise ein absoluter Wert eines der Anteile oder der beiden Anteile). Das Maß wird für jede der betreffenden Frequenzen dadurch bestimmt, dass die Phase der Frequenz in einem Segment mit der Phase derselben Frequenz in einem nachfolgenden Segment (oder auf alternative Weise in einem vorhergehenden Segment) verglichen wird. Wenn das Signal weitgehend durch das periodische Signal dominiert wird, mit einem sehr geringen Beitrag an Rauschen, wird die Phase im Wesentlichen dieselbe sein. Andererseits wird für ein Signal, das durch Rauschen beherrscht wird, die Phase "beliebig" sich ändern. An sich liefert der Vergleich der Phase eine Angabe für den Beitrag der periodischen und aperiodischen Anteile zu dem Eingangssignal. Es dürfte einleuchten, dass das Maß auch auf Phaseninformation von mehr als zwei Segmenten basieren kann (so kann beispielsweise der Phaseninformation von den beiden Nachbarsegmenten mit der Phase des betreffenden Segmentes verglichen werden). Auch andere Information, wie die Amplitude des Frequenzanteils kann berücksichtigt werden, sowie Information über benachbarte Harmonische.In the step 14 the first segment is selected, indicated by a segment pointer (s-ptr = 0). The segment is in the step 16 found again (for example, from main memory or a backing store). In the step 18 the first harmonic to be analyzed is selected (h = 1). In the step 20 the phase (and preferably also the amplitude) of the harmonics is determined. In essence, any suitable method can be used to determine the phase. After that, in the step 22 for the selected harmonic frequency, a measure (noise value) indicating the contribution of a periodic signal component and an aperiodic signal component (noise) to the selected analysis segment at that frequency. The measure may be a ratio between the shares or another suitable measure (for example, an absolute value of one of the shares or the two shares). The measure is determined for each of the respective frequencies by comparing the phase of the frequency in one segment with the phase of the same frequency in a subsequent segment (or alternatively in a previous segment). If the signal is largely dominated by the periodic signal, with a very low contribution of noise, the phase will be substantially the same. On the other hand, for a signal that is dominated by noise, the "arbitrary" phase will change. As such, the comparison of the phase provides an indication of the contribution of the periodic and aperiodic components to the input signal. It will be clear that the measure can also be based on phase information of more than two segments (for example, the phase information of the two neighboring segments can be compared with the phase of the relevant segment). Other information, such as the amplitude of the frequency component can be taken into account, as well as information about neighboring harmonics.

In dem Schritt 24 tritt Codierung des selektierten Analysesegmentes dadurch auf, dass für jeden der selektierten Frequenzanteile der Amplitudenwert und der Rauschwert gespeichert wird (auch als Rauschfaktor bezeichnet). Es dürfte einleuchten, dass da der Rauschwert von dem Phasenwert hergeleitet wird, als eine Alternative zur Speicherung des Rauschwertes auch die Phasenwerte gespeichert werden können.In the step 24 If coding of the selected analysis segment occurs, the amplitude value and the noise value are stored for each of the selected frequency components (also referred to as noise factor). It will be appreciated that since the noise value is derived from the phase value, as an alternative to storing the noise value, the phase values may also be stored.

In dem Schritt 26 wird geprüft, ob alle gewünschten Harmonischen codiert worden sind; sollte dies nicht der Fall sein, so wird die nächste zu codierende Harmonische in dem Schritt 28 selektiert. Wenn alle Harmonischen codiert worden sind, wird in dem Schritt 30 geprüft, ob alle Analysensegmente erledigt worden sind. Sollte dies nicht der Fall sein, so wird in dem Schritt 32 das nächste Segment zur Codierung selektiert.In the step 26 it is checked whether all desired harmonics have been coded; if this is not the case, then the next harmonic to be coded in the step 28 selected. If all harmonics have been encoded, in the step 30 Checked if all analysis segments have been completed. If this is not the case, then in the step 32 select the next segment for coding.

Die codierten Segmente werden in einer späteren Stufe verwendet. So werden beispielsweise die codierten Segmente über ein Telekommunikationsnetzwerk übertragen und decodiert zum Reproduzieren des ursprünglichen Eingangssignals. Eine derartige Übertragung kann in Echtzeit während der Codierung stattfinden. Die codierten Segmente werden vorzugsweise in einem Sprachsynthesesystem (Text-zu-Sprache-Umwandlung) verwendet. Für eine derartige Applikation werden die codierten Segmente gespeichert, beispielsweise in einem Hintergrundspeicher, wie einer Festplatte oder einem CD-ROM. Für Sprachsynthese wird typischerweise ein Satz in eine Darstellung umgewandelt, die angibt, welche Sprachfragmente (beispielsweise Diphone) konkateniert werden sollen und die Sequenz der Konkatenation. Die Darstellung gibt auch die prosodische Information des Satzes an. Im Vergleich zu der Information, wie Dauer und Pitch, verfügbar für die gespeicherten codierten Segmente, gibt dies an, wie der Pitch und die Dauer der betreffenden Segmente manipuliert werden soll. Die betreffenden Fragmente werden von dem Speicher erhalten und decodiert (beispielsweise in ein Sprachsignal verwandelt, typischerweise in eine digitale Form). Der Pitch und/oder die Dauer wird unter Anwendung einer geeigneten Technik (beispielsweise die PSOLA/PIOLA-Manipulationstechnik) manipuliert.The coded segments will be used at a later stage. For example, the encoded segments are transmitted over a telecommunications network and decoded to reproduce the original input signal. Such transmission may take place in real time during encoding. The coded segments are preferably used in a speech synthesis system (text-to-speech conversion). For such an application, the coded segments are stored, for example in a background memory such as a hard disk or a CD-ROM. For speech synthesis is typically a sentence in converted a representation indicating which speech fragments (eg diphones) should be concatenated and the sequence of concatenation. The representation also indicates the prosodic information of the sentence. Compared to the information, such as duration and pitch, available for the stored coded segments, this indicates how the pitch and duration of the segments concerned should be manipulated. The respective fragments are obtained from the memory and decoded (for example, converted into a speech signal, typically a digital form). The pitch and / or duration is manipulated using a suitable technique (for example, the PSOLA / PIOLA manipulation technique).

Die Codierung nach der vorliegenden Erfindung kann in Sprachsynthesesys temen (Text-zu-Sprache-Verwandlung) angewandt werden. Bei derartigen Systemen kann der Decodierung der codierten Fragmente eine weitere Manipulation des Ausgangssignalfragmentes folgen, und zwar unter Anwendung einer Segmentierungstechnik, wie PSOLA oder PIOLA. Diese Techniken benutzen Überlappungsfenster mit einer Dauer von im Wesentlichen der doppelten lokalen Pitchperiode. Wenn die Codierung zur späteren Verwendung in derartigen Applikationen durchgeführt worden ist, werden vorzugsweise bereits in dieser Stufe dieselben Fenster verwendet wie diese auch zum Manipulieren der Prosodie der Sprache während der Sprachsynthese verwendet worden ist. Auf diese Art und Weise können die von der Decodierung herrührenden Signalsegmente beibehalten werden und es braucht keine zusätzliche Segmentierung für die Prosodiemanipulation durchgeführt zu werden.The Coding according to the present invention can be used in speech synthesis (text-to-speech conversion). In such Systems can decode the coded fragments one more Manipulation of the output signal fragment, using a segmentation technique, such as PSOLA or PIOLA. These techniques use overlap window having a duration of substantially twice the local pitch period. If the coding for later Use has been made in such applications are preferably already in this stage uses the same windows as these too used to manipulate the prosody of speech during speech synthesis has been. In this way, those of the decoding stemming Signal segments are maintained and it needs no additional segmentation for the Prosodiemanipulation performed to become.

Segmentierungsegmentation

Die Sequenz von Analysensegmenten wird durch Positionierung einer Kette einander überlappender oder aneinander grenzender Zeitfenster gegenüber dem Signal gebildet. Jedes Zeitfenster ist mit einer betreffenden Fensterfunktion assoziiert. Das Signal wird entsprechend der assoziierten Fensterfunktion eines betreffenden Fensters der Kette von Fenstern gewichtet. Auf diese Art und Weise führt jedes Fenster zu der Erzeugung eines entsprechenden Segmentes. Im Grunde kann die Fensterfunktion eine Blockform sein. Dies führt dazu, dass im Endeffekt das Eingangssignal in nicht überlappende benachbarte Segmente geschnitten wird. Dazu kann die zum Bilden des Segmentes verwendete Fensterfunktion eine einfache Blockwelle sein: W(t) = 1, für 0 ≤ t ≤ L W(t) = 0, sonst. The sequence of analysis segments is formed by positioning a chain of overlapping or contiguous time windows against the signal. Each time window is associated with a respective window function. The signal is weighted according to the associated window function of a respective window of the string of windows. In this way, each window results in the generation of a corresponding segment. In essence, the window function can be a block form. As a result, the input signal is ultimately cut into non-overlapping adjacent segments. For this, the window function used to form the segment can be a simple block wave: W (t) = 1, for 0 ≤ t ≤ L W (t) = 0, otherwise.

Vorzugsweise werden Fenster verwendet, die breiter sind als die Verlagerung der Fenster (d.h. die Fenster überlappen sich). Vorzugsweise erstreckt sich jedes Fenster zu der Mitte des nächsten Fensters. Auf diese Art und Weise wird jeder Zeitpunkt des Sprachsignals (typischerweise) durch zwei Fenster bedeckt. Die Fensterfunktion variiert als eine Funktion der Position in dem Fenster, wobei die Funktion in der Nähe des Randes des Fensters dem Wert Null erreicht. Vorzugsweise ist die Fensterfunktion "selbst ergänzend", und zwar in dem Sinne, dass die Summe der zwei Fensterfunktionen, die denselben Zeitpunkt in dem Signal decken, unabhängig von dem Zeitpunkt ist. Ein Beispiel derartiger Fenster ist in 2 dargestellt. Auf vorteilhafte Weise ist die Fensterfunktion selbst ergänzend in dem Sinne, dass die Summe der überlappenden Fensterfunktionen unabhängig von der Zeit ist: W(t) + W(T – L) – konstant, für 0 ≤ t < L. Preferably, windows are used which are wider than the displacement of the windows (ie the windows overlap). Preferably, each window extends to the center of the next window. In this way, each time point of the speech signal is (typically) covered by two windows. The window function varies as a function of position in the window, with the function approaching zero near the edge of the window. Preferably, the window function is "self-complementary" in the sense that the sum of the two window functions covering the same time in the signal is independent of the time. An example of such windows is in 2 shown. Advantageously, the window function itself is complementary in the sense that the sum of the overlapping window functions is independent of time: W (t) + W (T-L) - constant, for 0 ≤ t <L.

Diese Bedingung wird beispielsweise erfüllt, wenn: W(t) = ½ – A(t)Cosinus[2πt/L ± ϕ(t)]wobei A(t) und >(t) periodische Funktionen von t sind mit einer Periode von L. Eine typische Fensterfunktion wird erhalten, wenn A(t) = ½ und ϕ(t) = 0 ist. Durchaus bekannte Beispiele derartiger selbst ergänzender Fensterfunktionen sind das Hamming- oder Hanning-Fenster. Die Verwendung von Fenstern, die breiter sind als die Verlagerung führt dazu, dass Segmente sich überlappen.This condition is met, for example, if: W (t) = ½ - A (t) cosine [2πt / L ± φ (t)] where A (t) and> (t) are periodic functions of t with a period of L. A typical window function is obtained when A (t) = ½ and φ (t) = 0. Well-known examples of such self-supplementing window functions are the Hamming or Hanning window. Using windows that are wider than the displacement will cause segments to overlap.

Die Fenster werden um eine örtliche Pitchperiode verlagert. Auf diese Art und Weise werden "schmale" Analysensegmente erhalten (für ein blockförmiges Fenster entspricht die Breite des Segmentes im Wesentlichen der örtlichen Pitchperiode; für überlappende Segmente kann dies die doppelte örtliche Pitchperiode sein). Da der "Lärm" sich schnell ändern kann, ermöglicht die Verwendung schmaler Analysensegmente eine genaue Detektion der Rauschwerte.The Windows will be around a local Pitch period shifted. In this way, "narrow" analysis segments become received (for a block-shaped Window corresponds to the width of the segment substantially the local Pitch period; for overlapping This can be twice the local segments Pitch period). Because the "noise" can change quickly, allows the use of narrow analysis segments provides accurate detection of the noise values.

In 2 ist die Segmentierungstechnik für einen periodischen Teil des Audiosignals 10 dargestellt. In diesem Teil wiederholt sich das Signal nach aufeinander folgenden Perioden 11a, 11b, 11c mit einer Dauer L (die Pitchperiode). Für ein Sprachsignal ist eine derartige Dauer im Schnitt etwa 5 ms für eine weibliche Stimme und 10 ms für eine männliche Stimme. Eine Kette von Zeitfenstern 12a, 12b, 12c wird gegenüber dem Signal 10 positioniert. In 2 werden sich Überlappende Zeitfenster verwendet, zentriert zu Zeitpunkten "ti" (i = 1, 2, 3, ..). Die dargestellten Fenster erstrecken sich je über zwei Perioden "L", ausgehend von der Mitte des vorhergehenden Fensters und endend in der Mitte des nachfolgenden Fensters. Dadurch wird jeder Zeitpunkt durch zwei Fenster bedeckt. Jedes Zeitfenster 12a, 12b, 12c ist mit einer betreffenden Fensterfunktion W(t) 13a, 13b, 13c assoziiert. Eine erste Kette mit Signalsegmenten 14a, 14b, 14c wird durch Gewichtung des Signals 10 entsprechend den Fensterfunktionen der betreffenden Fenster 12a, 12b, 12c gebildet. Die Gewichtung umfasst das Multiplizieren des Audiosignals 100 innerhalb jedes Fensters mit der Fensterfunktion des Fensters. Das Segmentsignal Si(t) wird erhalten als: Si(t) = W(t)X(t – ti) In 2 is the segmentation technique for a periodic part of the audio signal 10 shown. In this part, the signal repeats after successive periods 11a . 11b . 11c with a duration L (the pitch period). For a speech signal, such duration is on average about 5 ms for a female voice and 10 ms for a male voice. A chain of time windows 12a . 12b . 12c is opposite the signal 10 positioned. In 2 overlapping time windows are used, centered at times "ti" (i = 1, 2, 3, ..). The displayed windows each extend over two periods "L", starting from the middle of the previous window and ending in the middle of the subsequent window. This will make each time through two Window covered. Every time window 12a . 12b . 12c is with a relevant window function W (t) 13a . 13b . 13c associated. A first chain with signal segments 14a . 14b . 14c is by weighting the signal 10 according to the window functions of the respective window 12a . 12b . 12c educated. The weighting involves multiplying the audio signal 100 within each window with the window function of the window. The segment signal Si (t) is obtained as: Si (t) = W (t) X (t - ti)

Jedes der auf diese Art und Weise erhaltenen Segmente wird analysiert und codiert, wie nachstehend detailliert beschrieben wird, und zwar nachdem eine Beschreibung für eine bevorzugte Art und Weise der Bestimmung der Pitch-Perioden gegeben worden ist.each the segments obtained in this way are analyzed and encoded as described in detail below after a description for a preferred way of determining the pitch periods has been given.

Bestimmung des PitchesDetermination of the pitch

Die Pitch-synchrone Analyse nach der vorliegenden Erfindung erfordert eine genaue Schätzung des Pitches des Eingangssignals. Im Grunde kann jede beliebige geeignete Pitch-Detektionstechnik angewandt werden, die eine ziemlich genaue Schätzung des Pitchwertes liefert. Es wird bevorzugt, dass ein vorbestimmter Zeitpunkt (wie der Nulldurchgang) der höchsten Harmonischen innerhalb des erforderlichen Frequenzbandes mit einer Genauigkeit von etwa einem Zehntel eines Abtastwertes detektiert werden kann.The Pitch-synchronous analysis according to the present invention requires an accurate estimate of the Pitches of the input signal. Basically, any suitable Pitch detection technique can be applied, which is a fairly accurate estimate of the pitch value. It is preferred that a predetermined Time (like the zero crossing) of the highest harmonics within the required frequency band with an accuracy of about one tenth of a sample can be detected.

Eine bevorzugte Art und Weise einer genauen Bestimmung des Pitches umfasst die nachfolgenden Schritte, wie diese in 3 dargestellt sind. In dem Schritt 310 wird ein grober Wert für den Pitch erhalten. Im Grunde kann jede beliebige geeignete Technik angewandt werden um diesen groben Wert zu erhalten. Vorzugsweise wird dieselbe Technik auch abgewandt um eine binäre Stimmenentscheidung zu erhalten, die angibt, welche Teile des Sprachsignals stimmhaft sind (d.h. mit einem identifizierbaren periodischen Signal) und welche Segmente stimmlos sind. Nur die stimmhaften Segmente sollen weiter analysiert werden. Der Pitch kann handmäßig angegeben werden, beispielsweise dadurch, dass den Signalen Stimmmarkierungen hinzugefügt werden. Vorzugsweise wird die örtliche Periodenlänge, d.h. der Pitchwert, automatisch bestimmt. Die bekanntesten Methoden einer automatischen Pitchdetektion basieren auf der Bestimmung des Abstandes zwischen Spitzen in dem Spektrum des Signals, wie dies beispielsweise in "Measurement of Pitch by subharmonic summation" von D.J. Hermes, "Journal of the Acoustical Society of America", Heft 83 (1988) Nr. 1, Seiten 257–264 beschrieben worden ist. Diese Technik kann beispielsweise mit einer Framerate von 100 Hz durchgeführt werden. Andere Methoden selektieren eine Periode, welche die Änderung in dem Signal zwischen aufeinander folgenden Perioden minimiert. Die meisten dieser Techniken eignen sich zum Erhalten einer groben Angabe des Pitches, wie für den Schritt 310 erforderlich, sind aber nicht genau genug um unmittelbar als Basis für die Analyse bei der Bestimmung des Rauschwertes verwendet zu werden.A preferred way of accurately determining the pitch comprises the following steps, as described in US Pat 3 are shown. In the step 310 a rough value for the pitch is obtained. Basically, any suitable technique can be used to obtain this coarse value. Preferably, the same technique is also used to obtain a binary voice decision indicating which parts of the speech signal are voiced (ie, with an identifiable periodic signal) and which segments are unvoiced. Only the voiced segments should be further analyzed. The pitch can be specified manually, for example by adding voice tags to the signals. Preferably, the local period length, ie the pitch value, is determined automatically. The best known methods of automatic pitch detection are based on determining the spacing between peaks in the spectrum of the signal, as described, for example, in "Measurement of Pitch by subharmonic summation" by DJ Hermes, "Journal of the Acoustical Society of America", Issue 83 (1988) ) No. 1, pages 257-264. For example, this technique can be performed at a frame rate of 100 Hz. Other methods select a period that minimizes the change in the signal between successive periods. Most of these techniques are suitable for obtaining a rough indication of the pitch, as for the step 310 but are not accurate enough to be used directly as the basis for the analysis in determining the noise value.

Deswegen findet auf Basis des groben Pitchwertes eine genauere Ermittlung statt. In dem Schritt 320 wird das Eingangssignal in eine Sequenz von Segmenten aufgeteilt, die als Pitchdetektionssegmente bezeichnet werden. Auf ähnliche Weise wie oben beschrieben wird dies dadurch erreicht, dass eine Kette von Zeitfenstern gegenüber dem Signal positioniert wird und dass das Signal mit der Fensterfunktion der betreffenden Zeitfenster gewichtet wird. Es können überlappende oder nicht überlappende Fenster verwendet werden. Vorzugsweise wird ein überlappendes Fenster, wie ein Hamming- oder ein Hannig-Fenster verwendet. Das Fenster wird um die gesamte Pitchperiode des Signals verlagert.Therefore, based on the coarse pitch value, a more accurate determination is made. In the step 320 For example, the input signal is divided into a sequence of segments called pitch detection segments. In a similar manner as described above, this is achieved by positioning a chain of time slots opposite to the signal and weighting the signal with the window function of the respective time slots. Overlapping or non-overlapping windows can be used. Preferably, an overlapping window such as a Hamming or Hannig window is used. The window is shifted by the entire pitch period of the signal.

In dem Schritt 330 wird jedes der Pitchdetektionssegmente gefiltert zum Extrahieren des Grundfrequenzanteils (aus als die erste Harmonische bezeichnet) dieses Segmentes. Die Filterung kann beispielsweise dadurch durchgeführt werden, dass ein Bandpassfilter um die erste Harmonische verwendet wird. Vorzugsweise wird die Filterung durch Konvolution des Eingangssignals mit einem Sinus/Kosinuspaar durchgeführt. Die Modulationsfrequenz des Sinus/Kosinuspaares wird auf einen groben Pitchwert gesetzt. Die Konvolutionstechnik ist im Bereich der Signalverarbeitung durchaus bekannt. Kurz gesagt, ein Sinus und ein Kosinus liegen gegenüber dem Segment. Für jeden Abtastwert in dem Segment wird der Wert des Abtastwertes mit dem Wert des Sinus zu dem entsprechenden Zeitpunkt multipliziert. Alle erhaltenen Produkte werden voneinander subtrahiert, was den imaginären Teil des Pitchfrequenzanteils in der Frequenzdomäne ergibt. Auf gleiche Weise wird für jeden Abtastwert in dem Segment der Wert des Abtastwertes mit dem Wert des Kosinus zu dem entsprechenden Zeitpunkt multipliziert. Alle erhaltenen Produkte werden zusammen addiert, was der reellen Teil des Pitchfrequenzanteils in der Frequenzdomäne ergibt. Die Amplitude des Pitchfrequenzanteils wird dann als die Quandratwurzel der Summe der Quadrate des reellen und den imaginären Teils gegeben. Die Phase wird als der Arctan des imaginären Teils geteilt durch den reellen Teil gegeben (mit Korrekturen um die Phase in den gewünschten Bereich zu bringen und einen reellen Teil gleich Null zu erledigen).In the step 330 Each of the pitch detection segments is filtered to extract the fundamental frequency component (referred to as the first harmonic) of that segment. The filtering can be performed, for example, by using a bandpass filter around the first harmonic. Preferably, the filtering is performed by convolution of the input signal with a sine / cosine pair. The modulation frequency of the sine / cosine pair is set to a coarse pitch value. The convolution technique is well known in the field of signal processing. In short, a sine and a cosine are opposite the segment. For each sample in the segment, the value of the sample is multiplied by the value of the sine at the appropriate time. All products obtained are subtracted from each other, giving the imaginary part of the pitch frequency component in the frequency domain. Similarly, for each sample in the segment, the value of the sample is multiplied by the value of the cosine at the appropriate time. All products obtained are added together, giving the real part of the pitch frequency component in the frequency domain. The amplitude of the pitch frequency component is then given as the quadtone root of the sum of the squares of the real and imaginary parts. The phase is given as the arctan of the imaginary part divided by the real part (with corrections to bring the phase into the desired range and do a real part equal to zero).

Der nachfolgende "C" Code zeigt die Konvolution.Of the following "C" code shows the convolution.

FORMULE PAG 11 ENGELSFORMULE PAG 11 ANGELS

In dem Schritt 340 tritt eine Konkatenation der gefilterten Pitchdetektionssegmente auf. Wenn die Segmente unter Verwendung der beschriebenen Konvolution mit dem Sinus/Kosinuspaar gefiltert worden sind, wird zunächst das gefilterte Segment geschaffen, und zwar auf Basis der bestimmten Phase und Amplitude. Dies geschieht dadurch, dass ein Kosinus (oder ein Sinus) mit einer Modulationsfrequenz erzeugt wird, die auf den groben Pitchwert und die bestimmte Phase und Amplitude gesetzt wird. Der Kosinus wird mit dem betreffenden Fenster gewichtet, und zwar zum Erhalten eines gefensterten gefilterten Pitchdetektionssegments. Die gefilterten Pitchdetektionssegmente werden dadurch konkateniert, dass jedes Segment zu dem ursprünglichen Zeitpunkt angebracht wird und dass die Segmente zusammen addiert werden (die Segmente können sich überlappen). Die Konkatenation führt dazu, dass ein gefiltertes Signal erhalten wird. In dem Schritt 350 wird ein genauer Wert für die Pitchperiode/-frequenz aus dem gefilterten Signal bestimmt. Im Grunde kann die Pitchperiode als das Zeitintervall zwischen maximalen und/oder minimalen Amplituden des gefilterten Signals bestimmt werden. Auf vorteilhafte Weise wird die Pitchperiode auf Basis aufeinander folgender Nulldurchgänge des gefilterten Signals bestimmt, da es einfacher ist, die Nulldurchgänge zu bestimmen. Normalerweise wird das gefilterte Signal durch digitale Abtastwerte gebildet, abgetastet beispielsweise bei 8 oder 16 kHz. Vorzugsweise wird die Genauigkeit der Bestimmung der Momente, zu denen eine gewünschte Amplitude (beispielsweise die maximale Amplitude oder der Nulldurchgang) in dem Signal auftritt, durch Interpolation gesteigert. Jede beliebige herkömmliche Interpolationstechnik kann angewandt werden (wie eine parabolische Interpolation zur Bestimmung des Zeitpunktes einer maximalen Amplitude oder eine lineare Interpolation zur Bestimmung des Zeitpunktes eines Nulldurchgangs). Auf diese Art und Weise kann eine Genauigkeit weit über der Abtastrate erreicht werden.In the step 340 occurs a concatenation of the filtered pitch detection segments. When the segments have been filtered using the described convolution with the sine / cosine pair, first the filtered segment is created based on the determined phase and amplitude. This is done by generating a cosine (or sine) with a modulation frequency set to the coarse pitch value and the particular phase and amplitude. The cosine is weighted with the window in question to obtain a windowed filtered pitch detection segment. The filtered pitch detection segments are concatenated by attaching each segment at the original time and adding the segments together (the segments may overlap). The concatenation causes a filtered signal to be obtained. In the step 350 An accurate value for the pitch period / frequency is determined from the filtered signal. In essence, the pitch period may be determined as the time interval between maximum and / or minimum amplitudes of the filtered signal. Advantageously, the pitch period is determined on the basis of successive zero crossings of the filtered signal, since it is easier to determine the zero crossings. Normally, the filtered signal is formed by digital samples, sampled at, for example, 8 or 16 kHz. Preferably, the accuracy of determining the moments at which a desired amplitude (eg, maximum amplitude or zero crossing) occurs in the signal is increased by interpolation. Any conventional interpolation technique may be used (such as a parabolic interpolation to determine the time of maximum amplitude or a linear interpolation to determine the time of a zero crossing). In this way, an accuracy far above the sampling rate can be achieved.

Die Ergebnisse der Technik der "ersten Harmonischen Filterung" nach der vorliegenden Erfindung sind in 4 dargestellt. 4A zeigt einen Teil der Eingangssignalwellenform des Wortes "(t)went(y)", ausgesprochen durch eine Frau. 4B zeigt den groben Pitchwert, gemessen unter Anwendung einer herkömmlichen Technik. 4C und 4D zeigen die Wellenform bzw. das Spektogramm nach der Durchführung der erste-Harmonische-Filterung des Eingangssignals nach 4A.The results of the technique of "first harmonic filtering" according to the present invention are in 4 shown. 4A shows a part of the input signal waveform of the word "(t) went (y)" pronounced by a woman. 4B shows the coarse pitch value measured using a conventional technique. 4C and 4D show the waveform or the spectogram after performing the first harmonic filtering of the input signal 4A ,

Es dürfte einleuchten, dass die genaue Art und Weise der Bestimmung des Pitches, wie oben beschrieben, auch angewandt werden kann für andere Methoden der Codierung eines Audiosignals oder einer anderen Art und Weise der Manipulation eines derartigen Signals. So kann beispielsweise die Pitchdetektion bei Spracherkennungssystemen angewandt werden, insbesondere für asiatische Sprachen oder bei Sprachsynthesesystemen zur Ermöglichung einer pitchsynchronen Manipulation (beispielsweise Pitcheinstellung oder Verlängerung).It might that the exact way of determining the pitch, as described above, can also be applied to others Methods of encoding an audio signal or other type and the manner of manipulating such a signal. So, for example the pitch detection is applied to speech recognition systems, especially for Asian languages or in speech synthesis systems to enable a pitch-synchronous manipulation (for example, pitch adjustment or Renewal).

Bestimmung des Rauschwertes für die HarmonischenDetermination of the noise value for the harmonious

Wenn eine genaue Pitchfrequenz einmal bestimmt worden ist, wird ein Phasenwert für eine Anzahl Harmonische der Grundfrequenz (Pitchfrequenz) als hergeleitet von der genau bestimmten Pitchperiode bestimmt. Vorzugsweise wird eine Transformation zu der Frequenzdomäne, wie eine diskrete Fourier-Transformation (DFT) angewandt um die Phase der Harmonischen zu bestimmen, wobei die genau bestimmte Pitchfrequenz als die Grundfrequenz für die Transformation verwendet wird. Diese Transformation ergibt auch Amplitudenwerte für die Harmonischen, die vorteilhafterweise zur Synthese/Decodierung in einer späteren Stufe verwendet werden. Die Phasenwerte werden verwendet zum Schätzen eines Rauschwertes für jede Harmonische. Wenn das Eingangssignal periodisch oder nahezu periodisch ist, zeigt jede Harmonische eine Phasendifferenz zwischen aufeinander folgenden Perioden, die klein oder Null ist. Wenn das Eingangssignal aperiodisch ist, wird die Phasendifferenz zwischen aufeinander folgenden Perioden für eine bestimmte Harmonische beliebig sein. An sich ist die Phasendifferenz ein Maß für das Vorhandensein der periodischen und aperiodischen Anteile in dem Eingangssignal. Es dürfte einleuchten, dass für einen wesentlich aperiodischen Teil des Signals, wegen des beliebigen Verhaltens der Phasendifferenz kein absolutes Maß des Rauschanteils für einzelne Harmonische erhalten wird. Wenn beispielsweise bei einer bestimmten harmonischen Frequenz das Signal durch den aperiodischen Anteil beherrscht wird, kann dies dennoch dazu führen, dass die Phasen für zwei aufeinander folgende Perioden einander nahezu gleich sind. Aber im Schnitt wird bei der Betrachtung mehrerer Harmonischer ein Signal mit einer weitgehend Periode eine geringfügige Phasenänderung aufweisen, während ein weitgehend aperiodisches Signal eine viel größere Phasenänderung aufweisen wird (im Schnitt eine Phasenänderung gleich π). Vorzugsweise wird ein "Faktor des Lärms" zwischen 1 und 0 für jede Harmonische dadurch ermittelt, dass der absolute Wert der Phasendifferenzen genommen wird und dass dieser Wert durch 2π geteilt wird. In stimmhafter Sprache (ein weitgehend periodisches Signal) ist dieser Faktor klein oder 0, während für ein Signal mit einem kleineren periodischen Signal, wie bei stimmhaften Reibelauten, der Faktor des Lärms wesentlich höher ist als 0. Vorzugsweise wird der Faktor des Lärms in Abhängigkeit von einer Abgeleiteten, wie der ersten oder der zweiten Abgeleiteten, der Phasendifferenzen als eine Funktion der Frequenz ermittelt. Auf diese Art und Weise werden robustere Ergebnisse erhalten. Dadurch, dass die abgeleiteten Anteile des Phasenspektrums, die nicht durch Rauschen beeinflusst sind, genommen werden, werden diese entfernt. Der Faktor des Lärms kann skaliert werden um die Diskrimination zu verbessern.Once an accurate pitch frequency has been determined, a phase value for a number of harmonics of the fundamental frequency (pitch frequency) is determined as derived from the precisely determined pitch period. Preferably, a transformation to the frequency domain, such as a discrete Fourier transform (DFT), is used to determine the phase of the harmonic, using the precisely determined pitch frequency as the fundamental frequency for the transformation. This transformation also gives amplitude values for the harmonics which are advantageously used for synthesis / decoding at a later stage. The phase values are used to estimate a noise value for each harmonic. When the input signal is periodic or nearly periodic, each harmonic exhibits a phase difference between consecutive periods that is small or zero. If the input signal is aperiodic, the phase difference between successive periods will be arbitrary for a particular harmonic. As such, the phase difference is a measure of the presence of the periodic and aperiodic components in the input signal. It is clear that for a substantially aperiodic part of the signal, because of the random behavior of the phase difference, no absolute measure of the noise component is obtained for individual harmonics. If, for example, the signal is dominated by the aperiodic component at a certain harmonic frequency, this can nevertheless mean that the phases are almost identical to each other for two consecutive periods. But on average, when considering several harmonics, a signal with a largely period will have a slight phase change, while a largely aperiodic signal will have a much larger phase change (on average, a phase change equal to π). Preferably, a "factor of noise" between 1 and 0 for each harmonic is determined by taking the absolute value of the phase differences and dividing that value by 2π. In voiced speech (a largely periodic signal) this factor is small or 0, while for a signal with a smaller periodic signal, as in voiced fricatives, the factor of the noise is much higher than 0. Preferably the factor of the noise is dependent on a Derived, such as the first or the second Derived, the phase differences determined as a function of frequency. In this way, more robust results are obtained. The fact that the derived portions of the phase spectrum, which are not affected by noise, are taken, they are removed. The factor of the noise can be scaled to improve the discrimination.

5 zeigt ein Beispiel des "Faktors des Lärms" (basiert auf der zweiten Abgeleiteten) für alle Harmonischen in einem stimmhaften Frame. Das stimmhafte Frame ist eine Aufzeichnung des Wortes "(k)no(w)", ausgesprochen von einem Mann, abgetastet bei 16 kHz. 5 zeigt das Spektrum, das die Amplitude der einzelnen Harmonischen darstellt, ermittelt über eine DFT mit einer Grundfrequenz von 135.41 Hz, ermittelt mit Hilfe des genauen Pitchfrequenzermittlungsverfahrens nach der vorliegenden Erfindung. Eine Abtastrate von 16 kHz wurde verwendet, was zu 59 Harmonischen führt. Es ist ersichtlich, dass einige Amplitudenwerte von der 35. bis zur 38. Harmonischen sehr niedrig sind. 5B zeigt den "Faktor des Lärms" wie dieser unter Anwendung des Verfahrens nach der vorliegenden Erfindung für jede Harmonische gefunden wurde. Es ist nun sehr deutlich sichtbar, dass in dem Gebiet zwischen der 32. und der 39. Harmonischen ein relativ hoher "Lärm" auftritt. An sich unterscheidet das Verfahren nach der vorliegenden Erfindung deutlich zwischen lärmbehafteten und weniger lärmbehafteten Anteilen des Eingangssignals. Es ist auch deutlich, dass der Faktor des Lärms in Abhängigkeit von der Frequenz wesentlich variieren kann. Gewünschtenfalls kann die Diskrimination dadurch noch weiter gesteigert werden, dass auch die Amplitude der Harmonischen in Betracht gezogen wird, wobei eine relativ niedrige Amplitude einer Harmonischen einen hohen Pegel des Lärms angibt. Wenn beispielsweise für eine bestimmte Harmonische die Phasendifferenz zwischen zwei aufeinander folgenden Perioden durch ein beliebiges Verhalten des Lärms, der bei dieser Frequenz durchaus vorhanden ist, niedrig ist, wird der Faktor des Lärms vorzugsweise von nahe bei 0 bis beispielsweise 0,5 (oder sogar höher) korrigiert, wenn die Amplitude niedrig ist, da die niedrige Amplitude angibt, dass bei dieser Frequenz der Beitrag des aperiodischen Anteils vergleichbar ist mit dem Beitrag des periodischen Anteils oder sogar höher ist. 5 shows an example of the "factor of noise" (based on the second derivative) for all harmonics in a voiced frame. The voiced frame is a record of the word "(k) no (w)" pronounced by a man sampled at 16 kHz. 5 Figure 11 shows the spectrum representing the amplitude of the individual harmonics, determined via a DFT with a fundamental frequency of 135.41 Hz, determined by means of the precise pitch frequency determination method according to the present invention. A sampling rate of 16 kHz was used, resulting in 59 harmonics. It can be seen that some amplitude values from the 35th to the 38th harmonics are very low. 5B shows the "factor of noise" as found using the method of the present invention for each harmonic. It is now very clearly visible that in the area between the 32nd and the 39th harmonic a relatively high "noise" occurs. As such, the method of the present invention clearly distinguishes between noisy and less noisy portions of the input signal. It is also clear that the factor of noise can vary significantly depending on the frequency. If desired, the discrimination can be further increased by taking into account the amplitude of the harmonics, where a relatively low amplitude of a harmonic indicates a high level of the noise. For example, if, for a particular harmonic, the phase difference between two consecutive periods is low due to any behavior of the noise that is quite present at that frequency, the factor of the noise will preferably be from near 0 to, for example, 0.5 (or even higher ) is corrected when the amplitude is low, since the low amplitude indicates that at this frequency the contribution of the aperiodic component is comparable to the contribution of the periodic component or even higher.

Die oben beschriebene Analyse wird vorzugsweise nur für stimmhafte Teile des Signals durchgeführt (d.h. diejenigen teile mit einem identifizierbaren periodischen Anteil). Für stimmlose Teile wird der "Faktor des Lärms" für alle Frequenzanteile auf 1 gesetzt, was der Wert ist, der den maximalen Rauschbeitrag angibt. Je nach dem Typ der angewandten Synthese zum Synthetisieren eines Ausgangssignals kann es erforderlich sein, auch Information für die stimmlosen Teile des Eingangssignals zu erhalten. Vorzugsweise geschieht dies unter Anwendung desselben Analysenverfahrens, wie dies oben für die stimmhaften Teile beschrieben worden ist, wobei das Signal unter Anwendung einer DFT analysiert wird. Für die Synthese der stimmlosen Teile braucht nur die Amplitude berechnet zu werden; die Phaseninformation ist nicht erforderlich, da der Rauschwert fest ist.The The analysis described above is preferably for voiced only Parts of the signal performed (i.e., those parts with an identifiable periodic Proportion of). For voiceless parts become the "factor of the noise "for all frequency components 1, which is the value indicating the maximum noise contribution. Depending on the type of synthesis used to synthesize a Output signal may also require information for the unvoiced To get parts of the input signal. This is preferably done using the same analytical method as above for the voiced Parts has been described, wherein the signal using a DFT is analyzed. For the synthesis of the unvoiced parts only needs to calculate the amplitude to become; the phase information is not required since the noise value is fixed.

Synthesesynthesis

Vorzugsweise wird ein Signalsegment aus der Amplitudeninformation geschaffen, die während der Analyse für jede Harmonische erhalten worden ist. Dies kann dadurch geschehen, dass eine geeignete Transformation von der Frequenzdomäne in die Zeitdomäne angewandt wird, wie eine invertierte DFT Transformation. Vorzugsweise wird die sog. sinusoidale Synthese angewandt. Nach dieser Technik wird eine Sinuswelle mit der betreffenden Amplitude für jede Harmonische erzeugt und alle Sinuswellen werden zusammen addiert. Es sei bemerkt, dass dies normalerweise digital durchgeführt wird, und zwar dadurch, dass für jede Harmonische eine einzige Sinuswelle mit der Frequenz der Harmonischen und die Amplitude, wie diese für die Harmonische ermittelt wurde, addiert wird. Es ist nicht erforderlich, parallel analoge Signale zu erzeugen und diese Signale zu addieren. Die Amplitude für jede Harmonische, wie diese aus der Analyse erhalten wird, stellt die kombinierte Stärke des Periodenanteils und des aperiodischen Anteils bei dieser Frequenz dar. An sich stellt das neu synthetisierte Signal die Stärke der beiden Anteile dar.Preferably a signal segment is created from the amplitude information, during the Analysis for every harmonic has been preserved. This can be done by that applied an appropriate transformation from the frequency domain to the time domain becomes like an inverted DFT transformation. Preferably the so-called sinusoidal synthesis applied. After this technique becomes a Sine wave generated with the relevant amplitude for each harmonic and all sine waves are added together. It should be noted that this is usually done digitally, that for each harmonic a single sine wave with the frequency of the harmonics and the amplitude, like this one for the harmonic was determined, is added. It is not necessary, parallel to generate analog signals and to add these signals. The amplitude for every harmonic as obtained from the analysis represents the combined strength the period component and the aperiodic component at this frequency As such, the newly synthesized signal represents the strength of the two shares.

Für einen periodischen Anteil kann im Grunde die Phase für jede Harmonische frei gewählt werden. Nach der vorliegenden Erfindung wird für eine bestimmte Harmonische die Anfangsphase für aufeinander folgende Signalsegmente derart gewählt, dass wenn die Segmente konkateniert werden (erforderlichenfalls auf eine überlappende Art und Weise, wie nachstehend detailliert beschrieben), keine nicht gesteuerte Phasensprünge in dem Ausgangssignal auftreten. So hat beispielsweise ein Segment eine Dauer entsprechend einem Vielfachen (beispielsweise zwei) der Pitchperiode und die Phase einer bestimmten Harmonischen am Anfang der Segmente (und da die Segmente ein ganzes Vielfaches der harmonischen Periode dauern, auch am Ende der Segmente) derart gewählt, dass sie gleich sind. Dadurch, dass ein Phasensprung in der Konkatenation aufeinander folgender Segmente vermieden werden, wird die Natürlichkeit des Ausgangssignals gesteigert.For one periodic portion, basically the phase can be freely chosen for each harmonic. According to the present invention, for a particular harmonic the initial phase for successive signal segments selected such that when the segments be concatenated (if necessary to an overlapping Way, as described in detail below), not uncontrolled phase jumps occur in the output signal. For example, a segment has a duration corresponding to a multiple (for example, two) of Pitch period and the phase of a certain harmonic at the beginning of the segments (and because the segments are a whole multiple of the harmonic Period last, even at the end of the segments) selected such that they are the same. This causes a phase jump in the concatenation the successive segments are avoided, the naturalness of the output signal increased.

Es ist nicht erforderlich, dass innerhalb eines einzigen Segmentes alle Harmonischen mit derselben Phase starten. Es wird bevorzugt, dass die Anfangsphasen der jeweiligen Harmonischen auf vernünftige Art und Weise zwischen 0 und 2π verteilt werden. So kann beispielsweise der Anfangswert auf (einen ziemlich beliebigen) Wert gesetzt werden: 2π(k – 0,5)/k wobei k die Nummer der Harmonischen ist und wobei Zeit Null in der Mitte des Fensters genommen wird. Diese Verteilung von Nicht-Nullwerten über das Spektrum streut die Energie des synthetisierten Signals in der Zeit und vermeidet hohe Spitzen in der synthetisierten Wellenform.It is not necessary that within a single segment all harmonics start with the same phase. It is preferred that the initial phases of the respective harmonics be reasonably distributed between 0 and 2π become. For example, the initial value can be set to (a fairly random) value: 2π (k-0.5) / k where k is the number of harmonics and time zero is taken in the middle of the window. This distribution of non-zero values across the spectrum scatters the energy of the synthesized signal over time and avoids high peaks in the synthesized waveform.

Der aperiodische Anteil wird durch Verwendung eines beliebigen Teils in der Anfangsphase der Harmonischen dargstellt, wobei dieser Teil zu dem beschriebenen Anfangswert hinzu addiert wird. Für jede der Harmonischen wird der Betrag an Beliebigkeit durch den "Faktor des Lärms" für die Harmonische, wie diese in der Analyse bestimmt wurde, bestimmt. Wenn kein bemerkenswerter aperiodischer Anteil detektiert wird, wird kein Lärm hinzugefügt (d.h. es wird kein beliebiger Teil benutzt), während. Wenn der aperiodische Anteil vorherrschend ist, ist die Anfangsphase der Harmonischen einer beliebigen Änderung beträchtlich ausgesetzt (für ein völlig aperiodisches Signal bis zur maximalen Phasenvariation zwischen –π und π). Wenn der beliebige Rauschfaktor wie oben gegeben definiert ist, wobei 0 kein Rauschen und 1 ein "völlig aperiodisches" Eingangssignal bezeichnet, kann der beliebige Teil dadurch erhalten werden, dass der beliebige Rauschfaktor mit einer beliebigen Zahl zwischen –π und +π multipliziert wird. Die Erzeugung sich nicht wiederholender Rauschsignale ergibt eine wesentliche Verbesserung der wahrgenommenen Natürlichkeit der erzeugten Sprache. Tests, in denen ein Eingangssignal in Form laufender Sprache analysiert und nach der vorliegenden Erfindung neu synthetisiert wird, zeigen, dass kaum eine Differenz zwischen dem ursprünglichen Eingangssignal und dem Ausgangssignal gehört werden kann. In diesen Tests fand keine Pitch- oder Dauermanipulation des Signals statt.Of the Aperiodic share is created by using any part in the initial phase of the harmonic dargstellt, this part is added to the described initial value. For each of the Harmonic becomes the amount of arbitrariness through the "factor of noise" for the harmonic, how it was determined in the analysis determined. If not a remarkable one aperiodic portion is detected, no noise is added (i.e. no arbitrary part is used) while. When the aperiodic Share is prevalent, is the initial phase of the harmonics any change considerably suspended (for a completely aperiodic Signal up to the maximum phase variation between -π and π). If the any noise factor is defined as given above, where 0 is no Noise and 1 denotes a "completely aperiodic" input signal, Any part can be obtained by that any Noise factor is multiplied by any number between -π and + π. The production Non-repetitive noise signals are essential Improvement of the perceived naturalness of the generated language. Tests in which an input signal is analyzed in the form of running speech and is synthesized according to the present invention, that hardly any difference between the original input signal and belongs to the output signal can be. In these tests, no pitch or permanent manipulation was found the signal instead.

Manipulation der Dauer oder des PitchesManipulation of duration or the pitch

In 2 wurden Analysensegmente Si(t) dadurch erhalten, dass das Signal 10 mit der betreffenden Fensterfunktion W(t) gewichtet wurde. Die Analysensegmente wurden in einer codierten Form gespeichert. Für die Synthese werden die Analysensegmente neu geschaffen, wie oben beschrieben. Durch einfache Überlagerung der decodierten Segmente wird ein Signal mit einem gesteuerten Phasenverhalten neu geschaffen, und zwar entsprechend dem ursprünglichen Eingangssignal. Vorzugsweise werden die Segmente derart aufbewahrt, dass ihre Dauer oder der Pitch einer Sequenz decodierter Sprachfrag mente über die nachfolgende Überlappung und mit Hilfe einer Addiertechnik manipuliert werden können.In 2 were analysis segments S i (t) obtained by the signal 10 was weighted with the relevant window function W (t). The analysis segments were stored in a coded form. For synthesis, the analysis segments are recreated as described above. By simply superimposing the decoded segments, a signal having a controlled phase behavior is recreated, corresponding to the original input signal. Preferably, the segments are stored such that their duration or the pitch of a sequence of decoded speech fragments can be manipulated via the subsequent overlap and with the aid of an adding technique.

6 zeigt die Bildung eines verlängerten Audiosignals, indem systematisch betreffende Signalsegmente beibehalten bzw. wiederholt werden. Die Signalsegmente sind vorzugsweise dieselben Segmente, wie sie in dem Schritt 10 nach 1 erhalten wurden (nach Codierung und Decodierung). In 6A ist eine erste Sequenz 14 von Signalsegmenten 14a bis 14f dargestellt. 6B zeigt ein Signal, dessen Dauer 1,5 mal länger ist. Dies wird durch Beibehaltung aller Segmente der ersten Sequenz 14 und systematische Wiederholung jedes zweiten Segmentes der Kette (beispielsweise Wiederholung jedes "ungeraden" oder jedes "geraden" Segmentes) erreicht. Das Signal nach 6C wird um einen Faktor 3 durch dreifache Wiederholung jedes Segmentes der Sequenz 14 verlängert. Es dürfte einleuchten, dass das Signal durch Anwendung der umgekehrten Technik (d.h. systematische Unterdrückung/Überspringung von Segmenten) gekürzt werden kann. 6 shows the formation of a prolonged audio signal by systematically maintaining or repeating signal segments concerned. The signal segments are preferably the same segments as in the step 10 to 1 were obtained (after coding and decoding). In 6A is a first sequence 14 of signal segments 14a to 14f shown. 6B shows a signal whose duration is 1.5 times longer. This is done by retaining all segments of the first sequence 14 and systematically repeating every other segment of the chain (e.g., repeating each "odd" or "even" segment). The signal after 6C is a factor of 3 by repeating each segment of the sequence three times 14 extended. It will be appreciated that the signal may be truncated using the reverse technique (ie, systematic suppression / skipping of segments).

Die Verlängerungstechnik kann auch zur Verlängerung von Teilen des Audio-Eingangssignals um einen nicht identifizierbaren periodischen Anteil angewandt werden. Für ein Sprachsignal ist ein Beispiel eines derartigen Teils eine stimmlose Dehnung, d.h. eine Dehnung mit Reibelauten wie der Schall "ssss", wobei die Stimmbänder nicht erregt werden. Für Musik ist ein Beispiel eines nicht periodischen Teils ein "Rausch"-Teil. Um die Dauer im Wesentlichen nicht periodischer Teile zu verlängern, und zwar auf eine Art und Weise wie für die periodischen Teile, werden Fenster gesetzt, und zwar zunehmend in Bezug auf das Signal. Die Fenster können dennoch an handmäßig bestimmten Stellen gesetzt werden. Auf alternative Weise werden aufeinander folgende Fenster über einen Zeitabstand verlagert, der von der Pitchperiode periodischer Teile hergeleitet ist, die den nicht periodischen Teil umgeben. So kann beispielsweise die Verlagerung derart gewählt werden, dass diese dieselbe ist wie diejenige, die für das letzte periodische Segment angewandt wurde (d.h. die Verlagerung entspricht der Periode des letzten Segmentes). Die Verlagerung kann auch durch Interpolation der Verlagerungen des letzten vorhergehenden periodischen Segmentes und des ersten nachfolgenden periodischen Segmentes bestimmt werden. Es kann auch eine feste Verlagerung gewählt werden, was für Sprache vorzugsweise geschlechtsspezifisch ist, beispielsweise die Anwendung einer Verlagerung von 10 ms für eine männliche Stimme und einer Verlagerung von 5 ms für eine weibliche Stimme.The extension technology can also be used for extension of parts of the audio input signal by one unidentifiable periodic portion are applied. For a speech signal is a Example of such a part an unvoiced stretch, i. a Stretching with fricatives like the sound "ssss", the vocal cords not be aroused. For Music is an example of a non-periodic part of a "intoxication" part. To the duration essentially non-periodic parts, in a way and how for the periodic parts, windows are set, and increasingly in terms of the signal. The windows can still be determined by hand Jobs are set. In an alternative way, each other following windows shifts a time interval that is more periodic from the pitch period Parts are derived, which surround the non-periodic part. For example, the displacement can be chosen such that this one is the same as the one for the last periodic segment has been applied (i.e., the displacement corresponds to the period of last segment). The shift can also be through interpolation the displacements of the last preceding periodic segment and the first subsequent periodic segment. You can also choose a fixed shift, which is for language is preferably gender specific, for example, the application a shift of 10 ms for a male Voice and a shift of 5 ms for a female voice.

Zur Verlängerung des Signals können im Grunde nicht-überlappene Segmente verwendet werden, geschaffen durch Positionierung des Fensters auf eine nichtüberlappende Art und Weise, einfach grenzend an einander. Wenn dieselbe Technik auch zum Ändern des Pitches des Signals angewandt wird, wird bevorzugt, überlappende Fenster zu verwenden, beispielsweise wie diejenigen, die in 2 dargestellt sind. Auf vorteilhafte Weise ist die Fensterfunktion selber komplementär. Die selbstkomplementäre Eigenschaft der Fensterfunktion gewährleistet, dass durch Überlagerung der Segmente in derselben Zeitbeziehung, wie sie hergeleitet wurden, das ursprüngliche Signal wieder erhalten wird. Die decodierten Segmente Si(t) werden überlagert zum Erhalten eines Ausgangssignals Y(t). Eine Pitchänderung der örtlich periodischen Signale (wie beispielsweise stimmhafte Sprache oder Musik) kann dadurch erhalten werden, dass die Segmente an neuen Stellen Ti gesetzt werden, die anders sind als die ursprünglichen Stellen ti (i = 1, 2, 3, ...) bevor die Segmente überlagert werden. Zum Bilden beispielsweise eines Ausgangssignals mit einem zugenommenen Pitch, werden die Segmente überlagert mit einem im Vergleich zu dem Abstand der Segmente, wie diese von dem ursprünglichen Signal hergeleitet wurden, komprimierten Mittenabstand zueinander. Die Länge der Segmente ist nach wie vor die gleiche. Zum Schluss werden die Segmentsignale summiert, und zwar zum Erhalten des überlagerten Ausgangssignals Y: Y(t) = Σi Si(t – Ti)(in dem Beispiel nach 2, wobei die Fenster zwei Perioden breit sind, ist die Summe auf die Indizes i begrenzt, für die gilt: –L < t – Ti < L). Durch die Konstruktion wird dieses Ausgangssignal Y(t) periodisch sein, wenn das Eingangssignal 10 periodisch ist, aber die Periode des Ausgangs ist um einen Faktor (ti – ti – 1)/(Ti – Ti – 1)anders als die Eingangsperiode, d.h. ebensoviel wie die gegenseitige Kompression/Expansion der Abstände zwischen den Segmenten, wenn diese für die Überlagerung gesetzt werden. Wenn der Segmentabstand sich nicht geändert hat, reproduziert das Ausgangssignal Y(t) das Audioeingangssignal X(t). Änderung der Zeitposition der Segmente führt zu einem Ausgangssignal, das darin von dem Ausgangssignal abweicht, dass es eine andere örtliche Periode hat, aber die Umhüllende des Spektrums ist nach wie vor nahezu dieselbe. Wahrnehmungsversuche haben gezeigt, dass dies eine sehr gut wahrgenommene Sprachqualität ergibt, sogar wenn der Pitch um mehr als eine Oktave geändert ist.Basically, non-overlapping segments can be used to extend the signal, created by positioning the window in a non-overlapping manner, simply adjacent to one another. If the same technique is also used to change the pitch of the signal, it is preferable to use overlapping windows, such as those in FIG 2 are shown. Advantageously, the window function itself is complementary. The self-complementary property of the window function ensures that by overlaying the segments in the same time relationship as they were derived, the original signal is restored. The decoded segments Si (t) are superposed to obtain an output Y (t). A pitch change of the locally periodic signals (such as voiced speech or music) can be obtained by setting the segments at new locations Ti other than the original locations ti (i = 1, 2, 3, ...) before the segments are superimposed. For example, to form an output signal with an increased pitch, the segments are superimposed with a center-to-center distance compressed relative to the spacing of the segments as derived from the original signal. The length of the segments is still the same. Finally, the segment signals are summed to obtain the superimposed output Y: Y (t) = Σi Si (t - Ti) (in the example below 2 where the windows are two periods wide, the sum is limited to the indices i for which: -L <t-Ti <L). By design, this output signal Y (t) will be periodic when the input signal 10 is periodic, but the period of the output is one factor (ti - ti - 1) / (Ti - Ti - 1) unlike the input period, that is, as much as the mutual compression / expansion of the distances between the segments when they are set for superposition. If the segment spacing has not changed, the output signal Y (t) reproduces the audio input signal X (t). Changing the time position of the segments results in an output signal that differs from the output in that it has a different local period, but the envelope of the spectrum is still nearly the same. Perceptual tests have shown that this gives a very well perceived voice quality, even when the pitch is changed by more than an octave.

Es dürfte einleuchten, dass ein Nebeneffekt der Steigerung des Pitches ist, dass die Signal kürzer werden. Dies kann dadurch kompensiert werden, dass das Signal verlängert wird, wie oben beschrieben.It might realize that a side effect of increasing the pitch is that the signal gets shorter. This can be compensated by extending the signal, as described above.

Das Verfahren zum Manipulieren der Dauer/des Pitches transformiert periodische Signale in neue periodische Signale mit einer anderen Periode aber mit etwa derselben spektralen Umhüllenden. Das Verfahren kann auf gleiche Weise durchaus auf Signale angewandt werden, die eine örtlich bestimmte Periode haben, wie beispielsweise stimmhafte Sprachsignale oder Musiksignale. Für diese Signale variiert die Periodenlänge L in der Zeit, d.h. die i. Periode hat eine periodenspezifische Länge Li. In diesem Fall muss die Länge der Fenster in der Zeit variiert werden, wenn die Periodenlänge variiert, und die Fensterfunktionen W(t) muss in der Zeit um einen Faktor Li gedehnt werden, und zwar entsprechend der örtlichen Periode, um derartige Fenster zu decken: Si(t) = W(t/Li)X(t – ti). The method of manipulating the duration / pitch transforms periodic signals into new periodic signals having a different period but with approximately the same spectral envelope. Similarly, the method may well be applied to signals having a localized period, such as voiced speech signals or music signals. For these signals, the period length L varies in time, ie the i. Period has a period-specific length Li. In this case, the length of the windows must be varied in time as the period length varies, and the window functions W (t) must be stretched in time by a factor Li corresponding to the local period to cover such windows: Si (t) = W (t / Li) X (t - ti).

Für selbst-komplementäre, überlappende Fenster ist es erwünscht, die Selbstkomplementärität der Fensterfunktionen aufrecht zu erhalten. Dies kann durch Anwendung einer Fensterfunktion mit einzelnen gedehnten linken und rechten Teilen (für t < 0 bzw. t > 0) Si(t) = W(t/Li)X(t + ti)(–Li < t < 0) Si(t) = W(t/Li + 1)X(t + ti)(0 < t < Li + 1)wobei jeder Teil um den eigenen Faktor (Li bzw. Li + 1) gedehnt wird. Diese Faktoren entsprechen den entsprechenden Faktoren der betreffenden linken und rechten überlappenden Fenster.For self-complementary, overlapping windows, it is desirable to maintain the self-complementarity of the window functions. This can be done by using a window function with single stretched left and right parts (for t <0 or t> 0) Si (t) = W (t / Li) X (t + ti) (- Li <t <0) Si (t) = W (t / Li + 1) X (t + ti) (0 <t <Li + 1) each part being stretched by its own factor (Li or Li + 1). These factors correspond to the corresponding factors of the respective left and right overlapping windows.

Versuche haben gezeigt, dass örtlich periodische Eingangs-Audiosignalfragmente, die auf die oben beschriebene Art und Weise manipuliert worden sind, zu Ausgangssignalen führen, die für das menschliche Ohr dieselbe Qualität haben wie das Eingangs-Audiosignal, aber mit einem anderen Pitch und/oder einer anderen Dauer. Wenn nun das Codierungsverfahren nach der vorliegenden Erfindung angewandt wird, kann gewährleistet werden, dass keine Phasensprünge auftreten für die harmonischen Frequenzen an den Stellen, wo ein Übergang zwischen Sprachfragmenten auftritt. Auf diese Art und Weise wird insbesondere für Sprachsynthese auf Basis von Konkatenation relativ kurzer Sprachfragmente, die Qualität verbessert. Tests haben gezeigt, dass die Verbesserung der Sprachsynthese durch Verwendung von Segmenten mit einer gesteuerten Phase für die Harmonischen noch bemerkenswerter sind, wenn Segmente wiederholt werden, um das Signal zu verlängern. Wiederholung von Segmenten, sogar wenn die Segmente an sich weitgehend aperiodisch sind, führt zu einem Signal, das wahrgenommen wird als ein periodisches Element enthaltend. Dadurch, dass für die aperiodischen Segmente gewährleistet wird, dass die Phase aufeinander folgender Segmente im Wesentlichen beliebig ändert, wird Wiederholung vermieden.tries have shown that locally periodic input audio signal fragments based on the one described above Have been manipulated to produce output signals that have been manipulated for the human Ear the same quality have like the input audio signal but with a different pitch and / or another duration. Now, if the coding method according to the present Can be ensured that no phase jumps occur for the harmonic frequencies in the places where a transition between language fragments occurs. In this way will especially for Speech synthesis based on concatenation of relatively short speech fragments, the quality improved. Tests have shown that improving speech synthesis by using segments with a controlled phase for the harmonics even more remarkable are when segments are repeated to that Extend the signal. Repetition of segments, even if the segments in themselves largely are aperiodic leads to a signal that is perceived as a periodic element containing. By doing that for ensures the aperiodic segments is that the phase of successive segments in essence any changes, repetition is avoided.

2 zeigt Fenster 12, die in der Mitte an Stelle in der Zeit gesetzt sind, wo die Stimmbänder erregt werden. Um derartige Stellen herum, insbesondere an der scharf definierten Stelle der Schließung, gibt es die Neigung zu einer größeren Signalamplitude (insbesondere bei höheren Frequenzen). Für Signale, deren Intensität in einem kurzen Intervall der Periode konzentriert ist, wird die Zentrierung der Fenster um derartige Intervalle zu der meist getreue Reproduktion des Signals führen. Aus EP-A 0527527 und EP-A 0527529 ist es bekannt, dass es in den meisten Fällen für eine gut wahrnehmbare Qualität der Sprachreproduktion nicht notwendig ist, die Fenster um Punkte zu zentrieren, die Zeitpunkten der Erregung der Stimmbänder entsprechen oder was das betrifft zu jedem beliebigen detektierbaren Ereignis in dem Sprachsignal. Sogar wenn das Fenster beliebig gegenüber dem Zeitpunkt der Erregung des Stimmbandes positioniert wird, und sogar wenn Positionen aufeinander folgender Fenster langsam variiert werden, werden hörbare Signale guter Qualität erzielt. Für eine derartige Technik werden die Fenster zunehmend platziert an örtlichen Periodenlängen vereinzelt, ohne eine absolute Phasenbeziehung. 2 shows window 12 in the middle Place in time are set where the vocal cords are energized. Around such locations, especially at the sharply defined location of the closure, there is a tendency for a larger signal amplitude (especially at higher frequencies). For signals whose intensity is concentrated in a short interval of the period, centering the windows by such intervals will result in the most faithful reproduction of the signal. From EP-A 0527527 and EP-A 0527529 it is known that in most cases, for a well perceivable quality of speech reproduction, it is not necessary to center the windows around points corresponding to or relating to the times of excitation of the vocal cords any detectable event in the speech signal. Even if the window is arbitrarily positioned with respect to the time of vocal cord excitation, and even if positions of successive windows are slowly varied, good quality audible signals are obtained. For such a technique, the windows are increasingly placed at local period lengths, with no absolute phase relationship.

Eine völlige Implementierung des Codierungs- und Synthetisierungsverfahrens ist verwirklicht und mit vielen anderen Vocoder-Implementierungen, worunter dem bekannten LPC-Vocoder, verglichen worden. Es hat sich herausgestellt, dass zur Manipulation von Pitch und Dauer die neue Synthesetechnik außergewöhnlich ist. Das Testsystem gestattete Manipulation des ursprünglichen Pitch- und Dauerumrisse. Sprache, die mit diesen neuen Pitchkursen nach dem neuen Verfahren synthetisiert worden ist, klingt viel besser als nach der herkömmlichen PSOLA-Manipulation, die unmittelbar auf die ursprünglich aufgezeichneten Sprachfragmente einwirkte. Auch eine wesentliche Verlängerung stimmloser Sprachteile liefert bessere Ergebnisse, wenn das neue Verfahren angewandt wird. Während dieser Tests wird jedes wiederholte Segment mit einem Rauschanteil von neunen beliebigen Nummern synthetisiert, wobei das Artefakt der Einführung der Periodizität in Rauschsignale vermieden wird.A complete Implementation of the coding and synthesizing method is realized and with many other vocoder implementations, among which the well-known LPC vocoder. It turned out that for the manipulation of pitch and duration the new synthesis technique is extraordinary. The test system allowed manipulation of the original pitch and duration outlines. Language with these new pitch courses according to the new procedure synthesized sounds much better than conventional PSOLA manipulation the immediate on the original recorded speech fragments. Also an essential renewal unvoiced speech parts will deliver better results if the new one Procedure is applied. While These tests will test each repeated segment with a noise component synthesized by any number of nine, with the artifact the introduction the periodicity is avoided in noise signals.

Die beschriebenen Verfahren zur Codierung und Synthetisierung kann in geeigneten Geräten und Systemen implementiert werden. Derartige Geräte können unter Anwendung herkömmlicher Computertechnologie gebaut und programmiert werden zum Durchführen der Schritte nach der vorliegenden Erfindung. Typischerweise umfasst der Codierer nach der vorliegenden Erfindung einen Analog-Digital-Wandler zur Umwandlung eines analogen Audio-Eingangssignal in ein digitales Signal. Das digitale Signal kann in einem Hauptspeicher oder in einem Hintergrundspeicher gespeichert werden. Ein Prozessor, wie ein DSP, kann derart programmiert werden, dass er die Codierung durchführt. An sich führt der programmierte Prozessor die Aufgabe der Bestimmung aufeinander folgender Pitchperioden/-frequenzen in dem Signal durch. Der Prozessor bildet auch eine Sequenz einander überlappender oder aneinander grenzender Analysensegmente dadurch, dass eine Kette von Zeitfenstern gegenüber dem Signal positioniert wird und dass das Signal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird. Der Prozessor kann auch derart programmiert werden, dass er einen Amplitudenwert und einen Phasenwert für eine Anzahl Frequenzanteile jedes der Analysensegmente bestimmt, wobei die Frequenzanteile eine Anzahl harmonischer Frequenzen der Pitchfrequenz enthalten, entsprechend dem Analysensegment. Der Prozessor des Codierers bestimmt ebenfalls einen Rauschwert für jeden der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil eines Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils zu dem Analysensegment bei der Frequenz darstellt. Zum Schluss stellt der Prozessor das Audiosignal durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile für jedes der Analysensegmente dar. Der Prozessor kann das codierte Signal in einem Speichermedium des Codierers speichern (beispielsweise Festplatte, CD-ROM, oder Floppy), oder er kann das codierte Signal zu einem anderen Gerät übertragen, und zwar unter Verwendung von Mitteln, wie einem Modem oder dem Codierer. Das codierte Signal kann von einem Decoder wieder hergestellt oder empfangen werden, der (typischerweise unter Ansteuerung eines Prozessors) das Signal decodiert. Der Decoder schafft für jedes der selektierten, codierten Signalfragmente ein entsprechendes Signalfragment durch Transformation des codierten Signalfragmentes in eine Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzu addiert wird, und zwar entspre chend dem betreffenden Rauschwert für den Frequenzanteil. Zum Reproduzieren des Signals kann der Decoder auch einen Digital-Analog-Wandler und einen Verstärker enthalten. Der Decoder kann ein teil eines Synthesizers sein, wie eines Sprachsynthesizers. Der Synthesizer selektiert codierte Sprachfragmente, beispielsweise wie diese für die Reproduktion eines textmäßig dargestellten Satz erforderlich sind, decodiert diese Fragmente und konkateniert die Fragmente. Auch die Dauer und die Prosodie des Signals kann manipuliert werden.The The coding and synthesizing methods described in US Pat suitable devices and systems are implemented. Such devices can be tested using conventional Computer technology built and programmed to perform the Steps according to the present invention. Typically included the encoder according to the present invention, an analog-to-digital converter for converting an analog audio input signal into a digital one Signal. The digital signal can be stored in a main memory or in stored in a background memory. A processor, like a DSP, can be programmed to do the encoding performs. In itself leads the programmed processor the task of determining consecutive Pitch periods / frequencies in the signal. The processor also makes a sequence overlapping each other or adjacent analysis segments in that a chain from time windows opposite the signal is positioned and that the signal corresponding to a Weighted associated window function of the relevant time window becomes. The processor may also be programmed to an amplitude value and a phase value for a number of frequency components each of the analysis segments determines where the frequency components are a Number of harmonic frequencies of the pitch frequency included, accordingly the analysis segment. The processor of the encoder also determines a noise value for each of the frequency components by comparing the phase value for the Frequency component of an analysis segment with a corresponding Phase value for at least one previous or subsequent analysis segment; where the noise value for a frequency component a contribution of a periodic component and an aperiodic portion to the analysis segment at the frequency represents. Finally, the processor performs the audio signal the amplitude value and the noise value for each of the frequency components for each of the Analysis segments. The processor may encode the encoded signal in a storage medium of the encoder store (for example, hard disk, CD-ROM, or floppy), or he can the coded signal to a transfer to another device, using means such as a modem or the encoder. The coded signal can be restored by a decoder or received (typically under control of a processor) the signal is decoded. The decoder creates for each of the selected, coded Signal fragments a corresponding signal fragment by transformation the coded signal fragment into a time domain, wherein for each of the coded frequency components an aperiodic signal component is added, and accordingly the respective noise value for the Frequency component. The decoder can also reproduce the signal a digital-to-analog converter and an amplifier included. The decoder may be part of a synthesizer, such as a speech synthesizer. The synthesizer selects coded speech fragments, for example like this one for the reproduction of a textual representation Sentence are required, these fragments decoded and concatenated the fragments. Also the duration and the prosody of the signal can be manipulated.

11

1010
Detektion des Pitchesdetection of the pitch
1212
Segmentierungsegmentation
1414
Segmentzeigersegment pointer
1616
Segment besorgensegment to get
2020
Bestimmung der Amplitudedetermination the amplitude
2222
Rauschanteil bestimmennoise component determine
3232
Selektion des nächsten Segmentesselection the next segment

33

310310
Bestimmung des groben Pitchesdetermination of the rough pitch
350350
Bestimmung des genauen Pitchwertesdetermination the exact pitch value

4B4B

ZeitTime

4D4D

ZeitTime

5A5A

Anzahl Harmonischenumber harmonic

5B5B

Faktor des Lärmsfactor of the noise
Anzahl Harmonischenumber harmonic

Claims (12)

Verfahren zum Codieren eines Audiosignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Ermitteln (10) aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal; – das Bilden (12) einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente des Signals dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird; – für jedes Analysensegment: – das Ermitteln (20) eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Frequenzanteile des Analysensegmentes, einschließlich einer Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment, – das Ermitteln (22) eines Rauschwertes der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und – das Darstellen (24) des Analysensegmentes durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile.Method for coding an audio signal, this method comprising the following method steps: - determining ( 10 ) successive pitch periods / frequencies in the signal; - making ( 12 ) a sequence of overlapping or contiguous analysis segments of the signal by setting a string of time windows by displacing each successive time window by substantially one local pitch period from an immediately preceding time window, and the audio signal corresponding to an associated window function of the respective one Time window is weighted; - for each analysis segment: - determining ( 20 ) of an amplitude value and a phase value for a number of frequency components of the analysis segment, including a number of harmonic frequencies of the pitch frequency corresponding to the analysis segment, - determining ( 22 ) a noise value of the frequency components by comparing the phase value for the frequency component of the analysis segment with a corresponding phase value for at least one preceding or subsequent analysis segment; wherein the noise value represents a frequency component representing a contribution of a periodic component and an aperiodic component of the analysis segment to the frequency; and - presenting ( 24 ) of the analysis segment by the amplitude value and the noise value for each of the frequency components. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Verfahrensschritt der Ermittlung aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal die nachfolgenden Schritte umfasst: – das Bilden einer Sequenz einander überlappender oder aneinander grenzender Pitch-Detektionssegmente durch Gewichtung des Signals entsprechend einer assoziierten Funktion eines betreffenden Zeitfensters einer Kette von Zeitfenstern, positioniert gegenüber dem Signal; – das Bilden eines gefilterten Signals für jedes der Pitch-Detektionssegmente durch: – Schätzung eines Anfangswertes der Pitch-Frequenz/periode des Pitch-Detektionssegmentes; und – Filterung des Pitch-Detektionssegmentes zum Extrahieren eines Frequenzanteils mit einer Frequenz, die im Wesentlichen der anfangs ermittelten Pitch-Frequenz entspricht; und – Ermittlung der aufeinander folgenden Pitch-Perioden/Frequenzen aus dem gefilterten Signal.A method of encoding an audio signal as claimed 1, characterized in that the method step of the determination successive pitch periods / frequencies in the signal comprises the following steps: - the making a sequence overlapping one another or adjacent pitch detection segments by weighting the signal according to an associated function a relevant time window of a chain of time slots, positioned across from the signal; - the Forming a filtered signal for each of the pitch detection segments by: - Estimate of one Initial value of the pitch frequency / period of the pitch detection segment; and - Filtering of the pitch detection segment for extracting a frequency component with a frequency that is essentially the initially determined pitch frequency corresponds; and - Detection of the consecutive pitch periods / frequencies from the filtered one Signal. Verfahren zum Codieren eines Audiosignals nach Anspruch 2, dadurch gekennzeichnet, dass der Schritt der Bildung des gefilterten Signals Folgendes umfasst: – Faltung des Pitch-Detektionssegmentes mit einem Sinus/Kosinuspaar mit einer Modulationsfrequenz im Wesentlichen entsprechend der anfangs geschätzten Pitch-Frequenz, was einen Amplituden- und Phasenwert für Sinus und Kosinus mit derselben Modulationsfrequenz ergibt; – Bildung eines gefilterten Pitch-Detektionssegmentes durch Erzeugung eines gefensterten Sinus oder Kosinus mit der ermittelten Amplitude und Phase; und – Verkettung der Sequenz gefilterter Pitch-Detektionssegmente.A method of encoding an audio signal as claimed 2, characterized in that the step of forming the filtered Signal includes: - convolution of the pitch detection segment with a sine / cosine pair having a modulation frequency substantially according to the initially estimated Pitch frequency, giving an amplitude and phase value for sine and gives cosine with the same modulation frequency; - Education a filtered pitch detection segment by generating a windowed sine or cosine with the determined amplitude and Phase; and - chaining the sequence of filtered pitch detection segments. Verfahren zum Codieren eines Audiosignals nach Anspruch 2, dadurch gekennzeichnet, dass das gefilterte Signal als eine Zeitfolge digitaler Abtastwerte dargestellt wird und dass der Schritt der Ermittlung der aufeinander folgenden Pitch-Perioden/Frequenzen des gefilterten Signals Folgendes umfasst: – das Schätzen aufeinander folgender Zeitpunkte, an denen die Folge von Abtastwerten einer vorbestimmten Bedingung entspricht, so dass der Abtastwert ein örtliches Maximum-/Minimum ist oder einen Nullwert kreuzt, und – das genauere Ermitteln jedes der Zeitpunkte durch Interpolation einer Anzahl Abtastwerte um den geschätzten Zeitpunkt herum.A method of encoding an audio signal according to claim 2, characterized in that the filtered signal is represented as a time sequence of digital samples and in that the step of determining the successive pitch periods / frequencies of the filtered signal comprises: - estimating successive times, at which the sequence of samples corresponds to a predetermined condition such that the sample is a local maximum / minimum or crosses a zero value, and - more accurately determining each of the times Interpolation of a number of samples around the estimated time. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung des Amplituden- und/oder des Phasenwertes das Transformieren des Signalsegmentes zu einer Frequenzdomäne umfasst, und zwar unter Verwendung der Pitch-Frequenz als Basisfrequenz der Transformation.A method of encoding an audio signal as claimed 1, characterized in that the step of determining the amplitude and / or the phase value, transforming the signal segment to a frequency domain includes, using the pitch frequency as the base frequency the transformation. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung eines Rauschwertes das Berechnen einer Differenz des Phasenwertes für den Frequenzanteil des Analysensegmentes und des entsprechenden Phasenwertes wenigstens eines vorhergehenden oder nachfolgenden Analysensegmenten umfasst.A method of encoding an audio signal as claimed 1, characterized in that the step of determining a Noise value calculating a difference of the phase value for the frequency component the analysis segment and the corresponding phase value at least of preceding or succeeding analysis segments. Verfahren zum Codieren eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Ermittlung eines Rauschwertes das Berechnen einer Differenz eines Hergeleiteten des Phasenwertes für den Frequenzanteil des Analysensegmenten und des entsprechenden Phasenwertes wenigstens eines vorhergehenden oder nachfolgenden Analysensegmentes umfasst.A method of encoding an audio signal as claimed 1, characterized in that the step of determining a Noise value calculating a difference of a derivative of the Phase value for the frequency component of the analysis segments and the corresponding Phase value of at least one preceding or subsequent analysis segment includes. Anordnung zum Codieren eines Audiosignals, wobei diese Anordnung die nachfolgenden Elemente umfasst: – Mittel zum Ermitteln aufeinander folgender Pitch-Perioden/Frequenzen in dem Signal; – Mittel zum Bilden einer Sequenz einander überlappender oder aneinander grenzender Analysensegmente dadurch, dass eine Kette von Zeitfenstern gesetzt wird, durch Verlagerung jedes nachfolgenden Zeitfensters um im Wesentlichen eine örtliche Pitch-Periode gegenüber einem unmittelbar vorhergehenden Zeitfenster, und dass das Audiosignal entsprechend einer assoziierten Fensterfunktion des betreffenden Zeitfensters gewichtet wird; – Mittel zum Ermitteln eines Amplitudenwertes und eines Phasenwertes für eine Anzahl Frequenzanteile jedes der Analysensegmente, wobei die Frequenzanteile eine Anzahl harmonischer Frequenzen der Pitch-Frequenz entsprechend dem Analysensegment enthalten, – Mittel zum Ermitteln eines Rauschwertes für jeden der Frequenzanteile durch einen Vergleich des Phasenwertes für den Frequenzanteil des Analysensegmentes mit einem entsprechenden Phasenwert für wenigstens ein vorhergehendes oder nachfolgendes Analysensegment; wobei der Rauschwert für einen Frequenzanteil, der einen Beitrag eines periodischen Anteils und eines aperiodischen Anteils des Analysensegmentes mit der Frequenz darstellt; und – Mittel zum Darstellen des Audiosignals durch den Amplitudenwert und den Rauschwert für jeden der Frequenzanteile für jedes der Analysensegmente.Arrangement for coding an audio signal, wherein this arrangement comprises the following elements: - Medium to determine successive pitch periods / frequencies in the signal; - Medium to form a sequence overlapping each other or to each other bordering analysis segments in that a chain of time windows is set by shifting each successive time window essentially a local pitch period across from an immediately preceding time window, and that the audio signal according to an associated window function of the respective one Time window is weighted; - means for determining a Amplitude value and a phase value for a number of frequency components each the analysis segments, where the frequency components are a number of harmonic Include frequencies of the pitch frequency corresponding to the analysis segment, - Medium for determining a noise value for each of the frequency components by comparing the phase value for the frequency component of the analysis segment with a corresponding phase value for at least one previous one or subsequent analysis segment; where the noise value for a frequency component, a contribution of a periodic share and aperiodic Represents the proportion of the analysis segment with the frequency; and - Medium for representing the audio signal by the amplitude value and the Noise value for each of the frequency components for each of the analysis segments. Verfahren zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen; wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Wiedergewinnen selektierter, codierter Signalfragmente, wobei die Signalfragmente als Amplitudenwert und als Rauschwert für jedes der Frequenzanteile codiert worden sind, und zwar entsprechend dem Verfahren nach Anspruch 1; und – für jedes der wieder gewonnenen codierten Signalfragmente das Schaffen eines entsprechenden Signalfragmentes durch Transformation des Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.A method of synthesizing an audio signal encoded audio input signal fragments, such as diphones; this method being the following method steps includes: - the Recovering selected coded signal fragments, wherein the Signal fragments as amplitude value and as noise value for each the frequency components have been coded, according to the The method of claim 1; and - for each of the recovered coded signal fragments, creating a corresponding signal fragment by transforming the signal fragment into a time domain, wherein for each an aperiodic signal component is added to the coded frequency components, according to the noise value for the frequency component in question, wherein the aperiodic signal component of any initial phase Has. Verfahren zum Synthetisieren eines Audiosignals nach Anspruch 9, dadurch gekennzeichnet, dass die Transformation zu der Zeitdomäne das Durchführen einer sinusförmigen Synthese umfasst.Method for synthesizing an audio signal according to claim 9, characterized in that the transformation to the time domain the performing a sinusoidal Synthesis includes. Synthesizer zum Synthetisieren eines Audiosignals, wobei dieser Synthesizer die nachfolgenden Elemente umfasst: – Mittel zum Wiedergewinnen selektierter codierter Signalfragmente von dem Speichermedium, wobei die Signalfragmente durch die Codieranordnung nach Anspruch 8 codiert worden sind; und – Mittel um für jedes der selektierten codierten Signalfragmente ein entsprechendes Signalfragment zu schaffen durch Transformation des codierten Signalfragmentes zu einer Zeitdomäne, wobei für jeden der codierten Frequenzanteile ein aperiodischer Signalanteil hinzugefügt wird, und zwar entsprechend dem betreffenden Rauschwert für den Frequenzanteil, wobei der aperiodische Signalanteil eine beliebige Anfangsphase hat.Synthesizer for synthesizing an audio signal, this synthesizer comprising the following elements: - Medium for recovering selected coded signal fragments from the Storage medium, wherein the signal fragments by the coding arrangement according to Claim 8 have been encoded; and - means around for each the selected coded signal fragments a corresponding signal fragment to create by transforming the coded signal fragment to a time domain, being for each of the coded frequency components is an aperiodic signal component added according to the respective noise value for the frequency component, wherein the aperiodic signal component of any initial phase Has. System zum Synthetisieren eines Audiosignals aus codierten Audio-Eingangssignalfragmenten, wie Diphonen; wobei das System Folgendes umfasst: – eine Codieranordnung zum Codieren eines Audiosignals nach Anspruch 8; wobei die Anordnung weiterhin Mittel aufweist zum Speichern der codierten Darstellung des Audiosig nals in einem Speichermedium; und – einen Synthesizer nach Anspruch 11.System for synthesizing an audio signal encoded audio input signal fragments, such as diphones; the system comprising: - An encoder for coding an audio signal according to claim 8; the arrangement further comprising means for storing the coded representation the audio signal in a storage medium; and - one Synthesizer according to claim 11.
DE69926462T 1998-05-11 1999-04-30 DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND Expired - Fee Related DE69926462T2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98201525 1998-05-11
EP98201525 1998-05-11
PCT/IB1999/000790 WO1999059139A2 (en) 1998-05-11 1999-04-30 Speech coding based on determining a noise contribution from a phase change

Publications (2)

Publication Number Publication Date
DE69926462D1 DE69926462D1 (en) 2005-09-08
DE69926462T2 true DE69926462T2 (en) 2006-05-24

Family

ID=8233703

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69926462T Expired - Fee Related DE69926462T2 (en) 1998-05-11 1999-04-30 DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND

Country Status (5)

Country Link
US (1) US6453283B1 (en)
EP (1) EP0995190B1 (en)
JP (1) JP2002515610A (en)
DE (1) DE69926462T2 (en)
WO (1) WO1999059139A2 (en)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
GB2375027B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
EP1500080B1 (en) * 2002-04-19 2007-10-03 Koninklijke Philips Electronics N.V. Method for synthesizing speech
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
JP2006196978A (en) * 2005-01-11 2006-07-27 Kddi Corp Beam control apparatus, array antenna system, and wireless device
US8073042B1 (en) * 2005-04-13 2011-12-06 Cypress Semiconductor Corporation Recursive range controller
US8000958B2 (en) * 2006-05-15 2011-08-16 Kent State University Device and method for improving communication through dichotic input of a speech signal
WO2009031219A1 (en) 2007-09-06 2009-03-12 Fujitsu Limited Sound signal generating method, sound signal generating device, and computer program
JP4310371B2 (en) * 2007-09-11 2009-08-05 パナソニック株式会社 Sound determination device, sound detection device, and sound determination method
CN101617245B (en) 2007-10-01 2012-10-10 松下电器产业株式会社 Sounnd source direction detector
JP4545233B2 (en) * 2008-09-30 2010-09-15 パナソニック株式会社 Sound determination device, sound determination method, and sound determination program
WO2010038386A1 (en) * 2008-09-30 2010-04-08 パナソニック株式会社 Sound determining device, sound sensing device, and sound determining method
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP5433696B2 (en) 2009-07-31 2014-03-05 株式会社東芝 Audio processing device
EP2302845B1 (en) 2009-09-23 2012-06-20 Google, Inc. Method and device for determining a jitter buffer level
EP2360680B1 (en) * 2009-12-30 2012-12-26 Synvo GmbH Pitch period segmentation of speech signals
US8630412B2 (en) 2010-08-25 2014-01-14 Motorola Mobility Llc Transport of partially encrypted media
US8477050B1 (en) * 2010-09-16 2013-07-02 Google Inc. Apparatus and method for encoding using signal fragments for redundant transmission of data
US8751565B1 (en) 2011-02-08 2014-06-10 Google Inc. Components for web-based configurable pipeline media processing
FR2977969A1 (en) * 2011-07-12 2013-01-18 France Telecom ADAPTATION OF ANALYSIS OR SYNTHESIS WEIGHTING WINDOWS FOR TRANSFORMED CODING OR DECODING
KR101762204B1 (en) * 2012-05-23 2017-07-27 니폰 덴신 덴와 가부시끼가이샤 Encoding method, decoding method, encoder, decoder, program and recording medium
KR102251833B1 (en) * 2013-12-16 2021-05-13 삼성전자주식회사 Method and apparatus for encoding/decoding audio signal
KR102413692B1 (en) * 2015-07-24 2022-06-27 삼성전자주식회사 Apparatus and method for caculating acoustic score for speech recognition, speech recognition apparatus and method, and electronic device
US10382143B1 (en) * 2018-08-21 2019-08-13 AC Global Risk, Inc. Method for increasing tone marker signal detection reliability, and system therefor
CN111025015B (en) * 2019-12-30 2023-05-23 广东电网有限责任公司 Harmonic detection method, device, equipment and storage medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
AT389235B (en) 1987-05-19 1989-11-10 Stuckart Wolfgang METHOD FOR CLEANING LIQUIDS BY MEANS OF ULTRASOUND AND DEVICES FOR CARRYING OUT THIS METHOD
US5095904A (en) * 1989-09-08 1992-03-17 Cochlear Pty. Ltd. Multi-peak speech procession
JP3038755B2 (en) * 1990-01-22 2000-05-08 株式会社明電舎 Sound source data generation method for speech synthesizer
EP0527529B1 (en) 1991-08-09 2000-07-19 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating duration of a physical audio signal, and a storage medium containing a representation of such physical audio signal
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
FR2687496B1 (en) * 1992-02-18 1994-04-01 Alcatel Radiotelephone METHOD FOR REDUCING ACOUSTIC NOISE IN A SPEAKING SIGNAL.
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter

Also Published As

Publication number Publication date
EP0995190A2 (en) 2000-04-26
US6453283B1 (en) 2002-09-17
JP2002515610A (en) 2002-05-28
DE69926462D1 (en) 2005-09-08
EP0995190B1 (en) 2005-08-03
WO1999059139A2 (en) 1999-11-18
WO1999059139A8 (en) 2000-03-30
WO1999059139A3 (en) 2000-02-17

Similar Documents

Publication Publication Date Title
DE69926462T2 (en) DETERMINATION OF THE AUDIO CODING AUDIBLE REDUCTION SOUND
DE69932786T2 (en) PITCH DETECTION
AT400646B (en) VOICE SEGMENT ENCODING AND TOTAL LAYER CONTROL METHOD FOR VOICE SYNTHESIS SYSTEMS AND SYNTHESIS DEVICE
DE60127274T2 (en) FAST WAVE FORMS SYNCHRONIZATION FOR CHAINING AND TIME CALENDAR MODIFICATION OF LANGUAGE SIGNALS
DE68919637T2 (en) Method and device for speech synthesis by covering and summing waveforms.
DE60213653T2 (en) METHOD AND SYSTEM FOR REAL-TIME LANGUAGE SYNTHESIS
DE69816810T2 (en) SYSTEMS AND METHODS FOR AUDIO ENCODING
DE60126575T2 (en) Apparatus and method for synthesizing a singing voice and program for realizing the method
DE60012198T2 (en) ENCODING THE CORD OF THE SPECTRUM BY VARIABLE TIME / FREQUENCY RESOLUTION
DE60024501T2 (en) Improvement of Perceptual Quality of SBR (Spectral Band Replication) AND HFR (Radio Frequency Reconstruction) Coding method by adaptively adding noise floor and limiting the noise substitution
EP1825461B1 (en) Method and apparatus for artificially expanding the bandwidth of voice signals
DE68912692T2 (en) Transmission system suitable for voice quality modification by classifying the voice signals.
EP0076234B1 (en) Method and apparatus for reduced redundancy digital speech processing
DE69720861T2 (en) Methods of sound synthesis
DE60305716T2 (en) METHOD FOR SYNTHETIZING AN UNMATCHED LANGUAGE SIGNAL
DE69627865T2 (en) VOICE SYNTHESIZER WITH A DATABASE FOR ACOUSTIC ELEMENTS
DE69631037T2 (en) VOICE SYNTHESIS
DE60031812T2 (en) Apparatus and method for sound synthesis
DE69722585T2 (en) SYNTHESIS OF WAVEFORM
DE19861167A1 (en) Method and device for concatenation of audio segments in accordance with co-articulation and devices for providing audio data concatenated in accordance with co-articulation
DE69822618T2 (en) REMOVING PERIODICITY IN A TRACKED AUDIO SIGNAL
DE60205421T2 (en) Method and apparatus for speech synthesis
DE3228757A1 (en) METHOD AND DEVICE FOR PERIODIC COMPRESSION AND SYNTHESIS OF AUDIBLE SIGNALS
DE69824613T2 (en) A SYSTEM AND METHOD FOR PROSODY ADAPTATION
DE69723930T2 (en) Method and device for speech synthesis and data carriers therefor

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee