EP0076233A1 - Method and apparatus for redundancy-reducing digital speech processing - Google Patents

Method and apparatus for redundancy-reducing digital speech processing Download PDF

Info

Publication number
EP0076233A1
EP0076233A1 EP82810390A EP82810390A EP0076233A1 EP 0076233 A1 EP0076233 A1 EP 0076233A1 EP 82810390 A EP82810390 A EP 82810390A EP 82810390 A EP82810390 A EP 82810390A EP 0076233 A1 EP0076233 A1 EP 0076233A1
Authority
EP
European Patent Office
Prior art keywords
speech
energy
decision
test
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP82810390A
Other languages
German (de)
French (fr)
Other versions
EP0076233B1 (en
Inventor
Stephan Dr. Horvath
Yung-Shain Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omnisec AG Te Regensdorf Zwitserland
Original Assignee
Gretag AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gretag AG filed Critical Gretag AG
Priority to AT82810390T priority Critical patent/ATE15563T1/en
Publication of EP0076233A1 publication Critical patent/EP0076233A1/en
Application granted granted Critical
Publication of EP0076233B1 publication Critical patent/EP0076233B1/en
Expired legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the invention relates to a redundancy-reducing digital speech processing method that works according to the method of linear prediction and to a corresponding device according to the preamble of patent claim 1 and patent claim 33.
  • the LPC vocoders known and available today are not yet fully satisfactory. Although the language synthesized again after the analysis is usually still relatively understandable, it is distorted and sounds artificial. One of the main reasons for this is above all in the difficulty of making the decision with certainty whether there is a voiced or an unvoiced speech section with sufficient certainty. Other causes include poor determination of the pitch period and inaccurate determination of the sound formation filter parameters.
  • the present invention is now primarily concerned with the first of these difficulties and aims to improve a digital speech processing method or system of the type defined at the outset in such a way that it makes more accurate or more reliable voiced-unvoiced decisions and thus an improvement in Quality of the synthesized language leads.
  • a number of decision criteria are known for the voiced-voiceless classification, which are used individually or in part in combination. Common criteria are e.g. the energy of the speech signal, the number of zero crossings of the same within a certain time period, the normalized residual error energy, i.e. the ratio of the energy of the prediction error signal to that of the speech signal, and the level of the second maximum of the autocorrelation function of the speech signal or of the prediction error signal. Furthermore, it is also common to carry out a cross-comparison to one or more neighboring language sections. A clear and comparative representation of the most important classification criteria and methods is e.g. the publication by L.R. Rabiner et al.
  • a common feature of all these known methods and criteria is that two-sided decisions are always made by definitely assigning the language section in each case to one or the other of the two options, depending on whether or not the relevant criteria are met. In this way, it can be achieved with a suitable selection and, if necessary, a combination of the decision criteria, a relatively high degree of accuracy, however, as practice shows, wrong decisions still occur relatively often, which significantly affect the quality of the synthesized language.
  • a main reason for this is the fact that speech signals are generally non-stationary in spite of all redundancy, because of which it is simply not possible to set the decision thresholds used in the respective criteria in such a way that a reliable statement can be made on both sides. A certain level of uncertainty always remains and must be accepted.
  • the invention now proceeds from this previously used principle of bilateral decisions and instead uses a strategy in which only one-sided, but practically absolutely safe decisions are made.
  • the locations of the respective decision thresholds are decisive for the degree of security of the individual decisions. The more extreme these decision thresholds are, the more selective the criteria and the safer the decisions. However, with increasing selectivity of the individual criteria, the number of the maximum necessary decision-making operations increases. In practice, however, it is easily possible to set the thresholds in such a way that practically absolute (one-sided) decision-making certainty is achieved without the total number of criteria or decision-making operations increasing above the level specified above.
  • this is from some source, e.g. analog voice signal originating from a microphone 1 band-limited in a filter 2 and then sampled and digitized in an A / D converter 3.
  • the sampling rate is about 6 to 16 kHz, preferably about 8 kHz.
  • the resolution is about 8 to 12 bit.
  • the pass band of the filter 2 usually extends from about 80 Hz to about 3.1-3.4 kHz in the case of so-called broadband speech, and from about 300 Hz to 3.1-3.4 kHz in the case of telephone speech.
  • the digital speech signal sn is divided into successive, preferably overlapping speech sections, so-called frames.
  • the speech section length can be about 10 to 30 msec, preferably about 20 msec. be.
  • the frame rate, ie the number of frames per second, is approximately 30 to 100, preferably approximately 45 to 70.
  • the analysis is essentially divided into two main procedures, firstly in the calculation of the amplification factor or volume parameter and the coefficients or filter parameters of the underlying vocal tract model filter and secondly in the voiced-unvoiced decision and in determining the pitch -Period in voiced case.
  • the filter coefficients are obtained in a parameter calculator 4 by solving the system of equations which is obtained when the energy of the prediction error, ie the energy of the difference between the actual samples and the samples estimated on the basis of the model assumption in the interval under consideration (speech section) is minimized as a function of the coefficients becomes.
  • the system of equations is preferably solved using the autocorrelation method using an algorithm according to Durbin (see, for example, LB Rabiner and RW Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, NJ 1978, pp. 411-413) .
  • the so-called reflection coefficients (k J ) also result, which are less sensitive transforms of the filter coefficients (aj) to quantization.
  • the reflection coefficients are always smaller than 1 and, in addition, their amount decreases with an increasing atomic number. Because of these advantages, the reflection coefficients (kj) are preferably transmitted instead of the filter coefficients (a j ).
  • the volume parameter G results from the algorithm as a by-product.
  • the digital speech signal s n is temporarily stored in a buffer 5 until the filter parameters (a.) Are calculated.
  • the signal then passes through an inverse filter 6 set with the parameters (a j ), which has an inverse transfer function to the transfer function of the vocal tract model filter.
  • the result of this inverse filtering is a prediction error signal e n , which is similar to the excitation signal x n multiplied by the gain factor G.
  • This prediction error signal e n is now supplied in the case of telephone speech directly or in the case of broadband speech via a low-pass filter 7 to an autocorrelation stage 8, which forms the autocorrelation function AKF standardized to the zero-order autocorrelation maximum, on the basis of which the pitch period p is determined in a pitch extraction stage 9, in a known manner Way as the distance of the second autocorrelation maximum RXX from the first maximum (zero order), preferably using an adaptive search method.
  • the low-pass filter 7 will be explained further below. At this point it should only be mentioned that it can be bridged by means of a switch 10 for telephone speech and could also be arranged in front of the inverse filter 6.
  • the speech section under consideration is classified as voiced or unvoiced according to the decision procedure according to the invention to be explained in more detail in a decision stage 11 which is supported by an energy determination stage 12 and a zero crossing determination stage 13.
  • the pitch parameter p is set to zero.
  • the parameter calculator described above determines a set of filter parameters for each speech section (frame).
  • the filter parameters could also be determined differently, for example continuously by means of adaptive inverse filtering or another known method, the filter parameters being readjusted continuously with each sampling cycle, but only at the times determined by the frame rate for further processing or Transmission will be provided.
  • the invention is in no way restricted in this regard. It is only essential that there is a set of filter parameters for each language section.
  • the speech signal is recovered or synthesized from the parameters in a known manner in that the parameters initially decoded in a decoder 15 are fed to a pulse-noise generator 16, an amplifier 17 and a vocal tract model filter 18 and the output signal of the model filter 18 by means of a D / A converter 19 is brought into analog form and then made audible after the usual filtering 20 by a playback device, for example a loudspeaker 21.
  • the volume parameter G controls the amplification factor of the amplifier 17, the filter parameters (kj) define the transfer function of the sound-forming or vocal tract model filter 18.
  • Fig. 2 An example of such a system is shown in Fig. 2 as a block diagram.
  • the multi-processor system shown essentially comprises four functional blocks, namely a main processor 50, two secondary processors 60 and 70 and an input / output unit 80. It implements both analysis and synthesis.
  • the input / output unit 80 contains the stages designated 81 for analog signal processing, such as amplifiers, filters and automatic gain control, as well as the A / D converter and the D / A converter.
  • the main processor 50 carries out the actual speech analysis or synthesis, for which purpose the determination of the filter parameters and the volume parameters (parameter calculator 4), the determination of energy and zero crossings of the speech signal (stages 12 and 13), the voiced-unvoiced decision (stage 11 ) and the determination of the pitch period (stage 9) or synthesis-side the generation of the output signal (stage 16), its volume variation (stage 17) and its filtering in the speech model filter (filter 18).
  • the main processor 50 is supported by the secondary processor 60, which carries out the intermediate storage (buffer 5), inverse filtering (stage 6), optionally the low-pass filtering (stage 7) and the autocorrelation (stage 8).
  • the secondary processor 70 deals exclusively with the coding or decoding of the speech parameters and with the data traffic with e.g. a modem 90 or the like via an interface designated 71.
  • the voiced-unvoiced decision-making procedure is explained in more detail below.
  • the determination of the pitch period is preferably based on a longer analysis interval than for the determination of the filter coefficients.
  • the analysis interval is the same as the language section under consideration; for pit extraction, on the other hand, the analysis interval extends on both sides of the language section into the respectively adjacent language section, for example up to about half of the same. In this way, a more reliable and less erratic pitch extraction can be carried out.
  • the energy of a signal is referred to in the following, this always means the relative energy of the signal in the analysis interval, that is to say standardized to the dynamic range of the A / D converter 3.
  • FIG. 3 and 4 show the flow diagrams of two particularly expedient decision-making processes according to the invention, specifically in FIG. 3 a variant for broadband voice and in FIG. 4 such a variant for telephone voice.
  • an energy test is carried out as the first decision criterion.
  • the (relative, standardized) energy E s of the speech signal s is compared with a minimum energy threshold EL, which is set so low that the speech section can certainly be called unvoiced if the energy Es is not above this threshold.
  • Practical values for this minimum energy threshold EL are 1.1 x 10 to 1.4 x 10 -4 , preferably about 1.2 x 10 -4 .
  • the next criterion is a zero-crossing test.
  • the number of zero crossings of the digital voice signal is determined in the analysis interval and compared with a maximum number of ZCU. If the number is greater than this maximum number, the language section is clearly rated as unvoiced, otherwise a further decision criterion is used.
  • the maximum number ZCU is approximately 105 to 120, preferably approximately 110 zero crossings for an analysis interval length of 256 samples.
  • the next decision criterion is the normalized autocorrelation function AFK of the low-pass filtered prediction error signal e n , namely the normalized autocorrelation maximum RXK, which is at a distance from the zero-order order identified by the IndeX IP, is compared with a threshold value RU and evaluated as correct if this threshold is exceeded. Otherwise, the next criterion is advanced. Practically favorable values for the threshold are 0.55 to 0.75, preferably about 0.6.
  • the energy of the low-pass filtered prediction error signal e is examined. If this energy ratio V is less than a 0 first, lower ratio threshold VL, the speech section is rated as voiced. Otherwise there is a further comparison with a second, higher ratio threshold VU, the decision being made unvoiced if the energy ratio V o is above this higher threshold VU. This second comparison may also be omitted.
  • Suitable values for the two ratio thresholds VL and VU are 0.05 to 0.15 and 0.6 to 0.75, preferably about 0.1 and 0.7.
  • the autocorrelation maximum RXX is first compared with a second, lower threshold value RM. If this threshold is exceeded, the decision will be made by voice. Otherwise, a cross-comparison with the two (possibly also only one) immediately preceding language sections is carried out as the last criterion. The speech section is only rated as unvoiced if the (or one) of the two previous speech sections were also unvoiced. Otherwise, a final decision will be made by voices. Suitable values for the threshold value RM are 0.35 to 0.45, preferably approximately 0.42.
  • the prediction error signal e n is low-pass filtered in broadband speech.
  • This low-pass filtering causes the frequency distributions of the autocorrelation maximum values to be split between two unvoiced and voiced speech sections and thus makes it easier to determine the decision threshold at the same time reducing the frequency of errors. It also enables better pitch extraction, ie determining the pitch period.
  • an essential condition for this is that the low-pass filtering is carried out with an extremely high slope of approx. 150 to 180 db / octave.
  • the (digital) filter used should have an elliptical characteristic, the cut-off frequency should be in the range of 700-1200 Hz, preferably 800 to 900 Hz.
  • the decision process for telephone speech shown in FIG. 4 largely corresponds to that for broadband speech. Only the sequence of the second energy test and the second zero-crossing test is reversed (not mandatory) and the second test of the auto-correlation maximum RXX is also omitted, since this would not work for telephone speech.
  • the individual decision thresholds are partly different, depending on the differences between the telephone language and the broadband language. Practical values are shown in the table below. With the two decision processes described above, a voiced-unvoiced decision was achieved with extremely small error rates. It goes without saying that the order of the criteria and the criteria themselves could in principle also be different, the only important thing is that only reliable decisions are made for each criterion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Error Detection And Correction (AREA)

Abstract

Speech signal is decided voiced or unvoiced by a sequence of unilateral decisions: a first test decides "unvoiced" if standardized energy Es is below a threshold, or "ambiguous" if above the threshold whereby a second test decides "unvoiced" if the number of zero crossings ZC is above a threshold, and ambiguous if below the threshold. Up to six criteria may be so tested as ambiguous before a "voiced" decision is made.

Description

Die Erfindung betrifft ein nach der Methode der linearen Prädiktion arbeitendes redundanzverminderndes digitales Sprachverarbeitungsverfahren und eine entsprechende Vorrichtung gemäss dem Oberbegriff von Patentanspruch 1 bzw. Patentanspruch 33.The invention relates to a redundancy-reducing digital speech processing method that works according to the method of linear prediction and to a corresponding device according to the preamble of patent claim 1 and patent claim 33.

Derartige Sprachverarbeitungssysteme, sogenannte LPC-Vocoder, erlauben eine erhebliche Redundanzreduktion bei der digitalen Uebertragung von Sprachsignalen. Sie gewinnen heute immer mehr an Bedeutung und sind Gegenstand zahlreicher Veröffentlichungen und Patente, von denen hier nur einige repräsentative rein beispielsweise angeführt sind:

  • B.S. Atal und S.L. Hanauer, Journal Acoust. Soc. Am., 50, S. 637-655, 1971
  • R.W. Schafer und L.R. Rabiner, Proc. IEEE Vol.63, No. 4, S. 662-677, 1975
  • L.R. Rabiner et al., Trans- Acoustics, Speech and Signal Proc., Vol. 24 No. 5, S. 399-418, 1976
  • B.Gold, Proc. IEEE Vol. 65, No. 12, S. 1636-1658, 1977
  • A. Kurematsu et al, Proc. IEEE, ICASSP, Washington 1979, S. 69-72
  • S. Horvath, "LPC-Vocoder, Entwicklungsstand und Perspektiven", Sammelband Kolloquiumsvorträge "Krieg im Aether", XVII. Folge, Bern, 1978
  • US-PS 3 624 302
  • US-PS 3 631 520
  • US-PS 3 909 533 US-PS 4 230 906
Such speech processing systems, so-called LPC vocoders, allow a considerable reduction in redundancy in the digital transmission of speech signals. They are becoming increasingly important today and are the subject of numerous publications and patents, only a few of which are listed here, for example:
  • BS Atal and SL Hanauer, Journal Acoust. Soc. Am., 50, pp. 637-655, 1971
  • RW Schafer and LR Rabiner, Proc. IEEE Vol.63, No. 4, pp. 662-677, 1975
  • LR Rabiner et al., Trans-Acoustics, Speech and Signal Proc., Vol. 24 No. 5, pp. 399-418, 1976
  • B.Gold, Proc. IEEE Vol. 65, No. 12, pp. 1636-1658, 1977
  • A. Kurematsu et al, Proc. IEEE, ICASSP, Washington 1979, pp. 69-72
  • S. Horvath, "LPC Vocoder, Level of Development and Perspectives", anthology colloquium lectures "War in Aether", XVII. Episode, Bern, 1978
  • U.S. Patent 3,624,302
  • U.S. Patent 3,631,520
  • U.S. Patent 3,909,533 U.S. Patent 4,230,906

Die heute bekannten und erhältlichen LPC-Vocoder arbeiten noch nicht voll zufriedenstellend. Zwar ist die nach der Analyse wieder synthetisierte Sprache meistens noch relativ verständlich, jedoch ist sie verzerrt und tönt künstlich. Eine Hauptursache dafür liegt u.a. vor allem in der Schwierigkeit, den Entscheid, ob ein stimmhafter oder ein stimmloser Sprachabschnitt vorliegt, mit ausreichender Sicherheit zu treffen. Weitere Ursachen sind mangelhafte Bestimmung der Pitchperiode und ungenaue Bestimmung der Klangbildungsfilterparameter.The LPC vocoders known and available today are not yet fully satisfactory. Although the language synthesized again after the analysis is usually still relatively understandable, it is distorted and sounds artificial. One of the main reasons for this is above all in the difficulty of making the decision with certainty whether there is a voiced or an unvoiced speech section with sufficient certainty. Other causes include poor determination of the pitch period and inaccurate determination of the sound formation filter parameters.

Die vorliegende Erfindung befasst sich nun vornehmlich mit der ersten dieser Schwierigkeiten und hat zum Ziel, ein digitales Sprachverarbeitungsverfahren bzw. -system der eingangs definierten Art dahingehend zu verbessern, dass es zu treffenderen bzw. sichereren Stimmhaft-Stimmlos-Entscheiden und damit zu einer Verbesserung der Qualität der synthetisierten Sprache führt.The present invention is now primarily concerned with the first of these difficulties and aims to improve a digital speech processing method or system of the type defined at the outset in such a way that it makes more accurate or more reliable voiced-unvoiced decisions and thus an improvement in Quality of the synthesized language leads.

Das erfindungsgemässe Verfahren und die erfindungsgemässe Vorrichtung sind in den Ansprüchen 1 und 33 beschrieben. Bevorzugte Ausführungsvarianten ergeben sich aus den abhängigen Ansprüchen.The inventive method and the inventive device are described in claims 1 and 33. Preferred design variants result from the dependent claims.

Für die Stimmhaft-Stimmlos-Klassifikation sind eine Reihe von Entscheidungskriterien bekannt, die jeweils einzeln oder zum Teil auch kombiniert angewandt werden. Uebliche Kriterien sind z.B. die Energie des Sprachsignals, die Anzahl der Nulldurchgänge desselben innerhalb eines gewissen Zeitabschnitts, die normierte Restfehlerenergie, d.h. das Verhältnis der Energie des Prädiktionsfehlersignals zu der des Sprachsignals, und die Höhe des zweiten Maximums der Autokorrelationsfunktion des Sprachsignals oder des Prädiktionsfehlersignals. Ferner ist es auch üblich, einen Quervergleich zu einem oder mehreren benachbarten Sprachabschnitten durchzuführen. Eine übersichtliche und vergleichende Darstellung der wichtigsten Klassifikationskriterien und -methoden ist z.B. der eingangs angeführten Veröffentlichung von L.R. Rabiner et al.zu entnehmen.A number of decision criteria are known for the voiced-voiceless classification, which are used individually or in part in combination. Common criteria are e.g. the energy of the speech signal, the number of zero crossings of the same within a certain time period, the normalized residual error energy, i.e. the ratio of the energy of the prediction error signal to that of the speech signal, and the level of the second maximum of the autocorrelation function of the speech signal or of the prediction error signal. Furthermore, it is also common to carry out a cross-comparison to one or more neighboring language sections. A clear and comparative representation of the most important classification criteria and methods is e.g. the publication by L.R. Rabiner et al.

Ein gemeinsames Merkmal aller dieser bekannten Methoden und Kriterien ist, dass stets zweiseitige Entscheide getroffen werden, indem der Sprachabschnitt jeweils definitiv der einen oder der anderen der beiden Möglichkeiten zugeordnet wird, je nachdem, ob das oder die betreffenden Kriterien erfüllt sind oder nicht. Es kann zwar auf diese Weise bei geeigneter Auswahl und gegebenenfalls Kombination der Entscheidungskriterien eine relativ hohe Treffsicherheit erzielt werden, wie die Praxis jedoch zeigt, treten dabei immer noch relativ häufig Fehlentscheidungen auf, welche die Qualität der synthetisierten Sprache erheblich in Mitleidenschaft ziehen. Ein Hauptgrund dafür liegt in der Tatsache, dass Sprachsignale im allgemeinen trotz aller Redundanz einen instationären Charakter haben,
aufgrund dessen es einfach nicht möglich ist, die bei den jeweiligen Kriterien benützten Entscheidungsschwellen so zu legen, dass nach beiden Seiten eine sichere Aussage'gemacht werden kann. Eine gewisse Unsicherheit bleibt stets vorhanden und muss inkauf genommen werden.
A common feature of all these known methods and criteria is that two-sided decisions are always made by definitely assigning the language section in each case to one or the other of the two options, depending on whether or not the relevant criteria are met. In this way, it can be achieved with a suitable selection and, if necessary, a combination of the decision criteria, a relatively high degree of accuracy, however, as practice shows, wrong decisions still occur relatively often, which significantly affect the quality of the synthesized language. A main reason for this is the fact that speech signals are generally non-stationary in spite of all redundancy,
because of which it is simply not possible to set the decision thresholds used in the respective criteria in such a way that a reliable statement can be made on both sides. A certain level of uncertainty always remains and must be accepted.

In Erkenntnis dieses Sachverhalts geht nun die Erfindung von diesem bisher ausschliesslich benutzten Prinzip der zweiseitigen Entscheidungen ab und verwendet stattdessen eine Strategie, bei der nur einseitige, dafür aber praktisch absolut sichere Entscheidungen getroffen werden. Mit andern Worten heisst dies, dass ein Sprachabschnitt nur dann eindeutig als stimmhaft oder stimmlos klassifiziert wird, wenn ein gewisses Kriterium erfüllt ist. Falls das Kriterium jedoch nicht erfüllt ist, wird der Sprachabschnitt nicht bereits definitiv als stimmlos bzw. stimmhaft beurteilt, sondern einem weiteren Klassifizierungskriterium unterworfen. In diesem erfolgt wiederum nur ein sicherer Entscheid in einer Richtung, falls das betreffende Kriterium erfüllt ist, andernfalls wird das Entscheidungsprocedere in analoger Weise fortgesetzt. Dies geht so lange weiter, bis eine sichere Klassifikation möglich ist. Umfangreiche Untersuchungen haben gezeigt, dass dazu bei geeigneter Auswahl und Reihenfolge der Kriterien in der Regel maximal etwa sechs bis sieben Entscheidungsschritte erforderlich sind.In recognition of this fact, the invention now proceeds from this previously used principle of bilateral decisions and instead uses a strategy in which only one-sided, but practically absolutely safe decisions are made. In other words, this means that a language section is only clearly classified as voiced or unvoiced if a certain criterion is met. However, if the criterion is not met, the language section is not already definitely judged to be unvoiced or voiced, but is subject to a further classification criterion. This in turn only makes a safe decision in one direction if the relevant criterion is met, otherwise the decision procedure is continued in an analogous manner. This continues until a safe classification is possible. Extensive studies have shown that with a suitable selection and order of the criteria, a maximum of about six to seven decision steps are usually required.

Für den Grad der Sicherheit der einzelnen Entscheidungen sind die Lagen der jeweiligen Entscheidungsschwellen massgebend. Je extremer diese Entscheidungsschwellen sind, desto selektiver sind die Kriterien und desto sicherer die Entscheide. Mit zunehmender Selektivität der einzelnen Kriterien steigt aber auch die Zahl der maximal notwendigen Entscheidungsoperationen. In der Praxis ist es jedoch ohne weiteres möglich, die Schwellen so zu legen, dass praktisch absolute (einseitige) Entscheidungssicherheit erreicht wird, ohne dass die Gesamtanzahl der Kriterien bzw. Entscheidungsoperationen über das oben angegebene Mass ansteigt.The locations of the respective decision thresholds are decisive for the degree of security of the individual decisions. The more extreme these decision thresholds are, the more selective the criteria and the safer the decisions. However, with increasing selectivity of the individual criteria, the number of the maximum necessary decision-making operations increases. In practice, however, it is easily possible to set the thresholds in such a way that practically absolute (one-sided) decision-making certainty is achieved without the total number of criteria or decision-making operations increasing above the level specified above.

Im folgenden wird die Erfindung anhand der Zeichnung näher erläutert. Es zeigen:

  • Fig. 1 ein stark vereinfachtes Blockschema einer erfindungsgemässen Sprachdigitalisierungsvorrichtung,
  • Fig. 2 ein Blockschaltbild eines entsprechenden Multi-Prozessor-Systems und
  • Fig. 3 und 4 Flussschemen zweier verschiedener Verfahrensabläufe für den Stimmhaft-Stimmlos-Entscheid.
The invention is explained in more detail below with reference to the drawing. Show it:
  • 1 shows a greatly simplified block diagram of a speech digitizing device according to the invention,
  • Fig. 2 is a block diagram of a corresponding multi-processor system and
  • 3 and 4 flow diagrams of two different procedures for the voiced-unvoiced decision.

Für die Analyse wird das von irgendeiner Quelle, z.B. einem Mikrophon 1 stammende analoge Sprachsignal in einem Filter 2 bandbegrenzt und dann in einem A/D-Wandler 3 abgetastet und digitalisiert. Die Abtastrate beträgt dabei etwa 6 bis 16 kHz, vorzugsweise etwa 8 kHz. Die Auflösung ist etwa 8 bis 12 bit. Der Durchlassbereich des Filters 2 erstreckt sich bei sog. Breitbandsprache gewöhnlich von ca 80 Hz bis etwa 3,1-3,4 kHz, bei Telefonsprache von etwa 300 Hz bis 3,1-3,4 kHz.For analysis, this is from some source, e.g. analog voice signal originating from a microphone 1 band-limited in a filter 2 and then sampled and digitized in an A / D converter 3. The sampling rate is about 6 to 16 kHz, preferably about 8 kHz. The resolution is about 8 to 12 bit. The pass band of the filter 2 usually extends from about 80 Hz to about 3.1-3.4 kHz in the case of so-called broadband speech, and from about 300 Hz to 3.1-3.4 kHz in the case of telephone speech.

Für die nun einsetzende eigentliche Analyse bzw. redundanzvermindernde Verarbeitung wird das digitale Sprachsignal snin aufeinanderfolgende, vorzugsweise überlappende Sprachabschnitte, sog. Frames, eingeteilt. Die Sprachabschnittslänge kann etwa 10 bis 30 msec, vorzugsweise etwa 20 msec. betragen. Die Frame-Rate, d.h. die Anzahl von Frames pro Sekunde, beträgt etwa 30 bis 100, vorzugsweise etwa 45 bis 70.For the actual analysis or processing to reduce redundancy, the digital speech signal sn is divided into successive, preferably overlapping speech sections, so-called frames. The speech section length can be about 10 to 30 msec, preferably about 20 msec. be. The frame rate, ie the number of frames per second, is approximately 30 to 100, preferably approximately 45 to 70.

Im Interesse hoher Auflösung und damit Sprachqualität bei der Synthetisierung sind möglichst kurze Abschnitte und entsprechende hohe Frame-Raten erstrebenswert, jedoch stehen dem einerseits bei Echtzeit-Verarbeitung das begrenzte Leistungsvermögen des eingesetzten Computers und anderseits die Forderung möglichst niedriger Bitraten bei der Uebertragung entgegen.In the interest of high resolution and thus voice quality in the synthesis, sections as short as possible and correspondingly high frame rates are desirable, but on the one hand the limited performance of the computer used in real-time processing and on the other hand the requirement of the lowest possible bit rates for the transmission are contrary.

Für jeden dieser Sprachabschnitte erfolgt nun eine Analyse des Sprachsignals nach den Prinzipien der linearen Prädiktion, wie sie z.B. in den eingangs erwähnten Publikationen beschrieben sind. Grundlage der linearen Prädiktion ist ein parametrisches Modell der Spracherzeugung. Ein zeitdiskretes Allpol-Digitalfilter modelliert die Klangforrnung durch Hals- und Mundtrakt (Vokaltrakt). Bei stimmhaften Lauten ist die Anregung dieses Filters eine periodische Pulsfolge, deren Frequenz, die sog. Pitchfrequenz, die periodische Anregung durch die Stimmbänder idealisiert. Bei stimmlosen Lauten ist die Anregung weisses Rauschen, idealisierend für die Luftturbulenz im Hals bei nicht angeregten Stimmbändern. Ein Verstärkungsfaktor schliesslich kontrolliert die Lautstärke. Auf der Grundlage dieses Modells ist somit das Sprachsignal durch die folgenden Parameter vollständig bestimmt:

  • 1. Die Information, ob der zu synthetisierende Laut stimmhaft oder stimmlos ist,
  • 2. die Pitch-Periode (bzw. die Pitch Frequenz) bei stimmhaften Lauten (bei stimmlosen ist die Pitchperiode per def. gleich 0)
  • 3. die Koeffizienten des zugrundegelegten Allpol-Digitalfilters (Vokaltraktmodells) und
  • 4. der Verstärkungsfaktor.
For each of these speech sections, the speech signal is now analyzed according to the principles of linear prediction, as described, for example, in the publications mentioned at the beginning. The basis of linear prediction is a parametric model of speech generation. A discrete-time all-pole digital filter models the sound formation through the throat and mouth (vocal tract). In the case of voiced sounds, the excitation of this filter is a periodic pulse sequence whose frequency, the so-called pitch frequency, idealizes the periodic excitation by the vocal cords. With voiceless sounds, the excitation is white noise, idealizing the air turbulence in the throat when the vocal cords are not excited. Finally, an amplification factor controls the volume. On the basis of this model, the speech signal is therefore completely determined by the following parameters:
  • 1. The information as to whether the sound to be synthesized is voiced or unvoiced,
  • 2. the pitch period (or the pitch frequency) for voiced sounds (for voiceless ones the pitch period by definition is 0)
  • 3. the coefficients of the underlying all-pole digital filter (vocal tract model) and
  • 4. the gain factor.

Die Analyse gliedert sich demnach im wesentlichen in zwei Hauptproceduren, und zwar zum einen in die Berechnung des Verstärkungsfaktors bzw. Lautstärkeparameters sowie der Koeffizienten bzw. Filterparameter des zugrundeliegenden Vokaltrakt-Modellfilters und zum anderen in den Stimmhaft-Stimmlos-Entscheid und in die Ermittlung der Pitch-Periode im stimmhaften Falle.The analysis is essentially divided into two main procedures, firstly in the calculation of the amplification factor or volume parameter and the coefficients or filter parameters of the underlying vocal tract model filter and secondly in the voiced-unvoiced decision and in determining the pitch -Period in voiced case.

Die Filterkoeffizienten werden in einem Parameterrechner 4 durch Lösung des Gleichungssystems gewonnen, welches erhalten wird, wenn die Energie des Prädiktionsfehlers, d.h. die Energie der Differenz zwischen den tatsächlichen Abtastwerten und den aufgrund der Modellannahme geschätzten Abtastwerten im betrachteten Intervall (Sprachabschnitt) in Funktion der Koeffizienten minimiert wird. Die Auflösung des Gleichungssystems erfolgt vorzugsweise nach der Autokorrelationsmethode mittels eines Algorithmus' nach Durbin (vgl. z.B. L.B. Rabiner and R.W. Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, N.J. 1978, S. 411-413). Dabei ergeben sich neben den Filterkoeffizienten bzw. -parametern (aj) gleichzeitig auch die sog. Reflexionskoeffizienten (kJ), welche auf Quantisierung weniger empfindliche Transformierte der Filterkoeffizienten (aj) sind. Die Reflexionskoeffizienten sind bei stabilen Filtern dem Betrag nach stets kleiner als 1 und ausserdem nimmt ihr Betrag mit zunehmender Ordnungszahl ab. Wegen dieser Vorteile werden bevorzugt die Reflexionskoeffizienten (kj) statt der Filterkoeffizienten (aj) übertragen. Der Lautstärkeparameter G ergibt sich aus dem Algorithmus als Nebenprodukt.The filter coefficients are obtained in a parameter calculator 4 by solving the system of equations which is obtained when the energy of the prediction error, ie the energy of the difference between the actual samples and the samples estimated on the basis of the model assumption in the interval under consideration (speech section) is minimized as a function of the coefficients becomes. The system of equations is preferably solved using the autocorrelation method using an algorithm according to Durbin (see, for example, LB Rabiner and RW Schafer "Digital Processing of Speech Signals", Prentice-Hall Inc., Englewood Cliffs, NJ 1978, pp. 411-413) . In addition to the filter coefficients and parameters (a j ), the so-called reflection coefficients (k J ) also result, which are less sensitive transforms of the filter coefficients (aj) to quantization. In the case of stable filters, the reflection coefficients are always smaller than 1 and, in addition, their amount decreases with an increasing atomic number. Because of these advantages, the reflection coefficients (kj) are preferably transmitted instead of the filter coefficients (a j ). The volume parameter G results from the algorithm as a by-product.

Zur Auffindung der Pitch-periode p (Periode der Stimmbandgrundfrequenz) wird das digitale Sprachsignal s n in einem Buffer 5 zunächst solange zwischengespeichert, bis die Filterparameter (a.) berechnet sind. Dann passiert das Signal ein mit den Parametern (aj) eingestelltes Inversfilter 6, welches eine zur Uebertragunsfunktion des Vokaltraktmodellfilters inverse Uebertragungsfunktion besitzt. Das Ergebnis dieser Invers-Filterung ist ein Prädiktionsfehlersignal en, welches dem mit dem Verstärkungsfaktor G multiplizierten Anregungssignal xn ähnlich ist. Dieses Prädiktionsfehlersignal en wird nun im Falle von Telefonsprache direkt oder im Falle von Breitbandsprache über ein Tiefpassfilter 7 einer Autokorrelationsstufe 8 zugeführt, welche daraus die auf das Autokorrelationsmaximum nullter Ordnung normierte Autokorrelationsfunktion AKF bildet, anhand welcher in einer Pitchextraktionsstufe 9 die Pitchperiode p ermittelt wird, und zwar in bekannter Weise als Abstand des zweiten Autokorrelationsmaximums RXX vom ersten Maximum (nullter Ordnung), wobei vorzugsweise ein adaptives Suchverfahren angewandt wird.In order to find the pitch period p (period of the basic vocal cord frequency), the digital speech signal s n is temporarily stored in a buffer 5 until the filter parameters (a.) Are calculated. The signal then passes through an inverse filter 6 set with the parameters (a j ), which has an inverse transfer function to the transfer function of the vocal tract model filter. The result of this inverse filtering is a prediction error signal e n , which is similar to the excitation signal x n multiplied by the gain factor G. This prediction error signal e n is now supplied in the case of telephone speech directly or in the case of broadband speech via a low-pass filter 7 to an autocorrelation stage 8, which forms the autocorrelation function AKF standardized to the zero-order autocorrelation maximum, on the basis of which the pitch period p is determined in a pitch extraction stage 9, in a known manner Way as the distance of the second autocorrelation maximum RXX from the first maximum (zero order), preferably using an adaptive search method.

Die Bedeutung des Tiefpassfilters 7 wird weiter unten noch erläutert. An dieser Stelle sei lediglich erwähnt, dass es mittels eines Schalters 10 für Telefonsprache überbrückbar ist und ferner auch vor dem Inversfilter 6 angeordnet sein könnte.The meaning of the low-pass filter 7 will be explained further below. At this point it should only be mentioned that it can be bridged by means of a switch 10 for telephone speech and could also be arranged in front of the inverse filter 6.

Die Klassifikation des betrachteten Sprachabschnitts als stimmhaft oder stimmlos erfolgt nach dem noch genauer zu erläuternden erfindungsgemässen Entscheidungsprocedere in einer Entscheidungsstufe 11, welche von einer Energiebestimmungsstufe 12 und einer Nulldurchgangsbestimmungsstufe 13 unterstützt wird. Im stimmlosen Fall wird der Pitch-Parameter p gleich null gesetzt.The speech section under consideration is classified as voiced or unvoiced according to the decision procedure according to the invention to be explained in more detail in a decision stage 11 which is supported by an energy determination stage 12 and a zero crossing determination stage 13. In the unvoiced case, the pitch parameter p is set to zero.

Der vorstehend beschriebene Parameterrechner ermittelt pro Sprachabschnitt (Frame) je einen Satz Filterparameter. Selbstverständlich könnten die Filterparameter auch anders bestimmt werden, beispielsweise laufend mittels einer adaptiven inversen Filtrierung oder eines anderen bekannten Verfahrens, wobei die Filterparameter zwar mit jedem Abtasttakt laufend nachgeregelt, aber nur jeweils zu den durch die Frame-Rate festgelegten Zeitpunkten für die weitere Verarbeitung bzw. Uebertragung bereitgestellt werden. Die Erfindung ist diesbezüglich in keiner Weise eingeschränkt. Wesentlich ist lediglich, dass für jeden Sprachabschnitt ein Satz Filterparameter vorliegt.The parameter calculator described above determines a set of filter parameters for each speech section (frame). Of course, the filter parameters could also be determined differently, for example continuously by means of adaptive inverse filtering or another known method, the filter parameters being readjusted continuously with each sampling cycle, but only at the times determined by the frame rate for further processing or Transmission will be provided. The invention is in no way restricted in this regard. It is only essential that there is a set of filter parameters for each language section.

Die nunmehr vollzählig vorliegenden Parameter (kj), G und p werden dann einer Codierungsstufe 14 zugeführt, wo sie in eine für die Uebertragung geeignete Form gebracht und bereitgestellt werden.The parameters (kj), G and p, which are now available in full, are then fed to a coding stage 14, where they are brought into a form suitable for transmission and made available.

Die Rückgewinnung bzw. Synthese des Sprachsignals aus den Parametern erfolgt in bekannter Weise dadurch, dass die zunächst in einem Decoder 15 decodierten Parameter einem Puls-Rausch-Generator 16, einem Verstärker 17 und einem Vokaltraktmodellfilter 18 zugeführt werden und das Ausgangssignal des Modellfilters 18 mittels eines D/A Wandlers 19 in analoge Form gebracht und dann nach der üblichen Filterung 20 durch ein Wiedergabegerät, z.B. einen Lautsprecher 21 hörbar gemacht wird. Der Puls-Rauschgenerator 16 erzeugt die durch den Verstärker 17 verstärkte Anregung xn des Vokaltraktmodellfilters 18, und zwar im stimmlosen Falle (p = 0) weisses Rauschen und im stimmhaften Falle (p ≠ 0) eine periodische Pulsfolge der durch die Pitchperiode p festgelegten Frequenz. Der Lautstärkeparameter G kontrolliert den Verstärkungsfaktor des Verstärkers 17, die Filterparameter (kj) defizieren die UebertragungsfunktiondesKlangbildungs- bzw. Vokaltrakt- modellfilters 18.The speech signal is recovered or synthesized from the parameters in a known manner in that the parameters initially decoded in a decoder 15 are fed to a pulse-noise generator 16, an amplifier 17 and a vocal tract model filter 18 and the output signal of the model filter 18 by means of a D / A converter 19 is brought into analog form and then made audible after the usual filtering 20 by a playback device, for example a loudspeaker 21. The pulse-noise generator 16 generates the excitation x n of the vocal tract model filter 18, which is amplified by the amplifier 17, namely in the unvoiced case (p = 0) white noise and in the voiced case (p ≠ 0) a periodic pulse sequence of the frequency determined by the pitch period p . The volume parameter G controls the amplification factor of the amplifier 17, the filter parameters (kj) define the transfer function of the sound-forming or vocal tract model filter 18.

Vorstehend wurde der allgemeine Aufbau und die Funktion der erfindungsgemässen Sprachverarbeitungsvorrichtung der einfacheren Verständlichkeit halber anhand diskreter Funktionsstufen erläutert. Es ist für den Fachmann jedoch selbstverständlich, dass sämtliche Funktionen bzw. Funktionsstufen zwischen dem analyseseitigen A/D-Wandler 3 und dem syntheseseitigen D/A-Wandler 19, in denen also digitale Signale verarbeitet werden, in der Praxis vorzugsweise durch einen entsprechend programmierten Computer oder einenMikroprozessor oder dergleichen implementiert sind. Die softwaremässige Realisierung der einzelnen Funktionsstufen, wie z.B. der Parameterrechner, die diversen Digitalfilter, Autokorrelation etc. ist für den mit der Datenverarbeitungstechnik vertrauten Fachmann Routine und in der Fachliteratur beschrieben (siehe z.B. IEEE Digital Signal Processing Comittee: "Programs for Digital Signal Processing", IEEE Press Book 1980).The general structure and function of the speech processing device according to the invention has been explained above for the sake of clarity using discrete function levels. However, it is self-evident for the person skilled in the art that all functions or functional levels between the analysis-side A / D converter 3 and the synthesis-side D / A converter 19, in which digital signals are thus processed, in practice preferably by a suitably programmed computer or a microprocessor or the like are implemented. The software implementation of the individual function levels, e.g. the parameter calculator, the various digital filters, autocorrelation, etc. are routine for the specialist familiar with data processing technology and are described in the specialist literature (see e.g. IEEE Digital Signal Processing Committee: "Programs for Digital Signal Processing", IEEE Press Book 1980).

Für Echtzeit-Anwendungen sind insbesondere bei hohen Abtastraten und kurzen Sprachabschnitten wegen der dann grossen Anzahl von in kürzester Zeit zu bewältigenden Operationen extrem leistungsfähige Rechner erforderlich. Für solche Zwecke werden dann am besten Multi-Prozessor-Systeme mit einer geeigneten Aufgabenteilung eingesetzt. Ein Beispiel für ein solches System ist in Fig. 2 als Blockschema dargestellt.For real-time applications, especially at high sampling rates and short speech sections, because of the large number of operations to be completed in a very short time, he is extremely powerful computer conducive. For such purposes it is best to use multi-processor systems with a suitable division of tasks. An example of such a system is shown in Fig. 2 as a block diagram.

Das dargestellte Multi-Prozessor-System umfasst im wesentlichen vier Funktionsblöcke, und zwar einen Hauptprozessor 50, zwei Nebenprozessoren 60 und 70 und eine Eingabe/Ausgabe-Einheit 80. Es implementiert sowohl Analyse als auch Synthese.The multi-processor system shown essentially comprises four functional blocks, namely a main processor 50, two secondary processors 60 and 70 and an input / output unit 80. It implements both analysis and synthesis.

Die Eingabe/Ausgabe-Einheit 80 enthält die mit 81 bezeichneten Stufen zur analogen Signalverarbeitung, wie Verstärker, Filter und automatische Verstärkungsregelung, sowie den A/D-Wandler und den D/A-Wandler.The input / output unit 80 contains the stages designated 81 for analog signal processing, such as amplifiers, filters and automatic gain control, as well as the A / D converter and the D / A converter.

Der Hauptprozessor 50 führt die eigentliche Sprachanalyse bzw. -synthese durch, wozu die Bestimmung der Filterparameter und der Lautstärkeparameter (Parameterrechner 4), die Bestimmung von Energie und Nulldurchgängen des Sprachsignals (Stufen 12 und 13), die Stimmhaft-Stimmlos-Entscheidung (Stufe 11) und die Bestimmung der Pitchperiode (Stufe 9) bzw. syntheseseitig die Erzeugung des Ausgangssignals (Stufe 16), dessen Lautstärkevariation (Stufe 17) und dessen Filtrierung im Sprachmodellfilter (Filter 18) gehören.The main processor 50 carries out the actual speech analysis or synthesis, for which purpose the determination of the filter parameters and the volume parameters (parameter calculator 4), the determination of energy and zero crossings of the speech signal (stages 12 and 13), the voiced-unvoiced decision (stage 11 ) and the determination of the pitch period (stage 9) or synthesis-side the generation of the output signal (stage 16), its volume variation (stage 17) and its filtering in the speech model filter (filter 18).

Der Hauptprozessor 50 wird dabei vom Nebenprozessor 60 unterstützt, welcher die Zwischenspeicherung (Buffer 5), Inversfiltrierung (Stufe 6), gegebenenfalls die Tiefpassfiltrierung (Stufe 7) und die Autokorrelation (Stufe 8) durchführt.The main processor 50 is supported by the secondary processor 60, which carries out the intermediate storage (buffer 5), inverse filtering (stage 6), optionally the low-pass filtering (stage 7) and the autocorrelation (stage 8).

Der Nebenprozessor 70 schliesslich befasst sich ausschliesslich mit der Codierung bzw. Decodierung der Sprachparameter sowie mit dem Datenverkehr mit z.B. einem Modem 90 oder dgl. via eine mit 71 bezeichnete Schnittstelle.Finally, the secondary processor 70 deals exclusively with the coding or decoding of the speech parameters and with the data traffic with e.g. a modem 90 or the like via an interface designated 71.

Im folgenden wird das Stimmhaft-Stimmlos-Entscheidungsprocedere näher erläutert. Vorweg sei erwähnt, dass für den Stimmhaft-Stimmlos-Entscheid und die Bestimmung der Pitch-Periode vorzugsweise ein längeres Analyseintervall zugrundegelegt wird als für die Bestimmung der Filterkoeffizienten. Für die letzteren ist das Analyseintervall gleich dem betrachteten Sprachabschnitt, für die Pitchextraktion hingegen erstreckt sich das Analyseintervall zu beiden Seiten des Sprachabschnitts in den jeweils benachbarten Sprachabschnitt, beispielsweise bis etwa zur Hälfte desselben. Auf diese Weise lässt sich eine zuverlässigere und weniger sprunghafte Pitchextraktion durchführen. Ferner sei klargestellt, dass, wenn im folgenden von der Energie eines Signals gesprochen wird, damit stets die relative, also auf den Dynamikumfang des A/D-Wandlers 3 normierte Energie des Signals im Analyseintervall gemeint ist.The voiced-unvoiced decision-making procedure is explained in more detail below. In advance it should be mentioned that for the voiced-voiceless Ent and the determination of the pitch period is preferably based on a longer analysis interval than for the determination of the filter coefficients. For the latter, the analysis interval is the same as the language section under consideration; for pit extraction, on the other hand, the analysis interval extends on both sides of the language section into the respectively adjacent language section, for example up to about half of the same. In this way, a more reliable and less erratic pitch extraction can be carried out. Furthermore, it should be clarified that when the energy of a signal is referred to in the following, this always means the relative energy of the signal in the analysis interval, that is to say standardized to the dynamic range of the A / D converter 3.

Grundlegendes Prinzip des erfindungsgemässen Stimmhaft-Stimmlos-Entscheids ist, wie schon weiter vorne erläutert, dass nur sichere Entscheide getroffen werden. Unter "sicher" wird dabei ein Entscheid verstanden, der eine wenigstens 97 %ige, vorzugsweise wesentlich höhere und insbesondere sogar absolute Treffsicherheit bzw. entsprechend geringe statistische Fehlerquote aufweist.The basic principle of the voiced-voiceless decision according to the invention is, as explained earlier, that only safe decisions are made. "Safe" is understood to mean a decision which has at least 97%, preferably significantly higher and in particular even absolute accuracy or a correspondingly low statistical error rate.

In den Fig. 3 und 4 sind die Flussdiagramme von zwei besonders zweckmässigen erfindungsgemässen Entscheidungsabläufen dargestellt, und zwar in Fig. 3 eine Variante für Breitbandsprache und in Fig. 4 eine solche für Telefonsprache.3 and 4 show the flow diagrams of two particularly expedient decision-making processes according to the invention, specifically in FIG. 3 a variant for broadband voice and in FIG. 4 such a variant for telephone voice.

Gemäss Fig. 3 wird als erstes Entscheidungskriterium ein Energietest durchgeführt. Dabei wird die (relative, normierte) Energie E s des Sprachsignals s mit einer Mindestenergieschwelle EL verglichen, die so tief angesetzt ist, dass der Sprachabschnitt mit Sicherheit als stimmlos bezeichnet werden kann, wenn die Energie Es nicht über dieser Schwelle liegt. Praktische Werte für diese Mindestenergieschwelle EL sind 1,1·10 bis 1,4·10-4, vorzugsweise etwa 1,2·10-4.According to FIG. 3, an energy test is carried out as the first decision criterion. The (relative, standardized) energy E s of the speech signal s is compared with a minimum energy threshold EL, which is set so low that the speech section can certainly be called unvoiced if the energy Es is not above this threshold. Practical values for this minimum energy threshold EL are 1.1 x 10 to 1.4 x 10 -4 , preferably about 1.2 x 10 -4 .

Diese Werte gelten für den Fall, dass alle digitalen Abtastsignale im Einheitsformat (Bereich± 1) dargestellt sind. Bei anderen Signalformaten sind die Werte mit entsprechenden Faktoren zu multiplizieren.These values apply if all digital scanning signals are shown in the standard format (range ± 1). For other signal formats, the values must be multiplied by the corresponding factors.

Wenn die Energie Es des Sprachsignals über dieser Schwelle liegt, kann keine eindeutige Aussage getroffen werden und es erfolgt als nächstes Kriterium ein Nulldurchgangstest. Dabei wird die Anzahl der Nulldurchgänge des digitalen Sprachsignals im Analyseintervall festgestellt und mit einer Maximalanzahl ZCU verglichen. Falls die Anzahl grösser ist als diese Maximalanzahl, wird der Sprachabschnitt eindeutig als stimmlos bewertet, andernfalls wird ein weiteres Entscheidungskriterium herangezogen. Für einen praktisch ausreichend sicheren Entscheid beträgt die Maximalanzahl ZCU etwa 105 bis 120, vorzugsweise etwa 110 Nulldurchgänge für eine Analyseintervalllänge von 256 Abtastwerten.If the energy E s of the speech signal is above this threshold, no clear statement can be made and the next criterion is a zero-crossing test. The number of zero crossings of the digital voice signal is determined in the analysis interval and compared with a maximum number of ZCU. If the number is greater than this maximum number, the language section is clearly rated as unvoiced, otherwise a further decision criterion is used. For a practically sufficiently reliable decision, the maximum number ZCU is approximately 105 to 120, preferably approximately 110 zero crossings for an analysis interval length of 256 samples.

Die angegebene Reihenfolge von Energietest und Nulldurchgangstest hat sich in der Praxis gut bewährt. Sie könnte jedoch auch umgekehrt sein, wobei dann die Entscheidungsschwellen modifiziert werden müssten.The specified sequence of energy test and zero crossing test has proven itself in practice. However, it could also be reversed, in which case the decision thresholds would have to be modified.

Als nächstes Entscheidungskriterium wird die normierte Autokorrelationsfunktion AFK des tiefpassfiltrierten Prädiktionsfehlersignals en herangezogen, und zwar wird das normierte Autokorrelationsmaximum RXK, welches sich in einem durch den IndeX IP gekennzeichneten Abstand vom Maximum nullter Ordnung befindet, mit einem Schwellenwert RU verglichen und als stimmhaft bewertet, wenn dieser Schwellenwert überschritten wird. Andernfalls wird zum nächsten Kriterium weitergegangen. Praktisch günstige Werte für den Schwellenwert sind 0,55 bis 0,75, vorzugsweise etwa 0,6.The next decision criterion is the normalized autocorrelation function AFK of the low-pass filtered prediction error signal e n , namely the normalized autocorrelation maximum RXK, which is at a distance from the zero-order order identified by the IndeX IP, is compared with a threshold value RU and evaluated as correct if this threshold is exceeded. Otherwise, the next criterion is advanced. Practically favorable values for the threshold are 0.55 to 0.75, preferably about 0.6.

Als nächstes wird die Energie des tiefpassfiltrierten Prädiktionsfehlersignals e , genauer das Verhältnis V derselben zur Energie E des Sprach- signals, untersucht. Wenn dieses Energieverhältnis V kleiner ist als eine 0 erste, tiefere Verhältnisschwelle VL, wird der Sprachabschnitt als stimmhaft bewertet. Andernfalls erfolgt ein weiterer Vergleich mit einer zweiten, höheren Verhältnisschwelle VU, wobei auf stimmlos entschieden wird, wenn das Energienverhältnis V o über dieser höheren Schwelle VU liegt. Dieser zweite Vergleich kann eventuell auch entfallen.Next, the energy of the low-pass filtered prediction error signal e, more precisely the ratio V thereof to the energy E of the speech signal, is examined. If this energy ratio V is less than a 0 first, lower ratio threshold VL, the speech section is rated as voiced. Otherwise there is a further comparison with a second, higher ratio threshold VU, the decision being made unvoiced if the energy ratio V o is above this higher threshold VU. This second comparison may also be omitted.

Geeignete Werte für die beiden Verhältnisschwellen VL und VU sind 0,05 bis 0,15 bzw. 0,6 bis 0,75, vorzugsweise etwa 0,1 bzw. 0,7.Suitable values for the two ratio thresholds VL and VU are 0.05 to 0.15 and 0.6 to 0.75, preferably about 0.1 and 0.7.

Falls auch diese Untersuchung der Restfehlerenergie zu keinem eindeutigen Resultat geführt hat, erfolgt ein weiterer Nulldurchgangstest mit einer tieferen Entscheidungsschwelle bzw. Maximalanzahl ZCL, wobei auf stimmlos entschieden wird, wenn diese Maximalanzahl überschritten wird. Geeignete Werte für diese tiefere Maximalanzahl ZCL sind 70 bis 90, vorzugsweise etwa 80 auf 256 Abtastwerte.If this investigation of the residual error energy has not led to a clear result, another zero-crossing test is carried out with a lower decision threshold or maximum number ZCL, the decision being made unvoiced if this maximum number is exceeded. Suitable values for this lower maximum number ZCL are 70 to 90, preferably approximately 80 to 256 samples.

Im Zweifelsfalle wird als nächstes Entscheidungskriterium noch ein weiterer Energietest durchgeführt, wobei die Energie E s des Sprachsignals mit einer zweiten, höheren Mindestenergieschwelle EU verglichen und diesmal auf stimmhaft entschieden wird, wenn die Energie Es des Sprachsignals diese Schwelle EU übersteigt. Praktische Werte für diese höhere Mindestenergieschwelle EU sind 1,3-10-3 bis 1,8·10-3 vorzugsweise etwa 1,5·10-3 In case of doubt, a further energy test is carried out as the next decision criterion, the energy E s of the speech signal being compared to a second, higher minimum energy threshold EU and this time being decided on when the energy Es of the speech signal exceeds this threshold EU. Practical values for this higher minimum energy threshold EU are 1.3-10-3 to 1.8 · 10 -3, preferably about 1.5 · 10 -3

Sollte auch dann noch kein eindeutiger Entscheid vorliegen, wird zunächst das Autokorrelationsmaximum RXX mit einem zweiten, tieferen Schwellenwert RM verglichen. Wird dieser Schwellenwert überstiegen, wird auf stimmhaft entschieden. Andernfalls wird als letztes Kriterium ein Quervergleich mit den beiden (gegebenenfalls auch nur einem) unmittelbar vorangegangenen Sprachabschnitten durchgeführt. Dabei wird der Sprachabschnitt nur dann als stimmlos bewertet, wenn die (bzw. der eine) beiden vorangegangenen Sprachabschnitte ebenfalls stimmlos waren. Andernfalls wird endgültig auf stimmhaft entschieden. Geeignete Werte für den Schwellenwert RM sind 0,35 bis 0,45, vorzugsweise etwa 0,42.If there is still no clear decision, the autocorrelation maximum RXX is first compared with a second, lower threshold value RM. If this threshold is exceeded, the decision will be made by voice. Otherwise, a cross-comparison with the two (possibly also only one) immediately preceding language sections is carried out as the last criterion. The speech section is only rated as unvoiced if the (or one) of the two previous speech sections were also unvoiced. Otherwise, a final decision will be made by voices. Suitable values for the threshold value RM are 0.35 to 0.45, preferably approximately 0.42.

Wie schon weiter vorne erwähnt, wird das Prädiktionsfehlersignal e n bei Breitbandsprache tiefpassfiltriert. Diese Tiefpassfiltrierung bewirkt eine Aufsplittung der Häufigkeitsverteilungen der Autokorrelationsmaximalwerte zweischen stimmlosen und stimmhaften Sprachabschnitten und erleichtert damit die Festlegung der Entscheidungsschwelle bei gleichzeitiger Verringerung der Fehlerhäufigkeit. Ferner wird damit auch eine bessere Pitchextraktion, d.h. Bestimmung der Pitchperiode, ermöglicht. Wesentliche Bedingung dafür ist jedoch, dass die Tiefpassfiltrierung mit extrem hoher Flankensteilheit von ca. 150 bis 180 db/Oktave erfolgt. Das verwendete (digitale) Filter sollte eine elliptische Charakteristik besitzen, die Grenzfrequenz soll im Bereich von 700-1200 Hz, vorzugsweise 800 bis 900 Hz liegen.As mentioned earlier, the prediction error signal e n is low-pass filtered in broadband speech. This low-pass filtering causes the frequency distributions of the autocorrelation maximum values to be split between two unvoiced and voiced speech sections and thus makes it easier to determine the decision threshold at the same time reducing the frequency of errors. It also enables better pitch extraction, ie determining the pitch period. However, an essential condition for this is that the low-pass filtering is carried out with an extremely high slope of approx. 150 to 180 db / octave. The (digital) filter used should have an elliptical characteristic, the cut-off frequency should be in the range of 700-1200 Hz, preferably 800 to 900 Hz.

Bei Telefonsprache, der gegenüber der Breitbandsprache der Frequenzbereich unter 300 Hz fehlt, bringt diese Tiefpassfiltrierung keine Vorteile, sondern ist sogar eher nachteilig. Sie wird daher bei Telefonsprache weggelassen Dies kann einfach durch Schliessen des Schalters 10 oder softwaremassig (durch Nichtausführung des entsprechenden Programmteils) bewerkstelligt werden.In the case of telephone speech, which lacks the frequency range below 300 Hz compared to broadband speech, this low-pass filtering has no advantages, but is actually rather disadvantageous. It is therefore omitted in the case of telephone language. This can be accomplished simply by closing the switch 10 or in software (by not executing the corresponding program part).

Der in Fig. 4 dargestellte Entscheidungsablauf für Telefonsprache stimmt weitestgehend mit dem für Breitbandsprache überein. Es ist lediglich die Reihenfolge von zweitem Energietest und zweitem Nulldurchgangstest vertauscht (nicht zwingend) und ferner ist der zweite Test des Autokorrelationsmaximums RXX weggelassen, da dieser bei Telefonsprache nichts bringen würde. Die einzelnen Entscheidungsschwellen sind entsprechend den Unterschieden der Telefonsprache gegenüber der Breitbandsprache zum Teil anders gelegt. Für die Praxis günstige Werte gehen aus der nachstehenden Tabelle hervor.

Figure imgb0001
Mit den beiden vorstehend beschriebenen Entscheidungsabläufen wurde eine Stimmhaft-Stimmlos-Entscheidung mit extrem kleinen Fehlerquoten erreicht. Es versteht sich, dass die Reihenfolge der Kriterien sowie die Kriterien selbst im Prinzip auch anders sein könnten, wesentlich ist lediglich, dass bei jedem Kriterium immer nur sichere Entscheide getroffen werden.The decision process for telephone speech shown in FIG. 4 largely corresponds to that for broadband speech. Only the sequence of the second energy test and the second zero-crossing test is reversed (not mandatory) and the second test of the auto-correlation maximum RXX is also omitted, since this would not work for telephone speech. The individual decision thresholds are partly different, depending on the differences between the telephone language and the broadband language. Practical values are shown in the table below.
Figure imgb0001
With the two decision processes described above, a voiced-unvoiced decision was achieved with extremely small error rates. It goes without saying that the order of the criteria and the criteria themselves could in principle also be different, the only important thing is that only reliable decisions are made for each criterion.

Claims (34)

1. Redundanzverminderndes Sprachverarbeitungsverfahren nach der Methode der linearen Prädiktion, bei welchem das durch Abtastung eines gegebenenfalls bandbegrenzten Analogsprachsignals gewonnene digitale Sprachsignal in Abschnitte eingeteilt wird und für jeden Sprachabschnitt die Parameter eines Sprachmodellfilters berechnet und ein Stimmhaft-Stimmlos-Entscheid getroffen sowie im stimmhaften Falle die Periode der Stimmbandgrundfrequenz (Pitch-Periode) bestimmt werden, dadurch gekennzeichnet, dass für den Stimmhaft-Stimmlos-Entscheid das Sprachsignal oder ein daraus abgeleitetes Signal zunächst nach einem ersten Schwellenwertkriterium analysiert wird, wobei der Schwellenwert so gewählt wird, dass bei Erfüllung des Kriteriums ein zu zumindest 97 %, vorzugsweise 100 % sicherer Entscheid vorliegt, dass bei Nichterfüllung des ersten Kriteriums das Sprachsignal oder ein daraus abgeleitetes Signal nach einem zweiten, anderen Schwellenwertkriterium analysiert wird, wobei der Schwellenwert so gewählt wird, dass bei Erfüllung des Kriteriums ein zu zumindest 97 X, vorzugsweise 100 % sicherer Entscheid vorliegt, und dass bei Nichterfüllung auch des zweiten Kriteriums das Sprachsignal oder ein daraus abgeleitetes Signal wenigstens einem weiteren, vorzugsweise anderen Entscheidungskriterium unterzogen wird.1.Redundancy-reducing speech processing method according to the linear prediction method, in which the digital speech signal obtained by sampling a possibly band-limited analog speech signal is divided into sections and for each speech section the parameters of a speech model filter are calculated and a voiced-unvoiced decision is made and, in the voiced case, the period of the basic vocal cord frequency (pitch period) can be determined, characterized in that for the voiced-voiceless decision, the speech signal or a signal derived therefrom is first analyzed according to a first threshold value criterion, the threshold value being chosen such that when the criterion is met, a to there is at least 97%, preferably 100%, a reliable decision that if the first criterion is not met, the speech signal or a signal derived therefrom is analyzed according to a second, different threshold value criterion, the threshold value being g It is selected that when the criterion is met, there is a decision that is at least 97%, preferably 100% certain, and that if the second criterion is also not met, the speech signal or a signal derived therefrom is subjected to at least one further, preferably different decision criterion. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das erste Kriterium ein Energietest ist, bei dem die relative Energie (E ) des Sprachsignals bestimmt und der Sprachabschnitt als stimmlos bewertet wird, wenn die Energie (E ) eine Mindestenergieschwelle (EL) nicht überschreitet.2. The method according to claim 1, characterized in that the first criterion is an energy test in which the relative energy (E) of the speech signal is determined and the speech section is assessed as unvoiced if the energy (E) does not exceed a minimum energy threshold (EL) . 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das erste Kriterium ein Nulldurchgangstest ist, bei welchem die Anzahl (ZC) der Nulldurchgänge des Sprachsignals bestimmt und der Sprachabschnitt als stimmlos bewertet wird, wenn diese Anzahl (ZC) eine Maximalanzahl (ZCU) übersteigt.3. The method according to claim 1, characterized in that the first criterion is a zero crossing test, in which the number (ZC) of the zero crossings of the speech signal is determined and the speech section is assessed as unvoiced if this number (ZC) exceeds a maximum number (ZCU) . 4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das zweite Kriterium ein Nulldurchgangstest gemäss Anspruch 3 ist.4. The method according to claim 2, characterized in that the second criterion is a zero crossing test according to claim 3. 5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein weiteres Kriterium ein Schwellenwerttest einer normierten Autokorrelationsfunktion (AKF) ist, welche durch Autokorrelation des aus dem digitalen Sprachsignal mittels eines Inversfilters mit zum Sprachmodellfilter inverser Uebertragungsfunktion gebildeten Prädiktionsfehlersignals gewonnen wird, wobei der Abschnitt als stimmhaft bewertet wird, wenn das zweite Maximum (RXX) der normierten Autokorrelationsfunktion (AKF) einen Schwellenwert (RU) überschreitet.5. The method according to any one of the preceding claims, characterized in that a further criterion is a threshold test of a standardized autocorrelation function (AKF), which is obtained by autocorrelation of the prediction error signal formed from the digital speech signal by means of an inverse filter with a transfer function inverse to the speech model filter, the section is assessed as voiced if the second maximum (RXX) of the standardized autocorrelation function (AKF) exceeds a threshold value (RU). 6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein weiteres Kriterium ein Restfehlerenergietest ist, wobei aus dem digitalen Sprachsignal mittels eines Inversfilters mit zum Sprachmodellfilter inverser Uebertragungsfunktion das Prädiktionsfehlersignal gebildet sowie dessen Energie und auch die Energie (E ) des Sprachsignals ermittelt wird und wobei ferner das Verhältnis (V ) der Energie des Prädiktionsfehlersignals zur Energie (E ) des Sprachsignals gebildet und mit einer unteren Verhältnisschwelle (VL) verglichen und der Sprachabschnitt als stimmhaft bewertet wird, wenn dieses Verhältnis (V ) kleiner als die Schwelle (VL) ist. o6. The method according to any one of the preceding claims, characterized in that a further criterion is a residual error energy test, the prediction error signal being formed from the digital speech signal by means of an inverse filter with a transfer function inverse to the speech model filter, and its energy and also the energy (E) of the speech signal being determined and wherein the ratio (V) of the energy of the prediction error signal to the energy (E) of the speech signal is formed and compared with a lower ratio threshold (VL) and the speech section is assessed as voiced if this ratio (V) is less than the threshold (VL) is. O 7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das Energieverhältnis (V ) zusätzlich mit einer oberen Verhältnisschwelle (VU) verglichen und der Sprachabschnitt als stimmlos bewertet wird, wenn das Verhältnis (V ) grösser als diese obere Schwelle (VU) ist.7. The method according to claim 6, characterized in that the energy ratio (V) is additionally compared with an upper ratio threshold (VU) and the speech section is assessed as unvoiced if the ratio (V) is greater than this upper threshold (VU). 8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass ein weiteres Entscheidungskriterium ein zweiter Energietest ist, wobei die Energie (E ) des Sprachsignals mit einer zweiten, höheren Mindestenergieschwelle (EU) verglichen und der Sprachabschnitt als stimmhaft bewertet wird, wenn die Energie (E ) diese höhere Mindest- energieschwelle (EU) überschreitet.8. The method according to any one of claims 5 to 7, characterized in that a further decision criterion is a second energy test, wherein the energy (E) of the speech signal with a second, higher minimum energy threshold (EU) is compared and the speech section is assessed as voiced if the energy (E) exceeds this higher minimum energy threshold (EU). 9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass ein weiteres Entscheidungskriterium ein zweiter Nulldurchgangstest ist, wobei die Anzahl (ZC) der Nulldurchgänge des Sprachsignals mit einer zweiten, tieferen Maximalanzahl (ZCL) verglichen und der Sprachabschnitt als stimmlos bewertet wird, wenn die Anzahl (ZC) diese tiefere Maximalanzahl (ZCL) übersteigt.9. The method according to any one of claims 5 to 8, characterized in that a further decision criterion is a second zero crossing test, the number (ZC) of the zero crossings of the speech signal being compared with a second, lower maximum number (ZCL) and the speech section being assessed as unvoiced if the number (ZC) exceeds this lower maximum number (ZCL). 10. Verfahren nach Anspruch 5 und einem der Ansprüche 6 und 7, dadurch gekennzeichnet, dass ein weiteres Entscheidungskriterium in einem weiteren Schwellenwerttest der normierten Autokorrelationsfunktion (AKF) besteht, wobei der Abschnitt als stimmhaft bewertet wird; wenn das zweite Maximum (RXX) der normierten Autokorrelationsfunktion (AKF) über einem zweiten, niedrigeren Schwellenwert (RM) liegt.10. The method according to claim 5 and one of claims 6 and 7, characterized in that a further decision criterion consists in a further threshold value test of the standardized autocorrelation function (AKF), the section being rated as voiced; when the second maximum (RXX) of the normalized autocorrelation function (AKF) is above a second, lower threshold value (RM). 11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass ein weiteres Entscheidungskriterium ein Quervergleich mit vorzugsweise zwei bis drei dem betreffenden Sprachabschnitt unmittelbar vorausgegangenen Sprachabschnitten ist, wobei der Sprachabschnitt nur dann als stimmlos bewertet wird, wenn alle diese vorangegangenen Sprachabschnitte ebenfalls stimmlos waren.11. The method according to any one of the preceding claims, characterized in that a further decision criterion is a cross-comparison with preferably two to three speech sections immediately preceding the language section in question, the speech section being rated as unvoiced only if all of these preceding speech sections were also unvoiced. 12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das für die Bildung des Prädiktionsfehlersignals dem Inversfilter zugeführte Sprachsignal oder das Prädiktionsfehlersignal vor der Autokorrelation tiefpassfiltriert wird.12. The method according to any one of the preceding claims, characterized in that the speech signal supplied to the inverse filter for the formation of the prediction error signal or the prediction error signal is low-pass filtered before the autocorrelation. 13. Verfahren nach den Ansprüchen 4 bis 12, dadurch gekennzeichnet, dass der Stimmhaft-Stimmlos-Entscheid anhand der Entscheidungskriterien erster Energietest, erster Nulldurchgangstest, erster Schwellenwerttest der Autokorrelationsfunktion, Restfehlerenergietest bzw. -teste, zweiter Nulldurchgangstest, zweiter Energietest, zweiter Schwellenwerttest der Autokorrelationsfunktion und Quervergleich durchgeführt wird.13. The method according to claims 4 to 12, characterized in that the voiced-voiceless decision based on the decision criteria first energy test, first zero crossing test, first threshold value test of the autocorrelation function, residual error energy test or test, second zero crossing test, second energy test, second threshold value test of the autocorrelation function and cross comparison is carried out. 14. Verfahren nach den Ansprüchen 4 bis 9 und 11, dadurch gekennzeichnet, dass der Stimmhaft-Stimmlos-Entscheid anhand der Entscheidungskriterien erster Energietest, erster Nulldurchgangstest, erster Schwellenwerttest der Autokorrelationsfunktion, Restfehlerenergietest bzw. -teste, zweiter Energietest, zweiter Nulldurchgangstest und Quervergleich durchgeführt wird.14. The method according to claims 4 to 9 and 11, characterized in that the voiced-voiceless decision is carried out on the basis of the decision criteria first energy test, first zero crossing test, first threshold value test of the autocorrelation function, residual error energy test or test, second energy test, second zero crossing test and cross comparison becomes. 15. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass die Tiefpassfiltrierung des restlichen Prädiktionsfehlers mit einer Grenzfrequenz von 700 bis 1200 Hz, vorzugsweise 800 bis 900 Hz erfolgt.15. The method according to claim 12, characterized in that the low-pass filtering of the remaining prediction error is carried out with a cut-off frequency of 700 to 1200 Hz, preferably 800 to 900 Hz. 16. Verfahren nach Anspruch 12 oder 15, dadurch gekennzeichnet, dass die Tiefpassfiltrierung mittels eines steilflankigen Digitalfilters (7) mit elliptischer Charakteristik und einer Flankensteilheit von mindestens 150 bis 180 db/Oktave erfolgt.16. The method according to claim 12 or 15, characterized in that the low-pass filtering is carried out by means of a steep-sided digital filter (7) with an elliptical characteristic and a slope of at least 150 to 180 db / octave. 17. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei Breitbandsprache der Schwellenwert (RU) im Bereich von 0,55 bis 0,75, vorzugsweise etwa 0,6, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.17. The method according to claim 5, characterized in that the threshold value (RU) in the range from 0.55 to 0.75, preferably about 0.6, based on the zero-order autocorrelation maximum, is selected for broadband speech. 18. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass bei Breitbandsprache der tiefere Schwellenwert (RM) im Bereich von 0,35 bis 0,45, vorzugsweise etwa 0,42, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.18. The method according to claim 10, characterized in that in the case of broadband speech, the lower threshold value (RM) is selected in the range from 0.35 to 0.45, preferably approximately 0.42, based on the zero-order autocorrelation maximum. 19. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei Breitbandsprache die Mindestenergieschwelle (EL) im Bereich von 1,1-10-4 bis 1,4·10, vorzugsweise etwa 1,2·10-4 gewählt wird.19. The method according to claim 2, characterized in that the minimum energy threshold (EL) is selected in the range from 1.1-10 -4 to 1.4 · 10, preferably about 1.2 · 10 -4 in broadband speech. 20. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei Breitbandsprache die höhere Mindestenergieschwelle (EU) im Bereich von 1,3-10 bis 1,8·10 , vorzugsweise etwa 1,5·10-3 gewählt wird.20. The method according to claim 8, characterized in that the higher minimum energy threshold (EU) is selected in the range from 1.3-10 to 1.8 · 10, preferably about 1.5 · 10 -3 in broadband language. 21. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass bei Breitbandsprache die Maximalanzahl (ZCU) im Bereich von 105 bis 120 vorzugsweise etwa 110, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.21. The method according to claim 3, characterized in that for broadband speech the maximum number (ZCU) in the range from 105 to 120 preferably about 110, based on a speech section length of 256 samples. 22. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass bei Breitbandsprache die tiefere Maximalanzahl (ZCL) im Bereich von 70 bis 90, vorzugsweise etwa 80, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.22. The method according to claim 9, characterized in that in the case of broadband speech, the lower maximum number (ZCL) is selected in the range from 70 to 90, preferably approximately 80, based on a speech section length of 256 samples. 23. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei Breitbandsprache die obere Verhältnisschwelle (VU) im Bereich von 0,6 bis 0,75, vorzugsweise etwa 0,7 gewählt wird.23. The method according to claim 6, characterized in that in broadband speech the upper ratio threshold (VU) is selected in the range from 0.6 to 0.75, preferably about 0.7. 24. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei Breitbandsprache die untere Verhältnisschwelle (VL) im Bereich von 0,05 bis 0,15, vorzugsweise etwa 0,1 gewählt wird.24. The method according to claim 7, characterized in that in the case of broadband speech, the lower ratio threshold (VL) is selected in the range from 0.05 to 0.15, preferably approximately 0.1. 25. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei Telefonsprache der Schwellenwert (RU) im Bereich von 0,2 bis 0,4, vorzugsweise etwa 0,25, bezogen auf das Autokorrelationsmaximum nullter Ordnung, gewählt wird.25. The method according to claim 5, characterized in that the threshold value (RU) is selected in the range from 0.2 to 0.4, preferably about 0.25, based on the zero-order autocorrelation maximum, for telephone speech. 26. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei Telefonsprache die Mindestenergieschwelle (EL) im Bereich von 1,4·10-5 bis 1,6·10-5, vorzugsweise etwa 1,5·10-5 gewählt wird.26. The method according to claim 2, characterized in that in the telephone language the minimum energy threshold (EL) is selected in the range from 1.4 · 10 -5 to 1.6 · 10 -5 , preferably about 1.5 · 10 -5 . 27. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei Telefonsprache die höhere Mindestenergieschwelle (EU) im Bereich von 1,3. 10 -3 bis 1,8010-3, vorzugsweise etwa 1,5·10-3 gewählt wird.27. The method according to claim 8, characterized in that in the telephone language, the higher minimum energy threshold (EU) in the range of 1.3. 10 -3 to 1.8010 -3 , preferably about 1.5 · 10 -3 is selected. 28. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass bei Telefonsprache die Maximalanzahl (ZCU) im Bereich von 120 bis 140, vorzugsweise etwa 130, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.28. The method according to claim 3, characterized in that the maximum number (ZCU) in the range from 120 to 140, preferably about 130, based on a speech section length of 256 samples, is selected for telephone speech. 29. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass bei Telefonsprache die tiefere Maximalanzahl (ZCL) im Bereich von 100 bis 120 , vorzugsweise etwa 110, bezogen auf eine Sprachabschnittlänge von 256 Abtastwerten, gewählt wird.29. The method according to claim 9, characterized in that the lower maximum number (ZCL) in the range from 100 to 120, preferably about 110, based on a speech section length of 256 samples, is selected for telephone speech. 30. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei Telefonsprache die obere Verhältnisschwelle (VU) im Bereich von 0,5 bis 0,7, vorzugsweise etwa 0,6 gewählt wird.30. The method according to claim 6, characterized in that the upper ratio threshold (VU) is selected in the range from 0.5 to 0.7, preferably about 0.6 for telephone speech. 31. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei Telefonsprache die untere Verhältnisschwelle (VL) im Bereich von 0,05 bis 0,15, vorzugsweise etwa 0,1 gewählt wird.31. The method according to claim 7, characterized in that the lower ratio threshold (VL) is selected in the range of 0.05 to 0.15, preferably about 0.1 for telephone speech. 32. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass für die Stimmhaft-Stimmlos-Entscheidung ein Entscheidungssprachabschnitt analysiert wird, der sich aus dem Sprachabschnitt, für welchen der Entscheid getroffen wird, und je wenigstens einem Teil der beiden dem betreffenden Sprachabschnitt benachbarten Sprachabschnitte zusammensetzt.32. The method according to any one of the preceding claims, characterized in that for the voiced-voiceless decision, a decision speech section is analyzed, which is composed of the speech section for which the decision is made and at least a part of the two speech sections adjacent to the relevant speech section put together. 33. Vorrichtung zur Durchführung des Verfahrens gemäss einem der vorangehenden Ansprüche, mit einem Signalaufbereitungsteil, welcher das analoge Sprachsignal taktweise abtastet und die dabei erhaltenen Abtastwerte digitalisiert, und mit einem Analyseteil, welcher das digitalisierte Sprachsignal abschnittsweise analysiert und einen Parameterrechner, eine Pitchentscheidungsstufe und eine Pitchberechnungsstufe enthält, dadurch gekennzeichnet, dass der Analyseteil durch einen Rechner oder ein Rechnersystem gebildet ist, welches zur Durchführung der in einem oder mehreren der vorangehenden Ansprüche beschriebenen Verfahrensschritte programmiert ist.33. Device for carrying out the method according to one of the preceding claims, with a signal processing part, which samples the analog voice signal in cycles and digitizes the sample values obtained, and with an analysis part, which analyzes the digitized voice signal in sections and a parameter calculator, a pitch decision stage and a pitch calculation stage contains, characterized in that the analysis part is formed by a computer or a computer system which is programmed to carry out the method steps described in one or more of the preceding claims. 34. Vorrichtung nach Anspruch 33, dadurch gekennzeichnet, dass der Analyseteil ein Multiprozessorsystem mit einem Hauptprozessor (50) und zwei Nebenprozessoren (60,70) ist, wobei ein Nebenprozessor (60) das Sprachsignals zwischenspeichert, aus dem zwischengespeicherten Sprachsignal durch eine Inversfiltrierung das Prädiktionsfehlersignal erzeugt und aus diesem, gegebenenfalls nach einer Tiefpassfiltrierung, die normierte Autokorrelationsfunktion bildet, wobei der Hauptprozessor (50) die eigentliche Analyse des Sprachsignals durchführt, und wobei der andere Nebenprozessor (70) für die Codierung der vom Hauptprozessor in Verbindung mit dem ersten Nebenprozessor ermittelten Sprachparameter verantwortlich ist.34. Device according to claim 33, characterized in that the analysis part is a multiprocessor system with a main processor (50) and two secondary processors (60, 70), a secondary processor (60) the speech signal caches prachsignal generated from the cached S by a Inversfiltrierung the prediction error signal and forms from this, possibly after a Tiefpassfiltrierung, the normalized auto-correlation function, wherein the main processor (50) performs the actual analysis of the speech signal, and the other secondary processor (70) is responsible for the coding of the speech parameters determined by the main processor in connection with the first secondary processor.
EP82810390A 1981-09-24 1982-09-20 Method and apparatus for redundancy-reducing digital speech processing Expired EP0076233B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT82810390T ATE15563T1 (en) 1981-09-24 1982-09-20 METHOD AND DEVICE FOR REDUNDANCY-REDUCING DIGITAL SPEECH PROCESSING.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH6167/81 1981-09-24
CH616781 1981-09-24

Publications (2)

Publication Number Publication Date
EP0076233A1 true EP0076233A1 (en) 1983-04-06
EP0076233B1 EP0076233B1 (en) 1985-09-11

Family

ID=4305323

Family Applications (1)

Application Number Title Priority Date Filing Date
EP82810390A Expired EP0076233B1 (en) 1981-09-24 1982-09-20 Method and apparatus for redundancy-reducing digital speech processing

Country Status (6)

Country Link
US (1) US4589131A (en)
EP (1) EP0076233B1 (en)
JP (1) JPS5870299A (en)
AT (1) ATE15563T1 (en)
CA (1) CA1184657A (en)
DE (1) DE3266204D1 (en)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (en) * 1984-03-07 1985-10-01 Philips Nv DIGITAL VOICE CODER WITH BASE BAND RESIDUCODING.
US5208861A (en) * 1988-06-16 1993-05-04 Yamaha Corporation Pitch extraction apparatus for an acoustic signal waveform
US4972474A (en) * 1989-05-01 1990-11-20 Cylink Corporation Integer encryptor
IT1229725B (en) * 1989-05-15 1991-09-07 Face Standard Ind METHOD AND STRUCTURAL PROVISION FOR THE DIFFERENTIATION BETWEEN SOUND AND DEAF SPEAKING ELEMENTS
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5280525A (en) * 1991-09-27 1994-01-18 At&T Bell Laboratories Adaptive frequency dependent compensation for telecommunications channels
US5361379A (en) * 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
FR2684226B1 (en) * 1991-11-22 1993-12-24 Thomson Csf ROUTE DECISION METHOD AND DEVICE FOR VERY LOW FLOW VOCODER.
JP2746033B2 (en) * 1992-12-24 1998-04-28 日本電気株式会社 Audio decoding device
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
TW271524B (en) * 1994-08-05 1996-03-01 Qualcomm Inc
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
KR101008022B1 (en) * 2004-02-10 2011-01-14 삼성전자주식회사 Voiced sound and unvoiced sound detection method and apparatus
JP5446874B2 (en) * 2007-11-27 2014-03-19 日本電気株式会社 Voice detection system, voice detection method, and voice detection program
DE102008042579B4 (en) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Procedure for masking errors in the event of incorrect transmission of voice data
CN101859568B (en) * 2009-04-10 2012-05-30 比亚迪股份有限公司 Method and device for eliminating voice background noise
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
CN112885380B (en) * 2021-01-26 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 Method, device, equipment and medium for detecting clear and voiced sounds

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3102928A (en) * 1960-12-23 1963-09-03 Bell Telephone Labor Inc Vocoder excitation generator
US3083266A (en) * 1961-02-28 1963-03-26 Bell Telephone Labor Inc Vocoder apparatus
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Band ASSP-24, Nr. 3, Juni 1976, Seiten 201-212, New York, USA *
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Band ASSP-25, Nr. 4, August 1977, Seiten 338-343, New York, USA *
PROCEEDINGS OF THE FOURTH INTERNATIONAL JOINT CONFERENCE ON PATTERN RECOGNITION, 7.-10. November 1978, Kyoto, Japan, Seiten 1000-1002, IEEE, New York, USA *

Also Published As

Publication number Publication date
CA1184657A (en) 1985-03-26
DE3266204D1 (en) 1985-10-17
US4589131A (en) 1986-05-13
ATE15563T1 (en) 1985-09-15
EP0076233B1 (en) 1985-09-11
JPS5870299A (en) 1983-04-26

Similar Documents

Publication Publication Date Title
EP0076233B1 (en) Method and apparatus for redundancy-reducing digital speech processing
EP0076234B1 (en) Method and apparatus for reduced redundancy digital speech processing
DE3244476C2 (en)
DE69816177T2 (en) Speech / pause differentiation using unguided adaptation of hidden Markov models
DE60023517T2 (en) CLASSIFICATION OF SOUND SOURCES
DE69926851T2 (en) Method and apparatus for voice activity detection
DE69029001T2 (en) Method and device for recognizing signal time sequences with learning independent of signal variations
DE69627580T2 (en) Method of reducing noise in a speech signal
DE60209861T2 (en) Adaptive postfiltering for speech decoding
DE69726235T2 (en) Method and device for speech recognition
DE69830017T2 (en) Method and device for speech recognition
DE60034026T2 (en) LANGUAGE IMPROVEMENT WITH LANGUAGE ACTIVITY-CONTROLLED LIMITATIONS
DE3101851C2 (en) Device for recognizing speech
EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
EP0815553B1 (en) Method of detecting a pause between two signal patterns on a time-variable measurement signal
DE102007001255A1 (en) Audio signal processing method and apparatus and computer program
WO2002093550A2 (en) Device for the analysis of an audio signal with regard to the rhythm information using an auto-correlation function
DE3043516C2 (en) Method and device for speech recognition
DE19942178C1 (en) Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association
DE69918635T2 (en) Apparatus and method for speech processing
EP1388145A1 (en) Device and method for analysing an audio signal in view of obtaining rhythm information
EP0285222B1 (en) Method for detecting associatively pronounced words
DE2636032B2 (en) Electrical circuit arrangement for extracting the fundamental oscillation period from a speech signal
DE60018690T2 (en) Method and device for voiced / unvoiced decision
DE69922769T2 (en) Apparatus and method for speech processing

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 19820922

AK Designated contracting states

Designated state(s): AT CH DE FR GB IT LI NL SE

ITF It: translation for a ep patent filed

Owner name: SOCIETA' ITALIANA BREVETTI S.P.A.

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Designated state(s): AT CH DE FR GB IT LI NL SE

REF Corresponds to:

Ref document number: 15563

Country of ref document: AT

Date of ref document: 19850915

Kind code of ref document: T

REF Corresponds to:

Ref document number: 3266204

Country of ref document: DE

Date of ref document: 19851017

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 19860825

Year of fee payment: 5

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 19870930

Year of fee payment: 6

REG Reference to a national code

Ref country code: CH

Ref legal event code: PUE

Owner name: OMNISEC AG

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732

ITPR It: changes in ownership of a european patent

Owner name: CESSIONE;OMNISEC AG

NLS Nl: assignments of ep-patents

Owner name: OMNISEC AG TE REGENSDORF, ZWITSERLAND.

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Effective date: 19880920

Ref country code: AT

Effective date: 19880920

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Effective date: 19880930

Ref country code: CH

Effective date: 19880930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Effective date: 19890401

NLV4 Nl: lapsed or anulled due to non-payment of the annual fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 19890531

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Effective date: 19890601

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SE

Payment date: 19890921

Year of fee payment: 8

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Effective date: 19900921

EUG Se: european patent has lapsed

Ref document number: 82810390.3

Effective date: 19910527