DE68910859T2 - Detektion für die Anwesenheit eines Sprachsignals. - Google Patents

Detektion für die Anwesenheit eines Sprachsignals.

Info

Publication number
DE68910859T2
DE68910859T2 DE68910859T DE68910859T DE68910859T2 DE 68910859 T2 DE68910859 T2 DE 68910859T2 DE 68910859 T DE68910859 T DE 68910859T DE 68910859 T DE68910859 T DE 68910859T DE 68910859 T2 DE68910859 T2 DE 68910859T2
Authority
DE
Germany
Prior art keywords
speech
signal
measure
filter
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE68910859T
Other languages
English (en)
Other versions
DE68910859D1 (de
Inventor
Ivan Ipswich Suffolk Ip9 2Xe Boyd
Daniel Kenneth Suffolk Ip4 2Ht Freeman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE68910859D1 publication Critical patent/DE68910859D1/de
Application granted granted Critical
Publication of DE68910859T2 publication Critical patent/DE68910859T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Ein Detektor der Anwesenheit eines Sprachsignals ist eine Vorrichtung, die mit einem Signal gespeist wird mit dem Ziel, Sprechperioden, oder Perioden, die nur Rauschen enthalten, zu erfassen. Obwohl die vorliegende Erfindung nicht darauf beschränkt ist, ist eine Anwendung von besonderem Interesse für solche Detektoren in Mobilfunktelefonsystemen, bei denen die Kenntnis bezuglich der Anwesenheit oder nicht von Sprache benutzt werden kann, von einem Sprachcodierer ausgewertet wird, um die effiziente Benutzung des Radiospektrums zu verbessern, und bei denen auch der Geräuschpegel (von einer auf ein Fahrzeug montierten Einheit) wahrscheinlich hoch ist.
  • Das wesentliche der Erfassung der Anwesenheit eines Sprachsignales ist es, ein Maß einzugrenzen, das merklich zwischen Sprach- und Nicht- Sprachperioden unterscheidet. Bei einer Einrichtung, die einen Sprachcodierer umfaßt, ist eine Anzahl von Parameter leicht von einer oder der anderen Stufe des Codierers verfügbar und es ist daher wünschenswert, das Verarbeiten zu ökonomisieren, das durch die Verwendung einiger solcher Parameter benötigt wird. In vielen Umgebungen treten die Hauptgeräuschquellen in bekannten definierten Bereichen des Frequenzspektrums auf. Zum Beispiel ist in einem sich bewegenden Fahrzeug viel des Rauschens (z. B. Motorrauschen) in den unteren Frequenzbereichen des Spektrums konzentriert. Wo solche Kenntnis der spektralen Position des Rauschens verfügbar ist, ist es wünschenswert, die Entscheidung, ob Sprache vorliegt oder abwesend ist, auf Messungen zu basieren, die von diesem Abschnitt des Spektrums genommen wurden, der relativ wenig Rauschen enthält. Es würde natürlich möglich sein, in der Praxis das Signal vorzufiltern vor dem Analysieren, um die Anwesenheit eines Sprachsignals zu erfassen, aber wo der Detektor der Anwesenheit von Sprache der Ausgabe eines Sprachcodierers folgt, würde Vorfiltern das zu codierende Sprachsignal entstellen.
  • In US 4,358,738 ist ein Detektor der Anwesenheit von Sprache offenbart, der das Eingangssignal mit vorbestimmten Rauschcharakteristiken vergleicht, durch Filtern des Eingangssignales durch ein Paar von manuell abgestimmten Bandpaßfiltern (die analoge Komponenten anwenden), um zwei frequenzabhängige Energiesegmente zu bilden. Dieses Verfahren ist aus vielen Gründen von beschränkter Nützlichkeit; erstens berücksichtigt eine solche grobe Anordnung nicht die Tatsache, daß viele Typen von Rauschen ein Energiegleichgewicht zwischen den beiden Bändern, die ähnlich zu einem Sprachsignal sind, haben können, zweitens ist das Ausgleichen der Filter mühsam und erfordert eine manuelle Erfassung der Rauschperioden zum Ausgleichen, und drittens ist solch eine Vorrichtung nicht in der Lage, sich auf sich änderndes Rauschen oder spektrale Änderungen in der Umgebung (oder Kommunikationskanälen) einzustellen.
  • In den IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP-25, Nr. 4, August 1977, S. 338-343, Rabiner et al. "Application of an LPC-distance measure to the voiced unvoiced silence detection problem", ist ein Klassifizierer zum Unterscheiden zwischen Stille, nichtstimmhafter Sprache und stimmhafter Sprache offenbart, die über eine Telefonleitung übertragen wurde. Das Verfahren weist anfängliches Benutzen manuell klassifizierter "stiller", "stimmhafter" und "nicht-stimmhafter" Rahmen von Sprachsignalen auf, um Referenzmuster anzutreiben, und dann das Eingangssignal mit jedem dieser zu vergleichen unter Verwendung einer Vergleichsmessung und Auswählen des Referenzmusters, zu dem das Eingangssignal am nächsten ist. Dieses Verfahren teilt einige der Nachteile mit der US 4,358,738, darin, daß es ausgedehnte manuelle Intervention beim Auswählen der "stillen" Rahmen aus Trainingsdaten erfordert, und Bilden des Referenzmusters daraus, und daß, da das Referenzmuster fest ist, Wechsel in der Umgebung in falschen Identifikationen resultieren. Diese Probleme sind stark verschlimmert bei Umgebungen mit hohem Rauschpegel, wie z. B. einem sich bewegenden Fahrzeug, verglichen mit einer Umgebung mit niedrigem Rauschpegel, (Stille über eine Telefonleitung), beschrieben von Rabiner.
  • Die europäische Patentanmeldung, die als EP-A-0 127 718 veröffentlicht wurde, und das US-Patent 4 672 669 beschreiben eine Vorrichtung zur Erfassung der Anwesenheit eines Sprachsignales, bei der ein erster Test auf die Signalamplitude gemacht wird und bei der ein zweiter Test auf einer Analyse der Änderungen in dem Kurzzeit-Signalspektrum basiert. Typischerweise wird die Spektralanalyse durch Vergleichen der Autokorrelation des Signales mit der eines früheren Abschnittes des Signales durchgeführt, das als sprachfrei angesehen wird.
  • Gemäß einem Gesichtspunkt der vorliegenden Erfindung ist eine Erfassungsvorrichtung der Anwesenheit eines Sprachsignales bereitgestellt, die aufweist:
  • (i) eine Einrichtung zum Empfangen eines ersten Eingangssignales;
  • (ii) eine Einrichtung zum periodischen adaptiven Erzeugen eines zweiten Signales, das eine geschätzte Rauschsignalkomponente des ersten Signales darstellt;
  • (iii) eine Einrichtung zum periodischen Bilden aus dem ersten und zweiten Signal eines Maßes der spektralen Ähnlichkeit zwischen einem Abschnitt des Eingangssignales und der geschätzten Rauschsignalkomponente; und
  • (iv) eine Einrichtung zum Vergleichen des Maßes mit einem Schwellenwert, um eine Ausgabe zu produzieren, die die Anwesenheit oder Abwesenheit von Sprache anzeigt;
  • in der
  • (v) die erzeugende Einrichtung eine Analyseeinrichtung umfaßt, die betreibbar ist, um die Koeffizienten eines Filters zu erzeugen, das eine Spektralantwort hat, die die Inverse des Frequenzspektrums eines der beiden Signale ist; und
  • (vi) die das Maß bildende Einheit betreibbar ist, um ein Maß zu erzeugen, das proportional zu der Autokorrelation nullter Ordnung des anderen der beiden Signale nach dem Filtern durch ein Filter, das die Koeffizienten hat, ist.
  • In einem anderen Gesichtspunkt stellt die Erfindung ein Verfahren zum Erfassen der Anwesenheit eines Sprachsignales in einem ersten Eingangssignal bereit, das aufweist,
  • (a) periodisches adaptives Erzeugen eines zweiten Signales, das eine geschätzte Rauschsignalkomponente des ersten Signales darstellt;
  • (b) periodisches Bilden aus dem ersten und zweiten Signal eines Maßes der spektralen Ähnlichkeit zwischen einem Abschnitt des Eingangssignales und der geschätzten Rauschsignalkomponente; und
  • (c) Vergleichen des Maßes mit einem Schwellenwert, um eine Ausgabe zu erzeugen, die die Anwesenheit oder Abwesenheit von Sprache anzeigt;
  • bei dem
  • (d) der Erzeugungsschritt Produzieren der Koeffizienten eines Filters aufweist, das eine Spektralantwort hat, die die Inverse des Frequenzspektrums der Signale ist; und
  • (e) das Maß proportional zu der Autokorrelation nullter Ordnung des anderen der beiden Signale nach Filtern durch einen Filter ist, das die Koeffizienten hat.
  • Andere Gesichtspunkte der vorliegenden Erfindung sind wie in den Ansprüchen definiert.
  • Einige Ausführungsbeispiele der Erfindung werden jetzt beispielhaft beschrieben werden mit Bezug auf die begleitende Zeichnung, in der
  • Fig. 1 ein Blockdiagramm eines ersten Ausführungsbeispieles der Erfindung ist;
  • Fig. 2 ein zweites Ausführungsbeispiel der Erfindung zeigt;
  • Fig. 3 ein drittes bevorzugtes Ausführungsbeispiel der Erfindung zeigt.
  • Das allgemeine Prinzip, das einen ersten Detektor der Anwesenheit eines Sprachsignales gemäß dem ersten Ausführungsbeispiel der Erfindung zugrunde liegt, ist wie folgt.
  • Ein Rahmen von n Signalabtastungen (s&sub0;, s&sub1;, s&sub2;, s&sub3;, s&sub4; . . . sn-1) wird, wenn er durch ein fiktives digitales Finite-Impulsantwort-(FIR)-Filter vierter Ordnung einer Impulsantwort (1, h&sub0;, h&sub1;, h&sub2;, h&sub3;) durchgegeben wird, in einem gefilterten Signal resultieren (Abtastungen von vorhergehenden Rahmen ignorierend)
  • s'=
  • (s&sub0;)
  • (s&sub1; + h&sub0;s&sub0;),
  • (s&sub2;+ h&sub0;s&sub1; + h&sub1;s&sub0;),
  • (s&sub3; + h&sub0;s&sub2; + h&sub1;s&sub1; + h&sub2;s&sub0;),
  • (s&sub4; + h&sub0;s&sub3; + h&sub1;s&sub2; + h&sub2;s&sub1; + h&sub1;s&sub0;),
  • (s&sub5; + h&sub0;s&sub4; + h&sub1;s&sub3; + h&sub2;s&sub2; + h&sub3;s&sub1;)
  • (s&sub6;+ h&sub0;s&sub5; + h&sub1;s&sub4; + h&sub2;s&sub3; + h&sub3;s&sub2;),
  • (s&sub7; . . . )
  • Der Autokorrelationskoeffizient nullter Ordnung ist die Summe von jedem quadrierten Term, der normalisiert sein kann, d. h. geteilt durch die Gesamtanzahl von Termen (für konstante Rahmenlängen ist es einfacher, die Division wegzulassen); der des gefilterten Signales ist demgemäß
  • und ist daher ein Maß für die Leistung des fiktiven gefilterten Signales s' - in anderen Worten, des Teiles des Signales s, der in den Durchlaßbereich des fiktiven Filters fällt.
  • Erweitern unter Vernachlässigung der ersten vier Terme,
  • R' = (s&sub4; + h&sub0;s&sub3; + h&sub1;s&sub2; + h&sub2;s&sub1; + h&sub3;s&sub0;)²
  • + (s&sub5; + h&sub0;s&sub4; + h&sub1;s&sub3; + h&sub2;s&sub2; + h&sub3;s&sub1;)²
  • + . . .
  • = s&sub4;² + h&sub0;s&sub4;s&sub3; + h&sub1;s&sub4;s&sub2; + h&sub2;s&sub4;s&sub1; + h&sub3;s&sub4;s&sub0;
  • + h&sub0;s&sub4;s&sub3; + h&sub0;²s&sub0;² + h&sub0;h&sub1;s&sub3;s&sub2; + h&sub0;h&sub2;s&sub3;s&sub1; + h&sub0;h&sub3;s&sub3;s&sub0; + h&sub2;s&sub4;s&sub1; + h&sub0;h&sub1;s&sub3;s&sub1; + h&sub1;h&sub2;s&sub2;s&sub1; + h&sub2;²s&sub1;² + h&sub2;h&sub3;s&sub1;s&sub0;
  • + h&sub3;s&sub4;s&sub0; + h&sub0;h&sub3;s&sub3;s&sub0; + h&sub1;h&sub3;s&sub2;s&sub0; + h&sub2;h&sub3;s&sub1;s&sub0; + h&sub3;&sub2;s&sub0;²
  • + . . .
  • = R&sub0; (1 + h&sub0;²+ h&sub1;²+ h&sub2;²+ h&sub3;²)
  • + R&sub1; (2h&sub0; + 2h&sub0;h&sub1; + 2h&sub1;h&sub2; + 2h&sub2;h&sub3;)
  • + R&sub2; (2h&sub1; + 2h&sub1;h&sub3; + 2h&sub0;h&sub2;)
  • + R&sub3; (2h&sub2; + 2h&sub0;h&sub3;)
  • + R&sub4; (2h&sub3;)
  • So kann R'&sub0; erhalten werden aus einer Kombination der Autokorrelationskoeffizienten Ri, gewichtet durch die Konstanten in Klammern, die das Frequenzband bestimmen, zu dem der Wert von R'&sub0; antwortend ist. Tatsächlich sind die Terme in Klammern die Autokorrelationskoeffizienten der Impulsantwort des fiktiven Filters, so daß der obige Ausdruck vereinfacht werden kann zu
  • worin N die Filterordnung und Hi die (nicht normalisierten) Autokorrelationskoeffizienten der Impulsantwort des Filters sind.
  • In anderen Worten, der Effekt auf die Signal-Autokorrelationskoeffizienten des Filterns eines Signales kann simuliert werden durch Erzeugen einer gewichteten Summe der Autokorrelationskoeffizienten des (ungefilterten) Signales unter Verwendung der Impulsantwort, die das erforderte Filter gehabt hätte.
  • Demgemäß kann ein relativ einfacher Algorithmus, der eine kleine Anzahl von Multiplikationsoperationen mit sich bringt, den Effekt eines digitalen Filters simulieren, das typischerweise hundert Mal diese Anzahl von Multiplikationsoperationen erfordert.
  • Diese Filteroperation kann alternativerweise als eine Form eines Spektrumsvergleiches gesehen werden, wobei das Signalspektrum gegen ein Referenzspektrum angepaßt wird (die Inverse der Antwort des fiktiven Filters). Da das fiktive Filter bei dieser Anwendung so ausgewählt wird, um die Inverse des Rauschspektrums anzunähern, kann diese Operation gesehen werden als ein spektraler Vergleich zwischen Sprach- und Rauschspektren, und der demgemäß erzeugte nullte Autokorrelationskoeffizient (das heißt die Energie des inversen gefilterten Signales) als ein Maß der Verschiedenheit zwischen den Spektren. Das Itakura-Saito- Verzerrungsmaß wird bei LPC verwendet, um das Abgleichen zwischen dem Prediktorfilter und dem Eingangsspektrum zu beurteilen, und in einer Form ist es als
  • ausgedrückt, wobei A&sub0; usw. die Autokorrelationskoeffizienten des LPC- Parametersatzes sind. Es wird gesehen werden, daß dies streng ähnlich zu der oben abgeleiteten Beziehung ist, und wenn man sich erinnert, daß die LPC-Koeffizienten die Anzapfungen eines FIR-Filters sind, das eine inverse spektrale Antwort des Eingangssignales hat, so daß der LPC- Koeffizientensatz die Impulsantwort des inversen LPC-Filters ist, wird es offensichtlich werden, daß das Itakura-Saito-Verzerrungsmaß tatsächlich nur eine Form der Gleichung 1 ist, worin die Filterantwort H die Inverse der spektralen Form eines Allpol-Modells des Eingangssignales ist.
  • Tatsächlich ist es ebenso möglich, die Spektren zu transponieren, unter Verwendung der LPC-Koeffizienten des Testspektrums und der Autokorrelationskoeffizienten des Referenzspektrums, um ein unterschiedliches Maß spektraler Ähnlichkeit zu erhalten.
  • Das IS-Verzerrungsmaß ist weiter in "Speech Coding based upon Vector Quantisation" von A. Buzo, A.H. Gray, R.M. Gray und J.D. Markel, IEEE Trans on ASSP Band ASSP-28, Nr. 5, Oktober 1980, diskutiert.
  • Da die Rahmen des Signales nur eine finite Länge haben und eine Anzahl von Termen (N, wobei N die Filterordnung ist) vernachlässigt werden, ist das obige Resultat nur eine Näherung; es gibt jedoch einen überraschend guten Indikator der Anwesenheit oder Abwesenheit von Sprache und kann demgemäß als ein Maß M bei der Spracherfassung verwendet werden. In einer Umgebung, wo das Rauschspektrum gut bekannt und stationär ist, ist es leicht möglich, einfach feste h&sub0;, h&sub1; usw. Koeffizienten anzuwenden, um das inverse Rauschfilter zu modellieren.
  • Eine Vorrichtung jedoch, die sich an verschiedene Rauschumgebungen anpassen kann, ist sehr viel breiter benützt.
  • Bezuglich auf Fig. 1 wird in einem ersten Ausführungsbeispiel ein Signal von einem Mikrofon (nicht gezeigt) an einem Eingang 1 empfangen und in digitale Abtastungen s bei einer geeigneten Abtastrate durch einen Analog-zu-Digital-Umwandler 2 umgewandelt. Eine LPC-Analyseeinheit 3 (in einem bekannten Typ eines LPC-Codierers) leitet dann für aufeinanderfolgende Rahmen von n (zum Beispiel 160) Abtastungen eine Menge von N (zum Beispiel 8 oder 12) LPC-Filterkoeffizienten Li ab, die übertragen werden, um die Eingangssprache darzustellen. Das Sprachsignal s tritt ebenfalls in eine Korrelatoreinheit 4 ein (normalerweise Teil des LPC-Codierers 3, da der Autokorrelationsvektor Ri der Sprache gewöhnlicherweise ebenfalls als ein Schritt in der LPC-Analyse erzeugt wird, obwohl es geschätzt werden wird, daß ein getrennter Korrelator bereitgestellt sein könnte. Der Korrelator 4 erzeugt den Autokorrelationsvektor Ri, einschließlich dem Korrelationskoeffizienten R&sub0; nullter Ordnung und zumindest zwei weitere Autokorrelationskoeffizienten R&sub1;, R&sub2;, R&sub3;. Diese werden dann zu einer Multiplizierereinheit 5 eingespeist.
  • Ein zweiter Eingang 11 ist mit einem zweiten Mikrofon verbunden, das im Abstand von dem Sprecher angeordnet ist, um nur Hintergrundrauschen zu empfangen. Die Eingabe von diesem Mikrofon wird zu einer digitalen Eingabeabtastfolge durch einen AD-Umwandler 12 umgewandelt und LPC-analysiert durch einen zweiten LPC-Analysator 13. Die "Rausch"- LPC-Koeffizienten", die von dem Analysator 13 erzeugt wurden, werden zu einer Korrelatoreinheit 14 durchgegeben, und der demgemäß erzeugte Autokorrelationsvektor wird Term um Term mit dem Autokorrelationskoeffizienten Ri des Eingangssignales von dem Sprachmikrofon im Multiplizierer 5 multipliziert und die demgemäß erzeugten gewichteten Koeffizienten werden in einem Addierer 6 gemäß Gleichung 1 kombiniert, um ein Filter anzuwenden, das die inverse Form des Rauschspektrums von dem Nur-Rauschen-Mikrofon (die in der Praxis die gleiche ist wie die Form des Rauschspektrums in dem Signal-plus-Rauschen-Mikrofon) hat, und demgemäß das meiste des Rauschens auszufiltern. Das resultierende Maß M wird durch einen Schwellwertvergleicher 7 verglichen, um eine logische Ausgabe 8 zu erzeugen, die die Anwesenheit oder Abwesenheit von Sprache anzeigt; wenn M hoch ist, wird angenommen, daß Sprache vorliegt.
  • Dieses Ausführungsbeispiel jedoch erfordert zwei Mikrofone und zwei LPC-Analysatoren, was zu den Kosten und der Komplexität der notwendigen Ausrüstung hinzufügt.
  • Alternativerweise verwendet ein anderes Ausführungsbeispiel ein entsprechendes Maß, das gebildet wird unter Verwendung der Autokorrelationen von dem Rauschmikrofon 11 und den LPC-Koeffizienten von dem Hauptmikrofon 1, so daß vielmehr ein extra Autokorrelator anstelle eines LPC-Analysators notwendig ist.
  • Diese Ausführungsbeispiele sind daher in der Lage, in unterschiedlichen Umgebungen zu arbeiten, die ein Rauschen bei verschiedenen Frequenzen haben, oder in einem sich ändernden Rauschspektrum in einer gegebenen Umgebung.
  • Bezuglich auf Fig. 2 ist in dem bevorzugten Ausführungsbeispiel der Erfindung ein Puffer 15 bereitgestellt, der einen Satz von LPC-Koeffizienten (oder den Autokorrelationsvektor des Satzes) speichert, der von der Mikrofoneingabe 1 in einer Periode, die als eine "Nicht-Sprach-"(das heißt nur Rauschen) Periode identifiziert wurde, abgeleitet ist. Diese Koeffizienten werden dann verwendet, um ein Maß abzuleiten unter Verwendung der Gleichung 1, das natürlich ebenfalls dem Itakura-Saito- Verzerrungsmaß entspricht, außer daß ein einzelner gespeicherter Rahmen von LPC-Koeffizienten entsprechend einer Näherung des inversen Rauschspektrums verwendet wird, eher als der vorliegende Rahmen der LPC- Koeffizienten.
  • Der LPC-Koeffizientenvektor Li, der von dem Analysator 3 ausgegeben wurde, wird ebenfalls zu einem Korrelator 14 geleitet, der den Autokorrelationsvektor des LPC-Koeffizientenvektors erzeugt. Der Pufferspeicher 15 wird durch die Sprache/Nicht-Sprache-Ausgabe des Schwellwertvergleichers 7 auf solch eine Weise gesteuert, daß während "Sprach"-Rahmen der Puffer die "Rausch"-Autokorrelationskoeffizienten zurückhält, aber während "Rausch"-Rahmen ein neuer Satz von LPC-Koeffizienten verwendet werden kann, um den Puffer zu aktualisieren, zum Beispiel durch einen Vielfachschalter 16, über den Ausgaben des Korrelators 14, die jeden Autokorrelationskoeffizienten tragen, mit dem Puffer 15 verbunden sind. Es wird geschätzt werden, daß der Korrelator 14 nach dem Puffer 15 positioniert werden kann. Weiter maß die Sprache/Nicht-Sprache-Entscheidung zum Koeffizientenaktualisieren nicht von der Ausgabe 8 sein, sondern kann (und ist es vorzugsweise) anders abgeleitet sein.
  • Da häufige Perioden ohne Sprache auftreten, werden die LPC-Koeffizienten, die in dem Puffer gespeichert sind, von Zeit zu Zeit aktualisiert, so daß die Vorrichtung demgemäß in der Lage ist, Änderungen in dem Rauschspektrum nachzufolgen. Es wird geschätzt werden, daß solches Aktualisieren des Puffers nur gelegentlich notwendig sein kann, oder nur einmal zu Beginn des Betriebes des Detektors auftreten kann, wenn (wie es oft der Fall ist) das Rauschspektrum relativ stationär über die Zeit ist, aber bei einer Mobilfunkumgebung wird häufiges Aktualisieren bevorzugt.
  • Bei einer Modifikation dieses Ausführungsbeispiels wendet das System anfänglich die Gleichung 1 mit Koeffiziententermen entsprechend einem einfachen festen Hochpaßfilter an und startet dann darauffolgend, um sich durch Umschalten auf Verwenden von "Rausch-Perioden"-LPC-Koeffizienten anzupassen. Wenn aus irgendeinem Grund die Spracherfassung versagt, kann das System zum Verwenden des einfachen Hochpaßfilters zurückkehren.
  • Es ist möglich, das obige Maß durch Teilen durch R&sub0; zu normalisieren, so daß der mit dem Schwellenwert zu vergleichende Ausdruck die Form hat,
  • Dieses Maß ist unabhängig von der Gesamtsignalenergie in einem Rahmen und ist dementsprechend für Gesamtsignalpegeländerungen kompensiert, gibt aber einen eher weniger markierten Kontrast zwischen "Rausch"- und "Sprach"-Pegeln und wird daher vorzugsweise nicht bei stark rauschenden Umgebungen angewendet.
  • Anstelle von Anwenden einer LPC-Analyse, um die inversen Filterkoeffizienten des Rauschsignales (von entweder dem Rauschmikrofon oder Nur-Rausch-Perioden, wie bei den verschiedenen Ausführungsbeispielen oben beschrieben) abzuleiten, ist es möglich, das inverse Rauschspektrum zu modellieren unter Verwendung eines adaptiven Filters von bekanntem Typ. Da das Rauschspektrum sich nur langsam (wie unten beschrieben) ändert, ist eine relativ langsame Koeffizientenadaptionsrate, üblich für solche Filter, akzeptierbar. Bei einem Ausführungsbeispiel, das Fig. 1 entspricht, ist die LPC-Analyseeinheit 13 einfach durch ein adaptives Filter (zum Beispiel ein transversales FIR- oder Gitterfilter) ersetzt, das so verbunden ist, um die Rauscheingabe durch Modellieren des inversen Filters weiß zu machen, und seine Koeffizienten werden wie zuvor zu dem Autokorrelator 14 eingespeist.
  • Bei einem zweiten Ausführungsbeispiel entsprechend zu dem von Fig. 2 ist die LPC-Analyseeinrichtung 3 durch solch ein adaptives Filter ersetzt und eine Puffereinrichtung 15 ist weggelassen, aber der Schalter 16 arbeitet, um das adaptive Filter daran zu hindern, seine Koeffizienten während Sprachperioden anzupassen.
  • Ein zweiter Detektor für die Anwesenheit von Sprachsignalen zur Benutzung mit einem anderen Ausführungsbeispiel der Erfindung wird jetzt beschrieben werden.
  • Aus dem Vorhergehenden wird es offensichtlich sein, daß der LPC- Koeffizientenvektor einfach die Impulsantwort eines FIR-Filters ist, das eine Antwort hat, die die inverse Spektralform des Eingangssignales annähert. Wenn das Itakura-Saito-Verzerrungsmaß zwischen benachbarten Rahmen gebildet wird, ist dies tatsächlich gleich der Leistung des Signales, wie es durch den LPC-Filter des vorhergehenden Rahmen gefiltert wurde. Wenn daher Spektren benachbarter Rahmen sich wenig unterscheiden, wird ein entsprechender geringer Betrag der spektralen Leistung eines Rahmens den Filtern entweichen und das Maß wird niedrig sein. Entsprechend erzeugt eine große spektrale Zwischenrahmen-Differenz ein hohes Itakura-Saito-Verzerrungsmaß, so daß das Maß die spektrale Ähnlichkeit benachbarter Rahmen reflektiert. In einem Sprachcodierer ist es wünschenswert, die Datenrate zu minimieren, so daß die Rahmenlänge so lang wie möglich gemacht wird; in anderen Worten, wenn die Rahmenlänge lang genug ist, dann sollte ein Sprachsignal eine signifikante spektrale Änderung von Rahmen zu Rahmen zeigen (wenn es dies nicht tut, ist der Codierer redundant). Rauschen auf der anderen Seite hat eine langsame variierende spektrale Form von Rahmen zu Rahmen und daher wird dann in einer Periode, wo Sprache abwesend von dem Signal ist, das Itakura-Saito-Verzerrungsmaß entsprechend niedrig sein - da Anwenden des inversen LPC-Filters von dem vorhergehenden Rahmen das meiste der Rauschleistung "ausfiltert".
  • Typischerweise ist das Itakura-Saito-Verzerrungsmaß zwischen benachbarten Rahmen eines rauschenden Signales, das intermittierend Sprache enthält, größer während Sprachperioden als während Rauschperioden; der Grad der Variation (wie durch die Standardabweichung dargestellt) ist ebenfalls größer und weniger intermittierend variabel).
  • Es wird bemerkt, daß die Standardabweichung der Standardabweichung von M ebenfalls ein zuverlässiges Maß ist; der Effekt des Nehmens jeder Standardabweichung ist im wesentlichen, um das Maß zu glätten.
  • Bei dieser zweiten Form eines Detektors für die Anwesenheit eines Sprachsignales ist der gemessene Parameter, der verwendet wird, um zu entscheiden, ob Sprache vorliegt, vorzugsweise die Standardabweichung des Itakura-Saito-Verzerrungsmaßes, aber andere Maße der Varianz und andere spektrale Verzerrungsmaße (basierend zum Beispiel auf FFT- Analyse) können angewandt werden.
  • Es wurde als vorteilhaft gefunden, eine adaptive Schwelle bei der Erfassung der Anwesenheit von Sprache anzuwenden. Solche Schwellen müssen nicht während Sprachperioden eingestellt werden oder das Sprachsignal wird durch den Schwellwertvergleich herausfallen. Es ist demgemäß notwendig, den Schwellwertadapter unter Verwendung eines Sprach/Nicht- Sprache-Steuersignales zu steuern und es ist bevorzugt, daß dieses Steuersignal unabhängig von der Ausgabe des Schwellwertadapters sein sollte.
  • Der Schwellenwert T wird adaptiv eingestellt, um den Schwellwertpegel gerade oberhalb dem Pegel des Maßes M zu halten, wenn nur Rauschen vorliegt. Da das Maß im allgemeinen sehr zufällig sein wird, wenn Rauschen vorliegt, wird der Schwellwert variiert durch Bestimmen eines Durchschnittspegels über eine Anzahl von Blöcken und Sätzen des Schwellwertes auf einen Pegel proportional zu diesem Durchschnitt. In einer rauschenden Umgebung ist dies gewöhnlicherweise nicht ausreichend, und so wird eine Beurteilung des Grades der Variation des Parameters über mehrere Blöcke ebenfalls berücksichtigt.
  • Der Schwellenwert T wird daher vorzugsweise berechnet gemäß
  • T = M' + K·d
  • wobei M' der Durchschnittswert des Maßes über eine Anzahl aufeinanderfolgender Rahmen ist, d ist die Standardabweichung des Maßes über diese Rahmen und K ist eine Konstante (die typischerweise 2 sein kann).
  • In der Praxis ist es bevorzugt, die Adaption nicht unmittelbar nachdem Sprache als abwesend angezeigt wurde, wiederaufzunehmen, sondern zu warten um zu versichern, daß der Abfall stabil ist (um schnelles wiederholtes Schalten zwischen den adaptierenden und nicht-adaptierenden Zuständen zu vermeiden).
  • Bezuglich auf Fig. 3 empfängt in einem bevorzugten Ausführungsbeispiel der Erfindung, das die obigen Gesichtspunkte enthält, ein Eingang 1, ein Signal, das abgetastet und digitalisiert ist durch einen Analog/Digital- Umwandler (ADC) 2, und das zu dem Eingang eines inversen Filteranalysators 3 eingespeist wird, der in der Praxis ein Teil eines Sprachcodierers ist, mit dem der Detektor der Anwesenheit von Sprache arbeitet, und der Koeffizienten Li (typischerweise 8) eines Filters entsprechend der Inversen des Eingangssignalspektrums erzeugt. Das digitalisierte Signal wird ebenfalls zu einem Autokorrelator 4 eingespeist, (der ein Teil des Analysators 3 ist), der den Autokorrelationsvektor Ri des Eingangssignales erzeugt (oder zumindest so viele Terme niedriger Ordnung wie es LPC- Koeffizienten gibt). Der Betrieb dieser Teile der Vorrichtung ist wie in dem Fig. 1 und 2 beschrieben. Vorzugsweise sind die Autokorrelationskoeffizienten Ri dann über mehrere aufeinanderfolgende Sprachrahmen gemittelt (typischerweise 5-20 ms lang), um ihre Zuverlässigkeit zu verbessern. Dies kann erreicht werden durch Speichern jeder Menge von Autokorrelationskoeffizienten, die durch den Autokorrelator 4 ausgegeben wurden, in einem Puffer 4a, und Anwenden eines Mittelwertbilders 4b, um eine gewichtete Summe der augenblicklichen Autokorrelationskoeffizienten Ri und derer von vorhergehenden Rahmen, gespeichert in und geliefert von Puffer 4a, zu erzeugen. Die gemittelten Autokorrelationskoeffizienten Rai, die demgemäß abgeleitet wurden, werden zu einer gewichtenden und addierenden Einrichtung 5, 6 zugeführt, die ebenfalls den Autokorrelationsvektor Ai der gespeicherten inversen Filterkoeffizienten Li der Rauschperiode von einem Autokorrelator 14 über einen Puffer 15 empfängt, und von Rai und Ai ein Maß M bildet, das vorzugsweise definiert ist als
  • Dieses Maß wird dann von einem Schwellwertvergleicher 7 mit einem Schwellwertpegel verglichen und das logische Ergebnis stellt eine Anzeige der Anwesenheit oder Abwesenheit von Sprache an dem Ausgang 8 bereit.
  • Damit die inversen Filterkoeffizienten Li einer einigermaßen guten Schätzung der Inversen des Rauschspektrums entsprechen, ist es wünschenswert, diese Koeffizienten während Rauschperioden zu aktualisieren (und natürlich nicht während Sprachperioden zu aktualisieren). Es ist jedoch bevorzugt, daß die Sprache/Nicht-Sprache-Entscheidung, auf der das Aktualisieren basiert, nicht von dem Ergebnis des Aktualisierens abhängt, oder sonst kann ein einzelner falsch identifizierter Signalrahmen darin resultieren, daß der Detektor von Anwesenheit von Sprache darauffolgend "aus der Verriegelung" geht und folgende Rahmen falsch identifiziert. Daher ist vorzugsweise eine ein Steuersignal erzeugende Schaltung 20 bereitgestellt, tatsächlich ein getrennter Detektor für die Anwesenheit von Sprache, die ein unabhängiges Steuersignal bildet, das die Anwesenheit oder Abwesenheit von Sprache anzeigt, um den Invers-Filteranalysator 3 (oder Puffer 8) zu steuern, so daß die Inversfilter-Autokorrelationskoeffizienten Ai, die verwendet werden, um das Maß M zu bilden, nur während "Rausch-"Perioden aktualisiert werden. Die Steuersignalerzeugerschaltung 20 umfaßt einen LPC-Analysator 21 (der wiederum Teil eines Sprachcodierers sein kann und, spezifisch durch einen Analysator 3 ausgeführt werden kann), der eine Menge von LPC-Koeffizienten Mi erzeugt entsprechend dem Eingangssignal und einem Autokorrelator 21a (der durch den Autokorrelator 3a ausgeführt werden kann), der die Autokorrelationskoeffizienten Bi von Mi ableitet. Wenn der Analysator 21 durch den Analysator 3 ausgeführt wird, dann ist Mi=Li und Bi=Ai. Diese Autokorrelationskoeffizienten werden dann der gewichtenden und addierenden Einrichtung 22, 23 (äquivalent zu 5, 6) eingespeist, die ebenfalls den Autokorrelationsvektor Ri des Eingangssignales von dem Autokorrelator 4 empfängt. Ein Maß der spektralen Ähnlichkeit zwischen dem Eingangssprachrahmen und dem vorhergehenden Sprachrahmen wird demgemäß berechnet. Dies kann das Itakura-Saito-Verzerrungsmaß zwischen Ri des vorliegenden Rahmens und Bi des vorhergehenden Rahmens sein, wie oben offenbart, oder es kann anstelle durch Berechnung des Itakura-Saito-Verzerrungsmaßes für Ri und Bi des vorliegenden Rahmens berechnet werden und Subtrahieren (in dem Subtrahierer 25) des entsprechenden Maßes für den vorhergehenden Rahmen, der in dem Puffer 24 gespeichert ist, um ein spektrales Differenzsignal zu erzeugen (in jedem Falle ist das Maß vorzugsweise energienormalisiert durch Teilen durch R&sub0;). Der Puffer 24 wird .dann natürlich aktualisiert. Dieses spektrale Differenzsignal ist, wenn es durch einen Schwellwertvergleicher 26 verglichen wird, wie oben diskutiert, ein Indikator der Anwesenheit oder Abwesenheit von Sprache. Wir haben jedoch gefunden, daß, obwohl dieses Maß exzellent ist zur Unterscheidung von Rauschen von stimmloser Sprache (einer Aufgabe, zu der Systeme nach dem Stand der Technik im allgemeinen nicht in der Lage sind), es im allgemeinen eher weniger in der Lage ist, Rauschen von stimmhafter Sprache zu unterscheiden. Demgemäß ist vorzugsweise weiterhin in der Schaltung 20 eine Erfassungsschaltung für stimmhafte Sprache bereitgestellt, die einen Tonhöhenanalysator 27 aufweist (der in der Praxis als ein Teil eines Sprachcodierers arbeiten kann, und der insbesondere den Langzeitprediktorverzögerungswert messen kann, der in einem Vielpuls-LPC-Codierer erzeugt wird). Der Tonhöhenanalysator 27 erzeugt ein Logiksignal, das "wahr" ist, wenn stimmhafte Sprache erfaßt wurde, und dieses Signal zusammen mit dem Schwellwert verglichenen Maß, abgeleitet von dem Schwellwertvergleicher 26 (das im allgemeinen "wahr" sein wird, wenn nicht-stimmhafte Sprache vorliegt), wird zu den Eingängen eines NOR- Gatters 28 gespeist, um ein Signal zu erzeugen, das "falsch" ist, wenn Sprache vorliegt und "wahr", wenn Rauschen vorliegt. Dieses Signal wird zu einem Puffer 8 gespeist (oder zu einem Invers-Filteranalysator 3), so daß inverse Filterkoeffizienten Li nur während Rauschperioden aktualisiert werden.
  • Der Schwellwertadapter 29 ist ebenfalls verbunden, um die Nicht-Sprach- Steuer-Ausgabe der Steuersignalerzeugerschaltung 20 zu empfangen. Die Ausgabe des Schwellwertadapters 29 wird zu dem Schwellwertvergleicher 7 eingespeist. Der Schwellwertadapter arbeitet, um den Schwellwert in Schritten zu inkrementieren oder zu dekrementieren, die eine Proportion des augenblicklichen Schwellwertes sind, bis der Schwellwert den Rauschleistungspegel (der günstig zum Beispiel von den gewichtenden und addierenden Schaltungen 22, 23 abgeleitet sein kann) anzunähern. Wenn das Eingangssignal sehr niedrig ist, kann es wünschenswert sein, daß der Schwellwert automatisch auf einen festen niedrigen Pegel gesetzt wird, da bei niedrigen Signalpegeln der Effekt der Signalquantisierung, der durch ADC 2 erzeugt wird, unzuverlässige Resultate erzeugen kann.
  • Weiterhin kann eine "Überhang"-erzeugende Einrichtung 30 bereitgestellt sein, die arbeitet, um die Dauer der Anzeigen von Sprache nach dem Schwellwertvergleicher 7 zu messen, und, wenn die Anwesenheit von Sprache angezeigt wurde für eine Periode, die eine vorbestimmte Zeitkonstante überschreitet, wird die Ausgabe hochgehalten für eine kurze "Überhang-" Periode. Auf diese Weise wird Abschneiden der Mitte der Niedrigpegelsprachsignale vermieden und geeignete Selektion der Zeitkonstante verhindert Triggern des Überhang-Erzeugers 30 durch kurze Rauschspitzen, die fälschlicherweise als Sprache angezeigt werden.
  • Es wird natürlich geschätzt werden, daß all die oben genannten Funktionen durch eine einzelne geeignet programmierte digitale Verarbeitungseinrichtung wie zum Beispiel einen digitalen Sigualverarbeitungs-(DSP)- Chip ausgeführt werden können, als Teil eines LPC-Codecs, der demgemäß implementiert ist (dies ist die bevorzugte Implementation), oder als ein geeignet programmierter Mikrocomputer oder Mikrocontroller-Chip mit einer zugehörigen Speichervorrichtung.
  • Zweckmäßigerweise, wie oben beschrieben, kann die Spracherfassungsvorrichtung als Teil eines LPC-Codecs implementiert sein. Alternativerweise, wo Autokorrelationskoeffizienten des Signales oder verwandte Maße (Teilkorrelation, oder "Parcor", Koeffizienten) zu einer entfernten Station übertragen werden, kann die Spracherfassung entfernt von dem Codecs stattfinden.

Claims (20)

1. Vorrichtung zum Erfassen der Anwesenheit von Sprache, die aufweist:
(i) Eine Einrichtung (1) zum Empfangen eines ersten Eingangssignales;
(ii) eine Einrichtung (14, 15) zum periodischen adaptiven Erzeugen eines zweiten Signales, das eine geschätzte Rauschsignalkomponente des ersten Signales darstellt;
(iii) eine Einrichtung (4, 5, 6) zum periodischen Bilden aus dem ersten und zweiten Signal eines Maßes M der spektralen Ähnlichkeit zwischen einem Abschnitt des Eingangssignales und der geschätzten Rauschsignalkomponente; und
(iv) eine Einrichtung (7) zum Vergleichen des Maßes M mit einem Schwellwert T, um eine Ausgabe zu erzeugen, die die Anwesenheit oder Abwesenheit von Sprache anzeigt;
dadurch gekennzeichnet, daß
die Vorrichtung eine Analyseeinrichtung (13, 3) aufweist, die betreibbar ist, um die Koeffizienten eines Filters, das
eine Spektralantwort hat, die die Inverse des Frequenzspektrums eines der beiden Signale ist, zu erzeugen; und
(vi) die maßbildende Einrichtung (4, 5, 6), die betreibbar ist, um ein Maß M zu erzeugen, das proportional zu der Autokorrelation R'&sub0; nullter Ordnung eines Signales ist, das durch Filtern des anderen der beiden Signale durch ein Filter erhalten wird, das die Koeffizienten hat.
2. Vorrichtung gemäß Anspruch 1, in der die Analyseeinrichtung (13, 3) ein adaptives Filter aufweist.
3. Vorrichtung gemaß Anspruch 1, in der die erzeugende Einrichtung (14, 15) betreibbar ist, um die Autokorrelationskoeffizienten Ai der Impulsantwort der Koeffizienten zu berechnen, und in der die maßbildende Einheit (4) eine Einrichtung zum Berechnen der Autokorrelationskoeffizienten Ri des anderen Signales aufweist, und eine Einrichtung (5, 6), die verbunden ist, um Ri und Ai zu empfangen und das Maß daraus zu berechnen.
4. Vorrichtung gemäß Anspruch 2, bei der die Einrichtung (4) zum Berechnen der Autokorrelationskoeffizienten Ri des anderen Signales angeordnet ist (4a, 4b), um dies in Abhängigkeit von den Autokorrelationskoeffizienten mehrerer aufeinanderfolgender Abschnitte des Signales zu machen.
5. Vorrichtung gemäß Anspruch 3 oder 4, bei der gilt:
wobei Ai den i-ten Autokorrelationskoeffizienten der Impulsantwort des Filters darstellt.
6. Vorrichtung gemäß Anspruch 3 oder 4, bei der gilt:
wobei Ai den i-ten Autokorrelationskoeffizienten der Impulsantwort des Filters darstellt.
7. Vorrichtung gemäß einem der Ansprüche 1 bis 6, bei der das eine Signal das zweite Rauschen darstellende Signal ist und das andere Signal das erste Eingangssignal ist.
8. Vorrichtung gemäß Anspruch 7, die weiterhin einen Eingang (11) aufweist, der angeordnet ist, um ein zweites Eingangssignal zu empfangen, das ähnlich Rauschen unterworfen ist, von dem Sprache abwesend ist, in dem die erzeugende Einrichtung eine LPC-Analyseeinrichtung (13) aufweist, zum Ableiten der Werte von Ai aus dem zweiten Eingangssignal.
9. Vorrichtung gemäß einem der Ansprüche 1 bis 7, die weiterhin einen Puffer (15) aufweist, der verbunden ist, um Daten zu speichern, aus denen die Autokorrelationskoeffizienten Ai der Filterantwort erhalten werden können, in der die Filterantwort periodisch von dem Signal durch eine LPC-Analyseeinrichtung (3) berechnet wird, wobei die Vorrichtung so verbunden und gesteuert ist, daß das Maß M berechnet wird unter Verwendung der gespeicherten Daten, und wobei die gespeicherten Daten nur von Perioden aktualisiert werden, in denen Sprache als anwesend angezeigt ist.
10. Vorrichtung gemäß Anspruch 9, die weiterhin eine Einrichtung (20) zum Anzeigen der Abwesenheit von Sprache aufweist, um das Aktualisieren der gespeicherten Daten zu steuern, wobei die Einrichtung (20) zum Anzeigen der Abwesenheit von Sprache eine zweite Sprachaktivitätserfassungseinrichtung (20) ist.
11. Vorrichtung gemäß einem der vorhergehenden Ansprüche, die weiterhin eine Einrichtung (29) zum Einstellen des Schwellwertes T während Perioden, wenn Sprache als abwesend angezeigt ist, aufweist.
12. Vorrichtung gemaß Anspruch 11, die weiterhin eine zweite Erfassungseinrichtung (20) für die Anwesenheit von Sprache aufweist, die angeordnet ist, um die Einstellung des Schwellwertes zu verhindern, wenn Sprache vorliegt.
13. Vorrichtung gemaß Anspruch 10, die weiterhin eine Einrichtung (20) zum Einstellen des Schwellwertes T während Perioden aufweist, bei denen Sprache als anwesend angezeigt wird, wobei die zweite Erfassungseinrichtung (20) für die Anwesenheit von Sprache angeordnet ist, um eine Einstellung des Schwellenwertes zu verhindern, wenn Sprache vorliegt.
14. Vorrichtung gemäß den Ansprüchen 11, 12 oder 13, bei der der Schwellwert T, wenn eingestellt, eingestellt ist, um gleich dem Mittel des Maßes plus einem Term zu sein, der ein Bruchteil der Standardabweichung des Maßes ist.
15. Vorrichtung gemäß Anspruch 10, 13 oder 14, bei dem die zweite Sprachaktivitätserfassungseinrichtung (20) eine Einrichtung (4, 21, 21a, 22, 23, 24, 25, 26) zum Erzeugen eines Maßes der spektralen Ähnlichkeit zwischen einem Abschnitt des Eingabesignales und früherer Abschnitte des Eingabesignales aufweist.
16. Vorrichtung gemäß Anspruch 15, bei der die das Ähnlichkeitsmaß erzeugende Einrichtung Einrichtungen (4, 21, 22, 23) aufweist zum Bereitstellen aus LPC-Filterdaten und Autokorrelationsdaten, die sich auf einen vorliegenden Abschnitt des Eingangssignales beziehen, eines vorliegenden Verzerrungsmaßes, eine Einrichtung (24) zum Bereitstellen eines äquivalenten Verzerrungsmaßes des vergangenen Rahmens, entsprechend einem vorhergehenden Abschnitt des Eingangssignales, und Einrichtungen (25, 26) zum Erzeugen eines Signales, das den Grad der Ähnlichkeit zwischen ihnen als ein Indikator von Sprachanwesenheit oder -abwesenheit anzeigt.
17. Vorrichtung gemäß Anspruch 15 oder 16, bei der die zweite Erfassungseinrichtung (20) für die Anwesenheit von Sprache weiterhin eine Erfassungseinrichtung für stimmhafte Sprache (27) aufweist, die eine Tonhöheanalyseeinrichtung (27) aufweist zum Erzeugen eines Signales, das die Anwesenheit von stimmhafter Sprache anzeigt, von dessen Ausgabe die zweite Erfassungseinrichtung (20) für die Anwesenheit von Sprache ebenfalls abhängt.
18. Verfahren zum Erfassen der Anwesenheit von Sprache in einem ersten Eingangssignal, das aufweist:
(a) Periodisches adaptives Erzeugen eines zweiten Signales, das eine geschätzte Rauschsignalkomponente des ersten Signales darstellt;
(b) periodisches Bilden aus dem ersten und zweiten Signal eines Maßes M der spektralen Ähnlichkeit zwischen einem Abschnitt des Eingangssignales und der geschätzten Rauschsignalkomponente; und
(c) Vergleichen des Maßes M mit einem Schwellwert T, um eine Ausgabe zu produzieren, die die Anwesenheit oder Abwesenheit von Sprache anzeigt;
dadurch gekennzeichnet, daß
(d) der Schritt des Produzierens der Koeffizienten eines Filters, das eine Spektralantwort hat, die die Inverse des Frequenzspektrums eines der beiden Signale ist; und darin, daß
(e) das Maß M proportional zu der Autokorrelation R'&sub0; nullter Ordnung eines Signales ist, das durch Filtern des anderen der beiden Signale durch ein Filter erhalten wird, der die Koeffizienten hat.
19. Vorrichtung zum Codieren von Sprachsignalen, die eine Vorrichtung gemäß einem der Ansprüche 1 bis 17 aufweist.
20. Mobiltelefonvorrichtung, die eine Vorrichtung gemäß einem der Ansprüche 1 bis 17 aufweist.
DE68910859T 1988-03-11 1989-03-10 Detektion für die Anwesenheit eines Sprachsignals. Expired - Lifetime DE68910859T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection

Publications (2)

Publication Number Publication Date
DE68910859D1 DE68910859D1 (de) 1994-01-05
DE68910859T2 true DE68910859T2 (de) 1994-12-08

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
DE68929442T Expired - Lifetime DE68929442T2 (de) 1988-03-11 1989-03-10 Vorrichtung zur Erfassung von Sprachlauten
DE68910859T Expired - Lifetime DE68910859T2 (de) 1988-03-11 1989-03-10 Detektion für die Anwesenheit eines Sprachsignals.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE68929442T Expired - Lifetime DE68929442T2 (de) 1988-03-11 1989-03-10 Vorrichtung zur Erfassung von Sprachlauten

Country Status (16)

Country Link
EP (2) EP0335521B1 (de)
JP (2) JP3321156B2 (de)
KR (1) KR0161258B1 (de)
AU (1) AU608432B2 (de)
BR (1) BR8907308A (de)
CA (1) CA1335003C (de)
DE (2) DE68929442T2 (de)
DK (1) DK175478B1 (de)
ES (2) ES2047664T3 (de)
FI (2) FI110726B (de)
HK (1) HK135896A (de)
IE (1) IE61863B1 (de)
NO (2) NO304858B1 (de)
NZ (1) NZ228290A (de)
PT (1) PT89978B (de)
WO (1) WO1989008910A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (de) * 1989-11-28 1995-02-01 Nec Corporation Sprach-/Sprachfrequenzband-Daten-Diskriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (de) * 1993-07-06 1996-01-17 Hughes Aircraft Co Stimmenaktivierte übertragungsgekoppelte automatische Verstärkungsregelungsschaltung.
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer

Also Published As

Publication number Publication date
NO316610B1 (no) 2004-03-08
EP0335521B1 (de) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (de) 1994-01-12
FI115328B (fi) 2005-04-15
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
PT89978B (pt) 1995-03-01
EP0548054A2 (de) 1993-06-23
DK175478B1 (da) 2004-11-08
NO982568L (no) 1990-11-09
NO304858B1 (no) 1999-02-22
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (de) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
HK135896A (en) 1996-08-02
EP0548054B1 (de) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69126730T2 (de) Sprachdetektor mit vermindertem Einfluss von Engangssignalpegel und Rauschen
DE69535452T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate
US5276765A (en) Voice activity detection
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
KR950000842B1 (ko) 피치 검출기
DE69105760T2 (de) Einrichtung zur Signalverarbeitung.
DE69814517T2 (de) Sprachkodierung
DE2659096C2 (de)
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE3782025T2 (de) Verfahren zur verbesserung der qualitaet kodierter sprache.
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2233872A1 (de) Signalanalysator
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
US5097508A (en) Digital speech coder having improved long term lag parameter determination
DE69127134T2 (de) Sprachkodierer
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
WO2002093557A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE69024899T2 (de) Verfahren und Einrichtung zur Analyse durch Synthetisieren von Sprache

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LG ELECTRONICS INC., SEOUL, KR