DE19540859A1 - Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch - Google Patents

Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch

Info

Publication number
DE19540859A1
DE19540859A1 DE1995140859 DE19540859A DE19540859A1 DE 19540859 A1 DE19540859 A1 DE 19540859A1 DE 1995140859 DE1995140859 DE 1995140859 DE 19540859 A DE19540859 A DE 19540859A DE 19540859 A1 DE19540859 A1 DE 19540859A1
Authority
DE
Germany
Prior art keywords
components
speech components
sound signal
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1995140859
Other languages
English (en)
Inventor
Michael Pieper
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Priority to DE1995140859 priority Critical patent/DE19540859A1/de
Publication of DE19540859A1 publication Critical patent/DE19540859A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch nach dem Oberbegriff des Anspruchs 1.
Bei Übertragung von Sportveranstaltungen wünschen manche Fernsehzuschauer, lediglich die Originalgeräuschkulisse zu hören, während der Kommentar eines Kommentators als störend empfunden wird. Sofern es sich um eine Stereoübertragung handelt, könnte der Kommentatorton zwar durch Differenzbildung der Signale der beiden Stereokanäle eliminiert werden, durch diese Maßnahme wird aber auch das Originalgeräusch bei Signalen verfälscht, die aus der Mitte kommen.
Der Erfindung liegt die Aufgabe zugrunde, Sprachkomponenten, die einem Tonsignal zugefügt wurden, unter Beibehaltung des ursprünglichen Tonsignals aus dem Tonsignalgemisch zu entfernen.
Diese Aufgabe wird bei einem Verfahren nach dem Oberbegriff des Anspruchs 1 durch die im kennzeichnenden Teil angegebenen Merkmale gelöst.
Die erfindungsgemäße Lösung basiert auf der Überlegung, daß der Kommentatorton charakteristische Merkmale aufweist, wie z. B. typische Spektralkomponenten, in denen er sich von dem ursprünglichen Tonsignal im Tonsignalgemisch unterscheidet. Mit diesen Merkmalen gelingt daher eine hinreichende Beschreibung des Kommentatortons, ohne dabei sämtliche Wörter oder Wortkombinationen kennen zu müssen.
Die Wort- und/oder Satzgrenzen der Sprachkomponenten können durch Auswertung der Signalenergie und der Nulldurchgangsrate des analogen Tonsignalgemisches ermittelt werden. Damit gelingt es, die Zahl und Länge der Musterdatensätze zu begrenzen und kurze Rechen- und Reaktionszeiten zu erzielen.
Vorzugsweise wird die Analyse der Sprachkomponenten und der Vergleich mit Musterdatensätzen durch neuronale Netze durchgeführt. Neuronale Netze arbeiten ähnlich wie das menschliche Gehirn und zeichnen sich aufgrund der parallelen Arbeitsweise durch Echtzeitfähigkeit, Abstraktion und Lernfähigkeit aus.
Nachfolgend wird das erfindungsgemäße Verfahren anhand der Zeichnung erläutert. In dieser zeigt:
Fig. 1 ein einfaches Blockschaltbild und,
Fig. 2 ein Flußdiagramm zur Durchführung des Verfahrens.
Fig. 1 zeigt den Tonsignalweg eines Fernsehempfängers, mit einem ein neuronales Netz umfassenden Signalprozessor. An den Eingang des Signalprozessors gelang das im Fernsehsignal enthaltene Tonsignalgemisch. Der Signalprozessor welcher durch ein Steuersignal der Fernbedienung des Fernsehempfängers ein- und ausschaltbar ist, eliminiert im eingeschalteten Zustand eine Sprachkomponente aus einem Tonsignalgemisch, die dem ursprünglichen Tonsignal zugemischt wurde.
Fig. 2 zeigt ein Flußdiagramm zur Durchführung des Verfahrens. In einem ersten Verfahrensschritt werden aus dem Tonsignal Wortgrenzen der Sprachkomponenten ermittelt, indem die Signalenergie und der Nulldurchgangsrate des analogen Tonsignalgemisches ausgewertet wird. In einem zweiten Verfahrensschritt werden typische Merkmale der Sprachkomponenten analysiert. Dies kann durch eine Verarbeitung des digitalisierten Tonsignals im Zeit- oder Frequenzbereich erfolgen. In einer ein- oder mehrmaligen Lernphase als drittem Verfahrensschritt werden Parameter gewonnen, die den Informationsgehalt der Sprachkomponenten mit einem Minimum an Redundanz repräsentieren. Diese Parameter bestimmen den Merkmalsvektor, der das Sprachsignal für einen bestimmten Zeitabschnitt beschreibt, und werden als Musterdatensätze in einem vierten Verfahrensschritt gespeichert.
Sobald eine Datei mit ausreichend Musterdatensätzen vorhanden ist, müssen die Verfahrensschritte drei und vier nicht wiederholt werden.
In einem fünften Verfahrensschritt werden nun die laufend analysierten Merkmale mit den Musterdatensätzen verglichen und in einem sechsten Verfahrensschritt werden bei Übereinstimmung oder Ähnlichkeit mit gespeicherten Musterdatensätzen die im Tonsignalgemisch vorhandenen Sprachkomponenten mit inversen Sprachkomponenten gewichtet. Dadurch werden die unerwünschten Sprachkomponenten eliminiert, so daß nur noch das ursprüngliche Tonsignal erhalten bleibt.
Die Verfahrensschritte zwei bis sechs werden mittels eines neuronalen Netzes durch geführt. Ein neuronales Netz besteht aus einer Vielzahl gleichartiger Elemente, die sowohl Informationen speichern, sie verarbeiten als auch weiterleiten, und zwar tun sie dies prinzipiell alle gleichzeitig. Die Elemente werden als Neuronen in Analogie zu den Nervenzellen bezeichnet. Es gibt Netze, die vollständig verbunden sind oder Schichtenmodelle. Beim Schichtenmodell gibt es mehrere Ebenen, die das Netz untergliedern. In der Eingangsschicht sind die Eingänge der Neuronen mit der Außenwelt verbunden. Sie dienen der Eingabe von Daten in das Netz. Die Ausgänge der Neuronen der ersten Schicht sind mit den Neuronen der zweiten Schicht verbunden, deren Ausgänge mit den Eingängen der dritten Schicht. Ist die dritte Schicht die letzte Schicht, dann sind die Ausgänge der dritten Schicht gleichzeitig die Ausgänge des Netzes.
Die Neuronen gewichten die Eingangssignale individuell. Die Gewichtung entspricht einem Multiplikationsfaktor, dessen Vorzeichen zugleich Erregung oder Hemmung verkörpert. Die Gewichtungsfaktoren sind zunächst zufällig initialisiert. Ein solches neuronales Netz kann die Lösung einer gewünschten Aufgabe, also im Anwendungsbeispiel die Elimination von unerwünschten Sprachkomponenten aus einem Tonsignalgemisch lernen, indem an die Eingänge des Netzes verschiedene gültige Eingangszustände angelegt werden. Im Anwendungsbeispiel handelt es sich um Sprachkomponenten, ursprüngliche Tonsignale ohne Sprachkomponenten und Tonsignalgemische aus ursprünglichen Tonsignalen mit Sprachkomponenten. Die Ausgangszustände entsprechen anfangs noch nicht den gewünschten Größen. Dann werden die Gewichtungsfaktoren solange geändert, bis das Ergebnis dem gewünschten ähnlicher wird oder ihm entspricht, also das ursprüngliche Tonsignal ohne Sprachkomponenten erscheint. Dies wird mit verschiedenen Eingangszuständen wiederholt. Ein mögliches Verfahren zur Ermittlung der notwendigen Veränderungen im Netz ist die Fehlerrückführung. Dabei wird die Differenz aus dem jeweiligen Ausgangssignal eines Ausgangsneurons und seinem Sollwert gebildet und so zur Veränderung der Parameter des Neurons und der Neuronen angewendet, von denen es seine Signale erhält.

Claims (3)

1. Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch, dadurch gekennzeichnet, daß Wort- und/oder Satzgrenzen der Sprachkomponenten ermittelt werden, daß die innerhalb der ermittelten Wort- und/oder Satzgrenzen liegenden Sprachkomponenten auf Merkmale analysiert werden, daß in einer ein- oder mehrmaligen Lernphase die Merkmale, die den Informationsgehalt der Sprachkomponenten mit einem Minimum an Redundanz repräsentieren, als Musterdatensätze gespeichert werden und daß in einer Betriebsphase die laufend analysierten Merkmale mit den Musterdatensätzen verglichen werden und bei Übereinstimmung oder Ähnlichkeit mit inversen Sprachkomponenten gewichtet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Wort- und/oder Satzgrenzen der Sprachkomponenten durch Auswertung der Signalenergie und der Nulldurchgangsrate des analogen Tonsignalgemisches ermittelt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Analyse der Sprachkomponenten und der Vergleich mit Musterdatensätzen durch neuronale Netze durchgeführt wird.
DE1995140859 1995-11-03 1995-11-03 Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch Withdrawn DE19540859A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1995140859 DE19540859A1 (de) 1995-11-03 1995-11-03 Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1995140859 DE19540859A1 (de) 1995-11-03 1995-11-03 Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch

Publications (1)

Publication Number Publication Date
DE19540859A1 true DE19540859A1 (de) 1997-05-28

Family

ID=7776456

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1995140859 Withdrawn DE19540859A1 (de) 1995-11-03 1995-11-03 Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch

Country Status (1)

Country Link
DE (1) DE19540859A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2796486A1 (fr) * 1999-07-16 2001-01-19 Ibm Procedes et dispositifs pour substituer une voix synthetisee dynamiquement a des vocabulaires identifies automatiquement
DE10020756B4 (de) * 2000-04-27 2004-08-05 Harman Becker Automotive Systems (Becker Division) Gmbh Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
WO2006018532A1 (fr) * 2004-07-23 2006-02-23 Colliard Isabel Helene Isabo Oscillateur de compensation electrochimique pour la protection biologique des organismes vivants
EP1939859A3 (de) * 2006-12-25 2013-04-24 Yamaha Corporation Vorrichtung und Verfahren zur Verarbeitung von Tonsignalen
DE102020134752A1 (de) 2020-12-22 2022-06-23 Digi Sapiens - Digital Learning GmbH Verfahren zum bewerten der qualität des vorlesens eines texts, computerprogrammprodukt, computerlesbares medium und bewertungsvorrichtung

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3149134C2 (de) * 1980-12-19 1987-05-07 At & T Technologies, Inc., New York, N.Y. Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks
DE3211313C2 (de) * 1981-03-27 1988-06-16 At & T Technologies, Inc., New York, N.Y., Us
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
DE3236832C2 (de) * 1981-10-05 1995-10-19 Exxon Corp Verfahren und Gerät zur Sprachanalyse

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3149134C2 (de) * 1980-12-19 1987-05-07 At & T Technologies, Inc., New York, N.Y. Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks
DE3211313C2 (de) * 1981-03-27 1988-06-16 At & T Technologies, Inc., New York, N.Y., Us
DE3236832C2 (de) * 1981-10-05 1995-10-19 Exxon Corp Verfahren und Gerät zur Sprachanalyse
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2796486A1 (fr) * 1999-07-16 2001-01-19 Ibm Procedes et dispositifs pour substituer une voix synthetisee dynamiquement a des vocabulaires identifies automatiquement
DE10020756B4 (de) * 2000-04-27 2004-08-05 Harman Becker Automotive Systems (Becker Division) Gmbh Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
WO2006018532A1 (fr) * 2004-07-23 2006-02-23 Colliard Isabel Helene Isabo Oscillateur de compensation electrochimique pour la protection biologique des organismes vivants
EP1939859A3 (de) * 2006-12-25 2013-04-24 Yamaha Corporation Vorrichtung und Verfahren zur Verarbeitung von Tonsignalen
DE102020134752A1 (de) 2020-12-22 2022-06-23 Digi Sapiens - Digital Learning GmbH Verfahren zum bewerten der qualität des vorlesens eines texts, computerprogrammprodukt, computerlesbares medium und bewertungsvorrichtung
DE102020134752B4 (de) 2020-12-22 2023-04-20 Digi Sapiens - Digital Learning GmbH Verfahren zum bewerten der qualität des vorlesens eines texts, computerprogrammprodukt, computerlesbares medium und bewertungsvorrichtung

Similar Documents

Publication Publication Date Title
DE3510660C2 (de)
DE2659096C2 (de)
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
EP1523719A2 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
DE2622423C3 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
DE4328752B4 (de) Spracherkennungssystem
DE2949582A1 (de) Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
DE3018508A1 (de) Sprachanalysiervorrichtung
DE69430034T2 (de) Digitale Signalverarbeitungseinrichtung
DE3226637C2 (de) Vorrichtung zur Erzeugung eines künstlichen Nachhalls
DE2355640A1 (de) Anordnung zur spektralanalyse von elektrischen signalen
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE19540859A1 (de) Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch
DE3226619C2 (de)
DE69427726T2 (de) Quantisierungsgerät
DE2657430A1 (de) Einrichtung zum synthetisieren der menschlichen sprache
DE4124493C1 (de)
DE3335026A1 (de) Digitale datenverarbeitungsschaltung
WO1987003995A1 (en) Process for speech recognition in a noisy environment

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee