DE60320414T2 - Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen - Google Patents

Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen Download PDF

Info

Publication number
DE60320414T2
DE60320414T2 DE60320414T DE60320414T DE60320414T2 DE 60320414 T2 DE60320414 T2 DE 60320414T2 DE 60320414 T DE60320414 T DE 60320414T DE 60320414 T DE60320414 T DE 60320414T DE 60320414 T2 DE60320414 T2 DE 60320414T2
Authority
DE
Germany
Prior art keywords
audio
audio signals
signal
important events
contained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60320414T
Other languages
English (en)
Other versions
DE60320414D1 (de
Inventor
Silke Goronzy
Thomas Kemp
Ralf Kompe
Yin Hay Lam
Marasek Krzysztof
Raquel Tato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Publication of DE60320414D1 publication Critical patent/DE60320414D1/de
Application granted granted Critical
Publication of DE60320414T2 publication Critical patent/DE60320414T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen, welche die Kombination von Merkmalen der unabhängigen Patentansprüche 1 bzw. 12 umfasst.
  • Außerdem bezieht sich die vorliegende Erfindung auf ein Verfahren zur automatischen Extraktion von Wichtigkeitsereignis-Klassifizierungsregeln zum Extrahieren wichtiger Ereignisse in Audiosignalen, welches die Kombinationen der Merkmale des unabhängigen Patentanspruchs 19 umfasst.
  • Es gibt eine wachsende Menge an Videodaten, welche im Internet verfügbar sind, und in einer Vielzahl von Speichermedien, beispielsweise digitalen Videoplatten. Außerdem werden diese Videodaten durch eine riesige Anzahl von Fernsehstationen als analoges oder digitales Videosignal bereitgestellt.
  • Allgemein ist ein Videosignal eine reiche Informationsquelle, welche Sprache, Audio, Text, Farbmuster und Form von Abbildungsobjekten und Bewegung dieser Objekte enthält.
  • Aktuell besteht ein Wunsch nach der Möglichkeit, nach Segmenten von Interesse/wichtigen Ereignissen in den Videodaten zu suchen (beispielsweise bestimmte Themen, Personen, Ereignisse und Darstellungen usw.)
  • Im Prinzip kann jedes Videosignal primär in Bezug auf seinen allgemeinen Hauptgegenstand klassifiziert werden. Der allgemeine Hauptgegenstand wird häufig als "Kategorie" bezeichnet.
  • Wenn das Videosignal über Fernsehen gesendet wird, könnte beispielsweise die allgemeine Hauptsache (Kategorie) Nachrichten oder Sport oder Kinofilm oder Dokumentarfilm sein.
  • Im vorliegenden Dokument wird ein selbstständiges Videosignal, welches zu einer allgemeinen Hauptsachen (Kategorie) gehört, als "Programm" bezeichnet.
  • Beispielsweise wird jede einzelne Fernsehsendung, jeder einzelne Dokumentarfilm, jedes einzelne Nachrichtenmagazin und jedes einzelne Funkfernsehspiel als Programm bezeichnet.
  • Üblicherweise enthält jedes Programm selbstständige Aktivitäten (Ereignisse). In Hinblick darauf werden lediglich selbständige Aktivitäten (Ereignisse), welche eine bestimmte minimale Wichtigkeit (wichtige Ereignisse) haben, in Betracht gezogen.
  • Wenn die allgemeine Hauptsache (Kategorie) Nachrichten sind, und das Programm ein bestimmtes Nachrichtenmagazin beispielsweise ist, könnten die selbständigen Aktivitäten die verschiedenen Nachrichten, welche im Nachrichtenmagazin erwähnt sind, sein. Wenn die allgemeine Hauptsache (Kategorie) Sport ist und das Programm beispielsweise ein bestimmtes Fußballspiel ist, könnten die selbständigen Aktivitäten/wichtigen Ereignisse Abstoß, Strafstoß, Einwurf, usw. sein.
  • Nachfolgend werden die selbständigen Aktivitäten (Ereignisse), welche in einem bestimmten Programm enthalten sind und eine minimale Wichtigkeit erfüllen, als "wichtige Ereignisse" oder "Inhalte" bezeichnet.
  • Somit wird jedes Videosignal zunächst in Bezug auf dessen Kategorie (allgemeiner Hauptgegenstand) klassifiziert.
  • Innerhalb jeder Kategorie wird das Videosignal in Bezug auf sein Programm klassifiziert (selbständiges Videosignal, welches zu einer Kategorie gehört).
  • Die Programme werden weiter in Bezug auf ihre entsprechenden wichtigen Ereignisse / Inhalte (selbständige Aktivitäten, welche minimale Wichtigkeit erfüllen) klassifiziert.
  • Der traditionelle Videobandrekorder-Abtastwiedergabemodus zum Browsen und zum Lesen eines analogen Videosignals ist mühsam und nicht flexibel. Der Grund für dieses Problem ist der, dass das Videosignal wie ein geradliniger Block von Abtastungen behandelt wird. Es ist keine Suchfunktionalität (mit Ausnahme des schnellen Vorlaufs und des schnellen Rücklaufs) vorgesehen.
  • Um sich auf dieses Problem zu richten, umfassen einige moderne Videobandrekorder die Möglichkeit, Indexe entweder manuell oder automatisch zu setzen, jedes Mal dann, wenn ein Aufzeichnungsbetrieb begonnen wird, um eine automatische Erkennung bestimmter Sequenzen von Videosignalen zuzulassen. Mit diesen Indexen gibt es einen Nachteil, dass die Indexe nicht eingerichtet sind, um individuell eine bestimmte Sequenz an Videosignalen zu identifizieren.
  • Dagegen umfassen digitale Videoplatten Videodaten (digitalisierte Videosignale), wo Kapitel den Videodaten während der Herstellung der digitalen Videoplatte hinzugefügt sind. Diese Kapitel erlauben normalerweise die Identifizierung lediglich den Lauf einer Geschichte. Insbesondere erlauben diese Kapitel nicht die Identifizierung bestimmter wichtiger Ereignisse/Inhalte (selbständige Aktivitäten/Ereignisse, welche eine bestimmte minimale Wichtigkeit haben), welche in den Videodaten enthalten sind.
  • Außerdem wurden während der letzten Jahre elektronische Programmführungssysteme (EPG) entwickelt.
  • Eine elektronische Programmführung (EPG) ist eine Anwendung, welche bei digitalen Set-Top-Boxen und neueren Fernsehgeräten verwendet wird, um aktuelle und geplante Programme, welche auf jedem Kanal verfügbar sind oder werden, und um eine kurze Zusammenfassung oder ein Kommentar für jedes Programm aufzulisten. EPG ist das elektronische Äquivalent der gedruckten Fernsehprogrammzeitung.
  • Üblicherweise wird auf eine EPG unter Verwendung einer Fernsteuerung zugegriffen. Es sind Menüs vorgesehen, welche es dem Benutzer erlauben, eine Liste an Programmen zu betrachten, welche für die nächsten wenigen Stunden bis zu den nächsten sieben Tagen geplant sind. Eine typische EPG umfasst Optionen, um verwandte Steuerungen, das Ordern von Bezahlprogrammen, die Suche nach Programmen auf der Basis des Themas oder Kategorie, und einen VCR einzurichten, die Programme aufzuzeichnen, zu setzen. Jeder digitale Fernsehanbieter (DTV) bietet seine eigene Benutzerschnittstelle und Inhalt für seine EPG. Das Format der EPG zu erkennen hängt stark vom jeweiligen Anbieter ab. Die Standards, die bis heute entwickelt wurden (beispielsweise MHP-Standard), sind bisher noch nicht geltend gemacht worden.
  • Somit bestehen Videodaten, welche für EPG geeignet sind, üblicherweise aus einem Audiosignal, einem Bildsignal und einem Informationssignal. Obwohl EPG die Identifizierung von Programmen zulässt, und von dem allgemeinen Hauptgegenstand (Kategorie), zu der die Programme gehören, erlaubt die EPG nicht die Identifizierung bestimmten Inhalts, der in den jeweiligen Programmen enthalten ist.
  • Es ist ein Nachteil bei der EPG, dass die Information, welche durch die EPG bereitgestellt wird, noch manuell durch den Anbieter der EPG erzeugt werden muss. Wie oben angemerkt ist dies sehr kostspielig und somit teuer. Außerdem umfasst die übliche EPG-Information Information über den Inhalt eines Films lediglich insgesamt. Eine weitere Hilfs-Unterteilung des entsprechenden Films in individuelle wichtige Ereignisse/Inhalte (selbständige Aktivitäten/Darstellungen) ist nicht vorgesehen.
  • Eine naheliegende Lösung für das Problem zum Handhaben großer Videosignalmengen würde dies sein, die Videosignale jedes Programms in Segmente gemäß deren Inhalte manuell zu segmentieren und eine ausführliche Information in Bezug auf das Videosignal, welches in den Segmenten enthalten ist, bereitzustellen.
  • Aufgrund der immensen Videosignalmengen, welche in den verfügbaren Videosignalen enthalten sind, ist eine manuelle Segmentierung extrem zeitaufwendig und somit teuer. Daher ist dieser Versuch nicht praktikabel, eine riesige Menge an Videosignalen zu verarbeiten.
  • Um das obige Problem zu lösen, wurden Versuche zur automatischen Segmentierung von Videosignalen seit einiger Zeit vorgeschlagen.
  • Mögliche Anwendungsgebiete für eine derartige automatische Segmentierung von Videosignalen sind digitale Videobüchereien oder beispielsweise das Internet.
  • Da Videosignale aus zumindest einem Bildsignal und einem oder mehreren Audiosignalen zusammengesetzt sind, könnte ein automatischer Videosegmentierungsprozess sich entweder auf eine Analyse des Bildsignals oder der Audiosignale oder auf beide beziehen.
  • Nachfolgend wird ein Segmentierungsprozess, der sich auf eine Analyse des Audiosignals von Videosignalen spezialisiert, weiter erläutert.
  • Es ist deutlich, dass dieser Versuch nicht auf das Audiosignal von Videosignalen begrenzt ist, sondern für jegliche Art von Audiosignalen mit Ausnahme von physikalischem Rauschen verwendet werden könnte. Außerdem können allgemeine Erwägungen auf andere Arten von Signalen angewandt werden, beispielsweise auch auf die Analyse des Bildsignals von Videosignalen.
  • Die bekannten Versuche für den Segmentierungsprozess umfassen das Trennen, automatische Klassifizierung und automatische Segmentierung der Audiosignale, welche in den Videosignalen enthalten sind.
  • "Ausschneiden" wird durchgeführt, um die Audiosignale (und die entsprechenden Videosignale) in Audioclips (und entsprechende Videoclips) einer geeigneten Länge zur weiteren Verarbeitung zu teilen. Die Audioclips umfassen jeweils eine geeignete Menge an Audiosignalen. Somit hängt die Genauigkeit des Segmentierungsprozesses von der Lange der Audioclips ab.
  • "Klassifizierung" bedeutet eine grobe Unterscheidung der Audiosignale in Bezug auf den Ursprung der Audiosignale (beispielsweise Sprache, Musik, Geräusch, Stille und Geschlecht des Sprechers). Die Klassifizierung wird üblicherweise durch Signalanalysetechniken auf Basis von Audioklassen-Klassifizierungsregeln durchgeführt. Die Klassifizierung resultiert somit in einer Sequenz von Audiosignalen, welche in Bezug auf den Ursprung der Audiosignale unterteilt sind.
  • "Segmentierung" bedeutet Segmentierung der Audiosignale (Videosignale) in individuelle Sequenzen von zusammenhängenden Audioclips, wobei jede Sequenz ein wichtiges Ereignis (selbständige Aktivität einer minimalen Wichtigkeit) enthält, welches in den Audiosignalen (Videosignalen) dieser Sequenz enthalten ist. Die Segmentierung wird üblicherweise auf Basis von inhalts-klassifizierenden Regeln durchgeführt. Auf dem technischen Gebiet der Segmentierung werden diese wichtigen Ereignisse häufig als "Inhalte" bezeichnet.
  • Jedes wichtige Ereignis/Inhalt umfasst alle Audioclips, welche zu der jeweiligen selbständigen Aktivität gehören, welche im Audiosignal vorhanden sind (beispielsweise ein Tor, ein Strafstoß eines Fußballspiels oder unterschiedliche Nachrichten während eines Nachrichtenmagazins).
  • Eine Segmentierungsvorrichtung 40 zur automatischen Segmentierung von Audiosignalen nach dem Stand der Technik ist in 4 gezeigt.
  • Die Wirkung der Segmentierungsvorrichtung 40 in Bezug auf ein Audiosignal 50 ist in 5 gezeigt.
  • Die Segmentierungsvorrichtung 40 umfasst eine Audiosignal-Eingabeeinrichtung 42 zum Zuführen eines nicht ausgewerteten Audiosignals 50 über einen Audiosignal-Eingangsanschluss 41.
  • Im vorliegenden Beispiel ist das nicht ausgewertete Audiosignal 50 Teil eines Videosignals, welches in einem geeigneten Videoformat auf einer Festplatte 48 gespeichert ist.
  • Alternativ kann das nicht ausgewertete Audiosignal ein Realzeitsignal beispielsweise sein (beispielsweise ein Audiosignal eines herkömmlichen Fernsehkanals).
  • Die Audiosignale 50, welche über die Audiosignal-Eingabeeinrichtung 42 zugeführt werden, werden zu einer Audiosignal-Ausschneideeinrichtung 43 übertragen. Die Audiosignal-Ausschneideeinrichtung 43 teilt die Audiosignale 50 (und die entsprechenden Videosignale) in Audioclips 51 (und die entsprechenden Videoclips) einer vorgegebenen Länge.
  • Die Audioclips 51, welche durch die Audiosignal-Ausschneideeinrichtung 43 erzeugt werden, werden weiter zu einer Klassenunterscheidungseinrichtung 44 übertragen.
  • Die Klassenunterscheidungseinrichtung 44 unterscheidet die Audioclips 51 in vorgegebene Audioklassen 52 auf Basis von vorgegebenen Audioklassen-Klassifizierungsregeln durch Analysieren akustischer Kenndaten des Audiosignals 50, welche in den Audioclips 51 umfasst sind, wodurch jede Audioklasse eine Art von Audiosignalen, welche in dem entsprechenden Audioclip enthalten sind, identifiziert wird.
  • Jede der Audioklassen-Klassifizierungsregeln teilt eine Kombination einer bestimmten akustischen Charakteristik eines Audiosignals einer bestimmten Art von Audiosignal zu.
  • Hier sind die akustischen Kenndaten für die Audioklassen-Klassifizierungsregeln, welche die Art der Audiosignale identifizieren "Stille", "Niedrigenergiepegel" und "Niedrig-Null-Durchgangsrate" des Audiosignals, welches beispielsweise im entsprechenden Audioclip vorhanden ist.
  • Im vorhandenen Beispiel sind eine Audioklasse und eine entsprechende Audioklassen-Klassifizierungsregel für jeweils Stille (Klasse 1), Sprache (Klasse 2) Beifall/Klatschen (Klasse 3) und Musik (Klasse 4) vorgesehen.
  • Diese Audioklassen-Klassifizierungsregeln sind in der Klassenunterscheidungseinrichtung gespeichert.
  • Die Audioclips 52, welche in Audioklassen durch die Klassenunterscheidungseinrichtung 44 unterschieden sind, werden zur Segmentierungseinrichtung 45 geliefert.
  • Mehrere vorgegebene inhalts-klassifizierende Regeln sind in der Segmentierungseinrichtung 45 gespeichert. Jede inhalts-klassifizierende Regel teilt eine bestimmte Sequenz an Audioklassen von aufeinanderfolgenden Audioclips einem bestimmten Inhalt/wichtigem Ereignis zu.
  • Im vorhandenen Beispiel sind eine inhalts-klassifizierende Regel für jeweils einen "Freistoß" (Inhalt 1), ein Tor (Inhalt 2), ein "Foul" (Inhalt 3) und "Spielende" (Inhalt 4) vorgesehen.
  • Es wird deutlich, dass die Inhalte, welche in den Audiosignalen enthalten sind, aus jeweils einer Sequenz aufeinanderfolgender Audioclips zusammengesetzt sind. Dies ist durch das Element 53 von 5 gezeigt.
  • Da jeder Audioclip in eine Audioklasse unterschieden werden kann, ist jeder Inhalt/wichtiges Ereignis, welcher in den Audiosignalen enthalten ist, auch aus einer Sequenz von entsprechenden Audioklassen aufeinanderfolgender Audioclips zusammengesetzt.
  • Daher ermittelt durch Vergleichen einer bestimmten Sequenz von Audioklassen von aufeinanderfolgenden Audioclips, welche zu den Audiosignalen mit den Sequenzen von Audioklassen aufeinanderfolgender Audioclips gehören, welche zu inhalts-klassifizierenden Regeln gehören, die Segmentierungseinrichtung 45 eine Regel, welche die jeweilige Sequenz von Audioklassen erfüllt.
  • Als Konsequenz wird der Inhalt, der dieser Regel zugeteilt ist, der entsprechenden Sequenz aufeinanderfolgender Audioclips zugeordnet, welche zu den Audiosignalen gehört.
  • Somit segmentiert auf Basis der inhalts-klassifizierenden Regeln die Segmentierungseinrichtung 45 die klassifizierten Audiosignale, welche durch die Unterscheidungseinrichtung 44 bereitgestellt werden, in eine Sequenz von Inhalten 53 (selbständige Aktivitäten).
  • Im vorhandenen Beispiel wird eine Ausgabedatei-Erzeugungseinrichtung 46 verwendet, eine Videoausgabedatei zu erzeugen, welche die Audiosignale 50, die entsprechenden Videosignale und ein Informationssignal enthält, welches die entsprechende Sequenz von Inhalten 53 betrifft.
  • Diese Ausgangsdatei wird auf einer Festplatte über einen Signalausgangsanschluss 47 gespeichert.
  • Unter Verwendung einer Videowiedergabevorrichtung 49 können die Videoausgangsdateien, welche auf der Festplatte 49 gespeichert sind, wiedergegeben werden.
  • Im vorliegenden Beispiel ist die Wiedergabevorrichtung 49 ein digitaler Videorekorder, der außerdem in der Lage ist, individuelle Inhalte, welche in der Videoausgangsdatei umfasst sind, auf Basis der Information betreffend der Sequenz der Inhalte, welche in der Videoausgangsdatei enthalten sind, zu extrahieren oder auszuwählen.
  • Somit wird die Segmentierung von Audiosignalen in Bezug auf deren Inhalte/wichtiger Ereignisse durch die in 4 gezeigte Segmentierungsvorrichtung 40 durchgeführt.
  • Ein stochastisches Signalmodell, welches häufig bei Klassifizierung von Audiodaten verwendet wird, ist das HIDDEN MARKOV Modell, welches ausführlich im Artikel "A Tutorial an Hidden Karkov Models and Seicted Applications in Speech Recognition" von Lawrence R. RABINER erläutert ist, veröffentlicht in Proceedings von IEEE, Band 77, Nr. 2, Februar 1989.
  • Verschiedene Verfahren zur Audioklassifizierungs-Segmentierung in Bezug auf Sprache, Musik, Stille und Geschlecht sind im Aufsatz "Speech/Musik/Silence and Gender Detection Algorithm" von Hadi HARR, Liming CHEN an Jean-Yves AULOGE offenbart, veröffentlicht durch Lab. ICTT Dept. Mathematiques-Informatiques ECOLE CENTRALE DE LYON, 36, Avenue Guy Collongue B.P. 163, 69131 ECULLY Cedex, Frankreich.
  • Allgemein richtet sich der obige Aufsatz auf die Unterscheidung eines Audiokanals in Sprache, Musik/Stille/Geräusch, welche zur Verbesserung der Szenensegmentierung hilft. Vier Verfahren zur Audioklassenunterscheidung werden vorgeschlagen: ein "model-based approach", wobei Modelle für jede Audioklasse erzeugt werden, wobei die Modelle auf Niedrigpegelmerkmalen der Audiodaten basieren, beispielsweise Abbildung des logarithmischen Leistungsspektrums und MFCC. Ein Segmentierungsverfahren auf Metrik-Basis verwendet die Abstände zwischen benachbarten Fenstern zur Segmentierung. Ein Verfahren auf Regelbasis umfasst die Bildung individueller Regeln für jede Klasse, wo die Regeln auf hohen und niedrigen Merkmalen von Pegeln basieren. Schließlich verwendet das Verfahren auf Basis des Decoders das verborgene Markov-Modell eines Spracherkennungssystems, wobei das verborgene Markov-Modell trainiert wird, um die Klasse eines Audiosignals anzugeben.
  • Außerdem beschreibt dieser Aufsatz ausführlich Sprach-, Musik- und Stumm-Eigenschaften, um die Erzeugung von Regeln zuzulassen, welche jede Klasse beschreiben, gemäß dem Verfahren auf Regelbasis, sowie die Geschlechtsermittlung, um das Geschlecht eines Sprachsignals zu ermitteln.
  • "Audio Feature Extraction and Analysis for Scene Segmentation and Classification" ist in Zhu LIU und Yao WANG der Polytechnischen Universität Brooklyn, USA offenbart, zusammen mit Tsuhan CHEN der Carnegie Mellon Universität, Pittsburg, USA. Dieser Aufsatz beschreibt die Verwendung von verknüpfter Audioinformation zur Videoszenenanalyse von Videodaten, um fünf Arten von TV-Programmen zu unterscheiden, nämlich Werbesendungen, Basketballspiele, Fußballspiele, Nachrichtensendungen und Wettervorhersage.
  • Gemäß diesem Aufsatz sind die Audiodaten in mehrere Clips unterteilt, wobei jeder Clip mehrere Rahmen aufweist.
  • Ein Satz von Niedrigpegel-Audiomerkmalen umfasst die Analyse einer Volumenkontur, einer Teilungskontur und Frequenzdomänen-Merkmale als Bandbreite sind zur Klassifizierung der Audiodaten, welche in jedem Clip enthalten sind, vorgeschlagen.
  • Unter Verwendung der Cluster-Analyse wird die lineare Trennbarkeit unterschiedlicher Klassen geprüft, um die Videosequenz in die obigen fünf Arten von TV-Programmen zu trennen.
  • In diesem Aufsatz werden drei Ebenen an Audioverständnis unterschieden: in einer "Niedrigpegel-Akustik-Kenndatenebene" werden Niedrigpegel-Merkmale, beispielsweise Lautstärke, Teilperiode und Bandbreite eines Audiosignals analysiert. In der "Intermediatpegel-Akustiksignaturebene wird das Objekt, welches einen bestimmten Ton erzeugt, durch Vergleich des entsprechenden Akustiksignals mit Signaturen, welche in einer Datenbank gespeichert sind, bestimmt. Im Hochpegel-Semantik-Modell werden einige vorher bekannte Semantik-Regeln über die Struktur von Audio in unterschiedlichen Szenenarten (beispielsweise eine Sprache in einem Nachrichtenbericht und Wettervorhersage, jedoch Sprache mit Rauschhintergrund in Werbesendungen) verwendet.
  • Um die Audiodaten zu segmentieren, werden Sequenzen von Audioklassen aufeinanderfolgender Audioclips verwendet. Somit wird in Abhängigkeit von der Sequenz der Audioklassen aufeinanderfolgender Audioclips (beispielsweise Sprach-Stille-Gelächter-Klappern-Musik) eine geeignete Anzahl aufeinanderfolgender Audioclips (beispielsweise vier) einem Segment zugeteilt, welches ein wichtiges Ereignis (beispielsweise "Fußball" umfasst.
  • Um die Genauigkeit des oben beschriebenen Verfahrens weiter zu verbessern, wird vorgeschlagen, die Analyse der Audiodaten von Videodaten mit einer Analyse der visuellen Information, welche in den Videodaten umfasst ist, zu kombinieren (beispielsweise die jeweiligen Farbmuster und die Form von abgebildeten Objekten).
  • Das US-Patent US 6 185 527 offenbart ein System und ein Verfahren, um einen Audiostrom für nachfolgende Informationswiedergewinnung und zum Entfernen, zur Kernbildung und Summieren des Audiostroms zu indexieren. Das System und das Verfahren umfassen die Verwendung speziellen Audiovorfilterns, so dass lediglich relevante Sprachsegmente, welche durch eine Spracherkennungsmaschine erzeugt werden, mit Index versehen werden. Spezifische Indexmerkmale sind offenbart, welche die Genauigkeit und einen Abruf eines Informationsabrufsystems verbessern, nachdem Wortstücke mit Index versehen sind. Das beschriebene Verfahren umfasst das Bilden des Audiostroms zu Intervallen, wobei jedes Intervall ein oder mehrere Segmente aufweist. Für jedes Segment eines Intervalls wird bestimmt, ob das Segment ein oder mehrere vorgegebene Audiomerkmale zeigt, beispielsweise einen bestimmten Bereich von Nulldurchgangsraten, einen bestimmten Bereich von Energie, und einen bestimmten Bereich einer Spektralenergiekonzentration. Die Audiomerkmale werden heuristisch bestimmt, um entsprechende Audioereignisse einschließlich Stille, Musik, Sprache und Sprache bezüglich Musik zu bestimmen. Außerdem wird bestimmt, ob eine Gruppe von Intervallen zu einem heuristisch vorgegebenen Meta-Muster, beispielsweise zu einer fortlaufenden nichtunterbrochenen Sprache passt, einschließlich Ideen, Verzögerungen und Betonung der Sprache usw., und der Audiostrom dann auf Basis der Intervallklassifizierung und der Muster als Zusammenpassung mit Index versehen wird, wobei lediglich relevante Merkmale mit Index versehen sind, um nachfolgende Genauigkeit von Informationswiedergewinnung zu verbessern. Außerdem werden Alternativen für längere Begriffe, welche durch die Spracherkennungsmaschine erzeugt werden, mit der entsprechenden Wichtung mit Index versehen, um nachfolgenden Abruf zu verbessern.
  • Somit wird unter anderen Dingen vorgeschlagen, automatisch einen Überblick eines Audiostroms zu liefern oder um ein Verständnis des Kerns eines Audiostroms zu gewinnen.
  • Algorithmen, welche Indexe von automatischer akustischer Segmentierung erzeugen, sind im Aufsatz beschrieben "Acoustic Segmentation for Audio Browsers" von Don KIMBER und Lynn WILCOX. Diese Algorithmen verwenden verborgene Markov-Modelle, um Audio in Segmente entsprechend unterschiedlicher Sprecher oder akustischer Klassen zu segmentieren. Arten vorgeschlagener akustischer Klassen umfassen Sprache, Stille, Gelächter, Nicht-Sprachen-Töne und wertlose Daten, wobei "wertlose Daten" als Nicht-Sprach-Ton definiert ist, welches nicht durch andere Klassenmodelle modelliert sind.
  • Eine Ausführung der bekannten Verfahren wird vorgeschlagen durch George TZANETAKIS und Perry COOK in dem Bericht "MARSYAS: A framework for Audio analysis", wo eine Klienten-Server-Architektur verwendet wird.
  • Wenn Audiosignale in Segmente segmentiert werden, ist ein entscheidendes Problem, dass eine bestimmte Sequenz an Audioklassen aufeinanderfolgender Segmente von Audiosignalen üblicherweise einer Vielzahl möglicher Inhalte/wichtigen Ereignissen zugeteilt werden kann.
  • Beispielsweise könnte die aufeinanderfolgende Sequenz an Audioklassen aufeinanderfolgender Segmente von Audiosignalen für ein Tor während eines Fußballspiels "Sprache"-"Stille"-"Geräusch"-"Sprache"-"Sein", und die aufeinanderfolgende Sequenz von Audioklassen aufeinanderfolgender Segmente der Audiosignale zur Darstellung eines Videoclips während eines Nachrichtenmagazins könnte auch sein "Sprache"-"Stille"-"Geräusch"-"Sprache". Somit kann bei dem vorliegenden Beispiel keine eindeutige Zuordnung eines entsprechenden Inhalts/wichtigen Ereignisses durchgeführt werden.
  • Um das obige Problem zu lösen, verwenden bekannte Audiosignal-Segmentationsalgorithmen üblicherweise eine Regel auf Basis eines Verfahrens zum Zuteilen wichtiger Ereignisse (Inhalte einer bestimmten Sequenz an Audioklassen.
  • Daher sind verschiedene Regeln zum Zuteilen der wichtigen Ereignisse/Inhalte erforderlich, um sich auf das Problem zu richten, dass eine bestimmte Sequenz an Audioklassen aufeinanderfolgender Segmente von Audiosignalen einer Vielzahl wichtiger Ereignisse/Inhalte zugeordnet werden kann. Der Bestimmungsprozess, eine akzeptable Regel für jedes wichtige Ereignis/Inhalt zu finden, ist üblicherweise sehr schwierig, zeitaufwendig und subjektiv, da dieser sowohl von den verwendeten unbearbeiteten Audiosignalen als auch von der persönlichen Erfahrung der Person abhängig ist, welche den Bestimmungsprozess ausführt.
  • Als Konsequenz ist es schwierig, gute Ergebnisse mit bekannten Verfahren zur Segmentierung von Audiosignalen in Inhalte zu erreichen, da die Regeln zum Zuteilen der wichtigen Ereignisse/Inhalte nicht zufriedenstellend sind.
  • Außerdem ist in Bezug auf Mensch-Maschinen-Schnittstellen und Rufzentren-Klassifikation menschlicher Sprache in Bezug auf Emotionen bekannt: Verfahren zur automatischen Klassifizierung gesprochener Äußerungen auf Basis des emotionellen Zustands eines Sprechers sind offenbart im Dokument "Recognition of Negative Emotions from the Speech Signal" von C. M. Lee und S. Narayanan of the Department of Electrical Engineering and IMSC, Univeristy of Southern California, Los Angeles, USA, und von R. Pieraccini, Speech Works International, New York, USA.
  • Gemäß der oben genannten Veröffentlichung, von der die Bewegung zum Erkennen negativer Emotionen in Sprache von der wachsenden Rolle herkommt, spielen gesprochene Dialogsysteme bei Mensch-Maschinen-Interaktion, insbesondere zur Entfaltung von Diensten in Verbindung mit Rufzentren, beispielsweise Kundenfürsorge, und für eine Vielzahl von automatischer Übungs- und Erziehungsanwendungen eine Rolle.
  • Somit ist das Tor eines automatischen Emotionserkennungsorgans als Zuteilung von Kategorieetiketten definiert, welche emotionelle Zustände identifizieren.
  • Obwohl Semantik und Gesprächsinformation auch zur Emotionserkennung beitragen, fokussiert sich dieses Dokument auf die Klassifizierung auf Basis lediglich akustischer Information.
  • Lineare Unterscheidungsklassifikation mit der Gausschen-Klassen-Bedingungs-Wahrscheinlichkeitsverteilung und k-nächsten Nachbarschaftsverfahren werden verwendet, Gespräche in zwei Basisemotionszustände zu klassifizieren, d. h., negativ und nichtnegativ.
  • Die EP 1300831 A1 offenbart ein Verfahren zum Erfassen von Emotionen, bei dem Hilfspausen-Spezialisten beteiligt sind. Um einen aktuellen Emotionszustand (CES) eines Menschen von einer zugeführten gesprochenen Sprache (SI) zu erfassen und zu bestimmen, ist das Konzept einer Emotionspause vorgesehen. Diese Emotionspause ist eine abstrakte Einheit, welche mögliche Emotionszustände eines Sprechers an sich reflektiert. Jeder Punkt dieser Emotionspause (ES) zeigt daher einen möglichen aktuellen Bewegungszustand eines bestimmten Sprechers. Bisher werden erste und zweite Merkmalsklassen A und E identifiziert mit in einer bestimmten Art von Dimensionen einer darunterliegenden Emotionskopie (EM) oder einer Emotionspause und/oder Hilfspausen dazu identifiziert.
  • Eine weitere Veröfffentlichung, welche sich mit Emotionserkennungsorganen befasst, wurde veröffentlich durch Valery A. Petrushin während der 1999 Conference in Artificial Neural Networks in Engineering (ANNO'99). Diese Veröffentlichung trägt den Titel "Emotion in Speech: Recognition and Apllication to Call Centres" und behandelt zwei experimentelle Studien in Bezug auf Sprachemotionsausdruck und Erkennung.
  • In dem Dokument sind zwei experimentelle Studien in Bezug auf vokale Emotionsausdruck und Erkennung beschrieben. Die erste Studie befasst sich mit einem Korpus von 700 Kurzgesprächen, welche fünf Emotionen ausdrücken: Freude, Ärger, Traurigkeit, Furcht und Normalzustand (nichtemotional), welche durch 30 nichtprofessionelle Darsteller porträtiert werden. Nach Auswertung eines Teils dieses Korpus wurden sie zum Extrahieren von Merkmalen und zum Trainieren von Hintergrundausbreitungs-Neutral-Netzwerkmodellen verwendet. Einige Statistiken der Tonhöhe, der ersten und zweiten Formanten, Energie und Sprechrate wurden als relevante Merkmale ausgewählt, wobei Merkmalsauswahlverfahren verwendet werden. Mehrere neurale Netzwerkerkenner und Teilnehmer von Erkennern wurden gebildet. Die Erkenner haben die folgende Genauigkeit gezeigt: Normalzustand: 60–75%, Freude: 60–70%, Ärger: 70–80%, Traurigkeit: 70–85%, und Furcht: 35–55%. Die gesamte Durchschnittsgenauigkeit beträgt ungefähr 70%. Die zweite Studie verwendet einen Korpus von 56 Telefonnachrichten schwankender Länge (von 15 von 90 Sekunden), welche die am normalsten und ärgerlichsten Emotionen zum Ausdruck bringen, welche durch 18 nichtprofessionelle Darsteller aufgezeichnet wurde. Diese Gespräche wurden verwendet, um Erkenner unter Verwendung der Methode zu bilden, welche bei der ersten Studie entwickelt wurde. Die Erkenner sind in der Lage, zwischen zwei Zuständen zu unterscheiden: "Aufregung", welches Ärger, Freude und Gefahr umfasst, und "Ruhe", welches den Normalzustand und Traurigkeit umfasst, mit einer durchschnittlichen Genauigkeit von 77%. Ein Ensemble dieser Erkenner wurde als Teil eines Entscheidungsunterstützungssystems zum Priorisieren von Sprachnachrichten und zum Zuordnen eines passenden Organs verwendet, um auf die Nachricht zu antworten. Die Architektur dieses Systems wird dargestellt und erläutert.
  • Ein nützlicher Parameter zur Spracherkennung, der breit bei vielen Spracherkennungssystemen verwendet wird, ist das mel-Cepstrum.
  • Das Berechnen der mel-Cepstrum-Koeffizienten von linearen Vorhersagekoeffizienten unter Verwendung von Rekursionsformeln ohne Abflachungsfehler ist offenbart im Dokument "Recursive Calculation of Mel-Cepstrum from LP Coefficients". Dieses Dokument wurde am 1. April 1994 veröffentlicht durch Keiichi TOKUDA, Department for Computer Science, Nagoya Institute of Technology, zusammen mit Takao KOBAYASHI und Satoshi IMAI, Precision ans Intelligence Laborstory, Tokyo Institute of Technology, Yokohama.
  • Es soll betont werden, dass weder das Dokument "Recognition of Negative Emotions from Speech Signal" noch die Veröffentlichung "Emotion in Speech: Recognition and Application to Call Centres" noch das Dokument "Recursive Calculation of Mel-Cepstrum from LP Coeffocients" in irgendeiner Weise zum Verbessern der Segmentation von Audiosignalen verknüpft ist.
  • Die US 2002/0093591 A1 offenbart ein System und ein Verfahren, um Videozusammenfassung über saumloses Integrieren von Bild-, Audio- und Text-Merkmalen zu bilden, welche von einem zugeführten Video extrahiert werden. Insbesondere werden zum Bilden einer Audiozusammenfassung Ton und Sprache getrennt und dann zu Einheiten segmentiert. Die Audioeinheiten werden dann klassifiziert, beispielsweise in Applaus, Sprache, Ausbruch und dgl.. In Abhängigkeit von der Klassifizierung für jede Einheit wird danach ein Vektor gebildet, der die Wichtigkeit der jeweiligen Einheit für den Überblick zeigt, d. h. es wird die Wahrscheinlichkeit berechnet, dass diese wichtig genug ist, in der Audiozusammenfassung enthalten zu sein. Die Wahrscheinlichkeit wird hier durch mit Verfahren auf Regelbasis berechnet. Wenn die Wahrscheinlichkeit für jede Audioeinheit berechnet ist, kann die Audiozusammenfassung gebildet werden, indem die Audioeinheiten in absteigender Reihenfolge ihrer Wahrscheinlichkeit ausgewählt werden, bis der Überblick die durch den Benutzer spezifizierte Länge erreicht.
  • Zusammengefasst verwenden die bekannte Videosignal-Segmentierungsvorrichtung und die Verfahren ein Dreistufenverfahren.
  • In einer ersten Stufe werden die Videosignale in Videoclips einer vorgegebenen Länge partioniert. Diese Länge wird üblicherweise so gewählt, dass die zeitliche Länge der Videosignale, welche in jedem Clip vorhanden sind, konstant ist.
  • Zweitens werden die Videosignale, welche in Videoclips vorhanden sind, in Bezug auf ihre Art (beispielsweise Musik, Sprache, Stille) in Audioklassen durch Analysieren akustischer Kenndaten der Audiosignale klassifiziert.
  • Diese Klassifizierung wird auf Basis von Audioklassen-Klassifizierer durchgeführt. Ein Audioklassen-Klassifizierer ist eine Zuteilungsregel, um zu entscheiden, zu welcher Audioklasse das Audiosignal, welches in einem bestimmten Audioclip vorhanden ist, gehört.
  • In einer dritten Stufe werden Versuche auf Regelbasis verwendet, um Inhalte/wichtige Ereignisse zu identifizieren, welche im Videosignal vorhanden sind, auf Basis einer Sequenz der Audioklassen. Eine Sequenz der Audioklassen, welche zu einem allgemeinen Inhalt/wichtigen Ereignis gehört, ist mit einem Code etikettiert, der diesen Inhalt/wichtige Ereignis identifiziert. Die Regeln, welche im dritten Schritt verwendet werden, werden als Inhaltsklassifizierer bezeichnet.
  • Es ist ein Nachteil bei der bekannten Videosignal-Segmentierungsvorrichtung und den Verfahren, dass der Bestimmungsprozess, Audioklassen-Klassifizierer und Inhaltsklassifizierer zu finden, dazu neigt, zweiaufwendig, heuristisch und subjektiv zu sein, da dieser von sowohl den verwendeten unbearbeiteten Audiosignalen als auch der persönlichen Erfahrung der Person abhängt, welche den Bestimmungsprozess ausführt.
  • Außerdem ist es sehr schwierig, Audioklassen-Klassifizierer und Inhaltsklassifizierer zu bestimmen, welche mit allen Arten von Videosignalen ausreichend arbeiten.
  • Außerdem neigt die Genauigkeit der bekannten Audiosegmentierungsvorrichtung dazu, unzureichend zu sein.
  • Es ist die Aufgabe der vorliegenden Erfindung, die oben angegebenen Nachteile zu überwinden und um eine Vorrichtung und ein Verfahren zur automatischen Extrahierung wichtiger Ereignisse in Audiosignalen bereitzustellen, wobei ein einfacher und verlässlicher Weg verwendet wird, um wichtige Ereignisse in Audiosignalen zu extrahieren und wobei eine verbesserte Genauigkeit bereitgestellt wird.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, den Bestimmungsprozess zu erleichtern, um wichtige Ereignisklassifizierer genau herauszufinden, um wichtige Ereignisse in Audiosignalen automatisch zu extrahieren.
  • Die obige Aufgabe wird durch eine Vorrichtung zur automatischen Extrahierung wichtiger Ereignisse in Audiosignalen gelöst, welche die Kombination des unabhängigen Patentanspruchs 1 umfasst.
  • Außerdem wird die obige Aufgabe durch ein Verfahren zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen zu extrahieren, welches die Kombination von Merkmalen des unabhängigen Patentanspruchs 12 umfasst.
  • Außerdem wird die obige Aufgabe durch ein Verfahren zum automatischen Erzeugen wichtiger Ereignisklassifizierungsregeln gelöst, um wichtige Ereignisse in Audiosignalen zu extrahieren, welches die Kombination der Merkmale des unabhängigen Patentanspruchs 19 umfasst.
  • Weitere Entwicklungen sind in den entsprechenden abhängigen Patentansprüchen festgelegt.
  • Gemäß einer ersten bevorzugten Ausführungsform der vorliegenden Erfindung umfasst eine Vorrichtung zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen:
    • – eine Signaleingangseinrichtung zum Zuführen von Audiosignalen;
    • – eine Audiosignal-Fragmentierungseinrichtung zum Partionieren von Audiosignalen, welche über die Signaleingangseinrichtung zugeführt werden, in Audiofragmente einer vorher festgelegten Länge und zum Zuordnen einer Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster;
    • – eine Merkmalextraktionseinrichtung zum Analysieren akustischer Kenndaten der Audiosignale, die in den Audiofragmenten enthalten sind, und zum Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind; und
    • – eine Wichtigkeitsereignis-Extraktionseinrichtung zum Extrahieren wichtiger Ereignisse in Audiosignalen, welche durch die Audiosignal-Fragmentierungseinrichtung zugeführt werden, auf Basis vorher festgelegter Wichtigkeits-Ereignisklassifizierungsregeln in Abhängigkeit von akustischen Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, und akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, wobei jedes wichtige Ereignis, welches durch die Wichtigkeitsereignis-Extraktionseinrichtung (8) extrahiert wird, eine diskrete Sequenz zusammenhängender Audiofragmente ausweist, welche einem wichtigen Ereignis entsprechen, welches in den Audiosignalen enthalten ist.
  • Hierdurch ermittelt die Merkmalsextraktionseinrichtung ein Sprachsignal, welches im Audiosignal jedes Audiofensters enthalten ist, erkennt Emotion im Sprachsignal auf Basis akustischer Kenndaten eines Audiosignals erkennt, welches im Sprachsignal enthalten ist, und gibt ein entsprechendes Emotionssignal an die Wichtigkeitsereignis-Extraktionseinrichtung aus; wobei die Wichtigkeitsereignis-Extraktionseinrichtung das Emotionssignal, welches durch die Merkmalextraktionseinrichtung bereitgestellt wird, verwendet, um wichtige Ereignisse in Audiosignalen zu extrahieren.
  • Unter Verwendung des Emotionssignals zum Extrahieren wichtiger Ereignisse in Audiosignalen und um somit individuelle Sequenzen kohäsiver Audiofragmente zu bestimmen, welche zu einem allgemeinen wichtigen Ereignis gehören, wird die Genauigkeit der Wichtigkeitsereignis-Extraktionseinrichtung verbessert, da eine zusätzliche Informationsquelle verwendet wird.
  • Da das Extrahieren wichtiger Ereignisse in den Audiosignalen automatisch in Abhängigkeit von akustischen Kenndaten der Audiosignale durchgeführt wird, welche in den Audiofragmenten enthalten sind, und von akustischen Kenndaten der Audiosignale, welche nur in den Audiofenstern enthalten sind, ist keine Vorklassifizierung der Audiosignale in Audioklassen notwendig. Somit wird die Extraktion wichtiger Ereignisse lediglich in zwei Schritten ausgeführt. Als Konsequenz wird die Komplexität der Extraktion wichtiger Ereignisse in Audiosignalen durch die erfinderische Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen wesentlich reduziert.
  • Durch Vermeiden des Schritts zum Klassifizieren der Audiosignale in Audioklassen ist es außerdem nicht notwendig, weitere Audioklassen-Klassifizierungsregeln vorzusehen. Somit wird die zweitaufwendige, heuristische und subjektive Erzeugung von Audioklassen-Klassifizierungsregeln vermieden.
  • Durch Vermeiden der Audioklassen-Klassifizierungsregeln wird die Genauigkeit wichtiger Ereignisextraktion von Audiosignalen verbessert, da die Anzahl von Fehlerquellen reduziert wird.
  • Es ist offensichtlich, dass die Sequenz von einem oder mehreren Audiofragmenten, welche dem entsprechenden Audiofenster zugeordnet wird, eine feste zeitliche Sequenz sein könnte. Die Länge der Sequenz könnte abhängig sein von entsprechenden Wichtigkeitsereignis-Klassifizierungsregeln.
  • Vorteilhafterweise weisen die akustischen Kenndaten, welche in den Audiosignalen analysiert werden, welche in den Audiofragmenten enthalten sind, Nulldurchgangsrate und/oder Energie/Lautstärke und/oder Subband-Energierate und/oder Mel-Cepstrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite auf.
  • Es ist günstig, wenn die akustischen Kenndaten, welche in den Audiosignalen analysiert werden, die in den Audiofenstern enthalten sind, Lautstärke-Standardabweichung und/oder Lautstärke-Dynamikbereich und/oder hohes Nulldurchgangs-Ratenverhältnis und/oder niedriges Kurzzeit-Energieverhältnis und/oder Spektralfluss aufweisen.
  • Weiter ist es günstig, wenn die Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen außerdem aufweist:
    • – eine Klassifizierdatenbank, welche Wichtigkeitsereignis-Klassifizierungsregeln aufweist, wobei eine Wichtigkeitsereignis-Klassifizierungsregel für jede Programmart, welche im Audiosignal enthalten ist, vorgesehen ist; und
    • – eine Klassifizierauswahleinrichtung zum Erfassen der Programmart der Audiosignale, zu der sie aktuell gehören, und zum Auswählen einer geeigneten Wichtigkeitsereignis-Klassifizierungsregel von den Wichtigkeitsereignis-Klassifizierungsregeln, welche in der Klassifizierdatenbank gespeichert sind;
    wobei die Wichtigkeitsereignis-Extraktionseinrichtung wichtige Ereignisse in den Audiosignalen auf Basis der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel, welche durch die Klassifizierauswahleinrichtung ausgewählt wird, extrahiert.
  • Durch die Bereitstellung einer Klassifizierdatenbank, welche Wichtigkeitsereignis-Klassifizierungsregeln aufweist, können die Wichtigkeitsereignis-Klassifizierungsregeln, welche durch die Wichtigkeitsereignis-Extraktionseinrichtung verwendet werden, leicht an die beobachteten Audiosignale angepasst werden.
  • Folglich kann die Länge der Sequenz von einem oder mehreren Fragmenten, welche einem entsprechenden Audiofenster zugeordnet wird, an die Wichtigkeitsereignis-Klassifizierungsregel, welche durch die Klassifizierauswahleinrichtung ausgewählt wurde, angepasst werden.
  • Somit können Wichtigkeitsereignis-Klassifizierungsregeln, welche für eine bestimmte Art von Audiosignalen spezialisiert (eingeübt) sind, verwendet werden. Die Verwendung spezieller Wichtigkeitsereignis-Klassifizierungsregeln verbessert die Genauigkeit der Extraktion wichtiger Ereignisse in Audiosignalen signifikant.
  • Die Ermittlung der Art des Programms, zu dem die Audiorahmen aktuell gehören, kann automatisch durch die Klassifizierauswahleinrichtung beispielsweise durch Ermitteln von akustischen Unterscheidungskenndaten in den Audiosignalen durchgeführt werden. Die akustischen Unterscheidungskenndaten könnten durch die Merkmalsextraktionseinrichtung bereitgestellt werden.
  • Es ist vorteilhaft, wenn die Art des Programms, zu dem die Audiosignale aktuell gehören, durch die Klassifizierauswahleinrichtung unter Verwendung eines Informationssignals, welches in den unbearbeiteten Signalen enthalten ist, identifiziert wird.
  • Durch Verwendung eines Informationssignals (beispielsweise eines EPG-Signals) kann die Art des Programms, zu dem die Audiosignale aktuell gehören, automatisch mit Leichtigkeit ermittelt werden.
  • Vorzugsweise sind die Wichtigkeitsereignis-Klassifizierungsregeln als verborgene Markov-Modelle und/oder neuronale Netzwerke und/oder Gaussche Mischmodelle und/oder Entscheidungsbäume vorgesehen.
  • Vorzugsweise wird das Emotionssignal, welches durch die Merkmalextraktionseinrichtung ausgegeben wird, gemäß vorher festgelegten Emotionsklassen normiert.
  • Diese Normierung des Emotionssignals reduziert die Komplexität einer Verarbeitung des Emotionssignals durch die Wichtigkeitsereignis-Extrakionseinrichtung signifikant.
  • Außerdem ist es vorteilhaft, wenn die Emotionsklassen eine Klasse für jeweils aufgeregt, enttäuscht, ärgerlich, glücklich und gelangweilt aufweisen.
  • Damit können die meisten allgemeinen Emotionen, welche in der menschlichen Sprache erkannt werden können, verwendet werden.
  • Es ist vorteilhaft, wenn die akustischen Kenndaten, welche zur Emotionserkennung verwendet werden, prosodische Merkmale aufweisen, welche Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer aufweisen.
  • Außerdem wird bevorzugt, dass die akustischen Kenndaten, welche zur Emotionserkennung verwendet werden, Qualitätsmerkmale umfassen, welche Phonationsart und/oder Artikulierungsart und/oder Sprachklangfarbe und/oder Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis aufweisen.
  • Die Verwendung von zumindest von Prosodie-Merkmalen und/oder Qualitätsmerkmalen der Audiosignale erlaubt eine einfache und verlässliche Erkennung einer Emotion in einem Sprachsignal.
  • Vorteilhafterweise umfasst die Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen außerdem eine Signalausgabeeinrichtung zum. Erzeugen einer Ausgangsdatei, wobei die Ausgangsdatei das unbearbeitete Signal enthält, welches zur Signaleingangseinrichtung geliefert wird, und ein Informationssignal, welches Information in Bezug auf die wichtigen Ereignisse enthält, welche im unbearbeiteten Signal enthalten sind.
  • Die Bereitstellung eines solchen Informationssignals erlaubt eine ausgeprägte Identifizierung der wichtigen Ereignisse, welche von den nichtbearbeiteten Audiosignalen extrahiert werden. Suchmaschinen und eine Signalwiedergabeeinrichtung können eine solche Ausgabedatei mit Leichtigkeit handhaben. Daher kann die Suche nach wichtigen Ereignissen, welche in der Ausgabedatei enthalten sind, mit Leichtigkeit durchgeführt werden.
  • Außerdem wird die obige Aufgabe durch ein Verfahren zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen gelöst, welches die folgenden Schritte aufweist:
    • – Partionieren von Audiosignalen in Audiofragmente einer vorher festgelegten Länge;
    • – Zuordnen einer Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster mehrerer Audiofenster;
    • – Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind;
    • – Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind; und
    • – Extrahieren wichtiger Ereignisse in Audiosignalen auf Basis vorher festgelegter Wichtigkeitsereignis-Klassifizierungsregeln unter Verwendung akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, und akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, wobei jedes wichtige Ereignis eine diskrete Sequenz zusammenhängender Audiofragmente aufweist, welche einem wichtigen Ereignis entsprechen, welches in Audiosignalen enthalten ist.
  • Hier umfasst das Verfahren zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen außerdem die folgenden Schritte:
    • – Erfassen eines Sprachsignals, welches in den Audiosignalen jedes Audiofensters enthalten ist,
    • – Erkennen einer Emotion im Sprachsignal auf Basis akustischer Kenndaten eines Audiosignals, welches im Sprachsignal enthalten ist; und
    • – Ausgeben eines entsprechenden Emotionssignals;
    wobei der Schritt zum Extrahieren wichtiger Ereignisse in Audiosignalen unter Verwendung des Emotionssignals durchgeführt wird.
  • Vorzugsweise weist der Schritt zum Analysieren akustischer Kenndaten in den Audiosignalen, welche in den Audiofragmenten enthalten sind, die Analyse der Nulldurchgangsrate und/oder Energie-Lautstärke und/oder Subband-Energierate und/oder Mel-Cepstrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite.
  • Vorzugsweise weist der Schritt zum Analysieren akustischer Kenndaten in den Audiosignalen, welche in den Audiofenstern enthalten sind, die Analyse der Lautstärke-Standardabweichung und/oder des dynamischen Lautstärkebereichs und/oder eines hohen Nulldurchgangs-Ratenverhältnisses und/oder niedrigen Kurzzeit-Energieverhältnisses und/oder des Spektralflusses auf.
  • Es ist vorteilhaft, wenn das Verfahren zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen außerdem folgende Schritte aufweist:
    • – Bereitstellen einer Klassifizierdatenbank, welche Wichtigkeitsereignis-Klassifizierungsregeln umfasst, wobei eine Wichtigkeitsereignis-Klassifizierungsregel für jede Programmart vorgesehen ist, welche im Audiosignal enthalten ist;
    • – Erfassen der Programmart, zu der die Audiosignale aktuell gehören; und
    • – Wählen einer geeigneten Wichtigkeitsereignis-Klassifizierungsregel von den Wichtigkeitsereignis-Klassifizierungsregeln, welche in der Klassifizierdatenbank gespeichert sind;
    wobei der Schritt zum Extrahieren wichtiger Ereignisse in den Audiosignalen auf Basis der geeigneten Wichtigkeitsereignis-Klassifizierungsregel durchgeführt wird.
  • Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung weist das Verfahren außerdem den Schritt zum Normieren des Emotionssignals gemäß vorher festgelegten Emotionsklassen auf.
  • Es ist vorteilhaft, wenn die akustischen Kenndaten die akustischen Kenndaten, welche im Schritt zum Erkennen einer Emotion im Sprachsignal verwendet werden, prosodische Merkmale umfassen, welche Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer umfassen.
  • Außerdem ist es vorteilhaft, wenn die akustischen Kenndaten, welche im Schritt zum Erkennen einer Emotion im Sprachsignal verwendet werden, Qualitätsmerkmale umfassen, welche die Phonationsart und/oder Artikulierungsart und/oder Sprachklangfarbe und/oder Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis umfassen.
  • Außerdem wird die obige Aufgabe gelöst durch ein Verfahren zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln zum Extrahieren wichtiger Ereigisse in Audiosignalen, welches folgende Schritte aufweist:
    • – Partionieren von Audiosignalen in Audiofragmente einer vorher festgelegten Länge;
    • – Zuordnen einer zeitlichen Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster der mehreren Audiofenster;
    • – Bezeichnen jedes Audiofensters mit einem vordefinierten Wichtigkeitsereignis-Etikett;
    • – Extrahieren von Fragmentkenndaten für die Audiofragmente in einem bestimmten Fenster durch Analyse akustischer Kenndaten der Audiosignale, welche in Audiofragmenten eines bestimmten Fensters enthalten sind;
    • – Extrahieren von Fensterkenndaten für das entsprechende Audiofenster durch Analyse akustischer Kenndaten des Audiosignals, welches im entsprechenden Audiofenster enthalten ist; und
    • – Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignis-Etikett unter Verwendung der Fragmentkenndaten und der Fensterkenndaten; Dabei umfasst das Verfahren folgende Schritte:
    • – Erfassen eines Sprachsignals im Audiosignal, welches im entsprechenden Audiofenster enthalten ist; und
    • – Erkennen der Emotion im Sprachsignal auf Basis prosodischer Merkmale
    und/oder Qualitätsmerkmale des Sprachsignals; wobei der Schritt zum Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignis-Etikett unter Verwendung der erkannten Emotion durchgeführt wird.
  • Durch Erkennen der Emotion in einem Sprachsignal und durch Verwendung der Emotion zum Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignisetikett wird die Genauigkeit der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel wesentlich verbessert.
  • Damit werden gemäß der vorliegenden Erfindung die Wichtigkeitsereignis-Klassifizierungsregeln automatisch auf Basis von akustischen Kenndaten der Audiosignale erzeugt, welche in den Audiofragmenten enthalten sind, und akustische Kenndaten des Audiosignals, welches in den entsprechenden Audiofenstern enthalten ist. Diese Wichtigkeitsereignis-Klassifizierungsregeln sind angepasst, unmittelbar wichtige Ereignisse in Audiosignalen auf Basis akustischer Kenndaten der Audiosignale zu extrahieren, ohne vorherige Klassifizierung von Fragmenten der Audiosignale oder einer Analyse einer Sequenz kohärenter Audioklassen.
  • Somit ist keine Klassifizierung der Audiosignale notwendig.
  • Es ist offensichtlich, dass die (zeitliche) Länge der Sequenz eines oder mehrerer Audiofragmente, welche einem entsprechenden Audiofenster zugeteilt werden, variabel oder fest/konstant sein kann. Die Länge der Sequenz kann entweder automatisch bestimmt werden, oder sie kann manuell durch einen Benutzer in Abhängigkeit von dem wichtigen Ereignis gewählt werden, welches in den Audiosignalen der entsprechenden Sequenz enthalten ist.
  • Es ist vorteilhaft, dass der Schritt zum Extrahieren von Fragmentkenndaten die Berechnung einer Nulldurchgangsrate und/oder Lautstärke und/oder Subband-Energierate und/oder Mel-Ceptrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite des Audiosignals umfasst, welches in dem jeweiligen Videofragment enthalten ist.
  • Daher können gemeinsame Merkmale der Audiosignale als akustische Kenndaten verwendet werden.
  • Es ist vorteilhaft, dass der Schritt zum Extrahieren von Fensterkenndaten der Schritt zum Extrahieren von Fensterkenndaten die Berechnung einer Lautstärke-Standardabweichung und/oder eines dynamischen Lautstärkebereichs und/oder eines hohen Nulldurchgangs-Ratenverhältnisses und/oder eines niedrigen Kurzzeit-Energieverhältnisses und/oder eines Spektralflusses des Audiosignals, welches im entsprechenden Videofenster enthalten ist, aufweist.
  • Vorteilhafterweise umfassen die prosodischen Merkmale zumindest Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer, und die Qualitätsmerkmale umfassen die Phonationsart und/oder die Artikulationsweise und/oder die Sprachklangfarbe und/oder die Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis.
  • Außerdem wird die obige Aufgabe durch ein Softwareprodukt gelöst, welches eine Reihe von Statuselementen umfasst, die angepasst sind, durch eine Datenverarbeitungseinrichtung eines Endgeräts verarbeitet zu werden, beispielsweise, dass das Verfahren nach einem der Ansprüche 12 bis 22 dafür ausgeführt werden kann.
  • In der nachfolgenden ausführlichen Beschreibung wird die Erfindung mit Hilfe der beiliegenden Zeichnungen erläutert, wobei durchwegs gleiche Bezugszeichen gleiche Teile bezeichnen, wobei:
  • 1 ein Blockdiagramm einer Vorrichtung zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ein Flussdiagramm einer bevorzugten Ausführungsform des erfinderischen Verfahrens zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen zeigt;
  • 3 ein Flussdiagramm einer bevorzugten Ausführungsform des erfinderischen Verfahrens zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen zeigt;
  • 4 ein Blockdiagramm einer Segmentierungsvorrichtung nach dem Stand der Technik zeigt; und
  • 5 schematisch die Wirkung der Segmentierungsvorrichtung gemäß dem Stand der Technik, welche diese auf Audiosignale hat, zeigt.
  • 1 zeigt ein Blockdiagramm einer Vorrichtung zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Bei der vorliegenden Ausführungsform wird ein unbearbeitetes Audiosignal 2 zur Signaleingangseinrichtung 3 der erfinderischen Vorrichtung zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen 1 geführt.
  • Bei dem vorliegenden Beispiel ist das unbearbeitete Audiosignal 2, welches für die Signaleingangseinrichtung 3 bereitgestellt wird, eine digitale Videodatendatei, welche auf einem geeigneten Aufzeichnungsmedium gespeichert ist (beispielsweise einer Festplatte oder einer digitalen Videoplatte).
  • Die digitale Videodatendatei besteht zumindest aus einem Audiosignal, einem Bildsignal und einem Informationssignal. Im vorliegenden Beispiel ist das Informationssignal ein typisches EPG-Signal (elektronischen Programmführungssignal).
  • Daher erlaubt das Informationssignal die Identifikation von sowohl einem Programm als auch einer Kategorie von den Signalen, zu denen die digitale Videodatendatei gehört.
  • Es ist für einen Fachmann offensichtlich, dass alternativ ein Informationssignal, welches die Identifikation einer Kategorie zulässt, zu der die Signale, welche in der digitalen Videodatendatei enthalten sind, gehören, abgesehen von einem EPG-Signal verwendet werden kann.
  • Weiter alternativ können die nichtbearbeiteten Signale, welches der Signaleingangseinrichtung 3 bereitgestellt werden, Realzeit-Videosignale eines herkömmlichen Fernsehkanals oder ein Audiosignal einer Rundfunksendestation sein.
  • Gemäß dieser Ausführungsform ist die Vorrichtung zur automatischen Extrahierung wichtiger Ereignisse in Audiosignalen 1 in einem digitalen Videorekorder enthalten, der in den Figuren nicht gezeigt ist.
  • Alternativ kann die Vorrichtung zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen in einer anderen digitalen Audio-/Videovorrichtung enthalten sein, beispielsweise einem Personalcomputer oder in einer Arbeitsstation oder könnte sogar als eine separate Vorrichtung vorgesehen werden (beispielsweise als Set-Top-Box).
  • Die Signaleingangseinrichtung 3 setzt die nichtbearbeiteten Signale 2 in ein geeignetes Format um.
  • Audiosignale, welche im nichtbearbeiteten Signal 2 enthalten sind, welches für die Signaleingangseinrichtung 3 bereitgestellt wird, werden durch die Signaleingangseinrichtung 3 ausgelesen und zur Audiosignal-Fragmentierungseinrichtung 4 übertragen.
  • Das Informationssignal, welches in den nichtbearbeiteten Signalen 2 enthalten ist, wird zur Klassifizierungseinrichtung 6 über die Signaleingangseinrichtung 3 übertragen.
  • Die Audiosignal-Fragmentierungseinrichtung 4 partioniert die Audiosignale in Audiofragmente einer vorgegebenen Länge.
  • Diese Audiofragmente sind vorzugsweise die kleinste Einheit der Audiosignalanalyse.
  • Bei der vorliegenden Ausführungsform weist ein Audiofragment einen Rahmen an Audio-(Video)-Signalen auf und hat ungefähr eine Länge von 10 Millisekunden.
  • Es ist für einen Fachmann offensichtlich, dass die Audiofragmente alternativ mehr als einen Rahmen der Audio-(Video)-Signale aufweisen können.
  • Außerdem kann ein Rahmen mehr oder weniger als 10 Millisekunden von Audiosignalen aufweisen (vorzugsweise zwischen 4 und 20 Millisekunden an Audiosignalen, beispielsweise 6, 8, 12 oder 14 Millisekunden an Audiosignalen.
  • Gemäß einer alternativen Ausführungsform besteht mehr als ein Rahmen in einem Audiofragment. In diesem Fall ist es für einen Fachmann offensichtlich, dass die Audiosignale, welche in jedem Audiofragment enthalten sind, weiter in mehrere Rahmen unterteilt werden können, beispielsweise 512 Proben. In diesem Fall ist es vorteilhaft, wenn aufeinanderfolgende Rahmen um 180 Proben in Bezug auf den jeweiligen vorhergehenden Rahmen verschoben sind. Diese Hilfsunterteilung erlaubt eine genaue und einfache Verarbeitung der Audiosignale, welche in jedem Audiofragment enthalten sind.
  • Außerdem ordnet die Audiosignal-Fragmentierungseinrichtung 4 eine Sequenz von einem oder mehreren Audiofragmenten und somit von einem oder mehreren Rahmen einem entsprechenden Audiofenster zu.
  • Bei der vorliegenden Ausführungsform ist die (zeitliche) Länge der Sequenz und somit die Anzahl an Fragmenten, welche in jedem Audiofenster vorhanden sind, von der jeweiligen Wichtigkeitsereignis-Klassifizierungsregel abhängig, welche für das entsprechende Audiosignal angewandt wird.
  • Gemäß einer alternativen Ausführungsform kann die (zeitliche) Länge der Sequenz von einem oder mehreren Audiofragmenten, welche dem jeweiligen Audiofenster zugeordnet wird, eine feste zeitliche Sequenz sein. Somit kann jedes Audiofenster die gleiche Anzahl an Audiofragmenten umfassen.
  • Es ist wichtig, zu betonen, dass die Audiosignal-Fragmentierungseinrichtung 4 die Audiosignale nicht notwendigerweise in Audiofragmente im wörtlichen Sinne unterteilen muss. Bei der vorliegenden Ausführungsform bestimmt die Audiosignal-Fragmentierungseinrichtung 4 Segmente von Audiosignalen, welche lediglich eine geeignete Menge an Audiosignalen innerhalb der Audiosignale aufweisen.
  • Entsprechend wird sogar die Zuteilung einer festen zeitlichen Sequenz von einem oder mehreren Audiofragmenten/Rahmen einem entsprechenden Audiofenster in einem wörtlichen Sinne nicht notwendigerweise durchgeführt.
  • Im vorliegenden Beispiel erzeugt die Audiosignal-Fragmentierungseinrichtung 4 eine Meta-Datendatei, welche Audiofragmente definiert, und Audiofenster im Audiosignal, während das Audiosignal selbst unverändert verbleibt.
  • Die Audiofragmente und die Audiofenster, welche durch die Audiosignal-Fragmentierungseinrichtung 4 definiert sind, werden zur Merkmalsextraktionseinrichtung 5 und zur Wichtigkeitsereignis-Extraktionseinrichtung 8 übertragen.
  • Die Merkmalsextraktionseinrichtung 5 analysiert akustische Kenndaten von Audiosignalen, welche in den Audiofragmenten enthalten sind.
  • Bei der vorliegenden Ausführungsform werden die Nulldurchgangsrate und Energie/Lautstärke und die Hilfsband-Energierate und die Mel-Cepstrum-Frequenzkomponenten und der Frequenzschwerpunkt und die Bandbreite der Signale, welche in den Audiofragmenten enthalten sind, durch die Merkmalsextraktionseinrichtung 5 analysiert.
  • Außerdem analysiert die Merkmalsextraktionseinrichtung 5 akustische Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind.
  • Bei der vorliegenden Ausführungsform werden die Volumenstandardabweichung und der dynamische Volumenbereich und ein hohes Nulldurchgangsratenverhältnis und ein Kurzzeit-Energieverhältnis und der Spektralfluss der Audiosignale, welche in den Audiofenstern enthalten sind, analysiert.
  • Gemäß einer alternativen Ausführungsform werden nur einige der oben angegebenen akustischen Kenndaten der Audiosignale, welche in den Audiofragmenten und den Audiofenstern enthalten sind analysiert.
  • Sowohl die akustischen Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, als auch die akustischen Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, werden an die Wichtigkeitsereignis-Extraktionseinrichtung 8 über die Merkmalsextraktionseinrichtung 5 ausgegeben. Zusätzlich werden die akustischen Kenndaten an die Klassifiziererauswahleinrichtung 6 ausgegeben.
  • Außerdem werden prosodische Merkmale (Tonhöhe, Tonhöhenbereich, Intonationshöhen, Lautstärke, Sprechrate und Phon-Dauer) und Qualitätsmerkmale (Phonationsart, Artikulationsart, Sprachklangfarbe, Spektralschräglage, Differenz der Amplitude zwischen Harmonischen und Formanten, Formantenbandbreite, Jitter, und Harmonisch-Rausch-Verhältnis) der Audiosignale, welche in den Audiofenstern enthalten sind, durch die Merkmalsextraktionseinrichtung 5 analysiert.
  • Durch Analysieren der obigen prosodischen Merkmale und Qualitätsmerkmale in den Audiosignalen, welche in jedem Audiofenster enthalten sind, ermittelt die Merkmalsextraktionseinrichtung 5 verlässlich ein Sprachsignal, welches in den Audiosignalen jedes Audiofensters enthalten ist.
  • Gemäß einer alternativen Ausführungsform werden lediglich einige der oben angegebenen prosodischen Merkmale und Qualitätsmerkmale der Audiosignale, welche in den Audiofenstern enthalten sind, analysiert, um ein Sprachsignal zu ermitteln, welches in den Audiosignalen jedes Audiofensters enthalten ist.
  • Auf Basis einer Emotion, welche im Sprachsignal erkannt wird, wird ein Emotionssignal durch die Merkmalsextraktionseinrichtung 5 erzeugt. Die Erkennung dieser Emotion wird durch bekannte Verfahren ausgeführt.
  • Das Emotionssignal wird durch die Merkmalsextraktionseinrichtung 5 gemäß den vorgegebenen Emotionsklassen normiert. Im vorliegenden Beispiel umfassen die Emotionsklassen eine Klasse für die Emotionsklassen eine Klasse für Erregung, enttäuscht, ärgerlich, glücklich oder gelangweilt.
  • Somit werden die meisten allgemeinen Emotionen, welche in der menschlichen Sprache erkannt werden können, verwendet.
  • Außerdem reduziert die Normierung des Emotionssignals signifikant die Komplexität einer weiteren Verarbeitung des Emotionssignals.
  • Das Emotionssignal, welches durch die Merkmalsextraktionseinrichtung 5 erzeugt wird, wird ebenfalls an die Wichtigkeitsereignis-Extraktionseinrichtung 8 ausgegeben.
  • Die Wichtigkeitsereignis-Extraktionseinrichtung 8 extrahiert automatisch wichtige Ereignisse/Inhalte in den Audiosignalen, welche durch die Audiosignal-Fragmentiereinrichtung 4 geliefert werden, wobei jedes wichtige Ereignis, welches durch die Wichtigkeitsereignis-Extraktionseinrichtung 8 extrahiert wird, eine diskrete Sequenz kohäsiver Audiofragmente entsprechend einem wichtigen Ereignis (Inhalt), welches in den Audiosignalen enthalten ist, umfasst.
  • Das wichtige Ereignis ist eine selbständige Aktivität, welche eine bestimmte minimale Wichtigkeit hat, welche in den Audiosignalen enthalten ist, welche in der Sequenz kohäsiver Audiofragmente enthalten sind.
  • Wenn die Kategorie der Audiosignale Nachrichten ist und das Programm ein bestimmtes Nachrichtenmagazin ist, können beispielsweise wichtige Ereignisse (Inhalte) die unterschiedlichen Nachrichten sein, welche im Nachrichtenmagazin erwähnt werden.
  • Die Extraktion wichtiger Ereignisse wird durch die Wichtigkeitsereignis-Extraktionseinrichtung 8 durchgeführt, wobei vorgegebene Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N auf Basis akustischer Kenndaten der Audiosignale verwendet werden, welche in den Audiofragmenten enthalten sind bzw. hinsichtlicher akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind.
  • Wie oben erwähnt werden die akustischen Kenndaten durch die Merkmalsextraktionseinrichtung 5 bereitgestellt.
  • Außerdem wird das Emotionssignal, welches durch die Merkmalsextraktionseinrichtung 5 bereitgestellt wird, durch die Wichtigkeitsereignis-Extraktionseinrichtung 8 verwendet, um wichtige Ereignisse in den Audiosignalen zu extrahieren und somit wichtige Ereignisse im Audiosignal zu identifizieren.
  • Es ist für einen Fachmann offensichtlich, dass die Extraktion wichtiger Ereignisse in den Audiosignalen nicht notwendigerweise in einem wörtlichen Sinne durchgeführt wird, sondern beispielsweise durch automatisches Erzeugen einer Meta-Datei (Informationssignal) durchgeführt werden könnte, welche eigens für das (unbearbeitete) Audiosignal bestimmt wäre, wobei die Meta-Datei beispielsweise Zeiger aufweist, um die wichtigen Ereignisse im Audiosignal zu identifizieren.
  • Bei der vorliegenden Ausführungsform identifizieren die Zeiger, welche in der Meta-Datei enthalten sind, sowohl die Lage als auch die Inhalte der wichtigen Ereignisse in den Audiosignalen.
  • Gemäß einer alternativen Ausführungsform können die Audiosignale, welche durch die Audiosignal-Fragmentierungseinrichtung geliefert werden, automatisch durch die Wichtigkeitsereignis-Extraktionseinrichtung indiskrete Sequenzen kohäsiver Audioclips segmentiert werden, wobei jede Sequenz kohäsiver Audioclips einem wichtigen Ereignis entspricht, welches in den Audiosignalen enthalten ist.
  • Es ist offensichtlich, dass die Segmentierung nicht notwendigerweise stetig durchgeführt werden muss. Es können Lücken nichtsegmentierter Audiosignale zwischen aufeinanderfolgenden Sequenzen kohäsiver Audioclips vorgesehen sein, welche wichtigen Ereignissen durch die Wichtigkeitsereignis-Extraktionseinrichtung zugeteilt wurden.
  • Mehrere Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N sind in der Klassifizierdatenbank 7 gespeichert, wobei eine Wichtigkeitsereignis-Klassifizierungsregel für jede Art eines Programms vorgesehen ist, welches im Audiosignal enthalten ist.
  • In dieser Hinsicht ist es für den Fachmann offensichtlich, dass jede Wichtigkeitsereignis-Klassifizierungsregel selbst mehrere Sekundärregeln enthalten kann.
  • Im vorliegenden Beispiel sind die vorgegebenen Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N in der Klassifizierdatenbank 7 als verborgene Markov-Modelle gespeichert.
  • Alternativ könnten die Wichtigkeitsereignis-Klassifizierungsregeln sogar beispielsweise als neuronale Netzwerke und/oder Gaussche Mischmodelle und/oder Entscheidungsbäume vorgesehen sein.
  • Bei der vorliegenden Ausführungsform ist die Klassifizierdatenbank 7 eine herkömmliche Festplatte. Alternativ könnte beispielsweise eine EEPROM oder ein Flash-Speicher verwendet werden.
  • Die Klassifizierauswahleinrichtung 6 identifiziert die Art des Programms, zu der die jeweiligen Audiosignale tatsächlich gehören, wobei das Informationssignal, welches durch die Signaleingangseinrichtung 3 bereitgestellt wird, verwendet wird.
  • Durch Verwendung des Informationssignals (EPG-Signal), welches in den nichtbearbeiteten Signalen enthalten ist, wird die Art des Programms, zu der die Audiosignale tatsächlich gehören, automatisch mit Leichtigkeit durch die Klassifizierauswahleinrichtung 6 ermittelt.
  • Alternativ könnte die Art des Programms, zu der die Audiosignale aktuell gehören, automatisch durch die Klassifizierauswahleinrichtung 6 ermittelt werden, wobei unterscheidende akustische Kenndaten in den Audiosignalen ermittelt werden, welche durch die Merkmalsextraktionseinrichtung 5 bereitgestellt werden.
  • Weiter alternativ könnte die Art des Programms, zu der die Audiosignale aktuell gehören, manuell durch einen Benutzer unter Verwendung einer Benutzerschnittstelle (in den Figuren nicht gezeigt) eingegeben werden.
  • Auf Basis der Art des Programms, zu der die Audiosignale tatsächlich gehören, wählt die Klassifizierauswahleinrichtung 6 eine geeignete Wichtigkeitsereignis-Klassifizierungsregel 71 von den Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N aus, welche in der Klassifizierdatenbank 7 gespeichert sind.
  • Bei der vorliegenden Ausführungsform wählt die Audiosignal-Fragmentierungseinrichtung 4 automatisch die Anzahl von Fragmenten, welche in jedem Audiofenster enthalten sind, in Abhängigkeit von der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel 71 aus, welche durch die Klassifizierauswahleinrichtung 6 ausgewählt wurde.
  • Außerdem extrahiert die Wichtigkeitsereignis-Extraktionseinrichtung 8 wichtige Ereignisse in den Audiosignalen auf Basis der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel 71, welche durch die Klassifizierauswahleinrichtung 6 ausgewählt wurde.
  • Da die Extraktion wichtiger Ereignisse in den Audiosignalen in Abhängigkeit von akustischen Kenndaten der Audiosignale durchgeführt wird, welche in den Audiofragmenten enthalten sind, und akustischen Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, wobei nur die entsprechende Wichtigkeitsereignis-Klassifizierungsregel 71 verwendet wird, ist keine frühere Klassifizierung der Audiosignale in Audioklassen notwendig.
  • Somit wird die Extraktion wichtiger Ereignisse lediglich in zwei Schritten durchgeführt. Als Konsequenz wird die Komplexität der Extraktion wichtiger Ereignisse in Audiosignalen durch die erfinderische Vorrichtung signifikant reduziert, um wichtige Ereignisse in den Audiosignalen 1 automatisch zu extrahieren.
  • Durch Vermeidung des Schritts zum Klassifizieren der Audiosignale in Audioklassen ist es außerdem nicht notwendig, weitere Audioklassen-Klassifizierungsregeln vorzusehen. Somit wird die zeitaufwendige, heuristische und subjektive Erzeugung von Audioklassen-Klassifizierungsregeln vermieden.
  • Durch Vermeiden von Audioklassen-Klassifizierungsregeln wird die Genauigkeit der Wichtigkeitsereignis-Extraktion von Audiosignalen verbessert, da außerdem die Anzahl von Fehlerquellen reduziert wird.
  • Durch die Bereitstellung einer Klassifizierdatenbank, welche Wichtigkeitsereignis-Klassifizierungsregeln aufweist, können die Wichtigkeitsereignis-Klassifizierungsregeln, welche durch die Wichtigkeitsereignis-Extraktionseinrichtung verwendet werden, leicht und individuell an die beobachteten Audiosignale angepasst werden.
  • Somit können Wichtigkeitsereignis-Klassifizierungsregeln, welche für eine bestimmte Art an Audiosignalen spezialisiert (trainiert) sind, verwendet werden. Die Verwendung spezialisierter Wichtigkeitsereignis-Klassifizierungsregeln verbessert signifikant die Genauigkeit, um wichtige Ereignisse in den Audiosignalen zu extrahieren, in Bezug auf die selbständigen Aktivitäten, welche zu einer minimalen Wichtigkeit passen, welche aktuell in den nichtbearbeiteten Audiosignalen enthalten sind.
  • Durch zusätzliches Verwenden des Emotionssignals, welches durch die Merkmalsextraktionseinrichtung 5 bereitgestellt wird, um Audiosignale in individuelle Sequenzen kohäsiver Audiofragmente zu segmentieren, erlaubt die Wichtigkeitsereignis-Extraktionseinrichtung eine automatische Extraktion wichtiger Ereignisse in Audiosignalen mit einer verbesserten Genauigkeit, da eine zusätzliche Informationsquelle für die Wichtigkeitsereignis-Extraktion verwendet wird.
  • Außerdem weist die erfinderische Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in den Audiosignalen 1 eine Signalausgabeeinrichtung 9 auf.
  • Diese Signalausgabeeinrichtung 9 erzeugt automatisch ein Verarbeitungssignal 10, welches das nicht bearbeitete Signal 2 enthält, welches durch die Signaleingangseinrichtung 3 zugeführt wird, und ein Informationssignal (Meta-Datei), welches Information aufweist, in Bezug auf die wichtigen Ereignisse, welche in dem nichtbearbeiteten Signal 2 enthalten ist.
  • Ein entsprechend verarbeitetes Signal 10 kann durch Suchmaschinen und eine Signalwiedergabeeinrichtung mit Leichtigkeit gehandhabt werden. Daher wird eine Suche nach wichtigen Ereignissen, welche im Verarbeitungssignal 10 enthalten sind, erleichtert.
  • Nachfolgend werden die bevorzugten Verfahren zur Analyse akustischer Kenndaten der Audiosignale ausführlich erläutert.
  • Die nachfolgenden akustischen Kenndaten werden vorzugsweise in den Audiosignalen analysiert, welche in den Audiofragmenten enthalten sind: RMS (Volumen)
    Figure 00330001
  • Nulldurchgangsrate ZCR
    • ZCR: Nulldurchgangsrate auf Rahmenbasis/sec → Häufigkeit pro Sekunde, wo das ADC-Signal sein Vorzeichen ändert
  • Frequenzschwerpunkt und Bandbreite
    Figure 00330002
    • N → Anzahl von Proben in einem Rahmen
    • k → Index der Fourier-Koeffizienten (k = 0...N/2)
    • Ncoef → Anzahl der Koeffizienten der FFT (N/2)
    • |Fn(k)|2 → Leistungsspektrum des n-ten Rahmens entsprechend dem k-ten Koeffizienten
    • Δf → Frequenzschritt der FFT → Δf = fs/N mit fs → Abtastrate.
    ERBS (Hilfsband-Energierate)
    von zu
    Band 0: 0 630 Hz k0 = 0* k1 = [630/Δf]
    Band 1: 630–1720 Hz k1 + 1 k1 = [1720/Δf]
    Band 2: 1720–4400 Hz k2 + 1 k1 = [4400/Δf]
    Band 3: 4400–11025 Hz k3 + 1 k1 = [11025/Δf]
    Figure 00340001
    • N → Anzahl von Proben in einem Rahmen
    • n → Index des n-ten Rahmens im adc-Signal
    • k → Index der Fourier-Koeffizienten (k = 0...N/2)
    • Ncoef → Anzahl der Koeffizienten der FFT (N/2)
    • |Fn(k)|2 → Leistungsspektrum des n-ten Rahmens entsprechend dem k-Koeffizient
  • Die folgenden akustischen Kenndaten werden vorzugsweise in den Audiosignalen analysiert, welche in den Audiofenstern enthalten sind:
    Alle Berechnungen werden unter Betrachtung des etikettierten Sprachsignals durchgeführt. "Ein Bereich" ist ein gleichförmig etikettierter Abschnitt der Sprache, d. h., der gesamte Bereich gehört zur gleichen Klasse. Berechnungen auf Fensterbasis mischen nicht zwei unterschiedliche etikettierte Bereiche, wobei anstelle der davon die Berechnung nacheinander zwischen dem Anfang und dem Ende jedes Bereichs ausgeführt wird. Die Anzahl von Fenstern innerhalb eines gleichförmigetikettierten Bereichs ist:
    Figure 00350001
    wobei beide Begriffe des Quotienten auf die nächste niedrige ganze Zahl gerundet sind. Wenn beispielsweise angenommen wird, dass die Rahmenverschiebung 10 ms ist, wird ein Bereich von 12,56 s gleich 12,56 Rahmen haben, und ein 1-Sekunden-Fenster wird 100 Rahmen enthalten. Daher ist die Anzahl von Fenstern 13, wobei das letzte 56 Rahmen enthält.
  • Für jedes Fenster Wi wird ein Merkmalswert geschätzt. VSTD (Volumenstandardabweichung)
    Figure 00350002
    • n → Indes des n-ten Rahmens im Bereich
    • W → Anzahl von Rahmen in einem Fenster
    • vn → Mittelwert in einem Fenster
    • maxW {vn} → maximales Volumen innerhalb eines Fensters
    VDR (dynamischer Volumenbereich)
    Figure 00350003
    • maxW1 {vn} und minW1 {vn} zeigen das maximale und minimale Volumen innerhalb des Fensters
  • HZCRR (hohes Nulldurchgangs-Ratenverhältnis
  • Zunächst wird der Mittelwert des ZCR innerhalb des Fensters berechnet:
    Figure 00360001
  • Danach wird für jeden Rahmen der Wert von ZCR mit einem Schwellenwert verglichen, um zu sehen, ob der ZCR-Wert über der 1,5-Faltungszwischenwert ZCR im Fenster ist. Für alle Rahmen (n) innerhalb eines Fensters (W). wenn ZCRn ≥ 1,5 × aνZCRW 1 → contHZCRRW++
  • Und schließlich das Verhältnis der Rahmen, dessen ZCR über aνZCRW1 ist:
    Figure 00360002
  • LSTER (niedriges Kurzzeit-Energieverhältnis)
  • Die Definition der Kurzzeitenergie ist:
    Figure 00360003
  • Zunächst wird der Mittelwert von STE innerhalb des Fensters berechnet:
    Figure 00360004
  • Dann wird für jeden Rahmen, wenn der Wert von STE niedriger ist als die Hälfte des Durchschnitts über dem Fenster, dies als niedrige kurze Energie betrachtet, ansonsten nicht. Für alle Rahmen (n) innerhalb eines Fensters (W): wenn STEn ≤ 0,5 × aνSTEW1 → contSTEW++
  • Und schließlich das Verhältnis von Rahmen, deren STE "niedrige Energie" sind:
    Figure 00370001
  • SF (Spektralfluss)
  • Durchschnittlicher Schwankungswert des Spektrums zwischen benachbarten Zweirahmen in einem Fenster:
    Figure 00370002
    • n → Index des n-ten Rahmens innerhalb des Fensters (n = 0...W-1)
    • N → Anzahl von Proben in einem Rahmen
    • k → Index der Fourier-Koeffizienten (k = 0...N/2)
    • Ncoef → Anzahl von Koeffizienten der FFT (N/2)
    • |Fn(k)| ist das Amplitudenspektrum des n-ten Rahmens entsprechend dem k-ten Koeffizienten.
  • 2 zeigt ein Flussdiagramm des erfinderischen Verfahrens zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Im Schritt S1 werden Audiosignale automatisch in Audiofragmente einer vorgegebenen Länge partioniert. Bei der aktuellen bevorzugten Ausführungsform ist die Länge der Fragmente jeweils ein Rahmen.
  • Im folgenden Schritt S2 wird eine zeitliche Sequenz von einem oder mehreren kohäsiven Audiofragmenten automatisch einem entsprechenden Audiofenster von mehreren Audiofenstern zugeordnet.
  • Bei der vorliegenden Ausführungsform ist die (zeitliche) Länge der Sequenz von einem oder mehreren Audiofragmenten, welches einem entsprechenden Audiofenster zugeordnet ist, eine feste zeitliche Länge und somit konstant. Daher weist jedes Audiofenster die gleiche Anzahl von Audiofragmenten auf.
  • Gemäß einer alternativen Ausführungsform kann die (zeitliche) Länge der Sequenz und somit die Anzahl von Fragmenten, welche in jedem Audiofenster enthalten sind, von der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel abhängen, welche im Schritt S7 gewählt wurde, zum Auswählen einer geeigneten Wichtigkeitsereignis-Klassifizierungsregel. Es ist offensichtlich für den Fachmann, dass die Reihenfolge/Aufeinanderfolge der Schritte S2 und S5–S7 in diesem Fall vertauscht werden müsste.
  • Eine Klassifizierdatenbank 7, welche Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N aufweist, wird im Verfahrensschritt S5 bereitgestellt. Eine Wichtigkeitsereignis-Klassifizierungsregel ist in der Klassifizierdatenbank für jede Art eines Programms, welches im Audiosignal enthalten ist, gespeichert.
  • Eine Art des Programms, zu der das Audiosignal aktuell gehört, wird automatisch im folgenden Schritt S6 ermittelt, wobei eine geeignete Wichtigkeitsereignis-Klassifizierungsregel 71 von den Wichtigkeitsereignis-Klassifizierungsregeln 71, 72, 7k, 7N, welche in der Klassifizierdatenbank 7 gespeichert sind, automatisch im Schritt S7 ausgewählt wird.
  • Die akustischen Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, und die akustischen Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, werden automatisch in den parallelen Schritten S3 bzw. S4 analysiert.
  • Parallel zum Verfahrensschritt S4 wird ein Sprachsignal, welches im Audiosignal jedes Audiofensters enthalten ist, automatisch im Schritt S8 ermittelt.
  • Im Schritt S9 wird eine Emotion im Sprachsignal automatisch auf Basis von akustischen Kenndaten eines Audiosignals erkannt, welches im Sprachsignal enthalten ist.
  • Danach wird ein entsprechendes Emotionssignal automatisch im Schritt S10 ausgegeben.
  • Im Verfahrensschritt S11 werden wichtige Ereignisse im Audiosignal automatisch extrahiert, wobei jedes wichtige Ereignis eine diskrete Sequenz kohäsiver Audiofragmente aufweist, welche einem wichtigen Ereignis entsprechen, welches in den Audiosignalen enthalten ist.
  • Die Extraktion wichtiger Ereignisse wird im Schritt S11 auf Basis der Wichtigkeitsereignis-Klassifizierungsregel 71 durchgeführt, welche im Schritt S7 ermittelt wurde, unter Verwendung von sowohl akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, als auch akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind. Außerdem wird das Emotionssignal, welches im Schritt S10 ausgegeben wird, im Schritt S11 verwendet, um wichtige Ereignisse in den Audiosignalen zu extrahieren.
  • Wie oben ausgeführt muss die Extraktion der wichtigen Ereignisse nicht notwendigerweise in wörtlicher Weise durchgeführt werden, sondern kann durch automatisches Erzeugen einer Meta-Datei/Informationssignal durchgeführt werden, welche Identifikation der wichtigen Ereignisse in den Audiosignalen zulässt.
  • Alternativ kann eine Segmentierung der Audiosignale in individuelle Sequenzen kohäsiver Audioclips durchgeführt werden, wobei jede Sequenz kohäsiver Audioclips einem wichtigen Ereignis/Inhalt (selbständige Aktivität, welche minimale Wichtigkeit trifft), welche in den Audiosignalen enthalten ist, entspricht.
  • Nachfolgend wird das erfinderische Verfahren zum automatischen Erzeugen Wichtigkeitsereignis-Klassifizierungsregeln zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen mit Hilfe von 3 erläutert.
  • In einem ersten Schritt S21 werden die Audiosignale automatisch in Audiofragmente einer vorgegebenen Länge unterteilt. Bei der vorliegenden Ausführungsform weist jedes Audiofragment einen Rahmen (ungefähr 10 Millisekunden) an Audiosignalen auf.
  • Gemäß einer alternativen Ausführungsform kann jedes Audiofragment mehrere Rahmen oder eine beliebige Menge an Audiosignalen aufweisen.
  • Eine zeitliche Sequenz von einem oder mehreren Audiofragmenten wird einem entsprechenden Audiofenster in einem zweiten Schritt S22 zugeordnet.
  • Es ist offensichtlich, dass die (zeitliche) Länge der Sequenz von einem oder mehreren Audiofragmenten, welche einem entsprechenden Audiofenster zugeordnet ist, variabel sein kann oder fest sein kann (konstant). Daher kann die Anzahl von Audiofragmenten, welche in jedem Audiofenster enthalten ist, variabel oder fest (konstant) sein.
  • Die Länge der Sequenz kann entweder automatisch bestimmt werden oder manuell durch einen Benutzer in Abhängigkeit von der Länge eines entsprechenden wichtigen Ereignisses, welches in den Audiosignalen enthalten ist, ausgewählt werden.
  • Bei der vorliegenden Ausführungsform wird die Zuordnung einer zeitlichen Sequenz von einem oder mehreren Audiofragmenten zu einem entsprechenden Audiofenster im Schritt S22 durch einen Benutzer manuell durchgeführt.
  • Im Schritt S23 wird jedes Audiofenster manuell oder automatisch mit einem vorgegebenen (beispielsweise manuell erzeugten) Wichtigkeitsereignisetikett bezeichnet.
  • Diese Wichtigkeitsereignisetiketten charakterisieren wichtige Ereignisse/Inhalte (selbständige Aktivität, welche minimale Wichtigkeit erfüllen), welche in den Audiosignalen enthalten sind, welche in jedem Audiofenster enthalten sind. Wenn die Art eines Programms beispielsweise Fußball ist, können die wichtigen Ereignisse/Inhalte Abstoß, Strafstoß, Einwurf usw. sein. Im Fall, wo die Art des Programms Fußball ist, ist ein Wichtigkeitsereignisetikett vorgesehen, um somit Abstoß, Strafstoß, Einwurf usw, zu identifizieren.
  • In der vorliegenden Ausführungsform wird das Bezeichnen der Audiofenster im Schritt S23 manuell durch einen Benutzer in Abhängigkeit von dem entsprechenden wichtigen Ereignis durchgeführt, welches in den Audiosignalen enthalten ist, welche in den jeweiligen Audiofenstern enthalten sind.
  • Im folgenden Schritt S24 werden die akustischen Kenndaten von Audiosignalen, welche in den Audiofragmenten eines bestimmten Fensters enthalten sind, automatisch analysiert, um Fragmentkenndaten zu extrahieren.
  • Bei der vorliegenden Ausführungsform wird die Analyse akustischer Kenndaten von Audiosignalen, welche in den Audiofragmenten enthalten sind, durch Berechnen einer Nulldurchgangsrate und/oder Volumen und/oder Hilfsband-Energierate und/oder Mel-Cepstrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite der Audiosignale, welche in den jeweiligen Audiofragmenten enthalten sind, durchgeführt.
  • Im parallelen Schritt S25 werden die akustischen Kenndaten der Audiosignale, welche in den jeweiligen Audiofenstern enthalten sind, automatisch analysiert, um Fensterkenndaten zu extrahieren.
  • Bei der vorliegenden Ausführungsform wird diese Analyse akustischer Kenndaten von Audiosignalen, welche in den jeweiligen Audiofenstern enthalten sind, durch Berechnen einer Volumenstandardabweichung und/oder eines dynamischen Volumenbereichs und/oder einer hohen Nulldurchgangsratenverhältnis und/oder eines niedrigen Kurzzeit-Energieverhältnisses und/oder eines Spektralflusses der Audiosignale, welche in den jeweiligen Audiofenstern enthalten sind, durchgeführt.
  • Im folgenden Schritt S26 wird ein Sprachsignal im Audiosignal, welches in dem jeweiligen Audiofenstern enthalten ist, automatisch ermittelt. Danach wird im Schritt S27 die Emotion im Sprachsignal automatisch auf Basis einer Analyse prosodischer Merkmale und/oder Qualitätsmerkmale des Sprachsignals erkannt.
  • Bei der vorliegenden Ausführungsform umfassen die prosodischen Merkmale die Tonhöhe und/oder den Tonhöhenbereich und/oder die Intonationshöhe und/oder die Lautstärke und/oder die Sprachrate und/oder die Lautstärkedauer.
  • Außerdem weisen bei der vorliegenden Ausführungsform die Qualitätsmerkmale die Phonationsart und/oder die Artikulierungsart und/oder die Sprachklangfarbe und/oder die Spektralschräglage und/oder die Differenz der Amplitude zwischen Harmonischen und Formanten und/oder Formantenbandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis auf.
  • Schließlich wird im Schritt S28 eine Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignisetikett automatisch unter Verwendung der Fragmentkenndaten, der Fensterkenndaten und der erkannten Emotion erzeugt.
  • Daher kann eine Wichtigkeitsereignis-Klassifizierungsregel, welche für jedes vorher festgelegte Wichtigkeitsereignisetikett spezialisiert ist, automatisch unter Verwendung des erfinderischen Verfahrens zur automatischen Erzeugung von Wichtigkeitsereignisqualifizierungsregeln gefunden werden.
  • Da die Wichtigkeitsereignis-Klassifizierungsregeln automatisch unter Verwendung von mehreren Audiofenstern mit dem vorgegebenen Wichtigkeitsereignisetikett erzeugt werden können, können die Wichtigkeitsereignis- Klassifizierungsregeln verlässlich geübt werden und liefern daher eine hohe Genauigkeit. Außerdem sind die automatisch erzeugten Wichtigkeitsereignis-Klassifizierungsregeln nicht subjektiv, da deren Kriterien nicht durch einen Benutzer beliebig ausgewählt werden.
  • Somit werden gemäß der vorliegenden Erfindung die Wichtigkeitsereignis-Klassifizierungsregeln automatisch auf Basis von sowohl akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, als auch akustischer Kenndaten des Audiosignals, welches im jeweiligen Audiofenster enthalten ist, erzeugt. Die entsprechend erzeugten Wichtigkeitsereignis-Klassifizierungsregeln sind angepasst, um sofort wichtige Ereignisse in Audiosignalen ohne vorherige Klassifizierung der Audiosignale zu extrahieren.
  • Durch zusätzliches Erkennen der Emotion im Sprachsignal eines bezeichneten Audiofensters und unter Verwendung der Emotion zum automatischen Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das jeweilige wichtige Ereignis wird die Genauigkeit der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel weiter signifikant verbessert.
  • Um die Verständlichkeit von 1 zu verbessern, sind die Ergänzungseinrichtung, beispielsweise die Spannungsversorgung, die Pufferspeicher usw. nicht gezeigt.
  • Bei einer Ausführungsform der vorliegenden Erfindung, welche in 1 gezeigt ist, werden separate Mikroprozessoren für die Signaleingangseinrichtung 3, die Audiosignal-Fragmentierungseinrichtung 4, die Merkmalsextraktionseinrichtung 5, die Klassifizierauswahleinrichtung 6, die Wichtigkeitsereignis-Extraktionseinrichtung 8 und die Signalausgangseinrichtung 9 verwendet.
  • Alternativ kann ein einzelner Mikrocomputer verwendet werden, der die Signaleingangseinrichtung, die Audiosignal-Fragmentierungseinrichtung, die Merkmalsextraktionseinrichtung, die Klassifizierauswahleinrichtung, die Wichtigkeitsereignis-Extraktionseinrichtung und die Signalausgabeeinrichtung aufweist.
  • Weiter alternativ kann die Signaleingangseinrichtung und die Signalausgangseinrichtung in einem allgemeinen Computer eingebaut sein und die Audiosignal-Fragmentierungseinrichtung, die Merkmalsextraktionseinrichtung, die Klassifizierauswahleinrichtung und die Wichtigkeitsereignis-Extraktionseinrichtung können in einem anderen gemeinsamen Computer eingebaut sein.
  • Vorzugsweise kann die erfinderische Audiosignal-Wichtungskeitsereignis-Extraktionsvorrichtung in einem digitalen Videorekorder oder einer Set-Top-Box integriert sein, oder unter Verwendung eines herkömmlichen Personalcomputers oder einer Arbeitsstation realisiert werden.
  • Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung (welche in den Figuren nicht gezeigt ist) wird die obige Aufgabe durch ein Softwareprodukt gelöst, welches eine Reihe von Zustandselementen aufweist, die eingerichtet sind, durch eine Datenverarbeitungseinrichtung eines Endgeräts verarbeitet zu werden, so dass das Verfahren nach einem der Ansprüche 13 bis 25 daraufhin ausgeführt werden kann.
  • Das Endgerät kann ein Personalcomputer oder beispielsweise eine Videoaufzeichnungs-/Wiedergabevorrichtung sein.
  • Zusammengefasst verwenden die erfinderische Vorrichtung und das Verfahren zum automatischen Extrahieren wichtiger Ereignisse in Audiosignalen einen einfachen und verlässlichen Weg zum Extrahieren eines wichtigen Ereignisses in Audiosignalen und liefern eine verbesserte Genauigkeit. Außerdem wird ein Verfahren zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln zum Extrahieren eines wichtigen Ereignisses in Audiosignalen bereitgestellt.

Claims (23)

  1. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen (1), welche aufweist: – eine Signaleingangseinrichtung (3) zum Zuführen von Audiosignalen (2); – eine Audiosignal-Fragmentierungseinrichtung (4) zum Partionieren von Audiosignalen, welche über die Signaleingangseinrichtung (3) zugeführt werden, in Audiofragmente einer vorher festgelegten Länge und zum Zuordnen einer Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster; – eine Merkmalextraktionseinrichtung (5) zum Analysieren akustischer Kenndaten der Audiosignale, die in den Audiofragmenten enthalten sind, und zum Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind; und – eine Wichtigkeitsereignis-Extraktionseinrichtung (8) zum Extrahieren wichtiger Ereignisse in Audiosignalen, welche durch die Audiosignal-Fragmentierungseinrichtung (4) zugeführt werden, auf Basis vorher festgelegter Wichtigkeits-Ereignisklassifizierungsregeln (71, 72, 7k, 7N) in Abhängigkeit von akustischen Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, und akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, wobei jedes wichtige Ereignis, welches durch die Wichtigkeitsereignis-Extraktionseinrichtung (8) extrahiert wird, eine diskrete Sequenz zusammenhängender Audiofragmente ausweist, welche einem wichtigen Ereignis entsprechen, welches in den Audiosignalen enthalten ist, dadurch gekennzeichnet, dass die Merkmalextraktionseinrichtung (5) ein Sprachsignal erfasst, welches im Audiosignal jedes Audiofensters enthalten ist, Emotion im Sprachsignal auf Basis akustischer Kenndaten eines Audiosignals erkennt, welches im Sprachsignal enthalten ist, und ein entsprechendes Emotionssignal an die Wichtigkeitsereignis-Extraktionseinrichtung (8) ausgibt; und wobei die Wichtigkeitsereignis-Extraktionseinrichtung (8) das Emotionssignal, welches durch die Merkmalextraktionseinrichtung (5) bereitgestellt wird, verwendet, um wichtige Ereignisse in Audiosignalen zu extrahieren.
  2. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 1, dadurch gekennzeichnet, dass die akustischen Kenndaten, welche in den Audiosignalen analysiert werden, welche in den Audiofragmenten enthalten sind, Nulldurchgangsrate und/oder Energie/Lautstärke und/oder Subband-Energierate und/oder Mel-Cepstrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite umfassen.
  3. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die akustischen Kenndaten, welche in den Audiosignalen analysiert werden, die in den Audiofenstern enthalten sind, Lautstärke-Standardabweichung und/oder Lautstärke-Dynamikbereich und/oder hohes Nulldurchgangs-Ratenverhältnis und/oder niedriges Kurzzeit-Energieverhältnis und/oder Spektralfluss aufweisen.
  4. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen (1) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen (1) außerdem aufweist: – eine Klassifizierdatenbank (7), welche Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N) aufweist, wobei eine Wichtigkeitsereignis-Klassifizierungsregel (71, 72, 7k, 7N) für jede Programmart, welche im Audiosignal enthalten ist, vorgesehen ist; und – eine Klassifizierauswahleinrichtung (6) zum Erfassen der Programmart der Audiosignale, zu der sie aktuell gehören, und zum Auswählen einer geeigneten Wichtigkeitsereignis-Klassifizierungsregel (71) von den Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N), welche in der Klassifizierdatenbank (7) gespeichert sind; wobei die Wichtigkeitsereignis-Extraktionseinrichtung (8) wichtige Ereignisse in den Audiosignalen auf Basis der entsprechenden Wichtigkeitsereignis-Klassifizierungsregel (71), welche durch die Klassifizierauswahleinrichtung (6) ausgewählt wird, extrahiert.
  5. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 4, dadurch gekennzeichnet, dass die Programmart, zu der die jeweiligen Audiosignale aktuell gehören, durch die Klassifizierauswahleinrichtung (6) unter Verwendung eines Informationssignals, welches in den unbearbeiteten Signalen (2) enthalten ist, identifiziert wird.
  6. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N) als verborgene Markov-Modelle und/oder neuronale Netzwerke und/oder Gaussche Mischmodelle und/oder Entscheidungsbäume vorgesehen sind.
  7. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 1, dadurch gekennzeichnet, dass das Emotionssignal, welches durch die Merkmalextraktionseinrichtung (5) ausgegeben wird, gemäß vorher festgelegten Emotionsklassen normiert wird.
  8. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 7, dadurch gekennzeichnet, dass die Emotionsklassen eine Klasse für jeweils aufgeregt, enttäuscht, ärgerlich, glücklich und gelangweilt aufweisen.
  9. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 1, 7 oder 8 dadurch gekennzeichnet, dass die akustischen Kenndaten, welche zur Emotionserkennung verwendet werden, prosodische Merkmale aufweisen, welche Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer aufweisen.
  10. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach einem der Ansprüche 1 oder 7 bis 9, dadurch gekennzeichnet, dass die akustischen Kenndaten, welche zur Emotionserkennung verwendet werden, Qualitätsmerkmale umfassen, welche Phonationsart und/oder Artikulierungsart und/oder Sprachklangfarbe und/oder Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis aufweisen.
  11. Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen (1) außerdem aufweist: – eine Signalausgabeeinrichtung (9) zum Erzeugen einer Ausgangsdatei (10); wobei die Ausgangsdatei das unbearbeitete Signal (2) enthält, welches zur Signaleingangseinrichtung (3) geliefert wird, und ein Informationssignal, welches Information in Bezug auf die wichtigen Ereignisse enthält, welche im unbearbeiteten Signal (2) enthalten sind.
  12. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen, welches die folgenden Schritte aufweist: – (S1) Partionieren von Audiosignalen in Audiofragmente einer vorher festgelegten Länge; – (S2) Zuordnen einer Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster mehrerer Audiofenster, – (S3) Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind; – (S4) Analysieren akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind; und – (S11) Extrahieren wichtiger Ereignisse in Audiosignalen auf Basis vorher festgelegter Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N) unter Verwendung akustischer Kenndaten der Audiosignale, welche in den Audiofragmenten enthalten sind, und akustischer Kenndaten der Audiosignale, welche in den Audiofenstern enthalten sind, wobei jedes wichtige Ereignis eine diskrete Sequenz zusammenhängender Audiofragmente aufweist, welche einem wichtigen Ereignis entsprechen, welches in Audiosignalen enthalten ist; gekennzeichnet durch – (S8) Erfassen eines Sprachsignals, welches in den Audiosignalen jedes Audiofensters enthalten ist, – (S9) Erkennen einer Emotion im Sprachsignal auf Basis akustischer Kenndaten eines Audiosignals, welches im Sprachsignal enthalten ist; und – (S10) Ausgeben eines entsprechenden Emotionssignals; wobei der Schritt (S11) zum Extrahieren wichtiger Ereignisse in Audiosignalen unter Verwendung des Emotionssignals durchgeführt wird.
  13. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 12, dadurch gekennzeichnet, dass der Schritt (S3) zum Analysieren akustischer Kenndaten in den Audiosignalen, welche in den Audiofragmenten enthalten sind, die Analyse der Nulldurchgangsrate und/oder Energie-Lautstärke und/oder Subband-Energierate und/oder Mel-Cepstrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite umfasst.
  14. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass der Schritt (S4) zum Analysieren akustischer Kenndaten in den Audiosignalen, welche in den Audiofenstern enthalten sind, die Analyse der Lautstärke-Standardabweichung und/oder des dynamischen Lautstärkebereichs und/oder eines hohen Nulldurchgangs-Ratenverhältnisses und/oder niedrigen Kurzzeit-Energieverhältnisses und/oder des Spektralflusses aufweist.
  15. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass das Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen außerdem folgende Schritte aufweist: – (S5) Bereitstellen einer Klassifizierdatenbank, welche Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N) umfasst, wobei eine Wichtigkeitsereignis-Klassifizierungsregel (71, 72, 7k, 7N) für jede Programmart vorgesehen ist, welche im Audiosignal enthalten ist; – (S6) Erfassen der Programmart, zu der die Audiosignale aktuell gehören; und – (S7) Wählen einer geeigneten Wichtigkeitsereignis-Klassifizierungsregel (71) von den Wichtigkeitsereignis-Klassifizierungsregeln (71, 72, 7k, 7N), welche in der Klassifizierdatenbank gespeichert sind; wobei der Schritt (S11) zum Extrahieren wichtiger Ereignisse in den Audiosignalen auf Basis der geeigneten Wichtigkeitsereignis-Klassifizierungsregel (71) durchgeführt wird.
  16. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 12, dadurch gekennzeichnet, dass das Verfahren außerdem folgenden Schritt aufweist: – (S12) Normieren des Emotionssignals gemäß vorher festgelegten Emotionsklassen.
  17. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach Anspruch 12 oder 16, dadurch gekennzeichnet, dass die akustischen Kenndaten, welche im Schritt (S9) zum Erkennen einer Emotion im Sprachsignal verwendet werden, prosodische Merkmale umfassen, welche Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer umfassen.
  18. Verfahren zur automatischen Extraktion wichtiger Ereignisse in Audiosignalen nach einem der Ansprüche 12, 16 oder 17, dadurch gekennzeichnet, dass die akustischen Kenndaten, welche im Schritt (S9) zum Erkennen einer Emotion im Sprachsignal verwendet werden, Qualitätsmerkmale umfassen, welche die Phonationsart und/oder Artikulierungsart und/oder Sprachklangfarbe und/oder Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis umfassen.
  19. Verfahren zur automatischen Erzeugung von Wichtigkeitsereignis-Klassifizierungsregeln zur Extraktion wichtiger Ereignisse in Audiosignalen, welches die folgenden Schritte aufweist: – (S21) Partionieren von Audiosignalen in Audiofragmente einer vorher festgelegten Länge; – (S22) Zuordnen einer zeitlichen Sequenz von einem oder mehreren Audiofragmenten einem entsprechenden Audiofenster der mehreren Audiofenster; – (S23) Bezeichnen jedes Audiofensters mit einem vordefinierten Wichtigkeitsereignis-Etikett; – (S24) Extrahieren von Fragmentkenndaten für die Audiofragmente in einem bestimmten Fenster durch Analyse akustischer Kenndaten der Audiosignale, welche in Audiofragmenten eines bestimmten Fensters enthalten sind; – (S25) Extrahieren von Fensterkenndaten für das entsprechende Audiofenster durch Analyse akustischer Kenndaten des Audiosignals, welches im entsprechenden Audiofenster enthalten ist; und – (S28) Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignis-Etikett unter Verwendung der Fragmentkenndaten und der Fensterkenndaten; gekennzeichnet durch – (S26) Erfassen eines Sprachsignals im Audiosignal, welches im entsprechenden Audiofenster enthalten ist; und – (S27) Erkennen der Emotion im Sprachsignal auf Basis prosodischer Merkmale und/oder Qualitätsmerkmale des Sprachsignals; wobei der Schritt (S28) zum Erzeugen einer Wichtigkeitsereignis-Klassifizierungsregel für das entsprechende Wichtigkeitsereignis-Etikett unter Verwendung der erkannten Emotion durchgeführt wird.
  20. Verfahren zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln nach Anspruch 19, dadurch gekennzeichnet, dass der Schritt (S24) zum Extrahieren von Fragmentkenndaten die Berechnung einer Nulldurchgangsrate und/oder Lautstärke und/oder Subband-Energierate und/oder Mel-Ceptrum-Frequenzkomponenten und/oder Frequenzschwerpunkt und/oder Bandbreite des Audiosignals umfasst, welches in dem jeweiligen Videofragment enthalten ist.
  21. Verfahren zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln nach Anspruch 19 oder 20, dadurch gekennzeichnet, dass der Schritt (S25) zum Extrahieren von Fensterkenndaten die Berechnung einer Lautstärke-Standardabweichung und/oder eines dynamischen Lautstärkebereichs und/oder eines hohen Nulldurchgangs-Ratenverhältnisses und/oder eines niedrigen Kurzzeit-Energieverhältnisses und/oder eines Spektralflusses des Audiosignals, welches im entsprechenden Videofenster enthalten ist, aufweist.
  22. Verfahren zum automatischen Erzeugen von Wichtigkeitsereignis-Klassifizierungsregeln nach Anspruch 21, dadurch gekennzeichnet, dass die prosodischen Merkmale Tonhöhe und/oder Tonhöhenbereich und/oder Intonationsverhalten und/oder Lautstärke und/oder Sprechrate und/oder Lautdauer umfassen; und die Qualitätsmerkmale die Phonationsart und/oder die Artikulationsweise und/oder die Sprachklangfarbe und/oder die Spektralschräglage und/oder Amplitudendifferenz zwischen Harmonischen und Formanten und/oder Formant-Bandbreite und/oder Jitter und/oder Harmonisch-Rausch-Verhältnis aufweist.
  23. Softwareprodukt, welches eine Reihe von Instruktionen aufweist, die angepasst sind, durch eine Datenverarbeitungseinrichtung eines Endgeräts verarbeitet zu werden, so dass ein Verfahren nach einem der Ansprüche 12 bis 22 daraufhin ausgeführt wird.
DE60320414T 2003-11-12 2003-11-12 Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen Expired - Lifetime DE60320414T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03026049A EP1531458B1 (de) 2003-11-12 2003-11-12 Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen

Publications (2)

Publication Number Publication Date
DE60320414D1 DE60320414D1 (de) 2008-05-29
DE60320414T2 true DE60320414T2 (de) 2009-05-20

Family

ID=34429360

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60320414T Expired - Lifetime DE60320414T2 (de) 2003-11-12 2003-11-12 Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen

Country Status (3)

Country Link
US (1) US8635065B2 (de)
EP (1) EP1531458B1 (de)
DE (1) DE60320414T2 (de)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1531456B1 (de) 2003-11-12 2008-03-12 Sony Deutschland GmbH Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
US7467219B2 (en) * 2003-11-24 2008-12-16 At&T Intellectual Property I, L.P. Methods for providing communications services
US20050114224A1 (en) * 2003-11-24 2005-05-26 Hodges Donna K. Methods for providing communications services
US7509373B2 (en) 2003-11-24 2009-03-24 At&T Intellectual Property I, L.P. Methods for providing communications services
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
US7826911B1 (en) 2005-11-30 2010-11-02 Google Inc. Automatic selection of representative media clips
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
US7668610B1 (en) * 2005-11-30 2010-02-23 Google Inc. Deconstructing electronic media stream into human recognizable portions
US20090132074A1 (en) * 2005-12-08 2009-05-21 Nec Corporation Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
US20070192097A1 (en) * 2006-02-14 2007-08-16 Motorola, Inc. Method and apparatus for detecting affects in speech
US8386257B2 (en) 2006-09-13 2013-02-26 Nippon Telegraph And Telephone Corporation Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
KR100868763B1 (ko) * 2006-12-04 2008-11-13 삼성전자주식회사 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치
US20080144792A1 (en) * 2006-12-18 2008-06-19 Dominic Lavoie Method of performing call progress analysis, call progress analyzer and caller for handling call progress analysis result
WO2008096336A2 (en) * 2007-02-08 2008-08-14 Nice Systems Ltd. Method and system for laughter detection
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
US20110022395A1 (en) * 2007-02-15 2011-01-27 Noise Free Wireless Inc. Machine for Emotion Detection (MED) in a communications device
US20090071315A1 (en) * 2007-05-04 2009-03-19 Fortuna Joseph A Music analysis and generation method
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
EP2101501A1 (de) * 2008-03-10 2009-09-16 Sony Corporation Verfahren zur Empfehlung von Audioinhalten
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8577685B2 (en) * 2008-10-24 2013-11-05 At&T Intellectual Property I, L.P. System and method for targeted advertising
US20100235314A1 (en) * 2009-02-12 2010-09-16 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating video data
US8458105B2 (en) * 2009-02-12 2013-06-04 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating data
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US8959071B2 (en) 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
US8938393B2 (en) * 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
KR101801327B1 (ko) * 2011-07-29 2017-11-27 삼성전자주식회사 감정 정보 생성 장치, 감정 정보 생성 방법 및 감정 정보 기반 기능 추천 장치
IN2014CN02549A (de) * 2011-10-17 2015-07-31 Koninkl Philips Nv
WO2013157190A1 (ja) * 2012-04-20 2013-10-24 パナソニック株式会社 音声処理装置、音声処理方法、プログラムおよび集積回路
US9374629B2 (en) 2013-03-15 2016-06-21 The Nielsen Company (Us), Llc Methods and apparatus to classify audio
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和***
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US9230159B1 (en) * 2013-12-09 2016-01-05 Google Inc. Action recognition and detection on videos
CN110265059B (zh) 2013-12-19 2023-03-31 瑞典爱立信有限公司 估计音频信号中的背景噪声
KR101621778B1 (ko) * 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111771A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9749762B2 (en) * 2014-02-06 2017-08-29 OtoSense, Inc. Facilitating inferential sound recognition based on patterns of sound primitives
WO2015120184A1 (en) 2014-02-06 2015-08-13 Otosense Inc. Instant real time neuro-compatible imaging of signals
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
CN104008622B (zh) * 2014-06-03 2016-06-15 天津求实飞博科技有限公司 基于短时能量和过零率的光纤周界安防***端点检测方法
WO2016028495A1 (en) 2014-08-22 2016-02-25 Sri International Systems for speech-based assessment of a patient's state-of-mind
JP5995226B2 (ja) * 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其***
US10043517B2 (en) 2015-12-09 2018-08-07 International Business Machines Corporation Audio-based event interaction analytics
KR20180057409A (ko) * 2016-11-22 2018-05-30 박진수 오디오 신호 기반의 영상 분류 방법 및 영상 분류 장치
CN107818784A (zh) * 2017-08-15 2018-03-20 上海展扬通信技术有限公司 一种备忘录的标题生成方法及标题生成***
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN108304814B (zh) * 2018-02-08 2020-07-14 海南云江科技有限公司 一种文字类型检测模型的构建方法和计算设备
EP3766066B1 (de) * 2018-04-19 2024-02-21 Microsoft Technology Licensing, LLC Erzeugen einer reaktion in einem gespräch
US10803885B1 (en) * 2018-06-29 2020-10-13 Amazon Technologies, Inc. Audio event detection
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11375293B2 (en) * 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
KR102199825B1 (ko) * 2018-12-28 2021-01-08 강원대학교산학협력단 음성 인식 장치 및 방법
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning
CN112580346B (zh) * 2020-11-17 2022-05-06 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
KR102318642B1 (ko) * 2021-04-16 2021-10-28 (주)엠제이티 음성 분석 결과를 이용하는 온라인 플랫폼

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US160449A (en) * 1875-03-02 Improvement in music-leaf turners
CA1341310C (en) * 1988-07-15 2001-10-23 Robert Filepp Interactive computer network and method of operation
US5953485A (en) * 1992-02-07 1999-09-14 Abecassis; Max Method and system for maintaining audio during video control
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
KR100348915B1 (ko) * 1994-05-12 2002-12-26 마이크로소프트 코포레이션 텔레비젼프로그램선택방법및그시스템
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5758259A (en) * 1995-08-31 1998-05-26 Microsoft Corporation Automated selective programming guide
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
US20030093790A1 (en) * 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6177931B1 (en) * 1996-12-19 2001-01-23 Index Systems, Inc. Systems and methods for displaying and recording control interface with television programs, video, advertising information and program scheduling information
US5912696A (en) * 1996-12-23 1999-06-15 Time Warner Cable Multidimensional rating system for media content
IL119948A (en) * 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US20040070594A1 (en) * 1997-07-12 2004-04-15 Burke Trevor John Method and apparatus for programme generation and classification
US6819863B2 (en) * 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
US5970447A (en) * 1998-01-20 1999-10-19 Advanced Micro Devices, Inc. Detection of tonal signals
JP2000013708A (ja) * 1998-06-26 2000-01-14 Hitachi Ltd 番組選択支援装置
US6268849B1 (en) * 1998-06-30 2001-07-31 United Video Properties, Inc. Internet television program guide system with embedded real-time data
US6295092B1 (en) * 1998-07-30 2001-09-25 Cbs Corporation System for analyzing television programs
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3579263B2 (ja) * 1998-09-30 2004-10-20 株式会社東芝 番組データ選択方法及び番組視聴システム
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
DE60045699D1 (de) * 1999-01-29 2011-04-21 Sony Corp Daten-beschreibungs-verfahren und daten-bearbeitung-vorrichtung
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6710822B1 (en) * 1999-02-15 2004-03-23 Sony Corporation Signal processing method and image-voice processing apparatus for measuring similarities between signals
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
DE19929462A1 (de) * 1999-06-26 2001-02-22 Philips Corp Intellectual Pty Verfahren zum Training eines automatischen Spracherkenners
US7051352B1 (en) * 2000-02-04 2006-05-23 Koninklijke Philips Electronics N.V. Adaptive TV program recommender
WO2001069921A1 (en) * 2000-03-17 2001-09-20 Koninklijke Philips Electronics N.V. Method and apparatus for rating database objects
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US20020157116A1 (en) * 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7581237B1 (en) * 2000-10-30 2009-08-25 Pace Plc Method and apparatus for generating television program recommendations based on prior queries
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
EP1223757B1 (de) * 2001-01-09 2006-03-22 Metabyte Networks, Inc. System, Verfahren und Software für die Bereitstellung einer gezielten Werbung durch Benutzerprofildatenstruktur basierend auf Benutzerpräferenzen
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
US20030007001A1 (en) * 2001-06-07 2003-01-09 Philips Electronics North America Corporation Automatic setting of video and audio settings for media output devices
US7716704B2 (en) * 2001-06-12 2010-05-11 Thomson Licensing Television program selection apparatus and method
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
EP1300831B1 (de) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
US20030097186A1 (en) * 2001-11-13 2003-05-22 Koninklijke Philips Electronics N.V Method and apparatus for generating a stereotypical profile for recommending items of interest using feature-based clustering
US20030093329A1 (en) * 2001-11-13 2003-05-15 Koninklijke Philips Electronics N.V. Method and apparatus for recommending items of interest based on preferences of a selected third party
US20030097196A1 (en) * 2001-11-13 2003-05-22 Koninklijke Philips Electronics N.V. Method and apparatus for generating a stereotypical profile for recommending items of interest using item-based clustering
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7370276B2 (en) * 2002-05-17 2008-05-06 Sap Aktiengesellschaft Interface for collecting user preferences
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7120626B2 (en) * 2002-11-15 2006-10-10 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7277537B2 (en) * 2003-09-02 2007-10-02 Texas Instruments Incorporated Tone, modulated tone, and saturated tone detection in a voice activity detection device
EP1531456B1 (de) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
EP1531478A1 (de) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Vorrichtung und Verfahren zur Klassifizierung eines Audiosignals
JP4458832B2 (ja) * 2003-12-05 2010-04-28 キヤノン株式会社 番組抽出装置およびその制御方法
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
CN1943222A (zh) * 2004-04-15 2007-04-04 皇家飞利浦电子股份有限公司 用于***体内容处理设备的方法和媒体内容处理设备
CN101044549A (zh) * 2004-10-18 2007-09-26 皇家飞利浦电子股份有限公司 向用户通知媒体内容项目的类别的数据处理设备和方法
US7533399B2 (en) * 2004-12-02 2009-05-12 Panasonic Corporation Programming guide content collection and recommendation system for viewing on a portable device
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
US7774288B2 (en) * 2006-05-16 2010-08-10 Sony Corporation Clustering and classification of multimedia data

Also Published As

Publication number Publication date
EP1531458A1 (de) 2005-05-18
DE60320414D1 (de) 2008-05-29
US8635065B2 (en) 2014-01-21
EP1531458B1 (de) 2008-04-16
US20050102135A1 (en) 2005-05-12

Similar Documents

Publication Publication Date Title
DE60320414T2 (de) Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
Zhang et al. Hierarchical classification of audio data for archiving and retrieving
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
US20050131688A1 (en) Apparatus and method for classifying an audio signal
DE60204827T2 (de) Anhebungsdetektion zur automatischen Sprachzusammenfassung
Di Paolo Hypercorrection in response to the apparent merger of (xxx) and (α) in Utah english
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
EP1217603A1 (de) Verfahren zur Identifizierung von Musikstücken
DE2918533A1 (de) Spracherkennungssystem
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
WO2004001720A1 (en) A mega speaker identification (id) system and corresponding methods therefor
DE60319710T2 (de) Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE10054583A1 (de) Verfahren und Vorrichtung zur Behandlung von Sprachinformationen
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
CN110277087A (zh) 一种广播信号预判预处理方法
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE60318450T2 (de) Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
Johar Paralinguistic profiling using speech recognition

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: GORONZY, SILKE, 70327 STUTTGART, DE

Inventor name: KEMP, THOMAS, 70327 STUTTGART, DE

Inventor name: KOMPE, RALF, 70327 STUTTGART, DE

Inventor name: LAM, YIN HAY, 70327 STUTTGART, DE

Inventor name: KRZYSZTOF, MARASEK, 70327 STUTTGART, DE

Inventor name: TATO, RAQUEL, 70327 STUTTGART, DE

8364 No opposition during term of opposition