DE112020004052T5 - Sequenzmodelle zur audioszenenerkennung - Google Patents

Sequenzmodelle zur audioszenenerkennung Download PDF

Info

Publication number
DE112020004052T5
DE112020004052T5 DE112020004052.6T DE112020004052T DE112020004052T5 DE 112020004052 T5 DE112020004052 T5 DE 112020004052T5 DE 112020004052 T DE112020004052 T DE 112020004052T DE 112020004052 T5 DE112020004052 T5 DE 112020004052T5
Authority
DE
Germany
Prior art keywords
features
different
computer
windows
implemented method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020004052.6T
Other languages
English (en)
Inventor
Cristian Lumezanu
Yuncong Chen
Dongjin Song
Takehiko Mizoguchi
Haifeng Chen
Bo Dong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112020004052T5 publication Critical patent/DE112020004052T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

Es wird ein Verfahren bereitgestellt. Zwischen-Audiomerkmale werden aus einer eingegebenen Akustiksequenz erzeugt (610). Unter Verwendung einer Suche werden nach nächsten Nachbarn werden Segmente der eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen klassifiziert (620), um ein endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen. Jedes Segment entspricht einem jeweiligen unterschiedlichen Akustikfenster. Der Erzeugungsschritt enthält ein Lernen (610A) der Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen. Der Erzeugungsschritt enthält ein Aufteilen (610B) derselben Szene in die unterschiedlichen Akustikfenster mit variierenden MFCC-Merkmalen. Der Erzeugungsschritt enthält ein Einspeisen bzw. Zuführen (610E) der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweilige LSTM-Einheiten, so dass ein verborgener Zustand von jeder jeweiligen LSTM-Einheit durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.

Description

  • INFORMATION BEZÜGLICH ZUGEHÖRIGER ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der am 19. August 2020 eingereichten nichtvorläufigen US-Patentanmeldung Nr. 16/997,314 , der am 27. August 2019 eingereichten vorläufigen US-Patentanmeldung Nr. 62/915,022 und der am 16. Oktober 2019 eingereichten vorläufigen US-Patentanmeldung Nr. 62/915,668 , die jeweils hierin durch Bezugnahme in ihrer jeweiligen Gesamtheit enthalten sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Szenenerkennung und insbesondere Sequenzmodelle zur Audioszenenerkennung.
  • Beschreibung des zugehörigen Standes der Technik
  • Eine Audio- (oder Akustik-) szenenanalyse ist die Aufgabe, die Kategorie (oder Kategorien) einer Umgebung unter Verwendung akustischer Signale zu identifizieren. Die Aufgabe der Audioszenenanalyse kann auf zwei Arten formuliert werden: (1) Szenenerkennung, bei der das Ziel darin besteht, eine einzelne Kategorie mit einer gesamten Szene zu verknüpfen bzw. zu assoziieren (z.B. Park, Restaurant, Zug etc.) und (2) Ereignisdetektion, bei der das Ziel darin besteht, kürzere Geräusch- bzw. Klangereignisse in einer Audioszene zu detektieren (z.B. Türklopfen, Lachen, Tastaturklick etc.). eine Audioszenenanalyse hat mehrere wichtige Anwendungen, von denen einige zum Beispiel folgendes enthalten: Multimedia-Abruf (automatisches Identifizieren bzw. Markieren von Sport- oder Musikszenen); intelligente Überwachungssysteme (Identifizieren spezifischer Geräusche in der Umgebung); akustische Überwachung; Suche in Audioarchiven; Katalogisierung und Indizierung. Ein wichtiger Schritt bei einer Audioszenenanalyse ist die Verarbeitung der Rohaudiodaten mit dem Ziel, repräsentative Audiomerkmale zu berechnen, die verwendet werden können, um die richtigen Kategorien zu identifizieren (was auch als Merkmalsauswahlprozess bekannt ist).
  • ZUSAMMENFASSUNG
  • Gemäß Aspekten der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zur Klassifizierung von Audioszenen bereitgestellt. Das Verfahren enthält ein Erzeugen von Zwischen-Audiomerkmalen aus einer eingegebenen Akustiksequenz. Das Verfahren enthält weiterhin ein Klassifizieren von Segmenten der eingegebenen Akustiksequenz unter Verwendung einer Suche nach den nächsten Nachbarn basierend auf den Zwischen-Audiomerkmalen, um ein schließliches Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen. Jedes der Segmente entspricht einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern. Der Erzeugungsschritt enthält ein Lernen der Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen. Der Erzeugungsschritt enthält weiterhin ein Aufteilen derselben Szene in die unterschiedlichen Akustikfenster mit variierenden der MFCC-Merkmale. Der Erzeugungsschritt enthält auch ein Einspeisen bzw. Zuführen der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweiligen LSTM-Einheiten, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  • Gemäß anderen Aspekten der vorliegenden Erfindung wird ein Computerprogrammprodukt zur Klassifizierung von Audioszenen bereitgestellt. Das Computerprogrammprodukt enthält ein nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium mit damit verkörperte Programmanweisungen. Die Programmanweisungen sind durch einen Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein Erzeugen von Zwischen-Audiomerkmalen aus einer eingegebenen Akustiksequenz. Das Verfahren enthält weiterhin ein Klassifizieren von Segmenten der eingegebenen Akustiksequenz unter Verwendung einer Suche nach den nächsten Nachbarn basierend auf den Zwischen-Audiomerkmalen, um ein schließliches Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen, wobei jedes der Segmente einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern entspricht. Der Erzeugungsschritt enthält ein Lernen der Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen. Der Erzeugungsschritt enthält weiterhin ein Aufteilen derselben Szene in die unterschiedlichen Akustikfenster mit variierenden der MFCC-Merkmale. Der Erzeugungsschritt enthält auch ein Einspeisen bzw. Zuführen der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweiligen LSTM-Einheiten, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  • Gemäß noch anderen Aspekten der vorliegenden Erfindung wird ein Computerverarbeitungssystem zur Klassifizierung von Audioszenen bereitgestellt. Das System enthält eine Speichervorrichtung zum Speichern eines Programmcodes. Das System enthält weiterhin einen Hardwareprozessor, der operativ mit dem Speichergerät gekoppelt ist, um den Programmcode laufenzulassen, um Zwischen-Audiomerkmale aus einer eingegebenen Akustiksequenz zu erzeugen und unter Verwendung einer Suche nach nächsten Nachbarn Segmente der eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen zu klassifizieren, um ein schließliches Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen. Jedes der Segmente entspricht einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern. Der Hardwareprozessor lässt den Programmcode laufen, um die Zwischen-Audiofunktionen zu erzeugen, um die Zwischen-Audiofunktionen aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen zu lernen, dieselbe Szene in die unterschiedlichen Akustikfenster mit variierenden der MFCC-Merkmale aufzuteilen und die MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweilige LSTM-Einheiten einzuspeisen bzw. zuzuführen, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  • Diese und weitere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung illustrativer Ausführungsformen davon offensichtlich werden, die im Zusammenhang mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren bereitstellen, wobei:
    • 1 ein Blockdiagramm, das eine beispielhafte Rechenvorrichtung bzw. Computervorrichtung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 2. ein Flussdiagramm, das ein beispielhaftes Verfahren zur Erkennung von Audioszenen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 3. ein Diagramm auf hoher Ebene, das eine beispielhafte Audioszenen-Erkennungsarchitektur zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 4 ein Blockdiagramm, das den Zwischen-Audiomerkmals-Lernteilbereich der 3 weiter zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 5 ein Flussdiagramm, das ein beispielhaftes Verfahren für den Zwischen-Audiomerkmals-Lernteilbereich der 3 weiter zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 6-7 Flussdiagramme, die ein beispielhaftes Verfahren zur Klassifizierung von Audioszenen zeigen, gemäß einer Ausführungsform der vorliegenden Erfindung sind;
    • 8 ein Flussdiagramm, das ein beispielhaftes Verfahren zur zeitreihenbasierten Audioszenenklassifikation zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 9 ein Blockdiagramm, das einen beispielhaften Triplettverlust zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 10 ein Blockdiagramm, das einen beispielhaften szenenbasierten Präzisionsauswertungsansatz zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
    • 11 ein Blockdiagramm, das einen anderen szenenbasierten Präzisionsauswertungsansatz zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
    • 12 ein Blockdiagramm, das eine beispielhafte Computer- bzw. Rechenumgebung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Gemäß Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren für Sequenzmodelle zur Audioszenenerkennung bereitgestellt.
  • Eine Zeitreihenanalyse ist ein wichtiger Zweig der Datenwissenschaft, der sich mit der Analyse von von einem oder mehreren Sensoren im Laufe der Zeit gesammelten Daten befasst. Basierend auf der Beobachtung, dass Audiodaten Zeitreihen sind, stellt die vorliegende Erfindung eine Ende-zu-Ende-Architektur bereit, um eine Zeitreihendatenanalyse zu verwenden, um Audiodaten zu analysieren.
  • Die Beobachtung, die verschiedenen Ausführungsformen der vorliegenden Erfindung zugrunde liegt, besteht darin, dass die grundlegenden Audiomerkmale einer Audioszene (erhalten nach der Signalverarbeitung) eine mehrfach variierte Zeitreihe bilden, wobei jedes Merkmal einem Sensor entspricht und sein Wert die Sensormesswerte im Laufe der Zeit darstellt.
  • Gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung wird ein Analysewerkzeug für eine mehrfach variierte Zeitreihe bereitgestellt, das Data2Data (D2D) genannt wird. D2D lernt Darstellungen (oder Einbettungen) von Zeitreihendaten und verwendet sie, um einen schnellen Abruf durchzuführen, d.h. in Anbetracht eines Abfragezeitreihensegments das ähnlichste historische Zeitreihensegment zu identifizieren. Ein Abruf bzw. eine Wiedergewinnung ist ein wichtiger Baustein für die Klassifizierung von Zeitreihen.
  • Eine oder mehrere Ausführungsformen der vorliegenden Erfindung bieten eine Audioszenenanalyse zur Zeitreihenanalyse. Um Audioszenen als Zeitreihendaten zu interpretieren, können die Audioszenen in die D2D-Plattform eingespeist werden, um einen schnellen Abruf zur Klassifizierung und Anomalieerkennung durchzuführen.
  • Somit präsentieren eine oder mehrere Ausführungsformen der vorliegenden Erfindung ein Deep-Learning-Framework, um eine Audioumgebung nach einem „Zuhören“ für weniger als eine Sekunde genau zu klassifizieren. Das Framework beruht auf einer Kombination aus rekurrenten neuronalen Netzen und Aufmerksamkeit, um Einbettungen für jedes Audiosegment zu lernen. Ein Hauptmerkmal zu dem Lernprozess ist ein Optimierungsmechanismus, der eine Audioverlustfunktion minimiert. Diese Funktion ist entwickelt, um Einbettungen zu fördern, um eine Segmentähnlichkeit (durch eine abstandsbasierte Komponente) zu bewahren bzw. zu erhalten und unbestimmbare Segmente zu bestrafen, während die Wichtigkeit der relevanteren (durch eine wichtigkeitsbasierte Komponente) erfasst wird.
  • Eine oder mehrere Ausführungsformen der vorliegenden Erfindung erzeugen Zwischen-Audiomerkmale und klassifizieren sie unter Verwendung eines Klassifikators für nächste Nachbarn. Die Zwischen-Audiomerkmale versuchen, sowohl Korrelationen zwischen unterschiedlichen akustischen Fenstern in derselben Szene zu erfassen als auch die Wirkung von „uninteressanten“ Merkmalen/Abschnitten, wie beispielsweise Stille oder Rauschen bzw. Lärm, zu isolieren und zu schwächen. Um die Zwischen-Audiomerkmale zu lernen, werden zuerst grundlegende Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Audiomerkmale erzeugt. Dann wird die gesamte Szene in (möglicherweise überlappende) Fenster aufgeteilt und werden die Basismerkmale von jedem Fenster in LSTM-Einheiten eingespeist bzw. zugeführt. Der verborgene Zustand jeder LSTM-Einheit (es gibt so viele verborgene Zustände wie Zeitschritte im aktuellen Fenster) wird genommen und durch eine Aufmerksamkeitsschicht geführt, um Korrelationen zwischen den Zuständen bei unterschiedlichen Zeitschritten zu identifizieren. Um das schließliche bzw. endgültige Zwischenmerkmal für jedes Fenster zu erzeugen, wird die Triplettverlustfunktion optimiert, zu der ein am letzten Element von jedem Zwischenmerkmal berechneter Regularisierungsparameter hinzugefügt wird. Das Ziel des Regularisierungsparameters ist es, die Wichtigkeit der Stillesegmente zu reduzieren.
  • Somit befassen sich eine oder mehrere Ausführungsformen der vorliegenden Erfindung mit einer Audioszenenklassifikation (ASC), d.h. der Aufgabe eines Identifizierens der Kategorie der Umgebung unter Verwendung akustischer Signale.
  • Um ein Ziel einer frühen Detektion bzw. Erkennung zu erreichen, wird die ASC als Abruf-Problem formuliert. Dies lässt zu, dass wir die Audiodaten in kurze Segmente (von weniger als einer Sekunde) aufteilen, Einbettungen für jedes Segment lernen und die Einbettungen verwenden, um jedes Segment zu klassifizieren, sobald es „gehört“ wird. In Anbetracht eines Abfragesegments (z.B. eines kurzen Klangs von der Umgebung) wird das Abfragesegment gemäß einer Einbettungsähnlichkeitsfunktion, wie beispielsweise des euklidischen Abstands, in die Klasse des ähnlichsten historischen Segments klassifiziert.
  • Eine natürliche Frage ist, wie Einbettungen gefunden werden können, die ein schnelles und genaues Abrufen kurzer Audiosegmente ermöglichen. Gute Einbettungen müssen zwei Kriterien erfüllen. Erstens müssen sie eine Ähnlichkeit bewahren: Segmente, die zur selben Audioszenenkategorie gehören, sollten ähnliche Einbettungen haben. Zweitens müssen sie die Wichtigkeit jedes Segments innerhalb einer Szene erfassen. Zum Beispiel sind in einer Spielplatzszene die Segmente, die Kinderlachen enthalten, für die Szene relevanter; gegensätzlich dazu sind Segmente mit Stille oder weißem Rauschen weniger wichtig, da sie bei vielen anderen Arten von Szenen zu finden sind.
  • 1 ist ein Blockdiagramm, das eine beispielhafte Rechenvorrichtung bzw. Computingvorrichtung bzw. Computervorrichtung 100 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung. Die Computervorrichtung 100 ist konfiguriert, um eine Audioszenenerkennung durchzuführen.
  • Die Computervorrichtung 100 kann als irgendein Typ von Berechnungs- oder Computervorrichtung verkörpert sein, die die hierin beschriebenen Funktionen durchführen kann, einschließlich, ohne Beschränkung, eines Computers, eines Servers, eines auf einem Rack basierenden Servers, eines Blade-Servers, einer Workstation, eines Desktop-Computers, eines Laptop-Computers, eines Notebook-Computers, eines Tablet-Computers, einer mobilen Computervorrichtung, einer tragbaren Computervorrichtung, eines Netzwerkgeräts, eines Webgeräts, eines verteilten Computing- bzw. Computersystems, eines prozessorbasierten Systems und/oder einer Unterhaltungselektronikvorrichtung. Zusätzlich oder alternativ kann die Computervorrichtung 100 als ein oder mehrere Rechenschlitten, Speicherschlitten oder andere Racks, Schlitten, Computing- bzw. Computer-Gehäuse oder andere Komponenten einer physikalisch disaggregierten Computervorrichtung verkörpert sein. Wie es in 1 gezeigt ist, enthält die Computervorrichtung 100 illustrativ den Prozessor 110, ein Eingabe-/Ausgabe-Untersystem 120, einen Speicher 130, eine Datenspeichervorrichtung 140 und ein Kommunikations-Untersystem 150 und/oder andere Komponenten und Vorrichtungen, die üblicherweise in einem Server oder einer ähnlichen Computervorrichtung zu finden sind. Natürlich kann die Computervorrichtung 100 bei anderen Ausführungsformen andere oder zusätzliche Komponenten enthalten, wie beispielsweise diejenigen, die üblicherweise in einem Servercomputer zu finden sind (z.B. verschiedene Eingabe-/Ausgabe-Vorrichtungen). Zusätzlich kann oder können bei einigen Ausführungsformen eine oder mehrere der illustrativen Komponenten in eine andere Komponente eingebaut sein oder anderweitig einen Teilbereich davon bilden. Zum Beispiel kann der Speicher 130, oder können Teilbereiche davon, bei einigen Ausführungsformen im Prozessor 110 eingebaut sein.
  • Der Prozessor 110 kann als irgendein Typ von Prozessor verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Der Prozessor 110 kann als einzelner Prozessor, mehrere Prozessoren, zentrale Verarbeitungseinheit(en) (CPU(s)), Grafikverarbeitungseinheit(en) (GPU(s)), Einzel- oder Mehrkernprozessor(en), Digitalsignalprozessor(en), Mikrosteuerung(en) oder anderer Prozessor (andere Prozessoren) oder Verarbeitungs-/Steuerungs-Schaltung(en) verkörpert sein.
  • Der Speicher 130 kann als irgendein Typ von flüchtigem oder nichtflüchtigem Speicher oder Datenspeicher verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Im Betrieb kann der Speicher 130 verschiedene Daten und Software speichern, die während des Betriebs bzw. einer Operation der Computervorrichtung 100, wie beispielsweise von Betriebssystemen, Anwendungen, Programmen, Bibliotheken und Treibern, verwendet werden. Der Speicher 130 ist kommunikativ mit dem Prozessor 110 über das I/O-Untersystem 120 gekoppelt, das als Schaltung und/oder Komponenten verkörpert sein kann, um Eingabe-/Ausgabe-Operationen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computervorrichtung 100 zu ermöglichen. Zum Beispiel kann das I/O-Untersystem 120 als Speichersteuerungs-Hubs, Eingabe-/Ausgabe-Steuerungs-Hubs, Plattformsteuerungs-Hubs, integrierte Steuerschaltung, Firmware-Vorrichtungen, Kommunikationsverbindungen (z.B. Punkt-zu-Punkt-Verbindungen, Busverbindungen, Drähte, Kabel, Lichtleiter, Leiterbahnen der Leiterplatten etc.) und/oder andere Komponenten und Untersysteme verkörpert sind oder diese anderweitig enthalten, um die Eingabe-/Ausgabe-Operationen zu ermöglichen bzw. zu erleichtern. Bei einigen Ausführungsformen kann das I/O-Untersystem 120 einen Teilbereich eines Systems auf einem Chip (SOC (= system-on-a-chip)) bilden und zusammen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computervorrichtung 100 auf einem einzigen integrierten Schaltungschip eingebaut sein.
  • Die Datenspeichervorrichtung 140 kann als irgendein Typ von Vorrichtung oder Vorrichtungen verkörpert sein, die für die kurzfristige oder langfristige Speicherung von Daten konfiguriert ist oder sind, wie zum Beispiel Speichervorrichtungen und -schaltungen, Speicherkarten, Festplattenlaufwerke, Festkörperlaufwerke oder andere Datenspeichervorrichtungen. Die Datenspeichervorrichtung 140 kann einen Programmcode zur Audioszenenerkennung/-klassifizierung speichern. Der Programmcode kann eine hardwarebasierte Vorrichtung in Reaktion auf ein Erkennungs-/Klassifizierungsergebnis steuern. Das Kommunikation-Untersystem 150 der Computervorrichtung 100 kann als irgendeine Netzwerkschnittstellensteuerung oder irgendeine andere Kommunikationsschaltung, -vorrichtung oder -sammlung bzw. -kollektion davon verkörpert sein, die Kommunikationen zwischen der Computervorrichtung 100 und anderen entfernten Geräten bzw. Vorrichtungen über ein Netzwerk ermöglichen bzw. freigeben kann. Das Kommunikations-Untersystem 150 kann konfiguriert sein, um irgendeine oder mehrere Kommunikationstechnologien (z.B. drahtgebundene oder drahtlose Kommunikationen) und assoziierte bzw. zugehörige Protokolle (z.B. Ethernet, InfiniBand®, Bluetooth®, Wi-Fi®, WiMAX usw.) zu verwenden, um eine solche Kommunikation zu bewirken.
  • Wie es gezeigt ist, kann die Computervorrichtung 100 auch eine oder mehrere periphere Vorrichtungen 160 enthalten. Die peripheren Vorrichtungen 160 können irgendeine Anzahl zusätzlicher Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder anderer peripherer Vorrichtungen enthalten. Zum Beispiel können die peripheren Vorrichtungen 160 bei einigen Ausführungsformen eine Anzeige, einen Berührungsbildschirm, eine Grafikschaltung, eine Tastatur, eine Maus, ein Lautsprechersystem, ein Mikrofon, eine Netzwerkschnittstelle und/oder andere Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder periphere Vorrichtungen enthalten.
  • Natürlich kann die Computervorrichtung 100 auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in der Computervorrichtung 100 enthalten sein, und zwar abhängig von der bestimmten Implementierung derselben, wie es von einem Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder drahtgebundenen Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen auch verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung von einem Fachmann auf dem Gebiet leicht in Betracht gezogen.
  • Wie er hierin verwendet wird, kann sich der Begriff „Hardwareprozessor-Untersystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen etc.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder computerelementbasierten Steuerung (z.B. Logikgatter etc.) enthalten sein. Das Hardwareprozessor-Untersystem kann einen oder mehrere integrierte Speicher bzw. Onboard-Speicher (z.B. Caches, bestimmte bzw. dedizierte Speicherarrays, einen Nurlesespeicher etc.) enthalten. Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem einen oder mehrere Speicher enthalten, die onboard oder offboard sein können oder die zur Verwendung durch das Hardwareprozessor-Untersystem bestimmt bzw. dediziert sein können (z.B. ROM, RAM, BIOS (Basic Input/Output System (= Grundlegendes Eingabe-/Ausgabe-System)) etc.).
  • Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Softwareelemente umfassen und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder einen spezifischen Code enthalten, um ein spezifiziertes bzw. bestimmtes Ergebnis zu erzielen.
  • Bei anderen Ausführungsformen kann das Hardwareprozessor-Untersystem eine dedizierte, spezialisierte Schaltung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen durchführt, um ein bestimmtes Ergebnis zu erzielen. Eine solche Schaltung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs und/oder PLAs enthalten.
  • Diese und andere Variationen eines Hardwareprozessor-Untersystems werden gemäß Ausführungsformen der vorliegenden Erfindung auch in Betracht gezogen.
  • 2. ist ein Flussdiagramm, das ein beispielhaftes Verfahren 200 zur Audioszenenerkennung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Block 210 erfolgt ein Eingeben roher Audiodaten.
  • Bei einem Block 220 erfolgt ein Verarbeiten der rohen Audiodaten, um Basis-Audiomerkmale daraus zu extrahieren.
  • Bei einem Block 230 erfolgt ein Durchführen einer zeitreihenbasierten Verarbeitung, um Audiosegmente zu erhalten.
  • Bei einem Block 240 erfolgt ein Durchführe einer Zeitreihenanalyse, um Audiosegmentdarstellungen zu erhalten.
  • Bei einem Block 250 erfolgt ein Speichern der Audiosegmentdarstellungen in einer Datenbank.
  • Bei einem Block 260 erfolgt ein Durchführen einer Aktion in Reaktion auf die Audiosegmentdarstellungen.
  • Nun werden verschiedene der Blöcke des Verfahrens 200 gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung detaillierter beschrieben werden.
  • Rohe Audioverarbeitung (Block 220). Die Eingabe sind die rohen Audiodaten und die Ausgabe wird durch nach einem Anwenden von Signalverarbeitungstechniken erhaltene Basis-Audiomerkmale dargestellt. Die Audiodaten werden durch Anwenden von mehreren Transformationen wie es folgt verarbeitet. Zuerst wird das Signal in mehrere überlappende Frames mit der Größe von jedem Frame von 25ms aufgebrochen bzw. aufgeteilt. Dann wird die schnelle Fourier-Transformation auf jeden Frame angewendet, um die Energiepegel für jede im Klang vorhandene Frequenz zu extrahieren. Dann werden die Frequenzpegel auf der Mel-Skala abgebildet, um besser zu den Hörfähigkeiten des menschlichen Ohrs zu passen. Schließlich wird die Kosinus-Transformation auf die Protokolle der Mel-Potenzen angewendet, um die Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) zu erhalten. MFCCs sind starke Basis-Audiomerkmale für eine Szenenerkennung. Alternativ kann das Verfahren nach dem Anwenden der FFT beendet werden und können die Frequenzspektrums-Leistungen als Basis-Audiomerkmale verwendet werden.
  • Zeitreihenbasierte Verarbeitung (Block 230). Die gesamten Trainingsdaten werden nun als Basis-Audiomerkmalsvektoren im Laufe der Zeit dargestellt. Wenn jedes Merkmal als äquivalent zu einem Sensor betrachtet wird und die Werte des Merkmals im Laufe der Zeit als vom Sensor gesammelte Werte betrachtet werden, können die gesamten Trainingsdaten als eine mehrfach variierte Zeitreihe betrachtet werden. Die Daten werden in mehrere, möglicherweise überlappende Segmente aufgeteilt. Jedes Segment enthält alle Basis-Audiomerkmalsvektoren über einen vom Benutzer definierten Zeitraum. Eine Aufteilung der Daten in überlappende Kurzbereichsfenster ist typisch für eine Zeitreihenanalyse und ermöglicht eine bessere Erfassung von Kurzbereichsabhängigkeiten und Korrelationen beim Klang.
  • Zeitreihenanalyse (Block 240). Jedes Audiosegment wird in unser Data2Data-(D2D-)Framework eingespeist. Jeder Basis-Audiomerkmalsvektor in einem Segment ist die Eingabe einer LSTM-Einheit. Die Einheit updated bzw. aktualisiert kontinuierlich ihren Zustand, während sie immer mehr Audiomerkmale liest. Die schließliche bzw. endgültige Ausgabe der LSTM ist die Darstellung des Segments und erfasst Abhängigkeiten zwischen den Audiomerkmalsvektoren, die Teil des Segments sind. Alle Darstellungen werden zu einer Datenbank gesichert bzw. gespeichert und später für einen Abruf verwendet.
  • 3 ist ein Diagramm auf hoher Ebene, das eine beispielhafte Audioszenenerkennungsarchitektur 300 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Die Audioszenenerkennungsarchitektur 300 enthält einen Rohaudiodaten-Ladeteilbereich 310, einen Rohaudio-Verarbeitungsteilbereich 320, einen Basis-Audiomerkmals-Segmentierungsteilbereich 330 und einen Zwischen-Audiomerkmals-Lernteilbereich 340.
  • Der Basis-Audiomerkmals-Segmentierungsteilbereich 330 enthält ein Audiosegment 331.
  • Der Zwischen-Audiomerkmals-Lernteilbereich 340 Enthält einen LSTM-Teilbereich 341, einen Aufmerksamkeitsteilbereich 342 und einen Teilbereich für eine schließliche Darstellung (Merkmal) 343.
  • Rohaudiodaten-Laden 310. Dieses Element lädt den Satz von Audioszenen, die zum Trainieren verwendet werden, und deren Beschriftungen aus einer Datei. Bei einer Ausführungsform sind die Daten im wav-Format. Natürlich können andere Formate verwendet werden. Alle Trainingsdaten sind so verkettet, dass sie als eine lange Audioszene erscheinen.
  • Rohaudio-Verarbeitungsteilbereich 320. Die Audiodaten werden verarbeitet, indem mehrere Transformationen wie folgt angewendet werden. Zuerst wird das Signal in mehrere überlappende Frames mit der Größe von jedem Frame von 25ms aufgeteilt. Die schnelle Fourier-Transformation wird auf jeden Frame angewendet, um die Energiepegel für jede im Klang vorhandene Frequenz zu extrahieren. Die Frequenzpegel werden auf der Mel-Skala abgebildet, um besser zu den Hörfähigkeiten des menschlichen Ohrs zu passen. Schließlich wird die Kosinus-Transformation auf die Protokolle bzw. Logs der Mel-Potenzen angewendet, um die Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) zu erhalten. Frühere Untersuchungen haben gezeigt, dass MFCCs starke Basis-Audiomerkmale für eine Szenenerkennung sind. Alternativ kann das Verfahren nach dem Anwenden der FFT beendet werden und können die Frequenzspektrums-Leistungen als Basis-Audiomerkmale verwendet werden.
  • Basis-Audiomerkmals-Segmentierungsteilbereich 330. Nun werden die gesamten Trainingsdaten als Vektor von Basis-Audiomerkmalsvektoren dargestellt. Um Abhängigkeiten unter unterschiedlichen Basis-Audiomerkmalsvektoren zu erfassen, werden die Daten in mehrere, möglicherweise überlappende Segmente aufgeteilt. Jedes Segment enthält alle Basis-Audiomerkmalsvektoren über einen vom Benutzer definierten Zeitraum.
  • Zwischen-Audiomerkmals-Lernteilbereich 340. Jedes Audiosegment wird in eine tiefe Architektur eingespeist, die aus einer rekurrenten Schicht und einer Aufmerksamkeitsschicht zusammengesetzt ist.
  • LSTM-Teilbereich 341. Jeder Basis-Audiomerkmalsvektor in einem Segment ist die Eingabe einer LSTM-Einheit. Die Einheit updated bzw. aktualisiert kontinuierlich ihren Zustand, während sie immer mehr Audiomerkmale liest. Die schließliche Ausgabe der LSTM-Einheit kann als Darstellung des Segments betrachtet werden, das langfristige Abhängigkeiten zwischen den Audiomerkmalsvektoren erfasst, die Teil des Segments sind. Es wird eine bidirektionale LSTM verwendet, was bedeutet, dass jedes Segment in zeitlicher Reihenfolge und in umgekehrter zeitlicher Reihenfolge eingespeist bzw. zugeführt wird, wodurch zwei schließliche Darstellungen erhalten werden.
  • Aufmerksamkeitsteilbereich 342. Die aus der rekurrenten Schicht erhaltenen zwei schließlichen Darstellungen sind möglicherweise nicht ausreichend, um alle Korrelationen zwischen Basis-Merkmalsvektoren desselben Segments zu erfassen. Eine Aufmerksamkeitsschicht wird verwendet, um Korrelationen zwischen LSTM-Zuständen zu unterschiedlichen Zeiten zu identifizieren. Die Eingabe zur Aufmerksamkeitsschicht wird durch die verborgenen Zustände von LSTM über alle Zeitschritte des Segments hinweg dargestellt.
  • Teilbereich für eine schließliche Darstellung (Merkmal) 343. Um das schließliche Zwischenmerkmal 350 zu erhalten, werden die zwei schließlichen Ausgaben von LSTM verkettet und werden die Ergebnisse mit den Aufmerksamkeitsgewichtungen multipliziert.
  • 4 ist ein Blockdiagramm, das den Zwischen-Audiomerkmals-Lernteilbereich 340 der 3 weiter zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • 4 zeigt den zum Lernen der Zwischen-Audiomerkmale verwendeten Optimierungsschritt. Bei jeder Iteration des Lernens wird versucht, eine unter Verwendung der aktuellen Zwischenmerkmale eines zufällig ausgewählten Stapels von Segmenten berechnete Verlustfunktion zu minimieren. Die Gewichtungen und Wahrnehmungsverzerrungen des tiefen Netzwerks (Block 340) werden zurück propagiert bzw. ausgebreitet und upgedatet bzw. aktualisiert. Die zu minimierende Verlustfunktion 410 ist aus zwei unterschiedlichen Größen zusammengesetzt, wie es folgt: Verlust = AudioTreplettVerlust + StilleRegularisierung
    Figure DE112020004052T5_0001
  • AudioTriplettVerlust 410 basiert auf dem klassischen Triplettverlust. Um den Triplettverlust 410 zu berechnen, werden zwei Segmente ausgewählt, die Teil derselben Klasse sind, und eines, das Teil einer anderen Klasse ist, und es wird versucht, die Zwischenmerkmale 405 der Segmente derselben Klasse einander näher zu bringen und diejenigen der anderen Klasse weiter weg voneinander zu bringen. Die Stille-Gewichtung ist definiert als das letzte Element in der Darstellung jedes Segments. Die Stille-Gewichtung ist wahrscheinlich niedrig, wenn das Segment Stille ist. Der AudioTriplettVerlust 410 wird berechnet, indem der Triplettverlust mit den Stille-Gewichtungen von jedem der Segmente im Triplett multipliziert wird. Der Gedankengang dahinter ist, dass Stille-Segmente, auch wenn sie Teil unterschiedlicher Klassen sind, ähnlich sind und nicht zum Lernen beitragen sollten (d.h. ihre Darstellungen sollten durch die Optimierung nicht auseinander bzw. weg voneinander gedrückt werden).
  • Zusätzlich zu einem Triplettverlust wird ein neuer Begriff hinzugefügt, der StilleRegularisierung genannt wird. Die StilleRegularisierung ist die Summe der Stille-Gewichtungen und soll verhindern, dass die Stille-Gewichtungen alle gleichzeitig 0 werden.
  • 5 ist ein Flussdiagramm, das Zwischen-Audiomerkmals-Lernteilbereich 340 der 3 weiter zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Block 510 erfolgt ein Berechnen der die Fourier-Transformation der Audioszene.
  • Bei einem Block 520 erfolgt ein Abbilden der Potenzen des oben erhaltenen Spektrums auf die Mel-Skala.
  • Bei einem Block 530 erfolgt ein Berechnen der Protokolle der Leistungen bei jeder der MEL-Frequenzen.
  • Bei einem Block 540 erfolgt ein Berechnen der diskreten Kosinus-Transformation der Liste der MEL-Protokoll-Potenzen.
  • Bei einem Block 550 erfolgt ein Berechnen der MFCCs als die Amplituden des resultierenden Spektrums. Drei Komponenten unserer Audioszenenklassifizierungsarchitektur werden nun wie folgt beschrieben werden: Rohaudioverarbeitung, um Basis-Audiomerkmale zu erzeugen; der Codierer, um Audiosegmentdarstellungen auf hoher Ebene zu berechnen; und die Verlustfunktionsoptimierung, um die Berechnung guter Einbettungen zu führen. Einige der Beiträge der vorliegenden Erfindung liegen in der Codierer- und Verlustoptimierung.
  • Es wird nun eine Beschreibung bezüglich einer Rohaudioverarbeitung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Jede Audioszene wird unter Verwendung von FFT mit Fensterfunktion zerlegt und extrahiert 20 Mel-Frequenz-Cepstrum-Koeffizienten. Ihre ersten Ableitungen werden hinzugefügt und 12 harmonische und perkussive Merkmale, von denen bekannt ist, dass sie den Rohmerkmalssatz erweitern, um 52 Basis-Audiomerkmale für jedes FFT-Fenster zu erhalten.
  • Man soll X = (x1,x2, ...,xn)T ∈ RnxT ein Audiosegment einer Länge T (z.B. von T aufeinanderfolgenden FFT-Fenstern) mit n Basismerkmalen (wobei n = 52) darstellen lassen. Jedes Segment ist mit der Bezeichnung der Szene assoziiert, zu der es gehört. Ein Ziel ist ein Abrufen von Audiosegmenten: in Anbetracht eines Abfragesegments findet man die ähnlichsten historischen Segmente unter Verwendung einer Ähnlichkeitsmessfunktion, wie beispielsweise dem euklidischen Abstand. Das Abfragesegment wird dann in dieselbe Kategorie wie das ähnlichste historische Segment klassifiziert.
  • Es wird nun eine Beschreibung bezüglich einer Lerneinbettung gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Um ein schnelles und effizientes Abrufen zu ermöglichen, werden kompakte Darstellungen für jedes historische Audiosegment gelernt und eher die Darstellungen als die Basis-Audiomerkmale verglichen. Es wird davon ausgegangen, dass die Einbettung durch die folgende Abbildungsfunktion gegeben ist:
    h = F ( X )
    Figure DE112020004052T5_0002
    wobei X ∈ RnxT ein Audiosegment von n Basismerkmalen über T Zeitschritte ist und h ∈ Rd ein Einbettungsvektor der Größe d ist. F ist eine nichtlineare Abbildungsfunktion.
  • Eine Kombination aus bidirektionalem LSTM und Aufmerksamkeit wird verwendet, um F zu berechnen. Eine LSTM wird ausgewählt, um langfristige zeitliche Abhängigkeiten und Aufmerksamkeit zu erfassen, um die wichtigeren Audioteile in einem Segment hervorzuheben. Um Korrelationen zwischen Audio bei unterschiedlichen Zeitschritten in einem Segment zu erfassen, werden alle verborgenen bzw. versteckten Zustände von LSTM aus jedem Zeitschritt in eine Aufmerksamkeitsschicht eingespeist bzw. zugeführt, die die Wichtigkeit jedes Zeitschritts unter Verwendung einer nichtlinearen Score-Funktion attnscore(ht) = tanh(htV + b) codiert. V und b werden gemeinsam mit F gelernt. Die Scores werden unter Verwendung von Softmax wie folgt normalisiert:
    a t = exp ( a t t n s c o r e ( h t ) ) i = 1 T exp ( a t t n s c o r e ( h t ) )
    Figure DE112020004052T5_0003
    und es erfolgt ein Berechnen der Einbettung des Segments als gewichteten Durchschnitt jedes verborgenen Zustands:
    h = i = 1 T a t h t
    Figure DE112020004052T5_0004
  • Unsere Codierungsarchitektur erinnert diesbezüglich an die neuronale maschinelle Übersetzung, dass sie LSTM und Aufmerksamkeit kombiniert. Jedoch wird eher eine Selbstaufmerksamkeit zwischen den verborgenen Zuständen des Codierers berechnet als eine Aufmerksamkeit zwischen dem aktuellen Zustand des Decodierers und den verborgenen Zuständen des Codierers.
  • Andere tiefe Codierer, die eine Ähnlichkeit von Audiosegmenten bewahren bzw. beibehalten, können verwendet werden, um Einbettungen, rekurrente Netzwerke und einen Aufmerksamkeitsmechanismus zu berechnen, sind effizient beim Identifizieren wichtiger Merkmale im Audio. Die vorliegende Erfindung konzentriert sich auf die Bereitstellung einer genauen Früherkennung in Anbetracht eines vernünftig genauen Codierers.
  • Es wird nun eine Beschreibung bezüglich des Verlustes gemäß einer Ausführungsform der vorliegenden Erfindung angegeben werden.
  • Die Verlustfunktion ist so gebildet, dass sie zwei Kriterien erfüllt. Erstens muss sie Einbettungen fördern, um die Klassenzugehörigkeit widerzuspiegeln. Mit anderen Worten sollten Segmente, die Teil derselben Klasse sind, ähnliche Einbettungen haben, und Segmente, die Teil unterschiedlicher Klassen sind, unterschiedliche Einbettungen. Dieses Ziel wird durch Verwenden einer abstandsbasierten Komponente, wie beispielsweise des Triplettverlustes, erreicht:
    L s i m i l a r i t y = m a x ( F ( a ) F ( p ) 2 F ( a ) F ( n ) 2 + α ,0 )
    Figure DE112020004052T5_0005
    wobei a, p und n ∈ X Audiosegmente sind, so dass a und p dieselbe Bezeichnung und a und n unterschiedliche Bezeichnungen haben. Das zweite Kriterium ist geprägt von unserem Ziel, Szenen schnell zu klassifizieren. Es ist wünschenswert, Umgebungsklänge nach einem Hineinhören so wenig wie möglich detektieren bzw. erkennen zu können. Somit ist es wünschenswert, die Segmente hervorzuheben, die eine Szene unterscheiden können (z.B. Kinderlachen in einer Spielplatzszene) und diejenigen herunterzuspielen, die weniger beschreibend sind (z.B. Stille, weißes Rauschen). Um die Wichtigkeit jedes Segments zu erfassen, wird eine Audio-Wichtigkeitsbewertung bzw. ein Audio-Wichtigkeitsscore definiert. Der Wichtigkeitsscore ist eine lineare Projektion der Segmenteinbettung, die gemeinsam mit dem Codierer gelernt wird. Die Bewertung bzw. der Score wird unter Verwendung von Softmax normalisiert, ähnlich wie Gleichung 2, um die Wichtigkeitsgewichtung, wi, jedes Segments zu erhalten und sie zu verwenden, um den Gesamtverlust zu berechnen:
    L = ( Π w i ) L A ¨ h n e l i c h k e i t + a a u d i o ( w i )
    Figure DE112020004052T5_0006
    wobei wi die Gewichtungen der Segmente darstellt, die dazu verwendet werden,
    Figure DE112020004052T5_0007
    Ähnlichkeit zu berechnen, z.B. a, p und n aus Gleichung 4, und αaudio, ein Regularisierungsparameter ist. Der erste Ausdruck der Gleichung stellt sicher, dass nur wichtige Segmente bei der Triplettverlust-Berechnung verwendet werden, während der zweite Ausdruck versucht, die Gewichtungen solcher Segmente zu maximieren.
  • Die Aufmerksamkeits- und Wichtigkeitsbewertungen sind beim Hervorheben der unterschiedlichen Segmente in einer Audioszene komplementär. Die Aufmerksamkeitsbewertung hilft, die nützlichen Zeitschritte innerhalb eines Segments zu identifizieren, während die Wichtigkeitsbewertung hilft, die relevanten Segmente innerhalb einer Szene abzurufen.
  • 6-7 sind Flussdiagramme, die ein beispielhaftes Verfahren 600 zur Klassifizierung von Audioszenen zeigen, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Block 610 erfolgt ein Erzeugen von Zwischen-Audiomerkmalen, die sowohl Korrelationen zwischen unterschiedlichen Akustikfenstern in einer selben Szene erfassen als auch einen Effekt uninteressanter Merkmale in derselben Szene isolieren und abschwächen. Bei einer Ausführungsform können die uninteressanten Merkmale Stille und/oder Rauschen bzw. Lärm enthalten. Die Zwischen-Audiomerkmale werden erzeugt, um den Effekt uninteressanter Merkmale in derselben Szene zu isolieren und abzuschwächen, indem ein Triplettverlust verwendet wird, der unterschiedliche Klassen weiter als ähnliche Klassen in einem Klassifikationsraum voneinander wegdrückt.
  • Bei einer Ausführungsform kann der Block 610 einen oder mehrere der von Blöcken 510A bis 510C enthalten.
  • Bei einem Block 610A lernen die Zwischen-Audiomerkmale von aus einer eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen.
  • Bei einem Block 610B erfolgt ein Aufteilen derselben Szene in die unterschiedlichen Akustikfenster mit variierenden der MFCC-Merkmale. Bei einer Ausführungsform kann die gesamte Szene in überlappende Fenster aufgeteilt werden, um Abhängigkeiten zwischen Fenstern auszunutzen.
  • Bei einem Block 610C erfolgt eine Vorverarbeiten der eingegebenen Akustiksequenz durch Anwenden eine schnellen Fourier-Transformation (FFT) auf jedes der unterschiedlichen Akustikfenster, um jeweilige akustische Frequenzenergiepegel dafür zu extrahieren. Bei einer Ausführungsform können die jeweiligen akustischen Frequenzenergiepegel als die Zwischen-Audiomerkmale verwendet werden.
  • Bei einem Block 610D (in dem Fall, in welchem die jeweiligen akustischen Frequenzenergiepegel nicht als die Zwischen-Audiomerkmale verwendet werden) erfolgt ein Abbilden die jeweiligen akustischen Frequenzenergiepegel auf eine Mel-Skala, um zu die menschlichen Hörfähigkeiten zu passen, und ein Anwenden einer Kosinus-Transformation auf Protokolle der jeweiligen akustischen Frequenzenergiepegel, um die MFCC-Merkmale zu erhalten.
  • Bei einem Block 610E erfolgt ein Einspeisen bzw. Zuführen der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in LSTM-Einheiten, so dass ein verborgener Zustand von jeder der LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Korrelationen zwischen verborgenen Zuständen zu unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren. Bei einer Ausführungsform können die LSTM-Einheiten so viele verborgene Zustände wie Zeitschritte in einem gegebenen aktuellen der Windows enthalten.
  • Bei einem Block 620 erfolgt ein Klassifizieren, unter Verwendung einer Suche nach nächsten Nachbarn, von Segmenten einer eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen, um ein schließliches bzw. endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen.
  • Bei einer Ausführungsform kann der Block 620 einen oder mehrere von Blöcken 620A und 620B enthalten.
  • Bei einem Block 620A erfolgt ein Erzeugen des schließlichen bzw. letzten Zwischenmerkmals für jedes der unterschiedlichen Akustikfenster durch Optimieren einer Triplettverlust-Funktion, zu welcher ein für jedes der Zwischen-Audiomerkmale berechneter Regularisierungsparameter hinzugefügt wird, um eine Wichtigkeit der uninteressanten Merkmale zu reduzieren.
  • Bei einem Block 620B erfolgt eine Bestimmen der schließlichen Zwischenklassifizierung durch Mehrheitsbeschluss über Klassifizierungen für die die eingegebene Akustiksequenz ausbildenden Segmente.
  • Bei einer Ausführungsform wird der Regularisierungsparameter an einem letzten Element von jedem der Zwischen-Audiomerkmale berechnet, wobei das letzte Element eine Stille-Gewichtung ist.
  • Bei einem Block 630 erfolgt ein Steuern einer Hardwarevorrichtung, um eine Aktion in Reaktion auf eine Klassifizierung durchzuführen.
  • Beispielhafte Aktionen können zum Beispiel ein Erkennen von Anomalien in Computerverarbeitungssystemen und ein Steuern des Systems, in welchem eine Anomalie detektiert wird, enthalten, sind aber nicht darauf beschränkt. Zum Beispiel kann eine Abfrage in der Form von akustischen Zeitreihendaten von einem Hardwaresensor oder einem Sensornetzwerk (z.B. einem Mesh bzw. vermaschten Netz) als anomales Verhalten (gefährliche oder anderweitig zu hohe Betriebsgeschwindigkeit (z.B. Motor, Zahnradverbindung), gefährliche oder anderweitig übermäßige Betriebswärme (z.B. Motor, Zahnradverbindung), gefährlich oder anderweitig außerhalb der Toleranzausrichtung (z.B. Motor, Zahnradverbindung etc.)) unter Verwendung einer Textnachricht als Beschriftung/Klassifizierung im Vergleich zu historischen Sequenzen charakterisiert werden. Demgemäß kann eine potenziell fehlerhafte Vorrichtung ausgeschaltet werden, ihre Betriebsgeschwindigkeit reduziert, eine Ausrichtungs-(z.B. hardwarebasierte) Prozedur durchgeführt werden und so weiter, und zwar basierend auf der Implementierung.
  • Eine weitere beispielhafte Aktion kann eine Ablaufverfolgung von Betriebsparametern sein, bei welcher eine Historie der Parameteränderung im Laufe der Zeit protokolliert werden kann, wie sie verwendet wird, um andere Funktionen, wie beispielsweise Hardware-Maschinensteuerungsfunktionen einschließlich Ein- oder Ausschalten, Verlangsamen, Beschleunigen, positionelles Einstellen bzw. Anpassen und so weiter, auf die Detektion bzw. Erkennung eines gegebenen Betriebszustands hin durchzuführen, der einer gegebenen Ausgabeklassifizierung gleicht.
  • Beispielhafte Umgebungen, wo die vorliegende Erfindung eingesetzt werden kann, enthalten, sind aber nicht darauf beschränkt, Kraftwerke, Informationstechnologiesysteme, Fertigungsanlagen, Computerverarbeitungssysteme (z.B. Serverfarmen, Speicherpools, etc.), einen Multimedienabruf (automatisches Tagging bzw. Identifizieren bzw. automatische Datenkennung von Sport- oder Musikszenen), intelligente Überwachungssysteme (Identifizieren spezifischer Klänge in der Umgebung), akustische Überwachung, Suche in Audioarchiven, Katalogisierung und Indexierung und so weiter. Diese und andere Umgebungen werden angesichts der Lehren der hierin bereitgestellten vorliegenden Erfindung von einem Fachmann auf dem Gebiet ohne weiteres in Betracht gezogen.
  • 8 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 800 zur zeitreihenbasierten Klassifizierung von Audioszenen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Bei einem Block 810 erfolgt ein Erzeugen von Zwischen-Audiomerkmalen aus jeweiligen Segmenten einer eingegebenen akustischen Zeitreihe für eine selbe Szene, die durch eine Sensorvorrichtung erfasst ist.
  • Bei einer Ausführungsform enthält der Block 810 einen oder mehrere von Blöcken 810A bis 810C.
  • Bei einem Block 810A erfolgt ein Lernen der Zwischen-Audiomerkmale von aus der eingegebenen akustischen Zeitreihe extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen.
  • Bei einem Block 810B erfolgt ein Aufteilen derselben Szene in die unterschiedlichen Akustikfenster mit unterschiedlichen MFCC-Merkmalen.
  • Bei einem Block 810C erfolgt ein Einspeisen bzw. Zuführen der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweilige LSTM-Einheiten, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen zu unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  • Bei einem Block 820 erfolgt einen Klassifizieren, unter Verwendung einer Suche nach nächsten Nachbarn, der jeweiligen Segmente der eingegebenen akustischen Zeitreihe basierend auf den Zwischen-Audiomerkmalen, um ein schließliches bzw. endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene akustische Zeitreihe zu erzeugen. Jedes der jeweiligen Segmente entspricht einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern.
  • Bei einem Block 830 erfolgt ein Ersetzen einer durch den Sensor überwachten Hardwarevorrichtung in Reaktion auf das schließliche Zwischenmerkmal. Oder es erfolgt eine Durchführen einer andere Aktion, wie beispielsweise irgendeiner der hierin beschriebenen beispielhaften Aktionen in Bezug auf eine resultierende Klassifizierung.
  • 9 ist ein Blockdiagramm, das einen beispielhaften Triplettverlust 900 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Der Triplettverlust enthält ein Abtast-Tripletts, die aus Abtastungen von Ankern, Positiven und Negativen ausgebildet sind.
  • Bezüglich der Abtastung von Negativen gilt folgendes.
  • Zufällig: Zufallsabtastung aus einer anderen Klasse.
  • Semiharte Negative 901: Abtasten von Negativen, die nicht näher zum Anker sind als der Positive aus einer anderen Klasse, d.h. d(a,p) < d(a,n) < d(a,p) + Rest.
  • Harte Negative 902: Abtasten von Negativen, die näher zum Anker liegen als der Positive aus einer anderen Klasse, d.h. d(a,n) < d(a,p).
  • 10 ist ein Blockdiagramm, das einen beispielhaften szenenbasierten Präzisionsauswertungsansatz 1000 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Der Ansatz 1000 enthält vorhergesagte Szenenbezeichnungen 1001, vorhergesagte Segmentbezeichnungen 1002 und wahre bzw. echte Szenenbezeichnungen 1003.
  • Ansatz 1 (szenenbasierte Präzision): Wenn für jede Audioszene mehr als eine Hälfte der Segmente korrekt vorhergesagt ist, gilt diese Szene als korrekt bzw. richtig vorhergesagt.
    P r a ¨ z i s i o n = R i c h t i g   P o s i t i v R i c h t i g   P o s i t i v + F a l s c h   P o s i t i v
    Figure DE112020004052T5_0008
  • 11 ist ein Blockdiagramm, das einen weiteren szenenbasierten Präzisionsauswertungsansatz 1100 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Der Ansatz 1100 enthält vorhergesagte Szenenbezeichnungen 1101, vorhergesagte Segmentbezeichnungen 1102 und wahre bzw. echte Szenenbezeichnungen 1103.
  • Ansatz 2 (szenenbasierte Präzision): Für jede Audioszene werden die zwei am häufigsten vorhergesagten Bezeichnungen für Segmente gezählt. Wenn eine richtige Bezeichnung dieser Audioszene in diese zwei Bezeichnungen fällt, dann ist bestimmt, dass diese Szene korrekt vorhergesagt ist.
  • 12 ist ein Blockdiagramm, das eine beispielhafte Computing- bzw. Rechen- bzw. Computerumgebung 1200 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
  • Die Umgebung 1200 enthält einen Server 1210, mehrere Client-Vorrichtungen (die gemeinsam durch das Bezugszeichen 1220 bezeichnet sind), ein gesteuertes System A 1241, ein gesteuertes System B 1242.
  • Eine Kommunikation zwischen den Entitäten bzw. Einheiten der Umgebung 1200 kann über ein oder mehrere Netzwerke 1230 durchgeführt werden. Der Veranschaulichung halber ist ein drahtloses Netzwerk 1230 gezeigt. Bei anderen Ausführungsformen kann irgendetwas von drahtgebunden, drahtlos und/oder einer Kombination davon verwendet werden, um Kommunikation zwischen den Entitäten bzw. Einheiten zu ermöglichen bzw. zu erleichtern.
  • Der Server 1210 empfängt Zeitreihendaten von Client-Vorrichtungen 1220. Der Server 1210 kann eines der Systeme 1241 und/oder 1242 basierend auf einer dadurch vorhergesagten Vorhersage steuern. Bei einer Ausführungsform können die Zeitreihendaten Daten sein, die sich auf die gesteuerten Systeme 1241 und/oder 1242 beziehen, wie zum Beispiel, aber nicht beschränkt darauf, Sensordaten.
  • Hierin beschriebene Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente enthaltend sein. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, einen Microcode etc. enthält, aber nicht darauf beschränkt ist.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch einen Computer oder irgendein Anweisungsausführungssystem, oder in Verbindung damit, bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das Anweisungs- bzw. Befehlsausführungssystem, eine Vorrichtung oder ein Gerät, oder in Verbindung damit, speichert, kommuniziert, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, infrarotes oder Halbleitersystem (oder eine Vorrichtung oder Gerät) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium, wie beispielsweise einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Wechselcomputerdiskette, ein Direktzugriffsspeicher (RAM), ein Nurlesespeicher (ROM), eine feste bzw. starre Magnetplatte und eine optische Scheibe bzw. Platte, etc., enthalten.
  • Jedes Computerprogramm kann konkret bzw. materiell in einem maschinenlesbaren Speichermedium oder einer Vorrichtung (z.B. einem Programmspeicher oder einer Magnetplatte) gespeichert sein, das oder die durch einen allgemeinen oder speziellen programmierbaren Computer lesbar ist, zum Konfigurieren und Steuern eines Betriebs eines Computers, wenn die Speichermedien oder die Vorrichtung durch den Computer gelesen werden oder wird, um die hierin beschriebenen Prozeduren durchzuführen. Das erfinderische System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wo das so konfigurierte Speichermedium veranlasst, dass ein Computer auf eine spezifische bzw. bestimmte und vordefinierte Weise arbeitet, um die hierin beschriebenen Funktionen durchzuführen.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen eines Programmcodes geeignet ist, kann wenigstens einen Prozessor enthalten, der durch einen Systembus direkt oder indirekt mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während einer tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher, die eine temporäre Speicherung von wenigstens etwas von einem Programmcode zur Verfügung stellen, um die Anzahl von Malen zu reduzieren, für welche eine Code während einer Ausführung aus einem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht darauf beschränkt, Tastaturen, Anzeigen, Zeigevorrichtungen etc.) können entweder direkt oder über dazwischenliegende I/O-Steuerungen mit dem System gekoppelt sein.
  • Netzwerkadapter können auch mit dem System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder Remote-Druckern bzw. entfernten Druckern oder Speichervorrichtungen gekoppelt wird. Modems, ein Kabelmodem und Ethernet-Karten sind nur einige wenige von derzeit verfügbaren Typen von Netzwerkadaptern.
  • Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch einzusehen, dass Merkmale von einer oder von mehreren Ausführungsformen bei den hierin zur Verfügung gestellten gegebenen Lehren der vorliegenden Erfindung kombiniert werden können.
  • Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
  • Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt erwünscht wird, in den beigefügten Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 16997314 [0001]
    • US 62/915022 [0001]
    • US 62/915668 [0001]

Claims (20)

  1. Computerimplementiertes Verfahren zur Klassifizierung von Audioszenen, umfassend: Erzeugen (610) von Zwischen-Audiomerkmalen aus einer eingegebenen Akustiksequenz; und Klassifizieren (620), unter Verwendung einer Suche nach nächsten Nachbarn, von Segmenten der eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen, um ein endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen, wobei jedes der Segmente einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern entspricht; wobei der Erzeugungsschritt folgendes umfasst: Lernen (610A) der Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen; Aufteilen (610B) derselben Szene in die unterschiedlichen Akustikfenster mit unterschiedlichen MFCC-Merkmalen; und Einspeisen bzw. Zuführen (610E) der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweiligen LSTM-Einheiten, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  2. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Zwischen-Akustikmerkmale sowohl Merkmalskorrelationen zwischen unterschiedlichen Akustikfenstern in einer selben Szene erfassen als auch einen Effekt uninteressanter Merkmale in derselben Szene isolieren und abschwächen.
  3. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Klassifizierungsschritt ein Erzeugen des endgültigen Zwischenmerkmals für jedes der unterschiedlichen Akustikfenster durch Optimieren einer Triplettverlust-Funktion umfasst, zu welcher ein an jedem der Zwischen-Audiomerkmale berechneter Regularisierungsparameter hinzugefügt wird, um eine Wichtigkeit der uninteressanten Merkmale zu reduzieren, und wobei die uninteressanten Merkmale Stille umfassen.
  4. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Triplettverlust-Funktion einen Triplettauswahl-Algorithmus einstellt, um ein Verwenden der uninteressanten Teilbereiche als Stille und Rauschen durch Verwenden einer Stille- und Rauschen-Wahrnehmungsverzerrung zu vermeiden.
  5. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Regularisierungsparameter an einem letzten Element von jedem der Zwischen-Audiomerkmale berechnet wird, wobei das letzte Element eine Stille-Gewichtung ist.
  6. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Regularisierungsparameter eine Summe von Stille-Gewichtungen umfasst und verhindert, dass alle Stille-Gewichtungen gleichzeitig einen Wert von Null erreichen.
  7. Computerimplementiertes Verfahren nach Anspruch 1, wobei eine Gesamtheit derselben Szene in überlappende Fenster aufgeteilt wird, um Abhängigkeiten zwischen Fenstern auszunutzen.
  8. Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Steuern einer Hardwarevorrichtung umfasst, um eine Aktionsreaktion auf eine Klassifizierung derselben Szene durchzuführen.
  9. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Zwischen-Audiomerkmale erzeugt werden, um die Wirkung bzw. den Effekt uninteressanter Merkmale in derselben Szene unter Verwendung eines Triplettverlusts zu isolieren und abzuschwächen, der unterschiedliche Klassen weiter voneinander weg als ähnliche Klassen in einem Klassifikationsraum drückt.
  10. Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Berechnen einer Einbettung der eingegebenen Akustiksequenz als gewichtetes Mittel von jedem der verborgenen Zustände umfasst.
  11. Computerimplementiertes Verfahren nach Anspruch 1, wobei die Einbettung das endgültige Zwischenmerkmal ist.
  12. Computerimplementiertes Verfahren nach Anspruch 1, das weiterhin ein Empfangen eines Abfragesegments und ein Finden eines ähnlichsten historischen Segments unter Verwendung eines nächsten Nachbarn umfasst.
  13. Computerimplementiertes Verfahren nach Anspruch 1, wobei die jeweiligen LSTMs bidirektional sind und Segmente der eingegebenen Akustiksequenz in zeitlicher Reihenfolge und in umgekehrter zeitlicher Reihenfolge zuführen bzw. einspeisen, um zwei endgültige Darstellungen bereitzustellen.
  14. Computerimplementiertes Verfahren nach Anspruch 13, wobei das endgültige Zwischenmerkmal für ein gegebenes der Segmente durch Verketten der zwei endgültigen Darstellungen, multipliziert mit den in der Aufmerksamkeitsschicht bestimmten Aufmerksamkeits-Gewichtungen, erhalten wird.
  15. Computerimplementiertes Verfahren nach Anspruch 1, wobei der Lernschritt die Zwischen-Audiomerkmale durch Minimieren einer unter Verwendung der Zwischen-Audiomerkmale eines zufällig ausgewählten Stapels von Segmenten aus der eingegebenen Akustiksequenz berechneten Verlustfunktion lernt.
  16. Computerimplementiertes Verfahren nach Anspruch 1, wobei das endgültige Zwischenmerkmal durch Mehrheitsbeschluss über Klassifizierungen für die die eingegebene Akustiksequenz ausbildenden Segmente bestimmt wird.
  17. Computerimplementiertes Verfahren nach Anspruch 1, wobei jedes Merkmal einen Sensor darstellt.
  18. Computerprogrammprodukt zur Klassifizierung von Audioszenen, wobei das Computerprogrammprodukt ein nicht transitorisches bzw. nichtflüchtiges computerlesbares Speichermedium mit damit verkörperten Programmanweisungen umfasst, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahrens durchführt, das folgendes umfasst: Erzeugen (610) von Zwischen-Audiomerkmalen aus einer eingegebenen Akustiksequenz; und Klassifizieren (620), unter Verwendung einer Suche nach nächsten Nachbarn, von Segmenten der eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen, um ein endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen, wobei jedes der Segmente einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern entspricht; wobei der Erzeugungsschritt folgendes umfasst: Lernen (610A) der Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen; Aufteilen (610B) derselben Szene in die unterschiedlichen Akustikfenster mit unterschiedlichen MFCC-Merkmalen; und Einspeisen bzw. Zuführen (610E) der MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweiligen LSTM-Einheiten, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen bei unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
  19. Computerprogrammprodukt nach Anspruch 18, wobei die Zwischen-Akustikmerkmale sowohl Merkmalskorrelationen zwischen unterschiedlichen Akustikfenstern in einer selben Szene erfassen als auch eine Wirkung bzw. einen Effekt uninteressanter Merkmale in derselben Szene isolieren und abschwächen.
  20. Computerverarbeitungssystem für die Klassifizierung von Audioszenen, umfassend: eine Speichervorrichtung (110) zum Speichern eines Programmcodes; und einen Hardwareprozessor (120), der operativ mit der Speichervorrichtung gekoppelt ist, zum Laufenlassen bzw. Ausführen des Programmcodes, um Zwischen-Audiomerkmale aus einer eingegebenen Akustiksequenz zu erzeugen; und, unter Verwendung einer Suche nach nächsten Nachbarn, Segmente der eingegebenen Akustiksequenz basierend auf den Zwischen-Audiomerkmalen zu klassifizieren, um ein endgültiges Zwischenmerkmal als Klassifizierung für die eingegebene Akustiksequenz zu erzeugen, wobei jedes der Segmente einem jeweiligen unterschiedlichen von unterschiedlichen Akustikfenstern entspricht; wobei der Hardwareprozessor den Programmcode ausführt, um die Zwischen-Audiomerkmale zu erzeugen, um die Zwischen-Audiomerkmale aus aus der eingegebenen Akustiksequenz extrahierten Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Merkmalen zu lernen; dieselbe Szene in die unterschiedlichen Akustikfenster mit variierenden MFCC-Merkmalen aufzuteilen; und die MFCC-Merkmale von jedem der unterschiedlichen Akustikfenster in jeweilige LSTM-Einheiten einzuspeisen bzw. zuzuführen, so dass ein verborgener Zustand von jeder der jeweiligen LSTM-Einheiten durch eine Aufmerksamkeitsschicht geführt wird, um Merkmalskorrelationen zwischen verborgenen Zuständen zu unterschiedlichen Zeitschritten entsprechend unterschiedlichen der unterschiedlichen Akustikfenster zu identifizieren.
DE112020004052.6T 2019-08-27 2020-08-20 Sequenzmodelle zur audioszenenerkennung Pending DE112020004052T5 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201962892057P 2019-08-27 2019-08-27
US201962892022P 2019-08-27 2019-08-27
US62/892,022 2019-08-27
US62/892,057 2019-08-27
US201962915668P 2019-10-16 2019-10-16
US62/915,668 2019-10-16
US16/997,314 2020-08-19
US16/997,314 US10930301B1 (en) 2019-08-27 2020-08-19 Sequence models for audio scene recognition
PCT/US2020/047171 WO2021041144A1 (en) 2019-08-27 2020-08-20 Sequence models for audio scene recognition

Publications (1)

Publication Number Publication Date
DE112020004052T5 true DE112020004052T5 (de) 2022-09-01

Family

ID=74659419

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020004052.6T Pending DE112020004052T5 (de) 2019-08-27 2020-08-20 Sequenzmodelle zur audioszenenerkennung

Country Status (4)

Country Link
US (2) US10930301B1 (de)
JP (1) JP2022545342A (de)
DE (1) DE112020004052T5 (de)
WO (2) WO2021041144A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11513205B2 (en) 2017-10-30 2022-11-29 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
CN113299317B (zh) * 2021-05-14 2022-04-08 东南大学 一种基于mfcc特征提取的交叉路口碰撞音频预警测评方法
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与***
CN113672807B (zh) * 2021-08-05 2024-03-05 杭州网易云音乐科技有限公司 推荐方法、装置、介质、装置和计算设备
CN113763952B (zh) * 2021-09-03 2022-07-26 深圳市北科瑞声科技股份有限公司 一种动态语音识别方法、装置、电子设备以及存储介质
CN113782054B (zh) * 2021-09-22 2023-09-15 应急管理部国家自然灾害防治研究院 基于智能语音技术的闪电哨声波自动识别方法及***
CN114330431A (zh) * 2021-12-23 2022-04-12 天津工业大学 基于动态自注意力的托辊故障诊断方法及相关设备
CN115083435B (zh) * 2022-07-28 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、计算机设备和存储介质
CN117234455B (zh) * 2023-11-14 2024-04-19 深圳市齐奥通信技术有限公司 基于环境感知的音频装置智能控制方法及***

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类***及方法
US20150243289A1 (en) * 2012-09-14 2015-08-27 Dolby Laboratories Licensing Corporation Multi-Channel Audio Content Analysis Based Upmix Detection
US20160155455A1 (en) * 2013-05-22 2016-06-02 Nokia Technologies Oy A shared audio scene apparatus
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
JP6220733B2 (ja) * 2014-06-06 2017-10-25 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US10997236B2 (en) * 2015-04-27 2021-05-04 Samsung Electronics Co., Ltd. Audio content recognition method and device
US9754607B2 (en) * 2015-08-26 2017-09-05 Apple Inc. Acoustic scene interpretation systems and related methods
US9668073B2 (en) * 2015-10-07 2017-05-30 Robert Bosch Gmbh System and method for audio scene understanding of physical object sound sources
US10733979B2 (en) * 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
JP7086521B2 (ja) * 2017-02-27 2022-06-20 ヤマハ株式会社 情報処理方法および情報処理装置
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
US11216724B2 (en) * 2017-12-07 2022-01-04 Intel Corporation Acoustic event detection based on modelling of sequence of event subparts
KR102058657B1 (ko) * 2017-12-11 2019-12-23 주식회사 엘솔루 자동 음성인식 시스템 및 이의 도메인 적응 방법
US11335333B2 (en) * 2018-07-20 2022-05-17 Google Llc Speech recognition with sequence-to-sequence models
US11210475B2 (en) * 2018-07-23 2021-12-28 Google Llc Enhanced attention mechanisms
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
EP3608918B1 (de) * 2018-08-08 2024-05-22 Tata Consultancy Services Limited Parallele implementierung von tiefenneuronalen netzen zur klassifizierung von herztonsignalen
US11947593B2 (en) * 2018-09-28 2024-04-02 Sony Interactive Entertainment Inc. Sound categorization system
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition

Also Published As

Publication number Publication date
JP2022545342A (ja) 2022-10-27
WO2021041144A1 (en) 2021-03-04
US10930301B1 (en) 2021-02-23
WO2021041146A1 (en) 2021-03-04
US20210065734A1 (en) 2021-03-04
US11355138B2 (en) 2022-06-07
US20210065735A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE60203436T2 (de) Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE112020003365T5 (de) Überwachte kreuzmodale wiedergewinnung für zeitreihen und text unter verwendung von multimodalen triplettverlusten
DE112020003538T5 (de) Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern
DE112021004261T5 (de) Dualmodale beziehungsnetzwerke zur audiovisuellen ereignislokalisierung
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112018005813T5 (de) Erleichterung von domänen- und kundenspezifischen empfehlungen für anwendungsprogramm-schnittstellen
CN103761965B (zh) 一种乐器信号的分类方法
DE112020003909T5 (de) Verfahren zum multimodalen abrufen bzw. wiedergewinnen und clustern unter verwendung einer tiefen cca und aktiver paarweiser abfragen
Thomas et al. A practical guide for generating unsupervised, spectrogram‐based latent space representations of animal vocalizations
DE112021003937T5 (de) Chaos-testing für sprachgesteuerte einheiten
DE112017006049B4 (de) Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen
Ghani et al. Classification of group-specific variations in songs within House Wren species using machine learning models
CN116682015A (zh) 一种基于特征解耦的跨域小样本雷达一维像目标识别方法
DE202022105338U1 (de) Ein neuronales Netzwerksystem zur Klassifizierung von Musikgenres auf der Grundlage einer evolutionären stochastischen Hyperparameterauswahl
DE102022001733A1 (de) Maschinell lernende Modelle zum Detektieren von thematisch abweichenden Digitalvideos
DE112020003537T5 (de) Unüberwachte konzeptfindung und kreuzmodale wiedergewinnung in zeitreihenund textkommentaren basierend auf kanonischer korrelationsanalyse
CN113851117A (zh) 语音关键词识别方法、***、设备及存储介质
DE112021003010T5 (de) Automatisierte datenverknüpfungen zwischen datensätzen
DE112021003999T5 (de) Kontextsensitive anomalieerkennung
Ghosal et al. Speech/music discrimination using perceptual feature

Legal Events

Date Code Title Description
R012 Request for examination validly filed