DE102020007344A1

DE102020007344A1 - Sicheres Audiowasserzeichenmarkieren auf Grundlage neuronaler Netzwerke

Info

Publication number: DE102020007344A1
Application number: DE102020007344.1A
Authority: DE
Inventors: Zeyu Jin; Oona Shigeno Risse-Adams
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2020-02-13
Filing date: 2020-12-02
Publication date: 2021-08-19
Also published as: US11170793B2; GB202020079D0; GB2592723A; AU2020289816B1; CN113257259A; GB2592723B; US20210256978A1

Abstract

Ausführungsformen stellen Systeme, Verfahren und Computerspeichermedien zum sicheren Audiowasserzeichenmarkieren und Audioechtheitsprüfen bereit. Beinhalten kann ein Audiowasserzeichendetektor ein neuronales Netzwerk, das darauf trainiert ist, ein bestimmtes Audiowasserzeichen und eine Einbettungstechnik zu detektieren, was auf Source-Software hinweisen kann, die in einem Arbeitsablauf, der eine zu untersuchende Audiodatei generiert hat, benutzt worden ist. Das Wasserzeichen kann beispielsweise darauf hinweisen, dass eine Audiodatei unter Nutzung einer Sprachmanipulationssoftware generiert worden ist, sodass das Detektieren des Wasserzeichens auf ein manipuliertes Audio, so beispielsweise ein Deepfake-Audio und andere angegriffene Audiosignale, hinweisen kann. Bei einigen Ausführungsformen kann der Audiowasserzeichendetektor als Teil eines generativ-adversativen Netzwerkes trainiert werden, um das zugrunde liegende Audiowasserzeichen widerstandsfähiger gegenüber neuronalnetzwerkbasierten Angriffen zu machen. Allgemein kann der Audiowasserzeichendetektor Zeitdomänenabtastungen aus Teilstücken eines zu untersuchenden Audioclips bewerten, um das Vorhandensein des Audiowasserzeichens zu detektieren und eine Klassifizierung für den Audioclip zu generieren.

Description

Hintergrund
Ein Audiowasserzeichen ist ein Signal, ein Code oder eine Kennung mit Einbettung in eine Audiowellenform, um auf Metainformation über das Audio, so beispielsweise die Inhaberschaft eines Urheberrechtes, hinzuweisen. Das Audiowasserzeichenmarkieren ist ein Prozess des Einbettens und/oder Detektierens eines Audiowasserzeichens. Audiowasserzeichen sind allgemein derart konfiguriert, dass sie nicht wahrnehmbar (sie sollten beispielsweise die Audioqualität nicht beeinflussen), widerstandsfähig (sie sollten beispielsweise einer gängigen Signalverarbeitung und Angriffen standhalten können), detektierbar und sicher (nur von Befugten detektierbar) sind. Es gibt mehrere Arten von Einbettungstechniken zum Audiowasserzeichenmarkieren, so beispielsweise die Amplitudenänderung, die Dither-Wasserzeichenmarkierung, die Phasencodierung, die Echo-Wasserzeichenmarkierung, die Spreizspektrum-Wasserzeichenmarkierung und die psychoakustische Einbettung. Im Allgemeinen können Signalverarbeitungsvorgänge und Angriffe das Wasserzeichen degradieren bzw. modifizieren (Englisch: degrade), was auf die Manipulation oder das Kopieren hinweisen kann. Es kann daher eine Audiowasserzeichenmarkierung zum Echtheitsnachweis und zur Verhinderung einer Fälschung benutzt werden.
In jüngster Zeit sind neuronale Netzwerke dafür benutzt worden, „Deepfakes“ genannte Audio- und Videofälschungen zu synthetisieren. Hergestellt haben böswillig Agierende beispielsweise Fakevideos, in denen Menschen Dinge sagen, die sie nie gesagt haben, Videos, die das Gesicht einer Person und den Körper einer anderen Person zusammenbringen, und andere möglicherweise unerwünschte Anwendungen. Für einige Aufmerksamkeit gesorgt haben Deepfakes unter anderen Anwendungen durch ihre Benutzung bei der Verbreitung von Fake News. Während die grafische Community damit begonnen hat, präventive Lösungen zu erforschen, ist ein merkliches Defizit an Deepfake-Forschung in der akustischen Community vorhanden.
Zusammenfassung
Ausführungsformen der vorliegenden Erfindung betreffen das sichere Audiowasserzeichenmarkieren und Audioechtheitsprüfen. Beinhalten kann ein Audiowasserzeichendetektor ein neuronales Netzwerk, das darauf trainiert ist, ein bestimmtes Audiowasserzeichen und eine Einbettungstechnik zu detektieren, was auf Source-Software hinweisen kann, die bei einem Arbeitsablauf, der eine zu untersuchende Audiodatei generiert hat, benutzt worden ist. Eine Audiogenerierungssoftware, so beispielsweise eine Sprachmanipulationssoftware, kann beispielsweise zum Einbetten eines Audiowasserzeichens in ein generiertes Audiosignal benutzt werden. Wird das wasserzeichenmarkierte Audiosignal zum Generieren einer Art von Fälschung, so beispielsweise eines Deepfakes, benutzt, so kann ein Audiowasserzeichendetektor das Audio der Fälschung (degradiertes bzw. modifiziertes Audio; Englisch: degraded audio) mit Blick auf das Vorhandensein des Audiowasserzeichens bewerten. Das Detektieren des Wasserzeichens in einem bestimmten Audioclip kann als Hinweis darauf dienen, dass Sprachmanipulationssoftware benutzt worden ist, um den Audioclip, der zum Generieren der Fälschung benutzt worden ist, zu generieren. Dies kann implizit als Hinweis darauf dienen, dass eine Art von Audio- oder Sprachmanipulation an einem zu untersuchenden Audiosignal durchgeführt worden ist. Der Audiowasserzeichendetektor kann daher benutzt werden, um ein manipuliertes Audio, so beispielsweise einen Deepfake-Audio und andere angegriffene Audiosignale, zu identifizieren und zu kennzeichnen.
Im Allgemeinen kann ein Audiowasserzeichen in ein Teilstück (chunk) eines Audios aus jedem Fenster (oder aus irgendeinem Teilsatz hiervon) eines generierten Audioclips eingebettet und aus dem Teilstück heraus detektiert werden. Der Audioclip kann auf verschiedene Weisen manipuliert werden, und zwar entweder durch Standardsignalverarbeitungsvorgänge (beispielsweise Komprimieren und Filtern) oder durch Angriffe auf das Audio, die darauf abzielen, das Audiowasserzeichen zu entfernen (beispielsweise durch Tonhöhenverschiebung, hinzugefügten Hall, zeitliche Streckung, Rauschentfernung, Neuaufzeichnung, Neusynthese), was zu einer Degradierung bzw. Modifikation an dem Audio und dem Audiowasserzeichen führt. Der Audiowasserzeichendetektor kann Zeitdomänenabtastungen aus Teilstücken eines zu untersuchenden modifizierten Audioclips bewerten, um das Vorhandensein des Audiowasserzeichens zu detektieren. Der Audiowasserzeichendetektor kann beispielsweise ein faltungstechnisches neuronales Netzwerk (Englisch: convolutional neural network) beinhalten, das eindimensionale (1D) Faltungen an Abtastungen aus Teilstücken des Audios aus einem sich verschiebenden Fenster des degradierten bzw. modifizierten Audioclips (Englisch: degraded audio clip) heraus durchführt und ein Klassifizierungslabel bzw. Klassifizierungsetikett als Hinweis darauf ausgibt, ob ein bestimmtes Teilstück des Audios wasserzeichenmarkiert ist oder nicht. In den Detektor eingespeist werden können sukzessive oder periodische Teilstücke eines modifizierten Audios, und der Detektor kann eine Klassifizierung für jedes Teilstück (wasserzeichenmarkiert oder nicht) ausgeben. Eine wahrscheinlichkeitsbasierte Metrik kann angewendet werden, um eine Gesamtklassifizierung für ein zu untersuchendes Audiosignal zu generieren (beispielsweise um das Vorhandensein des Wasserzeichens auf Grundlage dessen zu detektieren, dass eine Schwellenmenge von Teilstücken von beispielsweise 50% oder 90% als wasserzeichenbestückt klassifiziert wird).
Allgemein kann ein Audiowasserzeichendetektor unter Nutzung eines beliebigen geeigneten Trainingsdatensatzes auf Grundlage der von Interesse seienden Anwendung trainiert werden. Ein eigens vorgesehener Audiowasserzeichendetektor kann für jede spezifische Kombination eines Audiowasserzeichens und einer Einbettungstechnik trainiert werden, sodass das Trainieren eines bestimmten Audiowasserzeichendetektors das Einbetten von Audioclips mit demselben Wasserzeichen unter Nutzung derselben Einbettungstechnik implizieren kann. Bei einigen Ausführungsformen kann der Audiowasserzeichendetektor als Teil eines generativ-adversativen Netzwerkes (English: generative adversarial network) trainiert werden, um das zugrunde liegende Audiowasserzeichen widerstandsfähiger gegenüber neuronalnetzwerkbasierten Angriffen zu machen.
Bereitgestellt wird die vorliegende Zusammenfassung zur Einführung einer Auswahl von Konzepten in vereinfachter Form, die nachstehend in der Detailbeschreibung weiter beschrieben werden. Die vorliegende Zusammenfassung soll Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Erfindungsgegenstandes weder identifizieren, noch soll sie als Hilfe beim Bestimmen des Umfanges des beanspruchten Erfindungsgegenstandes benutzt werden.
Figurenliste
Die vorliegende Erfindung wird nachstehend detailliert anhand der begleitenden Zeichnungsfiguren beschrieben.

1 ist ein Blockdiagramm eines exemplarischen Rechensystems zur Audiowasserzeichenmarkierung entsprechend Ausführungsformen der vorliegenden Erfindung.
2 ist ein Blockdiagramm eines exemplarischen Arbeitsablaufes des Audiowasserzeichenmarkierens entsprechend Ausführungsformen der vorliegenden Erfindung.
3A und 3B zeigen Graphen zur Darstellung des Leistungsvermögens einer exemplarischen Implementierung bestimmter Ausführungsformen der vorliegenden Technik (3B) im Vergleich zu einer bisherigen Technik (3A).
4 ist ein Flussdiagramm zur Darstellung eines Verfahrens zur Audiowasserzeichendetektion entsprechend Ausführungsformen der vorliegenden Erfindung.
5 ist ein Flussdiagramm zur Darstellung eines weiteren Verfahrens zur Audiowasserzeichendetektion entsprechend Ausführungsformen der vorliegenden Erfindung.
6 ist ein Flussdiagramm zur Darstellung eines weiteren Verfahrens zur Audiowasserzeichendetektion entsprechend Ausführungsformen der vorliegenden Erfindung.
7 ist ein Blockdiagramm einer exemplarischen Rechenumgebung, die zur Nutzung bei der Implementierung von Ausführungsformen der vorliegenden Erfindung geeignet ist.

Detailbeschreibung
Übersicht
Das Wasserzeichenmarkieren ist über den akustischen Bereich hinaus auch in anderen Bereichen benutzt worden. Die Filmindustrie versteckt und detektiert beispielsweise oftmals Schlüssel oder andere Wasserzeichen innerhalb von Videoframes von Filmen auf eine Weise, die visuell nicht wahrnehmbar ist. Die Audiowasserzeichenmarkierung unterscheidet sich jedoch grundsätzlich von der Video- oder Bildwasserzeichenmarkierung. Bei der Video-/Bildwasserzeichenmarkierung wird nämlich die Pixeldomäne und nicht die Frequenzdomäne betrachtet. Im Ergebnis ist es vergleichsweise einfach, ein Wasserzeichen in die Frequenzdomäne eines Videoframes oder eines Bildes einzubetten, da die Frequenzdomäne visuell nicht wahrnehmbar ist. Im Gegensatz hierzu ist es sehr viel schwieriger, ein Wasserzeichen in der Frequenzdomäne eines Audios zu verbergen, da die Frequenzdomäne dasjenige ist, was man tatsächlich hört. Es ist per se problematisch, ein Audiowasserzeichen in der Frequenzdomäne einer Audiodatei auf eine Weise, die nicht wahrnehmbar für den Zuhörer, aber dennoch detektierbar ist, einzubetten. Aus ähnlichen Gründen sind Angriffe in der visuellen Domäne im Allgemeinen leichter als in der Audiodomäne zu detektieren. Hall (reverb), der zum Entfernen eines Wasserzeichens aus einem Bild benutzt wird, bringt beispielsweise oftmals visuelle Artefakte ein, die vergleichsweise einfach erkennen lassen, dass das Bild manipuliert worden ist. Im Gegensatz hierzu kann ein Angriff, der Audioartefakte einbringt, problematischer zu detektieren sein, da Menschen Artefakte gegebenenfalls auch dem Hintergrundrauschen zuschreiben. Aus vielen solchen Gründen scheitern herkömmliche Techniken der Audiowasserzeichenmarkierung.
Herkömmliche Techniken der Audiowasserzeichenmarkierung weisen eine Anzahl von üblichen Beschränkungen auf. Eines der hauptsächlichen Gestaltungsziele bei der Audiowasserzeichenmarkierung ist die Fähigkeit des Wasserzeichens, verschiedenen Arten der Audiomodifikation standzuhalten, die sich aus gängigen Audiosignalverarbeitungsvorgängen und absichtlichen „Angriffen“ auf das Wasserzeichen, die das Wasserzeichen zu entfernen anstreben, ergeben können. Herkömmliche Techniken der Audiowasserzeichenmarkierung sind jedoch nicht in der Lage, vielen modernen Angriffen standzuhalten. Herkömmliche Techniken der Audiowasserzeichenmarkierung sind beispielsweise üblicherweise nur dafür konfiguriert, bestimmten Arten der Modifikation an einer Audiowellenform standzuhalten, so beispielsweise einer Modifikation, die sich aus gängigen Audiosignalverarbeitungsvorgängen, so beispielsweise aus einem hinzugefügten Hintergrundrauschen oder Musik, oder einer Filterung und Kompression (beispielsweise einer MP3-Kompression), ergibt. Im Ergebnis ist die Widerstandsfähigkeit herkömmlicher Audiowasserzeichen auf Artefakte beschränkt, die durch eine gängige Audiosignalverarbeitung, so beispielsweise durch Kompression oder Filterung, eingebracht werden. Entsprechend sind herkömmliche Audiowasserzeichen durch viele Arten von Angriffen verwundbar.
Ein Szenario, bei dem ein Angreifer gegebenenfalls ein Audiowasserzeichen zu entfernen versucht, betrifft einen Deepfake, der ein ursprüngliches Audio erneut benutzt, dieses jedoch zu bösartigen Zwecken bearbeitet. Es gibt üblicherweise zwei Arten von Audio-Deepfakes, nämlich den Teilsyntheseangriff, der ein oder zwei Worte ändern kann, um die Bedeutung des Gesagten zu ändern, und den Vollsyntheseangriff, der die Identität des Sprechers vollständig ändert (ein Angreifer zeichnet beispielsweise eine Nachricht auf und ändert den Sprecher derart, dass dieser eine andere Stimme hat). Üblicherweise wünscht ein Angreifer nicht viel Verzerrung oder viele Artefakte in dem bearbeiteten Audio, da sich dann die Frage stellt, ob das Audio ein Fake ist. Es gibt jedoch nicht viele Arten, einen Audioclip anzugreifen, ohne eine merkliche Modifikation einzubringen. Moderne Angreifer kennen sich des Weiteren mit den Beschränkungen herkömmlicher Audiowasserzeichen aus und haben zu deren Umgehung relativ einfache Verfahren ohne merkliche Modifikation entwickelt. Moderne Angreifer können viele herkömmliche Audiowasserzeichen beispielsweise unter Nutzung einer Tonhöhenverschiebung, eines hinzugefügten Halles, einer zeitlichen Streckung, einer Rauschentfernung, eines über Luft erfolgenden Abspielens und Neuaufzeichnens, einer Neusynthese und dergleichen entfernen. Diese Arten von modernen Angriffen unterscheiden sich vollständig von Standardaudiobearbeitungstechniken, die das Design der meisten herkömmlichen Audiowasserzeichenmarkierungen bedingen. Ein moderner Angreifer kann daher ein herkömmliches wasserzeichenmarkiertes Audio unter Nutzung von Audiobearbeitungswerkzeugen derart manipulieren, dass das Wasserzeichen nicht mehr detektierbar ist. Ein Audiowasserzeichen sollte jedoch auch dann fortbestehen, wenn Angriffs- und Manipulationsverfahren wie diese angewendet werden. Als solches besteht Bedarf an verbesserten Techniken zum Detektieren des Vorhandenseins eines Audiowasserzeichens in einer modifizierten Audiowellenform.
Die nächstkommende Arbeit zur Lösung dieses Problems ist eine unlängst erschienene Veröffentlichung über die Audiowasserzeichenmarkierung, die einem Nachhall (reverberance) standhalten kann. Die Motivation für diese Arbeit besteht darin zu verhindern, dass ein digitaler Assistent aktiviert wird, wenn ein Werbespot (commercial) ein Aktivierungswort benutzt. Ein Audio aus einem Werbespot, der das Aktivierungswort beinhaltet, kann beispielsweise mit einem Audiowasserzeichen eingebettet werden, das darauf hinweist, dass der Digitalassistent nicht aktiviert werden soll. Bei diesem Szenario ist die Art der Modifikation, der das Wasserzeichen standhalten muss, diejenige, die sich aus einem Neuaufzeichnen und einer über Luft erfolgenden Übertragung ergibt. Diese Technik impliziert daher eine Art von Spreizspektrum-Wasserzeichenmarkierung, die widerstandsfähig gegenüber Nachhall und Synchronisationsentfernung ist. Deren Detektor nutzt eine modulierte Selbstkorrelation von aufeinanderfolgenden Teilstücken von Audio, um das Vorhandensein des Audiowasserzeichens zu detektieren. Diese Technik ist jedoch nicht dafür konfiguriert, widerstandsfähig gegenüber anderen Arten der Modifikation oder gegenüber den vorbeschriebenen modernen Angriffstechniken zu sein. Im Ergebnis ist auch diese Technik durch viele Arten von modernen Angriffen verwundbar. Diese Technik wird nachstehend detaillierter anhand 3A und 3B beschrieben.
Des Weiteren macht das Auftreten von Deepfakes eine adäquate vorbeugende technologische Reaktion zwingend. Herkömmliche Techniken der Audiowasserzeichenmarkierung sind jedoch nicht dafür geeignet, Deepfake-Audiofälschungen zu detektieren. Bei diesem Szenario strebt eine Person, die eine Audiowellenform generiert, gegebenenfalls danach, deren Nutzung im Zusammenhang mit Deepfakes zu verhindern (oder zu detektieren). Ein Deepfake-Audio kann jedoch unter Nutzung von Deep-Learning-Techniken synthetisiert werden, die lernen, Muster, die für Menschen nicht wahrnehmbar sind, zu detektieren. Deep-Learning-Techniken können jedoch audiowasserzeichenmarkierte Wellenformen nutzen, um Deepfakes zu synthetisieren, die die Modifikation des Wasserzeichens minimieren. Hierdurch wird es schwieriger, Audiofälschungen zu detektieren, wobei herkömmliche Audiowasserzeichen einfach nicht dafür konfiguriert sind, diese Art von Modifikation zu detektieren. Aus diesem zusätzlichen Grund besteht Bedarf an verbesserten Techniken zum Detektieren des Vorhandenseins eines Audiowasserzeichens in einer modifizierten Audiowellenform.
Obwohl moderne Techniken der Wasserzeichenmarkierung widerstandsfähiger werden und modernen Angriffen widerstehen, sollten sie auch weiterhin nicht wahrnehmbar, aber dennoch detektierbar bleiben. Dies legt die Nutzung des Deep Learning nahe, das gegebenenfalls die am besten geeignete Technik dafür ist, auch noch die am wenigsten wahrnehmbaren und beschädigten Audiowasserzeichen zu detektieren. Als solches betreffen Ausführungsformen der vorliegenden Erfindung das sichere Audiowasserzeichenmarkieren und Audioechtheitsprüfen auf Grundlage neuronaler Netzwerke. Ein Audiowasserzeichendetektor kann unter Nutzung einer Vielzahl von Architekturen eines neuronalen Netzwerkes derart implementiert werden, dass der Audiowasserzeichendetektor lernen kann, das Vorhandensein eines bestimmten Audiowasserzeichens, das unter Nutzung einer bestimmten Einbettungstechnik eingebettet worden ist, zu detektieren. Darüber hinaus kann ein Audiowasserzeichendetektor auf eine spezifische Kombination aus einem bestimmten Audiowasserzeichen und einer bestimmten Einbettungstechnik trainiert werden. Ein Audiowasserzeichendetektor kann auf eine beliebige derartige Kombination trainiert werden. Dies bedeutet, dass nicht von Belang ist, wie das Wasserzeichen generiert wird oder wie es eingebettet wird. Solange der Audiowasserzeichendetektor auf dieselbe Kombination, die im Betrieb benutzt wird, trainiert ist, kann der Audiowasserzeichendetektor lernen, das Vorhandensein des Wasserzeichens in der zu untersuchenden Audiodatei zu detektieren. Das Audiowasserzeichen kann ein einzelnes Audiowasserzeichen sein, das als Art eines Echtheitswasserzeichens dient, das das neuronale Netzwerk - ohne die Notwendigkeit, das ursprüngliche Wasserzeichen einzugeben - detektieren kann, da das neuronale Netzwerk darauf trainiert worden ist, das Wasserzeichen und die Einbettungstechnik durch Trainingsdaten zu erkennen. Ein Audiowasserzeichendetektor kann daher lernen, das Vorhandensein des Echtheitswasserzeichens zu detektieren, wenn die Einbettungs- und Detektionsstrategien passend sind.
Illustrationshalber werde ein exemplarischer Arbeitsablauf betrachtet, der eine Audiogenerierung impliziert. Ein generiertes Audiosignal kann (beispielsweise unter Nutzung eines Mikrofons) aufgezeichnet, synthetisiert, bearbeitet oder unter Nutzung eines beliebigen Algorithmus auf andere Weise manipuliert werden. Eine Sprachmanipulationssoftware kann beispielsweise zum Generieren des Audiosignals benutzt werden. Neueste Entwicklungen bei Sprachmanipulationssoftware haben eine Vielzahl von Vorteilen, so beispielsweise die Fähigkeit, Audiopodcasts, Hörbuchaufnahmen oder andere Sprachspuren zu korrigieren, ohne dass man Sprecher oder Voice-Over-Künstler erneut buchen müsste. Eine Sprachmanipulationssoftware kann jedoch die Anzahl von ethischen und sicherheitstechnischen Bedenken erhöhen, darunter die Risiken eines gefälschten Beweises, einer Manipulation biometrischer Eigenschaften in Echtheitsnachweissystemen und Fake News. Als solches kann wünschenswert sein, dem generierten Audiosignal einen detektierbaren Hinweis auf die Echtheit oder Source aufzuprägen. Sprachmanipulationssoftware (oder eine andere Audiogenerierungs- oder Bearbeitungssoftware) kann entsprechend dafür konfiguriert sein, ein Audiowasserzeichen in ein generiertes Audiosignal (beispielsweise einen Audioclip) unter Nutzung einer bestimmten Einbettungstechnik einzubetten. Auf diese Weise können Audiosignale, die unter Nutzung der Software generiert worden sind, detektiert werden. Bei einem nichtbeschränkenden Beispiel kann ein Audiowasserzeichendetektor in biometrische Echtheitsnachweissysteme einbezogen sein oder schlicht zum Durchführen einer Audioechtheitsprüfung benutzt werden. Die Detektion des Audiowasserzeichens aus einem zu untersuchenden Audioclip kann als Hinweis darauf dienen, dass die Sprachmanipulationssoftware zum Generieren des Audioclips benutzt worden ist, was wiederum darauf hinweisen kann, dass eine Art von Audio- oder Sprachmanipulation an dem zugrunde liegenden Audio vorgenommen worden ist. Daher kann ein Audiowasserzeichendetektor benutzt werden, um manipulierte Audiobeweise, biometrische Audioeigenschaften, journalistische Audioberichte, Deepfake-Audios und andere angegriffene Audiosignale zu identifizieren und zu kennzeichnen.
Insbesondere kann die Audiogenerierungs- oder Bearbeitungssoftware dazu benutzt werden, ein Audiosignal (beispielsweise einen Audioclip oder eine Wellenform) zu generieren und ein Audiowasserzeichen in dem generierten Audiosignal einzubetten, um ein wasserzeichenmarkiertes Audiosignal zu generieren. Ein beliebiges geeignetes Audiowasserzeichen und eine solche Einbettungstechnik können benutzt werden. Ein Audiowasserzeichen kann beispielsweise zufällig, unter Nutzung eines regelbasierten Verfahrens oder auf andere Weise generiert werden. Allgemein kann ein Audiowasserzeichen die Form einer beliebigen geeigneten Datenstruktur, so beispielsweise eines Vektors einer bestimmten Länge (beispielsweise 4k) annehmen und kann Werte aufweisen, die eine beliebige Form (beispielsweise binär, ganzzahlig, reell, Boolesch und dergleichen) annehmen. Zudem kann eine beliebige geeignete Einbettungstechnik benutzt werden, so beispielsweise die Amplitudenänderung, die Dither-Wasserzeichenmarkierung, die Phasencodierung, die Echo-Wasserzeichenmarkierung, die Spreizspektrum-Wasserzeichenmarkierung, die psychoakustische Einbettung und dergleichen. Das wasserzeichenmarkierte Audiosignal kann auf vielerlei Weisen manipuliert werden, und zwar durch Standardsignalverarbeitungsvorgänge (beispielsweise Kompression und Filterung) oder Angriffe auf das Audio mit der Absicht, das Audiowasserzeichen zu entfernen (beispielsweise durch Tonhöhenverschiebung, hinzugefügten Hall, zeitliche Streckung, Rauschentfernung, Neuaufzeichnung, Neusynthese), was zu einer Modifikation an dem Audio führt. Ein Angreifer versucht beispielsweise gegebenenfalls, das wasserzeichenmarkierte Audiosignal zu nutzen, um ein Deepfake-Audio zu generieren, einen Audiobeweis zu manipulieren, biometrische Audioeigenschaften zu manipulieren oder auf eine andere Art, die das Audiowasserzeichen allgemein modifiziert, anzugreifen.
Ein Audiowasserzeichendetektor entsprechend dem bestimmten Audiowasserzeichen und der Einbettungstechnik, die am Front-End des Arbeitsablaufes benutzt worden ist, kann zum Detektieren des Vorhandenseins des modifizierten Wasserzeichens aus dem modifizierten Audiosignal am Back-End des Arbeitsablaufes benutzt werden. Auf diese Weise kann der Audiowasserzeichendetektor detektieren, ob die Audiogenerierungs- oder Bearbeitungssoftware zum Generieren eines bestimmten zu untersuchenden Audiosignals benutzt worden ist. Als solches kann der Audiowasserzeichendetektor benutzt werden, um das Vorhandensein des Audiowasserzeichens (und implizit die Nutzung der Audiogenerierungssoftware) zu detektieren und zu kennzeichnen. In Abhängigkeit von der entsprechenden Source-Software (wenn die Source-Software beispielsweise eine Sprachmanipulationssoftware ist) kann das Detektieren des Audiowasserzeichens in einem Audiosignal benutzt werden, um auf eine Manipulation oder Fälschung (beispielsweise einen synthetisierten Deepfake) hinzuweisen.
Im Allgemeinen kann ein Audiowasserzeichendetektor unter Nutzung einer beliebigen geeigneten Architektur implementiert werden. Ein Audiowasserzeichendetektor kann beispielsweise ein faltungstechnisches neuronales Netzwerk beinhalten, das 1 D-Faltungen an Teilstücken des Audios aus einem sich verschiebenden Fenster eines modifizierten Audiosignals heraus durchführt und ein Klassifizierungslabel bzw. -etikett als Hinweis darauf ausgibt, ob ein bestimmtes Teilstück des Audios wasserzeichenmarkiert ist oder nicht. Da ein Audiowasserzeichen in jedem Fenster (oder einem Teilsatz hiervon) eingebettet und aus diesem heraus detektiert werden kann, kann die Fenstergröße für den Detektor der Länge des Audiowasserzeichens entsprechen. Insbesondere kann die Größe des Detektorfensters (und/oder die Länge des gewünschten Audiowasserzeichens) auf Grundlage der von Interesse seienden Anwendung ausgewählt werden. Je größer das Fenster ist, desto weniger hörbar kann das Wasserzeichen sein. Ein kürzeres Fenster (und/oder ein kürzeres Wasserzeichen) kann jedoch besser zum Detektieren von mikroskopischen Bearbeitungen, so beispielsweise von synthetisierten Worten oder wortbasierten Bearbeitungen, geeignet sein. Als solches können die Fenstergröße und/oder die Länge des Audiowasserzeichens auf Grundlage der Dauer von möglichen zu detektierenden Bearbeitungen (beispielsweise der Dauer in der Größenordnung der Wortlänge, der Satzlänge und dergleichen) ausgewählt werden. Die von Interesse seiende Anwendung kann daher für die Wahl der Ausgestaltung der Fenstergröße maßgeblich sein. Bei einem nichtbeschränkenden Beispiel kann ein Fenster von 100 ms oder 200 ms ausgewählt werden. Bei einer Abtastrate von 22k entsprechen 200 ms beispielsweise 4k Abtastungen, weshalb ein Audiowasserzeichen mit einer Länge von bis zu 4k (beispielsweise einem Code mit bis zu 4000 Werten) in jedes Teilstück des Audios von 200 ms eingebettet und aus einem bestimmten Fenster des Audios heraus detektiert werden kann.
In den Detektor können mehrere Teilstücke (beispielsweise aufeinanderfolgende, nicht überlappende Teilstücke) eines modifizierten Audios eingespeist werden, und der Detektor kann eine Klassifizierung für jedes Teilstück (beispielsweise wasserzeichenmarkiert oder nicht wasserzeichenmarkiert) ausgeben. Es kann eine wahrscheinlichkeitsbasierte Metrik angewendet werden, um eine Gesamtklassifizierung für ein zu untersuchendes Audiosignal zu generieren (um beispielsweise das Vorhandensein des Wasserzeichens auf Grundlage dessen zu detektieren, dass eine Schwellenmenge von Teilstücken von beispielsweise 50% oder 90% als wasserzeichenbestückt klassifiziert werden kann). Die Gesamtklassifizierung und/oder die zugrunde liegenden Klassifizierungswerte pro Audioteilstück können als Klassifizierungsergebnis ausgegeben werden, um einen Hinweis darauf bereitzustellen, ob das Audiowasserzeichen in dem zu untersuchenden Audiosignal detektiert worden ist.
Bei einigen Ausführungsformen kann der Audiowasserzeichendetektor als Eingaben eine bestimmte Anzahl von Zeitdomänenabtastungen entsprechend einem bestimmten Fenster des Audios annehmen. Das Arbeiten mit Zeitdomänenabtastungen kann eine Vielzahl von Vorteilen haben. Im Allgemeinen können der Fensterbildungsprozess und die Phase der Fenster die Frequenzdarstellung des Audiosignals beeinflussen, weshalb die Nutzung von Zeitdomänenabtastungen eine höhere Stabilität als die Nutzung der Frequenzdomäne bereitstellen kann. Des Weiteren können bestimmte Arten von modernen Angriffen, so beispielsweise eine Tonhöhen- oder Phasenverschiebung, für bestimmte Frequenzdomänendarstellungen destruktiv sein. Beispielsweise kann ein Tonhöhen- oder Phasenverschiebungsangriff die Frequenzdomänendarstellung (beispielsweise um eine Konstante) verschieben. Bei der Nutzung bestimmter frequenzeingebetteter Wasserzeichen (beispielsweise eines zufällig generierten Wasserzeichens, das in der Frequenzdomäne eingebettet ist) kann das Verschieben der Frequenzdomänendarstellung die Frequenzdomänendarstellung eines Audiowasserzeichens beschädigen, was herkömmliche faltungsbasierte Detektoren, die durch Analysieren von Frequenzabtastungen nach dem Wasserzeichen suchen, effektiv austricksen soll. Die Nutzung eines Audiowasserzeichendetektors, der Zeitdomänenabtastungen bewertet, stellt eine Aufrüstung gegenüber diesen Arten von Angriffen dar, da die Zeitdomänendarstellung des Wasserzeichens widerstandsfähiger gegenüber diesen Angriffen ist.
Ähnliche destruktive Frequenzdomäneneffekte können sich bei anderen Szenarien ergeben, die üblicherweise ignoriert werden. Eine andere Art von modernem Angriff impliziert beispielsweise das Abspielen eines Audios und das Neuaufzeichnen des Audios unter Nutzung einer anderen Vorrichtung als derjenigen, die ursprünglich zum Aufzeichnen des Audios verwendet worden ist. Weisen die ursprüngliche Aufzeichnungsvorrichtung (beispielsweise ein Smartphone) und die Vorrichtung, die zur Neuaufzeichnung verwendet wird (beispielsweise ein Laptopcomputer) jedoch verschiedene Taktzyklen oder nicht synchronisierte Vorrichtungsuhren auf, so kann das neuaufgezeichnete Audiosignal eine Zeitverschiebung (beispielsweise alle 400 Abtastungen) aufweisen. Dies verschiebt die Frequenzdomänendarstellung in merklichem Ausmaß derart, dass gegebenenfalls eine bestimmte Art von frequenzeingebettetem Audiowasserzeichen verlorengeht. Dies ist traditionell kein Problem, da herkömmliche von Interesse seiende Szenarien, so beispielsweise die Arbeit mit MP3-Dateien, so gut wie keine Verzerrung implizieren. Moderne Audiowasserzeichendetektoren sollen jedoch widerstandsfähig gegenüber einer Verzerrung infolge verschiedener Taktzyklen oder nicht synchronisierter Vorrichtungsuhren sein. Die Nutzung eines Audiowasserzeichendetektors, der Zeitdomänenabtastungen bewertet, kann den Detektor widerstandsfähig gegenüber solchen Arten von modernen Angriffen machen, an denen herkömmliche Detektionstechniken üblicherweise scheitern.
Im Allgemeinen kann ein Audiowasserzeichendetektor unter Nutzung eines beliebigen geeigneten Trainingsdatensatzes, der auf Grundlage der von Interesse seienden Anwendung ausgewählt oder generiert wird, trainiert werden. Um beispielsweise eine manipulierte Aussage einer einzigen Person zu detektieren, kann ein Trainingsdatensatz unter Nutzung einer Sammlung von Audioclips einer einzigen jeweils sprechenden Person gebildet werden. Im Allgemeinen können die Audioclips mit einem bestimmten Wasserzeichen unter Nutzung einer bestimmten Einbettungstechnik eingebettet werden. Ein eigens vorgesehener Audiowasserzeichendetektor kann für jede spezifische Kombination von Audiowasserzeichen und Einbettungstechnik trainiert werden, sodass das Trainieren eines bestimmten Audiowasserzeichendetektors das Einbetten von Audioclips mit demselben Wasserzeichen unter Nutzung derselben Einbettungstechnik implizieren kann. Um einen Audiowasserzeichendetektor zu trainieren, kann beispielsweise ein Audioclip zufällig aus der Sammlung ausgewählt werden, und der ausgewählte Clip kann mit einem Wasserzeichen auf Grundlage einer ersten Metrik (beispielsweise 50% der Zeit) eingebettet werden. Das sich ergebende Audio kann sodann unter Nutzung eines ausgewählten Modifikationsverfahrens auf Grundlage einer zweiten Metrik (beispielsweise 50% der Zeit) modifiziert werden. Das Modifikationsverfahren kann aus einer Gruppe von Verfahren (beispielsweise Standardsignalverarbeitungsvorgänge wie Rauschen und Kompression, Angriffe wie Rauschentfernung und Hall und dergleichen) auf Grundlage einer dritten Metrik (beispielsweise zufällig ausgewählt, round robin und dergleichen) ausgewählt werden. Der sich ergebende Audioclip kann durch den Audiowasserzeichendetektor geleitet werden, um ein Klassifizierungslabel auszugeben, das mit dem entsprechenden Ground-Truth-Label bzw. -Etikett (beispielsweise ob ein Wasserzeichen hinzugefügt worden ist oder nicht) verglichen werden kann, und es kann eine Verlustfunktion zur Aktualisierung des Detektors (beispielsweise unter Nutzung einer Rückverfolgung (backpropagation)) benutzt werden. Durch zeitliches Wiederholen dieses Prozesses kann der Audiowasserzeichendetektor darauf trainiert werden, das Vorhandensein des Audiowasserzeichens und der Einbettungstechnik aus einem zu untersuchenden Audiosignal zu detektieren.
Bei einigen Ausführungsformen kann ein Audiowasserzeichendetektor als Teil eines adversativen Netzwerkes trainiert werden, um das zugrunde liegende Audiowasserzeichen widerstandsfähiger gegenüber neuronalnetzwerkbasierenden Angriffen zu machen. Insbesondere kann ein neuronalnetzwerkbasierter Angreifer gemeinsam mit dem Audiowasserzeichendetektor trainiert werden. Ein neuronalnetzwerkbasierter Angreifer kann beispielsweise unter Nutzung eines generativen neuronalen Netzwerkes implementiert werden, das versucht, ein Audiowasserzeichen zu entfernen, ohne hörbare Artefakte zu verursachen, indem es einen Audioclip, der ein modifiziertes Wasserzeichen simuliert, synthetisiert. Implementiert werden kann der Audiowasserzeichendetektor unter Nutzung eines Diskriminatornetzwerkes, das die modifizierten Audiosignale, die von dem neuronalnetzwerkbasierten Angreifer generiert werden, bewertet. Zusammen können der Angreifer und der Detektor ein generatives-adversatives Netzwerk (Generative Adversarial Network GAN), das gemeinsam trainiert werden kann, bilden. Streben kann das Trainieren des Angreifers allgemein nach einer Minimierung (1) der Differenz zwischen dem angegriffenen Audio (das heißt einem modifizierten Audiosignal, das von dem Angreifer generiert wird) und dem nicht angegriffenen Audio (beispielsweise einer wasserzeichenmarkierten Wellenform, die in den Angreifer eingegeben wird); und (2) der Detektionsgenauigkeit des Detektors. Bei jedem Zeitschritt (beispielsweise für jeden Durchlauf eines bestimmten Audioteilstücks durch das GAN) kann der Detektor beispielsweise gefolgt von dem Angreifer zunächst aktualisiert werden. Wird der Detektor genauer, so wird der Angreifer strenger, da er versucht, die Detektionsgenauigkeit des Detektors zu minimieren. Auf der anderen Seite des GAN kann der Detektor, wenn der Angreifer strenger wird, widerstandsfähiger werden, da er wiederum versucht, seine Genauigkeit zu erhöhen, während die Angriffe massiver werden. Das gemeinsame Trainieren eines Audiowasserzeichendetektors als Teil eines adversativen Netzwerkes mit einem neuronalnetzwerkbasierten Angreifer kann die Detektionsgenauigkeit verbessern und den Detektor widerstandsfähiger gegenüber neuronalnetzwerkbasierten Angriffen machen.
Als solches kann unter Nutzung der hier beschriebenen Implementierungen ein neuronalnetzwerkbasierter Audiowasserzeichendetektor zur sicheren Audiowasserzeichenmarkierung und Audioechtheitsprüfung benutzt werden. Im Allgemeinen kann der Audiowasserzeichendetektor ein neuronales Netzwerk beinhalten, das darauf trainiert ist, ein bestimmtes Audiowasserzeichen und eine Einbettungstechnik zu trainieren, was auf Source-Software hinweisen kann, die bei einem Arbeitsablauf, der die zu untersuchende Audiodatei generiert hat, benutzt worden ist. Das Wasserzeichen kann beispielsweise darauf hinweisen, dass eine Audiodatei unter Nutzung einer Sprachmanipulationssoftware generiert worden ist, sodass das Detektieren des Wasserzeichens auf ein manipuliertes Audio, so beispielsweise ein Deepfake-Audio und andere angegriffene Audiosignale, hinweisen kann. Bei einigen Ausführungsformen kann der Audiowasserzeichendetektor als Teil eines generativ-adversativen Netzwerkes trainiert werden, um das zugrunde liegende Audiowasserzeichen widerstandsfähiger gegenüber einem neuronalnetzwerkbasierten Angriff zu machen. Im Allgemeinen kann der Audiowasserzeichendetektor Zeitdomänenabtastungen aus Teilstücken eines zu untersuchenden Audioclips bewerten, um das Vorhandensein des Audiowasserzeichens zu detektieren und eine Klassifizierung für den Audioclip zu generieren. Unter Nutzung verschiedener hier beschriebener Techniken kann der vorliegende Detektor die Detektionsgenauigkeit im Vergleich zu bisherigen Techniken merklich verbessern und ist dabei ausreichend widerstandsfähig, um mit einer Vielzahl von Angriffen, mit denen herkömmliche Techniken nicht umgehen können, umzugehen.
Nachdem eine Übersicht über Aspekte der vorliegenden Erfindung kurz beschrieben worden ist, werden bestimmte Begriffe, die in der vorliegenden Beschreibung benutzt werden, angegeben. Obwohl weitere Details im Zusammenhang mit verschiedenen Begriffen in der vorliegenden Beschreibung angegeben sind, werden nachstehend allgemeine Beschreibungen einiger Begriffe angegeben, um ein besseres Verständnis für die hier offenbarten Ideen zu ermöglichen.
Im Sinne des Vorliegenden bezeichnet ein neuronales Netzwerk allgemein ein maschinell lernendes Modell, das lernt, unbekannte Funktionen dadurch zu nähern, dass es exemplarische Daten (beispielsweise Trainingsdaten) auf verschiedenen Ebenen der Abstraktion analysiert. Allgemeinen können neuronale Netzwerke komplizierte nichtlineare Beziehungen durch Generieren von Ausgaben verborgener Vektoren zusammen mit einer Sequenz von Eingaben modellieren. Insbesondere kann ein neuronales Netzwerk ein Modell aus wechselseitig verbundenen digitalen Neuronen beinhalten, die kommunizieren und lernen, komplizierte Funktionen zu nähern und Ausgaben auf Grundlage mehrerer Eingaben, die für das Modell bereitgestellt werden, zu generieren. Ein neuronales Netzwerk kann eine Vielzahl von Deep-Learning-Modellen beinhalten, darunter faltungstechnische neuronale Netzwerke, rekurrente neuronale Netzwerke, neuronale Deep-Netzwerke und Deep-Stacking-Netzwerke, um nur einige wenige Beispiele zu nennen. Ein neuronales Netzwerk kann einen oder mehrere maschinell lernende Algorithmen beinhalten oder auf andere Weise nutzen, um aus Trainingsdaten zu lernen. Mit anderen Worten, ein neuronales Netzwerk kann einen Algorithmus beinhalten, der Deep-Learning-Techniken, so beispielsweise maschinelles Lernen, implementiert, um das Modellieren von Abstraktionen von Daten auf hoher Ebene zu versuchen.
Im Sinne des Vorliegenden ist ein Audiowasserzeichen ein Signal, ein Code oder eine Kennung mit Einbettung in einer Audiowellenform, um auf Metainformation über das Audio, so beispielsweise die Inhaberschaft eines Urheberrechtes, hinzuweisen. Im Allgemeinen kann ein Audiowasserzeichen die Form einer beliebigen geeigneten Datenstruktur annehmen, so beispielsweise diejenige eines Vektors einer bestimmten Länge, und kann Werte aufweisen, die eine beliebige geeignete Form (beispielsweise binär, ganzzahlig, reell, schriftzeichenartig, Boolesch oder dergleichen) annehmen. Die Audiowasserzeichenmarkierung ist der Prozess des Einbettens und/oder Detektierens eines Audiowasserzeichens. Audiowasserzeichen sind allgemein so konfiguriert, dass sie nicht wahrnehmbar (sie sollten beispielsweise die Audioqualität nicht beeinflussen), widerstandsfähig (sie können beispielsweise einer gängigen Signalverarbeitung und Angriffen standhalten), detektierbar und sicher (sie sind nur von Befugten detektierbar) sind. Es gibt eine Anzahl von Arten von Einbettungstechniken zur Wasserzeichenmarkierung, so beispielsweise die Amplitudenänderung, die Dither-Wasserzeichenmarkierung, die Phasencodierung, die Echo-Wasserzeichenmarkierung, die Spreizspektrum-Wasserzeichenmarkierung und die psychoakustische Einbettung.
Exemplarische Umgebung zum Audiowasserzeichenmarkieren
In 1 gezeigt ist ein Blockdiagramm einer exemplarischen Umgebung 100, die zur Nutzung bei der Implementierung von Ausführungsformen der Erfindung geeignet ist. Allgemein ist die Umgebung 100 zum Wasserzeichenmarkieren geeignet und vereinfacht unter anderem das sichere Audiowasserzeichenmarkieren und Audioechtheitsprüfen auf Grundlage von neuronalen Netzwerken. Die Umgebung 100 beinhaltet eine Clientvorrichtung 105, eine Angriffsvorrichtung 120 und einen Server 135. Eine beliebige dieser Vorrichtungen oder auch alle können eine Art von Rechenvorrichtung sein, die das Audiowasserzeichenmarkieren vereinfachen kann. Bei einer Ausführungsform sind die Clientvorrichtung 105, die Angriffsvorrichtung 120 und/oder der Server 135 beispielsweise Rechenvorrichtungen, so beispielsweise eine Rechenvorrichtung 700, wie sie nachstehend anhand 7 beschrieben wird. Bei Ausführungsformen können die Clientvorrichtung 105, die Angriffsvorrichtung 120 und/oder der Server 135 ein persönlicher Computer (PC), ein Laptopcomputer, eine Workstation, eine mobile Rechenvorrichtung, ein PDA, ein zellenbasiertes Telefon oder dergleichen sein. Die Komponenten der Umgebung 100 können miteinander über ein Netzwerk 130 kommunizieren, das ohne Beschränkung ein oder mehrere Ortsbereichsnetzwerke (LANs) und/oder Großbereichsnetzwerke (WANs) beinhaltet. Derartige vernetzte Umgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet gängig.
Begonnen werde mit einer abstrakten Übersicht über einen exemplarischen Arbeitsablauf bei der in 1 dargestellten Konfiguration. Ein Client kann eine Audioanwendung 107 (beispielsweise über eine Audiogeneratornutzerschnittstelle 110) nutzen, um eine Art von Audiowellenform zu generieren. Im Allgemeinen kann eine Audioanwendung 107 eine Anwendung sein, die das Generieren oder Bearbeiten von Audios vereinfachen kann, so beispielsweise Adobe® Audition® von Adobe, Inc. Bei einem weiteren Beispiel kann die Audioanwendung 107 eine beliebige Anwendung sein, die eine Manipulation oder Bearbeitung von Sprache vereinfachen kann, so beispielsweise Adobe VoCo. Die Audioanwendung 107 kann wenigstens teilweise serverseitig gehostet sein, sodass sie mit der dem sicheren Audiowasserzeichenmarkieren dienenden Komponente 140 des Servers 135 zusammenarbeitet, um die Audiowellenform zu generieren und/oder ein Audiowasserzeichen in der generierten Wellenform einzubetten. Eine beliebige Zuteilung der Funktionalität kann über die verschiedenen Vorrichtungen hinweg implementiert werden. Das Aufzeichnen und/oder Bearbeiten kann beispielsweise auf der Clientvorrichtung 105 erfolgen, und die Clientvorrichtung 105 kann eine aufgezeichnete und/oder bearbeitete Wellenform an den Server 135 senden, der ein Audiowasserzeichen einbetten und eine wasserzeichenmarkierte Audiowellenform ausgeben kann. Bei einem anderen Beispiel kann die Clientvorrichtung 105 Eingabebefehle eingeben und sie an den Server 135 übertragen, der eine Bearbeitung und/oder Synthese von Audios durchführen kann, um eine Wellenform zu generieren, ein Audiowasserzeichen einzubetten und eine wasserzeichenmarkierte Audiowellenform auszugeben. All dies sind lediglich Beispiele; es kann eine beliebige geeignete Zuteilung der Funktionalität zwischen diesen oder anderen Vorrichtungen implementiert sein.
Bei der wasserzeichenmarkierten Audiowellenform kann ein Client die Audioanwendung 107 oder irgendeine andere Anwendung einsetzen, um einen oder mehrere Signalverarbeitungsvorgänge durchzuführen. Einige gängige Beispiele für Audiosignalverarbeitungsvorgänge beinhalten das Hinzufügen von Hintergrundrauschen oder Musik, das Filtern und das Komprimieren (beispielsweise die MP3-Kompression), obwohl zusätzlich oder alternativ auch andere Vorgänge auftreten können. Die wasserzeichenmarkierte Audiowellenform (die durch die Signalverarbeitungsvorgänge modifiziert worden sein kann) ist gegebenenfalls in einer Audiospur für eine Videodatei beinhaltet, muss dies jedoch nicht sein. Die wasserzeichenmarkierte Audiowellenform kann an andere verteilt oder für diese auf andere Weise zugänglich gemacht werden, indem sie beispielsweise in sozialen Medien, auf Webseiten oder mittels anderer Arten des Teilens gepostet oder gestreamt wird.
Die wasserzeichenmarkierte Audiowellenform kann jedoch in die Hände eines potenziellen Angreifers gelangen. Der Angreifer nutzt die Angriffsvorrichtung 120 gegebenenfalls, um auf die wasserzeichenmarkierte Audiowellenform zuzugreifen (sie beispielsweise herunterzuladen, aufzuzeichnen und dergleichen) und um irgendeine Art von Angriff durchzuführen. Allgemein kann der Angreifer versuchen, die wasserzeichenmarkierte Audiowellenform zu nutzen, um ein Deepfake-Audio zu generieren, einen Audiobeweis zu manipulieren, biometrische Audioeigenschaften zu manipulieren oder auch andere Arten von Angriffen durchführen, die das Audiowasserzeichen allgemein modifizieren. Bei dem in 1 dargestellten Beispiel kann der Nutzer einen Deepfake-Generator 125 nutzen, um ein Deepfake-Audio unter Nutzung der wasserzeichenmarkierten Audiowellenform als Eingabe zu generieren. Der Prozess des Generierens des Deepfake-Audios kann das Audiowasserzeichen modifizieren, was zu einer modifizierten Audiowellenform führt. Dies stellt jedoch lediglich ein Beispiel dar; es kann generell jede Art von Angriff auf die wasserzeichenmarkierte Audiowellenform durchgeführt werden, so beispielsweise eine Tonhöhenverschiebung, eine Hinzufügung von Hall, eine zeitliche Streckung, eine Rauschentfernung, eine Neuaufzeichnung, eine Neusynthese und andere. Die angegriffene (modifizierte) Audiowellenform kann in einer Audiospur für eine Videodatei (beispielsweise ein Deepfake-Audio, das für ein Deepfake-Video benutzt wird) beinhaltet sein, muss dies jedoch nicht. Die modifizierte Audiowellenform (beispielsweise der Deepfake) kann an andere verteilt oder für diese auf andere Art verfügbar gemacht werden, indem er beispielsweise in sozialen Medien, auf Webseiten oder mittels anderer Arten des Teilens gepostet oder gestreamt wird.
Es kann sich die Frage stellen, ob eine bestimmte Audiowellenform (beispielsweise ein Audioclip, eine Audiospur aus einer Videodatei und dergleichen) echt ist. Ein Deepfake-Audio kann beispielsweise für echt gehalten werden, wenn es tatsächlich auf Grundlage eines synthetisieren Audios generiert worden ist, das ursprünglich unter Nutzung der Audioanwendung 107 generiert worden ist. Als solches kann eine Audiowellenform bei einigen Ausführungsformen auf das Vorhandensein des Audiowasserzeichens mit Einbettung durch den Server 135 untersucht werden. Das Audiowasserzeichen kann beispielsweise als Echtheitswasserzeichen dienen, das darauf hinweist, dass die Source-Software die Audioanwendung 107 war, sodass die Detektion des Wasserzeichens in einer zu untersuchenden Audiowellenform (beispielsweise einer modifizierten Audiowellenform, so beispielsweise einem Deepfake-Audio) darauf hinweist, dass die Audiowellenform mit einem Arbeitsablauf, der die Audioanwendung 107 beinhaltet hat, generiert worden ist. Eine Positivdetektion kann daher als Hinweis darauf dienen, dass die zu untersuchende Audiowellenform (beispielsweise bei Ausführungsformen bei denen die Audioanwendung 107 eine Sprachmanipulationssoftware ist) auf irgendeine Weise manipuliert worden ist.
In Fortführung des exemplarischen Szenarios eines Deepfake-Audios kann ein Client auf das Deepfake-Audio (im Folgenden die modifizierte Audiowellenform) zugreifen und eine Audioechtheitsprüfungssoftware nutzen, um das Vorhandensein des Audiowasserzeichens in der modifizierten Audiowellenform zu prüfen. Bei dem in 1 dargestellten Beispiel kann die Audioanwendung 107 ein Audioechtheitsprüfungsportal 115 bereitstellen, das für den Client eine Schnittstelle dafür bereitstellt, auf die modifizierte Audiowellenform zuzugreifen und diese an den Server 135 zur Wasserzeichendetektion weiterzuleiten. Die Audioanwendung 107 kann wenigstens teilweise serverseitig gehostet sein, sodass diese mit der dem sicheren Wasserzeichenmarkieren dienenden Komponente 140 des Servers 135 zusammenarbeitet, um eine Audiowasserzeichendetektion durchzuführen. Eine beliebige Zuteilung der Funktionalität kann über die verschiedenen Vorrichtungen hinweg implementiert sein. So kann die Clientvorrichtung 105 beispielsweise Eingabebefehle empfangen und diese zusammen mit der modifizierten Audiowellenform an den Server 135 übertragen, der eine Audiowasserzeichendetektion durchführen und Klassifizierungsergebnisse ausgeben kann. Diese Konfiguration ist hier lediglich als Beispiel beschrieben, da die Audioechtheitsprüfungsfunktionalität auch unter Nutzung einer anderen Software (beispielsweise einer eigens vorgesehenen Anwendung, die in eine andere Software integriert ist, so beispielsweise eine biometrische Echtheitsnachweissoftware, eine mobile Anwendung, eine Webanwendung, die in ein Betriebssystem integriert ist, wenigstens teilweise serverseitig gehostet ist, und dergleichen) implementiert sein und residieren oder unter Nutzung einer anderen Vorrichtung als der Clientvorrichtung 105 von 1 auf andere Weise zugänglich sein kann. Mit anderen Worten, die Echtheitsprüfung muss nicht von derselben Vorrichtung, die zum Generieren der ursprünglichen Audiowellenform benutzt worden ist, ausgelöst werden. Diese und andere Abwandlungen werden innerhalb der vorliegenden Offenbarung noch weiter erläutert.
Bei der in 1 dargestellten Ausführungsform beinhaltet der Server 135 die dem sicheren Audiowasserzeichenmarkieren dienende Komponente 140. Abstrakt betrachtet, führt die dem sicheren Audiowasserzeichenmarkieren dienende Komponente 140 verschiedene Funktionen durch, die das sichere Audiowasserzeichenmarkieren und Audioechtheitsprüfen auf Grundlage von neuronalen Netzwerken unterstützen. Bei dieser exemplarischen Konfiguration beinhaltet die dem sicheren Audiowasserzeichenmarkieren dienende Komponente 140 einen sicheren Audiogenerator 145, eine Audioechtheitsprüfungskomponente 165 und einen Audioangriffssimulator 175. Im Allgemeinen kann der sichere Audiogenerator 145 eine Audiowellenform generieren, ein Audiowasserzeichen generieren oder auf dieses zugreifen und das Wasserzeichen in der generierten Audiowellenform einbetten, um eine wasserzeichenmarkierte Audiowellenform zu erzeugen. Die Audioechtheitsprüfungskomponente 165 kann das Vorhandensein oder Nichtvorhandensein des Wasserzeichens aus einer zu untersuchenden Audiowellenform detektieren, so beispielsweise einer modifizierten Audiowellenform mit einem modifizierten Wasserzeichen, das sich aus Signalverarbeitungsvorgängen und Angriffen, die auf das Entfernen des Wasserzeichens abstellen, ergibt. Der Audioangriffssimulator 175, der nachstehend noch detaillierter erläutert wird, kann benutzt werden, um das Training des Audiowasserzeichendetektors 170 der Audioechtheitsprüfungskomponente 165 zu unterstützen.
Der sichere Audiogenerator 140, die Audioechtheitsprüfungskomponente 165 und/oder der Audioangriffssimulator 175 können beispielsweise allgemein in eine oder mehrere Anwendungen oder Add-ons oder Plug-ins für eine Anwendung integriert oder dort eingebaut sein. Die Anwendung/Anwendungen kann/können eine eigenständige Anwendung, eine mobile Anwendung, eine Webanwendung oder dergleichen sein. Bei einigen Implementierungen umfasst/umfassen die Anwendung/Anwendungen eine Webanwendung, die in einem Webbrowser laufen kann, und kann/können wenigstens teilweise clientseitig gehostet sein. Zusätzlich oder anstatt dessen kann/können die Anwendung/Anwendungen eine eigens vorgesehene Anwendung umfassen. In einigen Fällen kann/können die Anwendung/Anwendungen in das Betriebssystem (beispielsweise als Dienst) integriert sein. Zusätzlich oder alternativ können der sichere Audiogenerator 145, die Audioechtheitsprüfungskomponente 165 und/oder der Audioangriffssimulator 175 oder ein Abschnitt hiervon in das Betriebssystem (beispielsweise als Dienst) integriert sein und/oder über eine oder mehrere andere Vorrichtungen (beispielsweise einen Remote-Client oder -server) verteilt sein. Die in 1 dargestellte Konfiguration soll lediglich ein Beispiel darstellen; es kann eine beliebige geeignete Zuteilung der Funktionalität mit beliebiger Konfiguration von Vorrichtungen implementiert sein.
Bei dem in 1 dargestellten Beispiel beinhaltet der sichere Audiogenerator 145 einen Audiowellenformgenerator 150, einen Audiowasserzeichengenerator 155 und einen Audiowasserzeicheneinbetter 160. Allgemein kann der Audiowellenformgenerator 150 eine Audiowellenform unter Nutzung eines beliebigen Algorithmus generieren. Der Audiowellenformgenerator 150 kann beispielsweise eine anfängliche Audiowellenform (beispielsweise eine aufgezeichnete Audiowellenform) empfangen und Befehle eingeben, die auf verschiedene Bearbeitungen oder Zielaudioparameter (die beispielsweise über die Audiogeneratornutzerschnittstelle 110 eingegeben und über das Netzwerk 130 empfangen werden) hinweisen, und der Audiowellenformgenerator 150 kann eine Audiowellenform, die die Bearbeitungen implementiert, generieren. Bei einem weiteren Beispiel kann der Audiowellenformgenerator 150 eine Sprachmanipulation oder Bearbeitung unterstützen und kann Sprache in einer Audiowellenform synthetisieren oder bearbeiten, um die Audiowellenform zu generieren. All dies sind lediglich Beispiele; es kann eine beliebige Art von Algorithmus benutzt werden, um die Audiowellenform zu generieren.
Der Audiowasserzeichengenerator 155 kann ein Audiowasserzeichen generieren oder auf andere Weise auf dieses zugreifen, und der Audiowasserzeicheneinbetter 160 kann das Audiowasserzeichen in die generierte Audiowellenform einbetten, um eine wasserzeichenmarkierte Audiowellenform zu erzeugen. Es können ein beliebiges geeignetes Audiowasserzeichen und eine solche Einbettungstechnik benutzt werden. Ein Audiowasserzeichen kann beispielsweise zufällig, unter Nutzung eines regelbasierten Verfahrens oder auf andere Weise generiert werden. Allgemein kann ein Audiowasserzeichen die Form einer beliebigen geeigneten Datenstruktur annehmen, so beispielsweise diejenige eines Vektors bestimmter Länge (beispielsweise 4k), und kann Werte aufweisen, die eine beliebige geeignete Form (beispielsweise binär, ganzzahlig, reell, schriftzeichenartig, Boolesch und dergleichen) annehmen. Des Weiteren kann eine beliebige geeignete Einbettungstechnik benutzt werden, so beispielsweise die Amplitudenänderung, die Dither-Wasserzeichenmarkierung, die Phasencodierung, die Echo-Wasserzeichenmarkierung, die Spreizspektrum-Wasserzeichenmarkierung, die psychoakustische Einbettung und dergleichen. Die sich ergebende wasserzeichenmarkierte Audiowellenform kann für die Clientvorrichtung 105 (beispielsweise von der dem sicheren Audiowasserzeichenmarkieren dienenden Komponente 140 und/oder dem Audiowasserzeicheneinbetter 160) bereitgestellt werden.
Wie vorstehend beschrieben worden ist, ist gegebenenfalls erwünscht, eine bestimmte Audiowellenform auf das Vorhandensein oder Nichtvorhandensein der Audiowellenform zu untersuchen. Die Audioechtheitsprüfungskomponente 165 kann daher mit einer zu untersuchenden Audiowellenform versehen sein, und der Audiowasserzeichendetektor 170 der Audioechtheitsprüfungskomponente 165 kann das Vorhandensein oder Nichtvorhandensein des Wasserzeichens aus der Audiowellenform unter der Annahme detektieren, dass die zu untersuchende Audiowellenform ursprünglich mit dem Audiowasserzeichen (beispielsweise durch den Audiowasserzeicheneinbetter 160) unter Nutzung einer entsprechenden Einbettungstechnik eingebettet worden ist. Das Wasserzeichen kann jedoch auf verschiedene Weisen modifiziert worden sein, wie nachstehend noch detaillierter erläutert wird.
2 zeigt einen exemplarischen Arbeitsablauf 200 des Audiowasserzeichenmarkierens, bei dem eine Modifikation auftreten kann. Zu Beginn erfolgt bei Block 205 ein Audiogenerieren (beispielsweise durch den Audiowellenformgenerator 150 von 1), um eine Audiowellenform 210 zu generieren. Bei Block 220 wird ein Audiowasserzeichen 215 (das von dem Audiowasserzeichengenerator 155 von 1 generiert werden kann oder auf das dieser zugreifen kann) in die Audiowellenform 210 (beispielsweise von dem Audiowasserzeicheneinbetter 160 von 1) eingebettet, um eine wasserzeichenmarkierte Wellenform 225 zu erzeugen. Die wasserzeichenmarkierte Wellenform 225 kann im Allgemeinen auf verschiedene Weisen manipuliert werden, die eine Modifikation (beispielsweise an dem eingebetteten Wasserzeichen) verursachen. Eine Modifikation 230 kann beispielsweise als Ergebnis von Audiosignalverarbeitungsvorgängen auftreten, so beispielsweise als Ergebnis des Hinzufügens von Hintergrundrauschen oder Musik, einer Filterung, einer Neuabtastung, einer Kompression oder anderer Vorgänge. Die Modifikation 230 kann zusätzlich oder alternativ als Ergebnis eines Angriffes 240 auf die wasserzeichenmarkierte Wellenform 225 auftreten. Ein Angreifer kann (beispielsweise unter Nutzung der Angriffsvorrichtung 120 von 1) einen oder mehrere Angriffe 240 durchführen, so beispielsweise eine Tonhöhenverschiebung, eine Hinzufügung von Hall, eine zeitliche Streckung, eine Rauschentfernung, eine Neuaufzeichnung, eine Neusynthese und andere. Das Ergebnis dieser Signalverarbeitungsvorgänge und/oder Angriffe ist eine modifizierte wasserzeichenmarkierte Wellenform 250.

Allgemein bewertet der Detektor 260 (der dem Audiowasserzeichendetektor 170 von 1 entsprechen kann) die modifizierte wasserzeichenmarkierte Wellenform 250, um das Vorhandensein oder Nichtvorhandensein des Audiowasserzeichens 215 zu detektieren. Der Detektor 260 kann unter Nutzung einer beliebigen geeigneten Architektur implementiert sein. Der Detektor 260 kann beispielsweise ein faltungstechnisches neuronales Netzwerk beinhalten, das eine oder mehrere 1D-Faltungen an Teilstücken des Audios aus einem sich verschiebenden Fenster der modifizierten wasserzeichenmarkierten Wellenform 250 heraus durchführt und ein Klassifizierungsetikett ausgibt, das darauf hinweist, ob ein bestimmtes Teilstück des Audios wasserzeichenmarkiert ist oder nicht. Im Allgemeinen kann ein neuronales Netzwerk definiert werden, das Audioabtastungen aus einem Teilstück des Audios aus der modifizierten wasserzeichenmarkierten Wellenform 250 (beispielsweise eine bestimmte Anzahl von Zeitdomänenabtastungen entsprechend einem Fenster der modifizierten wasserzeichenmarkierten Wellenform 250) annimmt und ein Binärklassifizierungsergebnis (beispielsweise wasserzeichenmarkiert oder nicht) ausgibt. Eine nicht beschränkende exemplarische Architektur des Detektors 260 ist in nachstehender Tabelle 1 zu finden. Die Zeilen der Tabelle beschreiben, verlaufend von oben nach unten, Eigenschaften der verschiedenen Schichten der exemplarischen Architektur des Detektors 260. Die erste Schicht dieser Architektur führt beispielsweise eine 1 D-Faltung mit einer Kernelgröße von 64 und einem Stride-Wert von 2 durch, gefolgt von einer Max-Pooling-Schicht und so weiter. Allgemein bestimmen kann die von Interesse seiende Anwendung die Wahl der Ausgestaltung der Fenstergröße, der Anzahl von Abtastungen, die in den Detektor eingegeben werden sollen, und der Parameter für die verschiedenen Schichten. Diese Architektur soll lediglich ein Beispiel sein; es kann eine beliebige Anzahl von Schichten, die diese oder andere Funktionen in einer beliebigen geeigneten Reihenfolge durchführen, implementiert sein. Tabelle 1

Conv1d	Kernel: 64 \| Ein: 1 I Aus: 8 \| Stride: 2
Max pooling	Größe: 8 \| Strides: 8 \| Padding: GLEICH
Conv1d	Kernel: 32 \| Ein: 16 \| Aus: 32 \| Stride: 2
Max pooling	Größe: 8 \| Strides: 8 I Padding: GLEICH
Conv1d	Kernel: 16 \| Ein: 32 \| Aus: 64 \| Stride: 2
Reshape layer (Umformungsschicht)	512
Dense layer (dichte Schicht)	Ein: 512 1 Aus: 128
Dense layer (dichte Schicht)	Ein: 128 \| Aus: 2

Im Betrieb können in den Detektor 260 Teilstücke der modifizierten wasserzeichenmarkierten Wellenform 250 (beispielsweise aufeinanderfolgende oder periodische Teilstücke, überlappende oder nicht überlappende Teilstücke und dergleichen) eingespeist werden, und es kann der Detektor 260 eine Klassifizierung für jedes Teilstück (beispielsweise wasserzeichenmarkiert oder nicht) ausgeben. Es kann eine wahrscheinlichkeitsbasierte Metrik auf Grundlage der Klassifizierungen der Teilstücke angewendet werden, um eine Gesamtklassifizierung für die modifizierte wasserzeichenmarkierte Wellenform 250 zu generieren (um beispielsweise das Vorhandensein des Wasserzeichens auf Grundlage dessen zu detektieren, dass eine Schwellenmenge von Teilstücken von beispielsweise 50% oder 90% als wasserzeichenbestückt wird). Die Gesamtklassifizierung und/oder die zugrunde liegenden Klassifizierungen der bewerteten Audioteilstücke können (beispielsweise über das Audioechtheitsprüfungsportal 115 von 1) ausgegeben werden, um einen Hinweis darauf bereitzustellen, ob das Audiowasserzeichen 215 in der modifizierten wasserzeichenmarkierten Wellenform 250 detektiert worden ist. Lädt ein Nutzer beispielsweise die modifizierte wasserzeichenmarkierte Wellenform 250 (beispielsweise über das Audioechtheitsprüfungsportal 115 von 1) hoch, so kann eine Binärklassifizierung (beispielsweise wasserzeichenmarkiert oder nicht, mit bestimmter Source-Software generiert oder nicht, Fälschung oder nicht und dergleichen) ausgegeben werden. Zusätzlich oder alternativ können Klassifizierungen der bewerteten Audioteilstücke in beliebiger geeigneter Form ausgegeben werden, so beispielsweise als Liste, Tabelle, zeitabhängiger Graph oder auf andere Weise.
Allgemein kann der Detektor 260 unter Nutzung eines beliebigen geeigneten Trainingsdatensatzes trainiert werden, der auf Grundlage der von Interesse seienden Anwendung ausgewählt oder generiert worden ist. Um beispielsweise eine manipulierte Aussage einer einzelnen Person zu detektieren (was den Großteil der Deepfake-Audioszenarien abdeckt), kann ein Trainingsdatensatz unter Nutzung einer Sammlung von Sprachaufnahmen einer einzelnen jeweils sprechenden Person gebildet werden. Eine exemplarische Sammlung ist der DAPS-Datensatz (Device and Produced Speech DAPS), der eine Sammlung von Sprachaufnahmen in verschiedenen Leseumgebungen ist. Ein weiteres Beispiel ist das Voice Cloning Toolkit (VCTK) vom Centre for Speech Technology, das eine Sammlung von Sprachaufnahmen mit verschiedenen Akzenten ist. Im Allgemeinen können diese Sprachaufnahmen mit einem bestimmten Wasserzeichen unter Nutzung einer bestimmten Einbettungstechnik eingebettet werden. Der Detektor 260 kann als eigens vorgesehener Audiowasserzeichendetektor auf eine bestimmte Kombination eines Audiowasserzeichens und einer Einbettungstechnik trainiert werden, sodass das Trainieren des Detektors 260 ein Einbetten von Sprachaufnahmen mit denselben Wasserzeichen unter Nutzung derselben Einbettungstechnik implizieren kann. Um den Detektor 260 zu trainieren, kann eine Sprachaufnahme beispielsweise zufällig aus der Sammlung ausgewählt werden, und es kann die ausgewählte Aufnahme mit dem Audiowasserzeichen auf Grundlage einer ersten Metrik (beispielsweise 50% der Zeit) eingebettet werden. Sodann kann das sich ergebende Audio unter Nutzung eines ausgewählten Modifikationsverfahrens auf Grundlage einer zweiten Metrik (beispielsweise 50% der Zeit) modifiziert werden. Das Modifikationsverfahren kann aus einer Gruppe von Verfahren (beispielsweise Standardsignalverarbeitungsvorgänge wie beispielsweise Rauschen und Kompression, Angriffe wie beispielsweise Rauschentfernung und Hall und dergleichen) auf Grundlage einer dritten Metrik (beispielsweise zufällig ausgewählt, round robin und dergleichen) ausgewählt werden. Die sich ergebende Audioaufnahme (die wasserzeichenmarkiert und/oder modifiziert sein kann) kann über den Detektor 260 weitergereicht werden, um ein Klassifizierungsetikett auszugeben, das mit dem entsprechenden Ground-Truth-Etikett (beispielsweise ob das Wasserzeichen hinzugefügt worden ist oder nicht) verglichen wird, und es kann eine Verlustfunktion benutzt werden, um den Detektor 260 (beispielsweise unter Nutzung einer Rückverfolgung (backpropagation)) zu aktualisieren. Durch zeitliches Wiederholen dieses Prozesses kann der Detektor 260 darauf trainiert werden, das Vorhandensein des Audiowasserzeichens und der Einbettungstechnik aus dem zu untersuchenden Audiosignal (beispielsweise der modifizierten wasserzeichenmarkierten Audiowellenform 250) zu detektieren.
3A und 3B zeigen Grafen, die die Durchführung einer exemplarischen Implementierung bestimmter Ausführungsformen der vorliegenden Technik (3B) im Vergleich zu einer bisherigen Technik (3A) darstellen. Beschrieben wird die bisherige Technik in der vorgenannten, unlängst erschienenen Veröffentlichung über das Audiowasserzeichenmarkieren, das einem Nachhall, wie vorstehend beschrieben worden ist, standhalten kann. Insbesondere bedient sich die bisherige Technik der Eigen-Wasserzeichenmarkierung, bei der das Wasserzeichen als Eigenvektor einer symmetrischen Vollrangmatrix ausgewählt und in ausgewählte Mittelbereichs-DCT-Koeffizienten von Audioblöcken eingebettet wird. Demonstrationshalber wurde die exemplarische Architektur von Tabelle 1 konfiguriert, um ein Eigenwasserzeichenmarkiertes Teilstück des Audios anzunehmen und ein Klassifizierungsetikett (wasserzeichenmarkiert oder nicht) auszugeben, und unter Nutzung von vier Arten von Modifikations- und Angriffstypen (Tiefpassfilter, Hochpassfilter, Raumhall und additives Gaußsches Rauschen) trainiert, die variiert wurden, um verschiedene Niveaus der Angriffsstärke zu simulieren. 3A zeigt das Leistungsvermögen des Grunddetektors der bisherigen Technik, während 3B einen Detektor, der unter Nutzung der vorliegenden Techniken implementiert worden ist, darstellt. In jedem Graph bezeichnet die x-Achse die Angriffsstärke, wobei die Angriffsstärke von der schwächsten zur stärksten von links nach rechts aufgetragen ist. Die y-Achse ist die Detektionsgenauigkeit, die über jeden Audioblock gemittelt ist. Wie ersichtlich ist, erzeugen die vorliegenden Techniken genauere und konsistentere Ergebnisse über den Bereich der verschiedenen Angriffsstärken.
Darüber hinaus beinhaltet die bisherige Technik einen einstellbaren Parameter η, der die Stärke des Wasserzeichens variiert. Demonstrationshalber wurde das Grundmodell mit einem viel stärker wahrnehmbaren Wasserzeichen (η = 80, was einen wahrnehmbaren windähnlichen Ton erzeugt) untersucht, während der Detektor, der unter Nutzung der vorliegenden Techniken implementiert worden ist, mit einem viel weniger wahrnehmbaren Wasserzeichen (η = 8, was kaum wahrnehmbar ist) untersucht worden ist. Wie der Graph darstellt, zeigten die vorliegenden Techniken im Vergleich zur bisherigen Technik eine höhere Genauigkeit beim Detektieren von weniger wahrnehmbaren Wasserzeichen.
Wie wiederum in 1 gezeigt ist, kann der Audiowasserzeichendetektor 170 bei einigen Ausführungsformen als Teil eines adversativen Netzwerkes trainiert werden, um das zugrunde liegende Audiowasserzeichen widerstandsfähiger gegenüber neuronalnetzwerkbasierten Angriffen zu machen. Insbesondere kann ein neuronalnetzwerkbasierter Angreifer (beispielsweise der Audioangriffssimulator 175) gemeinsam mit dem Audiowasserzeichendetektor 170 trainiert werden. Implementiert werden kann der Audioangriffssimulator 150 beispielsweise unter Nutzung eines generativen neuronalen Netzwerkes, das versucht, ein Audiowasserzeichen zu entfernen, ohne hörbare Artefakte zu verursachen, indem es eine Audiowellenform, die ein modifiziertes Wasserzeichen simuliert, synthetisiert. Eine exemplarische Architektur, die bei einem neuronalnetzwerkbasierten Angreifer benutzt werden kann, ist die 3-Way-Split-Variante der neuronalen FFTNet-Vocoder-Struktur, die beschrieben ist bei: „Learning Bandwidth Expansion Using Perceptually-Motivated Loss“ von Berthy Feng, Zeyu Jin, Jiaqi Su und Adam Finkelstein, ICASSP, Mai 2019. Eine weitere exemplarische Architektur ist WaveNet von Google. Die Genannten sind lediglich Beispiele; es können auch andere generative Architekturen innerhalb des Umfangs der vorliegenden Offenbarung implementiert werden.
Bei einigen Ausführungsformen kann der Audiowasserzeichendetektor 170 unter Nutzung eines Diskriminatornetzwerkes implementiert sein, das die modifizierten Audiosignale, die von dem neuronalnetzwerkbasierten Angreifer generiert werden, bewertet. Zusammen können der Angreifer (beispielsweise der Audioangriffssimulator 175) und der Detektor (Audiowasserzeichendetektor 170) ein generativ-adversatives Netzwerk (GAN) bilden, das gemeinsam trainiert werden kann. Streben kann das Trainieren des Angreifers allgemein nach einer Minimierung (1) der Differenz zwischen dem angegriffenen Audio (das heißt einem modifizierten Audiosignal, das von dem Angreifer generiert wird) und dem nicht angegriffenen Audio (beispielsweise einer wasserzeichenmarkierten Wellenform, die in den Angreifer eingegeben wird); und (2) der Detektionsgenauigkeit des Detektors. Bei jedem Zeitschritt (beispielsweise für jeden Durchlauf eines bestimmten Audioteilstücks durch das GAN) kann der Detektor beispielsweise gefolgt von dem Angreifer zunächst aktualisiert werden. Wird der Detektor genauer, so wird der Angreifer strenger, da er versucht, die Detektionsgenauigkeit des Detektors zu minimieren. Auf der anderen Seite des GAN kann der Detektor, wenn der Angreifer strenger wird, widerstandsfähiger werden, da er versucht, seine Genauigkeit zu erhöhen, während die Angriffe massiver werden. Das gemeinsame Trainieren des Audiowasserzeichendetektors 170 als Teil eines adversativen Netzwerkes mit einem neuronalnetzwerkbasierten Angreifer kann die Detektionsgenauigkeit verbessern und den Detektor widerstandsfähiger gegenüber neuronalnetzwerkbasierten Angriffen machen.
Exemplarische Flussdiagramme
In 4 bis 6 werden Flussdiagramme bereitgestellt, die Verfahren zum Audiowasserzeichenmarkieren darstellen. Jeder Block der Verfahren 400, 500 und 600 wie auch beliebige andere hier beschriebene Verfahren umfasst einen Rechenprozess, der unter Nutzung einer beliebigen Kombination aus Hardware, Firmware und/oder Software durchgeführt wird. Verschiedene Funktionen können beispielsweise von einem Prozessor ausgeführt werden, der in einem Speicher gespeicherte Anweisungen ausführt. Die Verfahren können auch als computernutzbare Anweisungen, die auf Computerspeichermedien gespeichert sind, verkörpert sein. Die Verfahren können durch eine eigenständige Anwendung, einen Dienst oder einen gehosteten Dienst (eigenständig oder in Kombination mit einem anderen gehosteten Dienst) oder als Plugin für ein weiteres Produkt, um nur einige wenige zu nennen, bereitgestellt werden.
Zunächst werde 4 betrachtet. 4 zeigt ein Verfahren 400 zur Audiowasserzeichendetektion entsprechend hier beschriebenen Ausführungsformen. Zunächst wird bei Block 410 auf ein modifiziertes Audiosignal zugegriffen. Das modifizierte Audiosignal kann beispielsweise auf einen Remote-Server hochgeladen werden, um zu bestimmen, ob das modifizierte Audiosignal ein bestimmtes Audiowasserzeichen beinhaltet. Bei Block 420 wird wenigstens ein Abschnitt des modifizierten Audiosignals klassifiziert, indem Zeitdomänenabtastungen wenigstens des Abschnittes des modifizierten Audiosignals in den Audiowasserzeichendetektor eingespeist werden, um ein Klassifizierungsetikett zu generieren, das auf das Vorhandensein oder Nichtvorhandensein des bestimmten Audiowasserzeichens hinweist. Der Audiowasserzeichendetektor kann beispielsweise aufeinanderfolgende Teilstücke des modifizierten Audiosignals iterativ klassifizieren und ein Klassifizierungsetikett für jedes der Teilstücke generieren. Bei Block 430 wird das Klassifizierungsergebnis auf Grundlage des Klassifizierungsetiketts ausgegeben. Das Klassifizierungsergebnis kann beispielsweise eine Gesamtklassifizierung des modifizierten Audiosignals auf Grundlage dessen sein, dass eine Schwellenmenge von Teilstücken als audiowasserzeichenbestückt klassifiziert wird.
Man betrachte nunmehr 5. 5 zeigt ein Verfahren 500 zur Audiowasserzeichendetektion entsprechend hier beschriebenen Ausführungsformen. Bei Block 510 wird zunächst eine zu untersuchende Audiowellenform empfangen. Bei Block 520 wird ein Audiowasserzeichendetektor benutzt, um eine Binärklassifizierung der Audiowellenform zu generieren. Der Audiowasserzeichendetektor umfasst ein neuronales Netzwerk, das dafür konfiguriert ist, das bestimmte Audiowasserzeichen, das unter Nutzung einer bestimmten Technik der Wasserzeicheneinbettung eingebettet worden ist, zu detektieren. Die Binärklassifizierung der Audiowellenform, die von dem Audiowasserzeichendetektor generiert worden ist, weist daher darauf hin, ob die Audiowellenform ein bestimmtes Audiowasserzeichen beinhaltet. Bei Block 530 wird ein Klassifizierungsergebnis auf Grundlage der binären Klassifizierung ausgegeben.
Man betrachte nunmehr 6. 6 zeigt ein Verfahren 600 zur Audiowasserzeichendetektion entsprechend hier beschriebenen Ausführungsformen. Bei Block 610 wird zunächst ein modifizierter Audioclip über ein Audioechtheitsprüfungsportal empfangen. Ein Client, der eine Clientvorrichtung betreibt, kann beispielsweise auf den modifizierten Audioclip zugreifen und ihn über das Portal identifizieren. Bei Block 620 wird der modifizierte Audioclip auf einen Remote-Server hochgeladen, der dafür konfiguriert ist, einen Audiowasserzeichendetektor zu nutzen, um eine Bewertung der Echtheit des modifizierten Audioclips auf Grundlage eines neuronalen Netzwerkes durchzuführen. Das neuronale Netzwerk ist dafür konfiguriert, aus dem modifizierten Audioclip das Vorhandensein eines Audiowasserzeichen zu detektieren, wodurch darauf hingewiesen wird, ob Source-Software in einem Arbeitsablauf, der den modifizierten Audioclip generiert hat, benutzt worden ist. Bei Block 630 wird ein Klassifizierungsergebnis von dem Remote-Server empfangen. Das Klassifizierungsergebnis basiert auf der Bewertung der Echtheit. Umfassen kann das Klassifizierungsergebnis beispielsweise eine Gesamtklassifizierung des modifizierten Audioclips mit Generierung auf Grundlage dessen, dass eine Schwellenmenge von Teilstücken des modifizierten Audiosignals von dem Audiowasserzeichendetektor als audiowasserzeichenbestückt klassifiziert worden ist. Zusätzlich oder alternativ kann das Klassifizierungsergebnis ein zeitabhängiger Graph sein, der auf zeitliche Klassifizierungen von Teilstücken des modifizierten Audioclips als Hinweis darauf hinweist, ob die Teilstücke des modifizierten Audioclips das bestimmte Audiowasserzeichen beinhalten. Bei Block 640 wird das Klassifizierungsergebnis über das Audioechtheitsprüfungsportal bereitgestellt.
Exemplarische Betriebsumgebung
Nach erfolgter Beschreibung einer Übersicht über Ausführungsformen der vorliegenden Erfindung wird nachstehend eine exemplarische Betriebsumgebung, in der Ausführungsformen der vorliegenden Erfindung implementiert sein können, beschrieben, um einen allgemeinen Kontext für verschiedene Aspekte der vorliegenden Erfindung bereitzustellen. In 7 ist insbesondere eine exemplarische Betriebsumgebung zum Implementieren von Ausführungsformen der vorliegenden Erfindung gezeigt und wird allgemein als Rechenvorrichtung 700 bezeichnet. Die Rechenvorrichtung 700 ist lediglich ein Beispiel für eine geeignete Rechenumgebung und soll keine Beschränkung mit Blick auf den Umfang der Nutzung oder die Funktionalität der Erfindung nahelegen. Die Rechenvorrichtung 700 soll nicht derart gedeutet werden, dass bei ihr irgendeine Abhängigkeit oder ein Erfordernis im Zusammenhang mit einer beliebigen dargestellten Komponente oder einer Kombination aus diesen vorhanden ist.
Die Erfindung kann im allgemeinen Kontext von Computercode oder maschinenlesbaren Anweisungen beschrieben werden, darunter computerausführbare Anweisungen wie beispielsweise Programmmodule, die von einem Computer oder einer anderen Maschine, so beispielsweise einem zellenbasierten Telefon, einem Persönlichen Datenassistent oder einer anderen Handvorrichtung, ausgeführt werden. Allgemein bezeichnen Programmmodule, darunter Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen, Code, der bestimmte Ausgaben ausführt oder bestimmte abstrakte Datentypen implementiert. Die Erfindung kann auf einer Vielzahl von Systemkonfigurationen praktisch umgesetzt werden, darunter Handvorrichtungen, Geräte der Unterhaltungselektronik, Allzweckcomputer, spezialisierte Rechenvorrichtungen und dergleichen mehr. Umgesetzt werden kann die Erfindung auch in verteilten Rechenumgebungen, in denen Aufgaben durch Remote-Verarbeitungsvorrichtungen, die über ein Kommunikationsnetzwerk verknüpft sind, durchgeführt werden.
Wie in 7 gezeigt ist, beinhaltet die Rechenvorrichtung 700 einen Bus 710, der direkt oder indirekt die nachfolgenden Vorrichtungen koppelt: einen Speicher 712, einen oder mehrere Prozessoren 714, eine oder mehrere Präsentationskomponenten 716, Eingabe-/Ausgabe-Ports (I/O) 718, Eingabe-/Ausgabekomponenten 720 und eine illustrative Leistungsversorgung 722. Der Bus 710 stellt etwas dar, das ein oder mehrere Busse (so beispielsweise ein Adressbus, ein Datenbus oder eine Kombination hieraus) sein kann. Obwohl die verschiedenen Blöcke von 7 der Klarheit halber mit durchgezogenen Linien gezeigt sind, ist das Abgrenzen verschiedener Komponenten voneinander in Wirklichkeit nicht derart eindeutig, weshalb die Linien im übertragenen Sinne eher grau und verschwommen sein sollten. Man kann beispielsweise eine Präsentationskomponente, so beispielsweise eine Anzeigevorrichtung, auch als I/O-Komponente betrachten. Zudem können Prozessoren einen Speicher aufweisen. Im Zusammenhang mit der vorliegenden Erfindung wird anerkannt, dass dies das Wesen des Gebietes ist und erneut darauf verwiesen, dass das Diagramm von 7 lediglich illustrativ für eine exemplarische Rechenvorrichtung ist, die in Verbindung mit einer oder mehreren Ausführungsformen der vorliegenden Erfindung benutzt werden kann. Eine Unterscheidung zwischen Kategorien wie „Workstation“, „Server“, „Laptop“, „Handvorrichtung“ und dergleichen wird nicht getroffen, da all diese in den Umfang von 7 einbezogen sind und mit „Rechenvorrichtung“ bezeichnet werden.
Die Rechenvorrichtung 700 beinhaltet üblicherweise eine Vielzahl von computerlesbaren Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die die Rechenvorrichtung 700 zugreifen kann, und beinhalten sowohl flüchtige wie auch nichtflüchtige Medien sowie entfernbare wie auch nichtentfernbare Medien. Beispiels- und nicht beschränkungshalber können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien beinhalten sowohl flüchtige wie auch nichtflüchtige, entfernbare wie auch nichtentfernbare Medien, die in einem beliebigen Verfahren oder mit einer beliebigen Technologie zur Speicherung von Information, so beispielsweise als computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten, implementiert sind. Computerspeichermedien beinhalten unter anderem RAM, ROM, EEPROM, Flashspeicher oder eine andere Speichertechnologie, CD-ROM, DVD oder einen anderen optischen Plattenspeicher, Magnetkassetten, Magnetband, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Information benutzt werden kann und auf das die Rechenvorrichtung 700 zugreifen kann. Computerspeichermedien umfassen keine Signale als solche. Kommunikationsmedien verkörpern üblicherweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, so beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus, und beinhalten beliebige Informationsverteilungsmedien. Der Begriff „moduliertes Datensignal“ bezeichnet ein Signal, bei dem eine oder mehrere Eigenschaften derart eingestellt oder abgewandelt sind, dass Information in dem Signal codiert ist. Beispielhalber und nicht im Sinne einer Beschränkung beinhalten Kommunikationsmedien verdrahtete Medien, so beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, wie auch drahtloses Medien, so beispielsweise akustische, HF-basierte, infrarotbasierte und andere Drahtlosmedien. Kombinationen aus beliebigen der vorgenannten Elemente sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Der Speicher 712 beinhaltet Computerspeichermedien in Form eines flüchtigen und/oder nichtflüchtigen Speichers. Der Speicher kann entfernbar, nichtentfernbar oder eine Kombination aus beidem sein. Exemplarische Hardwarevorrichtungen beinhalten einen Solid-State-Speicher, Festplattenlaufwerke, Laufwerke für optische Platten und dergleichen mehr. Die Rechenvorrichtung 700 beinhaltet einen oder mehrere Prozessoren, die Daten aus verschiedenen Entitäten, so beispielsweise aus dem Speicher 712 oder I/O-Komponenten 720, lesen. Eine Präsentationskomponente / Präsentationskomponenten 716 präsentiert/präsentieren einem Nutzer oder einer anderen Vorrichtung Datenangaben. Exemplarische Präsentationskomponenten beinhalten eine Anzeigevorrichtung, einen Lautsprecher, eine Druckkomponente, eine Vibrationskomponente und dergleichen mehr.
Die I/O-Ports 718 ermöglichen, dass die Rechenvorrichtung 700 logisch mit anderen Vorrichtungen, darunter den I/O-Komponenten 720, von denen einige eingebaut sein können, gekoppelt ist. Die illustrativen Komponenten beinhalten ein Mikrofon, einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner, einen Drucker, eine Drahtlosvorrichtung und dergleichen. Die I/O-Komponenten 720 können eine natürliche Nutzerschnittstelle (NUI) bereitstellen, die Luftgesten, Sprache oder andere physiologische Eingaben, die von einem Nutzer generiert werden, verarbeitet. In einigen Fällen können Eingaben an ein geeignetes Netzwerkelement zur weiteren Verarbeitung übertragen werden. Implementieren kann eine NUI eine beliebige Kombination aus Spracherkennung, Stifterkennung, Gesichtserkennung, biometrischer Erkennung, Gestenerkennung sowohl an einem Bildschirm als auch neben diesem, Luftgesten, Kopf- und Augenverfolgung und Berührungserkennung (wie nachstehend noch detaillierter beschrieben wird) im Zusammenhang mit einer Anzeige der Rechenvorrichtung 700. Ausgestattet sein kann die Rechenvorrichtung 700 mit Tiefenkameras, so beispielsweise mit stereoskopischen Kamerasystemen, Infrarotkamerasystemen, RGB-Kamerasystemen, einer Technologie mit berührungsempfindlichem Bildschirm und Kombinationen hieraus zur Detektion und Erkennung. Zusätzlich kann die Rechenvorrichtung 700 mit Akzelerometern oder Gyroskopen, die eine Bewegungsdetektion ermöglichen, ausgestattet sein. Die Ausgabe der Akzelerometer oder Gyroskope kann mit der Anzeige der Rechenvorrichtung 700 versehen sein, um eine immersive erweiterte Realität oder eine virtuelle Realität wiederzugeben.
Die hier beschriebenen Ausführungsformen unterstützen das sichere Audiowasserzeichenmarkieren und Audioechtheitsprüfen auf Grundlage von neuronalen Netzwerken. Die hier beschriebenen Komponenten bezeichnen integrierte Komponenten eines Systems zum Audiowasserzeichenmarkieren. Die integrierten Komponenten bezeichnen die Hardwarearchitektur und das Softwareframework zur Unterstützung der Funktionalität unter Nutzung des Systems zum Audiowasserzeichenmarkieren. Die Hardwarearchitektur bezeichnet physische bzw. physikalische Komponenten und deren wechselseitige Beziehungen, während das Softwareframework Software bezeichnet, die eine Funktionalität bereitstellt, die mit der auf einer Vorrichtung verkörperten Hardware implementiert werden kann.
Das System zum Audiowasserzeichenmarkieren auf Grundlage einer End-to-End-Software kann innerhalb der Komponenten des Systems zum Audiowasserzeichenmarkieren betrieben werden, um Computerhardware zur Bereitstellung der Funktionalität des Systems zum Audiowasserzeichenmarkieren bereitzustellen. Auf niedriger Ebene führen Hardwareprozessoren Anweisungen aus, die aus einem Satz von Anweisungen in Maschinensprache (auch als Maschinencode oder nativ bezeichnet) für einen gegebenen Prozessor ausgewählt sind. Der Prozessor erkennt die nativen Anweisungen und führt entsprechende auf niedriger Ebene angesiedelte Funktionen beispielsweise im Zusammenhang mit der Logik, der Steuerung bzw. Regelung und Speichervorgängen aus. Auf niedriger Ebene angesiedelte Software, die in Maschinencode geschrieben ist, kann eine komplexere Funktionalität für höhere Ebenen der Software bereitstellen. Im Sinne des Vorliegenden beinhalten computerausführbare Anweisungen beliebige Software, darunter auf niedriger Ebene angesiedelte Software, die in Maschinencode geschrieben ist, auf höherer Ebene angesiedelte Software, so beispielsweise Anwendungssoftware, und eine beliebige Kombination hieraus. In diesem Zusammenhang können Komponenten des Systems zum Audiowasserzeichenmarkieren Ressourcen verwalten und Dienste für die Funktionalität des Systems zum Audiowasserzeichenmarkieren bereitstellen. Beliebige weitere Abwandlungen und Kombinationen hieraus sind von den Ausführungsformen der vorliegenden Erfindung umfasst.
Nach erfolgter Identifizierung verschiedener Komponenten in der vorliegenden Offenbarung sollte einsichtig sein, dass eine beliebige Anzahl von Komponenten und Anordnungen eingesetzt werden kann, um die gewünschte Funktionalität innerhalb des Umfanges der vorliegenden Offenbarung zu verwirklichen. Die Komponenten der in den Figuren abgebildeten Ausführungsformen sind der Konzeptklarheit halber mittels Linien dargestellt. Andere Anordnungen dieser und anderer Komponenten können ebenfalls implementiert sein. Obwohl einige Komponenten beispielsweise als einzelne Komponenten dargestellt sind, können viele der hier beschriebenen Elemente als diskrete oder verteilte Komponenten oder zusammen mit anderen Komponenten in einer beliebigen geeigneten Kombination und an einem beliebigen geeigneten Ort implementiert sein. Einige Elemente können auch gänzlich weggelassen werden. Darüber hinaus können verschiedene Funktionen, die hier so beschrieben sind, dass sie von einer oder mehreren Entitäten durchgeführt werden, von Hardware, Firmware und/oder Software, wie nachstehend beschrieben wird, ausgeführt werden. Verschiedene Funktionen können von einem Prozessor ausgeführt werden, der Anweisungen ausführt, die in einem Speicher gespeichert sind. Als solches können weitere Anordnungen und Elemente (beispielsweise Maschinen, Schnittstellen, Funktionen, Reihenfolgen und Gruppierungen der Funktionen und dergleichen) zusätzlich zu den gezeigten oder anstelle derselben benutzt werden.
Der Gegenstand der vorliegenden Erfindung ist hier spezifisch derart beschrieben, dass er verschiedenen regulatorischen Anforderungen genügt. Die Beschreibung selbst soll jedoch den Umfang des vorliegenden Patentes nicht beschränken. Vielmehr ist im Zusammenhang mit der vorliegenden Erfindung einbezogen, dass der beanspruchte Erfindungsgegenstand auch auf andere Weisen verkörpert sein kann, um verschiedene Schritte oder Kombinationen aus Schritten ähnlich zu den in der vorliegenden Druckschrift beschriebenen zusammen mit anderen gegenwärtigen oder zukünftigen Technologien einzubeziehen. Obwohl darüber hinaus die Begriffe „Schritt“ und/oder „Block“ hier derart benutzt werden können, dass sie verschiedene Elemente der eingesetzten Verfahren bezeichnen, sollen diese Begriffe nicht derart gedeutet werden, dass sie eine bestimmte Reihenfolge unter oder zwischen verschiedenen hier offenbarten Schritten implizieren, es sei denn, die Reihenfolge einzelner Schritte ist explizit angegeben.
Die vorliegende Erfindung ist anhand bestimmter Ausführungsformen beschrieben worden, die in jeder Hinsicht illustrativ und nicht restriktiv sein sollen. Alternative Ausführungsformen erschließen sich einem Fachmann auf dem Gebiet, zu dem die vorliegende Erfindung gehört, ohne von ihrem Umfang abzugehen.
Aus dem Vorstehenden ist ersichtlich, dass die vorliegende Erfindung dafür äußerst geeignet ist, alle Zwecke und Aufgaben, die vorstehend aufgeführt sind, zusammen mit weiteren Vorteilen, die offensichtlich oder system- und verfahrensinhärent sind, zu erreichen. Es sollte einsichtig sein, dass bestimmte Merkmale und Teilkombinationen von Nutzen sind und ohne Verweis auf andere Merkmale und Teilkombinationen eingesetzt werden können. Dies ist vom Umfang der Ansprüche umfasst und entspricht diesem.

Claims

Computersystem, umfassend: einen oder mehrere Hardwareprozessoren und einen Speicher, umfassend: Computerprogrammanweisungen, die von dem einen oder den mehreren Hardwareprozessoren ausführbar sind; und einen Audiowasserzeichendetektor, der ein neuronales Netzwerk umfasst, das darauf trainiert ist, aus einem zu untersuchenden Audiosignal das Vorhandensein oder Nichtvorhandensein eines bestimmten Audiowasserzeichens, das unter Nutzung einer bestimmten Wasserzeicheneinbettungstechnik eingebettet worden ist, zu detektieren; und eine Audioechtheitsprüfungskomponente, die dafür konfiguriert ist, den einen oder die mehreren Hardwareprozessoren zu nutzen zum: Zugreifen auf ein degradiertes bzw. modifiziertes Audiosignal; Klassifizieren wenigstens eines Abschnittes des degradierten bzw. modifizierten Audiosignals durch Einspeisen von Zeitdomänenabtastungen wenigstens des Abschnittes des degradierten bzw. modifizierten Audiosignals in den Audiowasserzeichendetektor zum Generieren eines Klassifizierungslabels bzw. -etiketts, das auf das Vorhandensein oder Nichtvorhandensein des bestimmten Audiowasserzeichens hinweist; und Ausgeben eines Klassifizierungsergebnisses auf Grundlage des Klassifizierungslabels bzw. -etiketts.
Computersystem nach Anspruch 1, wobei das Vorhandensein des bestimmten Audiowasserzeichens darauf hinweist, dass Source-Software in einem Arbeitsablauf, der das zu untersuchende Audiosignal generiert hat, benutzt worden ist.
Computersystem nach Anspruch 2, wobei die Source-Software eine Sprachmanipulationssoftware ist.
Computersystem nach einem der vorhergehenden Ansprüche, wobei der Audiowasserzeichendetektor gemeinsam mit einem neuronalnetzwerkbasierten Angreifer als Teil eines generativ-adversativen Netzwerkes trainiert wird.
Computersystem nach einem der vorhergehenden Ansprüche, wobei die Audioechtheitsprüfungskomponente dafür konfiguriert ist, den Audiowasserzeichendetektor zu nutzen, um aufeinanderfolgende Teilstücke des modifizierten Audiosignals durch Identifizieren der Zeitdomänenabtastungen aus einem sich verschiebenden Fenster des modifizierten Audios iterativ zu klassifizieren.
Computersystem nach einem der vorhergehenden Ansprüche, wobei das Klassifizierungsergebnis eine Gesamtklassifizierung des modifizierten Audiosignals auf Grundlage dessen umfasst, dass eine Schwellenmenge von Teilstücken des modifizierten Audiosignals von dem Audiowasserzeichendetektor als audiowasserzeichenbestückt klassifiziert wird.
Computerisiertes Verfahren zur Audiowasserzeichendetektion, wobei das Verfahren umfasst: Empfangen einer zu untersuchenden Audiowellenform; Nutzen eines Audiowasserzeichendetektors, der ein neuronales Netzwerk umfasst, das dafür konfiguriert ist, ein bestimmtes Audiowasserzeichen, das unter Nutzung einer bestimmten Wasserzeicheneinbettungstechnik eingebettet worden ist, zu detektieren, zum Generieren einer Binärklassifizierung der Audiowellenform, die darauf hinweist, ob die Audiowellenform das bestimmte Audiowasserzeichen beinhaltet; und Ausgeben eines Klassifizierungsergebnisses auf Grundlage der Binärklassifizierung.
Verfahren nach Anspruch 7, wobei das Vorhandensein des bestimmten Audiowasserzeichens darauf hinweist, dass Source-Software in einem Arbeitsablauf, der die Audiowellenform generiert hat, benutzt worden ist.
Verfahren nach Anspruch 8, wobei die Source-Software eine Sprachmanipulationssoftware ist.
Verfahren nach einem der Ansprüche 7 bis 9, des Weiteren umfassend ein gemeinsames Trainieren des Audiowasserzeichendetektors mit einem neuronalnetzwerkbasierten Angreifer als Teil eines generativ-adversativen Netzwerkes.
Verfahren nach einem der Ansprüche 7 bis 10, wobei das Nutzen des Audiowasserzeichendetektors zum Generieren der Binärklassifizierung umfasst: Nutzen des Audiowasserzeichendetektors zum iterativen Klassifizieren mehrerer Teilstücke der Audiowellenform und Generieren der Binärklassifizierung auf Grundlage von Klassifizierungen der mehreren Teilstücke.
Verfahren nach einem der Ansprüche 7 bis 11, wobei das Klassifizierungsergebnis umfasst: einen zeitabhängigen Graph, der auf zeitliche Klassifizierungen von Teilstücken der Audiowellenform als Hinweis darauf hinweist, ob die Teilstücke der Audiowellenform das bestimmte Audiowasserzeichen beinhalten.
Verfahren nach einem der Ansprüche 7 bis 12, wobei das Nutzen des Audiowasserzeichendetektors zum Generieren der Binärklassifizierung umfasst: Einspeisen von Zeitdomänenabtastungen der Audiowellenform in den Audiowasserzeichendetektor und Durchführen einer eindimensionalen (1D) Faltung an den Zeitdomänenabtastungen.
Ein oder mehrere Computerspeichermedien zur Speicherung von computernutzbaren Anweisungen, die bei Nutzung durch eine Rechenvorrichtung veranlassen, dass die Rechenvorrichtung Vorgänge durchführt, die umfassen: über ein Audioechtheitsprüfungsportal erfolgendes Empfangen eines degradierten bzw. modifizierten Audioclips; Hochladen des degradierten bzw. modifizierten Audioclips auf einen Remote-Server, der dafür konfiguriert ist, einen Audiowasserzeichendetektor zu nutzen, um eine Bewertung der Echtheit des degradierten bzw. modifizierten Audioclips auf Grundlage eines neuronalen Netzwerkes durchzuführen, das dafür konfiguriert ist, aus dem degradierten bzw. modifizierten Audioclip das Vorhandensein eines Audiowasserzeichens zu detektieren, wodurch darauf hingewiesen wird, ob Source-Software in einem Arbeitsablauf, der den degradierten bzw. modifizierten Audioclip generiert hat, benutzt worden ist; von dem Remote-Server erfolgendes Empfangen eines Klassifizierungsergebnisses auf Grundlage der Bewertung der Echtheit; und Bereitstellen des Klassifizierungsergebnisses über das Audioechtheitsprüfu ngsportal.
Ein oder mehrere Computerspeichermedien nach Anspruch 14, wobei der modifizierte Audioclip ein Deepfake-Audio umfasst.
Ein oder mehrere Computerspeichermedien nach Anspruch 14 oder 15, wobei der modifizierte Audioclip in einer Audiospur einer Videodatei beinhaltet ist.
Ein oder mehrere Computerspeichermedien nach einem der Ansprüche 14 bis 16, wobei der Audiowasserzeichendetektor gemeinsam mit einem neuronalnetzwerkbasierten Angreifer als Teil eines generativ-adversativen Netzwerkes trainiert wird.
Ein oder mehrere Computerspeichermedien nach einem der Ansprüche 14 bis 17, wobei der Remote-Server des Weiteren konfiguriert ist zum: Durchführen der Bewertung der Echtheit unter Nutzung des Audiowasserzeichendetektors zum iterativen Klassifizieren mehrerer Teilstücke des modifizierten Audioclips und Generieren des Klassifizierungsergebnisses auf Grundlage von Klassifizierungen der mehreren Teilstücke.
Ein oder mehrere Computerspeichermedien nach einem der Ansprüche 14 bis 18, wobei das Klassifizierungsergebnis umfasst: einen zeitabhängigen Graph, der auf zeitliche Klassifizierungen von Teilstücken des modifizierten Audioclips als Hinweis darauf hinweist, ob die Teilstücke des modifizierten Audioclips das bestimmte Audiowasserzeichen beinhalten.
Ein oder mehrere Computerspeichermedien nach einem der Ansprüche 14 bis 19, wobei der Remote-Server des Weiteren konfiguriert ist zum: Durchführen der Bewertung der Echtheit durch Einspeisen von Zeitdomänenabtastungen des modifizierten Audioclips in den Audiowasserzeichendetektor.