DE102022119188A1

DE102022119188A1 - Informationsverarbeitungssystem und informationsverarbeitungsverfahren

Info

Publication number: DE102022119188A1
Application number: DE102022119188.5A
Authority: DE
Inventors: Matthias Frey; Nabil Loghin; Nicolas Pierre ROSE
Original assignee: Sony Group Corp; Sony Europe BV
Current assignee: Sony Group Corp; Sony Europe BV
Priority date: 2021-08-11
Filing date: 2022-08-01
Publication date: 2023-02-16
Also published as: US20230046493A1

Abstract

Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten, die Videoinhalt bereitstellen, der ein Sportereignis darstellt, aufweisend:einen Empfänger, der dazu ausgebildet ist, einen Datenstrom zu empfangen, der die Videodaten aufweist;einen Präferenzdaten-Erlanger, der zum Erhalten von Präferenzdaten ausgebildet ist, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;einen Kategoriekennungs-Erlanger, der dazu ausgebildet ist, eine Kategoriekennung von einem maschinellen Lernalgorithmus zu erhalten, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;einen Audioinhaltsdatei-Erlanger, der dazu ausgebildet ist, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt zu erhalten, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; undeinen Synchronisierer, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler zu synchronisieren, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft im Allgemeinen ein Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten, die Videoinhalt bereitstellen, der ein Sportereignis darstellt, und ein entsprechendes Informationsverarbeitungsverfahren.
TECHNISCHER HINTERGRUND
Im Allgemeinen werden viele Sportereignisse mit Kameras und Mikrofonen am Ort des Sportereignisses aufgezeichnet und dann beispielsweise über das Internet von einem Anbieter als Datenstrom bereitgestellt, so dass beliebig viele Zuschauer (mit gültigem Abonnement) das Sportereignis beispielsweise zu Hause auf einem Medienspieler anschauen können.
Solche Sportereignisse können beispielsweise in einer Pandemiekrise typischerweise nicht von großen Menschenmengen besucht werden und werden dann möglicherweise ohne Publikum stattfinden (z. B. „Geisterspiele“). In solchen Fällen weist der am Ort des Sportereignisses aufgezeichnete Ton keinen Ton vom Publikum auf, der z. B. Aufregung, Freude, Wut usw. darstellt, was ein Fiebern vor Aufregung mit den Teilnehmern und die Unterstützung eines bestimmten Teilnehmers widerspiegeln kann. Somit kann der bereitgestellte Datenstrom, der das Sportereignis darstellt, keinen Audioinhalt bereitstellen, der die typische Klangatmosphäre des Sportereignisses darstellt.
Die bei Sportereignissen vorhandene typische Klangatmosphäre kann jedoch von vielen Zuschauern immer noch gewünscht werden, da sie ein immersiveres Gefühl vermitteln kann, was die Attraktivität des Anschauens von Sportereignissen erhöht. Darüber hinaus kann das Ansehen eines Sportereignisses als Gruppe eine gemeinsame Erfahrung bieten, die von vielen Menschen gewünscht wird.
Obwohl es Techniken zum Bereitstellen eines Datenstroms gibt, der ein Sportereignis darstellt, ist es im Allgemeinen wünschenswert, die bestehenden Techniken zu verbessern.
KURZDARSTELLUNG
Gemäß einem ersten Aspekt stellt die Offenbarung ein Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten bereit, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, umfassend:

einen Empfänger, der dazu ausgebildet ist, einen Datenstrom zu empfangen, der die Videodaten aufweist;
einen Präferenzdaten-Erlanger, der zum Erhalten von Präferenzdaten ausgebildet ist, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;
einen Kategoriekennungs-Erlanger, der dazu ausgebildet ist, eine Kategoriekennung von einem maschinellen Lernalgorithmus zu erhalten, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;
einen Audioinhaltsdatei-Erlanger, der dazu ausgebildet ist, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt zu erhalten, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und
einen Synchronisierer, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler zu synchronisieren, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.

Gemäß einem zweiten Aspekt stellt die Offenbarung ein Informationsverarbeitungsverfahren zum Erhalten einer Datei mit Audioinhalt für Videodaten bereit, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, wobei das Informationsverarbeitungsverfahren umfasst:

Empfangen eines Datenstroms, der die Videodaten aufweist;
Erhalten von Präferenzdaten, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;
Erhalten einer Kategoriekennung von einem maschinellen Lernalgorithmus, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis zugeordnet sind, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;
Erhalten, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten, der Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und
Synchronisieren des Audioinhalts und des Videoinhalts für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.
Weitere Aspekte sind in den abhängigen Ansprüchen, der folgenden Beschreibung, und in den Zeichnungen dargelegt.

Figurenliste
Ausführungsformen werden beispielhaft anhand der beigefügten Zeichnungen erläutert:

1 veranschaulicht schematisch in einer Tabelle eine Ausführungsform einer Zuordnung von Dateien mit Audioinhalt, Kategorien einer Szene und Präferenzdaten;
2 veranschaulicht schematisch in einem Blockdiagramm eine erste und eine zweite Ausführungsform eines Informationsverarbeitungssystems;
3 veranschaulicht schematisch in einem Blockdiagramm eine dritte Ausführungsform eines Informationsverarbeitungssystems in 3A und eine vierte Ausführungsform eines Informationsverarbeitungssystems in 3B;
4 veranschaulicht schematisch in einer Zeitleiste eine Ausführungsform zum Synchronisieren von Audioinhalt und Videoinhalt für die synchronisierte Wiedergabe einer Szene durch einen Medienspieler;
5 veranschaulicht schematisch in einem Blockdiagramm eine fünfte Ausführungsform eines Informationsverarbeitungssystems;
6 veranschaulicht schematisch in einem Flussdiagramm eine erste Ausführungsform eines Informationsverarbeitungsverfahrens;
7 veranschaulicht schematisch in einem Flussdiagramm eine zweite Ausführungsform eines Informationsverarbeitungsverfahrens;
8 veranschaulicht schematisch in einem Flussdiagramm eine dritte Ausführungsform eines Informationsverarbeitungsverfahrens;
9 veranschaulicht schematisch in einem Flussdiagramm eine vierte Ausführungsform eines Informationsverarbeitungsverfahrens; und
10 veranschaulicht schematisch in einem Blockdiagramm einen Allzweckcomputer, der zum Implementieren eines Informationsverarbeitungssystems verwendet werden kann.

AUSFÜHRLICHE BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Bevor eine ausführliche Beschreibung der Ausführungsformen unter Bezugnahme auf 2 gegeben wird, werden allgemeine Erläuterungen gemacht.
Wie eingangs erwähnt wurde, werden in der Regel viele Sportereignisse mit Kameras und Mikrofonen am Ort der Sportereignis aufgezeichnet und dann beispielsweise über das Internet von einem Anbieter als Datenstrom zur Verfügung gestellt, so dass grundsätzlich beliebig viele Zuschauer (optional mit gültigem Abonnement) das Sportereignis beispielsweise zu Hause auf einem Medienspieler verfolgen können.
Solche Sportereignisse können beispielsweise in einer Pandemiekrise typischerweise nicht von großen Menschenmengen besucht werden und werden dann möglicherweise ohne Publikum stattfinden (z. B. „Geisterspiele“). In solchen Fällen weist der am Ort der Sportereignis aufgezeichnete Ton keinen Ton vom Publikum auf, der z. B. Aufregung, Freude, Wut usw. darstellt, was ein Fiebern vor Aufregung mit den Teilnehmern und die Unterstützung eines bestimmten Teilnehmers widerspiegeln kann. Somit kann der bereitgestellte Datenstrom, der das Sportereignis darstellt, keinen Audioinhalt bereitstellen, der die typische Klangatmosphäre des Sportereignisses darstellt. Die vorliegende Offenbarung ist nicht auf dieses Szenario beschränkt.
Jedoch kann die bei vielen Sportereignisse vorhandene typische Klangatmosphäre von vielen Zuschauern immer noch gewünscht sein, da sie ein immersiveres Gefühl vermitteln kann, was die Attraktivität des Ansehens von Sportereignisse erhöht.
Daher wurde erkannt, dass Videoinhalte, die ein Sportereignis darstellen, das von einem Zuschauer auf einem Medienspieler angesehen wird, mit Audioinhalten angereichert werden können, um das Erlebnis des Zuschauers zu verbessern, beispielsweise in Fällen, in denen Sportereignisse ohne Publikum abgehalten werden.
Darüber hinaus wurde erkannt, dass eine solche Erweiterung des Audioinhalts auf dem Kontext einer in dem Videoinhalt dargestellten Szene basieren sollte, um den Realismus der Erweiterung des Audioinhalts zu erhöhen („Audio-in-Audio“). Es wurde ferner erkannt, dass der Kontext der Szene für eine Live-Übertragung des Sportereignisses grundsätzlich nahezu in Echtzeit interpretiert werden sollte, was keine nachfolgende Verarbeitung des Videoinhalts durch Menschen zum Überlagern von Audioinhalt zulässt.
Es wurde ferner erkannt, dass die Videodaten, die Videoinhalt aus einem Datenstrom bereitstellen, der das Sportereignis darstellt, überwacht werden sollten, beispielsweise durch eine künstliche Intelligenz (z. B. ein neuronales Netzwerk), die die Szene in eine dem Sportsereignis zugeordnete Kategorie klassifiziert, so dass die Erweiterung des Audioinhalts auf der Kategorie basiert.
Wenn beispielsweise ein Fußballspiel spannender wird (z. B. Spieler oder der Ball sich im Strafraum befinden) oder ein zunehmend längerer Ballwechsel im Tennis in der Szene dargestellt wird, kann die Szene als „spannend“ eingestuft werden und ein Audioinhalt ausgewählt oder erzeugt werden, der der Kategorie „spannend“ zugeordnet ist.
Außerdem wurde erkannt, dass der Betrachter (z. B. ein Benutzer eines Medienspielers) (im Voraus) eine Seite auswählen kann, z. B. ein Team A oder ein Team B (oder neutral, für beide Teams), und dass die Erweiterung des Audioinhalts darauf basieren sollte, so dass, beispielsweise, wenn Team A ein Tor erzielt, dass der Audioinhalt einen Ton der Unterstützung für die ausgewählte Seite (ausgewählter Teilnehmer) aufweist.
Es wurde ferner erkannt, dass der Audioinhalt und der Videoinhalt für eine synchronisierte Wiedergabe der um das Audio erweiterten Szene synchronisiert werden sollten, um eine nahtlos integrierte Erweiterung auf zeitgerechte, synchronisierte Weise ohne offensichtliche Verzögerung oder Verschiebungen in Bezug auf die Zeitleiste des Videoinhalts bereitzustellen.
Daher betreffen einige Ausführungsformen ein Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, aufweisend:

Das Informationsverarbeitungssystem kann auf einem Computer, einem Server, einem Cloud-Dienst, oder ähnlichem, basieren, oder darauf implementiert sein. Das Informationsverarbeitungssystem kann in ein Mediengerät, wie etwa einen Fernseher, ein Heimunterhaltungssystem (das z. B. einen Fernsehers, eine Spielkonsole, eine Empfängerbox eines Providers, eine Kamera, ein Mikrofons, einen Lautsprechers, usw. aufweist), ein mobiles Gerät, oder ähnliches, eingebettet sein.
Das Informationsverarbeitungssystem kann auf einer verteilten Architektur basieren, oder basierend darauf implementiert sein, beispielsweise verteilt sein über einen Server, einen Cloud-Dienst oder ähnliches, und eine Mediengerät, so dass einige seiner Funktionen von einem Server oder ähnliches ausgeführt werden und einige seiner Funktionen von dem Mediengerät ausgeführt werden.
Im Allgemeinen weist das Informationsverarbeitungssystem Schaltungen auf, die dazu ausgebildet sind, die hierin beschriebenen Funktionen zu erreichen. Die Schaltung kann auf einer verteilten Architektur basieren, oder basierend darauf implementiert sein, beispielsweise verteilt sein über einen Server, einen Cloud-Dienst oder ähnliches, und eine Mediengerät.
Die Schaltung kann auf einer integrierten Schaltungslogik basieren oder diese aufweisen oder als solche implementiert sein, oder kann durch eine oder mehrere CPUs (Zentraleinheit), einen oder mehrere Anwendungsprozessoren, eine oder mehrere Grafikverarbeitungseinheiten (GPU), eine oder mehrere maschinelle Lerneinheiten, wie eine TPU (Tensor-Verarbeitungseinheit), eine oder mehrere Microcontroller, eine oder mehrere FPGAs (feldprogrammierbares Gate-Array), eine oder mehrere ASICs (anwendungsspezifische integrierte Schaltung), oder ähnliches implementiert sein. Die Funktionalität kann durch Software implementiert werden, die von einem Prozessor, wie etwa einem Anwendungsprozessor oder ähnliches, ausgeführt wird. Die Schaltung kann auf typischen elektronischen Komponenten basieren, oder diese aufweisen, oder durch diese implementiert sein, die dazu ausgebildet sind, die hierin beschriebene Funktionalität zu erreichen. Die Schaltung kann auf typischen elektronischen Komponenten und integrierter Schaltungslogik und in Teilen auf Software basieren oder diese aufweisen oder teilweise durch diese implementiert sein.
Die Schaltung kann eine Kommunikationsschnittstelle aufweisen, die dazu ausgebildet ist, über ein Netzwerk (z. B. das Internet) durch eine drahtgebundene oder drahtlose Verbindung, wie WiFi®, Bluetooth® oder ähnliches, ein mobiles Telekommunikationssystem, das auf UMTS, LTE, Ultra-Low-Latency 5G oder ähnliches basieren kann (und entsprechende Kommunikationsprotokolle implementiert), mit einem Computer oder Prozessor (z. B. einem Anwendungsprozessor oder ähnliches) zu kommunizieren und Daten auszutauschen.
Die Schaltung kann Fähigkeiten zu Datenspeicherung aufweisen, um Daten zu speichern, wie etwa einen Speicher, der auf Halbleiterspeichertechnologie (z. B. RAM, EPROM, usw.) oder magnetischer Speichertechnologie (z. B. ein Festplattenlaufwerk) oder ähnliches basieren kann.
Der Empfänger, der Präferenzdaten-Erlanger, der Kategoriekennungs-Erlanger, der Audioinhaltsdatei-Erlanger und der Synchronisierer können auf der Schaltung basieren oder durch diese implementiert sein, um die hierin beschriebenen Funktionen als Hardware- und/oder Softwarecodekomponenten zu erreichen.
Sowohl der Empfänger als auch der Präferenzdaten-Erlanger, der Kategoriekennungs-Erlanger, der Audioinhaltsdatei-Erlanger und der Synchronisierer können auf einer hierin beschriebenen Schaltung basieren oder durch diese implementiert sein, um die hierin beschriebenen Funktionen als Hardware und/oder oder Softwarecodekomponenten zu erreichen.
Im Allgemeinen erhält das Informationsverarbeitungssystem eine Datei mit Audioinhalt, die Audioinhalt bereitstellt, um einen Videoinhalt, der ein Sportereignis darstellt, mit dem Audioinhalt zu erweitern („Audio-in-Audio“), um die Erfahrung des Benutzers zu verbessern, beispielsweise in Fällen, in denen Sportereignisse ohne Publikum stattfinden.
Die Datei mit Audioinhalt kann von einem Medienspieler wiedergegeben werden.
In einigen Ausführungsformen weist die Datei mit Audioinhalt eine oder mehrere kurze Dateien mit Audioinhalt oder Audioinhaltssegmente (z. B. MPEG-DASH- („dynamisches adaptives Streamen über HTTP“) Segmente) auf. Die eine oder die mehreren kurzen Dateien mit Audioinhalt können durch Anweisungen zum Lesen einer Wiedergabeliste der kurzen Dateien mit Audioinhalt miteinander verkettet werden.
In einigen Ausführungsformen wird die Datei mit Audioinhalt beispielsweise auf einem Server aus mehreren Dateien mit Audioinhalt zusammengesetzt, die gleichzeitig abgespielt werden, um eine Anzahl überlappender Klänge zu erzeugen. Dies kann den Realismus verbessern, kann Übertragungsbandbreite einsparen und/oder kann eine weniger intensive Verarbeitung auf dem Medienspieler erfordern.
In einigen Ausführungsformen werden die mehreren Dateien mit Audioinhalt gleichzeitig auf dem Medienspieler empfangen und wiedergegeben. Die Dateien mit Audioinhalt können beispielsweise auf dem Server oder dem Medienspieler zu unterschiedlichen Zeiten starten und/oder können unterschiedliche Dauern haben. Der Server oder der Medienspieler kann die Datei mit Audioinhalt ganz oder teilweise in einer Schleife ausführen, wenn aus dem Videoinhalt ersichtlich wird, dass die Szene länger als die Datei mit Audioinhalt ist. Eine geeignete Mischung des Audios kann durch den Server oder den Medienspieler angewendet werden, um eine Schleife weniger offensichtlich zu machen. Ferner kann im Fall von vordefinierten Audiodateien eine gewisse Randomisierung angewendet werden, um eine unnatürliche Wiederholung derselben Klänge zu vermeiden. Dazu existieren verschiedene Filter oder maschinelle Lernverfahren.
In einigen Ausführungsformen wird (werden) die Datei mit Audioinhalt(en) vorab an den Medienspieler gesendet und beispielsweise in einem lokalen Speicher des Medienspielers gespeichert. In solchen Ausführungsformen zeigt die Kategoriekennung beispielsweise an, welche Datei mit Audioinhalt wiedergegeben werden soll, die aus dem lokalen Speicher des Medienspielers zur Wiedergabe abgerufen wird. Dies kann Übertragungsbandbreite einsparen und/oder Latenz reduzieren.
Der Medienspieler kann ein Mediengerät oder eine Software oder Hardware auf oder in einem Mediengerät zum Verarbeiten von Audio- und Videodaten sein. Der Audioinhalt kann als der Informationsinhalt verstanden werden, der den Benutzer/Zuschauer in Form von Ton mit einer spezifischen Bedeutung anspricht, die für den Benutzer mit der Szene in dem Sportereignis verbunden ist.
Der Videoinhalt kann als der Informationsinhalt verstanden werden, der den Benutzer/Zuschauer in Form einer Serie von Einzelbildern anspricht, die eine Serie von Szenen aufweisen können. Die Szene kann eine Teilmenge des Videoinhalts sein (z. B. eine Serie aufeinanderfolgender Einzelbilder) mit spezifischen Bedeutungen für den Benutzer (z. B. eine Torszene, eine Regelverletzungsszene, usw.).
Das Sportereignis kann ein Fußballspiel, ein Basketballspiel, ein Tennisspiel, ein Autorennen oder ähnliches sein, bei dem eine begrenzte Anzahl von Teilnehmer entweder als Einzelpersonen oder in Teams gegeneinander antreten.
Das Sportereignis kann ein Live-Ereignis sein. Typischerweise werden solche Ereignisse live gesendet, was eine besondere Herausforderung für die Echtzeitverarbeitung darstellt. Andernfalls kann es zu einer Offline-Verarbeitung kommen.
Darüber hinaus kann Sport im Kontext der vorliegenden Offenbarung Spiele mit einem Wettbewerbselement, wie Schach, Puzzles, Quiz, E-Sport, und Kartenspiele, wie Bridge, aufweisen. Zusätzlich können Sportarten beispielsweise gegnerische Mannschaften aufweisen, die gegen die Zeit antreten (wie beispielsweise Abfahrtsski), oder basierend auf Wertungen durch Beurteilungskriterien antreten, wie beispielsweise Tauchen oder Eiskunstlauf.
Daher können die Videodaten (die den Videoinhalt bereitstellen, der das Sportereignis darstellt) von einer oder mehreren Kameras am Ort des Sportereignisses erzeugt werden, die dann beispielsweise von einem Anbieter an das Informationsverarbeitungssystem als Datenstrom bereitgestellt werden.
Die vorliegende Offenbarung ist jedoch nicht auf reine Sportveranstaltungen beschränkt, der Videoinhalt kann beispielsweise auch eine Ereignis, wie eine Zirkusshow, oder ein Konzert, oder ähnliches darstellen.
Das Informationsverarbeitungssystem empfängt den Datenstrom, das die Videodaten aufweist.
Das Informationsverarbeitungssystem weist ferner Präferenzdaten auf, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt. Dadurch können Audioinhalte auf Benutzerpräferenzen basieren.
In einigen Ausführungsformen werden die Präferenzdaten von dem Medienspieler erhalten.
Die Präferenzdaten können im Voraus erhalten werden, beispielsweise kann der Anbieter Metadaten (z. B. teilnehmende Mannschaften, die Startzeit, usw.) über ein Sportereignis bereitstellen, auf deren Grundlage der Benutzer einen Teilnehmer auswählen kann (z. B. über eine Berührungsbedienung, Fernbedienung usw.). Die Präferenzdaten können vorbestimmt sein, beispielsweise kann der Benutzer eine Liste von Teilnehmern erstellen, die auf dem Mediengerät oder einem zugehörigen Gerät, wie etwa einem begleitenden Bildschirmgerät, gespeichert werden kann. Der Benutzer kann aus Präferenzdaten in einer grafischen Benutzerschnittstelle auswählen. Im Allgemeinen kann der Teilnehmer ein Team, ein Spieler, ein Rennfahrer oder ähnliches sein.
In einigen Ausführungsformen können die Präferenzdaten durch einen maschinellen Lernalgorithmus erzeugt werden, beispielsweise durch Überwachen von Audioreaktionen von Benutzern und/oder durch Überwachen beispielsweise von Kamera- oder Time-of-Flight-Sensorbewegungen von Zuschauern. Alternativ könnten von tragbaren Geräten (Wearables) erfasste sensorische Daten verwendet werden, um die bevorzugten Einstellungen für einen Benutzer abzuleiten, z. B. könnte eine Smartwatch den Herzschlag oder die Schüttelbewegung des Arms des Benutzers verfolgen. Wenn beispielsweise ein Zuschauer jubelt, von seinem Sitz aufsteht und die Arme hebt, als Reaktion auf einen bestimmten Sportinhalt, kann in Bezug auf vorab gespeicherte Szenarien/Daten von einem maschinellen Lernalgorithmus bestimmt werden, dass bestimmten Präferenzdaten zuzuordnen sind.
Wie oben erwähnt, sollte der Audioinhalt auf dem Kontext einer Szene basieren, die in dem Videoinhalt dargestellt wird, um den Realismus der Erweiterung des Audioinhalts zu erhöhen („Audio-in-Audio“), und er sollte grundsätzlich nahezu in Echtzeit interpretiert werden für eine Live-Übertragung des Sportereignisses.
Daher erhält das Informationsverarbeitungssystem ferner eine Kategoriekennung von einem maschinellen Lernalgorithmus, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist.
In einigen Ausführungsformen klassifiziert ein menschlicher Bediener die in dem Videoinhalt dargestellten Szenen in Kategorien des vorbestimmten Satzes von Kategorien, die dem Sportereignis zugeordnet sind.
In einigen Ausführungsformen unterstützt ein menschlicher Bediener den maschinellen Lernalgorithmus bei der Klassifizierung der Szenen, wobei die in dem Videoinhalt dargestellte Szene basierend auf der Klassifizierung des maschinellen Lernalgorithmus und eine Klassifizierung des menschlichen Bedieners in eine Kategorie des vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien klassifiziert wird.
Beispielsweise kann ein Tonkünstler pro Wettbewerbsteam die Audioinhaltsdateien manuell auswählen, wobei der Tonkünstler durch den maschinellen Lernalgorithmus unterstützt werden kann.
Die Kategoriekennung kann auf einem oder mehreren Bits zum Angeben einer Kategorie basieren, in die eine in dem Videoinhalt dargestellte Szene durch den maschinellen Lernalgorithmus klassifiziert wird. Die Kategorie ist eine aus einem vorbestimmten Satz von Kategorien, die dem Sportereignis zugeordnet sind. Beispielsweise kann der vorbestimmte Satz von Kategorien für Fußball Tor, Foul, Abseits, Strafstoß, usw. aufweisen. Für Tennis kann der Standardsatz von Kategorien beispielsweise Punkt, Aus, langer Ballwechsel, Netz, Satz-/Matchball usw. aufweisen.
Der maschinelle Lernalgorithmus kann ein neuronales Netz, eine SVM (Support Vector Machine), eine logistische Regression, ein Entscheidungsbaum usw. sein.
Der maschinelle Lernalgorithmus kann auf dem Medienspieler oder einem Cloud-Server implementiert oder ausgeführt werden. Der maschinelle Lernalgorithmus kann auf einem Drittserver implementiert werden oder ausgeführt werden, der beispielsweise Dienste künstlicher Intelligenz bereitstellt, wie etwa Inferenz durch einen trainierten maschinellen Lernalgorithmus.
Der maschinelle Lernalgorithmus kann basierend auf vorbezeichneten Daten für ein Sportereignis trainiert werden, das eine Vielzahl von Spielen, Rennen usw. aufweist, in denen Szenen klassifiziert sind. Der maschinelle Algorithmus kann eine Wahrscheinlichkeit dafür bestimmen, dass eine Szene zu einer bestimmten Kategorie gehört, und kann die Szene basierend darauf klassifizieren.
Der maschinelle Lernalgorithmus kann die Szene aus einer Sequenz von Einzelbildern oder Audioeingaben bestimmen, die direkt bei dem Ereignis aufgezeichnet wurden. Beispielsweise gibt es eine Sequenz von Einzelbildern, die einen Punkt in einem Tennismatch bilden. Dies kann durch den maschinellen Lernalgorithmus in Szenen unterteilt werden, die zum Beispiel aufweisen Szene 1: Aufschlag und Rückschlag, Szene 2: Grundlinien-Ballwechsel, Szene 3: Cross-Court-Ballwechsel, Szene 4: Stoppball und Netzspiel, Szene 5: Lob und Schmetterball, Szene 6: Schiedsrichterruf:

Punkt, und Rückkehr zur Aufschlaglinie. Somit kann der maschinelle Lernalgorithmus beispielsweise die kurze Szene 1-6 individuell klassifizieren und kann die längere Punktszene basierend auf den kurzen Szenen 1-6 klassifizieren.

Der maschinelle Lernalgorithmus kann in Bezug auf Trainingsdaten zu Aspekten, wie Position des Balls oder Spielers in Bezug auf das Spielfeld, Bewegungsgeschwindigkeit des Balls, Ton, Spielerbewegungen, arbeiten. Der maschinelle Lernalgorithmus kann auch basierend darauf arbeiten, wie das Kameramaterial gesteuert wird, wie etwa die Verwendung von Zoom, Schwenken, Wechseln zu einer anderen Kameraansicht. Dies kann auf externen Entscheidungen eines automatisierten oder menschlichen Videobedieners basieren.
Das Informationsverarbeitungssystem erhält ferner basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist. In einigen Ausführungsformen kann die Datei mit Audioinhalt eine Werbung sein, die basierend auf der Kategoriekennung und/oder Präferenzdaten ausgewählt wird. Beispielsweise wird eine Werbung bezogen auf das Team oder den Heimatstandort oder Teamsponsoren erhalten und wiedergegeben, wenn ein Tor erzielt wird.
Zur Verbesserung des allgemeinen Verständnisses der vorliegenden Offenbarung wird eine Ausführungsform einer Zuordnung von Dateien mit Audioinhalt, Kategorien einer Szene und Präferenzdaten im Folgenden unter Bezugnahme auf 1 erläutert, wo die Ausführungsform schematisch in einer Tabelle dargestellt ist.
In der ersten Spalte ist die Kategoriekennung dargestellt, die eine positive ganze Zahl ist, die die Kategorie angibt, in die eine Szene klassifiziert werden kann.
In der zweiten Spalte sind die Kategorien dargestellt, die hier der Veranschaulichung halber nur vier Kategorien sind, die einem Fußballspiel zugeordnet sind: Tor für A, Tor für B, Foul von A und Foul von B. Natürlich darf es beliebig viele Kategorien geben (die von dem Sportereignis abhängig sein können), wie auch durch die Punkte in der letzten Serie veranschaulicht wird.
In der dritten Spalte wird der ausgewählte Teilnehmer angezeigt, der A oder B sein kann.
In der vierten Spalte sind der der Kategorie der Szene zugeordnete Audioinhalt und die Präferenzdaten dargestellt. Beispielsweise enthält der Audioinhalt für die Kategorie „Tor für A“ Ton zur Unterstützung für den ausgewählten Teilnehmer, wie „Ja! “, wenn Team A ein Tor erzielte und Team A ausgewählt wurde, und „Nein!“, wenn Team A ein Tor erzielte und Team B ausgewählt wurde. Beispielsweise enthält der Audioinhalt für die Kategorie „Foul von A“ Ton zur Unterstützung für den ausgewählten Teilnehmer, wie „Kein Foul!“, wenn Team A gefoult wurde und Team A ausgewählt wurde, und „Gelbe Karte!“, wenn Team A gefoult wurde und Team B ausgewählt wurde.
Daher weist der Audioinhalt in einigen Ausführungsformen Ton zur Unterstützung für den ausgewählten Teilnehmer auf. In einigen Ausführungsformen weist der Audioinhalt ferner Ton zur Unterstützung für einen gegnerischen Teilnehmer des ausgewählten Teilnehmer mit geringerer Lautstärke auf. In einigen Ausführungsformen ist die Datei mit Audioinhalt in verschiedenen Sprachen für A oder B.
In der fünften Spalte ist eine Audioinhaltsdatei-Kennung dargestellt, die die Datei mit Audioinhalt angibt, die dem Audioinhalt entspricht, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist. Einige Dateien mit Audioinhalt können identisch sein, hier beispielsweise, nur zur Veranschaulichung, „0“ und „3“ (z. B. auch „1“ und „2“, „5“ und „6“, „4“ und „7“).
Wieder zu den allgemeinen Erläuterungen, es wurde auch erkannt, dass, wenn die Datei mit Audioinhalt erhalten wird, der Audioinhalt und der Videoinhalt für eine synchronisierte Wiedergabe der Szene synchronisiert werden sollten, um den Realismus der Audioerweiterung zu erhöhen.
Daher synchronisiert das Informationsverarbeitungssystem den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch den Medienspieler. Der Audioinhalt und der Videoinhalt können basierend auf Zeitstempeln in den Videodaten synchronisiert werden. Beispielsweise kann der maschinelle Lernalgorithmus einen Zeitstempel bereitstellen, der den Zeitstempeln in den Videodaten entspricht, beispielsweise wird für jede klassifizierte Szene der Zeitstempel aus den Videodaten erhalten und an die Kategoriekennung angehängt.
Es wurde ferner erkannt, dass der Ton vom Ort des Sportereignisses die Klassifizierungsgenauigkeit der Szenen erhöhen kann, beispielsweise aufgrund von Jubel oder Geräuschen, die von dem/den Spieler(n) oder einem anwesenden Zuschauer oder dem/den Trainer(n), oder ähnliches, kommen. Darüber hinaus kann die Stimme eines Kommentators die Klassifikationsgenauigkeit erhöhen.
Somit weist der Datenstrom in einigen Ausführungsformen Audiodaten auf, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweisen, und der maschinelle Lernalgorithmus wird ferner darauf trainiert, die in dem Videoinhalt dargestellte Szene ferner basierend auf den Audiodaten zu klassifizieren. In einigen Ausführungsformen weist der zweite Audioinhalt Ton von einem Kommentator des Sportereignisses auf.
Der maschinelle Lernalgorithmus kann ferner basierend auf vorbezeichneten Daten für ein Sportereignis trainiert werden, das eine Vielzahl von Spielen, Rennen usw. aufweist, in denen Ton vom Ort des Sportereignisses in Kategorien klassifiziert werden, die dem Sportereignis zugeordnet sind.
In einigen Ausführungsformen weist der Datenstrom Audiodaten auf, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses darstellt, und das Informationsverarbeitungssystem synchronisiert den Audioinhalt, den zweiten Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe durch den Medienspieler. Die Synchronisation kann, wie oben erwähnt, auf Zeitstempeln basieren.
In einigen Ausführungsformen weist das Informationsverarbeitungssystem ferner einen Lautstärkeindikator-Erlanger auf, der dazu ausgebildet ist, basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, einen Lautstärkeindikator zu erhalten, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt von dem Medienspieler wiedergegeben werden sollte.
Der Lautstärkeindikator kann auf der Schaltung basieren oder durch diese implementiert werden, um die hierin beschriebenen Funktionen zu erreichen.
In manchen Ausführungsformen nimmt die Lautstärke des Audioinhalts mit Beginn der Szene kontinuierlich bis zu einem Maximum zu und nimmt dann zum Ende der Szene hin ab.
Es wurde ferner erkannt, dass die Teilnehmer bei Sportereignissen ohne Publikum Ton zur Unterstützung von einem entfernten Publikum wünschen können. Im Allgemeinen kann das Mediengerät des Benutzers ein Mikrofon aufweisen, um die Stimme des Benutzers oder den Ton des Benutzers aufzuzeichnen, so dass die Stimme oder der Ton des Benutzers zu einem Lautsprecher am Ort des Sportereignisses zurückgeführt werden kann. Das Mikrofon kann das Mikrofon einer Videokamera sein. Es kann einen Upload-Filter geben, der Äußerungen der Benutzer filtert. Es kann einen Filter geben, der beispielsweise den Fernsehton herausfiltert, um zu verhindern, dass Audiorückkopplungsstörungen erzeugt werden. In einigen Ausführungsformen kann ein solches Filtern auf dem Server durchgeführt werden, wo das TV-Audiosignal bekannt ist und von den durch das Mikrofon erfassten Audiosignalen entfernt wird, beispielsweise durch Korrelieren der Signale und Löschen des bekannten TV-Audiosignals, indem es invertiert wird. In einigen Ausführungsformen kann das Korrelieren des bekannten TV-Audiosignals am Server mit dem, was von dem Mikrofon erfasst wurde, einen Hinweis auf die unten beschriebenen Datenlaufzeiten geben und ermöglichen, dass die Datenlaufzeit kompensiert wird.
Es wurde ferner erkannt, dass der Audioinhalt nur dann zurückgeführt werden sollte, wenn die Datenlaufzeiten innerhalb einer vorbestimmten Grenze liegen, da es einige Zeit dauert, bis der Benutzer-Audioinhalt für die Ausgabe durch einen Lautsprecher verarbeitet ist, wenn der Benutzer eine Szene am Ort der Sportereignisses anschaut.
Daher empfängt das Informationsverarbeitungssystem in einigen Ausführungsformen Benutzer-Audioinhalte von dem Medienspieler und weist ferner einen Sender auf, der ferner dazu ausgebildet ist, wenn eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, den Benutzer-Audioinhalt an einen Lautsprecher am Ort des Sportereignisses zu senden.
Der Sender kann auf der Schaltung basieren oder durch diese implementiert sein, um die hierin beschriebenen Funktionen zu erreichen.
Darüber hinaus wurde erkannt, dass Benutzergruppierungen unterstützt werden sollten, um ein gemeinsames Erlebnis zu schaffen. Die Benutzer (z. B. Benutzer separater Mediengeräte) können eine Gruppe gleichgesinnter Zuschauer bilden, beispielsweise können die Benutzer denselben Teilnehmer zur Unterstützung ausgewählt haben oder können im Voraus eine Freundesgruppe oder Unterstützergruppe erstellt haben. Die Benutzer können beispielsweise über eine Benutzerschnittstelle, wie etwa eine grafische Benutzeroberfläche oder ähnliches, auswählen, welche Teilnehmer oder Gruppen an der gemeinsamen Nutzung von Audioinhalten durch Benutzer teilnehmen können, so dass eine selektive Blockierung aktiviert wird, beispielsweise wenn das Singen unangemessen ist, oder ähnliches.
In einigen Ausführungsformen ist die Zuschauerschaft in zwei oder mehreren Sportbars, oder allgemeiner, an Orten, an denen sich gleichgesinnte Zuschauer versammeln, durch gemeinsame Präferenzdaten verbunden.
Um das gemeinsame Erlebnis zu schaffen, kann eine begrenzte Teilmenge von Benutzern miteinander kommunizieren, während sie sich das Sportereignis ansehen. Beispielsweise können die Benutzer am Standort des Benutzers aufgezeichnete Sprache oder Video mit anderen Benutzern teilen, indem sie dieses um den Audioinhalt bzw. den Videoinhalt der anderen Benutzer erweitern.
Daher ist der Medienspieler in einigen Ausführungsformen dazu ausgebildet, Ton aufzeichnen, der Benutzer-Audioinhalte am Ort des Medienspielers darstellt (z. B. durch ein Mikrofon), der dann an das Informationsverarbeitungssystem gesendet wird. In einigen Ausführungsformen ist der Medienspieler dazu ausgebildet, ein Video, das Benutzer-Videoinhalt darstellt, am Standort des Medienspielers (z. B. durch eine Kamera) aufzuzeichnen, das dann an das Informationsverarbeitungssystem gesendet wird. Dadurch kann ein Zusammengehörigkeitsgefühl erzeugt werden, wenn Benutzer-Audioinhalte und Benutzer-Videoinhalte in einer Gruppe von Benutzern, die unterschiedlichen Medienspielern zugeordnet sind, geteilt werden.
Somit sind in einigen Ausführungsformen ein erster Benutzer und ein zweiter Benutzer in einer Gruppe von Benutzern enthalten, die denselben ausgewählten Teilnehmer haben, der durch die Präferenzdaten angegeben ist, und das Informationsverarbeitungssystem weist ferner einen Sender auf, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalts an den Medienspieler, der dem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der dem zweiten Benutzer zugeordnet ist, zu senden, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
Der Sender kann auf der Schaltung basieren oder durch diese implementiert sein, um die hierin beschriebenen Funktionen zu erreichen.
In einigen Ausführungsformen weisen der erste und der zweite Medienspieler eine Vielzahl von Lautsprecher an unterschiedlichen Orten auf, und jeder Lautsprecher der Vielzahl von Lautsprechern gibt unterschiedliche Audioinhalte („räumliches Audio“) wieder. Beispielsweise kann der Benutzer des Medienspielers den Audioinhalt auf einem ersten Lautsprecher in einer ersten Ecke eines Raums platzieren und kann den Benutzer-Audioinhalt auf einem zweiten Lautsprecher in einer zweiten Ecke des Raums platzieren.
Die synchronisierte Wiedergabe der Szene ermöglicht Benutzern an unterschiedlichen Orten, dieselbe Szene des Sportereignisses im Wesentlichen zur gleichen Zeit anzusehen. Dadurch kann die gemeinsame Nutzung von Sprache (Benutzer-Audioinhalt) und Video (Benutzer-Videoinhalt) erleichtert werden, wenn die Datenlaufzeiten zwischen verschiedenen Orten innerhalb einer vorbestimmten Grenze liegen.
Beispielsweise weist die Datenlaufzeit in einigen Ausführungsformen die Zeitdauer auf, die zum Erfassen des Benutzer-Audioinhalts, zum Senden desselben über ein Netzwerk an einen zweiten Medienspieler, und zum Wiedergeben des Benutzer-Audioinhalts auf dem zweiten Medienspieler erforderlich ist. Beispielsweise weist die Datenlaufzeit in einigen Ausführungsformen die Zeitdauer auf, die zum Senden erfasster Benutzer-Audioinhalte über ein Netzwerk an einen zweiten Medienspieler erforderlich ist. Beispielsweise weist die Datenlaufzeit in einigen Ausführungsformen die Zeitdauer auf, die zum Erfassen des Benutzer-Audioinhalts und zum Senden desselben über das Netzwerk beispielsweise an einem (Cloud-)Server erforderlich ist.
Es wurde erkannt, dass die synchronisierte Wiedergabe der Szene erreicht werden kann, indem der Video- und Audioinhalt basierend auf Datenlaufzeiten an jeden Medienspieler gesendet wird.
Daher sendet das Informationsverarbeitungssystem in einigen Ausführungsformen einen Testaudioinhalt an den Medienspieler und den zweiten Medienspieler. Der Testaudioinhalt kann periodisch oder ereignisbasiert gesendet werden, beispielsweise wenn ein anderer Benutzer der Gruppe von Benutzern beitritt.
Der Testaudioinhalt kann ein charakteristischer (kurzer) Ton sein. Beispielsweise kann das Merkmal (kurzer Ton) abgespielt werden, wenn ein anderer Benutzer der Gruppe von Benutzern beitritt oder ähnliches.
Der Testaudioinhalt kann ein Audiowasserzeichen (z. B. eine Audiomodulation, bei der Abtastfrequenzen leicht geändert sind) aufweisen, das eine Nutzlast einer eindeutigen (oder quasieindeutigen) Benutzer- oder Benutzergruppenkennung trägt.
Der Testaudioinhalt kann ein nicht hörbarer Testaudioinhalt in einem Frequenzbereich sein, der von Menschen (und Tieren, in einigen Ausführungsformen) nicht gehört werden kann, und kann ein charakteristisches Muster aufweisen.
Der Testaudioinhalt wird in solchen Ausführungsformen von einem Lautsprecher des Medienspielers ausgegeben, und das Echo des Testaudioinhalts wird aufgezeichnet, um Echodaten zu erzeugen, die von dem Medienspieler an das Informationsverarbeitungssystem gesendet werden.
In solchen Ausführungsformen empfängt das Informationsverarbeitungssystem Echodaten, die ein aufgezeichnetes Echo des Testaudioinhalts darstellen, von jedem von dem Medienspieler und dem zweiten Medienspieler.
In solchen Ausführungsformen weist das Informationsverarbeitungssystem ferner einen Datenlaufzeitbestimmer auf, der dazu ausgebildet ist, eine Datenlaufzeit für sowohl das Mediengerät als auch das zweite Mediengerät zu bestimmen. Der Datenlaufzeitbestimmer kann auf der Schaltung basieren oder durch diese implementiert werden, um die hierin beschriebenen Funktionen zu erreichen.
In solchen Ausführungsformen sendet das Informationsverarbeitungssystem den Audioinhalt und den Videoinhalt basierend auf den Datenlaufzeiten an den Medienspieler und den zweiten Medienspieler, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
In einigen Ausführungsformen kann der Benutzer das Video mit einem Smartphone aufnehmen und in eine Cloud oder auf ein lokales Gerät hochladen, wodurch die Audiostreams erweitert werden. In solchen Ausführungsformen kann die Vorrichtung eine Nichtübereinstimmung von erweitertem Audio mit den Video-Einzelbildern erkennen und Korrekturverfahren anwenden, z. B. Video-Einzelbilder künstlich um die erkannte Verzögerungsdauer verschieben.
Somit werden auch die Audioverarbeitungszeiten der Medienspieler für die Synchronisation berücksichtigt, so dass ein hoher Grad an Synchronisation erreicht werden kann. Die Synchronisation kann regelmäßig durchgeführt werden. Beispielsweise, weil sich Verarbeitungsverzögerungen, Puffer usw. im Laufe der Zeit ändern können.
Wie oben erwähnt, kann das Teilen von Sprache und Video erleichtert werden, wenn die Datenlaufzeiten zwischen verschiedenen Orten innerhalb einer vorbestimmten Grenze liegen, da ansonsten der Audioinhalt von einem anderen Benutzer möglicherweise mit einer Szene in Beziehung steht, die bereits vorbei ist, was ein störendes Merkmal sein kann.
Somit empfängt das Informationsverarbeitungssystem in einigen Ausführungsformen erste Benutzer-Audioinhalte von dem Medienspieler und zweite Benutzer-Audioinhalte von dem zweiten Medienspieler, und das Informationsverarbeitungssystem sendet, wenn die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen, den ersten Benutzer-Audioinhalte Inhalt an den zweiten Medienspieler und den zweiten Benutzer-Audioinhalt an den Medienspieler.
Einige Ausführungsformen betreffen ein Informationsverarbeitungsverfahren zum Erhalten einer Datei mit Audioinhalt für Videodaten, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, wobei das Informationsverarbeitungsverfahren aufweist:

Empfangen eines Datenstroms, der die Videodaten aufweist;
Erhalten von Präferenzdaten, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;
Erhalten einer Kategoriekennung von einem maschinellen Lernalgorithmus, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis zugeordnet sind, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;
Erhalten, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten, der Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und
Synchronisieren des Audioinhalts und des Videoinhalts für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.

Das Informationsverarbeitungsverfahren kann durch das hierin beschriebene Informationsverarbeitungssystem durchgeführt werden.
Die hierin beschriebenen Verfahren werden in einigen Ausführungsformen auch als ein Computerprogramm implementiert, das einen Computer und/oder einen Prozessor veranlasst, das Verfahren auszuführen, wenn es auf dem Computer und/oder Prozessor ausgeführt wird. In einigen Ausführungsformen wird auch ein nichtflüchtiges computerlesbares Aufzeichnungsmedium bereitgestellt, das ein Computerprogrammprodukt speichert, das, wenn es von einem Prozessor ausgeführt wird, wie etwa dem oben beschriebenen Prozessor, bewirkt, dass das hierin beschriebenen Verfahren durchgeführt werden.
Zurückkommend auf 2 werden im Folgenden eine erste und eine zweite Ausführungsform eines Informationsverarbeitungssystems 4-1 und 4-2 unter Bezugnahme auf 2 erläutert, die die erste und die zweite Ausführungsform des Informationsverarbeitungssystems schematisch darstellt.
Ein Sportereignis 1, hier ein Fußballspiel, wird von Kameras 2a und 2b aufgezeichnet, die dazu ausgebildet sind, Videodaten zu erzeugen, die Videoinhalte bereitstellen, die das Sportereignis 1 darstellen. Außerdem enthalten die Kameras 2a und 2b Mikrofone, die dazu ausgebildet sind, Audiodaten zu erzeugen, die Ton vom Ort der Sportereignisses 1 bereitstellen.
Die Audio- und Videodaten werden von einem Anbieter 3 bezogen, der zumindest die Videodaten als Datenstrom dem Informationsverarbeitungssystem 4-1 oder dem Informationsverarbeitungssystem 4-2 bereitstellt.
Das Informationsverarbeitungssystem 4-1 weist einen Empfänger 5, einen Kategoriekennungs-Erlanger 6, einen Audioinhaltsdatei-Erlanger 7, einen Präferenzdaten-Erlanger 8, einen Synchronisierer 9 und einen Sender 10 auf.
Die Informationsverarbeitungsvorrichtung 4-1 kann auf einem Computer, einem Server, einem Cloud-Dienst oder ähnliches basieren oder darauf implementiert sein. Das Informationsverarbeitungssystem 4-1 kann in ein Mediengerät, wie etwa einen Fernseher, ein Heimunterhaltungssystem (das z. B. einen Fernseher, eine Spielekonsole, eine Empfängerbox eines Providers, eine Kamera, ein Mikrofons, einen Lautsprechers, usw. aufweist), ein mobiles Gerät, oder ähnliches, eingebettet sein. Das Informationsverarbeitungssystem kann auf einer verteilten Architektur basieren oder basierend darauf implementiert sein, beispielsweise verteilt sein über einen Server, einen Cloud-Dienst, oder ähnliches, und ein Mediengerät, so dass einige seiner Funktionen von einem Server oder ähnliches ausgeführt werden und einige seiner Funktionen von dem Mediengerät ausgeführt werden.
Der Empfänger 5 empfängt den Datenstrom mit den Videodaten von dem Anbieter 3.
Der Kategoriekennungs-Erlanger 6 erhält eine Kategoriekennung von einer Algorithmuseinheit 11 für maschinelles Lernen, wobei die Algorithmuseinheit 11 für maschinelles Lernen einen maschinellen Lernalgorithmus, hier ein neuronales Netz, aufweist, in das die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert ist, eine in dem Videoinhalt dargestellten Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis 1 zugeordnet sind, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist.
Die Audioinhaltsdatei-Erlanger 7 erhält Präferenzdaten von dem Präferenzdaten-Erlanger 8 und erhält die Kategoriekennung von der Kategoriekennungs-Erlanger 6.
Der Präferenzdaten-Erlanger 8 erhält Präferenzdaten von einem Medienspieler 12, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis 1 teilnimmt.
Die Audioinhaltsdatei-Erlanger 7 erhält basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist.
Der Synchronisierer 9 synchronisiert den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch den Medienspieler 12.
Der Sender 10 sendet den Audioinhalt und den Videoinhalt an den Medienspieler 12.
Das Informationsverarbeitungssystem 4-2 unterscheidet sich in Bezug auf das Informationsverarbeitungssystem 4-1 dahingehend, dass das Informationsverarbeitungssystem 4-2 die Algorithmuseinheit 11 für maschinelles Lernen aufweist.
3 veranschaulicht schematisch in einem Blockdiagramm eine dritte Ausführungsform eines Informationsverarbeitungssystems 4-3 in 3A und eine vierte Ausführungsform eines Informationsverarbeitungssystems 4-4 in 3B.
Das Informationsverarbeitungssystem 4-3, wie es in 3A dargestellt wird, ist ein Server für einen Cloud-Dienst, der den Empfänger 5, den Kategoriekennungs-Erlanger 6, den Audioinhaltsdatei-Erlanger 7, den Präferenzdaten-Erlanger 8, den Synchronisierer 9, den Sender 10 und die Algorithmuseinheit 11 für maschinelles Lernen aufweist.
Das Informationsverarbeitungssystem 4-4, wie es in 3B dargestellt wird, ist in ein Mediengerät 13 eingebettet, das den Empfänger 5, den Kategoriekennungs-Erlanger 6, den Audioinhaltsdatei-Erlanger 7, den Präferenzdaten-Erlanger 8, den Synchronisierer 9, den Sender 10 und die Algorithmuseinheit 11 für maschinelles Lernen aufweist. Hier ist der Medienspieler 12 auch in das Mediengerät 13 eingebettet.
4 veranschaulicht schematisch in einer Zeitleiste eine Ausführungsform zum Synchronisieren von Audioinhalt und Videoinhalt für die synchronisierte Wiedergabe einer Szene durch einen Medienspieler.
Die obere Zeitleiste veranschaulicht ein Zeitintervall, das bei t0 beginnt und bei t1 endet, in dem die Videodaten - die einen Videoinhalt bereitstellen, der ein Sportereignis, wie etwa das Sportereignis 1, darstellt - in einem Datenstrom von einem Informationsverarbeitungssystem, wie etwa den Informationsverarbeitungssystemen 4-1 bis 4-5, wie sie hierin beschrieben werden, empfangen werden. Im Folgenden ist das Informationsverarbeitungssystem beispielsweise das Informationsverarbeitungssystem 4-3 von 3A.
Die Videodaten werden in einen maschinellen Lernalgorithmus eingegeben, wie hierin beschrieben, der darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis zugeordnet sind.
In dieser Ausführungsform klassifiziert der maschinelle Lernalgorithmus die Szene basierend auf einer Serie von aufeinanderfolgenden Einzelbildern (oder entsprechenden Audiotönen innerhalb des Videostroms) in einem gleitenden Zeitfenster 20, wie in der oberen Zeitleiste dargestellt.
In dem Videoinhalt sind zur Veranschaulichung zwei Szenen 21 und 22 vorhanden, die eine Torszene 21 und eine Foulszene 22 sind.
Der maschinelle Lernalgorithmus klassifiziert die Torszene 21 basierend auf dem gleitenden Zeitfenster 20 in die Kategorie „Tor für A“, wie in 1 gezeigt. Der maschinelle Lernalgorithmus klassifiziert die Regelverletzungsszene 22 in die Kategorie „Foul von A“, wie in 1 gezeigt.
Der maschinelle Lernalgorithmus benötigt typischerweise etwas Zeit, um die Serie von aufeinanderfolgenden Einzelbildern in dem gleitenden Zeitfenster 20 zu verarbeiten, um Szenen zu klassifizieren. Ferner benötigt das Informationsverarbeitungssystem 4-3 typischerweise einige Zeit, um eine Datei mit Audioinhalt aus einem vorgespeicherten Satz von Dateien mit Audioinhalt zu erhalten, die Audioinhalt 23 und 24 bereitstellt, wie in der unteren Zeitleiste gezeigt, die der Kategorie der Szene und Präferenzdaten zugeordnet sind. Außerdem benötigt das Informationsverarbeitungssystem 4-3 typischerweise einige Zeit, um den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch den Medienspieler 12 zu synchronisieren.
Somit sendet das Informationsverarbeitungssystem 4-3 den synchronisierten Audioinhalt 23 und 24 und den Videoinhalt in Übereinstimmung mit der unteren Zeitleiste, wo die Startzeit von t0 auf t0' verschoben wird und die Endzeit von t1 auf t1' verschoben wird, und der Medienspieler 12 erhält sie entsprechend.
Der Audioinhalt 23 und 24 wird mit den in dem Videoinhalt dargestellten Szenen 21 bzw. 22 basierend auf Zeitstempeln synchronisiert, so dass der Audioinhalt 23 wiedergegeben wird, wenn die Szene 21 durch den Medienspieler 12 wiedergegeben wird, und so dass der Audioinhalt 24 wiedergegeben wird, wenn die Szene 22 von dem Medienspieler 12 wiedergegeben wird.
Im Folgenden wird eine fünfte Ausführungsform eines Informationsverarbeitungssystems 4-5 unter Bezugnahme auf 5 erläutert, die schematisch in einem Blockdiagramm die fünfte Ausführungsform des Informationsverarbeitungssystems 4-5 darstellt. Darüber hinaus wird eine erste Ausführungsform eines Informationsverarbeitungsverfahrens 40 - das von dem Informationsverarbeitungssystem 4-5 durchgeführt wird - unter Bezugnahme auf 6 erläutert.
Das Informationsverarbeitungssystem 4-5, wie in 5 dargestellt, ist ein Server für einen Cloud-Dienst, der den Empfänger 5, den Kategoriekennungs-Erlanger 6, den Audioinhaltsdatei-Erlanger 7, den Präferenzdaten-Erlanger 8, den Synchronisierer 9, und den Sender 10 und die Algorithmuseinheit 11 für maschinelles Lernen aufweist.
Ein erster Medienspieler 12a ist einem ersten Benutzer zugeordnet und ein zweiter Medienspieler 12b ist einem zweiten Benutzer zugeordnet, wobei der erste Benutzer und der zweite Benutzer in einer Gruppe von Benutzern enthalten sind, die denselben ausgewählten Teilnehmer haben, der an dem Sportereignis 1 teilnimmt. Der erste und der zweite Medienspieler 12 befinden sich an unterschiedlichen Orten.
Bei 41 stellt der Anbieter 3 Metadaten über das Sportereignis 1 bereit, beispielsweise die teilnehmenden Mannschaften, Startzeit, Endzeit usw. Der erste Benutzer wählt einen Teilnehmer aus, der Präferenzdaten erzeugt, die dann von dem ersten Medienspieler 12 an das Informationsverarbeitungssystem 4-5, das die Präferenzdaten erhält, gesendet werden. Der zweite Benutzer wählt einen Teilnehmer aus, der Präferenzdaten erzeugt, die dann von dem zweiten Medienspieler 12 an das Informationsverarbeitungssystem 4-5, das die Präferenzdaten erhält, gesendet werden.
Bei 42 sendet das Informationsverarbeitungssystem 4-5 einen nicht hörbaren Testaudioinhalt an den ersten Medienspieler 12a und den zweiten Medienspieler 12b.
Der erste Medienspieler 12a empfängt den nicht hörbaren Testaudioinhalt, verarbeitet ihn, spielt ihn ab, und zeichnet bei 43a ein Echo auf, um Echodaten zu erzeugen.
Der zweite Medienspieler 12a empfängt den nicht hörbaren Testaudioinhalt, verarbeitet ihn, spielt ihn ab, und zeichnet bei 43b ein Echo auf, um Echodaten zu erzeugen.
Der erste Medienspieler 12a sendet die Echodaten an das Informationsverarbeitungssystem 4-5, das bei 44a die Echodaten empfängt und darauf basierend eine Datenlaufzeit für den ersten Medienspieler 12a bestimmt.
Der zweite Medienspieler 12b sendet die Echodaten an das Informationsverarbeitungssystem 4-5, das die Echodaten bei 44b empfängt und darauf basierend eine Datenlaufzeit für den zweiten Medienspieler 12b bestimmt.
Dabei ist, wie dargestellt wird, die Datenlaufzeit für den ersten Medienspieler 12a geringer als die Datenlaufzeit für den zweiten Medienspieler 12b.
Bei 45, ebenfalls t0 in 4 und 6, empfängt das Informationsverarbeitungssystem 4-5 einen Datenstrom, der Videodaten aufweist, die Videoinhalt bereitstellen, der das Sportereignis 1 darstellt. Das Informationsverarbeitungssystem 4-5 gibt die Videodaten in einen maschinelles Lernen Algorithmus in der Algorithmuseinheit 11 für maschinelles Lernen ein, wobei der Algorithmus für maschinelles Lernen darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis 1 zugeordnet sind. Wenn eine Szene in eine Kategorie des vorbestimmten Satzes von Kategorien klassifiziert wird, erhält das Informationsverarbeitungssystem 4-5 einen Kategoriekennung von der Algorithmuseinheit 11 für maschinelles Lernen, wobei der Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist. Wenn die Kategoriekennung erhalten wird, erhält das Informationsverarbeitungssystem 4-5 basierend auf der Kategoriekennung und den Präferenzdaten eine Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der er Kategorie der Szene und den Präferenzdaten zugeordnet ist.
Da es dabei einige Verarbeitungszeit erfordert, beispielsweise mindestens die Zeit des gleitenden Fensters 20 von 4 plus der Verarbeitungszeit des maschinellen Lernalgorithmus, werden die Videodaten und Audiodaten, die den Audioinhalt bereitstellen, bei 46 gesendet, das heißt, zeitlich von t0 nach t0' verschoben (wie auch in 4 dargestellt wird).
Außerdem werden bei 46 die den Audioinhalt bereitstellenden Videodaten und Audiodaten nur an den zweiten Medienspieler 12b gesendet, da die Datenlaufzeit für den zweiten Medienspieler 12b größer ist. Der zweite Medienspieler 12b empfängt sie bei 47.
Bei 48 werden zwischen 46 und 48 die den Audioinhalt bereitstellenden Videodaten und Audiodaten auch an den ersten Medienspieler 12a gesendet, wobei die Verzögerung zwischen 46 und 48 im Wesentlichen die unterschiedlichen Datenlaufzeiten kompensiert, so dass der erste Medienspieler 12a sie bei 49 empfängt, was im Wesentlichen die gleiche Zeit wie bei 47 ist.
Daher sendet das Informationsverarbeitungssystem 4-5 den Audioinhalt und den Videoinhalt basierend auf den Datenlaufzeiten an den Medienspieler und den zweiten Medienspieler, so dass die Szene im Wesentlichen synchronisiert durch den ersten Medienspieler 12a und den zweiten Medienspieler 12b wiedergegeben wird.
Darüber hinaus tauschen, um ein gemeinsames Erlebnis zu schaffen, der erste Benutzer und der zweite Benutzer Ton von ihren Standorten miteinander aus. Da die Szene im Wesentlichen synchronisiert auf beiden Medienspielern 12a und 12b wiedergegeben wird, nehmen beide Benutzer die Szene im Wesentlichen zur gleichen Zeit wahr, und Reaktionen (z. B. Äußerungen) in Bezug auf die Szene erfolgen im Wesentlichen zur gleichen Zeit. Somit können solche Äußerungen für ein gemeinsames Erlebnis ausgetauscht werden, wenn die gesamte Datenlaufzeit zwischen den zwei Medienspielern 12a und 12b über das Informationsverarbeitungssystem 4-5 innerhalb eines vorbestimmten Zeitintervalls liegt. Mit anderen Worten, wenn die Datenlaufzeiten unterhalb einer vorbestimmten Schwelle liegen. Denn sonst ist die zeitliche Verzögerung zwischen Szene und Reaktion zu groß, was beim Betrachten eines Sportereignisses in einer Gruppe störend sein kann.
Dabei liegt die gesamte Datenlaufzeit zwischen den beiden Medienspielern 12a und 12b über das Informationsverarbeitungssystem 4-5 innerhalb des vorgegebenen Zeitintervalls.
Bei 50 sendet der erste Medienspieler 12a Benutzer-Audioinhalt (z. B. Äußerungen) an das Informationsverarbeitungssystem 4-5, das ihn bei 52 empfängt. Wenn die Gesamtdatenlaufzeit zwischen den beiden Medienspielern 12a und 12b über das Informationsverarbeitungssystem 4-5 innerhalb des vorbestimmten Zeitintervalls liegt, wird der Benutzer-Audioinhalt von dem ersten Medienspieler 12a durch das Informationsverarbeitungssystem 4-5 an den zweiten Medienspieler 12b gesendet, der ihn bei 54 empfängt.
Bei 51 sendet der zweite Medienspieler 12a Benutzer-Audioinhalt (z. B. Äußerungen) an das Informationsverarbeitungssystem 4-5, das ihn bei 53 empfängt. Wenn die Gesamtdatenlaufzeit zwischen den beiden Medienspielern 12a und 12b über das Informationsverarbeitungssystem 4-5 innerhalb des vorbestimmten Zeitintervalls liegt, wird der Benutzer-Audioinhalt von dem ersten Medienspieler 12a durch das Informationsverarbeitungssystem 4-5 an den ersten Medienspieler 12b gesendet, der ihn bei 55 empfängt.
Im Allgemeinen sendet das Informationsverarbeitungssystem 4-5 kontinuierlich den Videoinhalt und den Audioinhalt (basierend auf maschinellem Lernen), wenn eine Szene in eine Kategorie des vorbestimmten Satzes von Kategorien klassifiziert wird. Darüber hinaus kann das Informationsverarbeitungssystem 4-5 regelmäßig Datenlaufzeiten bestimmen und Benutzer-Audioinhalte zum Teilen mit anderen Benutzern verarbeiten.
7 veranschaulicht schematisch in einem Flussdiagramm eine zweite Ausführungsform eines Informationsverarbeitungsverfahrens 70.
Das Informationsverarbeitungsverfahren 70 kann durch das hierin beschriebene Informationsverarbeitungssystem durchgeführt werden.
Bei 71 wird ein Datenstrom empfangen, der die Videodaten enthält, wie hierin erläutert.
Bei 72 werden Präferenzdaten von einem Medienspieler erhalten, der dazu ausgebildet ist, den Videoinhalts und die Datei mit Audioinhalt wiederzugeben, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt, wie hierin erläutert.
Bei 73 wird eine Kategoriekennung von einem maschinellen Lernalgorithmus erhalten, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien, die dem Sportereignis zugeordnet sind, zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert wird, wie hierin erläutert.
Bei 74 wird die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten erhalten, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist, wie hierin erläutert.
Bei 75 werden der Audioinhalt und der Videoinhalt für die synchronisierte Wiedergabe der Szene durch den Medienspieler synchronisiert, wie hierin erläutert.
Bei 76 wird basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, ein Lautstärkeindikator erhalten, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt durch den Medienspieler wiedergegeben wird, wie hierin erläutert.
Bei 77 werden der Audioinhalt, der zweite Audioinhalt und der Videoinhalt zur synchronisierten Wiedergabe durch den Medienspieler synchronisiert, wobei der Datenstrom Audiodaten aufweist, die den zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, wie hierin erläutert.
8 veranschaulicht schematisch in einem Flussdiagramm eine dritte Ausführungsform eines Informationsverarbeitungsverfahrens 80.
Das Informationsverarbeitungsverfahren 80 kann durch das hierin beschriebene Informationsverarbeitungssystem durchgeführt werden.
Bei 81, 71 bis 75 wird das Informationsverarbeitungsverfahren 70 von 7 durchgeführt, das durch Bezugnahme hierin eingeschlossen ist.
Bei 82 werden der Audioinhalt und der Videoinhalt an den einen Medienspieler, der einem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der einem zweiten Benutzer zugeordnet ist, gesendet, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird, wobei der erste Benutzer und der zweite Benutzer in einer Gruppe von Benutzern enthalten sind, die den gleichen ausgewählten Teilnehmer haben, der durch die Präferenzdaten angezeigt wird, wie hierin erläutert.
Bei 83 wird ein nicht hörbarer Testaudioinhalt an den Medienspieler und den zweiten Medienspieler gesendet, wie hierin erläutert.
Bei 84 werden Echodaten empfangen, die ein aufgezeichnetes Echo des nicht hörbaren Testaudioinhalts von sowohl dem Medienspieler als auch dem zweiten Medienspieler darstellen, wie hierin erläutert.
Bei 85 wird eine Datenlaufzeit sowohl für das Mediengerät als auch für das zweite Mediengerät bestimmt, wie hierin erläutert.
Bei 86 werden der Audioinhalt und der Videoinhalt basierend auf den Datenlaufzeiten an den Medienspieler und den zweiten Medienspieler gesendet, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird, wie hierin erläutert.
Bei 87 werden Audioinhalte des ersten Benutzers vom Medienspieler und Audioinhalte des zweiten Benutzers vom zweiten Medienspieler empfangen, wie hierin erläutert.
Wenn bei 88 die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen, wird der Audioinhalt des ersten Benutzers an den zweiten Medienspieler gesendet und wird der Audioinhalt des zweiten Benutzers an den Medienspieler gesendet, wie hierin erläutert.
9 veranschaulicht schematisch in einem Flussdiagramm eine vierte Ausführungsform eines Informationsverarbeitungsverfahrens 90.
Hier entsprechen 91 bis 95 71 bis 75 von 7, die hierin durch Bezugnahme eingeschlossen ist.
Bei 96 werden der Audioinhalt, der zweite Audioinhalt und der Videoinhalt zur synchronisierten Wiedergabe durch den Medienspieler synchronisiert, wobei der Datenstrom Audiodaten aufweist, die den zweiten Audioinhalt bereitstellen, die aufgezeichneten Ton von einem Ort des Sportereignisses aufweisen, wie hierin erläutert.
Bei 97 wird Benutzer-Audioinhalt von dem Medienspieler empfangen, wie hierin erläutert.
Wenn bei 98 eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, wird der Benutzer-Audioinhalt an einen Lautsprecher am Ort des Sportereignisses gesendet.
10 veranschaulicht schematisch in einem Blockdiagramm einen Allzweckcomputer 130, der zum Implementieren eines Informationsverarbeitungssystems verwendet werden kann.
Der Computer 130 kann so implementiert werden, dass er grundsätzlich als jede Art von Informationsverarbeitungssystem, wie es hierin beschrieben wird, funktionieren kann. Der Computer weist Komponenten 131 bis 141 auf, die eine Schaltung bilden können, wie etwa irgendeine der Schaltungen des hierin beschriebenen Informationsverarbeitungssystems.
Ausführungsformen, die Software, Firmware, Programme oder ähnliches zum Durchführen der hierin beschriebenen Verfahren verwenden, können auf dem Computer 130 installiert werden, der dann so ausgebildet ist, dass er für die konkrete Ausführungsform geeignet ist.
Der Computer 130 weist eine CPU 131 (Zentraleinheit) auf, die unterschiedliche Arten von Prozeduren und Verfahren, wie hierin beschrieben, ausführen kann, beispielsweise gemäß Programmen, die in einem Nur-Lese-Speicher (ROM) 132 gespeichert sind, in einem Speicher 137 gespeichert sind und in einen Direktzugriffsspeicher (RAM) 133 geladen werden, auf einem Medium 140 gespeichert sind, das in ein entsprechendes Laufwerk 139 eingeführt werden kann, usw.
Die CPU 131, das ROM 132 und das RAM 133 sind mit einem Bus 141 verbunden, der wiederum mit einer Eingabe/Ausgabe-Schnittstelle 134 verbunden ist. Die Anzahl der CPUs, Hauptspeicher und Massenspeicher ist nur beispielhaft, und der Fachmann wird erkennen, dass der Computer 130 entsprechend angepasst kann und dazu ausgebildet sein kann, bestimmte Anforderungen zu erfüllen, die sich ergeben, wenn er als Informationsverarbeitungssystem fungiert.
An der Eingabe/Ausgabe-Schnittstelle 134 sind mehrere Komponenten angeschlossen: eine Eingabe 135, eine Ausgabe 136, der Speicher 137, eine Kommunikationsschnittstelle 138 und das Laufwerk 139, in das ein Medium 140 (Compact Disc, Digital Video Disc, Compact Flash Memory, o.ä.) eingeführt wird.
Die Eingabe 135 kann ein Zeigergerät (Maus, Grafiktisch, oder ähnliches), eine Tastatur, ein Mikrofon, eine Kamera, ein Touchscreen usw. sein.
Die Ausgabe 136 kann eine Anzeige (Flüssigkristallanzeige, Kathodenstrahlröhrenanzeige, Leuchtdiodenanzeige, usw.), einen Lautsprecher usw. aufweisen.
Der Speicher 137 kann eine Festplatte, ein Festkörperlaufwerk und ähnliches aufweisen.
Die Kommunikationsschnittstelle 138 kann dafür angepasst sein, um beispielsweise über eine drahtgebundene Verbindung oder über ein lokales Netzwerk (LAN), ein drahtloses lokales Netzwerk (WLAN), ein mobiles Telekommunikationssystem (GSM, UMTS, LTE, NR (neues Funkprotokoll wie bei 5G, usw.), Bluetooth, Infrarot usw. zu kommunizieren.
Es sei darauf hingewiesen, dass sich die obige Beschreibung nur auf eine beispielhafte Konfiguration des Computers 130 bezieht. Alternative Konfigurationen können mit zusätzlichen oder anderen Sensoren, Speichergeräten, Schnittstellen oder ähnliches implementiert werden. Beispielsweise kann die Kommunikationsschnittstelle 138 andere Funkzugangstechnologien als die erwähnten UMTS, LTE und NR unterstützen.
Wenn der Computer 130 als Informationsverarbeitungssystem fungiert, kann die Kommunikationsschnittstelle 138 ferner eine entsprechende Luftschnittstelle (die z. B. die E-UTRA-Protokolle OFDMA (Abwärtsstrecke) und SC-FDMA (Aufwärtsstrecke) bereitstellt) und Netzwerkschnittstellen (die beispielsweise Protokolle, wie z B. S1-AP, GTP-U, S1-MME, X2-AP, oder ähnliches, implementieren) haben. Der Computer 130 ist auch dazu implementiert, die Daten gemäß TCP zu senden. Darüber hinaus kann der Computer 130 eine oder mehrere Antennen und/oder ein Antennenarray aufweisen. Die vorliegende Offenbarung ist nicht auf Besonderheiten solcher Protokolle beschränkt.
Es sollte erkannt werden, dass die Ausführungsformen Verfahren mit einer beispielhaften Reihenfolge von Verfahrensschritten beschreiben. Die spezifische Reihenfolge der Verfahrensschritte dient jedoch nur der Veranschaulichung und sollte nicht als bindend ausgelegt werden.
Hierin kann „Erhalten“ beispielsweise das Senden von einem ersten Element an ein zweites (empfangendes oder erhaltendes) Element aufweisen, optional basierend auf einer Auslösebedingung oder auf Daten oder ein Signal, oder es kann eine Anfrage von dem zweiten Element an das erste Element geben, bevor bestimmte Signale von dem ersten Element empfangen oder erhalten werden.
Alle in dieser Beschreibung beschriebenen und in den beigefügten Ansprüchen beanspruchten Einheiten und Entitäten können, sofern nicht anders angegeben, als integrierte Schaltungslogik implementiert werden, beispielsweise auf einem Chip, und eine durch solche Einheiten und Entitäten bereitgestellte Funktionalität kann, sofern nicht anders angegeben, durch Software implementiert werden.
Soweit die oben beschriebenen Ausführungsformen der Offenbarung zumindest teilweise unter Verwendung einer softwaregesteuerten Datenverarbeitungsvorrichtung implementiert sind, versteht es sich, dass ein Computerprogramm, das eine solche Softwaresteuerung bereitstellt, und ein Sende-, Speicher- oder anderes Medium, durch das eine solche ein Computerprogramm bereitgestellt wird, als Aspekte der vorliegenden Offenbarung vorgesehen sind.
Man beachte, dass die vorliegende Technologie auch wie nachstehend beschrieben ausgebildet sein kann.

(1) Ein Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, aufweisend:
- einen Empfänger, der dazu ausgebildet ist, einen Datenstrom zu empfangen, der die Videodaten aufweist;
- einen Präferenzdaten-Erlanger, der zum Erhalten von Präferenzdaten ausgebildet ist, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;
- einen Kategoriekennungs-Erlanger, der dazu ausgebildet ist, eine Kategoriekennung von einem maschinellen Lernalgorithmus zu erhalten, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;
- einen Audioinhaltsdatei-Erlanger, der dazu ausgebildet ist, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt zu erhalten, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und
- einen Synchronisierer, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler zu synchronisieren, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.
(2) Das Informationsverarbeitungssystem nach (1), wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und wobei der maschinelle Lernalgorithmus ferner darauf trainiert ist, die in dem Videoinhalt dargestellte Szene ferner basierend auf den Audiodaten zu klassifizieren.
(3) Das Informationsverarbeitungssystem nach (1) oder (2), ferner aufweisend einen Lautstärkeindikator-Erlanger, der dazu ausgebildet ist, basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, einen Lautstärkeindikator zu erhalten, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt von dem Medienspieler wiedergegeben werden soll.
(4) Das Informationsverarbeitungssystem nach einem der Punkte (1) bis (3), wobei der Audioinhalt Ton zur Unterstützung für den ausgewählten Teilnehmer aufweist.
(5) Das Informationsverarbeitungssystem nach einem von (1) bis (4), wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, wobei der Synchronisierer ferner dazu ausgebildet ist, den Audioinhalt, den zweiten Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe durch den Medienspieler zu synchronisieren.
(6) Das Informationsverarbeitungssystem nach einem von (2) bis (5), wobei der zweite Audioinhalt Ton von einem Kommentator des Sportereignisses aufweist.
(7) Das Informationsverarbeitungssystem nach einem von (1) bis (6), wobei ein erster Benutzer und ein zweiter Benutzer in einer Gruppe von Benutzern enthalten sind, die denselben ausgewählten Teilnehmer haben, der durch die Präferenzdaten angegeben wird, und das Informationsverarbeitungssystem ferner einen Sender umfasst, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt an den Medienspieler zu senden, der dem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der dem zweiten Benutzer zugeordnet ist, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
(8) Das Informationsverarbeitungssystem nach (7), wobei:
- der Sender ferner dazu ausgebildet ist, einen Testaudioinhalt an den Medienspieler und den zweiten Medienspieler zu senden;
- der Empfänger ferner dazu ausgebildet ist, Echodaten, die ein aufgezeichnetes Echo des Testaudioinhalts darstellen, von jedem von dem Medienplayer und dem zweiten Medienplayer zu empfangen;
- das Informationsverarbeitungssystem ferner einen Datenlaufzeitbestimmer umfasst, der dazu ausgebildet ist, eine Datenlaufzeit sowohl für das Mediengerät als auch für das zweite Mediengerät zu bestimmen; und
- der Sender ferner dazu ausgebildet ist, den Audioinhalt und den Videoinhalt an den Medienspieler und den zweiten Medienspieler zu senden basierend auf den Datenlaufzeiten, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
(9) Das Informationsverarbeitungssystem nach (8), wobei:
- der Empfänger ferner dazu ausgebildet ist, einen ersten Benutzer-Audioinhalt von dem Medienspieler und einen zweiten Benutzer-Audioinhalt von dem zweiten Medienspieler zu empfangen; und
- der Sender ferner dazu ausgebildet ist, den ersten Benutzer-Audioinhalt an den zweiten Medienspieler und den zweiten Benutzer-Audioinhalt an den Medienspieler zu senden, wenn die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen.
(10) Das Informationsverarbeitungssystem nach einem von (2) bis (9), wobei:
- der Empfänger ferner dazu ausgebildet ist, Benutzer-Audioinhalt von dem Medienplayer zu empfangen; und ferner umfassend:
- einen Sender, der dazu ausgebildet ist, wenn eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, den Benutzer-Audioinhalt an einen Lautsprecher am Ort des Sportereignisses zu senden.
(11) Ein Informationsverarbeitungsverfahren zum Erhalten einer Datei mit Audioinhalt für Videodaten, die Videoinhalt bereitstellen, der ein Sportereignis darstellt, wobei das Informationsverarbeitungsverfahren aufweist:
- Empfangen eines Datenstroms, der die Videodaten aufweist;
- Erhalten von Präferenzdaten, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt;
- Erhalten einer Kategoriekennung von einem maschinellen Lernalgorithmus, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis zugeordnet sind, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist;
- Erhalten, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten, der Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und
- Synchronisieren des Audioinhalts und des Videoinhalts für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.
(12) Das Informationsverarbeitungsverfahren nach (11), wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und wobei der maschinelle Lernalgorithmus ferner darauf trainiert wird, die in dem Videoinhalt dargestellte Szene ferner basierend auf den Audiodaten zu klassifizieren.
(13) Das Informationsverarbeitungsverfahren nach (11) oder (12), ferner umfassend:
- Erhalten, basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, eines Lautstärkeindikators, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt durch den Medienspieler wiedergegeben werden soll.
(14) Das Informationsverarbeitungsverfahren nach einem von (11) bis (13)„ wobei der Audioinhalt Ton zur Unterstützung für den ausgewählten Teilnehmer aufweist.
(15) Das Informationsverarbeitungsverfahren nach einem von (11) bis (14), wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und ferner aufweisend:
- Synchronisieren des Audioinhalts, des zweiten Audioinhalts und des Videoinhalts zur synchronisierten Wiedergabe durch den Medienspieler.
(16) Das Informationsverarbeitungsverfahren nach einem von (12) bis (15), wobei der zweite Audioinhalt Ton von einem Kommentator des Sportereignisses aufweist.
(17) Das Informationsverarbeitungsverfahren nach einem von (11) bis (16), wobei ein erster Benutzer und ein zweiter Benutzer in einer Gruppe von Benutzern enthalten sind, die denselben ausgewählten Teilnehmer haben, der durch die Präferenzdaten angegeben wird, und ferner aufweisend:
- Senden des Audioinhalts und des Videoinhalts an den Medienspieler, der dem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der dem zweiten Benutzer zugeordnet ist, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
(18) Das Informationsverarbeitungsverfahren von (17), ferner aufweisend:
- Senden eines Testaudioinhalts an den Medienspieler und den zweiten Medienspieler;
- Empfangen von Echodaten, die ein aufgezeichnetes Echo des Testaudioinhalts darstellen, von jedem von dem Medienplayer und dem zweiten Medienplayer;
- Bestimmen einer Datenlaufzeit für sowohl das Mediengerät als auch das zweite Mediengerät; und
- Senden des Audioinhalts und des Videoinhalts an den Medienspieler und den zweiten Medienspieler basierend auf den Datenlaufzeiten, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
(19) Das Informationsverarbeitungsverfahren von (18), ferner aufweisend:
- Empfangen von ersten Benutzer-Audioinhalte von dem Medienspieler und von zweiten Benutzer-Audioinhalte von dem zweiten Medienspieler; und
- Senden, wenn die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen, des ersten Benutzer-Audioinhalts an den zweiten Medienspieler und des zweiten Benutzer-Audioinhalts an den Medienspieler.
(20) Das Informationsverarbeitungsverfahren nach einem der Punkte (12) bis (19), ferner aufweisend:
- Empfangen von Benutzer-Audioinhalt von dem Medienspieler; und
- Senden, wenn eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, des Benutzer-Audioinhalts an einen Lautsprecher am Ort des Sportereignisses.
(21) Computerprogramm, das einen Programmcode umfasst, der einen Computer veranlasst, das Verfahren nach einem von (11) bis (20) auszuführen, wenn es auf einem Computer ausgeführt wird.
(22) Ein nichtflüchtiges computerlesbares Aufzeichnungsmedium, das ein Computerprogrammprodukt speichert, das, wenn es von einem Prozessor ausgeführt wird, bewirkt, dass das Verfahren nach einem von (11) bis (20) durchgeführt wird.
(23) Das Informationsverarbeitungssystem nach einem von (1) bis (10), wobei die Präferenzdaten von dem Medienspieler erhalten werden.
(24) Das Informationsverarbeitungsverfahren nach einem von (11) bis (20), wobei die Präferenzdaten von dem Medienspieler erhalten werden.

Claims

Informationsverarbeitungssystem zum Erhalten einer Datei mit Audioinhalt für Videodaten, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, umfassend: einen Empfänger, der dazu ausgebildet ist, einen Datenstrom zu empfangen, der die Videodaten aufweist; einen Präferenzdaten-Erlanger, der zum Erhalten von Präferenzdaten ausgebildet ist, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt; einen Kategoriekennungs-Erlanger, der dazu ausgebildet ist, eine Kategoriekennung von einem maschinellen Lernalgorithmus zu erhalten, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert ist, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von dem Sportereignis zugeordneten Kategorien zu klassifizieren, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist; einen Audioinhaltsdatei-Erlanger, der dazu ausgebildet ist, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten die Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt zu erhalten, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und einen Synchronisierer, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler zu synchronisieren, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.
Informationsverarbeitungssystem nach Anspruch 1, wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und wobei der maschinelle Lernalgorithmus ferner darauf trainiert ist, die in dem Videoinhalt dargestellte Szene ferner basierend auf den Audiodaten zu klassifizieren.
Informationsverarbeitungssystem nach Anspruch 1, ferner umfassend einen Lautstärkeindikator-Erlanger, der dazu ausgebildet ist, basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, einen Lautstärkeindikator zu erhalten, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt von dem Medienspieler wiedergegeben werden soll.
Informationsverarbeitungssystem nach Anspruch 1, wobei der Audioinhalt Ton zur Unterstützung für den ausgewählten Teilnehmer aufweist.
Informationsverarbeitungssystem nach Anspruch 1, wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, wobei der Synchronisierer ferner dazu ausgebildet ist, den Audioinhalt, den zweiten Audioinhalt und den Videoinhalt für eine synchronisierte Wiedergabe durch den Medienspieler zu synchronisieren.
Informationsverarbeitungssystem nach Anspruch 2 oder 5, wobei der zweite Audioinhalt Ton von einem Kommentator des Sportereignisses aufweist.
Informationsverarbeitungssystem nach Anspruch 1, wobei ein erster Benutzer und ein zweiter Benutzer in einer Gruppe von Benutzern enthalten sind, die denselben ausgewählten Teilnehmer haben, der durch die Präferenzdaten angegeben wird, und das Informationsverarbeitungssystem ferner einen Sender umfasst, der dazu ausgebildet ist, den Audioinhalt und den Videoinhalt an den Medienspieler zu senden, der dem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der dem zweiten Benutzer zugeordnet ist, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
Informationsverarbeitungssystem nach Anspruch 7, wobei: der Sender ferner dazu ausgebildet ist, einen Testaudioinhalt an den Medienspieler und den zweiten Medienspieler zu senden; der Empfänger ferner dazu ausgebildet ist, Echodaten, die ein aufgezeichnetes Echo des Testaudioinhalts darstellen, von jedem von dem Medienspieler und dem zweiten Medienspieler zu empfangen; das Informationsverarbeitungssystem ferner einen Datenlaufzeitbestimmer umfasst, der dazu ausgebildet ist, eine Datenlaufzeit sowohl für das Mediengerät als auch für das zweite Mediengerät zu bestimmen; und der Sender ferner dazu ausgebildet ist, den Audioinhalt und den Videoinhalt an den Medienspieler und den zweiten Medienspieler zu senden basierend auf den Datenlaufzeiten, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
Informationsverarbeitungssystem nach Anspruch 8, wobei: der Empfänger ferner dazu ausgebildet ist, einen ersten Benutzer-Audioinhalt von dem Medienspieler und einen zweiten Benutzer-Audioinhalt von dem zweiten Medienspieler zu empfangen; und der Sender ferner dazu ausgebildet ist, den ersten Benutzer-Audioinhalt an den zweiten Medienspieler und den zweiten Benutzer-Audioinhalt an den Medienspieler zu senden, wenn die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen.
Informationsverarbeitungssystem nach Anspruch 2 oder 5, wobei: der Empfänger ferner dazu ausgebildet ist, Benutzer-Audioinhalt von dem Medienspieler zu empfangen; und ferner umfassend: einen Sender, der dazu ausgebildet ist, wenn eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, den Benutzer-Audioinhalt an einen Lautsprecher am Ort des Sportereignisses zu senden.
Informationsverarbeitungsverfahren zum Erhalten einer Datei mit Audioinhalt für Videodaten, die einen Videoinhalt bereitstellen, der ein Sportereignis darstellt, wobei das Informationsverarbeitungsverfahren umfasst: Empfangen eines Datenstroms, der die Videodaten aufweist; Erhalten von Präferenzdaten, wobei die Präferenzdaten einen ausgewählten Teilnehmer angeben, der an dem Sportereignis teilnimmt; Erhalten einer Kategoriekennung von einem maschinellen Lernalgorithmus, in den die Videodaten eingegeben werden, wobei der maschinelle Lernalgorithmus darauf trainiert wird, eine in dem Videoinhalt dargestellte Szene in eine Kategorie eines vorbestimmten Satzes von Kategorien zu klassifizieren, die dem Sportereignis zugeordnet sind, wobei die Kategoriekennung die Kategorie angibt, in die die Szene klassifiziert ist; Erhalten, basierend auf der erhaltenen Kategoriekennung und den erhaltenen Präferenzdaten, der Datei mit Audioinhalt aus einem vorab gespeicherten Satz von Dateien mit Audioinhalt, wobei die Datei mit Audioinhalt Audioinhalt bereitstellt, der der Kategorie der Szene und den Präferenzdaten zugeordnet ist; und Synchronisieren des Audioinhalts und des Videoinhalts für eine synchronisierte Wiedergabe der Szene durch einen Medienspieler, der dazu ausgebildet ist, den Videoinhalt und die Datei mit Audioinhalt wiederzugeben.
Informationsverarbeitungsverfahren nach Anspruch 11, wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und wobei der maschinelle Lernalgorithmus ferner darauf trainiert wird, die in dem Videoinhalt dargestellte Szene ferner basierend auf den Audiodaten zu klassifizieren.
Informationsverarbeitungsverfahren nach Anspruch 11, ferner umfassend: Erhalten, basierend auf einer Wahrscheinlichkeit, mit der die Szene in die Kategorie klassifiziert wird, eines Lautstärkeindikators, wobei der Lautstärkeindikator eine Lautstärke angibt, mit der der Audioinhalt durch den Medienspieler wiedergegeben werden soll.
Informationsverarbeitungsverfahren nach Anspruch 11, wobei der Audioinhalt Ton zur Unterstützung für den ausgewählten Teilnehmer aufweist.
Informationsverarbeitungsverfahren nach Anspruch 11, wobei der Datenstrom Audiodaten aufweist, die einen zweiten Audioinhalt bereitstellen, der aufgezeichneten Ton von einem Ort des Sportereignisses aufweist, und ferner umfassend: Synchronisieren des Audioinhalts, des zweiten Audioinhalts und des Videoinhalts zur synchronisierten Wiedergabe durch den Medienspieler.
Informationsverarbeitungsverfahren nach Anspruch 12 oder 15, wobei der zweite Audioinhalt Ton von einem Kommentator des Sportereignisses aufweist.
Informationsverarbeitungsverfahren nach Anspruch 11, wobei ein erster Benutzer und ein zweiter Benutzer in einer Gruppe von Benutzern enthalten sind, die denselben ausgewählten Teilnehmer haben, der durch die Präferenzdaten angegeben wird, und ferner umfassend: Senden des Audioinhalts und des Videoinhalts an den Medienspieler, der dem ersten Benutzer zugeordnet ist, und an einen zweiten Medienspieler, der dem zweiten Benutzer zugeordnet ist, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
Informationsverarbeitungsverfahren nach Anspruch 17, ferner umfassend: Senden eines Testaudioinhalts an den Medienspieler und den zweiten Medienspieler; Empfangen von Echodaten, die ein aufgezeichnetes Echo des Testaudioinhalts darstellen, von jedem von dem Medienspieler und dem zweiten Medienspieler; Bestimmen einer Datenlaufzeit für sowohl das Mediengerät als auch das zweite Mediengerät; und Senden des Audioinhalts und des Videoinhalts an den Medienspieler und den zweiten Medienspieler basierend auf den Datenlaufzeiten, so dass die Szene im Wesentlichen synchronisiert durch den Medienspieler und den zweiten Medienspieler wiedergegeben wird.
Informationsverarbeitungsverfahren nach Anspruch 18, ferner umfassend: Empfangen von ersten Benutzer-Audioinhalte von dem Medienspieler und von zweiten Benutzer-Audioinhalte von dem zweiten Medienspieler; und Senden, wenn die Datenlaufzeiten unter einem vorbestimmten Schwellenwert liegen, des ersten Benutzer-Audioinhalts an den zweiten Medienspieler und des zweiten Benutzer-Audioinhalts an den Medienspieler.
Informationsverarbeitungsverfahren nach Anspruch 12 oder 15, ferner umfassend: Empfangen von Benutzer-Audioinhalt von dem Medienspieler; und Senden, wenn eine Zeitverzögerung zwischen dem zweiten Audioinhalt und dem Benutzer-Audioinhalt unter einem vorbestimmten Schwellenwert liegt, des Benutzer-Audioinhalts an einen Lautsprecher am Ort des Sportereignisses.