DE112021004759T5

DE112021004759T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm

Info

Publication number: DE112021004759T5
Application number: DE112021004759.0T
Authority: DE
Inventors: Takuto ONISHI; Masahiko Koizumi; Chihiro Sugai; Taiki Endo; Koyuru Okimoto
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-09-10
Filing date: 2021-08-27
Publication date: 2023-08-10
Also published as: CN116057927A; WO2022054603A1; JPWO2022054603A1; US20240031758A1

Abstract

Die vorliegende Technologie betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsendgerät, ein Informationsverarbeitungsverfahren und ein Programm, womit Ausgabe von Sprachinhalt entsprechend Aktionen durch Teilnehmer an einem Gespräch in einem Zustand realistischer Eindrücke ermöglicht wird. Die Informationsverarbeitungsvorrichtung gemäß einem Aspekt der vorliegenden Technologie umfasst eine Speicherungseinheit zum Speichern von HRTF-Daten, die mehreren Positionen auf der Basis einer Hörposition entsprechen; und eine Tonbild-Lokalisierungseinheit zum Ausführen eines Tonbildlokalisierungsprozesses, in dem HRTF-Daten verwendet werden, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter den Teilnehmern an dem Gespräch, die über ein Netzwerk teilnehmen, ausgewählt werden, um dadurch Sprachinhalt bereitzustellen, der gemäß der Aktion ausgewählt wird, so dass ein Tonbild an einer vorgeschriebenen Position lokalisiert wird. Die vorliegende Technologie kann auf Computer angewandt werden, die Fernkonferenzen abhalten.

Description

[Technisches Gebiet]
Die vorliegende Technik betrifft insbesondere eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsendgerät, ein Informationsverarbeitungsverfahren und ein Programm, die Ausgabe eines Toninhalts gemäß einer Aktion durch einen Teilnehmer an einem Gespräch in einem immersiven Zustand ermöglichen.
[Stand der Technik]
Sogenannte Fernkonferenzen, bei denen mehrere Teilnehmer an entfernten Orten unter Verwendung von Vorrichtungen wie PCs eine Konferenz halten, gewinnen an Beliebtheit. Durch Herauffahren eines Webbrowsers oder einer in einem PC installierten dedizierten Anwendung und Zugreifen auf ein Zugriffsziel, das durch einen jeder Konferenz zugeteilten URL designiert wird, kann ein über den URL informierter Benutzer als Teilnehmer an einer Konferenz teilnehmen.
Eine durch ein Mikrofon gesammelte Stimme eines Teilnehmers wird über einen Server zu einer von einem anderen Teilnehmer verwendeten Vorrichtung übertragen und von Kopfhörern oder einem Lautsprecher ausgegeben. Außerdem wird durch eine Kamera aufgenommenes Video, das einen Teilnehmer erfasst, über einen Server zu einer von dem anderen Teilnehmer benutzten Vorrichtung übertragen und auf einer Anzeige der Vorrichtung angezeigt.
Dementsprechend kann sich jeder Teilnehmer an einem Gespräch beteiligen, während er die Gesichter anderer Teilnehmer betrachtet.
[Zitatliste]
[Patentliteratur]
[PTL 1] JP H11-331992 A
[Kurzfassung]
[Technisches Problem]
Da die eigene Äußerung von allen anderen Teilnehmern geteilt wird, kann ein Teilnehmer nicht individuell einen spezifischen Teilnehmer designieren und sich nur am Gespräch mit dem designierten Teilnehmer beteiligen.
Umgekehrt ist der Teilnehmer nicht in der Lage, die Inhalte einer Äußerung durch einen spezifischen Teilnehmer anzuhören, indem er sich alleine auf die Äußerung konzentriert.
Während eine Szene, in der sich ein spezifischer Teilnehmer an Aktion beteiligt, visuell durch Bildschirmanzeige präsentiert werden kann, wenn eine virtuelle Aktionsfunktion wie etwa eine Handhebefunktion verwendet wird, ist es schwierig, festzustellen, welcher Teilnehmer sich an der Aktion beteiligt.
Die vorliegende Technik erfolgte angesichts einer solchen Situation und ermöglicht Ausgabe eines Toninhalts gemäß einer Aktion durch einen Teilnehmer an einem Gespräch in einem immersiven Zustand.
[Problemlösung]
Eine Informationsverarbeitungsvorrichtung gemäß einem Aspekt der vorliegenden Technik umfasst eine Speicherungseinheit, ausgelegt zum Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und eine Tonbildlokalisierungs-Verarbeitungseinheit, die dafür ausgelegt ist, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
Ein Informationsverarbeitungsendgerät gemäß einem anderen Aspekt der vorliegenden Technik umfasst eine Tonempfangseinheit, ausgelegt zum Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die dafür ausgelegt ist, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und einen Ton auszugeben.
In einem Aspekt der vorliegenden Technik werden HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition gespeichert, und durch Ausführen von Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer von Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, wird ein gemäß der Aktion ausgewählter Toninhalt so bereitgestellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
In einem anderen Aspekt der vorliegenden Technik werden HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition gespeichert, ein Toninhalt, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird, wird empfangen, wobei der Toninhalt von einer Informationsverarbeitungsvorrichtung übertragen wurde, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer von Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitstellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist und ein Ton ausgegeben wird.
Figurenliste

[1] 1 ist eine Darstellung eines Ausgestaltungsbeispiels eines Telekommunikationssystems gemäß einer Ausführungsform der vorliegenden Technik.
[2] 2 ist eine Darstellung eines Beispiels des Übertragens/Empfangens von Tondaten.
[3] 3 ist eine Draufsicht eines Beispiels für eine Position eines Benutzers in einem virtuellen Raum.
[4] 4 ist eine Darstellung eines Anzeigebeispiels für einen Fernkonferenzbildschirm.
[5] 5 ist eine Darstellung eines Beispiels dafür, wie eine Stimme gehört wird.
[6] 6 ist eine Darstellung eines anderen Beispiels dafür, wie eine Stimme gehört wird.
[7] 7 ist eine Darstellung einer Situation eines an einer Konferenz teilnehmenden Benutzers.
[8] 8 ist ein Flussdiagramm, das grundlegende Verarbeitung durch einen Kommunikationsverwaltungsserver erläutert.
[9] 9 ist ein Flussdiagramm, das grundlegende Verarbeitung durch ein Client-Endgerät erläutert.
[10] 10 ist eine Blockdarstellung eines Hardwareausgestaltungsbeispiels für den Kommunikationsverwaltungsserver.
[11] 11 ist eine Blockdarstellung eines Funktionsausgestaltungsbeispiels des Kommunikationsverwaltungsservers.
[12] 12 ist eine Darstellung eines Beispiels für Teilnehmerinformationen.
[13] 13 ist eine Blockdarstellung eines Hardwareausgestaltungsbeispiels für ein Client-Endgerät.
[14] 14 ist eine Blockdarstellung eines Funktionsausgestaltungsbeispiels für ein Client-Endgerät.
[15] 15 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
[16] 16 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
[17] 17 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe von Toneffekten unter Verwendung einer virtuellen Reaktionsfunktion.
[18] 18 ist ein Flussdiagramm, das Steuerverarbeitung des Kommunikationsverwaltungsservers erläutert.
[19] 19 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
[20] 20 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe einer Stimme unter Verwendung einer Flüsterfunktion.
[21] 21 ist ein Flussdiagramm, das Steuerverarbeitung des Kommunikationsverwaltungsservers erläutert.
[22] 22 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
[23] 23 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe einer Stimme unter Verwendung einer Fokussierungsfunktion.
[24] 24 ist ein Flussdiagramm, das Steuerverarbeitung des Kommunikationsverwaltungsservers erläutert.
[25] 25 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf dynamisches Wechseln von Tonbildlokalisierungsverarbeitung.
[26] 26 ist ein Flussdiagramm, das Steuerverarbeitung des Kommunikationsverwaltungsservers erläutert.
[27] 27 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Verwaltung von akustischen Einstellungen.

[Beschreibung von Ausführungsformen]
Im Folgenden wird eine Art des Ausführens der vorliegenden Technik beschrieben. Die Beschreibung erfolgt in der folgenden Reihenfolge.

1. Ausgestaltung des Telekommunikationssystems
2. Grundoperationen
3. Ausgestaltung jeder Vorrichtung
4. Benutzungsfall der Tonbildlokalisierung
5. Modifikationen

«Ausgestaltung des Telekommunikationssystems»
1 ist eine Darstellung eines Ausgestaltungsbeispiels eines Telekommunikationssystems gemäß einer Ausführungsform der vorliegenden Technik.
Ein in 1 gezeigtes Telekommunikationssystem wird durch Verbinden mehrerer Client-Endgeräte, die von Teilnehmern einer Konferenz über ein Netzwerk 11, wie etwa das Internet, verwendet werden, mit einem Kommunikationsverwaltungsserver 1 konfiguriert. Das Beispiel in 1 zeigt Client-Endgeräte 2A bis 2D, die PCs sind, als Client-Endgeräte, die von den Benutzern A bis D verwendet werden, die Teilnehmer einer Konferenz sind.
Es können andere Vorrichtungen als Client-Endgeräte verwendet werden, wie etwa ein Smartphone oder ein Tablet-Endgerät mit einer Toneingabevorrichtung wie etwa einem Mikrofon (MIK) und einer Tonausgabevorrichtung wie etwa Kopfhörern oder einem Lautsprecher. Wenn die Client-Endgeräte 2A bis 2D nicht voneinander unterschieden werden müssen, werden die Client-Endgeräte gegebenenfalls als ein Client-Endgerät 2 bezeichnet.
Die Benutzer A bis D sind Benutzer zur Teilnahme an einer selben Konferenz. Man beachte, dass die Anzahl der Benutzer zur Teilnahme an der Konferenz nicht auf vier beschränkt ist.
Der Kommunikationsverwaltungsserver 1 verwaltet eine Konferenz, die von mehreren Benutzern abgehalten wird, indem sie sich online an einem Gespräch beteiligen. Der Kommunikationsverwaltungsserver 1 ist eine Informationsverarbeitungsvorrichtung, die das Senden und Empfangen von Ton unter den Client-Endgeräten 2 zur Verwaltung einer sogenannten Fernkonferenz steuert.
Zum Beispiel empfängt, wie durch einen Pfeil A1 in einem oberen Teil von 2 abgebildet, der Kommunikationsverwaltungsserver 1 Tondaten des Benutzers A, die von dem Client-Endgerät 2A gemäß einer Äußerung des Benutzers A übertragen werden. Tondaten des Benutzers A, die durch ein in dem Client-Endgerät 2A bereitgestelltes MIK gesammelt werden, werden von dem Client-Endgerät 2A übertragen.
Der Kommunikationsverwaltungsserver 1 überträgt die Tondaten des Benutzers A zu jedem der Client-Endgeräte 2B bis 2D, wie durch Pfeile A11 bis A13 in einem unteren Teil von 2 abgebildet, und bewirkt, dass die Client-Endgeräte 2B bis 2D eine Stimme des Benutzers A ausgeben. Wenn sich Benutzer A als ein Sprecher äußert, werden die Benutzer B bis D zu Zuhörern. Im Folgenden wird ein Benutzer, der ein Sprecher werden soll, als ein sich äußernder Benutzer bezeichnet, und ein Benutzer, der ein Zuhörer werden soll, wird als ein zuhörender Benutzer bezeichnet.
Wenn sich ein anderer Benutzer äußert, werden ähnlich von dem Client-Endgerät 2, das von dem sich äußernden Benutzer verwendet wird, übertragene Tondaten über den Kommunikationsverwaltungsserver 1 zu dem Client-Endgerät 2 übertragen, das von einem zuhörenden Benutzer verwendet wird.
Der Kommunikationsverwaltungsserver 1 verwaltet eine Position jedes Benutzers in einem virtuellen Raum. Der virtuelle Raum ist zum Beispiel ein dreidimensionaler Raum, der virtuell als ein Ort zum Abhalten einer Konferenz eingerichtet wird. Eine Position in dem virtuellen Raum wird durch dreidimensionale Koordinaten repräsentiert.
3 ist eine Draufsicht eines Beispiels für eine Position eines Benutzers in dem virtuellen Raum.
In dem in 3 gezeigten Beispiel ist ein in Längsrichtung langgestreckter rechteckiger Tisch T ungefähr in der Mitte des virtuellen Raums angeordnet wie durch einen rechteckigen Rahmen F angegeben, und die Positionen P1 bis P4, die Positionen um den Tisch T herum sind, werden jeweils als Positionen der Benutzer A bis D eingerichtet. Eine Frontrichtung jedes Benutzers ist eine Richtung des Tisches T von der Position jedes Benutzers.
Während einer Konferenz zeigt wie in 4 gezeigt ein Bildschirm des von jedem Benutzer verwendeten Client-Endgeräts 2 ein Teilnehmersymbol, bei dem es sich um Informationen handelt, die visuell den Benutzer repräsentieren, auf einem Hintergrundbild überlagert an, das einen Ort repräsentiert, an dem die Konferenz abgehalten wird. Eine Position eines Teilnehmersymbols auf dem Bildschirm ist eine Position gemäß einer Position jedes Benutzers im virtuellen Raum.
In dem in 4 gezeigten Beispiel ist ein Teilnehmersymbol als ein kreisförmiges Bild ausgestaltet, das ein Gesicht eines Benutzers umfasst. Ein Teilnehmersymbol wird in einer Größe gemäß einer Distanz von einer Referenzposition angezeigt, die im virtuellen Raum zur Position jedes Benutzers eingerichtet ist. Die Teilnehmersymbole I1 bis I4 repräsentieren jeweils die Benutzer A bis D.
Zum Beispiel wird die Position jedes Benutzers automatisch durch den Kommunikationsverwaltungsserver 1 gesetzt, wenn der Benutzer an einer Konferenz teilnimmt. Die Position eines Benutzers im virtuellen Raum kann durch den Benutzer selbst gesetzt werden, indem er ein Teilnehmersymbol auf dem in 4 gezeigten Bildschirm bewegt.
Der Kommunikationsverwaltungsserver 1 hat HRTF-Daten, die Daten einer HRTF (kopfbezogenen Übertragungsfunktion) sind, die Transfereigenschaften von Ton von mehreren Positionen zu einer Hörposition, wenn jede Position im virtuellen Raum als die Hörposition verwendet wird, repräsentiert. HRTF-Daten entsprechend mehrerer Positionen auf der Basis jeder Hörposition im virtuellen Raum werden in dem Kommunikationsverwaltungsserver 1 erstellt.
Der Kommunikationsverwaltungsserver 1 führt Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten mit Bezug auf Tondaten aus, so dass jeder zuhörende Benutzer eine Stimme des sich äußernden Benutzers von der Position des sich äußernden Benutzers im virtuellen Raum aus hört, und überträgt durch Ausführen der Tonbildlokalisierungsverarbeitung erhaltene Tondaten.
Die zu dem Client-Endgerät 2 wie oben beschrieben übertragenen Tondaten sind Tondaten, die durch Ausführen von Tonbildlokalisierungsverarbeitung in dem Kommunikationsverwaltungsserver 1 erhalten werden. Die Tonbildlokalisierungsverarbeitung umfasst Wiedergabe wie VBAP (Amplitudenpanorama auf Vektorbasis) auf der Basis von Positionsinformationen und binaurale Verarbeitung unter Verwendung von HRTF-Daten.
Anders ausgedrückt, wird eine Stimme jedes sich äußernden Benutzers durch den Kommunikationsverwaltungsserver 1 als Tondaten von Objektaudio verarbeitet. Audiodaten auf Kanalbasis zum Beispiel zweier Kanäle, darunter L/R-Kanäle, die durch Tonbildlokalisierungsverarbeitung in dem Kommunikationsverwaltungsserver 1 erzeugt werden, werden von dem Tonbildlokalisierungsverarbeitung 1 zu jedem Client-Endgerät 2 übertragen, und eine Stimme des sich äußernden Benutzers wird von Kopfhörern oder dergleichen, die im Client-Endgerät 2 vorgesehen sind, ausgegeben.
Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten gemäß einer relativen Positionsbeziehung zwischen einer Position eines zuhörenden Benutzers selbst und einer Position eines sich äußernden Benutzers ermöglicht es jedem zuhörenden Benutzer, wahrzunehmen, dass die Stimme des sich äußernden Benutzers von der Position des sich äußernden Benutzers aus zu hören ist.
5 ist eine Darstellung eines Beispiels dafür, wie eine Stimme gehört wird.
Wenn man sich auf den Benutzer A konzentriert, für den die Position P1 als eine Position davon im virtuellen Raum als zuhörender Benutzer gesetzt ist, ist eine Stimme des Benutzers B von unmittelbar rechts zu hören, wie durch einen Pfeil in 5 abgebildet, indem Tonbildlokalisierungsverarbeitung auf der Basis von HRTF-Daten zwischen den Positionen P2 und P1 mit der Position P2 als eine Tonquellenposition ausgeführt wird. Die Front des Benutzers A, der sich an einem Gespräch mit seinem Gesicht dem Client-Endgerät 2A zugewandt beteiligt, ist eine Richtung des Client-Endgeräts 2A.
Zusätzlich ist eine Stimme des Benutzers C von der Front aus zu hören, indem Tonbildlokalisierungsverarbeitung auf der Basis von HRTF-Daten zwischen den Positionen P3 und P1 mit der Position P3 als Tonquellenposition ausgeführt wird. Eine Stimme des Benutzers D ist von hinten rechts aus zu hören, indem Tonbildlokalisierungsverarbeitung auf der Basis von HRTF-Daten zwischen den Positionen P4 und P1 mit der Position P4 als Tonquellenposition ausgeführt wird.
Eine ähnliche Beschreibung gilt, wenn ein anderer Benutzer der zuhörende Benutzer ist. Zum Beispiel ist wie in 6 gezeigt eine Stimme des Benutzers A dem Benutzer B, der an einem Gespräch mit seinem Gesicht dem Client-Endgerät 2B zugewandt beteiligt ist, von unmittelbar links aus zu hören, aber die Stimme des Benutzers A ist dem Benutzer C, der in einem Gespräch mit seinem Gesicht dem Client-Endgerät 2C zugewandt beteiligt ist, von vorne zu hören. Außerdem wird die Stimme des Benutzers A dem Benutzer D, der in einem Gespräch mit seinem Gesicht dem Client-Endgerät 2D zugewandt beteiligt ist, von hinten rechts zu hören.
Auf diese Weise werden in dem Kommunikationsverwaltungsserver 1 Tondaten für jeden zuhörenden Benutzer gemäß einer Positionsbeziehung zwischen einer Position des zuhörenden Benutzers und der Position des sich äußernden Benutzers erzeugt und zur Ausgabe einer Stimme des sich äußernden Benutzers verwendet. Die zu jedem zuhörenden Benutzer übertragenen Tondaten sind Tondaten, die gemäß einer Positionsbeziehung zwischen der Position jedes zuhörenden Benutzers und der Position eines sich äußernden Benutzers unterschiedlich klingen.
7 ist eine Darstellung einer Situation eines an einer Konferenz teilnehmenden Benutzers.
Zum Beispiel soll sich der Benutzer A, der Kopfhörer tragend an der Konferenz teilnimmt, am Gespräch beteiligen, während er Stimmen der Benutzer B bis D anhört, die Tonbilder aufweisen, die an jeweiligen Positionen von unmittelbar rechts, vorne und hinten rechts lokalisiert sind. Wie mit Bezug auf 5 und dergleichen beschrieben, sind auf der Basis der Position des Benutzers A die Positionen der Benutzer B bis D jeweils Positionen unmittelbar rechts, vorne und hinten rechts. Man beachte, dass die Benutzer B bis D, die in 7 gefärbt gezeigt sind, repräsentieren, dass die Benutzer B bis D tatsächlich nicht in einem selben Raum wie dem Raum, in dem der Benutzer A die Konferenz abhält, anwesend sind.
Wie später beschrieben wird, wird außerdem Hintergrundton wie etwa Zwitschern eines Vogels oder BGM auf der Basis von Tondaten ausgegeben, die durch Tonbildlokalisierungsverarbeitung erhalten werden, so dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
Durch den Kommunikationsverwaltungsserver 1 als ein Verarbeitungsobjekt verwendeter Ton umfasst Töne wie etwa Umgebungston und Hintergrundton zusätzlich zu geäußerten Stimmen. Wenn im Folgenden Arten von Ton nicht voneinander unterschieden werden müssen, wird durch den Kommunikationsverwaltungsserver 1 als ein Verarbeitungsobjekt verwendeter Ton gegebenenfalls einfach als ein Ton beschrieben. In der Realität umfasst ein durch den Kommunikationsverwaltungsserver 1 als Verarbeitungsobjekt verwendeter Ton andere Tontypen als eine Stimme.
Da die Stimme eines sich äußernden Benutzers von einer Position gemäß einer Position in einem virtuellen Raum aus zu hören ist, selbst wenn es mehrere Teilnehmer gibt, kann ein zuhörender Benutzer ohne weiteres Stimmen der jeweiligen Benutzer unterscheiden. Wenn sich zum Beispiel mehrere Benutzer gleichzeitig äußern, kann ein zuhörender Benutzer Stimmen der jeweiligen Benutzer unterscheiden.
Da die Stimme eines sich äußernden Benutzers dreidimensional wahrgenommen wird, kann zusätzlich ein zuhörender Benutzer aus der Stimme einen Eindruck erhalten, dass der sich äußernde Benutzer tatsächlich an einer Position eines Tonbildes anwesend ist. Der zuhörende Benutzer kann sich in einem immersiven Zustand mit anderen Benutzern an einem Gespräch beteiligen.
«Grundoperationen»
Es wird nun ein Ablauf von Grundoperationen des Kommunikationsverwaltungsservers 1 und des Client-Endgeräts 2 beschrieben.
<Betrieb des Kommunikationsverwaltungsservers 1>
Grundverarbeitung des Kommunikationsverwaltungsservers 1 wird mit Bezug auf ein in 8 gezeigtes Flussdiagramm beschrieben.
In Schritt S1 bestimmt der Kommunikationsverwaltungsserver 1, ob Tondaten von dem Client-Endgerät 2 übertragen wurden oder nicht und wartet, bis bestimmt wird, dass Tondaten übertragen wurden.
Wenn der Kommunikationsverwaltungsserver 1 in Schritt S1 bestimmt, dass Tondaten von dem Client-Endgerät 2 übertragen wurden, empfängt der Kommunikationsverwaltungsserver 1 im Schritt S2 von dem Client-Endgerät 2 übertragene Tondaten.
In Schritt S3 führt der Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung auf der Basis von Positionsinformationen jedes Benutzers aus und erzeugt Tondaten für jeden zuhörenden Benutzer.
Zum Beispiel werden die Tondaten für Benutzer A so erzeugt, dass auf der Basis der Position des Benutzers A ein Tonbild der Stimme des sich äußernden Benutzers an einer Position gemäß der Position des sich äußernden Benutzers lokalisiert ist.
Außerdem werden die Tondaten für Benutzer B so erzeugt, dass auf der Basis der Position des Benutzers B ein Tonbild der Stimme des sich äußernden Benutzers an einer Position gemäß der Position des sich äußernden Benutzers lokalisiert ist.
Tondaten für andere zuhörende Benutzer werden ähnlich auf der Basis von Positionen der zuhörenden Benutzer unter Verwendung von HRTF-Daten gemäß einer relativen Positionsbeziehung mit der Position des sich äußernden Benutzers erzeugt. Die Elemente von Tondaten für die jeweiligen zuhörenden Benutzer sind Elemente von Daten, die sich voneinander unterscheiden.
In Schritt S4 überträgt der Kommunikationsverwaltungsserver 1 Tondaten zu jedem zuhörenden Benutzer. Die oben beschriebenen Verarbeitungsschritte werden jedes Mal ausgeführt, wenn Tondaten von dem durch den sich äußernden Benutzer verwendeten Client-Endgerät 2 übertragen werden.
<Funktionsweise des Client-Endgeräts 2>
Grundverarbeitung des Client-Endgeräts 2 wird mit Bezug auf ein in 9 gezeigtes Flussdiagramm beschrieben.
In Schritt S11 bestimmt das Client-Endgerät 2, ob ein MIK-Ton eingegeben wurde oder nicht. Ein MIK-Ton bezieht sich auf einen Ton, der durch ein MIK gesammelt wird, das in dem Client-Endgerät 2 vorgesehen ist.
Wenn das Client-Endgerät 2 in Schritt S11 bestimmt, dass ein MIK-Ton eingegeben wurde, überträgt in Schritt S12 das Client-Endgerät 2 die Tondaten zu dem Kommunikationsverwaltungsserver 1. Wenn in Schritt S11 bestimmt wird, dass kein MIK-Ton eingegeben wurde, wird die Verarbeitung von Schritt S12 übersprungen.
In Schritt S13 bestimmt das Client-Endgerät 2, ob Tondaten von dem Kommunikationsverwaltungsserver 1 übertragen wurden oder nicht.
Wenn in Schritt S13 bestimmt wird, dass Tondaten übertragen wurden, empfängt in Schritt S14 der Kommunikationsverwaltungsserver 1 die Tondaten und gibt eine Stimme des sich äußernden Benutzers aus.
Nachdem die Stimme des sich äußernden Benutzers ausgegeben ist oder wenn in Schritt S13 bestimmt wird, dass die Tondaten nicht übertragen wurden, wird zu Schritt S11 zurückgekehrt und die oben beschriebenen Verarbeitungsschritte werden wiederholt.
«Ausgestaltung jeder Vorrichtung»
<Ausgestaltung des Kommunikationsverwaltungsservers 1>
10 ist eine Blockdarstellung eines Hardwareausgestaltungsbeispiels für den Kommunikationsverwaltungsserver 1.
Der Kommunikationsverwaltungsserver 1 wird aus einem Computer gebildet. Der Kommunikationsverwaltungsserver 1 kann aus einem einzelnen Computer wie in 10 ausgestaltet oder durch mehrere Computer gebildet werden.
Eine CPU 101, ein ROM 102 und ein RAM 103 sind durch einen Bus 104 miteinander verbunden. Die CPU 101 steuert einen Betrieb des gesamten Kommunikationsverwaltungsservers 1 durch Ausführen eines Serverprogramms 101A. Das Serverprogramm 101A ist ein Programm zum Realisieren eines Telekommunikationssystems.
Ferner ist eine Eingabe-/Ausgabeschnittstelle 105 mit dem Bus 104 verbunden. Eine aus einer Tastatur, einer Maus oder dergleichen gebildete Eingabeeinheit 106 und eine aus einer Anzeige, einem Lautsprecher oder dergleichen gebildete Ausgabeeinheit 107 sind mit der Eingabe-/Ausgabeschnittstelle 105 verbunden.
Außerdem sind eine aus einer Festplatte, einem nichtflüchtigen Speicher oder dergleichen gebildete Speicherungseinheit 108, eine aus einer Netzwerkschnittstelle oder dergleichen gebildete Kommunikationseinheit 109 und ein Laufwerk 110, das ein wechselbares Medium 111 laufenlässt, mit der Eingabe-/Ausgabeschnittstelle 105 verbunden. Zum Beispiel kommuniziert die Kommunikationseinheit 109 über das Netzwerk 11 mit dem durch jeden Benutzer verwendeten Client-Endgerät 2.
11 ist eine Blockdarstellung eines Funktionsausgestaltungsbeispiels des Kommunikationsverwaltungsservers 1. Mindestens einige der in 11 gezeigten Funktionseinheiten werden durch die in 10 gezeigte CPU 101 realisiert, indem das Serverprogramm 101 ausgeführt wird.
In dem Kommunikationsverwaltungsserver 1 wird eine Informationsverarbeitungseinheit 121 realisiert. Die Informationsverarbeitungseinheit 121 wird aus einer Tonempfangseinheit 131, einer Signalverarbeitungseinheit 132, einer Teilnehmerinformations-Verwaltungseinheit 133, einer Tonbildlokalisierungs-Verarbeitungseinheit 134, einer HRTF-Datenspeicherungseinheit 135, einer Systemtonverwaltungseinheit 136, einer Zweikanalmix-Verarbeitungseinheit 137 und einer Tonübertragungseinheit 138 gebildet.
Die Tonempfangseinheit 131 steuert die Kommunikationseinheit 109 und empfängt Tondaten, die von dem durch den sich äußernden Benutzer verwendeten Client-Endgerät 2 übertragen werden. Von der Tonempfangseinheit 131 empfangenen Tondaten werden an die Signalverarbeitungseinheit 132 ausgegeben.
Die Signalverarbeitungseinheit 132 wendet geeignet vorbestimmte Signalverarbeitung an den von der Tonempfangseinheit 131 gelieferten Tondaten an und gibt durch Anwendung der Signalverarbeitung erhaltene Tondaten an die Tonbildlokalisierungs-Verarbeitungseinheit 134 aus. Zum Beispiel wird Verarbeitung des Trennens der Stimme des sich äußernden Benutzers von Umgebungston durch die Signalverarbeitungseinheit 132 ausgeführt. Außer der Stimme des sich äußernden Benutzers umfasst der MIK-Ton Umgebungston wie etwa Geräusche in einem Raum, in der sich äußernde Benutzer anwesend ist.
Die Teilnehmerinformations-Verwaltungseinheit 133 steuert die Kommunikationseinheit 109 und verwaltet Teilnehmerinformationen, die Informationen in Bezug auf Teilnehmer einer Konferenz sind, durch Kommunizieren mit Client-Endgeräten 2 und dergleichen.
12 ist eine Darstellung eines Beispiels für Teilnehmerinformationen.
Wie in 12 gezeigt, umfassen Teilnehmerinformationen Benutzerinformationen, Positionsinformationen, Einstellungsinformationen und Lautstärkeinformationen.
Benutzerinformationen beziehen sich auf Informationen über einen Benutzer zur Teilnahme an einer Konferenz, die durch einen gegebenen Benutzer eingerichtet wird. Zum Beispiel umfassen Benutzerinformationen eine ID des Benutzers. Zum Beispiel werden andere in den Teilnehmerinformationen enthaltene Informationen in Assoziation mit Benutzerinformationen verwaltet.
Positionsinformationen beziehen sich auf Informationen, die eine Position jedes Benutzers im virtuellen Raum repräsentieren.
Einstellungsinformationen beziehen sich auf Informationen, die Inhalte von Einstellungen einer Konferenz, wie etwa eine Einstellung von Hintergrundton zur Verwendung während der Konferenz, repräsentieren.
Lautstärkeinformationen beziehen sich auf Informationen, die eine Lautstärke beim Ausgeben der Stimme jedes Benutzers repräsentieren.
Durch die Teilnehmerinformations-Verwaltungseinheit 133 verwaltete Teilnehmerinformationen werden an die Tonbildlokalisierungs-Verarbeitungseinheit 134 geliefert. Die durch die Teilnehmerinformations-Verwaltungseinheit 133 verwalteten Teilnehmerinformationen werden auch gegebenenfalls an die Systemtonverwaltungseinheit 136, die Zweikanalmix-Verarbeitungseinheit 137, die Tonübertragungseinheit 138 und dergleichen geliefert. Auf diese Weise fungiert die Teilnehmerinformations-Verwaltungseinheit 133 als Positionsverwaltungseinheit, die eine Position jedes Benutzers im virtuellen Raum verwaltet, und fungiert auch als eine Hintergrundton-Verwaltungseinheit, die eine Einstellung von Hintergrundton verwaltet.
Auf der Basis von Positionsinformationen, die von der Teilnehmerinformations-Verwaltungseinheit 133 geliefert werden, liest und beschafft die Tonbildlokalisierungs-Verarbeitungseinheit 134 HRTF-Daten gemäß einer Positionsbeziehung jedes Benutzers aus der HRFT-Datenspeicherungseinheit 135. Die Tonbildlokalisierungs-Verarbeitungseinheit 134 führt Tonbildlokalisierungsverarbeitung unter Verwendung der aus der HRTF-Datenspeicherungseinheit 135 gelesenen HRTF-Daten mit Bezug auf die von der Signalverarbeitungseinheit 132 gelieferten Tondaten aus und erzeugt Tondaten für jeden zuhörenden Benutzer.
Außerdem führt die Tonbildlokalisierungs-Verarbeitungseinheit 134 Tonbildlokalisierungsverarbeitung unter Verwendung vorbestimmter HRTF-Daten an Daten eines Systemtons aus, der von der Systemton-Verwaltungseinheit 136 geliefert wird. Der Systemton ist ein Ton, der seitens des Kommunikationsverwaltungsservers 1 erzeugt wird, um von einem zuhörenden Benutzer zusammen mit der Stimme des sich äußernden Benutzers gehört zu werden. Der Systemton umfasst zum Beispiel einen Hintergrundton, wie etwa BGM oder Toneffekte. Der Systemton ist ein Ton, der sich von den Stimmen von Benutzern unterscheidet.
Anders ausgedrückt, werden in dem Kommunikationsverwaltungsserver 1 andere Töne als die Stimme des sich äußernden Benutzers, wie etwa Hintergrundton und Toneffekte, Verarbeitung als Objektaudio unterzogen. Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer vorgeschriebenen Position im virtuellen Raum wird auch an Tondaten des Systemtons ausgeführt. Zum Beispiel wird Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer Position, die ferner als die Positionen von Teilnehmern ist, an Tondaten von Hintergrundton ausgeführt.
Die Tonbildlokalisierungs-Verarbeitungseinheit 134 gibt durch Ausführen von Tonbildlokalisierungsverarbeitung erhaltene Tondaten an die Zweikanalmix-Verarbeitungseinheit 137 aus. Tondaten des sich äußernden Benutzers und gegebenenfalls Tondaten des Systemtons werden an die Zweikanalmix-Verarbeitungseinheit 137 ausgegeben.
Die HRTF-Datenspeicherungseinheit 135 speichert Elemente von HRTF-Daten entsprechend mehreren Positionen auf der Basis jeweiliger Hörpositionen im virtuellen Raum.
Die Systemton-Verwaltungseinheit 136 verwaltet den Systemton. Die Systemton-Verwaltungseinheit 136 gibt Tondaten des Systemtons an die Tonbildlokalisierungs-Verarbeitungseinheit 134 aus.
Die Zweikanalmix-Verarbeitungseinheit 137 führt Zweikanalmixverarbeitung mit Bezug auf von der Tonbildlokalisierungs-Verarbeitungseinheit 134 gelieferte Tondaten aus. Durch Ausführen der Zweikanalmixverarbeitung werden Audiodaten auf Kanalbasis, die Komponenten eines Audiosignals L und eines Audiosignals R jeweils der Stimme des sich äußernden Benutzers und des Systemtons erzeugt. Die durch Ausführen der Zweikanalmixverarbeitung erhaltenen Tondaten werden an die Tonübertragungseinheit 138 ausgegeben.
Die Tonübertragungseinheit 138 steuert die Kommunikationseinheit 109 und sendet die von der Zweikanalmix-Verarbeitungseinheit 137 gelieferten Tondaten zu dem Client-Endgerät 2, das von jedem zuhörenden Benutzer verwendet wird.
<Ausgestaltung des Client-Endgeräts 2>
13 ist eine Blockdarstellung eines Hardwareausgestaltungsbeispiels für ein Client-Endgerät 2.
Das Client-Endgerät 2 wird durch Verbinden eines Speichers 202, einer Toneingabevorrichtung 203, einer Tonausgabevorrichtung 204, einer Bedienungseinheit 205, einer Kommunikationseinheit 206, einer Anzeige 207 und einer Sensoreinheit 208 mit Bezug auf eine Steuereinheit 201 konfiguriert.
Die Steuereinheit 201 wird aus einer CPU, einem ROM, einem RAM und dergleichen gebildet. Die Steuereinheit 201 steuert einen Betrieb des gesamten Client-Endgeräts 2 durch Ausführen eines Client-Programms 201A. Das Client-Programm 201A ist ein Programm zur Verwendung des durch den Kommunikationsverwaltungsserver 1 verwalteten Telekommunikationssystems. Das Client-Programm 201A umfasst ein sendeseitiges Modul 201A-1, das Verarbeitung an einer sendenden Seite ausführt, und ein empfangsseitiges Modul 201A-2, das Verarbeitung auf einer Empfangsseite ausführt.
Der Speicher 202 wird aus einem Flash-Speicher oder dergleichen gebildet. Der Speicher 202 speichert verschiedene Arten von Informationen, wie etwa das Client-Programm 201A, das durch die Steuereinheit 201 auszuführen ist.
Die Toneingabevorrichtung 203 wird aus einem Mikrofon gebildet. Durch die Toneingabevorrichtung 203 gesammelter Ton wird als ein MIK-Ton an die Steuereinheit 201 ausgegeben.
Die Tonausgabevorrichtung 204 wird aus einer Vorrichtung, wie etwa Kopfhörern oder einem Lautsprecher, gebildet. Die Tonausgabevorrichtung 204 gibt Stimmen der Teilnehmer einer Konferenz und dergleichen auf der Basis eines von der Steuereinheit 201 gelieferten Audiosignals aus.
Im Folgenden wird gegebenenfalls eine Beschreibung unter der Annahme gegeben, dass die Toneingabevorrichtung 203 ein MIK ist. Zusätzlich wird eine Beschreibung unter der Annahme gegeben, dass es sich bei der Tonausgabevorrichtung 204 um Kopfhörer handelt.
Die Bedienungseinheit 205 wird aus verschiedenen Tasten oder einem auf der Anzeige 207 überlagerten Touchpanel gebildet. Die Bedienungseinheit 205 gibt Informationen aus, die Inhalte einer Bedienung durch einen Benutzer an die Steuereinheit 201 repräsentieren.
Die Kommunikationseinheit 206 ist ein Kommunikationsmodul, das drahtlose Kommunikation durch ein Mobilkommunikationssystem wie 5G-Kommunikation ermöglicht oder ein Kommunikationsmodul, das drahtloses LAN oder dergleichen ermöglicht. Die Kommunikationseinheit 206 empfängt Funkwellen, die von einer Basisstation ausgegeben werden, und kommuniziert über das Netzwerk 11 mit verschiedenen Vorrichtungen, wie etwa dem Kommunikationsverwaltungsserver 1. Die Kommunikationseinheit 206 empfängt von dem Kommunikationsverwaltungsserver 1 übertragene Informationen und gibt die Informationen an die Steuereinheit 201 aus. Zusätzlich überträgt die Kommunikationseinheit 206 von der Steuereinheit 201 gelieferte Informationen zu dem Kommunikationsverwaltungsserver 1.
Die Anzeige 207 wird aus einer organischen EL-Anzeige, einer LCD oder dergleichen gebildet. Verschiedene Bildschirme, darunter ein Fernkonferenzbildschirm, sind auf der Anzeige 207 anzuzeigen.
Die Sensoreinheit 208 wird aus verschiedenen Sensoren gebildet, wie etwa einer RGB-Kamera, einer Tiefenkamera, einem Kreiselsensor und einem Beschleunigungssensor. Die Sensoreinheit 208 gibt durch Ausführen einer Messung erhaltene Sensordaten an die Steuereinheit 201 aus. Erkennung eines Zustands von Benutzern und dergleichen werden geeigneterweise auf der Basis der durch die Sensoreinheit 208 gemessenen Sensordaten ausgeführt.
14 ist eine Blockdarstellung eines Funktionsausgestaltungsbeispiels für ein Client-Endgerät 2. Mindestens ein Teil der in 14 gezeigten Funktionseinheiten wird durch die in 13 gezeigte Steuereinheit 201 durch Ausführen des Client-Programms 201A realisiert.
In dem Client-Endgerät 2 wird eine Informationsverarbeitungseinheit 211 realisiert. Die Informationsverarbeitungseinheit 211 wird aus einer Tonverarbeitungseinheit 221, einer Einstellungsinformations-Übertragungseinheit 222, einer Benutzerzustands-Erkennungseinheit 223 und einer Anzeigesteuereinheit 224 gebildet.
Die Informationsverarbeitungseinheit 211 umfasst eine Tonempfangseinheit 231, eine Ausgabesteuereinheit 232, eine MIK-Tonbeschaffungseinheit 233 und eine Tonübertragungseinheit 234.
Die Tonempfangseinheit 231 steuert die Kommunikationseinheit 206 und empfängt von dem Kommunikationsverwaltungsserver 1 übertragene Tondaten. Die durch die Tonempfangseinheit 231 empfangenen Tondaten werden an die Ausgabesteuereinheit 232 geliefert.
Die Ausgabesteuereinheit 232 bewirkt Ausgabe eines Tons gemäß den von dem Kommunikationsverwaltungsserver 1 übertragenen Tondaten von der Tonausgabevorrichtung 204.
Die MIK-Tonbeschaffungseinheit 233 beschafft Tondaten eines MIK-Tons, der durch das die Toneingabevorrichtung 203 bildende MIK gesammelt wird. Tondaten des durch die MIK-Tonbeschaffungseinheit 233 beschafften MIK-Tons werden an die Tonübertragungseinheit 234 geliefert.
Die Tonübertragungseinheit 234 steuert die Kommunikationseinheit 206 und überträgt Tondaten des MIK-Tons, die von der MIK-Tonbeschaffungseinheit 233 geliefert werden, zu dem Kommunikationsverwaltungsserver 1.
Die Einstellungsinformations-Übertragungseinheit 222 erzeugt Einstellungsinformationen, die Inhalte verschiedener Einstellungen gemäß einer Bedienung durch einen Benutzer repräsentieren. Die Einstellungsinformations-Übertragungseinheit 222 steuert die Kommunikationseinheit 206 und überträgt die Einstellungsinformationen zu dem Kommunikationsverwaltungsserver 1.
Die Benutzerzustands-Erkennungseinheit 223 erkennt einen Zustand eines Benutzers auf der Basis von durch die Sensoreinheit 208 gemessenen Sensordaten. Die Benutzerzustands-Erkennungseinheit 223 steuert die Kommunikationseinheit 206 und überträgt einen Zustand eines Benutzers repräsentierende Informationen zu dem Kommunikationsverwaltungsserver 1.
Die Anzeigesteuereinheit 224 kommuniziert mit dem Kommunikationsverwaltungsserver 1 durch Steuern der Kommunikationseinheit 206 und bewirkt das Anzeigen eines Fernkonferenzbildschirms auf der Anzeige 207 auf der Basis von Informationen, die von dem Kommunikationsverwaltungsserver 1 übertragen werden.
«Benutzungsfall der Tonbildlokalisierung»
Es wird ein Benutzungsfall der Tonbildlokalisierung verschiedener Töne, einschließlich einer geäußerten Stimme durch einen Teilnehmer einer Konferenz, beschrieben.
<Virtuelle Reaktionsfunktion>
Eine virtuelle Reaktionsfunktion ist eine Funktion, die beim Übermitteln der eigenen Antwort an einen anderen Benutzer verwendet wird. Zum Beispiel wird eine Applausfunktion, die eine virtuelle Reaktionsfunktion ist, für eine durch den Kommunikationsverwaltungsserver 1 realisierte Fernkonferenz erstellt. Eine Anweisung zur Verwendung der Applausfunktion zur Ausgabe von Toneffekten eines Applauses wird von einem Bildschirm ausgegeben, der als GUI auf der Anzeige 207 des Client-Endgeräts 2 angezeigt wird.
15 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm
Der in 15 gezeigte Fernkonferenzbildschirm zeigt Teilnehmersymbole 131 bis 133, die an einer Konferenz teilnehmende Benutzer repräsentieren. Unter der Annahme, dass der in 15 gezeigte Fernkonferenzbildschirm ein Bildschirm ist, der auf dem Client-Endgerät 2A angezeigt wird, das von dem Benutzer A verwendet wird, repräsentieren die Teilnehmersymbole I31 bis I33 jeweils die Benutzer B bis D. Die Teilnehmersymbole I31 bis I33 werden an Positionen angezeigt, die Positionen der Benutzer B bis D im virtuellen Raum entsprechen.
Unter den Teilnehmersymbolen I31 bis I33 wird eine virtuelle Reaktionstaste 301 angezeigt. Die virtuelle Reaktionstaste 301 ist eine Taste, die betätigt wird, wenn eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben wird. Ein ähnlicher Bildschirm wird auch auf den Client-Endgeräten 2 angezeigt, die von den Benutzern B bis D verwendet werden.
Wenn zum Beispiel Benutzer B und Benutzer C die virtuelle Reaktionstaste 301 betätigen, wie in 16 gezeigt, wird neben dem Teilnehmersymbol I31 und dem Teilnehmersymbol I32 ein Symbol angezeigt, dass die Verwendung der Applausfunktion durch Benutzer B und Benutzer C repräsentiert.
Zusätzlich werden Toneffekte eines Applauses als Systemton durch den Kommunikationsverwaltungsserver 1 reproduziert und zusammen mit einer Stimme des sich äußernden Benutzers an jeden zuhörenden Benutzer abgeliefert. Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer vorgeschriebenen Position wird auch mit Bezug auf Tondaten von Toneffekten eines Applauses ausgeführt.
17 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe von Toneffekten unter Verwendung einer virtuellen Reaktionsfunktion.
Wenn die virtuelle Reaktionstaste 301 betätigt wird, werden Bedienungsinformationen, die repräsentieren, dass eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben wurde, von den Client-Endgeräten 2 zu dem Kommunikationsverwaltungsserver 1 übertragen, wie durch Pfeile A11 und A12 angegeben.
Wenn MIK-Töne von den Client-Endgeräten 2 übertragen werden, wie durch die Pfeile A13 und A14 angegeben, werden die Toneffekte eines Applauses zu einem MIK-Ton in dem Kommunikationsverwaltungsserver 1 hinzugefügt und Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten gemäß einer Positionsbeziehung wird jeweils mit Bezug auf Tondaten des sich äußernden Benutzers und Tondaten der Toneffekte ausgeführt.
Zum Beispiel wird Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer selben Position wie eine Position eines Benutzers, der eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben hat, mit Bezug auf Tondaten der Toneffekte ausgeführt. In diesem Fall soll ein Tonbild der Toneffekte eines Applauses lokalisiert an derselben Position wie die Position des Benutzers, der eine Anweisung zur Ausgabe der Toneffekte eines Applauses ausgegeben hat, wahrgenommen werden.
Wenn es mehrere Benutzer gibt, die eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben haben, wird Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer Position eines Schwerpunkts der Positionen der mehreren Benutzer, die die Anweisung zur Ausgabe der Toneffekte eines Applauses ausgegeben haben, an den Tondaten der Toneffekte ausgeführt. In diesem Fall soll das Tonbild der Toneffekte eines Applauses an einer Position lokalisiert wahrgenommen werden, an der die Benutzer, die eine Anweisung zur Ausgabe der Toneffekte eines Applauses ausgegeben haben, dicht präsent sind. Statt der Position eines Schwerpunkts kann das Tonbild der Toneffekte eines Applauses an verschiedenen Positionen lokalisiert werden, die auf der Basis der Positionen der Benutzer ausgewählt werden, die eine Anweisung zur Ausgabe der Toneffekte eines Applauses ausgegeben haben.
Die durch die Tonbildlokalisierungsverarbeitung erzeugten Tondaten werden zu dem Client-Endgerät 2 übertragen, das von jedem zuhörenden Benutzer verwendet wird, wie durch einen Pfeil A15 angegeben, und von dem Client-Endgerät 2 ausgegeben.
In diesem Beispiel werden, wenn eine Anweisung zur Ausgabe von Toneffekten eines Applauses durch einen spezifischen Benutzer ausgegeben wird, HRTF-Daten zur Lokalisierung eines Tonbildes des Toneffekts eines Applauses an einer vorgeschriebenen Position gemäß einer Aktion wie etwa Ausführung der Applausfunktion ausgewählt. Außerdem werden auf der Basis von durch die Tonbildlokalisierungsverarbeitung unter Verwendung der ausgewählten HRTF-Daten erhaltenen Tondaten Toneffekte eines Applauses jedem zuhörenden Benutzer als ein Toninhalt zugeführt.
In 17 repräsentiert jeder der MIK-Töne Nr. 1 bis Nr. N, die in einem obersten Teil unter Verwendung mehrerer Blöcke gezeigt sind, eine Stimme des sich äußernden Benutzers, die durch verschiedene Client-Endgeräte 2 detektiert wird. Außerdem repräsentiert in einem untersten Teil unter Verwendung eines einzigen Blocks gezeigte Tonausgabe Ausgabe an den Client-Endgerät 2, das von einem zuhörenden Benutzer verwendet wird.
Wie auf einer linken Seite in 17 gezeigt, werden zum Beispiel Funktionen, die durch die Pfeile A11 und A12 in Bezug auf Anweisungen zum Übertragen einer virtuellen Reaktion angegeben sind, durch das sendeseitige Modul 201A-1 realisiert. Außerdem wird die Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten durch das Serverprogramm 101A realisiert.
Steuerverarbeitung durch den Kommunikationsverwaltungsserver 1 in Bezug auf Ausgabe von Toneffekten unter Verwendung der virtuellen Reaktionsfunktion wird unter Bezugnahme auf ein in 18 gezeigtes Flussdiagramm beschrieben.
Die Beschreibung von Inhalten, die sich mit unter Bezugnahme auf 8 unter der Steuerverarbeitung durch den Kommunikationsverwaltungsserver 1 beschriebenen Inhalten überlappen, wird gegebenenfalls weggelassen. Dasselbe gilt für 21 und dergleichen in der nachfolgenden Beschreibung.
In Schritt S101 empfängt die Systemton-Verwaltungseinheit 136 (11) Bedienungsinformationen, die repräsentieren, dass eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben wurde. Wenn ein Benutzer die virtuelle Reaktionstaste 301 betätigt, werden Bedienungsinformationen, die repräsentieren, dass eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgegeben wurde, von dem Client-Endgerät 2 übertragen, das von dem Benutzer verwendet wird. Die Übertragung der Bedienungsinformationen wird zum Beispiel durch die Benutzerzustands-Erkennungseinheit 223 (14) des Client-Endgeräts 2 ausgeführt.
In Schritt S102 empfängt die Tonempfangseinheit 131 Tondaten, die von dem Client-Endgerät 2 übertragen werden, das von dem sich äußernden Benutzer verwendet wird. Die durch die Tonempfangseinheit 131 empfangenen Tondaten werden über die Signalverarbeitungseinheit 132 an die Tonbildlokalisierungs-Verarbeitungseinheit 134 geliefert.
In Schritt S103 gibt die Systemton-Verwaltungseinheit 136 Tondaten von Toneffekten eines Applauses an die Tonbildlokalisierungs-Verarbeitungseinheit 134 aus und fügt die Tondaten als Tondaten, die ein Objekt der Tonbildlokalisierungsverarbeitung sind, hinzu.
In Schritt S104 liest und beschafft die Tonbildlokalisierungs-Verarbeitungseinheit 134 aus der HRTF-Datenspeicherungseinheit 135 HRTF-Daten gemäß einer Positionsbeziehung zwischen einer Position eines zuhörenden Benutzers und einer Position eines sich äußernden Benutzers und HRTF-Daten gemäß einer Positionsbeziehung zwischen einer Position eines zuhörenden Benutzers und einer Position von Toneffekten eines Applauses. Als die Position der Toneffekte eines Applauses wird eine vorgeschriebene Position, wie etwa die oben beschriebenen, als eine Position ausgewählt, an der ein Tonbild der Toneffekte eines Applauses zu lokalisieren ist.
Die Tonbildlokalisierungs-Verarbeitungseinheit 134 führt Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten für eine geäußerte Stimme mit Bezug auf die Tondaten des sich äußernden Benutzers aus und führt Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten für Toneffekte mit Bezug auf die Tondaten der Toneffekte eines Applauses aus.
In Schritt S105 überträgt die Tonübertragungseinheit 138 die durch die Tonbildlokalisierungsverarbeitung erhaltenen Tondaten zu dem Client-Endgerät 2, das von einem zuhörenden Benutzer verwendet wird.
Gemäß der oben beschriebenen Verarbeitung sind an dem Client-Endgerät 2, das von einem zuhörenden Benutzer verwendet wird, ein Tonbild der Stimme des sich äußernden Benutzers und ein Tonbild von Toneffekten eines Applauses jeweils als an vorgeschriebenen Positionen lokalisiert wahrzunehmen.
Statt jeweils Tonbildlokalisierungsverarbeitung mit Bezug auf Tondaten des sich äußernden Benutzers und Tondaten der Toneffekte eines Applauses auszuführen, kann Tonbildlokalisierungsverarbeitung an zusammengesetzten Tondaten ausgeführt werden, die durch Zusammensetzen der Tondaten der Toneffekte eines Applauses mit den Tondaten des sich äußernden Benutzers erhalten werden. Selbst in diesem Fall ist das Tonbild der Toneffekte eines Applauses an einer selben Position wie die Position des Benutzers, der eine Anweisung zur Ausgabe der Toneffekte eines Applauses ausgegeben hat, zu lokalisieren.
Gemäß der oben beschriebenen Verarbeitung können Toneffekte eines Applauses, die Sympathie, Überraschung oder dergleichen jedes Benutzers ausdrücken, unter allen Benutzern als ein gemeinsamer Ton geteilt werden.
Da ein Tonbild der Toneffekte eines Applauses so wahrgenommen werden soll, dass es an einer selben Position wie eine Position eines Benutzers, der eine Anweisung zur Ausgabe der Toneffekte eines Applauses oder dergleichen ausgegeben hat, lokalisiert ist, kann zusätzlich jeder zuhörende Benutzer intuitiv erkennen, welcher der Benutzer eine Reaktion, wie etwa Sympathie oder Überraschung, zeigt.
Ausgabe eines Tons, der einen MIK-Ton des sich äußernden Benutzers und Toneffekte eines Applauses umfasst, kann folgendermaßen ausgeführt werden.

(A) Wie durch ein Ziel eines in 17 gezeigten Pfeils A16 angegeben, wird ein MIK-Ton, von dem eine Tonqualität durch Filterverarbeitung auf der Seite des Client-Endgeräts 2 (des sendeseitigen Moduls 201A-1) modifiziert wurde, zu dem Kommunikationsverwaltungsserver 1 übertragen. Zum Beispiel wird Filterverarbeitung zum Verwandeln der Tonqualität des MIK-Tons des sich äußernden Benutzers in eine Tonqualität einer älteren Person oder eine Tonqualität eines Kindes an dem MIK-Ton des sich äußernden Benutzers ausgeführt.
(B) Eine Art von als ein Systemton reproduzierten Toneffekten wird gemäß der Anzahl von Benutzern geändert, die gleichzeitig eine Anweisung zur Ausgabe von Toneffekten ausgibt. Wenn zum Beispiel die Anzahl von eine Anweisung zur Ausgabe von Toneffekten eines Applauses ausgebenden Benutzern größer oder gleich der als Schwelle verwendeten Anzahl von Benutzern ist, werden Toneffekte, die Jubel einer großen Anzahl von Personen repräsentieren, wiedergegeben und an zuhörende Benutzer abgeliefert, anstelle der Toneffekte eines Applauses. Auswahl der Art von Toneffekten wird durch die Systemton-Verwaltungseinheit 136 ausgeführt.

Mit Bezug auf Toneffekte, die Jubel repräsentieren, werden HRTF-Daten zur Lokalisierung der Toneffekte an einer vorgeschriebenen Position, wie etwa einer Position in der Nähe der Position eines zuhörenden Benutzers oder einer Position über oder unter der Position eines zuhörenden Benutzers, ausgewählt und es wird Tonbildlokalisierungsverarbeitung ausgeführt.
Gemäß der Anzahl von Benutzern, die gleichzeitig eine Anweisung zur Ausgabe von Toneffekten ausgeben, kann eine Position, an der ein Tonbild von Toneffekten zu lokalisieren ist, geändert oder eine Lautstärke geändert werden.
Funktionen zum Übermitteln von anderen Reaktionen als Applaus, wie etwa eine Funktion zum Ausdrücken von Freude oder eine Funktion zum Ausdrücken von Ärger, können als virtuelle Reaktionsfunktionen erstellt werden. Für jede Art von Reaktion werden verschiedene Tondaten reproduziert und als Toneffekte ausgegeben. Für jede Art von Reaktion kann eine Position, an der ein Tonbild zu lokalisieren ist, geändert werden.
<Flüsterfunktion>
Eine Flüsterfunktion ist eine Funktion des Designierens eines einzelnen Benutzers als einen zuhörenden und sich äußernden Benutzer. Die Stimme des Benutzers soll nur an den designierten Benutzer abgeliefert werden und wird nicht an andere Benutzer abgeliefert. Die Ablieferung einer Stimme eines einzelnen Benutzers unter Verwendung der Flüsterfunktion wird von einem Bildschirm, der als GUI auf der Anzeige 207 des Client-Endgeräts 2 angezeigt wird, aus designiert.
19 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
Auf ähnliche Weise wie bei dem mit Bezug auf 15 beschriebenen Bildschirm zeigt der Fernkonferenzbildschirm Teilnehmersymbole I31 bis I33 an, die Benutzer repräsentieren, die an einer Konferenz teilnehmen. Unter der Annahme, dass der in 19 gezeigte Fernkonferenzbildschirm ein Bildschirm ist, der auf dem Client-Endgerät 2A angezeigt wird, das von dem Benutzer A verwendet wird, repräsentieren die Teilnehmersymbole I31 bis I33 jeweils die Benutzer B bis D.
Wenn zum Beispiel das Teilnehmersymbol I31 durch den Benutzer A unter Verwendung eines Cursors ausgewählt wird, wird ein Zustand erzeugt, bei dem Benutzer B als ein Flüsterobjektbenutzter designiert wird, der ein Zuhörziel einer Stimme ist. Das Teilnehmersymbol I31, das den Benutzer B repräsentiert, ist wie in 19 gezeigt hervorgehoben.
Wenn Benutzer A sich in diesem Zustand äußert, wird in dem Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes in den Ohren des Benutzers B, der als Flüsterobjektbenutzer designiert ist, mit Bezug auf Tondaten des Benutzers A ausgeführt.
Man beachte, dass ein Vorgabezustand ein Zustand ist, in dem kein Flüsterobjektbenutzer designiert wurde. Die Stimme des sich äußernden Benutzers wird an alle anderen Benutzer abgeliefert, so dass ein Tonbild gemäß einer Positionsbeziehung zwischen den zuhörenden Benutzern und dem sich äußernden Benutzer an einer Position lokalisiert wird.
20 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe einer Stimme unter Verwendung der Flüsterfunktion.
Wenn durch Auswählen eines Teilnehmersymbols ein Flüsterobjektbenutzer designiert wird, werden Bedienungsinformationen, die repräsentieren, dass ein Flüsterobjektbenutzer designiert wurde, von dem Client-Endgerät 2 zu dem Kommunikationsverwaltungsserver 1 übertragen, wie durch einen Pfeil A21 angegeben.
Gemäß einem durch eine Kamera fotografierten Bild, das analysiert wird, und einer Haltung des Flüsterns in jemandes Ohren, die geschätzt wird, können Bedienungsinformationen, die repräsentieren, dass ein Flüsterobjektbenutzer designiert wurde, wie durch einen Pfeil A22 angegeben übertragen werden.
Wie durch einen Pfeil A23 angegeben, wird, wenn ein MIK-Ton von dem Client-Endgerät 2, das von einem flüsternden Benutzer verwendet wird, übertragen wird, in dem Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes in den Ohren des als Flüsterobjektbenutzers designierten Benutzers mit Bezug auf Tondaten des MIK-Tons Nr. 1 ausgeführt. Anders ausgedrückt, werden HRTF-Daten gemäß einer Position der Ohren des Benutzers, der als ein Flüsterobjektbenutzer designiert ist, ausgewählt und in Tonbildlokalisierungsverarbeitung verwendet.
In 20 ist der durch den Pfeil A23 angegebene MIK-Ton Nr. 1 eine Stimme des flüsternden Benutzers oder anders ausgedrückt des sich äußernden Benutzers, der unter Verwendung der Flüsterfunktion einen einzelnen Benutzer als ein Flüsterobjektbenutzer designiert hat.
Die durch die Tonbildlokalisierungsverarbeitung erzeugten Tondaten werden zu dem Client-Endgerät 2, das von dem Flüsterobjektbenutzer verwendet wird, übertragen und von dem Client-Endgerät 2 wie durch einen Pfeil A24 angegeben ausgegeben.
Wenn dagegen, wie durch einen Pfeil A25 angegeben, ein MIK-Ton von dem Client-Endgerät 2 übertragen wird, das von einem Benutzer verwendet wird, der nicht die Flüsterfunktion verwendet, wird in dem Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten gemäß einer Positionsbeziehung zwischen einem zuhörenden Benutzer und einem sich äußernden Benutzer ausgeführt.
Durch Tonbildlokalisierungsverarbeitung erzeugte Tondaten werden zu dem Client-Endgerät 2 übertragen, das von einem zuhörenden Benutzer verwendet wird, und von dem Client-Endgerät 2 ausgegeben, wie durch einen Pfeil A26 angegeben.
In dem vorliegenden Beispiel werden, wenn ein Flüsterobjektbenutzer durch einen spezifischen Benutzer instruiert wird, HRTF-Daten zur Lokalisierung eines Tonbildes einer Stimme eines Benutzers, der die Flüsterfunktion verwendet, in den Ohren des Flüsterobjektbenutzers gemäß einer Aktion, wie etwa Ausführung der Flüsterfunktion, ausgewählt. Auf der Basis von Tondaten, die durch Tonbildlokalisierungsverarbeitung unter Verwendung der ausgewählten HRTF-Daten erhalten werden, wird außerdem eine Stimme eines Benutzers, der die Flüsterfunktion verwendet, dem Flüsterobjektbenutzer als ein Toninhalt bereitgestellt.
Steuerverarbeitung durch den Kommunikationsverwaltungsserver 1 in Bezug auf Ausgabe einer Stimme unter Verwendung der Flüsterfunktion wird unter Bezugnahme auf das in 21 gezeigte Flussdiagramm beschrieben.
In Schritt 5111 empfängt die Systemton-Verwaltungseinheit 136 Bedienungsinformationen, die eine Auswahl eines Flüsterobjektbenutzers repräsentieren. Wenn ein gegebener Benutzer einen Flüsterobjektbenutzer auswählt, werden Bedienungsinformationen, die die Auswahl eines Flüsterobjektbenutzers repräsentieren, von dem Client-Endgerät 2, das von dem gegebenen Benutzer verwendet wird, übertragen. Übertragung der Bedienungsinformationen wird zum Beispiel durch die Benutzerzustands-Erkennungseinheit 223 des Client-Endgeräts 2 ausgeführt.
In Schritt S112 empfängt die Tonempfangseinheit 131 Tondaten, die von dem Client-Endgerät 2 übertragen werden, das von dem flüsternden Benutzer verwendet wird. Die durch die Tonempfangseinheit 131 empfangenen Tondaten werden an die Tonbildlokalisierungs-Verarbeitungseinheit 134 geliefert.
In Schritt S113 liest und beschafft die Tonbildlokalisierungs-Verarbeitungseinheit 134 HRTF-Daten gemäß der Position der Ohren des Flüsterobjektbenutzers aus der HRTF-Datenspeicherungseinheit 135. Zusätzlich führt die Tonbildlokalisierungs-Verarbeitungseinheit 134 Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten mit Bezug auf Tondaten des sich äußernden Benutzers (des flüsternden Benutzers) aus, so dass ein Tonbild in den Ohren des Flüsterobjektbenutzers lokalisiert wird.
In Schritt S114 überträgt die Tonübertragungseinheit 138 die durch die Tonbildlokalisierungsverarbeitung erhaltenen Tondaten zu dem Client-Endgerät 2, das von dem Flüsterobjektbenutzer verwendet wird.
Das von dem Flüsterobjektbenutzer verwendete Client-Endgerät 2 gibt auf der Basis der von dem Kommunikationsverwaltungsserver 1 übertragenen Tondaten eine Stimme des flüsternden Benutzers aus. Der als ein Flüsterobjekt ausgewählte Benutzer soll die Stimme des flüsternden Benutzers hören, während er ein Tonbild in seinen Ohren wahrnimmt.
Gemäß der oben beschriebenen Verarbeitung kann, selbst wenn eine Konferenz mehrere Teilnehmer hat, ein sich äußernder Benutzer einen einzelnen Benutzer designieren und nur zu dem designierten Benutzer sprechen.
Es können mehrere Benutzer als Flüsterobjektbenutzer designiert werden.
Außerdem können mit Bezug auf einen Benutzer (zuhörenden Benutzer), der als Flüsterobjekt ausgewählt wird, Stimmen anderer Benutzer, die sich gleichzeitig äußern, zusammen mit der Stimme des flüsternden Benutzers abgeliefert werden. In diesem Fall wird mit Bezug auf die Tondaten des flüsternden Benutzers Tonbildlokalisierungsverarbeitung so ausgeführt, dass ein Tonbild in den Ohren des zuhörenden Benutzers lokalisiert wird. Mit Bezug auf Tondaten anderer Benutzer, die nicht flüstern, wird ferner Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten gemäß einer Positionsbeziehung zwischen einer Position eines zuhörenden Benutzers und einer Position des sich äußernden Benutzers ausgeführt.
Ein Tonbild der Stimme des flüsternden Benutzers kann an einer beliebigen Position in einer Umgebung eines Flüsterobjektbenutzers lokalisiert werden, statt in den Ohren des Flüsterobjektbenutzers. Der flüsternde Benutzer kann in die Lage versetzt werden, eine Position zu designieren, an der ein Tonbild zu lokalisieren ist.
<Fokussierungsfunktion>
Eine Fokussierungsfunktion ist eine Funktion des Designierens eines einzelnen Benutzers als Fokusobjekt und des Hörbarermachens einer Stimme des designierten Benutzers. Verglichen mit der oben beschriebenen Flüsterfunktion, die eine Funktion ist, die von einem Benutzer auf der sich äußernden Seite verwendet wird, ist die Fokussierungsfunktion eine Funktion, die von einem Benutzer auf der zuhörenden Seite verwendet wird. Ein Fokusobjektbenutzer wird aus einem Bildschirm designiert, der als GUI auf der Anzeige 207 des Client-Endgeräts 2 angezeigt wird.
22 ist eine Darstellung eines Beispiels für einen Fernkonferenzbildschirm.
Auf ähnliche Weise wie bei dem mit Bezug auf 15 beschriebenen Bildschirm zeigt der Fernkonferenzbildschirm Teilnehmersymbole 131 bis 133 an, die Benutzer repräsentieren, die an einer Konferenz teilnehmen. Unter der Annahme, dass der in 22 gezeigte Fernkonferenzbildschirm ein Bildschirm ist, der auf dem Client-Endgerät 2A angezeigt wird, das von dem Benutzer A verwendet wird, repräsentieren die Teilnehmersymbole I31 bis I33 jeweils die Benutzer B bis D.
Wenn zum Beispiel das Teilnehmersymbol I31 durch den Benutzer A unter Verwendung eines Cursors ausgewählt wird, wird ein Zustand erzeugt, bei dem Benutzer B als ein Fokusobjektbenutzer designiert ist. Das den Benutzer B repräsentierende Teilnehmersymbol I31 wird hervorgehoben, wie in 22 gezeigt.
Wenn sich Benutzer B in diesem Zustand äußert, wird in dem Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes in der Nähe des Benutzers A, der den Benutzer B als Fokusobjektbenutzer designiert hat, mit Bezug auf Tondaten des Benutzers B ausgeführt. Wenn sich Benutzer C und Benutzer D, die nicht als Fokusobjekte designiert sind, äußern, wird Tonbildlokalisierungsverarbeitung unter Verwendung von HRTF-Daten gemäß einer Positionsbeziehung mit dem Benutzer A jeweils mit Bezug auf Tondaten des Benutzers C und Tondaten des Benutzers D ausgeführt.
Man beachte, dass ein Vorgabezustand ein Zustand ist, in dem kein Fokusobjektbenutzer designiert wurde. Die Stimme des sich äußernden Benutzers wird an alle anderen Benutzer abgeliefert, so dass ein Tonbild an einer Position gemäß einer Positionsbeziehung zwischen den zuhörenden Benutzern und dem sich äußernden Benutzer lokalisiert wird.
23 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Ausgabe einer Stimme unter Verwendung der Fokussierungsfunktion.
Wenn ein Fokusobjektbenutzer durch Auswählen eines Teilnehmersymbols designiert wird, werden Bedienungsinformationen, die repräsentieren, dass ein Fokusobjektbenutzer designiert wurde, von dem Client-Endgerät 2 zu dem Kommunikationsverwaltungsserver 1 übertragen, wie durch einen Pfeil A31 angegeben.
Gemäß einem durch eine Kamera fotografierten Bild, das analysiert wird, und einem Fokusobjekt, das auf der Basis einer Detektion einer Sichtlinie oder dergleichen geschätzt wird, können Bedienungsinformationen, die repräsentieren, dass ein Fokusobjektbenutzer designiert wurde, übertragen werden, wie durch einen Pfeil A32 angegeben.
Wie durch Pfeile A33 und A34 angegeben, wird, wenn ein MIK-Ton von dem Client-Endgerät 2 übertragen wird, in dem Kommunikationsverwaltungsserver 1 Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes in der Nähe eines Benutzers mit Bezug auf Tondaten eines MIK-Tons des Fokusobjektbenutzers ausgeführt. Anders ausgedrückt, werden HRTF-Daten gemäß einer Position des Benutzers, der ein Fokusobjekt designiert hat, ausgewählt und bei Tonbildlokalisierungsverarbeitung verwendet.
Außerdem wird mit Bezug auf Tondaten eines MIK-Tons eines anderen Benutzers als dem Fokusobjektbenutzer Tonbildlokalisierungsverarbeitung zur Lokalisierung eines Tonbildes an einer von dem Benutzer entfernten Position ausgeführt. Anders ausgedrückt, werden HRTF-Daten gemäß einer Position, die von dem Benutzer, der das Fokusobjekt designiert hat, entfernt ist, ausgewählt und bei Tonbildlokalisierungsverarbeitung verwendet.
In dem in 23 gezeigten Beispiel ist zum Beispiel ein durch den Pfeil A33 angegebener MIK-Ton Nr. 1 ein MIK-Ton eines Fokusobjektbenutzers. Tondaten des MIK-Tons Nr. 1 werden von dem Client-Endgerät 2, das von dem Fokusobjektbenutzer verwendet wird, zu dem Kommunikationsverwaltungsserver 1 übertragen.
Außerdem ist ein durch den Pfeil A34 angegebener MIK-Ton Nr. N ein MIK-Ton eines anderen Benutzers als der Fokusobjektbenutzer. Tondaten des MIK-Tons Nr. N werden von dem Client-Endgerät 2, das von dem anderen Benutzer als dem Fokusobjektbenutzer verwendet wird, zu dem Kommunikationsverwaltungsserver 1 übertragen.
Durch Tonbildlokalisierungsverarbeitung erzeugte Tondaten werden zu dem Client-Endgerät 2 übertragen, das von dem Benutzer verwendet wird, der ein Fokusobjekt designiert hat, und von dem Client-Endgerät 2 ausgegeben, wie durch einen Pfeil A35 angegeben.
Im vorliegenden Beispiel werden, wenn ein Fokusobjektbenutzer durch einen spezifischen Benutzer ausgewählt wird, HRTF-Daten zur Lokalisierung eines Tonbildes einer Stimme des Fokusobjektbenutzers in der Nähe des Benutzers, der das Fokusobjekt ausgewählt hat, gemäß einer Aktion wie Ausführung der Fokussierungsfunktion ausgewählt. Außerdem wird auf der Basis von durch Tonbildlokalisierungsverarbeitung unter Verwendung der ausgewählten HRTF-Daten erhaltenen Tondaten eine Stimme des Fokusobjektbenutzers dem Benutzer, der das Fokusobjekt ausgewählt hat, als ein Toninhalt bereitgestellt.
Steuerverarbeitung durch den Kommunikationsverwaltungsserver 1 in Bezug auf Ausgabe einer Stimme unter Verwendung der Fokussierungsfunktion wird unter Bezugnahme auf das in 24 gezeigte Flussdiagramm beschrieben.
In Schritt S121 empfängt die Teilnehmerinformations-Verwaltungseinheit 133 Bedienungsinformationen, die eine Auswahl eines Fokusobjektbenutzers repräsentieren. Wenn ein gegebener Benutzer einen Fokusobjektbenutzer auswählt, werden Bedienungsinformationen, die eine Auswahl des Fokusobjektbenutzers repräsentieren, von dem durch den gegebenen Benutzer verwendeten Client-Endgerät 2 übertragen. Übertragung der Bedienungsinformationen wird zum Beispiel durch die Benutzerzustands-Erkennungseinheit 223 des Client-Endgeräts 2 ausgeführt.
In Schritt S122 empfängt die Tonempfangseinheit 131 von dem Client-Endgerät 2 übertragene Tondaten. Zum Beispiel werden Tondaten von anderen Benutzern als dem Fokusobjektbenutzer (nicht als Fokusobjekt ausgewählten Benutzern) zusammen mit Tondaten des Fokusobjektbenutzers empfangen. Die durch die Tonempfangseinheit 131 empfangenen Tondaten werden an die Tonbildlokalisierungs-Verarbeitungseinheit 134 geliefert.
In Schritt S123 liest und beschafft die Tonbildlokalisierungs-Verarbeitungseinheit 134 HRTF-Daten gemäß einer Position in der Nähe des Benutzers, der das Fokusobjekt ausgewählt hat, aus der HRTF-Datenspeicherungseinheit 135. Außerdem führt die Tonbildlokalisierungs-Verarbeitungseinheit 134 Tonbildlokalisierungsverarbeitung unter Verwendung der beschafften HRTF-Daten mit Bezug auf Tondaten des Fokusobjektbenutzers aus, so dass ein Tonbild in der Nähe des Benutzers, der ein Fokusobjekt ausgewählt hat, lokalisiert wird.
In Schritt S124 liest und beschafft die Tonbildlokalisierungs-Verarbeitungseinheit 134 HRTF-Daten gemäß einer Position, die von dem Benutzer, der ein Fokusobjekt ausgewählt hat, fern ist, aus der HRTF-Datenspeicherungseinheit 135. Außerdem führt die Tonbildlokalisierungs-Verarbeitungseinheit 134 Tonbildlokalisierungsverarbeitung unter Verwendung der beschafften HRTF-Daten mit Bezug auf Tondaten eines anderen Benutzers als dem Fokusobjektbenutzer aus, so dass ein Tonbild an einer von dem Benutzer, der Fokusobjekt ausgewählt hat, fernen Position lokalisiert wird.
In Schritt S125 überträgt die Tonübertragungseinheit 138 die durch die Tonbildlokalisierungsverarbeitung erhaltenen Tondaten zu dem Client-Endgerät 2, das von dem Benutzer verwendet wird, der ein Fokusobjekt ausgewählt hat.
Das von dem Benutzer, der ein Fokusobjekt ausgewählt hat, verwendete Client-Endgerät 2 gibt auf der Basis der von dem Kommunikationsverwaltungsserver 1 übertragenen Tondaten eine Stimme des sich äußernden Benutzers aus. Der Benutzer, der ein Fokusobjekt ausgewählt hat, soll die Stimme des Fokusobjektbenutzers hören, während ein Tonbild in der Nähe wahrgenommen wird. Außerdem soll der Benutzer, der ein Fokusobjekt ausgewählt hat, die Stimme von anderen Benutzern als dem Fokusobjektbenutzer hören, während ein Tonbild an fernen Positionen wahrgenommen wird.
Gemäß der oben beschriebenen Verarbeitung kann, selbst wenn eine Konferenz mehrere Teilnehmer hat, ein Benutzer einen einzelnen Benutzer designieren und Äußerungen durch den designierten Benutzer auf fokussierte Weise anhören.
Es können mehrere Benutzer als Fokusobjektbenutzer auswählbar sein.
Anstelle des Auswählens eines Fokusobjektbenutzers kann ein zu distanzierender Benutzer ausgewählt werden. In diesem Fall wird mit Bezug auf Tondaten einer Stimme eines als ein zu distanzierender Benutzer ausgewählten Benutzers Tonbildlokalisierungsverarbeitung ausgeführt, so dass ein Tonbild an einer von einem zuhörenden Benutzer fernen Position lokalisiert wird.
<Dynamisches Umschalten von Tonbildlokalisierungsverarbeitung>
Tonbildlokalisierungsverarbeitung, die Verarbeitung von Objektaudio einschließlich Wiedergabe ist, wird dynamisch zwischen Durchführung auf der Seite des Kommunikationsverwaltungsservers 1 und Durchführen auf der Seite des Client-Endgeräts 2 umgeschaltet.
In diesen Fall ist das Client-Endgerät 2 auch mit Komponenten auszustatten, die mindestens der Tonbildlokalisierungs-Verarbeitungseinheit 134, der HRTF-Datenspeicherungseinheit 135 und der Zweikanalmix-Verarbeitungseinheit 137 unter den Komponenten des in 11 gezeigten Kommunikationsverwaltungsservers 1 ähnlich sind. Die Komponenten, die der Tonbildlokalisierungs-Verarbeitungseinheit 134, der HRTF-Datenspeicherungseinheit 135 und der Zweikanalmix-Verarbeitungseinheit 137 ähnlich sind, werden zum Beispiel durch das empfangsseitige Modul 201A-2 realisiert.
Wenn eine Einstellung eines bei Tonbildlokalisierungsverarbeitung verwendeten Parameters, wie etwa Positionsinformationen eines zuhörenden Benutzers, in der Mitte einer Konferenz geändert werden soll und die Änderung in Echtzeit in der Tonbildlokalisierungsverarbeitung widergespiegelt werden soll, wird die Tonbildlokalisierungsverarbeitung auf der Seite des Client-Endgeräts 2 ausgeführt. Lokales Ausführen der Tonbildlokalisierungsverarbeitung ermöglicht eine schnellere Reaktion auf eine Änderung des Parameters.
Wenn dagegen für eine gewisse Zeitdauer oder länger keine Einstellungsänderung eines Parameters vorliegt, wird die Tonbildlokalisierungsverarbeitung auf der Seite des Kommunikationsverwaltungsservers 1 ausgeführt. Ausführen von Tonbildlokalisierungsverarbeitung auf einem Server ermöglicht Unterdrückung einer Datenkommunikationsmenge zwischen dem Kommunikationsverwaltungsserver 1 und dem Client-Endgerät 2.
25 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf dynamisches Umschalten von Tonbildlokalisierungsverarbeitung.
Wenn Tonbildlokalisierungsverarbeitung auf der Seite des Client-Endgeräts 2 auszuführen ist, wird ein von dem Client-Endgerät 2 wie durch Pfeile A101 und A102 angegeben übertragener MIK-Ton zu dem Client-Endgerät 2 übertragen, wie durch einen Pfeil A103 angegeben. Das Client-Endgerät 2 als Übertragungsquelle des MIK-Tons ist das Client-Endgerät 2, das von dem sich äußernden Benutzer verwendet wird, und das Client-Endgerät 2, das ein Übertragungsziel des MIK-Tons sein soll, ist das Client-Endgerät 2, das von einem zuhörenden Benutzer verwendet wird.
Wenn eine Einstellung eines Parameters in Bezug auf Lokalisierung eines Tonbildes, wie etwa einer Position eines zuhörenden Benutzers durch den zuhörenden Benutzer geändert wird, wie durch einen Pfeil A104 angegeben, wird Tonbildlokalisierungsverarbeitung mit Bezug auf den von dem Kommunikationsverwaltungsserver 1 übertragenen MIK-Ton ausgeführt, während die Änderung an der Einstellung in Echtzeit widergespiegelt wird.
Ein Ton gemäß durch Tonbildlokalisierungsverarbeitung auf der Seite des Client-Endgeräts 2 erzeugten Tondaten wird ausgegeben, wie durch einen Pfeil A105 angegeben.
In dem Client-Endgerät 2 werden geänderte Inhalte der Einstellung des Parameters abgespeichert und Informationen, die die geänderten Inhalte repräsentieren, werden zu dem Kommunikationsverwaltungsserver 1 übertragen, wie durch einen Pfeil A106 angegeben.
Wenn Tonbildlokalisierungsverarbeitung auf der Seite des Kommunikationsverwaltungsservers 1 mit Bezug auf einen von dem Client-Endgerät 2 wie durch Pfeile A107 und A108 angegeben übertragenen MIK-Ton auszuführen ist, wird Tonbildlokalisierungsverarbeitung ausgeführt, während der Parameter nach der Änderung widergespiegelt wird.
Die durch die Tonbildlokalisierungsverarbeitung erzeugten Tondaten werden zu dem Client-Endgerät 2 übertragen, das von dem zuhörenden Benutzer verwendet wird, wie durch einen Pfeil A109 angegeben, und von dem Client-Endgerät 2 ausgegeben.
Steuerverarbeitung durch den Kommunikationsverwaltungsserver 1 in Bezug auf dynamisches Umschalten von Tonbildlokalisierungsverarbeitung wird unter Bezugnahme auf ein in 26 gezeigtes Flussdiagramm beschrieben.
In Schritt S201 wird bestimmt, ob für einen bestimmten Zeitraum oder länger eine Einstellungsänderung eines Parameters vorgenommen wird oder nicht. Die Bestimmung erfolgt durch die Teilnehmerinformations-Verwaltungseinheit 133 auf der Basis zum Beispiel von Informationen, die von dem Client-Endgerät 2 übertragen werden, das von einem zuhörenden Benutzer verwendet wird.
Wenn in Schritt S201 bestimmt wird, dass es eine Einstellungsänderung eines Parameters gegeben hat, überträgt in Schritt S202 die Tonübertragungseinheit 138 Tondaten des sich äußernden Benutzers, die durch die Teilnehmerinformations-Verwaltungseinheit 133 empfangen werden, zu dem Client-Endgerät 2, das von einem zuhörenden Benutzer verwendet wird, so wie sie sind. Die übertragenen Tondaten werden zu Daten eines Objektaudios.
In dem Client-Endgerät 2 wird Tonbildlokalisierungsverarbeitung unter Verwendung einer Einstellung nach der Änderung ausgeführt und Ausgabe eines Tons ausgeführt. Zusätzlich werden Informationen, die Inhalte der Einstellung nach der Änderung repräsentieren, zu dem Kommunikationsverwaltungsserver 1 übertragen.
In Schritt S203 empfängt die Teilnehmerinformations-Verwaltungseinheit 133 Informationen, die Inhalte der Einstellungsänderung repräsentieren, die von dem Client-Endgerät 2 übertragen werden. Nachdem auf der Basis von Informationen, die von dem Client-Endgerät 2 übertragen werden, Aktualisierung von Positionsinformationen des zuhörenden Benutzers oder dergleichen ausgeführt wird, erfolgt eine Rückkehr zu Schritt S201 und Verarbeitung von Schritt S201 und nachfolgenden Schritten wird ausgeführt. Die auf der Seite des Kommunikationsverwaltungsservers 1 ausgeführte Tonbildlokalisierungsverarbeitung wird auf der Basis der Positionsinformationen nach der Aktualisierung ausgeführt.
Wenn dagegen in Schritt S201 bestimmt wird, dass es keine Einstellungsänderung eines Parameters gibt, wird in Schritt S204 Tonbildlokalisierungsverarbeitung auf der Seite des Kommunikationsverwaltungsservers 1 ausgeführt. Die in Schritt 204 ausgeführte Verarbeitung ist im Prinzip der zuvor mit Bezug auf 8 beschriebenen Verarbeitung ähnlich.
Die oben beschriebenen Verarbeitungsschritte werden nicht nur ausgeführt, wenn eine Position geändert wird, sondern auch wenn andere Parameter, wie etwa Einstellung des Hintergrundtons, geändert werden.
<Verwaltung akustischer Einstellungen>
Akustische Einstellungen, die für Hintergrundton geeignet sind, können in eine Datenbank zur Verwaltung durch den Kommunikationsverwaltungsserver 1 erfolgen. Zum Beispiel wird für jede Art von Hintergrundton eine als Position zum Lokalisieren eines Tonbildes geeignete Position gesetzt, und HRTF-Daten gemäß der gesetzten Position werden gespeichert. Es kann ein Parameter in Bezug auf andere akustische Einstellungen, wie etwa Hall, gespeichert werden.
27 ist eine Darstellung eines Verarbeitungsablaufs in Bezug auf Verwaltung akustischer Einstellungen.
Beim Zusammenstellen von Hintergrundton für eine Stimme eines sich äußernden Benutzers wird in dem Kommunikationsverwaltungsserver 1 der Hintergrundton reproduziert und Tonbildlokalisierungsverarbeitung unter Verwendung einer akustischen Einstellung, wie etwa von für den Hintergrundton geeigneten HRTF-Daten, wie durch einen Pfeil A121 angegeben, ausgeführt.
Die durch die Tonbildlokalisierungsverarbeitung erzeugten Tondaten werden zu dem Client-Endgerät 2 übertragen, das von den zuhörenden Benutzern verwendet wird, wie durch einen Pfeil A122 angegeben, und von dem Client-Endgerät 2 ausgegeben.
«Modifikationen»
Obwohl ein von mehreren Benutzern geführtes Gespräch als Gespräch während einer Fernkonferenz beschrieben wurde, kann die oben beschriebene Technik auf verschiedene Arten von Gesprächen angewandt werden, wie etwa ein Gespräch während eines Essens oder ein Gespräch während einer Vorlesung, solange das Gespräch mehrere Online-Teilnehmer hat.
• Programm
Die oben beschriebene Verarbeitungsreihe kann auch durch Hardware oder Software ausgeführt werden. Falls die Verarbeitungsreihe durch Software ausgeführt wird, ist ein die Software darstellendes Programm auf einem in dedizierter Hardware, einem Vielzweck-Personal-Computer oder dergleichen eingebauten Computer zu installieren.
Das installierte Programm wird bereitgestellt durch Aufzeichnung in dem in 10 gezeigten wechselbaren Medium 111, das aus einem optischen Datenträger (einer CD-ROM (Compact Disc-Read Only Memory), einer DVD (Digital Versatile Disc) oder dergleichen), einem Halbleiterspeicher oder dergleichen besteht. Außerdem kann das Programm mittels eines drahtgebundenen oder drahtlosen Übertragungsmediums bereitgestellt werden, wie etwa eines lokalen Netzwerks, des Internet oder Digitalrundfunk. Das Programm kann im Voraus in dem ROM 102 oder Speicherungseinheit 108 installiert werden.
Man beachte, dass das durch einen Computer ausgeführte Programm ein Programm zum chronologischen Ausführen von Verarbeitung in der Reihenfolge, die in der vorliegenden Beschreibung beschrieben wird, sein kann, oder ein Programm zum Ausführen von Verarbeitung sein kann, die parallel oder mit einem notwendigen Timing, wie etwa einer aufgerufenen Zeit, erfolgt.
In der vorliegenden Beschreibung bedeutet ein System eine Menge aus mehreren Bestandteilen (Vorrichtungen, Modulen (Komponenten) oder dergleichen), und alle Bestandteile können in einem selben Gehäuse enthalten sein oder auch nicht. Dementsprechend stellen mehrere Vorrichtungen, die in getrennten Gehäusen untergebracht sind und über ein Netzwerk verbunden sind, und eine einzige Vorrichtung, in der mehrere Module in einem einzigen Gehäuse untergebracht sind, beide Systeme dar.
Die in der vorliegenden Beschreibung beschriebenen vorteilhaften Effekte sind lediglich Beispiele und nicht als Beschränkung gedacht, und es können andere vorteilhafte Effekte erhalten werden.
Ausführungsformen der vorliegenden Technik sind nicht auf die oben beschriebene Ausführungsform beschränkt, und es können verschiedene Modifikationen vorgenommen werden, ohne vom Wesen der vorliegenden Technik abzuweichen. Obwohl die Verwendung von Kopfhörern oder eines Lautsprechers als Tonausgabevorrichtung beschrieben wurde, können andere Vorrichtungen verwendet werden. Zum Beispiel können reguläre Ohrhörer (innere Kopfhörer) oder offene Kopfhörer mit der Fähigkeit zur Erfassung von Umgebungsgeräuschen als die Tonausgabevorrichtung verwendet werden.
Zum Beispiel kann die vorliegende Technik als Cloud-Datenverarbeitung ausgelegt werden, wobei sich mehrere Vorrichtungen über ein Netzwerk eine Funktion teilen und diese kooperativ verarbeiten.
Außerdem kann jeder in den oben dargestellten Flussdiagrammen beschriebene Schritt durch eine Vorrichtung ausgeführt oder auf geteilte Weise durch mehrere Vorrichtungen ausgeführt werden.
Falls ein Schritt mehrere Verarbeitungsschritte umfasst, können ferner die in einem Schritt enthaltenen mehreren Verarbeitungsschritte durch eine Vorrichtung ausgeführt oder auf geteilte Weise durch mehrere Vorrichtungen ausgeführt werden.
• Kombinationsbeispiele für Ausgestaltungen
Die vorliegende Technologie kann folgendermaßen ausgestaltet werden.

(1) Informationsverarbeitungsvorrichtung, umfassend:
- eine Speicherungseinheit, ausgelegt zum Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und
- eine Tonbildlokalisierungs-Verarbeitungseinheit, die dafür ausgelegt ist, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben,
- ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
(2) Informationsverarbeitungsvorrichtung nach (1), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe von Toneffekten gemäß der Aktion, die Ausgabe der Toneffekte anweist, die durch den spezifischen Teilnehmer ausgeführt wird.
(3) Informationsverarbeitungsvorrichtung nach (2), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung an Tondaten der Effektperson unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Teilnehmers, der ein Zuhörer sein soll, und einer Position des spezifischen Teilnehmers, der die Aktion in einem virtuellen Raum ausgeführt hat.
(4) Informationsverarbeitungsvorrichtung nach (1), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe einer Stimme des spezifischen Teilnehmers gemäß der Aktion zum Auswählen des Teilnehmers als ein Hörziel einer Stimme, die durch den spezifischen Teilnehmer ausgeführt wird.
(5) Informationsverarbeitungsvorrichtung nach (4), wobei Auswahl des Teilnehmers als das Hörziel unter Verwendung von visuellen Informationen ausgeführt wird, die auf einem Bildschirm angezeigt werden und die den Teilnehmer visuell repräsentieren.
(6) Informationsverarbeitungsvorrichtung nach (4) oder (5), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung mit Bezug auf Tondaten des spezifischen Teilnehmers unter Verwendung der HRTF-Daten gemäß einer Position von Ohren des Teilnehmers, der das Hörziel in einem virtuellen Raum sein soll.
(7) Informationsverarbeitungsvorrichtung nach (1), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe einer Stimme eines Fokusobjektsprechers gemäß der Aktion zum Auswählen des Fokusobjektsprechers, die durch den spezifischen Teilnehmer ausgeführt wird.
(8) Informationsverarbeitungsvorrichtung nach (7), wobei die Auswahl des Fokusobjektsprechers unter Verwendung visueller Informationen ausgeführt wird, die auf einen Bildschirm angezeigt werden und die den Teilnehmer visuell repräsentieren.
(9) Informationsverarbeitungsvorrichtung nach (7) oder (8), wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung mit Bezug auf Tondaten des Fokusobjektsprechers unter Verwendung der HRTF-Daten gemäß einer Position in einer Umgebung einer Position des spezifischen Teilnehmers in einem virtuellen Raum.
(10) Informationsverarbeitungsverfahren, das die folgenden Schritte umfasst, die durch eine Informationsverarbeitungsvorrichtung ausgeführt werden: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und Bereitstellen, durch Ausführen von Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
(11) Programm, das bewirkt, dass ein Computer folgende Verarbeitung ausführt: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und Bereitstellen, durch Ausführen von Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, eines gemäß der Aktion ausgewählten Toninhalts so, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
(12) Informationsverarbeitungsendgerät mit einer Tonempfangseinheit, ausgelegt zum: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die dafür ausgelegt ist, durch Ausführen der Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und einen Ton auszugeben.
(13) Informationsverarbeitungsendgerät nach (12), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten von Toneffekten, die gemäß der Aktion, die Ausgabe der Toneffekte anweist, die durch den spezifischen Teilnehmer ausgeführt wird, übertragen werden.
(14) Informationsverarbeitungsendgerät nach (13), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten der Effektperson, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position eines Benutzers des Informationsverarbeitungsendgeräts und einer Position des spezifischen Benutzers, der die Aktion ausgeführt hat, in einem virtuellen Raum erhalten werden.
(15) Informationsverarbeitungsendgerät nach (12), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des spezifischen Teilnehmers, die gemäß der Aktion zum Auswählen des Benutzers des Informationsverarbeitungsendgeräts als den Teilnehmer als ein Hörziel eines Tons, die durch den spezifischen Teilnehmer ausgeführt wird, übertragen werden.
(16) Informationsverarbeitungsendgerät nach (15), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des spezifischen Teilnehmers, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Position von Ohren des Benutzers des Informationsverarbeitungsendgeräts in einem virtuellen Raum erhalten werden.
(17) Informationsverarbeitungsendgerät nach (12), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten eines Fokusobjektsprechers, die gemäß der Aktion zum Auswählen des Fokusobjektsprechers, die durch den Benutzer des Informationsverarbeitungsendgeräts als der spezifische Teilnehmer ausgeführt wird, übertragen werden.
(18) Informationsverarbeitungsendgerät nach (17), wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des Fokusobjektsprechers, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Position in einer Umgebung einer Position des Benutzers des Informationsverarbeitungsendgeräts in einem virtuellen Raum erhalten werden.
(19) Informationsverarbeitungsverfahren, das die folgenden Schritte umfasst, die durch ein Informationsverarbeitungsendgerät ausgeführt werden:
- Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitstellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und Ausgeben eines Tons.
(20) Programm, das bewirkt, dass ein Computer folgende Verarbeitung ausführt: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitstellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und Ausgeben eines Tons.

Bezugszeichenliste

1: Kommunikationsverwaltungsserver
2A bis 2D: Client-Endgerät
121: Informationsverarbeitungseinheit
131: Tonempfangseinheit
132: Signalverarbeitungseinheit
133: Teilnehmerinformations-Verwaltungseinheit
134: Tonbildlokalisierungs-Verarbeitungseinheit
135: HRTF-Datenspeicherungseinheit
136: Systemton-Verwaltungseinheit
137: Zweikanalmix-Verarbeitungseinheit
138: Tonübertragungseinheit
201: Steuereinheit
211: Informationsverarbeitungseinheit
221: Tonverarbeitungseinheit
222: Einstellungsinformations-Übertragungseinheit
223: Benutzerzustands-Erkennungseinheit
231: Tonempfangseinheit
233: MIK-Tonbeschaffungseinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP H11331992 A [0005]

Claims

Informationsverarbeitungsvorrichtung, umfassend: eine Speicherungseinheit, ausgelegt zum Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und eine Tonbildlokalisierungs-Verarbeitungseinheit, die dafür ausgelegt ist, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe von Toneffekten gemäß der Aktion, die Ausgabe der Toneffekte anweist, die durch den spezifischen Teilnehmer ausgeführt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung an Tondaten der Effektperson unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Teilnehmers, der ein Zuhörer sein soll, und einer Position des spezifischen Teilnehmers, der die Aktion in einem virtuellen Raum ausgeführt hat.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe einer Stimme des spezifischen Teilnehmers gemäß der Aktion zum Auswählen des Teilnehmers als ein Hörziel einer Stimme, die durch den spezifischen Teilnehmer ausgeführt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei Auswahl des Teilnehmers als das Hörziel unter Verwendung von visuellen Informationen ausgeführt wird, die auf einem Bildschirm angezeigt werden und die den Teilnehmer visuell repräsentieren.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung mit Bezug auf Tondaten des spezifischen Teilnehmers unter Verwendung der HRTF-Daten gemäß einer Position von Ohren des Teilnehmers, der das Hörziel in einem virtuellen Raum sein soll.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Bereitstellen des Toninhalts zur Ausgabe einer Stimme eines Fokusobjektsprechers gemäß der Aktion zum Auswählen des Fokusobjektsprechers, die durch den spezifischen Teilnehmer ausgeführt wird.
Informationsverarbeitungsvorrichtung nach Anspruch 7, wobei die Auswahl des Fokusobjektsprechers unter Verwendung visueller Informationen ausgeführt wird, die auf einen Bildschirm angezeigt werden und die den Teilnehmer visuell repräsentieren.
Informationsverarbeitungsvorrichtung nach Anspruch 7, wobei die Tonbildlokalisierungs-Verarbeitungseinheit ausgelegt ist zum Ausführen der Tonbildlokalisierungs-Verarbeitung mit Bezug auf Tondaten des Fokusobjektsprechers unter Verwendung der HRTF-Daten gemäß einer Position in einer Umgebung einer Position des spezifischen Teilnehmers in einem virtuellen Raum.
Informationsverarbeitungsverfahren, das die folgenden Schritte umfasst, die durch eine Informationsverarbeitungsvorrichtung ausgeführt werden: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und Bereitstellen, durch Ausführen von Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, eines gemäß der Aktion ausgewählten Toninhalts so, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
Programm, das bewirkt, dass ein Computer folgende Verarbeitung ausführt: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; und Bereitstellen, durch Ausführen von Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, eines gemäß der Aktion ausgewählten Toninhalts so, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist.
Informationsverarbeitungsendgerät mit einer Tonempfangseinheit, ausgelegt zum: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die dafür ausgelegt ist, durch Ausführen von Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitzustellen, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und einen Ton auszugeben.
Informationsverarbeitungsendgerät nach Anspruch 12, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten von Toneffekten, die gemäß der Aktion, die Ausgabe der Toneffekte anweist, die durch den spezifischen Teilnehmer ausgeführt wird, übertragen werden.
Informationsverarbeitungsendgerät nach Anspruch 13, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten der Effektperson, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position eines Benutzers des Informationsverarbeitungsendgeräts und einer Position des spezifischen Benutzers, der die Aktion ausgeführt hat, in einem virtuellen Raum erhalten werden.
Informationsverarbeitungsendgerät nach Anspruch 12, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des spezifischen Teilnehmers, die gemäß der Aktion zum Auswählen des Benutzers des Informationsverarbeitungsendgeräts als den Teilnehmer als ein Hörziel eines Tons, die durch den spezifischen Teilnehmer ausgeführt wird, übertragen werden.
Informationsverarbeitungsendgerät nach Anspruch 15, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des spezifischen Teilnehmers, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Position von Ohren des Benutzers des Informationsverarbeitungsendgeräts in einem virtuellen Raum erhalten werden.
Informationsverarbeitungsendgerät nach Anspruch 12, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten eines Fokusobjektsprechers, die gemäß der Aktion zum Auswählen des Fokusobjektsprechers, die durch den Benutzer des Informationsverarbeitungsendgeräts als der spezifische Teilnehmer ausgeführt wird, übertragen werden.
Informationsverarbeitungsendgerät nach Anspruch 17, wobei die Tonempfangseinheit ausgelegt ist zum Empfangen von Tondaten des Fokusobjektsprechers, die durch Ausführen der Tonbildlokalisierungs-Verarbeitung unter Verwendung der HRTF-Daten gemäß einer Position in einer Umgebung einer Position des Benutzers des Informationsverarbeitungsendgeräts in einem virtuellen Raum erhalten werden.
Informationsverarbeitungsverfahren, das die folgenden Schritte umfasst, die durch ein Informationsverarbeitungsendgerät ausgeführt werden: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die durch Ausführen der Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, einen gemäß der Aktion ausgewählten Toninhalt so bereitstellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und Ausgabe eines Tons.
Programm, das bewirkt, dass ein Computer folgende Verarbeitung ausführt: Speichern von HRTF-Daten entsprechend mehreren Positionen auf der Basis einer Hörposition; Empfangen eines Toninhalts, der durch Ausführen von Tonbildlokalisierungs-Verarbeitung erhalten wird und von einer Informationsverarbeitungsvorrichtung übertragen wurde, die durch Ausführen der Tonbildlokalisierungsverarbeitung unter Verwendung der HRTF-Daten, die gemäß einer Aktion durch einen spezifischen Teilnehmer unter Teilnehmern eines Gesprächs, die über ein Netzwerk teilgenommen haben, ausgewählt werden, den gemäß der Aktion ausgewählten Toninhalt so bereitstellt, dass ein Tonbild an einer vorgeschriebenen Position lokalisiert ist; und Ausgeben eines Tons.