DE112021004727T5

DE112021004727T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm

Info

Publication number: DE112021004727T5
Application number: DE112021004727.2T
Authority: DE
Inventors: Takuto ONISHI; Kazunobu Ookuri; Hiroaki Shinohara; Asako Tomura; Satsuki SATO
Original assignee: Sony Interactive Entertainment Inc; Sony Group Corp
Current assignee: Sony Interactive Entertainment Inc; Sony Group Corp
Priority date: 2020-09-10
Filing date: 2021-09-10
Publication date: 2023-08-10
Also published as: JP2023155921A; WO2022054900A1; US20230362571A1; CN116057928A

Abstract

Eine Informationsverarbeitungsvorrichtung gemäß einem Aspekt der vorliegenden Technologie weist Folgendes auf: eine Speichereinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen; und eine Klangbildlokalisierungsverarbeitungseinheit, die einen Klangbildlokalisierungsprozess an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt. Die vorliegende Technologie kann auf einen Computer angewendet werden, der eine Fernkonferenz durchführt.

Description

Technisches Gebiet
Die vorliegende Technologie bezieht sich insbesondere auf eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsendgerät, ein Informationsverarbeitungsverfahren und ein Programm, die eine Äußerungsstimme gemäß einer Äußerungssituation leicht hörbar machen.
Hintergrund
Eine sogenannte Fernkonferenz, bei der mehrere Fernteilnehmer eine Konferenz unter Verwendung einer Vorrichtung wie etwa eines PCs abhalten, ist alltäglich geworden. Durch Starten eines Webbrowsers oder einer auf dem PC installierten dedizierten Anwendung und Zugreifen auf ein Zugriffsziel, das durch die jeder Konferenz zugewiesene URL angegeben wird, kann ein Benutzer, der die URL kennt, als Teilnehmer an der Konferenz teilnehmen.
Die vom Mikrofon erfasste Stimme des Teilnehmers wird über den Server an eine Vorrichtung übertragen, die durch einen anderen Teilnehmer verwendet wird, um sie über einen Kopfhörer oder einen Lautsprecher auszugeben. Ferner wird ein Video, das den von der Kamera aufgenommenen Teilnehmer zeigt, über den Server an eine durch einen anderen Teilnehmer verwendete Vorrichtung übertragen und auf einer Anzeige der Vorrichtung angezeigt.
Als Ergebnis kann jeder Teilnehmer ein Gespräch führen, während er in die Gesichter eines anderen Teilnehmers schaut.
Liste der Anführungen
Patentliteratur
Patentliteratur 1: JP 11-331992 A
Kurzdarstellung
Technisches Problem
Es ist schwierig, die Stimmen zu hören, wenn mehrere Teilnehmer gleichzeitig sprechen.
Da die Stimme des Teilnehmers nur planar ausgegeben wird, ist es darüber hinaus nicht möglich, ein Klangbild oder dergleichen zu fühlen, und es ist schwierig, aus der Stimme das Gefühl zu gewinnen, dass der Teilnehmer existiert.
Die vorliegende Technologie wurde im Hinblick auf eine solche Situation entwickelt, und eine Aufgabe der vorliegenden Technologie besteht darin, eine Äußerungsstimme gemäß einer Äußerungssituation leicht hörbar zu machen.
Lösung des Problems
Eine Informationsverarbeitungsvorrichtung gemäß einem Aspekt der vorliegenden Technologie weist Folgendes auf: eine Speichereinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen; und eine Klangbildlokalisierungsverarbeitungseinheit, die einen Klangbildlokalisierungsprozess an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt.
Ein Informationsverarbeitungsendgerät gemäß einem anderen Aspekt der vorliegenden Technologie weist Folgendes auf: eine Tonempfangseinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen, Tondaten eines Sprechers empfängt, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt und eine Stimme des Sprechers ausgibt.
In einem Aspekt dieser Technologie werden HRTF-Daten gespeichert, die mehreren Positionen basierend auf einer Hörposition entsprechen; und ein Klangbildlokalisierungsprozess wird an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchgeführt.
In einem anderen Aspekt dieser Technologie werden HRTF-Daten gespeichert, die mehreren Positionen basierend auf einer Hörposition entsprechen, Tondaten eines Sprechers, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, werden empfangen, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt, und eine Stimme des Sprechers wird ausgegeben.
Figurenliste

1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Telekommunikationssystems gemäß einer Ausführungsform der vorliegenden Technologie darstellt.
2 ist ein Diagramm, das ein Beispiel der Übertragung und des Empfangs von Tondaten darstellt.
3 ist eine Draufsicht, die ein Beispiel einer Position eines Benutzers in einem virtuellen Raum darstellt.
4 ist ein Diagramm, das ein Anzeigebeispiel eines Fernkonferenzbildschirms darstellt.
5 ist ein Diagramm, das ein Beispiel dafür darstellt, wie eine Stimme gehört wird.
6 ist ein Diagramm, das ein weiteres Beispiel dafür darstellt, wie eine Stimme gehört wird.
7 ist ein Diagramm, das einen Zustand eines Benutzers darstellt, der an einer Konferenz teilnimmt.
8 ist ein Flussdiagramm, das einen grundlegenden Prozess eines Kommunikationsverwaltungsservers darstellt.
9 ist ein Flussdiagramm, das einen grundlegenden Prozess eines Client-Endgeräts darstellt.
10 ist ein Blockdiagramm, das ein Hardwarekonfigurationsbeispiel eines Kommunikationsverwaltungsservers darstellt.
11 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel eines Kommunikationsverwaltungsservers darstellt.
12 ist ein Diagramm, das ein Beispiel von Teilnehmerinformationen darstellt.
13 ist ein Blockdiagramm, das ein Hardwarekonfigurationsbeispiel eines Client-Endgeräts darstellt.
14 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel eines Client-Endgeräts darstellt.
15 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Anpassung der Hintergrundtoneinstellung darstellt.
16 ist ein Flussdiagramm, das einen Steuerprozess eines Kommunikationsverwaltungsservers darstellt.
17 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Anpassung einer Klangbildlokalisierung gemäß einer Äußerungssituation darstellt.
18 ist ein Flussdiagramm, das einen Steuerprozess eines Kommunikationsverwaltungsservers darstellt.
19 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich des dynamischen Umschaltens des Klangbildlokalisierungsprozesses darstellt.
20 ist ein Flussdiagramm, das einen Steuerprozess eines Kommunikationsverwaltungsservers darstellt.
21 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Verwaltung einer Klangeffekteinstellung darstellt.

Beschreibung der Ausführungsformen
Im Folgenden werden Modi zum Ausführen der vorliegenden Technologie beschrieben. Die Beschreibung erfolgt in der folgenden Reihenfolge.

1. Konfiguration des Telekommunikationssystems
2. Grundbetrieb
3. Konfiguration jeder Vorrichtung
4. Verwendungsfall der Klangbildlokalisierung
5. Modifikation

<< Konfiguration des Telekommunikationssystems >>
1 ist ein Diagramm, das ein Konfigurationsbeispiel eines Telekommunikationssystems gemäß einer Ausführungsform der vorliegenden Technologie darstellt.
Das Telekommunikationssystem in 1 wird konfiguriert, indem mehrere Client-Endgeräte, die durch Konferenzteilnehmer verwendet werden, über ein Netzwerk 11 wie das Internet mit dem Kommunikationsverwaltungsserver 1 verbunden werden. In dem Beispiel von 1 sind Client-Endgeräte 2A bis 2D, bei denen es sich um PCs handelt, als Client-Endgeräte dargestellt, die von Benutzern A bis D verwendet werden, bei denen es sich um Teilnehmer der Konferenz handelt.
Als Client-Endgerät kann eine andere Vorrichtung, wie beispielsweise ein Smartphone oder ein Tablet-Endgerät, das ein Toneingabegerät, wie etwa ein Mikrofon, und ein Tonausgabegerät, wie etwa einen Kopfhörer oder einen Lautsprecher, aufweist, verwendet werden. In einem Fall, in dem es nicht notwendig ist, zwischen den Client-Endgeräten 2A bis 2D zu unterscheiden, wird das Client-Endgerät zweckmäßig als Client-Endgerät 2 bezeichnet.
Die Benutzer A bis D sind Benutzer, die an derselben Konferenz teilnehmen. Es sei angemerkt, dass die Anzahl der an der Konferenz teilnehmenden Benutzer nicht auf vier beschränkt ist.
Der Kommunikationsverwaltungsserver 1 verwaltet eine Konferenz, die von mehreren Benutzern abgehalten wird, die online ein Gespräch führen. Der Kommunikationsverwaltungsserver 1 ist eine Informationsverarbeitungsvorrichtung, die die Übertragung und den Empfang von Stimmen zwischen den Client-Endgeräten 2 steuert und eine sogenannte Fernkonferenz verwaltet.
Wie beispielsweise durch einen Pfeil A1 im oberen Teil von 2 angegeben, empfängt der Kommunikationsverwaltungsserver 1 die Tondaten des Benutzers A, die von dem Client-Endgerät 2A als Reaktion auf die Äußerung des Benutzers A übertragen werden. Die Tondaten des Benutzers A, die durch das in dem Client-Endgerät 2A bereitgestellte Mikrofon erfasst werden, werden von dem Client-Endgerät 2A übertragen.
Der Kommunikationsverwaltungsserver 1 überträgt die Tondaten des Benutzers A an jedes der Client-Endgeräte 2B bis 2D, wie durch die Pfeile A11 bis A13 im unteren Teil von 2 angegeben, um die Stimme des Benutzers A auszugeben. In einem Fall, in dem der Benutzer A als Sprecher spricht, werden die Benutzer B bis D zu Zuhörern. Im Folgenden wird ein Benutzer, der ein Sprecher ist, als ein sprechender Benutzer bezeichnet, und ein Benutzer, der ein Zuhörer ist, wird entsprechend als ein zuhörender Benutzer bezeichnet.
In ähnlicher Weise werden in einem Fall, in dem ein anderer Benutzer eine Äußerung getätigt hat, die Tondaten, die von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden, über den Kommunikationsverwaltungsserver 1 an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2 übertragen.
Der Kommunikationsverwaltungsserver 1 verwaltet die Position jedes Benutzers im virtuellen Raum. Der virtuelle Raum ist beispielsweise ein dreidimensionaler Raum, der virtuell als Ort eingerichtet ist, an dem eine Konferenz abgehalten wird. Die Position im virtuellen Raum wird durch dreidimensionale Koordinaten dargestellt.
3 ist eine Draufsicht, die ein Beispiel der Position des Benutzers im virtuellen Raum darstellt.
In dem Beispiel von 3 ist ein vertikal langer rechteckiger Tisch T im Wesentlichen in der Mitte eines virtuellen Raums angeordnet, der durch einen rechteckigen Rahmen F angegeben wird, und Positionen P1 bis P4, die Positionen um den Tisch T herum sind, sind als Positionen von Benutzern A bis D festgelegt. Die vordere Richtung jedes Benutzers ist die Richtung zu dem Tisch T von der Position jedes Benutzers.
Während der Konferenz wird auf dem Bildschirm des durch jeden Benutzer verwendeten Client-Endgeräts 2, wie in 4 dargestellt, ein Teilnehmer-Icon, bei dem es sich um Informationen handelt, die den Benutzer visuell darstellen, in Überlagerung mit einem Hintergrundbild, das einen Ort darstellt, an dem die Konferenz abgehalten wird, angezeigt. Die Position des Teilnehmer-Icons auf dem Bildschirm ist eine Position, die der Position jedes Benutzers im virtuellen Raum entspricht.
In dem Beispiel von 4 ist das Teilnehmer-Icon als kreisförmiges Bild konfiguriert, das das Gesicht des Benutzers aufweist. Das Teilnehmer-Icon wird in einer Größe angezeigt, die dem Abstand von der im virtuellen Raum festgelegten Referenzposition zu der Position jedes Benutzers entspricht. Die Teilnehmer-Icons I1 bis 14 stellen jeweils die Benutzer A bis D dar.
Beispielsweise wird die Position jedes Benutzers automatisch durch den Kommunikationsverwaltungsserver 1 eingestellt, wenn der Benutzer an der Konferenz teilnimmt. Die Position im virtuellen Raum kann durch den Benutzer selbst eingestellt werden, indem er/sie das Teilnehmer-Icon auf dem Bildschirm von 4 bewegt oder dergleichen.
Der Kommunikationsverwaltungsserver 1 weist HRTF-Daten auf, bei denen es sich um Daten einer kopfbezogenen Übertragungsfunktion (HRTF: Head-Related Transfer Function) handelt, die Tonübertragungscharakteristiken von mehreren Positionen zu einer Hörposition darstellen, wenn jede Position im virtuellen Raum als die Hörposition eingestellt ist. Die HRTF-Daten, die mehreren Positionen basierend auf jeder Hörposition im virtuellen Raum entsprechen, werden in dem Kommunikationsverwaltungsserver 1 vorbereitet.
Der Kommunikationsverwaltungsserver 1 führt einen Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten an den Tondaten durch, sodass die Stimme des sprechenden Benutzers von der Position des sprechenden Benutzers im virtuellen Raum für jeden zuhörenden Benutzer zu hören ist, um die durch Durchführen des Klangbildlokalisierungsprozesses erhaltenen Tondaten zu übertragen.
Die wie oben beschrieben an das Client-Endgerät 2 übertragenen Tondaten sind Tondaten, die durch Durchführen des Klangbildlokalisierungsprozesses in dem Kommunikationsverwaltungsserver 1 erhalten werden. Der Klangbildlokalisierungsprozess weist Rendern, wie etwa Amplitudenpanorama auf Vektorbasis (VBAP), basierend auf Positionsinformationen und binaurale Verarbeitung unter Verwendung von HRTF-Daten auf.
Das heißt, die Stimme jedes sprechenden Benutzers wird in dem Kommunikationsverwaltungsserver 1 als die Tondaten des Objektaudios verarbeitet. Beispielsweise werden L/R-Zweikanalkanal-basierte Audiodaten, die durch den Klangbildlokalisierungsprozess im Kommunikationsverwaltungsserver 1 erzeugt werden, von dem Kommunikationsverwaltungsserver 1 an jedes Client-Endgerät 2 übertragen, und die Stimme des sprechenden Benutzers wird über im Client-Endgerät 2 bereitgestellte Kopfhörer oder dergleichen ausgegeben.
Durch Durchführen des Klangbildlokalisierungsprozesses unter Verwendung der HRTF-Daten gemäß der relativen Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Position des sprechenden Benutzers fühlt jeder der zuhörenden Benutzer, dass die Stimme des sprechenden Benutzers aus der Position des sprechenden Benutzers gehört wird.
5 ist ein Diagramm, das ein Beispiel dafür darstellt, wie eine Stimme gehört wird.
Wenn der Benutzer A, dessen Position Pl als die Position im virtuellen Raum eingestellt ist, als der zuhörende Benutzer fokussiert wird, wird die Stimme des Benutzers B aus einer nahen rechten Position gehört, indem der Klangbildlokalisierungsprozess basierend auf den HRTF-Daten zwischen der Position P2 und der Position P1 mit der Position P2 als Tonquellenposition durchgeführt wird, wie durch den Pfeil in 6 angegeben. Die Vorderseite des Benutzers A, der ein Gespräch mit dem Client-Endgerät 2A zugewandtem Gesicht führt, ist die Richtung zu dem Client-Endgerät 2A.
Ferner wird die Stimme des Benutzers C von vorne gehört, indem der Klangbildlokalisierungsprozess basierend auf den HRTF-Daten zwischen der Position P3 und der Position P1 mit der Position P3 als Tonquellenposition durchgeführt wird. Die Stimme des Benutzers D aus einer entfernten rechten Position gehört, indem der Klangbildlokalisierungsprozess basierend auf den HRTF-Daten zwischen der Position P4 und der Position P1 mit der Position P4 als Tonquellenposition durchgeführt wird.
Dasselbe gilt für einen Fall, in dem ein anderer Benutzer ein zuhörender Benutzer ist. Beispielsweise wir, wie in 6 dargestellt, die Stimme des Benutzers A für den Benutzer B, der ein Gespräch mit dem Client-Endgerät 2B zugewandtem Gesicht führt, aus einer nahen linken Position gehört und wird für den Benutzer C, der ein Gespräch mit dem Client-Endgerät 2C zugewandtem Gesicht führt, von vorne gehört. Ferner wird die Stimme des Benutzers A für den Benutzer D, der ein Gespräch mit dem Client-Endgerät 2D zugewandtem Gesicht führt, aus einer entfernten rechten Position zu hören.
Wie oben beschrieben, werden in dem Kommunikationsverwaltungsserver 1 die Tondaten für jeden zuhörenden Benutzer gemäß der Positionsbeziehung zwischen der Position jedes zuhörenden Benutzers und der Position des sprechenden Benutzers erzeugt und zum Ausgeben der Stimme des sprechenden Benutzers verwendet. Die an jeden der zuhörenden Benutzer übertragenen Tondaten sind Tondaten, die sich darin unterscheiden, wie der sprechende Benutzer gemäß der Positionsbeziehung zwischen der Position jedes der zuhörenden Benutzer und der Position des sprechenden Benutzers gehört wird.
7 ist ein Diagramm, das einen Zustand eines Benutzers darstellt, der an einer Konferenz teilnimmt.
Zum Beispiel hört der Benutzer A, der den Kopfhörer trägt und an der Konferenz teilnimmt, die Stimmen der Benutzer B bis D, deren Klangbilder an der nahen rechten Position, der vorderen Position bzw. der entfernten rechten Position lokalisiert sind, und führt ein Gespräch. Wie unter Bezugnahme auf 5 und dergleichen beschrieben, sind basierend auf der Position des Benutzers A die Positionen der Benutzer B bis D die nahe rechte Position, die vordere Position bzw. die entfernte rechte Position. Es sei angemerkt, dass in 7 die Tatsache, dass die Benutzer B bis D farbig sind, angibt, dass sich die Benutzer B bis D nicht in demselben Raum befinden, in dem der Benutzer A die Konferenz durchführt.
Es sei angemerkt, dass, wie später beschrieben wird, Hintergrundtöne wie Vogelgezwitscher und Hintergrundmusik auch basierend auf Tondaten ausgegeben werden, die durch den Klangbildlokalisierungsprozess erhalten werden, sodass das Klangbild an einer vorbestimmten Position lokalisiert wird.
Der durch den Kommunikationsverwaltungsserver 1 zu verarbeitende Ton weist nicht nur die Äußerungsstimme, sondern auch Töne wie einen Umgebungston und einen Hintergrundton auf. Im Folgenden wird in einem Fall, in dem es nicht notwendig ist, die Arten der jeweiligen Töne zu unterscheiden, ein durch den Kommunikationsverwaltungsserver 1 zu verarbeitender Ton einfach als ein Ton beschrieben. Tatsächlich weist der durch den Kommunikationsverwaltungsserver 1 zu verarbeitende Ton Töne einer anderen Art als Stimme auf.
Da die Stimme des sprechenden Benutzers von der Position gehört wird, die der Position im virtuellen Raum entspricht, kann der zuhörende Benutzer selbst in einem Fall, in dem es mehrere Teilnehmer gibt, leicht zwischen den Stimmen der jeweiligen Benutzer unterscheiden. Beispielsweise kann der zuhörende Benutzer selbst in einem Fall, in dem mehrere Benutzer gleichzeitig Äußerungen tätigen, zwischen den jeweiligen Stimmen unterscheiden.
Ferner kann, da die Stimme des sprechenden Benutzers stereoskopisch wahrgenommen werden kann, der zuhörende Benutzer das Gefühl erhalten, dass sich der sprechende Benutzer an der Position des Klangbilds von der Stimme befindet. Der zuhörende Benutzer kann ein realistisches Gespräch mit einem anderen Benutzer führen.
<< Grundbetrieb >>
Hier wird ein Ablauf grundlegender Operationen des Kommunikationsverwaltungsservers 1 und des Client-Endgeräts 2 beschrieben.
< Betrieb des Kommunikationsverwaltungsservers 1 >
Der grundlegende Prozess des Kommunikationsverwaltungsservers 1 wird unter Bezugnahme auf ein Flussdiagramm von 8 beschrieben.
In Schritt S1 bestimmt der Kommunikationsverwaltungsserver 1, ob die Tondaten von dem Client-Endgerät 2 übertragen wurden, und wartet, bis bestimmt wird, dass die Tondaten übertragen wurden.
In einem Fall, in dem in Schritt S1 bestimmt wird, dass die Tondaten von dem Client-Endgerät 2 übertragen wurden, empfängt der Kommunikationsverwaltungsserver 1 in Schritt S2 die von dem Client-Endgerät 2 übertragenen Tondaten.
In Schritt S3 führt der Kommunikationsverwaltungsserver 1 einen Klangbildlokalisierungsprozess basierend auf den Positionsinformationen über jeden Benutzer durch und erzeugt Tondaten für jeden zuhörenden Benutzer.
Beispielsweise werden die Tondaten für den Benutzer A so erzeugt, dass das Klangbild der Stimme des sprechenden Benutzers an einer Position lokalisiert wird, die der Position des sprechenden Benutzers entspricht, wenn die Position des Benutzers A als Referenz verwendet wird.
Ferner werden die Tondaten für den Benutzer B so erzeugt, dass das Klangbild der Stimme des sprechenden Benutzers an einer Position lokalisiert wird, die der Position des sprechenden Benutzers entspricht, wenn die Position des Benutzers B als Referenz verwendet wird.
In ähnlicher Weise werden die Tondaten für einen anderen zuhörenden Benutzer unter Verwendung der HRTF-Daten gemäß der relativen Positionsbeziehung mit dem sprechenden Benutzer mit der Position des zuhörenden Benutzers als Referenz erzeugt. Die Tondaten für jeweilige zuhörende Benutzer sind unterschiedliche Daten.
In Schritt S4 überträgt der Kommunikationsverwaltungsserver 1 Tondaten an jeden zuhörenden Benutzer. Die obige Verarbeitung wird jedes Mal durchgeführt, wenn Tondaten von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden.
< Betrieb des Client-Endgerät 2 >
Der grundlegende Prozess des Client-Endgeräts 2 wird unter Bezugnahme auf das Flussdiagramm von 9 beschrieben.
In Schritt S11 bestimmt das Client-Endgerät 2, ob ein Mikrofonton eingegeben wurde. Der Mikrofonton ist ein Ton, der durch ein in dem Client-Endgerät 2 bereitgestelltes Mikrofon erfasst wird.
Wird in Schritt S11 bestimmt, dass der Mikrofonton eingegeben wurde, so überträgt das Client-Endgerät 2 in Schritt S12 die Tondaten an den Kommunikationsverwaltungsserver 1. Wird in Schritt S11 bestimmt, dass der Mikrofonton nicht eingegeben wurde, so wird der Prozess von Schritt S12 übersprungen.
In Schritt S13 bestimmt das Client-Endgerät 2, ob Tondaten von dem Kommunikationsverwaltungsserver 1 übertragen wurden.
Wird in Schritt S13 bestimmt, dass die Tondaten übertragen wurden, so empfängt der Kommunikationsverwaltungsserver 1 in Schritt S14 die Tondaten, um die Stimme des sprechenden Benutzers auszugeben.
Nachdem die Stimme des sprechenden Benutzers ausgegeben wurde, oder in einem Fall, in dem in Schritt S13 bestimmt wird, dass die Tondaten nicht übertragen wurden, kehrt der Prozess zu Schritt S11 zurück und die oben beschriebene Verarbeitung wird wiederholt durchgeführt.
<< Konfiguration jeder Vorrichtung >>
< Konfiguration des Kommunikationsverwaltungsservers 1 >
10 ist ein Blockdiagramm, das ein Hardwarekonfigurationsbeispiel eines Kommunikationsverwaltungsservers 1 darstellt.
Der Kommunikationsverwaltungsserver 1 weist einen Computer auf. Der Kommunikationsverwaltungsserver 1 kann einen Computer mit der in 10 dargestellten Konfiguration aufweisen oder kann mehrere Computer aufweisen.
Eine CPU 101, ein ROM 102 und ein RAM 103 sind durch einen Bus 104 miteinander verbunden. Die CPU 101 führt ein Serverprogramm 101A aus und steuert den Gesamtbetrieb des Kommunikationsverwaltungsservers 1. Das Serverprogramm 101A ist ein Programm zum Realisieren eines Telekommunikationssystems.
Eine Eingabe/Ausgabe-Schnittstelle 105 ist ferner mit dem Bus 104 verbunden. Eine Eingabeeinheit 106 einschließlich einer Tastatur, einer Maus und dergleichen und eine Ausgabeeinheit 107 einschließlich einer Anzeige, eines Lautsprechers und dergleichen sind mit der Eingabe/Ausgabe-Schnittstelle 105 verbunden.
Ferner sind eine Speicherungseinheit 108, die eine Festplatte, einen nichtflüchtigen Speicher oder dergleichen aufweist, eine Kommunikationseinheit 109, die eine Netzwerkschnittstelle oder dergleichen aufweist, und ein Laufwerk 110, das einen Wechseldatenträger 111 antreibt, mit der Eingabe/Ausgabe-Schnittstelle 105 verbunden. Beispielsweise kommuniziert die Kommunikationseinheit 109 über das Netzwerk 11 mit dem durch den Benutzer verwendeten Client-Endgerät 2.
11 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel des Kommunikationsverwaltungsservers 1 darstellt. Zumindest einige der in 11 dargestellten Funktionseinheiten werden durch die CPU 101 in 10, die das Serverprogramm 101A ausführt, realisiert.
In dem Kommunikationsverwaltungsserver 1 ist eine Informationsverarbeitungseinheit 121 implementiert. Die Informationsverarbeitungseinheit 121 weist eine Tonempfangseinheit 131, eine Signalverarbeitungseinheit 132, eine Teilnehmerinformationsverwaltungseinheit 133, eine Klangbildlokalisierungsverarbeitungseinheit 134, eine HRTF-Datenspeichereinheit 135, eine Systemtonverwaltungseinheit 136, einen 2-Kanal-Mischverarbeitungseinheit 137 und eine Tonübertragungseinheit 138 auf.
Die Tonempfangseinheit 131 bewirkt, dass die Kommunikationseinheit 109 die Tondaten empfängt, die von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden. Die durch die Tonempfangseinheit 131 empfangenen Tondaten werden an die Signalverarbeitungseinheit 132 ausgegeben.
Die Signalverarbeitungseinheit 132 führt in geeigneter Weise einen vorbestimmten Signalprozess an Tondaten durch, die von der Tonempfangseinheit 131 geliefert werden, um Tondaten, die durch Durchführen des Signalprozesses erhalten werden, an die Klangbildlokalisierungsverarbeitungseinheit 134 auszugeben. Beispielsweise wird der Prozess des Trennens der Stimme des sprechenden Benutzers und des Umgebungstons durch die Signalverarbeitungseinheit 132 durchgeführt. Der Mikrofonton weist zusätzlich zu der Stimme des sprechenden Benutzers einen Umgebungston, wie etwa Geräusche in einem Raum, in dem sich der sprechende Benutzer befindet, auf.
Die Teilnehmerinformationsverwaltungseinheit 133 bewirkt, dass die Kommunikationseinheit 109 mit dem Client-Endgerät 2 oder dergleichen zu kommuniziert, wodurch die Teilnehmerinformationen verwaltet werden, bei denen es sich um Informationen über den Teilnehmer der Konferenz handelt.
12 ist ein Diagramm, das ein Beispiel von Teilnehmerinformationen darstellt.
Wie in 12 dargestellt, weisen die Teilnehmerinformationen Benutzerinformationen, Positionsinformationen, Einstellungsinformationen und Lautstärkeinformationen auf.
Die Benutzerinformationen sind Informationen über einen Benutzer, der an einer durch einen bestimmten Benutzer eingerichteten Konferenz teilnimmt. Beispielsweise umfassen die Benutzerinformationen eine Benutzer-ID und dergleichen. Andere Informationen, die in den Teilnehmerinformationen enthalten sind, werden beispielsweise in Verbindung mit den Benutzerinformationen verwaltet.
Die Positionsinformationen sind Informationen, die die Position jedes Benutzers im virtuellen Raum darstellen.
Die Einstellungsinformationen sind Informationen, die Inhalte von Einstellungen bezüglich der Konferenz darstellen, wie etwa die Einstellung eines Hintergrundtons, der in der Konferenz verwendet werden soll.
Die Lautstärkeinformationen sind Informationen, die eine Tonlautstärke zum Zeitpunkt des Ausgebens einer Stimme jedes Benutzers darstellen.
Die durch die Teilnehmerinformationsverwaltungseinheit 133 verwalteten Teilnehmerinformationen werden an die Klangbildlokalisierungsverarbeitungseinheit 134 geliefert. Die durch die Teilnehmerinformationsverwaltungseinheit 133 verwalteten Teilnehmerinformationen werden auch nach Bedarf an die Systemtonverwaltungseinheit 136, die 2-Kanal-Mischverarbeitungseinheit 137, die Tonübertragungseinheit 138 und dergleichen geliefert. Wie oben beschrieben, fungiert die Teilnehmerinformationsverwaltungseinheit 133 als Positionsverwaltungseinheit, die die Position jedes Benutzers im virtuellen Raum verwaltet, und fungiert auch als Hintergrundtonverwaltungseinheit, die die Einstellung des Hintergrundtons verwaltet.
Die Klangbildlokalisierungsverarbeitungseinheit 134 liest und erfasst die HRTF-Daten gemäß der Positionsbeziehung jedes Benutzers aus der HRTF-Datenspeichereinheit 135 basierend auf den von der Teilnehmerinformationsverwaltungseinheit 133 gelieferten Positionsinformationen. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt einen Klangbildlokalisierungsprozess unter Verwendung der aus der HRTF-Datenspeichereinheit 135 gelesenen HRTF-Daten an den von der Signalverarbeitungseinheit 132 gelieferten Tondaten durch, um Tondaten für jeden zuhörenden Benutzer zu erzeugen.
Ferner führt die Klangbildlokalisierungsverarbeitungseinheit 134 einen Klangbildlokalisierungsprozess unter Verwendung vorbestimmter HRTF-Daten an den Daten des Systemtons durch, die von der Systemtonverwaltungseinheit 136 geliefert werden. Der Systemton ist ein Ton, der durch den Kommunikationsverwaltungsserver 1 erzeugt und durch den zuhörenden Benutzer zusammen mit der Stimme des sprechenden Benutzers gehört wird. Der Systemton umfasst zum Beispiel einen Hintergrundton wie Hintergrundmusik und einen Klangeffekt. Der Systemton ist ein Ton, der sich von der Stimme des Benutzers unterscheidet.
Das heißt, in dem Kommunikationsverwaltungsserver 1 wird ein anderer Ton als die Stimme des sprechenden Benutzers, wie etwa ein Hintergrundton oder ein Klangeffekt, auch als das Objektaudio verarbeitet. Ein Klangbildlokalisierungsprozess zum Lokalisieren eines Klangbilds an einer vorbestimmten Position im virtuellen Raum wird auch an den Tondaten des Systemtons durchgeführt. Beispielsweise wird der Klangbildlokalisierungsprozess zum Lokalisieren eines Klangbilds an einer Position, die weiter entfernt ist als die Position des Teilnehmers, an den Tondaten des Hintergrundtons durchgeführt.
Die Klangbildlokalisierungsverarbeitungseinheit 134 gibt Tondaten, die durch Durchführen des Klangbildlokalisierungsprozesses erhalten wurden, an die 2-Kanal-Mischungsverarbeitungseinheit 137 aus. Die Tondaten des sprechenden Benutzers und die Tondaten des Systemtons werden nach Bedarf an die 2-Kanal-Mischverarbeitungseinheit 137 ausgegeben.
Die HRTF-Datenspeichereinheit 135 speichert HRTF-Daten, die mehreren Positionen basierend auf jeweiligen Hörpositionen im virtuellen Raum entsprechen.
Die Systemtonverwaltungseinheit 136 verwaltet einen Systemton. Die Systemtonverwaltungseinheit 136 gibt die Tondaten des Systemtons an die Klangbildlokalisierungsverarbeitungseinheit 134 aus.
Die 2-Kanal-Mischverarbeitungseinheit 137 führt einen 2-Kanal-Mischprozess an den von der Klangbildlokalisierungsverarbeitungseinheit 134 gelieferten Tondaten durch. Durch Durchführen des 2-Kanal-Mischprozesses werden kanalbasierte Audiodaten einschließlich der Komponenten eines Audiosignals L und eines Audiosignals R der Stimme des sprechenden Benutzers bzw. des Systemtons erzeugt. Die durch Durchführen des 2-Kanal-Mischprozesses erhaltenen Tondaten werden an die Tonübertragungseinheit 138 ausgegeben.
Die Tonübertragungseinheit 138 bewirkt, dass die Kommunikationseinheit 109 die von der 2-Kanal-Mischverarbeitungseinheit 137 gelieferten Tondaten an das durch jeden zuhörenden Benutzer verwendete Client-Endgerät 2 überträgt.
< Konfiguration des Client-Endgeräts 2 >
13 ist ein Blockdiagramm, das ein Hardwarekonfigurationsbeispiel des Client-Endgeräts 2 darstellt.
Das Client-Endgerät 2 wird durch Verbinden eines Speichers 202, einer Toneingabevorrichtung 203, einer Tonausgabevorrichtung 204, einer Bedieneinheit 205, einer Kommunikationseinheit 206, einer Anzeige 207 und einer Sensoreinheit 208 mit einer Steuereinheit 201 konfiguriert.
Die Steuereinheit 201 umfasst eine CPU, einen ROM, einen RAM und dergleichen. Die Steuereinheit 201 steuert den gesamten Betrieb des Client-Endgeräts 2 durch Ausführen eines Client-Programms 201A. Das Client-Programm 201A ist ein Programm zum Verwenden des Telekommunikationssystems, das durch den Kommunikationsverwaltungsserver 1 verwaltet wird. Das Client-Programm 201A weist ein übertragungsseitiges Modul 201A-1, das einen übertragungsseitigen Prozess ausführt, und ein empfangsseitiges Modul 201A-2, das einen empfangsseitigen Prozess ausführt, auf.
Der Speicher 202 weist einen Flash-Speicher oder dergleichen auf. Der Speicher 202 speichert verschiedene Arten von Informationen, wie etwa das durch die Steuereinheit 201 ausgeführte Client-Programm 201A.
Die Toneingabevorrichtung 203 weist ein Mikrofon auf. Der durch die Toneingabevorrichtung 203 erfasste Ton wird als Mikrofonton an die Steuereinheit 201 ausgegeben.
Die Tonausgabevorrichtung 204 weist eine Vorrichtung wie etwa einen Kopfhörer oder einen Lautsprecher auf. Die Tonausgabevorrichtung 204 gibt die Stimme oder dergleichen des Konferenzteilnehmers basierend auf dem von der Steuereinheit 201 gelieferten Audiosignal aus.
Im Folgenden erfolgt eine Beschreibung unter der Annahme, dass die Toneingabevorrichtung 203 gegebenenfalls ein Mikrofon ist. Ferner erfolgt eine Beschreibung unter der Annahme, dass die Tonausgabevorrichtung 204 ein Kopfhörer ist.
Die Bedieneinheit 205 weist verschiedene Tasten und ein Berührungsfeld, das so bereitgestellt ist, dass es die Anzeige 207 überlappt, auf. Die Bedieneinheit 205 gibt Informationen, die den Inhalt der Benutzerbedienung darstellen, an die Steuereinheit 201 aus.
Die Kommunikationseinheit 206 ist ein Kommunikationsmodul, das einer drahtlosen Kommunikation eines Mobilkommunikationssystems, wie z. B. einer 5G-Kommunikation, entspricht, ein Kommunikationsmodul, das einem drahtlosen LAN entspricht, oder dergleichen. Die Kommunikationseinheit 206 empfängt von der Basisstation ausgegebene Funkwellen und kommuniziert über das Netzwerk 11 mit verschiedenen Vorrichtungen, wie etwa dem Kommunikationsverwaltungsserver 1. Die Kommunikationseinheit 206 empfängt von dem Kommunikationsverwaltungsserver 1 übertragene Informationen, um die Informationen an die Steuereinheit 201 auszugeben. Ferner überträgt die Kommunikationseinheit 206 die von der Steuereinheit 201 gelieferten Informationen an den Kommunikationsverwaltungsserver 1.
Die Anzeige 207 weist eine organische EL-Anzeige, ein LCD oder dergleichen auf. Auf der Anzeige 207 werden verschiedene Bildschirme, wie etwa ein Fernkonferenzbildschirm, angezeigt.
Die Sensoreinheit 208 weist verschiedene Sensoren, wie etwa eine RGB-Kamera, eine Tiefenkamera, einen Gyrosensor und einen Beschleunigungssensor, auf. Die Sensoreinheit 208 gibt Sensordaten, die durch Durchführen einer Messung erhalten werden, an die Steuereinheit 201 aus. Die Situation des Benutzers wird basierend auf den durch die Sensoreinheit 208 gemessenen Sensordaten in geeigneter Weise erkannt.
14 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel des Client-Endgeräts 2 darstellt. Zumindest einige der in 14 dargestellten Funktionseinheiten werden durch die Steuereinheit 201 in 13, die das Client-Programm 201A ausführt, realisiert.
In dem Client-Endgerät 2 ist eine Informationsverarbeitungseinheit 211 realisiert. Die Informationsverarbeitungseinheit 211 weist eine Tonverarbeitungseinheit 221, eine Einstellungsinformationsübertragungseinheit 222, eine Benutzersituationserkennungseinheit 223 und eine Anzeigesteuereinheit 224 auf.
Die Informationsverarbeitungseinheit 211 weist eine Tonempfangseinheit 231, eine Ausgabesteuereinheit 232, eine Mikrofontonerfassungseinheit 233 und eine Tonübertragungseinheit 234 auf.
Die Tonempfangseinheit 231 bewirkt, dass die Kommunikationseinheit 206 die von dem Kommunikationsverwaltungsserver 1 übertragenen Tondaten empfängt. Die durch die Tonempfangseinheit 231 empfangenen Tondaten werden an die Ausgabesteuereinheit 232 geliefert.
Die Ausgabesteuereinheit 232 bewirkt, dass die Tonausgabevorrichtung 204 einen Ton ausgibt, der den von dem Kommunikationsverwaltungsserver 1 übertragenen Tondaten entspricht.
Die Mikrofontonerfassungseinheit 233 erfasst Tondaten des durch das die Toneingabevorrichtung 203 bildende Mikrofon erfassten Mikrofontons. Die durch die Mikrofontonerfassungseinheit 233 erfassten Tondaten des Mikrofontons werden an die Tonübertragungseinheit 234 geliefert.
Die Tonübertragungseinheit 234 bewirkt, dass die Kommunikationseinheit 206 die von der Mikrofontonerfassungseinheit 233 gelieferten Tondaten des Mikrofontons an den Kommunikationsverwaltungsserver 1 überträgt.
Die Einstellungsinformationsübertragungseinheit 222 erzeugt Einstellungsinformationen, die Inhalte verschiedener Einstellungen gemäß einer Bedienung eines Benutzers darstellen. Die Einstellungsinformationsübertragungseinheit 222 bewirkt, dass die Kommunikationseinheit 206 die Einstellungsinformation an den Kommunikationsverwaltungsserver 1 überträgt.
Die Benutzersituationserkennungseinheit 223 erkennt die Situation des Benutzers basierend auf den durch die Sensoreinheit 208 gemessenen Sensordaten. Die Benutzersituationserkennungseinheit 223 bewirkt, dass die Kommunikationseinheit 206 Informationen, die die Situation des Benutzers darstellen, an den Kommunikationsverwaltungsserver 1 überträgt.
Die Anzeigesteuereinheit 224 bewirkt, dass die Kommunikationseinheit 206 mit dem Kommunikationsverwaltungsserver 1 kommuniziert, und bewirkt, dass die Anzeige 207 den Fernkonferenzbildschirm basierend auf den von dem Kommunikationsverwaltungsserver 1 übertragenen Informationen anzeigt.
<< Verwendungsfall der Klangbildlokalisierung >>
Es wird ein Verwendungsfall der Klangbildlokalisierung verschiedener Töne, darunter Äußerungsstimmen von Konferenzteilnehmern, beschrieben.
< Automatische Anpassung des Hintergrundtons gemäß dem Eingangston >
In dem Kommunikationsverwaltungsserver 1 werden die Tondaten, die von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden, analysiert, und die Einstellung des mit der Äußerungsstimme zu synthetisierenden Hintergrundtons wird automatisch angepasst. Beispielsweise werden die Einstellung der Tonlautstärke des Hintergrundtons, die Einstellung, ob der Hintergrundton synthetisiert werden soll (EIN/AUS der Synthese des Hintergrundtons), und die Einstellung der Art des Hintergrundtons angepasst.
15 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Anpassung der Hintergrundtoneinstellung darstellt.
In einem Fall, in dem Mikrofontöne von dem Client-Endgerät 2 übertragen werden, wie durch Pfeile A11 und A12 angegeben, wird jeder Mikrofonton in dem Kommunikationsverwaltungsserver 1 analysiert, und die Einstellung des Hintergrundtons wird gemäß dem Analyseergebnis dynamisch angepasst. Ferner wird der Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß der Positionsbeziehung an allen Tondaten des sprechenden Benutzers und den Tondaten des Hintergrundtons, dessen Einstellung geändert wurde, durchgeführt.
Wie durch einen Pfeil A13 angegeben, kann die Einstellung des Hintergrundtons unter Berücksichtigung der Umgebung für den zuhörenden Benutzer angepasst werden, die durch die Informationen, die von dem durch den zuhörenden Benutzer verwendeten Client-Endgerät 2 übertragen werden, dargestellt wird.
Die Tondaten, die durch den Klangbildlokalisierungsprozess erzeugt werden, werden an das durch jeden zuhörenden Benutzer verwendete Client-Endgerät 2 übertragen und von diesem ausgegeben, wie durch einen Pfeil A14 angegeben.
Die Einstellung des Hintergrundtons wird beispielsweise durch die Systemtonverwaltungseinheit 136 (11) wie folgt angepasst.

(A) Wenn die Tonlautstärke aller Äußerungsstimmen für eine bestimmte Zeitdauer oder länger kleiner als die Referenztonlautstärke ist, wird die Einstellung so angepasst, dass die Tonlautstärke des Hintergrundtons erhöht wird. Dadurch wird es möglich, die Stille während einer Konferenz zu mildern.
(B) Wenn die Tonlautstärke des Umgebungstons, wie etwa der im Mikrofonton enthaltenen Geräusche, für eine bestimmte Zeitdauer oder länger größer als die Referenztonlautstärke ist, wird die Einstellung so angepasst, dass sie eingeschaltet wird, wenn die Synthese des Hintergrundtons ausgeschaltet wird. Dadurch ist es möglich, Geräusche während einer Konferenz weniger wahrnehmbar zu machen.
(C) Die Einstellung des Raumklangeffekts wird gemäß der Anzahl der Teilnehmer angepasst. Beispielsweise wird bei größerer Anzahl von Teilnehmern eine Klangeffekteinstellung des größeren Raums verwendet. Die Raumklangeffektanpassung wird durch Synthetisieren von Klang, wie etwa Hall, der die Größe des Raums darstellt, als Hintergrundton umgesetzt.
(D) In einem Fall, in dem die Analyse der Emotion des sprechenden Benutzers und des Inhalts der Äußerung basierend auf der Äußerungsstimme durchgeführt wird, wird automatisch die zu der Emotion des sprechenden Benutzers und dem Inhalt der Äußerung passende Hintergrundmusik ausgewählt und synthetisiert. Beispielsweise wird der Begeisterungsgrad basierend auf dem Geschwindigkeitsgefühl, der Tonlautstärke, Lachen und dergleichen des Gesprächs analysiert, und in einem Fall, in dem das Gespräch nicht begeistert ist, wird die Hintergrundmusik mit einem schnellen Tempo als Hintergrundton ausgewählt.

Nicht nur die Einstellung des Hintergrundtons, sondern auch die Lokalisierung des Klangbilds des Hintergrundtons wird basierend auf dem Eingangston geeignet angepasst.
Zum Beispiel wird im oben beschriebenen Fall (A) der Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds durchgeführt, sodass das Klangbild des Hintergrundtons in der Nähe wahrgenommen werden kann.
Ferner wird im oben beschriebenen Fall (D), wenn der Inhalt der Äußerung eines bestimmten sprechenden Benutzers ein Inhalt ist, der anderen Benutzern gefällt, der Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds durchgeführt, sodass das Klangbild des Hintergrundtons in einer entfernten Position wahrgenommen werden kann.
Es sei angemerkt, dass es sich bei den Mikrofontönen #1 bis #N, die in der obersten Stufe in 15 unter Verwendung mehreren Blöcke dargestellt sind, um Stimmen von sprechenden Benutzern handelt, die in unterschiedlichen Client-Endgeräten 2 detektiert werden. Darüber hinaus stellt die Tonausgabe, die in der unteren Stufe unter Verwendung eines Blocks dargestellt ist, eine Ausgabe von dem durch einen zuhörenden Benutzer verwendeten Client-Endgerät 2 dar.
Wie auf der linken Seite von 15 dargestellt, werden beispielsweise die durch Pfeile A11 und A12 angegebenen Funktionen zum Übertragen der Mikrofontöne durch das übertragungsseitige Modul 201A-1 implementiert, und die Funktion zum Erkennen der Umgebung für den zuhörenden Benutzer und zum Übertragen des Erkennungsergebnisses an den Kommunikationsverwaltungsserver 1 wird durch das empfangsseitige Modul 201A-2 implementiert. Ferner werden die Anpassung des Hintergrundtons und der Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten durch das Serverprogramm 101A implementiert.
Der Steuerprozess des Kommunikationsverwaltungsservers 1 bezüglich der Anpassung der Einstellung des Hintergrundtons wird unter Bezugnahme auf ein Flussdiagramm von 16 beschrieben.
In Schritt S101 empfängt die Tonempfangseinheit 131 die Tondaten, die von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden. Die durch die Tonempfangseinheit 131 empfangenen Tondaten werden an die Signalverarbeitungseinheit 132 geliefert.
In Schritt S102 analysiert die Signalverarbeitungseinheit 132 den Mikrofonton. Im Fall des oben beschriebenen Beispiels werden die Tonlautstärke des Mikrofontons, die Tonlautstärke des Umgebungstons, wie etwa in dem Mikrofonton enthaltene Geräusche, das Gefühl des sprechenden Benutzers und der Inhalt der Äußerung analysiert.
In Schritt S103 gibt die Systemtonverwaltungseinheit 136 die Tondaten des Hintergrundtons gemäß dem Analyseergebnis des Mikrofontons an die Klangbildlokalisierungsverarbeitungseinheit 134 aus und fügt die Tondaten als die dem Klangbildlokalisierungsprozess auszusetzenden Tondaten hinzu. Tondaten eines Hintergrundtons mit einer bestimmten Tonlautstärke oder mehr, Tondaten eines Hintergrundtons einer Art, die den Umgebungston aufhebt, und Tondaten eines Hintergrundtons einer Art, die dem Gefühl des sprechenden Benutzers oder dem Inhalt der Äußerung entspricht, werden hinzugefügt.
In Schritt S104 liest und erfasst die Klangbildlokalisierungsverarbeitungseinheit 134 die HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Position des sprechenden Benutzers und die HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Position des Hintergrundtons (der Position, an der das Klangbild des Hintergrundtons lokalisiert ist) aus der HRTF-Datenspeichereinheit 135.
Die Klangbildlokalisierungsverarbeitungseinheit 134 führt einen Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten für die Äußerungsstimme an den Tondaten des sprechenden Benutzers durch und führt einen Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten für den Hintergrundton an den Tondaten des Hintergrundtons.
In Schritt S105 überträgt die Tonübertragungseinheit 138 die durch den Klangbildlokalisierungsprozess erhaltenen Tondaten an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2.
Durch die obige Verarbeitung werden in dem durch den zuhörenden Benutzer verwendeten Client-Endgerät 2 das Klangbild der Stimme des sprechenden Benutzers und das Klangbild des Hintergrundtons an vorbestimmten Positionen lokalisiert und wahrgenommen. Der Kommunikationsverwaltungsserver 1 kann die Äußerungsstimme leicht hörbar machen und die Atmosphäre der Konferenz verändern.
< Automatische Anpassung der Klangbildlokalisierung gemäß der Äußerungssituation >
In dem Kommunikationsverwaltungsserver 1 wird die Äußerungssituation einschließlich der Situation des sprechenden Benutzers und der Situation der Äußerungsstimme analysiert, und die Lokalisierung des Klangbilds der Äußerungsstimme wird automatisch angepasst. Beispielsweise wird die Position angepasst, an der das Klangbild der Äußerungsstimme lokalisiert ist.
17 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Anpassung einer Klangbildlokalisierung gemäß einer Äußerungssituation darstellt.
In dem Client-Endgerät 2 wird die Situation des Benutzers (sprechenden Benutzers) basierend auf einem Bild oder dergleichen erkannt, das von einer Kamera aufgenommen wird. Die Informationen, die das Erkennungsergebnis der Situation des sprechenden Benutzers darstellen, werden von dem Client-Endgerät 2 an den Kommunikationsverwaltungsserver 1 übertragen, wie durch einen Pfeil A21 angegeben. Die Situation des sprechenden Benutzers kann durch den Kommunikationsverwaltungsserver 1 basierend auf der Äußerungsstimme durchgeführt werden.
In einem Fall, in dem Mikrofontöne von dem Client-Endgerät 2 übertragen werden, wie durch Pfeile A22 und A23 angegeben, analysiert der Kommunikationsverwaltungsserver 1 die Situation der Äußerungsstimme basierend auf jedem Mikrofonton. Ferner wird die Lokalisierung der Äußerungsstimme automatisch gemäß der Äußerungsstimmensituation angepasst, einschließlich der Situation des sprechenden Benutzers und der Situation der Äußerungsstimme, und der Klangbildlokalisierungsprozess wird an den Tondaten des sprechenden Benutzers gemäß der angepassten Einstellung durchgeführt.
Die Tondaten, die durch den Klangbildlokalisierungsprozess erzeugt werden, werden an das durch jeden zuhörenden Benutzer verwendete Client-Endgerät 2 übertragen und von diesem ausgegeben, wie durch einen Pfeil A24 angegeben.
Die Anpassung der Lokalisierung der Äußerungsstimme wird beispielsweise durch die Klangbildlokalisierungsverarbeitungseinheit 134 (11) wie folgt durchgeführt.

(A) In einem Fall, in dem die Öffnungs-/Schließsituation des Mundes des Benutzers in jedem Client-Endgerät 2 erkannt wird, wird die Lokalisierungsposition des Klangbilds so angepasst, dass das Klangbild der Äußerungsstimme des Benutzers (sprechenden Benutzers), der anhand der Öffnungs-/Schließsituation des Mundes als die Äußerung tätigend bestimmt wurde, in der Nähe wahrgenommen werden kann. Die Öffnungs-/Schließsituation des Mundes ist die Situation des sprechenden Benutzers.

In diesem Fall wählt die Klangbildlokalisierungsverarbeitungseinheit 134 eine Position nahe der Position des zuhörenden Benutzers als die Lokalisierungsposition des Klangbilds der Äußerungsstimme aus. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt den Klangbildlokalisierungsprozess basierend auf den HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds der Äußerungsstimme durch.

(B) In einem Fall, in dem mehrere Mikrofontöne gleichzeitig eingegeben werden, wird die Lokalisierungsposition des Klangbilds so angepasst, dass die Klangbilder der jeweiligen Äußerungsstimmen an Positionen wahrgenommen werden, die voneinander entfernt sind. Die Anzahl gleichzeitig sprechender Benutzer ist die Situation des sprechenden Benutzers.

In diesem Fall wählt die Klangbildlokalisierungsverarbeitungseinheit 134 eine um eine vorbestimmte Entfernung oder mehr entfernte Position als die Lokalisierungsposition des Klangbilds der Äußerungsstimme jedes der sprechenden Benutzer, die gleichzeitig sprechen, aus. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt den Klangbildlokalisierungsprozess basierend auf den HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds jeder Äußerungsstimme durch.
Auf diese Weise ist es möglich, die Lokalisierungsposition des Klangbilds der Äußerungsstimme gemäß der Anzahl von sprechenden Benutzern, die gleichzeitig sprechen, anzupassen.

(C) In einem Fall, in dem die Tonlautstärke der Äußerungsstimme eines bestimmten sprechenden Benutzers gering ist, wird die Lokalisierungsposition des Klangbilds so angepasst, dass das Klangbild der Äußerungsstimme in der Nähe wahrgenommen werden kann. Beispielsweise wird die Referenztonlautstärke im Voraus eingestellt, und die Lokalisierungsposition des Klangbilds wird für die Äußerungsstimme mit einer Tonlautstärke, die kleiner als die Referenztonlautstärke ist, angepasst. Die Tonlautstärke der Äußerungsstimme ist die Situation der Äußerungsstimme.

In diesem Fall wählt die Klangbildlokalisierungsverarbeitungseinheit 134 eine Position nahe der Position des zuhörenden Benutzers als die Lokalisierungsposition des Klangbilds der Äußerungsstimme aus. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt den Klangbildlokalisierungsprozess basierend auf den HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds der Äußerungsstimme durch. Als Ergebnis ist es möglich, die Äußerungsstimme leicht hörbar zu machen.
Auf diese Weise ist es möglich, die Lokalisierungsposition des Klangbilds der Äußerungsstimme gemäß der Tonlautstärke der Äußerungsstimme anzupassen.

(D) In einem Fall, in dem der Ton, der gleich dem registrierten Ton ist, als die Äußerungsstimme detektiert wird, wird die Äußerungsstimme von dem Mikrofonton getrennt, und der Klangbildlokalisierungsprozess zum Lokalisieren des Klangbilds an einer vorbestimmten Position wird nur an den Tondaten der Äußerungsstimme durchgeführt. Jeder Benutzer registriert seine/ihre Stimme im Voraus in dem Kommunikationsverwaltungsserver 1.

In diesem Fall trennt die Klangbildlokalisierungsverarbeitungseinheit 134 die Äußerungsstimme von dem Mikrofonton und führt den Klangbildlokalisierungsprozess an den Tondaten der Äußerungsstimme basierend auf den HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds der Äußerungsstimme durch. Als Ergebnis ist es möglich, die Äußerungsstimme leicht hörbar zu machen.

(E) In einem Fall, in dem die Analyse des Inhalts (Themas) der Äußerung basierend auf dem Mikrofonton durchgeführt wird, wird eine Gruppierung für jeweilige Äußerungsstimmen mit unterschiedlichen Themen durchgeführt, und die Lokalisierungsposition des Klangbilds wird für die Äußerungsstimmeneinheit jeder Gruppe angepasst. Der Inhalt der Äußerung ist die Situation der Äußerungsstimme.

In diesem Fall wählt die Klangbildlokalisierungsverarbeitungseinheit 134 dieselbe Position als die Lokalisierungsposition des Klangbilds der Äußerungsstimme mit demselben Inhalt (der Äußerungsstimme derselben Gruppe) aus. Ferner wählt die Klangbildlokalisierungsverarbeitungseinheit 134 eine um eine vorbestimmte Entfernung oder mehr entfernte Position als eine Lokalisierungsposition des Klangbilds der Äußerungsstimme jeder Gruppe aus. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt den Klangbildlokalisierungsprozess basierend auf den HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds der Äußerungsstimme durch.
Da die Klangbilder für jeden Äußerungsinhalt an voneinander entfernten Positionen lokalisiert sind, kann der Kommunikationsverwaltungsserver 1 selbst in einem Fall, in dem die Inhalte des Gesprächs verzweigt sind, leicht zwischen den Äußerungsinhalten unterscheiden.
Auf diese Weise ist es möglich, die Lokalisierungsposition des Klangbilds der Äußerungsstimme gemäß dem Inhalt der Äußerung anzupassen.
Der Steuerprozess des Kommunikationsverwaltungsservers 1 bezüglich der Anpassung der Klangbildlokalisierung gemäß einer Äußerungssituation wird unter Bezugnahme auf das Flussdiagramm von 18 beschrieben.
In Schritt 5111 empfängt die Tonempfangseinheit 131 die Tondaten, die von dem durch den sprechenden Benutzer verwendeten Client-Endgerät 2 übertragen werden.
In Schritt S112 erfasst die Klangbildlokalisierungsverarbeitungseinheit 134 die Äußerungssituation. Anders ausgedrückt erfasst die Klangbildlokalisierungsverarbeitungseinheit 134 die Situation des sprechenden Benutzers basierend auf dem von dem Client-Endgerät 2 übertragenen Erkennungsergebnis und erfasst die Situation der Äußerungsstimme basierend auf dem von der Signalverarbeitungseinheit 132 gelieferten Analyseergebnis. Möglicherweise wird nur entweder die Situation des sprechenden Benutzers oder die Situation der Äußerungsstimme als Äußerungssituation erfasst.
In Schritt S113 liest und erfasst die Klangbildlokalisierungsverarbeitungseinheit 134 die HRTF-Daten gemäß der Positionsbeziehung zwischen der Position des zuhörenden Benutzers und der Lokalisierungsposition des Klangbilds gemäß der Äußerungssituation aus der HRTF-Datenspeichereinheit 135. Die Klangbildlokalisierungsverarbeitungseinheit 134 führt einen Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten an den Tondaten des sprechenden Benutzers durch, sodass das Klangbild der Äußerungsstimme an einer Position gemäß der Äußerungsstimmensituation lokalisiert wird.
In Schritt S114 überträgt die Tonübertragungseinheit 138 die durch den Klangbildlokalisierungsprozess erhaltenen Tondaten an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2.
Mit der obigen Verarbeitung wird in dem durch den zuhörenden Benutzer verwendeten Client-Endgerät 2 das Klangbild der Stimme des sprechenden Benutzers lokalisiert und an einer der Äußerungssituation entsprechenden Position wahrgenommen. Der Kommunikationsverwaltungsserver 1 kann die Äußerungsstimme leicht hörbar machen und die Atmosphäre der Konferenz verändern.
< Dynamisches Umschalten des Klangbildlokalisierungsprozesses >
Es wird dynamisch dazwischen umgeschaltet, ob der Klangbildlokalisierungsprozess, der ein Prozess des Objektaudios einschließlich Rendern und dergleichen ist, durch den Kommunikationsverwaltungsserver 1 oder das Client-Endgerät 2 durchgeführt wird.
In diesem Fall sind von den in 11 dargestellten Konfigurationen des Kommunikationsverwaltungsservers zumindest die gleiche Konfiguration wie die der Klangbildlokalisierungsverarbeitungseinheit 134, der HRTF-Datenspeichereinheit 135 und der 2-Kanal-Mischverarbeitungseinheit 137 in dem Client-Endgerät 2 bereitgestellt. Die Konfiguration ähnlich der der Klangbildlokalisierungsverarbeitungseinheit 134, der HRTF-Datenspeichereinheit 135 und der 2-Kanal-Mischverarbeitungseinheit 137 werden beispielsweise durch das empfangsseitige Modul 201A-2 realisiert.
In einem Fall, in dem die Einstellung des Parameters, der für den Klangbildlokalisierungsprozess verwendet wird, wie etwa die Positionsinformationen über den zuhörenden Benutzer, während der Konferenz geändert wird und die Änderung in dem Klangbildlokalisierungsprozess in Echtzeit widergespiegelt wird, wird der Klangbildlokalisierungsprozess durch das Client-Endgerät 2 durchgeführt. Indem der Klangbildlokalisierungsprozess lokal durchgeführt wird, ist es möglich, schnell auf die Parameteränderung zu reagieren.
Dagegen wird in einem Fall, in dem die Parametereinstellung für einen bestimmten Zeitraum oder länger nicht geändert wird, der Klangbildlokalisierungsprozess durch den Kommunikationsverwaltungsserver 1 durchgeführt. Durch Durchführen des Klangbildlokalisierungsprozesses durch den Server kann die Menge an Datenkommunikation zwischen dem Kommunikationsverwaltungsserver 1 und dem Client-Endgerät 2 unterdrückt werden.
19 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich des dynamischen Umschaltens des Klangbildlokalisierungsprozesses darstellt.
In einem Fall, in dem der Klangbildlokalisierungsprozess durch das Client-Endgerät 2 durchgeführt wird, wird der von dem Client-Endgerät 2 übertragene Mikrofonton, wie durch Pfeile A101 und A102 angegeben, direkt an das Client-Endgerät 2 übertragen, wie durch Pfeil A103 angegeben. Das als Übertragungsquelle des Mikrofontons dienende Client-Endgerät 2 ist das durch den sprechenden Benutzer verwendete Client-Endgerät 2 und das als Übertragungsziel des Mikrofontons dienende Client-Endgerät 2 ist das durch den zuhörenden Benutzer verwendete Client-Endgerät 2.
In einem Fall, in dem die Einstellung des Parameters bezüglich der Lokalisierung des Klangbilds, wie etwa die Position des zuhörenden Benutzers, durch den zuhörenden Benutzer geändert wird, wie durch einen Pfeil A104 angegeben, die Änderung in der Einstellung in Echtzeit widergespiegelt, und der Klangbildlokalisierungsprozess wird an dem von dem Kommunikationsverwaltungsserver 1 übertragenen Mikrofonton durchgeführt.
Ein Ton, der den durch den Klangbildlokalisierungsprozess durch das Client-Endgerät 2 erzeugten Tondaten entspricht, wird ausgegeben, wie durch einen Pfeil A105 angegeben.
In dem Client-Endgerät 2 wird ein Änderungsinhalt der Parametereinstellung gespeichert, und Informationen, die den Änderungsinhalt darstellen, werden an den Kommunikationsverwaltungsserver 1 übertragen, wie durch einen Pfeil A106 angegeben.
In einem Fall, in dem der Klangbildlokalisierungsprozess durch den Kommunikationsverwaltungsserver 1 durchgeführt wird, wie durch Pfeile A107 und A108 angegeben, wird der Klangbildlokalisierungsprozess an dem von dem Client-Endgerät 2 übertragenen Mikrofonton durch Reflektieren des geänderten Parameters durchgeführt.
Die Tondaten, die durch den Klangbildlokalisierungsprozess erzeugt werden, werden an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2 übertragen und von diesem ausgegeben, wie durch einen Pfeil A109 angegeben.
Der Steuerprozess des Kommunikationsverwaltungsservers 1 bezüglich des dynamischen Umschaltens des Klangbildlokalisierungsprozesses wird unter Bezugnahme auf ein Flussdiagramm von 20 beschrieben.
In Schritt S201 wird bestimmt, ob die Parametereinstellungsänderung für eine bestimmte Zeitdauer oder länger nicht vorgenommen worden ist. Diese Bestimmung wird durch die Teilnehmerinformationsverwaltungseinheit 133 beispielsweise basierend auf Informationen durchgeführt, die von dem durch den zuhörenden Benutzer verwendeten Client-Endgerät 2 übertragen werden.
In einem Fall, in dem in Schritt S201 bestimmt wird, dass es eine Parametereinstellungsänderung gibt, überträgt die Tonübertragungseinheit 138 in Schritt S202 die durch die Teilnehmerinformationsverwaltungseinheit 133 empfangenen Tondaten des sprechenden Benutzers unverändert an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2. Die übertragenen Tondaten sind Objektaudiodaten.
In dem Client-Endgerät 2 wird der Klangbildlokalisierungsprozess unter Verwendung der geänderten Einstellung durchgeführt und ein Ton wird ausgegeben. Ferner werden Informationen, die den Inhalt der geänderten Einstellung darstellen, an den Kommunikationsverwaltungsserver 1 übertragen.
In Schritt S203 empfängt die Teilnehmerinformationsverwaltungseinheit 133 die von dem Client-Endgerät 2 übertragenen Informationen, die den Inhalt der Einstellungsänderung darstellen. Nachdem die Positionsinformationen über den zuhörenden Benutzer basierend auf den von dem Client-Endgerät 2 übertragenen Informationen aktualisiert wurden, kehrt der Prozess zu Schritt S201 zurück und die nachfolgenden Prozesse werden durchgeführt. Der durch den Kommunikationsverwaltungsserver 1 durchgeführte Klangbildlokalisierungsprozess wird basierend auf den aktualisierten Positionsinformationen durchgeführt.
Dagegen wird in einem Fall, in dem in Schritt S201 bestimmt wird, dass es keine Parametereinstellungsänderung gibt, ein Klangbildlokalisierungsprozess durch den Kommunikationsverwaltungsserver 1 in Schritt S204 durchgeführt. Die in Schritt S204 durchgeführte Verarbeitung ist der unter Bezugnahme auf 8 beschriebenen Verarbeitung grundsätzlich ähnlich.
Die obige Verarbeitung wird nicht nur in einem Fall durchgeführt, in dem die Position geändert wird, sondern auch in einem Fall, in dem ein anderer Parameter, wie etwa die Einstellung des Hintergrundtons, geändert wird.
< Verwaltung der Klangeffekteinstellung >
Die für den Hintergrundton geeignete Klangeffekteinstellung kann in einer Datenbank gespeichert und durch den Kommunikationsverwaltungsserver 1 verwaltet werden. Beispielsweise wird eine Position, die als eine Position geeignet ist, an der ein Klangbild lokalisiert ist, für jede Art von Hintergrundton eingestellt, und die der eingestellten Position entsprechenden HRTF-Daten werden gespeichert. Parameter bezüglich einer anderen Klangeffekteinstellung, wie etwa Hall, können gespeichert werden.
21 ist ein Diagramm, das einen Verarbeitungsfluss bezüglich der Verwaltung der Klangeffekteinstellung darstellt.
In einem Fall, in dem der Hintergrundton mit der Stimme des sprechenden Benutzers synthetisiert wird, wird in dem Kommunikationsverwaltungsserver 1 der Hintergrundton wiedergegeben, und, wie durch einen Pfeil A121 angegeben, wird der Klangbildlokalisierungsprozess unter Verwendung der Klangeffekteinstellung, wie etwa für den Hintergrundton geeigneter HRTF-Daten, durchgeführt.
Die Tondaten, die durch den Klangbildlokalisierungsprozess erzeugt werden, werden an das durch den zuhörenden Benutzer verwendete Client-Endgerät 2 übertragen und von diesem ausgegeben, wie durch einen Pfeil A122 angegeben.
<< Modifikation >>
Obgleich davon ausgegangen wird, dass das durch mehrere Benutzer geführte Gespräch ein Gespräch in einer Fernkonferenz ist, kann die oben beschriebene Technologie auf verschiedene Arten von Gesprächen angewendet werden, solange das Gespräch ein Gespräch ist, an dem mehrere Personen online teilnehmen, wie etwa ein Gespräch bei einem Essen oder ein Gespräch in einer Vorlesung.
• Über das Programm
Die oben beschriebene Verarbeitungsreihe kann durch Hardware oder Software ausgeführt werden. Falls die Verarbeitungsfolge durch Software ausgeführt wird, wird ein Programm, das die Software darstellt, auf einem Computer installiert, der in dedizierter Hardware, einem Mehrzweck-PC oder dergleichen eingebunden ist.
Das zu installierende Programm ist auf dem Wechseldatenträger 111 aufgezeichnet, der in 10 dargestellt ist, einschließlich einer optischen Platte (Compact-Disc-Nur-Lese-Speicher (CD-ROM), Digital Versatile Disc (DVD) und dergleichen), eines Halbleiterspeichers und dergleichen. Ferner kann das Programm über ein drahtgebundenes oder drahtloses Übertragungsmedium, wie etwa ein Local Area Network (Lokalnetzwerk), das Internet oder digitalen Rundfunk, bereitgestellt werden. Das Programm kann im Voraus in dem ROM 102 oder der Speichereinheit 108 installiert werden.
Es sei angemerkt, dass das durch den Computer ausgeführte Programm ein Programm sein kann, bei dem eine Verarbeitung zeitlich seriell in der in der vorliegenden Patentschrift beschriebenen Reihenfolge durchgeführt wird, oder ein Programm sein kann, bei dem eine Verarbeitung parallel oder mit einem erforderlichen Timing, wie etwa wenn ein Aufruf erfolgt, durchgeführt wird.
Es sei angemerkt, dass das System in der Anmeldung einen Satz aus mehreren Komponenten (Vorrichtungen, Modulen (Teilen) usw.) bedeutet und es keine Rolle spielt, ob sich alle Komponenten in demselben Gehäuse befinden. Daher handelt es sich bei mehreren Vorrichtungen, die in jeweiligen Gehäusen untergebracht und über ein Netzwerk verbunden sind, um ein System, und bei einer Vorrichtung, in der mehrere Module in einem Gehäuse untergebracht sind, handelt es sich um ein System.
Die in der vorliegenden Identifikation beschriebenen Effekte sind lediglich Beispiele und sind nicht beschränkt und andere Effekte können vorliegen.
Die Ausführungsformen der vorliegenden Technologie sind nicht auf die oben beschriebenen Ausführungsformen beschränkt und verschiedene Modifikationen können vorgenommen werden, ohne von der Idee der vorliegenden Technologie abzuweichen. Obgleich der Kopfhörer oder der Lautsprecher als Tonausgabevorrichtung verwendet wird, können andere Vorrichtungen verwendet werden. Beispielsweise kann als Tonausgabevorrichtung ein gewöhnlicher Ohrhörer (Innenohrkopfhörer) oder ein offener Ohrhörer, der einen Umgebungston erfassen kann, verwendet werden.
Ferner kann die Technik beispielsweise eine Cloud-Computing-Konfiguration verwenden, bei der eine Funktion durch mehrere Vorrichtungen in Zusammenarbeit über ein Netzwerk gemeinsam genutzt und verarbeitet wird.
Ferner kann jeder in dem oben beschriebenen Flussdiagramm beschriebene Schritt durch eine Vorrichtung ausgeführt werden oder kann durch mehrere Vorrichtungen geteilt und ausgeführt werden.
Ferner können in einem Fall, in dem mehrere Prozesse in einem Schritt enthalten sind, die mehreren Prozesse, die in dem einen Schritt enthalten sind, durch eine Vorrichtung ausgeführt werden oder können durch mehrere Vorrichtungen geteilt und ausgeführt werden.
• Beispiel einer Kombination von Konfigurationen
Die vorliegende Technologie kann auch die folgenden Konfigurationen aufweisen.
(1)
Informationsverarbeitungsvorrichtung, die Folgendes umfasst:

eine Speichereinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen; und
eine Klangbildlokalisierungsverarbeitungseinheit, die einen Klangbildlokalisierungsprozess an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt.

(2)
Die Informationsverarbeitungsvorrichtung nach (1), die ferner Folgendes umfasst:

eine Übertragungsverarbeitungseinheit, die durch Durchführen des Klangbildlokalisierungsprozesses erhalte Tondaten des Sprechers an ein Endgerät überträgt, das durch jeden der Teilnehmer verwendet wird, wobei jeder Teilnehmer ein Zuhörer ist.

(3)
Die Informationsverarbeitungsvorrichtung nach (2), wobei
die Klangbildlokalisierungsverarbeitungseinheit
den Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Zuhörers und einer Position des Sprechers in einem virtuellen Raum durchführt und
wenn eine Lokalisierungsposition eines Klangbilds einer Äußerungsstimme, die eine Stimme des Sprechers ist, basierend auf der Äußerungssituation ausgewählt wird, den Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Zuhörers und einer Lokalisierungsposition eines Klangbilds der Äußerungsstimme durchführt.
(4)
Die Informationsverarbeitungsvorrichtung nach (3), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß der Anzahl von gleichzeitig sprechenden Sprechern als die Äußerungssituation auswählt.
(5)
Die Informationsverarbeitungsvorrichtung nach (4), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine um eine vorbestimmte Entfernung oder mehr entfernte Position als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme jedes der gleichzeitig sprechenden Sprecher auswählt.
(6)
Die Informationsverarbeitungsvorrichtung nach (3), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß einer Tonlautstärke jeder der Äußerungsstimmen als die Äußerungssituation auswählt.
(7)
Die Informationsverarbeitungsvorrichtung nach (6), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine Position nahe einer Position des Zuhörers als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme mit einer Tonlautstärke, die geringer als eine Referenztonlautstärke ist, auswählt.
(8)
Die Informationsverarbeitungsvorrichtung nach (3), wobei
wenn die Äußerungssituation eine Situation ist, in der der Teilnehmer, dessen Stimme registriert wurde, spricht, die Klangbildlokalisierungsverarbeitungseinheit den Klangbildlokalisierungsprozess an den durch Trennen eines Umgebungstons von einem Eingangston erhaltenen Tondaten des Sprechers durchführt.
(9)
Die Informationsverarbeitungsvorrichtung nach (3), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß einem Inhalt einer Äußerung als die Äußerungssituation auswählt.
(10)
Die Informationsverarbeitungsvorrichtung nach (9), wobei
die Klangbildlokalisierungsverarbeitungseinheit eine gleiche Position als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme mit demselben Inhalt auswählt.
(11)
Ein Informationsverarbeitungsverfahren, das Folgendes umfasst:

durch eine Informationsverarbeitungsvorrichtung,
Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen; und
Durchführen eines Klangbildlokalisierungsprozesses an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt.

(12)
Ein Programm zum Bewirken, dass ein Computer die folgenden Prozesse ausführt:

Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen; und
Durchführen eines Klangbildlokalisierungsprozesses an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt.

(13)
Informationsverarbeitungsendgerät, das Folgendes umfasst:

eine Tonempfangseinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen, Tondaten eines Sprechers empfängt, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt und eine Stimme des Sprechers ausgibt.

(14)
Ein Informationsverarbeitungsverfahren, das Folgendes umfasst:

durch das Informationsverarbeitungsendgerät,
Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen, Empfangen von Tondaten eines Sprechers, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt, und
Ausgeben einer Stimme des Sprechers.

(15)
Ein Programm zum Bewirken, dass ein Computer die folgenden Prozesse ausführt:

Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen, Empfangen von Tondaten eines Sprechers, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt, und
Ausgeben einer Stimme des Sprechers.

Bezugszeichenliste

1: KOMMUNIKATIONSVERWALTUNGSSERVER
2A bis 2D: CLIENT-ENDGERÄT
121: INFORMATIONSVERARBEITUNGSEINHEIT
131: TONEMPFANGSEINHEIT
132: SIGNALVERARBEITUNGSEINHEIT
133: TEILNEHMERINFORMATIONSVERWALTUNGSEINHEIT
134: KLANGBILDLOKALISIERUNGSVERARBEITUNGSEINHEIT
135: HRTF-DATENSPEICHEREINHEIT
136: SYSTEMTONVERWALTUNGSEINHEIT
137: 2-KANAL-MISCHVERARBEITUNGSEINHEIT
138: TONÜBERTRAGUNGSEINHEIT
201: STEUEREINHEIT
211: INFORMATIONSVERARBEITUNGSEINHEIT
221: TONVERARBEITUNGSEINHEIT
222: EINSTELLUNGSINFORMATIONSÜBERTRAGUNGSEINHEIT
223: BENUTZERSITUATIONSERKENNUNGSEINHEIT
231: TONEMPFANGSEINHEIT
233: MIKROFONTONERFASSUNGSEINHEIT

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 11331992 A [0005]

Claims

Informationsverarbeitungsvorrichtung, die Folgendes umfasst: eine Speichereinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen; und eine Klangbildlokalisierungsverarbeitungseinheit, die einen Klangbildlokalisierungsprozess an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt.
Informationsverarbeitungsvorrichtung nach Anspruch 1, die ferner Folgendes umfasst: eine Übertragungsverarbeitungseinheit, die durch Durchführen des Klangbildlokalisierungsprozesses erhalte Tondaten des Sprechers an ein Endgerät überträgt, das durch jeden der Teilnehmer verwendet wird, wobei jeder Teilnehmer ein Zuhörer ist.
Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Klangbildlokalisierungsverarbeitungseinheit den Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Zuhörers und einer Position des Sprechers in einem virtuellen Raum durchführt und wenn eine Lokalisierungsposition eines Klangbilds einer Äußerungsstimme, die eine Stimme des Sprechers ist, basierend auf der Äußerungssituation ausgewählt wird, den Klangbildlokalisierungsprozess unter Verwendung der HRTF-Daten gemäß einer Beziehung zwischen einer Position des Zuhörers und einer Lokalisierungsposition eines Klangbilds der Äußerungsstimme durchführt.
Informationsverarbeitungsvorrichtung nach Anspruch 3, wobei die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß der Anzahl von gleichzeitig sprechenden Sprechern als die Äußerungssituation auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 4, wobei die Klangbildlokalisierungsverarbeitungseinheit eine um eine vorbestimmte Entfernung oder mehr entfernte Position als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme jedes der gleichzeitig sprechenden Sprecher auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 3, wobei die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß einer Tonlautstärke jeder der Äußerungsstimmen als die Äußerungssituation auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 6, wobei die Klangbildlokalisierungsverarbeitungseinheit eine Position nahe einer Position des Zuhörers als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme mit einer Tonlautstärke, die geringer als eine Referenztonlautstärke ist, auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 3, wobei wenn die Äußerungssituation eine Situation ist, in der der Teilnehmer, dessen Stimme registriert wurde, spricht, die Klangbildlokalisierungsverarbeitungseinheit den Klangbildlokalisierungsprozess an den durch Trennen eines Umgebungstons von einem Eingangston erhaltenen Tondaten des Sprechers durchführt.
Informationsverarbeitungsvorrichtung nach Anspruch 3, wobei die Klangbildlokalisierungsverarbeitungseinheit eine Lokalisierungsposition eines Klangbilds jeder der Äußerungsstimmen gemäß einem Inhalt einer Äußerung als die Äußerungssituation auswählt.
Informationsverarbeitungsvorrichtung nach Anspruch 9, wobei die Klangbildlokalisierungsverarbeitungseinheit eine gleiche Position als eine Lokalisierungsposition eines Klangbilds der Äußerungsstimme mit demselben Inhalt auswählt.
Informationsverarbeitungsverfahren, das Folgendes umfasst: durch eine Informationsverarbeitungsvorrichtung, Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen; und Durchführen eines Klangbildlokalisierungsprozesses an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt.
Programm zum Bewirken, dass ein Computer die folgenden Prozesse ausführt: Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen; und Durchführen eines Klangbildlokalisierungsprozesses an Tondaten eines Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt.
Informationsverarbeitungsendgerät, das Folgendes umfasst: eine Tonempfangseinheit, die HRTF-Daten speichert, die mehreren Positionen basierend auf einer Hörposition entsprechen, Tondaten eines Sprechers empfängt, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt und eine Stimme des Sprechers ausgibt.
Informationsverarbeitungsverfahren, das Folgendes umfasst: durch das Informationsverarbeitungsendgerät, Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen, Empfangen von Tondaten eines Sprechers, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt, und Ausgeben einer Stimme des Sprechers.
Programm zum Bewirken, dass ein Computer die folgenden Prozesse ausführt: Speichern von HRTF-Daten, die mehreren Positionen basierend auf einer Hörposition entsprechen, Empfangen von Tondaten eines Sprechers, die durch Durchführen eines Klangbildlokalisierungsprozesses erhalten werden, wobei die Tondaten von einer Informationsverarbeitungsvorrichtung übertragen werden, die den Klangbildlokalisierungsprozess an Tondaten des Sprechers unter Verwendung der HRTF-Daten gemäß einer Äußerungssituation eines Teilnehmers, der über ein Netzwerk an einem Gespräch teilnimmt, durchführt, und Ausgeben einer Stimme des Sprechers.