JP4546151B2 - 音声コミュニケーション・システム - Google Patents

音声コミュニケーション・システム Download PDF

Info

Publication number
JP4546151B2
JP4546151B2 JP2004155733A JP2004155733A JP4546151B2 JP 4546151 B2 JP4546151 B2 JP 4546151B2 JP 2004155733 A JP2004155733 A JP 2004155733A JP 2004155733 A JP2004155733 A JP 2004155733A JP 4546151 B2 JP4546151 B2 JP 4546151B2
Authority
JP
Japan
Prior art keywords
user
space
users
virtual space
real space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004155733A
Other languages
English (en)
Other versions
JP2005341092A (ja
JP2005341092A5 (ja
Inventor
泰 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004155733A priority Critical patent/JP4546151B2/ja
Priority to US10/914,647 priority patent/US7634073B2/en
Priority to CN200410087444.XA priority patent/CN1703065A/zh
Publication of JP2005341092A publication Critical patent/JP2005341092A/ja
Publication of JP2005341092A5 publication Critical patent/JP2005341092A5/ja
Application granted granted Critical
Publication of JP4546151B2 publication Critical patent/JP4546151B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/30Determination of the location of a subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42085Called party identification service
    • H04M3/42093Notifying the calling party of information on the called or connected party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42365Presence services providing information on the willingness to communicate or the ability to communicate in terms of media capability or network connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、人間同士がメディアを通じ、主に音声を使用して会話するための技術に関する。
特許文献1には、GPS技術を利用して、携帯電話の発信ユーザの位置情報と、通信相手の位置情報とに基づいて、両者の相対的な位置情報を表示するナビゲーションシステムが開示されている。
また、仮想空間を用いた会議システムとして、京都大学において開発された会議システム FreeWalk がある(例えば、非特許文献1および非特許文献2参照)。Freewalk は、会議システムのユーザが仮想的な空間を共有し、同一の空間内にいるユーザ同士が会話をすることができるシステムである。各ユーザはこの仮想的な空間を自分の視点、または、それに近いが自分自身も視野に入る視点から見える映像を3次元グラフィクスによって見ることができる。3次元グラフィクス技術は、3次元空間をコンピュータ・グラフィクスによってシミュレートする技術であり、それを実現するAPI(Application Programming Interface)として、業界標準であるOpenGL(http://www.opengl.org/)およびMicrosoft社のDirect3Dなどがある。会話の相手の映像は、ビデオカメラによって撮影され、自分の視点等から見える映像の中におかれた仮想のスクリーンにリアルタイムに投影される。また、各ユーザはこの仮想空間内において自由に移動することが可能である。すなわち、この仮想空間における自分自身の位置を、ポインティング・デバイスまたはキーボードのキーを使用して変更することが可能である。なお、非特許文献1および2においては、距離に従って音声が減衰するようにしているが、後述する3次元オーディオ技術は使用していない。
また、Interval Research Corporation において開発された会議システムSomewireがある(例えば、特許文献2、特許文献3および非特許文献3参照)。Somewire は、会議システムのユーザが仮想的な空間を共有し、同一の空間内にいるユーザ同士が会話することができるシステムである。Somewire において、音声は高品質のステレオ・オーディオによって再生される。また、人形のようなものを移動させることによって仮想空間上における対話の相手の位置を制御可能とするGUI(グラフィカル・ユーザ・インタフェース) より、直観的な物理的 (tangible) インタフェースを有する。なお、Somewire においては、距離に従って音声は減衰せず、3次元オーディオ技術は使用していない。
また、ヒューレット・パッカード社において開発された3次元分散オーディオ技術を使用した会議システムがある(例えば、非特許文献4参照)。3次元分散オーディオ技術は、3次元オーディオ技術をネットワークで接続されたシステム(いわゆる分散環境)において適用した技術である。そして、3次元オーディオ技術は、3次元の音響空間をシミュレートする技術であり、これを実現するための API としては Loki Entertainment Software 社などによって規定された業界標準である Open AL (http://www.opengl.org/),Microsoft 社の DirectSound 3D、Creative Technology 社の EAX 2.0 (http://www.sei.com/algorithms/eax20.pdf) などがある。この3次元オーディオ技術を使用することにより、ヘッドフォン、2チャンネルまたは4チャンネルなどのスピーカによる音響再生において、聴取者からみた音源の方向および距離をシミュレートし、音響空間内において音源を定位させることができる。また、残響、壁などの物体による反射、空気による距離に依存する音の吸収、障害物による音の遮りなどの音響属性をシミュレートすることにより、部屋の存在感や、空間内の物体の存在感を表現することができる。
特開2002−236031 US 5,889,843 US 6,262,711 B1 中西 英之,吉田 力,西村 俊和,石田 亨,「FreeWalk: 3次元仮想空間を用いた非形式的なコミュニケーションの支援」,情報処理学会論文誌,Vol.39, No.5,pp.1356-1364,1998。
Nakanishi,H.,Yoshida,C.,Nishimura,T.,and Ishida,T.,「FreeWalk: A 3D Virtual Space for Casual Meetings」,IEEE MultiMedia,April-June 1999,pp.2028. Singer,A.,Hindus,D.,Stifelman,L.,and White,S.,「Tangible Progress: Less Is More In Somewire Audio Spaces」,ACM CHI '99 (Conference on Human Factors in Computing Systems),pp.104-112,May 1999. Low,C.,and Babarit,L.,「Distributed 3D Audio Rendering」,7th International World Wide Web Conference (WWW7),1998,http://www7.scu.edu.au/programme/fullpapers/1912/com1912.htm.
さて、携帯電話の通信相手が、自分と近い場所(姿が見える位置)に存在する場合であっても、発見しにくいことがある。例えば、混雑した遊園地や都心の駅などでは、通信相手の姿が見える距離で携帯電話を介して会話をしていても、通信相手を人ごみの中から発見して、近づくことは困難である。また、建設現場などでは、姿が見えない共同作業者の作業場所(配置)を把握することが必要な場合がある。
また、仮想空間上の通信相手(メディアを通してコミュニケーションしている相手)が、実空間上で近くに存在する場合、通信相手の仮想空間上での3次元オーディオ技術によるメディア音と、実空間での直接音とが異なる方向または距離から聞こえる場合がある。これにより、実空間上で近くに存在する通信相手の呼びかけに対して別の方向を向いて答えてしまう、などの不都合が発生する。
特許文献1では、地図上で相手の位置を表示しているが、音声を通じて相手の位置を認識させることについては考慮されていない。また、特許文献2、3および非特許文献1から4に記載の会議システムでは、実空間上の通信相手の位置については考慮されていない。
本発明は上記事情を考慮してなされたものであり、本発明の目的は、実空間と仮想空間とを関連付け、実空間における通信相手の相対的な位置および方向を身体感覚として把握可能な音声コミュニケーション・システムを提供することである。
上記課題を解決するために、本発明では、実空間における複数のユーザ各々の位置情報に基づいて、仮想空間における複数のユーザ各々の位置を算出する。
例えば、仮想空間を用いた複数のユーザの会話を実現する音声コミュニケーション・システムであって、複数のユーザ各々の実空間上の位置を管理するサーバ装置と、複数のユーザが使用する複数のクライアント端末とを有する。複数のクライアント端末各々は、自クライアント端末の自ユーザの実空間上の位置に関する位置情報を検知する位置検知手段と、検知手段が検知した自ユーザの実空間上の位置情報をサーバ装置に送信するクライアント送信手段と、サーバ装置から自ユーザ以外のユーザである他ユーザ各々の実空間上の位置に関する位置情報を受信するクライアント受信手段と、自ユーザおよび他ユーザ各々の実空間における位置情報に基づいて複数のユーザ各々の仮想空間における位置を算出する空間モデル化手段と、空間モデル化手段が算出した位置に基づいて他ユーザの各々の音声に適用する音響効果を制御する音響制御手段と、を有する。サーバ装置は、複数のクライアント端末各々から、クライアント端末の自ユーザの実空間上の位置情報を受信するサーバ受信手段と、サーバ受信手段が受信した複数のユーザ各々の実空間上の位置情報を記憶する記憶手段と、複数のクライアント各々に、記憶手段が記憶している前記クライアント端末の他ユーザ各々の位置情報を送信するサーバ送信手段と、を有する。
本発明によれば、実空間における通信相手の相対的な位置および方向が、通信相手の音声(メディア音)によって、身体感覚として容易に把握することができる。そのため、ユーザは、仮想空間および実空間において、自然に会話することができる。
以下に本発明の実施の形態について説明する。
図1は、本発明の一実施形態が適用された音声コミュニケーション・システムのシステム構成図を示したものである。図示するように、本システムは、複数のクライアント201、202、203と、プレゼンスを管理するプレゼンスサーバ110と、セッション制御を行うSIP プロキシサーバ120と、ユーザの登録・認証をおこなう登録サーバ130とが、インターネット等のネットワーク101を介して接続されている。プレゼンスは、仮想空間そのものと、仮想空間内における各ユーザの位置情報(存在感)である。
なお、本実施形態では3台のクライアントを有しているが、クライアントの数は3台に限定されず、2台または4台以上であってもよい。また、本実施形態では、ネットワーク101は単一のドメインによって構成されているが、複数のドメインによりネットワークが構成され、各ドメインを結合して複数ドメインにまたがる通信を行うことも可能である。その場合にはプレゼンスサーバ110、SIP プロキシサーバ120および登録サーバ130は、複数個存在する。
次に、音声コミュニケーション・システムのハードウェア構成について説明する。
図2は、クライアント201、202、203、プレゼンスサーバ110、SIP プロキシサーバ120および登録サーバ130の各装置のハードウェア構成を示したものである。
クライアント201、202、203は、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、外部システムとデータ通信をするための通信装置304と、入力装置304と、出力装置306とを有する一般的なコンピュータシステムを利用することができる。例えば、PDA(Personal Digital Assistant)、ウェアラブルコンピュータ、PC(Personal Computer)など携帯用のコンピュータシステムである。なお、入力装置305および出力装置306については、図3において後述する。
プレゼンスサーバ110、SIP プロキシサーバ120および登録サーバ130は、少なくともプログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、外部システムとデータ通信をするための通信装置304と、を有する一般的なコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。
なお、上記各装置の後述する各機能は、メモリ302にロードまたは記憶された所定のプログラム(クライアント201、202、203の場合はクライアント用のプログラム、プレゼンスサーバ110の場合はプレゼンスサーバ用のプログラム、SIP プロキシサーバ120の場合はSIP プロキシサーバ用のプログラム、そして、登録サーバ130の場合は登録サーバ用プログラム)を、CPU301が実行することにより実現される。
次に、図3を参照しクライアント201の入力装置305および出力装置306と、機能構成とについて説明する。なお、クライアント202、203においても同様の構成とする。
クライアント201は、入力装置305として、マイクロフォン211と、カメラ213と、GPS受信装置231と、地磁気センサ232と、操作部(不図示)とを有する。出力装置306として、3次元オーディオ技術対応のヘッドフォン217と、ディスプレイ220とを有する。GPS受信装置231は、少なくとも3個のGPS衛星からのGPS信号を受信する。そして、GPS受信装置231は、少なくとも3個のGPS衛星に対して、クライアント201とGPS衛星間の距離および距離の変化率を測定し、クライアント201を携帯しているユーザの実空間での現在位置を算出する。地磁気センサ232は、地球が保持している磁場を検出し、検出結果からクライアント201を携帯しているユーザの実空間での向き(方位)を算出する。なお、地磁気センサ232は、移動体が回転した角度を検出するジャイロであってもよい。
機能構成としては、オーディオエンコーダ212と、オーディオレンダラ216と、ビデオエンコーダ214、グラフィクスレンダラ219と、空間モデラ221と、プレゼンスプロバイダ222と、オーディオ通信部215と、ビデオ通信部218と、セッション制御部223と、を有する。
オーディオエンコーダ212は、音声をディジタル信号に変換する。オーディオレンダラ216は、3次元オーディオ技術を使用して残響、フィルタリングなど仮想空間の属性から帰結する処理を行う。ビデオエンコーダ214は、画像をディジタル信号に変換する。グラフィクスレンダラ219は、仮想空間の属性から帰結する処理を行う。空間モデラ221は、GPS受信装置231および地磁気センサ232から実空間での位置情報および方位情報を受け付けて、仮想空間上でのユーザの位置や向きなどのプレゼンスを計算する。プレゼンスプロバイダ222は、プレゼンスサーバ110との間で、前記実空間でのユーザの位置情報および方位情報を送受信する。オーディオ通信部215は、他のクライアントとの間でオーディオ信号をリアルタイムに送受信する。ビデオ通信部218は、他のクライアントとの間でビデオ信号をリアルタイムに送受信する。セッション制御部223は、SIP プロキシサーバ120を経由して、他のクライアントやプレゼンスサーバ110との間で、通信セションを制御する。
ここで仮想空間とは、複数のユーザが会議または会話を行うために仮想的に作り出した空間であって、プレゼンスサーバ110が管理している。ユーザがある仮想空間に入場すると、プレゼンスサーバ110は、その仮想空間の属性、および、その仮想空間に存在する他のユーザの実空間での位置情報および方位情報を送信する。そして、空間モデラ221は、送信されたこれらの情報と、GPS受信装置231および地磁気センサ232から入力された自ユーザの実空間での位置情報および方位情報と、をメモリ302または外部記憶装置303に格納する。仮想空間の属性には、例えば、空間の大きさ、天井の高さ、壁および天井の反射率・色彩・質感、残響特性、空間内の空気による音の吸収率などがある。これらのうち壁および天井の反射率、残響特性、空間内の空気による音の吸収率などは聴覚的な属性であり、壁および天井の色彩・質感は視覚的な属性であり、空間の大きさ、天井の高さは聴覚・視覚の両方にかかわる属性である。
つぎに、各機能の動作についてプレゼンス、音声、映像の順に説明する。
プレゼンスについては、GPS受信装置231および地磁気センサ232が、実空間における自ユーザの位置および方位を算出し、空間モデラ221に自ユーザの位置情報および方位情報を入力する。空間モデラ221は、あらかじめプレゼンスサーバ110から送信された仮想空間の属性(空間の大きさ、残響特性など)と、仮想空間内の他の各ユーザの実空間の位置情報および方位情報とをメモリ302または外部記憶装置303に保持している。空間モデラ221は、仮想空間の属性と、実空間上の他ユーザおよび自ユーザの位置情報とから、実空間と仮想空間とのマッピングを行う。仮想空間に自ユーザと複数の他ユーザが存在する場合、空間モデラ221は、実空間上で自ユーザに相対的に近い他のユーザを、仮想空間上でも自ユーザに相対的に近い位置に配置する。なお、実空間から仮想空間へのマッピングは、実空間上での位置情報をスケールダウンして仮想空間上の位置とする線形マッピング(線形写像)であっても、非線形マッピング(非線形写像)であってもよい。以下に非線形マッピングについて説明する。
図4は、arctan(x)を用いた実空間と仮想空間との非線形マッピングの一例を模式的に示したものである。図示する非線形マッピングでは、共通の座標系として実空間の座標(位置情報)を使用する。図4には、実空間を示す紙面に垂直な平面pと、自ユーザの実空間上の位置uと、第3の他ユーザの実空間上の位置cと、が記載されている。すなわち、平面 p のu, c をふくむ切断線が紙面(図4)に記載されている。また、図4には、自ユーザの仮想空間を示す平面 p に接する球 s の断面と、第3の他のユーザの仮想空間を示す平面 p に接する球 q の断面と、が記載されている。そして、実空間の平面pのa地点には第1の他ユーザが、b 地点には第2の他ユーザが存在しているものとする。
この場合、空間モデラ221は、他ユーザとの距離 d を arctan(d/r) (r は定数) すなわち球 s 上の円弧の長さ (の定数倍) に変換する。具体的には、実空間上 a 地点にいる (自ユーザからの実空間上での距離がu から a までの線分の長さである) 第1の他ユーザを仮想空間上の a' 地点に (自ユーザからの距離がu から a' までの円弧の長さになるように)、マッピング(配置)する。また、空間モデラ221は、同様に、実空間上b地点にいる第2の他ユーザを仮想空間上のb'地点に、実空間上c地点にいる第3の他ユーザを仮想空間上のc'地点に、マッピング(配置)する。すなわち、空間モデラ221は、実空間である平面pの各地点を、仮想空間である球面上s に座標変換する。なお、上記の説明においては、紙面(図面)の都合上、他ユーザはすべて前記の切断線上に存在するものとした。しかしながら、2人以上の他ユーザが、自ユーザをふくむ同一直線上に存在しない場合であっても、3次元空間上において同様にマッピングすることができる。
また、実空間上で図示しない無限遠点に他ユーザが存在する場合は、仮想空間上のd´地点に当該ユーザをマッピング(配置)する。このように無限遠を有限距離にマッピングすることにより、同一の仮想空間上に存在する他ユーザがどんなに遠い距離にいる場合であっても会話をすることができる。なお、空間モデラ221は、仮想空間である球s の上部半球を、平らにのばした状態で各地点a'、b'、c'、d'をマッピングする。
また、空間モデラ221は、仮想空間である球 s の半径 r (または、半径rの定数倍の数) を仮想空間属性として、メモリ302または外部記憶装置303に保持している。そして、空間モデラ221は、メモリ等302、303に保持している球s の半径 rを用いて仮想空間である球sを設定する。なお、仮想空間属性である球s の半径 rは、プレゼンスサーバ110によって管理され、各クライアントの空間モデラ221に通知される。すなわち、同じ仮想空間上に存在する全てのユーザの仮想空間である球 s の半径 rは一致している。これにより、各ユーザの距離に関する感覚を一致させることができる。
また、球qは、実空間上のc地点に存在する第3の他ユーザの仮想空間である。第3の他ユーザの空間モデラ221は、自ユーザの空間モデラ221と同様に、arctan(x)を用いて、実空間上でu地点にいる自ユーザを、仮想空間上のu' '地点にマッピング(配置)する。
そして、空間モデラ221は、仮想空間上にマッピングされた各ユーザの方位情報を用いて、各ユーザの方向を設定する。なお、地磁気センサ232の方向とユーザの方向とが一致していない場合(地磁気センサ232の装着位置が固定されていない場合など)、または、磁気の乱れのために地磁気センサ232が正確に方位を指示しない場合には、以下の操作を行うことも考えられる。たとえば、正確に方位を指示させるために、ユーザが、特定の方位 (たとえば北) を向いて操作部226(図8参照)のリセットボタンを押す。空間モデラ221は、リセットボタンからの信号を受けて、その時点での方向を、前記の特定の方位とみなすように地磁気センサ232からの出力を補正する。また、上記のような絶対方位(特定方位)に基づく補正のかわりに、他ユーザの実空間上での方向と仮想空間上での方向とを一致させる方法が考えられる。たとえば、ユーザが、近傍にいる他ユーザの方向を向いてリセットボタンを押すことによって、実空間上での方向と仮想空間上での相対的な方向とを一致するように補正することもできる。このような複数の補正方法がクライアントに実装されている場合には、ユーザはまず方法を選択してからリセットボタンを押す。
なお、空間モデラ221は、プレゼンスプロバイダ222を介して、自ユーザの実空間における位置情報および方位情報をプレゼンスサーバ110に送信する。また、空間モデラ221は、プレゼンスプロバイダ222を介して、他のユーザの実空間における位置情報および方位情報を、プレゼンスサーバ110から受信する。すなわち、空間モデラ221は、ネットワーク101を経由して、他のユーザの実空間における位置情報および方位情報を受信するため、他のユーザの仮想空間内の位置や向きに関しては、遅延やジッタの発生が避けられない。一方、自ユーザの位置や向きに関しては、GPS受信装置231および地磁気センサ232から空間モデラ221に直接入力されるため、遅延はほとんど発生しない。
音声については、マイクロフォン211がクライアント201を使用するユーザの音声を収集し、オーディオエンコーダ212に送付する。そして、オーディオエンコーダ212は、前記の音声をディジタル信号に変換してオーディオレンダラ216に出力する。また、オーディオ通信部215は、他の1台または複数台のクライアントとの間でオーディオ信号をリアルタイムに送受信し、オーディオレンダラ216に出力する。
オーディオレンダラ216には、オーディオエンコーダ212およびオーディオ通信部215から出力されたディジタルの出力信号が入力される。そして、オーディオレンダラ216は、3次元オーディオ技術を使用して、空間モデラ221が保持する聴覚的な仮想空間属性、および、仮想空間上にマッピングされた自ユーザおよび他ユーザの位置にもとづいて、仮想空間上でどのように他ユーザ(通信相手)の音声が聞こえるかを計算する。以下、図5、6を用いて、オーディオレンダラ216について具体的に説明する。
図5は、通信相手(他ユーザ)である音源の方向および距離を模式的に示した図である。図5では、人を真上から示した人頭1と、通信相手である音源2とを示している。人頭1は、向きを示すために鼻11を有している。すなわち、人頭1は、鼻11が付加されている方向3に向いている。3次元オーディオ技術においては、おもに人頭1のまわりでの音響の変化のしかた (インパルス応答) をあらわす HRIR (Head Related Impulse Response) と、部屋などの仮想環境によって生成される擬似的な残響とによって音の方向および距離を表現する。そして、HRIR は、音源2と人頭1との距離4、および、人頭1と音源との角度 (水平角度および垂直角度)5 によって決定される。なお、メモリ302または外部記憶装置303には、あらかじめダミーへッド(人頭1)を使用して各距離および各角度毎に測定したHRIRの数値が記憶されているものとする。また、HRIRの数値には、左チャネル用(ダミーヘッドの左耳で測定したもの)と、右チャネル用(ダミーヘッドの右耳で測定したもの)とで異なる数値を使用することによって、左右、前後または上下の方向感を表現する。
図6は、オーディオレンダラ216の処理を示した図である。オーディオレンダラ216は、各音源(他ユーザ)に関して RTP (Real-time Transport Protocol) によって受信される 1 パケットごと (通常は 20 ms ごと) に、下記の計算をおこなう。図示するように、オーディオレンダラ216は、各音源に関して、信号列 si[t] (t = 1, ...) および音源の仮想空間内での座標 (xi, yi) の入力を受け付ける(S61)。なお、仮想空間内での各音源の座標については、空間モデラ221から入力される。空間モデラ221は、仮想空間上に各音源(他ユーザ)をマッピング(配置)した後、各音源の座標(仮想空間の位置情報)をオーディオレンダラ216に入力する。また、各音源の信号列は、オーディオ通信部215から入力される。
そして、オーディオレンダラ216は、入力された座標を用いて、自ユーザと音源との距離および角度 (azimuth) を、音源ごとに計算する(S62)。なお、自ユーザは、仮想空間の中心(座標(0,0))に存在するものとする。そして、オーディオレンダラ216は、自ユーザとの距離および角度 (azimuth)に対応するHRIR を、メモリ302または外部記憶装置303にあらかじ記憶されたHRIRの数値の中から特定する(S63)。なお、オーディオレンダラ216は、メモリ302等に記憶されたHRIRの数値を補間することによって算出したHRIRの数値を使用することとしてもよい。
そして、オーディオレンダラ216は、S61において入力した信号列と、S63において特定したHRIRの左チャネル用 HRIR と、を使用してたたみこみ (convolution) 計算を行い、左チャネル信号を生成する(S64)。そして、オーディオレンダラ216は、各音源からの左チャネル信号を全て加算する(S65)。また、オーディオレンダラ216は、S61において入力した信号列と、S63において特定したHRIRの右チャネル用 HRIR と、を使用してたたみこみ (convolution) 計算を行い、右チャネル信号を生成する(S66)。そして、オーディオレンダラ216は、各音源からの右チャネル信号を全て加算する(S67)。
次に、オーディオレンダラ216は、加算後の左チャネルの信号に残響を付加する(S68)。すなわち、オーディオレンダラ216は、仮想空間の属性による音響の変化の仕方 (インパルス応答) にもとづいて残響を計算する。残響の計算には、FIR (有限インパルス応答) とよばれる計算法と、IIR (無限インパルス応答) とよばれる計算法がある。これらの計算法は、ディジタルフィルタに関する基本的な方法であるため、ここでは説明を省略する。また、オーディオレンダラ216は、加算後の右チャネルの信号に、左チャネルと同様に残響を付加する(S69)。HRIR の特定(S63)および残響の計算(S68、S69)は、前記のように1パケットごとにおこなうが、たたみこみ計算(S64、S66)においては、つぎのパケットに繰り越すべき部分が生じる。そのため、特定したHRIRまたは入力された信号列をつぎのパケットの処理まで保持する必要がある。
このように、オーディオレンダラ216は、オーディオ通信部215から出力される通信相手のユーザの音声に対して前記計算による音量の調節、残響や反響音の重ね合わせ、フィルタリングなどの処理を行い、自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を制御する。すなわち、仮想空間の属性と通信相手との相対的な位置から帰結する処理によって、音声を定位させ、再生する。これにより、直接は音声が聞こえない通信相手のいる方向を身体感覚的に容易に把握することができる。
なお、オーディオレンダラ216は、必要に応じて、オーディオエンコーダ212からの出力された自ユーザ音声に対して残響、フィルタリングなどの仮想空間の属性から帰結する処理を行ったうえで、クライアント201を使用するユーザの頭部の位置にレンダリングすることとしてもよい。オーディオレンダラ216により生成された自ユーザの音声は、ヘッドフォン217に出力され、これを自ユーザが聴取する。すなわち、自ユーザの音声の直接音を自ユーザに聴取させると奇異な印象をあたえることがあり、とくに遅延が大きいと自らの発声に支障を与えるため、通常は自ユーザに自ユーザ自身の音声を聴取させない。しかしなから、直接音については聴取させず、遅延を数 10 ms の範囲におさえた残響だけを聴取させることも可能である。これによって、自ユーザの仮想空間内での位置や仮想空間の大きさに関する身体感覚を把握させることができる。
画像については、カメラ213がユーザの頭部を撮影し、撮影した画像を連続的にビデオエンコーダ214に送付する。そして、ビデオエンコーダ214は、前記の画像をディジタル信号に変換して、グラフィックスレンダラ219に出力する。また、ビデオ通信部218は、他の1台または複数台のクライアントとの間でビデオ信号をリアルタイムに送受信し、グラフィックスレンダラ219に出力する。次に、グラフィクスレンダラ219は、ビデオエンコーダ 214 およびビデオ通信部218からのディジタルの出力信号を入力する。
そして、グラフィクスレンダラ219は、空間モデラ221が保持する視覚的な仮想空間属性、仮想空間における通信相手の位置および自分の位置にもとづいて、仮想空間上でどのように通信相手が見えるかを計算(座標変換)する。次に、グラフィクスレンダラ219は、ビデオ通信部218から出力される通信相手のユーザの画像に対して、前記計算により自分の位置から見た視点で仮想空間の属性から帰結する処理を行い、画面上に出力するイメージデータを作成する。このグラフィクスレンダラ219により生成された映像は、ディスプレイ220に出力され、クライアント201を使用するユーザの視点からの映像に再生され、ユーザは必要に応じてディスプレイ220の出力を参照する。
図7は、ディスプレイ220に表示される仮想空間の一例である。図4に示す表示内容は、クライアント201を使用する自ユーザが、クライアント202およびクライアント203を使用する第1および第2の他ユーザと、仮想空間を共有している場合を例にしたものである。図示する例では、平面図で仮想空間を表示したものである。空間モデラ221がメモリ302または外部記憶装置303に記憶している仮想空間の属性、仮想空間内における自らの位置および他のユーザの情報をもとに、真上から仮想空間に配置されたクライアント201の自ユーザを表現する自アバタ411と、通信相手のユーザを表現する第1の他アバタ412および第2の他アバタ413と、を眺めることで得られる2次元画像を表示している。グラフィクスレンダラ219は、クライアント201の自ユーザの位置と向きを固定し、自ユーザを中心として仮想空間や仮想空間中の他のユーザが相対的に移動し回転するように表示する。実空間上で自ユーザが移動または向きが変更した場合は、GPS受信装置231または地磁気センサ232からの入力を受けて空間モデラ221が仮想空間のマッピングを行うことにより、仮想空間や仮想空間中の他のユーザが相対的に移動・回転した画面がリアルタイムで表示される。また、図示する例では、北を示す方位情報420が表示されている。
これにより、自ユーザと、通信相手である他ユーザ(クライアント202、203)との仮想空間における位置関係を表現することができる。また、自ユーザの向きを前方に固定することにより、音声とグラフィクス表示との整合性が確保され、他ユーザの位置・方向を身体感覚として把握することができる。また、自ユーザの背後に存在する他ユーザも表示することができるため、背後から接近する他ユーザも見落とす危険が少ないという利点がある。
なお、図示していないが、ディスプレイ220上に縮尺を表示することにより、他ユーザとの仮想空間上の距離も正確に表現することができる。たとえば、複数の縮尺の候補のなかからラジオボタン等によって縮尺を選択できるようにしたり、スクロールバースライダー(scroll bar slider)によって縮尺を連続的に変更できるようにすることが考えられる。これらのボタンやスクロールバースライダーを操作すると即時に表示された平面図の縮尺が変更されるようにすることによって、遠方の様子を確認したり、部屋内(仮想空間内)での自ユーザの位置を確認したり、あるいは近傍をより詳細に観察したりすることができる。
また、図示していないが、クライアント201のカメラ213が撮影した自ユーザの映像はアバタ411に、クライアント202のカメラ213が撮影した第1の他ユーザの映像はアバタ412に、クライアント203のカメラ213が撮影した第2の他ユーザの映像はアバタ413に、テクスチャマップによって貼り付けられている。通信相手のユーザが回転するとテクスチャも回転するので、第1および第2のユーザが仮想空間内でどの向きを向いているか把握できる。
なお、音声または画像のリアルタイム通信には、IETF (Internet Engineering Task Force) が発行したドキュメントRFC 3550に記述されたプロトコルであるRTP(Real-time Transport Protocol) が使用される。音声または画像の通信において、多少の遅延増加が許される場合は、オーディオ通信部215またはビデオ通信部218と、他のクライアントとの通信は、音声または画像の通信を行う通信プロキシサーバを別に設けて、この通信プロキシサーバを経由して、他のクライアントとの音声または画像の通信を行うこともできる。
以上で、図2のクライアント201の説明を終了する。なお、クライアント201 のなかで、マイクロフォン 211、カメラ 213、GPS受信装置231および地磁気センサ232、ヘッドフォン217 およびディスプレイ 220 はハードウェアによって実現される。また、オーディオエンコーダ 212およびビデオエンコーダ 214は、ソフトウェア、ハードウェアまたはこれらの組み合せによって実現される。また、オーディオ通信部 215、ビデオ通信部 218、空間モデラ 221 およびセッション制御部223 は、通常、ソフトウェアによって実現される。
次に、図8を参照し、クライアント201、202、203の種類を例示する。
図8(a)に示すクライアントは、PDAまたはハンドヘルド・コンピュータに近い大きさと機能を有する。クライアント本体230は、カメラ213、ディスプレイ220、操作部226、アンテナ237および、GPS受信装置231を有する。また、本体230に接続されたヘッドセットは、ヘッドフォン217、マイクロフォン211および地磁気センサ232を有する。地磁気センサ232をヘッドフォン217内(ヘッドバンド上部等)に設置することにより、ユーザに対して常にほぼ一定の角度(前方に向いて)で地磁気センサ232を装着することができる。操作部226は、クライアント201に各種の指示を入力するための指示ボタン241〜245を有する。なお、指示ボタン241〜245には、ヘッドセットを装着する際にヘッドフォン217に設置された地磁気センサ232の方向を合わせるためのリセットボタンが含まれている。また、図示するヘッドセットは、本体230に有線接続されているが、BluetoothまたはIrDA(赤外線)などにより無線接続することも可能である。また、当該クライアントは、アンテナ237を用いて無線LANによりネットワーク101に接続する。
図8(b)に示すクライアントは、ウェアラブル・コンピュータの例を示したものである。眼鏡のつるのようなクライアント本体241は、マイクロフォン211、カメラ213、ヘッドフォン217、ディスプレイ220、GPS受信装置231、および、地磁気センサ232を有する。ディスプレイ220は、ヘッドマウントディスプレイであり、このクライアント本体241を装着するユーザの数10cm前方に仮想的な映像を結像するか、あるいは、ユーザの前方に3次元の映像を結像する。なお、図8(b)のクライアントは、有線または無線で接続された図示しない操作部226を有する。
次に、図9から図12を参照し、クライアント201における処理手順を説明する。
図9は、クライアント201 をネットワーク 101 に接続するときの処理手順である。図示する接続手順は、クライアント201の電源投入時に実行される。まず、セッション制御部223は、ユーザの識別情報および認証情報を含むログインメッセージを、SIP プロキシサーバ120 に送信する(S901)。SIP プロキシサーバ120 は、ログインメッセージを受け付け、登録サーバ130 に当該ユーザの認証要求メッセージを送付する。そして、登録サーバ130は、ユーザの識別情報および認証情報を認証し、プレゼンスサーバ110 にユーザの識別情報を送付する。クライアントと登録サーバ130 との通信には、IETF のドキュメント RFC 3261 において規定されたプロトコル SIP (Session Initiation Protocol) の REGISTER メッセージを使用することが考えられる。クライアントは、SIP プロキシサーバ120を経由して、REGISTER メッセージを定期的に登録サーバ130に送信する。
また、クライアント201のプレゼンスプロバイダ 222と、プレゼンスサーバ110 との通信には、IETF のドキュメント RFC 3265に記述された SIP の SUBSCRIBE メッセージを使用することができる。SUBSCRIBE メッセージは、あらかじめイベント発生時に通知を受け取ることを要求するイベント要求メッセージである。プレゼンスプロバイダ 222は、プレゼンスサーバ110 に対して、プレゼンスサーバ110が管理する仮想空間の部屋リストおよび入場者リストに関して発生したイベントの通知を要求する。なお、プレゼンスプロバイダ222 は、SUBSCRIBE メッセージを使用する場合には、セッション制御部223およびSIP プロキシサーバ120 を経由してプレゼンスサーバ110 と通信を行う。
つぎに、プレゼンスプロバイダ 222は、プレゼンスサーバ110 から部屋リストを受け取る(S902)。なお、S901において、 SUBSCRIBE メッセージを使用した場合には、イベント通知メッセージとして NOTIFY メッセージを用いて前記の部屋リストが送られる。そして、プレゼンスプロバイダ 222は、受け取った部屋リストをディスプレイ 220 に表示する(S903)。
図10は、ユーザがディスプレイ 220 に表示された部屋リストの中から入場したい部屋を選択したときのクライアント201 の処理手順を示す。クライアント201のプレゼンスプロバイダ 222 は、操作部226を用いて入力された部屋の選択指示を受け付ける(S1001)。そして、プレゼンスプロバイダ 222 は、プレゼンスサーバ110 に入場メッセージ (enter) を送信する(S1002)。入場メッセージには、自ユーザの識別情報と、自ユーザの実空間内における位置情報および方位情報とが含まれる。なお、自ユーザの位置情報および方位情報は、GPS受信装置321および地磁気センサ322が算出して、空間モデラ221に入力される。そして、空間モデラ221は、入力された位置情報および方位情報を、メモリ302または外部記憶装置303に記憶する。プレゼンスプロバイダ222は、メモリ302または外部記憶装置303に記憶された位置情報および方位情報を読み出し、入場メッセージに含めて送信する。
入場メッセージの送信は、SIP の SUBSCRIBE メッセージを使用することもできる。すなわち、選択した部屋を受信者をとする SUBSCRIBE メッセージを入場メッセージとして使用する。SUBSCRIBE メッセージは、当該選択した部屋の仮想空間において発生したイベント(例えば、ユーザの入退場または移動、仮想空間属性の変更など)の通知を要求する。
次に、プレゼンスプロバイダ222は、プレゼンスサーバ110 から選択した部屋に入場している他ユーザの入場者リストを受け取る(S1003)。入場メッセージとして SUBSCRIBE メッセージを使用した場合は、これに対応する NOTIFY メッセージの形式で、プレゼンスプロバイダ222に入場者リストが送られる。なお、入場者リストには少なくとも、部屋に入場している他ユーザの識別情報と、実空間内における位置情報および方位情報と、指定された部屋の仮想空間属性と、が含まれているものとする。仮想空間属性には、図4に示す仮想空間である球sの半径rまたは当該半径rの定数倍の数(以下、「仮想空間半径等」)が含まれる。
なお、ユーザが部屋を退場する時の処理手順については、図示しないが、ユーザの退場指示を受付けて、プレゼンスプロバイダ222がプレゼンスサーバ110にユーザ識別情報を含んだ退場メッセージを送信する。
図11は、ユーザがプレゼンスを変更する場合、すなわち実空間において移動した場合の処理手順である。まず、空間モデラ221は、GPS受信装置231および地磁気センサ232から位置情報および方位情報(以下、「位置情報等」)の入力を受け付ける(S1101)。そして、空間モデラ221は、メモリ302または外部記憶装置303(以下、「メモリ等」)に記憶されている位置情報等と、S711で受け付けた位置情報等とを比較し、両者が異なるか否かを判別する(S1102)。なお、メモリ等には、GPS受信装置231および地磁気センサ232から前回入力された位置情報等が記憶されている。
受け付けた位置情報等がメモリ等に記憶された位置情報等と同じ場合、すなわち、自ユーザが実空間において移動せず、かつ、向きも変わっていない場合(S1102:NO)、空間モデラ221は、以降の処理を行わず、S1101に戻る。
受け付けた位置情報等がメモリ等に記憶された位置情報等と異なる場合、すなわち、自ユーザが実空間において移動、または、向きを変えた場合(S1102:YES)、空間モデラ221は、受け付けた位置情報等をメモリ等に記憶する。そして、空間モデラ221は、移動後の位置情報等を用いて、仮想空間のマッピングまたは自ユーザの向きを変更する(S1103)。仮想空間のマッピングは、図4において説明した実空間と仮想空間の非線形マッピングである。空間モデラ221は、自ユーザを仮想空間の中心に配置し、同一仮想空間内に存在する他のユーザの位置を非線形に再配置する。
次に、空間モデラ221は、移動後の仮想空間の位置情報等をオーディオレンダラ216、グラフィクスレンダラ219 およびプレゼンスプロバイダ 222 に通知する(S1104)。オーディオレンダラ216は、図6で説明したように、実空間の位置情報等に基づいてマッピングされた仮想空間内の自ユーザの位置および向きにおいて、どのように通信相手である他ユーザの音声が聞こえるかを計算する。そして、オーディオレンダラ216は、オーディオ通信部215から出力される通信相手の他ユーザの音声に対して前記計算による音量の調節、残響、フィルタリングなどの処理を行い、クライアント201を使用する自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を制御し、3次元音響を更新する。また、グラフィクスレンダラ219は、実空間の位置情報に基づいてマッピングされた仮想空間内の自ユーザの位置および自ユーザの向きに基づいて視点を変更し、仮想空間上でどのように通信相手が見えるかを計算(座標変換)する(図7参照)。そして、グラフィクスレンダラ219は、当該位置および向きからの眺めで画面上に出力するイメージデータを作成し、表示画面を更新する。
次に、プレゼンスプロバイダ222は、移動後の実空間上の位置情報等をプレゼンスサーバ110 に通知する(S1105)。SIP プロトコルを使用する場合は、 NOTIFY メッセージを使用する。なお、NOTIFY メッセージは、通常 SUBSCRIBE メッセージを受信した結果として送信される。そのため、プレゼンスサーバ110 がクライアント201 から入場メッセージを受信した際に、入場者リストを返信するとともに、前記 NOTIFY メッセージに対応する SUBSCRIBE メッセージを送信することが考えられる。なお、プレゼンスサーバ110は、プレゼンスプロバイダ 222 から通知された実空間上の位置情報等を受け付け、入場者リストにおける当該ユーザの位置情報等を更新する。
図12は、プレゼンスの変更入力、すなわち、プレゼンスサーバ110 がクライアント201に他のユーザの実空間の位置情報等を通知した場合の処理手順を示したものである。
空間モデラ221は、プレゼンスプロバイダ 222を介して、他のクライアントの他ユーザの実空間上の位置情報等をプレゼンスサーバ110から受け付ける(S1201)。なお、プレゼンスサーバ110は、図11のS1105においてクライアント201から送信された位置情報等を、当該送信元のクライアント以外のクライアントに通知(送信)する。そして、空間モデラ221は、通知された実空間の位置情報等をメモリ等に記憶部に記憶する。そして、空間モデラ221は、通知された位置情報等を用いて、他ユーザを仮想空間上にマッピング、または、他ユーザの向きを変更する(図4参照)。そして、空間モデラ221は、オーディオレンダラ216およびグラフィクスレンダラ219に、移動後の仮想空間の位置情報等を通知する(S1203)。オーディオレンダラ216 およびグラフィクスレンダラ219 は、図11のS1104で説明したように、通知された他ユーザの位置および向きにもとづいて、当該他ユーザの3次元音響および表示画面を更新する。
次にプレゼンスサーバ110 の機能構成および処理手順について説明する。なお、登録サーバ130 および SIP プロキシサーバ120 については、 SIP を使用する従来の通信と同じため、説明を省略する。
図13は、プレゼンスサーバ110 の機能構成を示す。プレゼンスサーバ110は、クライアントと各種情報の送受信をするためのインタフェース部111と、クライアントからのメッセージ種別を判定する判定部112と、判定結果に応じた処理を行う処理部113と、仮想空間の属性、仮想空間で発生したイベント(ユーザの入退場、移動等)、部屋リスト、入場者リスト等を、管理し記憶する記憶部114とを有する。記憶部114には、あらかじめ、プレゼンスサーバ110が管理するいくつかの仮想空間の属性が記憶されている。前述のとおり、ユーザはこれらの仮想空間から入場したい仮想空間を選択する(図9、図10参照)。その後、クライアントは、仮想空間に入場したユーザの各種のイベントをプレゼンスサーバ110に送信する。これにより各仮想空間内には、各種のイベントが発生する。なお、記憶部114はこれらの情報をメモリ302または外部記憶装置303に記憶する。
図14は、プレゼンスサーバ110 の処理手順を示したものである。プレゼンスサーバ110 は、クライアントからの要求を受け付け、これに対する処理をプレゼンスサーバ110 が停止するまで行う。まず、インタフェース部111は、クライアントからのメッセージを待つ(S1411)。メッセージを受信すると、判定部112は、インタフェース部111が受け付けたメッセージの種類を判定する(S1412)。
メッセージがログインメッセージの場合、処理部113は、メッセージ送信元のクライアントに部屋リストを送信するようインタフェース部111に指示する(S1421)。インタフェース部111は、部屋リストをメッセージ送信元のクライアントに送信し、その後S1411に戻り、次のメッセージを待つ。
メッセージが入場メッセージの場合、処理部113は、メッセージ送信元クライアントのユーザを、指定された部屋の入場者リストに追加する(S1431)。すなわち、処理部113は、入場メッセージに含まれている、当該ユーザの識別情報と、当該ユーザの実空間上の位置情報および方位情報と、を入場者リストに追加する。次に、処理部113は、指定された部屋の全入場者(但し、当該ユーザ以外)の識別情報と実空間上の位置情報および方位情報と、をメッセージ送信元クライアントに送信するようインタフェース部111に指示する。また、処理部113は、指定された部屋の仮想空間属性を、メッセージ送信元クライアントに送信するようインタフェース部111に指示する。仮想空間属性には、図4に示す仮想空間である球sの半径rまたは当該半径rの定数倍の数(以下、「仮想空間半径等」)が含まれる。インタフェース部111は、前記指示に従い送信元クライアントに送信する(S1432)。そして後述するS1436に進む。
移動メッセージの場合、処理部113は、入場者リストにおけるメッセージ送信元クライアント(ユーザ)の実空間上の位置情報および方位情報を更新する(S1435)。なお、実空間上の位置情報および方位情報は、移動メッセージに含まれている。そして、処理部113は、対象となる部屋の全ての入場者のクライアントに(但し、メッセージ送信元クライアントは除く)、メッセージ送信元クライアントのユーザの識別情報と、実空間上の位置情報および方位情報と、を通知するようインタフェース部111に指示する(S1436)。インタフェース部111は、前記指示に従いクライアントに送信し、S1411に戻る。なお、入場メッセージの場合(S1431)も、同様である。
退場メッセージの場合、処理部113は、メッセージ送信元クライアントのユーザを入場者リストから削除する(S1441)。そして、処理部113は、対象となる部屋の全ての入場者のクライアントに(但し、メッセージ送信元クライアントは除く)、当該ユーザが部屋から退場したことを通知するようにインタフェース部111に指示する(S1442)。インタフェース部111は、前記指示に従いクライアントに送信し、S1411に戻る。
なお、図示しないが、プレゼンスサーバ110 は、プレゼンスサーバ110の管理者からの要求(入力)を受け付けて、仮想空間属性を変更することとしてもよい。例えば、判定部112は、プレゼンスサーバ110の入力手段305から入力された仮想空間半径等の変更指示を受け付ける。この仮想空間半径等の変更指示には、変更対象の部屋を識別する識別情報と、変更後の仮想空間半径等とが含まれる。そして、処理部113は、記憶部114に記憶された変更対象の部屋の仮想空間半径等を変更する。そして、処理部113は、記憶部114に記憶された入場者リストを読み出し、変更対象の部屋に入場している全てのユーザのクライアントに変更後の仮想空間半径等を通知する。通知を受けたクライアントの空間モデラ221は、図4に示す変更後の仮想空間半径等の球s上に、実空間上の各ユーザをマッピングする。
以上で本発明の一実施形態について説明した。
本実施形態の音声コミュニケーション・システムでは、各ユーザの実空間の位置および方向に基づいて各ユーザを仮想空間上にマッピングする。これにより、実空間では音声(直接音)が聞こえない離れた場所にいる通信相手であっても、当該通信相手の音声(メディア音)によって、当該通信相手の相対的な位置・方向を身体感覚として容易に把握することができる。そのため、人ごみの中でも、通信相手を容易に発見し、また、通信相手に近づくことができる。
また、本実施形態では、通信相手の存在する方向が、実空間と仮想空間とで一致している。そのため、実空間での音声(直接音)が聞こえる至近距離に通信相手が存在する場合であっても、実空間上の音声(直接音)と、仮想空間上での音声(メディア音)とが異なる方向から聞こえることがない。したがって、仮想空間上での音声(メディア音)の呼びかけに対して、別の方向を向いて答えるなどの不都合が生じない。
なお、本発明は上記の実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
例えば、本実施形態のクライアント201は、カメラ213、ビデオエンコーダ214等を有し、ディスプレイ220に仮想空間のイメージデータを出力する。しかしながら、本発明は、音声による通信を主とした音声コミュニケーション・システムであるため、クライアント201は、ディスプレイ220に仮想空間のイメージデータを出力しなくてもよい。この場合、クライアント201は、カメラ213、ビデオエンコーダ214、ディスプレイ220等を有しない。
また、本実施形態のグラフィクスレンダラ219は、平面図(2次元データ)を用いて、仮想空間を表現している(図7参照)。しかしながら、グラフィクスレンダラ219は、3次元グラフィクス技術を使用して、より明確な仮想空間表示をおこうこととしてもよい。すなわち、空間モデラ221がメモリ302または外部記憶装置303に記憶している空間の大きさ、壁および天井の材質などの仮想空間の属性、仮想空間内における自ユーザおよび他のユーザの位置および方向などの3次元のデータから2次元画像を作成し、ディスプレイ220に表示することとしてもよい。
また、オーディオレンダラ216は、オーディオ通信部215から出力される通信相手のユーザの音声(メディア音)に、以下の処理を行うこととしてもよい。例えば、オーディオレンダラ216は、メディア音に、実際の音声(直接音)ではありえないインパルス応答をもつフィルタリングを行う。または、オーディオレンダラ216は、実際の音声(直接音)とは異なった、音源との距離感を認識させるための残響を通信相手のユーザの音声(メディア音)に付加する。または、オーディオレンダラ216は、通信相手のユーザの音声(メディア音)に、ノイズを付加する。これにより、実空間内で実際の音声(直接音)が聞こえる至近距離に通信相手のユーザが存在する場合であっても、通信相手の音声が、直接音であるかメディア音であるかを容易に判別することができる。
また、実空間上で実際の音声(直接音)が聞こえる距離に通信相手が存在する場合、通信相手の実際の音声(直接音)とオーディオ通信部215から出力される音声(メディア音)との両方が聞こえる。この場合、メディア音の遅延が小さいとメディア音によって定位し、逆に、メディア音の遅延が大きすぎると直接音とは無関係の独立した音源として聞こえるなどにより混乱が生じる。そのため、所定の至近距離に通信相手が存在する場合、オーディオレンダラ216は、通信相手の音声(メディア音)の遅延時間を一定の範囲に制御することとしてもよい。メディア音の遅延は、直接音より大きくかつ一定の範囲内であれば、メディア音は直接音の残響(エコー)として聞こえるため、直接音によって定位し、混乱の発生を防止することができる。また、オーディオレンダラ216は、所定の至近距離に存在する通信相手の音声(メディア音)の音量を、一定量または一定の割合、下げることとしてもよい。これにより、メディア音しか聞こえない遠方の通信相手の音量とバランスをとることができる。
なお、実空間上で、直接音が聞こえる所定の至近距離に通信相手が存在するか否かは、無線通信技術のBluetoothを用いることが考えられる。すなわち、Bluetoothによってデータの送受信が可能な場合は、所定の至近距離に通信相手が存在すると判別する。
また、本実施形態のクライアントは、GPS受信装置231および地磁気センサ232を用いて、ユーザ(クライアント)の位置および方位を検出する。しかしながら、ユーザ(クライアント)の位置および方位を検出するために、センサーネットを用いることとしてもよい。センサーネットを用いることで、ユーザが屋内でクライアントを使用する場合であっても、ユーザの位置および方位を検出することができる。
また、本実施形態ではクライアント各々が、直接、音声通信をおこない、他のクライアントから入力された音声を3次元化する(図6参照)。しかしながら、クライアントの処理能力および通信能力が低い場合は、これらの処理をサーバが行うこととしてもよい。すなわち、図1の示すネットワーク構成に新たな音響サーバを追加することが考えられる。以下に、音響サーバを有する実施形態について説明する。
図15は、音響サーバを有する実施形態のネットワーク構成図である。図示するネットワーク構成は、音響サーバ140を有する点において、図1のネットワーク構成と異なる。また、各クライアント201、202、203は、図3に示すクライアントの構成と以下の点において異なる。すなわち、オーディオレンダラ216 は、音声3次元化の処理(図6参照)を行わない単純な音声デコーダである。また、オーディオ通信部215は、他のクライアントと直接通信するかわりに、音響サーバ140と通信する。
図16は、音響サーバ140の構成図である。図示するように、音響サーバ140は、オーディオ受信部141と、オーディオレンダラ142と、ミキサ143と、オーディオ送信部144と、をそれぞれ少なくとも1つ有する。すなわち、音響サーバ140は、クライアントの数だけ(すなわち、クライアント毎に)これらの処理部141〜144を有するものとする。なお、音響サーバ140は、オーディオ受信部141、オーディオレンダラ142、ミキサ143およびオーディオ送信部144を、クライアントの数だけ有することなく、それぞれ1つのプログラムまたは装置を時分割で使用することによって実現することとしてもよい。
また、音響サーバ140は、空間モデラ145を有する。空間モデラ145は、プレゼンスサーバ110から、実空間上における各ユーザの位置および仮想空間の属性(仮想空間半径等)を受信し、図3に示すクライアントの空間モデラ221と同様の処理により、仮想空間上の各ユーザの位置をマッピング(配置)する。
オーディオ受信部141は、各クライアントのオーディオ通信部215から入力された音声を受信する。オーディオレンダラ142は、音声3次元化を行い、各クライアントに対応して、それぞれ2チャンネル(左チャンネルと右チャンネル)の信号データ(信号列)を、クライアント毎に対応付けられた各ミキサ143に出力する。すなわち、オーディオレンダラ142は、空間モデラ145が配置した仮想空間上の各ユーザの位置に基づいて、図3に示すクライアントのオーディオレンダラ216の音源の入力(図6:S61)、距離・角度の計算(S62)、HRIRの特定(S63)、および、たたみこみ計算(S64、S66)と、同様の処理を行う。ミキサ143は、各オーディオレンダラ142から2チャンネルの信号データを受け付けて、図3に示すクライアントのオーディオレンダラ216のミキシング処理(S65、S67)および残響計算(S68、S69)と同様の処理を行う。そして、ミキサ143は、オーディオ送信部144に、2チャンネルの信号データを出力する。オーディオ送信部144は、この信号データをクライアントに送信する 。
次にプレゼンスサーバ110とクライアントの処理について説明する。プレゼンスサーバ110は、図14のS1432、S1436およびS1442において、各クライアントにユーザ名、当該ユーザの位置および仮想空間半径等を通知する際に、あわせて音響サーバ140にも、ユーザ名、当該ユーザの位置および仮想空間半径等を通知する。これにより、各クライアントは、部屋に入場すると音響サーバ140の既定の通信ポートとの間で (または、入場時にプレゼンスサーバ110から通知されるポートとの間で) 音声通信を行う。すなわち、各クライアントのオーディオ通信部215は、音響サーバ140に1チャンネルの音声ストリームを送信し、音響サーバ140から2チャンネルの音声ストリームを受信する。
次に音響サーバ140の処理について説明する。クライアント毎に対応付けられたオーディオ受信部141各々は、各クライアントから音声ストリームを受信し、バッファリングすることによって全入力クライアントからの音声ストリーム間で同期させた (対応づけた) 信号データを、クライアント毎に対応付けられたオーディオレンダラ142に送る。このバッファリング (プレイアウト・バッファリング) の方法については、たとえば次の文献に記述されている。
Colin Perkins 著: RTP: Audio and Video for the Internet, Addison-Wesley Pub Co; 1st edition (June 11, 2003).
そして、オーディオレンダラ142は、空間モデラ145が配置した仮想空間上の各ユーザの位置に基づいて、距離・角度の計算と、HRIRの特定、たたみ込み計算(図6:S62〜S64、S66)の処理を行う。そして、ミキサ143は、ミキシング処理(図6:S65、S67)および残響計算(図6:S68、S69)を行い、各クライアントに対応して、それぞれ2チャンネルの信号データを出力する。そして、オーディオ送信部144は、この信号データを対応するクライアントに送信する 。これにより、クライアントの処理能力が低い場合であっても、音声3次元化を実現することができる。
また、上記説明した音響サーバ140の機能を、プレゼンスサーバ110が有することとしてもよい。すなわち、音響サーバ140を別途備えることなく、プレゼンスサーバ110が、ユーザの位置、仮想空間属性等を管理するだけでなく、あわせて音響サーバ140の処理を行うこととしてもよい。
本実施形態におけるネットワーク構成図である。 本実施形態における各装置のハードウェア構成図である。 本実施形態におけるクライアントの構成図である。 本実施形態における実空間と仮想空間のマッピングを模式的に示した図である。 本実施形態における音源の方向と距離を模式的に示した図である。 本実施形態におけるオーディオレンダラの処理を模式的に示した図である。 本実施形態における仮想空間のディスプレイ表示画面例である。 本実施形態におけるクライアントの種類を例示したものである。 本実施形態におけるクライアントのネットワークへの接続処理フロー図である。 本実施形態におけるクライアントの入場処理フロー図である。 本実施形態におけるクライアントの自ユーザの移動処理フロー図である。 本実施形態におけるクライアントの他ユーザの移動処理フロー図である。 本実施形態におけるプレゼンスサーバの機能構成図である。 本実施形態におけるプレゼンスサーバの処理手順を示す処理フロー図である。 音響サーバを有する実施形態におけるネットワーク構成図である。 音響サーバを有する実施形態における音響サーバの機能構成図である。
符号の説明
101…ネットワーク、110…プレゼンスサーバ、120…SIPプロキシサーバ、130…登録サーバ、201、202、203…クライアント、211…マイクロフォン、212…オーディオエンコーダ、213…カメラ、214…ビデオエンコーダ、215…オーディオ通信部、216…オーディオレンダラ、217…ヘッドフォン、218…ビデオ通信部、219…グラフィクスレンダラ、220…ディスプレイ、221…空間モデラ、222…プレゼンスプロバイダ、223…セッション制御部、231…GPS受信装置、232…地磁気センサ

Claims (7)

  1. 仮想空間を用いた複数のユーザの会話を実現する音声コミュニケーション・システムであって、
    前記複数のユーザ各々の実空間上の位置を管理するサーバ装置と、前記複数のユーザが使用する複数のクライアント端末とを有し、
    前記複数のクライアント端末各々は、
    自クライアント端末の自ユーザの実空間上の位置に関する位置情報を検知する位置検知手段と、
    前記検知手段が検知した自ユーザの実空間上の位置情報を前記サーバ装置に送信するクライアント送信手段と、
    前記サーバ装置から自ユーザ以外のユーザである他ユーザ各々の実空間上の位置に関する位置情報を受信するクライアント受信手段と、
    前記自ユーザおよび前記他ユーザ各々の実空間における前記位置情報に基づいて前記複数のユーザ各々の前記仮想空間における位置を算出する空間モデル化手段と、
    前記空間モデル化手段が算出した位置に基づいて前記他ユーザの各々の音声に適用する音響効果を制御する音響制御手段と、を有し、
    前記サーバ装置は、
    前記複数のクライアント端末各々から、前記クライアント端末の自ユーザの実空間上の前記位置情報を受信するサーバ受信手段と、
    前記サーバ受信手段が受信した前記複数のユーザ各々の実空間上の前記位置情報を記憶する記憶手段と、
    前記複数のクライアント各々に、前記記憶手段が記憶している前記クライアント端末の他ユーザ各々の前記位置情報を送信するサーバ送信手段と、を有し、
    前記位置検知手段は、実空間において前記自ユーザが向いている方向を、さらに検知し、
    前記位置情報には、実空間における前記自ユーザまたは前記他ユーザの向きを示す方位情報が含まれ、
    前記複数のクライアント端末各々の前記空間モデル化手段は、前記自ユーザを前記仮想空間の中心に配置し、前記自ユーザおよび前記他ユーザの前記位置情報から算出される前記自ユーザと前記他ユーザ各々との実空間上での距離および方向に応じて、前記他ユーザ各々の前記仮想空間における位置を算出し、
    前記音響制御手段は、実空間における前記自ユーザまたは前記他ユーザの前記方位情報に基づいて前記他ユーザ各々の音声に適用する音響効果を制御すること
    を特徴とする音声コミュニケーション・システム。
  2. 請求項1記載の音声コミュニケーション・システムにおいて、
    前記音響再生手段は、前記複数のユーザ各々の前記仮想空間における位置および前記仮想空間の属性情報に基づいて、前記他ユーザ各々の音声に適用する音響効果を制御すること
    を特徴とする音声コミュニケーション・システム。
  3. 請求項1記載の音声コミュニケーション・システムにおいて、
    前記複数のクライアント端末各々は、前記空間モデル化手段が算出した位置に基づいて表示画面に出力するイメージデータを作成するイメージ作成手段を有すること
    を特徴とする音声コミュニケーション・システム。
  4. 請求項3記載の音声コミュニケーション・システムにおいて、
    前記イメージ作成手段は、前記仮想空間における自ユーザの位置と向きを常に固定し、自ユーザを中心として前記仮想空間および前記他ユーザを相対的に移動または回転させたイメージデータを作成すること
    を特徴とする音声コミュニケーション・システム。
  5. 請求項1記載の音声コミュニケーション・システムにおいて、
    前記サーバ装置の前記記憶手段には、前記仮想空間の属性が記憶され、
    前記サーバ送信手段は、前記複数のクライアント各々に、前記仮想空間の属性を送信し、
    前記クライアント受信手段は、前記サーバ装置から前記仮想空間の属性を受信し、
    前記空間モデル化手段は、前記仮想空間の属性に基づいて、前記複数のユーザ各々の前記仮想空間における位置を算出し、
    前記音響制御手段は、前記空間モデル化手段が算出した位置に基づいて前記他ユーザの各々の音声に適用する音響効果を制御すること
    を特徴とする音声コミュニケーション・システム。
  6. 仮想空間を用いた複数のユーザの会話を実現する音声コミュニケーション・システムにおける、前記ユーザが使用するクライアント端末であって、
    自クライアント端末の自ユーザの実空間上の位置に関する位置情報を検知する位置検知手段と、
    前記検知手段が検知した自ユーザの実空間上の位置情報を、前記複数のユーザ各々の実空間上の位置を管理するサーバ装置に送信する送信手段と、
    前記サーバ装置から自ユーザ以外のユーザである他ユーザ各々の実空間上の位置に関する位置情報を受信する受信手段と、
    前記自ユーザおよび前記他ユーザ各々の実空間における前記位置情報に基づいて前記複数のユーザ各々の前記仮想空間における位置を算出する空間モデル化手段と、
    前記空間モデル化手段が算出した位置に基づいて前記他ユーザの各々の音声に適用する音響効果を制御する音響制御手段と、を有し、
    前記位置検知手段は、実空間において前記自ユーザが向いている方向を、さらに検知し、
    前記位置情報には、実空間における前記自ユーザまたは前記他ユーザの向きを示す方位情報が含まれ、
    前記空間モデル化手段は、前記自ユーザを前記仮想空間の中心に配置し、前記自ユーザおよび前記他ユーザの前記位置情報から算出される前記自ユーザと前記他ユーザ各々との実空間上での距離および方向に応じて、前記他ユーザ各々の前記仮想空間における位置を算出し、
    前記音響制御手段は、実空間における前記自ユーザまたは前記他ユーザの前記方位情報に基づいて前記他ユーザ各々の音声に適用する音響効果を制御すること
    を特徴とするクライアント端末。
  7. 仮想空間を用いて複数のユーザが複数のクライアント端末を用いて会話を実現する音声コミュニケーション・システムにおける音響サーバ装置であって、
    前記複数のクライアント端末各々から、前記クライアント端末のユーザの音声を受信する音声受信手段と、
    外部システムから、前記複数のクライアント端末の複数のユーザの実空間上の前記位置情報を受信し、当該複数のユーザ各々の位置情報に基づいて、前記複数のユーザ各々の前記仮想空間における位置を算出する空間モデル化手段と、
    前記空間モデル化手段が算出した位置に基づいて、前記複数のクライアント毎に、前記複数のユーザの各々の音声に適用する音響効果を制御する音響制御手段と、
    前記複数のクライアント毎に、前記音響制御手段が制御した複数のユーザの音声を送信する音声送信手段と、を有し、
    前記位置情報には、実空間における前記複数のクライアント端末の各自ユーザまたは前記自ユーザ以外のユーザである他ユーザの向きを示す方位情報が含まれ、
    前記空間モデル化手段は、前記複数のクライアント端末の各自ユーザを前記仮想空間の中心に配置し、前記自ユーザおよび前記他ユーザの前記位置情報から算出される前記自ユーザと前記他ユーザ各々との実空間上での距離および方向に応じて、前記他ユーザ各々の前記仮想空間における位置を算出し、
    前記音響制御手段は、実空間における前記自ユーザまたは前記他ユーザの前記方位情報に基づいて前記他ユーザ各々の音声に適用する音響効果を制御すること
    を特徴とする音響サーバ装置。
JP2004155733A 2004-05-26 2004-05-26 音声コミュニケーション・システム Expired - Fee Related JP4546151B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004155733A JP4546151B2 (ja) 2004-05-26 2004-05-26 音声コミュニケーション・システム
US10/914,647 US7634073B2 (en) 2004-05-26 2004-08-10 Voice communication system
CN200410087444.XA CN1703065A (zh) 2004-05-26 2004-08-10 语音通信***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004155733A JP4546151B2 (ja) 2004-05-26 2004-05-26 音声コミュニケーション・システム

Publications (3)

Publication Number Publication Date
JP2005341092A JP2005341092A (ja) 2005-12-08
JP2005341092A5 JP2005341092A5 (ja) 2007-05-10
JP4546151B2 true JP4546151B2 (ja) 2010-09-15

Family

ID=35425274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004155733A Expired - Fee Related JP4546151B2 (ja) 2004-05-26 2004-05-26 音声コミュニケーション・システム

Country Status (3)

Country Link
US (1) US7634073B2 (ja)
JP (1) JP4546151B2 (ja)
CN (1) CN1703065A (ja)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006164212A (ja) * 2004-11-10 2006-06-22 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP4419073B2 (ja) * 2004-11-11 2010-02-24 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
DE102005000820B4 (de) * 2004-12-08 2007-07-05 Carl Zeiss Ag Verfahren zum Verbessern der Sehfähigkeit einer sehbehinderten Person und Sehhilfe
JP4608400B2 (ja) * 2005-09-13 2011-01-12 株式会社日立製作所 音声通話システムおよび音声通話中におけるコンテンツの提供方法
GB2437399B (en) * 2006-04-19 2008-07-16 Big Bean Audio Ltd Processing audio input signals
JP4893257B2 (ja) * 2006-11-17 2012-03-07 ヤマハ株式会社 音像位置制御装置
US9602295B1 (en) 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
JP4920637B2 (ja) * 2008-05-28 2012-04-18 株式会社東芝 Sip電話システム、データ伝送方法、サーバユニットおよび電話端末
JP5170682B2 (ja) * 2008-10-09 2013-03-27 シャープ株式会社 通信端末
US9348845B2 (en) * 2008-10-31 2016-05-24 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for verifying geographical descriptiveness of media file
JP5366043B2 (ja) * 2008-11-18 2013-12-11 株式会社国際電気通信基礎技術研究所 音声記録再生装置
JP4743305B2 (ja) 2009-01-06 2011-08-10 ソニー株式会社 境界定義による機能制御方法、境界定義による機能制御システム、境界定義による機能制御サーバ及びプログラム
EP2216974A1 (en) * 2009-02-04 2010-08-11 Alcatel Lucent Method of providing a communication service
JP5458664B2 (ja) * 2009-05-20 2014-04-02 株式会社ニコン ヘッドマウントディスプレイ装置及び通信システム
US20110026745A1 (en) * 2009-07-31 2011-02-03 Amir Said Distributed signal processing of immersive three-dimensional sound for audio conferences
US8144633B2 (en) * 2009-09-22 2012-03-27 Avaya Inc. Method and system for controlling audio in a collaboration environment
US8892138B2 (en) * 2009-11-27 2014-11-18 Telefonaktiebolaget L M Ericsson (Publ) Transferring messages in a communications network
US8898567B2 (en) 2010-04-09 2014-11-25 Nokia Corporation Method and apparatus for generating a virtual interactive workspace
US9235268B2 (en) * 2010-04-09 2016-01-12 Nokia Technologies Oy Method and apparatus for generating a virtual interactive workspace
US20110271207A1 (en) * 2010-04-30 2011-11-03 American Teleconferencing Services Ltd. Location-Aware Conferencing
JP5589708B2 (ja) * 2010-09-17 2014-09-17 富士通株式会社 端末装置および音声処理プログラム
US8744065B2 (en) 2010-09-22 2014-06-03 Avaya Inc. Method and system for monitoring contact center transactions
US9736312B2 (en) * 2010-11-17 2017-08-15 Avaya Inc. Method and system for controlling audio signals in multiple concurrent conference calls
US9084079B2 (en) 2010-11-19 2015-07-14 Qualcomm Incorporated Selectively formatting media during a group communication session
US20120192088A1 (en) * 2011-01-20 2012-07-26 Avaya Inc. Method and system for physical mapping in a virtual world
US9961208B2 (en) * 2012-03-23 2018-05-01 Dolby Laboratories Licensing Corporation Schemes for emphasizing talkers in a 2D or 3D conference scene
US9412375B2 (en) * 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
US9838824B2 (en) 2012-12-27 2017-12-05 Avaya Inc. Social media processing with three-dimensional audio
US10203839B2 (en) 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9892743B2 (en) 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
US9301069B2 (en) * 2012-12-27 2016-03-29 Avaya Inc. Immersive 3D sound space for searching audio
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US9185508B2 (en) 2013-08-30 2015-11-10 Gleim Conferencing, Llc Multidimensional virtual learning system and method
US9197755B2 (en) * 2013-08-30 2015-11-24 Gleim Conferencing, Llc Multidimensional virtual learning audio programming system and method
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9307331B2 (en) 2013-12-19 2016-04-05 Gn Resound A/S Hearing device with selectable perceived spatial positioning of sound sources
DK2887695T3 (en) * 2013-12-19 2018-05-07 Gn Hearing As A hearing aid system with selectable perceived spatial location of audio sources
JP5971316B2 (ja) * 2013-12-25 2016-08-17 キヤノンマーケティングジャパン株式会社 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム
WO2017030985A1 (en) 2015-08-14 2017-02-23 Pcms Holdings, Inc. System and method for augmented reality multi-view telepresence
US10375353B2 (en) * 2015-12-11 2019-08-06 Sony Corporation Information processing apparatus, information processing method, and program
CN105741833B (zh) * 2016-03-14 2021-05-11 腾讯科技(深圳)有限公司 语音通信数据处理方法和装置
US10762712B2 (en) 2016-04-01 2020-09-01 Pcms Holdings, Inc. Apparatus and method for supporting interactive augmented reality functionalities
CN106131355B (zh) * 2016-07-05 2019-10-25 华为技术有限公司 一种声音播放方法及装置
JP6812803B2 (ja) * 2017-01-12 2021-01-13 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
US10841537B2 (en) * 2017-06-09 2020-11-17 Pcms Holdings, Inc. Spatially faithful telepresence supporting varying geometries and moving users
EP3652867B1 (en) * 2017-07-14 2021-05-26 Dolby Laboratories Licensing Corporation Mitigation of inaccurate echo prediction
EP3496417A3 (en) * 2017-12-06 2019-08-07 Oticon A/s Hearing system adapted for navigation and method therefor
US11070768B1 (en) 2020-10-20 2021-07-20 Katmai Tech Holdings LLC Volume areas in a three-dimensional virtual conference space, and applications thereof
US11095857B1 (en) 2020-10-20 2021-08-17 Katmai Tech Holdings LLC Presenter mode in a three-dimensional virtual conference space, and applications thereof
US10979672B1 (en) 2020-10-20 2021-04-13 Katmai Tech Holdings LLC Web-based videoconference virtual environment with navigable avatars, and applications thereof
US11457178B2 (en) 2020-10-20 2022-09-27 Katmai Tech Inc. Three-dimensional modeling inside a virtual video conferencing environment with a navigable avatar, and applications thereof
US10952006B1 (en) 2020-10-20 2021-03-16 Katmai Tech Holdings LLC Adjusting relative left-right sound to provide sense of an avatar's position in a virtual space, and applications thereof
US11076128B1 (en) 2020-10-20 2021-07-27 Katmai Tech Holdings LLC Determining video stream quality based on relative position in a virtual space, and applications thereof
CN112601170B (zh) * 2020-12-08 2021-09-07 广州博冠信息科技有限公司 声音信息处理方法及装置、计算机存储介质、电子设备
US11743430B2 (en) 2021-05-06 2023-08-29 Katmai Tech Inc. Providing awareness of who can hear audio in a virtual conference, and applications thereof
US11184362B1 (en) 2021-05-06 2021-11-23 Katmai Tech Holdings LLC Securing private audio in a virtual conference, and applications thereof
US12022235B2 (en) 2022-07-20 2024-06-25 Katmai Tech Inc. Using zones in a three-dimensional virtual environment for limiting audio and video
US12009938B2 (en) 2022-07-20 2024-06-11 Katmai Tech Inc. Access control in zones
US11928774B2 (en) 2022-07-20 2024-03-12 Katmai Tech Inc. Multi-screen presentation in a virtual videoconferencing environment
US11651108B1 (en) 2022-07-20 2023-05-16 Katmai Tech Inc. Time access control in virtual environment application
US11876630B1 (en) 2022-07-20 2024-01-16 Katmai Tech Inc. Architecture to control zones
US11741664B1 (en) 2022-07-21 2023-08-29 Katmai Tech Inc. Resituating virtual cameras and avatars in a virtual environment
US11700354B1 (en) 2022-07-21 2023-07-11 Katmai Tech Inc. Resituating avatars in a virtual environment
US11956571B2 (en) 2022-07-28 2024-04-09 Katmai Tech Inc. Scene freezing and unfreezing
US11776203B1 (en) 2022-07-28 2023-10-03 Katmai Tech Inc. Volumetric scattering effect in a three-dimensional virtual environment with navigable video avatars
US11704864B1 (en) 2022-07-28 2023-07-18 Katmai Tech Inc. Static rendering for a combination of background and foreground objects
US11682164B1 (en) 2022-07-28 2023-06-20 Katmai Tech Inc. Sampling shadow maps at an offset
US11593989B1 (en) 2022-07-28 2023-02-28 Katmai Tech Inc. Efficient shadows for alpha-mapped models
US11711494B1 (en) 2022-07-28 2023-07-25 Katmai Tech Inc. Automatic instancing for efficient rendering of three-dimensional virtual environment
US11562531B1 (en) 2022-07-28 2023-01-24 Katmai Tech Inc. Cascading shadow maps in areas of a three-dimensional environment
US11748939B1 (en) 2022-09-13 2023-09-05 Katmai Tech Inc. Selecting a point to navigate video avatars in a three-dimensional environment
CN115550600A (zh) * 2022-09-27 2022-12-30 阿里巴巴(中国)有限公司 识别音频数据声音来源的方法、存储介质和电子设备
CN116390008B (zh) * 2023-05-31 2023-09-01 泉州市音符算子科技有限公司 一种实现特定区域内免提式的无感扩音***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1056626A (ja) * 1996-08-13 1998-02-24 Hitachi Software Eng Co Ltd テレビ会議システム
JP2001251698A (ja) * 2000-03-07 2001-09-14 Canon Inc 音響処理システム及びその制御方法並びに記憶媒体
JP2002281468A (ja) * 2001-03-19 2002-09-27 Ricoh Co Ltd 電子会議システム
JP2003069968A (ja) * 2001-08-28 2003-03-07 Internal Corp 現実感を伴う電子会議の実現方法
JP2003287426A (ja) * 2002-03-28 2003-10-10 Hitachi Kokusai Electric Inc Gps測位装置及び位置情報表示方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6646096A (en) * 1995-08-03 1997-03-05 Interval Research Corporation Computerized interactor systems and methods for providing same
US6219045B1 (en) * 1995-11-13 2001-04-17 Worlds, Inc. Scalable virtual world chat client-server system
US5889843A (en) * 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
GB2349055B (en) * 1999-04-16 2004-03-24 Mitel Corp Virtual meeting rooms with spatial audio
JP3434487B2 (ja) * 2000-05-12 2003-08-11 株式会社イサオ 位置連動式チャットシステム、そのための位置連動式チャット方法、および、プログラムを記録したコンピュータ読み取り可能な記録媒体
US6941127B2 (en) * 2000-12-12 2005-09-06 Yamaha Corporation Portable telephone apparatus
JP2002236031A (ja) 2001-02-06 2002-08-23 Kenwood Corp ナビゲーションシステム
US6583808B2 (en) * 2001-10-04 2003-06-24 National Research Council Of Canada Method and system for stereo videoconferencing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1056626A (ja) * 1996-08-13 1998-02-24 Hitachi Software Eng Co Ltd テレビ会議システム
JP2001251698A (ja) * 2000-03-07 2001-09-14 Canon Inc 音響処理システム及びその制御方法並びに記憶媒体
JP2002281468A (ja) * 2001-03-19 2002-09-27 Ricoh Co Ltd 電子会議システム
JP2003069968A (ja) * 2001-08-28 2003-03-07 Internal Corp 現実感を伴う電子会議の実現方法
JP2003287426A (ja) * 2002-03-28 2003-10-10 Hitachi Kokusai Electric Inc Gps測位装置及び位置情報表示方法

Also Published As

Publication number Publication date
JP2005341092A (ja) 2005-12-08
US7634073B2 (en) 2009-12-15
US20050265535A1 (en) 2005-12-01
CN1703065A (zh) 2005-11-30

Similar Documents

Publication Publication Date Title
JP4546151B2 (ja) 音声コミュニケーション・システム
US20060008117A1 (en) Information source selection system and method
US20240031474A1 (en) Smartphone with User Interface to Externally Localize Telephone Calls
JP4426484B2 (ja) 音声会議システム、会議端末および音声サーバ
US7533346B2 (en) Interactive spatalized audiovisual system
Härmä et al. Augmented reality audio for mobile and wearable appliances
US7197126B2 (en) Human communication system
US8958569B2 (en) Selective spatial audio communication
JP2005341092A5 (ja)
US20140219485A1 (en) Personal communications unit for observing from a point of view and team communications system comprising multiple personal communications units for observing from a point of view
US11047965B2 (en) Portable communication device with user-initiated polling of positional information of nodes in a group
US11838686B2 (en) SpaeSee video chat system
CN111492342B (zh) 音频场景处理
US11297456B2 (en) Moving an emoji to move a location of binaural sound
US10757240B1 (en) Headset-enabled ad-hoc communication
US9516417B2 (en) Boundary binaural microphone array
JP2006094315A (ja) 立体音響再生システム
US20240031759A1 (en) Information processing device, information processing method, and information processing system
JP6587047B2 (ja) 臨場感伝達システムおよび臨場感再現装置
US11696085B2 (en) Apparatus, method and computer program for providing notifications
Cohen et al. Cyberspatial audio technology
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
Karjalainen et al. Application Scenarios of Wearable and Mobile Augmented Reality Audio
Ahrens et al. Designing low-dimensional interaction for mobile navigation in 3d audio spaces
Schäfers et al. Designing low-dimensional interaction for mobile navigation in 3D audio spaces

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100701

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees