CN1703065A

CN1703065A - 语音通信***

Info

Publication number: CN1703065A
Application number: CN200410087444.XA
Authority: CN
Inventors: 金田泰
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-05-26
Filing date: 2004-08-10
Publication date: 2005-11-30
Also published as: JP4546151B2; US7634073B2; JP2005341092A; US20050265535A1

Abstract

提供了一种语音通信***，在该***中真实空间与虚拟空间相关联，而且能感受到真实空间中通信伙伴的相对位置和方向，就象身临其境一样。客户端201包括监测客户终端201自身的用户在真实空间中位置的GPS接收机23 1和磁传感器232；把监测装置监测的位置发送到一个服务器装置的平台提供器222；基于真实空间中用户自身的位置和其它用户的位置来计算虚拟空间中的用户位置的空间建模器332；以及基于虚拟空间中的用户位置来控制声音效果的音频渲染器216。

Description

语音通信***

优先权要求

本申请要求享有2004年5月26日提交的日本专利申请JP2004-155733的优先权，该申请的内容作为参考在此引入本申请文件。

发明背景

本发明涉及一种技术，使用该技术，人们通过媒介主要以语音方式相互交谈。

日本专利特开公开No.2002-236031(下文中称作专利文件1)公开了一种使用GPS技术的导航***，该***基于手提电话用户的位置信息和其通信伙伴的位置信息来显示该用户和其通信伙伴的相对位置信息。

作为使用虚拟空间的会议***，现有一种由京都大学开发的会议***FreeWalk。参见，例如，NAKANISHI，Hideyuki，YOSHIDA，Chikara，NISHIMURA，Toshikazu和ISHIDA，Toru的“FreeWalk：Support of Non-formalCommunication Using Three-dimensional Virtual Space”，IPSJ Journal，第39卷，第5期，1356页-1364页，1998年(下文中称作非专利文件1)和Nakanishi，H.、Yoshida，C.、Nishimura，T.和Ishida，T.的“FreeWalk：A3D Virtual Space for Casual Meetings”，IEEE Multimedia，1999年4月-6月，第2028页(下文中称作非专利文件2)。

FreeWalk是会议***的用户通过三维图形共享一个虚拟空间的一种***，所述三维图形是一个从用户的观察点或从他的观察点附近但能在视野范围内看到他自己的观察点看到的图像。三维图形学是一种通过计算机图形学来模拟三维空间的技术，例如，OpenGL(http：//www.opengl.org/)，它是事实上的标准，以及微软公司的Direct 3D是为了实现那个目标的API程序(应用程序接口程序)。摄像机把会话伙伴的图像拍摄下来，并在虚拟屏幕上实时放映，该图象是从，例如，用户的观察点看到的图像。此外，每个用户都能在这个虚拟空间中自由移动。即，每个用户可以使用点击设备或键盘的按键来改变他在虚拟空间中的位置。在非专利文件1和2中，当距离增加时语音衰减，但是那些文件没有提及在下面提到的三维音频技术。

此外，现有一种由Interval Research公司开发的会议***Somewire。例如参见US5,889,843(下文中称作专利文件2)、US6,262,711B1(下文中称作专利文件3)，和Singer，A.、Hindus，D.、Stifelman，L.和White，S.的“Tangible Progress：Less Is More In Somewire Audio Spaces”，ACM CHI’99(关于在计算***中人性因素的会议)，第104页至第112页，1999年5月(下文中称作非专利文件3)。Somewire是会议***的用户共享虚拟***且在相同空间中的用户能相互交谈的一种***。在Somewire中，语音由高质量的立体声再现。此外，Somewire具有一个直观有形的接口，因为它采用了能通过移动类似玩偶的图形来控制虚拟空间中的对话伙伴位置的GUI(图形用户接口)。在Somewire中，当距离增加时语音不衰减，而且没有采用三维音频技术。

此外，现有一种由Hewlett-Packard公司开发的使用分布式3D音频技术的会议***。例如，参见Low，C.和Babarit，L.的“Distributed 3DAudio Rendering”，7th International World Wide Web Conference(WWW7)，1998年， http：//www7.scu.edu.au/programme/ fullpapers/1912/com1912.htm(下文中称作非专利文件4)。所述分布式3D音频技术是一种把三维音频技术应用到网络***(所谓的分布式环境)的技术。所述三维音频技术是一种模拟三维声学空间的技术，并且，例如，由Loki Entertainment Software Inc和其它公司规定的OpenAL(http：//www.opengl.org/)和微软公司的DirectSound 3D、Creativetechnology，Ltd.的EAX2.0( http：//www.atc.dreative.com/algorithms/eax20.pdf)被举出来作为为了实现那个目标的几个API程序。使用所述三维音频技术，在使用扬声器，诸如耳机或2或4声道的扬声器的声音再现中，可以模拟从收听者的角度听到的声源的方向和距离，并且在声学空间定位该声源。此外，通过模拟诸如混响、由物体诸如墙造成的反射、取决于距离的空气对声音的吸收、障碍物对声音的拦截等声学特性，能够表示出存在房间的感觉和在空间中存在物体的感觉。所述三维音频技术是立体声电话再现***中的一种。除所述三维音频技术外，所述立体声电话再现***还包括简单的立体声电话再现技术。例如，可以举出一种在耳机的左右扬声器中区分音量以单独地再现多个声音的立体声电话再现技术。

发明概述

有时，即使手提电话中的通信伙伴在一个人附近的位置(即，这个人能看见的位置)，对于那个人来说要发现该通信伙伴也是困难的。例如，在拥挤的游乐园和闹市区车站，即使一个人与他的通信伙伴在可视距离内通过手提电话相互交谈，要在人群中发现该通信伙伴和接近他也是困难的。此外，在施工地点或类似的地方，有时掌握看不见的合作工人的工作位置(站)是必要的。

此外，虚拟空间(即，一个人通过媒介与之通信的通信伙伴)中的通信伙伴在真实空间中位于附近的情况下，有时由三维音频技术产生的通信伙伴的媒介声音和真实空间中的直达声从不同方向或以不同的距离被听到。结果，会出现不好的情况，即，当一个人响应来自真实空间中位于其附近的通信伙伴的招呼时，这个人将他的脸转向不同的方向。

专利文件1在地图上显示通信伙伴的位置，但没有考虑通过语音来辨认伙伴的位置。此外，在专利文件2和3以及非专利文件1到4描述的会议***中没有考虑通信伙伴在真实空间中的位置。

考虑到上述的情形提出本发明。本发明的一个目的是提供一种语音通信***，在该***中真实空间与虚拟空间相关联，且能象亲身感觉一样掌握通信伙伴在真实空间中的相对位置和方向。

为了解决上述问题，本发明基于真实空间中的每个用户的位置信息来计算虚拟空间中的多个用户的位置。

例如，本发明提供一种用于通过虚拟空间在多个用户之间实现会话的语音通信***。

该语音通信***包括：管理在真实空间中用户各自位置的服务器装置，以及分别被这些用户使用的多个客户终端。

每一个所述客户终端包括：一个位置监测装置，该位置监测装置监测与该客户终端自身的用户在真实空间中的位置相关的位置信息；一个客户端发送装置，该客户端发送装置把该客户终端自身的用户在真实空间中的位置信息发送到服务器装置，该位置信息由所述位置监测装置监测；一个客户端接收装置，该客户端接收装置从所述服务器装置接收与除该客户终端自身的用户之外的每一个其它用户在真实空间中的位置相关的位置信息；一个空间建模装置，该空间建模装置基于该客户终端自身的用户的位置信息和每一个其它用户的位置信息来计算用户在虚拟空间中各自的位置；以及一个声音控制装置，该声音控制装置基于通过所述空间建模装置计算的位置来控制施加到每一个其它用户语音的声音效果。

所述服务器装置包括：一个服务器接收装置，对于多个客户终端中的每一个，该服务器接收装置从客户终端接收该客户终端用户在真实空间中的位置信息；一个存储装置，该存储装置存储每一个用户在真实空间中的位置信息，该位置信息由所述服务器接收装置接收；以及一个服务器发送装置，对于客户终端中的每个客户终端，该服务器发送装置把除该客户终端的用户之外的其它用户的位置信息发送到所述客户终端，该位置信息存储在所述存储装置中。

附图简述

图1是示出本发明一个实施例的网络配置的图；

图2是示出在该实施例中每个装置的硬件配置的框图；

图3是示出在该实施例中一个客户端配置的框图；

图4是示意性示出在该实施例中真实空间与虚拟空间之间的映射的图；

图5是示意性示出在该实施例中声源的方向和距离的图；

图6是示意性示出该实施例的在音频渲染器中的处理的图；

图7示出在该实施例中显示虚拟空间的显示器屏幕的例子；

图8A示出在该实施例中的客户端的一个例子；

图8B示出在该实施例中的客户端的一个例子；

图9是示出在该实施例中客户端的网络连接处理的流程图；

图10是示出在该实施例中客户端的进入处理的流程图；

图11是示出在该实施例中客户端对其用户自身移动的处理的流程图；

图12是示出在该实施例中客户端对另一个客户端的用户移动的处理的流程图；

图13是示出在该实施例中的平台服务器的功能框图；

图14是示出在该实施例中平台服务器程序的流程图；

图15是示出带有一个声音服务器的实施例的网络配置的图；以及

图16是示出在带有该声音服务器的实施例中的该声音服务器的功能框图。

优选实施例详述

现在将描述本发明的实施例。

图1示出应用本发明的一个实施例的语音通信***的***配置。如图所示，这个***包括多个客户端201、202和203、管理平台(presence)的平台服务器110、控制会话的SIP代理服务器120、以及注册和鉴别用户的注册服务器130，它们通过诸如互联网的网络101相互连接。这里，平台指的是虚拟空间本身和在虚拟空间中每个用户的位置信息(存在的感觉)。

虽然在本实施例中存在三个客户端，但是客户端的数目并不局限于三个，可以是两个、四个或更多。此外，在本实施例中，网络101由单一区域组成。然而，一个网络由多个区域组成也是可能的，并且这些区域彼此相连使得通信能够在多个区域上扩展。在这种情况下，存在多个平台服务器110、多个SIP代理服务器120，以及多个注册服务器130。

接下来，将描述该语音通信***的硬件配置。

图2示出中客户端201、202和203、平台服务器110、SIP代理服务器120和注册服务器130中的每一个的硬件配置。

客户端201、202和203中的每一个能由普通计算机***实现，该计算机***包括根据程序执行数据处理和计算的CPU301、存储器302，CPU301能从该存储器直接读和写，诸如硬盘的外部存储器303、用于与外部***进行数据通信的通信单元304、输入单元305，以及输出单元306。例如，可以举出诸如PDA(个人数字助理)、可穿戴的计算机，或PC(个人电脑)一样的便携式计算机***。随后将参考图3详细描述该输入单元305和该输出单元306。

平台服务器110、SIP代理服务器120和注册服务器130中的每一个能作为普通计算机***实现，该普通计算机***至少包括根据程序执行数据处理和计算的CPU301、存储器302，CPU301能从该存储器直接读和写，诸如硬盘的外部存储器303，以及用于与外部***进行数据通信的通信单元304。例如，可能提到服务器或主机。

当CPU301执行上载到或存储在存储器302中的某些程序(在客户端201、202或203的情况下，是用于客户端的程序；在平台服务器110的情况下，是用于平台服务器的程序；在SIP代理服务器120的情况下，是用于代理服务器的程序；以及在注册服务器130情况下，是用于注册服务器的程序)时，下面提到的上述装置的功能将被一一实现。

接着参考图3，将描述客户端201的输入单元305和输出单元306以及客户端201的功能部件。客户端202和203具有与客户端201相似的配置。

至于输入单元305，客户端201具有麦克风211、摄像机213、GPS接收机231、磁传感器232，以及操作单元(未示出)。至于输出单元306，客户端201具有适合三维音频技术的耳机217和显示器220。该GPS接收机231从至少三个GPS人造卫星接收GPS信号。并且对于那些(至少三个)GPS人造卫星，该GPS接收机231测量客户端201与每个GPS人造卫星之间的距离以及该距离变化的速度，以计算在真实空间中携带该客户端201的用户的当前位置。该磁传感器232检测地球的磁场，并且基于该监测结果，计算在真实空间中携带该客户端201的用户的方向(指南针方向)。也可以使用监测移动物体旋转角度的回转罗盘代替该磁传感器232。

至于功能部件，该客户端201包括：音频编码器212、音频渲染器216、视频编码器214、图形渲染器219、空间建模器221、平台提供器222、音频通信单元215、视频通信单元218和会话控制单元223。

该音频编码器212把语音转换为数字信号。该音频渲染器216使用三维音频技术执行由虚拟空间特性引起的处理(例如混响和滤波)。该视频编码器214把图像转换为数字信号。该图形渲染器219执行由虚拟空间特性引起的处理。该空间建模器221从GPS接收机231和磁传感器232接收在真实空间中的位置信息和方向信息，以计算平台信息，诸如在虚拟空间中用户的位置和方向。该平台提供器222把在真实空间中的用户的位置信息和方向信息发送到平台服务器110，并从平台服务器110接收用户在真实空间中的位置信息和方向信息。该音频通信单元215实时地向和从另一个客户端发送和接收音频信号。该视频频通信单元218实时地向和从另一个客户端发送和接收视频信号。该会话控制单元223通过该SIP代理服务器120控制在客户端201与另一个客户端或平台服务器110之间的通信会话。

这里，该虚拟空间是为了在多个用户之间的会议或会话而虚拟产生的空间，并由平台服务器110管理。当用户进入特定的虚拟空间时，平台服务器110发送关于虚拟空间特性的信息，以及关于存在于虚拟空间中的其它用户在真实空间中的位置信息和方向信息。然后，该空间建模器221把该发送的信息以及客户端201自身的用户在真实空间中的位置信息和方向信息存储进该存储器302或外部存储器303。这里，位置信息和方向信息分别从该GPS接收机231和磁传感器232输入。虚拟空间的特性包括例如空间的大小、天花板的高度、墙和天花板的反射率/颜色/质地(texture)、混响特性以及归因于空间中的空气的声音吸收率。在它们之中，墙和天花板的反射率，混响特性和归因于空间中空气的声音吸收率是听觉特性，墙和天花板的颜色和质地是视觉特性，空间的大小和天花板的高度既是听觉特性又是视觉特性。

接下来，将按照平台、语音和图像的顺序描述每个功能的操作。

对于平台，该GPS接收机231和磁传感器232计算客户端201自身的用户在真实空间中的位置和方向，并把所讨论的用户的位置信息和方向信息输入到空间建模器221。该空间建模器221把虚拟空间的特性(例如空间的大小和混响特性)，以及其它用户(存在于虚拟空间中的)在真实空间中的位置信息和方向信息保存进存储器302或外部存储器303。那些特性以及位置信息和方向信息预先从平台服务器110发送出去。基于该虚拟空间的特性以及客户端201自身的用户和其它用户的位置信息，该空间建模器221把真实空间映射到虚拟空间。在虚拟空间包括客户端201自身的用户和多个其它用户的情况下，该空间建模器221把在真实空间中离客户端201自身的用户比较近的用户在虚拟空间中也安排在离客户端201的用户比较近的位置。从真实空间到虚拟空间的映射可以是线性映射，在该映射中真实空间中的位置信息按比例缩小到虚拟空间中的位置，从真实空间到虚拟空间的映射或者可以是非线性映射。将在下面描述非线性映射。

图4是示意性示出在真实空间与虚拟空间之间非线性映射的一个例子的图，并且这个非线性映射使用arctan(x)。作为普通的坐标***，在图中示出的非线性映射使用在真实空间中的坐标(位置信息)。图4图解了表示真实空间且与书页表面垂直的平面p、在真实空间中客户端201自身的用户的位置u，以及真实空间中第三其它用户的位置c。换句话说，包括平面p的u和c的切面线在页面中示出(图4)。此外，图4图解了与该平面p相切且表示客户端201其自身用户的虚拟空间的球s的横截面，以及与该平面p相切且表示第三其它用户的虚拟空间的球q的横截面。此外，假定第一其它用户存在于真实空间的该平面p中的位置a，并且第二其它用户在真实空间的该平面p中的位置b。

在那种情况下，该空间建模器221把与另一用户的距离d转换为arctan(d/r)(r：常数)，即，该球s上的一段弧的长度(乘以一个常数)。具体地，真实空间中存在于位置a(它与客户端201自身的用户的距离是从u到a线段的长度)的该第一其它用户映射到(定位在)虚拟空间中的位置a’(它与客户端201自身的用户的距离是从u到a’的弧的长度)。类似地，该空间建模器221把存在于真实空间中位置b的该第二其它用户映射(定位)到虚拟空间中的位置b’，并且把存在于真实空间中的位置c的第三其它用户映射(定位)到虚拟空间中的位置c’。也就是说，对于该平面p中的每一点，该空间建模器221执行从作为真实空间的平面p到作为虚拟空间的球s的坐标转换。为了在页面(图)上的说明，在上面的描述中假定除了客户端201自身的用户以外的所有用户存在于上述的切面线上。然而，即使在除了客户端201的用户以外的两个或更多用户不存在于包括客户端201用户的同一条线上的情况下，在三维空间中进行相似的映射也是可以做到的。

此外，在除了客户端201的用户以外的一个用户存在于无限远的位置的情况下，所讨论的该用户被映射到(定位于)虚拟空间中的位置d’。这样，通过把无限远映射到有限距离的点，即使该用户位于最远的距离处，存在于相同虚拟空间中的用户进行相互交谈也是可以做到的。此外，在作为虚拟空间的球s的上半球是伸展的平面的情形下，该空间建模器221执行映射到每一个位置a’、b’、c’、d’。

此外，作为虚拟空间的一种特性，该空间建模器221把作为虚拟空间的球s的半径r(或者该半径r乘以一个常数)保存进存储器302或外部存储器303。使用保存在存储器或类似的保存装置302、303中的球s的半径r，该空间建模器221把球s设定为虚拟空间。虚拟空间的特性，即，球s的半径r由平台服务器110管理，并被通知到每一个客户端的空间建模器221。换句话说，对于存在于相同虚拟空间的所有用户，作为虚拟空间的球s的半径r是一致的。因此，使用户的距离感一致是可以做到的。

此外，球q是存在于真实空间中位置c的第三其它用户的虚拟空间。与客户端201用户的该空间建模器221相似，第三其它用户的空间建模器221使用arctan(x)，把存在于真实空间中位置u的客户端201的用户映射(定位)到真实空间中的位置u”。

然后，该空间建模器221使用每一个已经映射到虚拟空间中的用户的方向信息来设定每一个用户的方向。在磁传感器232的方向与用户的方向不一致(例如，当磁传感器232的安装位置不固定时)的情况下，或者在由于磁干扰而该磁传感器232不能表示正确方向的情况下，执行下面的操作是可以做到的。例如，为了使磁传感器232表示正确的方向，用户转向一个特定的方向(例如，北方)并按下操作单元226(参见图8A)上的复位按钮。该空间建模器221接收来自该复位按钮的信号并校正来自磁传感器的输出，以使在那个时间点上的方向被认为是上述特定的方向。此外，代替上面提到的基于绝对方向(特定的方向)的校正，可能考虑一种方法，在该方法中使得在真实空间中的另一个用户的方向与他在虚拟空间中的方向一致。例如，该用户把他的脸转向存在于他附近的另一个用户，并按下复位按钮来校正磁传感器232的输出，以使在真实空间中的方向与在虚拟空间中的相对方向一致。在客户端中准备了多种校正方法的情况下，用户首先选择一种方法然后按下该复位按钮。

该空间建模器221把客户端201自身的用户在真实空间中的位置信息和方向信息通过平台提供器222发送到平台服务器110。此外，该空间建模器221从平台服务器110接收其它用户在真实空间中的位置信息和方向信息。即，该空间建模器221通过网络101接收其它用户的位置信息和方向信息，并且因此，对于虚拟空间中其它用户的位置和方向，将不可避免的发生延迟和抖动。另一方面，由于GPS接收机231和磁传感器232直接将信息输入到该空间建模器221，因此在客户端201自身的用户的位置和方向中几乎没有延迟和抖动发生。

至于语音，该麦克风211收集客户端201用户的语音，并把收集的语音发送到该音频编码器212。该音频编码器212把收到的语音转换为数字信号，并把该数字信号输出到音频渲染器216。此外，该音频通信单元215把音频信号或多个音频信号实时发送到一个或多个其它客户端，并从一个或多个其它客户端实时接收音频信号或多个音频信号，并把接收到的音频信号或多个音频信号输出到该音频渲染器216。

从该音频编码器212和音频通信单元215输出的数字输出信号输入到音频渲染器216。然后，使用三维音频技术，基于虚拟空间的声学特性和客户端201自身的用户和其它用户的位置(映射到虚拟空间中的)，该音频渲染器216计算在虚拟空间中是怎样听见其它用户(通信伙伴)的语音的。随后参考图5和图6将详细描述该音频渲染器216。

图5是示意性示出声源即通信伙伴(另一个用户)的方向和距离的图。在图5中示出了从正上方看到的表示人的头1和作为通信伙伴的声源2。该头1具有表示脸的方向的鼻子11。换句话说，该头1面向附加鼻子11的方向3。在三维音频技术中，声音的方向和距离由HRIR(与头相关的脉冲响应)和由诸如房间的虚拟环境产生的伪混响表示，其中HRIR示出声音是怎样围绕头1(脉冲响应)而变化的。并且，HRIR由声源2与头1之间的距离4以及头1与声源2之间的角度(水平角和垂直角)5来确定。这里，假定存储器302或外部存储器303预先存储了使用虚拟的头(头1)为每一个距离和为每一个角度测量的大量的HRIR。此外，至于所述大量的HRIR，不同的数量用于左声道(在虚拟头的左耳测量的数量)和用于右声道(在虚拟头的右耳测量的数量)，来表示右与左、前与后，以及上和下的方向感。

图6是示出在音频渲染器216中的处理的图。对于每一个声源(除客户端201自身的用户以外的每一个用户)，该音频渲染器216使用RTP(实时传输协议)为每一个接收到(通常在20毫秒的间隔下)的包执行下面的计算。如图所示，对于每一个声源，该音频渲染器216接收虚拟空间中那个声源的信号串si[t](t＝1，…)和坐标(xi，yi)的输入(S61)。这里，每个声源在虚拟空间中的坐标输入自该空间建模器221。在该空间建模器221把每个声源(除了客户端201自身的用户以外的每一个用户)映射(定位)到虚拟空间以后，该空间建模器221把每个用户的坐标(在虚拟空间中的位置信息)输入到该音频渲染器216。此外，每个声源的信号串输入自该音频通信单元215。

然后，对于每一个声源，该音频渲染器216使用输入的坐标计算在客户端201自身的用户与那个声源之间的距离和角度(方位角)(S62)。这里，假定客户端201自身的用户在虚拟空间的中心(坐标(0，0))。然后，该音频渲染器216从预先存储在存储器302或外部存储器303中的HRIR值中指定相应于在客户端201自身的用户与每一个声源之间的距离和角度(方位角)的HRIR(S63)。这里，该音频渲染器216可以使用由存储在存储器302或类似存储装置中的HRIR值的***值计算的HRIR值。

然后，该音频渲染器216使用在S61中输入的信号串以及在S63中指定的HRIR的左声道HRIR来执行卷积计算，以产生一个左声道信号(S65)。然后，该音频渲染器216把从所有声源获得的各自的左声道信号相加(S65)。此外，该音频渲染器216使用在S61中输入的信号串和在S63中指定的HRIR的右声道HRIR来执行卷积计算(S66)。然后，该音频渲染器216把从所有声源获得的各自的右声道信号相加(S67)。

接着，该音频渲染器216把混响加到从所述叠加中获得的左声道信号(S68)。即，该音频渲染器216根据虚拟空间的特性基于声音是怎样变化的(脉冲响应)来计算所述混响。至于混响计算的方法，可以举出被称为FIR(有限脉冲响应)和IIR(无限脉冲响应)的计算方法。这些方法是涉及数字滤波器的基本方法，故在这里省略对它们的描述。此外，与左声道相似，该音频渲染器216把混响加到从上述叠加中获得的右声道信号(S69)。虽然如上面所述，对于每一个包执行HRIR的指定(S63)以及混响的计算(S68和S69)，该卷积计算(S64和S66)的每一步产生将要传递到下一个包的一部分。因此，有必要保存指定的HRIR或输入的信号串直到进行下一个包的处理。

这样，通过对从该音频通信单元215输出的用户(即通信伙伴)语音执行例如音量控制、混响和反射的叠加、滤波等等的处理，该音频渲染器216控制声音效果，以获得在客户端201自身的用户在虚拟空间中的位置听到的声音。换句话说，通过执行由虚拟空间的特性和关于通信伙伴的相对位置引起的处理，语音被定向和再现。因此，通过亲身感觉能容易地掌握声音不能被直接听到的通信伙伴的方向。

这里，如果有必要的话，该音频渲染器216可能对从该音频编码器212输出的它自己的用户的语音执行由虚拟空间的特性引起的处理，例如混响和滤波，并且其后在客户端201的用户的头的位置对语音进行渲染。由该音频渲染器216产生的它自己的用户的语音输出到耳机217，以便让用户本人听到。当客户端201自身的用户听见他语音的直达声时，该用户有时会得到一种奇怪的感觉，并且，特别是在一个很大的延迟干扰了该用户的发声的时候。因此，通常防止客户端201自身的用户听到他自己的声音。然而，防止客户端201自身的用户听到直达声并且使他只听到在10毫秒限度内的延迟的混响是可以做到的。因此，使客户端201自身的用户具有关于用户本人在虚拟空间中的位置和虚拟空间大小的亲身感觉是可以做到的。

至于图像，该摄像机213拍摄用户的头并把拍摄的图像连续地发送到该视频编码器214。然后，该视频编码器214把图像转换为数字信号并把所述信号输出到该图形渲染器219。此外，该视频通信单元218向一个或多个其它客户端实时发送视频信号(或多个视频信号)，以及从一个或多个其它客户端实时接收视频信号(或多个视频信号)，并把所述视频信号(或多个视频信号)输出到该图形渲染器219。接着，该图形渲染器219从该视频编码器214和视频通信单元218接收数字输出信号。

然后，基于虚拟空间的视觉特性以及通信伙伴和该用户本人在虚拟空间中的位置，该图形渲染器219计算(坐标转换)在虚拟空间中怎样看见通信伙伴。那些特性和位置由该空间建模器221保存。接着，该图形渲染器219基于上述计算，从用户其自身位置的观察点出发，对从该视频通信单元218输出的通信伙伴的图像执行由于虚拟空间的特性而产生的处理，以产生将要输出到显示屏幕上的图像数据。由该图形渲染器219产生的图像输出到显示器220并再现为从客户端201的用户的观察点看见的图像。用户在必要时可参考显示器220的输出。

图7示出在显示器220上显示的虚拟空间的一个例子。图7中示出的内容是客户端201自身的用户与客户端202和203的第一和第二其它用户共享虚拟空间的一个例子。在所述示出的例子中，该虚拟空间以平面视图来说明。基于虚拟空间的特性，客户端201自身的用户在虚拟空间中的位置和关于其它用户的信息被显示为从正上方观察得到的二维图像，它自身的头像(abutter)411表示客户端201的用户本人，并且第一其它头像412和第二其它头像413表示位于虚拟空间中作为通信伙伴的用户。所提到的特性、位置和信息通过空间建模器221存储在存储器302或外部存储器303中。该图形渲染器219显示该图像以使客户端201自身的用户的位置和方向固定，并且该虚拟空间和在该虚拟空间中的其它用户相对于作为中心的客户端201的用户移动和旋转。当客户端201的用户在真实空间中移动或旋转时，于是该空间建模器221接收来自该GPS接收机231或磁传感器232的输入，并映射到虚拟空间中，以使屏幕被实时显示，在该屏幕中，虚拟空间或在虚拟空间中的其它用户相对于客户端201自身的用户移动或旋转。此外，在所述示出的例子中，显示了表示北方的方向信息420。

因而，表示在虚拟空间中客户端201自身的用户与作为通信伙伴的其它用户(客户端202和203)之间的位置关系是可以做到的。此外，通过将客户端201自身的用户的方向固定为向前的方向，语音与图形显示之间的一致性得到了保证，并且能够象亲身感觉一样掌握其它用户的位置和方向。此外，能显示存在于客户端201自身的用户后面的另一个用户，因而有利的是，忽略掉从背后靠近客户端201的用户的另一个用户的风险很小。

虽然在图中未示出，在该显示器220上也可以示出比例尺，因而在虚拟空间中到另一个用户的距离能被精确地表示。例如，考虑使用单选按钮或类似的按钮来从多个备选方案中选择一个比例尺，或使用滚动条滑尺来连续地改变比例。在这样的按钮或滚动条滑尺的操作之后显示的平面视图的比例立即改变，能够观察到远距离物体的状态以确定客户端201自身的用户在房间(虚拟空间)中的位置或详细地观察附近区域。

此外，虽然没有示出，客户端201通过摄像机213拍摄的它自己的用户的图像通过材质贴图粘贴到头像411，客户端202通过摄像机213拍摄的第一其它用户的图像粘贴到头像412，客户端203通过摄像机213拍摄的第二其它用户的图像粘贴到头像413。当作为通信伙伴的用户旋转时，该结构也旋转。因此，掌握第一和第二其它用户在虚拟空间中所面对的方向是可以做到的。

对于实时语音或图像通信，采用了RTP(实时传输协议)。RTP是在由IETF(国际工程任务组(Internet Engineer Task Force))发布的文件RFC3550中描述的协议。当语音或图像通信中允许延迟增加到某种程度时，那么可能要另外提供用于语音或图像通信的通信代理服务器，并且音频通信单元215，或视频通信单元218通过该通信代理服务器与另一个用户进行语音或图像通信。

在上文中，已经描述了图2的客户端201。在该客户端201中，麦克风211、摄像机213、GPS接收机231、磁传感器232、耳机217和显示器220通过硬件实现。另一方面，该音频编码器212和视频编码器214通过软件、硬件或者它们的结合来实现。此外，该音频通信单元215、视频通信单元218、空间建模器221和会话控制单元223一般通过软件实现。

接着，参考图8A和图8B，将描述客户端201、202和203的例子。

图8A中示出的客户端具有与PDA或手持计算机相近的大小和功能。客户端实体230包括一个摄像机213、一个显示器220、一个操作单元226、一个天线237和一个GPS接收机231。此外，连接到实体230的听筒包括耳机217、麦克风211和磁传感器232。在耳机217中(例如，在头带的上部)提供磁传感器232的情况下，用户能把磁传感器232放在与用户成几乎恒定的角度上。该操作单元226具有指令按钮241-245，这些按钮把各种指令输入到客户端201。在所述指令按钮241-245中存在一个复位按钮，该复位按钮用于当用户戴上听筒时，调整耳机217中提供的磁传感器232的方向。虽然在图中示出的听筒是以有线方式连接到实体230的，但是听筒可以通过蓝牙或IrDA(红外线)无线连接。此外，客户端依靠该天线237经由无线LAN连接到所述网络101。

在图8B中示出的客户端是可穿戴计算机的一个例子。客户端实体241看起来像一副眼镜的镜框，该实体带有麦克风211、摄像机213、耳机217、显示器220、GPS接收机231和磁传感器232。该显示器220是安装在头上的显示器，并且它在戴着客户端实体241的用户前面几十厘米处形成虚拟图像，或者在该用户前面形成三维图像。此外，图8B的客户端具有有线或无线连接的操作单元226(未示出)。

接下来，参考图9到12，将描述客户端201中的程序。

图9示出把客户端201连接到网络101的程序。在图中示出的连接程序在打开电源时执行。首先，该会话控制单元223把包括该用户的识别信息和鉴别信息的登陆消息发送到该SIP代理服务器120(S901)。一接收到该登陆消息，该SIP代理服务器120就把对用户的鉴别请求消息发送到该注册服务器130。然后，该注册服务器130鉴别该用户的识别信息和鉴别信息，并把该用户的识别信息发送到平台服务器110。为了在客户端和该注册服务器130之间的通信，考虑使用IETF的文件RFC3261中规定的协议SIP(会议初始协议)的REGISTER消息。客户端通过该SIP代理服务器120把REGISTER消息周期性地发送到该注册服务器130。

此外，至于在客户端201的平台提供器222和平台服务器110之间的通信，使用IETF的文件RFC3265中规定的SIP的SUBSCRIBE消息是可能的。SUBSCRIBE消息是连贯的请求消息，该消息预先请求接收在事件发生时的通知。该平台提供器222请求平台服务器110通知已发生的关于房间列表和出席列表的事件。在该平台提供器222使用SUBSCRIBE消息的情况下，该平台提供器222通过该会话控制单元223和SIP代理服务器120与平台服务器110通信。

接着，该平台提供器222从平台服务器110接收房间列表(S902)。这里，在S901中使用SUBSCRIBE消息的情况下，那么，所述房间列表以NOTIFY消息的形式作为上述的事件通知消息被接收。然后，该平台提供器222在显示器220上显示接收到的房间列表(S903)

图10示出当用户从显示器220上显示的房间列表中选择他想进入的房间时客户端201的程序。客户端201的平台提供器222接收通过操作单元226输入的房间选择指令(S1001)。然后，该平台提供器222把进入消息(进入)发送到平台服务器110(S1002)。所述进入消息包括客户端201自身的用户的识别消息，以及该用户在真实空间中的位置信息和方向信息。客户端201用户的所述位置信息和方向信息由该GPS接收机321和磁传感器322计算，并被输入到该空间建模器221。然后，该空间建模器221把输入的位置信息和方向信息存储进存储器302或外部存储器303。该平台提供器222读取存储在存储器302或外部存储器303中的位置信息和方向信息，并发送包括所述位置信息和方向信息的进入消息。

或者，SIP的SUBSCRIBE消息可以用于发送进入消息。即，其接收方是所选房间的SUBSCRIBE消息被用作进入消息。SUBSCRIBE消息请求通知在所选房间的虚拟空间中发生的事件(例如，用户的进入、离开和移动，以及虚拟空间特性的变化)。

接着，该平台提供器222从平台服务器110接收列出现在位于所选房间中的用户(除客户端201自身的用户以外)的出席列表(S1003)。当SUBSCRIBE消息用作进入消息时，相应于该SUBSCRIBE消息的以NOTIFY消息形式的所述出席列表被发送到该平台提供器222。假定该出席列表至少包括在该房间中除了客户端201自身的用户以外的用户的用户识别信息、他们在真实空间中的位置信息和方向信息，以及指定房间的虚拟空间特性。所述虚拟空间特性包括在图4中作为虚拟空间的球s的半径r，或者该半径r乘以一个常数(下文中，称为虚拟空间半径或类似参数)。

虽然没有示出离开房间的程序，但是该平台提供器222从用户接收离开指令，并把包括该用户识别信息的离开消息发送到所述平台服务器110。

图11示出在该用户改变他的呈现，即在虚拟空间中的一个范围内移动的情况下的程序。首先，该空间建模器221从该GPS接收机231和磁传感器232接收位置信息和方向信息(下文中，称为位置信息及类似信息)的输入(S1101)。然后，该空间建模器把存储在存储器302或外部存储器303(下文中，称为存储器或类似存储装置)中的所述位置信息及类似信息与在S1101中接收到的所述位置信息及类似信息相比较，以判别两者是否不同(S1102)。这里，存储器或类似存储装置存储上一次从该GPS接收机231和磁传感器232输入的位置信息及类似信息。

在接收到的位置信息及类似信息与存储在存储器或类似存储装置中的位置信息及类似信息一样，即，客户端201自身的用户在真实空间中既没有移动也没有改变他的方向的情况下(在S1102中为NO)，该空间建模器221不执行下面的处理而返回到S1101。

在接收到的位置信息及类似信息与存储在存储器或类似存储装置中的位置信息及类似信息不同，即，客户端201自身的用户在真实空间中移动或改变他的方向的情况下(在S1102中为YES)，该空间建模器221把接收到的位置信息及类似信息存储进存储器或类似存储装置。然后，使用移动以后的位置信息及类似的信息，该空间建模器221改变映射或用户在虚拟空间中的方向(S1103)。到虚拟空间的所述映射是在真实空间与虚拟空间之间的非线性映射(图4中描述的)。该空间建模器221把客户端201自身的用户定位在该虚拟空间的中央，并且再通过非线性映射把存在于相同虚拟空间中的除客户端201的用户以外的用户定位。

接着，该空间建模器221把移动之后的位置信息及类似的信息通知给该音频渲染器216、图形渲染器219和平台提供器222(S1104)。如参考图6所描述的，该音频渲染器216计算在虚拟空间中客户端201的用户的位置和方向怎样听到通信伙伴的语音。这里，基于在真实空间中的位置信息及类似的信息，所提及的位置和方向已被映射到虚拟空间。然后，基于该计算，该音频渲染器216对从音频通信单元215输出的其它用户(通信伙伴)的语音执行诸如音量控制、混响、滤波等等处理，并控制声音效果以获得客户端201的用户在虚拟空间中他的位置上将要听见的声音，并刷新三维声音。此外，该图形渲染器219基于客户端201的用户在虚拟空间中的位置和方向改变观察点。这里，基于真实空间中的位置信息及类似的信息，所提及的位置和方向已经被映射到虚拟空间。并且该图形渲染器219计算在虚拟空间中通信伙伴(参见图7)是怎样被看见的。然后，该图形渲染器219产生图像数据并输出到屏幕上，作为从那个方向在那个位置看见的视图，并刷新显示器屏幕。

接着，该平台提供器222把移动以后真实空间中的位置信息及类似的信息通知给平台服务器110(S1105)。当使用所述SIP协议时，采用NOTIFY消息。NOTIFY消息通常作为接收SUBSCRIBE消息的结果被发送出去。因而，考虑到平台服务器110从客户端201接收进入消息时，该平台服务器110不仅发送出席列表，而且也发送相应于上述NOTIFY消息的SUBSCRIBE消息。一接收到已经由平台提供器222通知的、在真实空间中的位置信息及类似信息，该平台服务器更新在所述出席列表中所讨论的用户的位置信息及类似信息。

图12示出平台改变输入程序，即，在该平台服务器110把在真实空间中的其它用户的位置信息及类似信息通知客户端201的情况下的程序。

该空间建模器221通过平台提供器222从平台服务器110接收另一客户端的用户的位置信息及类似信息(S1201)。该平台服务器110把从图11的S1105中的客户端201发送的位置信息及类似信息通知(发送)到除客户端201以外的客户端，即发送者。然后，该空间建模器221把已通知的位置信息及类似信息存储进存储器或类似存储装置。此外，使用已通知的位置信息及类似信息，该空间建模器221把其它用户映射进虚拟空间，或者改变其它用户的方向(参见图4)。然后，该空间建模器221把移动后的虚拟空间中的位置信息及类似信息通知给该音频渲染器216和图形渲染器219(S1203)。如参考图11的S1104所描述的，基于所述通知的另一个用户的位置和方向，该音频渲染器216和图形渲染器219刷新那个用户的三维声音以及显示器屏幕。

接着，将描述该平台服务器110的功能配置和程序。该注册服务器130和SIP代理服务器120与使用SIP的传统通信中的注册服务器和代理服务器相似，因而这里省略对它们的描述。

图13示出该平台服务器110的一种功能配置。该平台服务器110包括一个接口单元111，该接口单元把各种信息发送到客户端，并从客户端接收各种信息；一个判断单元112，该判断单元判断来自客户端的消息的类型；一个处理单元113，该处理单元执行相应于该判断结果的处理；以及一个存储单元114，该存储单元管理和存储虚拟空间的特性、在虚拟空间中已发生的事件(用户的进入、离开、移动等等)、房间列表、出席列表等等。该存储单元114预先存储由该平台服务器110管理的某些虚拟空间的特性。如上所述，用户从那些虚拟空间中选择他想进入的一个虚拟空间(参见图9和图10)。其后，客户端把已进入该虚拟空间的用户的各种事件发送到平台服务器110。因而，各种事件在每一个虚拟空间中发生。该存储单元114把上述信息存储进存储器302或外部存储器303中。

图14示出所述平台服务器110的程序。该平台服务器110从客户端接收请求并执行所述请求的处理，直到停止该平台服务器110。首先，所述接口单元111等待来自客户端的消息(S1411)。当接收到消息时，所述判断单元112判断由所述接口单元111接收到的消息的类型(S1412)。

在该消息是登陆消息的情况下，所述处理单元113指示该接口单元111把房间列表发送到消息源的客户端(S1421)。所述接口单元111把房间列表发送到消息源的客户端。其后，程序返回到S1411，以等待下一条消息。

在该消息是进入消息的情况下，所述处理单元113把该消息源的用户添加到该指定房间的出席列表(S1431)。即，所述处理单元113把所讨论用户的识别信息，以及该用户在真实空间中的位置信息和方向信息添加到出席列表。接着，所述处理单元113指示该接口单元111把该指定房间的所有出席者(除了所讨论的用户以外)的识别信息，以及位置信息和方向信息发送到作为该消息源的客户端。此外，所述处理单元113指示该接口单元111把指定房间的虚拟空间特性发送到作为该消息源的客户端。所述虚拟空间特性包括图4中示出的作为虚拟空间的球s的半径r，或该半径r乘以一个常数(下文中，称作虚拟空间半径或类似参数)。根据上面的指令，所述接口单元111把那些信息发送到作为消息源的客户端(S1432)。然后，该程序转到下面描述的S1436。

在该消息是移动消息的情况下，所述处理单元113更新出席列表中在真实空间中作为该消息源的客户端(用户)的位置信息和方向信息(S1435)。该位置信息和方向信息包括在所述移动信息中。然后，所述处理单元113指示该接口单元111把作为该消息源的客户端的识别信息，以及位置信息和方向信息通知到所讨论房间的所有出席者的客户端(除作为该消息源的客户端以外)(S1436)。根据该指令，所述接口单元111把那些信息发送到客户端并返回到S1411。这与进入消息的情况相同(S1431)。

在该消息是离开消息的情况下，所述处理单元113从出席列表中删除作为该消息源的客户端的用户(S1441)。然后，所述处理单元113指示该接口单元111把所讨论的用户从房间的离开通知到所讨论的房间的所有出席者的客户端(除作为该消息源的客户端以外)(S1442)。根据该指令，所述接口单元111发送该信息到客户端并返回到S1411。

虽然没有示出，但是该平台服务器110也可以接收来自平台服务器110的管理者的请求(输入)，以改变虚拟空间的特性。例如，所述判断单元112接收从该平台服务器110的输入单元305输入的虚拟空间半径应改变的指令。这个指令包括识别信息，该识别信息识别作为改变目标的房间，以及改变以后的虚拟空间半径或类似参数。然后，所述处理单元113改变存储在存储器单元114中的、关于作为改变目标的房间的虚拟空间半径或类似参数。然后，所述处理单元113读取存储在该存储单元114中的出席列表，并把改变了的虚拟空间半径或类似参数通知到作为改变目标的房间中的所有用户的客户端。每个被通知了该变化的客户端的空间建模器将真实空间中的每个用户映射到具有已改变的虚拟空间半径，或类似参数的球s上(在图4中示出)。

上文中，已描述了本实施例。

根据本实施例，通过通信伙伴的语音(媒介声音)，能象亲身感觉一样容易地掌握通信伙伴在真实空间中的相对位置和方向。因此，用户能在虚拟空间中和真实空间中相互自然的会话。

在本实施例的语音通信***中，基于该用户在真实空间中的位置和方向将每一个用户映射到虚拟空间。因此，即使当通信伙伴位于一个遥远的位置，在该位置他的语音(直达声)真实空间中不能被听到，通过通信伙伴的语音(媒介声音)也能象亲身感觉一样容易地掌握通信伙伴的相对位置和方向。因而，在人群中不费力地发现并接近通信伙伴是可以做到的。

此外，在本实施例中，通信伙伴在真实空间中存在的方向与在虚拟空间中的方向一致。因此，当通信伙伴在能听到他声音(直达声)的直线(point-blank)距离的位置时，在真实空间中的语音(直达声)与在虚拟空间中的语音(媒介声音)在不同方向被彼此听到的情况将不会发生。因此，不会发生当用户响应来自通信伙伴的招呼时，把他的脸转向不同方向的令人不快的情况。

本发明并不局限于上述的实施例，且能在本发明的范围内有各种的变化。

例如，上述实施例的客户端201具有摄像机213、视频编码器214等等，并把虚拟空间的图像数据输出到显示器220。然而，根据本发明的语音通信***是主要使用语音通信的***。因此，客户端201不需要把虚拟空间的图像数据输出到显示器220。在那种情况下，该客户端201没有摄像机213、视频编码器214、显示器220等等。

此外，在本实施例中，该图形渲染器219使用平面视图(二维数据)来表示虚拟空间(参见图7)。然而，该图形渲染器219使用三维图形技术来更清晰地显示虚拟空间是可以做到的。换句话说，基于存储在存储器302或外部存储器303内的三维数据，诸如空间的大小、虚拟空间的特性(例如，墙和天花板的材料)、以及客户端201的用户及其它用户在虚拟空间中的位置和方向，该空间建模器221能产生二维图像，以在显示器220上显示。

此外，该音频渲染器216能对从所述音频通信单元215输出的另一用户的(通信伙伴的)语音(媒介声音)执行下面的处理。例如，该音频渲染器216可以对媒介声音进行滤波以产生在真实语音(直达声)的情况下不可能有的脉冲响应。或者，该音频渲染器216可以把与真实语音(直达声)的混响不同的混响添加到另一个用户的(通信伙伴的)语音(媒介声音)上，以使离声源的距离感能被识别出来。或者，该音频渲染器216可以把噪声添加到另一个用户的(通信伙伴的)语音(媒介声音)上。在那种情况下，即使当作为通信伙伴的用户在其真实语音(直达声)在真实空间中能够被听到的直线距离的位置时，也容易判断通信伙伴的语音是真实声音还是媒介声音。

此外，在通信伙伴在其真实语音(直达声)在真实空间中能够被听到的距离的情况下，该通信伙伴的真实语音(直达声)，和从该音频通信单元215输出的语音(媒介声音)都能被听到。在那种情况下，当该媒介声音的延迟小时，所述媒介声音用于定位。另一方面，当该媒介声音的延迟太大时，所述媒介声音听起来就象与直达声无关的独立声源一样，因而产生混淆。因此，当通信伙伴在预定的直线距离内的情况下，该音频渲染器216可以把通信伙伴的语音(媒介声音)的延迟时间控制在一定的范围内。当所述媒介声音的延迟大于所述直达声且在一定范围内时，该媒介声音听起来象是直达声的混响(回声)。在那种情况下，所述直达声用于定位并且能避免混淆的发生。此外，该音频渲染器216可以把存在于直线距离的通信伙伴的语音(媒介声音)的声音音量降低一定的量或以一定的比率来降低该音量。在那种情况下，该声音音量能与在只能听到媒介声音的很远的距离处的通信伙伴的声音音量平衡。

无线通信技术蓝牙可以用于判断通信伙伴是否位于在真实空间中能够听到直达声的直线距离。即，当数据能用蓝牙来发送和接收时，那么可以判断该通信伙伴位于直线距离处。

本实施例的客户端使用该GPS接收机231和磁传感器232来测定其用户(客户端)的位置和方向。然而，传感器网络也可以用于测定用户(客户端)的位置和方向。当使用传感器网络时，即使当用户在室内使用客户端时，也能检测到用户的位置和方向。

在本实施例中，每个客户端直接执行语音通信，并从另一个客户端输入的语音中产生三维语音(参见图6)。然而，在客户端的处理和通信性能比较低的情况下，这样的处理能由服务器执行。换句话说，声音服务器可以重新添加到图1示出的网络配置中。下面，将描述具有声音服务器的一个实施例。

图15是示出具有声音服务器的一个实施例的网络配置的图。在该图中示出的网络配置与图1中示出的网络配置的不同之处在于图15的网络配置中存在声音服务器140。此外，客户端201、202和203中的每一个具有与图3示出的客户端不同的配置，它们有下面几点不同。即，该音频渲染器216仅仅是一个声音解码器，它并不执行声音的三维处理(参见图6)。此外，该音频通信单元215与该声音服务器140通信，而不直接与另一个客户端通信。

图16是示出该声音服务器140的框图。如图所示，该声音服务器140包括一个或多个音频接收单元141、一个或多个音频渲染器142、一个或多个混合器143、以及一个或多个音频发送单元144。即，该声音服务器140具有相应于客户端数量的这些处理单元141-144(即，用于每个客户端的一套处理单元141-144)。或者，不具有相应于客户端数量的该音频接收单元141、音频渲染器142、混合器143和音频发送单元144，但通过以时间共享的方式使用一个程序或一个装置，该声音服务器140可以为每一个客户端实现这些功能单元141-144中的每一个。

此外，该声音服务器140进一步包括一个空间建模器145。该空间建模器145从平台服务器110接收每个用户在真实空间中的位置和虚拟空间的特性(诸如虚拟空间半径或类似参数)，并通过与图3中示出的客户端201的空间建模器221的处理相似的处理，把每个用户的位置映射(定位)到虚拟空间。

每个音频接收单元141接收从相关的客户端的音频通信单元215输入的语音。每个音频渲染器142产生三维语音，并把相应于相关的客户端的两声道(左和右声道)信号数据(信号串)输出到与各自客户端相关联的混合器143。即，基于由该空间建模器145安排的每个用户在虚拟空间中的位置，每个音频渲染器142执行与图3中示出的客户端的音频渲染器216的处理相似的处理，即，声源输入的接收(图6的S61)、距离和角度的计算(S62)、HRIR的指定(S63)和卷积计算(S64和S66)。每个混合器143从每个音频渲染器142接收两声道信号数据，并执行与图3中示出的客户端的音频渲染器216的处理相似的处理，即，混合(S65和S67)和混响计算(S68和S69)。然后，每个混合器143把两声道信号数据输出到相应的音频发送单元144。每个音频发送单元144把接收到的两声道信号数据发送到相应的客户端。

接着，将描述由平台服务器110和客户端进行的处理。当在步骤S1432、S1436和S1442中，该平台服务器110把相关的用户(多个用户)的用户名(或多个用户名)、位置(或多个位置)以及虚拟空间半径或类似参数通知给相关的客户端(或多个客户端)时，平台服务器110也把这些信息通知到该声音服务器140。因此，当每个客户端进入房间时，那个客户端执行与该声音服务器140的预定通信端口(或者与在进入时平台服务器110通知的通信端口)的语音通信。即，每个客户端的音频通信单元215把一个声道的语音流发送到该声音服务器140，并从该声音服务器140接收两声道语音流。

接着，将描述由声音服务器140进行的处理。每个与客户端相关联的音频接收单元141接收并缓冲来自那个客户端的语音流，以把与所有其它输入客户端的语音流同步的数据信号发送到与那个客户端相关联的音频渲染器142。这种缓冲(输出缓冲)的方法在下面的文件中描述，例如，

Colin Perkins：RTP：Audio and Video for the Internet，Addison-Wesley Pub Co；1st edition(2003年6月11日)。

然后，基于由该空间建模器145安排的每个用户在虚拟空间中的位置，每个音频渲染器142执行距离/角度计算、HRIR的指定和卷积计算(图6中的S62-S64和S66)的处理。然后，每个混合器143执行所述混合(图6中的S65和S67)和混响计算(图6中的S68和S69)，并输出相应于相关的客户端的两声道信号数据。每个音频发送单元144把该两声道信号数据发送到相关的客户端。因此，即使在客户端的处理特性低的情况下，实现三维语音也是可以做到的。

此外，该平台服务器110可以具有上述声音服务器140的功能。换句话说，如果不提供声音服务器140，该平台服务器110不但管理用户的位置、虚拟空间特性等等，而且也执行上述声音服务器140的处理。

Claims

1、一种语音通信***，用于通过虚拟空间来实现在多个用户之间的会话，其中：

所述语音通信***包括，管理所述多个用户在真实空间中各自的位置的服务器装置，以及由所述多个用户分别使用的多个客户终端；

所述多个客户终端中的每一个包括：

一个位置监测装置，该位置监测装置监测与客户终端自身的用户在真实空间中的位置相关的位置信息；

一个客户端发送装置，该客户端发送装置把客户终端自身的用户在真实空间中的位置信息发送到所述服务器装置，所述位置信息由所述位置监测装置监测；

一个客户端接收装置，该客户端接收装置从所述服务器装置接收与除了所述客户终端自身的用户以外的其它用户中的每一个在真实空间中的位置相关的位置信息；

一个空间建模装置，该空间建模装置基于所述客户终端自身的用户的所述位置信息，以及所述其它用户中的每一个的所述位置信息来计算所述多个用户在虚拟空间中各自的位置；以及

一个声音控制装置，该声音控制装置基于由所述空间建模装置计算的位置来控制应用到所述其它用户中的每一个的语音的声音效果；以及

所述服务器装置包括：

一个服务器接收装置，对于所述多个客户终端中的每一个，该服务器接收装置从所述客户终端接收客户终端的用户在真实空间中的所述位置信息；

一个存储装置，该存储装置存储所述多个用户中的每一个在真实空间中的位置信息，所述位置信息由所述服务器接收装置接收；以及

一个服务器发送装置，对于所述多个客户终端中的每一个客户终端，该服务器发送装置把除一个客户终端的用户以外的其它用户的位置信息发送到所述客户终端，所述位置信息存储在所述存储装置中。

2、根据权利要求1所述的语音通信***，其中：

每个客户终端的所述位置监测装置进一步监测所述客户终端自身的用户在真实空间中所面对的方向；

所述位置信息包括表示客户终端自身的用户的方向或一个所述其它用户的方向的方向信息；以及

所述声音控制装置基于客户终端自身的所述用户或所述其它用户在真实空间中的所述方向信息来控制应用到所述其它用户中的每一个的语音的声音效果。

3、根据权利要求2所述的语音通信***，其中：

所述建模装置把所述客户终端自身的所述用户定位在虚拟空间的中央，并基于客户终端自身的所述用户与相关的其它用户之间在真实空间中的距离和方向来计算所述其它用户中的每一个在虚拟空间中的位置，所述距离和方向是基于客户端自身的所述用户的位置信息和所述其它用户的位置信息来计算的。

4、根据权利要求1所述的语音通信***，其中：

所述声音控制装置基于所述多个用户在虚拟空间中各自的位置，以及所述虚拟空间特性的特性信息来控制应用到所述其它用户中的每一个的语音的声音效果。

5、根据权利要求1所述的语音通信***，其中：

所述多个客户终端中的每一个进一步包括一个图像产生装置，该图像产生装置基于由所述空间建模装置计算的位置来产生要被输出到显示器屏幕上的图像数据；

6、根据权利要求5所述的语音通信***，其中：

所述图像产生装置总是固定客户终端自身的用户在虚拟空间中的位置和方向，并产生图像数据，该图像数据是通过相对于所述客户端自身的用户来移动所述虚拟空间和所述其它用户，或者以所述客户端自身的用户为中心旋转所述虚拟空间和所述其它用户来得到的；

7、根据权利要求1所述的语音通信***，其中：

所述服务器装置的所述存储装置存储虚拟空间的特性；

所述服务器发送装置把所述虚拟空间的特性发送到所述多个客户终端中的每一个；

所述客户端接收装置从所述服务器装置接收虚拟空间的所述特性；

所述空间建模装置基于所述虚拟空间的特性来计算所述多个用户中的每一个在虚拟空间中的位置；

所述声音控制装置基于由所述空间建模装置计算的位置，控制应用到所述其它用户中的每一个的语音的声音效果；

8、一种由语音通信***中的用户使用的客户终端，用于通过虚拟空间来实现在多个用户之间的会话，包括：

一个位置监测装置，监测与客户终端自身的用户在真实空间中的位置相关的位置信息；

一个发送装置，该发送装置把客户终端自身的用户在真实空间中的位置信息发送到一个服务器装置，该服务器装置管理所述多个用户中的每一个在真实空间中的位置，所述位置信息由所述位置监测装置监测；

一个接收装置，该接收装置从所述服务器装置接收与除了所述客户终端自身的用户以外的其它用户中的每一个在真实空间中的位置相关的位置信息；

一个空间建模装置，该空间建模装置基于所述客户终端自身的用户的所述位置信息，和所述其它用户中的每一个的所述位置信息来计算所述多个用户在虚拟空间中的位置；以及

一个声音控制装置，该声音控制装置基于由所述空间建模装置计算的位置来控制应用到所述其它用户中的每一个的语音的声音效果；

9、一种在语音通信***中的服务器装置，该语音通信***用于通过虚拟空间来实现在分别使用多个客户终端的多个用户之间的会话，该服务器装置包括：

一个服务器接收装置，对于所述多个客户终端中的每一个，该服务器接收装置从所述客户终端接收客户终端用户在真实空间中的位置信息；

一个服务器发送装置，对于所述多个客户终端中的每一个客户终端，该服务器发送装置把除一个客户终端用户以外的其它用户的位置信息发送到所述客户终端，所述位置信息存储在所述存储器装置中。

10、一种用于通过虚拟空间在多个用户之间实现会话的语音通信***，其中：

所述语音通信***包括，管理所述多个用户在真实空间中的各自位置的一个服务器装置，由所述多个用户分别使用的多个客户终端，以及控制所述多个用户的语音的一个声音服务器装置；

所述多个客户终端中的每一个包括：

一个位置监测装置，该位置监测装置监测与所述客户终端自身的用户在真实空间中的位置相关的位置信息；

一个客户端发送装置，该客户端发送装置把所述客户终端自身的用户在真实空间中的位置信息发送到所述服务器装置，所述位置信息由所述位置监测装置监测；

一个客户端空间建模装置，该空间建模装置基于所述客户终端自身的用户的所述位置信息，和所述其它用户中的每一个的所述位置信息来计算所述多个用户在所述虚拟空间中的位置；

一个客户端语音发送装置，该客户端语音发送装置发送所述客户端自身的用户的语音；以及

一个语音输出装置，该语音输出装置接收所述其它用户各自的语音，所述语音的声音效果基于在虚拟空间中的所述位置来被控制，并且该语音输出装置输出所述其它用户的语音；

所述服务器装置包括：

一个服务器接收装置，对于所述多个客户终端中的每一个，该服务器接收装置从所述客户终端接收客户终端用户在真实空间中的所述位置信息；

一个存储装置，该存储装置存储所述多个用户中的每一个在真实空间中的所述位置信息，所述位置信息由所述服务器接收装置接收；

第一服务器发送装置，对于所述多个客户终端中的每一个客户终端，该第一服务器发送装置把除一个客户终端的用户以外的其它用户的位置信息发送到所述客户终端，所述位置信息存储在所述存储器装置中；

第二服务器发送装置，该第二服务器发送装置把所述多个客户终端的所述多个用户中的每一个的所述位置信息发送到所述声音服务器装置；以及

所述声音服务器装置包括：

一个服务器语音接收装置，对于所述多个客户终端中的每一个，该服务器语音接收装置从客户终端接收那个客户终端用户的语音；

一个服务器空间建模装置，该服务器空间建模装置从所述服务器装置接收所述多个客户终端的所述多个用户中的每一个在真实空间中的位置信息，并且该服务器空间建模装置基于所述多个用户中的每一个的所述位置信息来计算所述多个用户在虚拟空间中各自的位置；

一个声音控制装置，对于所述多个客户终端中的每一个，该声音控制装置基于由所述服务器空间建模装置计算的位置来控制应用到所述其它用户中的每一个的语音的声音效果；以及

一个服务器语音发送装置，该服务器语音发送装置把所述多个用户的语音发送到所述多个客户终端中的每一个，所述语音由所述声音控制装置控制。

11、一种语音通信***中的声音服务器装置，该语音通信***用于通过虚拟空间实现在分别使用多个客户终端的多个用户之间的会话，该声音服务器装置包括：

一个语音接收装置，对于所述多个客户终端中的每一个，该语音接收装置从客户终端接收该客户终端用户的语音；

一个空间建模装置，该空间建模装置从外部***接收所述多个客户终端的所述多个用户中的每一个在真实空间中的位置信息，并且该空间建模装置基于所述多个用户中的每一个的所述位置信息来计算所述多个用户在所述虚拟空间中各自的位置；

一个声音控制装置，对于所述多个客户终端中的每一个，该声音控制装置基于所述空间建模装置计算的位置来控制应用到所述其它用户中的每一个的语音的声音效果；以及

12、一种用于通过虚拟空间在所个用户之间实现会话的语音通信方法，其中：

由所述多个用户分别使用的所述多个客户终端中的每一个执行下面的步骤，即：

监测步骤，该监测步骤监测与相关客户终端的用户在真实空间中的位置相关的位置信息；

发送步骤，该发送步骤把客户终端自身的用户在真实空间中的位置信息发送到管理所述多个用户在真实空间中各自位置的一个服务器装置，所述位置信息在所述监测步骤中被监测；

接收步骤，该接收步骤从所述服务器装置接收与除所述客户终端自身的用户以外的其它用户中的每一个在真实空间中的位置相关的位置信息；

计算步骤，该计算步骤基于所述客户终端自身的用户的位置信息和所述其它用户中的每一个的所述位置信息来计算所述多个用户在所述虚拟空间中各自的位置；以及

声音控制步骤，该声音控制步骤基于所述计算出的位置，控制应用到所述其它用户中的每一个的语音的声音效果。

13、根据权利要求12所述的语音通信方法，其中：

所述监测步骤进一步监测所述客户终端自身的所述用户在真实空间中所面对的方向；以及

所述位置信息包括表示所述客户终端自身的用户的方向或所述其它用户中的一个的方向的方向信息。

14、根据权利要求12所述的语音通信方法，其中：

由所述多个用户分别使用的所述多个客户终端中的每一个进一步执行：

产生步骤，该产生步骤基于在所述计算步骤中计算出的位置来产生要被输出到显示器屏幕上的图像数据；

15、根据权利要求12所述的语音通信方法，其中：

所述声音控制步骤基于所述多个用户在虚拟空间中各自的位置，以及关于所述虚拟空间特性的特性信息来控制应用到所述其它用户中的每一个的语音的声音效果。