JPH09204200A - 会議システム - Google Patents

会議システム

Info

Publication number
JPH09204200A
JPH09204200A JP8331313A JP33131396A JPH09204200A JP H09204200 A JPH09204200 A JP H09204200A JP 8331313 A JP8331313 A JP 8331313A JP 33131396 A JP33131396 A JP 33131396A JP H09204200 A JPH09204200 A JP H09204200A
Authority
JP
Japan
Prior art keywords
signal
voice
speech
equation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8331313A
Other languages
English (en)
Inventor
Shankar S Narayan
エス、ナラヤン シャンカル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONLIVEO TECHNOL Inc
ONRAIBU TECHNOL Inc
Original Assignee
ONLIVEO TECHNOL Inc
ONRAIBU TECHNOL Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ONLIVEO TECHNOL Inc, ONRAIBU TECHNOL Inc filed Critical ONLIVEO TECHNOL Inc
Publication of JPH09204200A publication Critical patent/JPH09204200A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

(57)【要約】 【課題】 遠隔地にいる複数の参加者間における、音声
およびその関連情報の通信のためのインタラクティブな
ネットワークシステムに用いる音響的特徴決定方法を提
供する。 【解決手段】 ネットワークに接続するため、各参加者
はマルチメディアコンピュータおよびモデムを用いる。
音声及び音声に関係して唇に同期するイメージの信号等
の関連情報は圧縮される。ネットワークシステムのスピ
ーチサーバは、少なくとも2人の参加者からのデータス
トリームを受け取る。これらのビットレートの和は第3
の参加者のモデムにより扱えるビットレートより高い場
合があるので、スピーチサーバは、これらのデータスト
リームを、第3の参加者のモデムにより扱えるビットレ
ートを有する単一のデータストリームに結合する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ワイドエリアネ
ットワーク通信、特にワイドエリアネットワークを介し
た音声およびその関連情報のインタラクティブな通信に
関する。
【0002】
【従来の技術】この数年の間に、コンピュータ技術はい
くつかの大きな発展を遂げてきた。その第一は、低価格
且つ強力なパーソナルコンピュータの実現である。コス
トの削減により、多くの人々がコンピュータを購入でき
るようになった。そしてその結果として、コンピュータ
の数も急激に増加してきた。これらのコンピュータの処
理速度は、10年前に存在したメインフレームコンピュ
ータの処理速度以上である。その上これらのコンピュー
タは、モデム、サウンドカード、高解像度ビデオボード
等と共に用いられるのが一般的であり、これらにより音
声や画像といったマルチメディア情報の処理が可能とな
っている。
【0003】第二の発展は、インターネットを呼ばれる
ワイドエリアネットワークが一般的となったことであ
る。インターネットは、現存する最大のコンピュータネ
ットワークである。これは、ローエンドのパーソナルコ
ンピュータからハイエンドのメインフレームまで数百万
のコンピュータのワールドワイドな相互接続である。
【0004】インターネットは、1960年代に米国国
防総省の先行研究計画庁による資金提供を受けた研究か
ら発展したものである。長年の間、インターネットは大
学と国立研究所の研究者によって、情報を共有するため
に用いられてきた。インターネットの存在がより多くの
人々に知られるようになるにつれ、学術/研究界の外の
多くのユーザ(例えば、大企業の従業員)が、電子メー
ルを運ぶためにインターネットを使い始めた。
【0005】1989年、ワールドワイドウェブ(「ウ
ェブ」)として知られるワイドエリア情報システムが開
発された。ウェブは、ドキュメントの広大な世界にアク
セスする汎用的な手段を提供することを目的とするワイ
ドエリアハイパーメディア情報取得システムである。ユ
ーザはソフトウェア(ブラウザと呼ばれる)を用いてウ
ェブ文書(一般的にはグラフィックの形で表示される)
を取得でき、また簡単なコマンドやポイントアンドクリ
ックといった一般的なツールを用いてウェブを操作でき
る。
【0006】ユーザは技術的な訓練を受けている必要が
なく、またブラウザは使用が快適であるため、ウェブ
は、インターネットを大衆に開放する潜在力を備えてい
るといえる。そのため、多くの通信企業は、人々が自ら
のコンピュータを用いてインターネットにアクセスでき
るようなハードウェアおよびソフトウェア製品を開発し
てきた。
【0007】
【発明が解決しようとする課題】これらの開発により多
くの人々が、インターネットを介して他者と電子的に通
信を行う手段を手に入れている。現在、通信の多くはテ
キスト(例えば、電子メール)とグラフィック(例え
ば、ウェブ文書)を含んでいる。その上、通信の態様は
受動的なものである。すなわち、情報は、それが作成さ
れてから長い時間(例えば、数時間、また数日)が経過
した後に受け手によって読まれたり表示されたりする、
ということがあり得る。
【0008】人間は他の人々と相互に作用し合うことを
楽しむものであるということが知られている。また、声
や、声に伴った表情による表現が強力なコミュニケーシ
ョンの道具であることも知られている。従って声や声に
伴った表情による表現のインタラクティブな通信を行う
ために、インターネットを用いることが望ましい。現
在、この態様の通信を効率的に実現する製品は存在しな
い。
【0009】
【課題を解決するための手段】この発明は、遠隔地にい
る複数の参加者間における、音声およびその関連情報の
通信のためのインタラクティブなネットワークシステム
に用いることができる。各参加者は、ネットワークに接
続するためマルチメディアコンピュータを用いる。
【0010】マルチメディアコンピュータには、マイク
ロフォン、1個以上のラウドスピーカ、表示装置および
ネットワークアクセス装置(モデム等)が含まれる。音
声によるインタラクティブな会話が行われる間は、コン
ピュータ内で音声処理ソフトウェアが実行される。参加
者はマイクロフォンに向かって話すことができる。
【0011】ソフトウェアは音声および付随するデータ
をコード化し、ネットワークアクセス装置を用いてデー
タをスピーチサーバに送る。スピーチサーバは、遠隔地
にいる1名又はそれ以上の参加者からの音声データを集
積し、結合された音声データを指定の場所に送る。マル
チメディアパーソナルコンピュータのソフトウェアは、
サーバから受け取ったデータをデコードし、ラウドスピ
ーカを介して音声を再生させることができる。
【0012】多くのモデムの通信レート(ビット毎秒)
は低いので、音声と、それに付随するデータをモデムで
取り扱えるよう、これらを圧縮することが重要である。
この発明にかかる圧縮方法は、音声の特徴を考慮に入
れ、モデムの通信レート内で音声を通信できるようにし
ているものである。
【0013】この圧縮方法のひとつの観点は、エコー経
路の音響的な特徴を得てエコーを消去する新規な方法に
ある。このシステムでは、沈黙を検出することもでき
る。沈黙の間は、音声情報を送信する必要がない。従っ
て、沈黙を正確に検出できれば、圧縮率を向上させるこ
とができる。この方法は残留エコーのエネルギーの判別
と、そのエネルギーによる沈黙の有無の判別を含むもの
である。
【0014】エコーのエネルギーはユーザサイトにおけ
る音響的特徴である。この発明ではまた、ユーザサイト
における音響的な特徴を測定、校正する新規な方法を含
む。
【0015】この発明はまた、線形予測コーディングパ
ラメータ、マルチパルス励起パラメータ、パルス位置コ
ーディング、パルス振幅コーディングのそれぞれをベク
トル量子化ないしスカラ量子化したものの組み合わせ
を、個々にあるいは組み合わせて用いることにより音声
データを圧縮する新規な方法を用いる。さらに、これら
の方法により圧縮された音声データを復元して、元の音
声を取得することができる。
【0016】またこの発明は、唇に同期する新規で且つ
計算上効率的な方法を含む。人間の唇の位置は、フォル
マント周波数として知られる短時間の音声スペクトルの
うちの周波数の低い方から2個のピーク、および音声信
号の短期間のエネルギーにより、かなりの程度決定でき
ることが明らかとなっている。さらに、唇の位置に関す
る変数の間には強い相関関係がある。この発明は、これ
らの関係を利用して、唇の位置を非常に少ないビット数
にコード化する。これらのビットは、(サーバを介し)
目的サイトに送られる。目的サイトのコンピュータは、
表示装置上に、唇が適切な位置にあるようにして顔を描
画することができる。
【0017】
【発明の実施の形態】この発明は、新規な音声会議シス
テムと、これに付随する方法とより構成される。以下の
記述は、当業者ならばこの発明を作成して使用すること
が可能なようになされている。具体的な応用についての
記述は単に例として挙げられているものである。好適実
施の形態に対する種々の変更が考えられることは当業者
には明らかであり、ここに定義されている一般的な原理
は、この発明の範囲から逸脱することなく、他の実施の
形態や応用に対して適用できる。従って、この発明は明
示された実施の形態に限定されるものではなく、ここに
開示された原理と特徴に整合する最も広い範囲に一致す
るものである。
【0018】図1は、この発明の実施の形態にかかる多
点間音声会議システム100を示す図である。多点間音
声会議システム100は、ユーザステーション104〜
106等の複数のユーザステーションと、スピーチサー
バ110とより構成される。ユーザステーション104
〜106とスピーチサーバ110は、インターネット1
12等のデータネットワークに接続される。
【0019】ユーザステーションの構成は互いに同じも
のである。従って、このステーションの1個(例とし
て、ユーザステーション104)のみを詳細に記す。ユ
ーザステーション104は、デスクトップコンピュータ
114と、表示装置116と、マイクロフォン118
と、2個のラウドスピーカ119および120と、モデ
ム122とより構成される。
【0020】デスクトップコンピュータ114は、モデ
ム122を用いてインターネット112への接続を行う
ソフトウェア(図示せず)を含む。ユーザステーション
104にいる者は、マイクロフォン118に向かって話
すことができる。
【0021】その後この音声は、デスクトップコンピュ
ータ114で実行される、この発明にかかるソフトウェ
ア126によって処理される。処理された音声は、イン
ターネット112を介し、サーバ110に送られる。
【0022】ソフトウェア126はまた、サーバ110
から受け取った音声情報を処理して、その出力をラウド
スピーカ119および120に送ることができる。この
発明の実施の形態において、この2個のラウドスピーカ
はステレオ効果を生成している。ステレオ効果が不要の
場合は、1個ラウドスピーカを用いることが望ましい。
【0023】この実施の形態では、すべての音声はユー
ザステーションによりスピーチサーバ110に送られ、
スピーチサーバ110はこの音声を目的サイトに発す
る。音声に加え、唇に同期した情報も送られ、ユーザス
テーションに(再びサーバ110を経由して)受信され
る。
【0024】この発明のひとつの観点は、音声および唇
に同期した信号の送信に要する帯域を削減する方法であ
る。多点間音声会議システム100の性能に影響を及ぼ
す重要な要素の一つは、ユーザステーションとサーバの
間のデータ送信の速度である。
【0025】現在、ダイヤルアップ回線におけるモデム
の送信速度は30キロビット毎秒(kbps)である。
ISDN(統合サービスデジタルネットワーク)回線で
あっても、128kbps程度である。一方、圧縮され
ていない音声の送信では、音声のみであっても現在の電
話回線によりサポートされ得る帯域より高い帯域を要す
る。その他の情報(制御データおよび唇に同期した情
報)も必要なときは、必要な帯域はさらにより高くな
る。従って、送信に要する帯域を削減する必要がある。
【0026】ソフトウェア126は、エンコーダとデコ
ーダを備える。図2は本発明にかかるエンコーダ200
のブロック図である。本明細書では、エンコーダ200
の種々のブロックについて述べる。
【0027】エンコーダ200は、1サンプル16ビッ
ト、8kHzでデジタル化された音声入力を受け付け
る。デジタル化された音声のDC成分はDC除去ブロッ
ク204で除去される。
【0028】エンコーダ200はまた、サイレンスディ
テクタ206を備える。ある期間の沈黙が検出される
と、音声情報を送信する必要がなくなる。
【0029】エンコーダ200は、大きなダイナミック
レンジを持つ音声がシステムによって適切に処理される
ようにするための自動ゲイン制御手段210を備える。
【0030】エンコーダ200は、音声の特徴を変化さ
せることを可能にするボイスモーファ214を備える。
【0031】音声データはその後、線形予測コーディン
グ(LPC)解析ブロック222へ入力され、複数のL
PCパラメータが生成される。
【0032】このパラメータは2段からなるベクトル量
子化ブロック(ベクトル量子化器)224を通る。その
出力はスカラ量子化ブロック(スカラ量子化器)226
および唇情報抽出器(唇瞬時位置抽出器)250へ入力
される。
【0033】スカラ量子化ブロック226の出力は、マ
ルチパルス励起パラメータゼネレータ(マルチパルスパ
ラメータ推計)228、ロボット音声/囁き音声励起ゼ
ネレータ230、ビットストリームエンコーダ232へ
入力される。ビットストリームエンコーダ232には、
ロボット音声/囁き音声励起ゼネレータ230の出力も
入力される。マルチパルス励起パラメータゼネレータ2
28の出力は、パルス位置コーダ236とパルス振幅コ
ーダ238に入力される。パルス位置コーダ236とパ
ルス振幅コーダ238の出力は、ビットストリームコー
ダ232に送られる。
【0034】唇情報抽出器250の出力は、唇フィルタ
252に送られ、唇フィルタ252の出力は、唇情報コ
ーダ256につながっている。唇情報コーダ256の出
力は、ビットストリームエンコーダ232に送られる。
【0035】以下さらに詳細を述べるように、音声入力
(1サンプル16ビット、8kHzでデジタル化)は、
ビットストリームエンコーダ232の出力が約1280
0ビット毎秒となるように圧縮することができる。この
データストリームは、インターネットを介してスピーチ
サーバ110に送られる。
【0036】図3は、スピーチサーバ110から受信さ
れたビットストリームをデコードできるデコーダ300
のブロック図である。
【0037】デコーダ300は、スピーチサーバ110
によって送られた情報を復元できるビットストリームデ
コーダ304を備える。
【0038】この情報は、唇情報デコーダ306に送ら
れ、唇情報デコーダ306は、唇のグラフィックを生成
する唇同期プログラムのための唇位置情報を生成する。
【0039】またビットストリームデコーダ304の出
力は、LPCパラメータデコーダ308、パルス振幅デ
コーダ310、パルス位置デコーダ312、囁き音声/
ロボット音声励起デコーダ314にも送られる。これら
のデコーダの出力は、デジタル音声信号を生成するLP
C合成器320に送られる。
【0040】デジタル音声信号はアダプティブポストフ
ィルタ322に送られ、アダプティブポストフィルタ3
22はまたLPCパラメータデコーダ308からの情報
も受け付ける。
【0041】アダプティブポストフィルタ322の出力
は、エコーフィルタ(距離及びエコーフィルタ)32
4、次いで帯域フィルタ326へ送られる。その出力は
復元済みのステレオ音声となり、ラウドスピーカ119
および120により音響に変換される。
【0042】図4は、本発明における参加者のサイト3
50の略図である。参加者352はマイクロフォン35
4に向かって話し、マイクロフォン354は音声信号を
電気信号に変換する。
【0043】典型的には、このサイトにはバックグラウ
ンドノイズ(例えば、ラジオからの)が含まれる。この
電気信号は、マルチメディアパーソナルコンピュータ3
60で、アダプティブエコーキャンセラ362からの信
号と結合される。その出力は、エコーがほぼ消去された
ものとなる。
【0044】この信号は、アダプティブサイレンスディ
テクタおよびソフトウェア自動ゲイン制御(AGC)モ
ジュール364に送られる。このモジュールの出力は、
唇同期および音声コーダデコーダ(および音声変形器)
366に送られる。
【0045】コーダデコーダ366は音声を変形させる
(例えば、ボイスモーフィング)能力を備える。コーダ
デコーダ366は、音声データを圧縮、コード化し、双
方向通信リンク368を介してデータをスピーチサーバ
110に送る。
【0046】コーダデコーダ366はまた、スピーチサ
ーバ110から受信した音声データをデコードないし復
元するソフトウェアを備える。デコードないし復元の
後、データはウェーブミキサ370に送られる。ウェー
ブミキサ370はまた、環境音ゼネレータ372からの
データも受け付ける。
【0047】ウェーブミキサ370で生成された信号
は、アダプティブエコーキャンセラ362と、ラウドス
ピーカ376、377に送られる。
【0048】(ユーザステーションの音響的特徴の決
定)ユーザステーション104のデスクトップコンピュ
ータ114がオン状態のときは、ユーザステーション1
04の音響的特徴が決定されている必要がある。この決
定には、ユーザステーション104のバルク遅延と音響
の伝達関数が関係する。
【0049】図5は、ユーザステーション104の音響
的特徴を測定する能力を有する装置構成のブロック図で
ある。図1と図5において、同じ構成要素には同じ参照
番号を付してある。この装置構成は、オーディオ送信ブ
ロック130と、オーディオ受信ブロック140とより
構成される。
【0050】オーディオ送信ブロック130は、印加さ
れたアナログ電気信号の大きさに応答してオーディオ信
号を生成するラウドスピーカ119を含む。
【0051】このアナログ信号は、バッファ134の内
容に従っている。バッファ134のビットは、あらかじ
め定まったレートでデジタル−アナログ変換器(図示せ
ず)にシフトされる。このように、ラウドスピーカ11
9によって生成されたオーディオ信号は、バッファ13
4のビットにより決定される。
【0052】オーディオ送信ブロック130はまた信号
生成ブロック132を含み、これにより生成されたビッ
トはバッファ134にストアされ、ラウドスピーカ11
9から、振幅と時間との間に特定の関係があるオーディ
オ信号を発生させる。
【0053】オーディオ受信ブロック140は、ラウド
スピーカ119によって生成されたオーディオ信号を受
信するマイクロフォン118を含む。
【0054】受信されたオーディオ信号は、アナログ−
デジタル変換器(図示せず)によってデジタルに変換さ
れる。このデジタル情報は、あらかじめ定められたレー
トでレコードバッファ142にシフトされる。
【0055】信号解析ブロック144は、レコードバッ
ファ142のデジタル情報を解析し、受信したオーディ
オ信号の振幅と時間との関係を生成する。
【0056】本発明のひとつの観点は、ユーザステーシ
ョン104の音響的特徴を簡単に決定する方法にある。
この方法は、以下の段階よりなる。 (1)バッファ134とレコードバッファ142の間
の、ラウドスピーカ119を通したバルク遅延を測定す
る (2)ラウドスピーカ119とマイクロフォン118の
間の伝達関数を測定する (3)バッファ134とレコードバッファ142の間
の、ラウドスピーカ120を通したバルク遅延を測定す
る (4)ラウドスピーカ120とマイクロフォン118の
間の伝達関数を測定する
【0057】仮想的世界でのセッション中、ユーザステ
ーション104の音響的特徴は経時変化しうる。従って
音響システムは、あらかじめ定められた時間毎に「再ト
レーニング」される必要がある。本発明の一つの観点
は、構成要素を変化させずに音響システムを再トレーニ
ングする方法にある。
【0058】(バルク遅延の測定)バルク遅延の測定に
は、(i)信号生成ブロック132による囀り音の生
成、(ii)この囀り音に対応するビットのバッファ1
34への充填、(iii)ラウドスピーカ119による
囀り音の音響信号の送信、が含まれる。
【0059】マイクロフォン118により受信された信
号は、信号解析ブロック144によって解析される。
【0060】囀り音は、数2で定義される。(以下、
「*」は乗算を表す演算子である。)
【数2】 ここでNは囀り音の長さであり、nが前記範囲の外の値
のとき、c(n)は零である。
【0061】マイクロフォンにより受信された信号は、
整合したフィルタにより処理される。このフィルタは、
デジタル有限インパルス応答(FIR)フィルタで、イ
ンパルス応答は、数3で表される。
【数3】 (ただし、Nは前記囀り音の長さであり、nが前記範囲
の外の値のときh(n)は零である。)
【0062】整合フィルタの出力は、数4で表される。
【数4】 ここで、k(n)はレコードバッファ142に記録され
た信号である。
【0063】整合フィルタの出力が最大の振幅になる時
点をTとすると、そのチャンネルのバルク遅延は(T−
N)と推計される。本例では、Nを512としている。
バルク遅延は、1000〜3000サンプルと予想され
る。同様の方法により、ラウドスピーカ120とマイク
ロフォン118の組のバルク遅延の値も得られる。
【0064】(伝達関数の測定)伝達関数の測定には、
信号生成ブロック132による白色雑音の生成と、これ
に対応する音響のラウドスピーカ119による送信が含
まれる。その後、マイクロフォン118により受信され
た信号と送信された白色雑音を使って、エコーの経路
(ラウドスピーカ119からマイクロフォン118ま
で)のインパルス応答を以下のようにして決定する。
【0065】白色雑音の連続をx(n)(ただし、n=
0,1,・・・,(L−1))、マイクロフォンにより
受信された信号をy(n)、エコーの経路のインパルス
応答をh(n)(ただし、n=0,1,・・・,(M−
1))、該経路のバルク遅延をBとすると、数5の関係
が成り立つ。
【数5】 ここでwnはシステムのバックグラウンドノイズであ
る。良好なエコー消去を得るには、M=380で十分で
ある。
【0066】最小二乗法を用いると、該経路のインパル
ス応答は、数6の行列方程式を解くことにより推計され
る。
【数6】RxxH = Rxy ここで、Rxxは、白色雑音の(M行M列の)自己相関行
列、Rxyは(M行1列の)相互相関ベクトル、H=[h
(0)h(1)...h(M−1)]Tはエコーフィル
タのインパルス応答ベクトルである。
【0067】Rxxは、数7のように計算される。
【数7】 xyは、数8のように計算される。
【数8】
【0068】同様の計算により、ラウドスピーカ120
とマイクロフォン118の組のエコーの経路の特性も得
られる。エコーの経路のフィルタ特性を正確に推定する
ためには、L=10*Mであることが望ましい。
【0069】(クイックトレーニング)クイックトレー
ニングは、エコー消去が十分な効率で行われていないと
ユーザが感じたとき、または、システムが同様のことを
検知したときに行われる。クイックトレーニングは、ユ
ーザステーション104のバルク遅延とエコーチャンネ
ルゲインのいずれか又は両方を調整するため、スピーカ
の音量を連続的に変えることにより行われる。クイック
トレーニングでは、フルトレーニングが必要な場合その
旨を検知することもできる。
【0070】クイックトレーニングは、(i)ラウドス
ピーカ119からの、数9で表される音響信号の送信、
(ii)該音響信号y(n)のマイクロフォン118に
よる受信、を含む。
【数9】n=0,1,...,(M−1)のとき x
(n)=G*h(M−1−n) その他のとき x(n)=0 Gの値は、数10の通りとする。
【数10】 記号Tは、信号(すなわちy(n))が極大となる時点
を示す。
【0071】まず始めに、フルトレーニングが必要か否
かを判別する。エコーの経路の特性が以前の計算結果か
ら大きく離れていない場合、受信した信号(すなわちy
(n))の、ピーク付近(すなわちn=Tである辺り)
における波形は、数11を用いて得られるエコーの経路
の自己相関関数の波形と同じになる。
【数11】
【0072】従って、数12があるしきい値より大きい
場合、エコーの経路のインパルス応答が大きく変化して
いてフルトレーニングが必要であると判別される。
【数12】 gの値は、数13の方程式を解くことにより得られる。
【数13】
【0073】フルトレーニングが必要でない場合、バル
ク遅延の値とエコーフィルタのゲインの値は、数14の
通り、新しい値に更新される。
【数14】バルク遅延 (T−M) エコ−フィルタのゲイン hnew(n)=g*h(n)
(0≦n<(M−1))
【0074】再トレーニングに使われる信号は、フルト
レーニングの際に使われる信号より短く、弱い。従っ
て、一般的にクイックトレーニングはユーザステーショ
ン104にいる人に感知されることがない。クイックト
レーニングは両方のエコーの経路について行われる。
【0075】(アダプティブエコー消去)左のスピーカ
からマイクロフォンへのエコー経路のインパルス応答を
l(n)(ただし、0≦n<M)、右のスピーカから
マイクロフォンへのエコーの経路のインパルス応答をh
r(n)(ただし、0≦n<M)とする。また、それぞ
れのバルク遅延をBlおよびBrとする。このとき、左お
よび右のスピーカに供給される音声サンプルをそれぞれ
l(n)およびxr(n)とすると、エコー消去は、マ
イクロフォンにより記録された信号y(n)から、数1
5の値を差し引くことにより行われる。
【数15】 この計算は、直接行うこともできるし、また高速フーリ
エ変換を用いて行ってもよい。
【0076】(アダプティブサイレンスディテクショ
ン)変換装置(スピーカおよびマイクロフォン)には非
直線性があるため、完全なエコー消去を得ることは不可
能である。話し手が話していないとき、この残留エコー
は、聞き取る者には感じられる。従って、送話する側の
発話がないときのエコーを消去するために沈黙の検知が
行われ、沈黙している期間(すなわち、話し手が話して
いない時)音声パケットが送信されないようにする。
【0077】この期間音声情報を送信しないことによ
り、システムが必要とする帯域はされに削減される。追
加された帯域は、他の情報(グラフィック、制御情報)
を送信するために使うことができる。
【0078】一般的な環境では、測定不能なオーディオ
信号と沈黙とは同一のものではない。これは、常にバッ
クグラウンドノイズがあり、(時として)残留エコーが
あるからである。従って、一般的にマイクロフォン11
8は、音声がない場合であっても幾分かのオーディオ信
号を受信する。
【0079】マイクロフォン118へのオーディオ入力
は、数16により与えられる。
【数16】An=Sn+En+Bn ここでAnはマイクロフォン118により受信された音
の振幅、Snは音声の寄与分、Enは残留エコーの寄与
分、Bnはバックグラウンドノイズの寄与分である。
【0080】本発明では、人の発話には沈黙の期間が含
まれるという事実を利用している。この沈黙の期間にお
けるオーディオ信号は、バックグラウンドノイズとエコ
ーに相当するものである。
【0081】本発明の一つの実施の形態では、マイクロ
フォン118は短期間の信号エネルギー(20ミリ秒の
信号のブロックを用いて20ミリ秒ごとに計算される)
を、1秒間に渡りモニタする。そして最も低いエネルギ
ーを持つセグメントが、沈黙の期間にある(すなわち、
n=En=0である)ものと推定される。
【0082】一定の時間間隔において予想されるエコー
のエネルギーは、先に計算されたエコー信号を用いて容
易に計算される。一定の期間の残留エコーエネルギー
は、予想されるエコーのエネルギーの0.1倍と推定さ
れる。このときは、エコーキャンセルは控えめにみて1
0dBであるということになる。
【0083】Sn,En,Bnは互いに独立に生成される
ので、信号Anのエネルギーはこの3個の要素の信号の
エネルギーの和に等しいと推定し得る。言い換えれば、
音声のエネルギーをES、記録された音声のエネルギー
をEA、残留エコーのエネルギーをEE、バックグラウン
ドノイズのエネルギーをEBとしたとき、数17の関係
が成り立つ。
【数17】ES=EA−EE−EB
【0084】1個のセグメントに記録されたデータは、
Sがあるしきい値を下回るとき、沈黙であると分類さ
れる。そうでない場合、記録された音声は圧縮され、圧
縮された情報はサーバに送信される。
【0085】(ソフトウェア自動ゲイン制御手段)PC
のマイクロフォンは、話し手の口とマイクロフォンの距
離に非常に敏感である。自動ゲイン制御(AGC)モジ
ュールは、この敏感さを軽減するために使われる。
【0086】多くのマルチメディアPCは、ハードウェ
アによりこの問題を解決している。ハードウェアAGC
はデータに非直線性をもたらし、この非直線性はエコー
とその消去の挙動に影響を及ぼすので、ソフトウェアA
GCの必要性が出てくる。
【0087】ソフトウェアAGCは、以下のように導入
されている。 1.初期状態では、currentGain = 1.0 2.60ミリ秒に1回、数18の関係を用いて実効値を
計算する。
【数18】 ここで、xnはエコーのない(すなわちエコーが消去さ
れた)、沈黙でない入力音声データである。 3.目標となるAGCゲインtargetGainを、数19の関
係を用いて計算する。
【数19】 4.n=0に値をセットした後、数20、数21および
数22を順次各N回実行する。
【数20】
【数21】
【数22】
【0088】(ボイスブリッジングアプリケーションの
ための効率的な音声コーディング手順) 多点間音声会議(すなわち、ボイスブリッジング)シス
テムでは、各参加者は各自のマルチメディアコンピュー
タやワークステーションに接続されたマイクロフォンに
向かって話す。モデムによってサーバに効率的にデータ
転送を行うことを可能とするため、コンピュータはデー
タ圧縮を行う。
【0089】サーバは、各参加者から音声パケットを収
集する。サーバは、参加者の位置と顔の方向についての
既知の情報を用いて、どの話し手の声(最大2人)が聞
き手に聞こえるようにするかを決定する。
【0090】そのようにする場合、サーバは2人の話し
手からのビットストリームを1個のビットストリームに
結合し、該1個のビットストリームをモデムで送信し得
るようにできなければならない。クライアント側のマル
チメディアシステムは、2名の参加者の声を合成し、こ
れらを結合して、スピーカを通し環境音とともに再生さ
れる混合信号を生成するため、このビットストリームを
用いる。
【0091】本例における音声コーディングの独自の特
徴は、デュアルレートコーダとして動作するよう設計さ
れているという点にある。音声コーダ出力の最も重要な
パラメータは6400ビット毎秒でコード化される。合
成された音声の品質を向上させるため、付加的情報を用
いる場合があるが、これはさらに6400ビット毎秒加
えてコード化される。
【0092】この方法では、コーダは、12800ビッ
ト毎秒で動作する高品質の音声圧縮システム、または6
400ビットで動作する通信品質の音声圧縮システムと
して機能し得る。
【0093】2人の話し手の声のデータを送信する必要
がある場合、サーバは各人の声に6400ビット毎秒
(すなわち、半分のレート)を割り当てる。しかし、ク
ライアントに対し1人の声のみを送信すればよい場合、
1人の声のデータに全帯域が割り当てられ、従ってより
品質の高い音声合成が可能となる。
【0094】12800ビット毎秒のビットストリーム
が得られ、容易にその半分のレートのビットストリーム
(すなわち、6400ビット毎秒のビットストリーム)
に転換できるというこの能力は、クライアントからサー
バに向けて、音声データと共に制御情報やグラフィック
情報をより多く送信する必要がある場合にも容易に利用
できる。
【0095】このアルゴリズムは、クライアントに送り
得る任意の数の声のストリームのうちサーバがどれを実
際に選択するかについて、クライアントがこれを決定す
ることを可能にする。クライアントは各話し手の位置を
知っているので、クライアントは、話し手と聞き手の距
離の他、そのシンボルの外見の向く方向、「音の経路」
の上にある障害物を考慮に入れた上で選択でき、さらに
異なった音声伝搬の媒体(水中、風の強い丘陵)さえも
考慮に入れることができる。
【0096】優先順位決定処理は常に再評価され、この
再評価が十分速い場合、サーバとクライアントの間に
は、実在する以上に多くのストリームが共存している状
態が等価的に実現されているものとみることができる。
【0097】このアルゴリズムは、各クライアントが互
いに独立してこのような決定をすることを可能としてい
るので、各クライアントは、個々が有する機器上の、ま
た帯域上の制限を考慮に入れた上で、ユーザに対し最高
の内容のオーディオを提供することができる。
【0098】(LPC解析)本例で導入されている音声
圧縮システムは、マルチパルス励起信号を用いた音声の
線形予測コーディング(LPC)の原理に基づいてお
り、これは、B. S. Atal J. R. Remde "A new model fo
r LPC excitation for producing natural sounding sp
eech at low bit-rates" Proc. Int. Conf. On Acousti
cs Speech andSignal Processing, Paris, France, 198
2, pp.614-617 に示されている。
【0099】音声信号Snは、数23のように、不均等
な間隔を持つ異なった振幅のパルスの列により励起され
た、経時的に変化する無限インパルス応答デジタルフィ
ルタの出力、というモデルで示される。
【数23】 ここで、ak(ただし、0<k≦M)はM次のLPCフ
ィルタ係数である。典型的には、フィルタの次数は10
程度である。pnはマルチパルスの列を表し、wnはラン
ダム雑音の列を表す。
【0100】S. Shankar Narayan and J. P. Burg, "Sp
ectral Estimation of quasi-periodic data", IEEE Tr
ansactions on Acoustics Speech and Signal Processi
ng,march 1990, pp. 512-518. -554-II-557 に示されて
いるように、経時変化するフィルタ係数は、LPC解析
を用いて得られる。
【0101】LPC解析に先立って、P(z)=(1−
0.875z-1)の特性を持つ1次フィルタを用いて音
声データにプリエンファシスが加えられる。
【0102】係数の推計は、5ミリ秒ごとに行われる。
しかし、音声のコード化という目的では4個おきのパラ
メータの組だけが用いられる。さらに高いレートでの計
算は、後述するように唇に同期したパラメータの推計の
目的で行われる。
【0103】典型的には、マルチパルス励起関数として
10〜32個のパルスが用いられる。合成された音声の
品質は、用いられたパルスの数に依存する(多い程良く
なる)。しかし、データが圧縮される量もまた、励起関
数を表すために用いられたパルスの数に依存する(少な
いほど良くなる)。
【0104】モデムを介してこの情報を送信するため
に、2段からなるベクトル量子化器と、それに続いてい
て38ビットのLPCフィルタ表現を生成するスカラ量
子化器により、LPCパラメータが量子化される。この
手順を以下述べる。
【0105】(ベクトルおよびスカラ量子化) 1.LPCフィルタ係数を、J. Markel and A. Gray, L
inear Prediction ofSpeech, Springer-Verlag, 1976
に示されている手法で反射係数に変換する。反射係数
は、LPCフィルタ係数の別の表現である。一方のパラ
メータの組から他方への変換は無損失であり、また逆変
換が可能である。LPCフィルタ係数の計算値に対応す
るM個の反射係数をki(ただし、0<i≦M)とす
る。
【0106】2.最初の4個の反射係数を、J.Markel a
nd A.Gray,Linear Prediction of Speech,Springer-Ver
lag,1976 に示されている手法でログエリア関数(la
r)に変換する。ln[.]を自然対数として、数24
の関係を用いる。
【数24】
【0107】3.10個のパラメータlar1,・・
・,lar4,k5,・・・,k10を、64−コードブッ
クベクトル量子化器を用いて量子化する。コードブック
の生成およびベクトル量子化器への導入の手順は、Y.Li
nde,A.Buzo and R.M.Gray,"AnAlgorithm for Vector Qu
antizer Design",IEEE Trans.On Communications,Jan19
80,pp.84-95 および R.M.Gray,"Vector Quantization,"
IEEE ASSP Magazine,April 1984,pp.4-29 に示されて
いる。ベクトル量子化器は、数25のXベクトルを受け
付け、64個のコードの候補が入ったコードブックを検
索して、出力の数列として実効値が最も入力ベクトルに
適合するものを探し出し、6ビットからなるコードワー
ドのインデックスi1optを出力する。
【数25】 デコーダは自らが持つコードブックから対応するコード
を検索し、与えられた入力ベクトルを6ビットに近似し
たものとして、数26に示す数列qX1を得ることがで
きる。
【数26】
【0108】4.差分ベクトルdX1=X−qX1を生成
し、64−コードブックベクトル量子化器で再度量子化
し、コードワードのインデックスi2optおよび数27
に示す数列qX2を得る。
【数27】
【0109】5.次に差分ベクトルdX2=dX1−qX
2を生成する。ここで、このベクトルの各要素を個々に
量子化する(すなわち、スカラ量子化器を用いる)。各
要素を量子化するビット数は、[4,3,3,3,3,
2,2,2,2,2]である。この26ビットの情報、
および2個の6ビットVQコードi1optとi2optが共
になってLPCフィルタの38ビット表現が生成され、
この情報は、情報パケットの一部をなし、コード化音声
情報として送信される。ベクトルdX2の量子化された
各値を数28に示す値qX3とすると、デコードされた
ベクトルXの値は数29の通りとなる。
【数28】
【数29】X=qX1+qX2
【0110】6.このXベクトルに対し必要な変換(す
なわち、ログエリアから反射係数への変換、および反射
係数からLPCフィルタ係数への変換)を行うことによ
り量子化されたLPCフィルタ係数が得られる。結果と
して得られるフィルタ係数を、ak(0<k≦M)で示
す。
【0111】(マルチパルス励起パラメータの生成)合
成のアプローチによる分析を用い、マルチパルス励起パ
ラメータ(すなわちパルスの位置および振幅)を以下の
ようにして得ることができる。Snは20ミリ秒のフレ
ーム中の音声データを表し、an(0<n≦M)はこの
音声のフレームについて得られたLPCフィルタ係数と
する。
【0112】残留信号rnは、数30の関係により計算
される。
【数30】
【0113】知覚的重み付けフィルタのインパルス応答
は、数31〜数33の関係により計算される。
【数31】
【数32】
【数33】 ここでλ=0.85であり、またLは40としている。
【0114】次に数34に示す数列および数35〜数3
7に示す数列の2個の数列が生成される。
【数34】
【数35】
【数36】
【数37】 言い換えれば、数列pnは数列hnについてそれ自身との
畳み込みによって得られ、数列qnは、残留信号の数列
nとpnとの畳み込みによって得られる。
【0115】励起パルスの位置は、q'n=qnとして、
q'nが極大となるようなnの位置に選ぶ。この位置をl
iとすると、パルスの高さhiは、数38の関係から得ら
れる。
【数38】
【0116】各パルスの情報(すなわち位置と高さ)が
得られた後、数列q'nは、数39の関係を用いて変更さ
れる。
【数39】
【0117】この手順は、必要な数の励起パルスが決定
されるまで順次続けられる。このようにして得られたパ
ルス位置の情報を用いて、数40に示す行列方程式を解
くことにより、最適な高さの情報が得られる。
【数40】Sxxh=Sxy ここでSxxは、その(i,j)番目の要素がL−1+|
i−lj|に等しい(M行M列の)行列であり、S
xyは、そのi番目の要素がqliに等しい(M行1列の)
ベクトルであり、またhは励起パルスの高さを表す(M
行1列の)ベクトルである。
【0118】本システムの実施の形態では、20ミリ秒
ごとの音声データにつきまず12個の励起パルスが順次
決定され、次いでパルスの高さが最適化される。
【0119】ビットレートが6400ビット毎秒の音声
コード化システムの送信パラメータとしては、38ビッ
トのLPC係数の情報と12個の励起パルスに関する情
報(すなわち高さと振幅)を用いることができる。数列
nからはこれら12個のパルスの寄与分が差し引か
れ、同様の手法で追加の14個の励起パルスが得られ
る。結局、26個のマルチパルス励起パルスが2段階に
決定される。
【0120】ビットレートが11600ビット毎秒の音
声コード化システムの送信パラメータとしては、38ビ
ットのLPC係数情報と26個の励起パルスに関する情
報(すなわち高さと振幅)を用いることができる。
【0121】ボイスブリッジングアプリケーションで
は、サーバが6400ビット毎秒のビットストリームデ
ータを生成したいとき、クライアントシステム(すなわ
ちマルチメディアコンピュータステーション)がこの1
1600ビット毎秒のストリームを送るのに加えて、2
6個のパルスのうちどの12個が選択されるべきかにつ
いての付加的な情報(1200ビット毎秒のストリーム
である)も送られる。
【0122】従って、音声情報をサーバに送るために要
する帯域は12800ビット毎秒であり、一方サーバは
クライアントに対し、11600ビット毎秒(話し手1
人の場合)または12800(2x6400)ビット毎
秒(話し手2人の場合)で、圧縮された音声データを送
る。以下からは、励起パルスの情報のコード化を説明す
る。
【0123】(パルス位置コーダ)低いビットレートで
の音声のコード化を実現するためには、20ミリ秒の音
声の各セグメントについて計算された26個の励起パル
スの位置は、効率的にコード化される必要がある。20
ミリ秒の音声は160サンプルの音声に相当する。各パ
ルスは160箇所のいずれかに位置し得るが、どの2個
のパルスも同一の位置にいることはできない。
【0124】102ビットを用いてこの情報をコード化
するために、 M. Berouti, et. al."Efficient Computa
tional and Encoding of the multi-pulse excitation
forLPC," proc. Int. Conf. On Acoustics Speech and
Signal Processing, San Diego, CA, 1984, pp. 10.1.1
-10.1.4. に示されている組み合わせコーディング手順
が用いられている。エンコーダは、サーバがハーフレー
トのビットストリームを生成するため26個のパルスか
ら12個を選択するのに必要な情報(2612すなわち2
4ビット)をコード化するために、組み合わせコーディ
ング手順を用いている。
【0125】ハーフレートのコーダの場合において12
個のパルスの位置をコード化するときにも、同様の手順
が用いられる。従って、20ミリ秒ごとのパルス位置情
報をコード化するには、全体で114ビットが必要であ
る。
【0126】(パルス振幅コーダ)低いビットレートで
の音声のコード化を実現するためには、20ミリ秒の音
声の各セグメントについて計算された26個の励起パル
スの振幅は、効率的にコード化される必要がある。パル
スの振幅は、これをパルス振幅の実効値(rms)で規
格化することにより効率的にコード化される。
【0127】規格化を行った後、パルス振幅は、T. Ma
x, "Quantizing for minimum distortion, "IRE Trans.
On Information Theory, Vol. 16, 1970, pp. 7-12.
に示されている8段階のガウシアン量子化器で量子化さ
れる。
【0128】量子化雑音を最小化するために最適化され
たパルス振幅実効値は、6ビットの送信パラメータとし
てコード化される。従って、20ミリ秒ごとのパルス振
幅情報をコード化するには、全体で84ビットが必要で
ある。
【0129】(効率的な唇の同期方法)人間の唇の位置
は、フォルマント周波数として知られる、短時間の音声
スペクトルの周波数の低い方から二つのピークと、音声
信号の短期間のエネルギーによりかなりの程度決定でき
る、ということが知られている。
【0130】具体的には、周波数の低い方から2個のフ
ォルマント周波数の間隔は、唇の幅に比例する。下唇の
高さは、周波数が低い方のフォルマント周波数に比例す
る傾向がある。最後に上唇の高さと唇の丸まり現象(す
なわち、唇が閉じた位置から離れる両唇)は、周波数の
低い方から2個のフォルマント周波数の和に反比例す
る。言い換えれば、第1と第2のフォルマント周波数は
共に、唇が丸くなるにつれ低くなっていなければならな
いことになる。
【0131】これらの推計は話し手の実際の唇の位置と
は同じでない場合があるが、顔のアニメーションにこれ
らを用いた場合、極めて真に迫った効果をもたらすと考
えられる。唇の位置を計算する方法は、以下の段階より
構成される。
【0132】(唇の情報の抽出) 1.音声のエンコードの目的で推計されたLPCパラメ
ータ(前述)は、音声データ中の短時間のスペクトル情
報を得るために用いることができる。しかし、LPCフ
ィルタ情報についての既知の情報からフォルマント周波
数を推計する上では、計算上の要求が厳しいものと考え
られる。本発明の実施の形態では、64−コードワード
VQコードブックにある各候補に対応するフォルマント
周波数がリアルタイムでなく前もって計算され、保存さ
れる。そのため、LPCパラメータにつき1段目のベク
トル量子化が行われるとき、フォルマント周波数の推計
も同時に得られる。所与の音声のセグメントの周波数の
低い方から2個のフォルマント周波数として、シンボル
1とf2を用いる。また、そのフレームの信号のエネル
ギーのデシベル値(dB)として、シンボルEを用い
る。2個のフォルマント周波数と信号のエネルギーを既
定とし、唇の幅の中間値を1として、以下の発見法を用
いて唇の位置の予備的な推計を行う。
【0133】2.信号エネルギー情報のフィルタリン
グ: 1フレームの音声について計算された信号エネル
ギーEにはバックグラウンドノイズのエネルギーも含ま
れている。このバックグラウンドノイズのレベルの効果
は、この情報を唇の位置の計算に用いる前に除去される
べきである。計算された信号エネルギーを変更するた
め、以下のアルゴリズムが用いられる。まず、初期状態
で数41のように値がセットされる。
【数41】 5ミリ秒ごとに、数42の関係を用いてこれが更新され
る。
【数42】 信号エネルギーEは、数43のように更新される。
【数43】 0より小さい場合はEの値が0にセットされ、40より
大きい場合は40dBにセットされる。
【0134】3.下唇の高さの計算: f1が範囲内
(300〜800Hz)にある場合、数44の関係を用
いて下唇の高さが計算される。
【数44】 そうでない場合、下唇の高さは、数45の関係を用いて
計算される。
【数45】
【0135】4.唇の幅の計算: 以下の方法では、f
2が1000〜1800Hzの領域にある場合唇の幅を
変えない。f2が700〜1000Hzの範囲にある場
合、数46の関係を用いて唇の幅は減少される。
【数46】 2が1800〜2500Hzの範囲にある場合、数4
7の関係を用いて唇の幅は増加される。
【数47】
【0136】5.唇の丸まり: f1+f2<1600
且つ 250<f1<800 且つ700<f2<250
0のとき、数48の関係が成り立つことが明らかとなっ
ている。
【数48】 また下唇の高さは、数49の関係を用いて変更される。
【数49】 唇の丸まりが生じない場合、上唇の高さは信号エネルギ
ーに緩やかに依存し、その値は、数50の通り計算され
る。
【数50】
【0137】(唇のフィルタリング)本実施の形態で
は、唇位置のスムーシングフィルタを用いている。唇の
瞬時位置は5ミリ秒ごとに(すなわち1秒間に200
回)得られるが、これには雑音が入る傾向がある。その
上、多くのビジュアルディスプレイはずっと低いレート
(典型的には、毎秒6〜30回)でリフレッシュされ
る。
【0138】必要なレートで雑音のないパラメータの推
計値を得るため、唇のパラメータに対し、カットオフ周
波数が6.25Hzの、31点の有限インパルス応答
(FIR)ローパスフィルタが用いられる。ここでの応
用では、スムーシングされた唇のパラメータが、毎秒1
6.67回計算される。
【0139】(唇の情報のエンコード)唇位置の変数は
強い相関を持っている。例えば、口の幅が広がれば、唇
の高さの値は小さくなると考えられる。一方で、口が丸
くなれば、唇の幅は小さくなり、唇の高さの値は大きく
なる。この情報は、唇の位置を非常に少ないビット数に
コード化する際に利用される。本発明では、唇のすべて
の変数をコード化するため、60ミリ秒ごとに8ビット
を用いている。
【0140】下唇の高さの情報は、16段階の量子化器
を用いてコード化され、そのとり得る値は、表1の通り
である。
【表1】
【0141】上唇の高さの情報と唇の幅は強く相関して
いるので、これらは16段階の量子化器を用いて共に量
子化され、そのとり得る値は表2の通りである。
【表2】 このようにして唇の位置は8ビットのみにコード化され
る。
【0142】(ロボット音声/囁き音声励起ゼネレー
タ)前述のように、音声信号は、ランダム雑音の連続ま
たはインパルス列により励起された、経時変化するデジ
タルフィルタ(すなわちLPCフィルタ)の出力にモデ
ル化され得る。
【0143】典型的には、発せられている音が摩擦
音("s","SH","f"のような音)のとき、フィルタ
はランダム雑音により励起される。一方で、母音が発せ
られているとき、フィルタは、周期が話し手のピッチに
対応するような準周期的信号により励起される。
【0144】ボイスモーフィングを実行するためには、
フィルタ励起信号を変更してもよい。本発明におけるモ
ーフィングには、特定の形の音声の歪化ないし変更を行
うための励起関数のパラメータの変更が関わっている。
【0145】囁きの音声は、有声の弦振動がないとき、
LPC合成器の場合でいえば周期的パルス励起に変換さ
れないとき(すなわち、LPCフィルタがランダム雑音
のみにより励起されているとき)、に生成される。囁き
音を生成したいとき、励起信号はランダム雑音に換えら
れる。ランダム雑音のエネルギーは、実際の音声のエネ
ルギーに比例して調整される。
【0146】ロボット音声は、人間である話し手のピッ
チが単調であるとき(すなわち、発話の間ピッチの変化
がほとんどない)ときに生成される。LPC合成の場面
でいえば、周期的パルスによる励起に変換され、その周
期がほとんど変化しないときである。これらのインパル
スのエネルギーは、合成された音声のエネルギーが元の
音声のそれと等しくなるように調整する。ロボット音声
の周期性は、ユーザ毎に特定される。ロボット音声の場
合に合成された音声のバズ音を軽減するには、周期性の
情報に低い周波数のジッタが加えられる。
【0147】(ボイスモーファ)本システムに導入され
ているもう一つの型のボイスモーフィングは、話し手の
ピッチを変更するものである。この方法では、男性の声
をより女性の声のようにすることができ、またその逆も
できる。
【0148】ボイスモーフィングは2段階で行われる。
ピッチ周波数は因数rにより増加されるとして、まず、
そのピッチ変化の因数rにより、音声補間/間引きの技
術を用いて、音声データのサンプリング周波数が減少さ
れる。これにより音声サンプルの長さも変わる(すなわ
ち、因数rにより音声の長さが減少する)。
【0149】ピッチが変わった音声の長さを元の音声の
長さと同じに保つために、Werner Verhelst, and Marc
Roelands, "An overlap-add technique based on wavef
ormsimilarity (WSOLA) for high quality timescale m
odification speech" Proc.Int. Conf. On Acoustics S
peech and Signal Processing, Mineapolis, 1993,pp.
II-554-II-557. により示された技術を用いて、音声の
時間スケールの変更が行なわれる。
【0150】この型のボイスモーフィングは、エンコー
ダでの音声の解析が行われる前の音声データについて行
われる。
【0151】(ビットストリームエンコーダ)ビットス
トリームエンコーダは、解析器で生成された多様なエン
コード情報を入力として受け付け、これらを96バイト
のパケットにパックし、60ミリ秒ごとにサーバに送
る。しかし、音声解析は20ミリ秒ごとに行われる点に
注意すべきである。従って、ビットストリームエンコー
ダは、1個のボイスパケットを作るために3組の解析デ
ータを用いる。
【0152】20ミリ秒ごとに計算されて各ボイスパケ
ットに含まれることになるのは、以下のパラメータの組
である。 1.VQコードワードi1opt(6ビット) 2.VQコードワードi2opt(6ビット) 3.残留lpcフィルタ係数10個(26ビット) 4.rmsパルス振幅コード(6ビット) 5.26個のパルス振幅コード(78ビット) 6.パルス位置コード(114ビット) 7.唇位置情報(60ミリ秒ごとに8ビット) 8.音声タイプコード(囁きか、通常か、ロボットかの
区別)
【0153】(デコーダの動作)ビットストリームデコ
ーダは、サーバからのボイスパケットの組を入力として
受け付けて多様なパラメータにデコードし、パラメータ
は、合成音声を得る目的で、デコーダに用いられたり、
LPC合成機能を動作させたりする。
【0154】合成器は、数51に示す差分関数を用いて
導入される。
【数51】 ここでakはデコードされたM次のLPCフィルタ係
数、Snは合成された音声サンプル、Pnはデコードされ
た励起パルスである。
【0155】(アダプティブポストフィルタ、距離およ
びエコーフィルタ、帯域フィルタ)アダプティブポスト
フィルタリングは、J. H. Chen and A. Gersho, "Real-
Time Vector APC Speech Coding at 4800 bps with ada
ptive post-filtering, "Proc. Int. Conf. On Acousti
cs Speech and Signal Processing, Dallas, 1987, pp.
2185-2188. に示されている。フィルタリングは、合成
された音声に対し、さらに音声の品質を向上させるため
に施される。このシステムは、仮想空間の設定をシミュ
レートするための特殊音声効果を創り出すことができ
る。この目的のため、エコー又は反響のフィルタリング
を施すことができる。
【0156】エコーフィルタは、数52に示すシステム
関数を持つ1次の無限インパルスフィルタである。
【数52】 ここで、Dは、必要な特殊効果を創り出すのに要する反
響による遅延、Gは、必要な特殊効果を創り出すのに要
する反響係数(絶対値は1未満)である。
【0157】帯域フィルタリングはエコーフィルタの出
力に施され、DCおよび低周波オフセット雑音を除去
し、ディエンファシスフィルタリングの効果を及ぼす。
フィルタの伝達関数は、数53の通りである。
【数53】
【0158】話し手と聞き手の仮想の世界での空間的位
置についての既知の情報を用いて、モノラル音声サンプ
ルをステレオ音声サンプルに変換するため、以下のアル
ゴリズムを用いる距離フィルタが導入される。 1.聞き手および話し手の仮想空間での角度をΘlおよ
びΘ とし、両者間の距離をd(メートル)とする。 2.距離ゲインGdは、数54の通り求められる。
【数54】 3.左および右の距離フィルタ係数は、数55〜数58
の通り計算される。
【数55】
【数56】
【数57】
【数58】 4.最後に、左および右のチャンネルの音声サンプル
は、数59および数60に示すフィルタリング操作によ
り計算される。
【数59】
【数60】 ここでxnは音声合成器の出力(モノラル音響)、ln
よびrnは結果として得られる左および右のチャンネル
の音の連続である。
【0159】(環境音生成)仮想の社会生活上の環境で
は、特殊効果を創り出すためバックグラウンド音響が生
成される。例としては、参加者が会議のグループから離
脱/グループに参加するときに、グループの残りの者に
は扉が開く/閉じる音が聞こえる、といったものであ
る。また仮想空間でのバックグラウンドミュージックで
もよい。このような音響はこのモジュールで生成され
る。
【0160】(ウェーブミキサ)スピーカから出力され
る音響は、以下のいずれかである。 1.1人の音声のみ 2.1人の音声とバックグラウンド音(音楽または仮想
空間をシミュレートするための環境音) 3.2人の音声のみ 4.2人の音声とバックグラウンド音(音楽または仮想
空間をシミュレートするための環境音) ウェーブミキサは、異なる音響データストリームを入力
として取り込み、ユーザが指定するゲインにして、これ
らを足し合わせ、最後に音声を高品質なものとするた
め、データに対しソフトクリッピングを行う。
【0161】以上でこの発明をすべて説明したが、これ
に対し、ここに開示された発明の範囲から逸脱すること
なく変化・変更を加えることができることは、当業者に
は明らかである。従って、本発明は専ら付属の請求項の
範囲にのみ限定されるものである。
【0162】
【発明の効果】以上説明したように、この発明は、遠隔
地にいる複数の参加者間における、音声およびその関連
情報の通信のためのインタラクティブなネットワークシ
ステムに用いることができる。
【図面の簡単な説明】
【図1】この発明の実施の形態にかかる多点間音声会議
システムを示す図である。
【図2】この発明の実施の形態にかかる多点間音声会議
システムのエンコーダを示すブロック図である。
【図3】この発明の実施の形態にかかる多点間音声会議
システムのデコーダを示すブロック図である。
【図4】参加者のサイトのブロック図である。
【図5】この発明の実施の形態における音響的特徴測定
の装置構成のブロック図である。
【符号の説明】
100 多点間音声会議システム 104 ユーザステーション 110 スピーチサーバ 112 インターネット 114 デスクトップコンピュータ 116 表示装置 118 マイクロフォン 119、120 ラウドスピーカ 122 モデム 126 ソフトウェア 130 オーディオ送信ブロック 132 信号生成ブロック 134 バッファ 140 オーディオ受信ブロック 142 レコードバッファ 144 信号解析ブロック 200 エンコーダ 204 DC除去ブロック 206 サイレンスディテクタ 210 自動ゲイン制御手段 214 ボイスモーファ 222 LPC解析ブロック 224 ベクトル量子化ブロック(ベクトル量子化器) 226 スカラ量子化ブロック(スカラ量子化器) 228 マルチパルス励起パラメータゼネレータ(マル
チパルスパラメータ推計) 230 ロボット音声/囁き音声励起ゼネレータ 232 ビットストリームエンコーダ 236 パルス位置コーダ 238 パルス振幅コーダ 250 唇情報抽出器(唇瞬時位置抽出器) 252 唇フィルタ 256 唇情報コーダ 300 デコーダ 304 ビットストリームデコーダ 306 唇情報デコーダ 308 LPCパラメータデコーダ 310 パルス振幅デコーダ 312 パルス位置デコーダ 314 囁き音声/ロボット音声励起デコーダ 320 LPC合成器 322 アダプティブポストフィルタ 324 エコーフィルタ(距離およびエコーフィルタ) 326 帯域フィルタ 350 参加者のサイト 354 マイクロフォン 360 マルチメディアパーソナルコンピュータ 362 アダプティブエコーキャンセラ 364 サイレンスディテクタ及びソフトウェア自動ゲ
イン制御モジュール(AGC) 366 唇同期音声コーダデコーダおよび音声変形器 368 双方向通信リンク 370 ウェーブミキサ 372 環境音ゼネレータ 376 左ラウドスピーカ 377 右ラウドスピーカ
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成8年12月26日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 会議システム
【特許請求の範囲】
【数1】 lowerLipHeight = 1.5 - cos(π(f1 - 250) /
500) * (E / 80) により計算され、前記第1のフォルマント周波数が前記
範囲にないときは、数2に示す関係、
【数2】lowerLipHeight = E / 200 により計算される、ことを特徴とする請求項9に記載の
システム。
【数3】lipWidth = 1 - [1 + cos(π * (f2 - 700) /
300)] * E / 133 に従って減少され、前記第2のフォルマント周波数が1
800Hz乃至2500Hzの範囲にある ときは、数4に示す関係、
【数4】lipWidth = 1 + [1 + cos(π * (f2 - 1800)
/ 700)] * E / 200 に従って増加される、 ことを特徴とする請求項9に記載のシステム。
【数5】EA−EE−EB が予め定められた値以下のとき、前記沈黙状態にあるも
のと分類される、 ことを特徴とする請求項1に記載のシステム。
【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ワイドエリアネ
ットワーク通信、特にワイドエリアネットワークを介し
た音声およびその関連情報のインタラクティブな通信に
関する。
【0002】
【従来の技術】この数年の間に、コンピュータ技術はい
くつかの大きな発展を遂げてきた。その第一は、低価格
且つ強力なパーソナルコンピュータの実現である。コス
トの削減により、多くの人々がコンピュータを購入でき
るようになった。そしてその結果として、コンピュータ
の数も急激に増加してきた。これらのコンピュータの処
理速度は、10年前に存在したメインフレームコンピュ
ータの処理速度以上である。その上これらのコンピュー
タは、モデム、サウンドカード、高解像度ビデオボード
等と共に用いられるのが一般的であり、これらにより音
声や画像といったマルチメディア情報の処理が可能とな
っている。
【0003】第二の発展は、インターネットを呼ばれる
ワイドエリアネットワークが一般的となったことであ
る。インターネットは、現存する最大のコンピュータネ
ットワークである。これは、ローエンドのパーソナルコ
ンピュータからハイエンドのメインフレームまで数百万
のコンピュータのワールドワイドな相互接続である。
【0004】インターネットは、1960年代に米国国
防総省の先行研究計画庁による資金提供を受けた研究か
ら発展したものである。長年の間、インターネットは大
学と国立研究所の研究者によって、情報を共有するため
に用いられてきた。インターネットの存在がより多くの
人々に知られるようになるにつれ、学術/研究界の外の
多くのユーザ(例えば、大企業の従業員)が、電子メー
ルを運ぶためにインターネットを使い始めた。
【0005】1989年、ワールドワイドウェブ(「ウ
ェブ」)として知られるワイドエリア情報システムが開
発された。ウェブは、ドキュメントの広大な世界にアク
セスする汎用的な手段を提供することを目的とするワイ
ドエリアハイパーメディア情報取得システムである。ユ
ーザはソフトウェア(ブラウザと呼ばれる)を用いてウ
ェブ文書(一般的にはグラフィックの形で表示される)
を取得でき、また簡単なコマンドやポイントアンドクリ
ックといった一般的なツールを用いてウェブを操作でき
る。
【0006】ユーザは技術的な訓練を受けている必要が
なく、またブラウザは使用が快適であるため、ウェブ
は、インターネットを大衆に開放する潜在力を備えてい
るといえる。そのため、多くの通信企業は、人々が自ら
のコンピュータを用いてインターネットにアクセスでき
るようなハードウェアおよびソフトウェア製品を開発し
てきた。
【0007】
【発明が解決しようとする課題】これらの開発により多
くの人々が、インターネットを介して他者と電子的に通
信を行う手段を手に入れている。現在、通信の多くはテ
キスト(例えば、電子メール)とグラフィック(例え
ば、ウェブ文書)を含んでいる。その上、通信の態様は
受動的なものである。すなわち、情報は、それが作成さ
れてから長い時間(例えば、数時間、また数日)が経過
した後に受け手によって読まれたり表示されたりする、
ということがあり得る。
【0008】人間は他の人々と相互に作用し合うことを
楽しむものであるということが知られている。また、声
や、声に伴った表情による表現が強力なコミュニケーシ
ョンの道具であることも知られている。従って声や声に
伴った表情による表現のインタラクティブな通信を行う
ために、インターネットを用いることが望ましい。現
在、この態様の通信を効率的に実現する製品は存在しな
い。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明にかかる会議システムは、複数のユーザによ
るワイドエリアネットワーク上での音声および画像の通
信を実行するシステムであって、各ユーザはコンピュー
タと、前記コンピュータを前記ネットワークに接続し、
最大データ通信速度があるネットワークアクセス装置
と、マイクロフォンおよびラウドスピーカとに関係づけ
られ、前記マイクロフォンは音響信号に応答して音声信
号を生成し、前記システムは前記音声信号をデジタル音
声データに変換し、前記システムは、前記ネットワーク
に接続され、前記ユーザに関係づけられたユーザコンピ
ュータによって送られたデータストリームを管理するス
ピーチサーバと、前記ユーザコンピュータの各々の上で
動作するエンコーダプログラムとより構成され、前記エ
ンコーダプログラムは、前記エンコーダプログラムによ
って受信された前記音声データを圧縮データに圧縮する
圧縮器であって、複数の線形予測コーディング(LP
C)パラメータを生成する手段を含む圧縮器と、前記圧
縮データを、前記最大データ通信速度以下のデータレー
トを有するエンコードデータへとエンコードするビット
ストリームエンコーダとより構成され、前記エンコーダ
プログラムは、第1のデータレートを有する、第1のユ
ーザコンピュータの音声データからの第1のエンコード
データストリームを生成し、且つ、第2のデータレート
を有する、第2のユーザコンピュータの音声データから
の第2のエンコードデータストリームを生成し、前記ス
ピーチサーバは、データレートの和が前記最大データ通
信速度以上である前記第1および第2のエンコードデー
タストリームを結合して、前記最大データ通信速度以下
のデータレートを有する結合データストリームをなす手
段を含み、前記システムはさらに、第3のユーザコンピ
ュータ上で動作するデコーダプログラムより構成され、
前記デコーダプログラムは、前記結合データストリーム
を受信する手段と、前記第1および第2のユーザコンピ
ュータに結びつけられた前記マイクロフォンにより受信
された前記音響信号を、前記結合データストリームから
の情報を用いて再構築する手段とより構成される、こと
を特徴とする。
【0010】このようなシステムによれば、音声情報の
特徴を考慮に入れた効率的な音声情報の圧縮がなされ、
コード化されたデータストリームの結合も行われる。こ
のため、ネットワークアクセス装置の限られた通信速度
の範囲内で、ワイドエリアネットワーク上での音声及び
画像の通信が効率的に行われる。
【0011】前記デコーダプログラムはさらに、前記第
1および前記第3のユーザコンピュータの間の音響的距
離、および、前記第2および前記第3のユーザコンピュ
ータの間の音響的距離のシミュレーションを行う手段よ
り構成される、ものであってもよく、また、前記デコー
ダプログラムはさらに、前記第1および前記第3のユー
ザコンピュータの間の音響的角度、および、前記第2お
よび前記第3のユーザコンピュータの間の音響的角度の
シミュレーションを行う手段より構成される、ものであ
ってもよい。このようなシステムによれば、各ユーザに
は音響の授受のための仮想空間が提供され、インタラク
ティブな通信に好適な環境が生成される。
【0012】前記エンコーダプログラムはさらに、前記
音声信号を変更するボイスモーフィング手段より構成さ
れ、前記ボイスモーフィング手段は、前記第1および前
記第2のユーザコンピュータの少なくとも一方の前記音
声信号のピッチをシフトさせるシフト手段より構成され
る、ものであってもよく、この場合、例えば、前記シフ
ト手段は、前記ピッチを一定値にシフトする手段より構
成される、ものであってもよい。
【0013】また、前記エンコーダプログラムはさら
に、前記音声信号を変更するボイスモーフィング手段よ
り構成され、前記ボイスモーフィング手段は、前記第1
および前記第2のユーザコンピュータの少なくとも一つ
の前記音声信号の周期的成分を除去する手段より構成さ
れる、ものであってもよい。
【0014】また、前記エンコーダプログラムはさら
に、前記音声信号のサンプリング周波数を変更する手段
と、前記サンプリング周波数の変化の関数に従って、前
記音声信号の時間スケールを変更する手段とより構成さ
れるボイスモーフィング手段とより構成される、もので
あってもよい。
【0015】また、本発明の第2の観点にかかる会議シ
ステムは、前記エンコーダプログラムはさらに、前記L
PCパラメータを用いて前記音声信号の第1のフォルマ
ント周波数を決定する手段と、前記LPCパラメータを
用いて前記音声信号の第2のフォルマント周波数を決定
する手段とより構成され、且つ、前記ユーザコンピュー
タの各々はさらに、前記第1および第2のフォルマント
周波数を用いて上唇の位置および下唇の位置を表示する
表示手段より構成される、ことを特徴とする。
【0016】このようなシステムによれば、フォルマン
ト周波数がLPCパラメータから計算されることによ
り、唇の位置の情報を計算上効率的にコード化すること
が可能となる。また唇の位置が該情報に対応する画像を
表示装置により表示する等を行うことにより、インタラ
クティブな通信環境を提供することもできる。
【0017】前記ユーザコンピュータの各々はさらに、
前記音声信号のエネルギーを測定する手段より構成さ
れ、前記表示手段はさらに、前記唇の幅を前記第2のフ
ォルマント周波数に比例するようにして表示し、且つ、
前記下唇の高さを前記第1のフォルマント周波数および
前記エネルギーに関係付けて表示する、ものであっても
よい。
【0018】前記表示手段はさらに、唇の丸まりを、前
記第1および第2のフォルマント周波数の和に反比例す
るようにして表示する手段より構成される、ものであっ
てもよい。
【0019】前記表示手段はさらに、フィルタを用い
て、唇の幅、唇の高さおよび唇の丸まりをスムーシング
する手段より構成される、ものであってもよく、前記フ
ィルタは、例えば、有限インパルス応答ローパスフィル
タであってよい。
【0020】唇の情報は、例えば、前記下唇の位置すな
わちlowerLipHeightは、前記第1のフォルマント周波数
をf1とし、且つ前記エネルギーをEとして、前記第1
のフォルマント周波数が300Hz乃至800Hzの範
囲にあるときは、数6に示す関係、
【数6】lowerLipHeight = 1.5 - cos(π(f1 - 250) /
500) * (E / 80) により計算され、前記第1のフォルマント周波数が前記
範囲にないときは、数7に示す関係、
【数7】lowerLipHeight = E / 200 により計算される。
【0021】また、例えば、前記唇の幅すなわちlipWid
thは、前記第2のフォルマント周波数をf2、且つ前記
エネルギーをEとして、前記第2のフォルマント周波数
が700Hz乃至1000Hzの範囲にあるときは、数
8に示す関係、
【数8】lipWidth = 1 - [1 + cos(π * (f2 - 700) /
300)] * E / 133 に従って減少され、前記第2のフォルマント周波数が1
800Hz乃至2500Hzの範囲にあるときは、数9
に示す関係、
【数9】lipWidth = 1 + [1 + cos(π * (f2 - 1800)
/ 700)] * E / 200 に従って増加される。
【0022】また、前記唇の幅は、前記上唇の位置、前
記下唇の位置および前記丸まりとの間に相関関係を有す
るものとしてもよい。
【0023】また、本発明の第3の観点にかかる会議シ
ステムは、前記システムはさらに、前記ユーザコンピュ
ータのうちの1個の周囲環境における沈黙状態を判別す
る手段より構成され、前記沈黙状態は、前記音声データ
を圧縮するための入力として前記圧縮器により用いら
れ、前記沈黙状態を判別する手段は、実質的に囀り音信
号である第1のソース信号を生成し、前記第1のソース
信号を、第1のオーディオ信号として前記マイクロフォ
ンに再生させる手段と、前記ラウドスピーカにより受け
られた前記第1のオーディオ信号を基に、第1のデジタ
ル信号を生成する手段と、前記囀り音信号に整合する前
記第1のデジタル信号を処理するフィルタと、処理され
た前記第1のデジタル信号が最大値となる時点として、
バルク遅延を決定する手段と、実質的に白色雑音である
第2のソース信号を生成し、前記第2のソース信号を、
第2のオーディオ信号として前記マイクロフォンに再生
させる手段と、前記ラウドスピーカにより受けられた前
記第1のオーディオ信号を基に、第1のデジタル信号を
生成する手段と、前記第2のソース信号と前記第2のデ
ジタル信号の相互相関関数を決定する手段と、前記第2
のソース信号の自己相関関数を生成する手段と、前記相
互相関関数および前記自己相関関数の関数として有限イ
ンパルス応答を決定する手段と、前記有限インパルス応
答および前記バルク遅延を用いてエコー消去エネルギー
を決定する手段と、前記マイクロフォンによって受信さ
れた音響エネルギーを測定する手段と、バックグラウン
ドノイズのエネルギーを測定する手段と、より構成さ
れ、前記周囲環境は、前記マイクロフォンにより測定さ
れた前記音響エネルギーをEAとし、前記エコー消去エ
ネルギーをEEとし、前記バックグラウンドノイズのエ
ネルギーをEBとして、数10に示す式の値、
【数10】EA−EE−EB が予め定められた値以下のとき、前記沈黙状態にあるも
のと分類される、ことを特徴とする。
【0024】このようなシステムによれば、エコー経路
の音響的特徴を測定して、該音響的特徴を利用したエコ
ー消去がなされ、通信環境が向上する。さらに、エコー
のエネルギーから沈黙が検出され、その結果は音声情報
の送信省略等通信の効率化に利用されるので、ネットワ
ークアクセス装置の限られた通信速度の範囲内で、ワイ
ドエリアネットワーク上での音声及び画像の通信が効率
的に行われる。
【0025】前記システムはさらに、選択された一つの
前記ユーザコンピュータと前記ユーザコンピュータのセ
ットとの間の音響的距離および音響的角度を決定する手
段と、前記音響的距離および前記音響的角度を基に、前
記ユーザコンピュータのセットの中からサブセットを選
択する手段と、前記ユーザコンピュータのサブセットか
ら発せられたデータストリームのみが前記選択された一
つのユーザコンピュータによって受信されるようにする
手段とより構成される、ものであってもよい。
【0026】
【発明の実施の形態】この発明は、新規な音声会議シス
テムと、これに付随する方法とより構成される。以下の
記述は、当業者ならばこの発明を作成して使用すること
が可能なようになされている。具体的な応用についての
記述は単に例として挙げられているものである。好適実
施の形態に対する種々の変更が考えられることは当業者
には明らかであり、ここに定義されている一般的な原理
は、この発明の範囲から逸脱することなく、他の実施の
形態や応用に対して適用できる。従って、この発明は明
示された実施の形態に限定されるものではなく、ここに
開示された原理と特徴に整合する最も広い範囲に一致す
るものである。
【0027】 図1は、この発明の実施の形態にかかる多
点間音声会議システム100を示す図である。多点間音
声会議システム100は、ユーザステーション104〜
106等の複数のユーザステーションと、スピーチサー
バ110とより構成される。ユーザステーション104
〜106とスピーチサーバ110は、インターネット1
12等のデータネットワークに接続される。
【0028】 ユーザステーションの構成は互いに同じも
のである。従って、このステーションの1個(例とし
て、ユーザステーション104)のみを詳細に記す。ユ
ーザステーション104は、デスクトップコンピュータ
114と、表示装置116と、マイクロフォン118
と、2個のラウドスピーカ119および120と、モデ
ム122とより構成される。
【0029】 デスクトップコンピュータ114は、モデ
ム122を用いてインターネット112への接続を行う
ソフトウェア(図示せず)を含む。ユーザステーション
104にいる者は、マイクロフォン118に向かって話
すことができる。
【0030】 その後この音声は、デスクトップコンピュ
ータ114で実行される、この発明にかかるソフトウェ
ア126によって処理される。処理された音声は、イン
ターネット112を介し、サーバ110に送られる。
【0031】 ソフトウェア126はまた、サーバ110
から受け取った音声情報を処理して、その出力をラウド
スピーカ119および120に送ることができる。この
発明の実施の形態において、この2個のラウドスピーカ
はステレオ効果を生成している。ステレオ効果が不要の
場合は、1個ラウドスピーカを用いることが望ましい。
【0032】 この実施の形態では、すべての音声はユー
ザステーションによりスピーチサーバ110に送られ、
スピーチサーバ110はこの音声を目的サイトに発す
る。音声に加え、唇に同期した情報も送られ、ユーザス
テーションに(再びサーバ110を経由して)受信され
る。
【0033】 この発明のひとつの観点は、音声および唇
に同期した信号の送信に要する帯域を削減する方法であ
る。多点間音声会議システム100の性能に影響を及ぼ
す重要な要素の一つは、ユーザステーションとサーバの
間のデータ送信の速度である。
【0034】 現在、ダイヤルアップ回線におけるモデム
の送信速度は30キロビット毎秒(kbps)である。
ISDN(統合サービスデジタルネットワーク)回線で
あっても、128kbps程度である。一方、圧縮され
ていない音声の送信では、音声のみであっても現在の電
話回線によりサポートされ得る帯域より高い帯域を要す
る。その他の情報(制御データおよび唇に同期した情
報)も必要なときは、必要な帯域はさらにより高くな
る。従って、送信に要する帯域を削減する必要がある。
【0035】 ソフトウェア126は、エンコーダとデコ
ーダを備える。図2は本発明にかかるエンコーダ200
のブロック図である。本明細書では、エンコーダ200
の種々のブロックについて述べる。
【0036】 エンコーダ200は、1サンプル16ビッ
ト、8kHzでデジタル化された音声入力を受け付け
る。デジタル化された音声のDC成分はDC除去ブロッ
ク204で除去される。
【0037】 エンコーダ200はまた、サイレンスディ
テクタ206を備える。ある期間の沈黙が検出される
と、音声情報を送信する必要がなくなる。
【0038】 エンコーダ200は、大きなダイナミック
レンジを持つ音声がシステムによって適切に処理される
ようにするための自動ゲイン制御手段210を備える。
【0039】 エンコーダ200は、音声の特徴を変化さ
せることを可能にするボイスモーファ214を備える。
【0040】 音声データはその後、線形予測コーディン
グ(LPC)解析ブロック222へ入力され、複数のL
PCパラメータが生成される。
【0041】 このパラメータは2段からなるベクトル量
子化ブロック(ベクトル量子化器)224を通る。その
出力はスカラ量子化ブロック(スカラ量子化器)226
および唇情報抽出器(唇瞬時位置抽出器)250へ入力
される。
【0042】 スカラ量子化ブロック226の出力は、マ
ルチパルス励起パラメータゼネレータ(マルチパルスパ
ラメータ推計)228、ロボット音声/囁き音声励起ゼ
ネレータ230、ビットストリームエンコーダ232へ
入力される。ビットストリームエンコーダ232には、
ロボット音声/囁き音声励起ゼネレータ230の出力も
入力される。マルチパルス励起パラメータゼネレータ2
28の出力は、パルス位置コーダ236とパルス振幅コ
ーダ238に入力される。パルス位置コーダ236とパ
ルス振幅コーダ238の出力は、ビットストリームコー
ダ232に送られる。
【0043】 唇情報抽出器250の出力は、唇フィルタ
252に送られ、唇フィルタ252の出力は、唇情報コ
ーダ256につながっている。唇情報コーダ256の出
力は、ビットストリームエンコーダ232に送られる。
【0044】 以下さらに詳細を述べるように、音声入力
(1サンプル16ビット、8kHzでデジタル化)は、
ビットストリームエンコーダ232の出力が約1280
0ビット毎秒となるように圧縮することができる。この
データストリームは、インターネットを介してスピーチ
サーバ110に送られる。
【0045】 図3は、スピーチサーバ110から受信さ
れたビットストリームをデコードできるデコーダ300
のブロック図である。
【0046】 デコーダ300は、スピーチサーバ110
によって送られた情報を復元できるビットストリームデ
コーダ304を備える。
【0047】 この情報は、唇情報デコーダ306に送ら
れ、唇情報デコーダ306は、唇のグラフィックを生成
する唇同期プログラムのための唇位置情報を生成する。
【0048】 またビットストリームデコーダ304の出
力は、LPCパラメータデコーダ308、パルス振幅デ
コーダ310、パルス位置デコーダ312、囁き音声/
ロボット音声励起デコーダ314にも送られる。これら
のデコーダの出力は、デジタル音声信号を生成するLP
C合成器320に送られる。
【0049】 デジタル音声信号はアダプティブポストフ
ィルタ322に送られ、アダプティブポストフィルタ3
22はまたLPCパラメータデコーダ308からの情報
も受け付ける。
【0050】 アダプティブポストフィルタ322の出力
は、エコーフィルタ(距離及びエコーフィルタ)32
4、次いで帯域フィルタ326へ送られる。その出力は
復元済みのステレオ音声となり、ラウドスピーカ119
および120により音響に変換される。
【0051】 図4は、本発明における参加者のサイト3
50の略図である。参加者352はマイクロフォン35
4に向かって話し、マイクロフォン354は音声信号を
電気信号に変換する。
【0052】 典型的には、このサイトにはバックグラウ
ンドノイズ(例えば、ラジオからの)が含まれる。この
電気信号は、マルチメディアパーソナルコンピュータ3
60で、アダプティブエコーキャンセラ362からの信
号と結合される。その出力は、エコーがほぼ消去された
ものとなる。
【0053】 この信号は、アダプティブサイレンスディ
テクタおよびソフトウェア自動ゲイン制御(AGC)モ
ジュール364に送られる。このモジュールの出力は、
唇同期および音声コーダデコーダ(および音声変形器)
366に送られる。
【0054】 コーダデコーダ366は音声を変形させる
(例えば、ボイスモーフィング)能力を備える。コーダ
デコーダ366は、音声データを圧縮、コード化し、双
方向通信リンク368を介してデータをスピーチサーバ
110に送る。
【0055】 コーダデコーダ366はまた、スピーチサ
ーバ110から受信した音声データをデコードないし復
元するソフトウェアを備える。デコードないし復元の
後、データはウェーブミキサ370に送られる。ウェー
ブミキサ370はまた、環境音ゼネレータ372からの
データも受け付ける。
【0056】 ウェーブミキサ370で生成された信号
は、アダプティブエコーキャンセラ362と、ラウドス
ピーカ376、377に送られる。
【0057】 (ユーザステーションの音響的特徴の決
定)ユーザステーション104のデスクトップコンピュ
ータ114がオン状態のときは、ユーザステーション1
04の音響的特徴が決定されている必要がある。この決
定には、ユーザステーション104のバルク遅延と音響
の伝達関数が関係する。
【0058】 図5は、ユーザステーション104の音響
的特徴を測定する能力を有する装置構成のブロック図で
ある。図1と図5において、同じ構成要素には同じ参照
番号を付してある。この装置構成は、オーディオ送信ブ
ロック130と、オーディオ受信ブロック140とより
構成される。
【0059】 オーディオ送信ブロック130は、印加さ
れたアナログ電気信号の大きさに応答してオーディオ信
号を生成するラウドスピーカ119を含む。
【0060】 このアナログ信号は、バッファ134の内
容に従っている。バッファ134のビットは、あらかじ
め定まったレートでデジタル−アナログ変換器(図示せ
ず)にシフトされる。このように、ラウドスピーカ11
9によって生成されたオーディオ信号は、バッファ13
4のビットにより決定される。
【0061】 オーディオ送信ブロック130はまた信号
生成ブロック132を含み、これにより生成されたビッ
トはバッファ134にストアされ、ラウドスピーカ11
9から、振幅と時間との間に特定の関係があるオーディ
オ信号を発生させる。
【0062】 オーディオ受信ブロック140は、ラウド
スピーカ119によって生成されたオーディオ信号を受
信するマイクロフォン118を含む。
【0063】 受信されたオーディオ信号は、アナログ−
デジタル変換器(図示せず)によってデジタルに変換さ
れる。このデジタル情報は、あらかじめ定められたレー
トでレコードバッファ142にシフトされる。
【0064】 信号解析ブロック144は、レコードバッ
ファ142のデジタル情報を解析し、受信したオーディ
オ信号の振幅と時間との関係を生成する。
【0065】 本発明のひとつの観点は、ユーザステーシ
ョン104の音響的特徴を簡単に決定する方法にある。
この方法は、以下の段階よりなる。 (1)バッファ134とレコードバッファ142の間
の、ラウドスピーカ119を通したバルク遅延を測定す
る (2)ラウドスピーカ119とマイクロフォン118の
間の伝達関数を測定する (3)バッファ134とレコードバッファ142の間
の、ラウドスピーカ120を通したバルク遅延を測定す
る (4)ラウドスピーカ120とマイクロフォン118の
間の伝達関数を測定する
【0066】 仮想的世界でのセッション中、ユーザステ
ーション104の音響的特徴は経時変化しうる。従って
音響システムは、あらかじめ定められた時間毎に「再ト
レーニング」される必要がある。本発明の一つの観点
は、構成要素を変化させずに音響システムを再トレーニ
ングする方法にある。
【0067】 (バルク遅延の測定)バルク遅延の測定に
は、(i)信号生成ブロック132による囀り音の生
成、(ii)この囀り音に対応するビットのバッファ1
34への充填、(iii)ラウドスピーカ119による
囀り音の音響信号の送信、が含まれる。
【0068】 マイクロフォン118により受信された信
号は、信号解析ブロック144によって解析される。
【0069】 囀り音は、数11で定義される。(以下、
「*」は乗算を表す演算子である。)
【数11】 ここでNは囀り音の長さであり、nが前記範囲の外の値
のとき、c(n)は零である。
【0070】 マイクロフォンにより受信された信号は、
整合したフィルタにより処理される。このフィルタは、
デジタル有限インパルス応答(FIR)フィルタで、イ
ンパルス応答は、数12で表される。
【数12】 (ただし、Nは前記囀り音の長さであり、nが前記範囲
の外の値のときh(n)は零である。)
【0071】 整合フィルタの出力は、数13で表され
る。
【数13】 ここで、k(n)はレコードバッファ142に記録され
た信号である。
【0072】 整合フィルタの出力が最大の振幅になる時
点をTとすると、そのチャンネルのバルク遅延は(T−
N)と推計される。本例では、Nを512としている。
バルク遅延は、1000〜3000サンプルと予想され
る。同様の方法により、ラウドスピーカ120とマイク
ロフォン118の組のバルク遅延の値も得られる。
【0073】 (伝達関数の測定)伝達関数の測定には、
信号生成ブロック132による白色雑音の生成と、これ
に対応する音響のラウドスピーカ119による送信が含
まれる。その後、マイクロフォン118により受信され
た信号と送信された白色雑音を使って、エコーの経路
(ラウドスピーカ119からマイクロフォン118ま
で)のインパルス応答を以下のようにして決定する。
【0074】 白色雑音の連続をx(n)(ただし、n=
0,1,・・・,(L−1))、マイクロフォンにより
受信された信号をy(n)、エコーの経路のインパルス
応答をh(n)(ただし、n=0,1,・・・,(M−
1))、該経路のバルク遅延をBとすると、数14の関
係が成り立つ。
【数14】 ここでwnはシステムのバックグラウンドノイズであ
る。良好なエコー消去を得るには、M=380で十分で
ある。
【0075】 最小二乗法を用いると、該経路のインパル
ス応答は、数15の行列方程式を解くことにより推計さ
れる。
【数15】xxH = Rxy ここで、Rxxは、白色雑音の(M行M列の)自己相関行
列、Rxyは(M行1列の)相互相関ベクトル、H=[h
(0)h(1)...h(M−1)]Tはエコーフィル
タのインパルス応答ベクトルである。
【0076】xxは、数16のように計算される。
【数16】 xyは、数17のように計算される。
【数17】
【0077】同様の計算により、ラウドスピーカ120
とマイクロフォン118の組のエコーの経路の特性も得
られる。エコーの経路のフィルタ特性を正確に推定する
ためには、L=10*Mであることが望ましい。
【0078】 (クイックトレーニング)クイックトレー
ニングは、エコー消去が十分な効率で行われていないと
ユーザが感じたとき、または、システムが同様のことを
検知したときに行われる。クイックトレーニングは、ユ
ーザステーション104のバルク遅延とエコーチャンネ
ルゲインのいずれか又は両方を調整するため、スピーカ
の音量を連続的に変えることにより行われる。クイック
トレーニングでは、フルトレーニングが必要な場合その
旨を検知することもできる。
【0079】 クイックトレーニングは、(i)ラウドス
ピーカ119からの、数18で表される音響信号の送
信、(ii)該音響信号y(n)のマイクロフォン11
8による受信、を含む。
【数18】 n=0,1,...,(M−1)のとき x
(n)=G*h(M−1−n) その他のとき x(n)=0 Gの値は、数19の通りとする。
【数19】 記号Tは、信号(すなわちy(n))が極大となる時点
を示す。
【0080】 まず始めに、フルトレーニングが必要か否
かを判別する。エコーの経路の特性が以前の計算結果か
ら大きく離れていない場合、受信した信号(すなわちy
(n))の、ピーク付近(すなわちn=Tである辺り)
における波形は、数20を用いて得られるエコーの経路
の自己相関関数の波形と同じになる。
【数20】
【0081】従って、数21があるしきい値より大きい
場合、エコーの経路のインパルス応答が大きく変化して
いてフルトレーニングが必要であると判別される。
【数21】 gの値は、数22の方程式を解くことにより得られる。
【数22】
【0082】フルトレーニングが必要でない場合、バル
ク遅延の値とエコーフィルタのゲインの値は、数23
通り、新しい値に更新される。
【数23】 バルク遅延 (T−M) エコ−フィルタのゲイン hnew(n)=g*h(n)
(0≦n<(M−1))
【0083】 再トレーニングに使われる信号は、フルト
レーニングの際に使われる信号より短く、弱い。従っ
て、一般的にクイックトレーニングはユーザステーショ
ン104にいる人に感知されることがない。クイックト
レーニングは両方のエコーの経路について行われる。
【0084】 (アダプティブエコー消去)左のスピーカ
からマイクロフォンへのエコー経路のインパルス応答を
l(n)(ただし、0≦n<M)、右のスピーカから
マイクロフォンへのエコーの経路のインパルス応答をh
r(n)(ただし、0≦n<M)とする。また、それぞ
れのバルク遅延をBlおよびBrとする。このとき、左お
よび右のスピーカに供給される音声サンプルをそれぞれ
l(n)およびxr(n)とすると、エコー消去は、マ
イクロフォンにより記録された信号y(n)から、数2
の値を差し引くことにより行われる。
【数24】 この計算は、直接行うこともできるし、また高速フーリ
エ変換を用いて行ってもよい。
【0085】 (アダプティブサイレンスディテクショ
ン)変換装置(スピーカおよびマイクロフォン)には非
直線性があるため、完全なエコー消去を得ることは不可
能である。話し手が話していないとき、この残留エコー
は、聞き取る者には感じられる。従って、送話する側の
発話がないときのエコーを消去するために沈黙の検知が
行われ、沈黙している期間(すなわち、話し手が話して
いない時)音声パケットが送信されないようにする。
【0086】 この期間音声情報を送信しないことによ
り、システムが必要とする帯域はさに削減される。追
加された帯域は、他の情報(グラフィック、制御情報)
を送信するために使うことができる。
【0087】 一般的な環境では、測定不能なオーディオ
信号と沈黙とは同一のものではない。これは、常にバッ
クグラウンドノイズがあり、(時として)残留エコーが
あるからである。従って、一般的にマイクロフォン11
8は、音声がない場合であっても幾分かのオーディオ信
号を受信する。
【0088】 マイクロフォン118へのオーディオ入力
は、数25により与えられる。
【数25】n=Sn+En+Bn ここでAnはマイクロフォン118により受信された音
の振幅、Snは音声の寄与分、Enは残留エコーの寄与
分、Bnはバックグラウンドノイズの寄与分である。
【0089】 本発明では、人の発話には沈黙の期間が含
まれるという事実を利用している。この沈黙の期間にお
けるオーディオ信号は、バックグラウンドノイズとエコ
ーに相当するものである。
【0090】 本発明の一つの実施の形態では、マイクロ
フォン118は短期間の信号エネルギー(20ミリ秒の
信号のブロックを用いて20ミリ秒ごとに計算される)
を、1秒間に渡りモニタする。そして最も低いエネルギ
ーを持つセグメントが、沈黙の期間にある(すなわち、
n=En=0である)ものと推定される。
【0091】 一定の時間間隔において予想されるエコー
のエネルギーは、先に計算されたエコー信号を用いて容
易に計算される。一定の期間の残留エコーエネルギー
は、予想されるエコーのエネルギーの0.1倍と推定さ
れる。このときは、エコーキャンセルは控えめにみて1
0dBであるということになる。
【0092】n,En,Bnは互いに独立に生成される
ので、信号Anのエネルギーはこの3個の要素の信号の
エネルギーの和に等しいと推定し得る。言い換えれば、
音声のエネルギーをES、記録された音声のエネルギー
をEA、残留エコーのエネルギーをEE、バックグラウン
ドノイズのエネルギーをEBとしたとき、数26の関係
が成り立つ。
【数26】S=EA−EE−EB
【0093】 1個のセグメントに記録されたデータは、
Sがあるしきい値を下回るとき、沈黙であると分類さ
れる。そうでない場合、記録された音声は圧縮され、圧
縮された情報はサーバに送信される。
【0094】 (ソフトウェア自動ゲイン制御手段)PC
のマイクロフォンは、話し手の口とマイクロフォンの距
離に非常に敏感である。自動ゲイン制御(AGC)モジ
ュールは、この敏感さを軽減するために使われる。
【0095】 多くのマルチメディアPCは、ハードウェ
アによりこの問題を解決している。ハードウェアAGC
はデータに非直線性をもたらし、この非直線性はエコー
とその消去の挙動に影響を及ぼすので、ソフトウェアA
GCの必要性が出てくる。
【0096】 ソフトウェアAGCは、以下のように導入
されている。 1.初期状態では、currentGain = 1.0 2.60ミリ秒に1回、数27の関係を用いて実効値を
計算する。
【数27】 ここで、xnはエコーのない(すなわちエコーが消去さ
れた)、沈黙でない入力音声データである。 3.目標となるAGCゲインtargetGainを、数28の関
係を用いて計算する。
【数28】 4.n=0に値をセットした後、数29数30および
数31を順次実行する処理をN回行う。
【数29】
【数30】
【数31】
【0097】(ボイスブリッジングアプリケーションの
ための効率的な音声コーディング手順) 多点間音声会議(すなわち、ボイスブリッジング)シス
テムでは、各参加者は各自のマルチメディアコンピュー
タやワークステーションに接続されたマイクロフォンに
向かって話す。モデムによってサーバに効率的にデータ
転送を行うことを可能とするため、コンピュータはデー
タ圧縮を行う。
【0098】 サーバは、各参加者から音声パケットを収
集する。サーバは、参加者の位置と顔の方向についての
既知の情報を用いて、どの話し手の声(最大2人)が聞
き手に聞こえるようにするかを決定する。
【0099】 そのようにする場合、サーバは2人の話し
手からのビットストリームを1個のビットストリームに
結合し、該1個のビットストリームをモデムで送信し得
るようにできなければならない。クライアント側のマル
チメディアシステムは、2名の参加者の声を合成し、こ
れらを結合して、スピーカを通し環境音とともに再生さ
れる混合信号を生成するため、このビットストリームを
用いる。
【0100】 本例における音声コーディングの独自の特
徴は、デュアルレートコーダとして動作するよう設計さ
れているという点にある。音声コーダ出力の最も重要な
パラメータは6400ビット毎秒でコード化される。合
成された音声の品質を向上させるため、付加的情報を用
いる場合があるが、これはさらに6400ビット毎秒加
えてコード化される。
【0101】 この方法では、コーダは、12800ビッ
ト毎秒で動作する高品質の音声圧縮システム、または6
400ビットで動作する通信品質の音声圧縮システムと
して機能し得る。
【0102】 2人の話し手の声のデータを送信する必要
がある場合、サーバは各人の声に6400ビット毎秒
(すなわち、半分のレート)を割り当てる。しかし、ク
ライアントに対し1人の声のみを送信すればよい場合、
1人の声のデータに全帯域が割り当てられ、従ってより
品質の高い音声合成が可能となる。
【0103】 12800ビット毎秒のビットストリーム
が得られ、容易にその半分のレートのビットストリーム
(すなわち、6400ビット毎秒のビットストリーム)
に転換できるというこの能力は、クライアントからサー
バに向けて、音声データと共に制御情報やグラフィック
情報をより多く送信する必要がある場合にも容易に利用
できる。
【0104】 このアルゴリズムは、クライアントに送り
得る任意の数の声のストリームのうちサーバがどれを実
際に選択するかについて、クライアントがこれを決定す
ることを可能にする。クライアントは各話し手の位置を
知っているので、クライアントは、話し手と聞き手の距
離の他、そのシンボルの外見の向く方向、「音の経路」
の上にある障害物を考慮に入れた上で選択でき、さらに
異なった音声伝搬の媒体(水中、風の強い丘陵)さえも
考慮に入れることができる。
【0105】 優先順位決定処理は常に再評価され、この
再評価が十分速い場合、サーバとクライアントの間に
は、実在する以上に多くのストリームが共存している状
態が等価的に実現されているものとみることができる。
【0106】 このアルゴリズムは、各クライアントが互
いに独立してこのような決定をすることを可能としてい
るので、各クライアントは、個々が有する機器上の、ま
た帯域上の制限を考慮に入れた上で、ユーザに対し最高
の内容のオーディオを提供することができる。
【0107】 (LPC解析)本例で導入されている音声
圧縮システムは、マルチパルス励起信号を用いた音声の
線形予測コーディング(LPC)の原理に基づいてお
り、これは、B. S. Atal J. R. Remde "A new model fo
r LPC excitation for producing natural sounding sp
eech at low bit-rates" Proc. Int. Conf. On Acousti
cs Speech andSignal Processing, Paris, France, 198
2, pp.614-617 に示されている。
【0108】 音声信号Snは、数32のように、不均等
な間隔を持つ異なった振幅のパルスの列により励起され
た、経時的に変化する無限インパルス応答デジタルフィ
ルタの出力、というモデルで示される。
【数32】 ここで、ak(ただし、0<k≦M)はM次のLPCフ
ィルタ係数である。典型的には、フィルタの次数は10
程度である。pnはマルチパルスの列を表し、wnはラン
ダム雑音の列を表す。
【0109】 S. Shankar Narayan and J. P. Burg, "Sp
ectral Estimation of quasi-periodic data", IEEE Tr
ansactions on Acoustics Speech and Signal Processi
ng,march 1990, pp. 512-518. -554-II-557 に示されて
いるように、経時変化するフィルタ係数は、LPC解析
を用いて得られる。
【0110】 LPC解析に先立って、P(z)=(1−
0.875z-1)の特性を持つ1次フィルタを用いて音
声データにプリエンファシスが加えられる。
【0111】 係数の推計は、5ミリ秒ごとに行われる。
しかし、音声のコード化という目的では4個おきのパラ
メータの組だけが用いられる。さらに高いレートでの計
算は、後述するように唇に同期したパラメータの推計の
目的で行われる。
【0112】 典型的には、マルチパルス励起関数として
10〜32個のパルスが用いられる。合成された音声の
品質は、用いられたパルスの数に依存する(多い程良く
なる)。しかし、データが圧縮される量もまた、励起関
数を表すために用いられたパルスの数に依存する(少な
いほど良くなる)。
【0113】 モデムを介してこの情報を送信するため
に、2段からなるベクトル量子化器と、それに続いてい
て38ビットのLPCフィルタ表現を生成するスカラ量
子化器により、LPCパラメータが量子化される。この
手順を以下述べる。
【0114】 (ベクトルおよびスカラ量子化) 1.LPCフィルタ係数を、J. Markel and A. Gray, L
inear Prediction ofSpeech, Springer-Verlag, 1976
に示されている手法で反射係数に変換する。反射係数
は、LPCフィルタ係数の別の表現である。一方のパラ
メータの組から他方への変換は無損失であり、また逆変
換が可能である。LPCフィルタ係数の計算値に対応す
るM個の反射係数をki(ただし、0<i≦M)とす
る。
【0115】 2.最初の4個の反射係数を、J.Markel a
nd A.Gray,Linear Prediction of Speech,Springer-Ver
lag,1976 に示されている手法でログエリア関数(la
r)に変換する。ln[.]を自然対数として、数33
の関係を用いる。
【数33】
【0116】3.10個のパラメータlar1,・・
・,lar4,k5,・・・,k10を、64−コードブッ
クベクトル量子化器を用いて量子化する。コードブック
の生成およびベクトル量子化器への導入の手順は、Y.Li
nde,A.Buzo and R.M.Gray,"AnAlgorithm for Vector Qu
antizer Design",IEEE Trans.On Communications,Jan19
80,pp.84-95 および R.M.Gray,"Vector Quantization,"
IEEE ASSP Magazine,April 1984,pp.4-29 に示されて
いる。ベクトル量子化器は、数34のXベクトルを受け
付け、64個のコードの候補が入ったコードブックを検
索して、出力の数列として実効値が最も入力ベクトルに
適合するものを探し出し、6ビットからなるコードワー
ドのインデックスi1optを出力する。
【数34】 デコーダは自らが持つコードブックから対応するコード
を検索し、与えられた入力ベクトルを6ビットに近似し
たものとして、数35に示す数列qX1を得ることがで
きる。
【数35】
【0117】4.差分ベクトルdX1=X−qX1を生成
し、64−コードブックベクトル量子化器で再度量子化
し、コードワードのインデックスi2optおよび数36
に示す数列qX2を得る。
【数36】
【0118】5.次に差分ベクトルdX2=dX1−qX
2を生成する。ここで、このベクトルの各要素を個々に
量子化する(すなわち、スカラ量子化器を用いる)。各
要素を量子化するビット数は、[4,3,3,3,3,
2,2,2,2,2]である。この26ビットの情報、
および2個の6ビットVQコードi1optとi2optが共
になってLPCフィルタの38ビット表現が生成され、
この情報は、情報パケットの一部をなし、コード化音声
情報として送信される。ベクトルdX2の量子化された
各値を数37に示す値qX3とすると、デコードされた
ベクトルXの値は数38の通りとなる。
【数37】
【数38】X=qX1+qX2
【0119】 6.このXベクトルに対し必要な変換(す
なわち、ログエリアから反射係数への変換、および反射
係数からLPCフィルタ係数への変換)を行うことによ
り量子化されたLPCフィルタ係数が得られる。結果と
して得られるフィルタ係数を、ak(0<k≦M)で示
す。
【0120】 (マルチパルス励起パラメータの生成)合
成のアプローチによる分析を用い、マルチパルス励起パ
ラメータ(すなわちパルスの位置および振幅)を以下の
ようにして得ることができる。Snは20ミリ秒のフレ
ーム中の音声データを表し、an(0<n≦M)はこの
音声のフレームについて得られたLPCフィルタ係数と
する。
【0121】 残留信号rnは、数39の関係により計算
される。
【数39】
【0122】知覚的重み付けフィルタのインパルス応答
は、数40〜数42の関係により計算される。
【数40】
【数41】
【数42】 ここでλ=0.85であり、またLは40としている。
【0123】 次に数43に示す数列および数44〜数4
に示す数列の2個の数列が生成される。
【数43】
【数44】
【数45】
【数46】 言い換えれば、数列pnは数列hnについてそれ自身との
畳み込みによって得られ、数列qnは、残留信号の数列
nとpnとの畳み込みによって得られる。
【0124】 励起パルスの位置は、q'n=qnとして、
q'nが極大となるようなnの位置に選ぶ。この位置をl
iとすると、パルスの高さhiは、数47の関係から得ら
れる。
【数47】
【0125】各パルスの情報(すなわち位置と高さ)が
得られた後、数列q'nは、数48の関係を用いて変更さ
れる。
【数48】
【0126】この手順は、必要な数の励起パルスが決定
されるまで順次続けられる。このようにして得られたパ
ルス位置の情報を用いて、数49に示す行列方程式を解
くことにより、最適な高さの情報が得られる。
【数49】xxh=Sxy ここでSxxは、その(i,j)番目の要素がL−1+|
i−lj|に等しい(M行M列の)行列であり、S
xyは、そのi番目の要素がqliに等しい(M行1列の)
ベクトルであり、またhは励起パルスの高さを表す(M
行1列の)ベクトルである。
【0127】本システムの実施の形態では、20ミリ秒
ごとの音声データにつきまず12個の励起パルスが順次
決定され、次いでパルスの高さが最適化される。ビット
レートが6400ビット毎秒の音声コード化システムの
送信パラメータとしては、38ビットのLPC係数の情
報と12個の励起パルスに関する情報(すなわち高さと
振幅)を用いることができる。
【0128】数列qnからはこれら12個のパルスの寄
与分が差し引かれ、同様の手法で追加の14個の励起パ
ルスが得られる。結局、26個のマルチパルス励起パル
スが2段階に決定される。
【0129】 ビットレートが11600ビット毎秒の音
声コード化システムの送信パラメータとしては、38ビ
ットのLPC係数情報と26個の励起パルスに関する情
報(すなわち高さと振幅)を用いることができる。
【0130】 ボイスブリッジングアプリケーションで
は、サーバが6400ビット毎秒のビットストリームデ
ータを生成したいとき、クライアントシステム(すなわ
ちマルチメディアコンピュータステーション)がこの1
1600ビット毎秒のストリームを送るのに加えて、2
6個のパルスのうちどの12個が選択されるべきかにつ
いての付加的な情報(1200ビット毎秒のストリーム
である)も送られる。
【0131】 従って、音声情報をサーバに送るために要
する帯域は12800ビット毎秒であり、一方サーバは
クライアントに対し、11600ビット毎秒(話し手1
人の場合)または12800(2×6400)ビット毎
秒(話し手2人の場合)で、圧縮された音声データを送
る。以下からは、励起パルスの情報のコード化を説明す
る。
【0132】 (パルス位置コーダ)低いビットレートで
の音声のコード化を実現するためには、20ミリ秒の音
声の各セグメントについて計算された26個の励起パル
スの位置は、効率的にコード化される必要がある。20
ミリ秒の音声は160サンプルの音声に相当する。各パ
ルスは160箇所のいずれかに位置し得るが、どの2個
のパルスも同一の位置にいることはできない。
【0133】 102ビットを用いてこの情報をコード化
するために、 M. Berouti, et. al."Efficient Computa
tional and Encoding of the multi-pulse excitation
forLPC," proc. Int. Conf. On Acoustics Speech and
Signal Processing, San Diego, CA, 1984, pp. 10.1.1
-10.1.4. に示されている組み合わせコーディング手順
が用いられている。エンコーダは、サーバがハーフレー
トのビットストリームを生成するため26個のパルスか
ら12個を選択するのに必要な情報(2612すなわち2
4ビット)をコード化するために、組み合わせコーディ
ング手順を用いている。
【0134】 ハーフレートのコーダの場合において12
個のパルスの位置をコード化するときにも、同様の手順
が用いられる。従って、20ミリ秒ごとのパルス位置情
報をコード化するには、全体で114ビットが必要であ
る。
【0135】 (パルス振幅コーダ)低いビットレートで
の音声のコード化を実現するためには、20ミリ秒の音
声の各セグメントについて計算された26個の励起パル
スの振幅は、効率的にコード化される必要がある。パル
スの振幅は、これをパルス振幅の実効値(rms)で規
格化することにより効率的にコード化される。
【0136】 規格化を行った後、パルス振幅は、T. Ma
x, "Quantizing for minimum distortion, "IRE Trans.
On Information Theory, Vol. 16, 1970, pp. 7-12.
に示されている8段階のガウシアン量子化器で量子化さ
れる。
【0137】 量子化雑音を最小化するために最適化され
たパルス振幅実効値は、6ビットの送信パラメータとし
てコード化される。従って、20ミリ秒ごとのパルス振
幅情報をコード化するには、全体で84ビットが必要で
ある。
【0138】 (効率的な唇の同期方法)人間の唇の位置
は、フォルマント周波数として知られる、短時間の音声
スペクトルの周波数の低い方から二つのピークと、音声
信号の短期間のエネルギーによりかなりの程度決定でき
る、ということが知られている。
【0139】 具体的には、周波数の低い方から2個のフ
ォルマント周波数の間隔は、唇の幅に比例する。下唇の
高さは、周波数が低い方のフォルマント周波数に比例す
る傾向がある。最後に上唇の高さと唇の丸まり現象(す
なわち、唇が閉じた位置から離れる両唇)は、周波数の
低い方から2個のフォルマント周波数の和に反比例す
る。言い換えれば、第1と第2のフォルマント周波数は
共に、唇が丸くなるにつれ低くなっていなければならな
いことになる。
【0140】 これらの推計は話し手の実際の唇の位置と
は同じでない場合があるが、顔のアニメーションにこれ
らを用いた場合、極めて真に迫った効果をもたらすと考
えられる。唇の位置を計算する方法は、以下の段階より
構成される。
【0141】 (唇の情報の抽出) 1.音声のエンコードの目的で推計されたLPCパラメ
ータ(前述)は、音声データ中の短時間のスペクトル情
報を得るために用いることができる。しかし、LPCフ
ィルタ情報についての既知の情報からフォルマント周波
数を推計する上では、計算上の要求が厳しいものと考え
られる。本発明の実施の形態では、64−コードワード
VQコードブックにある各候補に対応するフォルマント
周波数がリアルタイムでなく前もって計算され、保存さ
れる。そのため、LPCパラメータにつき1段目のベク
トル量子化が行われるとき、フォルマント周波数の推計
も同時に得られる。所与の音声のセグメントの周波数の
低い方から2個のフォルマント周波数として、シンボル
1とf2を用いる。また、そのフレームの信号のエネル
ギーのデシベル値(dB)として、シンボルEを用い
る。2個のフォルマント周波数と信号のエネルギーを既
定とし、唇の幅の中間値を1として、以下の発見法を用
いて唇の位置の予備的な推計を行う。
【0142】 2.信号エネルギー情報のフィルタリン
グ: 1フレームの音声について計算された信号エネル
ギーEにはバックグラウンドノイズのエネルギーも含ま
れている。このバックグラウンドノイズのレベルの効果
は、この情報を唇の位置の計算に用いる前に除去される
べきである。計算された信号エネルギーを変更するた
め、以下のアルゴリズムが用いられる。まず、初期状態
数50のように値がセットされる。
【数50】 5ミリ秒ごとに、数51の関係を用いてこれが更新され
る。
【数51】 信号エネルギーEは、数52のように更新される。
【数52】 0より小さい場合はEの値が0にセットされ、40より
大きい場合は40dBにセットされる。
【0143】 3.下唇の高さの計算: f1が範囲内
(300〜800Hz)にある場合、数53の関係を用
いて下唇の高さが計算される。
【数53】 そうでない場合、下唇の高さは、数54の関係を用いて
計算される。
【数54】
【0144】4.唇の幅の計算: 以下の方法では、f
2が1000〜1800Hzの領域にある場合唇の幅を
変えない。f2が700〜1000Hzの範囲にある場
合、数55の関係を用いて唇の幅は減少される。
【数55】 2が1800〜2500Hzの範囲にある場合、数5
の関係を用いて唇の幅は増加される。
【数56】
【0145】5.唇の丸まり: f1+f2<1600
且つ 250<f1<800 且つ700<f2<250
0のとき、数57の関係が成り立つことが明らかとなっ
ている。
【数57】 また下唇の高さは、数58の関係を用いて変更される。
【数58】 唇の丸まりが生じない場合、上唇の高さは信号エネルギ
ーに緩やかに依存し、その値は、数59の通り計算され
る。
【数59】
【0146】(唇のフィルタリング)本実施の形態で
は、唇位置のスムーシングフィルタを用いている。唇の
瞬時位置は5ミリ秒ごとに(すなわち1秒間に200
回)得られるが、これには雑音が入る傾向がある。その
上、多くのビジュアルディスプレイはずっと低いレート
(典型的には、毎秒6〜30回)でリフレッシュされ
る。
【0147】 必要なレートで雑音のないパラメータの推
計値を得るため、唇のパラメータに対し、カットオフ周
波数が6.25Hzの、31点の有限インパルス応答
(FIR)ローパスフィルタが用いられる。ここでの応
用では、スムーシングされた唇のパラメータが、毎秒1
6.67回計算される。
【0148】 (唇の情報のエンコード)唇位置の変数は
強い相関を持っている。例えば、口の幅が広がれば、唇
の高さの値は小さくなると考えられる。一方で、口が丸
くなれば、唇の幅は小さくなり、唇の高さの値は大きく
なる。この情報は、唇の位置を非常に少ないビット数に
コード化する際に利用される。本発明では、唇のすべて
の変数をコード化するため、60ミリ秒ごとに8ビット
を用いている。
【0149】 下唇の高さの情報は、16段階の量子化器
を用いてコード化され、そのとり得る値は、表1の通り
である。
【表1】
【0150】上唇の高さの情報と唇の幅は強く相関して
いるので、これらは16段階の量子化器を用いて共に量
子化され、そのとり得る値は表2の通りである。
【表2】 このようにして唇の位置は8ビットのみにコード化され
る。
【0151】 (ロボット音声/囁き音声励起ゼネレー
タ)前述のように、音声信号は、ランダム雑音の連続ま
たはインパルス列により励起された、経時変化するデジ
タルフィルタ(すなわちLPCフィルタ)の出力にモデ
ル化され得る。
【0152】 典型的には、発せられている音が摩擦
音("s","SH","f"のような音)のとき、フィルタ
はランダム雑音により励起される。一方で、母音が発せ
られているとき、フィルタは、周期が話し手のピッチに
対応するような準周期的信号により励起される。
【0153】 ボイスモーフィングを実行するためには、
フィルタ励起信号を変更してもよい。本発明におけるモ
ーフィングには、特定の形の音声の歪化ないし変更を行
うための励起関数のパラメータの変更が関わっている。
【0154】 囁きの音声は、有声の弦振動がないとき、
LPC合成器の場合でいえば周期的パルス励起に変換さ
れないとき(すなわち、LPCフィルタがランダム雑音
のみにより励起されているとき)、に生成される。囁き
音を生成したいとき、励起信号はランダム雑音に換えら
れる。ランダム雑音のエネルギーは、実際の音声のエネ
ルギーに比例して調整される。
【0155】 ロボット音声は、人間である話し手のピッ
チが単調であるとき(すなわち、発話の間ピッチの変化
がほとんどない)ときに生成される。LPC合成の場面
でいえば、周期的パルスによる励起に変換され、その周
期がほとんど変化しないときである。これらのインパル
スのエネルギーは、合成された音声のエネルギーが元の
音声のそれと等しくなるように調整する。ロボット音声
の周期性は、ユーザ毎に特定される。ロボット音声の場
合に合成された音声のバズ音を軽減するには、周期性の
情報に低い周波数のジッタが加えられる。
【0156】 (ボイスモーファ)本システムに導入され
ているもう一つの型のボイスモーフィングは、話し手の
ピッチを変更するものである。この方法では、男性の声
をより女性の声のようにすることができ、またその逆も
できる。
【0157】 ボイスモーフィングは2段階で行われる。
ピッチ周波数は因数rにより増加されるとして、まず、
そのピッチ変化の因数rにより、音声補間/間引きの技
術を用いて、音声データのサンプリング周波数が減少さ
れる。これにより音声サンプルの長さも変わる(すなわ
ち、因数rにより音声の長さが減少する)。
【0158】 ピッチが変わった音声の長さを元の音声の
長さと同じに保つために、Werner Verhelst, and Marc
Roelands, "An overlap-add technique based on wavef
ormsimilarity (WSOLA) for high quality timescale m
odification speech" Proc.Int. Conf. On Acoustics S
peech and Signal Processing, Mineapolis, 1993,pp.
II-554-II-557. により示された技術を用いて、音声の
時間スケールの変更が行なわれる。
【0159】 この型のボイスモーフィングは、エンコー
ダでの音声の解析が行われる前の音声データについて行
われる。
【0160】 (ビットストリームエンコーダ)ビットス
トリームエンコーダは、解析器で生成された多様なエン
コード情報を入力として受け付け、これらを96バイト
のパケットにパックし、60ミリ秒ごとにサーバに送
る。しかし、音声解析は20ミリ秒ごとに行われる点に
注意すべきである。従って、ビットストリームエンコー
ダは、1個のボイスパケットを作るために3組の解析デ
ータを用いる。
【0161】 20ミリ秒ごとに計算されて各ボイスパケ
ットに含まれることになるのは、以下のパラメータの組
である。 1.VQコードワードi1opt(6ビット) 2.VQコードワードi2opt(6ビット) 3.残留lpcフィルタ係数10個(26ビット) 4.rmsパルス振幅コード(6ビット) 5.26個のパルス振幅コード(78ビット) 6.パルス位置コード(114ビット) 7.唇位置情報(60ミリ秒ごとに8ビット) 8.音声タイプコード(囁きか、通常か、ロボットかの
区別)
【0162】 (デコーダの動作)ビットストリームデコ
ーダは、サーバからのボイスパケットの組を入力として
受け付けて多様なパラメータにデコードし、パラメータ
は、合成音声を得る目的で、デコーダに用いられたり、
LPC合成機能を動作させたりする。
【0163】 合成器は、数60に示す差分関数を用いて
導入される。
【数60】 ここでakはデコードされたM次のLPCフィルタ係
数、Snは合成された音声サンプル、Pnはデコードされ
た励起パルスである。
【0164】 (アダプティブポストフィルタ、距離およ
びエコーフィルタ、帯域フィルタ)アダプティブポスト
フィルタリングは、J. H. Chen and A. Gersho, "Real-
Time Vector APC Speech Coding at 4800 bps with ada
ptive post-filtering, "Proc. Int. Conf. On Acousti
cs Speech and Signal Processing, Dallas, 1987, pp.
2185-2188. に示されている。フィルタリングは、合成
された音声に対し、さらに音声の品質を向上させるため
に施される。このシステムは、仮想空間の設定をシミュ
レートするための特殊音声効果を創り出すことができ
る。この目的のため、エコー又は反響のフィルタリング
を施すことができる。
【0165】 エコーフィルタは、数61に示すシステム
関数を持つ1次の無限インパルスフィルタである。
【数61】 ここで、Dは、必要な特殊効果を創り出すのに要する反
響による遅延、Gは、必要な特殊効果を創り出すのに要
する反響係数(絶対値は1未満)である。
【0166】 帯域フィルタリングはエコーフィルタの出
力に施され、DCおよび低周波オフセット雑音を除去
し、ディエンファシスフィルタリングの効果を及ぼす。
フィルタの伝達関数は、数62の通りである。
【数62】
【0167】話し手と聞き手の仮想の世界での空間的位
置についての既知の情報を用いて、モノラル音声サンプ
ルをステレオ音声サンプルに変換するため、以下のアル
ゴリズムを用いる距離フィルタが導入される。1.聞き
手および話し手の仮想空間での角度をΘlおよびΘ
し、両者間の距離をd(メートル)とする。2.距離ゲ
インGdは、数63の通り求められる。
【数63】 3.左および右の距離フィルタ係数は、数64〜数67
の通り計算される。
【数64】
【数65】
【数66】
【数67】 4.最後に、左および右のチャンネルの音声サンプル
は、数68および数69に示すフィルタリング操作によ
り計算される。
【数68】
【数69】 ここでxnは音声合成器の出力(モノラル音響)、ln
よびrnは結果として得られる左および右のチャンネル
の音の連続である。
【0168】 (環境音生成)仮想の社会生活上の環境で
は、特殊効果を創り出すためバックグラウンド音響が生
成される。例としては、参加者が会議のグループから離
脱/グループに参加するときに、グループの残りの者に
は扉が開く/閉じる音が聞こえる、といったものであ
る。また仮想空間でのバックグラウンドミュージックで
もよい。このような音響はこのモジュールで生成され
る。
【0169】 (ウェーブミキサ)スピーカから出力され
る音響は、以下のいずれかである。 1.1人の音声のみ 2.1人の音声とバックグラウンド音(音楽または仮想
空間をシミュレートするための環境音) 3.2人の音声のみ 4.2人の音声とバックグラウンド音(音楽または仮想
空間をシミュレートするための環境音) ウェーブミキサは、異なる音響データストリームを入力
として取り込み、ユーザが指定するゲインにして、これ
らを足し合わせ、最後に音声を高品質なものとするた
め、データに対しソフトクリッピングを行う。
【0170】 以上でこの発明をすべて説明したが、これ
に対し、ここに開示された発明の範囲から逸脱すること
なく変化・変更を加えることができることは、当業者に
は明らかである。従って、本発明は専ら付属の請求項の
範囲にのみ限定されるものである。
【0171】
【発明の効果】以上説明したように、この発明は、遠隔
地にいる複数の参加者間における、音声およびその関連
情報の通信のためのインタラクティブなネットワークシ
ステムに用いることができる。
【図面の簡単な説明】
【図1】この発明の実施の形態にかかる多点間音声会議
システムを示す図である。
【図2】この発明の実施の形態にかかる多点間音声会議
システムのエンコーダを示すブロック図である。
【図3】この発明の実施の形態にかかる多点間音声会議
システムのデコーダを示すブロック図である。
【図4】参加者のサイトのブロック図である。
【図5】この発明の実施の形態における音響的特徴測定
の装置構成のブロック図である。
【符号の説明】 100 多点間音声会議システム 104 ユーザステーション 110 スピーチサーバ 112 インターネット 114 デスクトップコンピュータ 116 表示装置 118 マイクロフォン 119、120 ラウドスピーカ 122 モデム 126 ソフトウェア 130 オーディオ送信ブロック 132 信号生成ブロック 134 バッファ 140 オーディオ受信ブロック 142 レコードバッファ 144 信号解析ブロック 200 エンコーダ 204 DC除去ブロック 206 サイレンスディテクタ 210 自動ゲイン制御手段 214 ボイスモーファ 222 LPC解析ブロック 224 ベクトル量子化ブロック(ベクトル量子化器) 226 スカラ量子化ブロック(スカラ量子化器) 228 マルチパルス励起パラメータゼネレータ(マル
チパルスパラメータ推計) 230 ロボット音声/囁き音声励起ゼネレータ 232 ビットストリームエンコーダ 236 パルス位置コーダ 238 パルス振幅コーダ 250 唇情報抽出器(唇瞬時位置抽出器) 252 唇フィルタ 256 唇情報コーダ 300 デコーダ 304 ビットストリームデコーダ 306 唇情報デコーダ 308 LPCパラメータデコーダ 310 パルス振幅デコーダ 312 パルス位置デコーダ 314 囁き音声/ロボット音声励起デコーダ 320 LPC合成器 322 アダプティブポストフィルタ 324 エコーフィルタ(距離およびエコーフィルタ) 326 帯域フィルタ 350 参加者のサイト 354 マイクロフォン 360 マルチメディアパーソナルコンピュータ 362 アダプティブエコーキャンセラ 364 サイレンスディテクタ及びソフトウェア自動ゲ
イン制御モジュール(AGC) 366 唇同期音声コーダデコーダおよび音声変形器 368 双方向通信リンク 370 ウェーブミキサ 372 環境音ゼネレータ 376 左ラウドスピーカ 377 右ラウドスピーカ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H03M 7/30 9382−5K H03M 7/30 H04B 3/23 H04B 3/23 H04L 12/18 H04M 3/56 C H04M 3/56 9/00 K 9/00 H04N 7/15 H04N 7/15 H04R 3/02 H04R 3/02 9466−5K H04L 11/18

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】マイクロフォンおよびラウドスピーカを備
    える空間の音響的特徴決定方法であって、前記マイクロ
    フォンはアナログ−デジタル変換器を介してコンピュー
    タに接続され、前記ラウドスピーカはデジタル−アナロ
    グ変換器を介して前記コンピュータに接続され、前記音
    響的特徴決定方法は、 前記コンピュータにより、ほぼ囀り音信号と見なし得る
    第1のソース信号を生成する工程と、 前記デジタル−アナログ変換器および前記マイクロフォ
    ンにより、前記第1のソース信号を第1のオーディオ信
    号に変換する工程と、 前記第1のオーディオ信号を前記ラウドスピーカにより
    受ける工程と、 第1のデジタル信号を生成するため、受信された前記第
    1のオーディオ信号を、前記アナログ−デジタル変換器
    により変換する工程と、 前記囀り音信号に整合したフィルタにより、前記第1の
    デジタル信号を処理する工程と、 バルク遅延を、前記処理工程により処理された前記信号
    が最大値を持つ時点として決定する工程とより構成され
    る、 ことを特徴とする音響的特徴決定方法。
  2. 【請求項2】前記音響的特徴決定方法は、さらに、 前記コンピュータにより、ほぼ白色雑音と見なし得る第
    2のソース信号を生成する工程と、 前記デジタル−アナログ変換器および前記マイクロフォ
    ンにより、前記第2のソース信号を第2のオーディオ信
    号に変換する工程と、 前記第2のオーディオ信号を前記ラウドスピーカにより
    受ける工程と、 第2のデジタル信号を生成するため、受信された前記第
    2のオーディオ信号を、前記アナログ−デジタル変換器
    により変換する工程と、 前記第2のソース信号および前記第2のデジタル信号の
    相互相関関数を決定する工程と、 前記相互相関関数および前記第2のソース信号の自己相
    関関数の関数として、有限インパルス応答を決定する工
    程とより構成される、 ことを特徴とする請求項1に記載の音響的特徴決定方
    法。
  3. 【請求項3】前記音響的特徴決定方法は、さらに、 h(k)を有限インパルス応答とし、Bを前記バルク遅
    延として、 【数1】 によりエコー消去信号を決定する工程とより構成され
    る、 ことを特徴とする請求項1に記載の音響的特徴決定方
    法。
JP8331313A 1995-12-12 1996-12-11 会議システム Withdrawn JPH09204200A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US57105895A 1995-12-12 1995-12-12
US08/571058 1995-12-12

Publications (1)

Publication Number Publication Date
JPH09204200A true JPH09204200A (ja) 1997-08-05

Family

ID=24282163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8331313A Withdrawn JPH09204200A (ja) 1995-12-12 1996-12-11 会議システム

Country Status (2)

Country Link
EP (1) EP0779732A3 (ja)
JP (1) JPH09204200A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116683A (ja) * 2002-03-27 2007-05-10 Marconi Intellectual Property (Ringfence) Inc 電気通信システム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044725A1 (en) * 1996-11-19 2001-11-22 Koichi Matsuda Information processing apparatus, an information processing method, and a medium for use in a three-dimensional virtual reality space sharing system
SE514330C2 (sv) * 1997-06-23 2001-02-12 Ericsson Telefon Ab L M Förfarande och anordning i ett datanät
SE520979C3 (sv) * 1998-04-01 2003-10-22 Telia Ab Förbättringar vid eller avseende datakonferenser
JP2000050182A (ja) * 1998-08-03 2000-02-18 Japan Advanced Inst Of Science & Technology Hokuriku A−v用オーディオ信号処理方法
US6512823B2 (en) 1998-10-16 2003-01-28 Lucent Technologies Inc. Multiline telephone including interacting call appearances
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
US6668273B1 (en) 1999-11-18 2003-12-23 Raindance Communications, Inc. System and method for application viewing through collaborative web browsing session
US7349944B2 (en) 1999-11-18 2008-03-25 Intercall, Inc. System and method for record and playback of collaborative communications session
US6535909B1 (en) 1999-11-18 2003-03-18 Contigo Software, Inc. System and method for record and playback of collaborative Web browsing session
US7328239B1 (en) 2000-03-01 2008-02-05 Intercall, Inc. Method and apparatus for automatically data streaming a multiparty conference session
US7016315B2 (en) * 2001-03-26 2006-03-21 Motorola, Inc. Token passing arrangement for a conference call bridge arrangement
US7701882B2 (en) 2003-02-10 2010-04-20 Intercall, Inc. Systems and methods for collaborative communication
EP1593045A4 (en) 2003-02-10 2007-08-08 Raindance Comm Inc METHOD AND APPARATUS TO ENSURE EQUAL CONTROL IN A MULTIMEDIA COLLABORATION SESSION
US7529798B2 (en) 2003-03-18 2009-05-05 Intercall, Inc. System and method for record and playback of collaborative web browsing session
US10152190B2 (en) 2003-12-15 2018-12-11 Open Invention Network, Llc Systems and methods for improved application sharing in a multimedia collaboration session
CN114360491B (zh) * 2021-12-29 2024-02-09 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03252258A (ja) * 1990-03-01 1991-11-11 Toshiba Corp 指向性再生装置
US5317567A (en) * 1991-09-12 1994-05-31 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
US5390177A (en) * 1993-03-24 1995-02-14 At&T Corp. Conferencing arrangement for compressed information signals
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
US5473363A (en) * 1994-07-26 1995-12-05 Motorola, Inc. System, method and multipoint control unit for multipoint multimedia conferencing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116683A (ja) * 2002-03-27 2007-05-10 Marconi Intellectual Property (Ringfence) Inc 電気通信システム
JP4566177B2 (ja) * 2002-03-27 2010-10-20 エリクソン アーベー 電気通信システム

Also Published As

Publication number Publication date
EP0779732A3 (en) 2000-05-10
EP0779732A2 (en) 1997-06-18

Similar Documents

Publication Publication Date Title
JPH09204200A (ja) 会議システム
US5317567A (en) Multi-speaker conferencing over narrowband channels
US7286562B1 (en) System and method for dynamically changing error algorithm redundancy levels
KR101443568B1 (ko) 오디오 디코더
TW416044B (en) Adaptive filter and filtering method for low bit rate coding
US8958567B2 (en) Method and system for split client-server reverberation processing
EP3992964B1 (en) Voice signal processing method and apparatus, and electronic device and storage medium
US5623575A (en) Excitation synchronous time encoding vocoder and method
US5457685A (en) Multi-speaker conferencing over narrowband channels
JPH09204199A (ja) 非活性音声の効率的符号化のための方法および装置
JPH08278799A (ja) 雑音荷重フィルタリング方法
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
EP1076895B1 (en) A system and method to improve the quality of coded speech coexisting with background noise
JPH11504733A (ja) 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
Härmä et al. Warped low-delay CELP for wideband audio coding
JPH08278800A (ja) 音声通信システム
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
JPH05158495A (ja) 音声符号化伝送装置
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
KR940008741B1 (ko) 음성부호/복호화 방법
Gray Packet speech on the Arpanet: A history of early LPC speech and its accidental impact on the Internet Protocol

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040302